<code id="6mcsu"></code>
<li id="6mcsu"></li>
<li id="6mcsu"><dl id="6mcsu"></dl></li>
  • <code id="6mcsu"><tr id="6mcsu"></tr></code>
    或者

    百度是如何判斷重復的

    作者:問淺 瀏覽:188 發(fā)布時間:2017-10-31
    分享 評論 0

    從事SEO優(yōu)化的都會了解在(2011)之前一般是通過比較兩個頁面的內(nèi)容和節(jié)點,來確認兩個頁面的相似度。這種方法能夠計算得比較準確,可時間復雜度太高,計算很費時間。通過對一個頁面中的某些重要信息進行簽名,然后比較兩個頁面的簽名,來計算相似度,這種方式比較簡單 高效,計算速度比較快,比較適合互聯(lián)網(wǎng)這種海量信息的應用場景!

    在百度專利《一種網(wǎng)頁重復的判斷系統(tǒng)及其判斷方法 》(申請?zhí)?201110031636.9 )中使用了新的方法對網(wǎng)頁庫中的網(wǎng)頁進行重復檢測.

    首先是對待檢測的網(wǎng)頁進行正文提取,正文提取的方法就是對網(wǎng)頁進行分塊,然后獲取正文塊,然后提取正文塊中的文章.

    提取到文章內(nèi)容后,對正文進行分句,然后對每一個句子進行轉(zhuǎn)換和過濾(特殊字符),對較長的一個或幾個句子進行Hash簽名,以獲得網(wǎng)頁正文句子簽名.

    接著把正文句子簽名相同的文章分為一個類,我們稱之為網(wǎng)頁集,對該網(wǎng)頁集下的文章再進行下一步的判斷,這里還得再計算一些簽名

    1.網(wǎng)頁正文的simhash簽名

    2.真實標題的hash簽名

    3.標簽標題的hash簽名

    4.網(wǎng)頁摘要的hash簽名

    5.網(wǎng)頁內(nèi)容的hash簽名

    6.位置簽名的hash簽名

    7.評論信息的hash簽名

    8.資源簽名(資源簽名是通 過對網(wǎng)頁中的圖片資源、聲音資源、視頻資源或下載鏈接資源的 url 進行 hash 簽名運算獲得)

    9.URL文件名的hash簽名(url文件名簽名是通過對網(wǎng)頁的 url 中的文件名進行 hash 簽名運算獲得)

    這些計算完了,就可以進行下一步的判斷了,真重復的網(wǎng)頁舉例:

    1、兩個網(wǎng)頁的真實標題簽名相同。

    2、兩個網(wǎng)頁的網(wǎng)頁內(nèi)容簽名相同。

    3、兩個網(wǎng)頁的網(wǎng)頁正文簽名(simhash)的不同位數(shù)小于 6。

    4、兩個網(wǎng)頁的網(wǎng)頁位置簽名相同,并且 url 文件名簽名相同。

    5、評論塊簽名、資源簽名、標簽標題簽名、摘要簽名、url 文件名簽名中有三個簽名相同。

    通過兩兩頁面比較,可以得到真重復 url 的集合。一般來說,如果這個真重復 url 集合中的網(wǎng)頁的數(shù)量 / 整個網(wǎng)頁集中網(wǎng)頁的數(shù)量> 30%,則認為整個網(wǎng)頁集都是真重復, 否則就是假重復。


    中文字幕av在线| 中文字幕乱码人在线视频1区 | 狠狠综合久久综合中文88| 国产精品久久久久无码av | 亚洲日韩精品一区二区三区无码 | YY111111少妇无码理论片| 日韩av无码中文无码电影| 色噜噜综合亚洲av中文无码| 99久久国产热无码精品免费久久久久 | 亚洲av无码无在线观看红杏| 在线观看免费中文视频| 亚洲中文字幕无码一去台湾 | 毛片无码全部免费| 日韩乱码人妻无码中文字幕| 国产成人无码精品久久久性色 | 日本中文字幕免费看| 婷婷综合久久中文字幕蜜桃三电影| 国产日产欧洲无码视频无遮挡| 无码人妻黑人中文字幕| 亚洲日韩精品一区二区三区无码 | 亚洲熟妇无码另类久久久| 中文无码喷潮在线播放| 最近免费中文字幕大全免费版视频| 无码中文人妻在线一区二区三区 | 亚洲一区中文字幕久久| 亚洲中文字幕无码中文字在线| 亚洲AⅤ永久无码精品AA| 久久中文精品无码中文字幕| 久久久久无码专区亚洲av| 国产综合无码一区二区三区| 国产久热精品无码激情| yy111111少妇无码影院| 国产高清无码二区 | 亚洲成av人片不卡无码久久 | √天堂中文官网8在线| 中文字幕VA一区二区三区| 亚洲中文久久精品无码ww16| 人妻精品久久久久中文字幕69| 亚洲欧美日韩中文字幕在线不卡 | 国产成人无码区免费网站| 亚洲色无码一区二区三区|