<code id="6mcsu"></code>
<li id="6mcsu"></li>
<li id="6mcsu"><dl id="6mcsu"></dl></li>
  • <code id="6mcsu"><tr id="6mcsu"></tr></code>
    或者

    百度是如何判斷重復的

    作者:問淺 瀏覽:188 發布時間:2017-10-31
    分享 評論 0

    從事SEO優化的都會了解在(2011)之前一般是通過比較兩個頁面的內容和節點,來確認兩個頁面的相似度。這種方法能夠計算得比較準確,可時間復雜度太高,計算很費時間。通過對一個頁面中的某些重要信息進行簽名,然后比較兩個頁面的簽名,來計算相似度,這種方式比較簡單 高效,計算速度比較快,比較適合互聯網這種海量信息的應用場景!

    在百度專利《一種網頁重復的判斷系統及其判斷方法 》(申請號:201110031636.9 )中使用了新的方法對網頁庫中的網頁進行重復檢測.

    首先是對待檢測的網頁進行正文提取,正文提取的方法就是對網頁進行分塊,然后獲取正文塊,然后提取正文塊中的文章.

    提取到文章內容后,對正文進行分句,然后對每一個句子進行轉換和過濾(特殊字符),對較長的一個或幾個句子進行Hash簽名,以獲得網頁正文句子簽名.

    接著把正文句子簽名相同的文章分為一個類,我們稱之為網頁集,對該網頁集下的文章再進行下一步的判斷,這里還得再計算一些簽名

    1.網頁正文的simhash簽名

    2.真實標題的hash簽名

    3.標簽標題的hash簽名

    4.網頁摘要的hash簽名

    5.網頁內容的hash簽名

    6.位置簽名的hash簽名

    7.評論信息的hash簽名

    8.資源簽名(資源簽名是通 過對網頁中的圖片資源、聲音資源、視頻資源或下載鏈接資源的 url 進行 hash 簽名運算獲得)

    9.URL文件名的hash簽名(url文件名簽名是通過對網頁的 url 中的文件名進行 hash 簽名運算獲得)

    這些計算完了,就可以進行下一步的判斷了,真重復的網頁舉例:

    1、兩個網頁的真實標題簽名相同。

    2、兩個網頁的網頁內容簽名相同。

    3、兩個網頁的網頁正文簽名(simhash)的不同位數小于 6。

    4、兩個網頁的網頁位置簽名相同,并且 url 文件名簽名相同。

    5、評論塊簽名、資源簽名、標簽標題簽名、摘要簽名、url 文件名簽名中有三個簽名相同。

    通過兩兩頁面比較,可以得到真重復 url 的集合。一般來說,如果這個真重復 url 集合中的網頁的數量 / 整個網頁集中網頁的數量> 30%,則認為整個網頁集都是真重復, 否則就是假重復。


    精品人体无码一区二区三区| 中文字幕无码久久人妻| 精品亚洲成在人线AV无码| 久久激情亚洲精品无码?V| 久久亚洲AV无码精品色午夜麻豆| 久久99久久无码毛片一区二区| 亚洲啪啪AV无码片| 中文无码一区二区不卡αv| 亚洲Av无码乱码在线观看性色 | 亚洲美日韩Av中文字幕无码久久久妻妇 | 今天免费中文字幕视频| 国产亚洲精品无码专区| 亚洲av无码精品网站| 97无码人妻福利免费公开在线视频| 精品999久久久久久中文字幕| 免费无码专区毛片高潮喷水| 人妻无码中文久久久久专区| 最好看的电影2019中文字幕| 亚洲欧美中文字幕| 国内精品久久久人妻中文字幕| 久久影院午夜理论片无码| 国产乱子伦精品无码码专区| 天码av无码一区二区三区四区| 无码精品久久久天天影视| 最新国产精品无码| 亚洲国产精品无码专区| 少妇性饥渴无码A区免费 | 中文字幕国产在线| 色综合久久最新中文字幕| 中文字幕人成人乱码亚洲电影| 亚洲av无码成人精品区| 久久无码av三级| 国产仑乱无码内谢| 免费无遮挡无码视频在线观看| 成人无码区在线观看| 国产日韩精品无码区免费专区国产| 日韩精品无码一区二区中文字幕| 亚洲av福利无码无一区二区| 午夜无码伦费影视在线观看| 无码中文字幕av免费放dvd| 无码国产伦一区二区三区视频|