觸屏版
全國服務(wù)熱線:0571-87205688
登錄
注冊(cè)
客戶中心
關(guān)注云客
在之前一般是通過比較兩個(gè)頁面的內(nèi)容和節(jié)點(diǎn),來確認(rèn)兩個(gè)頁面的相似度。這種方法能夠計(jì)算得比較準(zhǔn)確,可時(shí)間復(fù)雜度太高,計(jì)算很費(fèi)時(shí)間。通過對(duì)一個(gè)頁面中的某些重要信息進(jìn)行簽名,然后比較兩個(gè)頁面的簽名,來計(jì)算相似度,這種方式比較簡單 高效,計(jì)算速度比較快,比較適合互聯(lián)網(wǎng)這種海量信息的應(yīng)用場景!
在百度專利《一種網(wǎng)頁重復(fù)的判斷系統(tǒng)及其判斷方法 》(申請(qǐng)?zhí)?201110031636.9 )中使用了新的方法對(duì)網(wǎng)頁庫中的網(wǎng)頁進(jìn)行重復(fù)檢測.
首先是對(duì)待檢測的網(wǎng)頁進(jìn)行正文提取,正文提取的方法就是對(duì)網(wǎng)頁進(jìn)行分塊,然后獲取正文塊,然后提取正文塊中的文章.
提取到文章內(nèi)容后,對(duì)正文進(jìn)行分句,然后對(duì)每一個(gè)句子進(jìn)行轉(zhuǎn)換和過濾(特殊字符),對(duì)較長的一個(gè)或幾個(gè)句子進(jìn)行Hash簽名,以獲得網(wǎng)頁正文句子簽名.
接著把正文句子簽名相同的文章分為一個(gè)類,我們稱之為網(wǎng)頁集,對(duì)該網(wǎng)頁集下的文章再進(jìn)行下一步的判斷,這里還得再計(jì)算一些簽名
1.網(wǎng)頁正文的simhash簽名
2.真實(shí)標(biāo)題的hash簽名
3.標(biāo)簽標(biāo)題的hash簽名
4.網(wǎng)頁摘要的hash簽名
5.網(wǎng)頁內(nèi)容的hash簽名
6.位置簽名的hash簽名
7.評(píng)論信息的hash簽名
8.資源簽名(資源簽名是通 過對(duì)網(wǎng)頁中的圖片資源、聲音資源、視頻資源或下載鏈接資源的 url 進(jìn)行 hash 簽名運(yùn)算獲得)
9.URL文件名的hash簽名(url文件名簽名是通過對(duì)網(wǎng)頁的 url 中的文件名進(jìn)行 hash 簽名運(yùn)算獲得)
這些計(jì)算完了,就可以進(jìn)行下一步的判斷了,真重復(fù)的網(wǎng)頁舉例:
1、兩個(gè)網(wǎng)頁的真實(shí)標(biāo)題簽名相同。
2、兩個(gè)網(wǎng)頁的網(wǎng)頁內(nèi)容簽名相同。
3、兩個(gè)網(wǎng)頁的網(wǎng)頁正文簽名(simhash)的不同位數(shù)小于 6。
4、兩個(gè)網(wǎng)頁的網(wǎng)頁位置簽名相同,并且 url 文件名簽名相同。
5、評(píng)論塊簽名、資源簽名、標(biāo)簽標(biāo)題簽名、摘要簽名、url 文件名簽名中有三個(gè)簽名相同。
通過兩兩頁面比較,可以得到真重復(fù) url 的集合。一般來說,如果這個(gè)真重復(fù) url 集合中的網(wǎng)頁的數(shù)量 / 整個(gè)網(wǎng)頁集中網(wǎng)頁的數(shù)量> 30%,則認(rèn)為整個(gè)網(wǎng)頁集都是真重復(fù), 否則就是假重復(fù)。
評(píng)論(0人參與,0條評(píng)論)
發(fā)布評(píng)論
最新評(píng)論