觸屏版
全國服務(wù)熱線:0571-87205688
登錄
注冊
客戶中心
關(guān)注云客
超鏈分析和PageRank的專利問題,才第一次知道百度總裁李彥宏曾經(jīng)申請并獲得對于超鏈接分析的專利,我們姑且稱之為超鏈分析專利。而這個專利申請是在Google申請他們自己的PageRank專利之前。
我以前對中文搜索引擎沒什么認識,真是孤陋寡聞。看到這篇文章,直覺是如果這兩個專利是相似的或有抄襲嫌疑,這牽扯到兩家公司的核心利益。對我這樣的搜索引擎優(yōu)化人員來說,也能從中了解百度算法的一些內(nèi)幕。所以馬上去看了李彥宏的專利申請,并再次閱讀了Google PR的專利申請。
我的理解是,這兩個專利申請的區(qū)別在于,他們談的根本就是兩回事。要解決的問題和實施方法都不一樣,雖然研究對象是一樣的,都是鏈接。
超鏈分析要解決的是文件與搜索關(guān)鍵詞的相關(guān)性。李彥宏提出的方法是,除了文件本身對關(guān)鍵詞的引用外,還需要考慮反向鏈接中的關(guān)鍵詞。
具體來說,一個文件被索引進數(shù)據(jù)庫的時候,會連同指向這個文件的超鏈接,以及每個超鏈接當(dāng)中使用的錨文字(鏈接文字),一同記錄在案。而搜索詞也會建立一個數(shù)據(jù)庫,每個詞連同含有這個詞的超鏈接,以及這些超鏈接所指向的文件一同被記錄在案。
當(dāng)一個關(guān)鍵詞被搜索的時候,含有以關(guān)鍵詞為鏈接文字的反向鏈接數(shù)目最多的那個文件或網(wǎng)頁,將被作為最相關(guān)的結(jié)果排在前面。
這是基本思路,當(dāng)然還有其他變量考慮進去。比如說搜索字符串含有幾個詞的時候,每一個詞都是搜索矢量的一個維度。
我比較感興趣的是,在這篇專利申請中已經(jīng)提到了詞干技術(shù),而且提到了不同文字文件的相關(guān)性。
而Google的PR專利顯然是專注在已經(jīng)應(yīng)用了超鏈分析之后還不能解決的問題。在Google的專利申請中,明確提到即使在考慮了指向文件的鏈接及鏈接錨文字之后,搜索引擎還有重要問題需要解決,那就是來自不同文件的鏈接有不同的權(quán)重值。
你不能指望來自白宮網(wǎng)站的鏈接和非洲某小鎮(zhèn)上一個學(xué)生的個人網(wǎng)站上的一個鏈接,投票值相同。而Google PageRank就是衡量網(wǎng)頁重要性的一個方法。指向一個網(wǎng)頁的鏈接越多,而這些鏈接本身的權(quán)重越高,那么這個被指向的網(wǎng)頁的重要性及PageRank就越高。
Google的專利申請當(dāng)中給出了具體怎樣計算這一重要性指標(biāo),他們?nèi)∶麨榫W(wǎng)頁級別。網(wǎng)頁級別的計算需要進行多個循環(huán)的替代計算,才能得到近似于最終結(jié)果的PR值。
Google PR是與搜索詞無關(guān)的,或者說與文件相關(guān)性無關(guān)的。它只描述某一個文件的重要性或地位。
就目前所有搜索引擎的表現(xiàn)來看,可以肯定這兩個技術(shù)都已經(jīng)被應(yīng)用在排名算法中了,雖然可能名字不一樣。尤其明顯的是,雖然Google一直以PR為旗號,很少介紹它們的其他技術(shù)。但近一兩年來, Google算法中對鏈接分析,錨文字分析,詞干技術(shù)的重視越來越多。
評論(0人參與,0條評論)
發(fā)布評論
最新評論