觸屏版
全國服務(wù)熱線:0571-87205688
登錄
注冊
客戶中心
關(guān)注云客
搜索引擎每天處理著數(shù)以億計(jì)的查詢請求,每個(gè)查詢請求都代表了一個(gè)用戶對于某種資源的特定需求.多數(shù)時(shí)候,通過查詢返回的網(wǎng)頁結(jié)果,這些需求被滿足了,我們可以認(rèn)為結(jié)果中的某些頁面對特定用戶的特定需求產(chǎn)生了價(jià)值.那么對于搜索引擎而言,頁面的價(jià)值是指什么,我們?yōu)槭裁匆芯宽撁鎯r(jià)值,技術(shù)上怎樣判斷頁面的價(jià)值呢?本文將逐一回答這些問題.
一、什么頁面價(jià)值
前面我們說了,某個(gè)頁面滿足了某一用戶的特定需求,就體現(xiàn)了這個(gè)頁面對用戶的價(jià)值.那么對搜索引擎而言,價(jià)值體現(xiàn)在哪些方面呢?一個(gè)簡單的推論,所有可能會對用戶產(chǎn)生價(jià)值的頁面都是對搜索引擎有價(jià)值的,將這些頁面建入搜索引擎的索引中能夠滿足最終檢索到它們用戶的需求,我們稱這種價(jià)值為檢索價(jià)值.只要是能解決某個(gè)用戶信息需求的,并且是可以通過某些正常檢索需求到達(dá)的,那么就是有檢索價(jià)值的.
小學(xué)生張三喜歡在qzone上寫日記,寫他前天吃了什么,今天玩了什么.這些內(nèi)容,是有價(jià)值的.它們對張三的家長、同學(xué)、老師,以及其他小學(xué)生,和對小學(xué)生日記感興趣的人來說,都是有價(jià)值的.對于這個(gè)信息體來說,"張三"這個(gè)名字是檢索的"key".
有一些信息單元,只有"瀏覽"價(jià)值,而沒有到達(dá)該信息的檢索途徑,那么該資源可能是有價(jià)值的,但檢索價(jià)值就很低.比如一張百度大廈附近的地圖,從瀏覽角度,是有價(jià)值的;但是如果沒有任何周邊文字說明(或者link的anchor text),只有一張光禿禿的地圖,就沒有檢索價(jià)值.當(dāng)然,如果圖片的內(nèi)容識別技術(shù),有朝一日能自動識別出這個(gè)是"百度大廈附近地圖",或者能夠自動分析出地圖內(nèi)的各種大廈、街道、餐館等的名稱,那么這張圖一樣變得有檢索價(jià)值了.所以一個(gè)頁面是否有檢索價(jià)值,應(yīng)該取決于兩點(diǎn):
1) 是否能解決某個(gè)特定的需求(價(jià)值)
2) 是否可以通過某個(gè)常規(guī)的搜索方式獲得該信息(檢索)
那么,沒有檢索價(jià)值的頁面,是否對搜索引擎就沒有價(jià)值了呢?仔細(xì)想想,答案是否定的.索引只是搜索引擎的一個(gè)環(huán)節(jié),對于其他環(huán)節(jié)而言,沒有檢索價(jià)值的頁面有可能對我們更好的收錄那些檢索價(jià)值高的頁面有幫助.比如對負(fù)責(zé)抓取互聯(lián)網(wǎng)資源的spider而言,有一些頁面,本身沒有檢索價(jià)值,但通過這些頁面的抓取和分析,能夠更快的幫助我們掌握這一類頁面沒有檢索價(jià)值這一重要信息,從而節(jié)省更多的流量進(jìn)行更加有效的抓取.
考慮到這種價(jià)值可以算作一種"間接的"檢索價(jià)值,最終還是立足于索引價(jià)值的,在本文中就不再展開論述,我們只關(guān)注"檢索價(jià)值"這一根本問題.下文中提到的"頁面價(jià)值"特指頁面的"檢索價(jià)值".
二、為什么要研究頁面價(jià)值
首先,互聯(lián)網(wǎng)上的頁面是無窮盡的,而搜索引擎的硬件資源是有限的,想用有限的資源去覆蓋無窮盡的互聯(lián)網(wǎng),我們就需要對頁面價(jià)值做出判斷,不收錄那些無檢索價(jià)值的頁面,少收錄那些檢索價(jià)值低的頁面.這是頁面價(jià)值在收錄控制方面的應(yīng)用.
第二,搜索引擎spider的抓取能力是有限的,出于訪問友好性的考慮,對于一個(gè)網(wǎng)站或一個(gè)IP抓取速率需要有一個(gè)抓取速率的上限.在這一限制下,抓取或頁面更新就需要有一個(gè)先后順序,而這一排序的主要參考依據(jù)就是頁面價(jià)值,或者說對頁面價(jià)值的預(yù)測(未抓取時(shí)).這是頁面價(jià)值在spider調(diào)度方面的應(yīng)用.
第三,對于某些頁面,頁面內(nèi)容發(fā)生變化,導(dǎo)致它的檢索價(jià)值從有到無,典型的就是變?yōu)?quot;死鏈",或者"被黑".對于這些頁面,好的搜索引擎會在第一時(shí)間將其排除出索引,或在檢索時(shí)對其進(jìn)行屏蔽,以保證返回給用戶的結(jié)果是更多檢索價(jià)值高的"好頁面".對于另一些頁面,它不僅具有很高的檢索價(jià)值,而且有很強(qiáng)的"時(shí)效性",能夠第一時(shí)間讓用戶檢索到這些頁面對搜索體驗(yàn)有很大的提升.對搜索引擎而言,越快的收錄和索引頁面意味著越多的額外資源開銷,以多快的速度收錄和以多短的周期更新索引,需要通過頁面價(jià)值的分析來指導(dǎo).這兩方面是頁面價(jià)值在死鏈率和時(shí)效性兩大搜索引擎指標(biāo)提升上的應(yīng)用.
最后,普遍意義上的頁面價(jià)值高低對搜索引擎返回給用戶的結(jié)果排序上也存在著指導(dǎo)意義.理想情況下搜索引擎的結(jié)果是按照與查詢請求的相關(guān)性進(jìn)行排序的,在相關(guān)性大體相當(dāng)?shù)那闆r下,用戶更傾向與瀏覽普遍意義上頁面價(jià)值高的網(wǎng)頁.這是頁面價(jià)值在ranking方面的應(yīng)用.
可以說,頁面檢索價(jià)值的研究是搜索引擎中的一項(xiàng)較為基礎(chǔ)的工作,對頁面價(jià)值的認(rèn)識和判斷的準(zhǔn)確程度直接影響著搜索引擎的覆蓋率、死鏈率、時(shí)效性等幾大主要指標(biāo).
三、如何判斷頁面價(jià)值
前文中提到過一個(gè)小學(xué)生張三qzone日記的例子.我們認(rèn)為這個(gè)頁面是有價(jià)值的,對張三的同學(xué),朋友,家人都有價(jià)值.與此類似的,百度CEO李彥宏在i貼吧上發(fā)表一條十幾個(gè)字的i貼,也是有價(jià)值的,對李彥宏的上千萬粉絲都有價(jià)值.雖然李彥宏的i貼長度可能遠(yuǎn)小于張三的日記,但就這兩個(gè)頁面的價(jià)值來說,我們都會有一個(gè)共同的認(rèn)識,即從普遍意義上講,李彥宏的i貼價(jià)值遠(yuǎn)大于張三的日記.(當(dāng)然,對于張三的媽媽來說很可能這個(gè)價(jià)值的關(guān)系是相反的)
再舉個(gè)例子,搜索某個(gè)人的手機(jī)號碼,搜索引擎返回了一個(gè)結(jié)果,是這個(gè)人在某個(gè)論壇上的一個(gè)回復(fù).雖然這個(gè)手機(jī)號碼關(guān)心的人不多,但因?yàn)橘Y源是絕對稀缺的,對于關(guān)心這個(gè)手機(jī)號碼的查詢需求,這個(gè)頁面是完全不可替代的,因此具有極高的價(jià)值.
另外,頁面檢索價(jià)值,還受到頁面質(zhì)量的影響.相似的頁面,對于滿足用戶需求來說,往往會有很大差異,比如資源下載速度,頁面的布局,廣告的多寡.這類差異,姑且稱之為頁面質(zhì)量.
最后,有些頁面具有明顯的公眾話題性質(zhì),且這些資源往往在剛剛產(chǎn)生時(shí)有非常高的關(guān)注度,隨著時(shí)間的推移熱度顯著下降,有著"新聞"的特征.典型的像各種"門"事件,地震、火災(zāi)等大型的自然災(zāi)害.我們認(rèn)為這類資源具有"時(shí)效性"特征.
所以,一個(gè)頁面的檢索價(jià)值,大致受以下四個(gè)要素的影響:
感興趣的受眾群大小
該頁面的稀缺程度(可替代性)
該頁面的質(zhì)量高低
該頁面的時(shí)效性特征強(qiáng)弱
這四種要素,簡稱受眾,稀缺,質(zhì)量和時(shí)效性.
百度新聞源收錄
當(dāng)游戲直播平臺絞盡腦汁的玩Growth Hacking時(shí),就出現(xiàn)了這10種奇葩玩法
如何最快速地低成本地投入到一場狗血撕逼
上門美容?直播化妝?微商賣面膜?靠概念的美業(yè)時(shí)代已經(jīng)過去!
如何提升成功率?比如你又丑又蠢,還想紅,怎么辦?概率統(tǒng)計(jì)學(xué)上有一個(gè)“大數(shù)定律”
別和我扯什么“內(nèi)容創(chuàng)業(yè)”!什么“消費(fèi)升級”!其實(shí)就是“軟文大雜燴”!
網(wǎng)絡(luò)營銷十大趨勢必讀,看完再去燒腦
微眾圈SEO優(yōu)化方案
J網(wǎng)SEO優(yōu)化診斷
木鳥短租網(wǎng)站診斷分析
評論(0人參與,0條評論)
發(fā)布評論
最新評論