觸屏版
全國(guó)服務(wù)熱線:0571-87205688
登錄
注冊(cè)
客戶中心
關(guān)注云客
我所在的網(wǎng)站算是一個(gè)大型網(wǎng)站,百度收錄3000萬(wàn),每天百度爬蟲(chóng)抓取總次數(shù)在500w次左右,單頁(yè)的百度收錄率 80%,看起來(lái)已經(jīng)是一個(gè)相當(dāng)不錯(cuò)的數(shù)據(jù),但分析一下詳細(xì)的日志文件,還是可以發(fā)現(xiàn)一些問(wèn)題,
1.大型網(wǎng)站的列表頁(yè)為了方便用戶查找所需信息,通常會(huì)設(shè)置多重的篩選條件(Facet Navigation),但爬蟲(chóng)并沒(méi)有智能到可以自主判斷哪些條件可以組合,哪些條件組合起來(lái)沒(méi)有意義,只要在代碼里面有鏈接就會(huì)去抓取,導(dǎo)致百度爬蟲(chóng)耗費(fèi)了大量資源在列表篩選頁(yè)上。分析了一個(gè)月的數(shù)據(jù),發(fā)現(xiàn)百度的抓取量有30%消耗在列表頁(yè),但是列表頁(yè)帶來(lái)的百度自然流量?jī)H占所有百度自然流量的2%,所以對(duì)網(wǎng)站的列表頁(yè)來(lái)說(shuō),爬蟲(chóng)的投入產(chǎn)出非常低。
2.重復(fù)抓取現(xiàn)象嚴(yán)重。 我個(gè)人覺(jué)得,對(duì)網(wǎng)站來(lái)說(shuō),只被爬蟲(chóng)抓取過(guò)1次的頁(yè)面(Distinct Crawl)最有價(jià)值,因?yàn)閷?duì)一張本身內(nèi)容質(zhì)量還可以的頁(yè)面來(lái)說(shuō),只要被抓取過(guò)一次,收錄的幾率就超過(guò)80%。如果頁(yè)面本身質(zhì)量不行,即使被抓取過(guò)幾十次,也依然不會(huì)被收錄。 繼續(xù)分析我們網(wǎng)站的數(shù)據(jù),發(fā)現(xiàn)在百度爬蟲(chóng)一天500w的抓取中,有超過(guò)一半的抓取是對(duì)相同頁(yè)面的多次抓取,如果能把這些重復(fù)的抓取轉(zhuǎn)移到那些一次都沒(méi)被抓過(guò)的頁(yè)面上,對(duì)網(wǎng)站的價(jià)值無(wú)疑更大。
如何解決這兩個(gè)問(wèn)題?
先說(shuō)第一個(gè),針對(duì)篩選頁(yè)消耗爬蟲(chóng)資源問(wèn)題,很多人都建議使用nofollow標(biāo)簽告訴爬蟲(chóng),不要繼續(xù)給這些頁(yè)面分配權(quán)重,我們也這么做過(guò)。但事實(shí)證明百度爬蟲(chóng)對(duì)nofollow并不敏感,使用之后爬蟲(chóng)依舊瘋狂抓取,同時(shí)也沒(méi)有把權(quán)重從篩選頁(yè)面上轉(zhuǎn)移到規(guī)范頁(yè)面上。
無(wú)奈之下,我們只好考慮起用SEO的大殺器:Robots文件,把所有的篩選頁(yè)面全部disallow掉,之前沒(méi)有使用robots禁止抓取的原因是擔(dān)心萬(wàn)一爬蟲(chóng)被禁止抓取列表后,會(huì)不會(huì)其他的頁(yè)面也不抓了?畢竟列表篩選頁(yè)還是會(huì)給單頁(yè)貢獻(xiàn)大量入口,但基于我們網(wǎng)站單頁(yè)收錄還不錯(cuò)的現(xiàn)狀,還是決定嘗試一下。
事實(shí)證明,效果非常明顯,新版的robots上線三天后,列表頁(yè)的爬蟲(chóng)抓取量下降到15%;同時(shí)之前擔(dān)心的問(wèn)題也沒(méi)有發(fā)生,爬蟲(chóng)的抓取總量不但沒(méi)有下降,反而增長(zhǎng)了10%左右,單頁(yè)的抓取量也上升了20%,可以算是達(dá)到了我們的預(yù)期目標(biāo):把列表頁(yè)浪費(fèi)的爬蟲(chóng)資源轉(zhuǎn)移到其他需要被抓取的頁(yè)面上。
但是如何證明抓取資源是被轉(zhuǎn)移到需要被抓取的頁(yè)面上呢,這正好也是之前提到的第二個(gè)問(wèn)題,我們看了唯一抓取率( 只抓一次的頁(yè)面數(shù)/總抓取數(shù))的變化,從50%增長(zhǎng)到74%,可以說(shuō)明爬蟲(chóng)在閱讀robots文件后,對(duì)爬蟲(chóng)資源做了更合理的分配,更多的單頁(yè)被抓取。
總結(jié):Robots文件相比其他手段,可以在較短時(shí)間內(nèi)優(yōu)化百度爬蟲(chóng)的抓取資源分配,但這得建立在網(wǎng)站本身結(jié)構(gòu)良好,內(nèi)容過(guò)關(guān)的基礎(chǔ)之上,同時(shí)最重要的還是得反復(fù)測(cè)試,通過(guò)日志分析實(shí)際情況來(lái)調(diào)整以取得最佳效果 轉(zhuǎn)自百度站長(zhǎng)社區(qū)
評(píng)論(0人參與,0條評(píng)論)
發(fā)布評(píng)論
最新評(píng)論