<code id="6mcsu"></code>
<li id="6mcsu"></li>
<li id="6mcsu"><dl id="6mcsu"></dl></li>
  • <code id="6mcsu"><tr id="6mcsu"></tr></code>
    或者

    使用Robots.txt引導百度爬蟲合理分配抓取資源

    作者:月光邊境 瀏覽:169 發布時間:2017-04-22
    分享 評論 0

    我所在的網站算是一個大型網站,百度收錄3000萬,每天百度爬蟲抓取總次數在500w次左右,單頁的百度收錄率 80%,看起來已經是一個相當不錯的數據,但分析一下詳細的日志文件,還是可以發現一些問題,

      1.大型網站的列表頁為了方便用戶查找所需信息,通常會設置多重的篩選條件(Facet Navigation),但爬蟲并沒有智能到可以自主判斷哪些條件可以組合,哪些條件組合起來沒有意義,只要在代碼里面有鏈接就會去抓取,導致百度爬蟲耗費了大量資源在列表篩選頁上。分析了一個月的數據,發現百度的抓取量有30%消耗在列表頁,但是列表頁帶來的百度自然流量僅占所有百度自然流量的2%,所以對網站的列表頁來說,爬蟲的投入產出非常低。

      2.重復抓取現象嚴重。 我個人覺得,對網站來說,只被爬蟲抓取過1次的頁面(Distinct Crawl)最有價值,因為對一張本身內容質量還可以的頁面來說,只要被抓取過一次,收錄的幾率就超過80%。如果頁面本身質量不行,即使被抓取過幾十次,也依然不會被收錄。 繼續分析我們網站的數據,發現在百度爬蟲一天500w的抓取中,有超過一半的抓取是對相同頁面的多次抓取,如果能把這些重復的抓取轉移到那些一次都沒被抓過的頁面上,對網站的價值無疑更大。

      如何解決這兩個問題?

      先說第一個,針對篩選頁消耗爬蟲資源問題,很多人都建議使用nofollow標簽告訴爬蟲,不要繼續給這些頁面分配權重,我們也這么做過。但事實證明百度爬蟲對nofollow并不敏感,使用之后爬蟲依舊瘋狂抓取,同時也沒有把權重從篩選頁面上轉移到規范頁面上。

      無奈之下,我們只好考慮起用SEO的大殺器:Robots文件,把所有的篩選頁面全部disallow掉,之前沒有使用robots禁止抓取的原因是擔心萬一爬蟲被禁止抓取列表后,會不會其他的頁面也不抓了?畢竟列表篩選頁還是會給單頁貢獻大量入口,但基于我們網站單頁收錄還不錯的現狀,還是決定嘗試一下。

      事實證明,效果非常明顯,新版的robots上線三天后,列表頁的爬蟲抓取量下降到15%;同時之前擔心的問題也沒有發生,爬蟲的抓取總量不但沒有下降,反而增長了10%左右,單頁的抓取量也上升了20%,可以算是達到了我們的預期目標:把列表頁浪費的爬蟲資源轉移到其他需要被抓取的頁面上。

      但是如何證明抓取資源是被轉移到需要被抓取的頁面上呢,這正好也是之前提到的第二個問題,我們看了唯一抓取率( 只抓一次的頁面數/總抓取數)的變化,從50%增長到74%,可以說明爬蟲在閱讀robots文件后,對爬蟲資源做了更合理的分配,更多的單頁被抓取。

      總結:Robots文件相比其他手段,可以在較短時間內優化百度爬蟲的抓取資源分配,但這得建立在網站本身結構良好,內容過關的基礎之上,同時最重要的還是得反復測試,通過日志分析實際情況來調整以取得最佳效果 轉自百度站長社區


    中文字幕在线观看一区二区| 精品无码久久久久国产| 乱人伦中文字幕在线看| 亚洲中文字幕不卡无码| A级毛片无码久久精品免费| 中文字幕你懂的| 久久AV高清无码| 欧美日韩中文国产va另类| 久久水蜜桃亚洲av无码精品麻豆| 宅男在线国产精品无码| 无码人妻精品一区二区三区夜夜嗨 | 在线中文字幕播放| 国产成人无码一区二区在线播放| 乱人伦中文字幕在线看| 久久久久无码中| 在线播放无码后入内射少妇| 无码AV中文字幕久久专区| 亚洲AV无码久久精品成人| 三级理论中文字幕在线播放| 精品一区二区三区无码免费视频| 中文字幕一区二区三区日韩精品| 亚洲一级特黄大片无码毛片| 无码人妻久久一区二区三区 | 成人无码区免费A片视频WWW| 中文字幕在线亚洲精品| 亚洲精品欧美精品中文字幕| 亚洲av麻豆aⅴ无码电影| 亚洲AV无码乱码在线观看牲色| 超清无码一区二区三区| 国产精品无码无片在线观看| 免费A级毛片无码A∨| 玖玖资源站无码专区| 国产AV无码专区亚洲精品| 精品无码久久久久久尤物| 超清纯白嫩大学生无码网站| 在线看无码的免费网站| 无码任你躁久久久久久久| 中文字幕亚洲情99在线| 一本大道香蕉中文日本不卡高清二区| 亚洲VA中文字幕无码毛片| 中文字幕日韩一区二区三区不卡|