<code id="6mcsu"></code>
<li id="6mcsu"></li>
<li id="6mcsu"><dl id="6mcsu"></dl></li>
  • <code id="6mcsu"><tr id="6mcsu"></tr></code>
    或者

    搜索引擎蜘蛛抓取配額是什么?

    作者:9527 瀏覽:94 發(fā)布時間:2017-07-14
    分享 評論 0

        一月份時,Google新的SEO代言人Gary Illyes在Google官方博客上發(fā)了一篇帖子:What Crawl Budget Means for Googlebot,討論了搜索引擎蜘蛛抓取份額相關問題。對大中型網(wǎng)站來說,這是個頗為重要的SEO問題,有時候會成為網(wǎng)站自然流量的瓶頸。


        今天的帖子總結(jié)一下Gary Illyes帖子里的以及后續(xù)跟進的很多博客、論壇帖子的主要內(nèi)容,以及我自己的一些案例和理解。


        強調(diào)一下,以下這些概念對百度同樣適用。


        一、什么是搜索引擎蜘蛛抓取份額?


        顧名思義,抓取份額是搜索引擎蜘蛛花在一個網(wǎng)站上的抓取頁面的總的時間上限。對于特定網(wǎng)站,搜索引擎蜘蛛花在這個網(wǎng)站上的總時間是相對固定的,不會無限制地抓取網(wǎng)站所有頁面。


        抓取份額的英文Google用的是crawl budget,直譯是爬行預算,我覺得不太能說明是什么意思,所以用抓取份額表達這個概念。


        抓取份額是由什么決定的呢?這牽扯到抓取需求和抓取速度限制。


        二、抓取需求


        抓取需求,crawl demand,指的是搜索引擎“想”抓取特定網(wǎng)站多少頁面。


        決定抓取需求的主要有兩個因素。一是頁面權重,網(wǎng)站上有多少頁面達到了基本頁面權重,搜索引擎就想抓取多少頁面。二是索引庫里頁面是否太久沒更新了。說到底還是頁面權重,權重高的頁面就不會太久不更新。


        頁面權重和網(wǎng)站權重又是息息相關的,提高網(wǎng)站權重,就能使搜索引擎愿意多抓取頁面。


        三、抓取速度限制


        搜索引擎蜘蛛不會為了抓取更多頁面,把人家網(wǎng)站服務器拖垮,所以對某個網(wǎng)站都會設定一個抓取速度的上限,crawl rate limit,也就是服務器能承受的上限,在這個速度限制內(nèi),蜘蛛抓取不會拖慢服務器、影響用戶訪問。


        服務器反應速度夠快,這個速度限制就上調(diào)一點,抓取加快,服務器反應速度下降,速度限制跟著下降,抓取減慢,甚至停止抓取。


        所以,抓取速度限制是搜索引擎“能”抓取的頁面數(shù)。


        四、抓取份額是由什么決定的?


        抓取份額是考慮抓取需求和抓取速度限制兩者之后的結(jié)果,也就是搜索引擎“想”抓,同時又“能”抓的頁面數(shù)。


        網(wǎng)站權重高,頁面內(nèi)容質(zhì)量高,頁面夠多,服務器速度夠快,抓取份額就大。


        五、小網(wǎng)站沒必要擔心抓取份額


        小網(wǎng)站頁面數(shù)少,即使網(wǎng)站權重再低,服務器再慢,每天搜索引擎蜘蛛抓取的再少,通常至少也能抓個幾百頁,十幾天怎么也全站抓取一遍了,所以幾千個頁面的網(wǎng)站根本不用擔心抓取份額的事。數(shù)萬個頁面的網(wǎng)站一般也不是什么大事。每天幾百個訪問要是能拖慢服務器,SEO就不是主要需要考慮的事了。


        六、大中型網(wǎng)站經(jīng)常需要考慮抓取份額


        幾十萬頁以上的大中型網(wǎng)站,可能要考慮抓取份額夠不夠的問題。


        抓取份額不夠,比如網(wǎng)站有1千萬頁面,搜索引擎每天只能抓幾萬個頁面,那么把網(wǎng)站抓一遍可能需要幾個月,甚至一年,也可能意味著一些重要頁面沒辦法被抓取,所以也就沒排名,或者重要頁面不能及時被更新。


        要想網(wǎng)站頁面被及時、充分抓取,首先要保證服務器夠快,頁面夠小。如果網(wǎng)站有海量高質(zhì)量數(shù)據(jù),抓取份額將受限于抓取速度,提高頁面速度直接提高抓取速度限制,因而提高抓取份額。


        百度站長平臺和Google Search Console都有抓取數(shù)據(jù)。如下圖某網(wǎng)站百度抓取頻次:


        搜索引擎蜘蛛抓取配額是什么? - 百度站長平臺和Google Search Console都有抓取數(shù)據(jù)


        上圖是SEO每天一貼這種級別的小網(wǎng)站,頁面抓取頻次和抓取時間(取決于服務器速度和頁面大小)沒有什么大關系,說明沒有用完抓取份額,不用擔心。


        有的時候,抓取頻次和抓取時間是有某種對應關系的,如下圖另一個大些的網(wǎng)站:


        搜索引擎蜘蛛抓取配額是什么? - 有的時候,抓取頻次和抓取時間是有某種對應關系的


        可以看到,抓取時間改善(減小頁面尺寸、提高服務器速度、優(yōu)化數(shù)據(jù)庫),明顯導致抓取頻次上升,使更多頁面被抓取收錄,遍歷一遍網(wǎng)站更快速。


        Google Search Console里更大點站的例子:


        搜索引擎蜘蛛抓取配額是什么? - Google Search Console里更大點站的例子


        最上面的是抓取頁面數(shù),中間的是抓取數(shù)據(jù)量,除非服務器出錯,這兩個應該是對應的。最下面的是頁面抓取時間。可以看到,頁面下載速度夠快,每天抓取上百萬頁是沒有問題的。


        當然,像前面說的,能抓上百萬頁是一方面,搜索引擎想不想抓是另一方面。


        大型網(wǎng)站另一個經(jīng)常需要考慮抓取份額的原因是,不要把有限的抓取份額浪費在無意義的頁面抓取上,導致應該被抓取的重要頁面卻沒有機會被抓取。


        浪費抓取份額的典型頁面有:


        大量過濾篩選頁面。這一點,幾年前關于無效URL爬行索引的帖子里有詳細討論。


        站內(nèi)復制內(nèi)容


        低質(zhì)、垃圾內(nèi)容


        日歷之類的無限個頁面


        上面這些頁面被大量抓取,可能用完抓取份額,該抓的頁面卻沒抓。


        七、怎樣節(jié)省抓取份額?


        當然首先是降低頁面文件大小,提高服務器速度,優(yōu)化數(shù)據(jù)庫,降低抓取時間。


        然后,盡量避免上面列出的浪費抓取份額的東西。有的是內(nèi)容質(zhì)量問題,有的是網(wǎng)站結(jié)構問題,如果是結(jié)構問題,最簡單的辦法是robots文件禁止抓取,但多少會浪費些頁面權重,因為權重只進不出。


        某些情況下使用鏈接nofollow屬性可以節(jié)省抓取份額。小網(wǎng)站,由于抓取份額用不完,加nofollow是沒有意義的。大網(wǎng)站,nofollow是可以在一定程度上控制權重流動和分配的,精心設計的nofollow會使無意義頁面權重降低,提升重要頁面權重。搜索引擎抓取時會使用一個URL抓取列表,里面待抓URL是按頁面權重排序的,重要頁面權重提升,會先被抓取,無意義頁面權重可能低到搜索引擎不想抓取。


    亚洲AV无码成人精品区天堂| 无码任你躁久久久久久| 中文字幕无码不卡免费视频 | 国产精品无码无卡在线播放| 最近中文字幕视频在线资源| 久久久无码精品午夜| 亚洲AV无码第一区二区三区 | 日本久久中文字幕| 中文无码制服丝袜人妻av| 国产精品无码成人午夜电影| 亚洲AV无码乱码国产麻豆穿越| 最近中文字幕国语免费完整| 亚洲日韩乱码中文无码蜜桃臀网站| 国产精品视频一区二区三区无码| 亚洲综合无码AV一区二区 | 欧美麻豆久久久久久中文| 少妇人妻综合久久中文字幕| 久久精品国产亚洲AV无码娇色| 中国无码人妻丰满熟妇啪啪软件| 欧美亚洲精品中文字幕乱码免费高清 | 天堂亚洲国产中文在线 | 无码中文字幕日韩专区视频| 少妇中文无码高清| 国产精品无码素人福利| 国产午夜精品无码| AV无码久久久久不卡蜜桃 | 日韩精品无码永久免费网站 | 亚洲AV无码乱码在线观看| 91精品国产综合久久四虎久久无码一级 | 无码精品一区二区三区免费视频| 无码精品久久久久久人妻中字 | 无码av免费一区二区三区试看| 国产在线无码一区二区三区视频| 手机永久无码国产AV毛片| 久久久久亚洲精品无码蜜桃| 无码专区中文字幕无码| 日韩精品无码专区免费播放| 国产亚洲AV无码AV男人的天堂| 亚洲精品无码不卡| 中文字幕亚洲情99在线| 久久精品aⅴ无码中文字字幕不卡 久久精品aⅴ无码中文字字幕重口 |