蜘蛛抓取配額




顧名思義,抓取份額是搜索引擎蜘蛛花在一個網站上的抓取頁面的總的時間上限。對于特定網站,搜索引擎蜘蛛花在這個網站上的總時間是相對固定的,不會無限制地抓取網站所有頁面。
抓取份額的英文Google用的是crawl budget,直譯是爬行預算,我覺得不太能說明是什么意思,所以用抓取份額表達這個概念。
抓取份額是由什么決定的呢?這牽扯到抓取需求和抓取速度限制。
抓取需求
抓取需求,crawl demand,指的是搜索引擎“想”抓取特定網站多少頁面。
決定抓取需求的主要有兩個因素。一是頁面權重,網站上有多少頁面達到了基本頁面權重,搜索引擎就想抓取多少頁面。二是索引庫里頁面是否太久沒更新了。說到底還是頁面權重,權重高的頁面就不會太久不更新。
頁面權重和網站權重又是息息相關的,提高網站權重,就能使搜索引擎愿意多抓取頁面。
抓取速度限制
搜索引擎蜘蛛不會為了抓取更多頁面,把人家網站服務器拖垮,所以對某個網站都會設定一個抓取速度的上限,crawl rate limit,也就是服務器能承受的上限,在這個速度限制內,蜘蛛抓取不會拖慢服務器、影響用戶訪問。
服務器反應速度夠快,這個速度限制就上調一點,抓取加快,服務器反應速度下降,速度限制跟著下降,抓取減慢,甚至停止抓取。
所以,抓取速度限制是搜索引擎“能”抓取的頁面數。
抓取份額是由什么決定的?
抓取份額是考慮抓取需求和抓取速度限制兩者之后的結果,也就是搜索引擎“想”抓,同時又“能”抓的頁面數。
網站權重高,頁面內容質量高,頁面夠多,服務器速度夠快,抓取份額就大。