波多野结衣在线中文,中文文字幕文字幕亚洲色,久久中文字幕无码专区

觸屏版
全國服務熱線：0571-87205688

價格查詢批量查詢一鍵轉入

查詢

或者

立即發布需求

昵稱：數風流人物

接單：535 關注TA

達標率 0%

博文分類

翻頁式網頁的抓取機制概況

作者：數風流人物 瀏覽：263次發布時間：2018-03-23

評論

贊0

搜索引擎Spider系統的目標就是發現并抓取互聯網中一切有價值的網頁，百度官方也明確表示蜘蛛只可以抓取到盡可能多的有價值資源并保持系統及實際環境中頁面的一致性同時不給網站體驗造成壓力，也就是說蜘蛛不會抓取所有網站的所有頁面，對此蜘蛛有很多的抓取策略來盡量快而全的發現資源鏈接，提高抓取效率。只有這樣蜘蛛才能盡量滿足絕大部分網站，這也是為什么我們要做好網站的鏈接結構的原因。接下來我就在博客的平臺上分享一下搜索引擎蜘蛛對翻頁式網頁的抓取機制。

1、為什么需要這個抓取機制？

當前大多數網站都用翻頁的形式來有序分布網站資源，當有新文章增加時，老資源往后推移到翻頁系列中。對蜘蛛來說，這種特定類型的索引頁是爬行的有效渠道，但是蜘蛛爬行頻率和網站文章更新頻率不盡相同，文章鏈接很有可能就被推到翻頁條中，這樣蜘蛛不可能每天從第1個翻頁條爬到第80個，然后一個文章一個文章的抓取，到數據庫對比，這樣太浪費搜索引擎蜘蛛的時間，也浪費你網站的收錄時間，所以蜘蛛需要對這種特殊類型的翻頁式網頁來一個額外的抓取機制，從而保證收錄資源的完全。

2、如何判斷是否是有序翻頁式頁面？

判斷文章是否按發布時間有序排布是這類頁面的一個必要條件，下面會說到。那么如何判斷資源是否按發布時間有序排布呢？有些頁面中每個文章鏈接后面跟隨著對應的發布時間，通過文章鏈接對應的時間集合，判斷時間集合是否按大到小或小到大排序，如果是的話，則說明網頁中的資源是按發布時間有序排布，反之亦然。就算沒寫發布時間，蜘蛛寫可以根據文章本身的實際發布時間進行判斷。

3、抓取機制的原理

針對這種翻頁式頁面，蜘蛛主要是通過記錄每次抓取網頁發現的文章鏈接，然后將此次發現的文章鏈接與歷史上發現的鏈接作比較，如果有交集，說明該次抓取發現了所有的新增文章，可以停止對后面翻頁條的抓取了；否則，說明該次抓取并未發現所有的新增文章，需要繼續抓取下一頁甚至下幾頁來發現所有的新增文章。

在此以博客為例，比如在網站翻頁目錄新添加了29篇文章，也就是說上次最新一篇是第30篇，而蜘蛛是一次性抓取10篇文章鏈接，這樣蜘蛛第一次進行抓取時抓了10篇，與上次并沒有交集，繼續抓取，第二次又抓10篇，也就是一共抓20篇了，還是與上一次沒有交集，然后繼續抓取，這一次就抓到了第30篇，也就是和上次的有交集了，這就說明蜘蛛已經抓取了從上次抓取到這次網站更新的全部29篇文章。

上一篇：搜索引擎判定相似文章網頁的原理 下一篇：手機站SEO優化的5個注意事項

評論(0人參與，0條評論)

發布評論

博文分類

翻頁式網頁的抓取機制概況

猜你喜歡

評論(0人參與，0條評論)

最新評論