<code id="6mcsu"></code>
<li id="6mcsu"></li>
<li id="6mcsu"><dl id="6mcsu"></dl></li>
  • <code id="6mcsu"><tr id="6mcsu"></tr></code>
    或者

    翻頁式網頁的抓取機制概況

    作者:數風流人物 瀏覽:263 發布時間:2018-03-23
    分享 評論 0

    搜索引擎Spider系統的目標就是發現并抓取互聯網中一切有價值的網頁,百度官方也明確表示蜘蛛只可以抓取到盡可能多的有價值資源并保持系統及實際環境中頁面的一致性同時不給網站體驗造成壓力,也就是說蜘蛛不會抓取所有網站的所有頁面,對此蜘蛛有很多的抓取策略來盡量快而全的發現資源鏈接,提高抓取效率。只有這樣蜘蛛才能盡量滿足絕大部分網站,這也是為什么我們要做好網站的鏈接結構的原因。接下來我就在博客的平臺上分享一下搜索引擎蜘蛛對翻頁式網頁的抓取機制。


    1、為什么需要這個抓取機制?


    當前大多數網站都用翻頁的形式來有序分布網站資源,當有新文章增加時,老資源往后推移到翻頁系列中。對蜘蛛來說,這種特定類型的索引頁是爬行的有效渠道,但是蜘蛛爬行頻率和網站文章更新頻率不盡相同,文章鏈接很有可能就被推到翻頁條中,這樣蜘蛛不可能每天從第1個翻頁條爬到第80個,然后一個文章一個文章的抓取,到數據庫對比,這樣太浪費搜索引擎蜘蛛的時間,也浪費你網站的收錄時間,所以蜘蛛需要對這種特殊類型的翻頁式網頁來一個額外的抓取機制,從而保證收錄資源的完全。


    2、如何判斷是否是有序翻頁式頁面?


    判斷文章是否按發布時間有序排布是這類頁面的一個必要條件,下面會說到。那么如何判斷資源是否按發布時間有序排布呢?有些頁面中每個文章鏈接后面跟隨著對應的發布時間,通過文章鏈接對應的時間集合,判斷時間集合是否按大到小或小到大排序,如果是的話,則說明網頁中的資源是按發布時間有序排布,反之亦然。就算沒寫發布時間,蜘蛛寫可以根據文章本身的實際發布時間進行判斷。


    3、抓取機制的原理


    針對這種翻頁式頁面,蜘蛛主要是通過記錄每次抓取網頁發現的文章鏈接,然后將此次發現的文章鏈接與歷史上發現的鏈接作比較,如果有交集,說明該次抓取發現了所有的新增文章,可以停止對后面翻頁條的抓取了;否則,說明該次抓取并未發現所有的新增文章,需要繼續抓取下一頁甚至下幾頁來發現所有的新增文章。


    在此以博客為例,比如在網站翻頁目錄新添加了29篇文章,也就是說上次最新一篇是第30篇,而蜘蛛是一次性抓取10篇文章鏈接,這樣蜘蛛第一次進行抓取時抓了10篇,與上次并沒有交集,繼續抓取,第二次又抓10篇,也就是一共抓20篇了,還是與上一次沒有交集,然后繼續抓取,這一次就抓到了第30篇,也就是和上次的有交集了,這就說明蜘蛛已經抓取了從上次抓取到這次網站更新的全部29篇文章。


    日韩人妻无码精品一专区| 最近完整中文字幕2019电影| 中文字幕无码免费久久| 中文字幕丰满乱子伦无码专区| 国产精品成人无码久久久久久| 国产资源网中文最新版| 国产aⅴ无码专区亚洲av| 中文无码不卡的岛国片| 天堂在线资源中文在线8| 久久久久亚洲Av无码专| 最近免费中文字幕中文高清| 中文字幕精品无码一区二区| 水蜜桃av无码一区二区| 久久无码AV一区二区三区| 日韩精品久久无码中文字幕| 日韩精品无码免费视频| 久久水蜜桃亚洲av无码精品麻豆| 精品人妻无码区在线视频| 日本中文字幕中出在线| 亚洲成a人在线看天堂无码| 久久亚洲AV成人无码电影| 亚洲成av人片在线观看无码不卡| 天堂网www中文在线资源| 国产中文字幕乱人伦在线观看| 亚洲精品乱码久久久久久中文字幕| 18禁黄无码高潮喷水乱伦| 日韩精品无码中文字幕一区二区| 国产成人无码区免费内射一片色欲 | 中文字幕一区二区三区久久网站| 亚洲AV无码乱码在线观看性色扶 | 亚洲国产成人片在线观看无码| 日韩乱码人妻无码中文视频| 久久久久久综合一区中文字幕| 久久精品中文字幕大胸| 中文字幕精品无码一区二区 | 亚洲国产av无码精品| 国产成人无码免费网站| JLZZJLZZ亚洲乱熟无码| 国产99久久九九精品无码| 高清无码在线视频| 亚洲国产精品无码久久青草|