<code id="6mcsu"></code>
<li id="6mcsu"></li>
<li id="6mcsu"><dl id="6mcsu"></dl></li>
  • <code id="6mcsu"><tr id="6mcsu"></tr></code>
    或者

    淺析爬蟲的不重復抓取策略

    作者:冰河世紀 瀏覽:107 發布時間:2017-07-05
    分享 評論 0

        不重復抓取?有很多初學者可能會覺得。爬蟲不是有深度優先和廣度優先兩種抓取策略嗎?你這怎么又多出來一個不重復抓取策略呢?其實我這幾天有不止一次聽到了有人說要在不同頁面增加同一頁面鏈接,才能保證收錄。我想真能保證嗎?涉及收錄問題的不止是抓沒抓吧?也從而延伸出今天的這篇文章,不重復抓取策略,以說明在一定時間內的爬蟲抓取是有這樣規則的,當然還有很多其他的規則策略,以后有機會再說,例如優先抓取策略、網頁重訪策略等等。


        回歸正題,不重復抓取,就需要去判斷是否重復。那么就需要記住之前的抓取行為,我們舉一個簡單的例子。你在我的QQ群里看到我發了一個URL鏈接,然后你是先看到了我發的這個鏈接,然后才會點擊并在瀏覽器打開看到具體內容。這個等于爬蟲看到了后才會進行抓取。那怎么記錄呢?


        假設這是一個網頁上所有的鏈接,當爬蟲爬取這個頁面的鏈接時就全部發現了。當然爬取(理解為發現鏈接)與抓取(理解為抓取網頁)是同步進行的。一個發現了就告訴了另外一個,然后前面的繼續爬,后面的繼續抓。抓取完了就存起來,并標記上,如上圖,我們發現第2條記錄和第6條記錄是重復的。那么當爬蟲抓取第二條后,又爬取到了第6條就發現這條信息已經抓取過了,那么就不再抓取了。爬蟲不是盡可能抓更多的東西嗎?為什么還要判斷重復的呢?


        其實,我們可以想一下。互聯網有多少網站又有多少網頁呢?趙彥剛是真沒查證過,但這個量級應該大的驚人了。而本身搜索引擎的爬取和抓取都是需要執行一段代碼或一個函數。執行一次就代表著要耗費一丁點資源。如果抓取的重復量級達到百億級別又會讓爬蟲做多少的無用功?耗費搜索引擎多大的成本?這成本就是錢,降低成本就是減少支出。當然不重復抓取不光體現在這里,但這個是最顯而易見的。你要知道的就是類似于內容詳情頁的熱門推薦、相關文章、隨機推薦、最新文章的重復度有多大?是不是所有頁面都一樣?如果都一樣,那么可以適當調整下,在不影響網站本身的用戶體驗前提下,去適當做一些調整。畢竟網站是給用戶看的,搜索引擎只是獲取流量的一個重要入口,一種營銷較為重要的途徑!


    国产中文字幕在线视频| 免费看又黄又无码的网站| 国产亚洲?V无码?V男人的天堂| 日本欧美亚洲中文| 中中文字幕亚洲无线码| 亚洲AV区无码字幕中文色| 亚洲伦另类中文字幕| 免费无码婬片aaa直播表情| 欧美日韩中文在线| 久久久久亚洲Av无码专| 成人无码AV一区二区| 日本中文字幕网站| 中文字幕乱妇无码AV在线| 18禁黄无码高潮喷水乱伦 | 无码视频在线播放一二三区| 亚洲日产无码中文字幕| 亚洲欧美在线一区中文字幕| 中文字幕有码无码AV| 久久久无码精品亚洲日韩软件| 亚洲成AV人在线观看天堂无码| 久久中文字幕视频、最近更新| 夜夜精品无码一区二区三区| 国产成人无码A区在线观看视频| 无码人妻少妇久久中文字幕蜜桃 | 日本中文一区二区三区亚洲| 中文字幕无码AV波多野吉衣| 精品人妻系列无码人妻免费视频| 久久精品无码午夜福利理论片| 亚洲Av永久无码精品三区在线| 免费无码又爽又刺激一高潮| 精品久久久久久无码不卡| 一本精品中文字幕在线| 日本中文字幕免费看| 熟妇人妻无乱码中文字幕真矢织江 | 无码毛片AAA在线| 熟妇人妻系列aⅴ无码专区友真希 熟妇人妻系列av无码一区二区 | 中文字幕高清在线| 精品久久久久中文字幕一区| 中文字幕夜色资源网站| 亚洲天堂中文字幕在线| 日韩AV高清无码|