<code id="6mcsu"></code>
<li id="6mcsu"></li>
<li id="6mcsu"><dl id="6mcsu"></dl></li>
  • <code id="6mcsu"><tr id="6mcsu"></tr></code>
    或者

    BaiduSpider升級了3.0抓取速度提升80%

    作者:一只德德牛(團隊-快排) 瀏覽:177 發布時間:2017-04-19
    分享 評論 0

    BaiduSpider3.0升級了,抓取速度提升80%,帶大家一起來看看吧。

    BaiduSpider3.0

    BaiduSpider升級到3.0,抓取速度提升80%

    Baidu Spider上一次升級還要追溯到2010年。

    那個時候,中國互聯網資源急劇擴張,從百億擴大到千億規模,因而spider系統進行了重構,從單機互聯轉變為分布式計算系統。

    但是有一個很大的缺點:延時嚴重!

    而此次重構是把當前離線、全量計算為主的系統,改造成實時、增量計算的全實時調度系統,萬億規模的數據進行實時讀寫,可以收錄90%的網頁,速度提升80%!

    一張圖以蔽之:

    Baidu Spider3.0

    Baidu Spider3.0

     

    一、鏈接發現方面

    如今sipder每天發現的新鏈接在500億左右的量級,而在百度站長平臺提交鏈接是其中最為高效的,特此,工程師提醒站長不要過度提交鏈接,尤其是低質鏈接,這樣才能達到更好更及時的收錄效果。

    二、鏈接抓取方面

    策略上,開發了更強大的機器學習模型,來進行鏈接的質量預測,對庫中所有的鏈接進行全局排序,對有價值鏈接的召回率提高95%!

    架構上,計算性能的強勁提升,對每天新增的數百億模塊的鏈接,完成實時計算,延時不到1秒;開發了更強大的存儲系統,面對萬億規模的數據做到實時讀寫。

    三、時效性頁面方面

    中長尾站的福音!針對時效性資源,從原來的優先對新浪、網易等大新聞站進行抓取,擴大到覆蓋全網的新聞、博客、論壇等站點進行快速抓取,大小站都能優待。

    打破老的平穩抓取模型,采用按需抓取機制,對有時效性新資源,做到秒級抓取。

    目前,每天收錄的時效性資源規模,擴大到原來的3倍,達到近1億量級!

    四、死鏈方面

    全新的死鏈識別模型,能識別各種協議死鏈、內容死鏈、跳轉死鏈等低質網頁。

    其中無效低質網頁(如被黑),通過百度站長平臺提交,可加快檢索屏蔽的過程。

    五、建庫方面

    索引展現時效性提升,原來是10天左右,現在提升40%~80%不等!

    最后總結一下原文中的植入廣告:

    Spider3.0時代

    站長平臺鏈接提交工具,可以讓抓取快上加快!

    站長平臺死鏈提交工具,可以讓檢索屏蔽過程快上加快!

    請問,你的網站驗證了嗎?


    亚洲中文字幕无码爆乳av中文| 国产精品无码无卡无需播放器| 国产乱子伦精品无码专区| 久久精品亚洲乱码伦伦中文| 成?∨人片在线观看无码| 亚洲精品99久久久久中文字幕| 老子影院午夜精品无码| 中文字幕在线免费看线人| 亚洲中文字幕无码爆乳AV| 99久久人妻无码精品系列| 精品欧洲av无码一区二区14| 亚洲熟妇中文字幕五十中出| 黑人无码精品又粗又大又长 | 在线天堂中文WWW官网| AV无码久久久久不卡蜜桃| 亚洲中文字幕无码一久久区| 中文字幕在线视频网| AV色欲无码人妻中文字幕| 精品人妻系列无码人妻免费视频 | 无码人妻精品一区二区在线视频| 最近免费中文字幕MV在线视频3| 午夜不卡无码中文字幕影院| 国产仑乱无码内谢| 亚洲av中文无码乱人伦在线播放 | 国产精品99久久久精品无码| 久久久噜噜噜久久中文福利 | 最近中文字幕大全中文字幕免费| 无码专区永久免费AV网站| 欧美日韩中文字幕久久久不卡| 免费一区二区无码视频在线播放| 人妻丰满熟妇AV无码区乱| 精品亚洲欧美中文字幕在线看| 日本精品久久久久中文字幕8| 无码少妇一区二区浪潮av| 无码精品一区二区三区免费视频| 亚洲AV无码一区二区三区DV| 无码粉嫩小泬无套在线观看| 日韩亚洲欧美中文高清| 人妻中文无码久热丝袜| 少妇中文无码高清| 国产成人无码久久久精品一|