<code id="6mcsu"></code>
<li id="6mcsu"></li>
<li id="6mcsu"><dl id="6mcsu"></dl></li>
  • <code id="6mcsu"><tr id="6mcsu"></tr></code>
    或者

    BaiduSpider升級了3.0抓取速度提升80%

    作者:9527 瀏覽:210 發布時間:2017-12-06
    分享 評論 0

      BaiduSpider3.0升級了,抓取速度提升80%,帶大家一起來看看吧。


      BaiduSpider3.0


      BaiduSpider升級到3.0,抓取速度提升80%


      Baidu Spider上一次升級還要追溯到2010年。


      那個時候,中國互聯網資源急劇擴張,從百億擴大到千億規模,因而spider系統進行了重構,從單機互聯轉變為分布式計算系統。


      但是有一個很大的缺點:延時嚴重!


      而此次重構是把當前離線、全量計算為主的系統,改造成實時、增量計算的全實時調度系統,萬億規模的數據進行實時讀寫,可以收錄90%的網頁,速度提升80%!


      一張圖以蔽之:


      Baidu Spider3.0


      Baidu Spider3.0


      一、鏈接發現方面


      如今sipder每天發現的新鏈接在500億左右的量級,而在百度站長平臺提交鏈接是其中最為高效的,特此,工程師提醒站長不要過度提交鏈接,尤其是低質鏈接,這樣才能達到更好更及時的收錄效果。


      二、鏈接抓取方面


      策略上,開發了更強大的機器學習模型,來進行鏈接的質量預測,對庫中所有的鏈接進行全局排序,對有價值鏈接的召回率提高95%!


      架構上,計算性能的強勁提升,對每天新增的數百億模塊的鏈接,完成實時計算,延時不到1秒;開發了更強大的存儲系統,面對萬億規模的數據做到實時讀寫。


      三、時效性頁面方面


      中長尾站的福音!針對時效性資源,從原來的優先對新浪、網易等大新聞站進行抓取,擴大到覆蓋全網的新聞、博客、論壇等站點進行快速抓取,大小站都能優待。


      打破老的平穩抓取模型,采用按需抓取機制,對有時效性新資源,做到秒級抓取。


      目前,每天收錄的時效性資源規模,擴大到原來的3倍,達到近1億量級!


      四、死鏈方面


      全新的死鏈識別模型,能識別各種協議死鏈、內容死鏈、跳轉死鏈等低質網頁。


      其中無效低質網頁(如被黑),通過百度站長平臺提交,可加快檢索屏蔽的過程。


      五、建庫方面


      索引展現時效性提升,原來是10天左右,現在提升40%~80%不等!


      最后總結一下原文中的植入廣告:


      Spider3.0時代


      站長平臺鏈接提交工具,可以讓抓取快上加快!


      站長平臺死鏈提交工具,可以讓檢索屏蔽過程快上加快!


      請問,你的網站驗證了嗎?


    最新中文字幕在线视频| 国产AV无码专区亚洲A∨毛片| 未满小14洗澡无码视频网站| 亚洲Av无码专区国产乱码不卡| 中文无码人妻有码人妻中文字幕| 日韩电影无码A不卡| 亚洲va无码手机在线电影| 中文字幕人成人乱码亚洲电影| 亚洲AV无码成人精品区蜜桃| 久久中文骚妇内射| 日韩精品无码久久一区二区三 | 色综合天天综合中文网| 亚洲A∨无码无在线观看| 日本精品中文字幕| 亚洲 无码 在线 专区| 无码人妻丰满熟妇区免费 | V一区无码内射国产| 精品日韩亚洲AV无码一区二区三区 | 久久久久亚洲av无码专区导航| 最近最新中文字幕视频| 天堂8а√中文在线官网| 欧美日韩国产中文高清视频| 国产成人无码综合亚洲日韩| 亚洲av无码一区二区三区不卡| 最近中文2019字幕第二页| 婷婷五月六月激情综合色中文字幕| 无码AV中文一区二区三区| 亚洲AV无码专区日韩| 在线观看免费无码视频| 中文字幕丰满乱子无码视频| 777久久精品一区二区三区无码 | 无码乱肉视频免费大全合集| 亚洲AV中文无码乱人伦在线观看| 亚洲不卡无码av中文字幕| 亚洲国产av无码精品| 忘忧草在线社区WWW中国中文| 亚洲av无码成人精品区在线播放 | 色综合久久中文字幕无码| 精品久久久久久中文字幕大豆网| 中文人妻av高清一区二区| 亚洲精品成人无码中文毛片不卡|