<code id="6mcsu"></code>
<li id="6mcsu"></li>
<li id="6mcsu"><dl id="6mcsu"></dl></li>
  • <code id="6mcsu"><tr id="6mcsu"></tr></code>
    或者

    帶你玩轉(zhuǎn)robots協(xié)議,新手必備

    作者:問淺 瀏覽:158 發(fā)布時間:2017-11-01
    分享 評論 0

      2013年2月8日北京市第一中級人民法院正式受理了百度訴奇虎360違反“Robots協(xié)議”抓取、復(fù)制其網(wǎng)站內(nèi)容的不正當(dāng)競爭行為一案,索賠金額高達(dá)一億元,這可以看做2012年下半年“3B大戰(zhàn)”的繼續(xù)。在此次索賠案件中,百度稱自己的Robots文本中已設(shè)定不允許360爬蟲進(jìn)入,而360的爬蟲依然對“百度知道”、“百度百科”等百度網(wǎng)站內(nèi)容進(jìn)行抓取。             


      其 實早在2012年11月初,針對雙方摩擦加劇的情況,在中國互聯(lián)網(wǎng)協(xié)會的牽頭下,包括百度、新浪、奇虎360在內(nèi)的12家互聯(lián)網(wǎng)公司已共同簽署了《互聯(lián)網(wǎng) 搜索引擎服務(wù)自律公約》,在公約第七條承諾“遵循國際通行的行業(yè)慣例與商業(yè)規(guī)則,遵守機(jī)器人協(xié)議(robots協(xié)議)。
      今天就找個機(jī)會聊聊一夜成名的robots協(xié)議。
      初識robots協(xié)議
      什么是robots
      要 了解robots協(xié)議首先要了解robots,本文說的robots不是《I,robot》里的威爾·史密斯,不是《機(jī)器人總動員》里的瓦力和伊娃,不是 《終結(jié)者》系列中的施瓦辛格。什么?這些經(jīng)典電影你都不知道?好吧,算我想多了。本文的robots特指搜索引擎領(lǐng)域的web robots,這個名字可能很多人不熟悉,但是提到Web Wanderers,Crawlers和Spiders很多人可能就恍然大悟了,在中文里我們統(tǒng)稱為爬蟲或者網(wǎng)絡(luò)爬蟲,也就是搜索引擎抓取互聯(lián)網(wǎng)網(wǎng)頁的程序。
      同學(xué)們都知道網(wǎng)頁是通過超級鏈接互相關(guān)聯(lián)起來的,從而形成了網(wǎng)頁的網(wǎng)狀結(jié)構(gòu)。爬蟲的工作方式就像蜘蛛在網(wǎng)上沿著鏈接爬來爬去,最基本的流程可以簡化如下:
      1.喂給爬蟲一堆url,我們稱之為種子(seeds)2.爬蟲抓取seeds,解析html網(wǎng)頁,抽取其中的超級鏈接3.爬蟲接著抓取這些新發(fā)現(xiàn)的鏈接指向的網(wǎng)頁
      2,3循環(huán)往復(fù)
      什么是robots協(xié)議
      了解了上面的流程就能看到對爬蟲來說網(wǎng)站非常被動,只有老老實實被抓取的份。存在這樣的需求:
      1.某些路徑下是個人隱私或者網(wǎng)站管理使用,不想被搜索引擎抓取,比如說日本愛情動作片2.不喜歡某個搜索引擎,不愿意被他抓取,最有名的就是之前淘寶不希望被百度抓取3.小網(wǎng)站使用的是公用的虛擬主機(jī),流量有限或者需要付費,希望搜索引擎抓的溫柔點4.某些網(wǎng)頁是動態(tài)生成的,沒有直接的鏈接指向,但是希望內(nèi)容被搜索引擎抓取和索引網(wǎng) 站內(nèi)容的所有者是網(wǎng)站管理員,搜索引擎應(yīng)該尊重所有者的意愿,為了滿足以上等等,就需要提供一種網(wǎng)站和爬蟲進(jìn)行溝通的途徑,給網(wǎng)站管理員表達(dá)自己意愿的機(jī) 會。有需求就有供應(yīng),robots協(xié)議就此誕生。Robots協(xié)議,學(xué)名叫:The Robots Exclusion Protocol,就搜索引擎抓取網(wǎng)站內(nèi)容的范圍作了約定,包括網(wǎng)站是否希望被搜索引擎抓取,哪些內(nèi)容不允許被抓取,把這些內(nèi)容放到一個純文本文件 robots.txt里,然后放到站點的根目錄下。爬蟲抓取網(wǎng)站內(nèi)容前會先抓取robots.txt,據(jù)此“自覺地”抓取或者不抓取該網(wǎng)頁內(nèi)容,其目的是 保護(hù)網(wǎng)站數(shù)據(jù)和敏感信息、確保用戶個人信息和隱私不被侵犯。
      需要注意的是robots協(xié)議并非是規(guī)范,只是行業(yè)內(nèi)一個約定俗成的協(xié)議。什么意思呢?Robots協(xié)議不是什么技術(shù)壁壘,而只是一種互相尊重的協(xié)議,好比私家花園的門口掛著“閑人免進(jìn)”,尊重者繞道而行,不尊重者依然可以推門而入,比如說360。
      說了這么多,看幾個有名的例子感覺一下先:
      例子1:淘寶
      User-agent: Baiduspider
      Disallow: /
      User-agent: baiduspider
      Disallow: /
      程序猿,你懂的。這不就是淘寶不想讓百度抓取嘛例子2:京東
      User-agent: *
      Disallow: /?*
      Disallow: /pop/*.html
      User-agent: EtaoSpider
      Disallow: /
      這個也不復(fù)雜,京東有2個目錄不希望所有搜索引擎來抓。同時,對etao完全屏蔽。
      基本玩法
      robots.txt的位置
      說簡單也簡單,robots.txt放到一個站點的根目錄下即可。說復(fù)雜也有點小復(fù)雜,一個robots.txt只能控制相同協(xié)議,相同端口,相同站點的網(wǎng)頁抓取策略。什么意思呢?看個例子最清楚:
      百度網(wǎng)頁搜索
      百度知道
      這兩個robots.txt的內(nèi)容是不同的,也就是說百度網(wǎng)頁搜索和百度知道的抓取策略可以由自己獨立的robots.txt來控制,井水不犯河水。
      robots.txt的內(nèi)容
      最簡單的robots.txt只有兩條規(guī)則:
      1.User-agent:指定對哪些爬蟲生效
      2.Disallow:指定要屏蔽的網(wǎng)址
      整個文件分為x節(jié),一節(jié)由y個User-agent行和z個Disallow行組成。一節(jié)就表示對User-agent行指定的y個爬蟲屏蔽z個網(wǎng)址。這里x>=0,y>0,z>0。x=0時即表示空文件,空文件等同于沒有robots.txt。
      下面詳細(xì)介紹這兩條規(guī)則:
      User-agent
      爬蟲抓取時會聲明自己的身份,這就是User-agent,沒錯,就是http協(xié)議里的User-agent。robots.txt利用User-agent來區(qū)分各個引擎的爬蟲。
      舉例說明:google網(wǎng)頁搜索爬蟲的User-agent為Googlebot,下面這行就指定google的爬蟲。
      User-agent:Googlebot
      如果想指定所有的爬蟲怎么辦?不可能窮舉啊,可以用下面這一行:
      User-agent: *
      可能有的同學(xué)要問了,我怎么知道爬蟲的User-agent是什么?這里提供了一個簡單的列表:爬蟲列表當(dāng)然,你還可以查相關(guān)搜索引擎的資料得到官方的數(shù)據(jù),比如說google爬蟲列表,百度爬蟲列表Disallow
      Disallow 行列出的是要攔截的網(wǎng)頁,以正斜線 (/) 開頭,可以列出特定的網(wǎng)址或模式。
      要屏蔽整個網(wǎng)站,使用正斜線即可:
      Disallow: /
      要屏蔽某一目錄以及其中的所有內(nèi)容,在目錄名后添加正斜線:
      Disallow: /無用目錄名/
      要屏蔽某個具體的網(wǎng)頁,就指出這個網(wǎng)頁。
      Disallow: /網(wǎng)頁。html
      Disallow還可以使用前綴和通配符。
      要屏蔽目錄a1-a100,可以使用上面的方式寫100行,或者Disallow:/a
      但是需要注意,這樣會把任何以a開頭的目錄和文件也屏蔽,慎用。如果需要屏蔽a1-a100,但是不屏蔽a50,怎么辦?同學(xué)們可以思考一下,這個問題我們留到下一節(jié)。
      要阻止特定類型的文件(如 .gif),請使用以下內(nèi)容:
      Disallow: /*.gif$
      *匹配任意個字符,$匹配url結(jié)束,具體就不解釋了吧,不了解的同學(xué)去自學(xué)一下通配符。
      提示一下,Disallow的內(nèi)容區(qū)分大小寫。例如,Disallow:/junkfile.asp 會屏蔽 junkfile.asp,卻會允許Junk_file.asp。
      最最后,通配符不是所有搜索引擎都支持,使用要小心。沒辦法,誰讓robots.txt沒有一個大家都承認(rèn)的標(biāo)準(zhǔn)呢。
      實例 ###
      百度網(wǎng)頁搜索
      User-agent: Baiduspider
      Disallow: /baidu
      Disallow: /s?
      User-agent: Googlebot
      Disallow: /baidu
      Disallow: /s?
      Disallow: /shifen/
      Disallow: /homepage/
      Disallow: /cpro
      User-agent: MSNBot
      Disallow: /baidu
      Disallow: /s?
      Disallow: /shifen/
      Disallow: /homepage/
      Disallow: /cpro
      …
      現(xiàn)在讀懂這個應(yīng)該毫無壓力了吧,順便說一句百度的robots.txt比較啰嗦,有興趣的同學(xué)可以簡化一下。
      高階玩法
      首先聲明:高級玩法不是所有引擎的爬蟲都支持,一般來說,作為搜索引擎技術(shù)領(lǐng)導(dǎo)者的谷歌支持的最好。
      例子:google robots.txt
      allow
      還記得上面的問題嗎?如果需要屏蔽a1-a100,但是不屏蔽a50,怎么辦?
      方案1:
      Disallow:/a1/
      Disallow:/a2/
      …
      Disallow:/a49/
      Disallow:/a51/
      …
      Disallow:/a100/
      方案2:
      Disallow:/a
      Allow:/a50/
      ok,allow大家會用了吧。
      順便說一句,如果想屏蔽a50下面的文件private.html,咋整?
      Disallow:/a
      Allow:/a50/
      Disallow:/a50/private.html
      聰明的你一定能發(fā)現(xiàn)其中的規(guī)律,對吧?誰管的越細(xì)就聽誰的。
      sitemap
      前 面說過爬蟲會通過網(wǎng)頁內(nèi)部的鏈接發(fā)現(xiàn)新的網(wǎng)頁。但是如果沒有連接指向的網(wǎng)頁怎么辦?或者用戶輸入條件生成的動態(tài)網(wǎng)頁怎么辦?能否讓網(wǎng)站管理員通知搜索引擎 他們網(wǎng)站上有哪些可供抓取的網(wǎng)頁?這就是sitemap,最簡單的 Sitepmap 形式就是 XML 文件,在其中列出網(wǎng)站中的網(wǎng)址以及關(guān)于每個網(wǎng)址的其他數(shù)據(jù)(上次更新的時間、更改的頻率以及相對于網(wǎng)站上其他網(wǎng)址的重要程度等等),利用這些信息搜索引擎 可以更加智能地抓取網(wǎng)站內(nèi)容。
      sitemap是另一個話題,足夠開一篇新的文章聊的,這里就不展開了,有興趣的同學(xué)可以參考sitemap新的問題來了,爬蟲怎么知道這個網(wǎng)站有沒有提供sitemap文件,或者說網(wǎng)站管理員生成了sitemap,(可能是多個文件),爬蟲怎么知道放在哪里呢?
      由于robots.txt的位置是固定的,于是大家就想到了把sitemap的位置信息放在robots.txt里。這就成為robots.txt里的新成員了。
      節(jié)選一段google robots.txt:
      Sitemap: http://www.gstatic.com/culturalinstitute/sitemaps/www_google_com_culturalinstitute/sitemap-index.xmlSitemap: http://www.google.com/hostednews/sitemap_index.xml插一句,考慮到一個網(wǎng)站的網(wǎng)頁眾多,sitemap人工維護(hù)不太靠譜,google提供了工具可以自動生成sitemap。
      metatag
      其實嚴(yán)格來說這部分內(nèi)容不屬于robots.txt,不過也算非常相關(guān),我也不知道放哪里合適,暫且放到這里吧。
      robots.txt 的初衷是為了讓網(wǎng)站管理員管理可以出現(xiàn)在搜索引擎里的網(wǎng)站內(nèi)容。但是,即使使用 robots.txt 文件讓爬蟲無法抓取這些內(nèi)容,搜索引擎也可以通過其他方式找到這些網(wǎng)頁并將它添加到索引中。例如,其他網(wǎng)站仍可能鏈接到該網(wǎng)站。因此,網(wǎng)頁網(wǎng)址及其他公開的信息(如指向相關(guān)網(wǎng)站的鏈接中的定位文字或開放式目錄管理系統(tǒng)中的標(biāo)題)有可能會出現(xiàn)在引擎的搜索結(jié)果中。如果想徹底對搜索引擎隱身那咋整呢?答案是: 元標(biāo)記,即meta tag。
      比如要完全阻止一個網(wǎng)頁的內(nèi)容列在搜索引擎索引中(即使有其他網(wǎng)站鏈接到此網(wǎng)頁),可使用 noindex 元標(biāo)記。只要搜索引擎查看該網(wǎng)頁,便會看到 noindex 元標(biāo)記并阻止該網(wǎng)頁顯示在索引中,這里注意noindex元標(biāo)記提供的是一種逐頁控制對網(wǎng)站的訪問的方式。
      舉例:
      要防止所有搜索引擎將網(wǎng)站中的網(wǎng)頁編入索引,在網(wǎng)頁的部分添加:
      <meta name="robots"content="noindex">
      這里的name取值可以設(shè)置為某個搜索引擎的User-agent從而指定屏蔽某一個搜索引擎。
      除了noindex外,還有其他元標(biāo)記,比如說nofollow,禁止爬蟲從此頁面中跟蹤鏈接。詳細(xì)信息可以參考Google支持的元標(biāo)記,這里提一句:noindex和nofollow在HTML 4.01規(guī)范里有描述,但是其他tag的在不同引擎支持到什么程度各不相同,還請讀者自行查閱各個引擎的說明文檔。
      Crawl-delay
      除了控制哪些可以抓哪些不能抓之外,robots.txt還可以用來控制爬蟲抓取的速率。如何做到的呢?通過設(shè)置爬蟲在兩次抓取之間等待的秒數(shù)。
      Crawl-delay:5
      表示本次抓取后下一次抓取前需要等待5秒。
      注意:google已經(jīng)不支持這種方式了,在webmastertools里提供了一個功能可以更直觀的控制抓取速率。
      這 里插一句題外話,幾年前我記得曾經(jīng)有一段時間robots.txt還支持復(fù)雜的參數(shù):Visit-time,只有在visit-time指定的時間段里, 爬蟲才可以訪問;Request-rate: 用來限制URL的讀取頻率,用于控制不同的時間段采用不同的抓取速率。后來估計支持的人太少,就漸漸的廢掉了,有興趣的同學(xué)可以自行g(shù)oogle。我了解 到的是目前google和baidu都已經(jīng)不支持這個規(guī)則了,其他小的引擎公司貌似從來都沒有支持過。如果確有支持那是我孤陋寡聞了,歡迎留言告知。
      真的有用?
      好吧,到此為止robots.txt相關(guān)的東東介紹的也七七八八了,能堅持看到這里的同學(xué)估計都躍躍欲試了,可惜,我要潑盆冷水,能完全指望robots.txt保護(hù)我們網(wǎng)站的內(nèi)容嗎?不一定。否則百度和360就不用打官司了。
      協(xié)議一致性
      第一個問題是robots.txt沒有一個正式的標(biāo)準(zhǔn),各個搜索引擎都在不斷的擴(kuò)充robots.txt功能,這就導(dǎo)致每個引擎對robots.txt的支持程度各有不同,更不用說在某個功能上的具體實現(xiàn)的不同了。
      緩存
      第 二個問題是robots.txt本身也是需要抓取的,出于效率考慮,一般爬蟲不會每次抓取網(wǎng)站網(wǎng)頁前都抓一下robots.txt,加上 robots.txt更新不頻繁,內(nèi)容需要解析。通常爬蟲的做法是先抓取一次,解析后緩存下來,而且是相當(dāng)長的時間。假設(shè)網(wǎng)站管理員更新了 robots.txt,修改了某些規(guī)則,但是對爬蟲來說并不會立刻生效,只有當(dāng)爬蟲下次抓取robots.txt之后才能看到最新的內(nèi)容。尷尬的是,爬蟲下次抓取robots.txt的時間并不是由網(wǎng)站管理員控制的。當(dāng)然,有些搜索引擎提供了web 工具可以讓網(wǎng)站管理員通知搜索引擎那個url發(fā)生了變化,建議重新抓取。注意,此處是建議,即使你通知了搜索引擎,搜索引擎何時抓取仍然是不確定的,只是比完全不通知要好點。至于好多少,那就看搜索引擎的良心和技術(shù)能力了。
      ignore
      第三 個問題,不知是無意還是有意,反正有些爬蟲不太遵守或者完全忽略robots.txt,不排除開發(fā)人員能力的問題,比如說根本不知道 robots.txt。另外,本身robots.txt不是一種強制措施,如果網(wǎng)站有數(shù)據(jù)需要保密,必需采取技術(shù)措施,比如說:用戶驗證,加密,ip攔 截,訪問頻率控制等。
      偷偷的抓
      第四個問題,即使采用了種種限制,仍然存在某些惡意的抓取行為能突破這些限制,比如一些利用肉雞進(jìn)行的抓取。悲觀的說,只要普通用戶可以訪問,就不能完全杜絕這種惡意抓取的行為。但是,可以通過種種手段使抓取的代價增大到讓對方無法接受。比如說:Captcha, Ajax用戶行為驅(qū)動的異步加載等等。這個就不屬于本文討論的范疇了。
      泄密
      最 后,robots.txt本身還存在泄密的風(fēng)險。舉例,如果某一個網(wǎng)站的robots.txt里突然新增了一條:Disallow /map/,你想到了什么?是不是要推出地圖服務(wù)了?于是有好奇心的同學(xué)就會開始嘗試各種文件名去訪問該路徑下的文件,希望能看到驚喜。貌似當(dāng)初 google的地圖就是這么被提前爆出來的,關(guān)于這點我不太確定,大家就當(dāng)八卦聽聽好了。
      工具
      google webmaster tools
      robots.txt生成工具
      Perl robots.txt解析器
      Python robots.txt解析器


    日韩精品无码免费专区午夜| 精品无码一区二区三区在线| 亚欧免费无码aⅴ在线观看| 亚洲AV中文无码乱人伦在线观看| 亚洲av永久无码精品网站 | 国产成人亚洲综合无码| 在线观看无码AV网站永久免费| 亚洲Av无码专区国产乱码DVD| 欧美日韩国产中文精品字幕自在自线 | 精品亚洲A∨无码一区二区三区| (愛妃視頻)国产无码中文字幕| 亚洲成av人片在线观看天堂无码| 黄桃AV无码免费一区二区三区| 亚洲日韩精品无码一区二区三区| 中文字幕在线免费| 最近2019中文免费字幕在线观看| 狠狠精品干练久久久无码中文字幕| 无码专区—VA亚洲V天堂| 国产aⅴ激情无码久久| 亚洲日韩中文字幕日韩在线| 欧美乱人伦人妻中文字幕| 中文字幕精品无码一区二区| 精品久久无码中文字幕| 色综合AV综合无码综合网站 | 无码H肉动漫在线观看| 亚洲精品无码鲁网中文电影| A级毛片无码久久精品免费| 久久亚洲精品无码aⅴ大香| 无码人妻精品一区二区三区99性| 国产一区三区二区中文在线| 婷婷中文娱乐网开心| 中文字幕无码精品亚洲资源网久久 | 日韩国产精品无码一区二区三区| 亚洲AV永久青草无码精品| 久久精品无码一区二区WWW| 天堂Aⅴ无码一区二区三区| 国产在线无码精品电影网| 国产aⅴ激情无码久久| 亚洲av福利无码无一区二区| 日韩一区二区三区无码影院| 久久久久久人妻无码|