久草中文在线观看_久久精品中文字幕一区_亚洲日本欧美日韩中文字幕_熟妇人妻无乱码中文字幕真矢织江

或者

與Googbot的第一次約會:標頭和壓縮

作者:胡舒君 瀏覽:4289 發布時間:2016-12-22
編輯 分享 評論 3


本文翻譯自:First date with the Googlebot: Headers and compression

谷歌機器人 -- 多么神奇的夢幻之舟!他了解我們的靈魂和各個組成部分。或許他并不尋求什么獨一無二的東西;他閱覽過其它數十億個網站(雖然我們也與其他搜索引擎機器人分享自己的數據:)),但是就在今晚,作為網站和谷歌機器人,我們將真正地了解對方。

我知道第一次約會的時候,過分地分析從來就不是什么好主意。我們將通過一系列的文章,一點點地了解谷歌機器人:

我們的第一次約會(就在今晚):谷歌機器人發出的數據標頭和他所留意到的文件格式是否適于被進行壓縮處理;

判斷他的反應:響應代碼(301s、302s),他如何處理重定向和If-Modified-Since;

下一步:隨著鏈接,讓他爬行得更快或者更慢(這樣他就不會興奮地過了頭)。

今晚只是我們的第一次約會……

***************

谷歌機器人: 命令正確應答

網站: 谷歌機器人,你來了!

谷歌機器人:是的,我來了!


GET / HTTP/1.1

Host: example.com

Connection: Keep-alive

Accept: */*

From: googlebot(at)googlebot.com

User-Agent: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Accept-Encoding: gzip,deflate


網站: 這些標頭太炫了!無論我的網站在美國、亞洲還是歐洲,你都用同樣的標頭爬行嗎?你曾經用過其他標頭嗎?


谷歌機器人: 一般而言,我在全球各地所用的標頭都保持一致。我試圖從一個網站默認的語言和設定出發,搞清楚一個網頁究竟長得什么樣。有時候人們的用戶代理各不相同,例如Adsense讀取使用的是“Mediapartners-Google”:

User-Agent: Mediapartners-Google

或者對于圖像搜索:

User-Agent: Googlebot-Image/1.0

無線讀取的用戶代理因運營商而異,而谷歌閱讀器RSS讀取則包含了訂閱者數量等額外信息。

我通常會避免Cookies(因此不存在所謂“Cookie:”標頭),因為我并不希望與具體對話有關的信息對內容產生太大的影響。此外,如果某個服務器在動態URL而不是Cookies上使用對話ID,通常我都能識別出來,這樣就不用因為每次對話ID的不同而成千上萬遍地重復爬行同一個網頁。

網站:我的結構非常復雜。我是用許多類型的文件。你的標頭說:“Accept:*/*”。你會對所有的URL進行收錄,還是自動過濾某些文件擴展名?


谷歌機器人:這要取決于我想找什么。

如果我只是對常規的Web搜索進行檢索,當我看到指向MP3和視頻內容的鏈接,我可能不會下載這些東西。類似地,如果我看到了一個JPG文件,處理方法自然 就與HTML或者PDF鏈接有所區別。例如JPG 的變動頻率往往比HTML低很多,所以我不太經常檢查JPG的變動,以節約帶寬。同時,如果我為谷歌學術搜索尋找鏈接,那么我對PDF文章的興趣就會遠遠高于對JPG文件的興趣。對于學者而言,下載涂鴉繪畫(例如JPG),或者是關于小狗玩滑板的視頻,是容易讓他們分散注意力的,你說對嗎?

網站:沒錯,他們可能會覺得被打擾到了。你的敬業精神令我佩服得五體投地。我自己就喜歡涂鴉繪畫(JPG),很難抗拒它們的誘惑力。

谷歌機器人:我也一樣。實際上我并不是一直都在做學問。如果我為搜索圖像而爬行,就會對JPG非常感興趣,碰到新聞,我會花大力氣考察HTML和它們附近的圖像。

還有很多擴展名,例如exe、dll、zip、dmg等,它們對于搜索引擎而言,既數量龐大,又沒有多大用處。


網站:如果你看到我的URL“http://www.example.com/page1.LOL111”,(嗚噎著說)你會不會只是因為里面包含著未知的文件擴展名就把它拒之門外呢?


谷歌機器人: 網站老兄,讓我給你講點背景知識吧。一個文件真正下載完成后,我會使用“內容—類別”(Content-Type)標頭來檢查它屬于HTML、圖像、文本還是別的什么東西。如果它是PDF、Word文檔或Excel工作表等特殊的數據類型,我會確認它的格式是否合法有效,并從中抽取文本內容。但是你永遠也不能確定里面是否含有病毒。但是如果文檔或數據類型混亂不清,我除了把它們扔掉之外,也沒有什么更好的辦法。

所以,如果我爬行你的“http://www.example.com/page1.LOL111”URL并發現未知文件擴展名時,我可能會首先把它下載。 如果我從標頭中無法弄清內容類型,或者它屬于我們拒絕檢索的文件格式(例如MP3),那么只能把它放在一邊了。除此之外,我們會接著對文件進行爬行。

網站:谷歌機器人,我很抱歉對你的工作風格“雞蛋里挑骨頭”,但我注意到你的“Accept-Encoding”標頭這樣說:

Accept-Encoding: gzip,deflate

你能跟我說說這些標頭是怎么回事嗎?


谷歌機器人:當然。所有的主流搜索引擎和WEB瀏覽器都支持對內容進行gzip壓縮,以節約帶寬。你或許還會碰到其它的一些類型,例如“x-gzip”(與“gzip”相同),“deflate”(我們也支持它)和“identity”(不支持)。


網站:你能更詳細地說說文件壓縮和“Accept-Encoding: gzip,deflate”嗎?我的許多URL都包含尺寸很大的Flash文件和美妙的圖像,不僅僅是HTML。如果我把一個比較大的文件加以壓縮,會不會有助于你更迅速地爬行呢?


谷歌機器人:對于這個問題,并沒有一個簡單的答案。首先,swf(Flash)、jpg、png、gif和pdf等文件格式本身已經是壓縮過的了(而且還有專門的Flash 優化器)。

網站:或許我已經把自己的Flash文件進行了壓縮,自己還不知道。很顯然,我的效率很高嘍。

谷歌機器人:Apache和IIS都提供了選項,允許進行gzip和deflate壓縮,當然,節省帶寬的代價是對CPU資源的更多消耗。一般情況下,這項功能只適用于比較容易壓縮的文件,例如文本HTML/CSS/PHP內容等。而且,只有在用戶的瀏覽器或者我(搜索引擎機器人)允許的情況下才可以使用。 就我個人而言,更傾向于“gzip”而不是“deflate”。Gzip的編碼過程相對可靠一些,因為它不斷地進行加和檢查,并且保持完整的標頭,不像 “deflate”那樣需要我在工作中不斷推測。除此之外,這兩種程序的壓縮算法語言都很相似。

如果你的服務器上有閑置的CPU資源,可以嘗試進行壓縮(鏈接:Apache, IIS)。但是,如果你提供的是動態內容,而且服務器的CPU已經處于滿負荷狀態,我建議你還是不要這樣做。


網站:很長見識。我很高興今晚你能來看我。感謝老天爺,我的robots.txt文件允許你能來。這個文件有時候就像對自己的子女過分保護的父母。


谷歌機器人:說到這里,該見見父母大人了——它就是robots.txt。我曾經見過不少發瘋的“父母”。其中有些實際上只是HTML錯誤信息網頁,而不是有效的robots.txt。有些文件里充滿了無窮無盡的重定向,而且可能指向完全不相關的站點。另外一些體積龐大,含有成千上萬條單獨成行、各不相同的 URL。下面就是其中的一種有副作用的文件模式,在通常情況下,這個站點是希望我去爬行它的內容的:

User-Agent: *

Allow: /

然而,在某個用戶流量的高峰時段,這個站點轉而將它的robots.txt切換到限制性極強的機制上:

# Can you go away for a while? I'll let you back

# again in the future. Really, I promise!

User-Agent: *

Disallow: /

上述robots.txt文件切換的問題在于,一旦我看到這種限制性很強的robots.txt,有可能使我不得不把索引中已經爬行的該網站內容舍棄掉。當我再次被批準進入這個站點的時候,我不得不將原先的許多內容重新爬行一遍,至少會暫時出現503錯誤相應代碼。

一 般來說,我每天只能重新檢查一次robots.txt(否則,在許多虛擬主機站點上,我會將一大部分時間花在讀取robots.txt文件上,要知道沒有 多少約會對象喜歡如此頻繁地拜見對方父母的)。站長們通過robots.txt 切換的方式來控制爬行頻率是有副作用的,更好的辦法是用網站管理員工具將爬行頻率調至“較低”即可。


谷歌機器人: 網站老兄,謝謝你提出的這些問題,你一直做得很不錯,但我現在不得不說“再見,我的愛人”了。

網站:哦,谷歌機器人…(結束應答):)


評論(0人參與,0條評論)

發布評論

最新評論

詞條統計

  • 瀏覽次數:4289
  • 編輯次數:0次歷史版本
  • 最近更新:2016-12-22
  • 創建者:胡舒君
  • 相關詞條

    相關問答

    相關百科

    相關資訊

    久草中文在线观看_久久精品中文字幕一区_亚洲日本欧美日韩中文字幕_熟妇人妻无乱码中文字幕真矢织江
    <code id="6mcsu"></code>
    <li id="6mcsu"></li>
    <li id="6mcsu"><dl id="6mcsu"></dl></li>
  • <code id="6mcsu"><tr id="6mcsu"></tr></code>
    国产夜色精品一区二区av| 最新高清无码专区| 国产剧情一区二区| 国产精品丝袜久久久久久app| 免费xxxx性欧美18vr| 久久女同精品一区二区| 白白色亚洲国产精品| 亚洲精品国产成人久久av盗摄| 欧美日韩不卡在线| 精品一区二区三区在线播放视频| 久久久久久免费网| 99久久精品免费看| 日韩激情视频网站| 国产亚洲女人久久久久毛片| 91啪亚洲精品| 免费欧美高清视频| 国产精品福利在线播放| 欧美色综合天天久久综合精品| 麻豆精品视频在线观看| 日本一区二区动态图| 欧美日韩高清一区二区三区| 国产精品 欧美精品| 亚洲一区二区三区在线播放| 亚洲精品一区二区三区福利| 色综合视频在线观看| 蜜桃精品视频在线观看| 国产精品久久久久一区二区三区 | 夜夜嗨av一区二区三区四季av| 日韩一区二区三区在线观看| a级高清视频欧美日韩| 日本欧美在线观看| 成人免费在线观看入口| 日韩免费观看高清完整版| 99re热这里只有精品免费视频| 日韩经典一区二区| 亚洲欧美在线观看| 欧美va亚洲va在线观看蝴蝶网| 色一情一伦一子一伦一区| 久久99最新地址| 一区二区三区四区蜜桃| 日韩女优电影在线观看| 91色porny蝌蚪| 国产精品资源网| 亚洲1区2区3区视频| 日本一区二区不卡视频| 日韩三级免费观看| 色婷婷国产精品久久包臀| 国产另类ts人妖一区二区| 午夜精品一区在线观看| 国产精品久久免费看| 欧美成人一区二区三区片免费| 在线中文字幕不卡| 成人妖精视频yjsp地址| 久久精品国产免费看久久精品| 亚洲综合色噜噜狠狠| 中文字幕不卡的av| 日韩欧美视频在线| 欧美日本在线观看| 一本色道**综合亚洲精品蜜桃冫| 国内精品在线播放| 日韩高清欧美激情| 亚洲国产综合色| 亚洲欧美国产高清| 国产精品久久久久久久蜜臀| 精品99一区二区| 欧美日韩mp4| 欧美在线观看一区| 99久免费精品视频在线观看| 国产精品一区二区免费不卡| 免费欧美在线视频| 视频一区在线播放| 亚洲已满18点击进入久久| 日韩毛片高清在线播放| 国产精品久久久久久久久免费桃花 | 99久精品国产| 成人一区二区三区中文字幕| 韩国女主播一区| 美女视频免费一区| 三级一区在线视频先锋| 亚洲国产日产av| 亚洲一区二区三区在线看| 亚洲精品乱码久久久久久日本蜜臀| 欧美经典三级视频一区二区三区| 2024国产精品| 精品国产一区二区三区不卡 | 欧美一区二区大片| 欧美日韩国产成人在线免费| 欧美日韩中文字幕一区二区| 欧美三级中文字| 欧美天堂一区二区三区| 在线视频综合导航| 欧美亚洲丝袜传媒另类| 精品视频资源站| 欧美三区免费完整视频在线观看| 欧美最新大片在线看| 一本大道av伊人久久综合| 97久久久精品综合88久久| 91网站在线观看视频| 色综合久久99| 欧美亚洲综合一区| 欧美日韩在线电影| 欧美挠脚心视频网站| 在线成人av影院| 日韩亚洲欧美在线观看| 精品va天堂亚洲国产| 久久亚洲春色中文字幕久久久| 久久美女艺术照精彩视频福利播放 | 日本美女一区二区三区| 蜜桃精品在线观看| 国产在线麻豆精品观看| 国产盗摄视频一区二区三区| 福利91精品一区二区三区| 成人av资源在线| 一本久久综合亚洲鲁鲁五月天 | 欧美色视频一区| 欧美久久一二区| 欧美草草影院在线视频| 久久久www成人免费毛片麻豆 | 国内外成人在线| 国产成人综合亚洲网站| eeuss影院一区二区三区| 色婷婷综合在线| 777亚洲妇女| 日韩精品一区二区三区中文不卡| 精品成人在线观看| 亚洲国产精品精华液ab| 亚洲精品欧美二区三区中文字幕| 午夜av区久久| 精品一区二区三区久久| 成人动漫中文字幕| 欧美性受极品xxxx喷水| 日韩欧美国产一二三区| 欧美国产日韩一二三区| 亚洲精品一卡二卡| 免费在线观看日韩欧美| 国产福利91精品一区| 色美美综合视频| 日韩欧美一区电影| 国产精品天干天干在线综合| 亚洲综合视频在线观看| 看电影不卡的网站| caoporen国产精品视频| 欧美日韩国产综合草草| 久久久亚洲午夜电影| 亚洲另类色综合网站| 七七婷婷婷婷精品国产| 成人国产在线观看| 欧美肥妇free| 中文字幕二三区不卡| 性做久久久久久免费观看| 国产一区欧美日韩| 欧美怡红院视频| 久久众筹精品私拍模特| 亚洲男女一区二区三区| 久久99久久久久| 91亚洲资源网| 精品国产免费视频| 一区二区三区不卡在线观看 | 国产乱人伦偷精品视频免下载| 色国产精品一区在线观看| 欧美电视剧在线看免费| 亚洲精品免费播放| 国内欧美视频一区二区 | 欧美一卡2卡三卡4卡5免费| 欧美激情资源网| 日韩国产精品久久| 91在线高清观看| 精品国产一区二区三区久久久蜜月| 亚洲三级久久久| 黄页视频在线91| 欧美色精品天天在线观看视频| 国产亚洲一区二区三区四区| 亚洲大片免费看| 成人视屏免费看| 欧美大片在线观看一区| 亚洲国产视频直播| 成人黄页毛片网站| 日韩精品一区二区三区中文不卡| 一区二区三区91| 成人免费视频一区| 日韩欧美亚洲国产精品字幕久久久| 亚洲激情在线激情| 成人午夜看片网址| 2019国产精品| 午夜精品一区在线观看| 91免费看片在线观看| 久久午夜色播影院免费高清| 午夜精品久久久久久久99樱桃| www..com久久爱| 久久久精品综合| 久久国产成人午夜av影院| 欧美日韩小视频| 亚洲另类在线视频| 成人av在线播放网站| 久久婷婷综合激情| 免费观看日韩电影| 欧美日韩国产免费| 亚洲最大色网站| 一本大道综合伊人精品热热| 国产精品久久三|