robots.txt使用技巧




屏蔽隱私頁(yè)面,后臺(tái)登陸頁(yè)面,緩存頁(yè)面,圖片目錄,css目錄,模板頁(yè)面,屏蔽雙頁(yè)面的內(nèi)容,同時(shí)可以屏蔽一些質(zhì)量比較差的頁(yè)面,例如金網(wǎng)的所有會(huì)員用戶空間頁(yè)面,dz的動(dòng)態(tài)鏈接也可以設(shè)置屏蔽.通過(guò)Disallow:命令來(lái)進(jìn)行設(shè)置.
每當(dāng)用戶試圖訪問(wèn)某個(gè)不存在的URL時(shí),服務(wù)器都會(huì)在日志中記錄404錯(cuò)誤(無(wú)法找到文件).每當(dāng)搜索蜘蛛來(lái)尋找并不存在的robots.txt文件時(shí),服務(wù)器也將在日志中記錄一條404錯(cuò)誤,所以你應(yīng)該在網(wǎng)站中添加一個(gè)robots.txt.
網(wǎng)站管理員必須使搜索引擎機(jī)器人程序遠(yuǎn)離服務(wù)器上的某些目錄,以保證服務(wù)器性能.比如:大多數(shù)網(wǎng)站服務(wù)器都有程序儲(chǔ)存在"cgi-bin"目錄下,因此在robots.txt文件中加入"Disallow: /cgi-bin"是個(gè)好主意,這樣能夠避免所有程序文件都被蜘蛛索引,以達(dá)到節(jié)省服務(wù)器資源的效果.
一般網(wǎng)站中不需要蜘蛛抓取的文件有:后臺(tái)管理文件、程序腳本、附件、數(shù)據(jù)庫(kù)文件、編碼文件、樣式表文件、模板文件、導(dǎo)航圖片和背景圖片等等.
下面是VeryCMS里的robots.txt文件:
User-agent: *
Disallow: /admin/ 后臺(tái)管理文件
Disallow: /require/程序文件
Disallow: /attachment/ 附件
Disallow: /images/ 圖片
Disallow: /data/數(shù)據(jù)庫(kù)文件
Disallow: /template/ 模板文件
Disallow: /css/ 樣式表文件
Disallow: /lang/ 編碼文件
Disallow: /script/腳本文件
Disallow: /js/js文件
如果你的網(wǎng)站是動(dòng)態(tài)網(wǎng)頁(yè),并且你為這些動(dòng)態(tài)網(wǎng)頁(yè)創(chuàng)建了靜態(tài)副本,以供搜索蜘蛛更容易抓取.那么你需要在robots.txt文件里設(shè)置避免動(dòng)態(tài)網(wǎng)頁(yè)被蜘蛛索引,以保證這些網(wǎng)頁(yè)不會(huì)被視為是網(wǎng)站重復(fù)的內(nèi)容.
robots.txt文件里還可以直接包括在sitemap文件的鏈接.就像這樣:
Sitemap: http://www.***.com/sitemap.xml
目 前對(duì)此表示支持的搜索引擎公司有Google, Yahoo, Ask and MSN.而中文搜索引擎公司,顯然不在這個(gè)圈子內(nèi).這樣做的好處就是,站長(zhǎng)不用到每個(gè)搜索引擎的站長(zhǎng)工具或者相似的站長(zhǎng)部分,去提交自己的sitemap文件,搜索引擎的蜘蛛自己就會(huì)抓取robots.txt文件,讀取其中的sitemap路徑,接著抓取其中相鏈接的網(wǎng)頁(yè).
合理使用robots.txt文件還能避免訪問(wèn)時(shí)出錯(cuò).比如,不能讓搜索者直接進(jìn)入購(gòu)物車頁(yè)面.因?yàn)闆](méi)有理由使購(gòu)物車被收錄,所以你可以在robots.txt文件里設(shè)置來(lái)阻止搜索者直接進(jìn)入購(gòu)物車頁(yè)面.