一:robots基礎知識
robots協(xié)議(也稱爬蟲協(xié)議、機器人協(xié)議等),“全稱是網絡爬蟲掃除規(guī)范“(Robots Exclusion Protocol),網站經過robots協(xié)議告訴搜索引擎哪些頁面能夠抓取,哪些頁面不能夠抓取。
Robot.txt的效果?
能夠讓蜘蛛更高效的匍匐網站
能夠阻撓蜘蛛匍匐動態(tài)頁面,從而處理重復錄入的問題
能夠削減蜘蛛匍匐無效頁面,節(jié)約服務器帶寬
能夠屏蔽搜索引擎屏蔽一些隱私頁面或許臨時頁面
怎么創(chuàng)立robots.txt文件呢?
右擊桌面——新建文本文檔——重命名為robots.txt(一切文件有必要小寫)——編寫規(guī)矩——用FTP把文件上(放到根目錄下)傳到空間
創(chuàng)立robots.txt需求留意的知識點:
1、有必要是txt結束的純文本文件
2、文件名一切字母有必要是小寫
3、文件有必要要放在根目錄下
4、文件內的冒號有必要是英文半角狀態(tài)下
二:robots參數(shù)解說
User-agent
首要效果:用于描繪搜索引擎蜘蛛的姓名
舉列:
1、描繪一切蜘蛛
User-agent:*
2、描繪百度蜘蛛
User-agent:BaiduSpider
百度:BaiduSpider
谷歌:Googlebot
搜狗:Sogou web spider
好搜:360Spider
MSN:MSNBot
有道:YoudaoBot
宜搜:EasouSpider
User-agent技巧:
1、當robots.txt不為空的時分,有必要至少有一條User-adent記載
2、相同的姓名,只能有一條(例如User-agent:*),可是不同蜘蛛,能夠有多條記載(例如:User-agent:Baiduspider和User-agent:Googlebot)。
Disallow
首要效果:用于描繪不答應搜索引擎匍匐和抓取的URL。
運用技巧:
1、在robots.txt中至少要有一條Disallow
2、Disallow記載為空,則表明網站一切頁面都答應被抓取。
3、運用Disallow,每個目錄有必要獨自分隔聲明
4、留意Disallow:/abc/(abc目錄底下的目錄不答應抓取,可是目錄底下的html答應抓取)和Disallow:/abc(abc目錄底下的目錄跟html都不答應被抓取)的差異。
評論(0人參與,0條評論)
發(fā)布評論
最新評論