【baiduspider】百度蜘蛛叫Baiduspider不是baidubot 今天又遇到有同学问我关于ROBOTS该如何去写的问题,这里整理下给大家,其实也都是来源于网路上,注意百度的蜘蛛叫做Baiduspider而不是baidubot,谷歌的叫做googlebot。 1、禁止所有搜索引擎访问网站的任何部分 User-agent:* Disallow:/ 2、允许所有的robot访问(或者也可以建一个空文件"/robots.txt") User-agent:* Allow:/ 另一种写法是 User-agent:* Disallow: 3、仅禁止Baiduspider访问您的网站 User-agent:Baiduspider Disallow:/ 4、仅允许Baiduspider访问您的网站 User-agent:Baiduspider Allow:/ 5、禁止spider访问特定目录 在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即robot不会访问这三个目录。需要注意的是对每一个目录必须 分开声明,而不能写成"Disallow:/cgi-bin//tmp/"。 User-agent:* Disallow:/cgi-bin/ Disallow:/tmp/ Disallow:/~joe/ 6、允许访问特定目录中的部分url User-agent:* Allow:/cgi-bin/see Allow:/tmp/hi Allow:/~joe/look 7、使用"*"限制访问url 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。 User-agent:* Disallow:/cgi-bin/*.htm 8、使用"$"限制访问url 仅允许访问以".htm"为后缀的URL。 User-agent:* Allow:/.htm$ 9、禁止访问网站中所有的动态页面 User-agent:* Disallow:/*?* 10、禁止Baiduspider抓取网站上所有图片 仅允许抓取网页,禁止抓取任何图片。 User-agent:Baiduspider Disallow:/*.jpg$ Disallow:/*.jpeg$ Disallow:/*.gif$ Disallow:/*.png$ Disallow:/*.bmp$ 11、仅允许Baiduspider抓取网页和gif格式图片 允许抓取网页和gif格式图片,不允许抓取其他格式图片 User-agent:Baiduspider Allow:.gif$ Disallow:/.jpg$ Disallow:/.jpeg$ Disallow:/.png$ Disallow:/.bmp$ 12、仅禁止Baiduspider抓取jpg格式图片 User-agent:Baiduspider Disallow:/.jpg$