网站根目录下的写法和协议规则

　　robots txt文件的作用：
　　网站根目录下的robots txt文件是写给搜索引擎＂看＂的，用户网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。例如网站后台管理系统，或者涉及到隐私的内容，或者秘密内容，或者仅限小范围传播的内容。虽然此文件没有任何外部的链接，但是一般情况下，搜索引擎还是会定期自动检索网站的根目录是否存在此文件。
　　如果您想让搜索引擎抓取收录网站上所有内容，请设置网站根目录下的robots.txt文件内容为空，或者删除网站根目录下的robots.txt文件。
　　robots txt文件的起源：
　　Robots协议（也称为爬虫协议、机器人协议等）的全称是＂网络爬虫排除标准＂（Robots Exclusion Protocol）。
　　robots.txt并不是某一个公司制定的，真实Robots协议的起源，是在互联网从业人员的公开邮件组里面讨论并且诞生的。1994年6月30日，在经过搜索引擎人员以及被搜索引擎抓取的网站站长共同讨论后，正式发布了一份行业规范，即robots.txt协议。慢慢的，这一协议被几乎所有的搜索引擎采用，包括中国的搜索引擎公司。
　　robots txt的写法：
　　1.禁止所有搜索引擎访问网站的任何部分
　　User-agent: *
　　Disallow: / （*为通配符，/为目录）
　　2.禁止某个搜索引擎的访问
　　User-agent: BadBot
　　Disallow: /
　　3.允许某个搜索引擎的访问
　　User-agent: Baiduspider
　　allow:/
　　4.使用 $ 匹配网址的结束字符
　　Disallow: /*.asp$
　　5.禁止爬寻admin目录下面的目录
　　Disallow: /admin/
　　6.禁止访问/abc/目录下的所有以＂.htm＂为后缀的URL(包含子目录)
　　Disallow: /abc/*.htm
　　7.禁止访问网站中所有包含问号 (?) 的网址
　　Disallow: /*?*
　　8.禁止抓取网页所有的.jpg格式的图片
　　Disallow: /.jpg$
　　9.禁止爬取user文件夹下面的mimi.html文件。
　　Disallow:/user/mimi.html （例如商业机密或隐私内容）
　　10.这里定义是允许爬寻mimi目录下面的目录
　　Allow: /mimi/
　　11.允许爬寻tmp的整个目录
　　Allow: /tmp
　　12.仅允许访问以＂.htm＂为后缀的URL。
　　Allow: .htm$
　　13.允许抓取网页和gif格式图片
　　Allow: .gif$
网站目录投稿：冷风