快生活 - 生活常识大全

开源解析器


  大概这是七月初最重要的一条有关搜索引擎行业的新闻,Google公司,力推REP为互联网标准,并且把自己的robots.txt解析器在Github上开源了。
  robots.txt,源自于1994年的时候,Martijn Koster(一个网站站长)在被蜘蛛过度抓取网站后,自行创建的一个初始标准,随着越来越多的网站站长的补充,追随,Rebots Exclusion Protocol (REP),就诞生了,随着各大搜索引擎同站长们的良性互动,它们也都采用了这个标准。然而这个REP,始终没有成为一个互联网标准。
  现在Google联合其他的几个巨头,力图把REP推动成为一个互联网标准。
  在把REP作为标准的路上,其实还是同平时站长们的使用还是有一点小小变化的,具体的表现在robots.txt不止可以用于HTTP,还包括了FTP等基于URI的传输协议;解析器的开发者需要至少解析robots.txt的前500KB内容;还有缓存时间等等一些新的标准内容。
  网站站长们如果对此有建议,有问题,等等,都可以到Webmaster Community或者twitter上联系。
  就我个人的看法,这是推动站长以及搜索引擎规范化的进步,站长们有规范可遵循,搜索引擎也需要遵守,包括各种内容抓取者都需要遵守。
  作者: David Yin
网站目录投稿:晓旋