查找引擎可以说是现在一切互联网使用里技能含量高的一种,虽然其使用方式十分简略:用户输入查询词,查找引擎回来查找成果.可是要为以亿计数的互联网用户供给精确快速的查找成果,里边包含了许多技能手段.总的来说,查找引擎技能所期望到达的方针可以概括为:更全、更快、更准. 所谓"更全",是从其索引的网页数量而言的,现在恣意一个商业查找引擎索引网页的掩盖规模都只占了互联网页面的一部分,可以经过进步网络爬虫相关技能来到达此方针. "更快"这个方针则贯穿于查找引擎的大多数技能方向,比方索引相关技能、缓存等技能的提出都是直接为了到达此目的.而其他许多技能也直接为此效劳,即便是分布式海量云存储渠道,也是为了可以处理海量的网页数据,以到达对"更全"和"更快"这两个方针的响应和支撑. 在这3个方针中,怎么使得查找成果"更准"是为要害的方针.无论是排序技能也好,仍是链接剖析技能也好,抑或是用户研讨等技能,终究都是为了使查找成果愈加精确,以此增强用户体会.关于一个查找引擎来说,到达"更全"与"更快"可以使其不落后于同类产品,可是假如可以做到"更准",则可以构建竞争能力. 如上所述,查找引擎怎么可以搜得更准是其重要的方针,那么怎么才干使得查找成果更精确?这里边触及了3个问题. 用户实在的需求是什么:查找引擎用户输入的查询恳求十分简略,查询的均匀长度是2.7个单词.怎么从如此短的查询恳求里获悉躲藏这以后的实在用户需求?这是查找引擎首要需求处理的十分重要的问题.假如不能获取用户实在的查找目的,查找的精确性无从谈起,即便后续内容匹配算法再精巧也杯水车薪. 从别的一个视点看,即便是同一个查询词,不同用户的查找目的是不同的,怎么辨认这种差异?假如更进一步,即便是同一个用户宣布的同一个查询词,也可能由于用户所在场景不同,其目的存在差异,又怎么辨认?一切这些都是查找引擎需求处理的问题,即用户在此时此地宣布某个查询,他的实在查找目的究竟是什么. 上述个问题是从用户需求视点动身的,别的两个问题则是从数据视点考虑的.查找引擎本质上是一个匹配进程,即从海量数据里边找到可以匹配用户需求的内容.所以,在清晰用户实在目的这个前提条件做到后,怎么找到可以满足用户需求的信息则成为要害因素.