教育房产时事环球科技商业
投稿投诉
商业财经
热点动态
科技数码
软件应用
国际环球
晨报科学
新闻时事
信息智能
汽车房产
办公手机
教育体育
生活生物

什么是搜索引擎(常用的信息检索平台)

  在现在互联网如日中天的时代,即使你不是互联网行业的人,你也一定会用过谷歌或者百度。因为他们已经影响了我们生活的方方面面,为我们提供了很多的便利。那么在互联网行业的人我们除了使用它们,我们还迫切地想知道它们到底是怎么实现的。
  以谷歌和百度为例子。它们都称之为搜索引擎。虽然听起来比较高大上。但实际上他们就是搜索数据用的。但站在数据方面考虑,实际上数据会分为两种:结构化数据和非结构化数据。结构化数据:简单来说,就是有固定格式固定长度的的数据。平常比较常见的例如Mysql、Oracle数据库等。非结构化数据:反之,就是无固定格式和长度的数据。例如比较常见的是:Email和文档数据。
  按照这两种数据的划分,他们在搜索上也有很大的不同。结构化数据我们可以建立数据库索引来快速的搜索数据。而非结构化的数据搜索。我们主要有两种方式。一种是顺序扫描法,另一种是全文搜索法。下面我们详细介绍一下这两种的区别。顺序扫描法
  顺序扫描法顾名思义,就是按照数据的顺序一步一步地找。找到一个然后就记录该位置。直到所有的数据都要扫描完,才知道要查找的内容都在哪些位置出现过。但这明显有相应的弊端。如果要查找的内容碰巧在数据的最后。那么该方法需要扫描所有的数据,但这之前扫描的数据均无效。这就造成了很大的资源浪费。
  全⽂搜索法
  既然我们已经知道顺序扫描法的弊端,那我们应该怎么进⾏优化呢?因为这样的数据是非结构化的数据。没有办法像结构化的数据做索引来达到快速检索的目的。那我们到底应该怎么办呢?答案很简单。逆向思维。既然非结构化的数据没办法做到,那我们把他们改成结构化的数据不就行了吗。这里改成结构化的数据,并不是将全部的数据都改成结构化。这样将毫无意义。而是将要搜索的内容按照某种方式,做成结构化的数据,然后将结构化的数据创建索引,接着我们在通过这些结构化的索引,来搜索相关非结构化的内容。这就是全⽂搜索的基本原理。
  就像我们在淘宝搜索手机一样,淘宝并不会将所有的数据都按照结构化存储,而是将相应的关键字,按照结构化存储即可。这样当我们命中关键字时,就可以搜索出来我们想要内容。也正是因为这些,所以常常有些人在搜索的时候,喜欢输入很多的修饰词,适当的修饰词是可以准确地帮助我们,找到我们想要的内容,但如果修饰词过多的话,并不会达到我们想要的,因为他检索的本质是命中关键词。这也就是为什么有时我们搜索时,明明加了很多修饰词,居然和我们没有加修饰词搜索出来的内容是一样的原因。
  所以谷歌和百度搜索引擎的基本原理就是:网络机器人或者网络蜘蛛通过扫描网页中的内容,提取出相应的关键词,然后为提取出的关键词建⽴索引,并记录该关键词在文章中位置,当用户搜索时,如果命中该关键词,搜索引擎就根据按照之前的索引进查找,这样可以很快的返回用户想要的数据内容。
  下面我们介绍一下现在比较常见的搜索引擎,并介绍详细介绍一下它们之间的区别。
  Lucene:它归属于Apache软件基金会。它是一个全文检索引擎工具包,所以它并不是一个全文检索引擎。既然是工具包,所以它提供了强大的API功能例如:可扩展的⾼高性能索引强⼤大,准确,⾼高效的搜索算法跨平台解决⽅方案
  由于它只是一个全文检索引擎工具包,所以在使用时,需要我们自行编码。虽然现在也支持了多种语言,但最成熟的开源版本,还是Java。所以要想使用它,我们需要Java的编程基础。Solr:它是一个独立的企业级搜索应用服务器,Solr是基于Lucene的Java库构建的开源搜索平台。并提供了HTTP的方式,创建索引和查询数据。除此之外,它还提供了以下比较高级的功能:全⽂文搜索分⾯面搜索实时索引动态群集Elasticsearch:它也是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch也是用Java语言开发的。它和Solr一样,除了基本的数据检索功能外,也提供了以下高级的功能:分布式搜索数据分析分组和聚合
  下面我们介绍一下,为什么会出现搜索引擎技术,而不是用传统的数据库去实现此功能。
  我们知道如果采用传统的数据库,我们可能通过创建索引的方式,去优化我们的查询速度。并且,我们还知道,如果在数据量比较大的话,还可以采用分库分表的方式继续优化。那为什么还会出现类似Elasticsearch这样的搜索引擎技术呢?答案就像我上面介绍的那样。搜索引擎并不会将所有的数据全部按照结构化存储,而是按照相应的关键字存储。并且按照现在的网页数据,不同的网站,内容大不相同,如果采用结构化存储,那么在数据库设计上很难实现。除此之外,我们知道,在数据库中要想快速的查询数据,那么必须要创建相应的索引,但我们在使用SQL语法时,尝尝会因为我们使用不当,或者某些特定的方式,命中不到索引,这就导致使用数据库检索时,会比较慢。比较常见的就是。例如我们在数据库中搜索指定的关键字,并且该关键字的字段我们创建了索引,所以在搜索时,查询的速度很快,因为它命中了索引。但在实际的应用场景中,我们并不会正好输入的关键字就是数据库中存储的,而是采用的是模糊搜索的方式。而在数据库中要想使用模糊搜索,则要使用like关键字。但在使用like关键字时,则索引会失效。除此之外,我们在数据库中创建索引时,并不是越多越好。因为如果索引过多的话,则会影响inster和update的性能。所以,正是因为数据库有种种这样的原因,才会出现全文搜索引擎存在的必要。
  下面我们介绍一下全文搜索引擎比较适合的应用场景都有哪些:
  搜索数据比较大的非结构化数据。支持文本数据量达百万级别。支持交互式⽂文本的查询。对写需求比较少的需求,因为全文检索的核心目的就是查询。
  以上内容就是本篇的全部内容,在接下来的文章中,我们将重点更新有关Elasticsearch相关的内容,欢迎大家支持,谢谢。

放疗为什么死得更快(一般化疗第几次最痛苦)要不是我妈坚持说不化疗,不然早去见阎王爷了。他在私信里跟妙姐说道。他是一位叫晓东的读者,他自称是一位癌症患者家属。十年前,晓东的妈妈食道癌动了大手术,术后医生安排化疗。他妈妈只化疗哪些化疗药(放疗和化疗的区别)手术放疗和化疗是治疗癌症的三大手段,以手术治疗为主,放化疗为辅。现在市面上的化疗药物以铂类为主,不同的类型药效也有很大的差异,在选择药物方面患者较纠结,那哪种化疗药物比较好呢。哪种喝酒后吃什么好(喝酒后吃什么对身体好)喝酒后吃什么好(喝酒后吃什么对身体好)春节期间,很多的人会不断的聚会,所以喝醉酒的现象非常常见,大家需要注意喝酒后的一些问题,而且要注意全面的进行调节身体,避免造成自身健康受到危害流产后吃什么好(流产手术后吃什么好?)流产后吃什么好(流产手术后吃什么好?)流产手术一般对身体的伤害是比较大的,因为做完手术之后人不仅仅会受到一定的器质性的伤害,还会受到一些身体底子的摧残,主要是容易造成气血两虚,对于肾肿瘤切除(为什么肾癌术后基本不做放疗或化疗?)肾肿瘤切除(为什么肾癌术后基本不做放疗或化疗?)葛叔叔的重大发现葛叔叔是一位儿童节目退休播音员,前两周体检时居然意外发现肾脏长了一个小东西。葛叔叔马上进行增强CT检查,发现这个小东什么叫化疗(为什么放疗结束都活不长)我已经把腹部的两道手术疤痕当作天使的翅膀了,它赠予了我新的生命。重新迎来新生活的齐女士说出了心里话。原来就在2020新冠疫情期间,刚当上妈妈的齐女士身体突然出现不适,到医院检查后,为什么放弃治疗(为什么放疗后人就活不久了)近日,据韩媒报道当地时间7日晚间7点20分左右,韩国足球名宿柳相铁因胰腺癌病情恶化,在首尔逝世,终年50岁。事实上,这则新闻并不怎么太突出,但对于很多足球爱好者而言,名宿的逝世还是一般旅游费用是多少(出国旅游大概要多少钱)经济水平已经上升了一次层次,人们不需要担心资金的问题,不过如果能从旅途中节省一点资金,也是个不错的选项。出国旅行相对国内旅行而言,可能更受欢迎。人们对国外世界很好奇,选择穷游的方式软化头发(软化头发会导致脱发吗)软化头发(软化头发会导致脱发吗)软化头发和拉直头发的区别在于,软化头发是拉直头发中一个必不可少的重要环节,而拉直只是软化后一个必须的技术过程,只有把这两个过程结合在一起,才算是一次冬天多久洗一次澡(冬天建议多久洗一次澡)近段时间,天气越来越冷了,尤其是一些在北方的朋友,深刻感受了寒冷刺骨。前几天,小九收到了一则提问小九,我是辽宁人,从小就喜欢搓澡,结果跟朋友在澡堂搓澡时,她跟我说,现在的自来水消毒多久洗头好(男生多久洗一次头)水是生命之源,没有人能离开水,但这位老人每时每刻都离不开水,因为她每隔七八分钟就得洗脸洗头。张奶奶今年79岁,近段时间,她发现自己得了一种怪病,于是来到医院。一番检查下来,医生发现
微信以前的聊天记录能找回吗(手机掉了怎么找到手机的定位)被问了太多次聊天记录恢复,今天将大部分场景都覆盖,给大家来个超全超细的聊天记录恢复聊天记录方法。一官方推荐恢复聊天记录方法1自带recover方法当你的遇到突然的崩溃等大型bug,如何找回几年前的微信聊天记录(微信聊天记录如何恢复)怎么恢复聊天记录我总结了以下的两种情况,你们也可以试一下,并且我也进行了实操感觉很有效。恢复聊天记录分为以下两种情况,第一,系统异常的情况下导致聊天记录丢失,这种情况可以使用自带的微信聊天记录不小心清空(卸载微信怎么找回聊天记录)非常重要的聊天记录删除了?教你一招,3秒找回?大家好,我是大海,欢迎大家观看我的文章,每天给大家分享实用技巧,实用技巧持续更新,有的友友问我,如果聊天记录删除了,还非常重要,比如里什么地方能恢复微信聊天记录(真正免费的微信聊天记录恢复)相信各位机友也发现了。最近这段时间,作为野生产品经理的机哥,给大家介绍新功能的频率直线下降。因也非常简单这几次的更新,都太无聊啦。但是,最近!放大招啦!在最新的iOS8。0。3版中聊天记录信息怎么恢复(怎样备份微信聊天记录)作为月活跃用户达到了12。51亿的,已经开始渗入到我们生活的方方面面。在家人朋友同事甚至陌生人之间成为重要的沟通桥梁。每天都会产生大量的聊天记录包括视频消息文件等内容,然而有些内容历史博物馆观后感(上海的景点排名榜)历史博物馆观后感(上海的景点排名榜)上海历史博物馆观后感作者小黑板昨天逊克知青读书会之邀,一行参观上海历史博物馆和上海革命历史博物馆,饱览上海五千年历史轨迹。通过万件文物文献以及图二冲程和四冲程的区别(怎么分辨二冲程还是四冲程)自第二次工业革命以来,人类发明了内燃机并对其进行改良,一直到现在。一般地,我们可以把内燃机(也就是汽车发动机)分为二冲程发动机与四冲程发动机。那么这两者有什么区别呢?冲程想了解两者日本公安和警察的区别(日本警察厅和警视厅的区别)众所周知,日本是一个犯罪率低自杀率高的国家,那么日本的警察是不是一个比较悠闲的职业呢?其实,日本的警察和中国不同,在日本没有独立的交警法警武警,所以日本警察的职权很广,工作很辛苦。2k和4k的区别(笔记本2k和4k差别大吗)如今哪怕是2000元价位的入门级笔记本,它们的屏幕也都达到了全高清(FHD,1080P)标准,一些高端机型甚至开始武装2。5K4K的超高清屏幕。问题来了,笔记本电脑的屏幕需要那么高固态和机械硬盘的区别(打游戏固态硬盘和机械硬盘哪个好)大家好,我是电脑爱好者,分享电脑知识,我是认真的!相信有不少朋友在购买电脑或者DIY主机配置时都会有一个问题,那就是到底机械硬盘和固态硬盘有何区别呢?我们又该如何选择呢?其实,这两中药和西药的区别(药学分中药和西药吗)查看更多儿童科普知识,快来点击上方北京儿童医院订阅我们吧(1)从药物组成上来区分。中成药通常由植物药动物药或矿物药组成,而西药一般是有明确的化学成分,有具体的化学名称以及结构式。(