毕业论文

打赏
当前位置: 毕业论文 > 计算机论文 >

基于Hadoop平台的文档检索技术研究与实现(2)

时间:2021-03-28 21:35来源:毕业论文
3.4 搜索模块的实现 19 3.5 用户界面的实现 20 3.6 分布式平台的构建 21 4 测试 25 4.1 索引模块测试 25 4.2 搜索模块测试 25 结论 28 致谢 29 参考 文献 30 1 引言

3.4  搜索模块的实现  19

3.5  用户界面的实现  20

3.6  分布式平台的构建  21

4  测试  25

4.1  索引模块测试  25

4.2  搜索模块测试  25

结论  28

致谢  29

参考文献 30

1  引言

1.1  课题的研究背景

当今社会,互联网已高度普及。越来越多的人们开始使用互联网,互联网已经深入了家家户户。而人们对于网络的使用,必然导致海量信息的传递、存储和处理,而在这个信息爆炸的时代,精确搜索到用户所需要的资源是一种必不可少的功能。为了达到这个目的,搜索引擎应运而生。搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。因特网上的信息浩瀚万千,而且毫无秩序,所有的信息像汪洋上的一个个小岛,网页链接是这些小岛之间纵横交错的桥梁,而搜索引擎,则为用户绘制一幅一目了然的信息地图,供用户随时查阅。搜索引擎又包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。百度和谷歌是搜索引擎的代表。

随着网络的迅猛发展,一些企业自身产品以及服务的信息量也大幅增长,利用互联网呈现给用户时如果仅仅按照传统方式基于数据库关键字匹配的简单读取效率不高。实际上,许多企业已经将搜索引擎引入了自己的门户网站。如何快速、准确地搜索到用户所需要的产品或服务,提高用户体验是现在许多大型企业非常重视的问题。同时,如果将搜索引擎架设在集中式的结构上,即各个子系统服务器在集中的物理主机上分布,必将导致系统对于单台服务器性能要求高,容错性差,可扩展性差等缺点。文献综述

于是,为了达到最好的用户体验、最佳的容错性、最容易的扩展性,分布式搜索引擎应运而生。整个系统由若干台计算机组成,分别拥有独立的物理资源,系统内的子系统利用这些资源相互合作进行工作,完成索引、搜索工作。同时还会针对个别计算机出现故障或瘫痪而设置的冗余计算机资源,以防个体瘫痪导致系统瘫痪。

如今搜索引擎已经十分发达,几大通用搜索引擎,如Google、Baidu、Yahoo以及微软推出的搜索引擎Bing等,已经牢牢地控制了搜索市场。同时搜索引擎也已经在各大网站内部取得了广泛的应用,国外著名网站如亚马逊等也都早已引入了搜索引擎的功能,总体来说国外主流的搜索引擎技术已经比较成熟,近几年国内主流网站也渐渐加入其中,例如淘宝等信息量巨大的网站。总体来说,此类搜索引擎已经在人们的日常信息获取中发挥了巨大的作用。论文网

1.2  小型搜索引擎的发展

1.3  分布式搜索引擎现状

系统结构分析设计

2.1  系统需求分析

对于企业所用搜索引擎,主要用于在其门户网站上为用户提供产品以及服务的检索服务。所以搜索引擎所需要创建的索引只需要针对企业提供的产品以及服务,随着企业发展企业提供产品数据库的成长,数据量增长非常迅速,在这种情况下我们所设计的系统需要有好的稳定性以及快速的反应速度。传统的企业门户网站,对于这种搜索引擎的解决方式往往是使用数据库语句LIKE来进行数据库匹配,每次匹配都需要读数据库,当并发数及用户量增大时,对于系统的压力是巨大的。所以,在企业门户网站建立基于全文检索技术的搜索引擎是十分必要的。 基于Hadoop平台的文档检索技术研究与实现(2):http://www.youerw.com/jisuanji/lunwen_72094.html

------分隔线----------------------------
推荐内容