垂直网站网络分布式爬虫的设计与实现(4)
时间:2022-01-19 22:45 来源:毕业论文 作者:毕业论文 点击:次
主流的搜索引擎是基于传统的信息检索方式设计的。AltaVista, Lycos 和 Excite 对 web 页面进行了巨大的集中式索引[1] 。当需要对查询行为做出回复时,搜索引擎从索引数据库中 检索出结果,并基于关键字或接近关键字的词是否出现显示缓存页面。虽然传统的分度模型 在数据库上很成功,然而对于像 web 这样一个极大化的非结构性资源则无法胜任。此外,索 引的完整性并不是影响搜索结果质量的唯一因素,例如“垃圾结果”就经常替换一个用户感兴 趣的任何结果。为了提高搜索质量,Google 为整个 web 做出了创新性的排名系统。PageRank 使用 web 引用图,而且在 1998 年 Google 在搜索引擎系统中引入了链接分析[9]。 后续的搜索引擎发展分为三个方向:[10]全文搜索引擎、垂直搜索引擎、元搜索引擎。全 文搜索引擎即上文所述的传统搜索引擎,通过抽取互联网上的信息建立索引数据库。垂直搜 索引擎是传统搜索引擎的细化和延伸,针对特定行业互联网网页中的特定信息内容进行搜索。 针对传统搜索引擎信息量大、深度不够、查询不准确等缺点,垂直搜索引擎进行了深度的、 细化的加工处理。元搜索引擎又称多搜索引擎,能够在一个统一的用户界面下让用户在多个 搜索引擎中选择合适的搜索引擎来进行检索操作,是一种应用于网络中存在多种检索工具情 况下的全局控制机制[4]。 至于未来搜索引擎的发展,大致有 8 种发展趋势,简述如下: 1。 社会化搜索:结合传统算法驱动搜索引擎和在线社区过滤功能的搜索引擎的增强版 本,其目的是为了产生高度个性化的结果。根据一个特定搜索引擎功能集,将搜索结果保存 下来并添加到社区搜索结果中,进一步提高搜索关键字结果的未来相关性。 2。 实时搜索:实时搜索最显著的特点就是时效性强,对于突发事件,一旦在网络上已经 进行了发布,就必须保证能够匹配用户的搜索请求。 第 2 页 本科毕业设计说明书 3。 移动搜索:随着智能手机的全球用户量激增,手机等移动端设备的搜索具有广阔的应 用前景,如百度采用的“百度移动开放平台”。 4。 个性化搜索:[11]个性化搜索要解决的问题是如何建立用户的兴趣模型以及如何在搜索 引擎中使用建立的兴趣模型。要做到个性化搜索,需要根据用户的网络行为,建立准确的个 人兴趣模型系统。 5。 地理位置感知搜索:搜索引擎利用手机的全球定位系统(Global Positioning System, GPS)功能,根据陀螺仪等感知设备获取用户的物理动向,进而提供地理位置感知服务。 6。 跨语言搜索:目前 Google 已经提供多种语言间的跨语言搜索,[12]而对于全球性的搜 索引擎来说,跨语言搜索功能不可或缺。 7。 多媒体搜索:而图片和视频也是信息存储的方式,但是目前的搜索引擎尚且无法做到 基于图片和视频的搜索,这也是未来搜索引擎的一个发展方向。 8。 情景搜索:情景搜索考虑时间、地点、输入、需求、习惯、背景等因素,由情景计算 出最佳的搜索结果,再将结果通过用户搜索情景直接呈现。 1。2 分布式搜索引擎发展的背景及历史 随着互联网的不断发展,信息量呈现指数增长态势,大数据掀起了一场具有颠覆性的技 术。互联网世界中的信息量将远远超越企业 IT 架构和基础设施的承载能力,实时性要求 也将大大超越现有的计算水平[5] 。在这种情况下,分布式搜索引擎应运而生。[13]以低廉价格 的主机成本,创造具有良好伸缩性、高容错性、易维护性的分布式环境进行信息爬取和信息 检索;同时将大量数据进行分流处理,提高了承载能力和运行速度。 (责任编辑:qin) |