1.3 研究目的及意义
当今社会微博热点话题提取已经成为一个亟待解决的问题,如何在短时间内精准地获取自己想要关注的微博信息,这正是本文所要解决的问题。基于微博用户基数很大,所以一般情况下很热门的微博话题就是用户想要关注的话题了。
微博热点话题提取技术是一个基于垂直搜索引擎的研究。它可以方便快捷省时地为微博用户搜索出他们想要的微博信息,从而满足用户对信息的需求。
因此,本课题开发实现的微博热点话题提取技术具有重要的现实意义。
2垂直搜索引擎的工作原理和技术
2.1概述
垂直搜索引擎是针对通用搜索引擎信息量大、查询不准确、深度不够等特点所提出来的新的搜索引擎服务模式。垂直搜索引擎是针对某一个行业的专业搜索引擎,是搜索引擎的延伸和应用细分化。垂直搜索引擎将网页中非结构化的数据抽取成一定格式结构化数据,定向分字段抽取出所需要的数据进行加工处理后再以某种形式返回给用户,同时将这些数据存储到数据库,并对这些数据进行分词、建立索引。垂直搜索引擎通过对某一特定领域、某一特定人群或某一特定需求提供的专业的、精准的、更深层次的信息和相关服务。其特点就是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。垂直搜索引擎由三大部分组成:数据抓取系统、内容索引系统、内容检索系统,如下图2-1-1所示:
(1)数据抓取系统:此系统主要靠网络爬虫Spider,首先网络爬虫又名为网络蜘蛛,是指:把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。这些链接在一段时间后要更新,如此才能保证信息的实时性和正确性,但是这样的缺点就是很难实现,这个不仅在下载系统中有,在建立索引中过也需要用到。
爬虫就是从指定的URL集合A开始,沿着网络页面中的链接按照广度优先搜索或者深度优先搜索遍历,不停的从集合A中移除URL,下载相应网络页面,解析其中的超链接URL,看是否已经访问过,将未访问的加入集合A。
(2)内容索引系统:功能是将数据抓取系统收集到的网络数据进行保存、整理,从中抽取出索引项,用来表示文档以及生成索引表。并以便捷高效的方式将这些网络数据提供给检索系统使用。索引包括与数据索引和内容索引两种:元数据索引与文档的语意内容无关;内容索引是用来反映文档内容的。它在整个搜索引擎系统的数据流中起着承上启下的作用,它索引的数据由数据抓取系统系统提供,而它所索引的数据则进一步提供给检索系统进行结果筛选和排序使用。
总之,索引系统就是把抓取的信息建立成类似书的目录的数据文件,方便实现快速检索。内容索引系统相关的核心技术有:分词技术、增量索引与全索引、排序技术、彼岸准检索语句解析、热点词高速缓存灯。
(3)内容检索系统:其功能主要是利用内容索引系统提供的索引数据和链接结构分析系统提供的分析结果,按照用户的查询信息返回一组以相关度进行排序的结果列表,以便用户的进一步浏览和利用。它在搜索引擎中发挥着不可替代的作用,通过内容检索系统,用户查询匹配到的内容往往海量浩繁,无法直接加以利用。为了解决这个问题,使用客户能够以最快的速度定位到自己满意的的网页,就必须依靠内容检索系统对用户查询匹配的内容进行相关度排序。