TF-IDF算法实现Web内容的搜索与排序(2)

1 引言

1。1 研究背景及意义

进入新世纪以来，互联网技术实现了空前的高速发展，技术的革新导致了社会的巨大变革。计算机的出现使得信息传播的方式朝向多元化发展，特别是在移动互联网的热潮之下，互联网上的信息总量呈指数形爆发性增长，我们日常获得的信息产生了聚积和累加。由美国一家研究中心的一项互联网报告显示，大约有 92%的用户通过互联网获取日常信息，并认为通过互联网获取信息是最方便高效的方式[1-2]，现阶段人们的双手不离手机便是最好的例证。

信息检索技术是为了使用户在实际应用中的能够方便快捷地获取信息而出现的。信息检索（IR，Information Retrieval)这个词汇，从表面上理解，它表示的是一个查询过程，首先把信息按照特定的方式组织并存储在特定的集合中，然后根据用户的查询语句，在集合中找出与查询相关的信息子集，再将信息子集排序后返回并呈现给用户[3]。

信息检索主要研究的对象是自然语言这种无结构或者半结构化的数据。时至今日，文字、图像、声音和视频都可以被作为检索的对象[4]。但因为人们平时获取的信息以文本内容居多，所以基于文本内容的信息检索是该领域最基础、最核心的研究部分。

文本检索就是在给出查询语句后，由计算机根据特定的检索模型，自动计算查询语句与语料库内文本之间的相似性，并将查询结果按照相似性的大小从高到低排序后呈现给用户。其中的语料库文本可能来自新闻网站、博客文章、报纸书刊、网页静态文本等文字信息载体

[5-6]。

文本检索模型就是一种处理文档建模表示、查询处理以及文本相似度计算的框架方法。在文本检索发展的历程中，出现了许多检索模型，包括布尔检索模型、向量空间模型、概率模型、神经网络方法和语言模型等，其中向量空间模型的应用最为广泛，它是由 Salton 于 1975 年提出[7]。空间向量模型采用文本向量化的表示方法，然后构建相似性度量的计算方法，用相似性来表示查询向量与语料库文档向量之间的相关性。

1。2 信息检索的问题难点

让机器处理并理解自然语言是一件非常困难的事，其困难主要体现在以下几点：

第 2 页本科毕业设计说明书

1。2。1 数据爬取

Web 信息检索的文本是在互联网上的，做文本检索分析，首要任务便是从互联网上爬取到所需的文档，并保存至本地硬盘；而互联网数据纷乱复杂而且数据量极大，要爬取下一定数据的文本数据，这对爬虫的兼容性和爬取网页的速度都有极高的要求，而现在免费开源的爬虫程序一般而言效率较低，且一个爬虫程序只能识别一种 HTML 格式，如果要爬取某一特定网页的数据较为简单，但要爬取不同的网页且要达到一定数量，则需编写更多支持不同 HTML 格式的爬虫程序，这就对编程能力提出了较大的挑战。

1。2。2 文本分词

中文是一种十分复杂难懂的语言，而让计算机理解中文语言更是难上加难。在汉语的表述形式中，并不像英语语言表述中那样存在空格，可以很简单地从句子中分出单个词语，中文分词很难准确的断句，这也是中文信息检索不同于英文信息检索的一个难点。此外汉语中有非常多的歧义现象，对一句话可能有好几种不同的断句结果，有时候即使是人，在不看上下文的情况下，对于有歧义的句子也很难理解断句的，更别说让计算机来断句了。另一个难点在于新词的识别，由于语言是随着时代的发展而变化的，特别是互联网上，网络新词更是层出不重，一段时间不上网便有可能看不懂别人在说什么，让计算机做这项工作，其难度是非同一般的。除了网络新词，还有机构名称、城市地域名、产品名、商标名、影视歌曲名、简称、省略语等都是很难处理的问题，而人们又正好经常使用的这些词语，因此对于搜索引擎来说，分词系统能否识别并提取新词是至关紧要的。 TF-IDF算法实现Web内容的搜索与排序(2):http://www.youerw.com/jisuanji/lunwen_87271.html