摘要进入 21 世纪,步入了高速信息时代,人们面对的信息量呈指数级成长,信息检索技术应运而生。存在着更大研究价值和广泛应用前景的文本检索技术已成为信息检索的重要分 支,文本检索领域最常用的文本检索模型——向量空间模型(Vector Space Model, VSM)吸引 了大量的研究人员对其进行研究,其中 TF-IDF 权重度量方法和文本排序算法是向量空间 模型中最集中研究的方向。

本文基于 TF-IDF 权重度量方法和余弦相似度排序准则,使用 Python 编程语言及结巴 分词等第三方开源库,实现了 web 内容的文本检索排序。以精确率、召回率、前 10 个结果 的正确率及前 10 个结果是否出现所找的内容为评价本检索算法的标准,经实验表明,该算 法的检索结果精确率极高,可正确返回要搜索的内容。76144

毕业论文关键词: 信息检索 排序 向量空间模型 TF-IDF 余弦相似度

1 引言 1

1。1  研究背景及意义 1

1。2 信息检索的问题难点 1

1。2。1  数据爬取 2

1。2。2  文本分词 2

1。2。3  索引的建立 2

1。2。4  查询处理 2

1。3 本文的主要工作与内容安排 3

2。  文本检索相关技术分析 4

2。1  引言 4

2。2。1  文本检索概述 4

2。2。2  文本检索过程 4

2。2  文本表示模型 5

2。2。1  文本解析 5

2。2。2  词项权重计算 6

2。2。3  向量空间模型 8

2。3  检索排序算法 8

2。4  检索效果评价 10

2。4。1  召回率 10

2。4。2 精确率 10

2。4。3  召回率与精确率的关系 11

3。  实验设计与结果分析 12

3。1  实验环境 12

3。1。1  实验平台 12

3。1。2  开发工具及函数库介绍 12

3。1。3  实验数据 13

3。2  实验程序设计 13

3。2。1  程序组成说明: 14

3。2。2  程序模块介绍 15

3。3  实验结果分析 16

结论 18

第 II 页 本科毕业设计说明书

19

参 考 文 献 20

本科毕业设计说明书 第 1  页

上一篇:SpringMVC及云服务的企业员工考评系统的设计与实现
下一篇:php+mysql禾粒农场智能管理系统仓储管理系统设计

基于Apriori算法的电影推荐

java+mysql通用试题库系统后台设计与实现

数据挖掘的主题标绘数据获取技术与实现

基于PageRank算法的网络数据分析

基于神经网络的验证码识别算法

基于网络的通用试题库系...

python基于决策树算法的球赛预测

LiMn1-xFexPO4正极材料合成及充放电性能研究

新課改下小學语文洧效阅...

网络语言“XX体”研究

麦秸秆还田和沼液灌溉对...

老年2型糖尿病患者运动疗...

ASP.net+sqlserver企业设备管理系统设计与开发

互联网教育”变革路径研究进展【7972字】

安康汉江网讯

张洁小说《无字》中的女性意识

我国风险投资的发展现状问题及对策分析