TF-IDF算法文本关键词的提取及优化研究(2)_毕业论文

毕业论文移动版

毕业论文 > 计算机论文 >

TF-IDF算法文本关键词的提取及优化研究(2)


从文本中选取出来用来表示全文主题内容的词语或着术语,这就是利用提取关键词的文本标引工作。关键词自动提取是依靠计算机从文本中提取出反映主题的内容,也称关键词自动标引,在文本检索方面有着重要的作用。关键词可以为文本提供一个简短的概括,让读者能够在较短的时间内了解大容。关键词也是信息检索中对文本进行标引等操作的基础。所以,关于文本自动分类和文本关键词自动提取的研究一直是信息处理领域的一个重要课题。多年来,国内外的众多学者提出了极其多具有实际使用意义的算法和模型。由此可见,研究关键词的提取对于文本挖掘以及信息检索是十分有意义的。
1.2     国内外研究现状
1.3     本课题的研究内容
本课题研究的关键词提取是由计算机来自动完成,借助计算机强大的计算和自动处理能力,从自然语言形式的电子文本中,提取出若干个能够涵盖或着概括原文核心内容的重要词汇,对于提取的关键词要求具有概括性、客观性以及可读性。
1.4     论文组织安排
本文的章节安排如下:第一章是绪论;第二章介绍文本关键提取的相关技术:文本预处理、关键词提取概述、中文分词技术;第三章介绍关键词提取的应用以及面临的挑战、关键词提取的常用方法、分析TFIDF算法;第四章介绍提取关键词的系统设计和实现;第五章介绍关键词提取算法优化;第优尔章的内容为总结和展望。
2    相关技术
2.1 文本预处理
该算法是文本关键字提取系统的第一层。是文本关键词提取的时候在对其进行分词之后进行的处理。
2.1.1 文本分段
无论是中文文本还是英文文本,每个段落的结束标志都必定是换行符,所以要分段的标志我们只需要查找到换行符就可以了。把文本切分成段落再进行处理,这给我们统计词语在段首和段尾出现的次数提供了方便。
2.1.2 文本断句
 研究断句首当其冲要研究标点符号的用法,从断句的角度来考虑,可以把标点符号分成三类:句末标点、右侧标点、和其他标点。句末标点包括有句号、感叹号以及问号。另外,冒号是用于提示下文,分号则是表示分句结束。因为分号的下文常常是独立的句子和句群,所以最好将分号归入句末标点里面。因为句子结束时最重要的形式标记就是句末标点,所以断句时首先就要找到它。
2.1.3 获得标题句
在对大量文本的研究之后,本文得出判断标题句有如下几个规律:
(1)标题句的字数都会在100字节以内。
(2)在文本有标题句的前提下,标题句和正文之间必定会有回车换行符。
(3)如果该句子没有标点,回车换行符前面的句子就视为候选标题句;有标点的但是没有句号,标点个数少于4个并且句末没有指定的标点(分号和句号)也是如此。
2.2 关键词提取概述
文本自动化处理常用的一项关键技术就是关键词自动提取。它是一项处于信息处理领域的核心技术,也是诸多信息处理必需的前期基础工作之一,在自动文摘、文本分类、信息检索等方面都有着广泛的应用。关键词提取指的是从文本中提取出3至5个能够体现文本主要内容的关键词和关键短语。由计算机来自动完成整个提取过程,很少或几乎不会由人工去参与。关键词的主要作用有:可以作为全文的简要概括来实现摘要的功能,到达方便阅读者通过关键词阅读,可以快速判断该文本是否是自己所需资源的目的;同时,索引目录中也有关键词的立足之地,可以方便阅读者查找关于某个关键词的相关资料;此外,以关键词为标签的搜索引擎可提高阅读者的搜索效率,与全文的搜索相比,关键词搜索的返回结果会更加精确。 (责任编辑:qin)