网络舆情分类研究+文献综述(2)_毕业论文

毕业论文移动版

毕业论文 > 新闻传播论文 >

网络舆情分类研究+文献综述(2)


如何在如此庞大的数据库中快速、准确、全面地搜寻到有价值的数据以及相关内容的最新动态,是目前信息获取的必要前提。
而文本分类是针对网络舆情处理和组织的关键技术。在很大程度上可以帮助用户有针对性获取相关检索内容。综上总结,自动文本分类成为当下信息管理领域的重要研究课题。
1.2  国内外研究概况
1.2.1  国外研究概况
1.2.2  国内研究概况
1.3  本文主要内容和章节安排
本文以文本分类研究为基础,从而对网络舆情分类进行研究。论文研究内容主要分为三个部分:第一部分,主要处理中文文本数据,将中文信息进行预处理,形成机器可以读取并且运行的机器语言;第二部分,主要是建模,通过机器学习,对数据集进行特征归类形成分类器,达到分类的目的;第三部分,对自动分类结果进行性能评估。文章主要章节安排如下:
第一章为绪论,讨论了本课题的研究背景、发展及研究现状。最后介绍了本文的研究内容及章节安排。
第二章为综述,讨论了目前我国对中文文本分类技术的主要流程和相关研究情况。
第三章为实验理论描述,本章主要是对本次课题实验中所涉及的内容进行理论描述。主要内容为对搜集的舆情进行分词、去停用词、特征加权、特征选择以及分类评估一一进行了详细的理论论述。
第四章为实验结果与分析,本章主要内容是结合第三章的实验理论论述进行具体的实验操作其中包括分类评估所运行的环境、运行原理及运行结果示意图。
最后为结束语,通过理论和系统两部分概括了文本的研究内容和研究方法,并指出未来研究内容的下一步工作。
2  中文文本分类概述
文本分类是将已有的文本,通过对其特征值的提取及分析,将其归类于预先已有的类别的过程中。这种归类的结果通常是一对一或者多对一。其目的是通过搜索特征词而限定搜索范围从而使得用户可以高效且准确的获得数据。
本章从理论上阐述了中文文本分类的特点以及中文文本分类的模型和具体流程。说明了中文文本分类处理的具体实施方案。
2.1  文本分类技术流程
中文文本分类主要由3个阶段组成:第一阶段为文本预处理阶段,主要是对中文文本进行转换,将文本信息转换为计算机可以存取并运行的机器语言;第二阶段为分类器的训练阶段,主要是运用分类器进行自动处理,通过训练少量的数据集,进而将这一过程运用到分类器处理整个文档内容的过程;最后通过分类器的性能评估和参数调整,最终得到参数最优的分类器进行文本分类处理。第三阶段为分类阶段,紧接第二极端的分类器,通过测试集进行机器分类,并且做最后的性能评估。文本分类具体流程图如图2.1所示。
 
图2.1  文本分类流程图 
中文文本分类主要由3个阶段组成:第一阶段为文本预处理阶段,主要是对中文文本进行转换,将文本信息转换为计算机可以存取并运行的机器语言;第二阶段为分类器的训练阶段,主要认为是通过训练集进行机器学习形成分类器,同时进行分类器分类效果的性能评估,与此同时,进行分类器参数调整,从而得到效果最优。
现阶段的研究中,文本分类的过程主要依靠机器学习的过程。也就是机器通过学习分类完善的数据集获取分类标准形成分类器(及相关关系模型)。通过分类器的相关参数,从而对未分类的文本进行特征匹配,完成匹配映射。
由上可知,文本分类中的机器学习是分类的主要任务。如何将人类共享的文本转换为机器可识别且运行的计算机语言,具体步骤如下:    (责任编辑:qin)