摘要:本文首先从理论层面上对汉语分词、文本分类进行概述,然后介绍网络爬虫的基本理论,并阐述基于网络爬虫的页面爬取工具对新浪微博数据的抓取;其次运用相关的算法对之前在新浪微博上抓取的几万条文本数据进行分词、提取文本特征项以及关键词转化为向量空间维数的处理,接下来采用基于SVM支持向量机模型的数据挖掘方法实现了社会舆情信息的处理和归类。最后将分类处理结果进行分析,凸显出基于数据挖掘技术在社会舆情信息分类处理方面的可行性和优越性。64308
毕业论文关键词 数据挖掘 社会舆情 文本分类
毕 业 论 文 外 文 摘 要
Title Social public opinion classification research
Abstract
This paper firstly provides an overview to the theory of Chinese word segmentation and text classification. Then it introduce the basic theory of web crawler and the Sina microblog data capture by web crawler crawling tools. Secondly,in order to attain the result of text data segmentation ,extraction of text feature item and keywords transform into dimension vector space, we use the related algorithm to deal with the Sina microblog data that are captured before. In addition, using the data mining method based on SVM model to achieve the social public opinion information processing and classification. Finally, we analyze the results of the data classification, and highlights the feasibility and superiority in the social public opinion information classification based on data mining technology.
Keywords: Data Mining Social public opinion Text Classification
1 绪论 1
1.1课题背景 1
1.2 网络舆情研究的技术需求 1
1.3 网络舆情研究的发展现状 2
1.3.1 网络舆情分析 2
1.3.2 文本数据分类研究的发展现状 2
1.4 本文研究的主要内容 3
2.舆情信息分类研究的基本理论研究 5
2.1汉语分词 5
2.2 文本分类 6
3 舆情信息数据的获取与处理 9
3.1新浪微博简介 9
3.2 舆情信息数据的获取 9
3.3 文本信息处理系统的构建 10
3.4 开发工具及系统框架 11
3.5 TF*IDF关键词特征加权算法 11
3.6 系统关键技术实施 13
3.6.1 运用中科院分词系统ICTC对文本进行分词处理 13
3.6.2 运用TF*IDF算法对文本进行关键词选取 14
3.6.3 关键词转化为空间向量的维数 16
4.舆情信息数据的检测分类 17
4.1需求描述及分类工具介绍 17
4.1.1 需求描述 17
4.1.2 分类工具介绍 18
4.2 SVM支持向量机空间向量模型 18
4.3文本分类系统结构 20
5. 舆情信息文本分类的结果的分析