5.1.分类结果展示与说明 22
5.2分类结果分析 22
总 结 25
致 谢 26
参考文献 27
1 绪论
1.1课题背景
如今,网络媒体已被公认为是继报纸、广播、电视之后的“第四媒体”。网络媒体的兴起使得信息传播的方式发生了极大的变化,网络媒体的迅速发展也使得舆情传播渠道更加多样化,网络成为反映社会舆情的主要载体之一。
舆情是指群众对某些社会生活现象的主观反映,是公众心理、思想、情感、意见的综合表现。网络舆情是人们借助互联网媒介在网上发表的带有情感倾向性的言论。随着计算机科学和通讯技术的不断发展,社会舆情也不可避免地利用互联网这个高速发展的载体进行快速传播与扩散。论文网
互联网传播信息具有即时性,因此它给予人们生活、工作上的许多便利,一定程度上提高了人们的工作效率。但同时也必然给网络暴力和网络谣言的传播行为提供了温床。虽然,网络管理部门以及公众媒体一直呼吁网民要规范自己的上网行为,维护网络秩序,但是依然有人别有用心的制造、传播网络谣言,形成非理性的网络舆论氛围,影响正常的社会生活秩序。因此,如何在海量信息中浏览、查找有价值的舆情信息,进行分析判断、以及时地控制和规范网络信息的传播是亟需研究解决的问题。只有在研究这个问题的基础上,开发并完善相关的网络信息挖掘、管理的工具和方法,进而网络监管部门借此对网络言论进行监控和管理,对网络舆情进行分析和研究,完善相关的管理制度,才能培育文明高雅、成熟开放的舆论氛围。源[自[优尔``论`文]网·www.youerw.com/
1.2 网络舆情研究的目标导向
近几年,随着现代社会舆情传播复杂程度的进一步提升,世界各国都加速开展了网络舆情挖掘分类处理方面的关键技术研究。
其中,主题分类技术既是舆情分析中应用的重要单体技术,又是倾向性分析和主题检测与跟踪技术的技术基础。其对网络用户具有重要意义。一方面。用户可以分门别类地查询和统计各类事件信息,形成摘要和简报;另一方面,主题分类可以为用户判断所搜集的信息是否属于不同来源的同一事件提供可靠依据。因此,本文的主要内容便是针对网络舆情文本文类领域进行研究和报告。
1.3 网络舆情研究的发展现状
1.3.1 网络舆情分析
1.3.2 文本数据分类研究的发展现状
1.4 本文研究的主要内容 文献综述
本文在研究现有主题分类所用方法的基础上,首先利用网络爬虫在新浪微博上抓取了中文文本主题分类所需要用的文本材料,并以此为基础利用TF*IDF算法实现了结合语义资源的文本分词和提取关键词的处理,然后oracle Data Miner数据挖掘软件作为操作平台进行文本文类系统搭建,进而运用所拥有的文本向量空间数据对系统进行分类训练和测试,最后通过实验展示文本主题分类的过程和结果,并对其在召回率和准确率上做一定程度的分析。本文旨在通过以上的研究来观测舆情分析中文本主题分类必要性。