网络舆情是通过互联网传播的用户对事件的所有认知、态度、情感和行为倾向的集合,对网络舆情的研究涉及传播学、计算机科学、情报学等多领域学科。
1网络舆情关键技术研究现状
按照网络舆情分析流程来看,涉及到的关键技术有信息采集技术、信息预处理技术、舆情分析技术和社会网络分析技术。84058
(1)信息采集技术。信息的采集是进行网络舆情分析的第一步,目前最常用的信息采集技术是通过爬虫程序实现的,其原理是将要采集的页面的URL地址收集起来并形成一个地址集合队列,爬虫程序根据一定的爬取策略一次对URL地址集合队列中的地址进行爬取,并对爬取下来的页面信息进行整合,从而完成舆情信息的采集工作[1]。论文网
(2)信息预处理技术。信息预处理是对采集的舆情数据进行初步的加工和处理,为后续舆情数据的提取及内容的分析奠定基础[2]。比较常用的舆情信息预处理技术有自动分析和自动摘要技术[3],自动摘要技术又可以分为基于统计的自动摘要、基于语义的自动摘要和基于理解的自动摘要三种[4]。
(3)网络舆情分析技术。对网络舆情的分析主要有两种方法:一是内容分析法;二是文本数据挖掘法[5]。内容分析法是对传播内容进行描述的一种研究方法,具有客观性、系统性和定量性,它在网络舆情分析中的作用主要体现在三个方面:一是对网络中传播的舆情信息进行描述;二是分析信息传播主体的意图和倾向性;三是分析舆情信息的产生和变化趋势[6]。文本挖掘是指从大量的文本集合中发现隐含的知识、模式,可以对文本信息进行表示、特征提取、内容总结、文本分类、聚类、关联分析、语义分析、趋势预测等[7]。
(4)社会网络分析技术。网络舆情信息不仅包含线性的舆情文本内容,还包括用户行为、用户关系等多种社会化型数据,采用传统的文本分析方法会忽略这些有价值的社会化型数据,因此近年来利用社会网络分析方法来分析网络舆情逐渐受到学界的重视。基于社会网络分析的网络舆情分析主要有两个研究方向,一是对网络传播的内容的研究,二是对舆情网络结构的研究[8]。
对舆情内容的研究主要有对舆情主体挖掘、舆情数据挖掘、网络社区发现和意见领袖的识别。董亚倩,邓尚民以“李刚门”事件为例,利用社会网络分析工具UCINET对事件发展各阶段主体关系网络图进行了密度、中心性、聚类系数等方面的计算与分析,对舆情主体进行了挖掘[9]。石彭辉选取某网络论坛题为“延迟退休你怎么看”的主题帖及相关回复作为研究数据,利用Pajek软件对该事件进行了整体的网络舆情分析,得出网络特点并识别出网络中重要的行动者[10]。余重远,李珊,赵文,李瑞按照“关系取向”的思路提出了一种基于SNA的快速确定网络舆论领袖的方法,并通过实验证明该方法可大大提高工作效率[11]。
对网络结构的分析主要有对舆情信息传播模式的研究、网络舆情演变的建模。吴少华等人对天涯论坛上的网络舆情事件进行了SNA属性参数的定量分析及动态变化分析,揭示了网络舆情的演变过程、特征和规律[12]。平亮,宗利永利用UCINET软件测量网络结构的各种中心性,对微博信息传播进行了分析[13]。
2网络舆情主题发现研究现状
目前国内外研究者对网络舆情主题发现大多集中于热点主题的发现,少量针对潜在主题进行了研究。郝晓玲等人选取网络经济论坛为研究对象,提出了一个用于热点主题挖掘的综合模型,该模型包括基于迭代聚类的热点主题发现,主题热点评估及主题情感倾向性分析,并通过采集天涯论坛经济板块的数据进行实验,证明了该热点挖掘综合模型是有效的[14]。刘佳提出了一种将Single-Pass与语义框架相结合的文本聚类算法,实现了对微博热点话题的检测[15]。通过在CNKI建立检索表达式“主题=‘潜在主题发现’or‘潜在话题发现’”,仅返回三条结果,说明国内对潜在主题发现的研究数量很少。朱义生以标签对潜在主题的贡献为出发点,改进LDA模型,利用Gibbs算法将标签映射到相应主题上,提出了基于LDA模型的潜在主题发现方法[16]。