第五章总结和展望部分,对全文的研究内容进行了总结、归纳,提出了本次研究存在的不足,并对下一步的研究工作进行了展望。
基于以上研究内容,本文的技术路线如图1。1所示:
图1。1 技术路线图
1。3。2研究方法
为实现基于社会网络的网络舆情观点主题发现,本文拟采用的研究方法有:
(1)文献研究法。利用CNKI、万方、SpringLink等中外文数据库,同时借助Google、百度等搜索引擎,收集与网络舆情、主题发现和社会网络分析相关的文献和信息资料,对搜索到的文献进行分析、提取、总结与归纳。
(2)LDA模型法。利用LDA模型对微博及评论文档集进行主题特征词项的提取,以得到微博舆情观点主题。同时,直接利用LDA模型进行文本的聚类。
(3)社会网络分析法。基于社会网络结构的视角,将微博舆情中涉及到的微博、评论、评论用户、点赞用户视为社会网络节点,以它们之间的关系为连线,构建社会网络。同时利用社会网络分析软件,实现各网络模型的可视化,并利用可视化效果图与社会网络特征指标测度相结合的方法从中得到观点主题的演化过程。
1。4论文创新点
(1)已有的主题发现研究大多没有对主题发现进行细化,只有部分是热点主题的发现研究,少量针对潜在主题,几乎没有对观点主题的发现研究,而本文针对观点主题,通过舆情信息内容、用户关系、用户行为三个方面的四个维度(时间维/用户维/内容维/观点维)的关联,构建网络舆情观点主题发现方法体系,有效地进行多粒度的网络舆情观点主题识别。
(2)已有的主题发现研究大多忽略了网络舆情中的社会化型数据,因此有必要在文本内容处理的基础上,引入新的社会化网络分析途径,发挥社会网络的作用。本文将主题模型与社会网络分析相结合,构建“用户-所属观点”2-模网络,并基于该网络对舆情观点支持度进行了分析,同时展示了观点主题随时间的演化情况。
2。相关理论基础研究
2。1主题发现相关理论
2。1。1观点主题发现的内涵
学界一般认为观点是人们对某个事物或事件所产生的带有情感倾向性的看法或态度[26],也有研究将“观点”与“情感”直接对等,交替使用[27]。而国内对观点主题识别的研究较少,对观点主题也没有明确的定义,周杰等人将从评论中提取出的零散的主题词合并,即视为观点主题[28]。主题发现又称为主题抽取或主题识别,是从复杂大规模信息源中获取主题并进行表现的一系列技术方法的总称。目的是处理和分析大规模信息并且使用户以快速有效的方式了解信息内容,发现信息中的主题。论文网
信息可以分为表述客观现实的事实性信息和带有情感倾向的观点性信息,本文研究的是带有情感倾向的观点性评论信息的主题发现。基于对以上概念的理解,本文将观点主题发现定义为:从大规模观点性评论信息中获取主题,并进行展示的一系列技术方法的总称,旨在从海量的评论信息中迅速获得用户对于舆情事件或某一问题的主要看法和态度。其中,观点主题是从观点性评论信息中提取出的主题词经人工合并、总结所得。
2。1。2主题发现实现方法
实现主题发现的方法众多,但最常用的实现方法主要有两种思路,一是利用聚类思想,二是利用主题模型。文本聚类是一种基于同类文档相似度大,不同类文档相似度小这一聚类假设的无指导机器学习技术。文本聚类方法的思路通常是利用向量空间模型,将文档转换为高维空间中的向量,然后对这些向量进行聚类[29]。常用的聚类算法有基于层次、基于划分、基于蚁群、基于模糊、基于密度、基于网格等的聚类算法。 Pajek社会网络分析的网络舆情观点主题发现研究(5):http://www.youerw.com/xinwen/lunwen_99450.html