网络舆情主题发现的实现方法大致可分为两种技术思路:一是利用聚类方法;二是利用主题模型。文本聚类大致可以分为基于划分的聚类算法和基于层次的聚类算法两种,根据层次分解自底而上或自顶而下的聚合顺序,层次聚类算法又可以分为分裂层次聚类和凝聚层次聚类两种[17]。王小华等人选取新浪新闻数据为研究对象,利用TF-IDF技术提取其中的关键词并构建关键词共现矩阵,并用Bisecting K-means算法实现了对关键词共现矩阵的聚类[18]。陆蓓等人对蚁群聚类算法进行了改进,实现了对新浪新闻文本的聚类,并在聚类的基础上提出了类别关注度的概念用以判定类别的热门程度[19]。唐果等人提出了一种通过计算含有关键词的文档向量间的距离来实现BBS热点主题发现的文本聚类算法[20]。
主题模型的思想是利用已知的“文档-词语”分布,经过一系列训练,得到“主题-文档”分布和“文档-主题”分布。主题模型训练推理的方法主要有两种,一是pLSA(基于概率的潜在语义分析),另一种是LDA(隐含狄利克雷分配)。pLSA主要使用期望最大化(EM)算法,LDA则采用的是Gibbs sampling方法。王嵩等人选取Delicious网站的用户标注信息为研究对象,引入pLSA算法得到了特定资源主题下的标签集[21]。阮光册针对网络用户评论信息内容不完备的特征,提出了一种基于LDA主题发现模型与HowNet知识库相结合的分析方法,用于网络评论的主题发现研究[22]。姜晓伟等人认为微博文本长度太短,LDA模型可能无法获得足够的所需要的信息,因此在LDA模型的基础上提出了词项聚合LDA策略来实现微博话题的发现[23]。除此之外,淦文燕等人提出了一种基于拓扑势的算法,用来评估网络节点的重要程度,以发现网络舆情中的热点话题及其演化趋势[24]。黄炜等人将本体论和语义计算技术引入到网络群体性事件的主题发现研究中,提出了一种基于本体的网络主题发现方法[25]。