文本聚类法虽易于实现,但这种方法忽视了文字间隐含的语义关联,而且它能对大规模文档集进行有效的主题发现,但对微博等短文本数据的主题发现效果却不尽如人意。为了对信息内容短,信息量少的用户评论等短文本信息进行有效的主题发现,国内外学者提出了一种新的主题发现方法----主题模型法。主题模型众多,其中最典型、最热门的代表是LDA模型,它是利用已知的文本单词通过概率来反推文本集主题分布的一种技术[30]。LDA模型也称为三层贝叶斯概率模型,包含词、主题、文档三层结构。LDA模型认为,每篇文档是由多个主题组成的,而每个主题则是固定词表上的一个多项式分布,文档到主题服从Dirichlet分布,主题到词服从多项式分布,即LDA模型将每一篇文档视为一个词频向量[22]。
2。1。3 LDA模型概述
传统判断文档相似性的办法是查看文档同出现的词项的多少,如TF-IDF算法等,但这些方法并没有考虑到文字背后的语义关联,而主题模型则克服了传统方法的局限性,LDA就是其中一种有效的模型。
LDA(Latent Dirichlet Allocation,隐含狄利克雷分配)模型是一种文档主题生成模型,包含文档、主题和词项三层结构。它将文档的生成定义为如下过程:
①从主题分布中抽取一个主题;文献综述
②从抽取到的主题的词项分布中抽取一个单词;
③重复上述步骤,直至遍历文档中的每一个单词。
也就是说在一篇文档里,每个单词出现的概率为:
给定一个文档集,通过对文档进行分词,计算各个文档中每个单词的词频就可以得到文档下的词语分布。而主题模型就是在已知的情况下,通过训练得到和的过程。其概率图模型如图2。1所示:
图2。1 LDA概率图模型
图2。1中,M代表文档集中的文档数,N代表每篇文档的词项数量,w表示文档中的词项,z表示主题。是文档-主题分布,表现为矩阵形式,行代表文档,列代表主题,其中的元素代表主题在文档中出现的概率,由参数为的Dirichlet分布采样得到。K代表每篇文档的主题数目,代表主题-词项分布,也表现为矩阵形式,行代表主题,列代表词项,其中的元素代表词项在主题下出现的概率,服从参数为的Dirichlet分布。和的取值一般依据经验而定,一般取,(K为主题数)。而Z、和都是未知的,需要对样本数据进行训练得到。
由于LDA模型是一种无监督机器学习技术,与训练样本数量无关,因此很适合于处理大规模文档集或语料库[31]。
2。2社会网络分析相关理论
社会网络分析方法是分析社会网络关系结构及节点属性的一套规范和方法,也是知识发现领域中一种对网络图进行数据挖掘的方法与技术集合。
2。2。1社会网络分析的特征指标
从图论的角度讲,一个具体的网络可以抽象为一个由点集V和边集E构成的二元组,点集V表示的是网络中来:自[优E尔L论W文W网www.youerw.com +QQ752018766-的节点,边集E表示的是节点间的关系。而对社会网络的分析也主要是借助图论中描述网络结构的特征指标,按其描述的对象大致可将特征指标分为两大类,一类是以个体为对象的网络节点分析特征指标,一类是以整体网络为对象的网络结构分析特征指标。前者主要分析节点属性特征,如节点的频次、中心度等;后者主要分析网络整体结构,如网络的密度、网络平均长度、网络聚类系数等。本文对目前较为常用的特征指标进行汇总,