1.3 国内外研究现状
2 相关模型
本文在充分考虑到网络语言的特点的同时把研究的焦点放在了计算相关度之前的工作上,主体思路就是将LDA模型与向量空间模型相结合,利用LDA模型来定义特征项,从而改善向量空间模型单纯依靠相似度计算来判断相关度的局限性,也就是说本文利用词汇比对来判断相关性,但是把研究的重点放在如何得到比对的有效词库。下面就简单介绍一下本文主要涉及的两个模型。
2.1 向量空间模型
向量空间模型 (Vector Space Model,VSM) 具有简便、高效等优势,自被发现以来就被广泛地应用于信息过滤、采集以及索引当中,是非常实用的计算相似度的代数模型。VSM的原理很容易理解,用向量空间中的向量运算来对文本信息进行处理转化,再以向量空间上的相似度来衡量文本的相似度。用空间向量表示文档,就可以通过计算向量之间余弦距离的来计算文本间的相关度。
文件(语料)被视为索引词(关键词)形成的多次元向量空间, 索引词的集合通常为文件中至少出现过一次的词组。搜寻时,输入的检索词也被转换成类似于文件的向量,这个模型假设,文件和搜寻词的相关程度,可以经由比较每个文件(向量)和检索词(向量)的夹角偏差程度而得知。实际上,计算夹角向量之间的余弦比直接计算夹角容易:余弦为零表示检索词向量垂直于文件向量,即没有符合,也就是说该文件不含此检索词。通过上述的向量空间模型,文本数据就转换成了计算机可以处理的结构化数据,两个文档之间的相似性问题转变成了两个向量之间的相似性问题。
在向量空间模型中,文本用D(Document)表示各种机器可读的记录;特征项(Term,用T表示)是指出现在文档D中并且能够代表该文档内容的基本语言单位,主要是由词或短语构成。则文本可以用特征项集表示为 ,其中 是特征项 。
例如,一篇文档中有a、b、c、d四个特征项,那这篇文档就可以用D(a,b,c,d)表示。针对含有n个特征项的文本,通常会给每个特征项赋予一定的权重来表示其重要程度,即 D=D(T1,W1;T2,W2;…,Tn,Wn),简记为 D=D(W1,W2,…,Wn),就形成了我们需要的文本D的向量表示形式,其中W_k 是T_k 的权重(1≤k≤N)。在上面那个例子中,假设(a、b、c、d)的权重分别为(30,20,20,10),则该文本的向量应该表示为D(30,20,20,10)。在VSM模型中,两个文本D_1 和D_2之间的内容相关度 Sim(D1,D2)常用向量之间夹角的余弦值来表示,其公式为:
、 分别表示文本 和 中第 个特征项的权值 。而在本文中要依靠LDA的建模结果来确定这个权值。 LDA模型网络微博话题相关性分析(3):http://www.youerw.com/shuxue/lunwen_10853.html