现有的针对微博的研究大多倾向于舆情分析,多集中于微博话题带来的影响方面,少有纯粹的针对微博话题的分析。然而大多的课题研究都要基于对微博话题本身的研究,所以,研究如何更好地分解微博话题并且分析其相关性是十分必要的。19483
很长一段时间以来,文本间的相关性计算被广泛得使用在自然语言处理的各种应用方向以及相关领域中。其中,在信息检索领域中文献集合关于文档与用户查询文本之间的匹配问题应该是最早也是最为人们所熟知的一项应用。在这个文本匹配过程中,以VSM模型为基础,文档集合中各个文档与用户查询文本之间的相似度基于文本间关系的计算结果,文档检索系统利用其计算结果对文档进行排序,为用户提供若干与其所查询内容最为相关的文档。文本间的关系计算也经常被用来进行相关反馈和文本自动分类、语义消歧,以及自动文摘的生成。在机器翻译和文本摘要系统的自动评测中也会用到文本间相关性计算。
目前被广泛应用的文本间相关性计算方法多为简单的词汇匹配方法,即通过对两个文本所共同拥有的词汇进行比对统计来获得文本之间的相关度。尽管许多研究者已经对词汇的匹配方法进行了诸多改进,其中包括stemming---针对英文文本的词干化处理、word automatic segment---针对中文文本的分词处理以及part of speech tagging---在中英文文本中都适用的词性标注、最长序列匹配和各类权重计算与归一化因子选择方法,并且都取得了一定的进步,但是这些简单的词汇匹配方法的缺陷仍然显而易见。使用词汇匹配方法在进行文本间相关性计算的过程中,由于对相关性概念本身缺乏深度的分析,容易忽略词汇储备对相关性判断所产生的误差,从而造成以简单的相似度对比来代替相关性判断的错误。例如,对于下面这两句话:“我有一把椅子”和“我有一件家具”明显是相关的内容,而绝大多数现有的利用词汇匹配方法来进行相关性判断的算法都将会对此做出错误的判断,因为简单的词汇比对无法挖掘和利用中文词句中所蕴含的大量深层语义信息。
这样的研究形势自然要对文本之间语义相关性计算方法的研究提出要求。文本间的语义相关性计算要在语义层面进行度量而不是仅仅进行的词汇比对。这样的要求来源于对相关性概念本身所进行的深入思考分析,是为了充分运用相关性概念理论的研究成果,也是相关性概念的理论研究价值在实际应用中的体现。为了能够从用户观的角度去理解微博话题之间的相关性,并以之为基础研究文本间的相关性计算方法,是从根本上提高文本间相关性比较效果,从而实现模拟人类判断行为这一终极目标的途径。
对于文档间相关性的计算,须从相关概念的本质出发,以用户的知识储备为基础,利用词汇集聚方法,将文档形式化地表示为词汇链集合,并且同过文档形式化表示中词汇链之间的链接关系直接对文档之间的相关性进行比较。此外,在基于词汇集聚的文档相关性计算方法的基础之上,还要对构成文档表示的词簇的内部结构进行了深入的分析,提出了在形式化表示过程中对词簇结构信息进行存储的表示方法,并且通过对词簇结构信息的分析和利用,提出了用于更加准确地考察词汇链权重以及词汇链间链接关系的一系列计算方法,从而最终实现了基于结构化词汇集聚的文本间相关性计算。
然而对于分析微博话题相关性的问题,我们必须考虑到网民身份的特殊性以及网络用语的特殊性,而不是以普通文本间相关性分析来定义这个问题 微博话题研究国内外研究现状:http://www.youerw.com/yanjiu/lunwen_10854.html