LDA模型网络微博话题相关性分析(2)_毕业论文

毕业论文移动版

毕业论文 > 数学论文 >

LDA模型网络微博话题相关性分析(2)


网民群体、媒体组织甚至是政府等社会角色自2012年以来都积极参与微博互动,多元化社会群体都集中在微博上发出自己的声音,在网络微博平台上构建起了新生的社会动态。网络微博作为一个在线社交平台,其迅速的发展是人们始料未及的。我们从《2012至2013年微博发展研究报告》(参考互联网数据)中的各项数据来看我国网络微博的发展现状。截至2013年上半年,注册新浪微博网民数量达到5.36亿;而相关互联网数据显示我国网民数在2013年底为5.91亿。从这两个几乎相当的数据来看,我们不得不承认参与网络微博的互动在中国网民的社交活动中占据了怎样的位置。
网络微博中的信息数据主要由广大的个人用户发布并且相互间进行传播,因而微博用户一方面不断地创造海量的微博话题,但另一方面对于微博的研究者而言,微博信息却显得庞大而冗杂且充斥着大量无效的信息。因此,如何能够有效地分析微博中海量信息之间的相关性,如何以一个话题为基点得到有研究参考价值的相关内容成为了一个值得研究的课题。
1.2  研究方向
微博的出现,引发了一场“140字符的革命”,很多新闻事件和热点话题在微博网站得以快速、广泛地传播,成为网民获取信息、分享信息、交友的重要平台。微博用户多种多样,包括社会知名人士、草根人物和媒体或机构的机器人等。用户发表话题根据其作者、内容的不同,将会受到不同程度的关注。
网络微博的用户规模以及其关注度开启了一个网络明星的时代,一是现实中的影视明星等发布的微博收到了其粉丝大量的关注以及参与,不过这些微博内容多以日常生活娱乐消遣为主,并没有什么研究参考价值;二是这样的一个群体,他们就一些有争议的问题或者新闻热点发表自己的观点,从而引发人们的关注和参与,有些微博的评论数甚至会达到千条万条,当我们需要研究某一个话题在网民中的影响时,这样的一条微博以及其庞大数量的评论往往就是我们要参考研究的对象。
但是并非所有参与微博讨论的用户都发表了有实际参考意义的言论,有些可能只是表达了个人的情绪(使用微博的表情功能,没有文字表达),有些甚至只是单纯地转发。这样的情况下,我们对采集到的大规模微博数据无法直接进行研究,必须对微博下的评论内容做一个具体的辨析,判断其是否与原微博的主题相关。然而,如何有效且准确地做出相关性的判断是一个具有很大挑战性的课题,由于中文文本的特殊性,研究中有许多问题有待解决。本文在有限的知识结构下就微博话题相关性问题提出了一点看法。
我们从一个二值分类问题的角度来看微博话题相关性分析,即分析结果有相关和不相关两种情况,用数值来表示的话就是0和1。为了能够更好地实现数据的后续利用,本文想更加细致地定义相关性这个概念。对最后的文本仍然采取相关或者不相关两种情况,而在确定相关关键词的过程中对相关性程度进行细致的划分,即在0和1之间增加一些定义数值点,对关键词的相关程度进行多层次划分。    
本文受新闻专题划分的启发,充分考虑言论发表者的主观特点即网民特性以及网络语言的特点,针对微博言论的自由性,我们如果只是简单地根据中文文本的特性单纯从语义的角度来判断微博话题相关还是不相关,这样得到的研究结果可能会缺乏实际的研究价值。打个比方,如果有人用暗喻评论了微博主题,但是即使是语义分析也会忽略。因此,本课题针对关键词的筛选更加谨慎,在相关或不相关两种简单情况之间插入关于子话题关键词的定义。微博话题往往也不是针对一个主题词展开讨论,我们充分提取出大量可能存在相关度的关键词,然后对其相关度进行排序和分组;这样就能得到一个颇为全面的词汇集,对于文本的分析将会更加准确。 (责任编辑:qin)