微博子话题发现及其演变研究(2)_毕业论文

毕业论文移动版

毕业论文 > 新闻传播论文 >

微博子话题发现及其演变研究(2)


3.1  LDA话题的抽取    10
3.2  LDA话题的演化    11
4    实证分析    13
4.1 数据的采集及处理    13
4.2 话题的抽取    14
4.3 话题演化结果及分析    17
4.3.1 致病原因    18
4.3.2 患病情况    19
4.3.3 防控措施    20
4.3.4疫苗研制    21
4.3.5 对家禽业的影响    22
5    总结与展望    24
5.1 研究总结    24
5.2 研究不足    24
5.3 研究展望    25
致谢    26
参考文献    27
图表目录
图1.1本文的研究思路流程图    3
图2.1 PLSA模型图    8
图4.1 python分词程序的处理结果    14
图4.2 2013/03 文档的话题多项式概率theta    15
图4.3 2013/03文档-话题分布矩阵和话题-词语分布矩阵    15
图4.4 不同时间窗口中五个子话题的话题强度    17
图4.5 致病原因子话题的话题强度    18
图4.6 2013/03致病原因的话题—词语分布矩阵    19
图4.7 2013/04致病原因的话题—词语分布矩阵    19
图4.8 患病情况子话题的话题强度    20
图4.9 防治措施子话题的话题强度    21
图4.10 疫苗研制子话题的话题强度    21
图4.11 2013/05家禽业子话题的话题—词语分布矩阵    22
图4.12 对家禽业的影响子话题的话题强度    22
表2.1 LDA模型的符号含义    9
表3.1 话题-词语分布矩阵    11
表4.1 数据的基本情况    13
表4.2 垃圾话题实例    15
表4.3 不同时间窗口中的微博子话题命名情况    16
1    绪论
1.1 研究背景
随着互联网时代的到来,微博等Web2.0平台快速发展。微博是一个基于用户关系信息分享、传播以及获取的平台,因为其草根性强、传播迅速等特点深受网民青睐,用户增长率始终保持强劲势头。截至2013年12月,我国微博用户规模为2.81亿,网民中微博使用率为45.5%。有别于以往博客、论坛等传统网络平台,微博上构建了一种新的交互关系,即关注(follow)关系。所谓关注关系是指一个用户通过对其感兴趣的用户标注“关注”而形成的关系。通过关注关系,用户可即时获得他所关注用户的博文。这种关注关系为信息流动构建了强大的管道,使微博链式信息推送变得格外强劲。作为网络时代的一个里程碑,微博改变了人们获取和分享信息的方式,其可单向可双向的关注机制使得微博网络呈现出复杂的舆论现象和无穷的变化规律。
微博除了“关注”关系外,还存在其他特征,时效性就是微博的一个显著特点。每时每刻,微博上都有大量话题的产生,每个话题都有着形成、高涨、波动和最终淡化的过程。一些焦点事件、敏感问题、热点话题等网络突发事件的演化过程更是人们所关心的问题,快速更新的微博信息显著影响着人们对新闻事件的看法和处理方式,影响着公共决策和公共事务的发展走向,对社会整体思想意识形态发展变化的作用越来越明显。同时,一个话题也会随时间的发展演化成不同的子话题,存在着分裂、迁移、消失的可能,引发着人们关注点和关注度的变化。如何将微博上大规模的信息利用起来,准确发现事件话题、追踪话题演化而成的后续子话题,成为了舆情分析、信息检索研究领域的热点问题。本文所采用的主题模型为文档主题生成模型(简称LDA)。LDA是一个三层贝叶斯概率模型,它是一种非监督机器学习技术,能够通过文本分割有效提取出特征词来定义话题,在文本挖掘领域得到了广泛的应用,实践证明LDA主题模型可以较为准确地发现微博子话题、追踪进其演化趋势并掌握社会各方面的舆情动态。 (责任编辑:qin)