摘要本文将LDA模型应用于微博话题的文本建模中,我们把原微博内容以及下面的评论回复集聚为一篇文档,然后用中科院ICTCLAS10,把文档进行词切分,再去掉一些不必要的符号(微博回复中常含有一些不相关的表情符号等),最终得到一个格式规范化的文本。这个规范化的文本更适合用来建模。由于中文词汇的复杂性,在有限的条件下本课题没有选择在第一步的LDA建模中事先加入文字预处理功能,所以最后得到的词频文件中词汇量相当的大,一些常用词的频率相当高,但却没有主题参考价值,在这样的情况下,我们要进行词汇筛选,选取出合适的特征词,在根据特征词与主题的相关度将特征词分组。19483
关键词 LDA 向量空间模型 网络微博 相关性 毕业论文外文摘要
Title Network Weibo Topic Correlation Analysis
Abstract
This article applies the LDA model text Weibo topic modeling, we put the original weibo content, and reply the comments gathered for a document, and then use ICTCLAS10 of Chinese academy of sciences, the document of word segmentation, and then remove unnecessary symbol (weibo reply often contains some irrelevant emoticons, etc.), end up with a format standardization of the text. The standardization of the text is more suited for modeling. Because of the complexity of the Chinese vocabulary, in limited conditions on our subjects had no choice in the first step of LDA modeling of add text preprocessing function beforehand, so the resulting vocabulary word file is quite large, some common word frequency is quite high, but no topic reference value, in this case, we must carry on the lexical selection.
Keywords LDA VSM Weibo Correlation
目录
1 绪论 1
1.1 研究背景及意义 1
1.2 研究方向 2
1.3 国内外研究现状 3
2 相关模型 5
2.1 向量空间模型 5
2.2 LDA模型 6
2.2.1 LDA的定义 6
2.2.2 LDA的作用 7
3 相关性判断 10
3.1 用Gibbs抽样算法进行LDA建模 10
3.2 文本向量化 12
3.3 相关度计算 13
4 程序实现 14
4.1 LDA模型 14
4.2 向量空间模型 16
5 实验 19
5.1 实验数据及设置 19
5.2 LDA模型相关设置和建模结果 19
5.3 运行向量空间模型及结果 24
结论 27
致谢 28
参考文献 29
1 绪论
1.1 研究背景及意义
伴随着Web2.0的迅猛流行,Internet上涌现出大批的SNS即Social Network Service站点,这些SNS站点现已经变成人们获取信息、沟通交流的重要平台工具,在人们的工作、学习以及生活方式各方面都带来了巨大的影响。针对在线社交网站的结构、传播机制和网民用户行为等方面的研究,显然已经引起了不同学科领域里研究者们的关注,社交网站的兴起在网络推广、信息传播、在线营销、舆论影响以及用户行为认知等方面毫无疑问得有着巨大的探索价值。
微博,即微型博客,又称微博客、迷博、一句话博客等。文基百科关于微博的定义是:微博客(Micro-blogging或Microblog)是一种允许用户及时更新简短文本,并可以公开发布的博客形式。微博作为当今网络上最为流行的社交媒体之一,在这几年里得到了快速的发展,它作为一种互动及具有强大传播功能的社交平台,其信息的传播速度比一般形态的社会网络和其他媒介要快上许多,常常就是十几秒甚至是几秒一个话题就被传播开来。微博这个平台是基于用户之间的信息发布、传播以及分享来搭建的,用户通过万文网、移动互联网以及电脑和手机客户端形成个人社交网络,以文字信息更新个人状态并且发表评论参与互动。