NLP&CC201微博特定话题情感分析方法研究(4)
时间:2021-11-13 20:57 来源:毕业论文 作者:毕业论文 点击:次
1 ND 5 2
招灾 adj 1 1 NN 5 2 NN 5 2 折辱 noun 1 1 NE 5 2 NC 5 2。2 微博情绪词典构建 2。2。1 表情词典构建 微博中的表情符,如[哈哈]、[泪]、[威武],可以生动形象的传递博主写这条微博时的情 绪。例如,“从这刻开始偶们无法淡定了,新武林外传开机成功[奥特曼][威武][奥特曼][围 观][哈哈][哈哈][哈哈]”,表达了博主快乐的情绪。“俺们是穷人家孩子[泪]”,表达了博 主悲伤的情绪。“海军陆战队官方摄影师威武!!! [威武] [威武] [给力]”,表达了博主对摄 影师的赞扬,其情绪类别为喜好。 本文参考论文《基于词典的中文微博情绪分析》中使用的情绪词典构造方法,进行了情绪 词典的构造。该论文认为同一条微博中的含有的表情符通常传达相同的情绪,可以使用互信 本科毕业设计说明书 第 5 页 息法计算两种表情的关联程度,关联程度越高的所属情绪相同的可能性更高【12】。本文具体的 表情词典构造步骤如下: 1.从 NLP&CC2013 提供的未标注语料 5000 条中提取出所有的表情,同时统计每个表情 出现的次数,根据它们出现的次数将表情进行降序排序,为每种情绪类别 ei 选择排在前面且 类别明确的表情,当做种子词。来*自~优|尔^论:文+网www.youerw.com +QQ752018766* 2。对于未知类别的表情符 b,若表情符 b 没有与种子词一起出现过,则跳过这个词,否则 按照公式 2。1 计算它与某种情绪的互信息值。 公式 2。1 中,a 为属于情绪类别 ei 的表情符,P(b,a)是表情 a、b 同时出现的概率,P(b)和 P (a)分别是表情 b、表情 a 出现的概率。 3。比较表情 b 与每种情绪类别的互信息值,根据互信息值判定表情 b 的情绪类别,若某 种情绪类别与 b 满足 MI(b, ��)>0。5 且 互信息值大于其他所有类别,那么这个类别就是表情 符 b 的所属类别。将 b 从未知列表中移除。 4。当未知表情符数量不再改变时,停止表情词典构造,否则回到步骤 2。 2。2。2 卡方词典构建以及俚语词典收集 情感词汇本体中没有收录那些能表达情绪的网络用语,比如表示 sadness 的词“杯具”, 表 示 anger 的词“MLGB”。本文人工收集了部分网络俗语,构成了俚语词典。 然而仅仅依靠人工收集不仅浪费时间,而且对于那些存在多义性的词,无法人工准确判 断。比如词“呵呵”,有人用它来表达 happiness,也有人用它来表达 disgust。因此,本文从微 博文本自身提取词汇,构建了适用于微博的情绪词典。 (责任编辑:qin) |