不同领域中文评论信息的情感分类效果比较研究(9)

（5）TF*RF

Lan等提出了一种新的权重计算方法，即TF*RF（其中RF(relevance frequency)意为相关频率），并通过实验证明了其优于TF*IG等一些方法[64]。其中RF的计算公式如式3-9所示：

(3-9)

其中，定量2是由于对数操作是以2为底的，a,c的定义类似于CHI公式，即a为特征和类型共同出现的次数，c是特征出现而类型不出现的次数。

本文采用的特征权重计算方法包括：布尔权重、TF、log(TF)、TF*IDF、TF*CHI以及TF*RF，旨在比较不同的特征权重计算方法对于情感分类的影响。

3.4 SVM参数选择优化

本文使用台湾大学林智仁(Lin Chih-Jen) 副教授等开发设计的LIBSVM 软件进行情感分类。LIBSVM是一个简单、易于使用和快速有效的SVM模式识别与回归的软件包，该软件提供了很多的默认参数，减少对SVM所涉及的参数的调节；此外，还提供了交叉验证的功能。

LIBSVM中两个关键参数为C和γ(gamma)。C为错分样本惩罚因子，即误差的容忍度。C越大，表示对误差的容忍度越小，即越不能容忍误差的出现[54]。C过大过小都会影响模型的泛化能力。γ是RBF（Radial Basis Function，径向基函数）核函数自带的一个参数。该参数隐含地改变样本数据子空间分布的复杂程度，γ越大，支持向量越多，反之则反。支持向量的个数直接影响着模型训练和预测的速度。来~自^优尔论+文.网www.youerw.com/

3.5 分类结果确定

本文中模型返回结果包括两部分，分别为：类别和隶属度，隶属度的分值越大，表明该样本属于该类的置信度越大[54]。隶属度的具体计算公式，如下：

(3-8)

其中Si表示所有支持判别类的分数，Ks表示所有支持判别类的个数，K为所有类别的个数。隶属度设置目的是为了进行分类结果过滤，因为样本的不平衡和随机抽样等问题，仅靠类别标签来作为分类结果，其准确率较低，加入隶属度能够以设定阈值的方式来提高准确度。

本文采用的类隶属度的算法为one-against-one（一对一）算法[65]。本文的情感分类是将评论语料分为两类，即是一个二分问题，故可看作上述算法的一个特例，基本思路与之一致。

4 不同领域评论信息情感分类及结果比较分析

上述内容介绍了情感分类的关键技术，以下从实验数据准备，SVM模型训练等方面逐步实现情感分类并进行分类结果分析。

上一篇：基于传播要素的微博网络传播研究

下一篇：电视真人秀节目《爸爸去哪儿》的审美价值取向

不同领域中文评论信息的情感分类效果比较研究(9)

消费文化语境中文學经典...

浅析电影中文學作品的改编【2823字】

电影字幕中文化词的异化...

俄罗斯导演對诗电影”的不同追求【4313字】

从电影中文化差异看中西...

综艺类节目在PPTV的移动客...

Flash动画在传媒领域中的发展与应用

网络语言“XX体”研究

ASP.net+sqlserver企业设备管理系统设计与开发

互联网教育”变革路径研究进展【7972字】

LiMn1-xFexPO4正极材料合成及充放电性能研究

老年2型糖尿病患者运动疗...

麦秸秆还田和沼液灌溉对...

张洁小说《无字》中的女性意识

新課改下小學语文洧效阅...

我国风险投资的发展现状问题及对策分析

安康汉江网讯