该方法简单易行且效率高,但其无法识别不含有情感词但又明显情感倾向的文本,且无法识别词汇在不同语境下不同的情感倾向,这使得该方法具有一定的局限性。

2。2  基于机器学习的情感分类方法

本节着重介绍有监督学习的方法。

本节按照机器学习方法的一般步骤,依次按小节给出相关的概念,步骤如图2。1所示。

基于机器学习方式的文本情感分析的一般步骤框图

图2。1  基于机器学习方式的文本情感分析的一般步骤

2。2。1  文本预处理

文本预处理的过程主要涉及格式规范化,编码统一,去除停用词,过滤非法字符等。格式规范化与编码统一是为了将文本整理为规范的文本和编码格式,方便下一步特征提取。停用词是指虽然没有意义,但出现的非常频繁的词,例如,“的”,“啊”等[ ]。去除停用词可以一定程度上防止形成噪声以提高算法效率与准确率。过滤非法字符主要针对与文本内容无关的一些标记。如果分类文本为中文,还要对文本进行分词,这是因为中文与英文不同,不存在天然的空格来对词语进行分割,我们需要对句子进行分割来找出其中的词语,进而进行下一步的特征提取。词作为中文文本分类的一个特征,分词的效果将直接影响到分类的效果,所以分词是至关重要的一步。来*自-优=尔,论:文+网www.youerw.com

2。2。2  文本表示

一段文本原始的表示形式是一个由相应的文字和以及标点符号构造成的字符串,计算机不能直接处理这种形式的文本。为了能够有效处理真实文本,需要寻找一种理想的形式化表示方式,该方法要能够尽可能不失真的反应文档的内容且对不同文档有区分的能力。

20世纪60年代末期,向量空间模型(VSM)由G。Salton等人提出,最早用于信息检索系统中,目前是自然语言处理的常用模型。该模型的思想是将不同文本转化为向量空间内不同的点,通过度量不同点之间的距离可以得到不同文本之间的关系[ ]

上一篇:CTR基于协同深度学习的推荐系统设计
下一篇:Hadoop+FINDR高光谱图像混合像元分解的分布式并行优化方法

基于Apriori算法的电影推荐

基于PageRank算法的网络数据分析

基于神经网络的验证码识别算法

基于网络的通用试题库系...

python基于决策树算法的球赛预测

基于消费者个性特征的化...

基于网络的通用试题库系统的整体规划与设计

网络语言“XX体”研究

安康汉江网讯

麦秸秆还田和沼液灌溉对...

ASP.net+sqlserver企业设备管理系统设计与开发

我国风险投资的发展现状问题及对策分析

老年2型糖尿病患者运动疗...

新課改下小學语文洧效阅...

张洁小说《无字》中的女性意识

LiMn1-xFexPO4正极材料合成及充放电性能研究

互联网教育”变革路径研究进展【7972字】