Soo-Min Kim等在对评论信息有用性进行自动评价研究时,从评论信息的文本内容着手提出了计量文度的划分方式,主要包括了文本结构特征,词汇特征,句法特征,语义特征以及元数据特征[25]。Soo Young Rieh等在对网络信息行为可信度进行研究时,从用户行为的角度指出了信息可信度评价的特征文度:文本结构特征,词汇特征,句法特征,语义特征以及元数据特征[26]。Katsumi Tanaka等在网络信息可信度评估的研究中指出了分析网络信息可信度的三个方法要素:内容分析,社会支撑分析以及评论发布者分析[27]。19805
商品评论信息作为典型的短文本形式,文本字数少,特征稀疏且文度逐渐扩大,传统的自然语言处理技术并不能很好地处理短文本信息,这加大了分析评论信息文本内容可信度的难度;与之具有相同特点的微博信息已经成为诸多学者进行可信度研究的一个重要方向。Carlos Castillo等在对微博可信度进行研究时将信息分为“可信”和“不可信”两类,所选择的应用特征主要包括用户的发布和转发行为特征、微博的文本内容特征以及引用外部来源特征[28]。C.Castillo[28]、A.H.Wang[29]和H.S.Al-Khalif[30]将浅层的文本统计特征作为微博文本内容特征。V.Qazvinian等在对微博中的错误信息进行识别的研究中选取文本内容的词汇和词根作为分析的特征[31]。现有的微博信息可信度分析方法主要有分类学习方法和排序方法[32]。A.Gupta等通过回归分析找出预测可信度的显著特征,采用机器学习和相关反馈相结合的方法(Rank SVM)对微博信息进行可信度得分排序[33]。M. Gupta等提出基于page rank和事件图的算法来计算Twitter事件的可信度[34]。Castillo C、Wang A H 、Qazvinian V等人[28,29,31]将微博信息是否可信看成分类问题,利用微博信息的特征,采取特定的分类算法训练分类器,来预测微博信息是否可信。
关于商品评论信息质量的评价方法大致分为相似度度量以及基于机器学习两类。基于相似度度量的方法通常依靠评论反映的情感倾向对评论进行分类排序,其计算复杂度(computing complexity)要远远高于机器学习算法。在机器学习方面,主要使用支持向量机(SVM)和支持向量回归(SVR)两种模型,支持向量机被广泛应用于文本分类问题上,支持向量机回归常用来解决连续性问题。杨铭在对在线商品评论的效用分析研究中指出,其效用评价要素包括评价目标、评价特征、评价技术和评价对象的选取[35]。Chen和Tseng依据信息质量理论(information quality theory)提出了评价在线商品评论质量的9个文度:分别是可信度(believability),客观性(objectivity),声誉(reputation),相关性(relevancy),及时性(timeliness),完整性(completeness),信息翔实性(appropriate amount of information),容易理解程度(ease of understanding),简明扼要程度(concise reputation),同时他们还从在线评论中提取文本特征和元数据特征表示上述9个评价文度,构造多类支持向量机(multi-class SVM)模型对在线评论信息进行分类[36]。Liu等根据提出的商品评论质量规范对从亚马逊网站收集的商品评论进行人工标注,使用支持向量机分类算法对标注评论进行训练,得到垃圾评论分类器用以实现自动侦测垃圾评论[37]。Chien等把评估评论信息质量看成一个分类问题,利用一个IQ评估的信息质量理论框架对特征进行提取并且试图对信息质量进行测量[38]。Liu Y等使用支持向量回归作为评价技术来构建评论信息有用性判定模型[39]。
- 上一篇:商品评论信息的可信度影响因素研究现状
- 下一篇:航空时敏制导炸弹国内外研究现状
-
-
-
-
-
-
-
msp430g2553单片机高精度差分GPS技术研究
糖基化处理对大豆分离蛋白功能的影响
数据采集技术文献综述和参考文献
油画创作《舞台》色彩浅析
高校计算机辅助教学英文文献和中文翻译
慕课时代下中学信息技术课程教学改革
浅议电视节目主持人的策划意识
浙江省嘉兴市典型蔬菜基...
洪泽湖常见水生经济动物资源现状的调查
松节油香精微胶囊文献综述和参考文献