毕业论文

打赏
当前位置: 毕业论文 > 文献综述 >

用户建模微博内容挖掘文献综述和参考文献(3)

时间:2022-08-02 22:31来源:毕业论文
一般来说,微博中的话题表现形式有两种:一种显性话题表示,新浪微博中话题名由两个井号包围,用以区分话题和正文内容。比如#母亲节#便是一个话题

一般来说,微博中的话题表现形式有两种:一种显性话题表示,新浪微博中话题名由两个井号包围,用以区分话题和正文内容。比如“#母亲节#”便是一个话题。二是隐性话题表示,隐性话题通常并没有特殊符号以示区分,是指微博内容中隐含的话题,用户可能使用不同的关键字描述同一话题。所以,隐性话题挖掘难度要比显性话题大。

通常可通过分析词频变化的方法来发现微博内容中的隐性话题[21]。对微博内容进行分词,提取其中出现的词语及词语组合,作为候选话题集合。若某词语的词频在一段时间内得到了明显提高,就可以作为判断该词语或词语组合是热门话题的依据。同时,因为部分非话题词语或词组的词频通常没有大的波动,这种分析词频变化的方法在一定程度上可以过滤噪声。但是,由于目前分词技术的局限性,在处理普遍口语化、多新词的文本时效果不够好,导致话题识别的精度受到影响。

3。2  情感倾向性分析研究

微博是用户使用简短的文字记录其想法的工具,因此微博内容往往具有倾向性。相关研究表明,在热门事件中用户的倾向性表现得更为明显[22]。用户的情感倾向研究可以广泛应用于用户满意度、社会事件的态度取向等方面。

关于情感倾向性分析的研究主要可分为倾向性分类及倾向性信息抽取两个大类[23]。微博内容的情感倾向性目前常用的分类方法是将微博信息划分为正面、负面及中性三种类型。而微博内容中的关键信息的抽取则是微博倾向性分析的关键,由于微博文本内容短小精悍与传统新闻、博客不同,包含的信息量较少,准确进行倾向性信息抽取也是难点所在。

一种常用的微博内容倾向性抽取方法是以微博中的话题标记(双井号)及表情符号作为分类标签[24]。此外,还可以与隐性话题发现的方法一样使用分词及词性标注技术提取微博信息中的关键词,以关键词的词性种类作为微博内容倾向性分类的依据[23]。但是有相当一部分微博内容可能并不包含具有情感倾向的关键词,这时应该对其进行预处理或者过滤。

除了上述方法,微博内容倾向性分类还可以采用最大熵、朴素贝叶斯、支持向量机等方法[25]。同时,因为微博信息内容太短可能无法准确获得有效的倾向性信息,应结合微博的上下文及相关微博进行判断。此时可使用基于图论的方法来分析微博内容间的关系[26],从而提高倾向性分类的准确度。

目前对微博内容的研究集中于微博话题发现和用户情感倾向性分析两个方面,微博话题包括显性话题和隐性话题,其中隐性话题挖掘难度大,需要利用中文分词技术,但是由于目前中文分词技术尚未成熟,处理微博这种口语化短文本的内容得到结果并不是十分理想,从而也影响了挖掘微博内容的准确度。用户情感倾向性研究是近来学界研究的热点话题,主要包括倾向性的分类和倾向性信息的抽取。本文的研究中借鉴了之前的研究中关于微博内容挖掘的方法,采用分词、特征信息抽取方式挖掘微博内容中隐含的用户兴趣信息。

4  现有研究总结   

综上所述,用户建模简单来说就是对用户兴趣进行挖掘和表示,过程包括信息收集、模型表示和评估。根据不同的分类依据,可以将用户建模分为显式建模和隐式建模或者基于关键词、基于类别和基于潜在主题的用户建模。

Web0时代网络用户既是信息的接受者也是信息的生成者,此时用户信息行为主要是指网络用户信息行为。网络用户信息行为种类很多,主要有需求、查询、浏览、选择、加工、利用、交互等。用户信息行为也会受到用户因素和环境因素两方面的影响。  用户建模微博内容挖掘文献综述和参考文献(3):http://www.youerw.com/wenxian/lunwen_97368.html

------分隔线----------------------------
推荐内容