图3。10 卡方值排序后选出的最终特征词文档item。txt截图 17
图3。11 tfidf。py运行截图 18
图3。12 计算得出每个类中表示用户-特征词的特征向量 18
图3。13 融合行为和内容建模程序运行结果 20
图3。14 每个用户特征值TOP10的特征词文档 20
图4。1 互联网类用户原创、转发、点赞人数比较 21
图4。2 其他四大类用户原创、转发、点赞人数比较 22
表3。1卡方检验文本数表示 11
表4。1 以医疗类用户2700877354和1066491181为例比较用户兴趣表示 22
表4。2 以文学类用户1250741203和1192202582为例比较内容融合行为前后用户兴趣表示 23
表4。3 互联网类用户建模评估 25
表4。4 足球类用户建模评估 26
1 绪论
1。1 选题背景
微博是一个基于用户的信息分享、传播和获取的平台。用户可以经由网页、手机等多种平台使用微博,每条信息的字数一般控制在140字以内。根据CNNIC发布的第37次《中国互联网络发展状况统计报告》[1]显示,截至2015年12月,我国网民规模达到6。88亿,其中微博的使用率为33。5%。与传统的博客相比,微博具有内容更为短小精悍、用户群更为巨大、更注重时效性和随意性的特点。
如今,微博应用发展迅猛,微博已经成为人们广为使用的一种信息传播方式,其在个人信息分享、企业品牌宣传和政务信息发布等方面扮演着越来越重要的角色[2]:每条微博蕴含文字较少,用户发布微博不需要耗费太长时间,入门相对简单,微博成为一种便捷的信息分享方式;微博以其巨大的用户量和强大的信息传播能力成功吸引了众多企业的注册加盟,企业通过广告投放、微博互动、大V宣传等途径进行产品推广和品牌宣传;许多政府机构通过注册政务微博实时发布官方信息,参与网民互动,公开政务信息,使微博用户可以通过公开透明的渠道了解并监督政府工作。
随着微博的广泛使用,人们传播信息、获取信息的方式也发生了翻天覆地的变化。这也引发了网络信息碎片化问题的出现:用户很难在迅速更新的海量信息中发现自己的感兴趣的部分,同时也阻碍了企业和商家对用户兴趣的发现,无法根据用户实际需求进行相应的服务。为了解决这一问题,就必须用到用户建模技术,通过挖掘用户显式和隐式信息,对用户实际兴趣进行描述。因此本文将展开对融合用户信息行为和微博内容的用户建模研究,通过分析新浪微博用户的转发、点赞行为,同时结合微博原创内容,建立用户兴趣模型,以了解用户的实际需求,方便企业和商家提供更有针对性的服务。
1。2 研究意义
通过融合用户信息行为和微博内容的方式进行用户建模具有非常重要的研究意义,下面从理论意义和实践价值两方面进行阐述。
1。2。1 理论意义
由于微博内容和用户在微博中的信息行为特点更加贴近真实,因此在微博中能够更好的挖掘出用户的兴趣,进行用户建模。同时由于微博内容是动态生成的而且更新的频率很高,如果失去了对用户行为的分析而仅仅依靠微博内容信息进行个性化服务是缺乏准确性的,所以本文在进行微博用户兴趣建模时,将用户信息行为与微博内容进行了融合。