2。5。1 RabbitMQ的应用 10
2。5。2 心跳检测 11
2。5。3 RPC设计 12
2。5。4 数据回传 12
2。5。5 关键字跟踪策略 13
2。6 微博账户的登陆 14
3 突发事件检测和舆情分析算法 16
3。1 突发事件检测算法概述 16
3。2 算法流程 16
3。3 Single-Pass聚类算法 16
3。4 绝对聚类 17
3。4。1 相似度表示 17
3。4。2 绝对聚类算法 17
3。5 舆情分析算法简介 17
3。5。1 基于情感词典的无监督方法 18
3。5。2 基于统计学习的监督方法 18
3。5。3 舆情分析系统流程 18
4 系统可视化 20
4。1 简介 20
4。1。1 Tornado简介 20
4。1。2 Vue。js 介绍 21
4。1。3 WebSocket技术简介 21
4。1。4 后端API设计 21
4。1。5 前端设计 21
4。2 爬虫可视化 22
4。3 突发事件检测可视化 22
4。4 舆情监测可视化 23
4。5 部署和测试 24
4。5。1 部署环境介绍 24
4。5。2 使用Supervisor启动组件 25
4。5。3 测试 25
结 论 27
致谢 28
参考文献 29
1绪论
1。1课题的背景和意义
随着21世纪以来信息技术的发展,催生了多种多样的互联网服务,微博是国内最流行的Web2。0服务之一论文网。使用微博,网民可以随时、随地,使用智能手机或者网页来访问微博,记录自己的生活,表达自己的见解,与自己的亲朋好友分享国内外的新鲜事。随着微博用户量的不断提升,微博也越来越成为网络舆论的风向标。对于关心网络舆论的政府和企业,微博的舆情十分重要。然而由于微博用户量大,更新速度又很快,而且每条微博文字又非常简短,充斥着大量的无关信息。由此,开发一个全面,实时的微博进行收集系统,并在利用爬取到的数据生成用户关心的数据产品,具有较高的应用价值。
1。2国内外研究现状
1。3研究内容和论文结构
本文在研究现有软件框架的基础上,针对微博的一些特性,自行设计了一个可以持续进行微博爬取,关键词跟踪的舆情分析平台。
以下是章节安排:
第1章,绪论,介绍研究背景,国内外研究现状和论文结构;
第2章,微博爬虫设计,介绍微博爬虫的设计与实现;
第3章,突发事件检测和舆情分析算法,介绍突发事件和微博突发事件检测和舆情分析算法; 基于微博的数据抓取热点检测与舆情分析系统平台(2):http://www.youerw.com/jisuanji/lunwen_90679.html