摘要网络舆情指的是通过互联网传播的,公众对某些热点问题的言论和观点,对社会舆情的走向有着极大地影响力。在大数据时代的背景下,地球每天产生的数据量超乎人们的想象,这就对数据的存储和处理能力提出了新的要求。大数据平台与技术的出现一定程度上解决了这个问题。目前最成熟的大数据平台是Apache旗下的Hadoop解决方案,借助Hadoop平台,可以有效地对海量数据进行文本挖掘,从而及时把握到公众对于某一问题的观点和网络舆情的走向。本文针对手机领域的数据进行了中文分词、情感分析、聚类等工作,从中可以挖掘出人们对不同手机的各个方面的评价,对手机厂商的决策有着指导作用。本文的数据来源是从不同的手机社区和论坛爬取下来的用户评论。49135
关键词 网络舆情 大数据 Hadoop 文本挖掘
毕业论文设计说明书外文摘要
Title Public Opinion Analysis Based on Big Data and Visualization
Abstract
Network public opinion refers to the public comments and opinions of some of the hot issues spread by the Internet which have a great influence on social public opinion direction. Under the background of the big data era, the amount of data produced from the earth every day is incredible. At present the most mature big data platform is Apache's Hadoop solution. Using Hadoop platform, we can mine text effectively, so as to grasp the public's view of one problem and network public opinion direction timely. In the field of mobile data, the author of this paper has carried on the Chinese word segmentation, sentiment analysis, clustering, etc. We can dig out people's evaluation to all aspects of the different mobile phones which plays a guiding role in decision-making of handset makers. In this paper, the data source is user comments crawled from different phone communities and forums.
Keywords Network Public Opinion Big Data Hadoop Text mining
目 次
1 引言 1
1.1 研究背景及意义 1
1.2 主要研究内容 1
2 Hadoop相关技术介绍 3
2.1 Hadoop环境介绍 3
2.2 HDFS关键技术 4
2.3 MapReduce原理 6
2.4 HBase原理 7
3 基于Hadoop的中文分词和情感分析 10
3.1 主要结构 10
3.2 IKAnalyzer中文分词的分布式实现 10
3.3 基于情感词典的中文情感分析实现 12
4 基于Hadoop的Kmeans聚类、热词统计和搜索引擎 15
4.1 Kmeans聚类实现 15
4.2 热词统计和搜索引擎的实现 19
5 可视化展现 20
5.1 开发环境及相关技术 21
5.2 手机得分界面 21
5.3 热词展现界面 22
5.4 信息检索界面 23
结 论 24
致 谢 舆情大数据分析及可视化展现:http://www.youerw.com/jisuanji/lunwen_52048.html