参考文献26
1 引言
随着科技的发展,网络的普及,社交媒体越来越充斥在我们生活中,而社交媒体所产生的信息也随之指数级地增长。在这个信息爆炸的年代,如何从这些看似杂乱无章的文本信息之中找出有价值的信息和知识,是政府、公司乃至个人所面临的挑战。这些杂乱信息的复杂性一方面体现在这些信息中90%都是文本[1],人们在漫天的字符面前无所适从;另一方面,目前的计算机大多数只是对文本和画面的简单展示,无法快速地处理海量文本信息。而在互联网+的环境下,传统企业信息来源存在不对称,因此迫切需要构建舆情分析系统用于检索及分析互联网上对于特定企业/商品的评价,便于形成竞争优势。于是,基于大数据的舆情分析系统就应运而生了。
1.1 研究背景及意义
网络舆情指的是互联网上网民们对某个问题的观点和看法,在一定程度上代表了社会舆论,甚至能很大程度上影响社会舆论的走向[2]。于是,比竞争对手更快地把握到网络舆情的走向,及时地调整产品和宣传手段,对于很对企业来说至关重要。
截至2015年12月,互联网普及率达到50.3%,中国网民数量达到6.88亿 [3]。而据IDC发布的报告,到2020年,全球数据量将达到40万亿GB,每天互联网产生的信息非常巨大。举个例子来说,淘宝每天产生的数据量有7个TB,百度每天产生的数据量达到了10个TB,FaceBook存储的照片约1PB[4]。而显然,不可能使用传统的数据仓库去存储所有的这些信息,也不可能使用传统的统计学方法来处理。因此,我们必须采用一套有效的大数据处理平台和技术。
Hadoop作为Apache旗下的分布式处理平台,非常适合处理海量数据。因此,将数据挖掘技术与Hadoop平台相结合,将传统的统计学方法并行化并使用Hadoop的MapReduce编程模型实现,具有非常重大的意义。
1.2 主要研究内容
一般来说,大数据分析都是针对于某,源Z自L优尔W文~论`文]网[www.youerw.com一特定领域而言的。本文的研究主要针对于手机领域,对从手机社区论坛上爬取下来的评论内容进行分析及可视化展现。
本文的主要研究内容包括:
(1) 对Hadoop平台下的MapReduce编程模型和HDFS分布式文件系统进行了研究和应用;
(2) 对Hadoop平台的子项目HBase,一个分布式非结构化列式数据库进行了研究和应用;
(3) 对中文分词开源项目IKAnalyzer进行了研究和使用;
(4) 对文本进行了基于情感词典的情感分析及统计;
(5) 对Kmeans算法进行了研究和应用,对评论内容进行了聚类,并使用MapReduce编程模型实现该算法;
(6) 对分析结果进行了基于Web的可视化展示。