6
2.1 分布式存储HDFS 6
2.2 分布式计算MAPREDUCE 7
2.3 数据采集FLUME 9
2.4 非关系型数据库HBASE 11
2.5 数据仓库HIVE 12
2.6 分布式数据迁移SQOOP 13
3 高可用HADOOP集群搭建及优化 14
3.1 集群整体架构设计 15
3.2 LINUX环境配置 17
3.3 HADOOP集群搭建 20
3.4 HIVE和HBASE集群搭建 26
3.5 SQOOP数据迁移框架设计 29
3.6 本章小结 31
4 用户行为挖掘算法研究 31
4.1 微博用户原始数据 32
4.2 微博用户数据数据预处理及分区存储 33
4.3 分布式并行分词算法研究 36
4.4 用户行为分析研究 39
4.5 本章小结 45
5 实验及结果分析 45
5.1 分布式数据导出 46
5.2 数据挖掘结果展示 48
5.3 录制视频展示成果 52
6 总结与展望 52
6.1 本文工作总结 53
6.2 未来的工作展望 53
致谢 53
参考文献 54
攻读学位期间发表的学术论文 56
1 引言
本章首先介绍了课题的研究背景,主要介绍了云计算和大数据的一些研究现状,并且分析现有用户行为分析中存在的一些问题,并对存在的问题进行阐述;在此基础上,详细介绍了本文的研究目标,研究内容和意义;最后简介本文的组织结构。
1.1 研究背景
互联网的广泛使用和物联设备的爆炸性增长,以及社交网络、传感器网络的飞速增长,带给人们是无所不在的连接和便利。我们已经从人与人的连接走向人与网络的连接,我们逐渐走向一个新的互联网时代,我们也越来越离不开网络。我们的每一个行为都将产生新的网络数据存储在互联网中[1]。
2012年互联网设备已经达到55亿,超过全球人口的70%,社交网络拥有20亿的用户,传感器网络设备超过100亿。这些设备和网络无时无刻生成数据[2],互联网数据中心(Internet Data Center)IDC统计2014年新增了4.1ZB的数据。2015年全球数据增长7.9ZB以上[3]。而且还保持着快速增长,基本保持了每十八个月全球数据翻一倍的速度进行增长。
1.2 国内外研究现状
1.2.1 大数据国内外研究现状
1.2.2 用户行为分析研究现状
1.3 主要工作
互联网数据量大,数据稀疏,用户广,对于数据存储和挖掘都带来了很大的挑战。本文基于hadoop云平台研究用户行为数据的存储和用户行为挖掘。设计并实现分布式、高可靠、高可用性的数据存储模块,解决现在数据量大存储困难的问题。提出基于MapReduce的分布式并行分词算法,调用集群的所有计算节点,对海量的中文文本进行分词计算,相比较传统中文分词能够提高三倍以上的分词效率,并能够解决现阶段海量文本分词困难的现状。本文将hadoop云平台结合微博用户行为数据进行分析,首先对重庆地区的微博信息进行分词,然后分析挖掘重庆每天各区县关于“感冒”、“肺炎”、“发热”、“咳嗽”的词汇统计,很好的解决微博内容稀疏,价值隐藏深,挖掘困难等问题,实现重庆相关部门对本地医疗的监控和预警。设计数据挖掘结果展示模块,基于Mysql+jdbc+http+Ajax多维度多方位全面的展示微博用户行为分析结果。 基于Hadoop的微博用户行为分析(2):http://www.youerw.com/jisuanji/lunwen_56282.html