1。1。2研究意义
从课题出发,采用hadoop开源平台,可以处理大量数据。使用这个平台,大量的数据可以对顾客的要求分类,然后对每个用户采取量身定制般的回应。除此之外,可以运用大数据处理平台可以发掘提取出新的需求,以达到高额回报率。例如现实生活中,各类产品中自带的传感器,集成芯片控制的汽车和智能手机都可以收集到海量的数据。
1。2论文结构
(1) 绪论
介绍了课题所需要的核心数据处理架构。概括了它目前的发展历史,包括社会变化以及技术发展变化,同时也分析了大数据所产生的巨大市场,列举出了大数据发展所创造的高效利用性以及未来展望。最后根据研究的课题给出了论文的主体框架。
(2) 相关技术详解
主要是从研究课题所需要的应用软件、系统配置出发,描述了各类辅助Hadoop的软件功能以及具体作用,最后也包括了核心架构Hadoop的技术介绍(如Hadoop安装过程、MapReduce配置以及编程语言、HDFS的构架等)。
(3) 用户行为分析系统具体实现
在分析数据处理架构之后,给出了Mapreduce的配置方案,也做出了具体准备,做到给出的一定量用户行为,利用搭建好的MapReduce系统平台进行数据处理的预处理,分析查找关键字、文本特征提取是否达到预期。随后根据处理好的数据了解Hbase、HDFS储存方面的配置和设计。文献综述
(4) 平台搭建与数据分析
这个部分是有关部署Hadoop系统构架所需系统文件的配置阶段,也就是系统初步测试阶段。其中包括了数据分析平台搭建及配置的详细过程,以及数据分析过程中的一个状态分析,最后还整理出了研究过程中出现错误,并且解决错误的一些代码
1。3本章小结
本章主要是围绕着研究课题所展开的一系列介绍,从不同层面介绍Hadoop技术的发展与应用情况,引入了研究课题所需的核心架构: Hadoop分布式集群数据处理系统为后续开发奠定了基础,也为本文提供了主体结构。同时,对用户行为分析系统的设计进行了设计规划和研究。
2。相关技术介绍
2。1 VMware workstation虚拟机
虚拟机vmware工作站是一个软件,它可以模拟一个完整的硬件系统功能,也可以在一个完整的计算机系统中运行完全隔离的环境。装机是非常痛苦的事,不过如果把系统装在虚拟机中,就不用整天忙着重装系统了,因为不论什么样的硬件系统,都跟虚拟机无关。现在虚拟机真正的应用是网络,虚拟服务器,一台强大硬件的机器,可以虚拟出几十个专用类型服务器,只要一部机器就够了,否则就要用很多硬件服务器,节省了成本。
2。1。1 VMware的作用
Hadoop的分布式集群中并行计算最少需要三个节点,也就是虚拟机里面安装三个操作系统,一个节点namenode部分,另外两个节点做为HDFS分布式储存用的datanode部分(HDFS之所以有“并行”字样的原因,也是因为datanode大于等于2个而得名的)。VMware可以通过个人电脑,同时运行二个或更多LINUX或其他系统。因为Hadoop只能在Linux环境下运行,所以我们需要在虚拟机上运行三个Linux系统。
在同一主机上,多个系统不能同时启动,因此在系统切换时重新启动机器。如果与多台计算机系统相比,它是vmware,那么在vmware软件性能上安装的操作系统比直接安装在硬盘系统上的操作系统要低,所以vmware是赢家。VMWare虚拟机采用了完全不同的概念,真正达到了同时运行并且可以同时进行操作的一个虚拟平台。在多个操作系统的情况下,在主系统界面平台上可以随意切换,就象Windows应用程序那样切换。而且每一个操作系统都不影响任意虚拟分区的硬盘数据,配置,甚至可以通过网卡到一个与本地局域网(LAN)连接的虚拟机,也是通过这个特点,才能完成hadoop的ssh协议使用各设备间无密码传输。综上所述,vmware配置系统搭建hadoop是比较适合学习和测试开发的。这也是研究课题、搭建Hadoop需要注重的环节。 hadoop大数据分析框架分析客户行为模式(3):http://www.youerw.com/jisuanji/lunwen_81688.html