基于Hadoop的大数据集并行挖掘技术研究(2)
时间:2018-05-30 17:23 来源:毕业论文 作者:毕业论文 点击:次
早在20世纪90年代,被誉为“数据仓库之父”的BillInmon就己经提出了“大数据”的概念。大数据的发展与互联网、物联网以及云计算等技术的发展存在着密切的联系。同样的,互联网、物联网以及云计算等技术的发展在很大程度上影响着大数据。互联网的发展越来越像人类的大脑,具有虚拟感觉、虚拟运动、虚拟中枢和虚拟记忆神经系统等部件。物联网对应着互联网中的感觉运动神经系统;云计算对应着互联网的中枢神经系统,是互联网的核心硬件层和软件层的集合;大数据则是互联网智慧和意识产生的基础,代表了互联网的数据海洋。物联网、移动互联网再加上传统互联网每天都在产生海量的数据,而大数据通过云计算的方式,将这些数据通过筛选处理分析提取出有用的信息,也就是大数据分析。 以云计算和大数据为驱动的技术变革,将从经济发展、教育、科研、民生等各个方面给整个社会带来深刻的影响,这是生产力的又一次革命[1]。大数据带来的机遇和挑战已引起了各国政府的高度重视。美国联邦政府下属的国防部、能源部等7部委联合推动,2012年3月底发布了大数据专项研究计划,己投入2亿美元用于研究开发、科学探索、教育和国家安全等重大领域和各行业所急需的大数据处理技术和工具,把大数据的研究升为国家发展战略[2]。美国政府认为大数据是“未来的新石油”,将对大数据的研究上升为国家意志,对未来的科技经济发展必将带来深远的影响。在我国的国家战略文件中,虽然对云计算、物联网己经有了很多的阐述,但对大数据的提及还不多。各国家拥有数据的规模和运用数据的能力将成为综合国力的重要组成部分,对数据的占有和拄制也将成为国家和企业间新的争夺点。目前,有一些专家学者正在呼吁指定大数据国家战略,并建议决策层予以考虑。希望我国政府相关部门尽快制定和大数据相关的政策,出台具体的措施,从而抓住历史机遇、推动我国社会的发展和进步。 大数据的处理宗旨是从海量的非结构化信息中找到有价值的内容。大数据技术包括分析技术、分布式计算技术、NoSQL数据库、存储数据库。大数据分析其实就是利用分布式计算技术处理海量的数据,它通过运用新工具、新系统、新模型挖掘,从而获得其育洞察力和新价值的东西。为了支持这些全新的分析方案,解决策略接踵而至,最新的技术包括通过专业化并行处理和索引机制来实现数据过滤;关联不同时间和不同含义的结果,并且将这些结果与传统企业数据源合并在一起等。研究表明,大数据量可显著提高机器学习算法的准确率,大数据集上的简单算法比小数据集上的复杂算法产生更好的结果,因此数据量足够大时有可能使用代价很小的简单算法来达到更好的学习精度[3]。 1.2 研究现状 1.3 论文主要工作 本文首先介绍了大数据的发展现状,分析了在大数据时代基于传统数据库的数据挖掘工具的局限性。并在此基础上提出了基于云计算Hadoop平台的并行处理海量数据的解决方案。之后介绍了Hadoop系统的组成部分,重点解释了Hadoop的核心组件,包括HDFS,MapReducee。通过使用Hadoop单机版平台,结合当今云计算平台运用最为广泛的社交平台,讨论时下最流行的数据挖掘算法。各章节具体安排如下: 本文包括五章的内容: 第一章绪论。本章主要介绍了论文的研究背景及意义,介绍了大数据的背景及大数据时代数据挖掘技术的发展状况,提出了本文研究的主要内容。 第二章Hadoop及数据挖掘概述。本章首先介绍了Hadoop系统的构成,对Hadoop的核心架构,HDFS,MapReduce的体系及其相关特性进行了深入的讨论分析;然后介绍了数据挖掘的概念及过程。 (责任编辑:qin) |