这些数据不仅数据量巨大,种类繁多,而且实时性强,商业价值非常大但隐藏很深,同时对这些数据的存储和挖掘也是一个巨大的挑战。针对这些挑战,人们研究各种分布式存储和分布式计算的方法解决大数据的存储、搜索、分析、共享以及可视化问题,2005年谷歌发布了第一篇关于大数据存储的文章,2008年又接着发布了关于Nosql的分布式数据库和MapReduce并行计算框架,这三篇文章加速了hadoop的诞生。《The Google File System》[5]、《MapReduce_Simplified Data Processing on Large Clusters》[6]、《Bigtable_A Distributed Storage System for Structured Data》[7]。2006年Hadoop基于三大论文的基础上,正式发布了第一个版本,今年正好是hadoop发布十周年,如今hadoop的性能已经越来越强大,可以很好的处理百PB级的数据,百度每天使用hadoop集群处理200T的数据,现在hadoop正越来越走进生产,互联网、金融、医疗、政府、交通、旅游等行业都开始运用hadoop进行开发自己的大数据平台。挖掘行业内大数据的价值[8]。63216

Hadoop相对于传统服务器存储和传统型数据库分析有很多优点[9-11]。第一,从成本的角度上考虑,hadoop是apache旗下的顶级开源项目,面向用户完全免费,而且,hadoop对于硬件的要求并不高,只要能够运行linux系统的设备都可以安装hadoop框架,对于公司的使用成本大大降低。第二,hadoop使用非常灵活,不仅能够处理结构化数据,对于非结构化数据支持也非常好,并且能够很容易的处理GB、TB、PB以上的数据,以前只能使用单机处理相同数据需要花费几小时或者几天,现在使用hadoop只需要几小时或者几十分钟即可完成,而且开发者可以根据自己的需求编写MapReduce程序,并且设置启用更多的map节点和reduce节点,以达到更快速处理数据的要求,通过调用多台或几十台机器的cpu和内存进行计算,理论上说,通过增加节点数量,可以处理任意大的数据。并行计算,并且使用方便,成本低廉,这也就是hadoop的最大优点。

根据各种业务的需求,越来越多的分布式框架基于hadoop开发,Hadoop已经形成了一个完整的生态圈,不仅仅解决了大文件分布式存储、分布式计算还解决了结构化数据存储、非结构数据存储、数据分析、数据挖掘、实时计算等问题。图1.1表达了完整的hadoop生态圈。从图1.1中很清晰的理解到论文网,hadoop生态圈首先是有两个最基本的成员,HDFS和MapReduce,这两个属于hadoop的地基,hadoop其他组件功能也都是基于这两个组件功能的基础上开发出来。第三个重要的组件是HBase,Hbase是类似数据库,架构与HDFS上,决定了它可以无限扩展,列式数据库决定了它伸缩性强,可以随意伸缩列的内容,存放不同的数据。另外还有Hive,Sqoop,Sqoop,Flume,Mahout,Hue等组件,本文第二章将详细介绍部分组件的功能和应用。

hadoop生态圈核心框架简介

Hadoop生态圈 主要功能和特点

HDFS Hadoop云计算的分布式存储系统,具有高可靠性,高并发,可扩展等特点

MapReduce Hadoop云计算的分布式计算框架,具有分布式,高并发,可定制化等特点

HBase Hbase是一个列式数据库,存放于HDFS上,可以随意扩展列的内容,任意存放

Hive Hive可以通过类是SQL的语句进行分析,每一个语句都能够转换为分布式计算任务

Pig 运行于HDFS上的数据流语言,适合做数据分析和数据挖掘

Zookeeper Zookeeper主要用于主节点的调节,还有HBase中的元数据信息存储等功能

上一篇:会展行业国内外研究现状和发展趋势
下一篇:文本分类研究现状

微课国内外研究现状和发展趋势

翻转课堂国内外研究现状

国内外会议产业现状研究

会展场馆空间分布特征国内外研究现状

社区的三维可视化国内外研究现状

不同形貌SnO2纳米材料的光...

会展品牌塑造国内外研究现状综述

张洁小说《无字》中的女性意识

互联网教育”变革路径研究进展【7972字】

新課改下小學语文洧效阅...

老年2型糖尿病患者运动疗...

我国风险投资的发展现状问题及对策分析

麦秸秆还田和沼液灌溉对...

网络语言“XX体”研究

安康汉江网讯

LiMn1-xFexPO4正极材料合成及充放电性能研究

ASP.net+sqlserver企业设备管理系统设计与开发