大数据的主要特点可以用4个“V”进行概括,即为Volume(数据量大),Variety(数据类型繁多,如视频、web日志等),Value(价值密度低,需要从海量的数据中针对性的找到有价值的信息)以及Velocity(处理速度快,即一秒定律,否则信息很可能会失去效用)。这些特点使得对于大数据的处理方式和传统方式有着本质的不同。目前关于大数据的处理分析主要有以下几个重要工具。
(1)HPCC。它为性能计算与通信(High Performance Computing and Communications)的缩写。它是1993年,由美国工程等相关理事会申报的关于“高性能计算与通信”的项目,其主要的开发目标是:开发出能达到千兆比特的网络技术,扩展其网络连接能力;开发出可扩展的计算系统及相关软件,以支持太位级网络传输性能。此项目中的重要部分包括先进软件技术与算法(ASTA)以及高性能计算机系统(HPCS)。26392
(2)Storm。它是一个自由的开源软件,能为大数据的实时计算提供一些简单的原语,从而降低开发并行实时处理任务的复杂性。同时它是多语言支持的,能够支持包括java在内的任何的编程语言,但是在吞吐量方面稍有不足。Storm支持水平扩展,即Storm集群中的每台机器上都可以运行多个工作进程,每个工作进程又可创建多个线程,每个线程可以执行多个任务。除此以外,Storm还具有容错性强等特点。综合的来说,Storm主要强调的是实时性。论文网
(3)RapidMiner。RapidMiner是数据挖掘领域一个比较领先的解决方案,它有着自己的先进技术。其涉及的数据挖掘范围很广,并能在一定程度上对数据挖掘设计进行简化。其主要支持的语言是java,具有多层次的数据视图和图形用户界面的互动原型,数据挖掘过程强大,简单直观和透明。拥有许多先进的高位数据可视化建模,并被多个数据挖掘运营商支持。目前已被应用在许多不同的领域,如多媒体挖掘,数据流挖掘,以及功能设计等。
(4)Pentaho BI。它是一个以流程为中心的,面向解决方案的框架。其主要特点在于,它能够将一系列API等组件、开源软件、以及企业级BI产品集成起来,从而方便商务智能应用的开发。它的应用出现,使得如Jfree、Quartz等面向商务智能的一系列的独立产品,能够有效的结合在一起,从而构建成一个健全的项目解决方案。目前,Pentaho的组成部分主要包含了数据挖掘相关内容以及项目报表的分析生成的工作。
(5)Hadoop。Hadoop是目前应用最广的处理大数据的分析工具,它是一个能够对大量数据进行可靠、高效的分布式处理的可扩展开源软件框架。Hadoop面向的应用环境是大量低成本计算机构成的分布式运算环境因此它假设计算节点和存储节点会经常发生故障,故为此设计了数据副本机制,从而确保能够在出现故障节点的情况下重新分配任务,从而确保Hadoop的可靠性和高容错性,同时,Hadoop以并行的方式工作,通过并行处理加快处理速度,体现其高效性。此外,因为其成本比较低,所以任何人都可以使用。 大数据处理国内外研究现状:http://www.youerw.com/yanjiu/lunwen_20549.html