大数据因为它背后隐藏的巨大的商机正在逐渐被发现它的价值,因此大数据时代日益成为人们口耳相传的词汇。智库百科对数据挖掘有这么一段描述“数据挖掘就是数据信息的再发现,是人工智能与数据领域的主要研究方向,所谓的数据挖掘就是在大量信息中找出我们需要的却又不知道的有意义的信息,并被我们所利用的过程”。
1.2 选题来源
本课题来源于江苏华大天益电力科技有限公司。随着物联网和云计算等先进技术的广泛应用,数据生成速度不断加快,数据量不断增大,社会已经进入了大数据时代。对于大数据来说,当前还没有统一定义,文基百科定义它为:由大量结构复杂、交叉混合的不同数据构成的数据集,在一定的应用模式和处理下,通过整合发掘,可以被利用的智力资源。与很多国家相比,我国在这方面的研究一直处于起步阶段。国内企业在数据监控、挖掘这一块并不突出,但是国内比较大型的比如电信企业、互联网企业都在着手这一块的研究,努力争取在这一块获得重大突破[1] 。从2011年到现在,北京、上海、江苏、广东等地逐渐开始重视大数据这一块,组织企业发展大数据,设立优厚政策鼓励发展,争创高峰。江苏拥有这很好的资源和基础,非常适合发展大数据,制造业雄厚、服务业发达是它的一大优势。再加上它丰厚的数据储备以及良好的人才资源,让江苏占据了各种天时地利。目前,已有一批高校和研究院所在从事大数据的理论研究和工程技术开发,南京大学、东南大学、南航、南理工、南邮、江南计算技术研究所等均在相关领域有所突破。
但是,江苏发展在发展大数据这一块还有一大段路要走,突出表现是领袖企业尚未形成,无法带动其他企业发展。因此江苏华大天益电力科技有限公司开展了与大数据相关的项目,致力于为江苏省大数据产业的发展,利用大数据的建设和实施进行技术创新。其中我参与到的项目为“用电采集系统数据设计”,该项目采用的整体架构如下:
图1.2 整体架构
本课题要研究的内容,就是该项目中的Hadoop集群监控部分,该部分涉及到需要用到的监控工具的选择,以及hadoop集群监控信息的实现原理。本课题基于Hadoop分布式平台,利用工具监控Hadoop集群性能。
1.3 研究目的和意义
随着物联网发展和高性能大规模数据中心的兴建,设施的安全运作关系着大大小小数以万计的公司管理业务的正常运作。任意一次意外事件或是大规模死机,都会造成财产损失,甚至是造成难以想象的灾难。所以故障检测和实时监控就显得特别重要。而且,遍布世界的数以万计的数据中心所采用的有很大的进步空间,如果能对他们进行实时监测就可以得到很多数据,这些数据可以为解决系统问题提供依据,或者作为系统升级的考察,根据监控数据我们可以经过分析研究得出一套改善方案或者管理对策,将大大减轻数据中心原来的成本和环境压力,所以在目前的研究中,平台监控的研究一直是一个重要的课题。
所在实习企业设计系统整体较大,是由几十个人分模块完成,系统整体从逻辑上分为三个部分:
数据采集,即通过前置采集系统进行实时数九采集,采集用户、公司及居民电表等用电量信息;
数据处理和数据存储:通过前置采集的数据进行预处理结合大数据处理平台,数据进行深度分析挖掘处理,并进行存储;
业务应用 :根据具体的业务应用需求,对大数据平台处理的数据进行结合客户需求的价值展现。
本文参与的模块则是在数据处理下的数据监控,为了基于现在这个阶段国内外对Hadoop、集群的监控多种多样的方案,通过对各种相关技术的学习,最终实现对hadoop平台的监控。论文通过研究各类监控工具,并比较不同工具之间的优势、劣势,以及使用程度和稳定性,筛选出最适合用于该系统的工具。Hadoop监控系统在很多方面帮助到用户,比如它可以帮助监控集群全部节点上的性能,比如还可以解决存储海量监控数据的问题,提供给管理员用以查询和分析系统性能的历史数据记录等等。 大数据分析挖掘算法实现-平台的监控(2):http://www.youerw.com/jisuanji/lunwen_21073.html