摘要在高度信息化的今天,随着信息技术和信息系统应用的不断推广,数据早已呈现出爆炸式的增长趋势。如何从海量数据中提取有价值的信息成为近年来的研究热点,以Hadoop集群为代表的分布式计算平台几乎是目前处理大规模数据的标准。33111
本文以企业的大数据基础平台项目为契机,参与数据传输模块的设计和开发工作:首先调研当前主流的分布式消息传输系统,对不同的传输机制进行分析和比较,结合平台的需求特征,最终选择Kafka作为消息传输组件。并通过与国内基于Kafka框架开发的MetaQ的对比,充分理解Kafka的原理和特点。在此基础上,将Kafka实践应用到在企业平台中,最后开发一个对Kafka集群进行管理的可视化工具。
关键词 数据传输 Hadoop平台 Kafka 毕业论文设计说明书外文摘要
Title Big Data Transmission Based on Big Data Platform
Abstract
In today's highly information-oriented, with the promotion of information technology and information systems applications, data already showing explosive growth. How to extract valuable information from massive amounts of data in recent years become a hot topic, as the representative to the Hadoop cluster distributed computing platform is almost standard now handle large-scale data.
In this paper, a large enterprise data base platform project as an opportunity to participate in the design and development of data transmission modules: First study the current mainstream distributed messaging system, different transport mechanisms are analyzed and compared with the needs of feature platform final Select Kafka as a message transport components. And by comparison with domestic-based framework for the development of MetaQ Kafka fully understand the principles and characteristics of Kafka's. On this basis, the Kafka practices to the enterprise platform, and finally the development of visualization tools one pair Kafka cluster management.
Keywords Big Data Transmission Hadoop Platform Kafka
目 次
1 绪论 1
1.1 研究背景 1
1.2 项目背景 2
1.3 主要研究内容 4
1.4 论文结构 5
2 分布式消息传输系统分析以及相关技术 6
2.1主流分布式消息传输系统调研 6
2.2 关于Strom12
2.3 关于zookeeper 13
2.4 关于 Scala语言和play框架 13
3 Kafka传输机制以及应用15
3.1 Kafka的消息组成形式15
3.2 Kafka在国内的开发实践—MetaQ17
4 Kafka的应用和开发 20
4.1 Kafka的运行实例分析 20
4.2 可视化管理模块 23
5总结 32
5.1工作总结 32
5.2后续工作 32
致谢 33
参考文献 34
1 绪论
随着网络技术研究的深入和其相关应用的不断普及,互联网的用户量急剧增长,而随之产生的数据量更是以指数型增大。如今大数据的数据量已经达到了PB级别,2013的百度的公开数据显示它拥有的数据量接近EB级别;而据IDC和EMC联合发布的《2020年的数据宇宙》研究报告预测到2020年全球的数据宇宙将达到4000EB。如此庞大的数据量已经达到了基于单一节点传统数据系统的处理和存储能力一个上限,与此同时,用户对数据安全需求的日益增强也要求数据的存储备份从传统模式发展到由网络支持分布式处理平台,所以通过使用分布式计算技术获取网络中庞大的数据资源,将需要消耗大量计算资源的复杂计算分布到网络的多个节点,是目前一种行之有效的解决方案[1] 。为了达到这些需求,需要数据基础软件平台的支持,而将分布于各个信息源的数据按需求传输迁徙到大数据计算平台也是其中必不可少的部分。