Hadoop大数据平台数据抽取和交换工具的设计与实现_毕业论文

毕业论文移动版

毕业论文 > 计算机论文 >

Hadoop大数据平台数据抽取和交换工具的设计与实现

摘要随着互联网技术的日益发展,数据信息的总量正在以前所未有的速度增长着,海量数据的分析和处理已经成为了当今时代的研究热点。Hadoop是进行海量数据存储和计算的最为流行的一个软件框架,HDFS和HBase是Hadoop框架用来存储海量数据的主要方式。然而还有大量的数据是存储在传统的文件系统或关系型数据库中,这些来自不同数据源的数据构成了异构数据。该课题以此为背景设计了一个Java高效数据交换系统,实现了异构数据源、结构化和非机构化数据的高效、安全的数据交换。该系统采用框架加插件的开发模式,框架是一个通用的模块,对外提供了统一的公共接口,供读写插件调用,读写插件可以通过这些接口实现对数据处理系统的访问。73280

毕业论文关键词  海量数据  Hadoop  数据交换  异构数据

毕业设计说明书外文摘要

Title  Big data platform for the design and implementation  of data extraction and exchange tools                                           

Abstract With the development of Internet, the amount of data is growing at an unprecedented rate,and massive data analysis and processing has become a hot research topic in today's world。 Hadoop is the most popular software framework of massive data storage and calculation,while the HDFS and HBase are the main way used to store massive data。 But there are a large amount of data stored in a traditional file system or a relational database, and the data from different sources constitutes the heterogeneous data。 The project implements a Java data exchange system which is used to implement heterogeneous,structural and institutional data exchange in a efficient and secure way。The system adopts the framework and plugin development model, and framework is a generic module, providing the unified public interface, for reading and writing plugins call。 Reading and writing plugins can be realized by these interfaces access to data processing system。

Keywords  Massive data  Hadoop  Data exchange   Heterogeneous data

目   次

1  引言 1

1。1  课题背景 1

1。2  课题研究的内容和意义 1

1。3  国内外研究现状 2

1。4  论文结构 4

1。5  本章小结 4

2  相关概念与技术 5

2。1  ETL概念 5

2。2  Java BlockingQueue 6

2。3  双缓冲区 8

2。4  线程池 8

2。5  本章小结 9

3  系统需求和设计 10

3。1  系统总体功能分析 10

3。2  具体功能描述 10

3。3  系统架构 12

3。4  系统总体设计 13

3。5  本章小节 16

4  系统实现 17

4。1  系统总体实现 17

4。2  数据交换具体实现 18

4。3   插件编写具体实现 (责任编辑:qin)