云计算环境下大数据传输技术的研究
时间:2018-12-03 20:31 来源:毕业论文 作者:毕业论文 点击:次
摘要近年来,在工业界及学术界的大力推动下,云计算技术得到迅速发展,大量云计算系统得以应用。自2004年 Google发布MapReduce之后,基于 MapReduce模式和 HDFS分布式文件系统的Hadoop系统跃升为企业主流的云计算部署平台。在工业界,Hadoop 已经是公认的大数据通用存储和分析平台。本文主要介绍了 MapReduce模式和Hadoop 系统的相关技术,并重点研究了Hadoop 系统已存在的大数据传输算法实现过程并分析其不足,在此基础上提出了基于节点性能和 QoS 的大数据传输算法,最后使用云计算环境仿真工具 CloudSim 模拟了该算法的实现,并与单纯基于FIFO的数据传输算法比较了执行相同规模数据任务所花费的时间。实验表明:基于节点性能和 QoS 的大数据传输算法有效的提高了云计算中大数据任务执行的效率。31023 毕业论文关键词 大数据传输算法 MapReduce Hadoop 节点性能 QoS Title The Large Data Transmission Technology in Cloud Abstract In recent years, industry and academia to vigorously promote cloud computing technology is developing rapidly, a lot of cloud computing systems can be applied. Since 2004 Google released MapReduce, HDFS MapReduce-based mode and the Hadoop Distributed File System system emerged as the mainstream enterprise cloud deployment system. In the industrial sector, Hadoop big data is already recognized common storage and analysis platform. This paper describes the relevant technologies and Hadoop MapReduce model systems, and focuses on large data transmission algorithms existing Hadoop system implementation process and make it less, based on the proposed algorithm based on large data transmission node performance and QoS, Finally, on CloudSim open source tools platform cloud simulation algorithm to simulate and compare the size of the data to perform the same task time spent with a simple FIFO-based data transfer algorithms. Experiments show that: based on large data transmission algorithm node performance and QoS effectively improve the efficiency of large data tasks. Keywords large data transfers algorithms MapReduce Hadoop Node performance QoS 目次 1绪论1 1.1研究背景...1 1.2相关工作...1 1.3论文结构...2 2Hadoop系统的研究...4 2.1MapReduce模式..4 2.2Hadoop框架组成及架构6 3大数据传输方法的研究与改进...9 3.1Hadoop现有大数据传输算法.9 3.1.1先进先出调度算法(FirstInFirstOut,FIFO)9 3.1.2公平份额调度算法(FairScheduling,FS)...9 3.1.3计算能力调度算法(CapacityScheduling,CS)...10 3.2基于节点性能的改进..10 3.3基于QoS的改进.11 4仿真实验13 4.1Cloudsim介绍...13 4.2仿真系统的体系结构..13 4.3环境模拟的主要步骤..15 4.3.1本机配置....15 4.3.2环境配置....15 4.3.3仿真流程....15 4.4实验结果与分析.17 结论.20 致谢.21 参考文献.22 1 绪论 1.1 研究背景 云计算是一种基于共享基础架构的商业计算模型,是分布式计算、网格计算和并行计算等多种计算方式的发展和商业实现[1]。作为一种全新的计算模型,云计算有效地整合了互连网的资源, 这些资源包括计算资源、存储资源、网络资源以及软件服务等,经过计算机虚拟化技术处理后构成资源池,以服务的形式,将这些资源提供给用户。用户就可以利用英特网对虚拟的计算机以及存储系统按照自身的需要进行访问,而不需要复杂的底层管理与实现, 因此可以大量节约用户成本,并且获得高性价比的资源。 2004 年,Google 公司提出了 MapReduce 编程模型[2],这是应用于海量数据领域的并行编程模型[3].之后Yahoo 基于 MapReduce分布式编程模型和 GFS(google File System)数据存储系统实现了Hadoop系统,并将之部署应用到了商业运行中。随着 Hadoop 在云计算应用中不断展示出的高效率,Hadoop 系统也在学术界和工业界 得到了广泛认可[4]并成为了公认的大数据通用存储和分析平台。大量的企业或个人也都通过直接或间接的方式使用 Hadoop系统生产出自己的产品。如Facebook 利用 Hadoop 存储日志数据,进行数据分析[5]; Amazon 通过部署 Hadoop 以管理大数据的应用[6]。 学术界认为 Hadoop 有助于促进高校 和研究机构对分布式计算体系的推广和发展,因此也着手 Hadoop 资源管理、数据存储和安全性等研究[7]。 1.2 相关工作 Hadoop 的任务调度模式使用了一种主从式(Client–server model)的架构,通过主节点JobTracker 控制整个系统的任务调度,而其它任务执行节点 TaskTracker 在空闲时向主节点JobTracker请求分配任务。如何选择合适的调度程序运用于 Hadoop 平台对其执行能力和交互能力有着非常大的影响,因此业界也提出了许多针对 Hadoop 的调度模式。目前来说 Hadoop系统中使用最多的仍然是单纯的基于FIFO的调度算法,另外雅虎和Facebook的开发者也提出了一些改进的作业调度算法,并且已经投入到新版本的 Hadoop 实践中[8]。 FIFO调度算法实现简单,适合处理海量数据时的大规模任务调度,因此作为 Hadoop平台中最常用也是最基础的调度算法,但该算法的弊端也很突出, 存在 QoS (Quality of Service)差、调度频繁、资源碎片多、不够灵活等缺点,当用户需要一些更加复杂的服务时,就必须通过一定手段对算法进行改造,以使其适合具体的应用需要。 (责任编辑:qin) |