2。1Hadoop 平台简介 3
2。1。1Hadoop 存储管理 3
2。1。2MapReduce 计算框架 4
2。2 Hadoop 作业调度系统 6
2。2。1 相关概念 6
2。2。2 插件式调度框架 7
2。2。3 经典调度器介绍 7
3 基于 GA 的 Hadoop 任务调度模型与算法 9
3。1 遗传算法原理 9
3。1。1 遗传算法的相关概念 9
3。1。2 遗传算法的特点 9
3。2 基于 GA 的 Hadoop 任务调度模型 10
3。2。1 相关定义 10
3。2。2 算法思想 10
3。2。3 输入、输出和约束条件 10
3。3 算法的关键点 10
3。3。1 编码和解码 11
3。3。2 选择算子 11
3。3。3 交叉算子 12
3。3。4 变异算子 12
3。3。5 适应度函数 13
3。3。6 初始种群的产生和收敛条件 13
3。3。7 其它约束条件 13
3。4 算法的流程步骤 14
4 基于 GA 的 Hadoop 任务分配算法的设计与实现 16
4。1 项目平台的搭建 16
4。2 类的设计与实现 18
4。2。1 遗传算法模块 19
4。2。2 Hadoop 任务分配模块 20
II 本科毕业设计说明书
4。3 算法加载 22
4。3 实验结果分析 22
结 论 29
致 谢 30
参 考 文 献 31
1 绪论
1。1 研究背景
本科毕业设计说明书 第 1 页
计算机技术飞速发展,互联网所提供的服务和质量随之进步,云计算环境普及,这些技 术的发展使分布式系统的应用越加广泛。如今,例如互联网上的网页数据、社交网站上的用 户交互数据、电信网络中的话单数据,这些数据日常的数据量非常庞大,我们称之为海量数 据(Massive Data)即大数据(Big Data)[1],而今大数据的处理成为了新的挑战。它们具有三 个特性:大容量、多类型、高时效。由于大数据规模极大,所以无法用常规的软件来对其进 行高效率、快速的处理,而Hadoop平台正是一个分布式的框架,它可以整合利用集群的所有 计算资源来执行提交的作业,平台中的MapReduce模型是并行分布式数据处理编程模型,用 户使用该模型开发分布式下的应用程序,可以忽略分布式的底层具体实现。论文网