目次
1引言1
1.1研究背景与目的1
1.2研究内容1
1.4组织结构2
2“云计算”平台4
2.1“云计算”平台定义4
2.2“云计算”平台配置5
3科学工作流6
3.1科学工作流模型的定义6
3.2科学工作流概况6
3.3科学工作流挖掘预备知识7
3.4基于日志的事件次序之间的关系8
3.5借助传递归约的具体算法实现9
4科学工作流挖掘工具实现11
4.1需求分析11
4.2模块设计11
5系统运行与评价17
5.1系统运行17
5.2科学工作流挖掘效果评价17
6存在的问题和下一步工作22
结论23
致谢24
参考文献25
1 引言 “云计算”根据定义是指通过互联网以按使用量定价方式付费的 IT 资源和应用程序的按需交付。而云平台就是“云计算”平台。科学工作流是云平台下应用的主要模式之一。一般而言,科学工作流模型可以抽象为一个有向无环图 DAG,通过 DAG 的执行历史(拓扑排序的集合)可以有效发掘背后的DAG模型。科学工作流(Scientific workflows)就是科学工作流程的计算模型,即将科学工作流程中的工作如何前后组织在一起的逻辑和规则在计算机中以恰当的模型进行表示并对其实施计算[1]。科学工作流要解决的主要问题是:为实现某个科学工作业务目标,在多个自动化设备之间,利用计算机软件,使之按照预定的规则实现自动传递。
1.1 研究背景与目的 在上一个十年,工作流管理的概念和技术被应用在许多企业信息系统。在工作流管理并没有实际应用在企业业务处理和科学工作的处理时,许多企业用一些低级的传递和处理信息的方式,导致效率低下。随着信息时代的到来,信息高效传递与处理显得十分具有必要。工作流管理系统使得企业和科学工作者只需要填写相应信息,依据建立的工作流模型,在工作自动化软件上进行任务处理信息的传递,并且会按照定义好的流程自动运行,在大大提高工作效率的同时,实现了对整一个工作流程的管理,直接或间接地提高了企业核心竞争力和科技工作者的效率,对于社会发展和科技进步起到了不可或缺的作用。 为科学工作流建模是一项非常重要的任务,详细准确的科学工作流模型有利于提高工作效率与任务的并行效率。但是详尽而准确的科学工作流模型需要对于科学工作流处理的深厚的知识,并且往往需要各方参与的冗长的讨论。然而许多科学工作并没有应用工作流管理系统,或者说工作流经常性的变化导致工作流模型的变化。那么就需要一个科学工作流挖掘工具替其建立一个科学工作流模型,以便实现科学工作流管理工具,提高科学工作的效率。 如今科学工作流越来越多地部署运行在云平台。为了提高效率,科学工作流事件通常安排并运行在不同的云平台,即分布式的物理机器。但是,如果科学工作流的任务不是特别紧急,类似本次毕业设计,那么考虑到节约花销和能量消耗,科学工作流事件可以运行在一个云平台下,即云内的科学工作流挖掘,而不考虑云空间之间的科学工作流挖掘。