本发明涉及大数据计算,公开了一种云平台MapReduce工作流调度优化方法,大致地包括对现有的工作流进行重构得到新的工作流的重构步骤,应用遗传算法对工作流进行优化的优化步骤以及通过历史数据记录或者在建立相应的回归模型后记录回归模型的相关数据的方式保留上述历史数据的历史数据取得步骤,从而在优化步骤中,可以通过部分的历史数据生成不同的个体.本发明的优点在于,不仅考虑到了工作流作业的运行时间,同时考虑在云平台上计算过程中集群租用所需要的花费,优化效果好,可以确实地解决大型云计算平台上工作流调度过程中效率不高的问题.
发明专利
CN201410315763.5
2014.07.03
CN104199820A
2014-12-10
吴朝晖 何延彰 姜晓红 陈英芝 毛宇
浙江大学
G06F17/30(2006.01)I,G,G06,G06F,G06F17
G06F17/30(2006.01)I,G,G06,G06F,G06F17,G06F17/30
一种云平台MapReduce工作流调度优化方法,其特征在于,包括以下具体步骤: 重构步骤(100):将用户提交的至少包括一个作业的工作流W重构为一个新的工作流G,所述重构包括: 工作流中的新作业节点组成集合V,以新作业为节点的有向无环图的节点之间的有向边组成集合E,所述新作业包括开始作业JEntry、同步作业JSyn、结束作业JExit以及分支作业JBran,所述开始作业JEntry是指工作流W中没有任何父节点的作业,所述结束作业JExit是指工作流W中没有任何子节点的作业,所述同步作业JSyn同时拥有父节点和子节点,并且具备父节点数量大于等于两个或者子节点数量大于等于两个的性质,所述分支作业JBran是指相互依赖的简单作业JSim的集合,所述相互依赖是指不同的简单作业JSim之间的有向边能够连通分支作业内所有的简单作业,所述简单作业JSim是指工作流W中只有一个父节点和一个子节点的作业; 计算工作流G中所有作业的输入数据集的大小,并将所述输入数据集的大小组成向量S; 优化步骤(200):产生初始种群,所述初始种群是指通过对工作流G中的作业赋随机初值得到的个体的集合;通过产生新的个体的方式扩大初始种群内个体的数量得到下一代种群,所述新的个体是指由随机点交叉和/或随机点变异的方式所产生的新的个体;分别计算所述下一代种群中所有个体的工作时间,选取所述下一代种群中的至少一个个体作为优化结果输出.