• 一种基于MapReduce机制的数据密集型成本优化方法

    • 摘要:

      本发明涉及一种基于MapReduce机制的数据密集型计算成本优化方法,在数据的流行程度和访问情况动态变化的状态下,优化MapReduce任务的执行时间和执行成本.该方法包括:提出云计算环境下基于MapReduce机制的成本计算模型;在该模型的基础上,根据负载中数据流行程度动态改变Map子任务的副本数目;对于访问次数较多,访问较频繁的热数据,通过增加其副本数目以减少文件抢夺和网络的带宽资源竞争,使其计算成本与计算时间达到最优;对于访问次数较少,访问较不频繁的冷数据,通过减少其副本数目以降低副本的创建与存储成本,使其计算成本与计算时间达到最优.利用本发明,云计算用户能够有效的减小资源使用成本,并能以更加高效的方式保证作业计算结果的可靠性与完整性.

    • 专利类型:

      发明专利

    • 申请/专利号:

      CN201310590839.0

    • 申请日期:

      2013.11.21

    • 公开/公告号:

      CN103593452A

    • 公开/公告日:

      2014-02-19

    • 发明人:

      杨扬 孙莉莉 米振强

    • 申请人:

      北京科技大学

    • 主分类号:

      G06F17/30(2006.01)I,G,G06,G06F,G06F17

    • 分类号:

      G06F17/30(2006.01)I,G,G06,G06F,G06F17,G06F17/30

    • 主权项:

      一种基于MapReduce机制的数据密集型计算成本优化方法,其特征在于:技术方案包括负载采集与输入模块,数据流行度分类机制模块,数据副本数目决策算法模块,数据副本数目自动调节模块;模块自上至下依次设置,负载采集与输入模块输入连接到数据流行度分类机制模块,数据流行度分类机制模块将数据分为冷数据与热数据后,作为输入连接到数据副本数目决策算法模块,所述数据副本数目决策算法模块输出最佳数据备份数之后,将此备份数作为输入连接到数据副本数目自动调节模块;具体过程为:根据对负载中数据访问情况的分析,通过数据流行度分类机制,以同一时刻数据的访问次数作为参考指标,以Hadoop分布式存储系统系统默认数据备份数3为参考值,将数据划分为热数据和冷数据;其中,数据的访问次数大于或者等于3的为热数据,反之为冷数据;在此数据划分的基础上,由数据副本数目决策算法根据数据密集型计算成本模型计算数据作假副本数目;这种优化方法根据负载中数据流行程度动态改变Map子任务的副本数目;对于访问次数较多,访问较频繁的热数据,通过增加副本数目以减少文件抢夺和网络的带宽资源竞争,使计算成本与计算时间达到最优;对于访问次数较少,访问较不频繁的冷数据,通过减少副本数目以降低副本的创建与存储成本,使计算成本与计算时间达到最优.