科技工作者之家
科技工作者之家APP是专注科技人才,知识分享与人才交流的服务平台。
科技工作者之家 2022-03-29
在Spark SQL框架应用中,配置参数优化是常常面临的问题。现有的机器学习优化方法大多时间成本高、无法很好适应所处理的数据量变化。
近日,中国科学院深圳先进技术研究院先进计算与数字工程研究所异构智能计算中心提出低时间成本、能够适应输入数据集大小变化的配置自动优化方法LOCAT。该方法由三个核心技术组成。该研究首先设计了query与配置参数敏感性分析技术。在收集训练样本时,从给定工作负载中识别并删除与配置参数不敏感的query。其次,对于其余的query,LOCAT通过计算相关性系数来识别重要的配置参数,然后应用核主成分分析来降低配置参数搜索维度。最后,LOCAT设计了感知数据集大小的贝叶斯优化来搜索最优配置,以便能根据数据集的大小自动优化性能。基于TPC-DS、TPC-H与HiBench测试基准的实验表明,分别在8台高性能x86服务器的集群环境与4台高性能ARM服务器的集群环境下,较当前最先进的自动调优解决方案,LOCAT降低优化时间成本达9.7倍,而且获得了高达2.8倍的性能提升。
相关成果以LOCAT: Low-Overhead Online Configuration Auto-Tuning of Spark SQL Applications为题,发表在ACM SIGMOD(数据管理国际会议)2022上。
LOCAT框架
内容来源:中国科学院来源:中国科学院
原文链接:http://www.cas.cn/syky/202203/t20220321_4828862.shtml
版权声明:除非特别注明,本站所载内容来源于互联网、微信公众号等公开渠道,不代表本站观点,仅供参考、交流、公益传播之目的。转载的稿件版权归原作者或机构所有,如有侵权,请联系删除。
电话:(010)86409582
邮箱:kejie@scimall.org.cn
新一代互联网数据中心建设启动
数据要素市场化配置上升为国家政策
2019年月球上或将拥有4G网络,可在月地间传输数据
全文 | 广东省数据要素市场化配置改革行动方案
要素市场化配置下的数据安全挑战及应对策略
云服务普惠时代,创业者路在何方?
特性参数
深夜用电情况可预示早高峰的起始及持续时间
参数多态
数据时代,别忘捂紧“信息钱袋”