智慧起航,共创未来
伴随计算和存储能力的大幅提升,深度学习在人工智能领域获得了巨大的成功。在此背景下,产生了由深度学习和强化学习结合的深度强化学习。
本文综述了强化学习和深度强化学习方法的原理,分析了多智能体深度强化学习中存在的若干重要问题和解决方法,提供多智能体深度强化学习未来的研究方向,为开发更强大、更易应用的多智能体强化学习控制系统提供一些思路。
孙长银, 穆朝絮. 多智能体深度强化学习的若干关键科学问题. 自动化学报, 2020, 46(7): 1301−1312
深度强化学习
深度强化学习将深度学习技术和强化学习方法结合到一起。利用深度学习感知环境特征,利用强化学习方法求取最优策略。现阶段,深度强化学习已在围棋、游戏、导航、移动控制等领域实现突破性进展。
深度强化学习原理图
多智能体深度强化学习
多智能体深度强化学习问题是复杂的、动态的,给学习决策过程带来很大困难。本文提出学习系统的闭环控制框架,分析了多智能体深度强化学习的算法结构、环境非静态、部分可观性、基于学习的通信、算法收敛性和稳定性等问题,并且对所调查方法的优缺点和相关应用进行分析和讨论。
学习系统闭环控制框架
研究成果的意义
深度强化学习在无人驾驶、机器人控制、交通运输调度、电力系统优化、分布式传感网络以及金融和社会学等领域还有大量的应用研究。更为重要的是, 深度强化学习可能成为一种解决复杂问题的有效方法, 极大地推动人工智能和自动化技术的发展。
作者简介
孙长银 东南大学自动化学院教授,主要研究方向为智能控制与优化,强化学习, 神经网络, 数据驱动控制。
E-mail: cysun@seu.edu.cn
穆朝絮 天津大学电气自动化与信息工程学院教授. 主要研究方向为强化学习, 自适应学习系统, 非线性控制和优化。
E-mail: cxmu@tju.edu.cn
来源:AAS自动化学报
【重要通知】关于开展2020年度中国自动化学会会士候选人提名工作的通知
【重要通知】第四届IEEE能源互联网与能源系统集成国际会议征稿启事
【公告】中国自动化学会2019-2021年度青年人才托举工程项目评选结果公告
万众一心 我们终将战胜这一疫情——中国自动化学会致广大理事、会员的一封信
地址:北京市海淀区中关村东路95号
邮编:100190
电话:010-82544542(综合)
010-62522472(会员)
010-62522248(学术活动)
010-62624980(财务)
传真:010-62522248
邮箱:caa@ia.ac.cn
官方微信公众号(英文)
名称:CAA OFFICIAL
微信号:caaofficial
会员微信公众号
名称:CAA会员服务
微信号:caa-member