• 一种基于状态与扰动估计的物料转送器强化学习控制方法

    • 摘要:

      本发明公开了一种基于状态与扰动估计的物料转送器强化学习控制方法,首先建立物料转送器电液伺服系统的控制模型;然后采用一种新型的非线性扩张状态观测器估计液压伺服系统未知状态和等效扰动,该非线性扩张状态观测器理论上的估计误差为零;基于上述状态和等效扰动估计,设计滑模控制器实现液压伺服系统快速、高精度控制;最后采用强化学习方法,通过系统自适应学习对滑模控制器参数进行在线自适应学习,提高液压伺服系统的控制性能.本发明能够根据液压伺服系统位置信息得到其他状态和扰动信息;能够通过强化学习方法实现控制滑模控制器参数自整定,不需要人工大量的实验进行整定,降低了工作量,提高了控制精度.

    • 专利类型:

      发明专利

    • 申请/专利号:

      CN202010731483.8

    • 申请日期:

      2020.07.27

    • 公开/公告号:

      CN112000009A

    • 公开/公告日:

      2020-11-27

    • 发明人:

      钱林方 魏凯 邹权 孙乐 徐亚栋 陈龙淼 尹强 王满意 陈光宋 陈红彬

    • 申请人:

      南京理工大学

    • 主分类号:

      G05B13/04(2006.01),G,G05,G05B,G05B13

    • 分类号:

      G05B13/04(2006.01),G,G05,G05B,G05B13,G05B13/04

    • 主权项:

      1.一种基于状态与扰动估计的物料转送器强化学习控制方法,物料转送器通过液压系统驱动齿轮副带动输送链传输,液压系统由电液伺服系统控制,通过编码器实时反馈电液伺服系统位置信息;其特征在于, 首先建立物料转送电液伺服系统的动力学模型,以电液伺服系统简化数学模型为基础,用扩张状态观测器在线估计系统的未知状态和等效扰动,基于上述状态与扰动估计值设计滑模控制器实现位置跟踪控制,并引入强化学习算法在线调整滑模控制器参数,实现物料转送器电液伺服系统的控制. 2.根据权利要求1所述的基于状态与扰动估计的物料转送器强化学习控制方法其特征在于,包括以下步骤: 步骤1、建立物料转送器电液伺服系统的动力学模型:建立物料转送动力学方程和液压缸的流量方程以及无杆腔和有杆腔流量连续方程,联立建立物料转送器电液伺服系统数学模型; 步骤2、基于物料转送电液伺服系统的动力学模型式设计状态与扰动估计器:采用非线性扩张状态观测器完成对系统状态和等效扰动的估计; 步骤3、基于动力学模型式和状态与扰动观测器式建立滑模控制器; 步骤4、建立强化学习径向基函数网络:强化学习模型采用径向基函数网络的Actor-Critic学习; 步骤5、根据强化学习模型中的跟踪误差计算奖励函数; 步骤6、分别根据强化学习模型中的Actor输出公式和Critic输出公式计算Actor-Critic网络输出; 步骤7、将Actor网络的输出应用于滑模控制器,并根据跟踪误差计算滑模控制器输出; 步骤8、将步骤7中得到的控制信号作用于物料转送器电液伺服系统; 步骤9、根据编码器采集的位置信息周期状态,计算Actor网络输出V(t)和奖励函数r(t); 步骤10、根据步骤9中的Actor网络输出V(t)和奖励函数r(t)的值计算TD误差; 步骤11、采用梯度下降法更新Actor-Critic网络权值以及节点中心向量以及节点宽度; 步骤12、根据当前位置判断被控对象是否运动到位如果运动到位则运动结束,否则回到步骤5. 3.根据权利要求2所述的基于状态与扰动估计的物料转送器强化学习控制方法其特征在于,步骤1建立物料转送器电液伺服系统的动力学模型为: 其中u(t)为系统控制输入变量;d(t)为未知的等效扰动,x1(t),x2(t)和x3(t)分别为油缸的位移、速度和加速度;A1为油缸无杆腔面积;A2为油缸有杆腔面积;Vt1,Vt2分别为运动开始时无杆腔和有杆腔油液体积,;Δl为油缸伸长量;βe为液压油体积弹性模量;Beq为油缸端等效阻尼系数;meq为油缸端等效质量;Cd为流量系数,W为阀口面积梯度;Ku为伺服阀放大系数. 4.根据权利要求3所述的基于状态与扰动估计的物料转送器强化学习控制方法其特征在于,步骤2中所述非线性扩张状态观测器采用如下: 式中:为系统状态的估计值,位置误差xd1(t)为期望的位移,扩张状态观测器参数w>0,扩张状态观测器参数H1,H2,H3,H4>0,扩张状态观测器参数L>δ,为扩张状态观测器误差. 5.根据权利要求3所述的基于状态与扰动估计的物料转送器强化学习控制方法其特征在于,步骤3建立滑模控制器为: 其中f,k(t)为可调增益,a0为滑模控制器参数;cA1(t)>0,cA2(t)>0为滑模面参数;e3(t)为加速度误差,xd2(t),xd3(t),xd4(t)分别为期望的速度、加速度、加加速;度. 6.根据权利要求2所述的基于状态与扰动估计的物料转送器强化学习控制方法其特征在于,步骤4建立基于径向基函数网络的强化学习模型,具体包括以下步骤: 步骤4.1、建立强化学习径向基函数网络,采用RBF结构,t时刻Actor输出和Critic输出分别为: 式中wij(t)为t时刻第i个隐含层节点到第j个Actor网络输出层权值,vi(t)为为t时刻第i个隐含层节点到Critic网络输出的权值;hi(t)为t时刻第i个节点的隐含层输出; 步骤4.2、强化学习径向基网络更新,在Actor-Critic网络学习中计算误差δTD(t): 采用梯度下降法更新Actor-Critic网络: 式中:αA,αV分别为Actor和Critic的学习率,wij(t+1)为t+1时刻第i个隐含层节点到第j个Actor网络输出层权值,vi(t+1)为为t+1时刻第i个隐含层节点到Critic网络输出的权值;K(t)为网络输出偏差向量; 对中心向量和节点宽度进行更新: 式中:αc,αb分别为中心向量以及节点宽度的学习率,ci(t+1)为t+1时刻第i个节点的隐含层中心向量,bi(t+1)为t时刻第i+1个节点的隐含层节点宽度;e(t)为系统跟踪误差.