本发明公开了一种基于忆阻交叉阵列的Q学习系统,包括忆阻交叉阵列,其特征在于:所述系统还包括读写选择开关:控制忆阻交叉阵列的读写操作,状态选择开关:状态检测模块检测当前环境状态st,通过状态选择开关,选择相应的行线;列选择开关:当需要对Q值,也即对忆阻交叉阵列的某一个忆阻值进行更新时,列选择开关选择动作at所对应的列线.延迟单元:将选择的列线的电压延迟一个时间步长;状态检测模块:检测当前的环境状态,保存上一个环境状态,.本发明将新的电路元件-忆阻器成功应用到了强化学习中,解决了强化学习需要大量的存储空间问题,为以后强化学习的研究提供了一种新的思路.
发明专利
CN201210188573.2
2012.06.08
CN102723112A
2012-10-10
王丽丹 何朋飞 段书凯 钟宇平
西南大学
G11C16/34(2006.01)I,G,G11,G11C,G11C16
G11C16/34(2006.01)I,G11C16/24(2006.01)I,G,G11,G11C,G11C16,G11C16/34,G11C16/24
一种基于忆阻交叉阵列的Q学习系统,包括忆阻交叉阵列,其特征在于:所述系统还包括读写选择开关:控制忆阻交叉阵列的读写操作;状态选择开关:状态检测模块检测当前环境状态st,通过状态选择开关,选择相应的行线;列选择开关:当需要对Q值,也即对忆阻交叉阵列的某一个忆阻值进行更新时,列选择开关选择动作at所对应的列线;延迟单元:将选择的列线的电压延迟一个时间步长;状态检测模块:检测当前的环境状态,保存上一个环境状态,当需要根据状态选择动作时,状态检测模块检测当前环境状态,并将此状态提供给状态选择开关和状态控制开关,执行动作以后,状态选择开关检测此时的环境状态,保存上一个环境状态,并将此时的环境状态提供给状态选择开关和状态控制开关;当对Q值进行更新的时候,状态检测模块输出前一个时刻的环境状态,并提供给状态选择开关,选择相应的行线.