• 一种基于忆阻交叉阵列的Q学习系统

    • 摘要:

      本发明公开了一种基于忆阻交叉阵列的Q学习系统,包括忆阻交叉阵列,其特征在于:所述系统还包括读写选择开关:控制忆阻交叉阵列的读写操作,状态选择开关:状态检测模块检测当前环境状态st,通过状态选择开关,选择相应的行线;列选择开关:当需要对Q值,也即对忆阻交叉阵列的某一个忆阻值进行更新时,列选择开关选择动作at所对应的列线.延迟单元:将选择的列线的电压延迟一个时间步长;状态检测模块:检测当前的环境状态,保存上一个环境状态,.本发明将新的电路元件-忆阻器成功应用到了强化学习中,解决了强化学习需要大量的存储空间问题,为以后强化学习的研究提供了一种新的思路.

    • 专利类型:

      发明专利

    • 申请/专利号:

      CN201210188573.2

    • 申请日期:

      2012.06.08

    • 公开/公告号:

      CN102723112A

    • 公开/公告日:

      2012-10-10

    • 发明人:

      王丽丹 何朋飞 段书凯 钟宇平

    • 申请人:

      西南大学

    • 主分类号:

      G11C16/34(2006.01)I,G,G11,G11C,G11C16

    • 分类号:

      G11C16/34(2006.01)I,G11C16/24(2006.01)I,G,G11,G11C,G11C16,G11C16/34,G11C16/24

    • 主权项:

      一种基于忆阻交叉阵列的Q学习系统,包括忆阻交叉阵列,其特征在于:所述系统还包括读写选择开关:控制忆阻交叉阵列的读写操作;状态选择开关:状态检测模块检测当前环境状态st,通过状态选择开关,选择相应的行线;列选择开关:当需要对Q值,也即对忆阻交叉阵列的某一个忆阻值进行更新时,列选择开关选择动作at所对应的列线;延迟单元:将选择的列线的电压延迟一个时间步长;状态检测模块:检测当前的环境状态,保存上一个环境状态,当需要根据状态选择动作时,状态检测模块检测当前环境状态,并将此状态提供给状态选择开关和状态控制开关,执行动作以后,状态选择开关检测此时的环境状态,保存上一个环境状态,并将此时的环境状态提供给状态选择开关和状态控制开关;当对Q值进行更新的时候,状态检测模块输出前一个时刻的环境状态,并提供给状态选择开关,选择相应的行线.