基于重抽样优选缓存经验回放机制的深度强化学习方法
CSTR:
作者:
作者单位:

(解放军理工大学指挥信息系统学院,南京210007)

作者简介:

陈希亮(1985-), 男, 博士生, 从事机器学习、决策支持理论与技术的研究;曹雷(1965--), 男, 教授, 从事指挥信息系统工程、决策理论与方法等研究.

通讯作者:

E-mail: 383618393@qq.com

中图分类号:

TP273

基金项目:

国家自然科学基金项目(61301159, 61303267);国家重点研发计划项目(2016YFC0800606);江苏省自然科学基金项目(BK20150721, BK20161469).


Deep reinforcement learning via good choice resampling experience replay memory
Author:
Affiliation:

(Institute of Command Information Systems, PLA University of Science and Technology,Nanjing 210007,China)

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    针对深度强化学习算法中经验缓存机制构建问题,提出一种基于TD误差的重抽样优选缓存机制;针对该机制存在的训练集坍塌现象,提出基于排行的分层抽样算法进行改进,并结合该机制对已有的几种典型基于DQN的深度强化学习算法进行改进.通过对Open AI Gym平台上Cart Port学习控制问题的仿真实验对比分析表明,优选机制能够提升训练样本的质量,实现对值函数的有效逼近,具有良好的学习效率和泛化性能,收敛速度和训练性能均有明显提升.

    Abstract:

    In order to build a good experience memory mechanism for deep reinforcement learning, a kind of resample choosing optimal memory cache construction method based on TD error is proposed. Ranking based algorithms on stratified sampling are also developed to avoid the collapse of training data set. Combined with this mechanism, several typical depth based onreinforcement learning algorithms based on DQN(deep Q-networks) are improved. Through the simulation on the control problem of Cart Port on Open AI Gym, experimental results show that the optimization mechanism improves the quality of training samples, and it can effectively enhance the learning value function, and has good learning efficiency and generalization performance. The convergence speed and training performance are improved significantly.

    参考文献
    相似文献
    引证文献
引用本文

陈希亮,曹雷,李晨溪,等.基于重抽样优选缓存经验回放机制的深度强化学习方法[J].控制与决策,2018,33(4):600-606

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:
  • 最后修改日期:
  • 录用日期:
  • 在线发布日期: 2018-04-02
  • 出版日期:
文章二维码