求解部分可观测马氏决策过程的强化学习算法
DOI:
CSTR:
作者:
作者单位:

国防科技大学自动化研究所, 湖南长沙410073

作者简介:

通讯作者:

中图分类号:

基金项目:


Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    针对部分可观测马氏决策过程(POMDP) 中, 由于感知混淆现象的存在, 利用Sarsa 等算法得到的无记忆策
    略可能发生振荡的现象, 研究了一种基于记忆的强化学习算法——CPnSarsa (K) 学习算法来解决该问题. 它通过重新
    定义状态,A gent 结合观测历史来识别混淆状态. 将CPnSarsa (K) 算法应用到一些典型的POMDP, 最后得到的是最
    优或近似最优策略. 与以往算法相比, 该算法的收敛速度有了很大提高.

    Abstract:

    参考文献
    相似文献
    引证文献
引用本文

王学宁, 贺汉根, 徐 昕.求解部分可观测马氏决策过程的强化学习算法[J].控制与决策,2004,19(11):1263-1266

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:
  • 最后修改日期:
  • 录用日期:
  • 在线发布日期: 2004-11-20
  • 出版日期:
文章二维码