SMDP 基于Actor网络的统一NDP方法
DOI:
CSTR:
作者:
作者单位:

合肥工业大学计算机与信息学院 230009

作者简介:

唐昊

通讯作者:

中图分类号:

TP202

基金项目:


Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    研究半马尔可夫决策过程(SMDP )基于性能势学习和策略逼近的神经元动态规划(NDP)方法.通过SMDP 的一致马尔可夫链的单个样本轨道,给出了折扣和平均准则下统一的性能势TD(λ)学习算法,进行逼近策略评估.利用一个神经元网络逼近结构作为行动器(Actor)表示策略,并根据性能势的学习值给出策略参数改进的两种方法.最后通过数值例子说明了有关算法的有效性.

    Abstract:

    参考文献
    相似文献
    引证文献
引用本文

唐昊;陈栋;周雷;吴玉华. SMDP 基于Actor网络的统一NDP方法[J].控制与决策,2007,22(2):155-159

复制
相关视频

分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2005-10-23
  • 最后修改日期:2006-01-12
  • 录用日期:
  • 在线发布日期: 2007-02-20
  • 出版日期:
文章二维码