SMDP 基于Actor网络的统一NDP方法

首页 > 过刊浏览>2007年第22卷第2期 >155-159

SMDP 基于Actor网络的统一NDP方法
DOI:
                        
CSTR:
                        
作者:
                        
作者单位:合肥工业大学计算机与信息学院 230009
作者简介:唐昊
通讯作者:
中图分类号:
TP202
基金项目:

Author:

Affiliation:

Fund Project:

摘要

图/表

访问统计

参考文献

相似文献

引证文献

资源附件

文章评论

摘要:

研究半马尔可夫决策过程(SMDP )基于性能势学习和策略逼近的神经元动态规划(NDP)方法.通过SMDP 的一致马尔可夫链的单个样本轨道,给出了折扣和平均准则下统一的性能势TD(λ)学习算法,进行逼近策略评估.利用一个神经元网络逼近结构作为行动器(Actor)表示策略,并根据性能势的学习值给出策略参数改进的两种方法.最后通过数值例子说明了有关算法的有效性.

Abstract:

参考文献

相似文献

引证文献

引用本文

唐昊;陈栋;周雷;吴玉华. SMDP 基于Actor网络的统一NDP方法[J].控制与决策,2007,22(2):155-159

复制

文章指标

点击次数:
下载次数:
HTML阅读次数:
引用次数:

历史

收稿日期:2005-10-23
最后修改日期:2006-01-12
录用日期:
在线发布日期: 2007-02-20
出版日期:

首页

期刊简介

编委会

作者中心

精选专辑

品牌联动

引用本文

相关视频

分享

文章指标

历史

文章二维码