基于状态聚类的非参数化近似广义策略迭代增强学习算法
CSTR:
作者:
作者单位:

(南昌大学江西省机器人与焊接自动化重点实验室,南昌330031)

作者简介:

季挺(1982-), 男, 博士, 从事智能机器人、智能控制的研究;张华(1964-), 男, 教授, 博士生导师, 从事智能机器人技术、光纤传感、智能金属结构等研究.

通讯作者:

E-mail: zhanghua@163.com

中图分类号:

TP181

基金项目:

国家863计划项目(SS2013AA041003).


Nonparametric approximation generalized policy iteration reinforcement learning algorithm based on states clustering
Author:
Affiliation:

(Key Lab of Robot & Welding Automation of Jiangxi Province,Nanchang University,Nanchang 330031,China)

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    为解决当前近似策略迭代增强学习算法普遍存在计算量大、基函数不能完全自动构建的问题,提出一种基于状态聚类的非参数化近似广义策略迭代增强学习算法(NPAGPI-SC).该算法利用二级随机采样过程采集样本,利用trial-and-error过程和以样本完全覆盖为目标的估计方法计算逼近器初始参数,利用delta规则和最近邻思想在学习过程中自适应地调整逼近器,利用贪心策略选择应执行的动作.一级倒立摆平衡控制的仿真实验结果验证了所提出算法的有效性和鲁棒性.

    Abstract:

    A nonparametric approximation generalized policy iteration reinforcement learning algorithm based on states clustering(NPAGPI-SC) is proposed to solve the problems such as large calculating quantity and building basis function incompletely automated for the current approximation policy iteration reinforcement learning algorithm. In this algorithm, two stage random sampling process is used to collect samples, the trial-and-error process and the estimation algorithm for covering samples completely are utilized to compute approximator's initial parameters, the delta rule and nearest neighbor method are exploited to adjust the approximator automatically in the learning process, and the greedy strategy is adopted to select an action. The results of simulation on the balancing control of a single inverted pendulum show the effectiveness and robustness of the proposed algorithm.

    参考文献
    相似文献
    引证文献
引用本文

季挺,张华.基于状态聚类的非参数化近似广义策略迭代增强学习算法[J].控制与决策,2017,32(12):2153-2161

复制
相关视频

分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:
  • 最后修改日期:
  • 录用日期:
  • 在线发布日期: 2017-11-15
  • 出版日期:
文章二维码