基于拉普拉斯特征映射的启发式Q学习
CSTR:
作者:
作者单位:

中国矿业大学信息与电气工程学院,江苏徐州221116

作者简介:

朱美强

通讯作者:

中图分类号:

TP181

基金项目:

国家自然科学基金项目(61072094, 61273143); 教育部高等学校博士学科点专项科研基金项目(20110095110011, 20110095110016);中央高校基本科研业务费专项资金项目(2013XK09);江苏省自然科学基金项目(BK20130207);江苏省博士后基金项目(1301029C


Heuristically accelerated Q-learning algorithm based on Laplacian Eigenmap
Author:
Affiliation:

School of Information and Electrical Engineering,China University of Mining and Technology,Xuzhou 221116

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    在基于目标的强化学习任务中, 欧氏距离常作为启发式函数用于策略选择, 其用于状态空间在欧氏空间内不连续的任务效果不理想. 针对此问题, 引入流形学习中计算复杂度较低的拉普拉斯特征映射法, 提出一种基于谱图理论的启发式策略选择方法. 所提出的方法适用于状态空间在某个内在维数易于估计的流形上连续, 且相邻状态间的连接关系为无向图的任务. 格子世界的仿真结果验证了所提出方法的有效性.

    Abstract:

    As a heuristic function, the Euclidean distance is usually used to select online action in reinforcement learning based on goal position. It is not applied to these tasks whose state spaces are not continuous in Euclidean space. For the problem, the Laplacian Eigenmap whose computational complexity is lower in manifold learning is introduced, then a method of heuristic policy selection based on the spectral graph theory is proposed. The proposed method is suitable for these tasks not only whose state spaces are continuous in some manifold that has a good estimation of intrinsic dimension, but also whose connection relation is expressed by an undirected graph. The simulation results of grid world show the effectiveness of the proposed method.

    参考文献
    相似文献
    引证文献
引用本文

朱美强 李明 程玉虎 张倩 王雪松.基于拉普拉斯特征映射的启发式Q学习[J].控制与决策,2014,29(3):425-430

复制
相关视频

分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2012-11-06
  • 最后修改日期:2013-04-18
  • 录用日期:
  • 在线发布日期: 2014-03-20
  • 出版日期:
文章二维码