清华大学自动化系 100084
徐琰恺
TP13
研究离散时间跳变线性二次(JLQ)模型的直接自适应最优控制问题.将强化学习的理论和方法应用于JLQ模型,设计基于Q 函数的策略迭代算法,以优化系统性能.在系统参数以及模态跳变概率未知的情况下,Q 函数对应的参数矩阵,可通过观察给定策略下系统行为,应用递归最小二乘算法在线估计.基于此参数矩阵,可构造出新的策略使得系统性能更优.该算法可收敛到最优策略.
徐琰恺;陈曦.基于强化学习的JLQ模型的直接自适应最优控制[J].控制与决策,2008,23(12):1359-1362