北京理工大学自动控制系 100081
在基于动态规划的强化学习中, 利用状态集结方法可以减小状态空间的大小, 从而在一定程度 上克服了维数灾的困难, 同时还可以加快学习速度。 但状态集结是一种逼近方法, 由此产生的问题是, 状 态集结后的Q - hat 强化学习收敛所得的最优Q 值函数与集结前相应的最优Q 值函数会有多大的误 差。为此提出了基于最小最大逼近强化学习的误差估计。
吴沧浦,刘念泉.基于最小最大逼近强化学习的误差分析[J].控制与决策,2000,15(2):193-196