(上海交通大学 自动化研究所, 上海 200030)
递阶强化学习是解决状态空间庞大的复杂系统智能体决策的有效方法。具有离散动态特性的 A GV 调度系统需要实时动态的调度方法, 而具有M axQ 递阶强化学习能力的多智能体通过高效的强化 学习方法和协作, 可以实现A GV 的实时调度。仿真实验证明了这种方法的有效性。
李晓萌, 杨煜普, 许晓鸣.基于递阶强化学习的多智能体AGV 调度系统[J].控制与决策,2002,17(3):292-296