摘要:对于部分可观马尔可夫决策过程下的多智能体路径规划任务, 现有研究基于栅格或质点环境, 与真实物理环境有较大差距. 鉴于此, 研究如何在更加接近实际物理约束环境下提升多智能体协同路径规划的效果. 一方面, 在考虑真实物理约束的情况下, 根据执行器饱和以及欠驱动等构建多约束动作空间, 根据距离和位置等搭建多源输入状态空间, 设计抗冗余奖励函数来减小无人车行驶过程中动作冗余; 另一方面, 针对在Gazebo环境下训练难度高、效率低、难收敛等问题, 提出基于预训练-微调方法的多智能体双延迟深度确定性策略梯度算法, 利用预训练使得模型获得一个更优的初始值, 提升训练效率, 同时, 利用微调对预训练先验模型进行针对性优化, 增强模型训练过程抵抗环境非平稳性能力. 在Gazebo仿真环境中, 通过与PMATD3、MATD3、MADDPG等算法对比, 验证所提出算法的有效性.