摘要:利用多智能体强化学习方法赋能异构多实体系统是分布式人工智能领域的前沿课题. 多机协同突防海上目标任务中异构多编队之间的高效协同是制胜的关键. 由于环境的部分可观导致多智能体强化学习方法的探索效率不高. 为此,本文提出了一种知识耦合分层值分解(HierArchical ValuE Decompostion, HAVED)的多机协同突防行动策略规划方法, 上层围绕多机编队占位规划展开资源调度, 下层围绕编队内任务规划展开目标分配. 对值分解基类算法利用加权算子对联合动作对应的损失进行加权、避免陷入局部最优, 着力提升多机多编队在对抗场景中突防策略的探索与学习效率. 为验证算法的有效性,以多机协同突防海上目标为典型任务场景,设计典型任务想定. 采用集中式训练-分布式执行范式,在墨子兵棋推演平台中进行了仿真实验,验证了该方法的有效性. 并对对抗过程进行了复盘分析,总结出3种典型行动策略. 项目地址:https://gitee.com/jrluo2049/haved.