摘要:深度强化学习已成为无人集群在复杂未知环境中实现自主决策的关键技术方案, 但是, 内部不可解释的“黑盒”结构使得人类难以理解、信任和监督智能体的自主决策, 严重阻碍其在高安全需求领域中的应用. 鉴于此, 提出一种具备可解释性的多智能体强化学习方法. 首先, 设计具备可解释性的狄利克雷变分自编码器, 从隐空间中编码匹配物理语义信息的决策依据概率分布; 然后, 使用门控网络线性混合决策依据生成动作决策; 最后, 在多智能体近端策略优化强化学习网络框架下完成可解释自编码器的集成训练. 所提出方法将智能体的决策表征为若干具备物理含义依据的混合概率分布, 使得人类可通过概率密度直观地理解智能体行为, 并可通过调整门控权重直接干预智能体决策. 仿真对比实验验证了所提出方法的决策性能, 所设计的可视化方法展示了智能体决策的可解释性以及人类干预决策的效果.