摘要:无人机智能空战是改变未来战争形式的颠覆性技术, 而深度强化学习是实现空战智能决策的重要技术范式. 虽然相关研究近年来取得了巨大进展, 但基于虚拟仿真交互设计的强化学习空战决策模型仍然存在学习效率低、泛化性能差的问题, 难以有效地实现在现实差异条件下的虚实迁移应用. 为增强空战智能决策模型从虚拟仿真环境到真实物理空间的适用性, 提出一种基于域随机化增强EfficientZero算法的近距空战机动智能决策模型设计方法. 该方法通过高效利用自我博弈产生的环境交互数据来习得智能决策能力, 并进一步采用域随机化技术提高模型的鲁棒性能. 仿真实验结果表明, 基于EfficientZero算法得到的智能决策模型可以高效地利用空战对抗样本数据, 避免自我博弈中常见的策略循环问题; 同时, 域随机化增强技术显著提升了强化学习空战智能决策模型的泛化性能, 有效增强了现实差异条件下决策模型的鲁棒性.