摘要:在多机智能空中博弈等复杂且高对抗性的场景下, 同时具备精准微操决策能力与高效战术推理能力, 是实现多机紧密协同并夺取制胜优势的关键. 针对现有强化学习方法在多机智能空中博弈过程中面临的策略泛化性差且缺乏高层推理能力的挑战, 提出一种融合大语言模型与深度强化学习的分层决策算法(LRHDF). 首先, 借鉴人类飞行员的决策机制, 构建“大语言模型-强化学习”(大脑-躯干)分层决策架构, 有效提高算法的底层微操决策性能与上层认知推理能力; 其次, 基于大语言模型反思的提示迭代机制, 利用环境反馈作为优化信号, 驱动提示指令的持续自主进化; 最后, 受人类团队协同决策机理启发, 设计序贯协同决策机制, 显式建模多智能体协作模式, 提高多智体间协同效率. 在高保真空中博弈平台下的仿真结果与消融结果表明, 相较于传统强化学习类算法, 所提出算法在多类博弈场景下表现出更强的博弈性能与泛化能力, 为多机空中博弈问题的求解提供了一条可行的技术路径.