摘要:复杂空中博弈场景同时面临两类核心挑战: 1)在线交互采样效率低, 且高风险试错行为易导致严重后果; 2)离线数据稀缺且覆盖有限, 策略对分布外状态的泛化能力不足. 针对这两类问题, 提出一种基于风险约束和保守值函数学习的离线博弈算法CQL-Safe, 其中风险被定义为智能体在博弈对抗过程中遭受损毁或被对手击落的概率及其相关安全威胁指标. 首先, 设计一种融合示教学习与扩散模型的数据集构建方法, 能够有效缓解离线强化学习数据稀缺问题; 然后, 设计多维风险评估函数量化风险因素, 并将其嵌入保守值函数学习框架, 抑制分布外动作的过高估计; 最后, 引入拉格朗日乘子机制动态调节风险约束强度, 以实现奖励最大化与安全性保障间的自适应平衡. 所提出算法在多类空中博弈场景下具有较高的训练效率和显著的性能优势, 能够在保障智能体安全的同时大幅提升策略的泛化性和有效性.