面向智能空中博弈的风险约束离线强化学习算法

doi:10.13195/j.kzyjc.2025.0850

首页 > 过刊浏览>2026年第41卷第6期 >1665-1675. DOI:10.13195/j.kzyjc.2025.0850

面向智能空中博弈的风险约束离线强化学习算法
DOI:
                        10.13195/j.kzyjc.2025.0850
                    
CSTR:
                        
                    
作者:
                        
                        
                    
作者单位:
作者简介:
通讯作者:
中图分类号:TP18
基金项目:国家自然科学基金项目(62293510, 62293513)；天津市自然科学基金项目(22JCZDJC00810).

Risk-constrained offline reinforcement learning for intelligent aerial combat

Author:

Affiliation:

Fund Project:

摘要

图/表

访问统计

参考文献

相似文献

引证文献

资源附件

文章评论

摘要:

复杂空中博弈场景同时面临两类核心挑战: 1)在线交互采样效率低, 且高风险试错行为易导致严重后果; 2)离线数据稀缺且覆盖有限, 策略对分布外状态的泛化能力不足. 针对这两类问题, 提出一种基于风险约束和保守值函数学习的离线博弈算法CQL-Safe, 其中风险被定义为智能体在博弈对抗过程中遭受损毁或被对手击落的概率及其相关安全威胁指标. 首先, 设计一种融合示教学习与扩散模型的数据集构建方法, 能够有效缓解离线强化学习数据稀缺问题; 然后, 设计多维风险评估函数量化风险因素, 并将其嵌入保守值函数学习框架, 抑制分布外动作的过高估计; 最后, 引入拉格朗日乘子机制动态调节风险约束强度, 以实现奖励最大化与安全性保障间的自适应平衡. 所提出算法在多类空中博弈场景下具有较高的训练效率和显著的性能优势, 能够在保障智能体安全的同时大幅提升策略的泛化性和有效性.

Abstract:

Complex aerial combat scenarios face two major challenges: 1) low online sampling efficiency with potentially catastrophic high-risk exploration; 2) scarce offline data with limited coverage that undermines generalization to out-of-distribution states. To address these challenges, we propose CQL-Safe, a risk-constrained offline algorithm built on conservative value function learning, where risk is defined as the probability of agent damage or shoot-down and related safety-threat metrics. CQL-Safe constructs an augmented offline dataset combining learning from demonstration and diffusion model to alleviate data scarcity, embeds a multi-dimensional risk evaluation function into the conservative value function learning framework to curb overestimation of out-of-distribution actions, and adopts a Lagrangian multiplier to adaptively tune constraint strength, achieving a practical balance between reward maximization and safety. Experiments across diverse aerial combat scenarios demonstrate improved training efficiency and superior performance, substantially enhancing policy effectiveness and generalization while maintaining agent safety.

参考文献

相似文献

引证文献

引用本文

李博文,王臆淞,赵铭慧,等.面向智能空中博弈的风险约束离线强化学习算法[J].控制与决策,2026,41(6):1665-1675

复制

文章指标

点击次数:
下载次数:
HTML阅读次数:
引用次数:

历史

收稿日期:2025-08-18
最后修改日期:
录用日期:
在线发布日期: 2026-05-13
出版日期:

首页

期刊简介

编委会

作者中心

精选专辑

品牌联动

引用本文

相关视频

分享

文章指标

历史

文章二维码