2026, 41(5):1229-1241.
DOI: 10.13195/j.kzyjc.2025.0710
摘要:
针对多动态目标的自主水下航行器集群协同围捕决策与控制问题, 提出一种融合拍卖机制与多智能体深度强化学习的围捕算法. 该方法将围捕任务分解为目标分配和运动控制两个阶段: 首先, 基于最优控制理论中的配点法, 综合考虑围捕态势、最短时间和最低能耗等优化目标, 生成训练数据与竞标值标签, 并利用监督学习训练拍卖神经网络, 实现了自主水下航行器的实时目标分配; 接着, 构建分配后的个体状态空间, 设计多目标围捕奖励函数, 采用多智能体柔性演员-评论家算法, 优化了围捕策略. 高效、自适应的拍卖算法确保了动态复杂环境下的快速目标分配, 多智能体强化学习则提升了群体的协同控制快速响应能力. 最后, 开展不同场景中的围捕实验. 实验结果表明, 所提方法能够显著提高围捕策略的表现效果, 在应对2、3和4个动态目标时, 平均围捕成功率分别为79.04%、89.78%和90.43%, 相较于基线方法, 分别提升了48.41%、54.00%和53.93%, 即所提算法在处理不同规模围捕任务时均具有更好的效果.