• 2023年第38卷第5期文章目次
    全 选
    显示方式: |
    • 多智能体系统协同控制与优化专刊序言

      2023, 38(5):1152-1158. DOI: 10.13195/j.kzyjc.2023.0433

      摘要 (554) HTML (2184) PDF 414.29 K (1300) 评论 (0) 收藏

      摘要:

    • >综述
    • 基于博弈论的多车智能驾驶交互决策综述

      2023, 38(5):1159-1175. DOI: 10.13195/j.kzyjc.2022.1512

      摘要 (865) HTML (4085) PDF 804.61 K (1682) 评论 (0) 收藏

      摘要:智能驾驶是交通和汽车领域未来发展的重要方向,决策规划作为智能驾驶系统中的关键模块,一直是其重点研究领域之一.当前的研究热点正在从单车智能驾驶决策向混行交通场景下的多车智能驾驶决策进行拓展,因此,需要在复杂动态场景和多并行任务下生成符合车辆动力学且不与道路边界和其他交通参与者发生碰撞的高质量轨迹.多车混行驾驶是对道路时空资源的竞争性使用,博弈论可为多车交互决策提供重要的理论与技术手段.对此,应用博弈论方法进行智能驾驶决策研究的综述,基于滚动时域、微分博弈和马尔科夫博弈这3类常用的博弈模型,对现有相关研究进行归类总结和分析.首先简要介绍博弈论基础知识;其次,总结常见的智能驾驶场景并分析各场景下交互决策的核心问题;然后,通过3种不同的博弈模型对多车交互决策进行建模,分别介绍它们的求解算法和思路及相关的研究工作;最后,介绍相关的仿真实验和测试方法,同时也对未来的技术发展和挑战给出见解.

    • 天空地一体化网络环境下多运动体系统跨域协同控制与智能决策综述

      2023, 38(5):1176-1199. DOI: 10.13195/j.kzyjc.2022.1774

      摘要 (689) HTML (2133) PDF 2.07 M (1534) 评论 (0) 收藏

      摘要:近年来,基于云控制技术的天空地异构多运动体系统的研究得到学界的关注,天空地跨域多运动体通过互联、互通、互操作,能够实现信息共享与融合、行为交互与协调、任务协同与合作,促进系统功能互补、效能倍增,从而提升面对复杂环境和任务的应对能力.鉴于此,详细阐述天空地异构多运动体系统的跨域协同控制与智能决策研究进展.首先,介绍天空地一体化网络环境下多运动体系统的内涵和云框架下的天空地移动云构成要素,以及代表性的研究进展;然后,从智能云控制和决策角度阐述天空地异构多运动体系统的研究现状,给出云控制与决策框架下的解决方案.最后,从集群管理、跨域协同感知、控制与决策等方面提出天空地异构多运动体系统需要解决的关键问题和技术,并对未来可能的研究方向进行讨论与展望.

    • 强化学习与自适应动态规划:从基础理论到多智能体系统中的应用进展综述

      2023, 38(5):1200-1230. DOI: 10.13195/j.kzyjc.2022.1933

      摘要 (673) HTML (4110) PDF 602.50 K (1642) 评论 (0) 收藏

      摘要:近年来,强化学习与自适应动态规划算法的迅猛发展及其在一系列挑战性问题(如大规模多智能体系统优化决策和最优协调控制问题)中的成功应用,使其逐渐成为人工智能、系统与控制和应用数学等领域的研究热点.鉴于此,首先简要介绍强化学习和自适应动态规划算法的基础知识和核心思想,在此基础上综述两{类

    • >多智能体系统协同控制理论
    • 基于轻量化深度学习网络的工业环境小目标缺陷检测

      2023, 38(5):1231-1238. DOI: 10.13195/j.kzyjc.2022.1893

      摘要 (425) HTML (1139) PDF 975.91 K (929) 评论 (0) 收藏

      摘要:工业环境下表面缺陷检测是质量管理的重要一环,具有重要的研究价值.通用检测网络(如YOLOv4)已被证实在多种数据集检测方面是有效的,但是在工业环境的缺陷检测仍需要解决两个问题:一是缺陷实例在表面占比过小,属于典型的小目标检测问题;二是通用检测网络结构复杂,很难部署在移动设备上.针对上述问题,提出一种基于轻量化深度学习网络的工业环境小目标缺陷检测方法.应用GhostNet替代YOLOv4主干特征提取网络,提高网络特征提取能力及降低算法复杂度,并通过改进式PANet结构增加YOLO预测头中高维特征图比例以实现更好的性能.以发动机金属表面缺陷检测为例进行实验分析,结果表明该模型在检测精度(mAP)提升5.83%的同时将网络模型参数量降低83.5%,检测速度提升2倍,同时满足缺陷检测的精度和实时性要求.

    • 带有执行器故障的多水面船固定时间分布式滑模协同控制

      2023, 38(5):1239-1248. DOI: 10.13195/j.kzyjc.2022.0747

      摘要 (294) HTML (648) PDF 1.65 M (662) 评论 (0) 收藏

      摘要:针对未知环境干扰、未知执行器故障等多水面船协同控制问题,提出一种带有执行器故障的多水面船固定时间分布式滑模协同控制方法,可保证协同控制系统的全局固定时间的稳定性.首先,设计一种固定时间干扰观测器,用于估计集总扰动(包括未知环境扰动和未知执行器故障);其次,引入固定时间非奇异快速终端滑模面,可有效地消除系统的奇异性,改善系统的抖振;然后,提出一种基于固定时间非奇异快速终端滑模面和固定时间干扰观测器的分布式容错控制器,使得收敛时间上界与系统初始状态无关;最后,通过仿真实验验证所提出控制律的有效性.

    • 输出死区下的随机多智能体系统一致性饱和控制

      2023, 38(5):1249-1257. DOI: 10.13195/j.kzyjc.2022.0296

      摘要 (241) HTML (612) PDF 934.14 K (701) 评论 (0) 收藏

      摘要:针对一类存在输入饱和和输出死区现象的非严格反馈非线性随机多智能体系统,提出一种自适应神经网络一致性饱和控制算法.首先,为了解决非对称输入饱和问题,构造一类与所考虑智能体相同阶次的辅助系统;然后,以反步法和辅助系统作为框架,利用神经网络处理系统中的未知非线性函数,并结合Nussbaum函数解决输出死区问题;接着,利用动态面控制技术避免“计算爆炸”问题;然后,基于李雅普诺夫稳定性理论验证所提出的控制算法能够保证闭环系统全部信号依概率半全局一致最终有界;最后,通过数值仿真和实例仿真的结果验证所提出控制算法的有效性.

    • 基于事件触发和状态翻转的布尔控制网络输出跟踪

      2023, 38(5):1258-1266. DOI: 10.13195/j.kzyjc.2022.0462

      摘要 (211) HTML (778) PDF 465.76 K (560) 评论 (0) 收藏

      摘要:利用矩阵半张量积研究事件触发和翻转控制共同作用下布尔控制网络的输出跟踪问题.首先,基于布尔控制网络代数状态空间表示,构造增广系统将输出跟踪问题转化为状态集镇定问题;其次,得到布尔控制网络在两种控制下输出跟踪问题有解的充要条件,并在满足该条件时提出一种基于最小翻转节点集时间最优控制设计方法,进一步给出有限时间内寻找翻转节点集的计算过程;最后,给出一个算例说明结果的可行性.

    • 部分可观测下基于RGMAAC算法的多智能体协同

      2023, 38(5):1267-1277. DOI: 10.13195/j.kzyjc.2022.0422

      摘要 (227) HTML (1556) PDF 2.15 M (615) 评论 (0) 收藏

      摘要:多智能体深度强化学习(MADRL)将深度强化学习的思想和算法应用到多智能体系统的学习和控制中,是开发具有群智能体的多智能体系统的重要方法.现有的MADRL研究主要基于环境完全可观测或通信资源不受限的假设展开算法设计,然而部分可观测性是多智能体系统实际应用中客观存在的问题,例如智能体的观测范围通常是有限的,可观测的范围外不包括完整的环境信息,从而对多智能体间协同造成困难.鉴于此,针对实际场景中的部分可观测问题,基于集中式训练分布式执行的范式,将深度强化学习算法Actor-Critic扩展到多智能体系统,并增加智能体间的通信信道和门控机制,提出recurrent gated multi-agent Actor-Critic算法(RGMAAC).智能体可以基于历史动作观测记忆序列进行高效的通信交流,最终利用局部观测、历史观测记忆序列以及通过通信信道显式地由其他智能体共享的观察进行行为决策;同时,基于多智能体粒子环境设计多智能体同步且快速到达目标点任务,并分别设计2种奖励值函数和任务场景.实验结果表明,当任务场景中明确出现部分可观测问题时, RGMAAC算法训练后的智能体具有很好的表现,在稳定性方面优于基线算法.

    • 基于事件触发的非线性多智能体系统的固定时间分群一致性

      2023, 38(5):1278-1285. DOI: 10.13195/j.kzyjc.2022.0406

      摘要 (246) HTML (712) PDF 615.99 K (669) 评论 (0) 收藏

      摘要:结合事件触发控制方法研究非线性多智能体系统的固定时间分群一致性问题.提出一种非线性分布式事件触发分群一致性控制协议,并给出状态信息触发控制器更新的条件.该控制协议不受入度平衡条件限制,且只需自身状态信息与邻居智能体进行通信即可在固定时间内快速实现分群一致性.系统收敛时间与智能体的初始状态无关,可有效降低系统控制器更新频率和系统的资源消耗.结合代数图论、矩阵分析及Lyapunov稳定性理论,证明在所提出协议作用下,多智能体系统在固定时间内能够实现分群一致性,且不存在Zeno行为.最后,通过仿真实例检验了理论结果的可行性.

    • 欠驱动无人船非奇异固定时间鲁棒包容控制

      2023, 38(5):1286-1294. DOI: 10.13195/j.kzyjc.2022.1038

      摘要 (217) HTML (725) PDF 496.47 K (740) 评论 (0) 收藏

      摘要:针对外界干扰下的欠驱动无人船包容控制问题,提出一种新型非奇异固定时间滑模控制策略.整个控制器设计过程分为运动学回路设计和动力学回路设计.在运动学回路设计中,利用图论知识和固定时间稳定性理论设计非奇异固定时间分布式虚拟控制律,使得所有跟随船在固定时间内收敛于领导船张成的凸包内;在动力学回路设计中,为实现对虚拟控制律的跟踪控制,利用固定时间滑模控制法设计鲁棒包容控制律.最后,证明系统跟踪误差在固定时间收敛于平衡点,且与船舶的初始状态无关.仿真结果验证了所提出控制策略的有效性.

    • 网络攻击下多智能体系统动态事件触发一致性

      2023, 38(5):1295-1302. DOI: 10.13195/j.kzyjc.2022.0725

      摘要 (330) HTML (762) PDF 983.85 K (772) 评论 (0) 收藏

      摘要:研究网络攻击下一般线性多智能体系统的动态事件触发一致性问题.考虑多智能体系统在受到网络攻击后,被攻击节点的状态会改变,导致与其相应的连接无法工作,设计修复策略恢复被攻击节点及其相应的连接,给出网络攻击下分布式事件触发控制协议.在静态事件触发机制基础上,通过引入动态阈值参数,提出动态事件触发机制.进一步,利用图论、线性矩阵不等式和李雅普诺夫函数方法,给出网络攻击下实现多智能体系统一致性的充分条件,并证明在所提出的动态事件触发条件下,能够有效避免芝诺行为.最后,通过仿真例子来验证理论结果的有效性.

    • 基于学习的线性多智能体系统弹性最优协同容错控制

      2023, 38(5):1303-1311. DOI: 10.13195/j.kzyjc.2022.1373

      摘要 (235) HTML (750) PDF 789.98 K (676) 评论 (0) 收藏

      摘要:针对一类线性多智能体系统,研究其在网络间歇性拒绝服务攻击下的最优同步控制问题.首先,在时变非对称通讯网络拓扑结构下,提出一种弹性最优协同容错控制策略,并优化多智能体的合作二次性能指标,然后证明全局跟踪误差在出现执行器故障和网络攻击时仍然渐进收敛.进一步,当考虑多智能体子系统模型参数未知,同时系统发生执行器故障的情况下,提出利用局部系统状态和输入信息的自学习迭代算法求解代数Riccati方程,计算子系统的反馈控制器增益,实现弹性协同容错控制目标.最后,通过Chua电路网络仿真算例验证所提出的控制方法的有效性.

    • 基于神经网络逼近的异构多智能体系统二分拟一致性

      2023, 38(5):1312-1318. DOI: 10.13195/j.kzyjc.2022.0611

      摘要 (196) HTML (846) PDF 1.11 M (601) 评论 (0) 收藏

      摘要:研究一类具有未知动力学的二阶异构非线性多智能体系统二分拟一致性问题.针对二阶多智能体系统中未知的非线性动态,基于神经网络逼近理论设计一类自适应控制协议,以保证所有智能体最终收敛到有界区域内.借助Lyapunov稳定性理论和不等式技巧得到异构多智能体系统实现领导-跟随二分拟一致性的充分性条件,并给出一致性误差的上界.最后通过数值仿真验证了理论结果的有效性.

    • 基于自调节有限时间预设性能函数的多智能体系统动态面状态约束量化控制

      2023, 38(5):1319-1326. DOI: 10.13195/j.kzyjc.2022.1219

      摘要 (263) HTML (589) PDF 719.64 K (667) 评论 (0) 收藏

      摘要:针对一类非线性多智能体系统,构建一种基于自调节有限时间预设性能函数的动态面状态约束量化控制策略.所提出控制方法的主要特点为:1)将自调节有限时间预设性能函数与屏障Lyapunov函数相结合对多智能体系统的状态进行约束,使得构建出的约束函数能够根据系统当前跟踪误差自行调节自身参数而无需人为干预;2)通过使用动态面控制方法,避免传统反步控制方法的“微分爆炸”现象,并设计滤波补偿函数消除因引入动态面方法而产生的滤波误差和信号振荡的问题;3)使用RBF神经网络逼近系统中未知非线性的同时,引入量化器以减轻系统的通讯负担,且所构建量化控制方法仅需量化器具有扇形有界性质即可.稳定性分析表明,闭环系统内所有信号均为半全局一致有界的.仿真环节验证了所提出控制策略的有效性.

    • >群体智能协同优化理论
    • 一种基于改进冲突搜索的多机器人路径规划算法

      2023, 38(5):1327-1335. DOI: 10.13195/j.kzyjc.2022.0729

      摘要 (367) HTML (1315) PDF 557.74 K (1260) 评论 (0) 收藏

      摘要:针对智能仓储环境下多载位自主移动机器人集群拣选-配送路径规划问题,提出一种改进型基于冲突搜索的多智能体路径规划算法.在模型方面,采用多载位机器人替代KIVA机器人,建立以最小化拣选-配送时间以及无效路径比为目标的数学规划模型.在算法方面,首先,提出一种基于优先级规则的多智能体冲突消解加速策略;然后,设计基于动态规划的单机器人拣选序列优化算法;最后,设计考虑转向惩罚的增强A*算法搜索机器人最优路径.实验结果表明:所提出模型与KIVA系统相比有较大优越性;所提出算法能够有效缩短拣选-配送时间、减少无效路径时间.

    • 二阶智能体的分布式非光滑资源分配算法

      2023, 38(5):1336-1344. DOI: 10.13195/j.kzyjc.2022.1262

      摘要 (285) HTML (610) PDF 590.63 K (659) 评论 (0) 收藏

      摘要:分布式资源分配问题旨在满足局部约束下完成一定量资源分配的同时使全局成本函数最小.首先,针对无向连通网络下二阶积分器型线性智能体系统,结合Karush-Kuhn-Tucker条件,提出一种初始值任意的分布式优化算法,其中,全局等式约束对偶变量实现比例积分控制,局部凸函数不等式约束对偶变量实现自动获取.当全局成本函数为非光滑凸函数时,借助集值LaSalle不变性原理理论证明所提出算法渐近收敛到全局最优解.其次,将所提出算法推广至无向连通网络下参数未知的Euler-Lagrange多智能体系统.当全局成本函数为非光滑凸函数时,借助Barbalat引理理论证明所提出算法渐近收敛到全局最优解.最后,通过数值仿真验证了所提算法的有效性.

    • 二阶多智能体系统包含控制的时滞范围优化

      2023, 38(5):1345-1351. DOI: 10.13195/j.kzyjc.2022.0604

      摘要 (175) HTML (649) PDF 551.97 K (666) 评论 (0) 收藏

      摘要:研究具有未知时滞的二阶多智能体系统的鲁棒包含控制问题,考虑智能体之间同时具有通信延时和自延时,分别在无向拓扑和有向拓扑通信下,获得多智能体系统保持鲁棒包含控制所能允许的最大时滞范围.借助函数的凸分析和非线性规划方法解析地获得了无向图下包含控制所允许的最大时滞范围.对于有向图,通过遗传算法求解非光滑的优化问题获得最大时滞范围的数值解,同时结果可退化为领导-跟随控制所能获得的最大时滞范围.最后,通过仿真例子验证所提出理论和算法的有效性.

    • 基于自组织劳动分工的边云协同任务调度与资源缓存算法

      2023, 38(5):1352-1362. DOI: 10.13195/j.kzyjc.2022.0907

      摘要 (195) HTML (615) PDF 1.69 M (631) 评论 (0) 收藏

      摘要:针对边缘计算环境中,边缘设备的计算和存储资源有限的问题,探讨高效的边云协同任务调度和资源缓存策略,研究自组织劳动分工群智能算法模型机理,并以此为基础,提出基于蜂群劳动分工“激发-抑制”模型的边云协同任务调度算法(edge cloud collaborative task scheduling algorithm based on bee colony labor division \textquoteleft activator-inhibitor' model,ECCTS-BCLDAI)和基于蚁群劳动分工“刺激-响应”模型的边云协同资源缓存算法(edge cloud collaborative resource caching algorithm based on ant colony labor division \textquoteleft stimulus-response' model, ECCRC-ACLDSR).仿真实验结果表明:所提出的ECCTS-BCLDAI任务调度算法在降低平均任务执行时长、减少边云协同费用上相较于传统算法有更好的表现;所提出的ECCRC-ACLDSR资源缓存算法在降低任务平均时长、优化网络带宽占用率、减少边云协同费用上相较于传统算法更具有优越性.

    • 通信随机时滞条件下基于分布式模型预测的AUV编队控制

      2023, 38(5):1363-1372. DOI: 10.13195/j.kzyjc.2022.0451

      摘要 (234) HTML (728) PDF 1.95 M (724) 评论 (0) 收藏

      摘要:考虑水声通信随机时滞条件下AUV编队协同控制问题,提出一种基于分布式模型预测的AUV编队控制方法.首先,通过所设计的随机时滞通信同步策略,将异步状态信息转换为同步状态信息;然后,结合虚拟轨迹、状态预测、控制约束以及编队内AUV状态信息描述协同编队代价函数,将其引入局部滚动时域优化,实现编队控制目标,并利用李雅普诺夫理论验证编队控制器的稳定性;最后,将所提出方法与现有编队控制方法进行对比仿真,仿真结果验证了其有效性.

    • 面向突发故障的分布式多无人机任务重规划方法

      2023, 38(5):1373-1385. DOI: 10.13195/j.kzyjc.2022.1022

      摘要 (279) HTML (721) PDF 2.55 M (799) 评论 (0) 收藏

      摘要:针对分布式多无人机系统执行任务时发生故障的情况,提出一种面向故障的任务重规划方法.首先,依据分布式架构,考虑通信延迟约束,建立多无人机系统遭遇故障时的局部任务重规划问题模型,设计故障无人机、健康无人机的重规划框架.依此框架,考虑无人机调度时所需的空间、时间资源,根据故障后的无人机通信拓扑,制定子系统划分规则;然后,根据子系统内在线无人机与待执行任务间的映射关系,提出基于收益动态调整规则和一致性协调规则的拍卖算法,实现针对不同情况的任务重分配;最后,考虑任务重分配与航迹重规划间的耦合关系,在任务重分配阶段引入RRT*算法预估的航迹代价,使得分配结果更合理.仿真结果表明,在考虑实际环境中无人机会发生故障的情况,该方法能够有效完成任务重规划.

    • 有界扰动下异质车辆队列分布式鲁棒经济预测控制

      2023, 38(5):1386-1394. DOI: 10.13195/j.kzyjc.2022.1351

      摘要 (206) HTML (1575) PDF 524.89 K (695) 评论 (0) 收藏

      摘要:针对有界扰动下异质车辆队列节能与稳定分布式协同控制问题,提出一种新的分布式鲁棒经济模型预测控制(economic model predictive control,EMPC)策略.首先采用不确定误差模型描述有界扰动下异质车辆队列纵向行驶动态特性,再应用tube思想对系统约束进行紧缩设计,补偿有界扰动对系统造成的不确定性.其次,采用局部车辆行驶能耗模型描述车辆队列分布式经济性能优化的有限时域最优控制问题,并利用传统跟踪性能指标设计附加稳定收缩约束函数.进一步,基于系统收缩原理,建立车辆队列闭环系统关于有界扰动的输入-状态稳定性条件.最后,通过与车辆队列传统分布式鲁棒模型预测控制策略的数值仿真对比结果验证了所提出策略的有效性和优越性.

    • 基于多智能体深度强化学习的船舶协同避碰策略

      2023, 38(5):1395-1402. DOI: 10.13195/j.kzyjc.2022.1159

      摘要 (543) HTML (1235) PDF 1.74 M (1222) 评论 (0) 收藏

      摘要:船舶避碰是智能航行中首要解决的问题,多船会遇局面下,只有相互协作,共同规划避碰策略,才能有效降低碰撞风险.为使船舶智能避碰策略具有协同性、安全性和实用性,提出一种基于多智能体深度强化学习的船舶协同避碰决策方法.首先,研究船舶会遇局面辨识方法,设计满足《国际海上避碰规则》的多船避碰策略.其次,研究多船舶智能体合作方式,构建多船舶智能体协同避碰决策模型:利用注意力推理方法提取有助于避碰决策的关键数据;设计记忆驱动的经验学习方法,有效积累交互经验;引入噪音网络和多头注意力机制,增强船舶智能体决策探索能力.最后,分别在实验地图与真实海图上,对多船会遇场景进行仿真实验.结果表明,在协同性和安全性方面,相较于多个对比方法,所提出的避碰策略均能获得具有竞争力的结果,且满足实用性要求,从而为提高船舶智能航行水平和保障航行安全提供一种新的解决方案.

    • 揭示生物集群系统内部信息耦合机制的深度网络模型

      2023, 38(5):1403-1411. DOI: 10.13195/j.kzyjc.2022.1079

      摘要 (174) HTML (704) PDF 1.41 M (624) 评论 (0) 收藏

      摘要:生物集群在自然界中广泛存在,如鱼群、鸟群、兽群等,这些集群通过内部的信息耦合能涌现出有序的协同行为.但是,集群内部交互复杂、情况多变,导致微观层面的行为分析还缺乏行之有效的标准工具.对此,以鱼群运动数据为研究对象,借助图注意力网络对鱼群中的单体行为进行自动化建模,目的是提炼出适于复杂系统分析的通用网络工具.首先将单体的感知信息映射到高维状态空间,然后生成软注意力数值以表征单体之间的交互强度,再对所生成的软注意力数值规范化,所得规范结果既可作为多邻居信息耦合的关键指标,又可通过解码器将所抽取的注意力信息稀疏解耦为运动决策.实验结果表明:所生成的注意力数值不但能揭示群体内部的信息耦合关系,还能进一步对隐藏交互强度可视化,从而为鱼群的视觉交互理论提供新的科学证据.所提出分析工具拥有信息耦合可解释、交互强度可显现、系统规模可缩放、状态偏移可泛化等优良特性,有望发展成为复杂系统解耦分析的标准范式,在社会行为分析、机器人集群控制以及智能交通系统安全性评价等方面具有潜在的应用价值.

    • 事件触发间歇通讯下多智能体系统的固定时间分布式优化

      2023, 38(5):1412-1419. DOI: 10.13195/j.kzyjc.2022.0369

      摘要 (243) HTML (585) PDF 1.15 M (708) 评论 (0) 收藏

      摘要:针对多智能体系统的分布式优化问题,提出一种新的事件触发非周期间歇通讯控制方法,并研究该控制方法下系统的固定时间收敛性.首先,考虑一类更一般的分布式优化问题,其优化目标是局部目标函数的凸组合.其次,为了减少控制过程中智能体之间的通讯花费,设计一种新的事件触发间歇控制协议.通过引入两个辅助动力系统,并运用固定时间稳定性理论、代数图论和不等式放缩技巧,证明智能体的状态在固定时间内达到一致并渐近收敛到优化问题的最优解.结合事件触发条件以及间歇控制机制,排除控制过程中的Zeno行为.最后,通过数值仿真验证所得结论的有效性.

    • 基于主动风险防御机制的多机器人强化学习协同对抗策略

      2023, 38(5):1420-1429. DOI: 10.13195/j.kzyjc.2022.1375

      摘要 (234) HTML (1212) PDF 3.68 M (762) 评论 (0) 收藏

      摘要:深度强化学习因其在多机器人系统中的高效表现,已经成为多机器人领域的研究热点.然而,当遭遇连续时变、风险未知的非结构场景时,传统方法暴露出风险防御能力差、系统安全性能脆弱的问题,未知风险将以对抗攻击的形式给多机器人的状态空间带来非线性入侵.针对这一问题,提出一种基于主动风险防御机制的多机器人强化学习方法(APMARL).首先,基于局部可观察马尔可夫博弈模型,建立多机记忆池共享的风险判别机制,通过构建风险状态指数提前预测当前行为的安全性,并根据风险预测结果自适应执行与之匹配的风险处理模式;特别地,针对有风险侵入的非安全状态,提出基于增强型注意力机制的Actor-Critic主动防御网络架构,实现对重点信息的分级增强和危险信息的有效防御.最后,通过广泛的多机协作对抗任务实验表明,具有主动风险防御机制的强化学习策略可以有效降低敌对信息的入侵风险,提高多机器人协同对抗任务的执行效率,增强策略的稳定性和安全性.

    • >应用
    • 基于一致性理论的多臂航天器协同控制方法

      2023, 38(5):1430-1437. DOI: 10.13195/j.kzyjc.2022.1322

      摘要 (247) HTML (556) PDF 1.38 M (676) 评论 (0) 收藏

      摘要:针对空间中自由漂浮多臂航天器的多臂协同问题,提出一种基于一致性理论的协同控制方法,采用有向通信拓扑与广义雅克比矩阵结合的方式,实现自由漂浮航天器多机械臂间的协同.首先,建立多机械臂间的通信关系有向图,确定“领导-跟随”体系下的主臂与从臂;其次,基于有向通信拓扑,进行主从臂末端运动规划,实现主臂运动向从臂的传递;再次,利用广义雅克比矩阵在动量守恒条件下进行末端运动向关节运动的映射,并基于一致性理论设计关节空间内的多臂协同运动控制器;最后,基于李雅普诺夫稳定性理论证明控制器的稳定性,并分析位置控制误差.仿真结果表明,所提出的控制方法可以实现多臂航天器系统空间操控任务中各机械臂的聚集、跟踪与位置协同.

    • 基于多智能体强化学习的无人艇协同围捕方法

      2023, 38(5):1438-1447. DOI: 10.13195/j.kzyjc.2022.0564

      摘要 (504) HTML (1633) PDF 3.37 M (1034) 评论 (0) 收藏

      摘要:针对多无人艇对海上逃逸目标的围捕问题,提出一种基于多智能体强化学习的围捕算法.首先,以无人艇协同进攻为背景建立无边界围捕问题的环境和运动学模型,并针对快速性和合围性的需求给出围捕成功的判定条件;然后,基于多智能体近端策略优化(MAPPO)算法建立马尔可夫决策过程框架,结合围捕任务需求分别设计兼具伸缩性和排列不变性的状态空间,围捕距离、方位解耦的动作空间,捕获奖励与步长奖励相结合的奖励函数;最后,采用集中式训练、分布式执行的架构完成对围捕策略的训练,训练时采用课程式学习训练技巧,无人艇群共享相同的策略并独立执行动作.仿真实验表明,在无人艇起始数量不同的测试条件下,所提出方法在围捕成功率和时效性上相较于其他算法更具优势.此外,当无人艇节点损毁时,剩余无人艇仍然具备继续执行围捕任务的能力,所提出方法鲁棒性强,具有在真实环境中部署应用的潜力.

    • 重载列车多智能体模型的鲁棒一致性控制方法

      2023, 38(5):1448-1456. DOI: 10.13195/j.kzyjc.2022.0405

      摘要 (242) HTML (815) PDF 727.12 K (805) 评论 (0) 收藏

      摘要:重载列车全长数公里,其运行过程是复杂的动力学系统.重载列车自动驾驶的关键核心技术是跟踪给定的速度曲线.以重载列车智能货车方案为基础,通过分析列车运行动力学过程,建立重载列车多智能体模型;考虑列车运行时外界的未知干扰,同时保证车厢间处于安全距离,提出一种重载列车复合一致性控制器:用相邻车厢单元的速度等信息构建一致性算法并引入滑模控制加快系统速度一致性收敛;列车不同车厢受到干扰视为未知扰动,且随着滑模增益增加会使系统抖动较大、鲁棒性削弱,所以设计观测器估计扰动并补偿至控制器保证系统收敛并提高抗干扰性;引入人工势函数确保相邻车厢单元间距处于安全范围内,减小纵向冲动.采用Matlab软件进行仿真,跟踪给定速度曲线,并用多种干扰来模拟未知因素对列车的影响,与不加观测器的控制器效果进行对比.仿真结果表明:该复合一致性控制器能够较好跟踪设定速度曲线,速度误差保持在$ \pm 0.4{km

    • 基于深度强化学习的多潜器编队控制算法设计

      2023, 38(5):1457-1463. DOI: 10.13195/j.kzyjc.2022.1424

      摘要 (307) HTML (1054) PDF 8.40 M (1157) 评论 (0) 收藏

      摘要:考虑水下未知信道与不确定模型参数,提出基于深度强化学习的多潜器编队控制算法.首先,提出基于环境采样数据的最小二乘估计器,用于预测在衰落环境下的未知信道;其次,根据信道预测估计器得出的信噪比(SNR),建立通信有效性与编队稳定性的联合优化问题,并给出基于深度强化学习-深度确定性策略梯度算法(DDPG)的编队控制算法;最后,通过仿真与实验结果验证所提出算法的有效性,参考仿真结果并相比于直接编队控制,考虑通信有效性的情况下所提出算法提升了13.5%的通信性能.

    • 基于群智能-一致性理论的无人机编队全过程飞行航迹规划方法

      2023, 38(5):1464-1472. DOI: 10.13195/j.kzyjc.2022.0831

      摘要 (327) HTML (841) PDF 2.28 M (955) 评论 (0) 收藏

      摘要:针对无人机编队执行任务全过程飞行规划问题,提出一种基于多步粒子群优化的无人机编队航迹规划算法.首先,对无人机和执行任务策略进行建模,将编队执行任务全过程划分为编队成形、执行任务、返航、解散和无人机降落5个阶段,设计不同阶段的飞行策略;其次,针对不同的终端约束条件,设计多类多层优化指标,提出多步粒子群算法,并引入模型预测控制滚动优化航路点,得到适用于不同阶段的能严格满足约束条件的航路规划方法;然后,建立旋转坐标系,将航路点信息转换为编队控制律中的理想航向和高度信息,得到能通过航路点的编队控制算法;最后,利用编队控制算法去执行航路规划方法给出的航路点,生成航迹,得到编队航迹规划算法.仿真结果表明,所提规划方法比传统方法更适用于编队飞行,能为编队规划执行任务全过程的平滑航迹,具有良好的通用性.

年第卷第

关注官微服务更及时

刊期浏览
本期排行

下载排行

摘要点击排行

引用排行