天空地一体化网络环境下多运动体系统跨域协同控制与智能决策

引用本文 [复制中英文]

夏元清, 谢超, 高寒, 詹玉峰, 孙中奇, 戴荔, 柴润祺, 崔冰, 张元, 翟弟华, 刘坤, 杨辰, 吴楚格, 高润泽. 天空地一体化网络环境下多运动体系统跨域协同控制与智能决策[J]. 控制与决策, 2023, 38(5): 1176-1199.

[复制中文]

XIA Yuan-qing, XIE Chao, GAO Han, ZHAN Yu-feng, SUN Zhong-qi, DAI Li, CHAI Run-qi, CUI Bing, ZHANG Yuan, ZHAI Di-hua, LIU Kun, YANG Chen, WU Chu-ge, GAO Run-ze. Cross-domain cooperative control and intelligent decision-making of multi-dynamic agents in space-air-ground integrated network environment[J]. Control and Decision, 2023, 38(5): 1176-1199. DOI: 10.13195/j.kzyjc.2022.1774.

[复制英文]

基金项目

国家自然科学基金重点国际(地区) 合作研究项目(61720106010)；国家自然科学基金优秀青年项目(62122014)

作者简介

夏元清(1971-), 男, 教授, 博士生导师, 从事云控制技术、天空地海一体化网络跨域协同控制、模型预测控制、自抗扰控制等研究, E-mail: xia_yuanqing@bit.edu.cn;
谢超(1996-), 男, 博士生, 从事空间引力波探测无拖曳控制、无扰切换控制等研究, E-mail: eulerchao@gmail.com;
高寒(1991-), 男, 助理教授, 硕士生导师, 从事航天器姿态控制、故障诊断及容错控制等研究, Email: gaohbit@bit.edu.cn;
詹玉峰(1989-), 男, 助理教授, 硕士生导师, 从事网络系统调度、博弈论、机器学习等研究, E-mail: yu-feng.zhan@bit.edu.cn;
孙中奇(1986-), 男, 助理教授, 博士生导师, 从事无人车辆控制与决策、智慧交通等研究, E-mail: zhongqisun@bit.edu.cn;
戴荔(1988-), 女, 教授, 博士生导师, 从事云控制与决策、模型预测控制等研究, E-mail: li.dai@bit.edu.cn;
柴润褀(1993-), 男, 教授, 博士生导师, 从事无人系统最优控制、飞行器轨迹优化等研究, E-mail: r.chai@bit.edu.cn;
崔冰(1990-), 男, 副教授, 博士生导师, 从事多智能体系统协同控制、航天器姿态控制等研究, E-mail: bing.cui@bit.edu.cn;
张元(1993-), 男, 副教授, 博士生导师, 从事网络化系统的分析、优化、数据驱动等研究, E-mail: zhangyuan14@bit.edu.cn;
翟弟华(1988-), 男, 副教授, 博士生导师, 从事机器人智能感知、控制与应用等研究, E-mail: zhaidih@bit.edu.cn;
刘坤(1982-), 男, 研究员, 博士生导师, 从事信息物理融合系统的安全控制、分布式优化与博弈等研究, E-mail: kunliubit@bit.edu.cn;
杨辰(1988-), 男, 副教授, 博士生导师, 从事航天器动力学控制、不确定性优化等研究, E-mail: yangc@bit.edu.cn;
吴楚格(1993-), 女, 助理教授, 硕士生导师, 从事云边协同调度优化、调度理论及应用等研究, Email: wucg@bit.edu.cn;
高润泽(1996-), 男, 博士生, 从事工作流云控制系统、云边协同控制、数据驱动控制、模型预测控制等研究, E-mail: gaorunze_bit@163.com。

通讯作者

夏元清, E-mail: xia_yuanqing@bit.edu.cn。

文章历史

收稿日期：2022-10-12
接受日期：2022-12-01

Contents Abstract Full text Figures/Tables PDF

天空地一体化网络环境下多运动体系统跨域协同控制与智能决策

夏元清 , 谢超 , 高寒 , 詹玉峰 , 孙中奇 , 戴荔 , 柴润祺 , 崔冰 , 张元 , 翟弟华 , 刘坤 , 杨辰 , 吴楚格 , 高润泽

北京理工大学自动化学院，北京 100081

收稿日期：2022-10-12；接受日期：2022-12-01

基金项目：国家自然科学基金重点国际(地区) 合作研究项目(61720106010)；国家自然科学基金优秀青年项目(62122014)。

作者简介：夏元清(1971-), 男, 教授, 博士生导师, 从事云控制技术、天空地海一体化网络跨域协同控制、模型预测控制、自抗扰控制等研究, E-mail: xia_yuanqing@bit.edu.cn;
谢超(1996-), 男, 博士生, 从事空间引力波探测无拖曳控制、无扰切换控制等研究, E-mail: eulerchao@gmail.com;
高寒(1991-), 男, 助理教授, 硕士生导师, 从事航天器姿态控制、故障诊断及容错控制等研究, Email: gaohbit@bit.edu.cn;
詹玉峰(1989-), 男, 助理教授, 硕士生导师, 从事网络系统调度、博弈论、机器学习等研究, E-mail: yu-feng.zhan@bit.edu.cn;
孙中奇(1986-), 男, 助理教授, 博士生导师, 从事无人车辆控制与决策、智慧交通等研究, E-mail: zhongqisun@bit.edu.cn;
戴荔(1988-), 女, 教授, 博士生导师, 从事云控制与决策、模型预测控制等研究, E-mail: li.dai@bit.edu.cn;
柴润褀(1993-), 男, 教授, 博士生导师, 从事无人系统最优控制、飞行器轨迹优化等研究, E-mail: r.chai@bit.edu.cn;
崔冰(1990-), 男, 副教授, 博士生导师, 从事多智能体系统协同控制、航天器姿态控制等研究, E-mail: bing.cui@bit.edu.cn;
张元(1993-), 男, 副教授, 博士生导师, 从事网络化系统的分析、优化、数据驱动等研究, E-mail: zhangyuan14@bit.edu.cn;
翟弟华(1988-), 男, 副教授, 博士生导师, 从事机器人智能感知、控制与应用等研究, E-mail: zhaidih@bit.edu.cn;
刘坤(1982-), 男, 研究员, 博士生导师, 从事信息物理融合系统的安全控制、分布式优化与博弈等研究, E-mail: kunliubit@bit.edu.cn;
杨辰(1988-), 男, 副教授, 博士生导师, 从事航天器动力学控制、不确定性优化等研究, E-mail: yangc@bit.edu.cn;
吴楚格(1993-), 女, 助理教授, 硕士生导师, 从事云边协同调度优化、调度理论及应用等研究, Email: wucg@bit.edu.cn;
高润泽(1996-), 男, 博士生, 从事工作流云控制系统、云边协同控制、数据驱动控制、模型预测控制等研究, E-mail: gaorunze_bit@163.com。

通讯作者：夏元清, E-mail: xia_yuanqing@bit.edu.cn。

责任编委：杨涛.

摘要：近年来, 基于云控制技术的天空地异构多运动体系统的研究得到学界的关注, 天空地跨域多运动体通过互联、互通、互操作, 能够实现信息共享与融合、行为交互与协调、任务协同与合作, 促进系统功能互补、效能倍增, 从而提升面对复杂环境和任务的应对能力. 鉴于此, 详细阐述天空地异构多运动体系统的跨域协同控制与智能决策研究进展. 首先, 介绍天空地一体化网络环境下多运动体系统的内涵和云框架下的天空地移动云构成要素, 以及代表性的研究进展; 然后, 从智能云控制和决策角度阐述天空地异构多运动体系统的研究现状, 给出云控制与决策框架下的解决方案. 最后, 从集群管理、跨域协同感知、控制与决策等方面提出天空地异构多运动体系统需要解决的关键问题和技术, 并对未来可能的研究方向进行讨论与展望.

关键词：天空地一体化跨域协同控制智能决策云控制与决策

Cross-domain cooperative control and intelligent decision-making of multi-dynamic agents in space-air-ground integrated network environment

XIA Yuan-qing , XIE Chao , GAO Han , ZHAN Yu-feng , SUN Zhong-qi , DAI Li , CHAI Run-qi , CUI Bing , ZHANG Yuan , ZHAI Di-hua , LIU Kun , YANG Chen , WU Chu-ge , GAO Run-ze

School of Automation, Beijing Institute of Technology, Beijing 100081, China

Abstract: In recent years, the research on space-air-ground integrated cross-domain multi-dynamic systems based on cloud control has attracted much attention. Through interconnection, intercommunication, and interoperability, space-airground integrated heterogeneous multi-dynamic systems realize information sharing and fusion, behavioral interaction and coordination, as well as task collaboration and cooperation. This considerably facilitates the system's functional complementation and multiplies the energy efficiency, thus significantly enhancing the system's capability of responding to complex environments and missions. This paper expounds on the research progress on the cooperative control and intelligent decision of space-air-ground integrated heterogeneous multi-dynamic systems. First, abstracts and components of the space-air-ground integrated network with the cloud architecture, as well as the related representative progress around the world, are provided. Then, from the perspective of cloud control and intelligence decision-making, state-of-the-art technologies related to space-air-ground integrated heterogeneous multi-dynamic systems are introduced, and solutions under the framework of cloud control and decision-making are given. Finally, the key technologies are summarized in terms of cluster management, cross-domain cooperative sensing, and control and decision-making, and the possible future research directions are discussed and prospected.

Keywords: space-air-ground integrated network cross-domain cooperative control intelligent decision-making cloud control and decision-making

0 引言

随着技术的进步以及行业的发展, 无论是在航空、远洋、渔业、石油、环境监测等民用领域, 还是在战场侦察、目标打击、通信中继等国防军事领域, 传统的单一运动体平台难以满足多维度全要素的任务需求.天空地跨域多运动体系统是指在不同空间域内运行的、具有显著功能差异性的运动体组成的有机整体, 是当前多运动体系统领域的研究热点, 是未来跨域多运动体系统应用和技术发展的新趋势^[1].多运动体相互间可通过信息共享与融合、行为交互与协调、任务协同与合作实现功能互补和效能倍增, 从而提升面对复杂任务和使命的应对能力^[2].在应用层面, 天、空、地多运动体系统之间的跨域互联与协同合作有利于降低异构平台的功能冗余性, 充分发挥平台的系统鲁棒性和能力互补性, 实现各要素单元的一体化运用, 从而达到效果互用、效能增强的综合目的, 同时跨域协同也有利于推动跨域多运动体系统应用新模态的涌现, 进一步推动跨域多运动体系统在各领域发挥全新作用.在技术层面, 协同是跨域多运动体系统自主性技术的高级阶段, 万物互联是可改变世界的潜力技术, 加之先进的控制与智能决策系统, 共同构成了跨域协同的技术内涵, 其与人工智能、信息技术等学科的交叉融合能够显著推动跨域多运动体系统整体技术的发展与提升.

由于天空地网络环境下跨域多运动体系统在遥感、对地观测、信息传输、国家安全维护等方面具有重大的经济、社会和军事价值, 本文将针对天空地一体化网络环境下多运动体跨域协同问题展开讨论, 介绍国内外相关项目的开展情况, 从多个层面阐述多运动体跨域协同相关技术所取得的研究进展, 讨论多运动体跨域协同所面临的关键技术问题, 最后对多运动体跨域协同技术的发展进行展望.

1 概念及各国发展现状 1.1 概念

天空地多运动体系统是由航天器、空中飞行器以及地面移动平台等组成的异构跨域协同系统.该系统作业空间域跨度大、通信链路长、任务环境不确定度高, 单一控制方法无法有效应对复杂的任务要求, 所以亟需一种新的技术框架, 以融合各类控制算法优势, 进一步提升系统在复杂环境下的有效性和可靠性.

云控制概念的引入为上述问题的解决提供了新思路^[3].在天空地跨域多运动体组成的云控制系统中, 天基云、空基云以及地基云, 既各自形成子云控制系统, 又通过天空地一体化网络实现互联、互通、互操作, 进而建立天空地一体化跨域协同系统, 如图 1所示.在各子云控制系统中, 由多种探测设备感知汇聚而成的大数据储存在云端, 在云端利用数据融合等方法实现系统的在线辨识与建模.基于人工智能技术, 实现天空地一体化系统的跨域自主指挥、规划、计划、优化、调度、预测、决策.利用云网边端协同, 结合模型预测控制、数据驱动控制、模型数据混合驱动控制等先进控制方法, 实现天空地一体化系统的自主智能协同控制.不同异构运动体在功能或性能上可互相补充, 例如天基系统和空基系统组成的非地基网络提供立体的态势感知与空间覆盖能力, 协助地基系统实现全域覆盖与支持, 地基系统则发挥地面高性能作业优势.

图 1 天空地跨域协同系统

天空地跨域协同系统以云计算、物联网技术为手段, 以网络化控制、信息物理系统、复杂大系统理论为依托, 结合网络化控制系统和云计算技术的优点, 使得控制系统具有高度自主化和高度智能化, 可突破空间环境限制形成立体移动云网络, 通过态势感知、决策部署、共同协作等满足复杂任务需求.同时, 各域运动体也可通过交互协作形成具备云功能的移动云节点, 分层次跨域多运动体系统的部署既可以保证云计算的规模效应优势, 也可以保证跨域多运动体系统的高弹性、模块化、去中心化的能力优势.此外, 天空地跨域协同有效支持数据驱动的智能化发展趋势, 已经成为当前学术界和产业界研究的热点.

具体而言, 天空地跨域协同系统由4部分构成, 即静态云、移动云、终端以及网络: 1)静态云一般建设在地面, 是整个云控制系统的重要组成部分, 在一定的条件下, 具备可接管系统中所有移动云的能力, 主要处理高复杂度要求的任务, 具体发挥人机接口、数据分析、数字孪生等功能, 通常由地面大型的计算中心承担.2)移动云由一系列同类型的运动体构成, 即航天器构成的天基移动云、空中飞行器构成的空基移动云和地面无人车等地面移动平台构成的地基移动云, 由静态云统一调度管理, 并根据其内部运动体的类型、运动特性、通信特征、设备载荷等, 在具体任务中发挥特异性功能.移动云中存在多个高性能运动体, 承担部分决策控制任务, 该类运动体称为移动云节点.相较于静态云, 移动云节点与其连接终端的物理距离短, 所以大多承担高实时性要求的任务^[4-5].天基云、空基云和地基云彼此间可以交互, 同时在必要时能够获得地面静态云的各类服务支持.而在很多场合中, 需要各移动云独立生存, 自主决策与控制.3)终端是指一体化网络中其他仅具备基础功能的卫星、无人机和无人车, 根据其物理特征承担相应的数据收集、控制指令执行等低复杂度任务.4)网络是一类信号设备的抽象, 是实现一体化的关键, 其种类繁多, 如卫星地面信号站、通信基站、信号塔等, 为静态云、移动云和终端提供栅格化通信接入, 形成数据传输的必要信息化通道.

从具体功能实现的角度出发, 天空地一体化网络包含5层结构^[6].首先是基础硬件层, 包括中央处理器、存储设备、网络通信设备等; 然后是数据层, 包括天基、空基和地基的感知探测数据, 任务处理过程中的通信计算数据以及控制指令数据; 接着是服务层, 为静态云、移动云和终端提供基础服务, 如通信信道扩容、存储备份等, 根据任务需求和上层规划方案, 将服务层提供的各项基础服务进行有机整合, 形成与具体任务相关的服务集合, 如在卫星导航过程中, 需要同时调动通信、目标识别、路径规划、姿态控制、数据备份等服务, 多种服务集合构成了业务层; 最后是规划层, 负责云控制系统的统筹管理、全局优化、集中调度等.

航天器系统、空中飞行器系统、地面移动平台系统和地面数据中心分别构成了天基云、空基云、地基云和静态云, 它们可相互连接, 构成一个整体的混合云, 也可针对特定任务场景, 作为一个独立的云发挥各自具体功能.

在天基云中, 由各轨道卫星构成的星座系统以及各类航天器充分发挥全球覆盖优势, 实现全球导航定位、全球通信接入等功能, 有效避免了地形地貌、非均衡区域经济、地面灾害等对通信探测的限制, 拓宽了天空地跨域协同系统的任务适用性.天基云位于地外空间, 经常面临极端气温、高能粒子流等复杂条件, 需采用抗辐射材料和硬件设备冗余等方法应对单粒子翻转事件, 保证数据的可靠性^[7].同时为实现云内协同, 高、中、低轨卫星, 甚至可以包括空间站, 经过虚拟化组成天基云, 根据轨道特点和星载设备执行具体任务, 形成星间原始数据以供提取、融合、计算和分析等, 并根据需要请求其他云计算或存储备份.天基云星间链路是保证系统稳定高效运行的重要前提, 激光通信技术因具备高吞吐率、高带宽、强抗干扰力、高保密性和安全性的特点, 已在国内外众多卫星网络中成功应用, 如“虹云”、Starlink、Kuiper等, 进一步促进了天基云平台轻量化、低能耗的发展^[8].轨道卫星通过星间链路形成组网星座后, 单独星载设备处理能力仍然受到物理硬件的限制, 需形成可统一编排、调度、管理的天基云资源池.使用KubeEdge框架对云资源进行虚拟化, 解决单独星载设备资源受限的问题, 打破硬件条件对计算资源的限制.空间站等大型驻留时间长、载荷能力强的航天器可承担天基云更多功能, 如可作为天基云控制中心, 提供与空基云、地基云和地面静态云的交互接口以及各类云原生服务(如边缘计算与存储、网络接入管理等)^[9].针对实际任务场景, 静态云制定任务方案, 明确任务类型、执行区域、环境限制等, 同时开放针对性任务接口, 与空间站、执行卫星资源统一池化形成的天基云临时组网, 并同步任务方案数据, 提供必要的计算、存储支持.在收到任务请求后, 天基云接入至静态云的针对性任务接口中, 并将总方案分解为多个子任务, 根据卫星的运行状态、运行轨迹、设备载荷确定执行卫星、候补卫星以及工作流调度方案.执行卫星接入至临时网络中, 根据调度规则执行气象预测、通信中继、卫星影像、导航增强等具体任务, 而候补卫星则需及时接管离开任务区域或失效卫星的业务.在临时任务网络中, 静态云与天基云建立了通信链路, 可将部分计算任务卸载至天基云中的空间站或其他高性能卫星, 以提升计算分析速度, 同时能够直接接管执行卫星以增强任务实时性.天基云的构建拓宽了地面通信方式, 并衍生出多种服务应用, 特别对于战争冲突应急、国家领土安全等方面具有显著作用.

在空基云中, 通过空域内各类飞行器内部的互联互通、资源调度与智能决策, 完成覆盖增强、边缘服务使能以及协同态势感知等复杂任务.空域内障碍物较少, 加之飞行器较高的移动性, 所以空基云的拓扑结构更加灵活, 基本可实现大规模、非视距的结构配置.同时空基云的覆盖区域是天基云的局部补充, 能够实现任务的多视角和精细化处理, 如更低时延的通信和更高分辨率的影像^[10].此外, 空基云中飞行器都具备独立的通信中继功能, 所以静态云的控制指令可通过网络多跳的方式, 传输至距离最远的飞行器, 极大地减少了通信硬件水平对系统作业半径的限制, 使得空基云的覆盖区域进一步扩大^[11-13].空基云上接天基云, 下接地基云和静态云, 根据其内部飞行器类型和功能应对不同任务场景.如在地震灾后救援中, 静态云根据任务现场的环境、可用飞行器数量、能源补充设备等下发组网方案, 包括网络拓扑、飞行器调度与网络接入等, 同时提供互联网服务; 高续航和高算力的飞行器充当临时基站, 对互联网数据进行转发, 并根据静态云下发的组网方案进行现场调度; 常规飞行器依靠调度规则在任务空域内散布排列, 充当临时无线网络终端.目前, 经过行业标准的逐步规范, 空中飞行器云控制系统已有许多成功案例, 如中国民用航空局2020年发布的无人机云系统数据规范^[14]、美国的无人驾驶航空器系统交通管理(unmanned aircraft system traffic management, UTM)^[15]、欧洲的U-space^[16], 以及企业私有的云控制系统, 如大疆的新版无人机飞行安全系统(geospatial environment online, GEO)、飞马机器人公司的“飞马云”系统等^[17].

地基云中, 由地面无人车等地面移动平台构成的地基云处于复杂的地面环境.移动车辆上搭载车载单元, 利用嵌入传感器收集车辆信息(如位置、速度、加速度等), 向周边车辆和路侧单元进行信息共享, 同时具有信息接收验证、任务处理以及避免安全攻击等基础功能.路侧单元配备有网络接口, 并具备短距离无线通信功能, 可作为地基云的通信网关向车辆提供路况信息, 如前方事故情况、附近停车场和加油站、拥堵路段车流长度等.地基云上接空基云, 也可与天基云对接, 静态云除了与天基云、空基云交互外, 也面向基本自治的地面无人车等移动平台构成的地基云, 通过对车辆的计算、通信、感知和物理信息的协调, 动态地分配给授权用户^[18-19].地基云内部有多种交互方式, 包括车与云(vehicle-to-cloud, V2C)、车与车(vehicle-to-vehicle, V2V)、车与路侧设备(vehicle-to-infrastructure, V2I)、车与万物(vehicle-to-everyone, V2X), 通过多跳网络建立通信链路.地基云根据构成的车辆状态, 可分为快速移动云和慢速移动云.快速移动云是指云中车辆高速移动, 云中车辆单元不断更新, 通讯拓扑快速实时变化的地基云系统, 如文献[20]利用宏观交通模型描述自由车流, 用排队理论建模交通拥堵情况, 并利用随机模型计算路段中平均车辆数.慢速移动云是指由长时间停放和移动速度十分缓慢的车辆构成的地基云系统, 如文献[21]针对机场停车场中任务分配和资源调度问题, 通过对车辆的驶入和离开率进行预测, 给出了车位占有量的概率密度函数.

天基云、空基云和地基云的形成, 实现了天域、空域和地域的覆盖增强、资源整合以及集中管理, 拓宽了跨域协同系统的探测感知范围和任务执行场景. 各移动云既可独立自主运行, 又可进行云与云之间的纵向联合协同, 而后者恰是天空地一体化网络下跨域协同的本质特征.移动云凭借各自海拔优势, 提供各类具有明显区域特征的云原生服务, 如天基云的定位导航服务、空基云的超视距监控和通信增强服务、地基云的智能驾驶服务等, 通过对云原生服务的合理请求和调度, 促进系统控制与决策的智能性、精确性和快速性.云间协同的任务适用性更为广泛.在智慧农业中, 天基云利用卫星云图预测某片区域的天气状况, 空基云利用无人机喷洒农药和肥料, 地基云则根据天气预报和无人机图像定点灌溉和除害.在军事领域中, 天基云提供敌方军事要塞的卫星图像以及通信服务, 辅助战场决策; 空基云进行战场侦查, 同时提供空中火力支援; 地基云形成地面部队, 对敌方实施围攻和抓捕行动.多元立体化网络和众多云原生服务优势, 将使天空地跨域协同系统在军事和民用领域大放异彩, 成为未来高精尖技术的主流方向之一.

1.2 各国发展现状

针对复杂空天地跨域任务, 各国逐渐形成了跨域协同与智能决策的技术规划, 并开展了具体的项目研究, 主要研究现状如下.

1.2.1 美国

1) 美军多域战.

2012年, 美军颁布《联合作战介入概念》, 将跨域协同作为联合作战的重要基础.2015年, 美军完成《联合跨域作战指挥控制行动概念》, 将作战区域拓展到陆、海、空、天、网等领域, 并在2016年将“多域战”概念正式写入美陆军新版作战条例中.“多域战”概念一经提出, 便在美高层中达成了共识, 并将其作为美军未来发展重点^[22].随后, 2017年美国海军陆战队和陆军联合发布《多域战: 21世纪合成兵种》白皮书, 详细阐述了“多域战”的具体实施方案.

2) 美军作战云.

为应对武器装备体系互通存在壁垒等问题, 美国空军于2013年提出作战云概念, 以满足复杂国际形势对美军所提出的新的作战理论与作战指挥体系的需求^[23].2014年, 美国《航空周刊》发布了在轨卫星、空中预警机、战斗机、侦察机等多维作战单元跨域协同的作战图, 进一步揭示了美军作战云概念的全貌.2016年, 美国空军将作战云描述为一种作战空间内数据分发和信息共享的总体网状网格, 每个授权用户、平台和节点在军事行动的全过程中进行基本信息的提供和接收.作战云是美军追求决策优势和多域指挥与控制的必然结果, 主要通过增加网络的交互性, 促进作战人员与决策者之间的信息互通, 实现快速决策.

3) 火星样本转运计划.

20世纪60年代, 美国国家航空航天局(National Aeronautics and Space Administration, NASA)开始了对火星的探测计划, 先后发射了包括Mariner 9、Viking 1和Curiosity在内的多个火星轨道卫星和火星探测车, 对火星的气候特征、地质结构和生命可能性展开了全面研究.NASA于2020年计划开展火星样本转运的科学任务^[24], 该任务旨在将火星岩石和土壤样本带回地球.区别于历次探索任务, 本次任务需要火星样本检索着陆器、地表探测车、火星上升飞行器和在轨卫星的跨域协同工作, 完成对火星土壤样本的收集、转移及回收过程.图 2展示了火星样本转运任务的概念图.

图 2 火星样本转运任务概念图

4) 进攻性集群启用战术.

进攻性集群启用战术^[25]由美国国防部高级研究计划局于2016年提出, 该计划设想未来在复杂的城市环境中, 利用由超过250个无人驾驶飞机系统和无人驾驶地面系统组成的集群, 基于空地一体化协同控制执行多种复杂任务.图 3为进攻性集群启用战术实验图.

图 3 进攻性集群启用战术项目

5) 星链计划.

星链计划^[26]是美国SpaceX公司的一个项目, 其计划在太空中部署4.2万颗卫星以提供网络通讯服务, 组成世界上最大的近地轨道卫星网络, 如图 4所示.星链覆盖范围广、通讯时延低, 在天空地跨域协同方面将发挥重要作用.2022年4月, SpaceX公司向乌克兰援助了5 000个星链网络终端, 以在俄乌战争中提供网络服务.星链计划将是美国跨域协同一体化的重要方面.

图 4 星链概念图

6) 联合全领域指挥与控制.

2022年4月, 美国国防部颁布了联合全领域指挥与控制战略摘要, 其目的是将美国所有军种的传感器接入到同一个网络中, 使军种内部、各军种之间以及美军与盟军之间, 在天、空、地、海、网作战域内, 都能实现无缝通讯、协同控制, 以应对未来战争^[27], 如图 5所示.公开资料显示, 美国五角大楼于2019年和2020年先后开展两次联合全域指挥与控制的验证性演习.

图 5 联合全域指挥与控制战略示意图

1.2.2 中国

1) 天空地一体化网络发展.

我国于2010年启动LTE(long term evolution)网络标准的卫星移动通信技术研究, 以推动天空地一体化网络发展的进程.2020年, 国家发改委将卫星互联网纳入“新基建”范畴.2021年, 中国IMT-2030(6G)推进组发布的《6G网络架构愿景与关键技术展望》白皮书将“空天地一体化组网”技术列入到6G网络的潜在技术和关键能力中^[28].

2) 虹云工程.

虹云工程预计在2025年前向地球中轨道共发射156颗卫星, 构建天基互联网, 为我国移动通信、导航定位以及智能遥感提供网络支持, 是我国天空地一体化进程的重要一步^[29].

1.2.3 欧盟

HUUVER项目.欧盟2019年资助的HUUVER (hybrid UAV-UGV for efficient relocation of vessels)项目, 通过制造一种新型无人空地两栖混合移动机器人, 与欧洲全球卫星导航系统Galileo相结合, 具备任务规划、导航控制等功能, 主要用于搜索和救援任务.产品外观如图 6所示.

图 6 HUUVER项目

1.2.4 日本

航天跨域作战.2018年, 日本政府发布新版《防卫计划大纲》, 将提升太空、网络和电磁等领域的跨域作战能力列为国防发展的优先事项.2019年版的《防卫白皮书》明确指出, “通过跨域作战, 可以发挥各领域实力的倍增效果”, 进一步明确了日本当局对跨域协同作战的重视^[30].

1.2.5 以色列

Sky Sapience公司与美军的合作计划.Sky Sapience公司于2020年研制出新一代系留无人机平台Hover Mast-Lite^[31], 如图 7所示, 旨在与美国陆军RCV和SMET计划中的小型地面无人车结合使用, 通过空地跨域协同, 达到识别和跟踪目标的目的.空中无人飞行器利用空中侦察优势, 对目标进行搜索和定位, 随后将目标位置信息共享至下方地面无人车, 利用自主协同控制实现对目标的持续检测和跟踪.

图 7 Hover Mast-Lite项目

1.3 重要意义

对我国而言, 天空地一体化网络环境下多运动体跨域协同控制与智能决策系统的研究和建设具有重大意义.民用方面, 可以应用于灾后搜救、森林防护、野生动物监测、3D测绘、地质勘探; 军用方面, 空地协同装备可用于多用途情报搜集、监视和侦察、大范围搜索和摧毁等高危军事任务.此外, 卫星轨位、空间通信频谱等资源的稀缺性使得国际上对这些资源的争夺异常激烈.因此, 快速发展天空地一体化网络下的多运动体跨域协同技术, 形成完善的网络体系, 有利于占领天空地技术制高点, 抢占资源与技术的先机.可见, 天空地一体化网络环境下多运动体跨域协同控制与智能决策系统的研究和建设对国民经济发展、应急事件处理、军事防御构建起到重大推动作用.特别地, 天空地协同是未来信息化战争的重要作战模式, 对国防领域意义重大.

2 天空地跨域协同技术研究进展

天空地跨域多运动体系统本质上是一种以合作为基本方式的同构或异构多运动体系统^[32-33], 旨在通过协同决策、任务分配与整合以及智能主体动态控制等途径实现总体任务目标.网络信息化技术和先进控制理论的发展, 使得控制系统向复杂化、异构型和跨介质等方面发展成为可能.下面分别对相关技术研究进展进行介绍.

2.1 跨域协同多运动体系统控制框架

目前, 系统控制框架主要有两类: 集中式和非集中式.集中式框架是指, 在一个多智能体系统中存在一个中心智能体或中心计算机, 承担任务指令的接收和处理工作, 并向其他编队成员发送相关控制指令^[34-35].集中式算法掌握全局信息, 性能优越, 如文献[36]通过集中式控制的微电网模型框架, 实现了系统中信息流和能量流的全过程展示, 明确了各网络单元的运行状态.文献[37]基于经典的导航方程, 利用集中式框架控制多机器人的相对运动以符合期望构型.然而, 集中式算法需要的计算资源及系统通信延时会随着系统中智能体个数的增加而显著增加, 导致在面对大型复杂异构系统时控制效果急剧下降.同时, 集中式系统严重依赖中心智能体, 若中心智能体出现故障, 则整个系统将面临瘫痪风险.另外, 集中式方法导致系统的规模和配置都不够灵活, 系统的可扩展性差.以上问题都限制了集中式算法框架在复杂大系统中的应用.

非集中式控制框架^[38-39]可进一步分为: 分层式框架和分布式框架.

分层式框架是指在一个多智能体系统中存在多个中心智能体, 围绕这些中心智能体可将整个系统聚合成不同的类别.相较于集中式框架只有单个中心智能体, 分层式框架的多中心智能体结构可提升整个系统的鲁棒性^[40].分层式框架在多机器人系统的任务分配中有较多应用, 如文献[41]提出了一种分层规划方法, 将原始问题分解为高等级的任务分发路由问题和低等级的实际路由路径计算问题, 并利用图神经网络评估性能, 以最小化路由问题解决时间.

分布式框架通过将任务指令下发, 使每个机器单元根据对应的分解任务独立生成控制指令^[42], 极大地降低了计算成本.并且由于在分布式框架中, 每个智能体地位相同, 整个系统具有更强的鲁棒性, 能够以相对较低的性能发挥达到相同的任务完成度^[43]. 然而, 低成本和强鲁棒性的代价是更加频繁的内部通信和系统状态估计, 常常会导致系统不满足可行性要求.但是, 得益于数字通信网络的发展以及控制结构易维护的优点^[44], 分布式框架在跨域协同控制中占据着重要地位, 近年来相关研究爆炸式增长^[45].目前, 基于势能场的控制方法成为分布式框架协同控制的一个主要趋势^[45-51].其他采用分布式框架的研究有: 文献[52]首次将非线性分布式模型预测控制应用于差动机器人编队控制, 并通过实物进行验证.文献[53]利用分布式模型预测控制算法, 实现了线形二阶智能体的避碰和避障问题.文献[54]采用分布式模型预测控制算法, 对非线性二阶多智能体系统的一致性进行了研究.

2.2 天空地一体化组网技术

天空地一体化网络本质上是一种网络化大规模复杂系统, 其发展面临诸多挑战: 1)网络内部包含多种异构且复杂的个体, 不同泛在连接使系统架构高度复杂, 网络拓扑灵活多变; 2)数据类型跨度广、体量大, 加重了网络通信、存储、决策和优化负担; 3)网络中各异构体物理距离远, 网络协议体系不同, 使通讯有效性和实时性难以得到保证; 4)实际的用户类型和具体的任务需求差异化较大, 需要提高数据处理的实时性, 并综合各智能算法在不同时空尺度下进行决策, 实现网络一体化、功能多样化、响应快速化的目标.所以要大力促进天空地一体化网络架构和技术体系的深度融合^[55].

软件定义网络(software defined networking, SDN)作为一种新的网络架构受到广泛关注^[56-57], 并被认为是下一代网络发展的新趋势.SDN的主要特征是可编程的开放网络、具有统一控制的逻辑结构以及控制与数据分离^[58], 其一般结构如图 8所示.其中: 应用平面面向用户需求, 提供各类网络应用服务; 控制平面是决策层, 负责整个网络的业务调度, 同时构成上下层网络的桥梁, 其通过北向接口使能应用平面的编程性, 通过南向接口对底层数据进行监测、调度和控制; 数据平面是基础设施层, 由各类硬件转发设备构成, 主要为控制层提供网络状态数据并执行相应的转发指令.SDN通过控制平面和数据平面分离的特殊逻辑关系, 实现控制平面统一配置实际网络结构, 缓解了基础硬件对网络架构的限制^[59].

图 8 SDN结构

SDN由此表现出的强大应用潜力, 可为天空地一体化网络的构建和发展赋予新的活力, 具体表现在天空地一体化网络的切换管理和流量卸载等问题上.在无线通讯中, 网络切换是将一个持续的通信链路, 由原始连接单元向新单元转移的过程.由于天空地一体化网络的高动态特性, 切换管理是保证网络传输稳定、安全的关键技术之一.文献[60]针对天地网络融合, 基于SDN建立了一种多网关架构, 其中SDN控制器可根据网络服务质量(quality of service, QoS)指标决定不同网关间链路切换的时机和方法.流量卸载是缓解天空地一体化网络负载压力的有效方法, 能够保证终端网络通信、数据传输的实时性和高效性.文献[61]在5G和卫星的融合网络中, 基于SDN建立一种流量分布策略, 降低了由于地面网络链路失效造成的网络效能损失.

基于SDN的天空地一体化网络架构的关键问题是如何在网络中高效部署SDN控制器, 以实现整体的有效运行.SDN控制器的部署问题是NP(non-deterministic polynomial)难问题, 主要解决控制器的部署数量、部署位置以及与基础硬件的映射关系.常见的部署算法可分为如下几类: 聚类算法、启发式算法、多目标规划、博弈算法.具体而言有$ K $-means算法及其衍生算法^[62]、粒子群算法^[63]、NSGA-Ⅱ算法^[64]、零和博弈^[65]等.

2.3 天空地一体化网络通信技术

天空地一体化网络架构明确了网络中接入的单元类型、拓扑结构以及服务逻辑关系, 而通信技术则是保证网络有效性和可靠性的关键因素.具体而言, 通信技术主要解决天空地一体化网络中通信时延、信道接入和释放、带宽资源分配等问题.天空地一体化网络根据接入单元的物理海拔高度, 可分为3个移动云网络, 即天基云、空基云和地基云.现对各个移动云系统中的关键通信技术进行介绍.

2.3.1 天基云通信技术

构成天基云的航天器主要分布在3种地球轨道上, 即地球同步轨道(geostationary earth orbit, GEO)、中轨道(medium earth orbit, MEO)和近地轨道(low earth orbit, LEO).LEO高度在500$ \sim $2 000 km之间, 可通过几十个LEO卫星实现全球通信覆盖.LEO卫星具有较低的通信时延, 体积小、成本低、通信链路损耗少, 已成为目前卫星通信重要的研究领域之一, 如Globalstar、Starlink等.LEO卫星通常采用多波束天线技术, 即一个卫星具有多个波束覆盖区域, 并且由于LEO卫星轨道高度低, 其相对地面运动速度较大, 所以当星地或星空通信链路执行长时间的通信业务, 或地空终端设备处于波束覆盖的交叉区域时, 很可能需要对通信链路进行频繁的跨波束覆盖区域或跨卫星切换.在通信切换过程中, 若新波束覆盖区域或新接入的卫星没有为用户分配信道, 则会导致通信业务的强制中断, 大幅降低用户的通信体验.

LEO的通信切换表现出两种类型: 一是同一卫星内的跨波束区域切换, 二是不同卫星间的通信切换.对于跨波束切换, 通常有软切换和硬切换两种方式.前者当终端与新波束建立稳定链路后再与旧波束断开, 后者先与旧波束断开再建立新链路.无论是软切换还是硬切换, 在与新波束建立通信链路时, 都需要新波束分配相应的信道.一般的解决方法是根据切换呼叫在每个波束内预留固定数量的信道数, 并且后续不再调整^[66-67]; 或根据终端与卫星网络的相对位置关系和运动趋势, 估计未来可能发生的切换次数, 以此来动态地预留信道数^[68].对于跨星切换, 终端用户要根据需求来选择最优卫星进行接入, 通常基于最大信号强度^[69]、最大仰角^[70]、最大单星覆盖时间^[71]以及最小负荷切换^[72]等.

此外, 天基云轻质网络系统也可减少控制面板产生的信号交互延迟, 实现更多的实时服务.无服务和无状态设计(serverless and stateless design)是实现轻质网络系统部署的关键方法^[73].原始的网络元素被分解成若干独立功能模块, 每个功能模块都可独立开发、测试、部署和更新.不同的功能可以通过灵活的接口相互调用.无状态设计将状态与网络元素的功能分离, 有利于天基云卫星网络的重新配置和信息同步.

2.3.2 空基云通信技术

根据实际任务, 多飞行器互联构成的空基云通信网络具有静态网络和动态网络两种类型^[74].例如, 在执行地震灾后救援重建任务中, 当飞行器以固定构型在上空分布盘旋充当中继节点功能时, 通信网络为静态网络; 当飞行器在灾难现场搜索救援时, 需要穿越大片区域, 通信链路频繁断开和重连, 此时网络拓扑实时变化, 为动态网络.因此, 不同的网络类型需要的通信技术手段也不同.

在静态网络中, 飞行器主要发挥通信中继功能, 其中关键问题是如何高效分配有限的频谱资源, 以及如何降低通信中断概率.文献[75]考虑QoS和功率约束, 通过对时隙资源和功率资源进行优化, 实现了系统吞吐量最优.文献[76]对系统传输功率进行优化, 实现了无人机辅助通信时中断概率最小.

在动态网络中, 飞行器的高移动性使得通信链路具有时变性, 同样导致系统面临异构网络的接入问题, 可采用的解决方法有匹配博弈和多属性决策.匹配博弈根据飞行器节点的请求需要和接入网络的信道资源, 通过相应的匹配偏好, 逐渐形成一个稳定收敛的匹配解, 这样可为请求接入的飞行器分配最佳网络^[77-79].多属性决策综合考虑多个网络属性, 如信号强度、覆盖范围、传输速率等, 并根据任务场景制定一套基于网络属性的接入机制, 请求接入的飞行器通过接入机制选择最优接入网络.如文献[80]基于层次分析法和熵权法对多个网络属性赋予权重, 形成相应的接入机制.

2.3.3 地基云通信技术

由地面移动平台组成的地基云中, 由于无线通信链路的传输容量和连接稳定性较低, 加之地基云中车辆移动速度较高, 使得集中式架构的云系统产生较高的网络时延.在云系统中, 部署路侧单元和移动边缘计算(mobile edge computing, MEC)服务器作为边缘计算节点, 成为业界降低通信时延、提高网络可靠性的主流方法.由此产生了3种通信交互方式, 即V2C、V2I、V2V.

在实际复杂的路况环境中, 由于车辆通勤范围广、移动速度快, 往往需要车辆与不同的边缘节点建立通信链路以获得更好的云服务.并且由于计算资源是分布式的, 当有车辆脱离地基云时, 需要有新成员接入网络并接替未完成的业务, 否则将导致业务重启.因此, 考虑用户服务需求、通信数据时空特性, 明确地基云中的通信模式、多网接入机制以及数据预缓存策略, 是解决地基云通信问题的关键因素.

参考车联网系统, 专用短距离通信(dedicated short rang communication, DSRC)^[81]和移动蜂窝网络通信LTE-V2X^[82]是主要的通信模式, 前者具有很好的通信实时性, 但不适用于高密度车路环境; 后者数据传输速率有了明显提升, 但存在一定的通信时延. 根据数据传输类型选择固定的通信模式, 可充分结合两种方法的优势, 提高整体的数据传输速率和通信实时性.面对多样化数据类型的复杂场景, 结合车辆对通信链路存在时长、带宽资源等需求, 利用决策优化方法构成自适应的网络接入机制是一种有效的解决方法^[83].从边缘计算角度出发, 通过预测车辆移动特性和请求内容的流行度, 在各节点进行预缓存, 可进一步提高通信服务质量.如文献[84]基于车辆路径预测, 将视频数据通过V2V和V2I预缓存至对应节点, 降低服务延时.

2.4 跨域协同多运动体系统云控制架构

将云计算技术与网络化控制系统相融合形成基于云的控制系统, 即云控制系统(cloud control system, CCS)^[85], 是满足天空地一体化网络结构控制要求的一种理想方法, 也为控制科学和信息科学的融合提供了新契机.云控制自2012年被提出以来^[86], 受到了国内外学者的广泛关注, 逐渐发展成为极具潜力的学术领域^[87-90].作为网络化控制系统的升华, 云控制系统可以有效解决跨域协同面临的大体量数据的收集、存储、分析以及决策问题^[3], 是天空地跨域协同控制与智能决策的最强大脑.

针对上述天空地一体化网络结构, 本文提出如图 9所示的云控制平台架构.该框架主要包括云端核心层、云端数据层、人机交互层和执行层.云端核心层包括云控制器、云处理器、数据存储、云资源调度以及容器管理.云端数据层主要包括数据处理模块和数字孪生模块, 前者对边、端聚合的大数据进行数据提取、融合等预处理操作, 以供云核心规划、调度和决策, 后者将终端物理实体(航天器、空中飞行器以及地面移动平台)利用3D建模、有限元等技术进行虚拟化, 以实现物理空间和数字空间的超写实动态映射.执行层由边缘控制系统和终端物理实体构成, 兼顾云控制平台的控制服务订阅、源数据上传和任务执行.人机交互层为用户提供可视化界面、方便监控平台各层级的运行状态、下发控制指令等.

图 9 天空地一体化网络环境下多运动体系统云控制决策平台架构

具体到各个移动云, 现有的一些技术方案可为移动云的构建提供参考.在天基云中, 通过利用KubeEdge框架对云资源进行虚拟化, 形成全星座统一编排的天基云资源池, 能够解决单独星载设备资源受限的问题, 打破硬件条件对计算资源的限制.目前, 卫星KubeEdge系统已应用在天算星座中, 用来处理地球监测图像处理业务^[73].在KubeEdge框架下, 天基云原生(cloud native)的生态成为可能, 通过应用在云上直接部署, 提升边缘节点的任务卸载能力, 有效节省天地间传输带宽, 降低天地链路大延迟的影响.

在空基云中, 5G/6G技术的发展使飞行器摆脱了传统Wi-Fi模块对网络条件的依赖, 极大地拓宽了空基云的任务适用场景.通过嵌入式5G/6G设备, 赋予空基云内各飞行器相应的IP地址, 作为其在网络环境中的唯一标识, 并建立请求/响应的服务模型架构^[91], 实现空基云的构建.例如, 对客户端请求和服务端响应对象使用简单对象调用协议(SOAP), 并使用XML在网络上进行传输; 然后, 使用统一资源标识符(URI)和超文本传输协议(HTTP)服务, 并通过统一接口标识资源.此外, 文献[92]比较了SOA、ROA和面向对象的分布式体系结构, 认为体系结构的适用性取决于应用场景和系统.文献[93]研究了REST体系, 指出REST的松耦合、高灵活度和轻量级相对SOAP更有优势, 但会消耗更多带宽, 并且更加复杂.文献[94]研究发现, 在物理世界中, SOAP相比商业服务需要更高的计算、带宽和存储资源.进一步地, RESTful被认为是一个可复用、松耦合的Web Service, 易于学习和使用^[95].由于飞行器的能力和资源有限, 轻量级的分布式系统架构更易于实现.

在地基云中, 实时操作系统(real-time operation system, RTOS)可作为该移动云的底层基座^[96].QNX是一种广泛应用于汽车工业的商业RTOS, 其内核只包括CPU调度、进程间通信、中断重定向和计时器. 其他内容均作为用户进程运行, 包括一个执行进程创建的特殊进程, 即proc, 其与微内核一起创建和管理内存.该过程通过两个关键机制实现: 进程间通信(interprocess communication)和引导装载程序(boot loader), 后者加载包含内核和业务所需程序及共享资源的镜像.另一种常用的RTOS是VxWorks, 它被设计成实时的、能实现确定性时延的嵌入式系统. VxWorks支持多种架构, 包括Intel、POWER和ARM架构等.QNX和VxWorks都使用实时内核, 保证在预定时间内完成关键任务的应用程序.QNX基于消息传递架构, 而VxWorks使用共享内存架构.消息传递是内核设计的基础, 允许系统将信息从一个任务传递给另一个或若干个任务.共享内存架构指具有物理分布式内存的私有地址空间的系统.在QNX下的优先级调度中, 所有进程都在优先级驱动的基础上允许, 这意味着优先级高的进程首先访问CPU, 优先级设定范围从0$ \sim $31.VxWorks使用优先级和循环两种调度算法.无论QNX或者VxWorks, 相对Linux、Windows都具有更强的实时性保证和更严格的确定性调度, 也因此更适合作为地基云的底座, 处理复杂、敏感、关键、具有硬实时约束的地基计算任务.

2.5 跨域协同多运动体系统云控制方法

云控制系统是天空地一体化网络的控制中枢, 具有硬件可靠性高、系统可扩展性强等优势, 能够提供持续不断的控制服务, 最大程度地发挥系统性能, 促进网络中云到端、端到云、端到端的协作交流.针对天空地跨域异构复杂网络, 云控制系统需考虑以下关键控制方法.

2.5.1 面向复杂系统的先进控制算法

天空地一体化网络环境下的云控制系统任务领域跨度大, 所面临的环境扰动和系统内部的模型不确定性相较于一般系统而言更加复杂, 要求更先进的控制算法来满足复杂系统多约束和多优化目标的控制任务需求.可应用于天空地跨域协同系统的先进控制方法如下.模型预测控制算法作为一种先进的控制方法, 具有预测和滚动优化两大优势, 可有效处理带约束的优化问题, 在现代复杂控制系统中被广泛应用^[97].而对于大规模系统, 模型预测控制的计算成本很高, 跨域多运动体系统通常不具备足够的计算存储资源.若将每个采样时刻优化问题的求解外包至云端^[98], 则可同时兼顾模型预测控制的控制性能优势和云端平台的计算高效性.如文献[99]基于分布式优化思想, 建立了模型预测控制工作流结构, 提出一种适合云部署的计算模型预测控制架构, 采用调度技术将其分配至云资源池, 实现工作流子任务并行执行, 加快模型预测控制优化问题在线求解速度.文献[100]基于该架构提出了基于云的数据驱动模型预测控制方法, 实现无法建立模型的复杂系统的模型预测控制器设计和快速求解.文献[101]针对有扰动的非线性离散系统提出了一种自触发的鲁棒模型预测控制方法, 可自适应选择采样频率和滑动预测窗口.

天空地跨域协同系统存在非线性耦合动态、欠驱性和系统参数未知等问题, 在实际任务中无法获取精确的系统动态信息.为此, 研究人员提出了数据驱动的云控制方法^[102-103].区别于一般模型驱动的控制方法, 数据驱动的控制方法根据系统历史输入输出数据和当前输入数据, 利用相应的数据预测控制算法产生控制序列, 将该序列传输到执行器的缓存器中, 由执行器选择合适的控制输入^[104].

强化学习是一种序贯决策算法, 以最大化奖励为目标, 通过智能体与环境不断交互更新策略, 直至决策最优.深度强化学习则是基于深度学习的评价机制和强化学习决策能力的一种迭代学习方法^[105], 是对强化学习的拓展.天空地跨域协同系统中, 终端传感器收集任务环境数据, 云端提供算法环境和算力支持, 是典型的强化学习适用系统.一方面, 强化学习的引入加强了传统控制算法在复杂系统中的控制性能.如文献[106]利用强化学习对所提出的迭代学习前馈控制器进行参数整定, 实现了未知环境下四旋翼无人机轨迹的精确跟踪.文献[107]利用强化学习的参数自整定, 提高了PID在非线性时滞系统中的控制性能.另一方面, 强化学习是任务规划与智能决策的典型应用范式, 可极大地提升天空地跨域协同系统的性能.强化学习算法在智能决策方面的应用将在后文讨论.

2.5.2 基于工作流结构的云控制方法

尽管对于单个终端用户而言, 云资源是无限的, 但随着用户数量的增多, 云资源仍会达到饱和^[108]. 在天空地一体化网络环境下, 请求云服务的算法复杂, 终端数据量多, 计算量大, 极易引发云端服务器宕机.针对上述问题, 一种有效的解决思路是, 基于数值科学计算方法和分布式优化理论, 将云控制系统的集中式控制计算任务构建为匹配分布式云环境的并行云工作流形式^[109], 根据具体的控制性能、截止时间、QoS等约束, 利用高效的云工作流调度算法^[110-111], 充分挖掘云计算环境并行计算能力, 大幅降低典型算法的计算时间, 提高系统整体的控制性能.文献[112]将数据驱动预测云控制构建为云工作流形式, 在云端调度进行加速, 边缘基于数据信息设计扰动观测器, 估计并补偿云工作流执行过程产生的不确定性, 产生云边协同复合控制量, 快速、精准地完成数据驱动云控制任务.基于工作流结构的云控制方法既能满足控制任务的设计需求, 又与云工作流调度问题有机结合, 能够为两个领域带来更多创新性成果.

2.5.3 云控制系统安全控制方法

安全是云控制系统的重要问题^[113].针对云控制系统的攻击主要包括: 拒绝服务攻击(denial of service, DoS)、分布式拒绝服务攻击(distributed denial of service, DDoS)、欺骗式攻击和重放攻击.

DoS攻击通过大量占用被攻击服务器的带宽资源, 使其他用户无法正常访问服务器, 从而造成系统瘫痪.当云控制系统遭受到DoS攻击后, 终端用户无法接收或滞后接收云端控制信号, 导致云控制系统变得不稳定.所以在有限带宽资源下, 对DoS攻击进行预测补偿, 是面向天空地一体化网络云控制系统的关键技术之一.具体技术方案可参见文献[114-116].

DDoS攻击是一种特殊形式的DoS攻击, 攻击方由散布在不同位置的多个攻击者构成, 或一个攻击者控制不同位置的多台机器.DDoS攻击会在短时间内从多地发送大量服务请求, 造成严重的网络阻塞, 最终导致系统瘫痪.有效避免和防御DDoS攻击, 是云控制系统面临的一大技术挑战^[117-119].

欺骗式攻击指攻击方通过劫持网络信道, 恶意篡改测量信号和控制信号, 或改变信号传输策略, 造成延时或传输路径错误, 进而导致系统失稳.虚假数据注入是一类典型欺骗式攻击, 技术细节可参见文献[120-123].

重放攻击是指攻击方记录网络传输中的某段信号, 并在后续某段时间内将截获信号重新发送给被攻击对象, 造成系统失稳.针对重放攻击, 文献[124]通过在原始控制信号中加入白噪声来检测是否遭受重放攻击, 这一方法损失了系统部分性能.文献[125]根据离散系统的状态递推性质, 设计了一种重放攻击检测算法, 且不牺牲系统性能.

2.5.4 局部移动云系统的编队控制方法

编队控制问题在物理层面实现天空地网络环境下的跨域协同控制, 与实际的任务场景密切相关, 如灾后搜救、军事围捕、通信链路保持等.主流的编队控制方法包括: 领航者-跟随者法、虚拟结构法、基于行为法和基于人工势能法.

领航者-跟随者法^[126]顾名思义是在编队中选择一个领航者沿预定轨迹运行, 而编队中其他成员作为跟随者要与领航者的位置保持一定距离和角度.这种控制方式将编队控制问题转换为领航者对预定轨迹和跟随者对领航者的跟踪问题^[127].然而, 这种转换方式使得编队的整体控制效果取决于领航者, 很明显过分依赖于单一成员的控制方法是不可取的, 特别是在一些恶劣条件下^[128].与此同时, 领航者缺乏跟随者的信息反馈而独立运行, 也是该控制方法的弊端之一^[129].有相关研究通过对编队的速度和角速度估计^[130]或定位^[131], 促使跟随者和领航者相互独立, 进而改善依赖性问题.

虚拟结构法将编队作为一个单独的虚拟结构^[132], 在虚拟结构中选择一个参考点作为结构重心并定义重心的运动轨迹, 利用运动学方程可得到结构上其他虚拟点的运动轨迹, 即相对应的其他编队成员的运动轨迹^[133], 进而控制各成员到预定轨迹上实现整体的编队控制^[134].关于虚拟结构法的相关研究有: 文献[135]利用机器人动力学, 为独轮移动机器人设计了虚拟结构编队控制律; 文献[136]同样针对独轮机器人设计一种互耦合的虚拟结构编队控制策略, 并进行了实验验证.因为虚拟结构法将编队整体视作刚体作为前提, 在控制过程中编队构型保持不变, 但若航行环境改变, 则可能导致控制失效, 所以基于虚拟结构的编队控制方法适用场景有限^[137].

基于行为的编队控制方法^[138]预定义一类基本行为, 如队形保持、目标搜索和避障^[139]等, 并将这些基本行为进行融合, 当编队感知到具体任务场景时, 输出相应动作, 实现编队控制.基本行为的融合方式有3种: 第1种是加权平均法^[140], 各基本行为根据其重要程度赋予不同的权重系数; 第2种是行为抑制法, 当任务指令送达至编队成员时, 该成员会根据任务优先级来判断是否执行, 即若新任务优先级大于当前任务, 则将新任务置于等待执行序列, 若新任务优先级低于当前任务, 则放弃执行新任务^[141]; 第3种是模糊逻辑法^[142], 即根据模糊规则综合各基本行为, 以输出相应动作指令.基于行为的编队控制方法的优势在于其简单且明确的反馈机制和针对避障问题的实用性, 同样其主要弊端是对基本行为缺乏明确定义, 致使无法在理论上说明最终控制的稳定性.

基于人工势能法^[143]的基本思想是, 认为编队处于一个类似于电场的力学场中, 期望位置会对编队成员产生引力作用, 而障碍物则会产生排斥作用.这种由引力和排斥力组成的势场, 会使其中的编队成员沿势场梯度下降的方向运行, 从而达到编队控制的目的.人工势能法物理意义清晰, 数学模型简单, 特别适用于实时控制^[144].然而其势函数有时很难选取, 并且会陷入局部最小, 即零势能处^[145].目前针对势能法的局部最小问题, 相关解决方法可分为3类: 剔除法(local minima removal)、逃脱法(local minima escape)和避让法(local minima avoid).剔除法是指修改势函数以剔除局部最小点, 如采用导航函数^[146]、调和函数^[147-148]和超二次势场^[149]; 逃脱法是指当陷入局部最小后, 利用搜索算法离开该极值点^[150], 此时势能不再为零, 所以仍可按梯度下降方向寻找目标点; 避让法是提前进行规划, 以避免陷入局部最小, 如采用设置虚拟障碍物的方法^[151].

2.6 跨域协同多运动体系统调度、规划与智能决策方法

在云控制系统中, 资源调度、任务规划以及智能决策是提升控制任务实时性、高效性以及自主性的关键问题, 特别是对于天空地一体化这类多维异构复杂系统, 合理高效的调度、规划和决策算法甚至决定了控制问题的可解性.具体而言, 该类算法主要包括以下几个方面.

2.6.1 云工作流调度方法

考虑不同约束下, 最小化执行成本的云工作流调度算法是当前主要研究方向之一, 可靠性约束是其中一类重要约束.云工作流的高可靠性意味着工作流的执行成功率更高, 但同时会调用更多的云上设备, 导致执行成本增加.而一味降低执行成本, 又会使工作流可靠性无法保证.针对此问题, 文献[152]在考虑任务数据传输失败率的基础上, 提出了一种最小化成本的工作流调度算法, 具有很好的性能表现.截止时间约束是保证云工作流任务及时性的一类约束, 将总截止时间约束分散为一系列子约束, 通过使每个子任务满足子截止时间约束来保证总的截止时间约束是处理该问题的一种有效方法.文献[153]提出一种LIRHM启发式调度算法, 考虑了前置任务对截止时间约束分配的影响, 即若前置任务可在小于分配子时间约束内完成, 则后置任务有机会租赁更低廉的云服务来降低总执行成本, 同时保证工作流的总截止时间约束.

2.6.2 多目标任务分配方法

天空地一体化协同综合了智能体在不同空间域内的优势, 如在轨卫星的导航和通信优势、无人机的侦察和监测优势以及无人车的地面作业优势, 可应对诸多单智能体无法解决的复杂任务.跨域协同控制问题的首要挑战是如何决策将任务合理地分配至各协作单元, 以实现整体目标^[154].

跨域协同的决策与任务分配问题实际上是在保证任务完成的前提下, 以最高效最可靠的方式将任务集分配给各域内的智能体, 最终形成一系列任务与智能体的关系对^[155].目前, 对多智能体任务分配问题的建模方式有很多, 大致可分为: 公平分割法、最优分配法和多旅行商法.

公平分割法^[156]旨在将任务“等额”地分配给各智能体, 如将$ S $个任务分配给$ N $个智能体, 从智能体的角度来看, 分得$ S/N $个任务是公平的.然而, 实际上每个任务的难易度和期望回报是不同的, 并且各智能体的能力也存在差异, 所以单纯地将任务数量进行等额分配是不可取的, 由此衍生出两种公平分割算法: 秘密竞标法^[157]和标记法^[158-159].前者将单次任务分配视为一次拍卖过程, 各智能体根据自身能力秘密竞标, 拍卖结束后, “出价”最高的智能体可分配到该任务; 后者将一系列任务线性排列, 每个智能体根据自身需求和对任务集合的评估, 将任务按智能体总数进行分割, 并按顺序在分割处做好标记.在分配任务时, 从线性排列的任务起点出发依次向后扫描, 扫描过程中首次出现同一智能体的连续标记, 则将连续标记段内的任务分配给该智能体, 同时将所属的其他标记清除.接着继续扫描, 并重复以上过程, 使每个智能体都能获得理想的任务.

最优分配法将任务分配问题转化为最优化问题, 即综合各智能体执行不同任务的总收益, 采用相关最优化算法使得收益最大化^[160].若任务数量和智能体数量不等, 则采用增加虚拟任务和零任务回报智能体的方式使二者相等, 进而建立最优化模型.

多旅行商问题是旅行商问题的推广, 是指多个商人访问一系列城市, 每个城市访问一次并最终回到起点, 要求总旅行时间或旅行路程最短^[161].在跨域协同任务分配问题中, 可将任务集作为被访问的城市, 智能体作为旅行商, 通过结合典型的多旅行商问题求解方法, 得到最小化任务成本的任务分配方式^[162].

通过上述对跨域协同决策与任务分配问题的建模分析可以确定的是, 目前解决任务分配问题主要有基于市场行为的拍卖算法和最优化算法.基于市场的算法可充分利用局部信息, 能够在资源有限的情况下找到高效的分配方式^[163], 并且可以较好地处理不确定性, 具备一定的鲁棒性^[164].基于最优化的算法是一种十分普遍的任务分配方法, 根据具体问题的特征和任务复杂程度, 适用的最优化算法也是不同的.基于最优化算法的任务分配方法由于算法变量的随机性, 能够在系统受扰动下保持一定性能^[165].

2.6.3 智能决策方法

天空地一体化网络环境下多运动体系统跨域协同控制系统回路结构复杂, 子系统繁多, 并且面向多要素耦合、多维度约束的复杂作业环境, 传统以专家经验、决策规则为主的静态决策方案无法有效应对, 所以亟需以人工智能算法为代表的一类先进智能决策方法, 使系统能充分利用天基、空基、地基信息, 积极调动并协调各智能体任务执行能力, 提高天空地跨域协同系统决策的有效性、实时性和泛化性.

根据对象的不同, 智能决策算法可大致分为两类: 面向虚拟网络资源的调度型决策算法和面向物理实体的运动控制型决策算法.

在天空地跨域协同系统中, 由云提供的基础设施、平台、软件以及控制方案被抽象化为多种云服务, 由不同的云节点或云服务商提供.考虑到所提供云服务的任务适用程度以及云结构的灵活多变性, 终端用户选取最合适的云服务提供商, 或在通信拓扑发生改变时, 寻找最优的云服务继任者是一类重要的资源调度型决策算法.多标准决策算法(multi-criteria decision making, MCDM)是处理该问题的一类有效方法.同时MCDM又包括多属性决策(multi-attribute decision making, MADM)和多目标决策(multi-objective decision making, MODM), 前者主要在多属性描述下预先指定的继任者中选择最佳继任者, 后者构建一个继任者来最优化多目标决策^[166].具体而言, 在云控制系统中常见的MCDM算法有层次分析法(analytical hierarchy process, AHP)^[167]、TOPSIS^[168]、VIKOR^[169]等.实际上, 将前文叙述的云工作流调度算法和任务分配方法与人工智能算法相结合, 便构成了一类典型的资源调度型智能决策算法.如文献[170]针对多目标工作流调度问题, 利用时态融合指针网络对强化学习进行改进, 形成基于强化学习策略的工作流调度模型, 在保证调度任务实时性的同时提高了模型的泛化性.文献[171]提出了一种基于强化学习的功率控制决策算法, 在满足无人机通信速率的前提下, 最小化通信总功率.

运动控制型智能决策算法结合深度强化学习、遗传算法、粒子群优化等自学习和优化算法, 实现终端物理实体的导航、定位、编队控制等传统控制方式的增强, 不仅使终端满足既定的任务要求, 还使云端具备自主学习能力, 能够应对更广泛的任务执行环境, 有效地将人从控制回路中解放出来.对于天空地跨域协同系统, 运动控制型的智能决策实际上是基于系统中多智能体的博弈关系, 以最大化价值为指导, 形成各智能体动作序列的过程.目前, 多智能体的博弈关系主要包括: 完全合作、完全竞争以及混合决策.在完全合作的博弈关系中, 各智能体拥有共同的目标, 共享统一的奖励^[172-173].完全竞争则是将所有智能体分为不同阵营, 每个阵营以提升本阵营奖励的同时降低其他阵营奖励为目标^[174].在混合决策中, 各智能体没有明确的奖励分配关系, 通过博弈均衡实现联合奖励的最大化^[175].显然, 天空地跨域协同系统的决策过程, 是一种完全合作的博弈关系.

在实际的多智能体决策场景中, 为达到完全合作的博弈关系, 衍生出两种解决方法: 一种是在决策前增加智能体的通信过程, 利用尽可能全面的信息做出最优决策^[176]; 另一种是采用“集中训练, 分布执行”的决策机制, 即训练过程采用全局信息, 而每个智能体的决策过程只考虑所获取的局部信息^[177].通信机制着眼于使系统自学习出一套高效的通信方案, “集中训练, 分布执行”机制则致力于如何从全局角度对系统进行训练.

3 多运动体跨域协同的关键技术及未来挑战 3.1 天空地跨域协同面临的关键技术

天空地跨域协同系统属于异质多维网络, 多类运动体融合导致网络结构极为复杂, 而天、空、地多运动体动态特性的不同导致系统整体的特性相比单一运动体更复杂.来自天基、空基、地基和多样化的服务特性以及服务质量需求也使得天空地跨域协同系统的决策与控制变得极为困难.云控制方法是用于解决此类网络化大规模复杂系统控制与决策问题的一种极具潜力的手段, 云控制系统采用控制即服务(control as a service, CaaS)的服务化软件架构, 控制功能单元可灵活复用, 同时具备大规模复杂控制系统快速部署与柔性重构能力.云控制方法在天空地环境下跨域协同领域的研究还在起步阶段, 在灵活性、感知力、协同性等方面存在如下关键技术问题.

3.1.1 天空地动态拓扑结构的集群管理

随着基于跨域多运动体构成的天空地一体化网络的发展成熟, 其承担的业务量逐渐上升且重要性不断增长, 业务的复杂度同样不断提升且面临高品质服务需求.不同于传统数据中心网络, 天空地一体化网络面临网络拓扑结构随机且动态变化, 构成的云是个动态变化的移动云, 此外各运动体的计算、存储、网络等资源高度异构, 不同运动体响应时延和覆盖范围之间的存在巨大差异.具体难点包括以下几个方面:

1) 异构资源感知的移动云集群资源弹性管理.

天空地一体化网络环境下面临各运动体计算、存储、网络等资源高度异构, 且资源严重受限的难题.传统的数据中心集群资源管理多采用资源换服务质量的方法, 难以克服天空地一体化网络中面临的难题.需要对各运动体多维资源进行有效表征, 探索异构资源感知的移动云集群资源弹性管理, 进行层级式资源弹性管理.将决策与控制行为在不同时空尺度上进行灵活分配, 在单一运动体之上进行小尺度精细化管理, 而在天基、空基、地基大尺度上进行宏观管理.

2) 随机动态网络环境下服务请求自适应调配.

天空地一体化网络中运动体及其构成的系统运行时都是不稳定的, 极易导致服务崩溃, 因此服务多备份必不可少, 带来服务请求如何高效调配的难题.传统数据中心集群网络拓扑固定且系统运行时稳定, 使得常规的服务请求自适应调配方法难以适应随机动态网络环境, 需要对路由质量进行有效度量、探索融合路由选择的服务请求自适应调配方案.

3) 多维异构的网络接入技术.

天空地一体化网络中, 各网络单元具有高移动性和生命周期性, 加之任务场景环境复杂, 如障碍物或气候影响, 使得通信链路频繁切换, 进而导致整体的通信拓扑灵活多变.在这种情况下, 如何评价被请求接入网络的优良性, 如何保证通信链路在异构网络间的平滑切换, 是提高天空地一体化网络可靠性的关键问题.

具体接入技术可分为3种, 一是挖掘备选网络的关键属性, 基于匹配博弈理论建立接入机制; 二是综合网络属性和接入需求, 采用多属性决策算法选择最优接入网络; 三是通过引入人工智能算法, 提升网络接入决策的智能性.

3.1.2 天空地动态环境协同感知

天空地一体化网络化环境下多运动体系统中的环境感知能力是控制与决策的依据.网络中每个运动体可以看作分布式传感器网络的单个节点, 需要从多模态海量数据中充分挖掘相关信息, 并通过信息融合获得更广的探测范围、更高的探测精度, 从而实现对任务区域的全面感知, 提升全域态势感知能力.

1) 天空地跨模态跨域大数据滤波与融合.

天空地一体化网络环境下天基、空基、地基不同运动体传感器配置不尽相同, 涵盖雷达、视觉相机、惯性传感器等多类跨模态传感器数据.同时, 跨域多运动体系统按照接入类型包括: 天天之间的接入(例如卫星与卫星的接入)、空空之间的接入(例如无人机与无人机的接入)、地地之间的接入(例如无人车与无人车的接入)、天空之间的接入、空地之间的接入、天地之间的接入, 这导致需要观测和传输的数据量越来越多, 形成跨域大数据.针对大数据异构多运动体不确定信息融合问题, 目前存在的问题和挑战包括: 网络带宽信息交互量传输速率有限; 信息不完整, 感知数据的传输延迟与数据包丢失; 感知信息时间不同步, 采样率不一致, 使得网络的时钟同步更加困难.

2) 天空地大数据融合特征提取与匹配.

在天空地一体化网络环境下, 数据具有天基、空基、地基等多种来源、多种形式和多种结构, 因此这些数据是多模态的.例如卫星遥感图像数据, 除了像素本身这一模态, 还保存了诸如位置信息、时间戳信息等.对这些信息加以提取并加以离散化处理, 又可以形成新的信息模态.这些不同的信息模态可以从不同的角度阐释图像本身的语义概念信息.并且, 在天空地一体化网络跨域环境下, 多模态数据在获取过程中, 伴随着冗余信息获得的同时也可能混入噪声模态.同时, 随着天基云、空基云和地基云规模的不断扩大, 数据量呈“井喷式”发展, 在有限能源和处理器资源的限制下, 如何平衡大批量数据传输需求和有限带宽之间的矛盾是天空地跨域协同系统亟需解决的问题.因此, 天空地大数据融合的特征提取与匹配方法对于信息获取、融合、处理与任务级识别具有重要意义.

3.1.3 多维度异构运动体跨域协同控制

天空地一体化网络环境下多运动体跨域协同系统的特点是广域、跨介质、多源异构, 因此传统的基于单中心的集中式控制方式将无法满足实时性和可扩展性.

1) 云网边端框架下分布式协同控制.

跨域协同系统中, 各终端用户不可避免地会存在模型不确定性以及受外部环境扰动影响, 同时整个系统也会面临资源分配、通信组网和任务协同等问题.传统解决方法是采用集中式控制方案, 对全系统进行统一规划和控制.然而, 对于天空地一体化网络环境下的跨域协同系统, 集中式控制方案的资源利用率低, 灵活性差, 适用场景有限.所以, 分布式控制方案在天空地一体化网络环境下更具优势.

在云控制系统意义下, 云网边端框架是典型的分布式控制方案, 该方案通过边缘控制器之间的通信实现对整个系统的控制, 使系统兼具实时性、可靠性与高性能等特点^[178].具体而言, 云作为整个控制系统的核心, 负责全局数据采集及上层智能决策; 跨域多运动体系统通过各种网络架构及各类互联互通手段, 分层接入到公有云、私有云和混合云; 边作为静态云的触点延伸, 经过弹性调度灵活解决实时性要求高的决策与控制需求; 端侧部署各类运动体及各类智能感知设备, 负责高效数据采集及可靠控制任务.因此在云网边端框架下, 结合先进的分布式控制算法, 能够积极有效地保证天空地跨域协同系统的稳定、高效、有序运行.

2) 跨域异构多运动体抗毁控制.

当天空地一体化网络环境下多运动体系统中的部分连接发生中断时(例如卫星和无人机之间的通信中断, 形成新的网络), 如何准确度量整个网络的抗毁性, 提升网络抗毁性, 是同构/异构多运动体间的抗毁控制的重要研究内容.基于异构网络的拓扑演化抗毁控制方法, 通过分析网络化系统特定性能的鲁棒性/弹性, 评估系统的性能在资源有限、位置未知或具有一定概率分布的结构扰动下是否能够维持, 或者计算系统维持特定性能所能够承受的结构扰动; 设计具有规定性能弹性的网络拓扑结构, 使系统在不同类型的攻击下其性能能够得到维持.

3.1.4 天空地跨域协同系统安全

天空地一体化网络由于自身具有的结构时变性、通信平台异构性、链路易受干扰等特性, 使得天空地一体化网络的安全防护受到不同方面和不同层次的安全威胁, 为了保证网络通信的安全性、可靠性和完整性, 开展安全通信技术的研究迫在眉睫.

1) 复杂时空环境下节点互联安全技术.

节点互联安全主要在天基网络拓扑结构不断变化时, 为相邻节点间提供互联认证安全机制以及空口数据加密和完整性保护机制.根据系统通信架构, 节点互联认证分为星地互联认证和星间互联认证两种场景.为保障天基网络的畅通, 需要不断进行节点间的无线链路互联.因此, 节点互联安全技术是系统安全运行的关键.

2) 基于策略的安全传输控制.

天空地一体化网络中的空间网络和地面网络分属于不同的管理域, 在不同管理域内的终端间进行跨域数据传输时需对其跨域通信权限进行控制, 以避免敏感信息的泄露; 同时各管理域需对跨域通信终端的地址进行隐藏, 以防止外部对本域内部网络的探测.所以需要设计满足天空地一体化网络融合条件下跨域数据传输的安全性方案, 实现分属不同管理域的终端跨域通信的受控数据传输和终端的拓扑隐藏, 提高跨域数据传输的安全性.

3) 跨域异构多智能体容错与自愈控制.

天空地跨域协同系统是一个典型的跨域互联、异构多智能体的复杂系统, 不仅需要具备网络安全攻击的拒止能力, 同时应在子系统或网络产生故障时保证一定系统性能的安全运行.容错控制技术是降低乃至消除故障对系统的影响, 提升系统鲁棒性的一项关键技术, 其通过设计故障诊断机制, 对系统故障信息进行采集与估计, 并配置相应的故障控制器, 实现系统在故障条件下的稳定性.自愈控制针对系统特定性能已经被破坏的情况, 研究系统级联故障传播机理, 结合最优控制理论、序列二次规划等手段设计有效的自愈方法, 快速恢复系统的原来性能, 使系统具备继续执行既定任务的可连续自愈能力, 以提高系统的抗毁性.同时, 将分布式技术融入到容错与自愈控制机制中, 充分利用云控制系统的并行计算能力, 有效满足天空地跨域协同系统的规模约束, 并结合人工智能手段进一步提升容错与自愈控制在面对天空地跨域协同系统强非线性、强耦合性、复杂不确定性以及最优化指标的应对能力.

4) 基于同态加密的数据驱动云控制技术.

在云控制框架下, 终端状态数据上传和云端控制数据下发是基本的控制流程, 其中云端数据处理过程存在极大的私密信息泄露隐患.保证敏感信息的隐私性是天空地跨域协同系统生命力的重要前提.基于同态加密的云控制技术, 保证了明文和密文在特定运算前后具有相同的加密/解密关系, 从而实现敏感信息的隐私保护.在此基础上, 利用分布式同态加密CKKS方案^[179], 通过参数服务器架构实现多方安全性, 并加速密文控制策略的求解.

3.1.5 天空地跨域协同系统智能决策

天空地跨域协同系统因其要素耦合、信息多源、规模庞大, 在进行诸如任务分配、运动体轨迹预测与规划、多智能体协同对抗等复杂且时延敏感的决策任务时面临着诸多挑战.基于专家经验的传统决策方法无法满足任务的精确性要求, 集中式方法无法应对系统的实时性、动态性需求.因此, 亟需分布式、协同化的智能算法提升决策过程性能.

1) 天空地一体化跨域智能博弈决策.

天空地一体化决策研究的目的在于没有人工干预的情况下, 通过感知周边态势实时地做出有效的应对策略, 控制运动体进行对抗, 或者辅助指挥人员进行决策.天空地一体化场景下态势复杂多变, 运动体数量众多, 不同子系统结构存在明显差异, 状态特征连续多维, 使得根据感知态势实时做出精准决策极具挑战性.需要研究在不完全依赖于人类指导情况下具备实时性和鲁棒性, 同时能通过自我探索发掘全新策略的智能学习方法.此外, 博弈论思想有助于提升天空地一体化决策的对抗性和准确性, 将智能学习方法与博弈论思想相结合, 研究天空地一体化跨域智能博弈决策, 将会极大地提升系统决策的实时性、鲁棒性、对抗性和准确性.

2) 跨域多运动体轨迹预测及规划.

天空地一体化系统环境具有时空动态和强随机性等特点, 运动体轨迹约束无明确表达式, 传统最优化方法求解复杂度极高, 导致难以在给定时间内求得最优解.引入强化学习、模仿学习等数据驱动的智能方法, 结合系统环境协同感知结果及物理仿真测试数据, 形成模型与数据协同的轨迹预测和规划方法.同时, 依托天空地一体化网络及其计算能力, 实现全局最优轨迹的离线学习, 并形成对在线轨迹重规划的有效指导机制, 提升在线决策的性能, 进而增强系统内各运动体自主决策及环境适应的能力, 提升其隐蔽性和战略主动性.

3) 复杂决策任务云工作流建模及其调度技术.

天空地跨域协同系统涉及云内交互和云间交互, 不同云之间的物理空间域差异度大, 云内各终端物理距离远, 通讯成本极大.将决策任务建模为工作流, 充分利用云计算系统的并行计算及云边系统的任务卸载能力, 有效提升决策算法性能.在此基础上, 利用云工作流决策调度算法进一步优化系统的性能, 有效应对天空地跨域协同系统的多种复杂约束, 并通过调度优化目标(如最小化执行成本、最短执行时间等)的设计及优化, 进一步提升决策算法性能, 满足系统相关需求.

3.2 天空地跨域协同系统的潜在挑战

尽管现有的研究已经解决了部分与天空地系统协同相关的技术问题, 但仍然存在一些重要的、具有挑战性的潜在研究课题.

1) 智能协同控制.

在复杂的天空地任务中, 运动体往往需要根据其目标做出自主决定.与一般的人工智能多智能体控制方案不同, 协同控制策略很难获得运动体闭环动力学的大数据, 无法通过奖励每个运动体的不同收益进行训练, 因此智能协同控制仍然是一个开放的问题.

2) 基于深度强化学习的多智能体决策算法.

深度强化学习算法在单智能体系统的决策任务中具有优秀的性能表现, 但对于天空地跨域协同系统而言, 简单的算法推广往往仅使系统中单个智能体具备自主决策能力, 而智能体间缺乏协同合作.目前, 多智能体强化学习算法仍处于起步阶段, 较多应用于游戏AI领域, 在实际工程应用方面尚未取得突破性进展.所以, 基于深度强化学习算法建立适用于天空地跨域协同系统的智能决策方案具有深远意义.

3) 天空地跨域协同系统的安全防护.

由于天空地一体化网络结构规模的复杂性、协同交互的开放性以及移动云控制系统的引入, 天空地一体化网络极易遭受恶意干扰、信息伪造、被动窃听、欺骗攻击和拒绝服务攻击等潜在威胁.并且, 网络攻击的手段、规模以及隐蔽性均与传统方式存在不同, 严重影响天空地跨域协同系统的感知、运行、决策以及协同.现存安全技术的简单迁移难以从根本上解决问题, 甚至可能引入新风险.因此, 亟需结合天空地一体化网络特点, 利用智能算法、自进化学习算法等先进技术手段, 构建新型网络安全防护体系, 孕育内生安全, 增强面向复杂攻击的防御能力, 为天空地跨域协同系统提供安全保障.

4) 人在回路中的协同决策.

天空地跨域协同系统的主要功能是替代人、补偿人、延伸人、拓展人, 克服人类在速度与精度上的极限, 将人从繁重的体力和低层次脑力劳动中解放出来.为确保智能化协同系统运行的安全可控, 同时充分发挥专家经验, 人需要对系统的运行进行监督管理、指导仲裁、应急处置, 预留“启停”系统的干预接口, 保留控制权, 随时准备接管智能化协同系统的指挥权, 如歼20与无人僚机的协同作战.因此, 需要建立人的心理状态、生理状态以及专业水平等多维度模型和跨域多运动体异构模型组成的混合模型, 研究人的决策与多运动系统自主决策相互之间的影响机理及其涌现功能, 探索优化人在天空地多运动体系统回路中跨域协同控制与智能决策的能力.

5) 云控制系统的构建.

云控制系统是满足复杂系统控制要求的有效控制方案, 能够基于大数据、云计算、云存储等服务, 结合模型预测、数据驱动和强化学习等先进控制方法, 高效实现复杂系统的建模、规划、调度、控制和决策.针对天空地一体化网络环境下跨越多运动体系统构成的复杂云控制系统, 需要进一步完善系统架构、通信组网和控制算法, 从而解决网络结构复杂、通信拓扑多变、云网边端协同等问题, 确保云控制系统的稳定性和满足其他多种性能指标要求.

6) 天空地海跨域协同系统.

世界上海洋总面积为3.6亿平方千米, 占据地球表面的71 %, 聚集了丰富的生物资源、矿产资源、化学资源、动力资源等.世界沿海各国纷纷加快高新技术与海洋产业的融合, 促进产业升级, 扩大海洋控制权.然而, 海洋环境复杂, 时刻面临海啸、赤潮等自然灾害, 同时信息获取难度大、手段单一, 亟需先进的探测感知、通信控制技术, 实现海洋资源的充分利用.天空地跨域协同系统与海洋中的运动体的有机结合, 以海洋结构物、水面舰船以及水下潜器为主构成海基云, 形成天空地海跨域协同系统, 能够有效利用天基、空基、地基以及海基信息, 极大地扩展海洋信息来源, 同时加上海基信息的反馈, 实现天空地海跨域协同控制与智能决策.该系统将提升人类对海洋灾害的应对能力, 加强海上安全的管控, 加快海洋资源的利用步伐, 进一步实现全球互联、全领域互通的技术构想.

4 结论

我国《“十四五”国家信息化规划》中明确提出要在“十四五”期间实施“空天地海立体化网络建设和应用示范工程”.天空地一体化网络环境下的多运动体协同与智能决策技术是实现高速泛在、天地一体、安全高效的数字基础设施的有效手段, 是积极促进我国经济、国防、科技飞速发展的有力推手, 具有重要的战略顶层价值和理论研究意义.

本文介绍了天空地一体化网络环境下多运动体跨域协同控制与智能决策领域的诸多研究概念, 同时综述了国内外在此领域的发展现状, 回顾并评述了天空地多运动体系统跨域协同相关技术研究进展, 提炼了天空地多运动体系统跨域协同所面临的关键技术问题, 最后基于上述研究梳理了亟待解决的问题和未来发展方向.本文可为未来天空地海一体化网络环境下多运动体跨域协同控制与智能决策领域的发展提供一定的参考与借鉴, 同时为从事该领域研究的学者、工程技术人员与研究生提供较为有益的指导和帮助.

参考文献

[1]	何玉庆, 秦天一, 王楠. 跨域协同: 无人系统技术发展和应用新趋势[J]. 无人系统技术, 2021, 4(4): 1-13. (He Y Q, Qin T Y, Wang N. Cross-domain collaboration: New trends in the development and application of unmanned systems technology[J]. Unmanned Systems Technology, 2021, 4(4): 1-13.)
[2]	张旭东, 孙智伟, 吴利荣, 等. 未来有人机/无人机智能协同作战顶层概念思考[J]. 无人系统技术, 2021, 4(2): 62-68. (Zhang X D, Sun Z W, Wu L R, et al. Research on the fundamental and grand concept of intelligent cooperative combat of manned/unmanned aircraft[J]. Unmanned Systems Technology, 2021, 4(2): 62-68. DOI:10.19942/j.issn.2096-5915.2021.2.020)
[3]	夏元清. 云控制与决策理论及其应用[M]. 北京: 科学出版社, 2021: 1-29. (Xia Y Q. Cloud control and decision theory with applications[M]. Beijing: Science Press, 2021: 1-29.)
[4]	Hu Y C, Patel M, Sabella D, et al. Mobile edge computing—A key technology towards 5G[J]. ETSI White Paper, 2015, 11(11): 1-16.
[5]	Puliafito C, Mingozzi E, Anastasi G. Fog computing for the internet of mobile things: Issues and challenges[C]. 2017 IEEE International Conference on Smart Computing. Hong Kong, 2017: 1-6.
[6]	Cui W H, Wang B R, Gan X, et al. Design of the five layers large-scale low-orbit communication constellation TT&C system[J]. Journal of Physics: Conference Series, 2022, 2290(1): 012096. DOI:10.1088/1742-6596/2290/1/012096
[7]	Fullem T Z. Radiation detection using single event upsets in memory chips[M]. New York: State University of New York at Binghamton, 2006: 23.
[8]	李锐, 林宝军, 刘迎春, 等. 激光星间链路发展综述: 现状、趋势、展望[J]. 红外与激光工程, (2022-08-11) [2022-10-12]. https://kns.cnki.net/kcms/detail/12.1261.TN.20220809.1507.012.html. (Li R, Lin B J, Liu Y C, et al. Review on laser intersatellite link: Current status, trends, and prospects[J]. Infrared and Laser Engineering, (2022-08-11)[2022-10-12]. https://kns.cnki.net/kcms/detail/12.1261.TN.20220809.1507.012.html.)
[9]	Cheng N, Lyu F, Quan W, et al. Space/aerial-assisted computing offloading for IoT applications: A learning-based approach[J]. IEEE Journal on Selected Areas in Communications, 2019, 37(5): 1117-1129. DOI:10.1109/JSAC.2019.2906789
[10]	Zhou Z Y, Zhang C T, Xu C, et al. Energy-efficient industrial internet of UAVs for power line inspection in smart grid[J]. IEEE Transactions on Industrial Informatics, 2018, 14(6): 2705-2714. DOI:10.1109/TII.2018.2794320
[11]	Wu Q Q, Zeng Y, Zhang R. Joint trajectory and communication design for multi-UAV enabled wireless networks[J]. IEEE Transactions on Wireless Communications, 2018, 17(3): 2109-2121. DOI:10.1109/TWC.2017.2789293
[12]	Li X W, Yao H P, Wang J J, et al. A near-optimal UAV-aided radio coverage strategy for dense urban areas[J]. IEEE Transactions on Vehicular Technology, 2019, 68(9): 9098-9109. DOI:10.1109/TVT.2019.2927425
[13]	Li X W, Yao H P, Wang J J, et al. Rechargeable multi-UAV aided seamless coverage for QoS-guaranteed IoT networks[J]. IEEE Internet of Things Journal, 2019, 6(6): 10902-10914. DOI:10.1109/JIOT.2019.2943147
[14]	中国民用航空局. 无人机云系统数据规范: MH/T 2011-2019[S]. 北京: 中国民航出版社, 2020.
[15]	Kopardekar P, Rios J, Prevot T, et al. Unmanned aircraft system traffic management(UTM) concept of operations[C]. AIAA Aviation and Aeronautics Forum. New York: AIAA, 2016: 32838.
[16]	Barrado C, Boyero M, Brucculeri L, et al. U-space concept of operations: A key enabler for opening airspace to emerging low-altitude operations[J]. Aerospace, 2020, 7(3): 24. DOI:10.3390/aerospace7030024
[17]	谭均铭, 廖小罕. 地理信息技术应用下的无人机云端管理系统发展[J]. 地理科学进展, 2021, 40(9): 1451-1466. (Tan J M, Liao X H. Development of unmanned aerial vehicle cloud management system with the application of geographic information technology[J]. Progress in Geography, 2021, 40(9): 1451-1466.)
[18]	夏元清, 闫策, 王笑京, 等. 智能交通信息物理融合云控制系统[J]. 自动化学报, 2019, 45(1): 132-142. (Xia Y Q, Yan C, Wang X J, et al. Intelligent transportation cyber-physical cloud control systems[J]. Acta Automatica Sinica, 2019, 45(1): 132-142. DOI:10.16383/j.aas.c180370)
[19]	Stefano B, Marco C, Silvia G, et al. The next paradigm shift: From vehicular networks to vehicular clouds[J]. Mobile Ad Hoc Networking: The Cutting Edge Directions, 2013, 645-700.
[20]	Zhang T, de Grande R E, Boukerche A. Vehicular cloud: Stochastic analysis of computing resources in a road segment[C]. Proceedings of the 12th ACM Symposium on Performance Evaluation of Wireless Ad Hoc, Sensor, & Ubiquitous Networks. Cancun, 2015: 9-16.
[21]	Arif S, Olariu S, Wang J, et al. Datacenter at the airport: Reasoning about time-dependent parking lot occupancy[J]. IEEE Transactions on Parallel and Distributed Systems, 2012, 23(11): 2067-2080. DOI:10.1109/TPDS.2012.47
[22]	Perkins G D G. Multi-domain battle[J]. Military Review, 2017, 97(5): 6-12.
[23]	吴宇航, 彭振忠. 美军作战云概念浅析[J]. 军事文摘, 2020(23): 59-63. (Wu Y H, Peng Z Z. Analysis of the concept of US military combat cloud[J]. Military Digest, 2020(23): 59-63.)
[24]	Mattingly R, May L. Mars sample return as a campaign[C]. 2011 Aerospace Conference. Big Sky, 2011: 1-13.
[25]	Fisher N T, Gilbert G R, Nightingale K, et al. Medical robotic and autonomous system technology enablers for the multi-domain battle 2030-2050[J]. Sat, 2017, 6: 32.
[26]	McDowell J C. The low earth orbit satellite population and impacts of the SpaceX starlink constellation[J]. The Astrophysical Journal Letters, 2020, 892(2): L36. DOI:10.3847/2041-8213/ab8016
[27]	Hoehn J R. Joint all domain command and control (JADC2)[R]. New York: Congressional Research Service, 2020.
[28]	张晓凯, 郭道省, 张邦宁. 空天地一体化网络研究现状与新技术的应用展望[J]. 天地一体化信息网络, 2021, 2(4): 19-26. (Zhang X K, Guo D X, Zhang B N. Research status of space-air-ground integrated network and application prospects of new technologies[J]. Space-Integrated-Ground Information Networks, 2021, 2(4): 19-26.)
[29]	陈静. 虹云工程首星[J]. 卫星应用, 2019(3): 77. (Chen J. The first star of Hongyun Project[J]. Satellite Application, 2019(3): 77.)
[30]	日本新版《防卫计划大纲》强化航天能力[J]. 军事文摘, 2019(3): 5.
[31]	Zheng H H, Yu H, Zhang Y Z, et al. The design of A tethered unmanned aerial vehicle(UAV)[C]. CMAAE 2021: 2021 International Conference on Mechanical, Aerospace and Automotive Engineering. Changsha, 2021: 74-79.
[32]	Korsah G A, Stentz A, Dias M B. A comprehensive taxonomy for multi-robot task allocation[J]. International Journal of Robotics Research, 2013, 32(12): 1495-1512. DOI:10.1177/0278364913496484
[33]	Choudhury S, Gupta J K, Kochenderfer M J, et al. Dynamic multi-robot task allocation under uncertainty and temporal constraints[J]. Autonomous Robots, 2022, 46(1): 231-247. DOI:10.1007/s10514-021-10022-9
[34]	Leahy K, Serlin Z, Vasile C I, et al. Scalable and robust algorithms for task-based coordination from high-level specifications(ScRATCHeS)[J]. IEEE Transactions on Robotics, 2022, 38(4): 2516-2535. DOI:10.1109/TRO.2021.3130794
[35]	Miloradović B, Çürüklü B, Ekström M, et al. GMP: A genetic mission planner for heterogeneous multirobot system applications[J]. IEEE Transactions on Cybernetics, 2022, 52(10): 10627-10638. DOI:10.1109/TCYB.2021.3070913
[36]	杨义, 杨苹. 面向集中式控制的微电网信息物理系统分层建模方法[J]. 中国电机工程学报, 2022, 42(19): 7088-7102. (Yang Y, Yang P. The hierarchical modeling approach for centralized control microgrid cyber physical system[J]. Proceedings of the CSEE, 2022, 42(19): 7088-7102. DOI:10.13334/j.0258-8013.pcsee.211120)
[37]	Guo M, Zavlanos M M, Dimarogonas D V. Controlling the relative agent motion in multi-agent formation stabilization[J]. IEEE Transactions on Automatic Control, 2014, 59(3): 820-826. DOI:10.1109/TAC.2013.2281480
[38]	Hou K, Yang Y J, Yang X R, et al. Distributed cooperative search algorithm with task assignment and receding horizon predictive control for multiple unmanned aerial vehicles[J]. IEEE Access, 2021, 9: 6122-6136. DOI:10.1109/ACCESS.2020.3048974
[39]	Kim K S, Kim H Y, Choi H L. A bid-based grouping method for communication-efficient decentralized multi-UAV task allocation[J]. International Journal of Aeronautical and Space Sciences, 2020, 21(1): 290-302. DOI:10.1007/s42405-019-00205-1
[40]	Bensaci C, Zennir Y, Pomorski D. A comparative study of STPA hierarchical structures in risk analysis: The case of a complex multi-robot mobile system[C]. 2018 2nd European Conference on Electrical Engineering and Computer Science. Bern, 2019: 400-405.
[41]	Banfi J, Messing A, Kroninger C, et al. Hierarchical planning for heterogeneous multi-robot routing problems via learned subteam performance[J]. IEEE Robotics and Automation Letters, 2022, 7(2): 4464-4471. DOI:10.1109/LRA.2022.3148489
[42]	Santos Rabelo M F, Santos Brandão A, Sarcinelli-Filho M. Centralized control for an heterogeneous line formation using virtual structure approach[C]. 2018 Latin American Robotic Symposium, 2018 Brazilian Symposium on Robotics(SBR) and 2018 Workshop on Robotics in Education. João Pessoa, 2018: 135-140.
[43]	Ebel H, Luo W, Yu F C, et al. Design and experimental validation of a distributed cooperative transportation scheme[J]. IEEE Transactions on Automation Science and Engineering, 2021, 18(3): 1157-1169. DOI:10.1109/TASE.2020.2997411
[44]	Hosseinzadeh Yamchi M, Mahboobi Esfanjani R. Distributed predictive formation control of networked mobile robots subject to communication delay[J]. Robotics and Autonomous Systems, 2017, 91: 194-207. DOI:10.1016/j.robot.2017.01.005
[45]	Mukherjee P, Santilli M, Gasparri A, et al. Distributed adaptive and resilient control of multi-robot systems with limited field of view interactions[J]. IEEE Robotics and Automation Letters, 2022, 7(2): 5318-5325. DOI:10.1109/LRA.2022.3155822
[46]	Mukherjee P, Gasparri A, Williams R K. Stable motion and distributed topology control for multi-agent systems with directed interactions[C]. 2017 IEEE 56th Annual Conference on Decision and Control. Melbourne, 2018: 3455-3460.
[47]	Mukherjee P, Santilli M, Gasparri A, et al. Experimental validation of stable coordination for multi-robot systems with limited fields of view using a portable multi-robot testbed[C]. 2019 International Symposium on Multi-Robot and Multi-Agent Systems. New Brunswick, 2019: 4-6.
[48]	Santilli M, Mukherjee P, Gasparri A, et al. Distributed connectivity maintenance in multi-agent systems with field of view interactions[C]. 2019 American Control Conference. Philadelphia, 2019: 766-771.
[49]	Ji M, Egerstedt M. Distributed coordination control of multiagent systems while preserving connectedness[J]. IEEE Transactions on Robotics, 2007, 23(4): 693-703. DOI:10.1109/TRO.2007.900638
[50]	Zavlanos M M, Pappas G J. Potential fields for maintaining connectivity of mobile networks[J]. IEEE Transactions on Robotics, 2007, 23(4): 812-816. DOI:10.1109/TRO.2007.900642
[51]	Dimarogonas D V, Kyriakopoulos K J. Connectedness preserving distributed swarm aggregation for multiple kinematic robots[J]. IEEE Transactions on Robotics, 2008, 24(5): 1213-1223. DOI:10.1109/TRO.2008.2002313
[52]	Rosenfelder M, Ebel H, Eberhard P. Cooperative distributed nonlinear model predictive control of a formation of differentially-driven mobile robots[J]. Robotics and Autonomous Systems, 2022, 150: 103993. DOI:10.1016/j.robot.2021.103993
[53]	Dai L, Cao Q, Xia Y Q, et al. Distributed MPC for formation of multi-agent systems with collision avoidance and obstacle avoidance[J]. Journal of the Franklin Institute, 2017, 354(4): 2068-2085. DOI:10.1016/j.jfranklin.2016.12.021
[54]	Gao Y L, Dai L, Xia Y Q, et al. Distributed model predictive control for consensus of nonlinear second-order multi-agent systems[J]. International Journal of Robust and Nonlinear Control, 2017, 27(5): 830-842. DOI:10.1002/rnc.3603
[55]	徐晓帆, 王妮炜, 高璎园, 等. 陆海空天一体化信息网络发展研究[J]. 中国工程科学, 2021, 23(2): 39-45. (Xu X F, Wang N W, Gao Y Y, et al. Development of land-sea-air-space integrated information network[J]. Strategic Study of CAE, 2021, 23(2): 39-45.)
[56]	Hu F, Hao Q, Bao K. A survey on software-defined network and openflow: From concept to implementation[J]. IEEE Communications Surveys & Tutorials, 2014, 16(4): 2181-2206.
[57]	Jarraya Y, Madi T, Debbabi M. A survey and a layered taxonomy of software-defined networking[J]. IEEE Communications Surveys & Tutorials, 2014, 16(4): 1955-1980.
[58]	Kreutz D, Ramos F M V, Veríssimo P E, et al. Software-defined networking: A comprehensive survey[J]. Proceedings of the IEEE, 2015, 103(1): 14-76. DOI:10.1109/JPROC.2014.2371999
[59]	Kim H, Feamster N. Improving network management with software defined networking[J]. IEEE Communications Magazine, 2013, 51(2): 114-119. DOI:10.1109/MCOM.2013.6461195
[60]	Bertaux L, Medjiah S, Berthou P, et al. Software defined networking and virtualization for broadband satellite networks[J]. IEEE Communications Magazine, 2015, 53(3): 54-60. DOI:10.1109/MCOM.2015.7060482
[61]	Mendoza F, Ferrús R, Sallent O. A traffic distribution scheme for 5G resilient backhauling using integrated satellite networks[C]. 2017 13th International Wireless Communications and Mobile Computing Conference. Valencia, 2017: 1671-1676.
[62]	陈俊彦, 李玥, 梁楚欣, 等. SDN多控制器部署及流量均衡研究[J]. 计算机工程与科学, 2021, 43(5): 830-835. (Chen J Y, Li Y, Liang C X, et al. SDN multi-controller deployment and traffic load balancing[J]. Computer Engineering & Science, 2021, 43(5): 830-835. DOI:10.3969/j.issn.1007-130X.2021.05.009)
[63]	Fan Z F, Yao J, Yang X H, et al. A multi-controller placement strategy based on delay and reliability optimization in SDN[C]. 2019 28th Wireless and Optical Communications Conference. Beijing, 2019: 1-5.
[64]	刘必果, 束永安, 付应辉. 基于多目标优化的软件定义网络负载均衡方案[J]. 计算机应用, 2017, 37(6): 1555-1559. (Liu B G, Shu Y A, Fu Y H. Load balancing scheme based on multi-objective optimization for software defined network[J]. Journal of Computer Applications, 2017, 37(6): 1555-1559.)
[65]	Chen H C, Cheng G Z, Wang Z M. A game-theoretic approach to elastic control in software-defined networking[J]. China Communications, 2016, 13(5): 103-109. DOI:10.1109/CC.2016.7489978
[66]	Hong D, Rappaport S S. Traffic model and performance analysis for cellular mobile radio telephone systems with prioritized and nonprioritized handoff procedures[J]. IEEE Transactions on Vehicular Technology, 1986, 35(3): 77-92. DOI:10.1109/T-VT.1986.24076
[67]	Hu Y F, Sheriff R E, Del Re E, et al. Satellite-UMTS traffic dimensioning and resource management technique analysis[J]. IEEE Transactions on Vehicular Technology, 1998, 47(4): 1329-1341. DOI:10.1109/25.728523
[68]	Cho S, Akyildiz I F, Bender M D, et al. A new connection admission control for spotbeam handover in LEO satellite networks[J]. Wireless Networks, 2002, 8(4): 403-415. DOI:10.1023/A:1015594724700
[69]	王祥鹤. 低轨卫星通信系统用户切换方案研究与实现[D]. 北京: 北京邮电大学, 2019. (Wang X H. Research and implementation of user handover scheme for low-orbit satellite communication system[D]. Beijing: Beijing University of Posts and Telecommunications, 2019.)
[70]	Bottcher A, Werner R. Strategies for handover control in low Earth orbit satellite systems[C]. Proceedings of IEEE Vehicular Technology Conference. Stockholm, 2002: 1616-1620.
[71]	Papapetrou E, Karapantazis S, Dimitriadis G, et al. Satellite handover techniques for LEO networks[J]. International Journal of Satellite Communications and Networking, 2004, 22(2): 231-245. DOI:10.1002/sat.783
[72]	Papapetrou E, Pavlidou F N. QoS handover management in LEO/MEO satellite systems[J]. Wireless Personal Communications, 2003, 24(2): 189-204. DOI:10.1023/A:1022569901936
[73]	Wang S G, Li Q, Xu M W, et al. Tiansuan constellation: An open research platform[C]. 2021 IEEE International Conference on Edge Computing. Chicago, 2022: 94-101.
[74]	Gupta L, Jain R, Vaszkun G. Survey of important issues in UAV communication networks[J]. IEEE Communications Surveys & Tutorials, 2016, 18(2): 1123-1152.
[75]	Masaracchia A, Nguyen L D, Duong T Q, et al. Energy-efficient and throughput fair resource allocation for TS-NOMA UAV-assisted communications[J]. IEEE Transactions on Communications, 2020, 68(11): 7156-7169. DOI:10.1109/TCOMM.2020.3014939
[76]	Zhang S H, Zhang H L, He Q C, et al. Joint trajectory and power optimization for UAV relay networks[J]. IEEE Communications Letters, 2018, 22(1): 161-164. DOI:10.1109/LCOMM.2017.2763135
[77]	Patel B, Srivastava S. Performance analysis of zone routing protocols in mobile ad hoc networks[C]. 2010 National Conference on Communications. Chennai, 2010: 1-5.
[78]	Yousaf F Z, Lessmann J, Loureiro P, et al. SoftEPC — Dynamic instantiation of mobile core network entities for efficient resource utilization[C]. 2013 IEEE International Conference on Communications. Budapest, 2013: 3602-3606.
[79]	Feng X X, Sun G F, Gan X Y, et al. Cooperative spectrum sharing in cognitive radio networks: A distributed matching approach[J]. IEEE Transactions on Communications, 2014, 62(8): 2651-2664. DOI:10.1109/TCOMM.2014.2322352
[80]	魏淑芝, 朱琦. 基于网络选择的视频通信带宽博弈算法[J]. 通信学报, 2015, 36(2): 216-224. (Wei S Z, Zhu Q. Bandwidth allocation games based on network selection for video communication[J]. Journal on Communications, 2015, 36(2): 216-224.)
[81]	Han C, Dianati M, Tafazolli R, et al. Analytical study of the IEEE 802.11p MAC sublayer in vehicular networks[J]. IEEE Transactions on Intelligent Transportation Systems, 2012, 13(2): 873-886. DOI:10.1109/TITS.2012.2183366
[82]	Kihl M, Bür K, Mahanta P, et al. 3GPP LTE downlink scheduling strategies in vehicle-to-infrastructure communications for traffic safety applications[C]. 2012 IEEE Symposium on Computers and Communications. Cappadocia, 2012: 448-453.
[83]	张海霞, 李腆腆, 李东阳, 等. 基于车辆行为分析的智能车联网关键技术研究[J]. 电子与信息学报, 2020, 42(1): 36-49. (Zhang H X, Li T T, Li D Y, et al. Research on vehicle behavior analysis based technologies for intelligent vehicular networks[J]. Journal of Electronics & Information Technology, 2020, 42(1): 36-49.)
[84]	Otsuki S, Miwa H. Contents delivery method using route prediction in traffic offloading by V2X[C]. 2015 International Conference on Intelligent Networking and Collaborative Systems. Taipei, 2015: 239-245.
[85]	夏元清. 云控制系统及其面临的挑战[J]. 自动化学报, 2016, 42(1): 1-12. (Xia Y Q. Cloud control systems and their challenges[J]. Acta Automatica Sinica, 2016, 42(1): 1-12. DOI:10.16383/j.aas.2016.c150541)
[86]	Xia Y Q. From networked control systems to cloud control systems[C]. Proceedings of the 31st Chinese Control Conference. Hefei, 2012: 5878-5883.
[87]	Xia Y Q. Cloud control systems[J]. IEEE/CAA Journal of Automatica Sinica, 2015, 2(2): 134-142. DOI:10.1109/JAS.2015.7081652
[88]	Xia Y Q, Qin Y M, Zhai D H, et al. Further results on cloud control systems[J]. Science China Information Sciences, 2016, 59(7): 073201. DOI:10.1007/s11432-016-5586-9
[89]	Xia Y Q, Zhang Y, Dai L, et al. A brief survey on recent advances in cloud control systems[J]. IEEE Transactions on Circuits and Systems Ⅱ: Express Briefs, 2022, 69(7): 3108-3114. DOI:10.1109/TCSII.2022.3178975
[90]	Mahmoud M S, Xia Y Q. The interaction between control and computing theories: New approaches[J]. International Journal of Automation and Computing, 2017, 14(3): 254-274. DOI:10.1007/s11633-017-1070-2
[91]	Mahmoud S, Mohamed N. Broker architecture for collaborative UAVs cloud computing[C]. 2015 International Conference on Collaboration Technologies and Systems. Atlanta, 2015: 212-219.
[92]	Thelin J. A comparison of service-oriented, resource-oriented, and object-oriented architecture styles[C]. OMG Workshop. Munich, 2003: 1-44.
[93]	Wagh K, Thool R. A comparative study of SOAP vs REST web services provisioning techniques for mobile host[J]. Journal of Information Engineering and Applications, 2012, 2(5): 12-16.
[94]	Guinard D, Trifa V, Pham T, et al. Towards physical mashups in the web of things[C]. 2009 6th International Conference on Networked Sensing Systems. Pittsburgh, 2010: 1-4.
[95]	Rodriguez A. Restful web services: The basics[J]. IBM Developer Works, 2008, 33: 18.
[96]	Liu S S, Liu L K, Tang J, et al. Edge computing for autonomous driving: Opportunities and challenges[J]. Proceedings of the IEEE, 2019, 107(8): 1697-1716. DOI:10.1109/JPROC.2019.2915983
[97]	Wu J, Zhang L Q, Chen T W. Model predictive control for networked control systems[J]. International Journal of Robust and Nonlinear Control, 2009, 19(9): 1016-1035. DOI:10.1002/rnc.1361
[98]	Vick A, Guhl J, Krüger J. Model predictive control as a service—Concept and architecture for use in cloud-based robot control[C]. 2016 21st International Conference on Methods and Models in Automation and Robotics. Miedzyzdroje, 2016: 607-612.
[99]	Ma Y L, Gao R Z, Dai L, et al. Cloud-based computational model predictive control using a parallel multi-block ADMM approach[J/OL]. 2022, arXiv: 2202.06012.
[100]	Dai L, Huang T, Gao R Z, et al. Cloud-based computational data-enabled predictive control[J]. IEEE Internet of Things Journal, 2022, 9(24): 24949-24962. DOI:10.1109/JIOT.2022.3194945
[101]	Sun Z Q, Dai L, Liu K, et al. Robust self-triggered MPC with adaptive prediction horizon for perturbed nonlinear systems[J]. IEEE Transactions on Automatic Control, 2019, 64(11): 4780-4787. DOI:10.1109/TAC.2019.2905223
[102]	侯忠生, 许建新. 数据驱动控制理论及方法的回顾和展望[J]. 自动化学报, 2009, 35(6): 650-667. (Hou Z S, Xu J X. On data-driven control theory: The state of the art and perspective[J]. Acta Automatica Sinica, 2009, 35(6): 650-667.)
[103]	Gao R Z, Xia Y Q, Dai L, et al. Design and implementation of data-driven predictive cloud control system[J/OL]. 2021, arXiv: 2112.14347.
[104]	Xia Y Q, Xie W, Liu B, et al. Data-driven predictive control for networked control systems[J]. Information Sciences, 2013, 235: 45-54. DOI:10.1016/j.ins.2012.01.047
[105]	Arulkumaran K, Deisenroth M P, Brundage M, et al. Deep reinforcement learning: A brief survey[J]. IEEE Signal Processing Magazine, 2017, 34(6): 26-38. DOI:10.1109/MSP.2017.2743240
[106]	刘旭光, 杜昌平, 郑耀. 基于强化迭代学习的四旋翼无人机轨迹控制[J]. 计算机应用, 2022, 42(12): 3950-3956. (Liu X G, Du C P, Zheng Y. Trajectory control of quadrotor drone based on reinforced iterative learning[J]. Journal of Computer Applications, 2022, 42(12): 3950-3956.)
[107]	严家政, 专祥涛. 基于强化学习的参数自整定及优化算法[J]. 智能系统学报, 2022, 17(2): 341-347. (Yan J Z, Zhuan X T. Parameter self-tuning and optimization algorithm based on reinforcement learning[J]. CAAI Transactions on Intelligent Systems, 2022, 17(2): 341-347.)
[108]	Wang B, Wang C H, Song Y, et al. A survey and taxonomy on workload scheduling and resource provisioning in hybrid clouds[J]. Cluster Computing, 2020, 23(4): 2809-2834. DOI:10.1007/s10586-020-03048-8
[109]	Gao R Z, Xia Y Q, Wang G, et al. Fast subspace identification method based on containerised cloud workflow processing system[J/OL]. 2021, arXiv: 2112.14349.
[110]	Singh L, Singh S. A survey of workflow scheduling algorithms and research issues[J]. International Journal of Computer Applications, 2013, 74(15): 21-28. DOI:10.5120/12961-0069
[111]	柳鹏, 刘波, 周娜琴, 等. 混合云工作流调度综述[J]. 计算机科学, 2022, 49(5): 235-243. (Liu P, Liu B, Zhou N Q, et al. Survey of hybrid cloud workflow scheduling[J]. Computer Science, 2022, 49(5): 235-243.)
[112]	Gao R Z, Li Q W, Dai L, et al. Workflow-based fast data-driven predictive control with disturbance observer in cloud-edge collaborative architecture[J/OL]. 2022, arXiv: 2209.07884.
[113]	Yuan H H, Xia Y Q, Zhang J H, et al. Stackelberg-game-based defense analysis against advanced persistent threats on cloud control system[J]. IEEE Transactions on Industrial Informatics, 2020, 16(3): 1571-1580. DOI:10.1109/TII.2019.2925035
[114]	Foroush H S, Martínez S. On triggering control of single-input linear systems UnderPulse-width modulated DoS signals[J]. SIAM Journal on Control and Optimization, 2016, 54(6): 3084-3105. DOI:10.1137/16M1069390
[115]	de Persis C, Tesi P. Input-to-state stabilizing control under denial-of-service[J]. IEEE Transactions on Automatic Control, 2015, 60(11): 2930-2944. DOI:10.1109/TAC.2015.2416924
[116]	Zhao Y H, He X, Zhou D H. Optimal joint control and triggering strategies against denial of service attacks: A zero-sum game[J]. IET Control Theory & Applications, 2017, 11(14): 2352-2360.
[117]	Islam U, Muhammad A, Mansoor R, et al. Detection of distributed denial of service (DDoS) attacks in IOT based monitoring system of banking sector using machine learning models[J]. Sustainability, 2022, 14(14): 8374. DOI:10.3390/su14148374
[118]	Gupta B B, Chaudhary P, Chang X J, et al. Smart defense against distributed denial of service attack in IoT networks using supervised learning classifiers[J]. Computers & Electrical Engineering, 2022, 98: 107726.
[119]	Shah Z, Ullah I, Li H L, et al. Blockchain based solutions to mitigate distributed denial of service (DDoS) attacks in the Internet of Things (IoT): A survey[J]. Sensors: Basel, Switzerland, 2022, 22(3): 1094. DOI:10.3390/s22031094
[120]	He W L, Gao X Y, Zhong W M, et al. Secure impulsive synchronization control of multi-agent systems under deception attacks[J]. Information Sciences, 2018, 459: 354-368. DOI:10.1016/j.ins.2018.04.020
[121]	Cui Y, Liu Y R, Zhang W B, et al. Sampled-based consensus for nonlinear multiagent systems with deception attacks: The decoupled method[J]. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2021, 51(1): 561-573. DOI:10.1109/TSMC.2018.2876497
[122]	李富强, 郜丽赛, 郑宝周, 等. 欺骗攻击下网络化系统事件触发安全控制[J]. 计算机工程与应用, 2021, 57(5): 264-270. (Li F Q, Gao L S, Zheng B Z, et al. Event-triggered secure control for networked systems under deception attacks[J]. Computer Engineering and Applications, 2021, 57(5): 264-270.)
[123]	Du D J, Zhang C D, Wang H K, et al. Stability analysis of token-based wireless networked control systems under deception attacks[J]. Information Sciences, 2018, 459: 168-182. DOI:10.1016/j.ins.2018.04.085
[124]	Mo Y L, Weerakkody S, Sinopoli B. Physical authentication of control systems: Designing watermarked control inputs to detect counterfeit sensor outputs[J]. IEEE Control Systems Magazine, 2015, 35(1): 93-109. DOI:10.1109/MCS.2014.2364724
[125]	胡健坤. 网络攻击环境下网络控制系统的算法设计[D]. 北京: 北京交通大学, 2021. (Hu J K. The algorithm designs for the networked control system under the network attacks[D]. Beijing: Beijing Jiaotong University, 2021.)
[126]	Cui B, Zhao C H, Ma T D, et al. Leaderless and leader-following consensus of multi-agent chaotic systems with unknown time delays and switching topologies[J]. Nonlinear Analysis: Hybrid Systems, 2017, 24: 115-131. DOI:10.1016/j.nahs.2016.11.007
[127]	Peng Z X, Wen G G, Rahmani A, et al. Leader-follower formation control of nonholonomic mobile robots based on a bioinspired neurodynamic based approach[J]. Robotics and Autonomous Systems, 2013, 61(9): 988-996. DOI:10.1016/j.robot.2013.05.004
[128]	Fax J A, Murray R M. Information flow and cooperative control of vehicle formations[J]. IEEE Transactions on Automatic Control, 2004, 49(9): 1465-1476. DOI:10.1109/TAC.2004.834433
[129]	Nourizadeh P, Yousefi-Koma A, Ayati M. Design and implementation of a fuzzy adaptive controller for time-varying formation leader-follower configuration of nonholonomic mobile robots[J/OL]. 2022, arXiv: 2205.11174.
[130]	Jiang B M, Deghat M, Anderson B D O. Simultaneous velocity and position estimation via distance-only measurements with application to multi-agent system control[J]. IEEE Transactions on Automatic Control, 2017, 62(2): 869-875. DOI:10.1109/TAC.2016.2558040
[131]	Han Z M, Guo K X, Xie L H, et al. Integrated relative localization and leader-follower formation control[J]. IEEE Transactions on Automatic Control, 2019, 64(1): 20-34. DOI:10.1109/TAC.2018.2800790
[132]	Lewis M A, Tan K H. High precision formation control of mobile robots using virtual structures[J]. Autonomous Robots, 1997, 4(4): 387-403. DOI:10.1023/A:1008814708459
[133]	Ren W, Beard R W. Decentralized scheme for spacecraft formation flying via the virtual structure approach[J]. Journal of Guidance, Control, and Dynamics, 2004, 27(1): 73-82. DOI:10.2514/1.9287
[134]	Beard R W, Lawton J, Hadaegh F Y. A feedback architecture for formation control[C]. Proceedings of the 2000 American Control Conference. Chicago, 2002: 4087-4091.
[135]	Do K D, Pan J. Nonlinear formation control of unicycle-type mobile robots[J]. Robotics and Autonomous Systems, 2007, 55(3): 191-204. DOI:10.1016/j.robot.2006.09.001
[136]	van den Broek T H A, van de Wouw N, Nijmeijer H. Formation control of unicycle mobile robots: A virtual structure approach[C]. Proceedings of the 48h IEEE Conference on Decision and Control (CDC) Held Jointly with 2009 28th Chinese Control Conference. Shanghai, 2010: 8328-8333.
[137]	Li X, Zhu D Q. An adaptive SOM neural network method for distributed formation control of a group of AUVs[J]. IEEE Transactions on Industrial Electronics, 2018, 65(10): 8260-8270.
[138]	Balch T, Arkin R C. Behavior-based formation control for multirobot teams[J]. IEEE Transactions on Robotics and Automation, 1998, 14(6): 926-939. DOI:10.1109/70.736776
[139]	Kuppan Chetty R M, Singaperumal M, Nagarajan T. Behavior based multi robot formations with active obstacle avoidance based on switching control strategy[J]. Advanced Materials Research, 2012, 433/434/435/436/437/438/439/440: 6630-6635.
[140]	Lee S K. Distributed deformable configuration control for multi-robot systems with low-cost platforms[J]. Swarm Intelligence, 2022, 16(3): 169-209. DOI:10.1007/s11721-022-00211-2
[141]	Langerwisch M, Wittmann T, Thamke S, et al. Heterogeneous teams of unmanned ground and aerial robots for reconnaissance and surveillance—A field experiment[C]. 2013 IEEE International Symposium on Safety, Security, and Rescue Robotics. Linköping, 2014: 1-6.
[142]	Handayani A S, Husni N L, Nurmaini S, et al. Formation control design for real swarm robot using fuzzy logic[C]. 2017 International Conference on Electrical Engineering and Computer Science. Palembang, 2017: 77-82.
[143]	Khatib O. Real-time obstacle avoidance for manipulators and mobile robots[C]. Proceedings of 1985 IEEE International Conference on Robotics and Automation. Louis, 2003: 500-505.
[144]	Zhang T, Zhu Y, Song J Y. Real-time motion planning for mobile robots by means of artificial potential field method in unknown environment[J]. Industrial Robot: An International Journal, 2010, 37(4): 384-400. DOI:10.1108/01439911011044840
[145]	Zhang M, Shen Y, Wang Q, et al. Dynamic artificial potential field based multi-robot formation control[C]. 2010 IEEE Instrumentation & Measurement Technology Conference Proceedings. Austin, 2010: 1530-1534.
[146]	Soodmand I, Kebbach M, Herrmann S, et al. An artificial potential field algorithm for path planning of redundant manipulators based on navigation functions[C]. Advances in Robot Kinematics 2022. Cham: Springer International Publishing, 2022: 470-477.
[147]	Kim J O, Khosla P. Real-time obstacle avoidance using harmonic potential functions[J]. IEEE Transactions on Robotics and Automation, 1992, 8(3): 338-349. DOI:10.1109/70.143352
[148]	Szulczyński P, Pazderski D, Kozłowski K. Real-time obstacle avoidance using harmonic potential functions[J]. Journal of Automation Mobile Robotics and Intelligent Systems, 2011, 5: 59-66.
[149]	Badawy A, McInnes C R. On-orbit assembly using superquadric potential fields[J]. Journal of Guidance, Control, and Dynamics, 2008, 31(1): 30-43. DOI:10.2514/1.28865
[150]	Wang X Y, Li X J, Guan Y, et al. Bidirectional potential guided RRT* for motion planning[J]. IEEE Access, 2019, 7: 95046-95057. DOI:10.1109/ACCESS.2019.2928846
[151]	Park M G, Lee M C, Son K. Real-time path planning in unknown environments using a virtual hill[J]. IFAC Proceedings Volumes, 2005, 38(1): 61-66.
[152]	Ye L J, Xia Y Q, Yang L W. A cost-aware scheduling algorithm for reliable workflow in IaaS clouds[C]. 2021 33rd Chinese Control and Decision Conference. Kunming, 2021: 275-280.
[153]	Yang L W, Xia Y Q, Ye L J. Heuristic scheduling method with the importance of earlier tasks for deadline constrained workflows in clouds[C]. 2021 40th Chinese Control Conference. Shanghai, 2021: 2402-2407.
[154]	Li M C, Liu C B, Li K L, et al. Multi-task allocation with an optimized quantum particle swarm method[J]. Applied Soft Computing, 2020, 96: 106603. DOI:10.1016/j.asoc.2020.106603
[155]	Dias M B. Traderbots: A new paradigm for robust and efficient multirobot coordination in dynamic environments[M]. Pittsburgh: Carnegie Mellon University, 2004: 17-61.
[156]	de Longueville M. A course in topological combinatorics[M]. Berlin: Springer, 2012: 1-31.
[157]	Vatsolaki P, Tsalpatouros A. EWOS: A sealed-bid auction system design and implementation for electricity interonnector capacity allocation[C]. IISA. Piraeus, 2013: 1-6.
[158]	Kim D, Moon W, Kim S. A study on method of advanced marker array[J]. IJSEIA, 2014, 8(6): 1-16. DOI:10.14257/ijsh.2014.8.6.01
[159]	Kim D, So Y, Kim S. Study of marker array list method for augmented reality service based smart home[J]. International Journal of Smart Home, 2011, 5(4): 51-64.
[160]	Yu D H, Zhou Z, Wang Y. Crowdsourcing software task assignment method for collaborative development[J]. IEEE Access, 2019, 7: 35743-35754. DOI:10.1109/ACCESS.2019.2905054
[161]	Cheikhrouhou O, Khoufi I. A comprehensive survey on the multiple traveling salesman problem: Applications, approaches and taxonomy[J]. Computer Science Review, 2021, 40: 100369. DOI:10.1016/j.cosrev.2021.100369
[162]	Hussein A, Khamis A. Market-based approach to multi-robot task allocation[C]. 2013 International Conference on Individual and Collective Behaviors in Robotics. Sousse, 2014: 69-74.
[163]	Coltin B, Veloso M. Mobile robot task allocation in hybrid wireless sensor networks[C]. 2010 IEEE/RSJ International Conference on Intelligent Robots and Systems. Taipei, 2010: 2932-2937.
[164]	Zlot R M. An auction-based approach to complex task allocation for multirobot teams[D]. Pittsburgh: Carnegie Mellon University, 2006.
[165]	Lenagh W H. Multi-robot task allocation: A spatial queuing approach[M]. Omaha: University of Nebraska at Omaha, 2013: 47-50.
[166]	Gavade R K. Multi-criteria decision making: An overview of different selection problems and methods[J]. International Journal of Computer Science and Information Technologies, 2014, 5(4): 5643-5646.
[167]	Gyani J, Ahmed A, Haq M A. MCDM and various prioritization methods in AHP for CSS: A comprehensive review[J]. IEEE Access, 2022, 10: 33492-33511. DOI:10.1109/ACCESS.2022.3161742
[168]	Sangwan O P. A framework for evaluating cloud computing services using AHP and TOPSIS approaches with interval valued spherical fuzzy sets[J]. Cluster Computing, 2022, 25(6): 4383-4396. DOI:10.1007/s10586-022-03679-z
[169]	Garg N, Singh D, Goraya M S. Optimal virtual machine scheduling in virtualized cloud environment using VIKOR method[J]. The Journal of Supercomputing, 2022, 78(4): 6006-6034. DOI:10.1007/s11227-021-04081-z
[170]	Wang B Y, Li H F, Lin Z W, et al. Temporal fusion pointer network-based reinforcement learning algorithm for multi-objective workflow scheduling in the cloud[C]. 2020 International Joint Conference on Neural Networks. Glasgow, 2020: 1-8.
[171]	周世阳, 程郁凡, 徐丰, 等. 基于深度强化学习的无人机间通信链路智能决策[J]. 信号处理, 2022, 38(7): 1424-1433. (Zhou S Y, Cheng Y F, Xu F, et al. Deep reinforcement learning based intelligent decision-making for communication links between UAVs[J]. Journal of Signal Processing, 2022, 38(7): 1424-1433. DOI:10.16798/j.issn.1003-0530.2022.07.008)
[172]	Wang Y, De Silva C W. Multi-robot box-pushing: Single-agent Q-learning vs. team Q-learning[C]. 2006 IEEE/RSJ International Conference on Intelligent Robots and Systems. Beijing, 2007: 3694-3699.
[173]	Cassano L, Sayed A H. Logical team Q-learning: An approach towards factored policies in cooperative MARL[J/OL]. 2020, arXiv: 2006.03553.
[174]	Littman M L. Markov games as a framework for multi-agent reinforcement learning[C]. Machine Learning Proceedings 1994. Amsterdam: Elsevier, 1994: 157-163.
[175]	Hu J, Wellman M P. Nash Q-learning for general-sum stochastic games[J]. Journal of machine learning research, 2003, 4: 1039-1069.
[176]	Sukhbaatar S, Szlam A, Fergus R. Learning multiagent communication with backpropagation[C]. Proceedings of the 30th International Conference on Neural Information Processing Systems. Barcelona, 2016: 2252-2260.
[177]	Lowe R, Wu Y I, Tamar A, et al. Multi-agent actor-critic for mixed cooperative-competitive environments[J]. Advances in Neural Information Processing Systems, 2017, 30: 1-12.
[178]	夏元清, 高润泽, 林敏, 等. 绿色能源互补智能电厂云控制系统研究[J]. 自动化学报, 2020, 46(9): 1844-1868. (Xia Y Q, Gao R Z, Lin M, et al. Green energy complementary based on intelligent power plant cloud control system[J]. Acta Automatica Sinica, 2020, 46(9): 1844-1868. DOI:10.16383/j.aas.c190581)
[179]	Cheon J H, Kim A, Kim M, et al. Homomorphic encryption for arithmetic of approximate numbers[C]. International Conference on the Theory and Application of Cryptology and Information Security. Springer, 2017: 409-437.