2. 上海机电工程研究所,上海 201109
2. Shanghai Institute of Mechanical and Electrical Engineering, Shanghai 201109, China
协同作战作为现代战争的主要作战模式, 需要根据作战任务合理地进行火力资源分配[1], 研究复杂作战环境中的协同火力分配问题, 对于提高整体作战效能具有重要的现实意义. 火力分配问题是以进攻成本最小化为目标将
传统的火力分配方法主要有精确算法和启发式方法. 精确算法主要适用于一些特定的火力分配问题, 如只有一种火力单元[8]或一个目标至多只能由一种武器进行攻击[9]. 精确算法虽然易理解, 但是, 对于大规模火力分配问题的求解时效性难以保障, 因此, 现有文献主要使用启发式算法求解大规模火力分配. Khosla[10]使用混合遗传算法求解带时间窗的动态火力分配问题; 于博文等[11]针对多阶段武器协同火力分配问题, 引入基于优势度矩阵的非支配排序改进了非支配排序遗传算法Ⅲ(non-dominated sorting genetic algorithm Ⅲ, NSGA-III); 孙海文等[12]构建了一个有关目标-火力节点-制导节点的匹配规则库, 可快速生成火力分配方案. 虽然使用启发式算法和精确算法进行火力分配已取得了一系列研究成果, 但是, 这两类方法主要依托于对作战环境信息的提取和挖掘, 要求决策人员掌握专业的领域知识来构建数学模型和设计搜索规则, 且需要充足的计算时间才能找到较优解. 随着军事智能技术的广泛应用, 战争形态正由机械化战争、信息化战争向智能化战争快速演变[13], 启发式算法和精确算法已难以应对瞬息万变的战场环境.
为了解决在大规模、信息不完全、多约束战场背景下, 传统的火力分配算法无法在短时间内快速决策和动态响应的不足, 基于学习的优化方法开始应用于作战决策. 基于学习的优化方法利用离线训练的优势, 通过在训练集上学习到一个表征输入数据与解间映射关系的模型, 可在新的测试案例上快速给出火力分配方案[14]. 自主学习的特点使得基于学习的优化方法不需要充足的领域知识进行人为的推理设计和调参, 可在信息不完全的环境中更加灵活地建模. 因此, 这种方法已广泛应用于人类生产生活的各领域, 如视频游戏[15-16]、机器人控制[17]以及图像识别[18]等.按照在训练集上学习方式的不同, 基于学习的优化方法可分为监督学习、无监督学习和强化学习3种[19-20].监督学习是指模型从带有标签的数据集上进行学习; 无监督学习与监督学习相反, 模型是从没有标签的数据集上进行学习; 强化学习则通过模型与环境的自主互动和试错产生相应的数据集用于学习. 3类学习方法中, 监督学习和无监督学习相比于强化学习存在泛化性较差的技术瓶颈[21-22], 难以适应多变未知的战场环境, 因此, 强化学习算法更加广泛应用于作战决策. 黄亭飞等[23]使用深度
虽然使用强化学习算法进行火力资源分配已被验证可快速有效地求解问题, 但是从现有的文献[23, 25]可以看出, 当前应用强化学习方法求解的火力分配问题多集中于对单个火力平台的资源分配, 不涉及多火力平台间的协同作战. 协同作战作为典型的多智能体学习问题, 由于需要对战场态势信息进行综合考虑而导致动作空间巨大, 直接应用强化学习求解存在奖励稀疏、训练难收敛等问题. 于博文等[26]针对这一难题, 采用“分而治之”的策略, 将整个战场的作战决策分为宏观的战役决策和微观的战术决策, 有效解决了复杂装备体系下的作战决策问题. 本文根据文献[26]“分而治之”的思想, 针对多平台协同火力分配问题提出一种融合启发式算法与强化学习的求解方法—– HARL(a combination approach of heuristic algorithm and reinforcement learning). 该方法基于任务分解策略将复杂的决策问题分解为两个求解阶段: 首先利用强化学习模型选择攻击当前目标点的火力平台, 然后使用启发式算法对所选择的火力平台进行火力资源分配. 以海空联合协同火力打击为应用场景的多组实验结果表明, 所提出HARL方法既能够改善传统启发式方法求解时间长的缺陷, 又能够加快强化学习模型的收敛速度, 为未来求解多约束、结构复杂的决策优化问题提供新思路.
1 多平台协同火力分配问题描述多平台协同火力分配问题是一种对装载不同武器单元的多个火力平台进行作战资源协同分配的优化问题, 要求在完成对所有目标点攻击的同时使得总武器消耗量最少. 多平台协同火力分配问题需要考虑不同武器单元的射程、对不同目标点的杀伤率以及平台携带的武器数量限制等约束, 是一个复杂的多约束优化问题.
本文以海空联合多平台火力打击为作战背景, 假设作战单元拥有
| $ \begin{align} &{\rm minimize} \; \sum\limits_{j=1}^{N}\sum\limits_{i=1}^{M}\sum\limits_{k=1}^{W} x_{j, i, k}\times v_{j, i, k}. \end{align} $ | (1) |
| $ \begin{align} &\; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \sum\limits_{i=1}^{M}\sum\limits_{k=1}^{W}x_{j, i, k}\times p_{j, i, k} \geqslant 1, \; \forall j\in [1, N]; \end{align} $ | (2) |
| $ \begin{align} &\; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \sum\limits_{j=1}^{N}x_{j, i, k}\times v_{j, i, k}\leqslant V_{i, k}; \end{align} $ | (3) |
| $ \begin{align} &\; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; L_0\leqslant\sqrt{({X_i-X_j})^{2}+({Y_i-Y_j})^{2}}\leqslant L_f ; \end{align} $ | (4) |
| $ \begin{align} &\; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; x_{j, i, k}\in [0, 1]. \end{align} $ | (5) |
其中: 式(1)为该问题的目标函数, 即最小化攻击所有目标点所需的武器数量; 式(2)规定了目标点的损伤率总和大于等于1时, 该目标点才能被击毁; 式(3)表示每个平台上所搭载的火力单元均具有各自的容量约束, 即该种火力单元攻击所有目标的武器消耗量总和不能超过其最大装载量; 式(4)表示每种火力单元
由第1节中的问题描述可知, 多平台协同火力分配问题具有决策空间大、约束多、结构复杂的特点.传统的火力分配问题研究多集中于单个火力平台的资源分配, 使用的方法主要为启发式算法. 经典的启发式算法依赖于专家知识设计有效的搜索规则, 在求解结构复杂的决策问题时需要足够的计算时间搜索可行解, 在实际作战时难以高效地作出决策. 近年来引起广泛关注的强化学习模型通过离线训练, 可在应用时快速地给出决策方案, 但是, 该方法在大规模作战场景下易遇到学习效率低、收敛难的技术瓶颈. 为了弥补两种算法各自的不足, 本文分析多平台协同火力分配问题的内在逻辑顺序, 基于任务分解策略将强化学习与启发式算法有效结合, 提出一种新的强化学习求解方法—– HARL方法, 该求解方法的数学模型如下式所示:
| $ \begin{align} &{\rm Num}=\sum\limits_{j=1}^{N}\sum\limits_{i=1}^{M}t_{j, i}\sum\limits_{k=1}^{W}u_{j, i, k}\times v_{j, i, k}; \end{align} $ | (6) |
| $ \begin{align} &F(S)\rightarrow \{t_{j, 0}, t_{j, 1}, \ldots, t_{j, M}\}, \; \forall j\in [1, N]; \end{align} $ | (7) |
| $ \begin{align} &\sum\limits_{i=1}^{M}t_{j, i}\sum\limits_{k=1}^{W}u_{j, i, k}\times p_{j, i, k}\geqslant 1, \; \forall j\in [1, N]; \end{align} $ | (8) |
| $ \begin{align} &\min\Big(\sum\limits_{i=1}^{M}t_{j, i}\sum\limits_{k=1}^{W}u_{j, i, k}\times v_{j, i, k}\Big), \; \forall j\in [1, N]; \end{align} $ | (9) |
| $ \begin{align} &0 \leqslant v_{j, i, k} \leqslant V_{j, i, k}; \end{align} $ | (10) |
| $ \begin{align} &V_{j, i, k}= \left\{\begin{aligned} &V_{i, k}^{\max}, \; j=0;\\ &V_{j-1, i, k}-v_{j-1, i, k} , \; j \neq 0; \end{aligned} \right. \end{align} $ | (11) |
| $ \begin{align} &t_{j, i}\in [0, 1], \; u_{j, i, k}\in [0, 1]. \end{align} $ | (12) |
其中: 式(6)用于计算攻击所有目标点消耗的武器数量,
HARL方法通过将复杂的火力分配问题划分为两个子任务层: 子目标平台分配层和子平台火力分配层, 首先使用强化学习算法在子目标平台分配层为攻击的目标选择火力平台, 然后使用启发式算法为所选择的平台进行火力资源的分配, HARL的求解框架如图 1所示.
|
图 1 基于任务分解的多平台协同火力分配问题求解框架 |
本文使用强化学习算法中的DQN算法(deep
| $ \begin{align} &Q^{*}(s, a)\gets \\ &Q(s, a)+\alpha[r+\gamma \max\limits_{a'}Q(s', a')-Q(s, a)]. \end{align} $ | (13) |
DQN算法作为最早的深度强化学习算法之一, 通过融合深度神经网络和
由式(13), DQN的损失函数可定义为
| $ \begin{align} L(\theta)=E[(Q_{\rm target}-Q(s, a, \theta))^{2}]. \end{align} $ | (14) |
其中:
| $ \begin{align} Q_{\rm target}=r+\gamma \max\limits_aQ(s', a', \theta'). \end{align} $ | (15) |
在获得损失函数后, 可直接采用梯度下降算法对神经网络模型损失函数
本文使用两个全连接的神经网络搭建强化学习模型: 用于评估当前的状态-动作值函数
根据搜索方法的不同, 可用于火力分配的启发式算法包括3类[28]: 1)基于贪婪准则的启发式算法, 这类算法结构简单, 求解速度快, 但是易陷入局部最优. 2)基于种群进化的元启发式算法, 如遗传算法、差分进化算法等. 进化算法通过模拟生物在自然界中的进化, 具有自适应的特点, 保留求解质量好的可行解作为父代产生子代, 具有高鲁棒性和强探索性的特点. 3)基于单点随机搜索的元启发式算法, 包括禁忌搜索、大规模邻域搜索算法等. 这类算法的搜索规则具有策略性, 增加了对搜索算子效果的评估和考量.本文从以上3类启发式算法中, 选取具有代表性的贪婪算法[29]、大规模邻域搜索算法[30]以及遗传算法[31]用于子平台火力分配层.
1) 贪心算法.
贪心算法(greedy algorithm, G)是最简单的启发式算法之一. 贪心算法从初始解开始, 基于迭代的方法, 从一代到下一代寻求更好的解决方案[29]. 贪心算法包含破坏、重建以及最优性评判3个步骤. 首先, 贪心算法会随机构造初始解
2) 遗传算法.
遗传算法(genetic algorithm, GA)模仿了适者生存的方式, 是一种基于自然选择和遗传机制的启发式搜索方法[32], 在每次迭代优化时会根据适应度函数的大小选择优良父代解产生新的邻域解集. 适应度函数是指通过指定一个与种群生存能力成比例的数值适应度值来评估当前种群子代的优良[31], 适应度函数值
| $ \begin{align} p_i=f_i\Big/\sum\limits_{i=1}^{\rm NP}f_i. \end{align} $ | (16) |
3) 大规模邻域搜索算法.
大规模邻域搜索算法(large-scale neighborhood search algorithm, LNS)是Shaw[34]于1997年提出的一种新的邻域搜索算法. 传统的邻域搜索算法通常只探索邻近区域, 这些区域可相对较快地完成解的寻找, 但是易陷入局部最优解. 与这些算法相比, 大规模邻域搜索算法基于目标函数最大化原则[35], 可探索更广阔的解空间. 大规模邻域搜素算法主要包括“破坏”和“修复”两个操作, “破坏”算子通过随机移除部分元素对当前解进行破坏, 产生部分不可行解; 而“修复”算子则通过插入新的元素使得不可行解变成可行解.
3类启发式算法通过综合考虑各火力单元的射程约束、数量约束以及对不同目标点的杀伤率3个准则设计搜索规则, 并以完成对目标点的完全攻击(各火力单元杀伤率的累计和达到1)为基本要求, 按照火力单元的总消耗数量构造评价函数.
3.2 HARL算法流程HARL算法基于任务分解策略, 将复杂的多火力平台协同作战问题按照“先分配再执行”的原则进行分阶段处理. HARL算法的构建包含状态、动作、动作策略以及奖励4个要素, 该4要素的定义和作用流程如下.
1) 状态: 首先将当前环境信息作为强化学习模型的状态输入, 该信息包含目标点的位置、
| $ \begin{align} &S_j=\{(x_j, y_j), [(x_1, y_1), (x_2, y_2), \ldots, (x_M, y_M)], \\ &(p_{j, i, 1}, p_{j, i, 2}, \ldots, p_{j, i, W}), [V_{j, i, 1}, V_{j, i, 2}, \ldots, V_{j, i, W}] \}. \end{align} $ | (17) |
其中:
2) 动作: 在输入状态后, 模型会根据动作选择策略
| $ \begin{align} a_j=\{t_{j, 0}, t_{j, 1}, \ldots, t_{j, M}\}, \; t_{j, i}\in [0, 1]. \end{align} $ | (18) |
3) 动作策略: 为了平衡“探索”与“利用”, 增强模型搜索过程中的随机性, 采用
| $ \begin{align} \pi(a|s)= \left\{\begin{aligned} &\arg\max\limits_a{Q^{\pi}(S, a)}, \; \text{概率为} 1-\epsilon;\\ &a , \; \text{概率为}\frac{\epsilon}{|A|}. \end{aligned} \right. \end{align} $ | (19) |
其中:
4) 奖励: 智能体根据第2节的数学模型, 以式(9)为目标函数, 在式(8)和(10)的约束下, 为所选择的子平台调用启发式算法分配火力资源, 并将消灭目标点
| $ \begin{align} r_j=-\sum\limits_{i=1}^{M}t_{j, i}\sum\limits_{k=1}^{W}u_{j, i, k}\times v_{j, i, k}. \end{align} $ | (20) |
由第2节数学模型可知, 模型的目标函数是使得最后消耗的弹药数量最少, 因此, 以消耗弹药量的负值作为奖励会促使智能体选择弹药数量消耗少的分配方案, 从而不断优化模型参数, 提升模型所规划火力分配方案的优化性.
为了便于实验中进行对比分析, 本文根据子目标平台分配层使用的强化学习算法以及子平台火力分配层使用的启发式算法, 对用于实验的3种HARL求解方法分别命名为HDQNG(a hybrid of deep-
在线测试时, HARL方法中的子目标平台分配层通过离线训练, 可直接选出攻击子目标的火力平台,
由以上的对比分析可知, HARL求解方法利用任务分解策略减小了启发式算法每次分配火力资源时需要遍历的火力单元总数, 启发式算法只需要对确定的火力平台进行资源的组合分配, 要规划的火力单元数量从
本文在配置为Core i7-9800x 3.8GHz CPU, 16GB内存, 单GPU 2080Ti, Windows 10操作系统的计算机上, 使用Python3进行实验仿真. 以复杂约束环境下的多平台协同火力打击问题为仿真实验背景, 在海空联合作战典型场景下对所提出算法的性能进行了评估验证. 仿真实验的目标是击毁目标区域(北纬[25°, 30°], 东经[90°, 110°])的多个战略驻地, 以实现对该区域的控制. 在仿真实验中, 我方作战平台主要是多艘战舰和多架战机, 其中战舰分别部署于A地外海(27° N, 95° E)和B地以北(27° N, 105° E), 战机均是从C地(29° N, 105° E)起飞, 各武器平台上分别携带数枚不同的火力单元. 战舰上主要配置弹头1-1、弹头1-2和弹头1-3, 战机携带数枚弹头2-1、弹头2-2、弹头2-3以及弹头2-4, 各火力单元的射程范围和歼击机的航程约束如表 1所示.
| 表 1 火力单元参数表 |
本文基于上述复杂环境下多火力平台协同目标打击的作战想定, 通过使用改变目标点数量, 作战平台数量及其携带的火力单元数量, 共生成9种测试案例, 各测试案例的具体设置如表 2所示.
| 表 2 测试案例武器平台和弹药量明细 |
为了全面比较所提出HARL算法的性能, 本文从时效性和优化性两方面进行测试, 并以经典强化学习模型DQN以及蚁群优化算法(ant colony optimizaion algorithm, ACO)和模拟退火方法(simulate anneal algorithm, SA)两种有效的传统优化算法作为对比算法, 并通过多次实验, 确定各对比算法的最优参数设置. 实验设计可分为以下两方面.
1) 为了验证所提出算法模型的学习能力, 对比所提出3种HARL算法(HDQNG、HDQNGA、HDQNLNS)与DQN的学习曲线.
2) 为了验证所提出算法模型的时效性和最优化, 将3种HARL算法与ACO算法、SA算法、DQN算法在9种测试案例上进行实验对比.
4.2 实验结果对比和分析收敛曲线是分析强化学习模型学习能力的一种重要手段, 曲线收敛得越快, 模型的学习能力越强; 曲线的损失值越小, 模型在训练样本上的优化性越高. 本文对比了所提出3种HARL算法与单一的DQN算法在经过100回合训练的收敛曲线, 训练结果如图 2所示. 由图 2可见, 所提出3种算法在相同训练环境下迭代相同回合数后, 均能够很快收敛. 另外值得注意的是, HDQNG虽然收敛后的损失值略高于DQN, 但是, 单一的DQN模型在训练过程中不稳定, 训练曲线震荡较严重, HARL算法明显要比单一的DQN模型更加稳定. 因此可得到如下结论: 面对大规模、多约束的复杂决策问题, 单一的强化学习模型易受到动作空间过大的影响, 收敛速度慢甚至不稳定, 学习效率低下. 通过结合启发式算法, 能够极大地提高强化学习模型的学习能力和收敛速度. 此外, 对比3类HARL算法可以发现, HDQNG相比于HDQNGA与HDQNLNS的学习曲线更为平缓, 但是, 收敛后的损失值也更高. 这一现象是由于贪心算法相比于遗传算法与大规模邻域算法搜索规则更简单, 使得它对解空间的搜索能力也相对更弱, 能够较快地收敛于局部最优解. 遗传算法和大规模邻域算法能够探索到更广阔的解空间, 有助于寻找更有潜力的解, 从而在经过相同训练回合后模型性能更好.
|
图 2 强化学习算法训练曲线 |
除了对比HARL算法的学习能力, 本文还对比了所提出HARL算法与3种对比算法在测试案例上的求解时间以及所消耗武器单元的总数. 图 3为6种算法在exp.1
|
图 3 各实验算法在测试案例上计算时间对比 |
为了更加有力地验证所提出算法的优异性, 表 3中展示了所有测试算法在测试案例上火力规划所消耗的武器数量. 由表 3可见, 3种HARL算法在9个测试案例上的结果均为最优, 在摧毁敌方所有目标时能够消耗更少的武器数量. 以exp.6为例, HDQNG的武器消耗量比DQN降低了16.7%, 比ACO降低了35.2%, 比SA降低了7.9%; HDQNLNS的武器消耗量比DQN减少了21.4%, 比ACO减少了38.9%, 比SA减少了13.2%; HDQNGA的武器消耗量比DQN下降了23.8%, 比ACO下降了40.7%, 比SA下降了15.8%.
| 表 3 实验算法在不同测试案例上决策所消耗的武器数量 |
图 4为不同算法在仿真实验上的武器消耗量对比. 由图 4可见, 3种HARL算法对应的武器消耗量曲线始终处于图表的最下方, 与其他算法具有很大的差距. HARL方法通过结合启发式算法, 使得火力分配方案的攻击成本相比于单一的DQN模型下降了15%左右.
|
图 4 不同算法在仿真实验上的武器消耗量对比 |
此外, 为了进一步比较算法的整体性能, 本文进行了Freidmen非参数检验. 图 5为不同算法在仿真实验结果的Freidmen检验. 图 5中: 各算法对应的小横条越靠左, 表明算法性能越好; 两种算法的横条的重叠区域越多, 表明这两种算法的性能越接近. 由图 5可见, 3种HARL算法的性能更优. 其中: HDQNLNS性能最优, 而HDQNGA性能稍逊, HDQNG算法性能是3种HARL算法中最差的.
|
图 5 不同算法在仿真实验结果的Freidmen检验 |
复杂作战环境下的多平台火力协同分配是作战决策中一个亟待解决的问题, 直接采用单一的强化学习模型存在奖励稀疏、训练难收敛等技术瓶颈, 而传统启发式方法的求解时效性难以保证. 因此, 本文基于任务分解策略, 提出了一种结合启发式算法的强化学习求解方法, 本文的研究工作具有以下几点重要意义.
1) 基于任务分解策略结合启发式算法和强化学习的求解方法, 能够有效地加快强化学习模型的收敛速度, 同时减小计算复杂度, 相比于经典的启发式算法求解时间缩短了20%以上. 一系列仿真实验表明, 基于任务分解策略的HARL算法能够更加有效地应用于实际作战环境.
2) 本文首次探索了结合启发式算法和强化学习求解复杂决策问题的可能性, 并通过实验验证了融合不同的启发式算法会对所提出HARL方法的求解性能造成一定的影响. 本文的研究工作可令读者对算法融合技术有所启发, 提出更有效的融合算法解决不同领域的决策问题.
| [1] |
Rai R N, Bolia N. Optimal decision support for air power potential[J]. IEEE Transactions on Engineering Management, 2014, 61(2): 310-322. DOI:10.1109/TEM.2013.2293420 |
| [2] |
Murphey R A. Target-based weapon target assignment problems[M]. Boston: Combinatorial Optimization, 2000: 39-53.
|
| [3] |
Ahuja R K, Kumar A, Jha K C, et al. Exact and heuristic algorithms for the weapon-target assignment problem[J]. Operations Research, 2007, 55(6): 1136-1146. DOI:10.1287/opre.1070.0440 |
| [4] |
Lloyd S P, Witsenhausen H S. Weapons allocation is NP-complete[C]. Proceedings of the IEEE Summer Simulation Conference. Reno, 1986: 1054-1058.
|
| [5] |
Olwell D, Washburn A. Internetting of fires[R]. Monterey: Naval Postgraduate School, 2002: 1-35.
|
| [6] |
Eckle A R, Burr S A. Mathematical models of target coverage and missile allocation[M]. Alexandria: Military Operations Research Society, 1972: 1-282.
|
| [7] |
Cai H P, Liu J X, Chen Y W, et al. Survey of the research on dynamic weapon-target assignment problem[J]. Journal of Systems Engineering and Electronics, 2006, 17(3): 559-565. DOI:10.1016/S1004-4132(06)60097-2 |
| [8] |
Denbroeder G G J, Ellison R E, Emerling L. On optimum target assignments[J]. Operations Research, 1959, 7(3): 322-326. DOI:10.1287/opre.7.3.322 |
| [9] |
Chang S C, James R M, Shaw J J. Assignment algorithm for kinetic energy weapons in boost phase defence[C]. The 26th IEEE Conference on Decision and Control. Los Angeles, 2007: 1678-1683.
|
| [10] |
Khosla D. Hybrid genetic approach for the dynamic weapon-target allocation problem[C]. Aerospace/Defense Sensing, Simulation, and Controls. Orlando, 2001: 244-259.
|
| [11] |
于博文, 吕明. 基于D-NSGA-GKM算法的多阶段武器协同火力分配方法[J]. 控制与决策, 2022, 37(3): 605-615. (Yu B W, Lv M. Optimization method for multi-stage collaborative weapon firepower distribution based on D-NSGA-GKM algorithm[J]. Control and Decision, 2022, 37(3): 605-615.) |
| [12] |
孙海文, 谢晓方, 庞威, 等. 基于改进火力分配模型的综合防空火力智能优化分配[J]. 控制与决策, 2020, 35(5): 1102-1112. (Sun H W, Xie X F, Pang W, et al. Integrated air defense firepower intelligence optimal assignment based on improved firepower assignment model[J]. Control and Decision, 2020, 35(5): 1102-1112.) |
| [13] |
易凯, 张修社, 韩春雷, 等. 分布式智能作战决策应用发展与关键技术[J]. 现代导航, 2021, 12(1): 46-51. (Yi K, Zhang X S, Han C L, et al. Application development and key technologies of distributed intelligent operation decision-making[J]. Modern Navigation, 2021, 12(1): 46-51.) |
| [14] |
Li B, Wu G, He Y, et al. An overview and experimental study of learning-based optimization algorithms for vehicle routing problem[J/OL]. 2021, arXiv: 2107.07076.
|
| [15] |
Bellemare M G, Naddaf Y, Veness J, et al. The arcade learning environment: An evaluation platform for general agents[J/OL]. 2012, arXiv: 1207.4708.
|
| [16] |
Silver D, Huang A, Maddison C J, et al. Mastering the game of Go with deep neural networks and tree search[J]. Nature, 2016, 529(7587): 484-489. DOI:10.1038/nature16961 |
| [17] |
Levine S, Finn C, Darrell T, et al. End-to-end training of deep visuomotor policies[J]. The Journal of Machine Learning Research, 2016, 17(1): 1334-1373. |
| [18] |
Xu K, Ba J L, Kiros R, et al. Show, attend and tell: Neural image caption generation with visual attention[C]. Proceedings of the 32nd International Conference on Machine Learning. Lille, 2015: 2048-2057.
|
| [19] |
Ayodele T O. Types of machine learning algorithms[J]. New Advances in Machine Learning, 2010, 3: 19-48. |
| [20] |
Bishop C M, Nasrabadi N M. Pattern recognition and machine learning[M]. New York: Springer, 2006: 1-32.
|
| [21] |
Kaelbling L P, Littman M L, Moore A W. Reinforcement learning: A survey[J]. Journal of Artificial Intelligence Research, 1996, 4: 237-285. DOI:10.1613/jair.301 |
| [22] |
Sutton R S, Barto A G. Reinforcement learning: An introduction[J]. IEEE Transactions on Neural Networks, 1998, 9(5): 1054. |
| [23] |
黄亭飞, 程光权, 黄魁华, 等. 基于DQN的多类型拦截装备复合式反无人机任务分配方法[J]. 控制与决策, 2022, 37(1): 142-150. (Huang T F, Cheng G Q, Huang K H, et al. Task assignment method of compound anti-drone based on DQN for multi type interception equipment[J]. Control and Decision, 2022, 37(1): 142-150.) |
| [24] |
Luo W L, Lv J H, Liu K X, et al. Learning-based policy optimization for adversarial missile-target assignment[J]. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2022, 52(7): 4426-4437. |
| [25] |
阎栋, 苏航, 朱军. 基于DQN的反舰导弹火力分配方法研究[J]. 导航定位与授时, 2019, 6(5): 18-24. (Yan D, Su H, Zhu J. Research on fire distribution method of anti-ship missile based on DQN[J]. Navigation Positioning and Timing, 2019, 6(5): 18-24.) |
| [26] |
于博文, 吕明, 张捷. 基于分层强化学习的联合作战仿真作战决策算法[J]. 火力与指挥控制, 2021, 46(10): 140-146. (Yu B W, Lv M, Zhang J. Joint operation simulation decision-making algorithm based on hierarchical reinforcement learning[J]. Fire Control & Command Control, 2021, 46(10): 140-146.) |
| [27] |
Mnih V, Kavukcuoglu K, Silver D, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015, 518(7540): 529-533. |
| [28] |
Cordeau J F, Laporte G. Tabu search heuristics for the vehicle routing problem[M]. Boston: Kluwer Academic Publishers, 2005: 145-163.
|
| [29] |
Kang Q M, He H, Song H M. Task assignment in heterogeneous computing systems using an effective iterated greedy algorithm[J]. Journal of Systems and Software, 2011, 84(6): 985-992. |
| [30] |
Quimper C G, Rousseau L M. A large neighbourhood search approach to the multi-activity shift scheduling problem[J]. Journal of Heuristics, 2010, 16(3): 373-392. |
| [31] |
Eun Y, Bang H. Cooperative task assignment/path planning of multiple unmanned aerial vehicles using genetic algorithm[J]. Journal of Aircraft, 2009, 46(1): 338-343. |
| [32] |
Bai X S, Yan W S, Ge S S, et al. An integrated multi-population genetic algorithm for multi-vehicle task assignment in a drift field[J]. Information Sciences, 2018, 453: 227-238. |
| [33] |
Mitchell M. An introduction to genetic algorithms[M]. Cambridge: MIT Press, 1998: 1-221.
|
| [34] |
Shaw P. A new local search algorithm providing high quality solutions to vehicle routing problems[R]. Glasgow: University of Strathclyde, 1997.
|
| [35] |
Schrimpf G, Schneider J, Stamm-Wilbrandt H, et al. Record breaking optimization results using the ruin and recreate principle[J]. Journal of Computational Physics, 2000, 159(2): 139-171. |

