控制与决策  2019, Vol. 34 Issue (8): 1577-1588  
0

引用本文 [复制中英文]

雷晓云, 张志安. 二维弹道修正机构方案与修正控制算法综述[J]. 控制与决策, 2019, 34(8): 1577-1588.
[复制中文]
LEI Xiao-yun, ZHANG Zhi-an. Overview of correction mechanism scheme and control algorithm of two dimensional trajectory correction projectile[J]. Control and Decision, 2019, 34(8): 1577-1588. DOI: 10.13195/j.kzyjc.2018.0854.
[复制英文]

基金项目

国家自然科学基金项目(11372142);江苏省科研与实践创新计划项目(KYCX18_0467)

作者简介

雷晓云(1990-), 女, 博士生, 从事智能弹药及其应用等研究, E-mail: lxyray@126.com;
张志安(1979-), 男, 副教授, 博士, 从事智能弹药等研究, E-mail: zzayoyo@163.com

通讯作者

张志安, E-mail: zzayoyo@163.com

文章历史

收稿日期:2018-06-22
修回日期:2019-01-24
二维弹道修正机构方案与修正控制算法综述
雷晓云 , 张志安     
南京理工大学 机械工程学院,南京 210094
摘要:二维弹道修正弹是对制式弹药的智能化改造, 是一种低成本且具有一定打击精度的新型“简易制导”弹药.在此, 介绍近几年主流的二维弹道修正机构方案, 分析各机构的适用条件和实施难点所在.对于修正控制算法方面, 总结应用非智能算法进行修正控制的优缺点, 着重介绍近年来发展迅猛的智能控制算法在制导控制方面的应用, 并简述智能算法在弹道修正控制领域应用时需进一步研究的方向和问题.
关键词二维弹道修正弹    修正机构    智能算法    状态估计    人工智能    强化学习    
Overview of correction mechanism scheme and control algorithm of two dimensional trajectory correction projectile
LEI Xiao-yun , ZHANG Zhi-an     
College of Mechanical Engineering, Nanjing University of Science and Technology, Nanjing 210094, China
Abstract: The two dimensional trajectory correction projectile, as a new type of simple guided ammunition with low cost and certain precision, is recreated from the manufactured projectile. This paper introduces the mainstream two dimensional trajectory correction mechanisms in recent years and analyzes the application conditions and difficulties of each mechanism. In term of correction algorithms, the advantages and disadvantages of non-intelligent algorithms for correction control are summarized. The paper focuses on the application of intelligent control algorithms in guidance and control, furthermore, its potential application and further studies in the trajectory correction projectile are pointed out.
Keywords: two dimensional trajectory correction projectile    correction mechanism scheme    intelligent algorithm    state estimation    artificial intelligence    reinforcement learning    
0 引言

智能弹药可以理解为一种具有目标导向功能的弹药, 如导弹、弹道修正弹、末敏弹等.由弹道修正弹的基本定义[1]可知弹道修正弹不同于导弹.导弹通过导引律的导引, 对自身轨迹进行连续的闭环修正, 直指目标; 而弹道修正弹则是根据弹目偏差, 通过有限次数的修正或连续的姿态调整来减小散布误差或提高单发命中率.由此导致弹道修正弹和导弹属于两个不同的精确打击弹药范畴, 并且造价也有很大区别.而末敏弹属于一种末端敏感灵巧弹药, 主要针对轻型装甲类目标.其母弹弹道一般不进行修正, 子弹由于其弹道特性一般也不进行修正, 子弹具有末端敏感引信, 直接在距离集群目标一定距离的上空被引爆, 但是, 由于子弹威力的限制, 即使命中也不一定能完全摧毁目标.弹道修正弹属于对常规弹药的简易制导化改造, 如火箭弹、迫弹、榴弹等, 多采用杀爆战斗部.大中口径的修正弹在命中目标的情况下可以摧毁重型坦克、火炮和混凝土工事等, 即使不能直接命中目标, 在尽可能接近目标的情况下也具有较大的杀伤范围, 因此, 适用范围更加广泛.弹道修正弹从修正能力上可分为一维弹道修正弹和二维弹道修正弹, 其中二维弹道修正弹同时具有横向和纵向的修正能力, 其优势更明显于一维弹道修正弹.

二维弹道修正比一维弹道修正增加了对落点的侧偏修正, 因此也增加了修正技术的复杂程度.影响二维弹道修正实现的关键技术主要包括弹道测量技术、修正机构技术、修正控制算法等.弹道测量包括对外弹道的探测以及对弹丸姿态的测量.外弹道探测方法可分为弹载测量方法和地面探测方法:弹载测量方法通常采用GPS测量系统, 结合惯导系统(INS)可以实现修正弹道的自主测量; 地面探测方法常采用地面雷达系统, 此时, 弹上需要加装雷达天线和接收器, 接收来至地面雷达指令信息.相比于一维弹道修正技术, 姿态测量是二维弹道修正中不可缺少的一个环节, 加速度计、陀螺仪、地磁探测器等都是主流的姿态探测方法, 为了实现高精度, 通常会采取组合姿态测量方法, 但是由于弹箭发射环境恶劣, 除了测量精度要求外, 对姿态测量器件的抗过载、小型化等要求也较高, 十分依赖于传感器技术.

在二维弹道修正中, 修正机构是为进行方位以及射程修正而提供改变速度方向的力的机构, 主要有两种方法:一是采用直接力作用于弹体; 二是采用空气舵.修正控制算法的核心在于根据修正机构提供的执行力的特点来确定一种导引弹丸更快更精确地接近目标的控制规律, 类似于导弹的导引律, 由此确定修正力或修正力矩在何时、何方向、依据何种原则来进行修正.本文根据二维弹道修正中的关键技术, 着重介绍近年研究较多的修正机构技术, 并对相关控制算法进行总结和对比分析.

1 典型的二维弹道修正机构的研究现状 1.1 鸭舵式修正机构

采用改变弹丸气动力的方式进行修正的机构, 如固定鸭舵式修正机构(见图 1), 其典型应用是ATK轨道科学公司研制的精确制导组件PGK(见图 2), 一个基于GPS和固定鸭舵式实现制导与控制的二维弹道修正引信.安装方法只需将常规155炮弹的头部引信部位取下, 再旋上PGK即可. 4个弹翼即可通过GPS信号修正弹道. 2015年4月, 在ATK轨道科学公司对PGK的测试中, 42发测试炮弹中有41发表现良好, 可靠率达97 %.该款编号XM1156的精确制导组件CEP命中精度为小于50 m, 要取得这样的性能, 很大程度上依赖于GPS制导.然而美国陆军正在开发不需GPS制导也一样准确的155毫米炮弹, 以防止在GPS卫星失效时, 武器失去作战能力.皮卡汀尼兵工厂正在开发无需GPS的精准制导组件(PGK-M), 以取代标准的PGK弹药.皮卡汀尼兵工厂发言人表示, PGK-M同样是一种套件, 可以增加射程, 也能提升精确度.另外它也有GPS组件, 只是除此之外还有一种尚不便公开的备用制导模式.

图 1 固定式鸭舵修正机构
图 2 ATK公司精确制导组件

影响鸭舵式修正机构修正效果和受力情况的主要因素在于舵片的几何形状和气动布局(鸭舵结构外形如图 3所示), 同时舵片也可起到减旋作用, 减少高旋弹体对修正机构的影响.所以该修正机构适合于低旋弹, 同时采用PID控制系统, 对舵片的偏转进行控制[2-3].固定鸭舵在采用双环PID控制算法后, 在转速稳定在10 r/s条件下, 其制动时间误差在0.5 s内[4].采用螺纹传动机构的伸缩式鸭舵将电机的旋转运动转化为舵机的伸缩运动, 鸭舵完全伸展时获得最大修正力, 而整个伸展过程需要的时间是鸭舵的响应时间, 与电机转速、机械传动机构参数等相关.鞠潭等[5]的研究表明, 伸缩式鸭舵的平均响应时间在25 ms范围左右.邱荣剑等[6]对十字鸭舵机构的控制方法进行研究, 得出了实时舵偏角的计算方法, 解决了控制合力求解的问题, 但对于时间延时的问题并未进行深究, 也没有具体给出延时补偿误差的大小以及该机构在实时性上的反应能力. Wang等[7]在一定假设条件下, 采用系数冻结法对一类固定鸭舵式修正尾翼稳定弹的修正效应进行分析, 通过角运动分析得知, 控制角在水平和垂直平面的分量使得弹轴在对应平面内的反方向移动, 文中以在弹道顶点获得最大修正量为标准, 对数值仿真法和解析法得出的横向偏移量进行了对比分析, 两者相差在20 m以内, 在文中的应用对象上, 在不同控制角条件下, 这类固定鸭舵弹道修正机构获得的横向修正量最大可在80 m内.

图 3 鸭舵结构外形
1.2 射流执行机构

射流推力矢量控制喷管[8-10]在无人驾驶作战飞机上具有一定的应用, 但作为弹载修正执行机构是近几十年的研究拓展.射流执行机构的主要原理是通过拉瓦尔喷管式的气流通道结构对流过的空气进行加速, 采用类似阀门控制某个进气道的开闭, 该结构环状安置于弹体周向, 气体从弹体侧面高速喷出, 从而形成对弹体的侧向力, 即修正力, 结合弹载控制系统, 实现对弹道的修正.该原理产生修正力与弹丸飞行速度以及所处的气流场有较大关系, 并且与气流通道的设计精度相关, 易受环境限制.根据测试试验还发现射流元件射流力切换会有时间延迟, 延时时间分散在10 ms ~ 30 ms区间, 延时会造成修正的滞后, 影响修正精度, 在实际应用中有一定的难度, 如果能很好解决延时散布问题, 则能提高射流元件修正精度[11]. 图 4为典型的射流元件工作原理图.

图 4 典型的射流元件工作原理图
1.3 脉冲矢量发动机

脉冲喷流矢量发动机采用燃烧药燃烧产生的喷流压力作为弹道修正力, 响应速度在毫秒级[12].通过对喷流气动干扰的分析发现, 喷流干扰流场存在严重的非定常效应和喷流干扰滞后现象, 干扰力与发动机推力方向相反, 喷流诱导的干扰力产生负的放大效应.杨红伟等[13]在对弹丸运动方程进行线性化的基础上, 针对低旋尾翼稳定弹在受到强干扰扰动后的稳定性进行了建模分析, 结果表明其动态稳定性不仅与冲量修正初始条件有关, 还与弹丸本身参数相关, 其中对允许攻角的幅值限制, 可以对脉冲发动机的冲量设计提供重要理论依据.戴明祥等[14]采用“小扰动”和“系数冻结法”建立了脉冲发动机修正的弹道模型的传递函数, 区别于数值计算的方法, 对弹丸的动态稳定性进行分析, 结果表明静稳定裕度越大, 发动机产生的直接力对弹体姿态的扰动影响越小, 这也是脉冲发动机直接力控制与舵机控制方式典型的不同之处. Cooper[15]通过对基于弹丸线性理论的方程求解, 直观地揭示了弹丸在横向脉冲力作用下对方向改变的影响因子分析, 结果表明空气动力瞬变量减小的速率与脉冲持续的时间密切相关, 这是由于脉冲力作用后的影响, 这一影响会随着脉冲作用时间的延长而愈发显著.

采用直接力作用的修正机构, 如脉冲发动机, 通常整个修正机构包含安装于靠近弹头附近的弹体外周一定数量的小的推进器, 每个推进器都可产生一定大小的持续时间的脉冲力, 由此对炮弹的运动产生一定的影响, 改变其飞行轨迹.以脉冲发动机为主要执行机构的修正机构具有较强的横向修正能力, 然而由于脉冲发动机的作用力具有瞬时性, 弹体的攻角和侧滑角会产生很严重的振荡, 甚至可能影响弹体失稳; 另外炮弹的落点散布与推进器数量、每个推进器产生的脉冲力及弹道追踪数据滤波窗口宽度等一系列控制策略都有关, 因此, 对脉冲发动机的控制策略的研究一直都是学者关注的重点, 也是难点所在.其次是反作用喷气机(RCJ), 该类型修正机构与射流修正机构的产生原理较为接近, 但主要是通过改变弹体表面气流流动来影响弹体气动力参数, 由此修正弹道轨迹. RCJ修正机构的研究重点在于气流压力比、气体温度、喷气嘴参数、喷气嘴喷气方向以及喷气嘴在弹体上分布的位置等方面的控制.较为熟悉的“掠夺者”导弹的制导系统的修正执行部分就是采用燃气发射器向4个由电磁阀控制的阀口喷气来控制弹道飞行的.我国的98式120火箭具有前后筒构型发射模式, 且后发射筒距离炮口很远, 火箭弹深埋且为多级串联战斗部, 非常适合使用类似“掠夺者”导弹的微惯导制导技术来进行改进.

1.4 其他类型修正机构

采用改变弹丸本身结构属性的方式, 如质量矩控制, 主要运用在对弹道导弹的弹道控制, 其基本原理(见图 5)在于, 通过置于弹丸内部的质量块的位置移动来改变弹丸质心位置, 从而改变弹丸的气动力与气动力矩, 由此实现对其轨道的控制.

图 5 质量矩控制的基本原理

Frost等[16]提出了一种可旋转质量块的不平衡控制机构, 即在弹丸内部设计一个空腔, 在内腔置一个可旋转的质量块, 可沿弹丸内部径向移动; 通过建立七自由度的弹道方程, 分析落点偏差的变化量, 得到随着质量块最大位移量或质量的增加, 修正能力随之对应增强的结论, 当将质量块调整到弹丸中心线右侧时将会引起尾翼稳定弹向右上方偏转. Rogers等[17-18]的研究揭示该类型修正机构之所以能引起弹道轨迹的变化本质上是因为弹体内部质量块的震动与弹体之间的动力学耦合. Robinett等[19]研究了一种移动质量微调控制器, 可同时适用于高旋或低旋弹丸.对于高旋弹丸, 这种控制机构直接由主轴不对称性来产生修正攻角; 而对于低旋弹丸, 则由质量偏心和空气阻力产生修正攻角.在非直瞄类武器系统中, 这种内部移动质量块修正机构的修正效果将导致横向修正距离与炮口仰角成比例, 因此, 射角将限制其横向修正能力; 但是对于稳定性较差武器系统而言, 射程变化易受俯仰角的影响, 此时, 这种修正机构的优势可能会更加明显.

可调弹头修正机构的主要原理为修正时刻使弹丸头部发生一定偏转, 从而改变弹丸在飞行中的外形, 变化后的外形结构会引起气动力和力矩发生相应变化, 最后实现弹道修正.解增辉等[20]利用压电陶瓷作为修正机构传动装置, 通过控制压电陶瓷杆的伸缩使弹头发生定向偏转, 解决了高速旋转弹丸的旋转特性带来的弹道修正问题. Frost等[21]针对尾翼稳定弹, 在弹头气动力中部使用万向节式挡风片, 以此控制风的流动, 降低发射初始扰动, 该种修正方案最后使得落点散布至少降低50 %. 图 6为万向式弹头弹丸结构示意.

图 6 万向式弹头弹丸结构示意

改变弹丸本身结构属性的修正机构为高速旋转弹丸的弹道修正提供了一种很好的思路, 并且避免了发射过载可能导致修正机构作用失效的问题, 但是复杂的动力学耦合效应也增大了控制的难度.

2 修正控制算法

在弹道修正弹的应用中, 对于空中拦截问题, 修正控制器需要根据测量系统的观测数据, 对目标和弹丸本身的运动在未来时空的轨迹进行预测或估计; 而对于地面目标, 同样需要根据目标及弹丸的状态特性对炸点进行预估判断, 由此涉及到状态最优估计(“估计”可包括平滑、滤波和预测)问题, 具体而言就是利用任何可获取的信息来估计系统的状态历程.可获取的信息包括可提供理论参考信息的系统模型和提供试验参考信息的观测量.

弹道修正控制输入一般以对弹载测量预处理后的弹道诸元为基础.弹道修正控制算法主要是指对与控制修正机构作用相关的控制变量进行求解的算法, 是弹载修正控制器的核心内容之一.

2.1 状态估计算法

Kalman(1960)[22-23]提出的Kalman滤波是常用的估计方法, 尤其针对一些主要模型误差已知的情况.与之相关的扩展、修正、说明、改进、应用等方面的研究非常之多.在滤波算法中对于系统误差的考虑, 通常在修正状态方程中增加线性项w(t), 这里w(t)被假设为零均值的白噪声.然而, 现实中并没有一种很好的原理或者方法可以确定未被包含在建模系统的误差效应, 滤波器中对模型误差的假设也是基于人为猜想的.许多学者对模型误差估计算法进行了研究, 所得结果表明, 对系统误差处理不当很多时候会降低滤波效果, 甚至导致滤波发散.据此, 更多学者开始研究一种自适应滤波方法[24-28], 将对未知过程噪声协方差矩阵的估计作为求解的一个步骤, 这种方法的优点在于将对系统误差的估计包含到滤波求解的过程中, 避免了之前凭经验猜想而造成的滤波误差.随之发展的是在滤波算法中开始考虑具有时变性的过程噪声协方差矩阵和非高斯零均值过程噪声.

Kalman滤波方法对离散时间测量的跳跃间断点的估计误差较大.鉴于Kalman滤波算法的不足, Mook等[29]提出了一种考虑非随机模型误差的处理方法.该方法基于最优控制理论, 不对模型误差作出要求分段连续以外的任何其他假设, 将系统误差假设为d(t), 作为待确定项加入到系统模型中, 采用处理两点边值问题的方法进行求解.该方法不仅得到了统计学上对于状态的最优估计, 同时也得到了与之对应的最小化模型误差(Minimum model error, MME)效果, 因此, 模型本身得到改进, 估值精度也得到提高, 同时也对系统误差进行了估计.但是, 该算法需要预先猜测一个加权矩阵, 使之能满足“协方差限制条件”, 该加权矩阵是影响估计测量值与真实测量值在统计学上的一致性的重要因素.最小误差估计算法通常应用于系统辨识、航天器轨迹姿态估计和质心标定、目标跟踪、飞行器轨道的机动控制等[30-33].雷树梁[34]采用预报线性化方法对大系统在线参数进行辨识, 适当地选取交连藕合变量使测量和系统动力学完全线性化; 然后进行多级分解, 将高阶次系统分解为多个低阶次系统进行求解, 再对子系统进行优化处理, 将问题转化为非线性两点边值问题[35]; 最后进行线性化处理, 从而获得偏差很小的参数估计值.路香菊等[36]研究了MME在非线性系统辨识中的应用, 提出了递推确定加权矩阵的方法, 但仍然只是隐晦地提出要优化地选择加权矩阵. Liu等[37]结合卡尔曼滤波与最小化系统误差方法对四轮移动小车的状态进行估计, 同时考虑了非线性模型误差和过程噪声, 意在消除非线性模型误差, 相对于一般的Kalman滤波方法, 获得了更高的估计精度, 同时也验证了加权矩阵的选择在大范围内可以使系统具有较强的稳健性.王本利等[38]、张红军等[39]基于MME和Kalman滤波算法对飞行器的质心在轨进行标定, 首先采用MME算法对卫星的角加速度进行估计, 然后利用扩展卡尔曼滤波(EKF)方法求解质心位置, 避免了飞行器的控制信息以及动力学特性的输入.葛志强等[40]提出了递推最小模型误差方法, 为模型不确定的非线性系统滤波提供了一种有效的方法; 在采用非线性测量和非线性状态方程的条件下, 仍可快速准确地跟踪目标, 获得防空制导所需的角度信息; 在阶跃正弦机动条件下, 验证了算法的跟踪性能.最小化系统误差估计方法的主要难点在于对两点边值问题的求解, Crassidis等[41]提出采用Riccati方程进行求解. Riccati方程非常适合求解二次型线性控制系统的最优控制问题, 作者扩展该方法, 应用到最小化系统误差问题求解中, Riccati方程的严谨性和快速收敛性确保了算法可以快速地对加权矩阵进行估计.张光辉等[42]研究了两点边值问题的数值解法, 将边值问题转化为初值问题.针对打靶法的缺点, 将初值问题与误差梯度控制方程合并, 对常微分方程的边值问题进行求解.不变嵌入法可用于非线性滤波和参数估计, 是处理非线性系统和边值问题的一个重要方法, Wu[43]曾将不变嵌入法的概念用于非线性滤波中, 但是推导的估计公式非常复杂, 而且不能确定初值, 在实际应用中非常困难.伍沅[44-47]利用不变嵌入的概念推导了更加实用的估计公式, 在一维和多维系统中都可以推广使用.

综上可知, 无论对空对地目标, 这些目标都具有一定的机动性, 而且目标模型是不确定的, 弹丸本身的控制模型也会具有模型误差.因此, 对于目标和弹丸本身的状态估计需要考虑模型误差、状态估计精度以及实时性等基本要求.

2.2 基于直接推力作用的控制算法 2.2.1 非智能算法

Jitpraphai等[48-49]的研究表明, 采用喷气脉冲矢量发动机进行修正弹道时, 落点的散布与脉冲矢量发动机的个数、冲量大小以及弹道跟踪窗口大小有非常大的关系.文中对于脉冲矢量发动机的控制逻辑算法主要是根据弹道跟踪系统对比测量弹道与预置的理想弹道之间的偏差, 从而在惯性坐标系中得到一个位置偏差矢量, 这个位置偏差通过坐标变换矩阵变换为弹体坐标系中弹轴的偏差, 然后在给定的触发限制条件下, 时刻检测是否满足触发条件, 一旦满足触发条件立即作用于脉冲矢量发动机, 直到偏差修正到允许阈值内或者脉冲矢量发动机全部消耗完.该种方法确定点火逻辑的主要限制在于对理想弹道的依赖性, 且作者也并未验证这种偏差的确定方法是否准确, 更没有考虑脉冲矢量发动机的使用效率问题.但是, 在不考虑数量是否满足要求以及动态稳定性的条件下, 仿真验证该方法是有效的. Burchett等[50]和Gupta等[51]结合模型预测控制和弹丸线性理论, 设计了装有横向脉冲喷气机的火箭弹的脉冲控制算法, 控制律采用弹丸运动方程的近似封闭解将弹丸当前状态映射到目标平面.弹丸线性理论的应用使得弹丸可以在任意状态下对无控和有控的落点进行预测, 横向喷气机的点火逻辑则是基于目标与估计落点之间的偏差来进行确定.文献[52-56]针对微型推力器的脉冲力大小、数量、布置位置以及弹丸自身弹道特性, 对弹道稳定性和修正能力进行了分析, 结果表明:在满足修正要求的条件下, 足够数量的多次修正更有利于飞行稳定性的保证; 而弹丸本身转速的增大会对单个推力机构的修正能力带来负面影响; 直接力作用越远离质心之前, 越容易增大弹丸的章动.高峰等[57]设计了基于地磁探测弹丸实时姿态角的二维弹道脉冲修正回归模型, 通过均匀设计试验和回归分析方法寻求脉冲力修正效能与弹丸射角、初速、修正力延时时间、修正级数和修正方位角之间的关系, 文中针对防空弹药的作用特性(大部分防空拦截的有效飞行阶段在弹道上升直线段), 对六自由度弹道方程进行简化, 仿真验证了针对地面目标的修正能力, 却并未针对简化的弹道模型, 对空中目标进行验证, 分析得到的结论不具有很强的可推广性.常思江等[58]采用三自由度质点弹道模型, 快速求解弹道诸元的解析解, 对比六自由度方程的数值解, 该方法对射出炮口不久的弹道预测误差很大, 达到km级.随着时间推移, 在弹道末段预测精度较高:侧偏预测误差只有零点几米, 射程预测误差也只有4 m.然而文中没有明确给出弹道末段起始点如何确定, 也就是从何时开始预测误差才会相对较小.此外, 文中在已知单个脉冲机构的修正能力R0的条件下确定脉冲控制参数, 但是R0的定义并不十分清楚; 文中还提出“采用仿真计算不同作用时刻确定R0大小, 再进行制表”在实际中则利用插值进行计算, 然而R0实际上不仅与作用时刻相关, 还与作用角度、弹道本身属性等因素相关, 因此, 仅考虑作用时刻是不够准确的.于剑桥等[59]针对基于脉冲发动机修正机构的导弹, 提出了一种基于状态预测的控制算法, 根据导弹短周期扰动运动方程组构造预测模型; 考虑过载指令跟踪精度及脉冲发动机能量消耗, 构造了代价函数来表征预测状态与期望状态之间的偏差以及实际点火策略产生的控制力与所需要的控制力之间的偏差, 采用穷举法确定脉冲点火策略集; 最后通过最小化代价函数确定最优点火策略.该方法对于点火集较大的情况其效率不高, 且预测模型中的加权矩阵需要按照系统指标要求采用人为经验确定. Gao等[60]在已知理想弹道的条件下, 将弹目偏差作为优化目标函数, 采用二分法对点火逻辑进行确定, 并根据已知的修正能力系数对点火逻辑时间进行优化设计.该方法具有快速性的优点, 但是仍需要预置一条理想弹道.此外, 对于修正力系数的确定没有考虑点火时间的影响, 在实际应用中具有一定的限制.孙磊[61]基于捷联激光自探测器模型, 研究了双脉冲点火策略对弹体摆动的抑制作用.

上述控制算法均属于非智能常规快速点火控制逻辑计算方法, 具有计算量小、效率高的特点, 同时采用这类方法无一例外需要已知更多的先验信息, 如已知理想弹道, 且忽略了环境因素或外界干扰对控制系统的影响, 实际应用会与理想计算结果存在较大的偏差.目前智能算法飞速发展, 如强化学习理论、神经网络、机器学习等, 为最优控制方法提供了新的解决方案.强化学习理论是人工智能[62]领域研究的核心问题之一.强化学习这一术语首次由Minskyz提出, 基本概念是指利用Agent与环境之间的交互得到的反馈信号来进行学习, 找到环境与动作之间的映射关系, 不断由环境产生的强化信号对动作的好坏作出评价, 在行动-评价的环境中学习, 改进行动策略以更好地适应环境.强化学习方法也可以视为一种自适应动态规划、启发式动态规划或自适应评价设计算法.

2.2.2 智能算法

随着军事科学技术的发展, 智能弹药领域涉及范围越来越广泛, 新的弹药技术也逐步发展起来, 如高速智能巡航导弹、无人驾驶飞行器[63-64]等.复杂的战场对智能弹药的要求也会越来越高.基于现代控制理论和人工智能算法发展起来的最优控制、滑模变结构控制、智能控制、自适应控制、鲁棒控制等控制方法正逐渐应用于智能弹药领域的开发和研究[65].

智能算法是比较新颖的算法和理论, 他们具有共性, 例如模拟自然过程, 而且在解决一些复杂的工程问题时具有非常大的优势, 更多时候智能算法用来处理一些优化问题.针对脉冲末段修正控制问题, 李嘉等[66]、孙瑞圣等[67]建立了以弹目偏差最小为优化目标、以消耗总脉冲能量最小为次优化目标的目标函数, 采用粒子群算法进行点火逻辑参数的计算, 仿真验证了算法效果基本可以满足要求.但是粒子群算法属于一种随机搜索算法, 计算量非常大, 不是一种良好的在线实时算法.根据脉冲修正弹的离散不连续控制特性, 文献[67]研究了脉冲控制参数的优化设计方法, 作者以脉冲触发次数和修正误差最小为双目标函数, 在风的干扰条件下, 提出以脉冲控制时间间隔为离散脉冲控制参数设计变量, 并建立了优化模型, 采用基于线性递减惯性权重因子的粒子群算法来优化脉冲控制参数.文中仿真验证了该方法在风扰动的条件下能将脱靶量控制在0.5 m内, 修正距离达218.9 m, 可以视为一种有效的脉冲控制参数设计方法; 然而作者并未验证其在提高修正参数优化收敛速度方面的特性.滕江川等[68]提出了基于模糊控制理论的脉冲推力器的点火算法, 针对其分布特点, 考虑了喷流交感效应(Jet iteraction effects)的影响, 运用模糊控制的无限量最大逼近特性设计了点火控制器.控制器参数和控制输出的调整是利用过程函数的逻辑模型产生的规则进行的, 因此, 模糊控制器可以不受系统行为参数变化的影响, 而只依赖于算法本身性能, 从而提高了弹丸的抗干扰性和鲁棒性.

强化学习方法[69-72]是一种不同于监督学习或者无监督学习的学习算法类, 不需要先验知识, 依靠系统自身与环境的互动不断进行学习, 从而能自适应地针对不同的情况作出相应的控制决策.基于强化学习的相关控制方法在机器人、无人飞行控制等领域都得到了广泛应用[73], 是解决有约束条件、有限时间的离散或连续性非线性系统及其相关控制问题的一种新思路[74-79].

周锐等[80]将强化学习算法应用于制导控制中, 以Advantage learning算法为例, 并采用多个神经网络近似系统的子状态空间, 以此实现对状态空间较大的强化学习系统的评价函数的逼近; 针对导弹和飞机的二维制导问题, 建立了飞机安全逃逸以及导弹有效杀伤的策略学习模型, 经过学习训练后, 系统中的导弹学会了追击飞机的策略, 而飞机学会了逃避导弹的方法.汤善同[81]应用微分对策理论及基于强迫奇异摄动方法, 建立了三维空间零阶组合反馈解析解的微分对策制导规律数学模型, 充分考虑了最小脱靶量和最小能量消耗性能指标下的制导控制问题.孙光余[82]研究了三维空间的空中拦截动态对策问题, 采用强化学习理论与微分对策相结合的方法, 有效避免了经典控制理论中对系统控制模型的精确性要求, 以及对性能指标求解的难处.为平衡“探索”与“扩张”之间的矛盾, 文中设计了空中拦截对策准则, 并将状态空间离散化, 让每个状态空间对应一个动作子空间, 减少探索动作, 提高了学习效率.卢超群等[83]同样也采用Q-learning算法和微分对策理论, 设计了空空导弹拦截高速大机动目标的智能制导律, 在已知导弹和目标的位置、状态变量和法向过载的测量量条件下, 智能决策导弹的飞行行为, 虽然初始阶段的决策信息不一定正确, 但随着时间的推移, 末端跟踪和拦截准确性逐渐提高.该方法受制于时间约束, 需要一定时间的试错.魏航[84]将强化学习理论应用于空间无人机器人的格斗控制中, 通过引入动机层, 将标准Q学习的状态到动机的二层映射转变为动机引导Q学习中状态-动机-动作的三层映射关系, 将先验知识引入到强化学习中, 提高了收敛速度.左家亮等[85]设计了基于启发式强化学习的空战机动智能决策方法, 智能体在与外界环境动态交互的过程中, 采用“试错”的方式计算相对较优的空战机动决策序列, 并采用神经网络方法对强化学习的过程进行学习, 积累知识, 启发后续的搜索过程, 实现空战决策过程中决策序列的实时动态迭代计算.徐志雄等[86]通过引入动机层和先验知识, 采用“同策略”迭代的Sarsa学习算法, 提出了基于多动机引导的Sarsa学习(MMSarsa)算法, 对无人坦克作战进行机动动作指导. Gaudet等[87]介绍了强化学习在空空导弹精确制导律设计中的应用. Dalton等[88]利用强化学习学习了针对导弹机体动力学以及传感器和执行机构噪声和延迟特性的寻的制导律, 并且证明了该方法得到的制导律优于李雅普诺夫理论提出的PN制导律或改进的PN制导律, 但是这个结论是在诸多理想化建模假设下得出的.文献[89-90]采用自适应评价网络的方法, 在完全扭转导弹飞行路径角的条件下, 设计了具有输入受约束的制导律, 使导弹可以最小的时间将攻击角度(控制变量)从不同的初始马赫数限制增加到给定的最终马赫数. Han等[91-92]利用自适应评价网络结构, 研究了中段制导律的设计. Bertseka等[93]在导弹防御问题中, 将一系列作战任务资源的顺序分配问题转化为马尔可夫决策问题, 该问题包含了大量的状态量和复杂的建模, 很难用精确的方法进行计算, 作者采用神经网络动态规划框架构建近似的值函数, 训练后的网络可有效预测资源分配决策, 前提是需要大量的训练时间和庞大的训练集. Davis等[94]针对导弹防御系统决策每一枚来袭导弹发射多少拦截器的问题, 采用马尔可夫决策过程(MDP)模型进行研究, 通过动态规划方法实现了防御系统的最优火力控制策略.这种方法只需要几分钟的计算时间就能完成决策, 在仿真算例中只有7.74 %的平均最优性能较差. Lin[95]设计了基于模糊基函数网络的关联搜索元素(ASE)的自适应评价结构导弹自动驾驶仪, 该方案可以近似倾斜转弯导弹的非线性, 并利用自适应评价元素(ACE)产生增强信号来优化关联搜索元素, 通过在线调整模糊基函数的所有参数以及ASE和ACE的权值, 可以显著缩短学习时间, 保证跟踪性能和稳定性.

在民用技术方面, 最近几年比较引人注目的AlphaGo[96-97]将强化学习应用于策略网络的自我对弈, 提升了控制系统在实时性很强的环境中的自适应能力.在国内, 清华大学与亚利桑那州立大学开展的强化学习在线自趋优化模型控制的研究[98-99], 摒弃了传统的直接利用强化学习控制代替原有工业控制器的思路, 通过附加强化学习控制器, 使其性能在原工业控制器的基础上有了不断的提高.智能控制技术在复杂的不确定环境中具有很好的应用前景.

总之, 自适应评价网络方法、马尔科夫决策模型、自适应动态规划等是设计智能制导律中研究得相对较多的方法, 其优势在于准确性和稳定性较好, 但是往往需要大量的前期工作, 比如训练神经网络模型、设计状态空间、搜索等, 并且大部分研究还处于仿真研究阶段, 在实际应用中颇有难度, 因此具有较大的发展空间.类如强化学习的智能算法在低成本弹道修正技术中的相关研究较少, 但这不代表该类技术不适用于弹道修正技术, 未来战场对这种具有思考能力的智能体弹药有一定的需求, 这也是未来战场的发展趋势.

3 未来可能的研究方向

近几年, 人工智能技术(AI)在无人控制技术领域取得了一系列重大突破, 无论是理论研究还是实际应用, 都展现出了其独特的优势和解决问题的新思路.作为一种突破控制领域技术壁垒的新方法, AI在民用技术领域有一定的理论研究和应用, 在制导控导技术中有少量理论研究, 在弹道修正控制方面鲜有涉及, 但是发展潜力不可低估.

1) 无论是防空或者对地目标, 炮射弹都具有飞行时间相对较短、机动性较强等特点.在弹丸发射后一旦发现目标机动, 再经过弹道解算并发出修正指令后, 修正机构工作的可利用时间较短, 这就要求修正机构的响应速度很快以及足够的修正能力.另外, 姿态调整的方法应对弹丸的表面气流的副干扰最小, 以降低对修正精度的影响.目前, 舵机在姿态调整精度和修正能力方面具有一定优势, 但是在对偏差响应能力方面不如类似脉冲直接力作用机构.此外, 针对智能控制技术的控制特点, 设计既满足弹道修正要求, 又满足控制要求的修正机构是非常必要的.

2) 在已知目标的运动信息等条件下, 弹丸自射出炮口后, 在飞行过程中进行弹道修正的过程可模型化为一个动态规划或马尔科夫决策过程.如采用强化学习理论进行修正控制器设计需要根据模型设计强化学习理论的状态集、动作集、状态转移概率矩阵以及回报函数等.目前, 针对制导律设计有一些参考.其中, 对于强化学习中的策略表现形式的设计, 要求策略具有平稳性、逐步探索性、可量测性、简洁性、时间无关性等特性.对于修正弹而言, 性能指标可定义为:弹丸在一系列控制作用下, 从某一状态开始直到末状态所获得的回报值总和.其修正策略的目标是使得回报函数极小化.回报函数应包含两者之间的相对距离和相对距离变化量.状态空间的设计可定义为弹丸的状态参数.修正过程的控制还需要考虑以下约束:一是控制输入的控制, 修正机构的力学特性, 如采用舵机控制的饱和特性, 直接力作用时控制输入量的有限性等; 其次是状态约束, 即控制过程中某些时刻某些位置, 对姿态角度的约束, 时间约束等.目前, 基于强化学习的自适应动态规划方法对于较为复杂的约束条件的处理研究相对较少.

4 结论

普通的炮射弹不同于制导导弹, 它具有飞行时间较短、机动性差、精度低、散布大等缺点; 但是也同时具有可控性较高、易改进、成本低、库存大等优点.作为价格昂贵的导弹的次优选择而言, 弹道修正弹具有十分可观的发展空间.针对未来战场环境对武器系统的智能化需求, 结合炮射弹的作战特点与弹道特性, 在不改变其发射平台的基础上, 对弹药系统进行智能化的改造, 将智能算法中的强化学习理论应用于修正轨迹的自适应规划与控制中, 着力解决一般修正弹道方案环境信息利用率低、自适应能力差、作战能力有限等问题, 将赋予非智能弹药以新的生命.

参考文献
[1]
谭凤岗. 弹道修正弹的概念研究[J]. 弹箭技术, 1998(4): 1-10.
(Tan F G. Research on the concept of ballistic correction projectile[J]. Rocket Technology, 1998(4): 1-10.)
[2]
Hamel N, Gagnon E. CFD and parametric study on a 155 mm artillery shell equipped with a roll-decoupled course correction fuze[C]. The 29th AIAA Applied Aerodynamics Conf. Honolulu, 2011. https://doi.org/10.2514/6.2011-3027. https://arc.aiaa.org/doi/abs/10.2514/6.2011-3027
[3]
汪亚利. 鸭舵式修正机构飞行特性分析与修正能力研究[D]. 沈阳: 沈阳理工大学机械工程学院, 2017.
(Wang Y L. Duck rudder correction institutions flight characteristic analysis and correction capability study[D]. Shenyang: School of Mechanical Engineering, Shenyang Ligong University, 2017.) http://cdmd.cnki.com.cn/Article/CDMD-10144-1017094300.htm
[4]
黄伟, 高敏, 王毅, 等. 固定鸭舵控制误差对修正弹落点散布的影响[J]. 探测与控制学报, 2017, 39(3): 70-74.
(Huang W, Gao M, Wang Y, et al. Influence of fixed canard control error on dispersion of trajectory correction projectile[J]. J of Detection and Control, 2017, 39(3): 70-74.)
[5]
鞠潭, 于纪言, 王晓鸣, 等. 伸缩鸭舵式修正迫弹螺杆传动机构工况研究[J]. 北京理工大学学报, 2017, 37(10): 1009-1013.
(Ju T, Yu J Y, Wang X M, et al. Research on working condition of screw-driing actuator for mortar projectile with reciprocating canards[J]. Trans of Beijing Institute of Technology, 2017, 37(10): 1009-1013.)
[6]
邱荣剑, 张永录. "十字"鸭舵控制低旋尾翼弹方法研究[J]. 舰船电子工程, 2014, 34(1): 73-74.
(Qiu R J, Zhang Y L. Control method of fin-stabilized projectiles with low speed equipped with two pairs of canards[J]. Ship Electronic Engineering, 2014, 34(1): 73-74.)
[7]
Wang Y, Song W D, Guo Q W, et al. Correction mechanism analysis for a class of spin-stabilized projectile with fixed canards[J]. Engineering Letters, 2015, 23(4): 269-276.
[8]
连永久. 射流推力矢量控制技术研究[J]. 飞机设计, 2008(2): 19-24.
(Lian Y J. Fluidic thrust vectoring technique research[J]. Aircraft Design, 2008(2): 19-24.)
[9]
Alvi F S, Strykowski P J, Washington D M, et al. Multiaxis fluidic thrust vector control of a supersonic jet using counterflow[J]. Aiaa Journal, 1996, 34: 1734-1736. DOI:10.2514/3.13296
[10]
Banazadeh A, Banazadeh F. A computational and analytical study into the use of counter-flow fluidic thrust vectoring nozzle for small gas turbine engines[J]. Applied Mechanics and Materials, 2014, 629: 97-103. DOI:10.4028/www.scientific.net/AMM.629
[11]
闫江丰. 弹道修正弹射流执行机构气动力特性分析[D]. 太原: 中北大学机械工程学院, 2017.
(Yan J F. The analysis of aerodynamic characteristics of recoil correction actuator for trajectory correction rocket[D]. Taiyuan: College of Mechnitronics Engineering, North University of China, 2017.) http://cdmd.cnki.com.cn/Article/CDMD-10110-1017201887.htm
[12]
蒋胜矩, 王建, 刘万刚, 等. 导弹脉冲喷流矢量控制中的气动干扰数值模拟[J]. 弹箭与制导学报, 2010, 30(1): 173-175.
(Jiang S J, Wang J, Liu W G, et al. Numerical simulation of aerodynamic interference in missile pulse jet vector control[J]. J of Projectiles, Rockets, Missiles and Guidance, 2010, 30(1): 173-175. DOI:10.3969/j.issn.1673-9728.2010.01.054)
[13]
杨红伟, 窦丽华, 甘明刚. 具侧向脉冲力制导炮弹的非线性稳定性分析[J]. 北京航空航天大学学报, 2011, 37(7): 772-776.
(Yang H W, Dou L H, Gan M G. Analysis of non-linear stability of guided projectile using lateral impulsive thrust[J]. J of Beijing University of Aeronautics and Astronautics, 2011, 37(7): 772-776.)
[14]
戴明祥, 杨新民, 易文俊. 脉冲修正弹药动态稳定性分析[J]. 弹道学报, 2011, 23(3): 63-68.
(Dai M X, Yang X M, Yi W J. Analysis of the dynamic stability of pulse correction projectile[J]. J of Ballistics, 2011, 23(3): 63-68.)
[15]
Cooper G R. Projectile aerodynamic jump due to lateral impulsives[R]. Maryland: Army Research Lab, 2003.
[16]
Frost G, Costello M. Control authority of a projectile equipped with an internal unbalanced part[J]. J of Dynamic Systems Measurement and Control, 2006, 128(4): 1005-1012. DOI:10.1115/1.2363205
[17]
Rogers J, Costello M. Control authority of a projectile equipped with a controllable internal translating mass[J]. J of Guidance, Control, and Dynamics, 2015, 31(5): 1323-1333.
[18]
Rogers J, Costello M. Flight dynamics and control authority of a projectile equipped with a controllable internal translating mass[C]. AIAA Atmospheric Flight Mechanics Conf and Exhibit, Guidance, Navigation, and Control and Co-located Conf. South Carolina, 2007. https://doi.org/10.2514/6.2007-6492. https://arc.aiaa.org/doi/abs/10.2514/6.2007-6492
[19]
Robinett R D I, Sturgis B R, Kerr S A. Moving mass trim control for aerospace vehicles[J]. J of Guidance, Control, and Dynamics, 1996, 19(5): 1064-1070. DOI:10.2514/3.21746
[20]
解增辉, 刘占辰, 黄吉传. 高速旋转弹丸弹道修正原理分析及仿真[J]. 空军工程大学学报:自然科学版, 2009, 10(2): 46-50.
(Xie Z H, Liu Z C, Huang J Z. Analysis and simulation of trajectory correction principle of high speed rotating projectile[J]. J of Air Force Engineering University: Natural Science Edition, 2009, 10(2): 46-50.)
[21]
Frost G, Costello M. Linear theory of a rotating internal part projectile configuration in atmospheric flight[J]. J of Guidance, Control, and Dynamics, 2004, 27(5): 898-906. DOI:10.2514/1.1115
[22]
Kalman R E. A new approach to linear filtering and prediction problems[J]. J of Basic Engineering, 1960, 82(1): 35-45. DOI:10.1115/1.3662552
[23]
Kalman R E, Bucy R S. New results in linear filtering and prediction theory[J]. J of Basic Engineering, 1961, 83(1): 95-108. DOI:10.1115/1.3658902
[24]
李鑫, 孟翔飞, 戴梅, 等. 基于自适应滤波的MEMS姿态确定方法[J]. 传感技术学报, 2016, 29(12): 1853-1857.
(Li X, Meng X F, Dai M, et al. Research on the attitude determination of MEMS based on adaptive filter[J]. Chinese J of Sensors and Actuators, 2016, 29(12): 1853-1857. DOI:10.3969/j.issn.1004-1699.2016.12.012)
[25]
程建华, 王通达, 宋春雨, 等. 舰船捷联惯导传递对准的改进自适应滤波算法[J]. 系统工程与电子技术, 2016, 38(3): 638-643.
(Cheng J H, Wang T D, Song C Y, et al. Modified adaptive filter algorithm for shipborne SINS transfer alignment[J]. Systems Engineering and Electronics, 2016, 38(3): 638-643.)
[26]
Li Y, Wang Y, Jiang T. Sparse least mean mixed‐norm adaptive filtering algorithms for sparse channel estimation applications[J]. Int J of Communication Systems, 2017, 30(8): 1-14.
[27]
Peng S, Chen B, Sun L, et al. Constrained maximum correntropy adaptive filtering[J]. Signal Processing, 2017, 140: 116-126. DOI:10.1016/j.sigpro.2017.05.009
[28]
Zhao G, Han Q, Tong X, et al. Adaptive filtering method for magnetic anomaly detection[J]. J of Applied Remote Sensing, 2018, 12(2): 1-10.
[29]
Mook D J, Junkins J L. Minimum model error estimation for poorly modeled dynamic systems[J]. J of Guidance, Control, and Dynamics, 1988, 11(3): 256-261. DOI:10.2514/3.20302
[30]
Depena J, Crassidis J L, Mcpartland M D, et al. MME-based attitude dynamics identification and estimation for SAMPEX[J]. Chited States: NASA, 1994, 497-511.
[31]
Crassidis J L, Markley F L. An MME-based attitude estimator using vector observations[C]. Flight Mechanics (Estimation Theory Symposium). Greenbelt: NASA Goddard Space Flight Center, 1995: 137-151.
[32]
Crassidis J L, Markley F L. Minimum model error approach for attitude estimation[J]. J of Guidance, Control, and Dynamics, 1997, 20(6): 1241-1247. DOI:10.2514/2.4183
[33]
Zhang R, Chen H, Han C. Optimization and guidance scheme of constant low-thrust transfers to geostationary orbit[C]. AIAA/AAS Astrodynamics Specialist Conf. California: AIAA Space Forum, 2016: 1-13.
[34]
雷树梁. 大系统辨识的准最优线性化方法[J]. 航天控制, 1988(4): 3-11.
(Lei S L. Quasi optimal linearization for large system identification[J]. Aerospace Control, 1988(4): 3-11.)
[35]
Filipov S M, Gospodinov I D, Faragó I. Shooting- projection method for two-point boundary value problems[J]. Applied Mathematics Letters, 2017, 72: 10-15. DOI:10.1016/j.aml.2017.04.002
[36]
路香菊, 靳其兵, 宋洪法. 基于MME非线性系统递推辨识算法改进及仿真[J]. 计算机仿真, 2006, 23(2): 75-77.
(Lu X J, Jin Q B, Song H F. Advanced non-linear recursive minimum model error and its simulation[J]. Computer Simulation, 2006, 23(2): 75-77. DOI:10.3969/j.issn.1006-9348.2006.02.023)
[37]
Liu W, He H, Sun F. Vehicle state estimation based on minimum model error criterion combining with extended kalman filter[J]. J of the Franklin Institute, 2016, 353(4): 834-856. DOI:10.1016/j.jfranklin.2016.01.005
[38]
王本利, 廖鹤, 韩毅. 基于MME/EKF算法的卫星质心在轨标定[J]. 宇航学报, 2010, 31(9): 2150-2156.
(Wang B L, Liao H, Han Y. On-orbit calibration of satellite center of mass based on MME/EKF algorithm[J]. J of Astronautics, 2010, 31(9): 2150-2156. DOI:10.3873/j.issn.1000-1328.2010.09.014)
[39]
张红军, 廖鹤, 顾学迈. 基于MME/KF的电推进器推力在轨标定算法[J]. 航天器环境工程, 2011, 28(4): 337-343.
(Zhang H J, Liao H, Gu X M. An electric propulsion calibration algorithm based on MME/KF[J]. Spacecraft Environment Engineering, 2011, 28(4): 337-343. DOI:10.3969/j.issn.1673-1379.2011.04.006)
[40]
葛志强, 黄培康. 基于递推最小模型误差估计的机动目标跟踪[J]. 航天控制, 2001, 19(2): 20-26.
(Ge Z Q, Huang P K. Tracking of maneuvering target using recursive minimum model error estimation[J]. Aerospace Control, 2001, 19(2): 20-26. DOI:10.3969/j.issn.1006-3242.2001.02.005)
[41]
Crassidis J L, Mason P A C, Mook D J. Riccati solution for the minimum model error algorithm[J]. J of Guidance, Control, and Dynamics, 1993, 16(6): 1181-1183. DOI:10.2514/3.21145
[42]
张光辉, 任敏. 求解两点边值问题的一种高精度通用精细积分算法[J]. 青岛大学学报:自然科学版, 2012, 25(3): 1-4.
(Zhang G H, Ren M. A high precision general precision integration algorithm for solving two point boundary value problems[J]. J of Qingdao University: Natural Science Edition, 2012, 25(3): 1-4.)
[43]
Wu Y. Estimation of states and parameters by invariant imbedding technique[J]. Chemical Engineering Science, 1989, 44(8): 1665-1674. DOI:10.1016/0009-2509(89)80009-0
[44]
伍沅. 不变嵌入法估计状态和参数(Ⅰ)——估值方程[J]. 化学工程, 1988(5): 41-47.
(Wu Y. Invariant imbedding method estimates state and parameter (Ⅰ)——Valuation equation[J]. Chemical Engineering, 1988(5): 41-47.)
[45]
伍沅. 不变嵌入法估计状态和参数(Ⅱ)——应用实例[J]. 化学工程, 1988(6): 24-30.
(Wu Y. Invariant imbedding method estimates state and parameter (Ⅱ)——Application examples[J]. Chemical Engineering, 1988(6): 24-30.)
[46]
伍沅. 不变嵌入多维估值方程在动力学研究中应用的实例[J]. 武汉工程大学学报, 1987(2): 15-24.
(Wu Y. An example of the application of invariant embedded multidimensional valuation equation in dynamics research[J]. J of Wuhan University of Engineering, 1987(2): 15-24.)
[47]
伍沅. 不变嵌入法估计状态和参数[J]. 武汉工程大学学报, 1987(增1): 21-34.
(Wu Y. Estimation state and parameters by invariant embedding method[J]. J of Wuhan University of Engineering, 1987(S1): 21-34.)
[48]
Jitpraphai T, Costello M. Dispersion reduction of a direct fire rocket using lateral pulse jets[J]. J of Spacecraft and Rockets, 2001, 38(6): 929-936. DOI:10.2514/2.3765
[49]
Burchett B, Jitpraphai T, Costello M. A comparison of different guidance schemes for a direct fire rocket with a pulse jet control mechanism[C]. AIAA Atmospheric Flight Mechanics Conf and Exhibit, Guidance, Navigation, and Control and Co-located Conf. Montreal, 2001: 1-13. https://arc.aiaa.org/doi/abs/10.2514/6.2001-4326
[50]
Burchett B, Costello M. Model predictive lateral pulse jet control of an atmospheric rocket[J]. J of Guidance, Control, and Dynamics, 2012, 25(5): 860-867.
[51]
Gupta S K, Saxena S, Singhal A, et al. Trajectory correction flight control system using pulsejet on an artillery rocket[J]. Defence Science Journal, 2008, 58(1): 15-33. DOI:10.14429/dsj
[52]
曹小兵, 王中原, 史金光, 等. 火箭脉冲矢量控制弹道特性分析[J]. 弹箭与制导学报, 2005, 25(3): 67-69.
(Cao X B, Wang Z Y, Shi J G, et al. Analysis of ballistic characteristics of rocket impulse vector control[J]. J of Projectiles, Rockets, Missiles and Guidance, 2005, 25(3): 67-69. DOI:10.3969/j.issn.1673-9728.2005.03.021)
[53]
陶杰武, 田晓丽, 陈国光. 脉冲发动机控制力对修正弹道的影响分析[J]. 中北大学学报:自然科学版, 2005, 26(5): 330-333.
(Tao J W, Tian X L, Chen G G. Impact analysis of pulse engine control on modified trajectory[J]. J of North China University: Nature Science Edition, 2005, 26(5): 330-333.)
[54]
姚文进. 防空弹药二维脉冲修正方法研究[D]. 南京: 南京理工大学机械工程学院, 2007.
(Yao W J. Research on the two-dimensional pulse correction method for air defense ammunition[D]. Nanjing: School of Mechanical Engineering, Nanjing University of Science and Technology, 2007.) http://www.wanfangdata.com.cn/details/detail.do?_type=degree&id=Y1154892
[55]
姚文进, 王晓鸣, 李文彬, 等. 末修迫弹对称布置发动机相关参数的影响分析[J]. 计算机仿真, 2009, 26(5): 76-78.
(Yao W J, Wang X M, Li W B, et al. Analysis of the parameter effect of symmetrical placed impulse engine in terminal correction mortar[J]. Comupter Simulation, 2009, 26(5): 76-78. DOI:10.3969/j.issn.1006-9348.2009.05.020)
[56]
杨红伟, 甘明刚. 脉冲修正弹转速的变化规律[J]. 弹道学报, 2011, 23(1): 35-39.
(Yang H W, Gan M G. Change regularity of rotation speed of impulse correction projectile[J]. J of Ballistics, 2011, 23(1): 35-39.)
[57]
高峰, 张合. 基于地磁探测和脉冲力控制的二维弹道修正[J]. 系统仿真学报, 2011, 23(1): 123-128.
(Gao F, Zhang H. Study of 2-D trajectory correction based on geomagnetic detection with impulse force for projectiles[J]. J of System Simulation, 2011, 23(1): 123-128.)
[58]
常思江, 曹小兵, 刘铁铮. 基于弹道预测的脉冲修正弹末段控制方法[J]. 海军工程大学学报, 2012, 24(6): 84-88.
(Chang S J, Cao X B, Liu T Z. Ternimal control method for trajectory correction projectile equipped with pulse based on trajectory prediction[J]. J of Naval University of Engineering, 2012, 24(6): 84-88.)
[59]
于剑桥, 方正, 胡文斌. 基于状态预测的脉冲控制算法研究[J]. 北京理工大学学报, 2012, 32(1): 42-46.
(Yu J Q, Fang Z, Hu W B. Research on pulse control algorithm based on state prediction[J]. Trans of Beijing Institute of Technology, 2012, 32(1): 42-46. DOI:10.3969/j.issn.1001-0645.2012.01.008)
[60]
Gao M, Zhang Y, Yang S. Firing control optimization of impulse thrusters for trajectory correction projectiles[J]. Int J of Aerospace Engineering, 2015, 2015: 1-11.
[61]
孙磊. 脉冲推力矢量控制技术研究[D]. 北京, 北京理工大学宇航学院, 2016.
(Sun L. Research on pulse thrust vector control technology[D]. Beijing: School of Aerospace Engineering, Beijing University of Science and Technology, 2016.) http://cdmd.cnki.com.cn/Article/CDMD-10007-1016716807.htm
[62]
Ertel W. Introduction to artificial intelligence[M]. New York: Springer, 2017: 298-311.
[63]
Cambone S A, Krieg K, Pace P, et al. Unmanned aircraft systems (UAS) roadmap[R]. Washington DC: Office of the Secretary of Defense, 2005.
[64]
Gupta S G, Ghonge M M, Jawandhiya P. Review of unmanned aircraft system (UAS)[J]. Int J of Advanced Research in Computer Engineering and Technology, 2013, 2(4): 1646-1658.
[65]
赛特. 冰山的一角——中国智能弹药发展现状[J]. 坦克装甲车辆, 2016(23): 37-41.
(Sai T. The development status of China's intelligent ammunition[J]. Tank and Armoured Vehicle, 2016(23): 37-41.)
[66]
李嘉, 唐恩凌, 胡晓阳, 等. 采用改进粒子群算法的修正弹脉冲参数优化建模与仿真[J]. 沈阳理工大学学报, 2016, 35(4): 62-67.
(Li J, Tang E L, Hu X Y, et al. Research on optimal method of impulse parameters using modified particle optimization[J]. J of Shenyang Ligong University, 2016, 35(4): 62-67. DOI:10.3969/j.issn.1003-1251.2016.04.013)
[67]
孙瑞胜, 洪侨, 陈晋璋, 等. 脉冲修正弹控制参数粒子群优化算法[J]. 国防科技大学学报, 2016, 38(4): 159-163.
(Sun R S, Hong Q, Chen J Z, et al. Particle swarm optimization method for impulse-correction projectiles[J]. J of National University of Defense Technology, 2016, 38(4): 159-163.)
[68]
滕江川, 吴晓燕, 陈永兴, 等. 基于模糊控制理论的脉冲推力器点火算法[J]. 工程科学与技术, 2011, 43(增1): 194-198.
(Teng J C, Wu X Y, Chen Y X, et al. Fire Algorithm of pulse thrusters based on fuzzy control theory[J]. Advanced Engineering Sciences, 2011, 43(S1): 194-198.)
[69]
Mohri M, Rostamizadeh A, Talwalkar A. Foundations of machine learning[M]. Cambridge: MIT Press, 2012: 139-201.
[70]
Pierson H A, Gashler M S. Deep learning in robotics: A review of recent research[J]. Advanced Robotics, 2017, 31(16): 821-835. DOI:10.1080/01691864.2017.1365009
[71]
Mnih V, Kavukcuoglu K, Silver D, et al. Playing atari with deep reinforcement learning[C]. Neural Information Processing Systems (NIPS) Workshop on Deep Learning. Lake Tahoe, 2013.
[72]
Sutton R S, Barto A G. Introduction to reinforcement learning[M]. Cambridge: MIT Press, 1998: 18-28.
[73]
Kober J, Bagnell J A, Peters J. Reinforcement learning in robotics: A survey[J]. Int J of Robotics Research, 2013, 32(11): 1238-1274. DOI:10.1177/0278364913495721
[74]
Monostori L. Artificial intelligence[M]. Berlin, Heidelberg: Springer, 2014: 50-52.
[75]
de Mello R F, Ponti M A. Machine learning: A practical approach on the statistical learning theory[M]. Cham: Springer, 2018: 1-19.
[76]
Mnih V, Kavukcuoglu K, Silver D, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015, 518(7540): 529-533. DOI:10.1038/nature14236
[77]
Hasselt H V. Double q-learning, advances in neural information processing systems[M]. Vancouver, 2010: 2613-2621.
[78]
Sutton R S, Barto A G. Introduction to reinforcement learning[M]. Cambridge: MIT Press, 1998: 70-105.
[79]
Cunha J, Rui S, Lau N, et al. Batch reinforcement learning for robotic soccer using the Q-batch update-rule[J]. J of Intelligent and Robotic Systems, 2015, 80(3/4): 385-399.
[80]
周锐, 陈宗基. 强化学习在导弹制导中的应用[J]. 控制理论与应用, 2001, 18(5): 748-750.
(Zhou R, Chen Z J. Application of reinforcement learning in misile guidance[J]. Control Theory & Applications, 2001, 18(5): 748-750. DOI:10.3969/j.issn.1000-8152.2001.05.023)
[81]
汤善同. 微分对策制导规律与改进的比例导引制导规律性能比较[J]. 宇航学报, 2002, 23(6): 38-42.
(Tang S T. Comparison between differential guidance law and improved proportional guidance law[J]. J of Astronautics, 2002, 23(6): 38-42. DOI:10.3321/j.issn:1000-1328.2002.06.007)
[82]
孙光余. 强化学习及其在空中拦截中的应用[D]. 沈阳: 沈阳工业大学信息科学与工程学院, 2004.
(Sun G Y, Reinforcement learning with its application in air interception[D]. Shenyang: School of Information Science and Engineering, Shenyang University of Technology, 2004.) http://cdmd.cnki.com.cn/Article/CDMD-10142-2004095427.htm
[83]
卢超群, 江加和, 任章. 基于增强学习的空空导弹智能精确制导律研究[J]. 战术导弹控制技术, 2006(4): 19-22.
(Lu C Q, Jiang J H, Ren Z. Research on intelligent precise guidance law of air-to-air missile based on reinforcement learning[J]. Control Technology of Tactical Missile, 2006(4): 19-22. DOI:10.3969/j.issn.1009-1300-B.2006.04.007)
[84]
魏航. 基于强化学习的无人机空中格斗算法研究[D]. 哈尔滨: 哈尔滨工业大学计算机科学与技术学院, 2015.
(Wei H. Research of UCAV air combat based on reinforcement learning[D]. Harbin: School of Computer Science and Technology, Harbin Institute of Technology, 2015.) http://cdmd.cnki.com.cn/Article/CDMD-10213-1015980231.htm
[85]
左家亮, 杨任农, 张滢, 等. 基于启发式强化学习的空战机动智能决策[J]. 航空学报, 2017, 38(10): 212-225.
(Zuo J L, Yang R N, Zhang Y, et al. Intelligent decision-making in air combat maneuvering based on heuristic reinforcement learning[J]. Acta Aeronautica et Astronautica Sinica, 2017, 38(10): 212-225.)
[86]
徐志雄, 曹雷, 陈希亮. 基于强化学习的无人坦克对战仿真研究[J]. 计算机工程与应用, 2018, 54(8): 166-171.
(Xu Z X, Cao L, Chen X L. Research on unmanned tank battle simulation based on reinforcement learning[J]. Computer Engineering and Applications, 2018, 54(8): 166-171.)
[87]
Gaudet B, Furfaro R. Missile homing-phase guidance law design using reinforcement learning[C]. Proc of the 2012 AIAA Guidance, Navigation, and Control Conf. Minneapolis: AIAA, 2012. https://arc.aiaa.org/doi/abs/10.2514/6.2012-4470
[88]
Dalton J, Balakrishnan S N. A neighboring optimal adaptive critic for missile guidance[J]. Mathematical and Computer Modelling, 1996, 23(1/2): 175-188.
[89]
Han D C, Balakrishnan S N. Adaptive critic based neural networks for control-constrained agile missile control[C]. Proc of the 1999 American Control Conf. San Diego: IEEE, 1999: 2600-2604.
[90]
Balakrishuan S N, Han D C. Handbook of learning and approximate dynamic programming: Adaptive critic based neural network for control-constrained agile missile[M]. State of Texas: Wiley-IEEE Press, 2004: 2-463.
[91]
Han D C, Balakrishnan S. Midcourse guidance law with neural networks[C]. Proc of the 2000 AIAA Guidance, Navigation, and Control Conf and Exhibit. Denver: AIAA, 2000: 1-13. https://arc.aiaa.org/doi/abs/10.2514/6.2000-4072
[92]
Han D C, Balakrishnan S N. State-constrained agile missile control with adaptive-critic-based neural networks[J]. IEEE Trans on Control Systems Technology, 2002, 10(4): 481-489. DOI:10.1109/TCST.2002.1014669
[93]
Bertsekas D P, Homer M L, Logan D A, et al. Missile defense and interceptor allocation by neurodynamic programming[J]. IEEE Trans on Systems, Man, and Cybernetics, Part A: Systems and Humans, 2000, 30(1): 42-51. DOI:10.1109/3468.823480
[94]
Davis M T, Robbins M J, Lunday B J. Approximate dynamic programming for missile defense interceptor fire control[J]. European J of Operational Research, 2017, 259(3): 873-886. DOI:10.1016/j.ejor.2016.11.023
[95]
Lin C K. Adaptive critic autopilot design of bank-to-turn missiles using fuzzy basis function networks[J]. IEEE Trans on Systems, Man, and Cybernetics, Part B: Cybernetics, 2005, 35(2): 197-207. DOI:10.1109/TSMCB.2004.842246
[96]
Granter S R, Beck A H, Jr P D. AlphaGo, deep learning, and the future of the human microscopist[J]. Archives of Pathology and Laboratory Medicine, 2017, 141(5): 619-621. DOI:10.5858/arpa.2016-0471-ED
[97]
Silver D, Huang A, Maddison C J, et al. Mastering the game of Go with deep neural networks and tree search[J]. Nature, 2016, 529(7587): 484-489. DOI:10.1038/nature16961
[98]
王海峰, 陈庆奎. 多指标自趋优的GPU集群能耗控制模型[J]. 计算机研究与发展, 2015, 52(1): 105-115.
(Wang H F, Chen Q K. Multi-indices self-approximate optimal power consumption control model of GPU clusters[J]. J of Computer Research and Development, 2015, 52(1): 105-115.)
[99]
刘德荣, 李宏亮, 王鼎. 基于数据的自学习优化控制:研究进展与展望[J]. 自动化学报, 2013, 39(11): 1858-1870.
(Liu D R, Li H L, Wang D. Data-based self-learning optimal control: Research progress and prospects[J]. Acta Automatica Sinica, 2013, 39(11): 1858-1870.)