2. 江南大学 物联网工程学院,江苏 无锡 214122
2. School of IoT Engineering, Jiangnan University, Wuxi 214122, China
跟踪控制问题一直是控制领域的研究重点之一, 在工程应用中有着重要的作用, 如飞行器[1]、机器人[2]、电机控制[3]等领域.线性系统的跟踪控制已发展得比较成熟, 而非线性系统的跟踪控制则更具研究意义[4].
最优跟踪控制问题是在跟踪问题的基础上, 给定一个系统的性能指标, 设计控制时保证给定的性能指标最大或最小, 这样不仅可以使输出轨迹跟踪目标轨迹, 而且还能保证系统的性能.采用传统的解析方法很难得到非线性系统的最优跟踪控制的解析解, 近似求解非线性系统的最优跟踪控制是当前研究的热点.近似最优跟踪控制的研究方式有很多, 如结合内模控制[5]、模糊控制[6-7]、鲁棒控制[8]、自适应控制[9]等, 其中近似设计可以基于泰勒级数展开、模糊规则或者神经网络.利用神经网络实现非线性系统近似最优跟踪控制是一个极具潜力的研究方向.
神经网络可以简单地视为一个非线性的通用数学公式, 调整其参数可以表示一个静态或动态系统的行为[10].基于神经网络对非线性系统最优跟踪控制进行研究可以分为两种方式:一是利用神经网络模型静态的近似能力[11-14], 二是利用递归神经网络的动态近似能力[15]. Zhang等[11]首次基于自适应动态规划方法解决未知的非线性系统的最优跟踪问题, 通过评价神经网络和执行神经网络间的迭代学习实现了最优跟踪控制. Wang等[12-13]将文献[11]的方法扩展到有限时域内以及离散时间系统中.基于神经网络近似的输入约束下的非线性系统最优跟踪控制也已经基本得到解决[14-15].以上研究的共同点是针对一般形式的非线性系统最优控制问题, 用神经网络的模型逼近能力来近似性能指标、最优控制或者未知的非线性动态, 可以实现对非线性系统的近似最优跟踪控制.然而, 在最优跟踪控制问题中, 少有研究报道利用递归神经网络解决非线性优化问题的能力, 也就是神经动态优化方法.
连续系统最优跟踪控制问题本质上可以视为一个目标函数为积分形式、决策变量为系统控制输入的规划问题, 而在时间尺度上其实相当于无数个子规划问题.非线性控制优化问题往往是复杂的、时变的, 需要实时优化的能力[16-17].神经动态优化方法可以硬件实现[18-19], 具有并行和分布式计算能力, 是解决实时优化问题中很有前途的一种方法.用硬件实现高速的神经动态优化来求解最优控制, 符合跟踪控制需求的实时性.
本文将通过递归神经网络求解一类非线性系统的近似最优跟踪控制.值得一提的是, 这里的递归神经网络是用于求解非线性规划问题的而不是用于近似系统动态的.相比于其他利用神经网络解决非线性系统最优轨迹跟踪的方法[11-16], 本文的近似优化控制方法更简单, 具体表现在: 1)本文考虑的是一类形式特殊而又不失一般性的系统, 进而可以更有针对性地简化计算; 2)最终将最优跟踪控制问题转化为一个容易求解的规划问题, 相比于利用神经网络近似非线性系统函数方法更精确、直观, 且控制器设计相对简单; 3)利用递归神经网络求解控制器, 具有硬件可实现性.
本文通过泰勒级数将一个有限时域的性能指标扩展成一个更容易求解最小值的近似性能指标, 进而利用神经动态优化方法解决非线性不等式约束下的近似最优控制求解问题, 同时, 对闭环系统的稳定性进行了证明.最后, 通过两个仿真实例验证了本文方法的有效性.
1 问题描述考虑一类单输入单输出非线性系统
(1) |
其中: n ≥ 2是系统阶数, x = [x1, ..., xn]T∈ Rn是系统状态, y∈ R是系统输出, u∈ R是系统输入, f:Rn→ R和g:Rn→ R是二阶连续可导函数.假设系统输入满足约束u(t)∈Ω, 其中
(2) |
C(u(t)) = [C1(u(t)), C2(u(t)), ..., Cm(u(t))]T是连续可导的凸函数向量.定义系统的有限时间性能指标函数
(3) |
其中: yd(t)是光滑的期望轨迹, 关于t存在n次连续导数; Tp > 0可以视为预测控制中的预测时域.注意到, 性能指标与文献[11-15]中略有不同, 虽然性能指标(3)不包含关于u(t)的项, 但本文中的控制输入u(t)可直接由约束条件(2)加以限制.
本文考虑特定结构的系统(1)是零状态稳定的且只考虑单输入, 因为在系统(1)中即使u(t)存在多维, 由u(t)直接作用于其中一个系统状态, 它对系统的影响最终都可以等效成单输入的影响.由式(1)和(3)描述的问题有唯一最优解u*(t).对于约束控制u(t)与状态轨迹x(t)有以下假设:
假设1 u(t)与u*(t)的误差有界, 即当u(t)∈Ω时, 存在ρ > 0满足u*(t)∈ u(t)+Bρ, 其中Bρ表示离原点距离不超过ρ的集合.
假设2 (最优控制的存在性)存在0 < tm < ∞, 当t > tm时, u*(t)∈Ω成立.
假设3 (状态的有界性)在u(t)的控制作用下, 状态轨迹x(t)是有界的, 即存在r > 0满足x(t)∈ Br, 其中Br表示离原点距离不超过r的集合.
注1 由式(1) ~ (3)描述的控制问题具有较为广泛的代表性.在控制中研究的很多经典问题都可以转化成式(1)的形式, 如单摆、机械臂、电机等.控制约束(2)的定义包含常见的控制约束形式, 如饱和约束、多边形约束、非线性约束等.性能指标(3)表示轨迹跟踪的性能指标, 当yd(t)为常数时也可以表示定值控制的性能指标.
2 近似最优控制由于系统(1)含非线性项f(x)和g(x), 可能不易于求解最优控制的解析解.下面将通过近似变换, 得到一个实用型的近似性能指标, 将问题转化成一个更容易求解的规划问题, 然后求解近似最优控制.
2.1 近似性能指标下面将得到一个近似的性能指标.首先将y(t+τ)沿时间泰勒展开
其中右上标[n]表示对时间t求n次导数.当τ→0时, 有
同理有
定义向量
(4) |
可以将性能指标(3)近似为
(5) |
其中γ(τ) = τn/n!.为了进一步简化式(5), 计算两个辅助量
(6) |
从而, 性能指标(5)可以简化为
(7) |
于是, 原最优控制问题(1) ~ (3)可近似转化为如下优化问题:
(8) |
其中:决策变量为u(t), F(x) = [x2, ..., xn, f(x)]T, G(x) = [0, ..., 0, g(x)]T.将优化问题(8)的解记为up*(t), 可视为原问题的近似最优解.基于假设1和假设2可知
(9) |
下面将设计一个适用于非线性凸规划问题的递归神经网络, 用神经动态优化的方法来实时求解近似最优控制up*(t).首先给出下面命题.
命题1[19] 若L(x)是一个连续可微的函数, 则max{0, L(x)}是一个正则函数, 其广义导数为
其中αc∈[0, 1].
定义变量
(10) |
近似性能指标(7)可以写为
显然, 式(7)中的第1项与决策变量u(t)无关, 求Jp的最小值等价于求V(u(t)) = A(t)u2(t)+B(t)u(t)的最小值, 即求解如下凸规划问题:
(11) |
为了简便起见, 下面将u(t)简写为u.
注2 对于每个时刻t, 规划问题(8)中可以即时改变的量只有u(t), 从时间尺度上, 可以把规划问题(11)视为无数个子规划问题(8)的组合.规划问题(11)与规划问题(8)相比, 虽然没有显式包含系统约束
设计求解凸规划问题(11)的递归神经网络如下:
(12) |
其中: σ > 0是罚因子, ε > 0是神经网络的加速系数,
引理1[19] 对于问题(11), 如果V(u)与Ci(u) (i= 1, 2, ..., m)都是凸函数, 则存在一个足够小的罚因子σ > 0, 可以使得下面递归神经网络指数收敛到问题(11)的最优解:
(13) |
定理1 对于问题(11), 存在一个足够小的罚因子σ > 0, 使得递归神经网络(12)指数收敛到问题(11)的最优解up*(t).
证明 首先, 因为
本节将讨论系统(1)与递归神经网络(12)所组成闭环系统的稳定性.首先, 忽略递归神经网络(12)的动态优化时间, 讨论系统(1)与近似规划问题最优解up*(t)所组成的闭环系统稳定性; 然后, 考虑递归神经网络(12)的动态优化过程, 讨论整个闭环系统的稳定性.
定义误差e(t) = yd(t)-y(t), 基于假设1 ~假设3, 给出如下定理.
定理2 考虑由系统(1)与近似最优跟踪控制(9)所组成的闭环系统, 若系统(1)的阶数n≤4, 则闭环系统指数稳定且跟踪误差e(t)指数收敛于0.
证明 使得目标函数V(u)最小的u*(t)满足
可以求得
(14) |
基于假设2, 考虑0 < t < tm与t > tm两种情况.
情况1: 0 < t < tm.令up*(t) = u*(t)+ue(t), 其中|ue(t)|≤ρ.将u(t) = up*(t)代入系统(1), 可得
左右两边同乘β g(x), 得
(15) |
结合式(6)、(10)和(14), 可得
(16) |
其中β定义于式(6), 即
(17) |
显然, 由式(17)可得
(18) |
将h(t)视为输入扰动, e(t)视为输出状态, 系统(18)的传递函数G(s)与特征多项式P(s)为
(19) |
根据劳斯稳定判据[20], 当系统(1)阶数n≤ 4时(劳斯表见附录A), P(s)根的实部都是负的, 即系统(18)是指数稳定的.根据假设1和假设3, ue(t)和x(t)有界, 且g(x)为连续可导函数, 所以h(t) = g(x)ue(t)有界.在有限时间[0, tm]内, 指数稳定系统(18)在有界扰动h(t)作用下的输出e(t)是有界的[20].
情况2: t > tm.根据式(9)有up*(t) = u*(t), 即ue(t) = 0.此时, 式(18)是零输入系统, 即
(20) |
系统的特征多项式为
根据劳斯稳定判据[20], 当系统(1)阶数n≤4时(劳斯表见附录A), P(s)根的实部都是负的, 即系统(20)是指数稳定的, 跟踪误差e(t)指数收敛于0.
下面考虑递归神经网络的动态过程.为证明系统(1)与递归神经网络(12)所组成闭环系统的稳定性, 首先介绍如下引理.
引理2[21] 考虑一个奇异扰动系统
(21) |
假设下列条件对于所有(t, x, ε)∈[0, ∞)× Br×[0, ε0]均成立: 1) λ(t, 0, 0, ε) = 0且κ(t, 0, 0, ε) = 0; 2)方程0 = κ(t, x, z, 0)有一个独立的根z = h(t, x), 且系统平衡点
定义系统状态与期望轨迹状态的误差向量
(22) |
将系统(1)与递归神经网络(12)组成的闭环系统描述成一个平衡点为(0, u*(t))的跟踪误差系统, 即
(23) |
其中
定理3 考虑由系统(1)与递归神经网络(12)所组成的闭环系统, 若系统(1)的阶数n≤4, 则存在ε* > 0, 使得对于所有的ε < ε*, 闭环系统(23)是指数稳定的且跟踪误差e(t)指数收敛于0.
证明 基于假设2, 考虑0 < t < tm与t > tm两种情况.
情况1: 0 < t < tm.定理1已证明状态u(t)收敛到up*(t), 且基于假设1, u(t)-u*(t)有界.若u(t)-u*(t)有界, 则e(t)在0 < t < tm上有界, 其证明与定理2证明中的情况1相同.
情况2: t > tm.由于系统(23)是系统(21)的特例, 其平衡点为(0, u*(t)).下面利用引理2证明系统的收敛性.
结合式(4)、(6)、(10)和(14), 可得
再利用式(22)和(23), 易得ν(t, 0, u*(t), ε) = 0.基于假设2可得C(u)≤0, 结合式(14)和(22)易得ω(t, 0, u*(t), ε) = 0, 即引理2的条件1)满足.方程ω(t, ξ, u, ε) = 0有一个独立的根u = u*(t), 所以引理2的条件2)满足.因为f、g、yd都是二阶连续可导函数, 所以函数ν、ω以及其一阶和二阶偏导数连续.由定理2证明中的情况1可知, 当u-u*(t)∈ Bρ时, 若系统阶数n≤4, 则e(t)有界.结合假设1和假设3, 并利用连续函数在有界区间上是有界的事实, 函数ν、ω、u*(t)以及其一阶和二阶偏导数有界, 即引理2的条件3)满足.系统阶数n≤4时, 由定理2可知系统
根据引理2, 存在ε* > 0, 使得对于所有的ε < ε*, 闭环系统(23)是指数稳定的, 其平衡点为(0, u*(t)), 即跟踪误差e(t)指数收敛到0.
注3 定理3证明了跟踪误差e(t)随时间趋向于0, 也就意味着对应性能指标(3)随时间趋向于0, 且求解的u*p(t)使得性能指标(3)在Tp时域内最小, 达到了优化目的.闭环系统主要可以通过调整预测时域Tp和递归神经网络加速系数ε, 达到想要的控制效果.
4 实例仿真下面通过单摆与三通阀液压缸两个实例仿真来验证本文所提出的方法.
4.1 单摆系统单摆系统的状态方程和输出方程[21]如下:
其中: x1为单摆角度, x2为单摆的角速度, u(t)为水平推力, 重力加速度g = 9.8 N/kg, 单摆长度l = 1 m, 单摆质量m = 1 kg, 阻力系数k = 0.001 N · s/m.控制约束条件为饱和控制约束-20≤ u ≤20, 即C1(u) = -u-20≤0, C2(u) = u-20≤0.期望轨迹为yd(t) = 0.5sin(4t)+0.5, 性能指标为(3), 控制输入u(t)由递归神经网络(12)得到.选取预测时域Tp = 0.25 s, 递归神经网络加速系数ε = 10-6, 罚因子σ = 1, 仿真结果如图 2 ~ 图 4所示.}
图 2显示了系统输出轨迹在0.6 s左右跟踪上期望轨迹. 图 3给出了跟踪误差收敛轨迹, 跟踪误差最终收敛到0, 验证了定理3. 图 4是控制输入曲线, 可以发现控制作用被有效地限制在约束范围内(-20≤ u≤20).通过仿真可知, 系统的误差轨迹收敛到0, 并且控制输入满足约束条件, 说明本文方法是有效的.
4.2 三通阀液压缸考虑如下单输入三通阀液压缸模型[22]:
其中x1为活塞位置.控制约束条件C1(u) = -u-9≤0, C2(u) = e0.1u+u-10≤0.期望轨迹为yd(t) = 0.05sin(5t)+0.05, 性能指标为(3), 控制输入u(t)通过递归神经网络(12)得到.选取控制预测时域Tp = 0.25 s, 递归神经网络罚因子σ = 1, 加速系数ε分别为10-8、10-7、10-6、10-5与10-4, 仿真结果如图 5 ~ 图 7所示.
图 5给出了不同的神经网络加速系数ε下系统跟踪误差对比, 可以发现:当ε不充分小时(图 5虚线部分), 系统跟踪误差不一定收敛; 当ε充分小时(ε = 10-8, 图 5实线部分), 系统误差e(t)收敛, 从而验证了定理3. 图 6显示了当ε = 10-8时的控制输入曲线. 图 7是控制约束条件随时间变化轨迹, 可以发现C1(u)≤0且C2(u)≤0, 即控制输入始终满足约束条件.
5 结论本文利用神经动态优化方法对一类含有输入约束的非线性系统设计近似最优跟踪控制, 考虑的控制约束函数可以是非线性的.所设计的控制策略可以实现在控制约束条件下系统输出与目标轨迹的误差收敛, 同时证明了所设计的递归神经网络与原系统组成的闭环系统的稳定性.最后, 通过两个实例仿真验证了所提出方法的有效性.
附录A考虑闭环特征方程
其中: Tp > 0为预测时域, n ≥ 1为系统阶数.显然, 方程系数全为正数, 易知当n≤2时系统是稳定的.当n = 3、4、5时, 闭环特征方程所对应的劳斯表分别如表A1、表A2、表A3所示.
由表A1 ~表A3可知:当n = 3或n = 4时, 特征方程全部系数为正且劳斯表第1列全为正, 系统稳定; 当n = 5时, 特征方程全部系数为正但劳斯表第1列不全为正, 系统不稳定.
[1] |
Song S M, Zhang B Q, Chen X L. Robust control of spacecraft attitude tracking for space fly-around mission[J]. Systems Engineering and Electronics, 2011, 33(1): 120-126. |
[2] |
顾万里, 胡云峰, 宫洵, 等. 考虑参数不确定性的移动机器人轨迹跟踪控制[J]. 控制与决策, 2019, 34(1): 81-88. (Gu W L, Hu Y F, Gong X, et al. Trajectory tracking control of mobile robot with parameter uncertainties[J]. Control and Decision, 2019, 34(1): 81-88.) |
[3] |
Chen Q, Yu L, Nan Y R. Finite-time tracking control for motor servo systems with unknown dead-zones[J]. Journal of Systems Science and Complexity, 2013, 26(6): 940-956. DOI:10.1007/s11424-013-2153-y |
[4] |
叶林奇, 宗群, 田栢苓, 等. 非最小相位系统跟踪控制综述[J]. 控制理论与应用, 2017, 34(2): 141-158. (Ye L Q, Zong Q, Tian B L, et al. Tracking control of nonminimum phase systems: An overview[J]. Control Theory & Applications, 2017, 34(2): 141-158.) |
[5] |
唐瑞春, 吕贤敏. 带有持续扰动的时滞非线性大系统的最优跟踪控制[J]. 控制与决策, 2008, 23(11): 1231-1237. (Tang R C, Lv X M. Optimal tracking control for nonlinear time-delay large-scale systems with persistent disturbances[J]. Control and Decision, 2008, 23(11): 1231-1237. DOI:10.3321/j.issn:1001-0920.2008.11.007) |
[6] |
Chang Y Z, Tsai Z R, Hwang J D. Optimal fuzzy tracking control of uncertain nonlinear systems based on genetic algorithms and fuzzy Lyapunov function[J]. Journal of Intelligent & Fuzzy Systems, 2013, 24(1): 121-132. |
[7] |
Ling S, Wang H Q, Liu P X. Adaptive fuzzy dynamic surface control of flexible-joint robot systems with input saturation[J]. IEEE/CAA Journal of Automatica Sinica, 2019, 6(1): 97-107. DOI:10.1109/JAS.2019.1911330 |
[8] |
Amato F, Colacino D, Cosentino C, et al. Robust and optimal tracking control for manipulator arm driven by pneumatic muscle actuators[C]. IEEE International Conference on Mechatronics. Vicenza, 2013: 827-834.
|
[9] |
Na J, Herrmann G. Online adaptive approximate optimal tracking control with simplified dual approximation structure for continuous-time unknown nonlinear systems[J]. IEEE/CAA Journal of Automatica Sinica, 2014, 1(4): 412-422. DOI:10.1109/JAS.2014.7004668 |
[10] |
Norgaard M, Ravn O, Poulsen N K, et al. Neural networks for modelling and control of dynamic systems[M]. London: Springer, 2000: 4-5.
|
[11] |
Zhang H G, Cui L L, Zhang X, et al. Data-driven robust approximate optimal tracking control for unknown general nonlinear systems using adaptive dynamic programming method[J]. IEEE Transactions on Neural Networks, 2011, 22(12): 2226-2236. DOI:10.1109/TNN.2011.2168538 |
[12] |
Wang D, Liu D, Li H. Finite-horizon neural optimal tracking control for a class of nonlinear systems with unknown dynamics[C]. Proceedings of the 10th World Congress on Intelligent Control and Automation. Beijing, 2012: 138-143.
|
[13] |
Wang D, Liu D, Wei Q L. Finite-horizon neuro-optimal tracking control for a class of discrete-time nonlinear systems using adaptive dynamic programming approach[J]. Neurocomputing, 2012, 78(1): 14-22. DOI:10.1016/j.neucom.2011.03.058 |
[14] |
Modares H, Lewis F L. Optimal tracking control of nonlinear partially-unknown constrained-input systems using integral reinforcement learning[J]. Automatica, 2014, 50(7): 1780-1792. DOI:10.1016/j.automatica.2014.05.011 |
[15] |
Pérez-Cruz J H, de Jesús Rubio J J, Ruiz-Velázquez E, et al. Tracking control based on recurrent neural networks for nonlinear systems with multiple inputs and unknown deadzone[J]. Abstract and Applied Analysis, 2012, 2012: 1-18. |
[16] |
Zhang Y, Li S. Time-scale expansion-based approximated optimal control for underactuated systems using projection neural networks[J]. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2018, 48(11): 1957-1967. DOI:10.1109/TSMC.2017.2703140 |
[17] |
Bazaraa M S, Sherali H D, Shetty C M. Nonlinear programming: Theory and algorithms[M]. 3rd ed. Hoboken: John Wiley and Sons, 2006.
|
[18] |
Nazemi A, Tahmasbi N. A high performance neural network model for solving chance constrained optimization problems[J]. Neurocomputing, 2013, 121: 540-550. DOI:10.1016/j.neucom.2013.05.034 |
[19] |
Li G C, Yan Z, Wang J. A one-layer recurrent neural network for constrained nonconvex optimization[J]. Neural Network, 2015, 61: 10-21. DOI:10.1016/j.neunet.2014.09.009 |
[20] |
潘丰, 徐颖秦. 自动控制原理[M]. 北京: 机械工业出版社, 2010: 56-67. (Pan F, Xu Y Q. Principle of automatic control[M]. Beijing: China Machine Press, 2010: 56-67.) |
[21] |
Khalil H K. Nonlinear systems[M]. Upper Saddle River: Prentice Hall, 2002: 456-458.
|
[22] |
金晓宏, 李杰杰, 刘文浩, 等. 与输出变量相关的非线性三阶系统运动行为[J]. 科学技术与工程, 2014, 14(16): 55-61. (Jin X H, Li J J, Liu W H, et al. Movement behavior of three order nonlinear system correlation with output variables[J]. Science Technology and Engineering, 2014, 14(16): 55-61.) |