基于神经动态优化的非线性系统近似最优跟踪控制

季政 , 楼旭阳 , 吴炜

1. 江南大学轻工过程先进控制教育部重点实验室，江苏无锡 214122;
2. 江南大学物联网工程学院，江苏无锡 214122

收稿日期：2020-01-12；修回日期：2020-04-09

基金项目：中国博士后科学基金项目(2018M642160)；江苏省自然科学基金面上项目(BK20201340)。

作者简介：季政(1995-), 男, 硕士生, 从事非线性系统最优控制的研究, E-mail: jizheng@stu.jiangnan.edu.cn;
楼旭阳(1982-), 男, 教授, 博士生导师, 从事网络化机电系统的优化与控制、混杂系统的分析与控制等研究, E-mail: Louxy@jiangnan.edu.cn;
吴炜(1981-), 男, 副教授, 博士, 从事事件触发控制等研究, E-mail: weiwu@jiangnan.edu.cn。

通讯作者：楼旭阳, E-mail: Louxy@jiangnan.edu.cn。

责任编委：解学军.

摘要：提出一种输入约束下一类连续时间非线性系统最优跟踪控制问题的近似求解方法.针对有限时间跟踪性能指标下一类单输入单输出非线性系统, 利用所提出的最优跟踪控制方法实现目标系统所对应性能指标近似最优.首先将系统的性能指标沿时间泰勒展开, 得到一个近似的性能指标; 其次, 在系统状态可观测条件下, 将该问题进一步转化为以控制输入为决策变量的非线性规划问题; 再次, 利用神经动态优化方法, 求解含不等式约束下的近似最优控制问题并给出相应的递归神经网络模块原理图; 进而, 针对整个闭环系统进行理论分析, 证明在一定条件下闭环系统的稳定性; 最后, 通过两个实例仿真验证所提出方法的有效性.

关键词：非线性系统输入约束最优控制跟踪控制非线性规划神经动态优化

Approximate optimal tracking control for nonlinear systems based on optimization

JI Zheng , LOU Xu-yang , WU Wei

1. Key Laboratory of Advanced Process Control for Light Industry of Ministry of Education, Jiangnan University, Wuxi 214122, China;
2. School of IoT Engineering, Jiangnan University, Wuxi 214122, China

Abstract: This paper proposes an approach to approximately solve the optimal tracking control problem of a class of continuous-time nonlinear systems with input constraints. For a class of single-input single-output nonlinear systems with the tracking cost function in finite time, the proposed optimal tracking control method will make the corresponding cost function of the target system approximately optimal. Firstly, the cost function of the optimal control problem is expanded along the time by Taylor series, and an approximate cost function is obtained. Then, based on the observability condition, the problem is further transformed into a nonlinear programming problem. Then, the neurodynamic approach is applied to solve the approximate optimal control problem, where the control input is the decision variable with inequality constraints and the corresponding recurrent neural network module is given. In addition, the stability of the closed-loop system is proved under certain conditions. Finally, two examples are provided to verify the effectiveness of the proposed method.

Keywords: nonlinear system input constraint optimal control tracking control nonlinear programming neurodynamic optimization

0 引言

跟踪控制问题一直是控制领域的研究重点之一, 在工程应用中有着重要的作用, 如飞行器^[1]、机器人^[2]、电机控制^[3]等领域.线性系统的跟踪控制已发展得比较成熟, 而非线性系统的跟踪控制则更具研究意义^[4].

最优跟踪控制问题是在跟踪问题的基础上, 给定一个系统的性能指标, 设计控制时保证给定的性能指标最大或最小, 这样不仅可以使输出轨迹跟踪目标轨迹, 而且还能保证系统的性能.采用传统的解析方法很难得到非线性系统的最优跟踪控制的解析解, 近似求解非线性系统的最优跟踪控制是当前研究的热点.近似最优跟踪控制的研究方式有很多, 如结合内模控制^[5]、模糊控制^[6-7]、鲁棒控制^[8]、自适应控制^[9]等, 其中近似设计可以基于泰勒级数展开、模糊规则或者神经网络.利用神经网络实现非线性系统近似最优跟踪控制是一个极具潜力的研究方向.

神经网络可以简单地视为一个非线性的通用数学公式, 调整其参数可以表示一个静态或动态系统的行为^[10].基于神经网络对非线性系统最优跟踪控制进行研究可以分为两种方式:一是利用神经网络模型静态的近似能力^[11-14], 二是利用递归神经网络的动态近似能力^[15]. Zhang等^[11]首次基于自适应动态规划方法解决未知的非线性系统的最优跟踪问题, 通过评价神经网络和执行神经网络间的迭代学习实现了最优跟踪控制. Wang等^[12-13]将文献[11]的方法扩展到有限时域内以及离散时间系统中.基于神经网络近似的输入约束下的非线性系统最优跟踪控制也已经基本得到解决^[14-15].以上研究的共同点是针对一般形式的非线性系统最优控制问题, 用神经网络的模型逼近能力来近似性能指标、最优控制或者未知的非线性动态, 可以实现对非线性系统的近似最优跟踪控制.然而, 在最优跟踪控制问题中, 少有研究报道利用递归神经网络解决非线性优化问题的能力, 也就是神经动态优化方法.

连续系统最优跟踪控制问题本质上可以视为一个目标函数为积分形式、决策变量为系统控制输入的规划问题, 而在时间尺度上其实相当于无数个子规划问题.非线性控制优化问题往往是复杂的、时变的, 需要实时优化的能力^[16-17].神经动态优化方法可以硬件实现^[18-19], 具有并行和分布式计算能力, 是解决实时优化问题中很有前途的一种方法.用硬件实现高速的神经动态优化来求解最优控制, 符合跟踪控制需求的实时性.

本文将通过递归神经网络求解一类非线性系统的近似最优跟踪控制.值得一提的是, 这里的递归神经网络是用于求解非线性规划问题的而不是用于近似系统动态的.相比于其他利用神经网络解决非线性系统最优轨迹跟踪的方法^[11-16], 本文的近似优化控制方法更简单, 具体表现在: 1)本文考虑的是一类形式特殊而又不失一般性的系统, 进而可以更有针对性地简化计算; 2)最终将最优跟踪控制问题转化为一个容易求解的规划问题, 相比于利用神经网络近似非线性系统函数方法更精确、直观, 且控制器设计相对简单; 3)利用递归神经网络求解控制器, 具有硬件可实现性.

本文通过泰勒级数将一个有限时域的性能指标扩展成一个更容易求解最小值的近似性能指标, 进而利用神经动态优化方法解决非线性不等式约束下的近似最优控制求解问题, 同时, 对闭环系统的稳定性进行了证明.最后, 通过两个仿真实例验证了本文方法的有效性.

1 问题描述

考虑一类单输入单输出非线性系统

(1)

其中: n ≥ 2是系统阶数, x = [x₁, ..., x_n]^T∈ Rⁿ是系统状态, y∈ R是系统输出, u∈ R是系统输入, f:Rⁿ→ R和g:Rⁿ→ R是二阶连续可导函数.假设系统输入满足约束u(t)∈Ω, 其中

(2)

C(u(t)) = [C₁(u(t)), C₂(u(t)), ..., C_m(u(t))]^T是连续可导的凸函数向量.定义系统的有限时间性能指标函数

(3)

其中: y_d(t)是光滑的期望轨迹, 关于t存在n次连续导数; T_p > 0可以视为预测控制中的预测时域.注意到, 性能指标与文献[11-15]中略有不同, 虽然性能指标(3)不包含关于u(t)的项, 但本文中的控制输入u(t)可直接由约束条件(2)加以限制.

本文考虑特定结构的系统(1)是零状态稳定的且只考虑单输入, 因为在系统(1)中即使u(t)存在多维, 由u(t)直接作用于其中一个系统状态, 它对系统的影响最终都可以等效成单输入的影响.由式(1)和(3)描述的问题有唯一最优解u^*(t).对于约束控制u(t)与状态轨迹x(t)有以下假设:

假设1 u(t)与u^*(t)的误差有界, 即当u(t)∈Ω时, 存在ρ > 0满足u^*(t)∈ u(t)+B_ρ, 其中B_ρ表示离原点距离不超过ρ的集合.

假设2 (最优控制的存在性)存在0 < t_m < ∞, 当t > t_m时, u^*(t)∈Ω成立.

假设3 (状态的有界性)在u(t)的控制作用下, 状态轨迹x(t)是有界的, 即存在r > 0满足x(t)∈ B_r, 其中B_r表示离原点距离不超过r的集合.

注1 由式(1) ~ (3)描述的控制问题具有较为广泛的代表性.在控制中研究的很多经典问题都可以转化成式(1)的形式, 如单摆、机械臂、电机等.控制约束(2)的定义包含常见的控制约束形式, 如饱和约束、多边形约束、非线性约束等.性能指标(3)表示轨迹跟踪的性能指标, 当y_d(t)为常数时也可以表示定值控制的性能指标.

2 近似最优控制

由于系统(1)含非线性项f(x)和g(x), 可能不易于求解最优控制的解析解.下面将通过近似变换, 得到一个实用型的近似性能指标, 将问题转化成一个更容易求解的规划问题, 然后求解近似最优控制.

2.1 近似性能指标

下面将得到一个近似的性能指标.首先将y(t+τ)沿时间泰勒展开

其中右上标[n]表示对时间t求n次导数.当τ→0时, 有

同理有

定义向量

(4)

可以将性能指标(3)近似为

(5)

其中γ(τ) = τⁿ/n!.为了进一步简化式(5), 计算两个辅助量

(6)

从而, 性能指标(5)可以简化为

(7)

于是, 原最优控制问题(1) ~ (3)可近似转化为如下优化问题:

(8)

其中:决策变量为u(t), F(x) = [x₂, ..., x_n, f(x)]^T, G(x) = [0, ..., 0, g(x)]^T.将优化问题(8)的解记为u_p^*(t), 可视为原问题的近似最优解.基于假设1和假设2可知

(9)

2.2 递归神经网络设计

下面将设计一个适用于非线性凸规划问题的递归神经网络, 用神经动态优化的方法来实时求解近似最优控制u_p^*(t).首先给出下面命题.

命题1^[19] 若L(x)是一个连续可微的函数, 则max{0, L(x)}是一个正则函数, 其广义导数为

其中α_c∈[0, 1].

定义变量

(10)

近似性能指标(7)可以写为

显然, 式(7)中的第1项与决策变量u(t)无关, 求J_p的最小值等价于求V(u(t)) = A(t)u²(t)+B(t)u(t)的最小值, 即求解如下凸规划问题:

(11)

为了简便起见, 下面将u(t)简写为u.

注2 对于每个时刻t, 规划问题(8)中可以即时改变的量只有u(t), 从时间尺度上, 可以把规划问题(11)视为无数个子规划问题(8)的组合.规划问题(11)与规划问题(8)相比, 虽然没有显式包含系统约束, 但是, 由于参数A(t)与B(t)是根据系统状态实时更新的, 目标函数V(u(t))实际已经包含了系统的动态信息.若保持每个时刻的子规划问题(11)中的参数A(t)与B(t)随系统约束中的状态实时更新, 计算出每个时刻的u(t)再作为系统的输入, 则所有子规划问题(11)都是沿着系统约束进行求解的.

设计求解凸规划问题(11)的递归神经网络如下:

(12)

其中: σ > 0是罚因子, ε > 0是神经网络的加速系数, , sgn是符号函数.递归神经网络(12)对应的电路实现模块原理如图 1所示.

图 1 递归神经网络(12)的模块实现

引理1^[19] 对于问题(11), 如果V(u)与C_i(u) (i= 1, 2, ..., m)都是凸函数, 则存在一个足够小的罚因子σ > 0, 可以使得下面递归神经网络指数收敛到问题(11)的最优解:

(13)

定理1 对于问题(11), 存在一个足够小的罚因子σ > 0, 使得递归神经网络(12)指数收敛到问题(11)的最优解u_p^*(t).

证明首先, 因为 ≥ 0, 所以V(u)是凸函数; 然后, 基于命题1可以发现, 当αc = 0时, 式(12)是(13)的特例.因此, 递归神经网络(12)指数收敛到问题(11)的最优解.

3 稳定性分析

本节将讨论系统(1)与递归神经网络(12)所组成闭环系统的稳定性.首先, 忽略递归神经网络(12)的动态优化时间, 讨论系统(1)与近似规划问题最优解u_p^*(t)所组成的闭环系统稳定性; 然后, 考虑递归神经网络(12)的动态优化过程, 讨论整个闭环系统的稳定性.

定义误差e(t) = y_d(t)-y(t), 基于假设1 ~假设3, 给出如下定理.

定理2 考虑由系统(1)与近似最优跟踪控制(9)所组成的闭环系统, 若系统(1)的阶数n≤4, 则闭环系统指数稳定且跟踪误差e(t)指数收敛于0.

证明使得目标函数V(u)最小的u^*(t)满足

可以求得

(14)

基于假设2, 考虑0 < t < t_m与t > t_m两种情况.

情况1: 0 < t < t_m.令u_p^*(t) = u^*(t)+u_e(t), 其中|u_e(t)|≤ρ.将u(t) = u_p^*(t)代入系统(1), 可得

左右两边同乘β g(x), 得

(15)

结合式(6)、(10)和(14), 可得

(16)

其中β定义于式(6), 即.令δ = , 将式(16)中的βy^[n](t)移到右边, 可得

(17)

显然, 由式(17)可得

(18)

将h(t)视为输入扰动, e(t)视为输出状态, 系统(18)的传递函数G(s)与特征多项式P(s)为

(19)

根据劳斯稳定判据^[20], 当系统(1)阶数n≤ 4时(劳斯表见附录A), P(s)根的实部都是负的, 即系统(18)是指数稳定的.根据假设1和假设3, u_e(t)和x(t)有界, 且g(x)为连续可导函数, 所以h(t) = g(x)u_e(t)有界.在有限时间[0, t_m]内, 指数稳定系统(18)在有界扰动h(t)作用下的输出e(t)是有界的^[20].

情况2: t > t_m.根据式(9)有u_p^*(t) = u^*(t), 即u_e(t) = 0.此时, 式(18)是零输入系统, 即

(20)

系统的特征多项式为

根据劳斯稳定判据^[20], 当系统(1)阶数n≤4时(劳斯表见附录A), P(s)根的实部都是负的, 即系统(20)是指数稳定的, 跟踪误差e(t)指数收敛于0.

下面考虑递归神经网络的动态过程.为证明系统(1)与递归神经网络(12)所组成闭环系统的稳定性, 首先介绍如下引理.

引理2^[21] 考虑一个奇异扰动系统

(21)

假设下列条件对于所有(t, x, ε)∈[0, ∞)× B_r×[0, ε0]均成立: 1) λ(t, 0, 0, ε) = 0且κ(t, 0, 0, ε) = 0; 2)方程0 = κ(t, x, z, 0)有一个独立的根z = h(t, x), 且系统平衡点满足; 3)对于z-h(t, x)∈ B_ρ, 函数λ、κ和h以及其一阶和二阶偏导数有界; 4)系统的原点是指数稳定的; 5)边界层系统的原点是指数稳定的.则存在ε^* > 0, 使得对于所有的ε < ε^*, 系统(21)对平衡点是指数稳定的.

定义系统状态与期望轨迹状态的误差向量

(22)

将系统(1)与递归神经网络(12)组成的闭环系统描述成一个平衡点为(0, u^*(t))的跟踪误差系统, 即

(23)

其中

定理3 考虑由系统(1)与递归神经网络(12)所组成的闭环系统, 若系统(1)的阶数n≤4, 则存在ε^* > 0, 使得对于所有的ε < ε^*, 闭环系统(23)是指数稳定的且跟踪误差e(t)指数收敛于0.

证明基于假设2, 考虑0 < t < t_m与t > t_m两种情况.

情况1: 0 < t < t_m.定理1已证明状态u(t)收敛到u_p^*(t), 且基于假设1, u(t)-u^*(t)有界.若u(t)-u^*(t)有界, 则e(t)在0 < t < t_m上有界, 其证明与定理2证明中的情况1相同.

情况2: t > t_m.由于系统(23)是系统(21)的特例, 其平衡点为(0, u^*(t)).下面利用引理2证明系统的收敛性.

结合式(4)、(6)、(10)和(14), 可得

再利用式(22)和(23), 易得ν(t, 0, u^*(t), ε) = 0.基于假设2可得C(u)≤0, 结合式(14)和(22)易得ω(t, 0, u^*(t), ε) = 0, 即引理2的条件1)满足.方程ω(t, ξ, u, ε) = 0有一个独立的根u = u^*(t), 所以引理2的条件2)满足.因为f、g、y_d都是二阶连续可导函数, 所以函数ν、ω以及其一阶和二阶偏导数连续.由定理2证明中的情况1可知, 当u-u^*(t)∈ B_ρ时, 若系统阶数n≤4, 则e(t)有界.结合假设1和假设3, 并利用连续函数在有界区间上是有界的事实, 函数ν、ω、u^*(t)以及其一阶和二阶偏导数有界, 即引理2的条件3)满足.系统阶数n≤4时, 由定理2可知系统指数稳定, 收敛于ξ = 0, 即引理2的条件4)满足.边界系统等价于定理1的递归神经网络, 它指数收敛于u-u^*(t) = 0, 即引理2的条件5)满足.因此, 系统(23)满足引理2的所有条件.

根据引理2, 存在ε^* > 0, 使得对于所有的ε < ε^*, 闭环系统(23)是指数稳定的, 其平衡点为(0, u^*(t)), 即跟踪误差e(t)指数收敛到0.

注3 定理3证明了跟踪误差e(t)随时间趋向于0, 也就意味着对应性能指标(3)随时间趋向于0, 且求解的u^*p(t)使得性能指标(3)在T_p时域内最小, 达到了优化目的.闭环系统主要可以通过调整预测时域T_p和递归神经网络加速系数ε, 达到想要的控制效果.

4 实例仿真

下面通过单摆与三通阀液压缸两个实例仿真来验证本文所提出的方法.

4.1 单摆系统

单摆系统的状态方程和输出方程^[21]如下:

其中: x₁为单摆角度, x₂为单摆的角速度, u(t)为水平推力, 重力加速度g = 9.8 N/kg, 单摆长度l = 1 m, 单摆质量m = 1 kg, 阻力系数k = 0.001 N · s/m.控制约束条件为饱和控制约束-20≤ u ≤20, 即C₁(u) = -u-20≤0, C₂(u) = u-20≤0.期望轨迹为y_d(t) = 0.5sin(4t)+0.5, 性能指标为(3), 控制输入u(t)由递归神经网络(12)得到.选取预测时域T_p = 0.25 s, 递归神经网络加速系数ε = 10^-6, 罚因子σ = 1, 仿真结果如图 2 ~ 图 4所示.}

图 2 输出轨迹跟踪曲线

图 3 误差收敛轨迹

图 4 控制输入曲线

图 2显示了系统输出轨迹在0.6 s左右跟踪上期望轨迹. 图 3给出了跟踪误差收敛轨迹, 跟踪误差最终收敛到0, 验证了定理3. 图 4是控制输入曲线, 可以发现控制作用被有效地限制在约束范围内(-20≤ u≤20).通过仿真可知, 系统的误差轨迹收敛到0, 并且控制输入满足约束条件, 说明本文方法是有效的.

4.2 三通阀液压缸

考虑如下单输入三通阀液压缸模型^[22]:

其中x₁为活塞位置.控制约束条件C₁(u) = -u-9≤0, C₂(u) = e^0.1u+u-10≤0.期望轨迹为y_d(t) = 0.05sin(5t)+0.05, 性能指标为(3), 控制输入u(t)通过递归神经网络(12)得到.选取控制预测时域T_p = 0.25 s, 递归神经网络罚因子σ = 1, 加速系数ε分别为10^-8、10^-7、10^-6、10^-5与10^-4, 仿真结果如图 5 ~ 图 7所示.

图 5 不同ε下的跟踪误差轨迹对比

图 6 ε = 10^-8时的控制输入曲线

图 7 控制约束条件随时间变化轨迹

图 5给出了不同的神经网络加速系数ε下系统跟踪误差对比, 可以发现:当ε不充分小时(图 5虚线部分), 系统跟踪误差不一定收敛; 当ε充分小时(ε = 10^-8, 图 5实线部分), 系统误差e(t)收敛, 从而验证了定理3. 图 6显示了当ε = 10^-8时的控制输入曲线. 图 7是控制约束条件随时间变化轨迹, 可以发现C₁(u)≤0且C₂(u)≤0, 即控制输入始终满足约束条件.

5 结论

本文利用神经动态优化方法对一类含有输入约束的非线性系统设计近似最优跟踪控制, 考虑的控制约束函数可以是非线性的.所设计的控制策略可以实现在控制约束条件下系统输出与目标轨迹的误差收敛, 同时证明了所设计的递归神经网络与原系统组成的闭环系统的稳定性.最后, 通过两个实例仿真验证了所提出方法的有效性.

附录A

考虑闭环特征方程

其中: T_p > 0为预测时域, n ≥ 1为系统阶数.显然, 方程系数全为正数, 易知当n≤2时系统是稳定的.当n = 3、4、5时, 闭环特征方程所对应的劳斯表分别如表A1、表A2、表A3所示.

表 A1 劳斯表(n = 3)

表 A2 劳斯表(n = 4)

表 A3 劳斯表(n = 5)

由表A1 ~表A3可知:当n = 3或n = 4时, 特征方程全部系数为正且劳斯表第1列全为正, 系统稳定; 当n = 5时, 特征方程全部系数为正但劳斯表第1列不全为正, 系统不稳定.

参考文献

[1]	Song S M, Zhang B Q, Chen X L. Robust control of spacecraft attitude tracking for space fly-around mission[J]. Systems Engineering and Electronics, 2011, 33(1): 120-126.
[2]	顾万里, 胡云峰, 宫洵, 等. 考虑参数不确定性的移动机器人轨迹跟踪控制[J]. 控制与决策, 2019, 34(1): 81-88. (Gu W L, Hu Y F, Gong X, et al. Trajectory tracking control of mobile robot with parameter uncertainties[J]. Control and Decision, 2019, 34(1): 81-88.)
[3]	Chen Q, Yu L, Nan Y R. Finite-time tracking control for motor servo systems with unknown dead-zones[J]. Journal of Systems Science and Complexity, 2013, 26(6): 940-956. DOI:10.1007/s11424-013-2153-y
[4]	叶林奇, 宗群, 田栢苓, 等. 非最小相位系统跟踪控制综述[J]. 控制理论与应用, 2017, 34(2): 141-158. (Ye L Q, Zong Q, Tian B L, et al. Tracking control of nonminimum phase systems: An overview[J]. Control Theory & Applications, 2017, 34(2): 141-158.)
[5]	唐瑞春, 吕贤敏. 带有持续扰动的时滞非线性大系统的最优跟踪控制[J]. 控制与决策, 2008, 23(11): 1231-1237. (Tang R C, Lv X M. Optimal tracking control for nonlinear time-delay large-scale systems with persistent disturbances[J]. Control and Decision, 2008, 23(11): 1231-1237. DOI:10.3321/j.issn:1001-0920.2008.11.007)
[6]	Chang Y Z, Tsai Z R, Hwang J D. Optimal fuzzy tracking control of uncertain nonlinear systems based on genetic algorithms and fuzzy Lyapunov function[J]. Journal of Intelligent & Fuzzy Systems, 2013, 24(1): 121-132.
[7]	Ling S, Wang H Q, Liu P X. Adaptive fuzzy dynamic surface control of flexible-joint robot systems with input saturation[J]. IEEE/CAA Journal of Automatica Sinica, 2019, 6(1): 97-107. DOI:10.1109/JAS.2019.1911330
[8]	Amato F, Colacino D, Cosentino C, et al. Robust and optimal tracking control for manipulator arm driven by pneumatic muscle actuators[C]. IEEE International Conference on Mechatronics. Vicenza, 2013: 827-834.
[9]	Na J, Herrmann G. Online adaptive approximate optimal tracking control with simplified dual approximation structure for continuous-time unknown nonlinear systems[J]. IEEE/CAA Journal of Automatica Sinica, 2014, 1(4): 412-422. DOI:10.1109/JAS.2014.7004668
[10]	Norgaard M, Ravn O, Poulsen N K, et al. Neural networks for modelling and control of dynamic systems[M]. London: Springer, 2000: 4-5.
[11]	Zhang H G, Cui L L, Zhang X, et al. Data-driven robust approximate optimal tracking control for unknown general nonlinear systems using adaptive dynamic programming method[J]. IEEE Transactions on Neural Networks, 2011, 22(12): 2226-2236. DOI:10.1109/TNN.2011.2168538
[12]	Wang D, Liu D, Li H. Finite-horizon neural optimal tracking control for a class of nonlinear systems with unknown dynamics[C]. Proceedings of the 10th World Congress on Intelligent Control and Automation. Beijing, 2012: 138-143.
[13]	Wang D, Liu D, Wei Q L. Finite-horizon neuro-optimal tracking control for a class of discrete-time nonlinear systems using adaptive dynamic programming approach[J]. Neurocomputing, 2012, 78(1): 14-22. DOI:10.1016/j.neucom.2011.03.058
[14]	Modares H, Lewis F L. Optimal tracking control of nonlinear partially-unknown constrained-input systems using integral reinforcement learning[J]. Automatica, 2014, 50(7): 1780-1792. DOI:10.1016/j.automatica.2014.05.011
[15]	Pérez-Cruz J H, de Jesús Rubio J J, Ruiz-Velázquez E, et al. Tracking control based on recurrent neural networks for nonlinear systems with multiple inputs and unknown deadzone[J]. Abstract and Applied Analysis, 2012, 2012: 1-18.
[16]	Zhang Y, Li S. Time-scale expansion-based approximated optimal control for underactuated systems using projection neural networks[J]. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2018, 48(11): 1957-1967. DOI:10.1109/TSMC.2017.2703140
[17]	Bazaraa M S, Sherali H D, Shetty C M. Nonlinear programming: Theory and algorithms[M]. 3rd ed. Hoboken: John Wiley and Sons, 2006.
[18]	Nazemi A, Tahmasbi N. A high performance neural network model for solving chance constrained optimization problems[J]. Neurocomputing, 2013, 121: 540-550. DOI:10.1016/j.neucom.2013.05.034
[19]	Li G C, Yan Z, Wang J. A one-layer recurrent neural network for constrained nonconvex optimization[J]. Neural Network, 2015, 61: 10-21. DOI:10.1016/j.neunet.2014.09.009
[20]	潘丰, 徐颖秦. 自动控制原理[M]. 北京: 机械工业出版社, 2010: 56-67. (Pan F, Xu Y Q. Principle of automatic control[M]. Beijing: China Machine Press, 2010: 56-67.)
[21]	Khalil H K. Nonlinear systems[M]. Upper Saddle River: Prentice Hall, 2002: 456-458.
[22]	金晓宏, 李杰杰, 刘文浩, 等. 与输出变量相关的非线性三阶系统运动行为[J]. 科学技术与工程, 2014, 14(16): 55-61. (Jin X H, Li J J, Liu W H, et al. Movement behavior of three order nonlinear system correlation with output variables[J]. Science Technology and Engineering, 2014, 14(16): 55-61.)