控制与决策  2020, Vol. 35 Issue (11): 2646-2652  
0

引用本文 [复制中英文]

鲜斌, 林嘉裕. 基于强化学习的小型无人直升机有限时间收敛控制设计[J]. 控制与决策, 2020, 35(11): 2646-2652.
[复制中文]
XIAN Bin, LIN Jia-yu. Finite time control based on reinforcement learning for a small-size unmanned helicopter[J]. Control and Decision, 2020, 35(11): 2646-2652. DOI: 10.13195/j.kzyjc.2019.0328.
[复制英文]

基金项目

国家自然科学基金项目(91748121, 90916004, 60804004)

作者简介

鲜斌(1975−), 男, 教授, 博士生导师, 从事非线性系统控制、无人机系统、实时控制系统及其应用等研究, E-mail:xbin@tju.edu.cn;
林嘉裕(1994-), 男, 硕士生, 从事旋翼无人机的自主定位与非线性控制的研究, E-mail: linjiayu@tju.edu.cn

通讯作者

鲜斌, E-mail: xbin@tju.edu.cn

文章历史

收稿日期:2018-12-24
修回日期:2019-02-16
基于强化学习的小型无人直升机有限时间收敛控制设计
鲜斌 , 林嘉裕     
天津大学 电气自动化与信息工程学院,天津 300072
摘要:针对小型无人直升机精确动力学模型难以获取以及姿态控制易受未知外界风扰影响的问题, 设计一种基于强化学习(reinforcement learning, RL)与super twisting相结合的非线性控制算法.利用直升机在线飞行数据, 训练执行者-评价者(actor-critic, AC)网络以逼近系统建模不确定部分.为了抑制未知外界风扰, 提高系统鲁棒性, 同时补偿AC网络逼近误差, 设计基于super twisting的鲁棒控制算法.进而, 利用Lyapunov稳定性分析方法证明无人直升机姿态误差能在有限时间内收敛到零.最后对所提出的算法进行实验验证, 实验结果表明, 所提出算法具有良好的控制效果, 对系统不确定性和外界扰动具有良好的鲁棒性.
关键词无人直升机    强化学习    鲁棒控制    未知外部扰动    有限时间收敛    实验验证    
Finite time control based on reinforcement learning for a small-size unmanned helicopter
XIAN Bin , LIN Jia-yu     
School of Electrical and Information Engineering, Tianjin University, Tianjin 300072, China
Abstract: This paper presents a nonlinear control law based on the combination of reinforcement learning (RL) and super twisting methodology for the attitude control of a small-size unmanned helicopter, which is subjected to modeling uncertainties and unknown external disturbances. The proposed control law only uses input and output data of the helicopter to train the actor-critic (AC) neural networks to compensate for modeling uncertainties. Then a nonlinear robust controller based on super twisting methodology is developed to compensate for the unknown external disturbances. The Lyapunov based stability analysis is used to prove that the attitude error of a unmanned helicopter can converge to zero in finite time. Finally, the proposed control law is verified on a self-built hardware in the loop testbed. The experimental results show that the proposed control law can achieve good control performance together with good robustness for modeling uncertainties and wind disturbances.
Keywords: helicopter    reinforcement learning    robust contro    unknown external disturbances    finite time convergence    experimental verification    
0 引言

近年来, 小型无人直升机凭借垂直起降能力、空中悬停能力以及具有灵活飞行的特点被视为工业级无人机的重要发展方向[1].然而, 直升机具有非线性、强动态耦合以及其生成推力的空气动力学特性存在的参数和模型不确定性, 难以建立精确的动力学模型, 使得其控制设计极具挑战性[2].

传统线性控制算法大多基于线性化模型来设计, 只能稳定于平衡点附近, 且处理系统模型不确定性的能力有限, 因此, 研究人员开展了大量非线性控制算法的研究.文献[3]设计自适应反步控制器, 实现了无人直升机的姿态和高度控制.文献[4]设计了滑模控制器以降低外部扰动对系统的影响, 但滑模控制容易产生抖振现象. super twisting控制因其能够抑制抖振现象, 且具备有限时间收敛的特性[5], 广泛应用于无人直升机的控制设计中[6].

针对小型无人直升机难以获取精确动力学模型的问题, 强化学习等智能控制方法得到了广泛应用.文献[7]基于策略搜索的强化学习算法实现了小型无人直升机的特技飞行.文献[8]基于确定性策略搜索的强化学习方法, 实现了四旋翼无人机的自主悬停控制.但以上方法缺乏严格的稳定性证明.

强化学习强调智能体在与环境的交互过程中在线地进行学习, 通过每次动作后环境的回报来修正自身行动策略, 从而实现最优化决策[9].动态规划(dynamic programming, DP)是解决最优控制问题的有效方法, 但此方法常用于离线训练, 并且在系统复杂时容易引发“维数灾难”问题.为应用DP方法, 文献[10]提出了基于执行者-评价者(AC)结构的自适应动态规划(adaptive dynamic programming, ADP)方法, 以在线获得系统的近似最优控制策略.然而, 对于实际系统, 外界干扰总是存在的, 单纯地使用ADP方法很难克服外界扰动的影响, 因此, 以上因素促使智能控制与非线性控制的结合.文献[11]采取神经网络与反步法相结合的方法, 通过仿真验证了所提出的轨迹跟踪控制设计的有效性.文献[12]与文献[13]分别利用神经网络与强化学习在线估计系统不确定性, 结合鲁棒控制算法, 实现无人直升机的镇定抗扰飞行控制, 并在理论上证明了姿态误差的半全局渐近收敛.

基于以上分析, 本文将采用基于强化学习(RL)与super twisting相结合的非线性控制算法.首先设计基于ADP方法的RL控制器, 用于补偿建模不确定性; 然后, 通过基于super twisting的鲁棒控制器来抑制未知外界风扰的影响, 以保证RL训练过程中系统的稳定性.本文的创新性在于: 1)对比文献[4]等对模型依赖性较强的控制算法, 本文所设计的算法对模型依赖性降低, 减少了无人直升机建模不确定性对系统控制性能的影响; 2)文献[11]等研究多数仅通过数值仿真验证控制设计, 尚未进行实时实验验证, 而本文将控制算法应用于无人直升机半实物实验平台进行实时实验, 取得了良好的控制效果, 提高了算法应用于实际的可靠性; 3)文献[12]和文献[14]通过实验验证了控制算法的有效性, 但理论上仅证明了姿态跟踪误差的半全局渐近收敛, 而本文利用Lyapunov稳定性分析方法, 从理论上证明了在受外界未知扰动和模型不确定性影响下无人直升机的姿态跟踪误差能在有限时间内收敛到零, 提高了无人直升机控制的快速响应能力.值得一提的是, 很少有研究成果能达到这个程度.

1 小型无人直升机动力学模型

基于文献[14], 小型无人直升机的动力学模型可写成如下形式:

(1)

其中: M(η)∈R3×3为惯性矩阵; 为科氏力矩阵; τd(t)为外部未知扰动; S(t)为角速度变换矩阵; AR3×3BR3×1为旋翼动力学相关矩阵; DR3×3为旋翼挥舞角动力学相关矩阵; η(t)=[ϕ(t), θ(t), ψ(t)]T为姿态角向量, ϕ(t)为滚转角, θ(t)为俯仰角, ψ(t)为偏航角; 的一阶、二阶导数向量; δ(t)=[δlat(t), δlon(t), δped(t)]T为控制输入向量, δlat(t)为横向周期变距, 是横滚舵机输入, δlon(t)为纵向周期变距, 是俯仰舵机输入, δped(t)为尾桨总距, 是偏航舵机输入.文献[13-15]给出了的具体表达式.

式(1)中的动力学模型为简化后的动力学模型, 为解决模型中存在不确定性的问题, 将M(η )、B分别写为如下形式:

(2)

其中: M0C0B0分别为的最佳估计矩阵, MδCδBδ为估计误差矩阵.为方便后续控制设计与分析, 定义Ω(t)=S-TAD, 并假设MδLftyCδLftyBδLftyΩ(t)∈ Lfty, 则式(1)可写为如下形式:

(3)

其中, 表示模型中存在的不确定性.

为实现无人直升机的姿态角控制, 定义系统姿态跟踪误差e1(t)=[e1ϕ(t), e1θ(t), e1ψ(t)]TR3×1及线性滑模面e2(t)∈R3×1如下:

(4)

其中: k=diag{[k1, k2, k3]T}∈R3×3为对称正定增益矩阵, ηd(t)=[ϕd(t), θd(t), ψd(t)]TR3×1为期望的有界跟踪轨迹.

本文的控制目标为:设计强化学习控制律及其参数更新律, 保证神经网络权重估计误差一致最终有界, 并设计控制输入δ(t), 使无人直升机姿态角向量η(t)跟踪期望轨迹ηd(t), 并保证跟踪误差信号能在有限时间内收敛到零.

2 控制器设计

为提高系统模型不确定性近似的准确度, 本文采用执行网-评价网的结构形式设计强化学习控制律, 采用super twisting方法来设计鲁棒控制器.为方便后续控制设计, 定义如下状态值函数作为系统的性能指标函数:

(5)

其中: τ=Ωδ为无人直升机质心所受力矩; r(e1(s), τ(s))=e1TQe1+τTRτ为根据无人机姿态跟踪误差和质心所受力矩定义的回报函数, 且QR3×3, RR3×3为正定对称常数矩阵.根据最优控制理论, 定义哈密尔顿函数[16]

(6)

其中▽J为状态值函数梯度, 且.

定义最优控制策略τ*对应的最优状态值函数为

(7)

当控制量为最优控制策略τ*时, 最优状态值函数J*(e1)满足如下哈密尔顿方程:

(8)

考虑到式(8)求解困难, 一般设计执行网络与评价网络来逼近该方程的近似解, 从而得到最优控制策略[16].

2.1 评价网络设计

利用如下神经网络来表示最优状态值函数J*(e1):

(9)

其中: Wc(t)为评价网络理想权重矩阵, φc(·)选择双曲正切函数tanh(·)作为神经网络的激励函数, εcR3×1为评价网络逼近误差.

为了实现对最优状态值函数的逼近, 设计如下神经网络:

(10)

其中:ŵc(t)是对理想权重Wc(t)的估计, 评价网络的权重估计误差为ŵc=Wc-ŵc.这里定义Bellman误差变量ec(t)为

(11)

其中εH为辅助信号, 且.

为使残差的平方最小, 设计ŵc(t)的更新律如下:

(12)

其中:为评价网络的学习率, 是正常数.为便于分析, 此处定义, 且满足.则

(13)
2.2 执行网络设计

由式(4)可知, e2(t)与e1(t)具有相同的收敛性.对e2(t)求一阶时间导数并代入式(3), 可得

(14)

其中: 为状态变量; 辅助函数N(x)为模型的不确定部分, 表达式为

利用如下神经网络来表示N(x):

(16)

其中: Wa(t)表示理想权重矩阵, φa(·)选择双曲正切函数tanh(·)作为执行网络的激励函数, εaR3×1为执行网络逼近误差.

为实现对模型的不确定部分N(x)的逼近, 设计如下神经网络:

(17)

其中: ŵa(t)是对执行网络理想权重的估计, 执行网络权重估计误差为ŵa=Wa-ŵa.这里定义反馈误差信号ea(t)为

(17)

其中kz为执行网络的增益参数, 且kz>0.为使反馈误差信号的平方最小, 设计ŵa(t)的更新律[17]

(18)

其中aa为执行网络的学习率, 为正常数.将ŵa=Wa-ŵa代入式(18), 可得

(19)

其中εz为辅助信号, 且.

根据神经网络的性质, 给出如下假设.

假设1    执行网络与评价网络的理想权重向量有界, 隐藏层激励函数满足, .由于激励函数选择双曲正切函数, 可知||▽φc||≤φcdM, 则||εH||≤εHM, ||εz||≤εzM. φamφaMφcmφcMφcdMεHM以及εzM均为正常数[17].

2.3 强化学习收敛性分析

定理1    对于开环系统(14), 若执行网络学习率aa、评价网络学习率ac以及后面的式(23)中变量满足式(24), 则式(16)的强化学习控制律以及式(12)和(18)的更新律, 能使执行网络与评价网络的权重估计误差 达到一致最终有界.

证明    定义Lyapunov候选函数为

(20)

其中: 则可知L(t)为正定函数.对式(13)求一阶时间导数, 有

(21)

对式(19)求一阶时间导数, 有

(22)

将式(21)、(22)代入(20), 可得

(23)

其中, 为正常数.当满足如下条件时:

(24)

可得.根据Lyapunov理论, 执行网络与评价网络权重估计误差ŵa(t)、ŵc(t)能达到一致最终有界.

2.4 鲁棒控制器设计

基于式(14), 设计系统的控制输入为

(25)

其中:为super twisting控制增益矩阵, sgn(·)为标准的符号函数.

将式(25)代入(14)并整理, 可得

(26)

其中: .

考虑到实际环境中存在干扰, 以及为方便后续分析, 给出如下假设.

假设2    扰动d(t)是有界的, 且满足||d(t)||≤ dM, dM为正常数.

假设3    由定理1可知, 执行网络与评价网络权重估计误差一致最终有界, 从而根据文献[5], 假设均为非负常数.

3 系统稳定性分析

为方便后续证明, 引入以下引理, 引理证明参见文献[18].

引理1    对于给定的对称矩阵, 以下3个条件等价:

1) Σ>0;

2) Σ11>0, Σ22-Σ12TΣ11-1Σ12>0;

3) Σ22>0, Σ11-Σ12Σ22-1Σ12T>0.

定理2    对于对称矩阵

存在正定对称矩阵

其中: 均为正常数.若super twisting增益αβ大小满足后面的式(29)和(30)所示不等式, 则Qs为正定矩阵.

证明    根据引理1, 由-p12>0可知, 使Qs正定的条件为

(27)

, 则,β =2Γ.式(27)可写为

(28)

根据文献[5], 当γ>1时, 曲线存在.为便于讨论, 选取γ=100, 利用Matlab工具画出曲线如图 1所示.

图 1 曲线

图 1可知, 当(ζ, a)处于曲线内侧时, ζ>0.取定ζ, 由根与系数的关系可知, 当γ满足下式时:

(29)

方程存在两个根, 即

因此, 当a1 < a<a2时, super twisting增益αβ大小满足式(29)和如下不等式:

(30)

因此Qs为正定矩阵.

定理3    对于开环系统(14), 当满足假设2, 且super twisting增益αβ大小满足定理2中条件时, 式(25)的控制输入能够使姿态角跟踪误差信号e1(t)、e2(t)在有限时间内收敛到零.

证明    定义Lyapunov候选函数为

(31)

其中: 为二次正定函数, 且径向无界, 满足如下不等式:

(32)

其中: λmin(P)和λmax(P)分别代表矩阵P的最小、最大特征值, |ξ||2代表欧几里得范数.令||ξ||22a2b2, 可得

(33)
(34)

对状态变量ξ(t)求导, 可得

(35)

, 则由式(35)可得

(36)

V(t)求一阶时间导数, 可得

(37)

其中:矩阵

p22>0, p12 < 0.由定理2可知, Qs为正定矩阵, 则

(38)

根据假设2的条件以及三角不等式, 可得

(39)

其中.若常数μ2 < λmin(Qs)/ρ, 则将式(38)、(39)代入(37), 经过整理可得

再根据式(33)、(34)对进一步缩放, 可得

(40)

其中: 均为正常数, , kv满足0 < kv < 1.

根据文献[5], 系统状态在TF时间内收敛到集合

(41)

μ1=0且μ2满足时, 可知ϑ=0, .根据芭芭拉定理, 可得系统姿态跟踪误差信号e1(t)、e2(t)满足

即系统姿态跟踪误差信号e1(t)、e2(t)能在有限时间内收敛到零.

注1    关于系统收敛时间TF, 通过求解式(41)的微分不等式可得

(42)

其中t0为系统处于初始状态时刻, 当t=TF时, 系统到达集合Πρ.因此, , 从而.由是单调递减函数, 故对于任意tTF, 有

(43)

将式(43)代入(42), 可得

(44)

进一步,可计算得到收敛时间TF

(45)
4 实验验证

为了验证本文所设计控制器的有效性, 采用自制的无人直升机半实物实验平台进行实时镇定抗扰实验, 并在相同条件下与传统滑模控制器进行对比实验.实验持续时间约160 s, 实验开始先手动操作飞行, 约18 s切换自动飞行模式, 无人机根据期望轨迹飞行.在90 s后, 加入持续定向风扰, 无人机进行抗扰飞行, 实验结果如图 2~图 4所示.两组实验设定的期望轨迹均为ηd(t)=[0,0,0]T, 无人直升机模型参数参见文献[14].

图 2 强化学习鲁棒控制-镇定抗扰实验控制量曲线
图 3 强化学习鲁棒控制-镇定抗扰实验姿态角曲线
图 4 传统滑模控制-镇定抗扰实验姿态角曲线
4.1 强化学习鲁棒控制器

实验中先调整鲁棒控制器增益参数, 使直升机具有一定的鲁棒性后, 加入强化学习控制项, 逐步调整网络增益参数, 确保控制器的收敛性, 同时微调鲁棒控制器增益以优化控制效果.最终鲁棒控制器参数选取为: k=diag{[220, 240,12]T}, α=diag{ [75, 75, 1.5]T}, β=diag{[80, 80, 1.5]T}. AC网络隐层节点选取10个, 权重WaR10×3WcR10×3初值设置为0.01, 评价网络中QR矩阵取为单位矩阵. AC网络参数选取为: aa=diag{ [1.2, 1.2, 0.012]T}, ac=diag{[1.5, 1.5, 0.015]T}, kz=diag{ [0.1, 0.1, 0.1]T}.

为分析强化学习所产生的控制作用, 分别画出强化学习部分的控制输入以及总控制输入曲线如图 2所示.由图 2可知, 直升机刚进入自动模式时, 状态还未稳定, 此时强化学习作用较为明显, 达到约40 %的控制占比.进入稳态后, 强化学习控制占比逐渐降低, 约占2 %.加入风扰后, 由于状态受干扰, 强化学习控制占比提高, 约占10 %.由此验证了强化学习控制律对模型不确定性估计的有效性.

4.2 传统滑模控制器

设计滑模面及控制律为

(46)

选取实验效果较好的一组控制器增益参数为k=diag{[220, 240, 12]T}, ksmc=diag{ [55, 58, 2.8]T}, 得到图 4所示实验结果.

图 3可以看出:强化学习鲁棒控制器约2 s实现镇定飞行, 滚转角和偏航角精度控制在±2.1º以内, 俯仰角精度控制在± 1.2º以内; 风扰状态下滚转角和俯仰角精度控制在± 3º以内, 偏航角精度控制在± 2.1º以内.由图 4可以看出:传统滑模控制器约12 s实现镇定飞行, 滚转角和俯仰角精度控制在± 3.5º以内, 偏航角精度控制在± 5º以内; 风扰状态下滚转角和俯仰角精度控制在± 4º以内, 偏航角精度控制在± 5.5º以内.由此可见, 本文算法具有更快的收敛性, 并且对风扰有着更好的鲁棒性.

5 结论

本文针对小型无人直升机难以获取精确动力学模型以及姿态控制易受未知外界风扰影响的问题, 设计了基于强化学习的非线性鲁棒控制器.利用AC网络逼近系统不确定性, 基于super twisting的鲁棒控制器抑制外界未知风扰.基于Lyapunov方法从理论上证明了姿态跟踪误差能在有限时间内收敛到零.同时, 利用自制的半实物实验平台与传统滑模控制进行了对比实验, 所得结果验证了强化学习控制律对模型不确定性估计的有效性、所设计的算法在有限时间内收敛的快速性以及对未知外界风扰的鲁棒性.

参考文献
[1]
Sheng S Z, Wang D B, Jiang B, et al. Longitudinal and lateral adaptive control without attitude feedback for a new prototype unmanned helicopter[J]. Control and Decision, 2010, 25(8): 1215-1219.
[2]
Zhou H B, Pei H L, He Y B, et al. Trajectory tracking control of unmanned helicopter via filtering backstepping[J]. Control and Decision, 2012, 27(4): 613-617.
[3]
Sun X Y, Fang Y C, Sun N. Backstepping-based adaptive attitude and height control of a small-scale unmanned helicopter[J]. Control Theory & Applications, 2012, 29(3): 381-388.
[4]
Odelga M, Chriette A, Plestan F. Control of 3 dof helicopter: A novel autopilot scheme based on adaptive slidingmode control[C]. 2012 American Control Conference (ACC). Montréal: IEEE, 2012: 2545-2550.
[5]
Moreno J A, Osorio M. Strict Lyapunov functions for the super twisting algorithm[J]. IEEE Transactions on Automatic Control, 2012, 57(4): 1035-1040. DOI:10.1109/TAC.2012.2186179
[6]
Fang X, Wu A, Shang Y J, et al. Multivariable super twisting based robust trajectory tracking control for small unmanned helicopter[J]. Mathematical Problems in Engineering, 2015, 2015: 1-13.
[7]
Ng A Y, Jordan M I. Shaping and policy search in reinforcement learning[D]. California: Department of Computer Sciences, University of California. Berkeley, 2003.
[8]
Hwangbo J, Sa I, Siegwart R, et al. Control of a quadrotor with reinforcement learning[J]. IEEE Robotics and Automation Letters, 2017, 2(4): 2096-2103. DOI:10.1109/LRA.2017.2720851
[9]
Liu D R, Li H L, Wang D. Data-based self-learning optimal control:Research progress and prospects[J]. Acta Automatica Sinica, 2013, 39(11): 1858-1870. DOI:10.3724/SP.J.1004.2013.01858
[10]
Werbos P J. Consistency of HDP applied to a simple reinforcement learning problem[J]. Neural Networks, 1990, 3(2): 179-189.
[11]
Nodland D, Zargarzadeh H, Jagannathan S. Neural network-based optimal adaptive output feedback control of a helicopter UAV[J]. IEEE Transactions on Neural Networks and Learning Systems, 2013, 24(7): 1061-1073. DOI:10.1109/TNNLS.2013.2251747
[12]
Xian B, Zhang H N. Nonlinear robust control for a small unmanned helicopter based on neural network[J]. Control and Decision, 2018, 33(4): 627-632.
[13]
Xian B, Gao J C, Zhang Y, et al. Sliding mode tracking control for miniature unmanned helicopters[J]. Chinese Journal of Aeronautics, 2015, 28(1): 277-284. DOI:10.1016/j.cja.2014.12.029
[14]
An H, Xian B. Attitude reinforcement learning control of an unmanned helicopter with verification[J]. Control Theory & Applications, 2019, 36(4): 516-524.
[15]
Cai G W, Chen B M, Lee T H. Unmanned rotorcraft systems[M]. London: Springer Science and Business Media, 2011: 32-40.
[16]
Cui L L, Liu J, Zhang Y. Near-optimal control of a class of unknown nonlinear systems based on single network ADP[J]. Control and Decision, 2013, 28(9): 1423-1426.
[17]
Song R Z, Lewis F, Wei Q L, et al. Multiple actor-critic structures for continuous-time optimal control using input-output data[J]. IEEE Transactions on Neural Networks and Learning Systems, 2015, 26(4): 851-865. DOI:10.1109/TNNLS.2015.2399020
[18]
Zhou K M, Mao J Q, Zhong Y S, et al. Robust and optimal control:Vol.138[M]. Beijing: National Defense Industry Press, 2002: 548-555.