基于非策略Q-学习的网络控制系统最优跟踪控制

引用本文 [复制中英文]

李金娜, 尹子轩. 基于非策略Q-学习的网络控制系统最优跟踪控制[J]. 控制与决策, 2019, 34(11): 2343-2349.

LI Jin-na, YIN Zi-xuan. Off-policy Q-learning: Optimal tracking control for networked control systems[J]. Control and Decision, 2019, 34(11): 2343-2349. DOI: 10.13195/j.kzyjc.2019.0417.

[复制英文]

基金项目

国家自然科学基金项目(61673280, 61525302, 61590922, 61503257)；辽宁省高等学校创新人才项目(LR2017006)；辽宁省自然基金计划重点领域联合开放基金项目(2019-KF-03-06)；辽宁石油化工大学基金项目(2018XJJ-005)

作者简介

李金娜(1977—), 女, 教授, 博士, 从事数据驱动控制、运行优化控制、强化学习、网络控制等研究, E-mail: lijinna_721@126.com;
尹子轩(1995—), 男, 硕士生, 从事强化学习、网络控制的研究, E-mail: yinzixuan0305@foxmail.com。

通讯作者

李金娜, E-mail: lijinna_721@126.com。

文章历史

收稿日期：2019-04-07
修回日期：2019-07-16

Contents Abstract Full text Figures/Tables PDF

基于非策略Q-学习的网络控制系统最优跟踪控制

李金娜 ^1,2,3, 尹子轩 ¹

1. 沈阳化工大学信息工程学院，沈阳 110142;
2. 辽宁石油化工大学信息与控制工程学院，辽宁抚顺 113001;
3. 东北大学流程工业综合自动化国家重点实验室，沈阳 110004

收稿日期：2019-04-07；修回日期：2019-07-16

基金项目：国家自然科学基金项目(61673280, 61525302, 61590922, 61503257)；辽宁省高等学校创新人才项目(LR2017006)；辽宁省自然基金计划重点领域联合开放基金项目(2019-KF-03-06)；辽宁石油化工大学基金项目(2018XJJ-005)。

作者简介：李金娜(1977—), 女, 教授, 博士, 从事数据驱动控制、运行优化控制、强化学习、网络控制等研究, E-mail: lijinna_721@126.com;
尹子轩(1995—), 男, 硕士生, 从事强化学习、网络控制的研究, E-mail: yinzixuan0305@foxmail.com。

通讯作者：李金娜, E-mail: lijinna_721@126.com。

摘要：针对具有数据包丢失的网络化控制系统跟踪控制问题, 提出一种非策略Q-学习方法, 完全利用可测数据, 在系统模型参数未知并且网络通信存在数据丢失的情况下, 实现系统以近似最优的方式跟踪目标.首先, 刻画具有数据包丢失的网络控制系统, 提出线性离散网络控制系统跟踪控制问题; 然后, 设计一个Smith预测器补偿数据包丢失对网络控制系统性能的影响, 构建具有数据包丢失补偿的网络控制系统最优跟踪控制问题; 最后, 融合动态规划和强化学习方法, 提出一种非策略Q-学习算法.算法的优点是:不要求系统模型参数已知, 利用网络控制系统可测数据, 学习基于预测器状态反馈的最优跟踪控制策略; 并且该算法能够保证基于Q-函数的迭代Bellman方程解的无偏性.通过仿真验证所提方法的有效性.

关键词：网络控制非策略Q-学习线性二次跟踪(LQT) 数据包丢失

Off-policy Q-learning: Optimal tracking control for networked control systems

LI Jin-na ^1,2,3, YIN Zi-xuan ¹

1. College of Information Engineering, Shenyang University of Chemical Technology, Shenyang 110142, China;
2. School of Information and Control Engineering, Liaoning Shihua University, Fushun 113001, China;
3. State Key Lab of Synthetical Automation for Process Industries, Northeastern University, Shenyang 110004, China

Abstract: This paper develops a novel off-policy Q-learning method for solving linear quadratic tracking (LQT) problem in discrete-time networked control systems with packet dropout. The proposed method can be implemented using measured data without requiring systems dynamics to be known a priori, and it also allows bounded packet loss. First, networked control systems with packet dropout are established, thus an optimal tracking problem of linear discrete-time networked control systems is further formulated. Then, a Smith predictor is designed to predict current state based on historical data measured on the communication network. On this basis, an optimal tracking problem with packet dropout compensation is put up. Finally, a novel off-policy Q-learning algorithm is developed by integrating dynamic programming with reinforcement learning. The merit of the proposed algorithm is that the optimal tracking control law based predicted states of systems can be learned using only measured data without the need of knowing system dynamics. Moreover, the unbiasedness of solution to Q-function based Bellman equation can be guaranteed by using off-policy Q-learning approach. The simulation results show that the proposed method has good tracking performance for the network control system with unknown dynamic state and packet dropout.

Keywords: networked control system off-policy Q-learning linear quadratic tracking packet dropout

0 引言

强化学习是一种通过与环境进行“试错”交互寻找能够带来最大期望累积奖赏策略的学习方法^[1-3].目前越来越多的研究开始将强化学习方法应用在控制领域的各个方向, 可以达到最优控制的效果^[4-5].根据学习过程中行为策略与目标策略是否一致, 将强化学习分为策略(on-policy)学习和非策略(off-policy)学习.如果在学习过程中, 动作选择的行为策略与学习改进的目标策略一致, 则该方法被称为策略学习, 否则被称为非策略学习^[6-7].

非策略强化学习相比于策略强化学习具有一些优势, 并且具有预期的特性: 1)它解决了探索-开发的困境.系统采用任意行为策略来保证数据的充分挖掘, 而实际学习的是最优开发策略或目标策略. 2)通常需要探测噪声来保证持续激励(PE)条件, 非策略强化学习能保证贝尔曼方程解的无偏性.对于最优控制问题, 目前应用的Q-学习算法取得了很多研究成果^[8-10], 但是采用非策略Q-学习研究最优化控制还处于初级阶段.文献[11]采用非策略Q-学习算法解决了离散系统H_∞控制; 文献[12-13]给出了仿射非线性系统交错非策略Q-学习迭代算法, 自适应评判Q-学习算法, 学习最优控制策略.

随着信息技术、网络技术和计算机技术的飞速发展, 基于网络的控制系统已经成为自动化领域的一个重要控制技术, 网络控制系统的研究也是近年来自动控制领域的研究热点^[14-16].对于具有数据包丢失的网络控制系统, 现有的控制和优化方法主要采用基于模型的控制策略, 要求系统模型参数已知, 采用确定的、鲁棒或者随机控制方法镇定系统, 并优化系统性能^[17-19].

在网络控制系统中, 网络环境千变万化, 网络结构也可能随时改变, 很难建立精准的系统模型.针对系统模型参数未知的情况, 文献[20]提出了一种线性网络控制的最优控制方法; 文献[21]针对具有时变系统矩阵的未知网络控制问题, 采用随机Q-学习方法设计了事件采样框架下的最优控制器; 文献[22]将该方法推广到非线性的情况, 但是当信息传输发生数据包丢失时, 会给最优控制器设计带来挑战; 文献[23]提出了Smith预测补偿, 通过策略Q-学习算法找到最优跟踪控制器增益.然而, 采用非策略Q-学习方法, 补偿数据包丢失, 在系统模型参数未知的情况下, 解决网络控制系统最优跟踪控制问题还未得到研究, 这是本文研究的动机.

本文使用Q-学习算法, 在线性离散网络控制系统的动力学方程未知的情况下, 给出近似最优跟踪控制策略, 优化网络控制系统性能.

本文的创新性在于: 1)不同于传统的网络系统控制方法设计^[20-22], 本文讨论的是在系统模型存在未知参数, 并存在数据包丢失的情况下利用Q-学习算法学习最优跟踪控制策略; 2)本文不同于文献[23]中的策略Q-学习, 本文采用完全数据驱动的非策略Q-学习方法, 补偿数据包丢失, 在不依赖系统模型参数的情况下, 解决网络控制系统最优跟踪控制问题.

1 具有丢包补偿的优化问题描述

本节将介绍线性二次跟踪(LQT)问题和网络诱导丢包的模型, 阐述具有数据包丢失的网络控制系统二次跟踪问题.

考虑如下线性离散系统:

(1)

其中: x(k)是被控对象状态, 为n_x×1维; u(k)是被控输入, 为n_u×1维; y(k)是被控输出, 为n_y×1维; A、B和C分别为n_x×n_x、n_x×n_u和n_y×n_x维.

参考信号如下:

(2)

其中: r(k)是参考输入, 为n_r×1维; F是n_r×n_r维.在这个跟踪问题中, 需要令系统(1)中的输出y(k)跟踪参考输入r(k).

令, 由式(1)和(2)得到如下增广系统:

(3)

其中:

1.1 构建丢包补偿的Smith预测器

如图 1所示, 测量状态并通过通信网络传递给控制器, 控制器利用获得的系统状态信息计算控制输入.

图 1 具有反馈丢包的网络控制系统

假定状态信息是通过单个数据包传输的, 某些数据包在传输中不可避免地丢失, 称为网络诱导型的丢包. x_f(k)为控制器端接收的系统状态, 其表达式为

(4)

其中: δ_fn(k)是发生的连续丢包数, 0 < δ_fn(k) < δ_{f max}(k), δ_{f max}(k)是最大连续丢包数.

由式(1)得到

(5)

在使用TCP或UDP协议的情况下, 丢包数δ_fn(k)是已知的.

当δ_fn(k)=0时, 有

(6)

当δ_fn(k) = 1时, 有

(7)

当δ_fn(k) = δ_{f max}时, 有

(8)

根据式(5)构建如下Smith预测器^[23]:

(9)

其中

(10)

注1 z(k)在k时刻是已知的.

由于引入了Smith预测器(9), 本文可以构建如下基于预测器估计的系统状态的反馈控制器:

(11)

1.2 具有丢包补偿的优化问题阐述

本文研究的目的是设计控制器(11), 最小化如下性能指标, 实现系统以最优的方式跟踪参考输入:

(12)

其中0 < γ < 1是一个折现因子.如果参考信号发生器(2)是稳定的, 则可以选择γ = 1;如果(2)是不稳定的, 例如跟踪一个单位步长, 则需要γ < 1.事实上, 可取任意可镇定控制输入(11), 选择折现因子γ, 使Fγ^0.5稳定, 以便保证闭环系统(3)稳定^[23].

由式(3)、(9)和(11)给出具有丢包补偿的网络控制系统线性二次跟踪控制(LQT)问题:

(13)

注2 在Smith预测器的帮助下, 此时的LQT问题可以获取当前系统状态.

2 基于非策略Q-学习方法求解优化问题

在这一节中, 主要讨论解决存在丢包的离散网络系统LQT问题的非策略Q-学习方法.首先在文献[23]的基础上引入Q-函数矩阵设计策略Q-学习算法, 以便获取不依赖模型的控制器方案; 然后在此基础上, 引入行为控制器, 结合基于Q-函数的贝尔曼方程, 提出一种非策略Q-学习算法.

使用增广系统(3), 网络诱导型丢包线性二次跟踪(丢包LQT)问题性能指标为

(14)

其中: Q₁ = C₁^TQC₁, C₁=[C -I].

令K = KM, 则有

(15)

根据式(14), 定义值函数和Q-函数分别为

(16)

(17)

给出如下引理, 目的是提出非策略Q-学习算法.

引理1 对于系统(3), 定义的Q-函数(17)可以表示成如下二次型:

(18)

其中H>0.

基于动态规划, 得到基于Q-函数的贝尔曼方程为

(19)

根据最优性的必要条件, 令, 可得最优控制输入

(20)

由式(11)可知

(21)

注3 由于系统模型参数A、B未知, 矩阵M也未知, 控制器无法计算u^*(k).不同于文献[23], 在下文Q-学习算法中引入矩阵H, 以便获取不依赖模型、完全数据驱动的控制器学习算法.

2.1 策略Q-学习算法设计

由Smith预测器(9)可知, Q-函数可以改写成

(22)

其中

(23)

那么, 贝尔曼方程(19)可以改写为

(24)

根据最优性必要条件, 由得到

(25)

定理1 贝尔曼方程(24)有唯一解H, 且式(25)等价于式(20).

证明假设贝尔曼方程(24)有两个不同的解H和W, 有

(26)

(27)

其中.由于矩阵M为行满秩, 矩阵Γ可逆.由于H≠W, H≠H₁, 那么式(19)存在两个不同解.然而, 对于优化问题(13), 贝尔曼方程(19)有唯一的解H, 与此产生矛盾.原假设式(24)有两个不同的解H和W不成立, 因而式(24)有唯一的解H.

将式(23)展开, 可得

(28)

其中: .所以式(25)等价于(20).

为了求解式(24)中的Q-函数矩阵H, 给出算法1.

算法1 策略Q-学习算法.

Step 1:初始化.给定稳定控制器增益K, 并设j=0, 其中j是迭代系数;

Step 2:通过求解Q-函数矩阵H^{j + 1}进行策略评估:

(29)

Step 3:策略更新.

(30)

(31)

Step 4:如果||K^{j + 1} - K^j|| < l(l是一个很小的正数), 则可以停止策略迭代.

注4 为保证激励的可持续性, 在算法1中需要在系统中加入探测噪声, 这样会引起矩阵H的偏差, 导致最优跟踪控制器增益不准确.然而, 即使加入探测噪声, 非策略Q-学习算法也能得到无偏的解.本文通过研究非策略学习方法, 学习最优跟踪控制器u(k), 解出无偏的Q-函数矩阵H.因此给出非策略Q-学习算法2.

注5 迭代矩阵H^{j + 1}收敛于式(24)中解H, 证明类似文献[9-12], 此处略.

2.2 非策略Q-学习算法设计

引入目标控制策略到系统动态中, 得到

(32)

其中: u(k)是行为控制策略, u^j(k)是目标控制策略.结合式(32), 利用(29), 有

(33)

其中

(34)

进一步整理, 可将式(33)写成

(35)

其中

由式(35)中的和可得控制器迭代增益矩阵

(36)

算法2 非策略Q-学习算法.

Step 1:数据收集.选择可镇定的行为控制策略u(k)作用于被控系统, 收集系统数据x(k)、r(k)并将它们储存于样本集[κ₁ κ₂ κ₃]和ρ^j中.

Step 2:初始化.选择一个控制器增益K⁰, 并设定j = 0, 其中j是迭代系数.

Step 3:执行Q-学习.通过使用递归最小二乘(RLS)或批最小二乘(BLS)方法, 计算、和, 并且由式(36)计算.

Step 4:如果||K^{j + 1} - K^j|| < l(l是一个很小的正数), 则可以停止策略迭代, 此时最优控制策略已找到; 否则, 令j = j + 1, 并重复Step 3.

注6 式(35)迭代矩阵H^{j + 1}等价于(29)中迭代矩阵H^{j + 1}, 证明类似文献[9-12].由于式(29)中H^{j + 1}收敛于(24)的解H, 则有.

注7 既然非策略强化学习方法在控制输入加入探测噪声时, 仍然保证贝尔曼方程解的无偏性, 本文不同于文献[23]采用的策略Q-学习算法, 本文给出非策略Q-学习算法学习基于Smith预测器的最优状态反馈控制律.

3 仿真实验

在这一节中, 通过仿真验证在发生随机有界丢包情况下非策略Q-学习算法的有效性.

首先, 考虑如下开环不稳定系统^[6]:

(37)

(38)

参考信号发生器为

(39)

选择Q = 6, R = 1并且连续反馈丢包的最大数目为δ_{f max} =1.此时, 丢包Smith预测器矩阵为

(40)

此时, 最优Q-函数矩阵H和最优跟踪控制增益K可以分别从式(18)和(21)中得到.

(41)

(42)

然后执行算法2, 经过10次迭代, 算法收敛得到最优Q-函数矩阵和最优控制器增益.

(43)

(44)

图 2和图 3分别展示了在学习过程中, 、收敛到最优值的过程. 图 4和图 5分别展示了非策略Q-学习算法的输出跟踪轨迹和控制输入轨迹.仿真结果表明, 在网络最大丢包数为1的情况下, 采用本文不依赖模型的具有Smith预测器的状态反馈最优控制, 系统跟踪性能较好.

图 2 学习过程中

收敛到最优值

图 3 学习过程中

收敛到最优值

图 4 非策略Q-学习算法的输出跟踪轨迹

图 5 非策略Q-学习算法的控制输入轨迹

图 6为最大连续丢包数δ_{f max} = 1时的随机丢包顺序.接下来考虑最大连续丢包数为δ_{f max} = 2时, 执行算法2经过10次迭代得到最优Q-函数矩阵和最优控制器增益.

(45)

图 6 随机丢包顺序

图 7~图 9分别给出了系统在网络最大丢包数为2时, 利用算法2得到的近似最优控制作用下, 系统的输出跟踪曲线、控制输入曲线和网络丢包情况.

图 7 非策略Q-学习算法的输出跟踪轨迹

图 8 非策略Q-学习算法的控制输入轨迹

图 9 随机丢包顺序

仿真结果表明, 在网络最大丢包数为2的情况下, 采用本文不依赖模型的具有Smith预测器的状态反馈最优控制, 系统输出能够跟踪参考输入, 但随着网络性能变差, 跟踪性能受到一定程度影响.可见在反馈控制的被控对象中, 对丢包数的容忍范围也是有限的, 如果最大连续丢包数δ_{f max}过大, 则系统的稳定性无法保障.

4 结论

本文针对系统动态未知的网络控制系统跟踪控制问题, 提出了一种基于数据驱动的非策略Q-学习方法.首先, 提出了Smith丢包预测器预测系统当前状态, 补偿数据丢失对网络控制系统性能的影响; 然后, 提出了非策略Q-学习算法, 此算法可在系统动态未知的情况下, 利用可测数据学习最优控制器增益矩阵.仿真结果表明, 该方法对系统动态未知的具有丢包的网络控制系统具有良好的跟踪性能.未来研究方向是将该方法推广到非线性系统中, 或考虑更多网络因素的影响, 比如网络时延和数据传输率等.

参考文献

[1]	Liu Q, Fu Q M, Gong S R, et al. Reinforcement learning method for mean reward of minimum state variable[J]. Journal of Communications, 2011, 32(1): 66-71.
[2]	Sutton R S. Learning to predict by the methods of temporal differences[J]. Machine Learning, 1988, 3(1): 9-44.
[3]	Zhang H, Cui X, Luo Y, et al. Finite-horizon H_∞ tracking control for unknown nonlinear systems with saturating actuators[J]. IEEE Transactions on Neural Networks and Learning Systems, 2018, 29(4): 1200-1212. DOI:10.1109/TNNLS.2017.2669099
[4]	Wang D, Liu D. Learning and guaranteed cost control with event-based adaptive critic implementation[J]. IEEE Transactions on Neural Networks and Learning Systems, 2018, 29(12): 6004-6014. DOI:10.1109/TNNLS.2018.2817256
[5]	Wang D. Intelligent critic control with robustness guarantee of disturbed nonlinear plants[J]. IEEE Transactions on Cybernetics. DOI:10.1109/TCYB.2019.2903117
[6]	Kiumarsi B, Lewis F L, Modares H, et al. Reinforcement Q-learning for optimal tracking control of linear discrete-time systems with unknown dynamics[J]. Automatica, 2014, 50(4): 1167-1175. DOI:10.1016/j.automatica.2014.02.015
[7]	Tsitsiklis J N, Roy B V. An analysis of temporal-difference learning with function approximation[J]. IEEE Transactions on Automatic Control, 2002, 42(5): 674-690.
[8]	Wei Q, Liu D, Shi G. A novel dual iterative Q-learning method for optimal battery management in smart residential environments[J]. IEEE Transactions on Industrial Electronics, 2015, 62(4): 2509-2518. DOI:10.1109/TIE.2014.2361485
[9]	Al-Tamimi A, Lewis F L, Abu-Khalaf M. Model-free Q-learning designs for linear discrete-time zero-sum games with application to $H$-infinity control[J]. Automatica, 2007, 43(3): 473-481. DOI:10.1016/j.automatica.2006.09.019
[10]	Kim J H, Lewis F L. Model-free H_∞ control design for unknown linear discrete-time systems via Q-learning with LMI[J]. Automatica, 2010, 46(8): 1320-1326. DOI:10.1016/j.automatica.2010.05.002
[11]	Li J, Chai T, Lewis F, et al. Off-policy Q-learning: Set-point design for optimizing dual-rate rougher flotation operational processes[J]. IEEE Transactions on Industrial Electronics, 2018, 65(5): 4092-4102. DOI:10.1109/TIE.2017.2760245
[12]	Li J, Chai T, Lewis F L, et al. Off-policy interleaved Q-learning: Optimal control for affine nonlinear discrete-time systems[J]. IEEE Transactions on Neural Networks and Learning Systems, 2019, 30(5): 1308-1320. DOI:10.1109/TNNLS.2018.2861945
[13]	Luo B, Liu D, Huang T, et al. Model-free optimal tracking control via critic-only Q-learning[J]. IEEE Transactions on Neural Networks and Learning Systems, 2016, 27(10): 2134-2144. DOI:10.1109/TNNLS.2016.2585520
[14]	Zhang W, Branicky M S, Phillips S M. Stability of networked control systems[J]. IEEE Control Systems Magazine, 2001, 21(1): 84-99. DOI:10.1109/37.898794
[15]	Wang Y L, Han Q L, Peng C. Network-based modelling and dynamic output feedback control for unmanned marine vehicles in network environments[J]. Automatic, 2018, 91(3): 43-53.
[16]	Wang Y L, Han Q L, Fei M R, et al. Network-based T-S fuzzy dynamic positioning controller design for unmanned marine vehicles[J]. IEEE Transations on Cybernetics, 2018, 48(9): 2750-2763. DOI:10.1109/TCYB.2018.2829730
[17]	Seiler P, Sengupta R. Analysis of communication losses in vehicle control problems[C]. Proceedings of the American Control Conference. Arlington: IEEE, 2001: 1491-1496.
[18]	Azimi-Sadjadi B. Stability of networked control systems in the presence of packet losses[C]. Proceeding of the 42nd IEEE Conference on Decision and Control. Maui: IEEE, 2003: 676-681.
[19]	Xiong J, Lam J. Stabilization of linear systems over networks with bounded packet loss[J]. Automatica, 2007, 43(1): 80-87. DOI:10.1016/j.automatica.2006.07.017
[20]	Xu H, Sahoo A, Jagannathan S. Stochastic adaptive event-triggered control and network scheduling protocol co-design for distributed networked systems[J]. IET Control Theory and Applications, 2014, 8(18): 2253-2265. DOI:10.1049/iet-cta.2014.0330
[21]	Xu H, Jagannathan S, Lewis F L. Stochastic optimal control of unknown linear networked control system in the presence of random delays and packet losses[J]. Automatica, 2012, 48(6): 1017-1030. DOI:10.1016/j.automatica.2012.03.007
[22]	Xu H, Jagannathan S. Stochastic optimal controller design for uncertain nonlinear networked control system via neuro dynamic programming[J]. IEEE Transactions Neural Networks Learning Systems, 2013, 24(3): 471-484. DOI:10.1109/TNNLS.2012.2234133
[23]	Jiang Y, Fan J, Chai T, et al. Tracking control for linear discrete-time networked control systems with unknown dynamics and dropout[J]. IEEE Transactions on Neural Networks and Learning Systems, 2018, 29(10): 4607-4620. DOI:10.1109/TNNLS.2017.2771459