TY - JOUR ID - 10.13195/j.kzyjc.2019.0417 TI - 基于非策略Q-学习的网络控制系统最优跟踪控制 AU - 李金娜 AU - 尹子轩 VL - 34 IS - 11 PB - SP - 2343 EP - 2349 PY - JF - 控制与决策 JA - kzyjc UR - http://kzyjc.alljournals.cn/kzyjc/home?file_no=20191111&flag=1 KW - 网络控制;非策略Q-学习;线性二次跟踪(LQT); 数据包丢失 KW - networked control system;off-policy Q-learning;linear quadratic tracking;packet dropout AB - 针对具有数据包丢失的网络化控制系统跟踪控制问题,提出一种非策略Q-学习方法,完全利用可测数据,在系统模型参数未知并且网络通信存在数据丢失的情况下,实现系统以近似最优的方式跟踪目标.首先,刻画具有数据包丢失的网络控制系统,提出线性离散网络控制系统跟踪控制问题;然后,设计一个Smith预测器补偿数据包丢失对网络控制系统性能的影响,构建具有数据包丢失补偿的网络控制系统最优跟踪控制问题;最后,融合动态规划和强化学习方法,提出一种非策略Q-学习算法.算法的优点是:不要求系统模型参数已知,利用网络控制系统可测数据,学习基于预测器状态反馈的最优跟踪控制策略;并且该算法能够保证基于Q-函数的迭代Bellman方程解的无偏性.通过仿真验证所提方法的有效性. ER -