摘要:针对多重欺骗攻击下动力学信息未知的线性离散系统, 提出一种非策略Q-learning算法解决系统的最优跟踪控制问题. 首先, 考虑加入一个权重矩阵建立控制器通信信道遭受多重欺骗攻击的输入模型, 并结合参考命令生成器构建增广跟踪系统. 在线性二次跟踪框架内将系统的最优跟踪控制表达为欺骗攻击与控制输入同时参与的零和博弈问题. 其次, 设计一种基于状态数据的非策略Q-learning算法学习系统最优跟踪控制增益, 解决应用中控制增益不能按照给定要求更新的问题, 并证明在满足持续激励条件的探测噪声下该算法的求解不存在偏差. 同时考虑系统状态不可测的情况, 设计基于输出数据的非策略Q-learning算法. 最后, 通过对F-16飞机自动驾驶仪的跟踪控制仿真, 验证所设计非策略Q-learning算法的有效性以及对探测噪声影响的无偏性.