摘要:本文基于策略迭代的数据驱动方法研究多目标动态优化中合作线性二次差分博弈的Pareto最优性. 与目前已有的完全依赖于动态系统精确模型的多目标优化不同, 系统参数完全未知的合作线性二次差分博弈被深入研究. 首先, 提出一种新型无模型强化学习迭代算法求解合作线性二次差分博弈对应的N个代数Riccati方程. 其次, 当状态和控制输入的数据收集充分满足秩判据时, 利用差分方程的性质证明算法的收敛性. 然后, 利用加权方法结合off-policy迭代算法得到合作线性二次差分博弈的Pareto最优策略和Pareto最优解. 最后, 提出多目标合作线性二次差分博弈的off-policy迭代算法, 并通过仿真算例验证该算法的有效性.