摘要:离线强化学习(ORL)通过预先收集好的数据集解决动态决策问题, 为强化学习在现实中的应用提供了极大的可能性. 现有ORL多聚焦于对抗分布外动作, 从而导致习得策略是次优的可能性增大. 鉴于此, 研究导致次优的认知误差问题, 提出一种基于温和泛化的不确定性离线强化学习方法(UAMG). 首先, 设计一种由习得策略和扰动模型组成的温和泛化策略, 以对未见过的动作具有一定的适应性; 其次, 在习得策略的更新网络中引入退火行为克隆作为惩罚, 逐渐提高习得策略的泛化能力; 此外, 将不确定性引入Q值函数的估计中, 利用温和泛化策略构造不确定性量化器, 实现对不确定性的有效量化, 进而减小认知误差. 理论分析表明, UAMG能够有效降低习得策略的次优性. D4RL基准上的实验表明: 相较于对比方法, UAMG在认知误差的抑制方面表现优异且在多数任务上获得最高的回报.