摘要:离线强化学习旨在从静态的经验数据集中学习策略, 这种数据驱动的学习范式为强化学习在现实世界的应用提供了极大可能. 然而, 离线数据集通常由不同水平的策略收集而来, 其动作分布呈现出一种难以表达的多峰状态. 此外, 离线数据集中的高回报轨迹通常较为稀缺, 导致策略学习效率低下. 为此, 提出一种基于优势约束扩散策略的离线强化学习方法. 首先, 利用扩散模型的反向扩散步骤生成策略, 以更好地拟合多峰动作分布; 然后, 在策略提升阶段, 使用优势函数进行策略约束以帮助智能体更加专注于数量稀少的高回报轨迹, 并分别针对连续控制任务和稀疏奖励导航任务构建两种特定优势函数. 在bandit任务和D4RL基准上的实验结果表明: 所提方法能有效缓解行为策略表达能力受限及高回报轨迹稀缺的问题, 在大多数任务上获得最高的归一化得分.