摘要:值函数估计偏差修正已成为深度强化学习领域的一个重要研究方向. 现有大多数研究工作均聚焦于如何缓解高估偏差, 却忽略了缓解高估偏差过程中引入的低估偏差问题. 为此, 通过在Actor-Critic框架中灵活设置多个Actor和Critic网络来缓解值函数低估偏差, 提出一种基于组合网络优化的延迟深度确定性策略梯度(D3PG-CNO). D3PG-CNO的主要思路为: 在经验收集阶段用一个Critic网络对多个Actor网络的输出动作进行评估, 并选择最优的动作存入经验池. 在经验训练阶段, 从多个Critic网络中选出在当前状态-动作对下估计结果最小的Critic网络, 并用其对多个Actor网络的输出动作进行评估, 选择评估最大值进行目标值的计算. MuJoCo平台上的实验结果显示, 相比于现有的确定性策略梯度算法, D3PG-CNO显著降低了估计偏差, 提高了算法的稳定性和收敛速度, 并在多个任务中表现出更好的性能.