摘要:客流在时空维度上呈现的时变特性对城市轨道交通运营管理提出了严峻挑战,同时,需求响应式列车时刻表优化问题的复杂性对于算法设计提出了更高的要求. 为此,本文将人工智能领域的深度强化学习方法应用到地铁列车时刻表的优化问题中,以提升地铁运营管理的智能化水平. 将时变客流需求与列车时刻表决策互动关系构建为马尔可夫决策过程,为智能体提供训练和学习环境. 其中,以列车到发、乘客状态以及列车数量作为状态空间,以列车发车间隔作为动作空间,并设计了“人-车-站”一体化的多维复合奖励函数. 开发了一种基于自适应发车间隔和列车数量的多目标软演员-评论家优化算法提升求解效率. 以小规模算例进行超参数优化,并验证了需求响应式列车时刻表相对于均衡列车时刻表的优势. 以广州市地铁8号线进行仿真实验,结果表明,所提出的方法相对于其他人工智能方法及启发式算法具有较快的收敛速度和求解效率. 此外,针对不同客流扰动场景,方法能够在短时间内生成满意的运营方案,说明方法具有较好的泛化能力. 研究结果可为进一步提升地铁运营调度智能化水平提供理论和方法支撑.