摘要:物流配送效率及其成本优化是制造业供应链管理的核心挑战之一, 相关问题常建模为车辆路径规划问题. 易碎家电等货物在物流运输中无法堆叠, 需在车厢中平铺, 针对这一实际约束, 考虑在传统车辆路径规划模型基础上增加货物的二维装载约束, 形成带有二维装箱约束的车辆路径问题(2L-CVRP). 该问题包含路径规划与二维装箱两个子问题, 存在强约束、多极组合优化的特性. 传统精确算法及启发式方法在其大规模问题求解上存在耗时长、效率低的局限, 难以应对客户位置、需求即时变化的动态需求. 针对上述快速求解挑战, 设计一种基于强化学习及变邻域搜索协同的知识驱动强化学习求解算法, 优化2L-CVRP的车辆行驶距离. 首先, 以车辆行驶距离为奖励设计基于注意力机制与指针网络的Actor-Critic强化学习框架, 在此框架下采用多种启发式算法协同处理装箱约束, 改进不可行解, 生成车辆初始路径; 然后, 设计一种高效的问题知识驱动的变邻域搜索策略, 改进端到端网络得到的初始路径序列; 最后, 基于经典2L-CVRP测试集验证所提出算法的有效性. 仿真实验表明, 相比经典启发式方法, 所提出算法在小规模实例上车辆行驶距离减少21.52%, 并更新50%的大规模实例最优解. 同时, 所提出算法的求解速度显著优于对比算法, 大规模测例中求解效率优势更加明显, 验证了所提出算法求解2L-CVRP的高效性.