<?xml version="1.0" encoding="utf-8"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:cf="http://www.microsoft.com/schemas/rss/core/2005">
<channel xmlns:cfi="http://www.microsoft.com/schemas/rss/core/2005/internal" cfi:lastdownloaderror="None">
<title cf:type="text"><![CDATA[《控制与决策》编辑部 -->强化学习驱动的智能优化与调度]]></title>
<item>
<title xmlns:cf="http://www.microsoft.com/schemas/rss/core/2005" cf:type="text"><![CDATA[强化学习驱动进化的模因算法求解准时制分布式柔性作业车间调度问题]]></title>
<link><![CDATA[http://kzyjc.alljournals.cn/kzyjc/article/abstract/2025-0310]]></link>
<description xmlns:cf="http://www.microsoft.com/schemas/rss/core/2005" cf:type="html"><![CDATA[研究准时制生产条件下的分布式柔性作业车间调度问题. 企业需要根据工件的交付时间决定启用工厂的数目, 并在各工厂内部进行调度, 其目标是最小化完工时间、能量消耗和总生产成本. 鉴于此, 建立多目标混合整数线性规划模型来刻画此问题, 进而通过强化学习驱动进化的模因算法来完成求解. 首先, 通过启发式方法培育高质量的初始种群; 然后, 在进化过程中, 强化学习将交配池中的父本视为状态和动作, 并以子代的质量评估环境奖励, 目的是为每个父本推荐最合适的搭档以生成高质量的后代, 降低随机匹配的盲目性; 最后, 自适应局部搜索机制作用于进化停滞的种群, 能够进一步提升搜索质量. 通过在两类标准测试集进行仿真实验并与5种算法进行比较, 验证了所提出算法的有效性.]]></description>
<pubDate>2026/3/24 13:10:18</pubDate>
<category><![CDATA[强化学习驱动的智能优化与调度]]></category>
<author><![CDATA[赵仕存，周泓]]></author>
<guid><![CDATA[http://kzyjc.alljournals.cn/kzyjc/article/abstract/2025-0310]]></guid><cfi:id>7</cfi:id><cfi:read>true</cfi:read></item>
<item>
<title xmlns:cf="http://www.microsoft.com/schemas/rss/core/2005" cf:type="text"><![CDATA[基于近端策略优化的动态武器目标分配]]></title>
<link><![CDATA[http://kzyjc.alljournals.cn/kzyjc/article/abstract/2025-0910]]></link>
<description xmlns:cf="http://www.microsoft.com/schemas/rss/core/2005" cf:type="html"><![CDATA[现代战场环境下的动态传感器-武器-目标分配(SWTA)问题具有高动态、强对抗的特点, 传统静态分配方法难以适应战场态势的快速演化, 存在求解效率低、环境适应性差等局限. 鉴于此, 提出一种基于近端策略优化(PPO)的动态SWTA方法, 融合OODA(观察-判断-决策-行动)循环理论, 构建符合实际作战场景的传感器探测概率模型与武器毁伤概率模型, 通过PPO算法实现智能体与环境的持续交互与策略优化, 在决策过程中统筹作战效能与资源消耗. 实验结果表明, 该方法在多种弹药目标比场景下均表现出优越性能, 能够显著提升系统整体作战的效能与资源利用率. 所提出方法为动态SWTA问题提供了一种高效、自适应的智能决策框架, 推动了指挥决策的智能化进程, 具备较强的实际应用潜力.]]></description>
<pubDate>2026/3/24 13:10:18</pubDate>
<category><![CDATA[强化学习驱动的智能优化与调度]]></category>
<author><![CDATA[王晴，王浩然，辛斌，张佳]]></author>
<guid><![CDATA[http://kzyjc.alljournals.cn/kzyjc/article/abstract/2025-0910]]></guid><cfi:id>6</cfi:id><cfi:read>true</cfi:read></item>
<item>
<title xmlns:cf="http://www.microsoft.com/schemas/rss/core/2005" cf:type="text"><![CDATA[带有二维装箱约束车辆路径问题的知识驱动强化学习求解]]></title>
<link><![CDATA[http://kzyjc.alljournals.cn/kzyjc/article/abstract/2025-0893]]></link>
<description xmlns:cf="http://www.microsoft.com/schemas/rss/core/2005" cf:type="html"><![CDATA[物流配送效率及其成本优化是制造业供应链管理的核心挑战之一, 相关问题常建模为车辆路径规划问题. 易碎家电等货物在物流运输中无法堆叠, 需在车厢中平铺, 针对这一实际约束, 考虑在传统车辆路径规划模型基础上增加货物的二维装载约束, 形成带有二维装箱约束的车辆路径问题(2L-CVRP). 该问题包含路径规划与二维装箱两个子问题, 存在强约束、多极组合优化的特性. 传统精确算法及启发式方法在其大规模问题求解上存在耗时长、效率低的局限, 难以应对客户位置、需求即时变化的动态需求. 针对上述快速求解挑战, 设计一种基于强化学习及变邻域搜索协同的知识驱动强化学习求解算法, 优化2L-CVRP的车辆行驶距离. 首先, 以车辆行驶距离为奖励设计基于注意力机制与指针网络的Actor-Critic强化学习框架, 在此框架下采用多种启发式算法协同处理装箱约束, 改进不可行解, 生成车辆初始路径; 然后, 设计一种高效的问题知识驱动的变邻域搜索策略, 改进端到端网络得到的初始路径序列; 最后, 基于经典2L-CVRP测试集验证所提出算法的有效性. 仿真实验表明, 相比经典启发式方法, 所提出算法在小规模实例上车辆行驶距离减少21.52%, 并更新50%的大规模实例最优解. 同时, 所提出算法的求解速度显著优于对比算法, 大规模测例中求解效率优势更加明显, 验证了所提出算法求解2L-CVRP的高效性.]]></description>
<pubDate>2026/3/24 13:10:18</pubDate>
<category><![CDATA[强化学习驱动的智能优化与调度]]></category>
<author><![CDATA[周梦，王境琦，吴楚格，夏元清]]></author>
<guid><![CDATA[http://kzyjc.alljournals.cn/kzyjc/article/abstract/2025-0893]]></guid><cfi:id>5</cfi:id><cfi:read>true</cfi:read></item>
<item>
<title xmlns:cf="http://www.microsoft.com/schemas/rss/core/2005" cf:type="text"><![CDATA[机器故障可重入混合流水车间调度问题研究]]></title>
<link><![CDATA[http://kzyjc.alljournals.cn/kzyjc/article/abstract/2025-0442]]></link>
<description xmlns:cf="http://www.microsoft.com/schemas/rss/core/2005" cf:type="html"><![CDATA[针对带机器故障约束的可重入混合流水车间调度问题(RHFSP-MFC), 以最小化最大完工时间为优化目标, 提出一种基于门控Transformer模型框架的近端策略优化算法(GTrXL-PPO)进行求解. 建立包含机器故障概率分布的数学模型; 针对机器故障情况, 设计多种重调度策略; 将工件状态和机器的运行状态作为状态输入, 调度时为工件分配合适的机器作为动作, 设计即时奖励和任务完成奖励构成的双重奖励机制, 从而有效指导调度决策实现智能调度. 通过在不同场景下进行单机故障和多机故障的仿真测试, 验证了所提出算法的优越性, 展示了其在复杂调度环境中的有效性和适应性.]]></description>
<pubDate>2026/3/24 13:10:18</pubDate>
<category><![CDATA[强化学习驱动的智能优化与调度]]></category>
<author><![CDATA[汤怀钰，王聪，张宏立，马萍，李新凯]]></author>
<guid><![CDATA[http://kzyjc.alljournals.cn/kzyjc/article/abstract/2025-0442]]></guid><cfi:id>4</cfi:id><cfi:read>true</cfi:read></item>
<item>
<title xmlns:cf="http://www.microsoft.com/schemas/rss/core/2005" cf:type="text"><![CDATA[考虑需风量不确定性的矿井通风网络风量深度强化学习优化]]></title>
<link><![CDATA[http://kzyjc.alljournals.cn/kzyjc/article/abstract/2025-0165]]></link>
<description xmlns:cf="http://www.microsoft.com/schemas/rss/core/2005" cf:type="html"><![CDATA[矿井通风网络优化调节是矿井通风系统安全、稳定、经济运行的重要保障. 通风网络结构和状态参数随机动态变化给矿井通风网络优化求解和决策带来了极大的挑战. 充分考虑矿井通风系统的随机不确定性, 提出一种基于深度强化学习的矿井通风网络鲁棒优化调控方法. 首先, 对矿井通风网络风量优化问题进行数学描述, 将该风量优化问题建模为马尔可夫决策过程模型, 无需对系统不确定性进行建模和预测; 然后, 采用一种改进分布式近端策略优化算法对连续风量优化问题进行动态优化和决策, 能够直接得到不同需风量的优化调控方案. 实验结果表明, 所提出方法能够有效应对通风系统的多重不确定性, 降低矿井通风系统的风机能耗.]]></description>
<pubDate>2026/3/24 13:10:18</pubDate>
<category><![CDATA[强化学习驱动的智能优化与调度]]></category>
<author><![CDATA[吴亮红，张艳云，左词立，王汐，谭伟华]]></author>
<guid><![CDATA[http://kzyjc.alljournals.cn/kzyjc/article/abstract/2025-0165]]></guid><cfi:id>3</cfi:id><cfi:read>true</cfi:read></item>
<item>
<title xmlns:cf="http://www.microsoft.com/schemas/rss/core/2005" cf:type="text"><![CDATA[A*-PPO融合的建材搬运机器人路径规划]]></title>
<link><![CDATA[http://kzyjc.alljournals.cn/kzyjc/article/abstract/2025-0605]]></link>
<description xmlns:cf="http://www.microsoft.com/schemas/rss/core/2005" cf:type="html"><![CDATA[路径规划是智能建造中建材搬运机器人高效、安全作业的核心挑战, 尤其是在动态复杂工况下, 传统方法常面临路径震荡、避障失败以及全局-局部决策失配等问题. 鉴于此, 提出A*-PPO协同优化框架. 具体做法如下: 1)改进A*算法采用八邻域扩展和切比雪夫距离构建栅格化全局拓扑; 2)设计六维观测向量驱动的动态奖励函数, 集成路径跟踪奖励、碰撞惩罚以及步长约束; 3)建立特征级参数共享机制, 通过动态窗口法(DWA)将A*路径特征嵌入近端策略优化(PPO)网络, 以实现全局代价估计与局部避障决策同步优化. 仿真验证: 在4类典型环境中的仿真表明, 所提出方法相较于RRT*-APF与传统A*算法, 在动态障碍场景下路径成功率提升了42.7% (传统方法均失败), 规划时间减少了55.8%, U型凹面障碍耦合动态干扰时成功避障了98次. 技术突破: 通过渐近式航点验证和双层优化架构, 能够解决拓扑保持与实时避障的兼容性难题以及建筑机器人路径震荡和避障延迟问题.]]></description>
<pubDate>2026/3/24 13:10:18</pubDate>
<category><![CDATA[强化学习驱动的智能优化与调度]]></category>
<author><![CDATA[尹航，郭岱羲，路沙沙，关欣怡，马润博，金佳旭]]></author>
<guid><![CDATA[http://kzyjc.alljournals.cn/kzyjc/article/abstract/2025-0605]]></guid><cfi:id>2</cfi:id><cfi:read>true</cfi:read></item>
<item>
<title xmlns:cf="http://www.microsoft.com/schemas/rss/core/2005" cf:type="text"><![CDATA[学习驱动的迭代局部搜索算法求解分布式流水车间鲁棒调度问题]]></title>
<link><![CDATA[http://kzyjc.alljournals.cn/kzyjc/article/abstract/2025-0275]]></link>
<description xmlns:cf="http://www.microsoft.com/schemas/rss/core/2005" cf:type="html"><![CDATA[针对分布式流水车间中加工时间不确定性与序列相关准备时间耦合的鲁棒调度问题, 提出一种强化学习驱动的迭代局部搜索算法(QILS). 首先, 构建以最大完工时间为目标的期望-风险鲁棒调度模型, 有效平衡调度方案的稳定性与最优性; 其次, 设计面向不确定环境的NEHUPT启发式方法, 基于场景分析确定工件的调度优先级, 结合微调策略提升初始解的质量; 另外, 构建$ Q$-learning与迭代局部搜索算法的协同优化框架, 利用强化学习以及动态衰减方法驱动扰动策略的动态选择, 平衡算法的搜索和开发能力; 最后, 提出一种基于鲁棒贡献度的局部搜索方法, 进一步提升解的质量. 通过系统性的仿真实验及与多种先进代表性算法的对比分析结果表明, 所提出的算法在求解分布式鲁棒车间调度问题方面具有显著优势.]]></description>
<pubDate>2026/3/24 13:10:18</pubDate>
<category><![CDATA[强化学习驱动的智能优化与调度]]></category>
<author><![CDATA[郭恒伟，桑红燕，潘全科]]></author>
<guid><![CDATA[http://kzyjc.alljournals.cn/kzyjc/article/abstract/2025-0275]]></guid><cfi:id>1</cfi:id><cfi:read>true</cfi:read></item>
</channel>
</rss>