摘要:针对动态非结构化环境中移动机器人感知不确定性与策略泛化能力不足的挑战, 提出一种基于非对称强化学习的鲁棒自主导航策略优化框架(RANav). 该方法融合隐式环境估计、域随机化与非对称强化学习机制, 提升机器人对动态环境的建模与决策能力. 首先, 构建多模态融合的隐式环境估计网络, 以精确提取动态障碍物特征并提升场景表征能力; 其次, 引入基于行为域随机化机制, 提升策略的Sim-to-Real迁移能力; 最后, 采用非对称近端策略优化(PPO)算法, 利用特权信息优化Critic网络提升策略学习效率. 在多组仿真与真实场景实验中, RANav在导航成功率、避障鲁棒性与路径效率方面均显著优于现有方法, 充分验证了其在复杂非结构环境中的鲁棒泛化能力与实际部署潜力.