摘要:针对在复杂空间博弈场景中, 脉冲推力驱动的航天器追逃博弈决策实时性受限和传统奖励函数较难适应远距离和高动态对抗学习环境的问题, 对航天器博弈对抗的智能机动决策和燃料优化展开研究. 首先, 建立轨道博弈动力学和机动约束模型; 然后, 提出一种具有时间约束的航天器单脉冲可达域求解方法, 并结合神经网络对轨道危险区进行量化拟合; 接着, 基于分布式系统架构设计层次强化学习框架, 采用近端策略优化(PPO)算法开展红蓝对抗学习训练; 最后, 对所提出机动策略进行验证. 仿真结果表明, 在二体动力学轨道博弈场景中, 危险区策略可使得平均燃料消耗降低33.81%, 博弈策略相较于传统方法打靶率平均可提升38.41%.