摘要:面向未知环境下的零样本目标搜索任务, 提出一种多模态大模型推理与自主探索相融合的无人机导航方法. 首先, 针对多模态大模型难以处理三维数据的问题, 提出了一种空间-视觉逆映射方法,通过构建具备显式三维坐标约束的场景图像作为多模态大模型输入, 赋予多模态大模型同时理解场景图像与定位关键区域的能力. 然后, 针对现有目标搜索方法泛化性差的问题, 设计了一种蕴含“辨识—评估—转移”逻辑的提示词, 引导无人机实现跨场景条件下的零样本目标搜索. 最后, 针对现有目标搜索方法存在显著仿真—真实差距, 在无人机自主探索框架中引入几何–语义异步增益融合机制与动态评估策略, 实现“空间自主探索”与“语义规律利用”自适应平衡. 仿真结果表明, 在三类 Gazebo 场景中, 所提方法在路径长度、搜索时间及成功率等指标上均明显优于基线方法.此外, 室外未知场景实验验证了所提方法在零样本目标搜索任务中的有效性.