摘要:三维目标检测对于提升智能系统在复杂室内环境中的感知与理解能力具有重要意义. 然而, 现有基于单模态点云的检测方法普遍存在语义信息不足、泛化能力受限等问题, 难以有效应对室内场景中新类别目标的检测需求. 针对上述问题, 提出一种图像-点云-文本多模态融合的室内三维目标检测方法. 该方法首先引入密集深度图引导的图像-点云早期融合策略, 通过深度约束将图像语义特征精确映射至三维空间, 有效增强点云的语义表达能力并缓解遮挡带来的空间错位问题; 然后, 设计混合查询引导的室内Transformer检测器, 采用几何查询与可学习查询相结合的双分支查询机制, 在兼顾局部目标精细建模的同时强化场景级上下文建模能力; 最后, 提出动态解耦3D-IoU损失增强策略, 通过解耦空间梯度并根据目标尺度动态调整权重, 提高新物体候选框的定位质量与发现能力. 在SUN-RGBD数据集上的实验结果表明, 所提出方法在多项评价指标上均优于现有先进方法, 验证了其在室内开放域三维目标检测任务中的有效性与鲁棒性.