摘要:近年来, 基于Transformer的方法在三维人体姿态估计任务中表现出色, 然而, 现有方法虽能通过全局自注意力机制有效建模关节间长程依赖关系, 但在肢体快速运动等场景下易产生局部运动轨迹预测偏差, 存在对局部运动特征建模不足问题. 鉴于此, 提出一种结合卷积神经网络(CNN)与混合注意力机制的Transformer架构模型, 通过加入卷积特征提取, 显著增强局部关节运动表征能力. 首先, 设计混合多假设生成模块, 兼顾效率的同时生成更丰富的假设信息, 有效弥补传统全局视角方法在捕捉局部依赖关系上的不足; 然后, 使用自假设精细化模块进一步挖掘数据中的多样化信息, 确保模型能够捕捉到更多细节; 最后, 通过跨假设交互模块充分融合不同假设间的特征信息, 增强模型的鲁棒性和精度. 实验结果表明, 该模型在数据集Human3.6M上的表现相较于基准模型MHFormer提升了7.99%, 表明了所提出组件与整体架构在三维人体姿态估计领域的有效性.