摘要:视线估计是一种预测人眼注视位置或注视方向的技术, 在人机交互和计算机视觉的应用中发挥重要作用. 针对特征的差异性和利用率不全面的问题, 提出双分支特征融合的视线估计算法. 首先, 构建Agent Swin Transformer网络与残差网络相结合的双分支网络模型, 对视线特征进行提取, 由改进的Agent Swin Transformer网络构成全局特征提取分支, 逐层提取全局语义特征; 由残差网络构成局部特征提取分支, 提取不同尺度下的局部细节特征. 通过特征融合将特征张量连接在一起, 增强模型的表征能力. 其次, Agent Swin Transformer网络融合高效多尺度注意力模块(EMA)及空间和信道重建卷积模块(SCConv), 以加强特征, 保持信息有效性, 降低复杂性和计算成本. 最后, 结合头部姿态估计进行视线估计得到最终的视线方向, 以减少干扰因素对眼部外观的影响. 在MPIIFaceGaze数据集上进行大量实验, 实验结果表明, 该方法的视线估计角度平均误差为4.23°, 同当前主流的同类方法相比, 所提出算法能够更为准确地进行视线估计.