2. 沈阳大学 信息工程学院,沈阳 110044
2. School of Information Engineering, Shenyang University, Shenyang 110044, China
视频目标跟踪是计算机视觉领域的一个重要研究内容, 已广泛应用于军事制导、人机交互、安防监控等领域.但随着应用范围的逐渐扩展, 该技术经常面临目标外观变化、严重遮挡、光照骤变等问题, 严重影响跟踪效果, 导致跟踪漂移.
考虑到遮挡位置具有稀疏性特征, 基于稀疏表示[1-5]的目标表观建模有利于抑制遮挡因素的影响, 但是该方法中目标模板缺乏图像特征信息.低秩约束[6-8]能将目标表观建模在低维子空间, 提取候选目标的全局子空间结构, 描述更为丰富的图像特征, 增强跟踪对位置和光照变化的鲁棒性.因此, 融合低秩和稀疏表示能够增强跟踪的精确性和鲁棒性[9-10].Sui等[11]在粒子滤波框架下, 联合全局粒子的帧间子空间结构关系和相邻斑块的局域相关性, 通过局域低秩稀疏表示建模目标表观; Zhong等[12]融合基于全局模板的稀疏分类器和基于局域斑块空间信息的稀疏生成模型建立稀疏联合目标表观模型用于目标跟踪; Zhang等[13]在粒子滤波框架下通过低秩稀疏分解在线学习了目标的表观变化, 考虑了连续时间目标表观的一致性, 并限制了遮挡、光照变化等环境复杂多变情况带来的干扰问题.上述方法分别约束了候选粒子的低秩性和稀疏性, 限制了复杂遮挡、光照变化的影响, 但没有考虑目标剧烈位移的情况.针对这一问题, 本文借鉴融合Lasso模型[14]的建模思想, 提出一种带有融合罚约束的低秩结构化稀疏表示目标跟踪算法.利用混合范数稀疏描述局部斑块的结构信息, 采用核范数低秩约束目标表观的时域相关性, 惩罚稀疏表示系数的平滑性, 进一步去除不相关粒子, 提高目标跟踪的鲁棒性.
1 目标跟踪框架 1.1 基于粒子滤波的运动模型目标跟踪可以描述为贝叶斯滤波框架下对目标运动状态后验概率密度p(xt|z1:t)的持续估计问题[15], 即通过下式估计t时刻的目标运动状态xt:
(1) |
(2) |
其中:zt表示t时刻的观测; 相邻帧间目标运动状态可以利用仿射参数描述, 令xt=[lx, ly,θ, s,α, ϕ]T, 这里6个仿射参数分别表示x、y方向位移, 旋转角度, 尺度因子, 宽高比, 斜切度;p(xt|xt-1)表示两个相邻状态间的运动模型;p(zt|xt)表示观测模型, 描述状态xt情况下观测zt的概率.最优状态可通过N个样本的最大后验概率来确定, 有
(3) |
其中xti表示第t帧的第i个样本.
1.2 具有融合罚约束的低秩结构化稀疏表示模型稀疏表示方法通过字典元素的线性稀疏组合表示目标表观.因遮挡位置具有稀疏性, 该方法能够抑制遮挡因素的影响, 缺陷在于缺乏对图像特征的描述.低秩约束能够将目标表观建模在低维子空间, 提取候选目标的全局子空间结构, 描述更为丰富的图像特征信息, 抑制位置和光照变化的影响.但因候选粒子的子空间结构呈独立高斯分布, 残留误差小且密集, 不利于处理遮挡问题, 因此这里将低秩与稀疏表示方法相结合以增强跟踪的精确性和鲁棒性.
稀疏跟踪的初期思想是通过L0范数优化实现, 但求解最稀疏解是一个NP难问题.改进为L1范数优化问题后, 仅能针对单变量进行变量选择, 处理连续变量时没有考虑变量间的相关性问题.本文利用L1, 2混合范数结构化稀疏约束表示系数, 从而描述候选粒子间的相关性.其次, 考虑到全局稀疏表示法不能解决遮挡问题, 本文通过在候选粒子中选取局部斑块引入局域表观信息, 通过保护候选粒子间及其局部斑块间空间布局结构解决遮挡问题.
基于低秩稀疏表示的目标表观建模方法, 可以利用目标表观的时间一致性特性改善跟踪性能.即, 通过相邻帧间目标表观的相似性去除不相关粒子, 降低计算复杂度.本文借鉴融合Lasso罚模型的建模思想, 在表观模型中引入融合罚项, 对稀疏系数差分的绝对值进行约束, 以保证稀疏系数间有相应的顺序联系, 且大部分系数与其邻近系数接近.这样, 在保证表示系数稀疏性的同时, 使其连续性差异亦稀疏.在目标表观时域一致性限制的基础上, 引入时域平滑性约束.
初始化字典模板构建模板库, 在新帧中根据预测的粒子运动状态在小范围内随机采样候选粒子, 归一化为模板尺寸.利用重叠滑动窗在归一化的候选粒子中选取局部斑块, 按列存储, 表示为字典模板的线性稀疏组合.在具有融合罚约束的结构化稀疏表示基础上, 利用核范数低秩描述目标表观的全局时域相关性, 最终建立目标表观优化模型为
(4) |
该模型的构建分别通过低秩约束、结构化稀疏表示和融合罚限制优化描述目标表观变化.其中:Xk=[x1k,x2k, …,xnk], xik表示第k个候选中第i个斑块的观测;Dk=[d1k, d2k, …, dmk],dik表示第k个候选的第i个字典模板; Zk=[z1k, z2k, …, znk], zik表示第k个候选中第i个斑块的表示系数; n表示斑块数, m表示模板数; λ1, λ2,λ3表示调整参数; ||·||*表示核范数; ||·||1, 2表示L1, 2混合范数, 定义为
(5) |
由定义可知, 利用L1, 2混合范数约束稀疏表示系数能保证其具有列向稀疏性, 同时还能实现仅用少数且相同的字典模板稀疏表示粒子斑块, 从而有效描述候选粒子间及其内部斑块间的空间布局结构关系和相关性.
1.3 观测模型利用直方图交叉函数度量候选粒子与模板间的相似性, 依据相似性测度选取具有最大似然概率的粒子作为对应时刻的跟踪目标, 构建观测模型.模板直方图用第一帧目标区域中各斑块的稀疏系数表示, 候选直方图用后续帧序列候选粒子中各斑块的稀疏系数表示, 具体定义为
(6) |
为了进一步处理遮挡问题, 通过加权重构直方图去除被遮挡的斑块.将重构误差较大的斑块认定为遮挡斑块, 对应的稀疏系数置0.加权后的直方图定义为
(7) |
其中:○表示数量积,o表示遮挡因子.
(8) |
εi=||xik-Dzik||22表示斑块的重构误差, ε0表示预设阈值.
最终, 基于相似性度量定义候选区域的观测模型为
(9) |
其中:φc表示第c个候选粒子的直方图, ψ表示模板的直方图.
1.4 在线优化机制目标表观优化模型(4)中调整项为非平滑的凸函数, 不易于直接求解.引入等式限制和松弛变量, 将模型转化为
(10) |
利用交替式迭代优化策略求解.下面给出具体求解步骤.
1) 固定Q2、Q3, 更新Q1、Q4.对应的模型为
(11) |
其中Q4k=Q1k · R, 矩阵R定义为
(12) |
令
L为▽f的Lipschitz常数.定义
(13) |
利用快速迭代阈值收缩算法(Fast iterative shrinkage-thresholding algorithm, FISTA)计算调整项的近似算子, 通过迭代j=1, 2, …, J, 得到式(11)的解.理论上讲, 算法的收敛速度能够达到O.(1/n2)具体迭代步骤如下.
初始化:(Q1k)0=Y1, t1=1.
迭代:
(14) |
2) 固定Q3、Q4, 更新Q1、Q2.对应的模型为
(15) |
令
仍利用FISTA方法计算调整项的近似算子, 求解模型.
3) 固定Q2、Q4, 更新Q1、Q3.对应的模型为
(16) |
依据上面的定义, Q1k=DkZk, Q3k=Zk, 利用块坐标下降法求解模型, 每一次的坐标更新需要O(n)个操作.具体迭代步骤如下.
初始化:(Zk)0, R=Xk-Dk(Zk)0.
迭代:
(17) |
(18) |
(19) |
为了适应目标表观的多样性变化, 减轻跟踪漂移, 这里通过下式更新字典模板的直方图:
(20) |
其中:ψf表示在第一帧手动设置的跟踪结果的直方图; ψg表示每次更新前的直方图; μ表示权重; O0表示预设阈值; On表示新帧中跟踪结果的遮挡因子, 通过式(8)中的遮挡向量计算, 有
(21) |
模板直方图更新的思想是, 每当遮挡因子On小于预设阈值O0时更新模板直方图.在保留第一帧模板直方图ψf的同时, 引入新的跟踪结果.
2 实验结果与分析为了验证算法的有效性, 基于Matlab2015b实验平台, 利用faceocc2和shaking两组常用视频序列, 实验对比本文算法与LLR[11]、SCM[12]、LRT[13]三种主流算法的跟踪效果.算法参数设置如下:图像模板大小为32×32, 斑块大小为6×6, 斑块数为196, 字典模板数为50;采样粒子数为100;正则化参数λ1=0.01, λ2=0.1, λ3=0.01;阈值ε0=0.04;O0=0.8;权重μ=0.95.
2.1 范数空间建模对稀疏表示系数的影响目标表观的稀疏表示建模在不同范数空间, 获取的稀疏表示系数具有较大差异性.图 1给出了视频faceocc2中第一帧的稀疏表示系数分布情况, 图中颜色越亮的位置对应的稀疏表示系数值越大.实验结果表明:L0范数空间下的稀疏表示, 表示系数中非零值呈均匀分布; L1范数空间下的稀疏表示, 表示系数中非零值间无相关性, 呈独立分布; L0范数较L1范数稀疏性更强, 分散表示能够增强区分能力; L1范数视各像素相互独立, 更强调重构能力; L1, 2混合范数空间下的稀疏表示, 表示系数中非零值的分布呈现了结构性信息, 有利于描述目标表观的结构性特征, 惩罚候选粒子中各斑块间的相似性, 适应处理遮挡问题.
实验1 分别使用4种算法跟踪目标旋转和严重遮挡情况下的运动.图 2为视频faceocc2中人脸运动的代表性跟踪效果对比.当同时存在人脸旋转(平面旋转或侧转)和遮挡等复杂情况时, 例如第427帧和582帧, LLR算法因缺少对时间一致性的限制, 随着帧数的增加, 产生了跟踪漂移现象.
实验2 分别使用4种算法跟踪目标突然运动、表观变化和剧烈光照变化情况下的运动.图 3为视频shaking中人脸运动的代表性跟踪效果对比.SCM算法因没有融入低秩限制, 缺少对图像特征的描述, 对表观变化和位置变化敏感, 例如第260帧和365帧, 随着帧数的增加, 最终跟踪失败.
为了进一步定量分析跟踪算法的精确度, 定义目标跟踪的中心点位置误差为
(22) |
其中:(xi, yi)表示算法输出的目标中心点位置, (xc, yc)表示真实的目标中心点位置.中心点位置误差描述了算法输出的目标框中心与真实的目标框中心间的欧氏距离, 该误差结果越小, 跟踪的精确度越高.
图 4给出了中心点位置误差的变化曲线图, 其中中心点位置的真实值采用了VOT和OTB数据集中提供的groundtruth数据.实验结果表明, 本文算法始终能够更准确地定位目标, 对目标外观变化(目标旋转)和复杂环境干扰(严重遮挡, 光照变化)具有较强的稳健性.
本文算法在LRT算法的基础上, 考虑目标表观时间一致性的同时, 还考虑了目标表观的时域平滑性, 当目标表观发生突然变化时, 跟踪效果显著增强, 实现了稳定跟踪.
3 结论在目标跟踪任务中, 目标外观变化、突然运动和复杂环境干扰等问题严重影响其精确性和稳定性.针对这一问题, 本文提出了一种融合罚约束下的低秩结构化稀疏表示目标跟踪算法.针对遮挡情况, 利用混合L1, 2范数稀疏表示候选粒子的局部斑块, 描述候选粒子间及其内部斑块间空间布局结构关系; 针对外观变化问题, 利用核范数低秩描述目标表观的全局时域相关性; 针对目标突然运动问题, 引入融合罚约束, 在限制目标表观时间一致性的同时, 保证其变化的平滑性.仿真实验验证了所提跟踪算法的有效性.
[1] |
Hu W, Li W, Zhang X, et al. Single and multiple object tracking using a multi-feature joint sparse representation[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2015, 37(4): 816-833. DOI:10.1109/TPAMI.2014.2353628 |
[2] |
He Z, Yi S, Cheung Y M, et al. Robust object tracking via key patch sparse representation[J]. IEEE Trans on Cybernetics, 2017, 47(2): 354-364. |
[3] |
Zhao Z, Feng P, Wang T, et al. Dual-scale structural local sparse appearance model for robust object tracking[J]. Neurocomputing, 2017, 237: 101-113. DOI:10.1016/j.neucom.2016.09.031 |
[4] |
胡秀华, 郭雷, 李晖晖, 等. 一种结合空间信息和稀疏字典优化的目标跟踪算法[J]. 控制与决策, 2016, 31(12): 2170-2176. (Hu X H, Guo L, Li H H, et al. An object tracking algorithm combining spatial information and sparse dictionary optimization[J]. Control and Decision, 2016, 31(12): 2170-2176.) |
[5] |
彭梦, 蔡自兴, 陈白帆. 一种融合多级稀疏表达和度量学习的目标跟踪方法[J]. 控制与决策, 2015, 30(10): 1791-1796. (Peng M, Cai Z X, Chen B F. A traget tracking method combining multi-level sparse representation and metric learning[J]. Control and Decision, 2015, 30(10): 1791-1796.) |
[6] |
Cong Y, Fan B, Liu J, et al. Speeded up low-rank online metric learning for object tracking[J]. IEEE Trans on Circuits and Systems for Video Technology, 2015, 25(6): 922-934. DOI:10.1109/TCSVT.2014.2355692 |
[7] |
Larsson V, Olsson C. Convex low rank approximation[J]. Int J of Computer Vision, 2016, 120(2): 194-214. |
[8] |
Chen C, Li S, Qin H, et al. Real-time and robust object tracking in video via low-rank coherency analysis in feature space[J]. Pattern Recognition, 2015, 48(9): 2885-2905. DOI:10.1016/j.patcog.2015.01.025 |
[9] |
Yang Y, Hu W, Xie Y, et al. Temporal restricted visual tracking via reverse-low-rank sparse learning[J]. IEEE Trans on Cybernetics, 2017, 47(2): 485-498. |
[10] |
He Y, Li M, Zhang J, et al. Infrared target tracking based on robust low-rank sparse learning[J]. IEEE Geoscience and Remote Sensing Letters, 2016, 13(2): 232-236. DOI:10.1109/LGRS.2015.2506758 |
[11] |
Sui Y, Zhang L. Robust tracking via locally structured representation[J]. Int J of Computer Vision, 2016, 119(2): 110-144. |
[12] |
Zhong W, Lu H, Yang M H. Robust object tracking via sparse collaborative appearance model[J]. IEEE Trans on Image Processing, 2014, 23(5): 2356-2368. DOI:10.1109/TIP.2014.2313227 |
[13] |
Zhang T, Liu S, Ahuja N, et al. Robust visual tracking via consistent low-rank sparse learning[J]. Int J of Computer Vision, 2015, 111(2): 171-190. |
[14] |
Hochbaum D S, Lu C. A faster algorithm solving a generalization of isotonic median regression and a class of fused Lasso problems[J]. SIAM J on Optimization, 2017, 27(4): 2563-2596. DOI:10.1137/15M1024081 |
[15] |
Zhang T, Ghanem B, Liu S, et al. Robust visual tracking via structured multi-task sparse learning[J]. Int J of Computer Vision, 2013, 101(2): 367-383. DOI:10.1007/s11263-012-0582-z |