2. 苏州科技大学 电子与信息工程学院,江苏 苏州 215009
2. School of Electronic and Information Engineering, Suzhou University of Science and Technology, Suzhou 215009, China
由于光学成像聚焦的要求, 成像的景深有一定的限制, 多聚焦图像融合的目的是将同一场景不同景深焦距的多幅图像合成为一张具有更多聚焦信息的融合图像[1].当前, 多聚焦图像融合算法主要分为两类:转换域的融合方法和空间域的融合方法.转换域的融合方法通常基于多尺度分解, 得到不同频带的系数, 根据系数的不同特点制定不同的融合规则, 融合后的系数经过逆变换得到融合后的图像.在基于多尺度分解的融合过程中, 分解工具的选择和融合规则的设计是影响融合质量的两个重要因素.其中, 分解工具一般有离散小波变换法(DWT)[2]、拉普拉斯金字塔方法(LP)[3-4]、曲波变换方法(CVT)[5]和非下采样轮廓波变换方法(NSCT)[6]等.在融合规则的设计上, 大多数多尺度分解方法通常根据分解系数的特点选用加权平均方法和取大方法.加权平均融合规则的融合系数根据系数的活跃度度量的权重得到, 取大规则通常选取系数较大的参数作为融合后的系数.简单的加权或取大操作对融合结果的准确率是有影响的.
基于空间域的融合方法一般分为3种类型:基于像素级的、基于区域的和基于块的图像融合.基于像素级的多聚焦图像融合方法最简单, 即直接对原图像的像素值进行操作, 这种做法得到的融合结果对比度较低且边界模糊, 图像中轮廓和边缘等细节信息容易丢失.基于区域的融合方法[7]通常使用图像分割技术分割原图像, 图像融合则通过度量对应区域的清晰度选取相应清晰的区域得到融合结果.基于块的图像融合[8-10], 一般是将待融合的一对图像按照一定大小滑动窗口分块, 根据待融合的图像块的活动度度量设计融合规则, 得到聚焦映射, 从而根据聚焦映射在原图上选取相应的聚焦区域得到融合结果.基于块的图像融合中, 有效的聚焦度量和合适的分块大小是影响融合结果的两个重要因素, 如何得到准确的融合聚焦判据并避免影响边缘信息是多聚焦图像融合问题有待解决的一个难点问题.
目前, 卷积神经网络广泛应用于计算机视觉任务中并显示出其强大的特征学习能力, 如识别[11]、目标追踪[12]、图像超分辨率[13-14]等.在图像融合领域, Liu等[15]首先将卷积神经网络技术用于多聚焦图像融合.该方法将多聚焦图像融合问题视为二分类问题, 在网络训练之前, 训练样本块首先通过预处理定义为正负样本作为有监督学习的标签信息; 输入的待融合图像通过卷积神经网络得到聚焦映射, 根据得到的聚焦映射在空间域上取得相应的聚焦区域, 得到最终融合好的图像.然而, 这个方法需要大量的训练数据和有监督的标签.虽然该方法取得了多聚焦图像领域较好的融合效果, 但是, 该方法需要在网络训练之前给出聚焦或非聚焦的标签, 其标记的准确性直接影响聚焦区域的判别.
自编码神经网络[16]是一种无监督学习的神经网络, 训练时利用输入样本自身作为监督信息, 网络分为编码部分和解码部分, 编码部分将输入图像进行有效编码得到隐含层特征, 该特征通过解码部分重构从而得到与输入一致的输出, 自编码网络能以这种无监督的方式学习到输入样本的特征表示.自编码网络已被广泛地应用于图像分类[17]和图像去燥[18].在图像融合中, 如何利用隐含层的特征得到聚焦的判据仍然是一个开放的问题.
2017年, Meir等[19]提出了一种适合多任务平行训练的端到端的无监督自编码网络.该网络分为公共分支和私有分支, 每一层都是全连接层, 通过学习两个输入的公共特征使得私有分支学到各自的私有特征.考虑到多聚焦图像是采集于同一场景不同聚焦状态的图像, 多幅多聚焦图像之间既有较多的公共特征信息, 每幅图像也有各自私有的特征信息.受此启发, 在传统自编码网络实现图像重构的基础上, 结合卷积神经网络强大的特征提取能力, 本文设计一种新的具有多分支结构的卷积自编码网络, 联合学习两张多聚焦图像的私有特征和公共特征, 基于这些特征设计融合规则以表达图像之间的冗余和互补关系, 得到聚焦映射, 从而实现多聚焦图像的融合.
本文的创新点如下:
1) 提出一种适用于多聚焦图像融合的联合卷积自编码神经网络;
2) 将图像融合中的冗余和互补关系表达为联合卷积自编码网络的公共特征和私有特征, 据此设计聚焦映射;
3) 联合卷积自编码神经网络是无监督的学习, 不需要人工标记聚焦标签.
1 联合卷积自编码网络结构设计本节首先介绍联合自编码网络概念和原理, 并给出联合卷积自编码网络的详细参数, 进一步分析编码特征并给出基于该特征的融合规则设计.
1.1 联合自编码网络自编码网络是一种无监督学习网络结构, 自编码的中间隐含层是对输入样本的一种特征表示.以图像A为例, 其编码和解码过程如图 1(a)所示, 其重构过程可表示为
(1) |
其中: genc表示编码过程, gdec表示解码过程.编码过程从源图像中提取特征, 从而得到更准确的潜在表示空间.
多聚焦图像对A、B采集自同一场景, 他们之间既有公共的场景信息, 也有私有的聚焦信息, 图 1(a)的网络没有考虑这种先验结构信息.假设将图 1(a)的网络结构修改为同时训练两套网络(如图 1(b)所示), 对原图像A、B分别训练, 即
(2) |
其中:以图像A为例, (gdecCA º gencCA) (A)是对图像A公共分支的编码解码过程, (gdecPA º gencP A)(A)是对图像A私有分支的编码解码过程.将公共分支和私有分支的特征合并可以得到重构图像Ã.同理, 对图像B也可以采取同样的操作.在这种结构中, 虽然将公共特征和私有特征分别编码, 但图像A和图像B分别在各自的特征空间进行编码, 无法实现特征的联合统一表达.
为了更好地表达原图像A与B之间的公共特征, 如图 1(c)所示, 联合图 1(b)中两个网络的公共分支, 有
(3) |
进一步将公共分支权重共享, 令
(4) |
有
(5) |
公共分支权重共享, 迫使网络的公共分支学习两输入的公共特征编码, 而私有分支捕捉除了公共特征之外的私有特征编码, 从而实现两幅图像特征联合学习的目的.
1.2 面向多聚焦图像融合的联合卷积自编码网络本文提出的联合卷积自编码网络结构如图 2所示.作为自编码网络, 图 2中网络训练时的输入和输出是相同的, 输入数据经过编码层编码得到图像的特征, 这些特征经过解码层重构得到输出数据.如果自编码能够较好地重构输入图像, 则认为经过编码层提取的特征(以下简称“隐含层特征”)是对源图像的有效特征表达.对于多聚焦图像的聚焦区域和模糊区域, 聚焦区域的特征清晰, 能够显示多聚焦图像的细节信息, 特征的纹理清晰; 相反, 模糊区域的特征不清晰, 可以用隐含层特征作为聚焦度量从而得到聚焦映射.如何提取隐层特征, 使得特征更有效地区分聚焦区域和模糊区域是实现图像融合的关键.在准确重构两幅源图像的基础上, 联合卷积自编码网络的公共特征由于权重共享而学习到两幅多聚焦图像公共的结构和概貌信息, 私有特征权重不共享, 可以学习到两幅图像的差异部分, 即聚焦的细节差异.这种差异化的特征有助于图像聚焦区域和模糊区域的判别.
本文提出的联合卷积自编码网络结构的编码层迁移了VGG19网络的前3层卷积层和池化层, 解码层由对应的卷积层和上采样层构成, 重构后的私有分支和公共分支经过融合分别得到重构结果.
1.3 编码特征可视化分析为直观展示联合卷积自编码网络隐含层的特征, 本文将图 3(a)和图 3(d)所示的一对多聚焦图像输入网络进行自编码训练, 并将编码后的特征映射以图像的格式输出. 图 3(b)、图 3(c)、图 3(e)、图 3(f)显示了编码层输出的128张特征映射中的某一张特征映射, 可以看出, 私有特征表示了原图像的细节信息, 公共特征表示了原图像的概貌等信息.私有特征具有显著的聚焦和模糊的判别信息:对于原图像A, 左部分是聚焦的, 其对应的私有特征映射图的左边部分有较强的激活; 原图像B对应的特征映射图也有一致的激活效果, 私有特征图很好地表达了源图像聚焦区域的互补关系.公共特征表达了图像之间的冗余关系, 根据这种关系可以更有效地设计融合规则.
基于联合卷积自编码网络的设计, 隐含层特征映射的维度为W× H× M, W和H分别是特征映射的宽和长(大小分别为原图像的宽和长的一半, 本文中图像的宽为520, 长为520, 经过网络的最大池化层, W和H分别为260, 260), M为隐含层特征映射通道的数量(本文中隐含层的特征映射通道数M为128), 其隐含层的特征为M维向量ϕM.为了比较特征, 本文对特征映射的M个通道采用位置相关的活动度度量得到活动度映射Cf, f ∈ { A, B }.所以, ϕ1 : M (x, y)的位置相关活动度度量值可以被用来作为聚焦区域的度量.活动度映射C可通过下式获得:
(6) |
其中: f∈{A, B}代表输入的原多聚焦图像对, m代表M张特征映射的某一张, (x, y)为特征映射中的像素点.
利用滑动窗口分块技术来比较活动度映射C中每个块的全部元素的和值, 每个块记为D, 对每块D做L1范数得到||DA||*和||DB||*, 用来作为聚焦信息的度量.如果||DA||* >||DB||*, 则给对应的块聚焦映射1;反之, 给0.从而得到初始的得分映射.
1.4 融合规则设计本文提出的基于联合卷积自编码网络的多聚焦图像融合方法框架如图 4所示.
具体融合步骤如下.
step 1:提取一对多聚焦图像经过联合卷积自编码网络编码层最后一层输出的公共特征和私有特征, 对私有特征进行编码特征分析.
step 2:私有特征ϕf1 : M (x, y)对每个通道采用位置相关的活动度量策略得到活动度映射Cf=
step 3:对于一些很难区分的区域, 为了得到更多准确的聚焦映射, 利用文献[7, 15]的算法来处理得分映射.设置阈值为0.5, 将得分映射H区分为边缘分割映射E, 处理过程如下:
(7) |
step 4:对边缘分割映射E中包含的一些小的误判区域, 采用区域移除策略进行处理, 得到初始聚焦映射G.
step 5:为了提高决定映射边缘的处理, 最终的决定映射T采用一种有效的边缘保护的滤波——引导波处理初始聚焦映射G使得边缘过渡自然.最终的融合图像F通过像素级的加权平均规则获取, 即
(8) |
训练样本为待融合的多聚焦图像对, 通过随机初始化权重方式实现数据集自编码.训练样本来自“Lytro”数据集[20]中的20对多聚焦图像和从网站[21]中下载的10对多聚焦图像.训练图像分辨率统一为520×520, 并归一化.网络训练过程中, 损失函数选择“MSE”, 优化器为“Adam”, 学习速率为3e-4.采用滑动窗口取块的方法, 步长为2, 将数据集图像分为N个4×4大小的图像块.本文所提出方法的训练部分都在TensorFlow上的Keras完成.网络训练的硬件环境为GTX 1 080Ti / 64 GB RAM.其他部分的运行在Matlab 2016b上实现, 硬件环境为Intel-Core i3-4 150 CPU/3.5 GHz / 8 GB.
2.2 主观评价为了验证本文方法的有效性和鲁棒性, 这里选择一些经典方法以及近年来较优秀的多聚焦图像融合方法与本文方法进行比较.这些方法是:基于双树复小波分解的图像融合(DTCWT)[22]、基于曲波变换的图像融合(CVT)[5]、基于卷积神经网络的图像融合(CNN)[15]、基于非下采样轮廓波变换的图像融合(NSCT)[6]、基于稀疏表示方法的图像融合(SR)[23]、基于空间耦合神经网络的图像融合(PCNN)[24]、基于拉普拉斯金字塔的图像融合(LP)[3]等.实验中, LP、DTCWT、CVT、NSCT、SR方法的代码实现来自文献[25]. LP方法中多尺度分解的层数为2, DTWCT的分解尺度为3层, NSCT的分解尺度为4层, 方向数为[2,3,3,4].其余融合方法中用到的参数依据各自文献中提到的参数进行设置.
由于篇幅限制, 本文仍以“小孩”图像为例验证所提出的融合方法, 其他7组融合方法得到的融合图像与本文方法得到的融合图像如图 5所示.为了更好地比较融合结果, 对图 5中重要的融合区域加了黑色小框并放大该区域, 可以更好地观察各种方法在融合图像边缘处的差异. 图 6中展示了更多其他多聚焦图像经过多种融合方法和本文所提出方法得到的融合结果.
从图 5(c) ~图 5(j)和图 6中可以看出, 这些方法都能较好地得到融合后的聚焦图像. 图 5中, 对于LP、PCNN、DTCWT和NSCT方法, 黑框中玩偶衣服边缘的重影严重, 存在一定的边缘效应.对于CVT方法和DTCWT方法, 很明显丢失了部分细节信息. SR方法得到的融合效果较好, 但也存在一定的吉布斯现象. CNN方法得到的融合效果很好.本文方法的视觉效果与其他对比方法的主观视觉效果相当, 在细节的处理上都比较好, 尤其是边缘地方, 都能够得到视觉上较好的融合图像.由于聚焦映射的准确性, 本文方法得到的融合图像可以更好地保护原图像中的信息, 边界平滑自然, 融合结果清晰. 图 6中, 由于PCNN方法特征提取能力有限, 该方法得到的融合结果清晰度普遍较低.总体来说, 本文所提出的方法清晰度高、边缘丢失信息少、融合效果自然.
2.3 客观指标评价为了客观地评价各融合方法得到的融合结果, 一些质量指标如互信息(MI)、空间频率(SF)、边缘强度(EI)、结构相似度(SSIM)[26]等指标被用来验证所提出方法的有效性和表现, 结果如表 1所示.
互信息指标是在没有参考图像的情况下, 融合图像从原图像中获取的信息量的多少, 一般情况下, 互信息评价指标的值越大, 说明融合效果越好.空间频率指标反映了图像的清晰度, 空间频率指标值越大, 代表融合图像越清晰.边缘强度用于衡量图像边缘细节的丰富程度, 其值越大, 融合图像的边缘越清晰, 效果越好.结构相似度指标衡量了两幅图像在结构上的相似程度, 因为其考虑了像素之间的相关性, 相比于人类视觉系统, 该指标能够更好地感知图像的失真, SSIM指标值越接近1, 说明两幅图像越相似.
表 1中列举了本文方法和其他融合方法得到的融合图像的客观指标.其中, 最好的客观值被标记为粗体, 可以看出, 本文所提出的融合方法在融合指标上明显优于其他融合方法. 表 1中:“forest”图像的结构相似信息相对于其他融合结果相差不多, 在SSIM指标上比SR方法要弱一些, 但是都在0.94的范围内; “clock”、“book”和“lab”图像的边缘细节信息相比于其他融合效果要弱一些.使用变换域分解的方法(如DTCWT、NSCT、CVT)在边缘强度指标上总体效果较好, 可能是这些方法普遍拥有丰富的频谱信息, 能较好地分解; 而基于空间域的方法(如LP、PCNN、SR、CNN及本文方法)没有把这种特征抓住, 所以在边缘强度指标上普遍稍弱一些. “lab”图像在空间频率指标上仅次于DTCWT方法.总体来说, 本文所提出的融合方法在互信息和结构相似度指标上都取得了最好的效果, 在边缘强度和空间频率指标上也取得了较好的效果, 说明本文所提出的融合方法是有效的, 视觉效果自然清晰, 丢失信息少, 较好地保留了原图像的信息.
3 结论本文提出了一种面向多源图像特征学习的联合卷积自编码网络, 将多源图像的公共特征和各自的私有特征分别表达到不同的网络分支.基于该特点, 利用这些私有特征的位置相关的活动度量表达多聚焦图像的聚焦判别, 设计了新的融合规则, 在空间域实现了多聚焦图像的融合.与主流的LP、PCNN、DTCWT、NSCT、CVT、SR和CNN等方法相比, 融合效果较好, 进而检验了联合卷积自编码网络对多源图像的特征提取能力.目前, 实验中的图像仅局限于多源同模态的图像, 如何将该网络进一步扩展到多源多模态的图像特征提取是下一步的研究课题.
[1] |
Li S T, Kang X D, Fang L Y, et al. Pixel-level image fusion: A survey of the state of the art[J]. Information Fusion, 2017, 33(C): 100-112. |
[2] |
Liu G. Multisensor image fusion based on wavelet transform[J]. Microelectronics & Computer, 2010, 35(4): 638-640. |
[3] |
陈浩, 王延杰. 基于拉普拉斯金字塔变换的图像融合算法研究[J]. 激光与红外, 2009, 39(4): 439-442. (Chen H, Wang Y J. Research on image fusion algorithm based on laplacian pyramid transform[J]. Laser & Infrared, 2009, 39(4): 439-442. DOI:10.3969/j.issn.1001-5078.2009.04.024) |
[4] |
严春满, 郭宝龙, 易盟. 基于改进LP变换及自适应PCNN的多聚焦图像融合方法[J]. 控制与决策, 2012, 27(5): 703-707. (Yan C M, Guo B L, Yi M. Multifocus image fusion method based on improved LP and adaptive PCNN[J]. Control and Decision, 2012, 27(5): 703-707.) |
[5] |
Nencini F, Garzelli A, Baronti S, et al. Remote sensing image fusion using the curvelet transform[J]. Information Fusion, 2007, 8(2): 143-156. |
[6] |
Zhang Q, Guo B L. Multifocus image fusion using the nonsubsampled contourlet transform[J]. Signal Processing, 2009, 89(7): 1334-1346. DOI:10.1016/j.sigpro.2009.01.012 |
[7] |
Zhang Y, Bai X Z, Wang T. Boundary finding based multi-focus image fusion through multi-scale morphological focus-measure[J]. Information Fusion, 2017, 35(1): 81-101. |
[8] |
Li S T, Kwok J T, Wang Y N. Multifocus image fusion using artificial neural networks[J]. Pattern Recognition Letters, 2007, 23(8): 985-997. |
[9] |
Aslantas V, Kurban R. Fusion of multi-focus images using differential evolution algorithm[J]. Expert Systems with Applications, 2010, 37(12): 8861-8870. DOI:10.1016/j.eswa.2010.06.011 |
[10] |
刘羽, 汪增福. 结合小波变换和自适应分块的多聚焦图像快速融合[J]. 中国图象图形学报, 2013, 18(11): 1435-1444. (Liu Y, Wang Z F. Multi-focus image fusion based on wavelet transform and adaptive block[J]. Journal of Image and Graphics, 2013, 18(11): 1435-1444. DOI:10.11834/jig.20131106) |
[11] |
He K M, Zhang X Y, Ren S Q, et al. Deep residual learning for image recognition[C]. IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston: IEEE, 2015: 770-778.
|
[12] |
Bertinetto L, Valmadre J, Henriques J F, et al. Fully- convolutional siamese networks for object tracking[C]. European Conference on Computer Vision. Amsterdam: Springer, 2016: 850-865.
|
[13] |
Dong C, Chen C L, He K M, et al. Image super-resolution using deep convolutional networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 38(2): 295-307. |
[14] |
李现国, 孙叶美, 杨彦利, 等. 基于中间层监督卷积神经网络的图像超分辨率重建[J]. 中国图象图形学报, 2018, 23(7): 984-993. (Li X G, Sun Y M, Yang Y L, et al. Image super-resolution reconstruction based on intermediate supervision convolution neural networks[J]. Journal of Image and Graphics, 2018, 23(7): 984-993.) |
[15] |
Liu Y, Chen X, Peng H, et al. Multi-focus image fusion with a deep convolutional neural network[J]. Information Fusion, 2017, 36(1): 191-207. |
[16] |
Masci J, Meier U, Dan C, et al. Stacked convolutional auto-encoders for hierarchical feature extraction[C]. International Conference on Artificial Neural Networks. Verlag: Springer, 2011: 52-59.
|
[17] |
Roy S S, Ahmed M, Akhand M A H. Classification of massive noisy image using auto-encoders and convolutional neural network[C]. International Conference on Information Technology. Amman: IEEE, 2017: 971-979.
|
[18] |
Ding Y L, Zhang X L, Tang J S. A noisy sparse convolution neural network based on stacked auto-encoders[C]. IEEE International Conference on Systems, Man, and Cybernetics. Banff Centre: IEEE, 2017: 3457-3461.
|
[19] |
Meir B E, Michaeli T. Joint auto-encoders: A flexible multi-task learning framework[J]. arXiv: 1705.10494, 2017.
|
[20] | |
[21] | |
[22] |
Lewis J J, O'Callaghan R J, Nikolov S G, et al. Pixel- and region-based image fusion with complex wavelets[J]. Information Fusion, 2007, 8(2): 119-130. |
[23] |
Yang B, Li S T. Multifocus image fusion and restoration with sparse representation[J]. IEEE Transactions on Instrumentation & Measurement, 2010, 59(4): 884-892. |
[24] |
Qu X B, Yan J W, Xiao H Z, et al. Image fusion algorithm based on spatial frequency-motivated pulse coupled neural networks in nonsubsampled contourlet transform domain[J]. Acta Automatica Sinica, 2008, 34(12): 1508-1514. DOI:10.1016/S1874-1029(08)60174-3 |
[25] |
Liu Y, Liu S, Wang Z. A general framework for image fusion based on multi-scale transform and sparse representation[J]. Information Fusion, 2015, 24(1): 147-164. |
[26] |
Liu Z, Blasch E, Xue Z Y, et al. Objective assessment of multiresolution image fusion algorithms for context enhancement in night vision: A comparative study[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2011, 34(1): 94-109. |