近年来, 随着计算机视觉以及自然语言翻译中深度学习(deep learning, DL)算法的快速发展, 越来越多的DL算法被嫁接到故障诊断的领域. 与传统的故障诊断方法相比, DL的结构更为复杂, 提取的特征层次也更深. 文献[1]提出了一种基于径向基神经网络的新型故障诊断方法, 其在非平稳的齿轮故障诊断上表现优异. 文献[2]提出了一种基于鲸鱼算法优化LSSVM的滚动轴承故障诊断方法, 获得了良好的故障分类性能. 文献[3]提出了一种用于不平衡故障诊断的非重访遗传成本敏感稀疏自编码器(NrGCS-SAE), 在解决不平衡故障诊断问题上获得了良好的效果.
在实际的设备工作应用场景下, 标签样本的获取困难且昂贵, 因此获取足够的标签数据用于深度学习训练难以实现, 这使得基于大量数据训练的深度学习方法不再适用.
迁移学习(transfer learning, TL)为解决训练样本少的问题提供了一个解决思路.它通过从相关源域学习的知识来指导目标域的学习, 解决了目标域训练数据少的问题[4].域适应问题(domain adaptation, DA)是指现有大量的已标记数据, 而目标域数据只有未标记的数据可用, 通过建立两者联系, 达到减少数据集差异的目的. 对于TL, 由于源域和目标域是两个联合分布不同的数据集, 需要对两个数据集进行映射对齐. 文献[5]提出了深度迁移学习(deep transfer learning, DTL), 通过最大均值差异(maximum mean discrepancy, MMD)对齐不同工况下的数据集, 采用深度自动编码器实现电机轴承故障分类的改进. 文献[6]提出了一种基于深度在线迁移的变负载下滚动轴承故障诊断方法, 实现了数据按照序列方式采集的变负载下滚动轴承多状态在线分类, 并具有较好的稳定性及较高的准确率. 文献[7]提出了一种基于卷积自动编码器的机械故障诊断深度迁移学习网络(CAE-DTLN), 对齐不同工作负荷和噪声水平下的故障信号, 对于行星齿轮箱的故障诊断具有较高的诊断准确率和泛化能力.
上述DA方法都是强制对齐整个数据集, 最小化两者的特征空间的差异, 从而实现域适应. 然而, 这些方法都是在假设两域数据差异较小的前提下实现的, 对于源域和目标域两者子域相关性差异较大时并不适用. 而实际应用中, 获取这样的源域数据是非常困难的. 这就需要构建多源域迁移学习, 帮助目标域数据训练出一个更好的分类器.
本文提出一种新的深度多源域子域适配网络(deep multi-source subdomain adaptation network, DMSAN)来处理滚动轴承的小样本数据故障诊断. 构建深度卷积生成对抗网络(deep convolutional generative adversarial network, DCGAN)[8]实现小样本数据的数据集扩张; 引入深度子域适配网络(deep subdomain adaption network, DSAN)[9]对齐源域和目标域相同标签的子域, 筛选出与目标域相关性最强的子域, 对各个源域子类根据其相关性赋予相应的权重, 从而得到更理想的分类结果.
本文的主要贡献如下:
1) 为解决滚动轴承的小样本故障诊断问题, 提出一种新的DMSAN方法, 通过构建多网络并联结构来提取多源域的不变表征, 扩大可转移特征的获取范围.
2) 使用局部最大均值差异(local maximum mean discrepancy, LMMD)度量分布距离, 构建简单而有效的加权模块, 筛选出度量距离最小的子域, 从而实现了全局损失最小化.
3) 在美国凯斯西储大学(CWRU)数据集和VP 500数据集上进行测试, 结果表明DMSAN的故障诊断效果优于对比的几种域适应方法.
1 理论基础 1.1 域适应原理对于DA问题, 给定一个有标签的源域
多源域适应主要通过组合分类器实现. 在多个源域和目标域分别训练出分类器, 根据不同源域和目标域的相似度将多个分类器组合起来[10]. 多源域适应网络(multi-domain adaptive network, MDAN)[11]通过多个领域判别器分别对齐每个源域和目标域特征分布; 深度鸡尾酒网络(deep cocktail network, DCTN)[12]针对每个源域和目标域都用一个单独的领域判别器和一个分类器; 多层特征空间适配网络(multiple feature spaces adaptation network, MFSAN)[13]将不同源域提取到不同特征空间, 在不同空间分别对齐源域和目标域的特征分布. 多源迁移的整体框架可以表示为
| $ \begin{align} &L_{\rm total}=\sum\limits_{i=1}^N{L^{i}_{\rm cls}+L^{i}_{\rm da}+L^{i}_{\rm reg}}. \end{align} $ | (1) |
其中:
目前, 一些最先进的DA算法多数都是通过域对抗迁移网络(domain-adversarial training of neural networks, DANN)改良而来. 它主要分为3个部分: 特征提取器, 领域判别器和标签预测器. 基于对抗性的DA方法都是以整个域的数据进行对齐, 这必然带来对抗损失. 而DSAN则另辟蹊径, 采用LMMD将目标域的子域和源域的子域进行对齐, 既提高了计算效率, 也避免了对抗损失.
对抗性的DA方法普遍采用最大平均差异(MMD)[14]进行领域自适应. 此外, 还有一些MMD的扩张形式, 例如条件MMD[15]和联合MMD[16]. 条件MMD是通过给定约束, 如经验知识条件分布; 联合MMD是通过联合分布的核均值嵌入之间的Hilbert-Schmidt范数. 加权MMD[17]通过为源数据分配特定于类的权重来减轻类权重偏差. 但是, 考虑到不同样本的权重, LMMD[9]可以直接将相同标签的目标域和源域子域进行对齐, 测量源域和目标域中核均值嵌入相关子域之间的差异.
2 深度多源子域适应网络 2.1 DMSAN框架本章将会介绍深度多子域适应网络(DMSAN)的框架结构. 网络基于文献[18]提出的MSSA改进而来. 如图 1所示, 网络是由卷积核组成的骨架结构, 主要包括样本生成器、共享特征提取器、域特定特征提取器、域特定分类器、权重分配器和任务分类器.
|
图 1 DMSAN网络结构 |
样本扩充器是为了扩充小样本数据集, 使用DCGAN实现样本扩充. DCGAN[8]通过以卷积层代替池化层, 去除全连接层, 使用批归一化以及使用LeakyReLU激活函数实现了GAN与CNN的完美结合, 其有训练状态稳定、生成数据质量高等优点. 共享特征提取器可以同时提取各源域数据和目标域数据的浅层特征. 其设立可以简化网络结构以及减少计算资源. 由于浅层特征的可迁移性较好, 可通过预训练后冻结, 然后通过微调的方式获得最终的网络参数. 将主要的计算资源都集中在域特定特征的提取, 从而提高训练的效率. 此部分可以将VggNet和ResNet作为骨干网络, 通过调整输入输出层即可. 域特定特征提取器对齐每个源域和目标域的特征. 单源迁移仅仅通过特征对齐的方法是无法完全消除领域分布差异的, 而多源迁移在同一个特征空间里尝试消除所有领域分布差异更为困难, 因此针对各个源域设置特定的特征空间是必要的. 只考虑单个网络分支, 通过LMMD进行度量的损失为
| $ \begin{align} l_{\rm LMMD}=\hat{D}_H(G(F(x^s)), G(F(x^t))). \end{align} $ | (2) |
其中:
由于网络是多分支结构, 计算各分支的损失然后汇总显然不合适. 本文决定对各特定特征空间的损失进行加权, 通过LMMD进行度量的源域和目标域损失表示如下:
| $ \begin{align} &L_{\rm LMMD}=\\ &\omega_1l_1+\omega_2l_2+\omega_3l_3+\ldots+\omega_Nl_N=\\ &\sum\limits_{j=1}^N{\omega_j\hat{D}_H(G_j(F(x^{sj})), G_j(F(x^t)))}. \end{align} $ | (3) |
其中:
域特定分类器通过接收域特定特征提取器输出特征, 并输出其概率分布, 其分类损失为
| $ \begin{align} l_{\rm cls}=E_{x \sim X^s}J(C(G(F(x^s))), y^s). \end{align} $ | (4) |
其中:
源域数据集为
| $ \begin{align} X^S=\{X^{Sl}|i\in\{1, 2, \ldots, L\}\}, \end{align} $ | (5) |
| $ \begin{align} &d_l=\hat{D}_H(G(F(x_r^{sl})), G(F(x^{tl})))=\\[3pt] &\min\{\hat{D}_H(G(F(x^{s1})), G(F(x^{t1}))), \hat{D}_H(G(F(x^{s2})), \\[3pt] &G(F(x^{t2}))), \ldots, \hat{D}_H(G(F(x^{sN})), G(F(x^{tN})))\}. \end{align} $ | (6) |
重组源域的数据集和分类损失为
| $ \begin{align} &X_r^S=\{X_r^{Sl}|l\in\{1, 2, \ldots, L\}\}, \end{align} $ | (7) |
| $ \begin{align} &l_{\rm cls}=E_{x \sim X_r^s}J(C(G(F(x_r^s))), y_r^s). \end{align} $ | (8) |
权重分配器
| $ \begin{align} \omega(x)=\begin{cases} 1, \hat{D}_H(G_j(F(x_j^{sl})), G_j(F(x^{tl})))=d_l;\\ 0, \hat{D}_H(G_j(F(x_j^{sl})), G_j(F(x^{tl})))\neq d_l. \end{cases} \end{align} $ | (9) |
其中: 源域序号
任务分类器通过给各源域子域加权的方式得到最终的分类结果, 其判别公式如下:
| $ \begin{align} C_t(x^t)=\sum\limits_{j=1}^N\omega_jC_j(G_j(F(x^t))). \end{align} $ | (10) |
本文提出的深度多源子域迁移网络, 其主要核心思想是通过映射缩小两者的分布距离, 以LMMD度量为标准筛选出映射效果最好的子域, 并将筛选出的子域组成新的集合, 作为新源域. 各个源域对于域特定特征提取器和域特定分类器的参数是独立的. 权重分配器和任务分类器负责权重分配后的结果诊断. 网络的总损失为LMMD域适应损失和分类损失, 即
| $ \begin{align} L_{\rm total}=L_{\rm cls}+{\lambda}L_{\rm LMMD}. \end{align} $ | (11) |
其中:
DMSAN的优化目标就是最小化分类损失
| $ \begin{align} &\hat{\theta}_F={\rm arg}\{\underset{\theta_F}{\min}L_{\rm cls}(\theta_F, \hat{\theta}_G, \hat{\theta}_C)+\\ &\quad \quad \; \; \underset{\theta_F}{\min}L_{\rm LMMD}(\theta_F, \hat{\theta}_G, \hat{\theta}_C)\}, \end{align} $ | (12) |
| $ \begin{align} &\hat{\theta}_G={\rm arg}\{\underset{\theta_G}{\min}L_{\rm cls}(\hat{\theta}_F, \theta_G, \hat{\theta}_C)+\\ &\quad \quad \; \; \underset{\theta_F}{\min}L_{\rm LMMD}(\hat{\theta}_F, \theta_G, \hat{\theta}_C)\}, \end{align} $ | (13) |
| $ \begin{align} &\hat{\theta}_C=\underset{\theta_C}{\rm arg\, min}L_{\rm cls}(\hat{\theta}_F, \hat{\theta}_G, \theta_C). \end{align} $ | (14) |
其中:
为验证所提出的DMSAN的优越性, 在本节中将通过两个不同的数据集进行验证, 一个是凯斯西储大学的公开数据集(CWRU), 另一个是基于所搭建的VALENIAN-PT 500旋转机械故障诊断平台, 开展轴承故障实验测得的故障数据集VP 500, 并与现在最先进的几种迁移学习方法进行对比.
3.1 数据选择1) CWRU数据集.
整个平台由一个2马力的电机, 功率测试计和扭矩传感器组成. 数据集主要分为驱动端加速度数据, 风扇端加速度数据, 基本加速度数据, 时间序列数据以及RPM(rpm during testing), 采样频率有12 kHz和48 kHz. 本次选择采样频率12 kHz的基座加速度数据, 其中包含故障直径为0.177 8 mm, 0.355 6 mm和0.533 4 mm的内圈故障(IF)、外圈故障(OF)以及滚动体故障(BF), 共9种. 其具体类型见表 1.
| 表 1 CWRU数据集的故障类型 |
2) VP 500数据集.
所搭建的VALENIAN-PT 500旋转机械故障诊断平台, 主要由驱动电机、变频器、齿轮箱、轴承单元、联轴器、粉磁制动器等组成. 通过改变负载和转速来实现多工况复现, 同时可以通过更换不同的故障轴承单元实现多故障测试. 故障类型为内圈故障(IF)、外圈故障(OF)以及滚动体故障(BF). 其编号见表 2.
| 表 2 VP 500数据集故障类型 |
CWRU基座加速度数据长度为12 000余个采样点. 首先, 使用长度为1 024个数据点的滑块, 以200个数据点为步长进行重叠采样, 获得每类600个长度为1 024个数据点原始样本; 其次, 在总样本里加入样本生成器生成的伪样本, 使得每类样本数为1 000. 在实验中, 选取目标域真实数据300个, 按照
CWRU数据集选择电机转速分别为1 797 r/min, 1 772 r/min, 1 750 r/min, 1 730 r/min的基座加速度; VP 500数据集选择电机转速分别为1 100 r/min, 1 150 r/min, 1 200 r/min, 1 250 r/min的基座加速度, 详见表 3. 对于DMSAN的训练, 通过将除目标域数据集外的3个数据集当作源域进行域迁移.
| 表 3 数据集的编号和运行条件 |
为了验证DMSAN的优越性, 与深度适配网络(deep adaptation network, DAN), 深度域混淆网络(deep domain confusion, DDC), DANN, 条件对抗域适应网络(conditional adversarial domain adaptation, CDAN)和DSAN等几种现在最先进的单源域适应网络进行对比. 此外, 实验还引入MDAN和MSSA两种多源域适应网络进行比较.
为了验证DMASN的优越性并做到公平对比, 所有的网络都基于Resne 50为基本网络骨架, 且对于单源迁移学习的正确率都以迁移源域中诊断结果最好的为指标. 采用Momentum算法对50个epoch DMSAN的参数进行优化.
| $ \begin{align} \lambda={2}/({1+{{\rm e}^{-10i}}/{n}})-1. \end{align} $ | (15) |
每个算法都经过10次实验, 记录其平均值. 其中:
在CWRU数据集上的验证对比结果见表 4, 其中作为网络骨架的Resnet50作为非域适应网络可以拥有平均88.8 %的测试准确率, 说明源域的选择是合适的, 避免了负迁移. DAN的准确率是95.08 %, DDC的准确率是95.22 %, DANN的准确率是95.51 %, CDAN的准确率是97.27 %, 与这些采用源域数据和目标域数据全局对齐的域适应方法相比, DSAN同样在单源域迁移的情况下依旧获得了98.35 %的高精确度, 可见LMMD通过对齐子域进行分布距离度量的方法可以获得更细粒度的信息. 基于多分类器组合的多源域适应网络MDAN相较于DAN有1.44 %的提升, MSSA相比较DSAN有1.52 %的精度提升, 可见多源域适应是有效的, 而DMSAN和MSSA相比又有0.08 %的精确度提升, 可见子域筛选重组与MSSA的子域按比例加权相比更具有优势.
| 表 4 CWRU数据测试准确率 |
在VP 500数据集上的验证对比结果见表 5. 除DMSAN外, 其余的域适应方法准确度相较于CWRU数据集测试结果均有所下降, 而DMSAN仍保持着平均99.69 %的高精确度, 可见其优越性.
| 表 5 VP 500数据测试准确率 |
为了验证DMSAN在两个数据集上各故障类别的具体识别精度, 将实验B, C, D
|
图 2 混淆矩阵 |
为清晰地展示网络特征映射结果, 对网络的最后输出特征做应用
|
图 3 CWRU数据集的特征可视化结果 |
|
图 4 VP 500数据集的特征可视化结果 |
验证DMSAN对于小样本数据域适应的优越性, 进一步扩大源域和目标域数据集的样本数量差距, 选取CWRU数据集划分不同比例的目标域训练集来分别进行测试. 其中比例分别为1/2, 1/4, 1/8和1/16, 小样本诊断实验见表 6, DMSAN在选取目标域数据占整个数据集1/16时, 仍能获得平均98.45 %的正确率, 可见其非常适合小样本识别任务.
| 表 6 B, C, D→A的小样本识别精度对比 |
DCGAN-Resnet 50在目标域真实数据集占比极小的情况下, 正确率下降明显. 小样本诊断实验准确率见表 6, DCGAN-Resnet 50在目标域真实数据集占比极小的情况下, 正确率下降明显, 可见对于生成的伪数据并不能替代真实数据. 由表 6可以看出, 其他的域适应方法在样本数量少到一定程度时, 识别正确率下降明显, 说明出现了过拟合现象. 可见在数据不足时, DMSAN可以最大限度地利用有限的标签数据.
3.4 实验3 (复合故障迁移)在实际工程环境下的故障多为伴随出现. 因此, 为验证DMSAN的泛化能力, 在VP 500数据集中增添3种复合故障类型: 内外圈复合故障(IF & OF), 内圈滚动体复合故障(IF & BF)和外圈滚动体复合故障(OF & BF), 其编号见表 7. 复合故障诊断实验的精确度对比见表 8. 将表 8和表 5中的精确度进行比较会发现, 当在VP 500数据集中加入3类复合故障的数据后, 各类域适应方法的识别准确率皆有所下降. 而DSAN和DMSAN的下降幅度明显小于其他域适应方法, 可见LMMD在特征提取的细粒度方面具有明显的优势. 从图 5混淆矩阵可以看出, DMSAN诊断的错误主要表现为内外圈复合故障和外圈滚动体混合故障诊断为外圈故障信号, 其误诊率分别为2.75 %和1.08 %, 相较于单故障识别, 准确率有明显下降. 但DMSAN仍能保证平均99.42 %的高识别准确率, 再一次展现了其强大的泛化能力.
| 表 7 复合故障数据集 |
| 表 8 复合故障识别精确度对比 |
|
图 5 F, G, H→E的各子类精度 |
目前, 多数域适应方法仅通过单源域迁移来实现信息传输, 鉴于单源域数据迁移信息不完整的局限性, 本文提出一种多源域适应方法DMSAN, 用于实现滚动轴承的小样本故障诊断. 其通过多网络分支分别对源域和目标域进行特征提取对齐, 从最大程度上获得源域的共享特征, 然后通过LMMD实现子域对齐, 最后通过加权模块选择最小度量距离的子域, 实现源域损失最小化. 本文通过使用CWRU公开数据集和实验测得的VP 500数据集验证了该模型的有效性. 实验结果表明, DMSAN的诊断精度远高于其他单源域和多源域的域适应方法, 在样本量稀少的情况下, 优势尤为突出. 本文提出的方法在面对复合故障的迁移时具有一定的优势, 但是对于复合故障数据集的质量要求较高, 且输出的复合故障为单一标签. 因此, 对于未来的工作, 考虑研究基于复合故障智能解耦的旋转机械跨域故障诊断方法.
| [1] |
薛萍, 郝鹏, 王宏民. 基于径向基神经网络的新型齿轮故障诊断方法[J]. 控制与决策, 2022, 37(2): 409-416. (Xue P, Hao P, Wang H M. Novel gear fault diagnosis method based on RBF neural network[J]. Control and Decision, 2022, 37(2): 409-416.) |
| [2] |
蔡赛男, 宋卫星, 班利明, 等. 基于鲸鱼算法优化LSSVM的滚动轴承故障诊断[J]. 控制与决策, 2022, 37(1): 230-236. (Cai S N, Song W X, Ban L M, et al. Fault diagnosis method of rolling bearing based on LSSVM optimized by whale optimization algorithm[J]. Control and Decision, 2022, 37(1): 230-236.) |
| [3] |
Peng P, Zhang W J, Zhang Y, et al. Non-revisiting genetic cost-sensitive sparse autoencoder for imbalanced fault diagnosis[J]. Applied Soft Computing, 2022, 114: 108138. DOI:10.1016/j.asoc.2021.108138 |
| [4] |
Long M S, Cao Y, Wang J M, et al. Learning transferable features with deep adaptation networks[J/OL]. 2015, arXiv: 1502.02791.
|
| [5] |
Wen L, Gao L, Li X Y. A new deep transfer learning based on sparse auto-encoder for fault diagnosis[J]. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2019, 49(1): 136-144. DOI:10.1109/TSMC.2017.2754287 |
| [6] |
康守强, 刘旺辉, 王玉静, 等. 基于深度在线迁移的变负载下滚动轴承故障诊断方法[J]. 控制与决策, 2022, 37(6): 1521-1530. (Kang S Q, Liu W H, Wang Y J, et al. Fault diagnosis method of rolling bearing under varying loads based on deep online transfer[J]. Control and Decision, 2022, 37(6): 1521-1530.) |
| [7] |
Qian Q, Qin Y, Wang Y, et al. A new deep transfer learning network based on convolutional auto-encoder for mechanical fault diagnosis[J]. Measurement, 2021, 178: 109352. DOI:10.1016/j.measurement.2021.109352 |
| [8] |
Zhang B, Li W, Li X L, et al. Intelligent fault diagnosis under varying working conditions based on domain adaptive convolutional neural networks[J]. IEEE Access, 2018, 6: 66367-66384. DOI:10.1109/ACCESS.2018.2878491 |
| [9] |
Zhu Y C, Zhuang F Z, Wang J D, et al. Deep subdomain adaptation network for image classification[J]. IEEE Transactions on Neural Networks and Learning Systems, 2021, 32(4): 1713-1722. DOI:10.1109/TNNLS.2020.2988928 |
| [10] |
Schweikert G, Widmer C, Scholkopf B, et al. An empirical analysis of domain adaptation algorithms for genomic sequence analysis[C]. Proceedings of the 21st International Conference on Neural Information Processing Systems. Vancouver, 2008: 1433–1440.
|
| [11] |
Zhao H, Zhang S H, Wu G H, et al. Adversarial multiple source domain adaptation[C]. Proceedings of the 32nd International Conference on Neural Information Processing Systems. Montréal, 2018: 8568-8579.
|
| [12] |
Xu R J, Chen Z L, Zuo W M, et al. Deep cocktail network: Multi-source unsupervised domain adaptation with category shift[C]. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, 2018: 3964-3973.
|
| [13] |
Zhu Y C, Zhuang F Z, Wang D Q. Aligning domain-specific distribution and classifier for cross-domain classification from multiple sources[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2019, 33(1): 5989-5996. DOI:10.1609/aaai.v33i01.33015989 |
| [14] |
Pan S J, Tsang I W, Kwok J T, et al. Domain adaptation via transfer component analysis[J]. IEEE Transactions on Neural Networks, 2011, 22(2): 199-210. DOI:10.1109/TNN.2010.2091281 |
| [15] |
Long M S, Wang J M, Ding G G, et al. Transfer feature learning with joint distribution adaptation[C]. 2013 IEEE International Conference on Computer Vision. Sydney, 2014: 2200-2207.
|
| [16] |
Long M S, Zhu H, Wang J M, et al. Deep transfer learning with joint adaptation networks[C]. Proceedings of the 34th International Conference on Machine Learning. Sydney, 2017: 2208-2217.
|
| [17] |
Yan H L, Ding Y K, Li P H, et al. Mind the class weight bias: Weighted maximum mean discrepancy for unsupervised domain adaptation[C]. 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, 2017: 945-954.
|
| [18] |
Tian J H, Han D Y, Li M D, et al. A multi-source information transfer learning method with subdomain adaptation for cross-domain fault diagnosis[J]. Knowledge-Based Systems, 2022, 243: 108466. DOI:10.1016/j.knosys.2022.108466 |

