残差收缩网络

理论背景

       在过去的20年里,软阈值法经常被用作许多信号去噪方法的关键步骤[23],[24]。一般情况下,将原始信号变换到一个近零个数不重要的域,然后应用软阈值技术将近零特征转换为零。例如,作为一种经典的信号去噪方法,小波阈值法通常由三个步骤组成:小波分解、软阈值和小波重构。为了保证信号去噪的良好性能,小波阈值化的一个关键任务是设计一个滤波器,将有用的信息转换为非常正的或负的特征,将噪声信息转换为接近零的特征。然而,设计这样一个滤波器需要大量的信号处理专业知识,一直是一个富有挑战性的问题。深度学习为解决这一问题提供了新的途径。深度学习可以使用梯度下降算法自动学习滤波器,而不是由专家人工设计滤波器。因此,软阈值和深度学习相结合是消除噪声相关信息和构造高分辨特征的一种很有前途的方法。软阈值的功能可以用
残差收缩网络
其中,????是输入特性,????是输出特性,而????是阈值,即正参数。在ReLU**函数中,软阈值不是将负特征设置为零,而是将近零特征设置为零,这样可以保留有用的负特征
       软阈值的处理如图下图(a)所示。可以观察到,输出对输入的导数为1或0,这对于防止梯度消失和爆炸问题是有效的,如下图(b)所示。导数可以用
残差收缩网络
残差收缩网络
       在经典的信号去噪算法中,通常很难设置合适的阈值。此外,最优值因情况而异。针对这一问题,开发的DRSNs在深层结构中自动确定阈值,避免了人为操作带来的麻烦。在后面的章节中介绍了在已开发的DRSNs中确定阈值的方法。

1. 开发的DRSN-CS体系结构

       开发的DRSN-CS是ResNet的一个变体,它使用软阈值来去除与噪声相关的特征。软阈值作为非线性变换层插入到建筑单元中。此外,阈值的值可以在下面介绍的建筑单元中学习。
       如图4(a)所示,标题为“具有信道共享阈值的残留收缩构建单元(RSBU-CS)”的构建单元与图2(a)中的RBU的不同之处在于,RSBU-CS具有 专用模块,用于估计要在软阈值处理中使用的阈值。 在特殊模块中,GAP应用于特征图????????的绝对值以获得一维矢量。 然后,将一维矢量传播到两层FC网络中以获得缩放参数,这与[25]相似。
残差收缩网络
残差收缩网络
图4.(a)名为RSBU-CS的建筑单元,(b)名为DRBU-CW的整体体系结构,(c)名为RSBU-CW的建筑单元,以及(d)DRSN-CW的总体体系结构,其中 K是卷积层中卷积核的数量; M是FC网络中神经元的数量; C×W×1中的C,W和1分别表示特征图的通道数,宽度和高度。 ????,????和????是确定阈值时要使用的特征图的指示符。然后在两层FC网络的末端应用sigmoid函数,使得缩放参数被缩放到(0,1)的范围内,可以用
残差收缩网络
式中,????是RSBU-CS中两层FC网络的输出,????是相应的缩放参数。然后,将缩放参数????乘以|????|的平均值,得到阈值。这种安排是因为软阈值的阈值不仅需要是正的,而且不能太大。如果阈值大于特征映射的最大绝对值,软阈值的输出将为零。总之,RSBU-CS中使用的阈值表示为
残差收缩网络
其中,????是阈值,????、????和????????分别是特征地图????的宽度、高度和通道指数。阈值可以保持在一个合理的范围内,使软阈值的输出不全是零。可以类似于图2(b)-(c)中的rbu构造具有2个步长和双倍信道数的RSBU-CS。
       所开发的DRSN-CS的简要结构如图4(b)所示,其类似于图2(d)中的经典ResNet。唯一的区别是RSBU CSs被用作建筑单元而不是rbu。在DRSN-CS中堆叠了许多RSBU-CSs,因此可以逐渐减少与噪声相关的特征。所开发的DRSN-CS的另一个优点是阈值是在深层结构中自动学习的,而不是由专家手动设置,因此在实现所开发的DRSN-CS时不需要专业的信号处理知识。

2. 开发的DRSN-CW的体系结构

       所开发的DRSN-CW是ResNet的另一个变体,与DRSN-CS的不同之处在于,将单个阈值应用于特征图的每个通道,这将在下面介绍。 图4(c)中显示了具有按通道阈值的残余收缩构建单元(RSBU-CW)。 使用绝对运算和GAP层将特征图????????简化为一维矢量,然后传播到两层FC网络中。 FC网络中的第二层具有一个以上的神经元,并且神经元的数量等于输入特征图的通道数。 使用以下命令将FC网络的输出缩放到(0,1)的范围
残差收缩网络
其中Z????是第????个神经元的特征,而????????是第????个缩放参数。之后,阈值的计算公式为残差收缩网络
式中,????_????是要素地图的第????个通道的阈值,而????、????和????分别是要素地图????的宽度、高度和通道指数。与DRSN-CS类似,阈值可以是正的并保持在合理的范围内,从而防止输出特性全为零。
       所开发的DRSN-CW的总体架构如图4(d)所示。通过软阈值函数的学习,消除了与之相关的各种非线性特征。

3. 实验结果

       开发的DRSNs是使用tensorflow1.0实现的,这是Google发布的一个机器学习工具包,可以在图形处理单元(gpu)上运行以加速。实验在i7-6700中央处理器和nvidiageforcegtx1070gpu的计算机上进行。本节将讨论实验结果。
残差收缩网络

       如图5所示,传动系诊断模拟器用于实验数据采集。该模拟器主要由电机、两级行星齿轮箱、两级定轴齿轮箱和可编程磁力制动器组成。加速度传感器安装在行星齿轮箱的输入侧。以12800赫兹的采样频率采集振动信号。如表一所示,本研究考虑了行星齿轮箱的八种健康状况,包括一种健康状况、三种轴承故障和四种齿轮故障。
       对于每种健康状况,实验中考虑了三种不同的转速(20赫兹、30赫兹和40赫兹)和三种扭转载荷(1磅英尺、6磅英尺和18磅英尺)。在每个特定转速和扭转载荷下,收集了400个观察值,因此每个健康状态下有3×3×400=3600个观测值。每次观察都是一个0.16秒的信号,有2048个数据点。值得注意的是,为了验证所开发的DRSNs的有效性,使用这种短信号使得故障诊断任务更具挑战性。在实际应用中,可以使用具有更多数据点的长信号。为了验证所开发的DRSNs在不同背景噪声下诊断机器故障的有效性,在每个信号中加入高斯白噪声、拉普拉斯噪声和粉红噪声,得到的信噪比(snr)分别为5db到-5db。具体地说,对原始振动信号进行噪声添加。之后,在深度学习模型的优化过程中,噪声振动信号保持不变。另外值得注意的是,每种噪声都是独立产生的,因此对于振动信号来说,附加的噪声是不同的。
       实验在10倍交叉验证方案下进行。具体来说,将数据集平均分成10个子集,其中1个子集作为测试集,其余9个子集作为训练集,实验重复10次,每个子集都有机会作为测试集。此外,本文还详细介绍了所开发的深度学习方法中超参数的初始化和选择。

5. 总结

       将深度学习方法应用于含高噪声振动信号的机械故障诊断中,提高其特征学习能力是一项重要的任务。本文提出了两种新的深度学习方法,即具有信道共享阈值的深度剩余收缩网络(DRSN-CS)和具有信道方向阈值的深度剩余收缩网络(DRSN-CW)。这些方法将软阈值作为可训练的收缩函数嵌入到深层结构中,使不重要的特征成为零,从而使学习到的高级特征更具鉴别性。使用插入模块(即专门设计的子网络)设置阈值,因此不需要信号处理方面的专业知识。
       通过与传统深度学习方法的实验比较,验证了所开发的DRSNs在提高诊断准确性方面的有效性。所开发的DRSN-CS和DRSN-CW不仅比经典的ConvNet提高了10.93%和11.95%,而且在各种类型和数量的人工插入噪声下,其平均测试精度分别提高了2.30%和3.32%。因此,在深度学习方法中,将软阈值作为可训练的收缩函数,可以有效地提高高噪声振动信号的识别特征学习能力。
       与DRSN-CS相比,所开发的DRSN-CW方法在总体平均测试精度方面的性能略有提高(1.02%),这是因为特征映射的不同通道通常包含不同数量的噪声相关特征。因此,所开发的DRSN-CW允许特征映射的每个信道具有自己的阈值,这比DRSN-CS更灵活,其中特征映射的所有信道使用相同的阈值。因此,DRSN-CW具有比DRSN-CS更高的特征学习能力和诊断性能。
       所开发的DRSNs不仅适用于利用振动信号进行故障诊断,而且适用于处理各种干扰噪声信号,如声信号、视觉信号、电流信号等的模式识别任务。