2. 海军大连舰艇学院 水武与防化系,辽宁 大连 116018
2. Underwater Weapons & Chemical Defense, Dalian Naval Academy, Dalian 116018, China
水下被动目标的自动识别对于提高装备智能化程度有着重要意义,也是国内外水声领域的研究重点和难点。依靠舰船辐射噪声来解决目标分类识别问题是主要途径,近些年来陆续提出了一些新的解决方法,如提取连续谱特征,使用遗传算法改进的神经网络分类器完成目标分类识别[1];将免疫算法[2](Artificial immune algorithm,AIA)与支持向量机[3](Support vector machine,SVM)结合,不断选择适应度最高的SVM作为分类器[4];运用最小均方无失真响应(Minimu Variance Distortionless Response,MVDR)谱系数[5]作为特征参数,使用多分类支持向量机作为分类器等方法[6],但识别效果仍然有待提高。
2006年,Hinton提出的深度学习[7–9](Deep Learning,DL)直接掀起了人工智能又一轮研究热潮[10],且在语音识别[11–12]、图像识别[13–14]等模式识别领域取得了巨大的成功。但其在被动声呐目标识别这一模式识别领域的研究尚处于起步阶段。深度学习通过模拟人类大脑识别信息的过程,有意识的过滤无关信息,再从中逐层深入提取特征并据此完成分类识别。深度自编码器[15](Stacked Autoencoders,SAE)作为深度学习中的一种无监督学习网络,相比较线性的分类识别方法,SAE中的各层自编码器进行编码和解码的训练采用了非线性激活函数,它能够提取更充分的特征用于分类识别。相对于浅层神经网络而言,SAE能提取输入数据中最具代表性的深层特征来高效地完成目标的分类识别[16]。
本文在提取舰船辐射噪声Welch功率谱特征的基础上,提出了基于SAE的目标分类识别方法。首先通过深度自编码网络获得深层特征,然后在输出层使用softmax函对深层特征进行分类识别。并与文献[17]中搭建的BP神经网络(NN)分类器进行性能对比,通过对比实验结果证明了SAE分类器的优越性。
1 深度自编码网络 1.1 自编码器深度自编码网络的结构基础是自编码器(Autoencoder,AE)。每个AE包含输入层、隐含层、输出层,由输入层向前传播到隐含层的过程成为编码,由隐含层向前传播到输出层的过程成为解码,如图1所示。
在编码过程中,首先使用权重矩阵
$ y = f(W*x + b)\text{,} $ | (1) |
$ \widetilde x = g({W^{\rm T}}*y + {b'})\text{,} $ | (2) |
$ L(x,\widetilde x) = \min L(x,g(f(x)))\text{。} $ | (3) |
AE权重的更新可采用随机梯度下降算法,权值更新公式如下式:
$ W \leftarrow W - \eta *\frac{{\partial L(x,\widetilde x)}}{{\partial W}}\text{,} $ | (4) |
式中
通过解码,AE能够近似还原原始信号
对于任意的输入信息
为了获取输入的深层低维特征,基于上述AE,采用堆栈的方式来构建深度自编码网络[18]。首先,按照AE的训练方式,使用输入层
然后训练第2个隐含层,将隐含层
训练完成后只保留
这样每一隐含层都可以充分的包含原始信号的信息[14],通过这种“堆栈”方式完成逐层非监督预训练就构建了深度自编码网络[19]。整个SAE训练完成后,接入softmax分类器完成分类任务,如图4所示。
但由深度自编码训练好的权重直接堆叠构成的网络较为粗糙,需要使用有监督的方法对权重等参数进行微调,从而加强整体层级之间连接的紧密性以及反馈调节的连续性,保证网络处于最优状态,所以将输出分类结果
$ L({S_i},{\tilde S_i}) = \min \frac{1}{n}\sum\limits_{i = 1}^n {L({S_i},g(f({S_i})))} \text{,} $ | (5) |
其中
在后续分析中,损失函数选择经典平方损失函数
$ L({S_i},{\tilde S_i}) = ||{S_i} - {\tilde S_i}|{|^2}\text{。} $ | (6) |
本文提出如图5所示的基于SAE的舰船辐射噪声分类识别框架。首先使用Welch功率谱估计方法对经过预处理的舰船辐射噪声信号提取功率谱特征,然后进行归一化得到样本特征库。将样本特征库分为训练样本集和测试样本集,并对训练样本集进行优化处理,得到新的训练样本集。使用新的训练样本集构建和优化SAE分类器,搭建好SAE分类器后,用测试样本对SAE分类器的效果进行检验。
全部辐射噪声样本是在不同工况和水文气象条件下,实际录制的3类海上目标(分别用Ⅰ,Ⅱ和Ⅲ表示)的舰船辐射噪声。采样频率25 kHz,每个样本长度为6.553 6 s。对所有的4 506个样本集(共146艘不同工况舰船)采用文献[20]的方法估计得到513维的Welch谱特征向量。并将整个样本集分为训练样本集和测试样本集,其中训练样本和测试样本的选取方法如图6所示,相当于每间隔65.536 s选取一个样本进行训练,然后取这2个训练样本的中间样本作为测试样本。由此得到训练样本集和测试样本集各类样本数量如表1所示。
可以看出,原始训练样本集中各类样本在数量上存在较大差异。其中第Ⅱ类的样本数量最多,意味着原始训练集中第Ⅱ类样本不仅在数量上占有优势性而且更具有多样性。因此原始训练集训练下的SAE分类器对于第Ⅱ类样本会得到最充分的训练,因而在目标分类识别时会集中识别第Ⅱ类样本[21]。针对这种情况,本文提出一种顺次重复处于劣势样本的优化方法,即增加第Ⅰ类和第Ⅲ类样本数量,使每类样本数量基本处于均衡状态。具体步骤如下:
步骤1 根据训练样本集中每类样本的总数,得到训练样本数量最多一类的样本个数,如式(7)所示,其中
$ M = \max \{ {N_j}\} (j = 1,2,3)\text{。} $ | (7) |
步骤2 根据步骤1获得的最大值
$ {n_j} = \left[ {\frac{{\max }}{{{N_j}}}} \right](j = 1,2,3)\text{。} $ | (8) |
步骤3 根据步骤2获得的重复次数对原始训练集中各类样本进行重复。如图7所示,原始训练样本集的三类样本和重复后获得的新训练样本集中的三类样本,分别用
通过上述步骤对训练样本集进行优化处理后,训练样本集中各类样本数量如表2所示。
为了从输入的Welch功率谱特征中获取深层次的特征来提高SAE分类器的分类识别能力,要求自编码网络捕捉训练数据中最显著的深层特征,本文SAE分类器的各层自编码器均采用欠完备的自编码器,得到SAE分类器中各层节点数目之间的逻辑关系如式(9),其中
$ \begin{split} & Output\;neure\; < Neure\left\{ l \right\} < \ldots < Neure\left\{ i \right\} < \ldots \\ & \ldots < Neure\left\{ 1 \right\} < Input\;neure\\ & (i = 1,2...,l)\text{。} \end{split} $ | (9) |
具体SAE网络结构设置如图8所示,以目标分类识别准确率为标准,设置恰当的网络深度保证网络获取的深度特征不会因为过于抽象而无法识别,也不会因为提取的不够深而得不到有效的深层特征。调整各层节点数,使该层节点输出的深层特征具有维度低和有效性强的特点。
最终设置的网络结构为4层,隐含层数为2层,具体各节点数如图9所示。
在图9所示的结构中设置学习率
将上述激活函数分别作为2个隐含层自编码器的激活函数,通过对比SAE分类器的识别效果来选择最合适的激活函数组合。
$ sigmoid(x) = \frac{1}{{1 + {e^{ - x}}}}\text{,} $ | (10) |
$ {\tan}{h} (x) = \frac{{{e^x} - {e^{ - x}}}}{{{e^x} + {e^{ - x}}}}\text{,} $ | (11) |
$ Relu(x) = \left\{ {\begin{array}{*{20}{c}} x\text{,}\;{x \geqslant 0}\text{,}\\ 0\text{,}\;{x < 0}\text{。} \end{array}} \right. $ | (12) |
SAE分类器的识别效果如表3所示,fj为第
在上述SAE分类器设计的基础上,进一步对影响网络效率的参数——学习率和训练次数进行选择。因为采用随机梯度下降算法对SAE的权重进行更新,结合权值更新式(4),可知在每次训练中权值更新的梯度都在下降以便更有效的逼近最优值,所以SAE分类器的分类识别效果在训练次数和学习率共同作用下才能够达到较好效果。
学习率的经验值区间一般为0~1,分别选择0.1,0.5,0.9,1作为学习率代表,得到训练次数和错误的下降曲线,如图10所示。
可以看出,在采用梯度下降算法更新权重时,学习率较大则每次下降的步长越大,能够在较少的训练次数下快速逼近最优值,但可能存在由于步长过长使权重值在最优值点附近徘徊,无法接近最优值点;选择的学习率过小时,虽然能够接近最优值,但需要很多次训练,权重逼近最优值点的速度慢,同时可能会出现过拟合的现象。因此,需要选择恰当的学习率才能在尽可能少的训练次数下,实现在耗时较短的前提下获得较好的权重值。
根据上述分析,以错误率收敛为准则,按如图11所示流程对SAE分类器的训练次数和学习率进行选择,具体步骤如下:
步骤1 将学习率经验区间0~1划分为10份区间间隔0.1,结合各点错误率曲线初步筛选区间为0.8~0.9;
步骤2 在初步筛选区间0.8~0.9基础上,按照0.01间隔长度将0.8~0.9划分为10份,再次结合各点错误率曲线进行选择,进一步确定区间为0.88~0.89;
步骤3 在0.88~0.89区间内按照0.001间隔将0.88~0.89划分为10份再次细化学习率,最终确定学习率为0.889,得到图12学习率0.889时训练次数和错误率下降曲线。
在如图12所示学习率为0.889的错误率曲线中可得训练次数在470~480之间已经达到稳定状态,为提高SAE分类器的实效性,在470~480之间经过对比最终选取的训练次数为475。
使用原始训练样本集分别对构建好的SAE分类器和NN分类器进行训练,SAE和NN的参数设置训练完成后使用测试样本集对进行测试,得到如表4所示的正确分类识别概率。
分析可知,在三类训练样本数目不均匀的条件下,由于第Ⅱ类样本数目最多,更具有多样性,分类器对于第Ⅱ类样本能够提取更为丰富的特征,强化分类器对第Ⅱ类目标的分类识别能力,使分类器权值偏向第Ⅱ类目标。相比之下,第Ⅰ类和第Ⅲ类样本样本数目较少使得这两类样本的特征提取的不够全面,导致分类器对这两类目标的分类识别能力得不到充分训练,识别率较低。
使用新训练样本集训练再次训练SAE分类器与NN分类器,然后使用同一测试样本集对分类器的分类识别能力进行测试,得到表5所示2种网络分类器的正确分类识别概率。
NN属于浅层网络,不具备提取数据深层特征的能力。NN分类器只能根据输入的Welch谱特征向量进行分类识别,其分类效果受样本数量和样本多样性影响。对于同一类样本而言,数量越多、多样性越强、识别效果就越好。对比表4和表5可以看出,新训练样本集增加了样本数量,但没有增加样本的多样性,因而NN分类器的分类识别能力没有得到改善。
SAE属于深度学习网络模型,能够提取深层特征,同时SAE的结构还能抑制过拟合。SAE分类器通过对Welch谱特征向量进行深层特征挖掘,找到样本之间的本质区别,用来对目标进行高效准确地分类识别。结合表1和表4分析可以看出,原始训练样本集中3类目标数量差距较大、SAE分类器稀疏性强,所以在运用原始训练集训练SAE分类器时,提取的深层特征不全面,导致SAE分类器分类识别不准确。从表2和表5分析得到,新训练样本集中增加了第Ⅰ类样本和第Ⅲ类样本的数量,从而解决了由于这两类样本数量太少导致的深层特征提取不全面的问题,并且SAE分类器的稀疏度能够有效抑制NN分类器中出现的过拟合现象。从表5可以看出,通过新训练样本集的训练,SAE分类器对第Ⅰ类样本和第Ⅲ类样本的分类识别能力得到了明显提升,改善了SAE分类器的整体分类识别能力。
深度学习多层非线性的特点,使它能够通过简洁的参数学习来表达复杂数据之间的关系。欠完备AE本身具有很好的特征提取能力,能够提取样本低维度的重要特征。AE堆叠而成的SAE发挥了这种优势,在降低数据维度的同时能够充分挖掘数据的深层特征,更好地完成对舰船辐射噪声的分类识别。并且简单的数据重复与SAE分类器自身的稀疏能力相配合,能够在提高各类目标的分类识别率的同时防止过拟合现象的出现,SAE分类器在实际应用中与传统浅层神经网络相比具有很强的优越性。同时,该分类网络也可推广应用于舰船其他特征下的分类识别。
[1] |
曾庆军, 王菲, 黄国建. 基于连续谱特征提取的被动声纳目标识别技术[J]. 上海交通大学学报, 2002, 36(3): 382-386. ZENG Qing-jun, WANG Fei, HUANG Guo-jian. Technique of passive sonar target recognition based on continuous spectrum feature extraction[J]. Journal of Shanghai Jiaotong University, 2002, 36(3): 382-386. DOI:10.3321/j.issn:1006-2467.2002.03.023 |
[2] |
MEISTER J. A neural network harmonic family classifier[J]. J. Acoustic. Soc. Am, 1993, 9(3): 1485-1495. |
[3] |
XIAO Tang. Multiple competitive learning network fusion for object classification[J]. IEEE Trans on Systems, Man and Cybernetics part B: Cybernetics, 1998, 28(4): 532-543. DOI:10.1109/3477.704292 |
[4] |
陈兆基, 杨宏晖, 戴健. 自适应免疫算法的SVME用于水下目标识别[J]. 声学技术, 2012, 31(6): 587-590. |
[5] |
MURTHN MANOHAR, BHASKAR D, RAO. All-polo modeling of speech based on the minimum variance disortionless response spectrum[J]. IEEE Transactions on Speech and Audio Processing, 2000, 8(3): 221-239. DOI:10.1109/89.841206 |
[6] |
赵亚楠, 李钢虎, 曾渊. 基于最小均方无失真响应和支持向量机的被动声纳目标识别[J]. 声学技术, 2011, 30(3): 223-226. DOI:10.3969/j.issn.1000-3630.2011.03.004 |
[7] |
HINTON G, E, SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 31(3): 504-507. |
[8] |
HINTON G E. Training products of experts by minimizing contrastive divergence[J]. Neural Computation, 2000, 1(14): 1771-1800. |
[9] |
HINTON G E, TEH Y W.. A fast learning algorithm for deep belief nets[J]. Neural Computation, 2006, 18(7): 1527-1554. DOI:10.1162/neco.2006.18.7.1527 |
[10] |
RAINA R, BATTLE A, LEE H. Self-taught learning: transfer learning from unlabeled data[C]//International Conference on Machine Learning Corvallis, USA: International Conference press, 2007: 759–766.
|
[11] |
张建华. 基于深度学习的语音识别应用研究[D]. 北京: 北京邮电大学, 2015.
|
[12] |
陈硕. 深度学习神经网络在语音识别中的应用研究[D]. 广州: 华南理工大学, 2013.
|
[13] |
龚丁禧, 曹长荣. 基于卷积神经网络的植物叶片分类[J]. 计算机与现代化, 2014, 2(4): 12-19. DOI:10.3969/j.issn.1006-2475.2014.04.003 |
[14] |
刘超颖, 杨健, 李俊. 基于深度自编码网络的异质人脸识别[J]. 计算机应用与软件, 2016, 33(10): 176-180. DOI:10.3969/j.issn.1000-386x.2016.10.039 |
[15] |
LI J, CHANG H, YANG J. Sparse deep stacking network for image classification[C]//9th AAAI Conference on Artificial Intelligence (AAAI 2015), Austin, Texas, USA: 2015. Austin: AAAI Press, 2015: 1–7.
|
[16] |
王强, 曾向阳. 深度学习方法及其在水下目标识别中的应用[J]. 声学技术, 2015, 34(2): 138-140. WANG Qiang, ZENG Xiang-yang. Deep learning methods and their applications in underwater targets recognition[J]. Technical Acoustics, 2015, 34(2): 138-140. |
[17] |
严韶光, 康春玉. 基于功率谱特征的CNN被动声纳目标分类方法[J]. 声学技术, 2017, 36(6): 441-442. YAN Shao-guang, KANG Chun-yu, LI Jun. A method of CNN passive sonar target classification based on power spectrum feature[J]. Technical Acoustics, 2017, 36(6): 441-442. |
[18] |
黄丽霞, 王亚楠, 张雪英, 等. 基于深度自编码网络语音识别噪声鲁棒性研究[J]. 计算机工程与应用, 2017, 53(13): 49-54. DOI:10.3778/j.issn.1002-8331.1611-0217 |
[19] |
BENGIO Y, LAMBLIN P, POPOVICI D. Greedy layer-wise training of deep networks[C]//Twenty-First Annual Conference on Neural Information Processing Systems (NIPS 2007), Vancouver, British Columbia, Canada: 2007. Cambridge: MIT Press, 2015: 153–160.
|
[20] |
康春玉, 章新华, 张安清. 一种基于谱估计的被动声呐目标识别方法[J]. 哈尔滨工程大学学报, 2003, 24(6): 627-631. KANG Chun-yu, ZHANG Xin-hua, ZHANG An-qing. A method of passive sonar target recognition based on spectrum evaluation[J]. Journal of Harbin Engineering University, 2003, 24(6): 627-631. DOI:10.3969/j.issn.1006-7043.2003.06.009 |
[21] |
ERHAN D, BENGIO Y, COURVILLE A. Why does unsupervised pre-training help deep learning[J]. Journal of Machine Learning Research, 2010, 11(3): 625-660. |