2. 大连测控技术研究所, 辽宁 大连 116021
2. Dalian Scientific Test and Control Technology Institute, Dalian 116021, China
使用合适的方法、提取精确表达水下目标的特征来进行目标分类,是水声领域的一个难题。人们曾经通过传统的信号处理方法以及时频、非高斯、非线性分析方法提取过水下声信号的许多有用特征,但这些特征也只是反映了目标信号特征的某个侧面,如时频分析反映的是随时间变化频率的变化情况,非高斯方法是基于对噪声非高斯假设的限定等[1]。
依靠人耳及其灵敏的听觉系统和长期在实践中积累的经验来判断水下目标类型仍是水下目标识别的重要途径之一。国外研究人员提取了水下目标的听觉特征及心理参数特征,利用这些特征可以识别目标类型、甚至可以识别目标的材质[2-5]。我国这方面研究起步较晚,有许多工作需深入展开。
感知线性预测(PLP)技术是由 Hynek Hermansky 提出的一种语音分析技术[6]。为了更进一步去掉信道干扰,RASTA 滤波处理技术被提出[7-8],它主要是为了解决缓慢时变的线性信道带来的失真问题,即卷积性失真。
本文提出将 RASTA 滤波技术与 PLP 方法结合应用到了水声信号处理领域中,且根据水声信号的特点对 RASTA 滤波算法进行了修正。对比应用 PLP 方法进行的水中目标回声识别实验,发现修正后的 RASTA 滤波技术在抗卷积噪声方面效果较为理想。
1 人耳听觉感知原理人耳可以听到频率在 20 Hz~20 kHz 范围内的声音。人耳听觉系统是一个音频信号处理器,可以完成对声信号的传输、转换及综合处理的功能,最终达到感知和识别目标的目的。人耳的听觉系统有 2 个重要的特性,一个是耳蜗对于声信号的分频特性;另一个是人耳听觉掩蔽效应。
1.1 掩蔽效应当 2 个响度不等的声音作用于人耳时,则响度较高的频率成分的存在会影响到对响度较低的频率成分的感受,使其变得不易察觉,这种现象称为掩蔽效应。掩蔽是听觉系统的一个重要特征,它表明了人的听觉系统对频率和时间分辨力的有限性。为了描述这种掩蔽效应,引入了临界带宽的概念。一个纯音可以被以它为中心频率、并且具有一定频带宽度的连续噪声所掩蔽,如果在这一频带内噪声功率等于该纯音的功率,这时该纯音处于刚能被听到的临界状态,即称这一带宽为临界带宽。一个临界带宽可以用巴克(Bark)来表示。在 20~16 kHz 范围内的声音信号可以分为 22 个 Bark。临界频带与频率是非线性关系,符合人耳基底膜对声音的非线性分析特性。
1.2 耳蜗分频人耳的掩蔽效应和由此而引起的临界带宽等都是由耳蜗的基本结构所决定,当声音经外耳道传入中耳时,镫骨的运动引起耳蜗内流体压强的变化,从而引起行波沿基底膜的传播。不同频率的声音产生不同的行波,其峰值出现在基底膜的不同位置上。频率较低时,基底膜振动的幅度峰值出现在基底膜的顶部附近;相反,频率较高时,基底膜振动的幅度峰值出现在基底膜的基部附近(靠近镫骨)。图 1 形象地说明了基底膜的位置-频率对应关系。如果信号是一个多频率信号,则产生的行波将沿着基底膜在不同的位置产生最大幅度。在每一声音频率上,随着强度的增加,基底膜运动的幅度增大,并且带动更宽的部分振动。从这个意义上讲,耳蜗就像一个频谱分析仪,基底膜可以看成是一组频带重叠的非线性带通滤波器,这组带通滤波器将整个频带划分为若干个不等宽频带,称为临界频带。鉴于此,可把基底膜从外向内分成许多段,每段对应于一个带通滤波器,这样整个基底膜可以看成一组频带重叠的带通滤波器。
感知线性预测技术(PLP,Perceptual Linear Predictive Analysis)主要在 3 个层次上模仿了人的听觉感知机理:1)临界频带分析处理。2)等响曲线预加重。3)信号强度-听觉响度变换。从人耳的掩蔽效应原理出发,不仅考虑了临界带宽这种特性,并且考虑到耳蜗的分频特性,另外它还具有计算量小、维数低的特点。
2.2 RASTA 滤波器有证据表明,听觉通道对 4 Hz 左右的调制频率最为敏感[7]。这一频率有时也被称作音节速率,因为它大致对应了我们正常说话时音节出现的速率。RASTA 处理正是利用了听觉上对这一调制频率的敏感性来去除噪声。首先对于慢变信道引起的失真,RASTA 对每一个通道采用一个滤波器,用于滤出通道中的直流和邻近直流的频率成分。此外,RASTA 滤波器也对较高调制频率进行了抑制,以此来突出人耳对以 4 Hz 频率变化的信号的敏感。
RASTA 处理通常在对数谱或对数功率谱域进行,其频率响应如下:
$ H(z) = ({z^4}) \times \frac{{(0.2 + 0.1{z^{-1}}-0.1{z^{-3}}-0.2{z^{-4}})}}{{1-0.98{z^{-1}}}}{\text{。}} $ | (1) |
式(1)得到的 RASTA 带通滤波器的频率响应如图 2 所示。从图中可以看出,RASTA 频响的峰值大约在 4 Hz,它去除了慢变信号成分,且抑制了 16 Hz 以上的调制频率成分。
本文所要分析的数据是水声信号,与语音信号有着很大的区别。这就面临着如何修正该滤波器以适合水声信号特点的问题。可以假定背景噪声的变化速率要比信号慢,卷积噪声经过 RASTA 滤波器处理后接近直流,因此本文 RASTA 滤波器修正为:RASTA 滤波器用通带为 1 Hz 的高通滤波器,从而保留了 16 Hz 以上的调制频率成分。
为了实现快速运算,选用频域切割法实现高通滤波功能。对于输入的时域信号,做出其傅立叶变换,保留所需频带的值,其余点取为 0,然后对处理后的频域信号进行反变换得到滤波后的时域信号。
2.4 修正的 RASTA-PLP 听觉模型本文提出将 RASTA 滤波技术与 PLP 方法结合模仿了人耳的听觉感知过程,具体处理流程见图 3。
对接收的回波信号进行短时傅里叶变换计算其功率谱P(ω)。
2.4.2 临界带分析功率谱P(ω)沿其频率轴ω 按式(2)规整到人耳感知的 Bark 域,得到P(Ω)[6]:
$ \varOmega (\omega ) = 6\ln \{ \frac{\omega }{{1200\pi }} + {[{(\frac{\omega }{{1200\pi }})^2} + 1]^{0.5}}\} $ | (2) |
其中ω 为角频率,Ω为 Bark 域频率。然后将规整后的功率谱与模拟临界带曲线Ψ(Ω)相卷。在 PLP 技术中,临界带曲线由下式给出:
$ \varPsi (\varOmega ) = \left\{ \begin{array}{l} 0{\text{,}}\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\varOmega <-1.3{\text{,}}\\ {10^{2.5(\varOmega + 0.5)}}{\text{,}}\;\;\;\;\;-1.3 \leqslant \varOmega \leqslant-0.5{\text{,}}\\ 1\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;-0.5 < \varOmega < 0.5{\text{,}}\\ {10^{-1.0(\varOmega-0.5)}}{\text{,}}\;\;\;\;0.5 \leqslant \varOmega \leqslant 2.5{\text{,}}\\ 0{\text{,}}\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\varOmega > 2.5{\text{。}} \end{array} \right. $ | (3) |
据式(3)得到的滤波器在频率轴上的分布情况如图 4 所示。
功率谱P(Ω)与临界带滤波器组曲线Ψ(Ω)离散卷积即可得到临界带功率谱。
$ \Theta ({\Omega _i}) = \sum\limits_{B =-1.3}^{2.5} {P(\varOmega-{\varOmega _i})\varPsi (\varOmega )}{\text{,}} \;\;i = 1,2, \ldots 22{\text{,}} $ | (4) |
与原始P(ω)相比,P(Ω)与临界带曲线Ψ(Ω)的卷积在很大程度上减少了Θ(Ω)的谱分析。
2.4.3 非线性压缩变换对临界带功率谱进行非线性压缩变换,把 Bark 谱转化为 Bark 对数谱。
$ L\Theta ({\varOmega _i}) = \ln (\Theta ({\varOmega _i})){\text{,}}\quad \;i = 1,2.....22{\text{。}} $ | (5) |
心理声学研究成果表明,在声强一定的情况下,人耳对不同频率声音敏感程度不同,人耳对中高频较为敏感,所以要对临界带分析所得到的谱进行等响度级变换,经变换后的响度级谱为[6]:
$ \Xi [\varOmega (\omega )] = E(\omega )\Theta [\varOmega (\omega )]{\text{,}} $ | (6) |
其中
$ E(\omega ) = \frac{{\left( {{\omega ^2} + 56.8 \times {{10}^6}} \right){\omega ^4}}}{{{{({\omega ^2} + 6.3 \times {{10}^6})}^2}({\omega ^2} + 0.38 \times {{10}^9})}}{\text{。}} $ | (7) |
图 5 为加权后的 23 个通道滤波器响应。
强度-响度转换模仿了人耳对声音强度感受的非线性饱和特性,这里用立方根压缩曲线来近似[6]。
$ \varPhi (\varOmega ) = \sqrt[3]{{\varXi (\varOmega )}}{\text{。}} $ | (8) |
对Φ(Ω)做完 IDFT 变换之后得到信号短时自相关函数R(τ),用全极点模型来逼近R(τ),即做 LPC 分析,使用莱文逊-杜宾递推算法解得p 阶线性预测系数ai ,i=1,2,…,p。为了增强对声音特性的表述能力,又对预测系数进行了谱分析,形成特征向量,以期更好显现目标特征。图 6 给出了应用修正的 RASTA-PLP 模型提取的某类目标的 23 维特征向量。
采用实测水中回波信号提取听觉模型特征,信号形式为单频信号,目标分为 2 类,分别用 A 和 B 表示。样本总数共 2 990 个。为了对该特征的效果进行评估,同时提取了基于 PLP 听觉模型的回波特征,把基于 PLP 模型的听觉特征和基于修正 RASTA-PLP 模型的听觉特征分别送入 FART 神经网络[9],进行对比验证。
目标信号数据分为训练集和测试集 2 部分,其比例为 1:10。2 类目标训练集的识别率均为 100%,测试结果如表 1 和表 2 所示,基于 PLP 听觉模型特征的总识别率为 97%,基于修正的 RASTA-PLP 听觉模型特征的总识别率为 97.29%,基于修正的 RASTA-PLP 听觉模型特征比基于 PLP 听觉模型特征的识别结果高 0.29%。
为了更进一步验证 RASTA-PLP 听觉特征的抗卷积性能,在实验中引入了高斯白噪声,与信号进行卷积,由此来模拟存在卷积噪声的环境。图 7 给出了同一目标加噪前后的功率谱图,由图可看出功率谱的变化较大。
对回波信号加入卷积白噪声,利用修正的 RASTA-PLP 算法提取如图 6 所示类目标的特征向量,特征如图 8 所示。比较图 6 和图 8 可看出,特征曲线的趋势加噪前后变化较小,这表明该特征抗卷积噪声能力较强。
仍使用模糊自适应共振分类器(FART)来分类,表 3 和表 4 分别给出了 PLP 模型和修正的 RASTA-PLP 模型提取的特征分类识别结果。对比表 3 和表 4 可以发现,加入卷积噪声后基于 PLP 模型的特征总识别率仅为 83.98%,基于修正的 RASTA-PLP 模型的总识别率为 86.39%,在相同条件下,基于修正的 RASTA-PLP 听觉模型特征识别率高于基于 PLP 听觉模型特征识别率约 3%。这说明基于修正的 RASTA-PLP 模型特征具有较强的鲁棒性。
目标回声信号的特征提取是主动声呐的水下目标识别的关键技术之一。信号处理的目的就在于寻找信号的有效表示,并如何去发现目标的本质特征,本文通过跟踪研究较为成熟的语音识别技术,提出基于修正的 RASTA-PLP 模型的抗卷积和脉冲噪声的听觉特征,实现对人的听音识别过程的模拟,在此基础上,利用 FART 神经网络进行有效性验证,通过实验表明,对于水下目标回波信号,基于修正的 RASTA-PLP 模型提取的特征比基于PLP模型提取的特征在抗卷积噪声方面有更强的鲁棒性。该特征提取技术开辟了水中目标回波特征提取的新途径。
[1] | HERMANSKY H. Perceptual linear predictive (PLP) analysis of speech[J]. The Journal of the Acoustical Society of America , 1990, 87 (4) :1738–1752. DOI:10.1121/1.399423 |
[2] | HERMANSKY H, MORGAN N, BAYYA A, et al. RASTA-PLP speech analysis technique[C]//Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing. San Francisco, CA:IEEE, 1992, 1:121-124. |
[3] | HERMANSKY H, MORGAN N. RASTA processing of speech[J]. IEEE Transactions on Speech and Audio Processing , 1994, 2 (4) :578–589. DOI:10.1109/89.326616 |
[4] | ZWICKER E, FASTL H. Psychoacoustics:Facts and models[M]. New York: Springer-Verlag, 1999 . |
[5] | GHITZA O. Auditory models and human performance in tasks related to speech coding and speech recognition[J]. IEEE Transactions on Speech and Audio Processing , 1994, 2 (1) :115–132. DOI:10.1109/89.260357 |
[6] | USAGAWA T, IWATA M, EBATA M. Speech parameter extraction in noisy environment using a masking model[C]//Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing. Adelaide, SA:IEEE, 1994, 2:Ⅱ/81-Ⅱ/84. |
[7] | DUZENLI O. Classification of underwater signals using wavelet-based decompositions[D]. California:Naval Postgraduate School, 1998. |
[8] | CHERKASSKY V, MULIER F. Guest editorial vapnik-chervonenkis (VC) learning theory and its applications[J]. IEEE Transactions on Neural Networks , 1999, 10 (5) :985–987. DOI:10.1109/TNN.1999.788639 |
[9] |
彭圆, 王晟, 王科俊, 等. 感知线性预测在水下目标分类中的应用研究[J]. 声学学报 , 2006, 31 (2) :146–150.
PENG Yuan, WANG Sheng, WANG Jun-ke, et al. A study on underwater target classification applying perception linear prediction method[J]. Acta Acustica , 2006, 31 (2) :146–150. |