自动化学报  2017, Vol. 43 Issue (4): 634-644   PDF    
基于方位特征的听觉选择性注意计算模型研究
吕菲, 夏秀渝     
四川大学电子信息学院 成都 610064
摘要: 经典的听觉注意计算模型主要针对声音强度、频率、时间等初级听觉特征进行研究,这些特征不能较好地模拟听觉注意指向性,必须寻求更高级的听觉特征来区分不同声音.根据听觉感知机制,本文基于声源方位特征和神经网络提出了一种双通路信息处理的自下而上听觉选择性注意计算模型.模型首先对双耳信号进行预处理和频谱分析;然后,将其分别送入where通路和what通路,其中where通路用于提取方位特征参数,并利用神经网络提取声源的局部方位特征,接着通过局部特征聚合和全局优化法得到方位特征显著图;最后,根据方位特征显著图提取主导方位并作用于what通路,采用时频掩蔽法分离出相应的主导音.仿真结果表明:该模型引入方位特征作为聚类线索,利用多级神经网络自动筛选出值得注意的声音对象,实时提取复杂声学环境中的主导音,较好地模拟了人类听觉的方位分类机制、注意选择机制和注意转移机制.
关键词: 听觉选择性注意     方位特征     自下而上     神经网络    
Study on Computational Model of Auditory Selective Attention with Orientation Feature
LV Fei, XIA Xiu-Yu     
College of Electronics and Information Engineering, Sichuan University, Chengdu 610064
Received: 2016-03-18, Accepted: 2016-08-15.
Author brief: LV Fei   Master student at the College of Electronics and Information Engineering, Sichuan University. She received her bachelor degree from Wenzhou University in 2013. Her research interest covers modeling and simulating auditory selective attention computational model
Corresponding author. XIA Xiu-Yu   Associate professor at the College of Electronics and Information Engineering, Sichuan University. Her research interest covers acoustic echo cancellation, speech enhancement, speech separation, computational auditory scene analysis, and auditory computational model. Corresponding author of this paper
Abstract: Classic computational model of auditory selective attention mainly involves simple characters such as intensity, frequency, and time, which cannot simulate directional auditory attention preferably and needs more advanced auditory features to the distinguish different source signals. According to the perception mechanism of auditory system, the paper presents a bottom-up auditory selective attention computational model that has two signal processing pathways involving orientation feature and neural network. In this model, firstly, the binaural signals are preprocessed, spectral analyzed and separately sent to dual pathways. The where pathway is used to extract parameters of orientation feature and local orientation features of signals with neural networks, Then the features are aggregated and globally optimized to gain a saliency map of orientation feature. Finally, the leading orientations are gained based on the saliency map and applied to the what pathway to separate leading signals by time-frequency masking. Orientation features are introduced as group clues in this module and multi-neural networks are used to extract objective signals from mix-signals automatically. Simulation results prove that the method proposed in this paper can dynamically extract leading signals from complex acoustic environments in real time, and that orientation classification, attention selection and attention switch of the human auditory system are well simulated.
Key words: Auditory selective attention     orientation feature     bottom-up     neural network    

在“鸡尾酒会”这样嘈杂的环境中, 听觉系统可以轻易捕捉到感兴趣的声音, 将注意选择性集中到这些声学信号上, 从而对注意信号进行下一步处理.这就是我们所说的听觉选择性注意机制.选择性注意是大脑的一种认知过程, 即“在同时呈现的多种刺激中, 个体专注于其中一种刺激, 而忽略其他刺激” [1].注意可为两类:随意注意和非随意注意.正如在热闹的讨论课上, 我们能与同组成员进行无障碍交流也能听到下课铃声.同组成员的声音是大脑想要关注的信息, 属于随意注意, 这种选择性注意具有一定目的性, 需要听者用意志去控制.下课铃声在声场中显得“突兀”而被注意到, 这属于非随意注意.注意目标从同伴的声音转换成了下课铃声, 说明听觉注意是一个动态的信号处理过程.

若计算机语音处理系统可以模拟听觉注意机制从海量信息中区分目标声源/无关声源、语音/非语音, 自动地筛选出最有关注价值的声源信号, 这对计算机听觉理论、语音处理、识别、人工智能等领域发展有重要意义和实用价值[2-4].如何建立符合听觉系统生理结构和听觉心理特征的听觉选择性注意模型已成为心理学、神经生理学和人工智能等领域的热门研究课题.

目前国内外对听觉注意计算模型的研究还处于初级阶段, 主要集中于自下而上的听觉注意计算模型, 通常是利用听觉显著图计算来实现.听觉注意计算模型最早由Kayser等[5]于2005年提出, 该模型先对声学信号进行听觉外周模型计算得到听觉谱图, 然后将其看成一副图像, 借助Itti模型结合强度、频率、时间等初级特征进行计算得到听觉显著图. Kalinli等[6]在Kayser的基础上增加了基音特征和方向作为语音特征. 2010年Bert等[7]提出了多个注意线索竞争的听觉选择性注意模型, 较好地模拟了听觉注意中声源目标的切换. 2012年Kaya等[8]提出将语音信号作为一维时间信号输入, 以时间—频率为单位基于语谱图进行显著图模型提取.国内对听觉注意的研究处于起步阶段, 其中刘扬[9]等提出了一种基于注意认知神经信息处理机制的听觉选择性注意计算模型.该模型从神经认知信息处理角度研究了感知特征提取、注意回路控制算法以及听觉显著图生成.以上模型均是将音频信号转换成语谱图或听觉谱图, 仿照图像进行显著性计算.但仅从语谱图提取初级特征计算听觉显著图具有明显局限性.对于图像来说, 一个物体通常分布在图像中一块临近区域, 而一个声音信号在语谱图上的分布往往跨越了多个频带、时间窗.目前的听觉注意模型仅能提供不同时段声音流的显著性, 而不能实现指向某个显著声音流的目标.所以听觉显著性计算模型必须寻求更高级特征来区分不同声音.

在听觉系统中, 声场景被解析成多个特征信号, 类似的信号则会聚类成同一个语音流.听觉选择性注意会根据不同的特征筛选目标信号, 解决多个信号竞争问题, 从而将注意资源集中到某个特定的目标上[10].研究结果表明区分不同声源的特征线索包括基音、方位、强度、频率、时间等.其中基于双耳效应的声源方位特征是区分声音的重要线索.美国俄亥俄大学的Roman等[11]提出了一种基于双耳效应的语音实时增强算法, 利用声源信号到达双耳的强度差 (Interaural intensity difference, IID) 和时间差 (Interaural time difference, ITD) 等特征信息判断信号方位, 在人工控制条件下, 可以分离出指定方位的声音信号, 但在多信号竞争情况下系统不能自动挑选需增强的目标.

针对上述问题, 结合前人对听觉感知机制的相关研究成果, 本文基于方位特征提出一种双通路信息处理的自下而上听觉选择性注意计算模型.首先利用双耳信号进行预处理和频谱分析, 然后分别送入what和where两条通路. Where通路用于提取声源方位参数, 采用多级神经网络提取声源局部方位特征并聚合成全局特征, 并利用全局加强法计算出声源信号基于方位特征的听觉显著图.根据显著图动态提取声源的主导方位作用于what通路, 最后分离出主导声音.实验仿真结果表明该模型引入方位特征作为聚类线索, 采用多级神经网络动态提取主导方位, 突破了传统盲源分离算法或计算声场景分析方法中需要人工设定分离目标的限定.该算法能较好地模拟人类听觉的方位分类机制, 注意选择机制和注意转移机制; 能有效追踪到声源的方位变化, 动态分离各时段主导音, 对非注意声源的抑制效果良好.

1 听觉感知机制 1.1 听觉神经生理机制

人类听觉系统包括人耳、传导神经、大脑皮层的听觉中枢, 其复杂的神经传导结构如图 1所示[1].

图 1 双耳听觉神经信息处理系统 Figure 1 Neural information processing system of binaural auditory

对于外界声音刺激, 耳蜗基底膜上的螺旋器进行频谱分析和以神经冲动的形式进行强度编码, 通过毛细胞轴突到达耳蜗神经核 (Cochlear nucleus), 这是第一级听觉中枢.耳蜗神经核会提取声源信号强度, 暂存时间信息, 并降低信号频率的分辨率.在第二级听觉中枢, 耳蜗神经核的大部分神经纤维交叉到对侧的上橄榄核 (Superior olivery nucleus), 少部分纤维连接到同侧上橄榄核.此时两侧的上橄榄核内均存有双耳信息, 上橄榄核和下丘核共同分析双耳信号的强度差和时间差, 对目标声源进行空间定位功能整合.经过处理后的信息传到内膝体, 对声源强度、方位、频率等基本听觉信息进行分析、整合, 并传输到同侧的初级听皮层 (Primary auditory cortex)[12-13].

信息到达初级听皮层后, 一方面通过腹侧通路进行声源物体模式识别, 实现声音语义对象的解析, 另一方面背侧通路则进行声源空间位置分析.听觉皮层神经元会对声音的频谱、时间、空间进行更高级的整合处理, 分工明确且相互协同[10].从整体来看, 听觉系统对声音信号采用了多频率多通道并行处理方式.

1.2 听觉注意机制

注意是指人类心理活动时, 对事物具有一定的指向性与集中性.文献[10, 14-15]中指出人类的注意资源有限, 大脑必须对海量信息进行过滤和选择.面对不同声音刺激, 在某个特定时间点人类总是关注最有价值的信号, 这就是指向性.集中性是指听觉系统为了更高效地接收目标信号, 而抑制非关注信号.听觉注意还是一个动态处理过程.在实际环境中, 听觉注意目标在不断的切换, 一段时间内能关注到多个声音信号.不过由于人脑处理信息需要花费时间, 先出现的声音对后出现的声音滞后掩蔽时长可达50 $\sim$ 200 ms.

根据信息加工方向听觉注意可分“自下而上”注意和“自上而下”注意.自下而上注意是由外界刺激诱发, 由低级神经处理逐步推进到高级神经处理进行信息处理与整合.由于该机制不需要大脑高级皮层参与, 即使注意力分散时, 也能对声音进行正确处理.相反地, 自上而下注意是由高级皮层作出决策, 主动将注意转移到特定信号进行信息处理, 该机制通常与任务要求有关, 也会被记忆、存储、先验知识影响.当听到某个方向、某个人的声音时, 自上而下机制可以迅速精准调整听觉皮层的信息处理通路, 对目标信息进行处理.前文提到的随意注意就属于自上而下注意, 而非随意注意是一种自下而上的被动注意.

根据听觉注意信息处理内容可分为what通路和where通路. What通路传输目标对象的内容信息; where通路传输目标对象的空间信息.近期科学实验[16]表明人类听觉注意这两条通路对信号的处理有先后顺序.自下而上注意机制可以快速判断出声场中突出的声音空间信息, 找到粗略注意目标, 继而在自上而下注意机制控制下, 注意转移到目标信号上并持续一段时间, 允许what通路对声源信号进行下一步处理.因此模拟听觉的where通道处理过程, 可准确判断各声音的方位信息, 高效接受目标信号并抑制非关注方位的声音信号.

1.3 双耳定位机制

声音在实际环境中传播时, 由于头部、耳廓、躯干等的散射和反射作用, 到达双耳的声音信号能量、传递时间、频谱特征都会发生相应的变化.

图 2所示, 当目标声源处于头部右侧的B点时, 声源到达左耳的距离大于声源到达右耳的距离, 从而两耳接收到的信号产生了双耳时间差ITD和耳间强度差IID, 这些差异随目标声源的方向和距离而改变, 是听觉系统进行定位的重要判断因素[17-18].由于低频信号的波长较长, 基本不受头颅、耳廓影响, 低频声源信号的IID较小, 主要利用ITD进行定位.而在处理高频信号时, 双耳信号的相位差不明显, 对声源方位判断则主要靠IID.

图 2 左右耳听觉示意图 Figure 2 Illustration of binaural auditory system

目前普遍认为, 声源定位的双耳差异主要在外侧上橄榄核的复合体内进行特征参数提取、编码、分析.神经元接收双耳的信息投射并进行信息整合, 根据差异的大小进行编码使神经元产生相应强度的兴奋[19].

2 基于方位特征的听觉选择性注意计算模型 2.1 模型概述

根据听觉感知机制, 本文提出了一种基于方位特征与双通路信息处理的听觉选择性注意计算模型, 对双耳信号进行空域、时域、频域联合处理, 分离得到注意目标信号的时频分布, 模拟实现非随意听觉注意.计算模型结构框图如图 3所示:

图 3 听觉选择性注意计算模型结构框图 Figure 3 Schematic diagram of auditory selective attention computational model

模型首先模拟听觉外周的谱分析功能, 对左右耳信号进行频谱分析, 接着根据听觉有where和what两条通路的机制, 将谱分析后的输出信号分别送入两条路径处理. Where通路采用一个4级结构的神经网络计算方位特征显著图, 提取声源方位特征, 实现听觉注意的指向性, 即由方位特征显著图给出值得注意的声源方位.由于暂未考虑来自高层的任务信息, 实现的是非随意注意.基于听觉系统where通路快于what通路的原理, 本文模型利用方位特征显著图动态提取主导音方位, 并作用于what通路.最后基于时频掩蔽的方法提取主导音, 实现基于方位特征的听觉选择性注意功能和注意转移功能.

2.2 预处理与听觉谱分析

在该模型中, 先对左右耳信号进行预处理, 包括预加重、分帧、加窗等, 然后进行谱分析.本文采用的预加重函数是$h(z)=1-0.98z^{-1}$, 窗函数是汉明窗, 每帧信号长度取128个样点 (信号采样率8 kHz).为简化计算, 实验中利用短时傅里叶变换代替听觉外周谱分析.设左耳、右耳信号分别为$s_L(t)$, $s_R(t)$, 通过短时傅里叶变换得到短时谱$S_L(i, k)$$S_R(i, k)$, 分别表示信号第$i$帧, 第$k$个频点的左右耳信号频谱.

由于能量较小的信号和噪声往往不被人感知, 为降低数据处理量以及避免对方位判断产生干扰, 本文以时—频单元为单位对输入信号进行了能量筛选.对能量小于门限$T$的信号单元不进行方位估计, 在what通路信号提取时, 会以较小的系数进行掩蔽.根据式 (1) 由静音段的噪声功率谱估计得门限$T$:

$ T=\frac{\pmb\alpha}{L\times N}\mathop \sum \limits_{i = 1}^L \mathop \sum \limits_{k = 1}^N |S(i, k)|^2 $ (1)

其中, $L$为静音段取的帧数, $N$为傅里叶变换点数128, $\alpha$为门限比例系数.

2.3 方位特征显著性计算

Where通路用于完成声源方位特征的提取, 我们提出一种4级结构的神经网络计算方位特征显著图, 动态提取主导音方位.神经网络结构如图 4.

图 4 方位特征显著性计算框图 Figure 4 Diagram of saliency computation about orientation feature

网络第一级用于声源方位参数提取, 提取各时—频单元的特征参数IID、ITD; 第二级用于方位特征提取, 提取各时—频单元的方位特征; 第三级用于方位特征汇聚, 以单帧或多帧信号为单位汇聚各信号的方位特征, 模拟注意的动态处理过程; 在网络的第四级, 采用全局加强法得到声源信号的方位特征显著图, 提取信号的各时段主导音方位.

2.3.1 声源方位参数提取

根据第1.3节, 双耳时间差和耳间强度差是双耳定位的主要线索, 网络第一级就是基于时间—频率单元提取声源的方位参数IID、ITD.

在第一级网络中, 每个时—频单元对应一个子网络, 每个子网络有两个输入节点$X_1^1(i, k)$, $X_1^2(i, k)$, 两个输出节点$Y_1^1(i, k)$, $Y_1^2(i, k)$.神经网络第一级输入信号为: $X_1^1(i, k)=S_L(i, k)$, $X_1^2(i, k)=S_R(i, k)$, 接着按式 (2) 和 (3) 提取每个时—频单元的方位参数IID、ITD:

$ {\rm IID}(i, k)= 20\times\log\left\|\frac{S_L(i, k)}{S_R(i, k)}\right\| $ (2)
$ {\rm ITD}(i, k)=-\frac{\Delta\psi}{2k\pi}=-\frac{\psi_L-\psi_R}{2k\pi} $ (3)

其中, $\psi_L=\arctan\{\frac{{\rm Im} [S_L(i, k)]}{{\rm Re} [S_L(i, k)]}\}$, $\psi_R=\arctan\{\frac{{\rm Im }[S_R(i, k)]}{{\rm Re} [S_R(i, k)]}\}$, 从而得到该级输出节点信号:

$ Y_1^1(i, k)={\rm ITD}(i, k) $
$ Y_1^2(i, k)={\rm IID}(i, k) $
2.3.2 方位特征提取

网络第二级进行方位特征分析, 用于观察声音信号的局部方位特征.这级网络同样是基于时间—频率单元, 每个子网络有两个输入节点$X_2^1(i, k)$, $X_2^2(i, k)$, $n$个输出节点$Y_2^j(i, k), j=1, 2, \cdots, n$, 代表着不同的空间方位.网络第二级输入节点$X_2^1(i, k)$, $X_2^2(i, k)$接收第一级输出节点$Y_1^1(i, k), Y_1^2(i, k)$的归一化值.该级各子网络主要利用3层BP (Back propagation) 神经网络来实现功能.根据听觉系统的并行处理机制, 将频带等间隔划分成128个频率通道, 每个频率通道训练一个BP网络, 即各频率通道内网络权值是共享的. BP神经网络各层输出通过下式计算得到:

$ u_n=\theta\left(\mathop \sum \limits_{m = 1}^N w_{m, n}v_m-a_n\right) $ (4)

式中, $a_n$为第$n$个神经元的阈值, $w_{m, n}$为前一层神经元$m$与当前层神经元$n$之间的权值参数, 该值由训练学习得到. $v_m$为第$m$个神经元的输出, 也是第$n$个神经元的输入. $\theta$为激励函数, 本文采用双曲正切特性函数.中间隐层的神经元个数过多, 神经网络结构复杂, 网络训练时间长, 精度会提高, 但泛化能力会下降, 反之神经元个数过少, 精度下降, 训练时间短.本文利用试凑法确定隐藏层神经元最佳个数, 经过反复实验, 本文隐层神经元个数设为36个.最终实验中BP神经网络结构为$2-36-25$, 即输入层2个神经元, 中间隐层36个神经元, 输出层25个神经元, 分别代表水平正前方25个方位.

为提高信号特征提取的分类效果, 对输出层后验概率较低的状态进行掩蔽, 得到每个子网络的输出:

$ \begin{equation} Y_2^j(i, k)=\left\{ \begin{array}{l} \overset{}u_n, \qquad u_n >0.1\\ 0, \qquad ~~\mbox{其他} \\ \end{array} \right. \end{equation} $ (5)
2.3.3 方位特征聚合

第二级神经网络对信号方位特征的观察仅停留在时间—频率单元, 还需要再来一级网络以单帧或多帧为单位进行方位特征汇聚, 用于观察声音信号在帧级别的局部方位特征, 模拟听觉系统的动态处理过程.该级网络的每个子网络对当前观察窗的信号特征进行汇聚, 子网络输入节点数为: 25$\times$频率通道数$\times$帧数, 接收对应第二级网络输出节点信号, 子网络输出节点25个, 代表水平正前方25个方位.该级网络输出为

$ \begin{equation} Y_3^j(i)=\mathop \sum \limits_{i'=i-L+1}^i \sum \limits_{k=1}^{128}Y_2^j(i', k)E_S(i', k) \end{equation} $ (6)

其中, $j=1, 2, \cdots, 25$, $E_S(i', k)$是第$i'$帧、第$k$个频率通道的左耳或右耳信号能量, $Y_2^j(i', k)$为第$j$个节点的后验概率, $L$为观察窗帧数, $Y_3^j(i)$为第$i$帧信号第$j$个节点的显著度.在实际计算过程中, 为减少计算机存储空间以及考虑到听觉时域掩蔽效应, 式 (6) 的计算本文采用了迭代算法:

$ Y_3^j(i)=\beta Y_3^j(i-1)+(1-\beta)\sum \limits_{k=1}^{128}Y_2^j(i, k)E_S(i, k) $ (7)

其中, $\beta$为遗忘因子, 反映了听觉的时域掩蔽效应, 该值越大, 听觉注意受旧刺激的影响越大, 对新刺激越不敏感.

2.3.4 方位特征显著图

网络第四级用全局加强法处理第三级的帧级方位特征, 从而得到方位特征显著图.全局加强法的作用是加强对注意目标影响大的特征, 削弱对注意目标影响小的特征.根据方位特征显著图可动态提取出主导音方位, 模拟听觉注意的指向性.该级网络的输入节点为$X_4^j(i), j=1, 2, \cdots, 25$, 接收第三级输出节点$Y_3^j(i)$的归一化值; 输出节点为$Y_4^j(i), j=1, 2, \cdots, 25$.全局加强处理按式 (8) 进行:

$ \begin{align} Y_4^j &(i)=\\&\{{\rm Max}[Y_3^1(i), Y_3^2(i), \cdots, Y_3^{25}(i)]-\overline{Y}_3^j(i)\}^2 Y_3^j(i) \end{align} $ (8)

式中, ${\rm Max}[Y_3^j(i)]$为第$i$帧信号最显著方向的显著度, $\overline{Y}_3^j(i)$为第$i$帧信号除$Y_3^j(i)$外的平均显著度.得到方位特征显著图后可通过式 (9) 提取出主导音方位, 指导what通路进一步的信号处理.

$ K={\rm num}[{\rm Max}(Y_4^j(i))], \qquad j=1, 2, \cdots, 25 $ (9)

式中, 函数num () 用于提取第$i$帧信号显著度最大值所对应的方位.

本节的方位特征显著性计算模型借助双耳线索IID、ITD完成了待注意目标的声源方位估计功能.模型采取多个步骤改善噪声和混响对声源方位估计的影响: 1) 基于能量门限$T$对信号时频单元进行了筛选; 2) 采用带噪数据对BP神经网络进行训练, 提高神经网络的容错能力; 3) 设置一定长度的观察窗, 对信号进行基于能量加权的方位特征聚合.

2.4 主导音提取

该模块将根据where通路的方位显著度指导what通路进行信号处理, 从双耳信号中分离出各时段的主导音, 模拟听觉注意选择性.根据式 (10) 以时—频为单位对信号进行掩蔽, 得到最终的主导音语谱图.

$ S_i'(i, k)=M(i, k)|S(i, k)| $ (10)

其中, $M(i, k)$是第$i$帧, $k$个频率通道信号的掩蔽系数, $S(i, k)$是左耳或右耳信号的短时频谱.本实验根据信号能量大小采用了不同的掩蔽系数.其中小于门限$T$的时—频单元, 将掩蔽系数固定为

$ M(i, k)=\frac{1}{1 000} $ (11)

而大于门限$T$的信号会按照式 (12) 采用0$ \sim $1掩蔽, 即当单元所对应的方位刚好是主导音方位$K$时, 该时—频单元被保留; 否则, 被抑制.

$ M(i, k)=\left\{ \begin{array}{l} \overset{}1, \qquad Y_2^K(i, k) >0.1\\ 0, \qquad \mbox{其他} \\ \end{array} \right. $ (12)

其中, 方位特征序号$K$由式 (9) 所确定.由于该模型仅考虑了外界声源对听觉注意的影响, 故仅模拟了听觉的非随意注意过程.

3 实验仿真及分析

为验证本文提出模型的可行性, 我们进行了实验仿真.本文采用声源信号与头相关响应函数 (Head related impulse response, HRIR) 卷积来模拟自由场中的双耳信号, HRIR表达了头部、耳廓、躯干等生理结构对声波的滤波作用[20].实验采用的HRIR数据来自加州大学Davis分校CIPIC实验室测量的3号头模[21], 且不考虑距离对听者定位的影响. —90$^\circ$、0$^\circ$、90$^\circ$分别表示声源在听者的正右侧、正前方、正左侧.

BP神经网络的训练数据和参数设置如下:首先, 将听者的正前方等分为25个方位, 由CIPIC实验室提供的3号头模数据抽取这25个方位的HRIR数据; 然后, 以白噪声为声源, 和相应HRIR卷积得到无噪情况的左右耳信号, 接着按照第2.3.1节、第2.3.2节方法提取参数, 将其作为网络训练的理想数据.另外对无噪的左右耳信号叠加一定信噪比的白噪声作为训练数据, 仿真实验中带噪数据的信噪比为10 dB.本文实验中网络最大训练次数设置为5 000次, 目标误差为0.01, 训练时学习速率为0.3.

实验1. 本实验构造了一段人工混合信号, 采样率为8 kHz, 其中信号1由两个频率恒定正弦波构成, 频率分别是0.5 kHz、1 kHz, 持续时间为0$ \sim $9 s, 方向为30$^\circ$; 信号2由两个线性调频“×”型信号构成, 频率从2 kHz到3.5 kHz以500 Hz/s线性变化, 持续时间分别是1$ \sim $4 s, 5$ \sim $8 s, 方向为—30$^\circ$.在1$ \sim $4 s时段, 信号2与信号1的功率之比为16 : 1, 而在5$ \sim $8 s时段, 信号2与信号1的功率之比为1 : 16, 其语谱图及实验结果如图 5所示.

图 5 人工信号仿真结果 Figure 5 Simulation results of the artiflcial signal

实验采用的方位特征观察窗长$L$为20帧, 遗忘因子$\beta$为0.9, 通过本文听觉注意模型计算结果如图 5 (b)$ \sim $(e) 所示.其中图 5 (b) 为混合信号的帧级方位特征图, 图 5 (c) 为混合信号方位特征显著图, 图 5 (d) 为混合信号各时段的主导音方位, 图 5 (e) 为本文模型提取的主导音语谱图.

观察图 5 (a) 知, 0$ \sim $1 s、4$ \sim $5 s以及8$ \sim $9 s时段只存在信号1, 图 5 (d) 显示对应时段提取的主导方位就是信号1的方位; 1$ \sim $4 s、5$ \sim $8 s时段, 信号1 (方向30$^\circ$) 和信号2 (方向—30$^\circ$) 同时并存, 从图 5 (c) 观察到在1$ \sim $4 s时段, 因信号2比信号1显著, 模型最终只关注到信号2, 信号1相关的时—频单元被掩蔽; 反之, 在5$ \sim $8 s时段, 信号2较弱而被掩蔽.本文模型有效提取出了混合信号在各个时段的主导方位以及相应的主导音.实验结果显示任何时刻, 只有一个声音被关注, 当不同方位的信号显著度发生改变时, 关注的方位会随之改变, 以上特性均与人类的听觉选择性吻合.另外仔细观察图 5 (c) 中1$ \sim $1.5 s附近—30$^\circ$方向的声音比30$^\circ$方向声音显著, 但图 5 (d) 显示此时注意还停留在30$^\circ$方向, 并未“注意到” —30$^\circ$方向的声音, 过一段时间后, 注意才从—30$^\circ$转移到30$^\circ$; 同样在4$ \sim $4.5 s位置, 信号2早已中断, 但关注方位仍然是信号2所在方向, 这一特点与听觉的短时掩蔽效应相似.本文提出的听觉注意计算模型比较全面地反应了信号在各时段的不同方位显著度.

针对短时掩蔽效应, 改变遗忘因子$\beta$, 再次进行实验, 不同$\beta$取值情况下的主导音提取结果如图 6所示.比较图 5 (e)图 6的1$ \sim $2 s时刻可知, 遗忘因子$\beta$越小, 对新刺激越敏感, 注意目标的转移速度越快.用遗忘因子$\beta$模拟听觉对事物的敏感度, 符合人耳的听觉特性.即越是敏感的话题、越是突兀的信号, 越能及时得到注意.

图 6 遗忘因子$\beta $对主导音提取的影响 Figure 6 Efiects of forgetting factors on separating spectrogram of leading signals

实验2. 为验证实际声学环境中本文听觉注意计算模型的适用性, 我们选取了一段演讲+背景音乐+枪声进行仿真.如图 7 (a) 所示, 背景音乐持续时间为0$ \sim $10 s, 方向为30$^\circ$; 演讲声持续时间为2$ \sim $6 s, 方向为—30$^\circ$; 枪声持续时间为7$ \sim $8 s, 方向为—5$^\circ$.混合声音的语谱图如图 7 (b) 所示, 采样频率为8 kHz.

图 7 自然声学信号仿真结果 Figure 7 Simulation results of natural acoustic signals

本实验采用的方位特征观察窗长$L$为20帧, 遗忘因子$\beta$为0.9, 利用本文注意计算模型得仿真结果如图 7 (c)$ \sim $(f) 所示.其中图 7 (c) 为混合声源信号的帧级方位特征图, 图 7 (d) 为混合声源的方位特征显著图, 图 7 (e) 为本文模型计算的主导方位, 图 7 (f) 为根据主导方位提取的主导音语谱图.如图 7 (b) 所示, 背景音乐、演讲以及枪声的频谱完全重叠在一起, 无法直接区分各个信号.在图 7 (a) 中1$ \sim $2 s、6$ \sim $7 s、8$ \sim $10 s只有背景音乐, 对应的在图 7 (e) 中显示音乐所在的30$^\circ$方向就成了注意方位.接着在2$ \sim $6 s这段时段内, 来自—30$^\circ$方向的演讲响起, 因其比背景音乐显著而得到关注.背景音乐的信号能量在0.5 kHz$ \sim $2.5 kHz区间相对集中, 比较图 7 (b)图 7 (f) 可以看到背景音乐相关的时频单元被成功滤除, 仅保留了演讲相关的时—频单元.最后在7$ \sim $8 s位置, 因枪声短时能量突变以及高频信号能量激增, 使得其在声学环境中显得非常“突兀”, 使其立即成为注意目标.本文模型成功提取了混合信号中的主导音方位及其主导音, 每一个时刻“注意”仅关注一个声音.另外6 s左右演讲者已停止说话, 图 7 (e) 显示“注意”仍停留在演讲者所在方向, 一段时间后才逐渐转移到背景音乐的方向, 这一特性与人类听觉的“滞后掩蔽效应”一致.

实验3. 为验证模型在噪声环境中的适用性, 将实验二的混合信号再混入一定信噪比 (Signal noise ratio, SNR) 的白噪声进行仿真实验, 其余实验步骤和实验条件均与实验二相同.当信噪比为10 dB时仿真结果如图 8所示.

图 8 带噪混合声的仿真结果 (SNR = 10 dB) Figure 8 Simulation results of the mixed signal in noise (SNR = 10 dB)

图 8 (a) 所示, 混合信号加入白噪声后, 演讲声和背景音乐的部分信号被噪声“淹没”.不过从图 8 (b) 可以看到除了9$ \sim $10 s附近信号强度较弱, 被噪声干扰无法判断出正确的主导方位外, 其余时段均成功提取出主导音方位, 保持了良好的方位显著性检测.这说明本文提出的注意模型具有一定的抗噪能力.

以无噪情况下得到的主导方位为基准, 定义主导方位提取的有效性, 以此反映噪声情况下模型的性能:

$ \text{有效性}=\frac{N_e}{N}\times100 \% $ (11)

式中, $N$为无噪情况下成功提取出主导音方位的信号总帧数, $N_e$为噪声情况下提取的有效主导音方位帧数, 即带噪情况与无噪情况提取的主导音方位一致的信号帧数.改变混合信号的信噪比进行多次实验, 得到不同信噪比情况下主导方位提取的有效性如图 8 (d) 所示.当信噪比越来越高时, 越容易提取出有效的主导方位; 反之, 信噪比很低时, 主导方位的提取因噪声影响而出现错误.信噪比低至8 dB时, 提取的主导方位有效性也可达90 %以上.

实验4. 为验证模型在混响环境中的适用性, 进行了如下实验.

存在混响的室内声场中, 定义室内声源到双耳的脉冲响应为双耳房间脉冲响应 (Binaural room impulse response, BRIR), 它描述了生理结构和周围环境对声波的综合滤波作用[22-23]. CIPIC库只提供了消声室环境的HRIR数据, 并未提供混响环境的BRIR数据, 所以暂无法直接根据实际的BRIR进行实验.分析可知, 混响让BRIR和HRIR有了差异, 声学环境不同, 声源和双耳在室内空间位置不同都会造成差异的不同, 实验中我们用随机信号来表示这种差异.将HRIR叠加不同信噪比的高斯白噪声作为混响环境的BRIR, 将声源信号和BRIR卷积来模拟混响环境的双耳信号, 其余实验步骤和实验条件均与实验2相同.当HRIR改变量为10 dB时, 仿真结果如图 9所示.

图 9 混响环境中混合声的仿真结果 Figure 9 Simulation results of the mixed signal in reverberation

比较图 7 (e)图 9 (a) 可发现, 即使在有“混响”的室内环境中, 模型仍可成功提取混合信号的主导音方位, 保持了良好的方位显著性检测.而在目标信号分离阶段, 图 9 (b) 显示仅在低频段 (0 $\sim$ 0.3 kHz) 有少部分信号未能准确提取.以自由场HRIR为基准, 改变HRIR进行多次实验.当HRIR改变量达到7 dB时, 提取的主导音有效时频单元也可达90 %以上.说明本文提出的注意计算模型也适用于混响环境.

4 结论

本文基于方位特征提出了一种双通路信息处理的自下而上听觉注意模型, 在结构和功能上模拟了听觉注意神经元信息处理机制, 讨论了遗忘因子、噪声、混响对模型计算结果的影响.与一般认知双通路模型不同的是, 本文提出的听觉双通路模型主要是用于模拟听觉系统的选择性注意机制, 即借助声源方位信息完成声音内容的选择性提取.经典听觉显著度计算模型一般采用强度、频率、时间对比度等简单时频特征计算显著图, 实现声音内容的初步分析, 但无法区分不同的听觉对象, 仅能提供不同时段信号的显著性, 不能指向某个显著声音流作为听觉目标.而本文模型可动态指示出最值得关注的目标声音方向, 突破了传统盲源分离算法或计算声场景分析方法中需要人工设定分离目标的限定.在自然声场中, 本模型能有效追踪混合信号的主导方位变化并提取各时段的主导音, 降低和抑制了非关注信号的强度, 提高了关注信号的抗干扰能力.模型较好地模拟了人类听觉系统的双通路信息处理机制、选择性注意机制、注意转移机制等.

虽然我们构想的完整听觉注意模型考虑了多个声学特征以及记忆对听觉选择性注意的作用, 但因篇幅限制, 本文构建的听觉注意模型仅考虑了声源空间方位对听觉注意的贡献, 且为一种自下而上处理模型.听觉信息处理是由局部特征逐渐过渡到全局特征.在今后的研究中, 可进一步考虑时间、频率、强度、方位等多因素综合特征对听觉选择性注意的影响.

参考文献
1 Luo Yue-Jia, Wei Jin-Han. Attentive Research and Cognitive Neuroscience. Beijing: Higher Education Press, 2004: 27-47.
( 罗跃嘉, 魏景汉. 注意的认知神经科学研究. 北京: 高等教育出版社, 2004: 27-47. )
2 Pylkkonen J. Towards Efficient and Robust Automatic Speech Recognition:Decoding Techniques and Discriminative Training[Ph.D. dissertation], Aalto University, Finland, 2013
3 Liu Wen-Ju, Nie Shuai, Liang Shan, Zhang Xue-Liang. Deep learning based speech separation technology and its developments. Acta Automatica Sinica, 2016, 42 (6): 819–833.
( 刘文举, 聂帅, 梁山, 张学良. 基于深度学习语音分离技术的研究现状与进展. 自动化学报, 2016, 42 (6): 819–833. )
4 Duan Yan-Jie, Lv Yi-Sheng, Zhang Jie, Zhao Xue-Liang, Wang Fei-Yue. Deep learning for control:the state of the art and prospects. Acta Automatica Sinica, 2016, 42 (5): 643–654.
( 段艳杰, 吕宜生, 张杰, 赵学亮, 王飞跃. 深度学习在控制领域的研究现状与展望. 自动化学报, 2016, 42 (5): 643–654. )
5 Kayser C, Petkov C I, Lippert M, Logothetis N K. Mechanisms for allocating auditory attention:an auditory saliency map. Current Biology, 2005, 15 (21): 1943–1947. DOI:10.1016/j.cub.2005.09.040
6 Kalinli O, Narayanan S S. A saliency-based auditory attention model with applications to unsupervised prominent syllable detection in speech. In:Proceedings of the 8th Annual Conference of the International Speech Communication Association. Antwerp, Belgium:Interspeech, 2007. 1941-1944
7 De Coensel B, Botteldooren D. A model of saliency-based auditory attention to environmental sound. In:Proceedings of the 20th International Congress on Acoustics. Sydney, Australia:International Congress on Acoustics, 2010. 1-8
8 Kaya E M, Elhilali M. A temporal saliency map for modeling auditory attention. In:Proceedings of the 46th Annual Conference on Information Sciences and Systems. Princeton, USA:IEEE, 2012. 1-6
9 Liu Yang, Zhang Miao-Hui, Zheng Feng-Bin. Cognitive neural mechanisms and saliency computational model of auditory selective attention. Computer Science, 2013, 40 (6): 283–287.
( 刘扬, 张苗辉, 郑逢斌. 听觉选择性注意的认知神经机制与显著性计算模型. 计算机科学, 2013, 40 (6): 283–287. )
10 Bizley J K, Cohen Y E. The what, where and how of auditory-object perception. Nature Reviews Neuroscience, 2013, 14 (10): 693–707. DOI:10.1038/nrn3565
11 Roman N, Wang D L, Brown G J. Speech segregation based on sound localization. The Journal of the Acoustical Society of America, 2003, 114 (4): 2236–2252. DOI:10.1121/1.1610463
12 Friederici A D, Singer W. Grounding language processing on basic neurophysiological principles. Trends in Cognitive Sciences, 2015, 19 (6): 329–338. DOI:10.1016/j.tics.2015.03.012
13 Kayser C, Wilson C, Safaai H, Sakata S, Panzeri S. Rhythmic auditory cortex activity at multiple timescales shapes stimulus-Response gain and background firing. Journal of Neuroscience, 2015, 35 (20): 7750–7762. DOI:10.1523/JNEUROSCI.0268-15.2015
14 Li Wan-Yi, Wang Peng, Qiao Hong. A survey of visual attention based methods for object tracking. Acta Automatica Sinica, 2014, 40 (4): 561–576.
( 黎万义, 王鹏, 乔红. 引入视觉注意机制的目标跟踪方法综述. 自动化学报, 2014, 40 (4): 561–576. )
15 Henry M J, Herrmann B, Obleser J. Selective attention to temporal features on nested time scales. Cerebral Cortex, 2015, 25 (2): 450–459. DOI:10.1093/cercor/bht240
16 Wang W J, Wu X H, Li L. The dual-pathway model of auditory signal processing. Neuroscience Bulletin, 2008, 24 (3): 173–182. DOI:10.1007/s12264-008-1226-8
17 Qu T, Xiao Z, Gong M. Distance-dependent head-related transfer functions measured with high spatial resolution using a spark gap. IEEE Transactions on Audio, Speech, and Language Processing, 2009, 17 (6): 1124–1132. DOI:10.1109/TASL.2009.2020532
18 Cheng C I, Wakefield G H. Introduction to head-related transfer functions (HRTFs):representations of HRTFs in time, frequency, and space. In:Proceedings of the 107th Convention of the Audio-Engineering-Society. Ann Arbor, USA:University of Michigan, 2001. 231-248
19 Zhang J P, Nakamoto K T, Kitzes L M. Modulation of level response areas and stimulus selectivity of neurons in cat primary auditory cortex. Journal of Neurophysiology, 2005, 94 (4): 2263–2274. DOI:10.1152/jn.01207.2004
20 Jin C, Schenkel M, Carlile S. Neural system identification model of human sound localization. The Journal of the Acoustical Society of America, 2000, 108 (3): 1215–1235. DOI:10.1121/1.1288411
21 Algazi V R, Duda R O, Thompson D M, Avendano C. The CIPIC HRTF database. In:Proceedings of the 2009 IEEE Workshop on the Applications of Signal Processing to Audio and Acoustics. New Platz, USA:IEEE, 2001. 99-102
22 Catic J, Santurette S, Dau T. The role of reverberation-related binaural cues in the externalization of speech. The Journal of the Acoustical Society of America, 2015, 138 (2): 1154–1167. DOI:10.1121/1.4928132
23 Hassager H G, Gran F, Dau T. The role of spectral detail in the binaural transfer function on perceived externalization in a reverberant environment. The Journal of the Acoustical Society of America, 2016, 139 (5): 2992–3000. DOI:10.1121/1.4950847