2. 国网北京市电力公司, 北京 100031;
3. 北京邮电大学 计算机学院, 北京 100876
通过分析移动通信电路域语音信道的结构特点,提出了一种适用于移动通信电路域信道的抗语音声码器断续传输(DTX)处理和有损压缩的语音信息隐藏算法.选择经语音端点检测判决为浊音帧的有效语音信号进行3级小波分解,选择第3级小波细节系数做快速傅里叶变换(FFT)后,在表征频带0.5~1 kHz的FFT系数上根据听觉掩蔽理论对秘密信息进行量化抖动调制嵌入,实现秘密信息在语音中的隐藏.实验结果表明,该算法模型在10 bit/s上限容量时,携密语音质量评价分数高于3.48,经过全球移动通信系统增强型全速率声码器的DTX技术处理、有损压缩以及信道中存在的其他干扰后,误码率保持在0.06左右.
2. State Grid Beijing Electric Power Company, Beijing 100031, China;
3. School of Computer Science, Beijing University of Posts and Telecommunication, Beijing 100876, China
Based on analysis of circuit-switched mobile channels, an algorithm for speech information hiding was proposed, which is robust for the speech vocoder discontinuous transmission (DTX) mechanism and the lossy compression. The algorithm performs 3-level discrete wavelet transform decomposition on the voiced speech frames decided by voice activity detector, and selects the 3rd level detail coefficients to implement fast Fourier transform(FFT). By means of the auditory masking theory, the rational dither modulation is used to embed the secret data on FFT coefficients within the frequency band of 0.5~1 kHz. The experimental results show that the Perceptual evaluation of speech quality score of stego speech is higher than 3.48, and the bit error rate is about 0.06 under the interference of DTX of the global system for mobile communication enhanced full rate vocoder, the lossy compression and some other attacks in the channels.
基于语音的信息隐藏一直是信息安全领域的研究热点[1-2],按照语音通信方式的不同可分为基于互联网协议电话的隐藏和基于移动通信语音电路域交换业务的隐藏.基于互联网协议电话的隐藏研究多围绕声码器展开,这些方法通过对声码器的结构或编码码流进行修改能取得较大的嵌入容量[3].移动通信语音电路域交换信道因其稳定的通信质量和较低的通信延迟成为语音通信中实时信息隐藏的天然信道.在基于移动通信语音电路域的隐藏研究中,Ahani等[4]采用离散小波变换(DWT, discrete wavelet transform)结合稀疏分解实现信息在语义层次上的隐藏,有效提高了携密语音的不可感知性;Kazemi等[2]研究抗自适应多速率12.2 kbit/s编码速率的改进型扩频隐藏方法,取得了较好的抗有损压缩性能,但容量较小;Rekik等[5]通过替换DWT和快速傅里叶变换(FFT, fast Fourier transform)后的高频系数实现语音参数的隐藏.这些传统的基于对语音载体在时域或变换域做修改实现隐藏的方法并没有考虑实际语音通信信道的特性,除了改进型扩频法以外大都不能抵抗声码器中断续传输(DTX, discontinuous transmission)技术对提取端误码率的影响,对声码器的有损压缩鲁棒性也表现不佳.
不可感知性、不可检测性、鲁棒性和嵌入容量是语音信息隐藏算法常用的4个评价指标.不可感知性作为基本指标表示携密语音与原始载体语音相比没有引入人耳听觉上的失真.不可检测性表征算法抗隐写分析的强度,目前主流的隐写分析方法有倒谱系数、支持向量机以及动态贝叶斯网络等[6-7],基本原理是通过设计各种分类器来实现对原始语音和携密语音的区分.鲁棒性表示算法抵抗各种常见数字信号处理技术攻击的健壮性.容量则用于衡量载体语音所能隐藏秘密信息的多少,常用每秒传送位数(bit/s)表示.
在基于移动通信语音电路域信道的信息隐藏研究中,信道环境的高复杂性使得降低秘密信息的提取误码率成为研究的重点和难点,因此鲁棒性(这里表现为抵抗信道中各种干扰的性能)是除了不可感知性之外衡量该应用场景下算法性能的重要指标.限于篇幅,将围绕不可感知性和鲁棒性的提高展开讨论,分析移动通信语音电路域交换信道对语音的传输处理机制,充分考虑抗增益干扰、加性高斯白噪声干扰、全球移动通信系统(GSM, global system for mobile communication)增强型全速率(EFR, enhanced full rate)声码器DTX技术和有损压缩等鲁棒性要求,在此基础上提出基于语音端点检测-DWT-FFT(VAD-DWT-FFT, voice activity detector-DWT-FFT)的新型信息隐藏与提取模型,并根据人耳听觉掩蔽理论和秘密信息对语音0.5~1 kHz频带的能量进行量化抖动调制(RDM, rational dither modulation).实验结果表明,所提出的隐藏模型在嵌入容量上限为10 bit/s时,携密语音感知质量评价(PESQ, perceptual evaluation of speech quality)分数达到3.48以上,同时保持误码率在0.06左右.
1 信道特性分析及算法介绍 1.1 电路域信道特点与DTX技术如图 1所示,移动通信语音电路域交换信道中,语音从传输到接收的完整过程可简化为手机A—基站A—移动交换中心A—移动交换中心B—基站B—手机B这一框架.
进一步分析得到图 2所示的移动通信语音电路域传输信道结构,其中手机包括模块1模数/数模(AD/DA, analog digital/digital analog)转换器和模块2语音转码器及检测器,模块1实现模拟语音和脉冲编码调制(PCM, pulse code modulation)格式数字语音的相互转换,而模块2则实现PCM格式的数字语音和声码器压缩编码格式码流的相互转换.对于发送端,手机将声码器压缩编码后的码流经天线射频发送给基站系统,在接收端则通过天线接收基站系统传输的待声码器解压缩的码流.值得注意的是,模块2中采用了DTX技术,对经VAD判决后标识为有效语音帧的PCM格式数字语音做声码器压缩并正常传输,而对噪声帧和静音帧仅简单提取能表征能量和谱结构的参数进行DTX.
手机对语音的处理过程要求信息隐藏提取算法模型能有效抵抗AD/DA转换、采样、量化、增益改变以及GSM EFR声码器DTX技术和有损压缩的干扰.语音声码器中的DTX技术决定了噪声帧和静音帧中的语音无法作为隐藏载体.这意味着隐藏端需要有效语音的判决机制来选择能兼容声码器DTX技术的有效语音帧位置进行秘密信息隐藏.基站系统由模块3四线数字传输系统、模块4语音转码器及检测器和模块5四线模拟或数字传输系统组成,移动交换中心则主要包括模块6电子回声控制设备.模块3、模块5和模块6可认为是语音传输的主要路由,会带来通信中语音的音量改变和回声叠加问题;模块4同模块2原理一致,两者配合实现语音信号的声码器编解码.基站系统和移动交换中心对通信语音的处理要求信息隐藏提取算法模型除了能抵抗手机所带来的干扰类型外,还需对回声具有一定的健壮性.
1.2 DWTDWT是分析语音这类非平稳信号的有效技术. DWT具有多分辨率的特性,每一级的DWT都能将对应频带的信号分解为低频和高频2个子带信号,并分别称为近似系数和细节系数:
$\begin{eqnarray} C^{K}(i)=∑\limits^{J_{ω}-1}_{j=0}h(j-2i)C^{K-1}(j) \end{eqnarray}$ | (1) |
$\begin{eqnarray} D^{K}(i)=∑\limits^{J_{ω}-1}_{j=0}g(j-2i)D^{K-1}(j) \end{eqnarray}$ | (2) |
其中:
根据听觉掩蔽理论[8],只要秘密信息嵌入后对原始载体语音所造成的能量失真小于掩蔽阈值,则携密语音不会带来人耳听觉感知的异常.选择频带的中心频率值
$\begin{eqnarray} &z_{\text{rep}}=13\text{arctan} (0.000 76f_{\text{rep}})+\\ &3.5\text{arctan} ((f_{\text{rep}}/7 500)^{2}) \end{eqnarray}$ | (3) |
由此可得到听觉掩蔽阈值的估计值为
$\begin{eqnarray} a(z_{\text{rep}})=λa_{\text{tmn}}(z_{\text{rep}})+(1-λ)a_{\text{nmn}}(z_{\text{rep}}) \end{eqnarray}$ | (4) |
其中:
$\begin{eqnarray} E_{\text{Δ}}=10^{\frac{a_{\text{tmn}}(z_{\text{rep}})}{10}}E_{\text{ori}} \end{eqnarray}$ | (5) |
根据移动通信系统中声码器对输入语音的处理机理,提出适用于移动通信语音电路域信道的VAD-DWT-FFT隐藏和提取算法模型,如图 3所示.
采用VAD判决算法的目的是从语音流中挑选出可用于信息隐藏的有效语音帧,实现秘密信息对声码器DTX技术良好的通透性. VAD判决算法的设计可分为2种思路,表示为式(6)和式(7).
$\begin{eqnarray} \{\text{x}_{VAD}\}⊂\{\text{x}_{DTX}\} \end{eqnarray}$ | (6) |
式(6)表示VAD判决算法所挑选的有效语音帧集合是声码器DTX技术判决语音帧的真子集,此方法可有多种实现方式,如简单逆滤波跟踪法和平均幅度差函数法等,设计灵活,复杂度也较低,对有效语音中的浊音具有很高的判决准确度.
$\begin{eqnarray} \{\text{x}_{VAD}\}=\{\text{x}_{DTX}\} \end{eqnarray}$ | (7) |
式(7)表示VAD判决算法所挑选的有效语音帧集合与声码器DTX技术判决的语音帧集合相等.显然,这要求VAD判决算法与DTX技术所采用的算法完全一致.相比第1种设计思路,DTX技术中的判决算法往往是多种语音检测算法的组合,能实现基音检测、音调检测和复杂信号检测等,对语音信号和噪声信号区分效果较好.
由于有效语音帧中清音的频谱结构过于简单,在清音段做隐藏会对其频谱造成明显改变,不仅语音质量下降明显,而且容易引起第三方窃密者的怀疑.所以笔者采用第1种设计思路,选择有效语音帧中的浊音帧作为实际的载体语音,能提高VAD-DWT-FFT隐藏提取模型的不可感知性能.
2.2 信息隐藏与提取算法在采用VAD判决算法对载体语音进行预处理,获得对抗信道中声码器DTX技术的鲁棒性后,信息隐藏提取模型的设计关键在于解决声码器混合编码方式所带来的有损压缩问题.声码器混合编码的本质是提取语音的特征参数(基频、共振峰等)进行传输,在经过完整的声码器编解码恢复原始语音后,语音的基频能量及其谐波结构保持较好.经过大量的样本实验发现,上述理论分析表现为对于0.1~2 kHz频段内的信号能量和频谱结构,在声码器处理前后差异不大.
根据这一原理及实验结果,将待传输的秘密信息嵌入载体语音的0.5~1 kHz频带能量上(见图 3),对VAD判决为有效语音的帧执行三级DWT,选择第3级的细节系数
针对这一问题,对细节系数
RDM作为量化索引调制的改进方法,具有很好的抵抗固定增益攻击的特性[10].考虑到语音通话信道中存在如手机接听音量调节、线路增益等诸多类型的增益攻击对携密语音的影响,采用了RDM法对VAD-DWT-FFT处理后的频带进行秘密信息嵌入操作.具体执行RDM时根据人耳的听觉掩蔽效应来自适应调整量化步长.
频带能量可表示为
$\begin{eqnarray} E_{k}=∑\limits^{\frac{L}{N}}_{i=0}f_{i}(d) \end{eqnarray}$ | (8) |
其中:
对能量进行量化后,最大的能量失真小于等于量化步长的一半,利用1.3节所述掩蔽阈值与能量改变的关系可得量化步长为
$\begin{eqnarray} \varDelta_{k}=2\left(\frac{1}{L_{\text{buf}}}∑\limits^{L_{\text{buf}}}_{i=1}\hat{E}_{k-i}\right)×10^{\frac{a(z_{\text{rep}})-α}{10}} \end{eqnarray}$ | (9) |
其中:
此时根据秘密信息
$\begin{eqnarray} \hat{E}_{k}=\left\{ \begin{array}{l} \text{floor}\left(\frac{E_{k}}{\varDelta_{k}}+0.5\right)\varDelta_{k},~~b_{k}=1\\ \text{floor}\left(\frac{E_{k}}{\varDelta_{k}}\right)\varDelta_{k}+\frac{\varDelta_{k}}{2},~~b_{k}=0 \end{array} \right. \end{eqnarray}$ | (10) |
对应的FFT系数量化值为
$\begin{eqnarray} \hat{f}_{i}(d)=\sqrt{\frac{\hat{E}_{k}}{E_{k}}}f_{i}(d),~~ i=0,1,…,\frac{L}{N} \end{eqnarray}$ | (11) |
考虑到FFT系数在数值上具有共轭对称特性,用conj()表示取共轭操作,则在通过式(11)对
$\begin{eqnarray} \hat{f}_{i}(N+2-d)=\text{conj}(\hat{f}_{i}(d)),~~ i=0,1,…,\frac{L}{N} \end{eqnarray}$ | (12) |
完成FFT系数的量化处理后,执行FFT逆变换(IFFT, inverse FFT)和DWT逆变换(IDWT, inverse DWT),得到携密语音信号.在通信接收端对携密语音分析提取秘密信息的过程如图 3所示,执行与隐藏过程类似的VAD-DWT-FFT提取方案,此时提取的秘密信息可表示为
$\begin{eqnarray} b′_{k}=\left\{ \begin{array}{l} 0,&\left|\frac{E′_{k}}{\varDelta′_{k}}-\text{floor}\left(\frac{E′_{k}}{\varDelta′_{k}}\right)-0.5\right|≤0.25\\ 1,&其他 \end{array} \right. \end{eqnarray}$ | (13) |
其中:
提出的VAD-DWT-FFT模型重点解决在移动通信的语音信道中应用信息隐藏算法所遇到的高误码率挑战.采用VAD算法选择浊音帧进行隐藏,通过牺牲一定的嵌入容量来对抗语音信道中声码器的DTX技术处理.在语音的0.5~1 kHz频带隐藏,以此抵抗声码器有损压缩对秘密信息的干扰.采用RDM作为嵌入方式来获得对信道中固定增益干扰的鲁棒性.
VAD-DWT-FFT以一个VAD帧作为1 bit信息的隐藏单元,在信道环境恶劣的情况下,可以通过使用
$\begin{eqnarray} C=\frac{每秒浊音帧数}{每秒总语音帧数}×\frac{f_{\text{s}}}{L}×\frac{1}{Y} ) \end{eqnarray}$ | (14) |
为了对所提出的VAD-DWT-FFT信息隐藏提取模型做不可感知性、鲁棒性测试.选择了DWT-FFT-幅度替换法(DWT-FFT-MR, DWT-FFT-magnitude replace)[5]、DWT-离散余弦变换(DWT-DCT, DWT-discrete cosine transform)[11]和改进的扩频-M元双正交广义最大似然法(ISS-MGML, improved spread spectrum-m-ary bi-orthogonal generalised maximum likelihood) [2]进行对比评估实验.选择DWT-FFT-MR做对比是因为DWT-FFT-MR方法和所提方法都是基于DWT域的隐藏方法,区别在于DWT-FFT-MR方法对载体语音分帧后做一级DWT分解,并对细节系数进行FFT分析,通过直接替换FFT高频系数的幅度值来实现秘密信息的隐藏;而所提方法则先对语音进行VAD判决,挑选出浊音帧作为真正的载体语音,对浊音帧做3级DWT,再根据声码器对语音的处理特性,选择第3级的细节系数做FFT,最后根据听觉掩蔽理论将秘密信息通过RDM方式嵌入到表征0.5~1 kHz频带的FFT系数的能量上. DWT-DCT是基于DWT域的经典音频水印算法. ISS-MGML是一种应用于保密通信的改进型扩频隐藏法,具有对抗自适应多速率声码器12.2 kbit/s有损压缩的良好鲁棒性,故也被选为实验的对比对象之一.实验包括不可感知性分析与评价、抗信道攻击(GSM声码器的DTX技术及有损压缩处理、固定增益攻击、加性高斯白噪声)的误码率性能评价.实验环境及实验参数设定如下.
硬件环境:Intel(R) Core(TM) i3-4130 CPU@3.4G Hz 4.00 GB RAM,软件环境:Microsoft Windows 7旗舰版、Matlab R2010b,载体语音选取TIMIT语料库中采样率为16 kHz、6 bit量化的WAV格式语音,对语音做降采样处理,使采样率转换为
实验参数:VAD-DWT-FFT模型中各参数选取为
ITU-T P.862.3提供了PESQ语音评价方法进行语音客观质量的测评.本实验将秘密信息分别经过DWT-FFT-MR、DWT-DCT、ISS-MGML、VAD-DWT-FFT 4种方法嵌入8段载体语音中生成携密语音.对携密语音和原始载体语音做PESQ得到测试结果如表 1所示. 表 1中的PESQ测试数据表明,VAD-DWT-FFT方法的PESQ分数平均为3.487,与DWT-FFT-MR和DWT-DCT方法生成的携密语音质量相当,比ISS-MGML方法高0.373,具有良好的不可感知性.
为评估所提出方法在信道中所存在的声码器有损压缩、增益攻击和高斯噪声干扰下的整体误码率性能,对DWT-FFT-MR、DWT-DCT、ISS-MGML和VAD-DWT-FFT方法做3类干扰测试.第Ⅰ类为信道中存在的固定增益和高斯白噪声干扰,设置参数为3 dB增益干扰+加性高斯白噪声干扰(信噪比为30 dB).第Ⅱ类为GSM EFR声码器有损压缩+DTX技术干扰,目的在于分析4种方法对声码器有损压缩和DTX技术的鲁棒性.第Ⅲ类为GSM EFR声码器有损压缩+DTX技术干扰+3 dB增益干扰+加性高斯白噪声干扰(信噪比为30 dB).第Ⅲ类干扰包含第Ⅰ类和第Ⅱ类干扰,更接近于真实信道的环境.
从表 2中可看出,4种方法对于第Ⅰ类干扰表现均较好;对于第Ⅱ类干扰,VAD-DWT-FFT方法和ISS-MGML方法在GSM-EFR声码器干扰下表现良好,能保持低于0.05的误码率,而DWT-FFT-MR和DWT-DCT方法对声码器干扰的鲁棒性较差;在更复杂的第Ⅲ类信道环境中,DWT-FFT-MR和DWT-DCT方法因过高的误码率已经失去在移动通信语音电路域信道中进行信息隐藏的实用价值,ISS-MGML方法保持着和第Ⅱ类信道环境中一样的误码率,VAD-DWT-FFT方法的性能略有下降,但仍维持在0.06左右,与ISS-MGML仅有0.013的差距.
不可感知性实验和抗信道干扰实验结果表明,在VAD-DWT-FFT方法的PESQ分数与DWT-FFT-MR相当,且优于ISS-GMGL方法的情况下,VAD-DWT-FFT方法相比传统的变换域方法(DWT-FFT-MR)在抗声码器干扰(有损压缩及DTX技术处理)性能上有明显提升,在复杂信道环境下(第Ⅲ类),误码率性能和ISS-MGML方法相当,具有较高实用价值.
为进一步分析VAD-DWT-FFT方法中嵌入容量与抗信道干扰能力的关系,选择的信道干扰类型为第Ⅲ类,携密语音PESQ分数平均值在3.487左右,得到不同嵌入容量条件下误码率性能变化曲线,如图 4所示.通过图 4中信息提取误码率与嵌入容量的变化曲线可以看出,在嵌入容量为10 bit/s时,误码率在0.06左右;随着嵌入容量的减小,误码率也有所下降;在嵌入容量减小至2 bit/s时,信息提取的误码为0,整个隐蔽通信过程能保证信息无失真传输.
计算复杂度包括时间复杂度和空间复杂度,在实时的语音信息隐藏应用场景中,时间复杂度是算法实用性评价的重要指标.采用嵌入时间(EMT, embedding time)和提取时间(EXT, extracting time)2个指标进行时间复杂度评价[12].由抗信道干扰实验可知,DWT-FFT-MR方法不适用于笔者所研究的应用场景.因此在表 1的实验环境下,仅对VAD-DWT-FFT和ISS-MGML方法的计算复杂度进行测试并比较,得到结果如表 3所示.
从表 3中可以发现,对于8段20 s时长的测试语音,VAD-DWT-FFT方法在引入VAD算法后的EMT和EXT相近,而ISS-MGML方法由于在嵌入时存在长序列的自相关矩阵计算,EMT远大于EXT.在总时间上,VAD-DWT-FFT的19.516 s远小于ISS-MGML方法的50.647 s,显然所提出的方法具有比ISS-MGML方法更低的时间复杂度.
4 结束语首先分析了移动通信电路域语音信道的结构特点,并重点研究其对语音的处理特性,为基于该信道进行语音信息隐藏的研究提供了误码率性能优化的理论基础;其次为兼容上述信道中语音声码器的DTX技术,并抵抗声码器对语音的有损压缩,提出一种基于VAD-DWT-FFT框架的新型信息隐藏和提取模型.实验结果表明,该算法模型在10 bit/s上限容量时,携密语音质量PESQ分数高于3.48,经过GSM EFR声码器的DTX技术、有损压缩以及信道中存在的其他攻击后,能保持误码率在0.06左右,算法的时间复杂度优于ISS-MGML方法.
下一步的研究工作是改进算法模型,降低误码率,提高嵌入容量,使算法在保持低误码率的同时还能适用于高嵌入容量的场景.
[1] |
白剑, 曹鹏. 语音信息隐藏容量研究[J]. 北京邮电大学学报, 2016, 39(S1): 76–80.
Bai Jian, Cao Peng. Capacity estimation research for speech information hiding[J]. Journal of Beijing University of Posts and Telecommunications, 2016, 39(S1): 76–80. |
[2] | Kazemi R, Rezaei R, Akhaee M A, et al. Covert communications through mobile voice channels[J]. IET Information Security, 2016, 10(3): 156–164. doi: 10.1049/iet-ifs.2014.0555 |
[3] | Yan Shu-fan, Tang Guang-ming, Chen Yan-ling. Incorporating data hiding into G. 729 speech codec[J]. Multimedia Tools & Applications, 2016, 75(18): 11493–11512. |
[4] | Ahani S, Ghaemmaghami S, Z. Jane Wang. A sparse representation-based wavelet domain speech steganography method[J]. IEEE/ACM Transactions on Audio Speech & Language Processing, 2015, 23(1): 80–91. |
[5] | Rekik S, Guerchi D, Selouani S A, et al. Speech steganography using wavelet and Fourier transforms[J]. Eurasip Journal on Audio Speech & Music Processing, 2012(1): 20. |
[6] | Paulin C, Selouani S, Hervet É. Audio steganalysis using deep belief networks[J]. International Journal of Speech Technology, 2016, 19(3): 1–7. |
[7] | Ghasemzadeh H, Khass M T, Arjmandi M K. Audio steganalysis based on reversed psychoacoustic model of human hearing[J]. Digital Signal Processing, 2016(51): 133–141. |
[8] | He Xing, Scordilis M S. An enhanced psychoacoustic model based on the discrete wavelet packet transform[J]. Journal of the Franklin Institute, 2006, 343(7): 738–755. doi: 10.1016/j.jfranklin.2006.07.005 |
[9] | Hu Hwai Tsu, Hsu L Y. Robust, transparent and high-capacity audio watermarking in DCT domain[J]. Signal Processing, 2015(109): 226–235. |
[10] | Hu Hwai Tsu, Hsu L Y. A DWT-based rational dither modulation scheme for effective blind audio watermarking[J]. Circuits, Systems, and Signal Processing, 2016, 35(2): 553–572. doi: 10.1007/s00034-015-0074-9 |
[11] | Wang Xiang-yang, Zhao Hong. A novel synchronization invariant audio watermarking scheme based on DWT and DCT[J]. IEEE Transaction on Signal Processing, 2006, 54(12): 4835–4840. doi: 10.1109/TSP.2006.881258 |
[12] | Wang Xinkai, Wang Pengjun, Zhang Peng, et al. A blind audio watermarking algorithm by logarithmic quantization index modulation[J]. Multimedia Tools and Applications, 2014, 71(3): 1157–1177. doi: 10.1007/s11042-012-1259-x |