像素域基于广义高斯分布的WZ帧重构方案设计
刘杰平, 何越盛, 韦岗    
华南理工大学 电子与信息学院, 广州 510640
摘要

为提高分布式视频编码系统解码WZ帧的图像质量, 提出了像素域基于广义高斯分布的WZ帧重构方案.该方案充分考虑了边信息与原始WZ帧间的相关性, 以广义高斯分布作为虚拟相关信道模型, 提高率失真性能; 用广义高斯分布做相关噪声模型, 对给定量化区间, 计算边信息已知情况下WZ的条件期望作为WZ重构值; 为了不过多地增加重构方案的复杂度, 将广义高斯分布的形状参数固定为0.5, 推导出重构WZ帧的闭式表示.实验结果表明, 基于广义高斯分布的WZ帧重构方案能有效提高率失真性能和改善重构WZ帧的图像质量.

关键词: 分布式视频编码     相关噪声模型     广义高斯分布     重构    
中图分类号:TN919.8 文献标志码:A 文章编号:1007-5321(2015)01-0103-05 DOI:10.13190/j.jbupt.2015.01.020
Design of WZ Frame Reconstruction Technology Based on Generalized Gaussian Distribution in Pixel-Domain
LIU Jie-ping, HE Yue-sheng, WEI Gang    
School of Electronic and Information Engineering, South China University of Technology, Guangzhou 510640, China
Abstract

In order to improve the image quality of the decoded WZ (Wyner-Ziv) frame in distributed video coding system, WZ frame reconstruction technology based on generalized Gaussian distribution (GGD) was proposed. The correlation between the side information and the original WZ frame was considered as well. GGD was used for virtual correlation channel model so as to improve the rate distortion (RD) performance. Meanwhile, the condition expectation of the WZ was computed as the reconstructed WZ value for the given quantization interval and the known side information in which GGD is used as correlation noise model. The shape parameter of GGD is fixed to 0.5 so that it won't add extra complexity to the reconstruction technology. The closed-form expression of the optimal reconstructed values was derived. Experiments indicate that the proposed WZ frame reconstruction technology can improve the RD performance and image quality of the decoded WZ frame.

Key words: distributed video coding     correlation noise model     generalized Gaussian distribution     reconstruction    

为了提高WZ帧的重构质量,通常需要利用边信息(SI,side information)辅助重构WZ帧. Aaron等[1]提出一种简单的直接重构算法,但该算法没有利用原始信息与边信息之间的相关性. Zhang等[2]利用像素的空间相关性辅助重构,但没有考虑视频前后帧的相关性. Liu等[3]利用前后关键帧信息进行重构,但算法只是对整帧以块的形式进行运动补偿. Kubasov等[4]提出一种最小均方误差(MMSE,minimum mean-squared error)重构算法,利用边信息与原始像素之间的相关模型计算像素的期望值作为重构值. Ji等[5]提出了两层量化区间的设计方案.笔者提出以广义高斯分布(GGD,generalized Gaussian distribution)作为相关噪声模型的WZ帧重构方案,在基本不增加解码复杂度的情况下,有效改善了重构WZ帧图像的质量,提高了率失真性能.

1 像素域分布式视频编码

像素域分布式视频编码(DVC,distributed video coding)方案如图 1所示,通常将输入的视频序列x1, x2, …, xN(N为视频序列的帧数)划分为WZ帧x2i(i=1, 2, …)和关键帧(K帧)x2i-1(i=1, 2, …),对K帧采用传统的JPEG或H.264/AVC等帧内编码;对WZ帧编码后,其校验比特存储在缓冲器中,仅传输部分校验比特到解码端,解码端通过对已解码的K帧进行运动估计、内插等得到边信息,联合传输到解码端的部分校验比特由低密度累积校验码(LDPCA,low-density parity-check accumulate)解码器译码.如果译码成功,输入到重建模块,重构出WZ帧; 否则,向缓冲器请求传输更多的校验比特到解码端,直至LDPCA译码成功.

图 1 分布式视频编码框图

图 1可见,解码重构WZ帧图像的质量与LDPCA解码器、生成SI的帧内插模块、相关噪声模型和重建4个模块有关.在LDPCA译码纠错能力确定的情况下,LDPCA能否译码成功与2个因素有关:校验比特位的多少及“相关噪声模型1”的准确性.这2个因素不是独立的,当“相关噪声模型1”足够精确时,只需要较少的校验比特位,反之需要较多的校验比特位,“相关噪声模型1”的精确程度直接影响DVC的码率.另一方面通过解码输出Q2i逼近Q2i的程度间接影响峰值信噪比(PSNR,peak signal-to-noise ratio).当“相关噪声模型1”和SI足够精确时,Q2i=Q2i,此时,解码WZ帧的图像质量完全取决于重建算法的好坏.笔者研究了Laplacian分布和GGD作为相关噪声模型时对率失真性能和解码WZ的图像质量的影响.

2 相关噪声模型

通常称原始WZ帧x2i与边信息y2i之间的残差为相关噪声n=x2i-y2i,一般认为,该相关噪声模型满足Laplacian分布.然而,Laplacian分布并不是拟合相关噪声最好的一种分布.研究表明,高斯分布拟合相关噪声的能力比Laplacian分布差;GGD拟合相关噪声的能力比Laplacian分布更强[6].均值为0的GGD为

(1)

其中:

Γ(·)是伽马函数,;参数σ2αβ分别为GGD的方差、形状参数和尺度参数.高斯分布、Laplacian分布分别为GGD形状参数为2和1时的特例,形状参数决定GGD函数的衰减速度.以GGD为相关噪声模型时需要估计3个参数,GGD的参数估计方法比Laplacian分布复杂.

图 2所示为σ2=400时,形状参数分别为0.70、0.50和0.38时的GGD概率密度.由图 2可见,当形状参数为0.5时,GGD的概率密度既不会有很高的尖峰,又不会收敛过慢.

图 2 3种形状参数的GGD概率密度

图 3所示为对视频序列Soccer第8帧相关噪声分别采用Laplacian分布和GGD(其中的形状参数设为0.5) 作为相关噪声模型的拟合结果.由图 3可见,GGD虽然在零值附近具有较高的尖峰,但其余部分能更好地拟合实际噪声分布;而Laplacian分布(GGD的形状参数为1的分布)峰值低于实际噪声分布,且尾部收敛缓慢,与实际噪声分布存在较大差距.综合分析图 2图 3可以得出,GGD形状参数为0.5时拟合相关噪声的能力比Laplacian分布强,但它不是最佳的GGD相关噪声模型,可以预测,GGD最佳相关噪声模型的形状参数介于0.5与1之间.为了兼顾相关噪声的拟合效果和GGD参数估计的复杂度,将GGD分布的形状参数固定为0.5.

图 3 Soccer序列第8帧相关噪声的拟合效果

在不考虑原始信息与边信息之间的相关性时,即图 1中不采用“相关噪声模型2”模块,对LDPCA解码器输出的量化值采用文献[1]的直接重构算法,“相关噪声模型1”分别采用Laplacian分布和GGD(其中的形状参数设为0.5) 情况下,相关噪声模型对图 1编码系统的率失真性能的影响如图 4所示,图中“Frame”和“Block”分别表示帧级和块级(32×32) 相关噪声模型参数估计.由图 4可见,同一相关噪声模型比较,采用Laplacian分布为相关噪声模型时,块级分布的率失真性能好于帧级的,这是因为参数估计的粒度越小,相关噪声拟合得越准确;采用GGD为相关噪声模型时,帧级分布的率失真性能好于块级的. 2种相关噪声模型比较,无论帧级还是块级参数估计,GGD为相关噪声模型时DVC系统的率失真性能都比采用Laplacian分布的性能有较大提高,这是因为GGD拟合相关噪声的能力比Laplacian分布更强.

图 4 2种相关噪声模型的率失真性能(Soccer序列)
3 基于GGD的WZ帧重构方案

文献[4]的MMSE算法对文献[1]的直接重构算法进行了改进,该算法考虑了SI与原始WZ帧的相关性,认为图 1中的相关噪声模型1和相关噪声模型2均满足Laplacian分布,对LDPCA解码器输出的量化值进行重建时,在均方误差最小准则下,推导出MMSE重建算法的闭式表示.

基于GGD比Laplacian分布对相关噪声具有更好的拟合性,提出基于GGD的WZ帧重构方案,该方案将GGD应用于图 1中“相关噪声模型1”和“相关噪声模型2”两个模型,在均方误差最小准则下对LDPCA输出的量化值进行重建,即

(2)

考虑到采用GGD做相关噪声模型时参数估计的复杂性,为了同时兼顾GGD拟合相关噪声的效果,经过多次反复实验,将GGD的形状参数固定为0.5,则式(1) 变为

(3)

将式(3) 代入式(2),则LDPCA解码输出为q时,对于给定量化区间[zq, zq+1),可以推导出基于GGD的WZ帧重构值为

(4)

其中:f(·)、g(·)、h(·)函数分别为

基于GGD的WZ帧重构方案可以概括为:

1) 采用GGD作为图 1中的“相关噪声模型1”,更精确地描述原始信息与边信息之间的相关性,联合传输的部分校验比特位进行LDPCA译码,如果译码不成功,则请求传输更多的校验比特信息,直至译码成功;

2) 对给定量化区间,计算边信息已知情况下WZ的条件期望作为WZ重构值,图 1中的“相关噪声模型2”采用GGD(形状参数固定为0.5),即用推导出的式(4) 重构WZ帧.

4 仿真结果

为了验证提出方案的性能,仿真实验中,分别比较了文献[4]的重构算法、图 1中“相关噪声模型1”和“相关噪声模型2”分别用Laplacian分布和GGD的重构算法,相应的实验结果分别用Lap-Lap、Lap-GGD表示.实验用“Foreman”、“Hall Monitor”、“Soccer”和“News”的QCIF格式,长度为100帧的4个视频序列;帧率为30 Hz;奇数帧为K帧,偶数帧为WZ帧;实验针对视频序列的亮度分量进行,且只计算WZ帧的平均码率(rate)和平均峰值信噪比(PSNR); 并假设在解码端K帧可以无失真重建.

表 1给出了不同方案重构WZ帧的客观质量比较.由表 1可见,Lap-Lap与Lap-GGD重构方案相比,采用的“噪声模型1”相同、“噪声模型2”不同,4个重构位平面的码率相同,即在相同码率的情况下,Lap-GGD重构方案的PSNR都比Lap-Lap重构算法的高,且随码率的增高,改善的效果更明显;Lap-GGD重构方案与提出方案相比,采用的“噪声模型1”不同、“噪声模型2”相同,在重构WZ帧的PSNR相同的情况下,提出方案的码率都比Lap-GGD重构方案的低.综合对比3种WZ重构方案,提出的重构方案,在率失真性能和重构图像质量2个方面都优于其他2种方案.

表 1 不同方案重构WZ帧的rate和PSNR

在计算复杂度方面,比较文献[4]和提出方案的每帧的平均重构时间,由表 2的实验结果可以看出,提出方案每帧的平均重构时间有所增加,这是因为提出方案将GGD用于图 1中的2个相关噪声模型,而GGD参数估计比Laplacian参数估计复杂,导致提出方案重构WZ帧的计算复杂度增加.需要指出的是,增加的复杂度仅仅是解码端的复杂度,对编码端没有影响,在DVC系统中更加关注的是编码端的复杂度.目前,DVC的瓶颈仍然是解码性能,提出方案提高了解码性能,在改进性能的同时重构时间增加几毫秒,这相对于DVC中复杂的LDPCA迭代译码,是可以接受的.

表 2 采用不同重构方案的重构时间

总体上说,由于GGD对相关噪声具有更好的拟合性,采用GGD进行WZ帧重构取得了较好的效果,尤其当重构的位平面数越多,即码率较高时,相关信息在重构中的作用更明显,提出的方案对重构WZ帧的图像质量和率失真性能改善更显著.

提出的重构方案将GGD的形状参数固定为0.5,图 3显示,此时GGD的峰值高于相关噪声分布的峰值,又由图 2可见,随着形状参数增大峰值将减小,因此形状参数大于0.5的GGD拟合相关噪声的性能会更好,重构WZ帧图像的质量也将更高,即形状参数为0.5的GGD并不是最佳的相关噪声模型.可以预测,GGD的最佳相关噪声模型的形状参数是介于0.5与1之间的数.尽管图 2图 3的实验结果表明其他的形状参数将使重构WZ帧图像的质量更高,但复杂的GGD参数估计使其无法实现.形状参数固定为0.5既不过多地增加计算复杂度,又可以有效地改善重构WZ帧图像的质量.

5 结束语

基于DVC系统WZ帧重构的特点,对已有WZ帧重构算法的性能进行了分析比较,研究了Laplacian分布和GGD对相关噪声的拟合,对形状参数固定为0.5的GGD相关噪声拟合实验表明,GGD比Laplacian分布能更好地拟合相关噪声.充分考虑了边信息与原始WZ帧之间的相关性,图 1中的2个相关噪声模型都采用GGD,计算边信息已知情况下WZ的条件期望作为WZ重构值;提出了基于GGD的WZ帧重构方案,推导出形状参数为0.5的GGD作为相关噪声模型的重构WZ帧的闭式表达式.实验结果表明,与MMSE重构算法相比,提出的重构方案能更有效地提高重构WZ帧的图像质量,并且能有效地改善率失真性能.

参考文献
[1] Aaron A, Zhang Rui, Girod B. Wyner-Ziv coding of motion video [C]//ACSSC 2002. Pacific Grove, CA, USA: IEEE, 2002: 240-244.
[2] Zhang Yongsheng, Xiong Hongkai, He Zhihai, et al. Reconstruction for distributed video coding: a context-adaptive Markov random field approach[J].IEEE Transactions on Circuits and Systems for Video Technology, 2011, 21(8): 1100–1114. doi: 10.1109/TCSVT.2011.2133830
[3] Liu Hongbin, Li Yongpeng, Liu Xianming, et al. Two-pass reconstruction in distributed video coding [C]//PCS 2009. Chicago: IEEE, 2009: 1-4.
[4] Kubasov D, Nayak J, Guillemot C. Optimal reconstruction in Wyner-Ziv video coding with multiple side information [C]//MMSP 2007. Grete, Greece: IEEE, 2007: 183-186.
[5] Ji Wen, Chen Yiqiang. A binning design for Wyner-Ziv video coding[C]//DCC 2013. Snowbird, UT, USA: : IEEE, 2013: 498.
[6] Maugey T, Gauthier J, Pesquet-Popescu B. Using an exponential power model for Wyner-Ziv video coding [C]//ICASSP 2010. Dallas, Texas, USA: IEEE, 2010: 2338-2341.