自动化学报  2017, Vol. 43 Issue (12): 2190-2201   PDF    
基于自适应采样的多假设预测残差重构算法研究
安文1, 刘昆1, 王杰2     
1. 国防科学技术大学航天科学与工程学院 长沙 410073;
2. 63810部队 文昌 571300
摘要: 为保证遥感视频序列的高质量重构,本文结合视频序列的高时空冗余特点,在基于块的分布式视频压缩感知(Distributed video compressed sensing,DVCS)框架的基础上提出了一种基于自适应采样的多假设预测残差重构模型及基于变采样率的多假设预测残差重构算法.首先对目标帧进行预测,根据各块预测精度的不同自适应地分配采样率;然后用变采样率多假设预测残差重构算法重构出目标帧;最后利用双向运动估计对重构结果进行修正.仿真结果表明该算法能够在降低采样率的同时保证良好的主客观重构质量;相同采样率条件下,重构精度比MC-BCS-SPL算法提高大约7dB,比MH-BCS-SPL算法提高大约1dB.
关键词: 遥感视频成像     压缩感知     自适应采样     多假设预测     双向运动估计    
Research on Multi-hypothesis Residual Reconstruction Algorithm Based on Adaptive Sampling
AN Wen1, LIU Kun1, WANG Jie2     
1. College of Aerospace Science and Engineering, National University of Defense Technology, Changsha 410073;
2. PLA 63810 Unit, Wenchang 571300
Manuscript received : May 10, 2016, accepted: December 10, 2016.
Foundation Item: Supported by National Natural Science Foundation of China (61271440)
Author brief: LIU Kun Professor at the College of Aerospace Science and Engineering, National University of Defense Technology. His research interest covers flight vehicle design and control, optical payload of micro-satellite;
WANG Jie Master student at National University of Defense Technology. His main research interest is remote sensing imaging based on compressed sensing
Corresponding author. AN Wen Master student at the College of Aerospace Science and Engineering, National University of Defense Technology. Her main research interest is remote sensing imaging based on compressed sensing. Corresponding author of this paper
Recommended by Associate Editor YANG Jian
Abstract: To guarantee an adequate quality reconstruction of remote sensing video and to make use of the character of mass information redundancy in video, this paper proposes a kind of adaptive sampling and multi-hypothesis residual reconstruction model and algorithm based on the framework called distributed video compressed sensing (DVCS). Firstly, the current frame is predicted, then sampling rates are adaptively allocated according to the precise degrees of the blocks in the predicted frame. Afterwards, the current frame is reconstructed using the variable sampling rates multi-hypothesis residual reconstruction algorithm. Finally, the reconstructed frame is revised by bilateral motion estimation technic. Simulation shows that the proposed model and algorithm can assure low sampling rate and high reconstruction quality simultaneously, and that the model can offer a PSNR gain of around 7dB higher the MC-BCS-SPL algorithm, and a gain of around 1dB than higher the MH-BCS-SPL algorithm when the sampling rates are same.
Key words: Remote sensing video     compressed sensing (CS)     adaptive sampling     multi-hypothesis prediction     bilateral motion estimation    

目前, 遥感视频成像卫星对图像分辨率的要求日益提高, 使得遥感传输的数据量剧增, 为了降低存储、处理和传输的成本, 需要在编码端对信源信号进行压缩处理, 并在解码端对原信号解压缩重构.压缩感知(Compressed sensing, CS)理论[1-2]能够打破Shannon-Nyquist采样定理的限制, 自2006年由Donoho、Candés及Tao等提出以来, 得到了国内外众多学者的广泛关注[3-4].该理论的核心是采样和压缩同时进行, 当信号稀疏或在某一组基下稀疏时, 可以利用维数远小于信号的测量值和稀疏性或低秩性等先验信息高概率地重构原信号[4-6].

遥感视频信号可以视为在时间维度上连续的图像信号, 视频压缩感知(Compressed video sensing, CVS)框架分为视频信号的压缩测量和视频信号的重构两个过程.卫星上的测量资源, 信号发射功率有限, 因此要求测量过程尽可能简单, 压缩率尽量高; 而遥感信号重构时能够利用大量的计算资源, 可以通过迭代求解高复杂度的优化问题.这种“编码简单, 解码复杂”的特点使得CS理论与分布式视频编码(Distributed video ceding, DVC)相结合, 形成了一种新的视频压缩技术---分布式视频压缩感知(Distributed video compressed sensing, DVCS)[7-11].文献[7-8]提出的差分重构模型是利用两帧的测量值和它们的差分信息进行联合重构.考虑到相邻两帧间的差别通常是由运动引起的, 文献[12]提出了残差重构模型, 首先使用CS重构算法进行独立帧内重构, 再联合前后参考帧采用运动估计和运动补偿预测出边信息(Side information, SI), 最后复原残差, 但该模型对待重构帧(CS帧)的估计不够准确, 为了保证重构效果, 必须在运动估计和补偿环节进行大量迭代, 重构效率极低.文献[13-14]利用传统视频编码中的多假设(Multiple hypotheses, MH)概念构造出各块的候选块集合, 并利用Tikhonov正则化求解病态优化问题, 得到多假设预测的稀疏权重, 预测出非关键帧的SI, 有效地提高了预测精度.上述模型对所有块分配同样的采样率, 忽略了视频场景中不同区域的运动和纹理特征, 对视频帧的相关性利用不够充分.为克服该缺陷, 文献[15]将帧内区域划分为前景和背景, 根据关注度的不同自适应地分配测量率.文献[16]提出的自适应测量策略目的在于减少测量硬件数量, 但重构效果不够理想.文献[17-18]能够根据视频帧间相关度的不同自适应地分配测量率, 但这些自适应测量方案的总测量率是不可控的, 不能在给定目标采样率的条件下实现测量率的自适应分配, 由于现实遥感数据传输的带宽有限, 因此这种总测量率不可控的测量方案并不实用.文献[19]虽然意识到了该问题, 但测量率的舍入误差使得图像块采样率分配的自适应性不强.

为了在固定测量率下, 尽可能提高视频信号的重构质量, 本文提出了一种总测量率可控的自适应采样多假设预测视频压缩感知模型.首先对目标帧进行预测, 根据各块预测精度的不同自适应地分配测量率.预测精度高的块分配低测量率, 预测精度低的块分配高测量率.然后利用参考帧和测量值对目标帧进行变采样率下的多假设预测, 得到边信息, 并用SPL (Smoothed projected landweber)算法[20]重构自适应采样预测的残差以得到目标帧.由于帧间运动的存在, 在参考帧内的平行位置附近直接抽取参考块进行多假设预测并不能一直保持与待重构块的高度相关性, 尤其是在帧间包含复杂快速运动的情形中.为了进一步利用视频帧间的时空相关性, 通过双向运动估计修正已重构的目标帧.利用已重构的相邻关键帧对目标帧进行双向运动估计[21], 并将估计结果和已重构的目标帧作为帧间多假设预测的参考帧, 对目标帧再次进行变采样率下的多假设预测, 得到边信息, 并进行变采样率残差重构以得到高质量的目标帧. Matlab环境下的仿真结果表明, 本文提出的运动估计修正的变采样率多假设预测视频压缩重构模型能够在降低采样率的同时保证良好的重构效果.

1 多假设预测

多假设预测的核心思想是对当前待重构块的大量近似块进行线性组合, 通过优化算法找到最佳线性组合, 并将其作为待重构块的预测.多假设预测的算法模型可以写为

$ {{\pmb{w}}_{t, i}} = \arg \min\limits_{\pmb{w}} {\left\| {{{\pmb{x}}_{t, i}} - {H_{t, i}}{\pmb{w}}} \right\|_2} $ (1)
$ {{\tilde{\pmb{ x}}}_{t, i}} = {H_{t, i}}{{\pmb{w}}_{t, i}} $ (2)

其中, ${{\pmb{x}}_{t, i}}\in{{\bf{R}}^{{B^2}\times 1}}$表示第t帧图像${x_t}$中第i块的矢量表示; ${H_{t, i}}\in{{\bf{R}}^{{B^2}\times K}}$是参考帧中搜索窗内的所有参考块按列排成的矩阵; ${{\pmb{w}}_{t, i}} \in {{\bf{R}}^{K \times 1}}$表示${H_{t, i}}$各列的最佳线性组合系数.该问题可以视为一个简单的Least-squares (LSQ)问题来优化求解, 但事实上${{\pmb{x}}_{t, i}}$是不可知的, 解码端只能获取${{\pmb{x}}_{t, i}}$的测量值${{\pmb{y}}_{t, i}}$, 将问题(1)转化到测量域

$ {\hat {\pmb{w}}_{t, i}} = \arg \min\limits_{\pmb{w}} {\left\| {{{\pmb{y}}_{t, i}} - \Phi{H_{t, i}}{\pmb{w}}} \right\|_2} $ (3)

其中, $\Phi\in{{\bf{R}}^{M \times {B^2}}}$表示随机测量矩阵. JL引理(Johnson-Lindenstrauss Lemma)表明问题(3)与问题(1)的解一致.由于$M \ll {B^2}$, ${{\pmb{w}}_{t, i}} \ne {\hat{\pmb{w}}_{t, i}}$, 为保证式(3)的正确求解, 必须进行正则化, 最常用的是Tikhonov正则化, 在式(3)中引入${{\pmb{w}}_{t, i}}$${\ell ^2}$惩罚项, 即

$ {\hat {\pmb w}_{t, i}} = \arg \min \limits_w {\left\| {{{\pmb y}_{t, i}} - \Phi {H_{t, i}}{\pmb w}} \right\|_2}+\lambda {\left\| {\Gamma {\pmb w}} \right\|_2} $ (4)

其中, $\lambda $为衡量正则化效果的尺度因子, $\Gamma $为Tikhonov矩阵, $\Gamma={\rm diag} \{ {{ \| {{{\pmb y}_{t, i}} -\Phi {{\pmb h}_1}} \|}_2}$, ${ \| {\pmb y}_{t, i}} -{{{ \Phi {{\pmb h}_2}} \|}_2}, \cdots$, ${{ \| {{{\pmb y}_{t, i}} -\Phi {{\pmb h}_K}} \|}_2} \}$, ${{\pmb h}_1}, {{\pmb h}_2}, \cdots, {{\pmb h}_K}$表示${H_{t, i}}$的列. $\Gamma $的含义是对近似程度高的参考块赋予大的组合系数, 对近似程度低的参考块赋予相对较小的组合系数.最优线性组合系数为

$ {\hat {\pmb w}_{t, i}} = {\left( {{{\left( {\Phi {H_{t, i}}} \right)}^{\rm T}}\left( {\Phi {H_{t, i}}} \right)+{\lambda ^2}{\Gamma ^{\rm T}}\Gamma } \right)^{ - 1}}{\left( {\Phi {H_{t, i}}} \right)^{\rm T}}{{\pmb y}_{t, i}} $ (5)

${\hat {\pmb w}_{t, i}}$代入式(2), ${{\pmb x}_{t, i}}$的多假设预测结果为${\tilde {\pmb x}_{t, i}} = {H_{t, i}}{\hat {\pmb w}_{t, i}}$.对各块进行预测后, 把预测块按块索引i排列就可以得到目标帧的多假设预测${\tilde x_t}$.

目前常用的多假设预测模型包括帧内多假设预测模型和帧间多假设预测模型.帧内多假设预测模型利用待预测块附近2 wd×2 wd的搜索窗口内所有$B \times B$的图像块作为候选块, 如图 1, 因此需要先重构出当前目标帧, 并将初始重构帧作为参考帧.帧间多假设预测模型将已重构的两个相邻关键帧作为参考帧, 在参考帧中以与待预测块相同位置的块为中心, 在其附近设置2 wd×2 wd的搜索窗口, 并将窗口范围内所有$B \times B$的图像块作为候选块, 如图 2所示.

图 1 帧内多假设预测的候选块示意图 Figure 1 Sketch map of candidates in intraframe multi-hypothesis prediction
图 2 帧间多假设预测的候选块示意图 Figure 2 Sketch map of candidates in interframe multi-hypothesis prediction
2 自适应采样率多假设预测DCVS 2.1 框架描述

本文提出的自适应采样多假设预测残差重构系统的框架如图 3所示.其中${\hat x_{t -1}}$${\hat x_{t+1}}$表示重构的关键帧, ${\hat {\hat {x}}_t}$表示重构的非关键帧.

图 3 本文提出的自适应采样多假设预测残差重构系统的框架 Figure 3 The multi-hypothesis residual reconstruction framework based on adaptive sampling

1) 编码端

将原始视频分为关键帧(K帧)和非关键帧(NK帧), 每个图像组(GOP)包含一个K帧和一个NK帧.为简化编码过程, 所有帧均使用基于块的测量矩阵进行采样.关键帧用高采样率进行压缩采样.非关键帧要先进行帧间多假设预测, 然后根据各个块的预测结果自适应地分配采样率:预测精度高的块分配低采样率, 预测精度低的块分配高采样率.

2) 解码端

关键帧利用帧内多假设预测残差重构算法独立地进行重构; 非关键帧利用变采样率下的帧间多假设预测残差重构算法进行联合重构, 并用双向运动估计修正已重构的非关键帧.

2.2 自适应采样

视频帧中不同的块具有不同的运动、纹理特征, 因此在同样的采样率下不同块的多假设预测精度也各不相同, 给所有的块分配同样的采样率不能充分利用采样资源和传输带宽.为此这里使用了一种根据多假设预测精度自适应分配采样率的采样方案.

将非关键帧${x_t} \in {{\bf R}^{H \times W}}$的采样率$S{R_{NK}}$划分成固定采样率$S{R_{NK0}}$部分和自适应采样率$S{R_{NKa}}$部分.

$ S{R_{NK0}} = C \times S{R_{NK}} $ (6)

其中, 预采样系数$0 < C \le 1$, 当$C = 1$时表示非自适应采样.然后对${x_t}$进行分块, 每块大小为$B \times B$, 那么一帧图像可以被分为P块.

$ P = \frac{{H \times W}}{{{B^2}}} $ (7)

对各图像块${x_{t, i}}$ ($i = 1, 2, \cdots, P$)以采样率$S{R_{NK0}}$进行预采样

$ y_{t, i}^0 = {\Phi _0}{x_{t, i}} $ (8)

预采样矩阵${\Phi _0}$为全维随机采样矩阵的前${q_0}$行, ${q_0} =$ $\left[{S{R_{NK0}} \times {B^2}} \right]$, 这里$\left[\cdot \right]$表示四舍五入的取整算子.整帧图像${x_t}$的预采样的数据量为

$ {Q_0} = P \times {q_0} = P \times \left[{S{R_{NK0}} \times {B^2}} \right] $ (9)

能够进行自适应分配的采样数为

$ \begin{align} {Q_a} =&\ P \times \left[{S{R_{NK}} \times {B^2}} \right] - {Q_0}= \\ &\ P \times \left[{S{R_{NK}} \times {B^2}} \right] - P \times \left[{S{R_{NK0}} \times {B^2}} \right] \end{align} $ (10)

则块${{\pmb x}_{t, i}}$的采样数据量为

$ {q_{t, i}} = \left[{S{R_{NK0}} \times {B^2}} \right]+\left[ {{a_{t, i}} \times {Q_a}} \right] $ (11)

其中, ${a_{t, i}}$为块${{\pmb x}_{t, i}}$的自适应采样系数, $\sum\nolimits_i {{a_{t, i}}} = 1$.块${{\pmb x}_{t, i}}$的采样矩阵$\Phi {}_{t, i}$为全维随机采样矩阵的前${q_{t, i}}$行, 采样矢量为

$ {{\pmb y}_{t, i}} = {\Phi _{t, i}}{{\pmb x}_{t, i}} $ (12)

相应的采样率$S{R_{t, i}} = {{{q_{t, i}}} / {{B^2}}}$.根据相邻关键帧和预采样${\pmb y}_{t, i}^0$进行初步的多假设预测, 预测结果为$\tilde {\pmb x}_{t, i}^0$, 在测量域衡量预测精度

$ {e_{t, i}} = \frac{{{{\left\| {{\pmb y}_{t, i}^0 - {\Phi _0}\tilde {\pmb x}_{t, i}^0} \right\|}_2}}}{{\sum\limits_i {{{\left\| {{\pmb y}_{t, i}^0 - {\Phi _0}\tilde {\pmb x}_{t, i}^0} \right\|}_2}} }} $ (13)

${e_{t, i}}$越大, 说明该块的预测误差越大, 需要的自适应采样率更高, 因此可以把预测精度${e_{t, i}}$作为${{\pmb x}_{t, i}}$的自适应采样系数, 即${a_{t, i}} = {e_{t, i}}$.

这种基于采样数的自适应采样有效削弱了采样率分配时的舍入误差, 且不会对整帧的采样率造成太大影响, 整帧采样率被约束在$[S{R_{NK}}-{1 /{{B^2}}}$, $S{R_{NK}}$+${1 / {{B^2}}}]$范围内.

2.3 变采样率多假设残差重构

本文所用的单帧重构算法以文献[12]中的BCS-SPL算法为基础, 为削弱块效应(Blocking artifacts), 该算法在重构目标帧时将测量矢量按顺序排列成测量矩阵, 一次性完成对整帧图像的重构.该算法并不能直接用于变采样率下的残差重构, 这是因为各个块的测量率不同, 测量矢量长度不等, 不能作为一个测量矩阵直接完成对整帧图像的重构.如果对各个块进行独立的残差重构, 无疑会割裂图像的空间相关性(Spacial correlation), 不能充分利用帧内的相关信息, 并且不可避免地会出现块效应.为解决该问题, 本文提出了一种变采样率下的残差重构模型.

首先根据相邻关键帧和采样矢量${{\pmb y}_{t, i}}$对块${{\pmb x}_{t, i}}$进行多假设预测, 预测结果为${\tilde {\pmb x}_{t, i}}$.由第2.2节可知${{\pmb y}_{t, i}}$长度越短说明${{\pmb x}_{t, i}}$的预测越准确, ${{\pmb x}_{t, i}}$${\tilde {\pmb x}_{t, i}}$间的差异越小, 可以将预测${\tilde {\pmb x}_{t, i}}$的一部分测量值作为${{\pmb x}_{t, i}}$的测量值, 这相当于增加了${{\pmb x}_{t, i}}$的测量率, 能够有效提高其重构质量.设长度最长的测量为${{\pmb y}_{t, \max }}$, 其长度${q_{\max }} = \max \left\{ {{q_{t, i}}} \right\}$, 对应的测量矩阵${\Phi _{t, \max }}$为全维随机采样矩阵的前${q_{\max }}$行.用${\Phi _{t, \max }}$${\tilde {\pmb x}_{t, i}}$进行采样, 并用最后${q_{\max }} -i$个测量值$\left\{ {\tilde y_{t, i}^{i+1}, \tilde y_{t, i}^{i+2}, \cdots, \tilde y_{t, i}^{{q_{\max }}}} \right\}$${{\pmb y}_{t, i}}$补长到${q_{\max }}$, 即

$ {\bar {\pmb y}_{t, i}} = {\left\{ {{\pmb y}_{t, i}^{\rm T}, \tilde y_{t, i}^{i+1}, \tilde y_{t, i}^{i+2}, \cdots, \tilde y_{t, i}^{{q_{\max }}}} \right\}^{\rm T}} $ (14)

这样就保证了各个图像块具有相同长度的测量矢量和相同维度的测量矢量, 能够用BCS-SPL算法进行残差重构, 提高目标帧的重构质量.

2.4 双向运动估计

在对非关键目标帧进行帧间多假设预测时仅仅在参考帧中以待预测块为中心的附近小范围内进行了搜索, 并不能一直保证候选块与待预测块间的高度相关, 尤其是视频中含有大量剧烈运动时.为了充分利用视频序列的时空相关性, 将运动估计帧作为参考帧, 参与到非关键帧的多假设预测重构过程, 为了提高运动估计精度, 使用双向运动估计和补偿算法[21].首先利用前后相邻关键帧${x_{t -1}}$, ${x_{t+1}}$${x_t}$进行双向运动估计, 块${x_{t, i}}$的运动矢量为

$ \begin{align} {{\bf{v}}_{t, i}} =&\ \arg \min\limits_{\pmb{v}} \left\{ {\mu \times SBAD\left( {{x_{t, i}}, {\pmb{v}}} \right)} \right.+\\ &\ \left. { \left( {1 - \mu } \right) \times SMD\left( {{x_{t, i}}, {\pmb{v}}} \right)} \right\} \end{align} $ (15)

其中, $\mu $为运动估计中的权重系数.块${x_{t, i}}$中像素点s处的像素预测值为

$ {\mathord{\buildrel{\lower3pt\hbox{$\scriptscriptstyle\frown$}} \over x} _{t, i}}\left( s \right) = \frac{1}{2}\left( {{x_{t - 1, i}}\left( {s - {\pmb{v}}} \right)+{x_{t+1, i}}\left( {s+ {\pmb{v}}} \right)} \right) $ (16)

以运动估计帧${\mathord{\buildrel{\lower3pt\hbox{$\scriptscriptstyle\frown$}} \over x} _t}$和变采样率下的多假设残差重构帧${\hat x_t}$作为参考帧, 并结合自适应采样${{\pmb y}_{t, i}}$, $i= 1$, 2, $\cdots $, P再次进行多假设预测${\tilde {\tilde {x}}_t}$, 并重构预测残差${\tilde {\tilde {r}}_t}$, 得到高质量的重构帧

$ {\hat {\hat {x}}_t} = {\tilde {\tilde {x}}_t}+{\tilde {\tilde {r}}_t} $ (17)
3 实验设计与性能分析

本文选用4组CIF格式的标准测试序列foreman、stefan、bus和flower的前31帧测试本文提出的自适应采样多假设预测残差重构模型, 其中奇数帧为关键帧(K帧), 偶数帧为非关键帧(NK帧).分块测量矩阵选用Gauss随机测量矩阵, 且分块大小为16×16;稀疏表示字典选用DCT完备字典; 进行多假设预测时, 搜索窗口为7;进行双向运动估计时, 匹配块大小为16×16, 搜索窗口为8, 运动估计的权重系数为0.005;使用SPL算法[15]进行重构, $\lambda = 6$.重构效果的评价指标有反映客观重构质量的峰值信噪比(Peak signal to noise ratio, PSNR), 反映主观视觉质量的结构相似性指数(Structural similarity, SSIM)和反映计算复杂度的重构时间(Time).实验的硬件平台为主频2.8 GHz的Intel i5-2300 CPU计算机, 软件平台为Windows XP2002, 32位操作系统和MATLAB7.7.0仿真实验软件.

3.1 确定预采样系数C

在对NK帧进行预采样时, 预采样系数C越小, 初步多假设预测就越不准确, 非关键帧采样率的自适应分配误差越大, 重构精度下降; 但预采样系数C越大, 用于自适应分配的采样率越小, 不能充分反映不同块之间预测精度的差异, 也不能充分利用采样资源以体现自适应采样的优势, 重构精度也会下降, 因此需要在预测精度和块间精度差异之间进行折衷.为了获取合适的预采样系数, 本文对4组序列在$C \in \{ 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1.0 \}$时进行了测试, 采样率为$S{R_K} = 0.6$, $S{R_{NK}} = 0.2$.表 1给出了不同预采样系数下, 各个测试序列NK帧的平均重构PSNR和SSIM.从表 1可以看出, C = 0.8或0.9时能够获得最好的重构效果; C<0.8时, 随着C减小, 重构效果变差; C > 0.9时, 重构效果也变差, 实验结果与分析结果一致.在下面的仿真实验中取C = 0.8, 以保证自适应采样对采样资源和传输带宽的最佳利用.

表 1 各测试序列在不同C下NK帧的平均重构PSNR (dB)和SSIM Table 1 Average PSNR (dB) and SSIM of each video with different C
3.2 采样率的帧间配置

K帧进行独立的帧内多假设残差重构, 并作为NK帧多假设预测的参考帧, 必须获取足够的采样数据量才能保证整个序列的重构质量.然而仅仅通过K帧或NK帧的采样率并不能说明整个序列的压缩率, 因此本文用平均采样率$S{R_a}$来衡量序列的压缩率.设每个图像组(GOP)包含P帧图像, 其中1帧关键帧, $P-1$帧非关键帧.

$ S{R_a} = \frac{{S{R_K}+\left( {P - 1} \right) \times S{R_{NK}}}}{P} $ (18)
$ \Delta SR = S{R_a} - S{R_{NK}} $ (19)

关键帧和非关键帧的采样率可以写为

$ S{R_K} = S{R_a}+\Delta SR \times \left( {P - 1} \right) $ (20)
$ S{R_{NK}} = S{R_a} - \Delta SR $ (21)

表 2给出了$P = 2$, $S{R_a} \in \left\{ {0.3, 0.4, 0.5, 0.6} \right\}$, $\Delta SR \in \left\{ {0, 0.05, 0.1, 0.15, 0.2, 0.25} \right\}$时关键帧和非关键帧的采样率.从表 2可以看出, 在同样的平均采样率下, $\Delta SR$越大, $S{R_K}$越大, $S{R_{NK}}$越小. $S{R_K}$越大意味着关键帧的重构越准确, 越能保证非关键帧的预测精度, 但$S{R_{NK}}$的减小会削弱非关键帧的预测精度, 因此整个序列的重构结果还需要进一步讨论.

表 2 不同$S{R_a}$$\Delta SR$下K帧和NK帧的采样率 Table 2 Sampling rates of K frames and NK frames with different $S{R_a}$ and $\Delta SR$

$P = 2$, $S{R_a} \in \{ {0.3, 0.4, 0.5, 0.6} \}$, $\Delta SR \in \{ 0, 0.05, 0.1, 0.15, 0.2, 0.25 \}$时测试4个序列的重构效果, 如表 3所示.从表 3可以看出, 在相同的平均采样率下, $\Delta SR$越大, 序列的平均重构效果越好, 这也说明了为什么关键帧需要更高的采样率以保证序列的重构质量.值得注意的是, 当$S{R_a} = 0.3$时, $\Delta SR =0.25$并不能获得最佳的重构效果, 这是因为此时NK帧的采样率过低, 固定采样率部分$S{R_{NK0}}$更低, 初步多假设预测精度不够, 采样率的分配不合理, 重构误差大, 所以视频序列的平均重构质量下降.这与第3.1节的分析一致.

表 3 测试序列在不同$\Delta SR$下的平均重构性能比较: PSNR (dB); SSIM Table 3 Average reconstruction quality of each video using different $\Delta SR$: PSNR (dB); SSIM
3.3 算法性能分析

在视频序列的重构中, 关键帧采用文献[14]提出的BCS框架下基于帧内多假设预测的SPL算法进行独立的帧内重构; 非关键帧分别选用本文提出的自适应采样多假设预测残差重构算法(ASR-MH-BCS-SPL)、文献[20]提出的基于运动估计的残差重构算法(MC-BCS-SPL)和文献[13]提出的基于帧间多假设预测的残差重构算法(MH-BCS-SPL)进行重构.表 4(a)表 4(b)给出了4组测试序列的NK帧在上述3种重构算法下的PSNR值、SSIM值和平均单帧重构时间T.

表 4(a) $\Delta SR = 0$时不同测量率下各视频重构算法的性能比较: PSNR (dB); SSIM; T(s) Table 4(a) Reconstruction performance of each video using different algorithms when $\Delta SR = 0$: PSNR (dB); SSIM; T(s)
表 4(b) $\Delta SR = 0.25$时不同测量率下各视频重构算法的性能比较: PSNR (dB); SSIM; T(s) Table 4(b) Reconstruction performance of each video using different algorithms when $\Delta SR = 0.25$: PSNR (dB); SSIM; T(s)

表 4(a)可以看出, $\Delta SR=0, S{R_K} = S{R_{NK}}$时, 不论是在高平均采样率还是低平均采样率下, 本文提出的算法ASR-MH-BCS-SPL在主、客观评价标准下的重构质量都优于MC-BCS-SPL算法和MH-BCS-SPL算法. ASR-MH-BCS-SPL算法重构的平均PSNR值比MH-BCS-SPL算法高大约1.1 dB, 最多高1.963 dB; 比MC-BCS-SPL算法高1.5~6 dB, 平均高大约6dB, 最多高5.981 dB.而且随着平均采样率$S{R_a}$增大, 本文提出算法的优势更为明显, 这是因为$S{R_a}$增大意味着K帧的采样率增加, 重构精度更高, 能够为NK帧提供更准确的参考; 而且NK帧的采样率更高, 使得多假设预测更准确, 测量率的分配更合理.

$\Delta SR=0.25, S{R_K}>S{R_{NK}}$时, 可以得出类似的结论. ASR-MH-BCS-SPL算法重构的平均PSNR值比MH-BCS-SPL算法高大约0.6 dB, 最多高1.624 dB; 比MC-BCS-SPL算法高4~9 dB, 平均高大约7.6 dB, 最多高9.895 dB.值得注意的是, 当$S{R_a} = 0.3$时, ASR-MH-BCS-SPL算法的重构效果比MH-BCS-SPL算法差, 这是因为NK帧的采样率太低, 固定采样率部分$S{R_{NK0}}$更低, 初步多假设预测精度不够, 采样率的分配不合理, 所以ASR-MH-BCS-SPL算法的性能弱于MH-BCS-SPL算法.

本文所提出算法ASR-MH-BCS-SPL在重构效率上存在明显不足, 单帧平均耗时225 s, 约是MC-BCS-SPL算法的7倍, MH-BCS-SPL算法的3倍, 这是因为算法使用了多次多假设预测算法来提高重构精度.

图 4给出了Foreman序列第30帧图像在$S{R_K} = 0.5$, $S{R_{NK}} = 0.{\rm{1}}$时3种重构算法下的重构结果对比.可以看出在相同采样的采样率下, 本文提出的算法有更好的主客观重构质量, 尤其是在一些细节(如眼睛)和运动部分(如嘴巴)的重构上.

图 4 不同算法对foreman序列第30帧图像的恢复效果 Figure 4 Reconstruction of the 30th frame in the foreman video using different algorithms
3.4 算法应用于遥感视频重构

遥感凝视成像卫星在对目标区域进行观测时, 会在卫星相对于目标的过顶时间窗口内进行姿态调整, 使目标始终处于卫星视频相机的视场中心, 以获取该区域内的序列图像, 故图像各帧之间的相关性非常强.为检验算法在遥感视频序列上的适用性, 对一段avi格式的海港遥感视频(单帧分辨率为480像素×480像素)进行自适应采样, 并利用本文提出的自适应采样多假设预测残差重构算法(ASR-MH-BCS-SPL)、文献[20]提出的基于运动估计的残差重构算法(MC-BCS-SPL)和文献[13]提出的基于帧间多假设预测的残差重构算法(MH-BCS-SPL)分别进行重构, 仿真参数保持不变.

表 5给出了不同采样率下, 该视频序列前30帧的平均重构PSNR值, SSIM值和平均时耗T, 可以看出不管$\Delta SR$是否等于零, ASR-MH-BCS-SPL算法的主客观重构性能都优于MC-BCS-SPL算法和MH-BCS-SPL算法, 但重构时间较长.比较表 5表 4(a), 表 4(b)可以发现遥感序列的平均单帧重构时间长于测试序列, 这是因为遥感视频帧的像素点数大于测试序列的缘故.

表 5 遥感视频在不同算法, 不同采样率下的重构性能: PSNR (dB); SSIM; T(s) Table 5 Reconstruction performance of the remote sensing video using different algorithms and different sampling rates: PSNR (dB); SSIM; T(s)

图 5显示了$S{R_a} = 0.3$, $\Delta SR = 0.25$时第10帧图像在不同算法下的重构结果, 目标舰船用圆圈标出.仿真结果表明本文提出的算法适用于遥感视频序列的重构, 而且重构效果优于MC-BCS-SPL算法和MH-BCS-SPL算法, 减弱了边缘模糊现象并消除了块效应, 即使在平均采样率为0.3的低采样率下, PSNR值仍高达35 dB以上.

图 5 遥感视频序列中第10帧图像的恢复效果 Figure 5 Reconstruction of the 10th frame in the remote sensing video
3.5 算法复杂度分析

通过上述仿真实验可以看出, 本文提出的基于自适应采样的多假设预测残差重构算法在主客观评价标准下优于MC-BCS-SPL算法和MH-BCS-SPL算法, 但耗时过久, 本节将细致分析三种算法各个环节的重构质量和时耗.

仿真序列使用Foreman序列的前31帧, 采样率为$S{R_K} = 0.6$, $S{R_{NK}} = 0.2$.其余仿真参数同第3节的初始设置.根据算法的关键环节、将ASR-MH-BCS-SPL算法分成自适应采样环节, 变采样率下的多假设预测残差重构环节, 双向运动估计环节、用双向运动估计进行补偿的环节、分别记为${A_1}$, ${A_2}$, ${A_3}$, ${A_4}$; 将MC-BCS-SPL算法分成采样环节、帧内多假设预测残差重构环节、运动估计环节、基于运动估计的残差重构环节, 分别记为${C_1}$, ${C_2}$, ${C_3}$, ${C_4}$; 将MH-BCS-SPL算法分成采样环节、帧间多假设预测残差重构环节, 分别记为${H_1}$, ${H_2}$.表 6给出了三种算法各个环节的平均时耗T和涉及到重构环节的平均重构PSNR, SSIM.

表 6 三种算法各个环节的时耗和重构性能: T(s); PSNR (dB); SSIM Table 6 Time and reconstruction quality of three algorithms in every step: T(s)

比较${C_2}$${C_4}$可以看出, 多假设预测残差重构环节比残差重构环节耗时, 时耗约是残差重构环节的3.5倍; 比较${A_2}$, ${A_4}$${H_2}$${C_2}$可以看出, 帧间多假设预测残差重构环节的时耗远大于帧内多假设预测残差重构环节; 比较${A_3}$${C_3}$可以看出, 双向运动估计环节的耗时远大于文献[20]中的运动估计环节, 这是因为双向运动估计算法需要对图像块进行多次遍历匹配. ASR-MH-BCS-SPL算法比较耗时的根本原因是三次帧间多假设预测, 每个涉及帧间多假设预测的环节时耗都在68 s左右; 由于自适应采样过程中也进行了帧间多假设预测, 因此编码阶段时耗会远大于其他两种算法, 比较${A_1}$${C_1}$, ${H_1}$可以看出, ${A_1}$环节时耗的数量级远高于${C_1}$, ${H_1}$.

比较${C_2}$${H_2}$可以看出, 帧间多假设预测残差重构的重构效果远远优于帧内多假设预测残差重构; 比较${A_2}$${H_2}$可以看出基于自适应采样的帧间多假设预测残差重构算法的重构效果优于恒定采样率下的帧间多假设预测残差重构算法, 平均PSNR值比后者高1.267 dB; 比较${A_2}$${A_4}$可以看出, 虽然用双向运动估计可以改善算法的性能, 但时耗会增大, 为降低算法复杂度, 也可以不用双向运动估计算法进行补偿, 或者换用简单的、效率较高的运动估计算法进行补偿.更有效的降低算法时耗的方法是研究一种不用帧间多假设预测就能把运动估计用于重构结果补偿的算法, 这也是以后的研究方向之一.

4 结论

本文以基于块的分布式视频压缩感知框架为基础, 提出了一种自适应采样的多假设预测残差重构模型及相关算法.首先将视频流拆分为关键帧和非关键帧, 均采用基于块的压缩测量方式进行测量, 关键帧以高测量率直接采样, 并利用帧内多假设预测残差重构模型进行独立重构; 然后将非关键帧的测量率分成固定部分和自适应部分, 并用已重构的相邻关键帧和预采样对待重构非关键帧进行帧间多假设预测, 并根据各块的预测精度自适应地分配测量率:预测精度高的块分配低测量率, 预测精度低的块分配高测量率; 接着利用相邻关键帧和自适应测量值进行变采样帧间多假设预测, 得到边信息并进行残差重构; 最后利用双向运动估计修正重构结果, 以获得高质量的重构帧.仿真结果表明, 该算法能够在降低采样率的同时保证良好的重构效果, 不论是在主观评价标准还是客观评价标准下, 重构质量都优于MC-BCS-SPL算法和MH-BCS-SPL算法; 并且该算法适用于遥感视频的压缩重构; 然而由于使用了多次多假设预测算法, 本文提出的算法花费的时间代价较高, 文中细致分析了三种算法各个环节的重构质量和时耗, 虽然在拥有巨大运算力的解码端, 重构时间能够进行大量缩减, 但如何在保证重构精度的同时提高算法的重构速度仍然是下一阶段重点研究的问题.

参考文献
1
Donoho D L. Compressed sensing. IEEE Transactions on Information Theory, 2006, 52(4): 1289-1306. DOI:10.1109/TIT.2006.871582
2
Candes E J, Wakin M B. An introduction to compressive sampling. IEEE Signal Processing Magazine, 2008, 25(2): 21-30. DOI:10.1109/MSP.2007.914731
3
Ren Yue-Mei, Zhang Yan-Ning, Li Ying. Advances and perspective on compressed sensing and application on image processing. Acta Automatica Sinica, 2014, 40(8): 1563-1575.
( 任越美, 张艳宁, 李映. 压缩感知及其图像处理应用研究进展与展望. 自动化学报, 2014, 40(8): 1563-1575.)
4
Shen Yan-Fei, Li Jin-Tao, Zhu Zhen-Min, Zhang Yong-Dong, Dai Feng. Image reconstruction algorithm of compressed sensing based on nonlocal similarity model. Acta Automatica Sinica, 2015, 41(2): 261-272.
( 沈燕飞, 李锦涛, 朱珍民, 张勇东, 代锋. 基于非局部相似模型的压缩感知图像恢复算法. 自动化学报, 2015, 41(2): 261-272.)
5
Waters A E, Sankaranarayanan A C, Baraniuk R G. SpaRCS:recovering low-rank and sparse matrices from compressive measurements. In:Proceedings of the 2011 Neural Information Processing Systems (NIPS). Barcelona, Spain:IEEE, 2011. 1089-1097 https://dl.acm.org/citation.cfm?id=2986581
6
Fowler J E, Mun S, Tramel E W. Multiscale block compressed sensing with smoothed projected landweber reconstruction. In:Proceedings of the 19th European Signal Processing Conference. Barcelona, Spain:IEEE, 2011. 564-568 http://ieeexplore.ieee.org/document/7073994/
7
Willett R M, Marcia R F, Nichols J M. Compressed sensing for practical optical imaging systems:a tutorial. Optical Engineering, 2011, 50(7):1-13, Article No. 72601 https://www.spiedigitallibrary.org/journals/Optical-Engineering/volume-50/issue-07/072601/Compressed-sensing-for-practical-optical-imaging-systems-a-tutorial/10.1117/1.3596602.full
8
Thompson D, Harmany Z, Marcia R. Sparse video recovery using linearly constrained gradient projection. In:Proceedings of the 2011 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP). Prague, Czech Republic:IEEE, 2011. 1329-1332 http://ieeexplore.ieee.org/document/5946657/
9
Baron D, Duarte M F, Wakin M B, Sarvotham S, Baraniuk R G. Distributed compressive sensing[Online], available:http://www.arxiv.org/abs/0901.3403, February 17, 2016
10
Zhang B J, Lei Q, Wang W, Mu J S. Distributed video coding of secure compressed sensing. Security and Communication Networks, 2015, 8(14): 2416-2419. DOI:10.1002/sec.v8.14
11
Liu H X, Song B, Tian F, Qin H, Liu X. Optimal-correlation-based reconstruction for distributed compressed video sensing. Journal of Visual Communication and Image Representation, 2015, 31: 197-207. DOI:10.1016/j.jvcir.2015.06.020
12
Chen J, Su K X, Wang W X, Lan C D. Residual distributed compressive video sensing based on double side information. Acta Automatica Sinica, 2014, 40(10): 2316-2323. DOI:10.1016/S1874-1029(14)60363-3
13
Tramel E W, Fowler J E. Video compressed sensing with multihypothesis. In:Proceedings of the 2011 Data Compression Conference (DCC). Snowbird, UT, USA:IEEE, 2011. 193-202 http://ieeexplore.ieee.org/document/5749477/
14
Chen C, Tramel E W, Fowler J E. Compressed sensing recovery of images and video using multihypothesis predictions. In:Proceedings of Conference Record of the 46th Asilomar Conference on Signals, Systems, and Computers (ASILOMAR). Pracific Grove, CA, USA:IEEE, 2011. 1193-1198 http://ieeexplore.ieee.org/document/6190204/
15
Warnell G, Reddy D, Chellappa R. Adaptive rate compressive sensing for background subtraction. In:Proceedings of the 2012 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP). Kyoto, Japan:IEEE, 2012. 1477-1480 http://ieeexplore.ieee.org/document/6288170/
16
Srinivasarao B K N, Gogineni V C, Mula S, Chakrabarti I. VLSI friendly framework for scalable video coding based on compressed sensing[Online], available:arxiv.org/abs/1602.07453, April 5, 2016
17
Lian Qiu-Sheng, Tian Tian, Chen Shu-Zhen, Guo Wei. Block compressed sensing of video based on variable sampling rates and multihypothesis predictions. Journal of Electronics and Information Technology, 2013, 35(1): 203-208.
( 练秋生, 田天, 陈书贞, 郭伟. 基于变采样率的多假设预测分块视频压缩感知. 电子与信息学报, 2013, 35(1): 203-208.)
18
Li Ru-Chun, Li Lin, Chang Li-Ping. Block compressed sensing of video based on variable sampling rates. Application of Electronic Technique, 2015, 41(10): 147-149, 153.
( 李如春, 李林, 常丽萍. 基于变采样率压缩感知的视频压缩研究. 电子技术应用, 2015, 41(10): 147-149, 153.)
19
Zuo Mi-Wen, Chang Kan, Shi Jing-Lan, Qin Tuan-Fa. Adaptive rate compressed video sensing scheme. Video Engineering, 2015, 39(2): 66-70.
( 左觅文, 常侃, 施静兰, 覃团发. 一种自适应采样率视频压缩感知方案. 电视技术, 2015, 39(2): 66-70.)
20
Mun S, Fowler J E. Residual reconstruction for block-based compressed sensing of video. In:Proceedings of the 2011 Data Compression Conference (DCC). Snowbird, UT, USA:IEEE, 2011. 183-192 http://ieeexplore.ieee.org/document/5749476/
21
Choi B D, Han J W, Kim C S, Ko S J. Motion-compensated frame interpolation using bilateral motion estimation and adaptive overlapped block motion compensation. IEEE Transactions on Circuits and Systems for Video Technology, 2007, 17(4): 407-416. DOI:10.1109/TCSVT.2007.893835