基于神经网络的HEVC帧内预测组合快速算法

引用本文

范俊宇, 宋立锋. 基于神经网络的HEVC帧内预测组合快速算法[J]. 广东工业大学学报, 2024, 41(3): 131-140. DOI: 10.12052/gdutxb.230067.

Fan Jun-yu, Song Li-feng. A Fast Combination Algorithm for HEVC Intra-Prediction Based on Neural Network[J]. JOURNAL OF GUANGDONG UNIVERSITY OF TECHNOLOGY, 2024, 41(3): 131-140. DOI: 10.12052/gdutxb.230067.

基金项目:

广东省科技创新战略专项资金 (省重点实验室认定) 项目 (2021B1212050003)

作者简介:

范俊宇 (1997–)，男，硕士研究生，主要研究方向为视频编解码，E-mail：telecom162@163.com。

通信作者

宋立锋 (1967–)，男，副教授，博士，主要研究方向为视频编解码及传输，E-mail：songlf@gdut.edu.cn

文章历史

收稿日期：2023-05-11

Contents Abstract Full text Figures/Tables PDF

基于神经网络的HEVC帧内预测组合快速算法

范俊宇¹, 宋立锋^1,2

1. 广东工业大学信息工程学院, 广东广州 510006;
2. 惠州市广工大物联网协同创新研究院有限公司, 广东惠州 516025

收稿日期：2023-05-11

基金项目：广东省科技创新战略专项资金 (省重点实验室认定) 项目 (2021B1212050003)

作者简介：范俊宇 (1997–)，男，硕士研究生，主要研究方向为视频编解码，E-mail：telecom162@163.com。

通信作者：宋立锋 (1967–)，男，副教授，博士，主要研究方向为视频编解码及传输，E-mail：songlf@gdut.edu.cn.

摘要: 为了提升高效视频编码(High Efficiency Video Coding, HEVC) 帧内编码的实时性能，本文提出的方法利用了引入偶数边长与步长的卷积核以及自注意力机制的轻量级卷积网络来预测编码树单元(Coding Tree Unit, CTU) 的帧内划分结构，从而减少了编码器对CTU进行四叉树递归遍历划分的编码时间。原始编码策略中粗模式决策通过基于残差经哈德曼变换的预测残差绝对值总和 (Sum of Absolute Transformed Difference, SATD) 的损失值来估计率失真优化过程中的率失真损失值来进行加速，但仍会耗费一定的编码时间。提出一种方法通过采样搜索的方式减少粗模式决策过程中计算的模式数，从35种模式降低到了18种模式，降低了粗模式决策过程中计算估计损失值的时间。由粗模式决策过程得到的较优的多个候选帧内模式来进行率失真优化，为了缩减粗模式决策需要计算的候选模式数，在候选模式列表中根据前后帧内预测角度模式的估计损失值的差距来筛选掉部分可能性较低的候选模式实现早停止决策，从而减少需要进行率失真优化的候选模式数量，进而减少率失真优化过程的计算时间。本文提出的算法在测试序列上平均实现78.15%的编码时间缩减，BD-PSNR为 -0.168 dB，BD-RATE为3.49%。

关键词: 视频编码神经网络帧内预测快速算法

A Fast Combination Algorithm for HEVC Intra-Prediction Based on Neural Network

Fan Jun-yu¹, Song Li-feng^1,2

1. School of Information Engineering, Guangdong University of Technology, Guangzhou 510006, China;
2. Huizhou Guangdong University of Technology IoT Cooperative Innovation Institute Co., Ltd., Huizhou 516025, China

Abstract: To improve the real-time performance of High Efficiency Video Coding (HEVC) intra-frame encoding, a method, which utilizes a lightweight convolutional network with even-length and step-size convolutional kernels and a self-attention mechanism, is proposed to predict the intra-frame partitioning structure of Coding Tree Units(CTU) , thereby reducing the encoding time required for the encoder to perform quadtree recursive traversal partitioning on CTUs. In the original encoding strategy, Rough Mode Decision accelerates the process by estimating the rate-distortion loss value in Rate Distortion Optimization based on the Sum of Absolute Transformed Difference (SATD) -based loss value, but it still consumes a certain amount of encoding time. A proposed method reduces the number of patterns calculated in the Rough Mode Decision process through a sampling search approach, reducing the number of patterns from 35 to 18, and decreasing the time required to estimate the loss value during the Rough Mode Decision process. The more favorable multiple candidate intra-frame modes obtained from the Rough Mode Decision process are used for Rate Distortion Optimization. In order to reduce the number of candidate modes that need to be calculated in Rate Distortion Optimization, an early stopping decision is implemented by filtering out some less likely candidate modes based on the differences in the estimated loss values of the intra-frame prediction angle modes in the candidate mode list, thus reducing the number of candidate modes that need to be evaluated in Rate Distortion Optimization and consequently decreasing the computation time of the Rate Distortion Optimization process. The proposed algorithm achieves an average encoding time reduction of 78.15% on the test sequences, with a BD-PSNR of -0.168dB and a BD-RATE of 3.49%.

Key words: video coding neural network intra-frame prediction fast algorithm

随着互联网上视频内容的不断丰富和视频分辨率的不断提高，视频传输的带宽和存储空间也随之增加，特别是对于2K以上的视频分辨率而言，H.264/AVC已经很难满足压缩需求。因此出现了下一代高效视频编解码标准H.265/HEVC，它能够在保证高清画质的前提下，显著降低视频数据的大小。H.265/HEVC基于混合编码框架，混合编码框架中包含了变换、量化、熵编码、帧内预测、帧间预测和环路滤波等模块。在这个框架中，编码单元有：CTU、CU、TU和PU。CTU是H.265/HEVC中最大的编码单元，在概念上相当于H.264/AVC中的宏块。一个CTU可以递归地划分为4个子块，称为CU。

一个CTU也是进行运动估计和运动补偿的基本单元。CU是H.265/HEVC中进行预测模式选择和残差表示的基本单元。TU是H.265/HEVC中进行变换和量化的基本单元，包含变换后和量化后的系数，用于表示预测残差信号。PU是H.265/HEVC中进行预测的基本单元，包含预测模式和运动矢量等信息，用于表示当前图像块与参考图像块之间的关系。HEVC以递归的四叉树分区的方式划分CTU，并在每次递归分区后对当前块进行帧内模式预测，其中HEVC帧内预测模式的数量从AVC的9种增加到35种，使角度预测更加精确。这些编码技术使HEVC与AVC相比具有更高的压缩性能，但整体编码时间平均增加了约250%，需要相关领域的研究人员通过研究更高效的快速编码算法来提高HEVC编码器的实时编码性能。

深度学习是近年来人工智能领域的一个重要突破，其在图像处理、语音识别等领域取得了显著的成果。而在视频编解码领域，深度学习也逐渐展现出巨大的潜力，为提高视频编解码效率和质量提供了全新的解决方案。视频编解码的核心任务是高效地压缩和恢复视频数据。传统的视频编解码方法主要依赖于手工设计的预测模型和变换方法，这些方法在一定程度上能够提高压缩效率，但难以适应多样化的视频内容和场景。而深度学习技术，尤其是卷积神经网络，可以自动学习视频数据的高层次特征和结构信息，使得视频编解码方法能够更好地适应不同场景，从而进一步提高压缩效果。

本文的创新点如下：

(1) 使用偶数边长以及步长形式卷积核以及引入注意力机制到神经网络模型，并利用该模型对CTU的划分结构进行预测，阐述了偶数形式的卷积核所得到的特征图与HEVC四叉树递归分块编码的形式所对应的机制以及有效性。

(2) 在使用神经网络对CTU划分结构进行预测加速的基础上，在粗模式决策 (Rough Mode Decision, RMD) 过程中提出了采样搜索的加速方法，减少了RMD过程的帧内预测候选模式数量，在率失真优化 (Rate Distortion Optimization, RDO) 过程中根据前后估计损失值的差距进行早停止策略，减少了RDO过程的候选模式数量，实现编码加速。

1 相关工作

为了提高HEVC的实时帧内编码性能，有必要研究内预测的相关快速算法。一种常见的方法是RMD，使用基于SATD的损失值来估计CU块的35种帧内角度预测模式的率失真损失值，并选择几个较低的基于SATD的损失值的预测模式添加到RDO列表中，以实现预测编码的加速。该方法被应用到了HEVC的标准参考软件HM中来实现编码加速。

其余一些方法利用编码图像块的特征，包括纹理、方差和梯度等，对视频序列进行统计，如文献[1-12]。另一些方法通过机器学习建立特征来预测编码块的结构，如文献[13-18]。还有一些方法使用深度学习来预测编码块的形式，从而实现HEVC的快速帧内编码，如文献[19-25]。

LENG等^[1]通过编码块的深度信息在帧级或编码单元级构建决策方法，跳过一些使用概率低的编码单元。唐燕等^[2]利用当前编码单元与相邻编码单元的深度关系实现CU深度划分的早停止与跳过决策。何书前等^[4]基于当前与相邻编码单元的率失真特性提出基于纹理与非纹理代价的CTU结构划分的早停止算法。郭磊^[5]通过对计算CTU在不同深度的纹理强度特征来完成CTU的结构划分决策。

NISHIKORI T等^[7]将方差作为图像的特征值，平坦区域的方差小，而复杂区城的方差大，通过比较图像方差值和设定的阈值来确定CU是否被划分。汤进等^[8]通过分析视频序列的时空相关性，根据自适应的权值实现CTU结构划分的早停止策略。

伍冠健等^[9]通过对帧内角度模式部分进行隔点抽取和像素梯度统计以及对各个子PU残差比较的方式实现早停止策略来实现加速。MIN B等^[11]利用4个不同方向的纹理边缘特征，将CU递归为3种情况：分裂、不分裂和不确定，完成对CU结构的快速预测。石敏等^[12]通过计算PU的纹理特性缩减RMD过程的模式数。

HU Q等^[14]分析了视频序列中各深度划分的数量，构建了似然函数，将CU分割问题视为二元分类问题，并使用逻辑回归分类器对该问题进行分类，完成了CU划分的早期停止判断算法，降低了编码复杂度。NAIR P S等^[15]使用了SVM对HEVC的RMD阶段的最佳SATD值的候选模式进行预测。LIU X等^[17]构建了编码图像的纹理复杂度特征，并对SVM进行了三分类训练。他们对明显的高复杂度编码块采用跳过策略，对低复杂度编码块采用提前停止策略，对中等复杂度编码块采用原始编码策略。

RYU S等^[18]通过随机选择区块中的点来计算方向特征来训练随机森林。随机森林被用于使帧内角度预测模式选择的快速决策，减少率失真损失候选模式列表的范围，从而减少编码时间。周帅燃等^[19]使用CNN对CTU的纹理特征进行分类并预测CTU的划分结构。易清明等^[20]使用Inception神经网络对CTU的结构划分进行预测与加速。CHEN Z等^[23]通过设计一个低复杂度的非对称核心CNN来提取每个块的局部方向信息，从而快速完成对CU块的划分决策，在帧内预测中控制RDO的数量，并使用一个阈值来平衡率失真性能和复杂度。XU M等^[24]通过合理的CNN结构使预测输出与编码器预测结构相匹配，这样神经网络就可以屏蔽不属于预测分区结构的损失。贾克斌等^[25]则通过构建加入注意力机制的多层特征传递卷积神经网络来对编码进行加速。

通过训练CTU结构预测神经网络并应用于实时的帧内编码中，将大幅度降低其编码时间。其中由于神经网络预测块划分所占用时间比率较低，更多的时间花费在RMD过程与RDO过程中进行计算上。为了进一步加速编码，将RMD过程中35种候选模式全遍历的过程优化为采样部分候选模式，从而计算较少的基于SATD的损失值并从中选取较低的几个点搜索并计算其附近的候选模式的损失值，将RDO过程优化为根据损失值排序的候选模式中前后损失值的差值来进行率失真优化的早停止决策，从而减少RMD过程和RDO过程所计算的候选模式数。

2 HEVC帧内快速算法 2.1 CTU结构预测的神经网络

HEVC中CTU的递归四叉树分区使其CU块的大小可以实现从最大的64×64到最小的8×8的块尺寸变化，如图1。在帧内编码阶段，具有平滑和不复杂纹理的CU块优先选择较大的尺寸以减少率失真损失。对于具有更复杂纹理特征的CU块将选择较小的尺寸以减少率失真损失。

图 1 CTU四叉树递归分区方式，数字代表CU块对应的深度 Figure 1 An example of a recursive partition of a CTU quadtree, where the number represents the depth corresponding to the CU block

在CTU块结构中，编码器通过比较当前CU块的率失真损失和将其划分成4个子CU后得到的率失真损失之和，来决定对当前CU进行划分或不划分。如果划分损失值小于未划分损失值，则将CU块标记为划分。否则，该CU块被标记为不划分，如式(1)所示。

$ S{\text{ = }}\left\{ \begin{gathered} {\text{non-split , }}C_{{\text{RD}}}^{{\text{parent}}} \leqslant \sum {C_{{\text{RD}}}^{{\text{child}}}} \\ {\text{split , }}C_{{\text{RD}}}^{{\text{parent}}}{\text{ \gt }}\sum {C_{{\text{RD}}}^{{\text{child}}}} \\ \end{gathered} \right. $

(1)

式中：S为CU块划分的状态，$ C_{{\text{RD}}}^{{\text{parent}}} $为父块的率失真损失，$ C_{{\text{RD}}}^{{\text{child}}} $为子块的率失真损失。为了最小化率失真损失，编码器必须计算所有CU块的35种帧内预测模式，并将率失真损失最低的结构作为最佳结构。由于从最大的CU块到最小的CU块的总CU数量为81，完整的率失真优化过程需要对81个CU进行帧内预测，得到预测的残差块，然后对预测的残差块进行变换和量化，最后对熵编码确定编码码率，对量化后的图像进行反量化和反变换，得到重建的图像块并进行环路滤波，再与原始YUV图像块进行失真值计算。得到失真值以及码率后即可计算出率失真损失值，编码器将选择最小率失真损失值的结构作为CTU编码的最优结构。

在整个帧内编码中，RDO是较为耗时的部分，为了提高编码速度，HEVC中使用了RMD对其进行加速，通过计算35种帧内模式的基于SATD的损失值来对率失真损失进行近似，再通过选择低损失值的预测模式作为RDO的候选模式，减少RDO过程中需要计算的帧内模式的数量，从而加快编码速度。但与AVC相比，HEVC的编码时间仍有明显增加。为了避免冗长的率失真优化过程，本文提出了一个卷积神经网络来加速CTU的结构划分过程。

图像的纹理结构反映了编码器将如何划分CTU在编码器中，亮度分量主导CTU图像块的色度分量，所以CTU图像块的亮度分量被用作神经网络的图像输入。由于量化值作为另一个因素能极大地影响率失真损失值，因此作为神经网络末端的全连接层的另一个输入值。如图2，首先将CTU亮度分量图像作为神经网络前端的输入，经过了8×8的卷积，4×4的卷积层与2×2的卷积层后经过批归一化层并进行合并。

图 2 CTU结构预测神经网络结构图 Figure 2 CTU structure prediction neural network structure

经过3次的自注意力层与2×2的卷积层，并将每次2×2的卷积层的输出进行展开合并到全连接层中构成特征金字塔，并将量化参数也在此阶段一并合入全连接层，经过全连接层后再连接下一层不同的全连接层输出各个深度的结构预测结果。

网络中所有的卷积核都具有偶数边长，并且步长等于边长。使用具有偶数步长和边长的卷积核有助于保持图像尺寸不变。在视频编码过程中，通常需要在多个编码层次上进行操作。通过使用具有偶数步长和边长的卷积核，可以确保每次降采样或上采样时，图像的宽度和高度都能被2整除。这有助于保持图像尺寸的一致性，并避免在处理过程中产生不必要的边缘填充。

HEVC中的编码块分割采用四叉树结构。这种方法要求每个子区域的尺寸相同，且宽度和高度都是2的整数倍。为了保证图像尺寸与四叉树结构的一致，编码过程中使用了偶数步长和边长的卷积核。这样提取的特征可以看作是编码图像局部块区域的整体特征。当卷积核的边长和步长都是偶数时，输出的特征图的空间维度恰好为1×1，2×2，4×4，8×8。这意味着卷积神经网络模型能够在64×64的CTU中实现对特定尺寸大小的CU进行无边界干扰的特征提取，如图3所示。

图 3 偶数卷积核边长和步长与编码块划分方式对应 Figure 3 The even convolution kernel size and stride correspond to the coding block partitioning

若使用卷积核为单数且步长为1的卷积核对CTU进行特征提取，由于卷积操作在图像边界附近的区域会使得边界信息被平滑和混合，可能会导致特征图失去CU的边界特性。这是因为当卷积核的大小为奇数且步长为1时，卷积核不能有效地捕捉到CU边界之间的差异和结构信息，从而影响模型在处理CU边界特性时的性能。

空间自注意力模块为每个特征图的每个区域分配一个权重，反映该像素与其他像素之间的关系。在特征提取时，模型可以关注到与当前像素距离较远但具有相关性的其他像素。这种全局关注机制使得空间自注意力模块能够捕捉图像块内部的长距离相关性，提高预测效果。之前的偶数卷积核边长和步长可以隔离同一深度的CU块之间的图像块的相互作用，但没有考虑块之间的关系。而左上角的CU块比右下角的CU块更接近参考像素，CTU中CU块的不同位置会影响参考像素对CU块的影响。因此，在输出阶段为了进行特征整合，需要使用全连接层对3个深度的联合特征图构成特征金字塔进行进一步的特征提取，考虑CTU中不同深度的CU块之间的制约关系以及同一深度不同位置的CU块之间的相互影响，这一过程中使用的全连接层称为特征融合全连接模块。特征融合全连接模块的作用是将卷积神经网络对各个CU块进行隔离性的深度特征提取后的结果进行重新关联。由于原编码器的方法中父CU块与子CU块之间也需要比较率失真损失值进行划分决策，因此这一过程相当于对各个特征进行整合决策并进行融合提取。将融合后的特征送入3个不同的全连接模块，输出3个不同维度的预测结构，实现3个深度的划分预测，完成CTU帧内划分结构的预测。其中神经网络需要优化损失函数为对所有预测输出与真实值进行交叉熵计算的总和，如式 (2) 所示。

$ L = \sum\limits_{m = 1}^{21} {{{\rm{CEL}}} ({y_m},{{\hat y}_m}) } $

(2)

式中：$ L $为神经网络需要优化的目标损失函数，$ {\text{CEL}} $为交叉熵损失函数，$ y $为真实标签，$ \hat y $为神经网络的预测值。由于深度0的CU块数量为1对应图2中的深度0输出，深度1的CU块数量为4对应图2中的深度1输出，深度2的CU块数量为16对应图2中的深度2输出，则所有需要做出是否向下划分决策的CU块的数量为21，即$ m $的最大取值为21。将所有神经网络的预测输出经过sigmoid函数后需要计算21次交叉熵并求和即是损失函数$ L $。

2.2 RMD采样搜索

HEVC的帧内预测中有35种帧内预测模式，35种模式若全部经过RDO过程进行率失真值的计算，则会极大增加编码器的计算负担，进而增加帧内编码时间。因此，HEVC使用了基于SATD的损失值 $ {C_{\text{S}}} $对编码块进行计算，将35种帧内预测模式计算出编码块的损失值$ {C_{\text{S}}} $来对其率失真损失值$ {C_{{\text{RD}}}} $进行估计，通过这种方式来对帧内编码进行加速。虽然RMD中的$ {C_{\text{S}}} $能够在一定程度上估计率失真损失值，从而减少了RDO过程的候选模式数，但RMD本身占用了一定的时间，为了对RMD本身进行加速，本文提出了对RMD的模式进行采样搜索的方式进行选择，从而降低RMD过程所计算的帧内模式的数量，其中基于SATD的损失值$ {C_{\text{S}}} $的计算式如式 (3) 所示。

$ {C_{\text{S}}}{\text{ = SATD }} + \lambda \times R $

(3)

式中：SATD为对预测残差进行哈德玛变换后所计算出的SATD值，$ \lambda $为权衡系数，$ R $为码率，$ {C_{\text{S}}} $则代表基于SATD值的率失真损失估计值。首先，原RMD过程将当前的CU块进行35种的$ {C_{\text{S}}} $值计算，并在其中选取较低的几个$ {C_{\text{S}}} $值作为RDO过程的候选模式数。其中候选模式列表$ {\text{ML}} $的长度$ K $根据深度从浅到深分别为{3，3，3，8}，即除了深度3为8个候选模式外，深度0，1，2均为3个候选模式。若开启了最有可能模式（Most Probable Mode, MPM）选项则会在后续RDO时进行模式补充。其中模式0与模式1为直流模式与平面模式，模式2至模式34为角度预测模式。

基于图像具有结构性的假设，认为编码图像在相邻的角度预测模式下大概率呈现连续分布的现象，这意味着极小值的角度预测模式的相邻模式也应有着较低的$ {C_{\text{S}}} $值，极大值的角度预测模式的相邻模式也应有着较大的$ {C_{\text{S}}} $值。

基于此假设，本文提出的方法将33种角度预测模式中选取8个模式作为初选模式添加进模式搜索列表$ {\text{MFL}} $的中，并计算8个初选模式的$ {C_{\text{S}}} $值，在8个初选模式中选取最低$ {C_{\text{S}}} $值的角度模式的左右两侧各2个模式作为次选补充模式，选择次低$ {C_{\text{S}}} $值的两个角度模式的左右两侧各1个模式作为次选补充模式添加进模式搜索列表$ {\text{MFL}} $，并对次选模式进行$ {C_{\text{S}}} $值计算。

其中，由于模式0与模式1为非角度预测模式，则在每次RMD过程中都保留这两个模式的计算。因此，进行加速后的RMD过程从35种帧内预测模式的全遍历计算到2 (模式0与模式1) +8(初选模式) +4 (最低初选模式的左右各2个次选模式) +2×2 (次低2个初选模式左右各1个次选模式) 共18个帧内角度预测模式进行$ {C_{\text{S}}} $值的计算，得到对应的搜索$ {C_{\text{S}}} $值列表$ {\text{SFL}} $，再从中根据深度选取K个较低的$ {C_{\text{S}}} $值组成候选模式列表$ {\text{ML}} $以及对应的候选模式$ {C_{\text{S}}} $值列表$ {\text{SL}} $。

根据实验结果可得，采样搜索对RMD过程进行加速能够显著降低RMD过程的计算模式数，同时保证一定的最低与次低$ {C_{\text{S}}} $值的命中率，采样方式例子如图4所示。当最低$ {C_{\text{S}}} $值的帧内预测模式$ {M_{{\text{L0}}}} $为24时，添加22，23，25，26模式为补充的次选模式；当次低$ {C_{\text{S}}} $值的帧内预测模式$ {M_{{\text{L1}}}} $为20，$ {M_{{\text{L2}}}} $为8时，添加19，21，7，9为补充的次选模式。具体算法流程如图5所示。

图 4 RMD采样搜索过程 Figure 4 RMD sampling search process

图 5 粗模式决策的采样搜索算法流程图 Figure 5 Flowchart of the sampling search algorithm for RMD

使用RMD采样搜索的方式可以令RMD过程中需要计算的帧内预测模式从35种减少到18种，实现了帧内编码的加速，但是基于数值特征进行搜索预测的方式可能会存在错误预测的不稳定问题。

由于该方法基于图像具有结构性的假设，对于大部分具有结构性较为突出的编码图像块上会有着更高的预测准确率，实现高效的帧内编码加速。而对于少部分具有结构性不突出或过于复杂且不规律密集纹理的编码图像块上使用RMD采样搜索方法可能会出现一定程度的错误预测，需要通过实验确定所提出的方法的预测准确率是否在加速编码算法的可接受范围之内。

2.3 RDO早停止策略

率失真优化过程将对帧内预测模式进行完整的率失真损失值计算，包括帧内预测、变换、量化、熵编码、反量化、反变换，根据帧内预测模式计算出重构图像，并计算失真值，再计算出率失真损失值。该过程是编码器在帧内编码过程中最耗费时间的过程，为了降低编码在RDO过程的编码时间消耗，本文提出了率失真优化的早停止策略。

假设将RMD过程中计算出的$ {C_{\text{S}}} $值作为率失真损失值的估计，这意味着率失真损失值将在$ {C_{\text{S}}} $值的附近上下波动，如当候选模式$ {M_1} $比$ {M_2} $的$ {C_{\text{S}}} $值小且差距较大的时，说明$ {M_1} $模式的率失真损失值大概率小于$ {M_2} $模式的率失真损失值，如图6所示。当前后$ {C_{\text{S}}} $值相差过大时，则认为停止点前的候选模式需要进行完整的率失真优化过程计算，对于停止点以及停止点后的候选模式则执行早停止策略，从而实现减少率失真优化计算模式数的目的。

图 6 不同的候选模式列表的SATD损失值分布例子 Figure 6 Example of distribution of SATD loss values in different candidate mode lists

基于此假设，先由RMD过程得到较低$ {C_{\text{S}}} $值的多个候选帧内预测模式列表$ {\text{ML}} $以及对应的$ {C_{\text{S}}} $值列表$ {\text{SL}} $，再遍历$ {\text{SL}} $计算前后的$ {C_{\text{S}}} $值之差得到$ {C_{\text{S}}} $差值列表$ {\text{DSL}} $，当$ {\text{DSL}} $中出现前一个模式的$ {C_{\text{S}}} $差值小于后一个模式的$ {C_{\text{S}}} $差值时，则选择跳过该模式后续的候选模式的率失真优化过程，实现率失真优化中的早停止策略。

其中，经过统计后得到当$ {C_{\text{S}}} $最低值为模式0或模式1时，率失真损失值最低的帧内预测模式也大概率为模式0和模式1。率失真优化早停止策略执行流程如图7所示，最终得到的K的值即为率失真优化过程中需要计算的最终候选模式数量，也即对应图6中停止点前面模式的数量。

图 7 RDO早停止策略算法流程图 Figure 7 Flowchart of the early stopping strategy algorithm for RDO

所提出的RDO早停止策略是基于$ {C_{\text{S}}} $为$ {C_{{\text{RD}}}} $的估计值的假设，因此对于部分$ {C_{\text{S}}} $与$ {C_{{\text{RD}}}} $偏差过大的编码块可能出现误判的情况，并经过RMD采样搜索的方式进行加速后，一定程度上会降低判断的准确性。但由于已使用神经网络对CTU的块结构进行限定，不会令该类型的决策误判导致率失真性能出现过多的下降。

3 实验结果

本文进行了一系列实验以评估所提出的方法的性能。实验条件如下：显卡为RTX2060 12 G；内存为32 G DDR4 3600 MHz；CPU 为AMD Ryzen 5 5600X 六核处理器，主频3.7 GHz。所使用的深度学习框架为Tensorflow。

编码配置为全帧内编码（All Intra），所有编码帧全为I帧，量化参数QP值取22，27，32，37。首先在图8给出了CTU块划分预测神经网络的训练与测试损失值以及不同深度预测的准确率，学习速率为0.00005。每次训练的单个批次大小为128。神经网络模型的参数量为0.8M，计算速度较快且需要训练的迭代次数较少，在仅使用神经网络进行预测时，在HM上编码平均减少约61.744%的编码时间，如表1所示，减少时间百分率$ \Delta T $的计算方法如式 (4) 所示。

图 8 神经网络模型的损失值与各个深度的准确率 Figure 8 Loss value of neural network model and accuracy of each depth

表 1 仅使用神经网络对帧内编码加速的结果 Table 1 Results of intra coding acceleration using only neural network

$ \Delta T = \frac{{{T_{{\text{src}}}} - {T_{{\text{ours}}}}}}{{{T_{{\text{src}}}}}} \times 100{\text{%}} $

(4)

式中：$ {T_{{\text{ours}}}} $为所提出的方法所编码的时间，$ {T_{{\text{src}}}} $为HEVC标准参考软件HM原方法所编码的时间。

表2给出了RMD采样搜索的在不同深度上的最低$ {C_S} $值候选模式与次低$ {C_S} $值的候选模式的命中情况以及减少的计算模式的比率。

表 2 使用RMD采样搜索方法的在HM原编码方法上的准确率 Table 2 Accuracy of using the RMD undersampling search method in the original encoder of HM

表3给出了本文提出的算法在HEVC不同测试序列下全帧内配置，使用量化参数为22，27，32，37的编码结果，为整体算法包括神经网络、RMD采样搜索以及RDO早停止策略的结果。可以看到，所提出的方法在所有测试序列中加速效果均高于其余对比方法。衡量图像质量的关键指标为峰值信噪比（Peak Signal-to-noise Ratio，PSNR）。

表 3 本文所提出的算法在不同HEVC测试序列下的详细测试结果 Table 3 Detailed test results of the proposed algorithm under different HEVC test sequences

表4给出了不同方法的在所有测试序列中的平均结果，Ours为本文提出的方法，平均减少78.15%的帧内编码时间，远高于其余方法所减少的编码时间。

表 4 所提出方法与不同方法在测试序列上的平均对比结果 Table 4 Average performance results of the different methods in the test sequence

BD-PSNR和BD-RATE用于比较不同视频编码器性能的指标。BD-RATE表示在同一视频客观质量的情况下，提出的算法与原始算法相比的码率增加量。BD-PSNR表示在同一视频码率的情况下，所优化后算法与原始算法相比的图像质量的改善情况，BD-PSNR和BD-RATE的计算流程为：用相同的量化参数计算原编码方法与所提出的编码方法记录码率与失真点数据，并将码率取对数。对每个编码数据点进行曲线拟合。对于每条曲线，对度量范围进行数值积分，并将对数积分结果转化为线性结果，最后计算出原编码方法与所提出的编码方法的百分比差异。BD-PSNR和BD-RATE这两个指标各自关注编码效率和编码质量，有助于评估不同编码算法的性能优劣，本文所记录的编码数据使用常用的VCEG-AE07工具对两者进行计算。

4 结论

本文深入探讨了如何通过采用神经网络和高效算法来提高高效视频编码 (HEVC) 编码器的实时性。HEVC在编码性能方面相较于先前的高级视频编码 (AVC) 有显著改进，这主要归功于其采用递归四叉树划分的编码树单元 (CTU) 以及从9种扩展到35种的帧内预测模式。然而，这些优势同时也导致了较高的编码复杂度。

为了提高HEVC编码器的实时性，本文首先采用神经网络预测CTU的划分结构，从而避免了对所有CU尺寸进行全遍历计算RMD和RDO。此方法在HEVC测试序列上实现了约61%的编码时间缩减。接着，通过采样搜索算法对RMD过程进行加速，将35种候选帧内预测模式缩减到18种，实现48.57%的缩减比率。此外，本文还提出了一种基于RMD过程得到的候选模式的$ {C_{\text{S}}} $值进行率失真优化的早停止策略，用以加速RDO过程。在准确率保持在90%以上的情况下，该算法实现了48.57%的率失真优化候选模式数的减少。

综合使用神经网络进行CTU块结构预测加速、采样搜索对RMD过程加速以及率失真优化早停止策略对RDO过程加速后，本文提出的方法能够在测试序列上实现平均78.15%的编码时间缩减，同时BD-PSNR仅为−0.168 dB，BD-RATE为3.49%。这一结果证明了所提方法在保持较低性能损失的同时，显著提高了HEVC编码器的实时性，具有广泛的实际应用价值。

本文在提高视频编解码帧内快速算法方面取得了显著成果，通过优化CTU的编码块结构划分和候选模式的缩减，实现了编码器的编码效率的提高。然而，随着加速方法的叠加应用，进一步提高编码效率变得越发困难。因此，未来的研究方向将转向降低编码块的分辨率以实现粗模式决策和率失真优化的粗略计算，从而进一步提高编码速度。

参考文献

[1]	LENG J, SUN L, IKENAGA T, et al. Content based hierarchical fast coding unit decision algorithm for HEVC[C]//2011 International Conference on Multimedia and Signal Processing. Guilin: IEEE, 2011: 56-59.
[2]	唐燕, 王晓东, 章联军. 一种HEVC的CU分割模式快速算法[J]. 无线通信技术, 2020, 29(3): 12-15. TANG Y, WANG X D, ZHANG L J. A fast CU partition mode algorithm for HEVC[J]. Wireless Communication Technology, 2020, 29(3): 12-15. DOI: 10.3969/j.issn.1003-8329.2020.03.003.
[3]	ZHANG Y, KWONG S, JIANG G, et al. Statistical early termination model for fast mode decision and reference frame selection in multiview video coding[J]. IEEE Transactions on Broadcasting, 2012, 58(1): 10-23. DOI: 10.1109/TBC.2011.2174282.
[4]	何书前, 余绪杭, 邓正杰. 高效的H. 265/HEVC快速帧内编码方法[J]. 计算机工程与设计, 2022, 43(9): 2601-2608. HE S Q, YU X H, DENG Z J. Efficient H. 265/HEVC fast intra frame coding method[J]. Computer Engineering and Design, 2022, 43(9): 2601-2608.
[5]	郭磊, 王晓东, 徐博文, 等. 基于HEVC的帧内预测模式决策和编码单元划分快速算法[J]. 计算机应用, 2018, 38(4): 1157-1163. GUO L, WANG X D, XU B W, et al. Fast intra mode prediction decision and coding unit partition algorithm based on high efficiency video coding[J]. Journal of Computer Applications, 2018, 38(4): 1157-1163.
[6]	SHEN L, ZHANG Z, LIU Z. Effective CU size decision for HEVC intracoding[J]. IEEE Transactions on Image Processing, 2014, 23(10): 4232-4241. DOI: 10.1109/TIP.2014.2341927.
[7]	NISHIKORI T, NAKAMURA T, YOSHITOME T, et al. A fast CU decision using image variance in HEVC intra coding[C]//2013 IEEE Symposium on Industrial Electronics & Applications. Kuching: IEEE, 2013: 52-56.
[8]	汤进, 彭勇. 基于时空相关与纹理特性的HEVC编码单元快速划分算法[J]. 计算机与数字工程, 2019, 47(007): 1753-1756. TANG J, PENG Y. Fast coding unit partition algorithm for HEVC based on temporal-spatial correlation and texture property[J]. Computer & Digital Engineering, 2019, 47(007): 1753-1756.
[9]	伍冠健, 宋立锋. HEVC快速帧内模式和深度决策算法[J]. 广东工业大学学报, 2015, 32(4): 132-137. WU G J, SONG L F. Fast intra mode and depth decision algorithm for HEVC[J]. Journal of Guangdong University of Technology, 2015, 32(4): 132-137.
[10]	JAMALI M, COULOMBE S, CARON F. Fast HEVC intra mode decision based on edge detection and SATD costs classification[C]//2015 Data Compression Conference. Snowbird: IEEE, 2015: 43-52.
[11]	MIN B, CHEUNG R. A fast CU size decision algorithm for the HEVC intra encoder[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2014, 25(5): 892-896.
[12]	石敏, 席诗华, 易清明. 基于预测单元尺寸的高效视频编码帧内预测模式快速选择的改进算法[J]. 激光与光电子学进展, 2019, 56(20): 226-234. SHI M, XI S H, YI Q M. Improved algorithm for intraframe prediction mode fast selecting in high-efficiency video coding based on size of prediction units[J]. Laser & Optoelectronics Progress, 2019, 56(20): 226-234.
[13]	CORREA G, ASSUNCAO P A, AGOSTINI L V, et al. Fast HEVC encoding decisions using data mining[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2014, 25(4): 660-673.
[14]	HU Q, SHI Z, ZHANG X, et al. Fast HEVC intra mode decision based on logistic regression classification[C]//2016 IEEE International Symposium on Broadband Multimedia Systems and Broadcasting (BMSB) . Nara: IEEE, 2016: 1-4.
[15]	NAIR P S, RAO K R, NAIR M S. A machine learning approach for fast mode decision in HEVC intra prediction based on statistical features[J]. Journal of Intelligent and Fuzzy Systems, 2019, 36(3): 2095-2106. DOI: 10.3233/JIFS-169921.
[16]	LIU D, LIU X, LI Y. Fast CU size decisions for HEVC intra frame coding based on support vector machines[C]//2016 IEEE 14th Intl Conf on Dependable, Autonomic and Secure Computing, 14th Intl Conf on Pervasive Intelligence and Computing, 2nd Intl Conf on Big Data Intelligence and Computing and Cyber Science and Technology Congress (DASC/PiCom/DataCom/CyberSciTech) . Auckland: IEEE, 2016: 594-597.
[17]	LIU X, LI Y, LIU D, et al. An adaptive CU size decision algorithm for HEVC intra prediction based on complexity classification using machine learning[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2017, 29(1): 144-155.
[18]	RYU S, KANG J. Machine learning-based fast angular prediction mode decision technique in video coding[J]. IEEE Transactions on Image Processing, 2018, 27(11): 5525-5538. DOI: 10.1109/TIP.2018.2857404.
[19]	周帅燃, 杨静. 低复杂度HEVC帧内编码快速划分算法[J]. 小型微型计算机系统, 2021, 42(7): 1475-1478. ZHOU S R, YANG J. Fast partition algorithm of low complexity HEVC intra coding[J]. Journal of Chinese Computer Systems, 2021, 42(7): 1475-1478. DOI: 10.3969/j.issn.1000-1220.2021.07.022.
[20]	易清明, 林成思, 石敏. 利用深度学习的HEVC帧内编码单元快速划分算法[J]. 小型微型计算机系统, 2021, 42(2): 368-373. YI Q M, LIN C S, SHI M. Fast HEVC coding units partitioning algorithm based on deep learning[J]. Journal of Chinese Computer Systems, 2021, 42(2): 368-373. DOI: 10.3969/j.issn.1000-1220.2021.02.025.
[21]	LIU Z, YU X, GAO Y, et al. CU partition mode decision for HEVC hardwired intra encoder using convolution neural network[J]. IEEE Transactions on Image Processing, 2016, 25(11): 5088-5103. DOI: 10.1109/TIP.2016.2601264.
[22]	LAUDE T, OSTERMANN J. Deep learning-based intra prediction mode decision for HEVC[C]//2016 Picture Coding Symposium (PCS) . Nuremberg: IEEE, 2016: 1-5.
[23]	CHEN Z, SHI J, LI W. Learned fast HEVC intra coding[J]. 2020 IEEE Transactions on Image Processing, 2020, 29: 5431-5446.
[24]	XU M, LI T, WANG Z, et al. Reducing complexity of HEVC: a deep learning approach[J]. IEEE Transactions on Image Processing, 2018, 27(10): 5044-5059. DOI: 10.1109/TIP.2018.2847035.
[25]	贾克斌, 崔腾鹤, 刘鹏宇, 等. 基于深层特征学习的高效率视频编码中帧内快速预测算法[J]. 电子与信息学报, 2021, 43(7): 2023-2031. JIA K B, CUI T H, LIU P Y, et al. Fast prediction algorithm in high efficiency video coding intra-mode based on deep feature learning[J]. Journal of Electronics & Information Technology, 2021, 43(7): 2023-2031. DOI: 10.11999/JEIT200414.