基于MSSIM商一致性的视频插帧和删帧篡改检测

引用本文

张珍珍, 侯建军, 李赵红, 郭胜. 基于MSSIM商一致性的视频插帧和删帧篡改检测[J]. 北京邮电大学学报, 2015, 38(4): 84-88. 复制到剪切板

ZHANG Zhen-zhen, HOU Jian-jun, LI Zhao-hong, GUO Sheng. Video-Frame Insertion and Deletion Detection Based on Consistency of Quotients of MSSIM[J]. JOURNAL OF BEIJING UNIVERSITY OF POSTS AND TELECOMMUNICATIONS, 2015, 38(4): 84-88. 复制到剪切板

Permissions

《北京邮电大学学报》编辑部所有

基于MSSIM商一致性的视频插帧和删帧篡改检测

张珍珍, 侯建军, 李赵红, 郭胜

北京交通大学电子信息工程学院, 北京 100044

作者简介: 张珍珍(1986—), 女, 博士生, E-mail: 11111053@bjtu.edu.cn; 李赵红(1982—), 女, 副教授.

收稿日期: 2014-12-30

基金项目: 中央高校基本科研业务费专项资金资助项目(W13JB00070, W15JB00280);教育部留学回国人员科研启动基金资助项目(W15C300020)

摘要

插帧和删帧是常见的视频帧间篡改方式, 针对此问题, 提出一种基于结构相似度均值(MSSIM)商的一致性检测算法.对于一段连续拍摄的视频, 由于视频内容的连续性, 相邻帧之间的MSSIM商具有连续现象.而对于经过插帧或删帧篡改的视频, 其篡改点位置的MSSIM商会发生突变, 从而破坏其一致性.为此, 该算法首先计算每相邻两帧间的MSSIM值, 之后对相邻MSSIM求商并以此作为特征, 而后两次利用切比雪夫不等式及阈值法对提取特征进行异常点检测, 从而实现对视频插帧和删帧的篡改检测及定位.实验结果表明, 该算法对视频插帧和删帧篡改具有较高的检测率.

关键词: 视频取证插帧和删帧篡改结构相似度均值切比雪夫不等式

中图分类号:TP37 文献标志码:A 文章编号:1007-5321(2015)04-0084-05 DOI:10.13190/j.jbupt.2015.04.018

Video-Frame Insertion and Deletion Detection Based on Consistency of Quotients of MSSIM

ZHANG Zhen-zhen, HOU Jian-jun, LI Zhao-hong, GUO Sheng

Schoolof Electronic and Information Engineering, Beijing Jiaotong University, Beijing 100044, China

Abstract

Frame insertion and deletion are common types of inter-frame forgeries in digital videos. In this article, an efficient method based on consistency of quotients of mean of structural similarity (MSSIM) was proposed. For a continuous shooting video, due to the continuity of video content, the quotient of MSSIM between consecutive frames is continuous. While for a video which has been tampered by inserting a certain number of frames from another video or deleting a certain number of frames, at the tamper point, the quotient of MSSIM becomes rather low, the continuity will be broken. According to the phenomena, MSSIM between every two adjacent frames iscalculated firstly. Then distinguishing feature is obtained by calculating the quotients between every two sequential MSSIMs. At last, insertion and deletion detection and localization can be achieved by using Tchebycheff inequality twice followed by decision-thresholding. Experiments show that the proposed method has high detection accuracy against both frame insertion and deletion.

Key words: video forensics frame insertion and deletion forgeries mean of structural similarity Tchebycheff inequality

数字视频的真实性和完整性认证一直是信息安全领域的研究热点.主动取证技术如视频水印是此类认证的一个重要手段，然而，其需要在视频拍摄过程中即嵌入认证信息^[1]，这会导致视频拍摄出现滞后现象.与主动取证技术相反，被动取证技术无需预先嵌入信息，从而吸引了越来越多的研究者.

插帧和删帧篡改检测是被动取证技术的主要分支之一. Wang等^[2]、Stamm等^[3]和Feng等^[4]分别对MPEG及H.264视频的帧删除篡改检测进行研究，上述文献的算法受限于视频采用的编码格式，通用性受到影响.为解决此问题，黄添强等^[5]、Chao等^[6]和Zhang等^[7]均将视频分解为图像序列.笔者针对上述3种算法的缺点进行研究，提出基于结构相似度均值(MSSIM, mean of structural similarity)商的更为有效的检测算法.实验结果表明，同上述3种算法对比，该算法对插帧和删帧篡改具有更高的检测率.

1 原始视频及篡改视频的特征分析1.1 结构相似度及其均值MSSIM

与传统的图像质量评价指标均方误差和峰值信噪比相比，结构相似度(SSIM^[8], structural similarity)因其与人类视觉系统具有更高的一致性而被广泛应用，成为衡量图像间相似度的新指标.

MSSIM为SSIM的均值，采用MSSIM作为检测特征是因为其既反映了图像的亮度信息，也反映了图像的结构信息，相对文献[5]仅利用图像的灰度值即内容和文献[7]仅利用图像的局部二值模式即纹理信息而言，该特征更全面地反映了图像的信息，因而会具有更好的区分特性.

首先将图像分为互不重叠的8×8块，然后计算相邻图像X和Y对应8×8块之间的SSIM值，最后对各个8×8块的SSIM求均值即MSSIM并以此表示两幅图像之间的相似度. SSIM由亮度对比、对比度对比和结构对比3个因素组合而成，其定义为

(1a)

(1b)

(1c)

(1d)

其中：x和y分别表示图像X和Y中对应8×8块的序号；式(1a)、式(1b)、式(1c)及式(1d)分别表示x块和y块的亮度对比、对比度对比、结构对比及SSIM值；α、β、γ用来调整相应因素的权重；C₁、C₂、C₃为极小的正常数，为了避免产生分母为零的极端现象.通常情况下有α=β=γ=1，C₃=C₂/2，从而可得

(2)

其中：μ_x、μ_y分别为X和Y中对应8×8块的均值，σ_x、σ_y为相应块的标准差，σ_xy为x块和y块的协方差.据式(2) 可以得到图像X和Y的MSSIM：

(3)

其中M为图像X和Y中8×8块的总个数.

1.2 原始视频及篡改视频的MSSIM商分析1.2.1 分类特征——MSSIM商

视频由连续的图像序列构成，因而相邻帧之间的图像内容具有很高的相似度，而相距较远的两帧之间的相似度会大大降低.据此，计算两两相邻帧之间的MSSIM并以此衡量其相似度.未经篡改的原始视频具有高且接近的MSSIM值，而经过插帧或删帧篡改的视频，其篡改点位置的MSSIM由于图像内容相差较大而骤降，如图 1(a)所示.

图 1 插帧篡改视频的MSSIM及MSSIM商

图 1(a)显示了插入25帧视频两两相邻帧间的MSSIM，其中小圆圈表示的是篡改点位置对应的值.由图 1(a)可知，尽管篡改点位置的MSSIM值较小，但正常位置的MSSIM分布比较杂乱，因而直接利用MSSIM作为特征，其有效性会受到影响.为解决这一问题，采用MSSIM商为分类特征替代MSSIM，其定义：对于长度为n帧的视频，r_k(k=1, 2, …, n－1) 表示第k帧和第k+1帧之间的MSSIM，则MSSIM商为

(4)

图 1(a)视频的MSSIM商如图 1(b)所示，MSSIM商反映了视频内容变化的连续性，减小了MSSIM受视频内容的影响，从而更加稳定.

1.2.2 删帧篡改视频的MSSIM商

图 2所示为删帧篡改视频的MSSIM及MSSIM商，其中前3帧为一个视频的连续3帧，后3帧为将此视频删除100帧后提取的连续3帧.由图 2可得，删帧篡改会导致MSSIM商出现峰值，从而破坏其连续性.值得注意的是，一个篡改点会导致MSSIM商出现一对相邻的峰值.另外，由峰值位置可定位篡改点的位置，以图 2为例，峰值出现在第2个和第3个位置，因而其篡改点在视频的第4帧.插帧篡改视频会出现相似的现象，而原始视频的MSSIM商具有连续性，不会出现此类峰值.由于篇幅的限制，此处不再赘述.

图 2 删帧篡改视频帧及其相应的MSSIM及MSSIM商

2 切比雪夫不等式及检测算法2.1 切比雪夫不等式

切比雪夫不等式是概率论中的一个重要内容，它描述的是对于任意一个随机变量，其任意一个取值都以一定的概率靠近其均值，且此概率与方差有关，与随机变量的分布无关.对于任意一个均值为μ，方差为σ²的随机变量Z，其具体定义为

(5a)

(5b)

其中ξ为标准差σ的整数倍.

由式(5a)和式(5b)可得, 对任意的数据集合{z₁, z₂, …, z_n}，其取值分布在区间(μ－ξ, μ+ξ)的概率至少为1－σ²/ξ².

当ξ=3σ时，P(|Z－μ| < 3σ)≥8/9≈88.89%；

当ξ=4σ时，P(|Z－μ| < 4σ)≥15/16≈93.75%；

当ξ=5σ时，P(|Z－μ| < 5σ)≥24/25≈96%.

由上所述，可利用切比雪夫不等式剔除异常点，即对于集合的样本点z_i，若其残差Δz_i满足Δz_i=|z_i－μ| > p₁σ(p₁为正整数)，则认为z_i为异常点.由1.2节可知，原始视频的MSSIM商具有连续性，而篡改视频在篡改点位置的MSSIM商会出现异常，因而切比雪夫不等式可用来检测并定位MSSIM商的异常点.

2.2 检测算法

所提出的检测算法由两部分组成：特征提取和异常点检测，算法流程如图 3所示.

图 3 检测算法流程

在特征提取部分，首先将给定视频转换为图像序列并将每一帧图像转变为灰度图，然后分别利用式(3) 和式(4) 求两两相邻帧之间的MSSIM及MSSIM商.

在异常点检测部分，由于切比雪夫不等式适用于任意分布类型的随机变量，且文献[5]两次利用切比雪夫不等式检测异常点，并取得了良好的检测效果，受此启发，所提算法将切比雪夫不等式作为检测算法的一部分.不过两次利用切比雪夫不等式后依然存在虚警的情况，针对此问题，对检测算法进行了改进，即在两次利用切比雪夫不等式后使用阈值法，从而进一步提高检测精度.

假设给定视频长度为n帧，经过特征提取，将得到元素个数为n－2的数据集合，其元素记为Δr_k(k=1, 2, …, n－2)，其异常点检测的步骤如下：

步骤1 计算数据集合Δr_k(k=1, 2, …, n－2) 的均值μ₁和标准差σ₁，其中

步骤2 初次使用切比雪夫不等式，寻找满足|Δr_k－μ₁| < p₁σ₁的数据点，并将此集合记为Δr′.

步骤3 计算Δr′的均值μ₂和标准差σ₂，并再次对Δr_k利用切比雪夫不等式，寻找满足|Δr_k－μ₂|≥p₂σ₂(p₂为正整数)的可疑异常点.两次使用切比雪夫不等式的原因是插帧或删帧篡改视频的σ₁比较大，如果只利用一次切比雪夫不等式，直接根据|Δr_k－μ₁|≥p₁σ₁判断异常点会导致漏检.初次使用切比雪夫不等式的作用是寻找正常数据集，一般情况下p₁≤p₂，笔者将p₁设为3.

步骤4 利用阈值法判定最终的异常点.因为在σ₂很小的情况下，步骤3得到的可疑异常点中会存在正常数据点，从而出现虚警的情况，为了减小虚警率，选择阈值T对可疑异常点进行判决.由1.2节可知，一个篡改点会导致一对相邻峰值的出现，因而算法首先将单个峰值的可疑异常点排除，从而得到l对可疑异常点.首先计算每对可疑异常点的均值v_m(m=1, 2, …, l)，然后对所有v_m求均值v.最终的异常判定原则是

(6)

3 实验结果分析3.1 测试视频库

所用测试视频库来自上海交通大学，由5个子视频库构成：原始视频库及由原始视频库产生的删除25帧、删除100帧、插入25帧及插入100帧4个篡改视频库.其中，原始视频库包含599个视频，来自公开的KTH视频库，4个篡改视频库包含的视频个数分别是599、598、599、599.原始视频库及篡改视频库均为压缩视频并封装为avi格式.视频库包含6类运动：拳击、拍手、挥手、散步、慢跑及跑步.测试视频的帧率为25帧/秒.

3.2 评价标准

实验采用准确率R_p和召回率R_r来评价算法的有效性.

(7)

(8)

其中：N_c为被正确检测的视频个数，N_f为虚警的视频个数，N_m为漏检的视频个数. R_p越大，表示虚警的视频个数越少；R_r越大，表示漏检的视频个数越少.

3.3 实验结果

由上所述，p₂及阈值T是算法的关键参数，经过大量实验，得到插帧篡改的最优参数为p₂=9、T=0.6，删帧篡改的最优参数为p₂=6、T=1.插帧和删帧篡改的最优参数不同是因为插帧篡改的MSSIM商比删帧篡改的大很多.为说明算法的有效性，将文献[5-7]的算法及其最优参数移植到自己的测试视频库，并与所提算法比较，实验结果如表 1和表 2所示.

表 1 算法的准确率R_p比较

表 2 算法的召回率R_r比较

由表 1和表 2可得，所提算法的准确率和召回率均优于文献[6]及文献[7]；虽然在召回率上比文献[5]稍差，但文献[5]的准确率却不尽人意，即使准确率最高的删除100帧视频库，其值仅为61.96%.

上述实验为插帧篡改和删帧篡改分别选择了不同的最优参数，然而在现实情况下，检测者无法提前预知篡改类型，因而，将4个篡改视频库混合，并为其找到一组最优的参数p₂=6、T=0.9，并同文献[7]进行比较，实验结果如表 3所示.实验结果表明，所提算法在准确率和召回率方面均优于文献[7]约7个百分点.

表 3 混合视频库的实验结果

此外，特征提取时间也是一个算法必须考虑的因素，统计对150个视频提取MSSIM商所需时间并以其均值作为每个视频提取特征所需时间.实现所提算法的计算机配置是Intel(R) Core (TM)、3.4GHz、4GB内存，软件为Matlab8.0.0.783、R2012b.为与文献^[5-7]提取特征所需时间对比，在相同的实验环境下对相同的视频进行统计，并将实验结果示于表 4.由表 4可以看出，所提算法损失了运行效率，提高了检测精度，但对于视频来说，9.35s提取一个视频的特征尚在承受范围之内.

表 4 各算法提取特征所需时间

4 结束语

笔者提出了一种针对视频插帧和删帧篡改的检测算法，该算法将视频转换到空域处理，同视频编码时采用的编码协议无关.实验表明，该算法与其他算法相比具有更高的检测率.该算法也具有不足之处，其只能定位篡改点，并不能区分插帧篡改和删帧篡改，这是下一步的研究工作.另外，视频监控系统近年来发展迅速，考虑在监控视频中删除或插入一个完整事件，这类篡改方式具有很大的现实意义.由于此类篡改在篡改点的内容差异很小，本算法的有效性需要进一步验证，这也将是下一步的一项研究工作.

参考文献

[1]	谌志鹏, 邹建成. 基于对象的抗几何攻击的视频水印算法[J]. 北京邮电大学学报, 2012, 35(4): 33–37. Chen Zhipeng, Zou Jiancheng. Object based watermarking algorithm robust to geometric transformation attacks[J].Journal of Beijing University of Posts and Telecommunications, 2012, 35(4): 33–37.
[2]	Wang Weihong, Farid H. Exposing digital forgeries in video by detecting double MPEG compression[C]//MM and Sec ACM (2006). New York:[s.n.], 2006: 37-47.
[3]	Stamm M C, Sabrinalin W, Rayliu K J. Temporal forensics and anti-forensics for motion compensated video[J].IEEE Trans on IFS, 2012, 7(4): 1315–1329.
[4]	Feng Chunhui, Xu Zhengquan, Zhang Wenting, et al. Automatic location of frame deletion point for digital video forensics[C]//IH & MMSec 2014. Salzburg:[s.n.], 2014: 171-179.
[5]	黄添强, 陈智文, 苏立超, 等. 利用内容连续性的数字视频篡改检测[J]. 南京大学学报(自然科学), 2011, 47(5): 493–503. Huang Tianqiang, Chen Zhiwen, Su Lichao, et al. Digital video forgeries detection based on content continuity[J].Journal of Nanjing University (Natural Science), 2011, 47(5): 493–503.
[6]	Chao Juan, Jiang Xinghao, Sun Tanfeng. A novel video inter-frame forgery model detection scheme based on optical flow consistency[C]//Lecture Notes in Computer Science (2013). Berlin: Spring, 2013: 267-281.
[7]	Zhang Zhenzhen, Hou Jianjun, Ma Qinglong, et al. Efficient video-frame insertion and deletion detection based on inconsistency of correlations between LBP-coded frames[J].Security & Communication Networks, 2015, 8(2): 311–320.
[8]	Wang Zhou, Bovik A C, Sheikh H M, et al. Image quality assessment: from error visibility to structural similarity[J].IEEE Trans on Image Processing, 2004, 13(4): 600–612. doi: 10.1109/TIP.2003.819861