文章信息
- 方天红, 陈庆虎, 鄢煜尘, 周前进
- FANG Tianhong, CHEN Qinghu, YAN Yuchen, ZHOU Qianjin
- 基于统计纹理特征的打印文档认证
- Print document identification based on statistical texture feature
- 武汉大学学报(工学版), 2016, 49(1): 154-160
- Engineering Journal of Wuhan University, 2016, 49(1): 154-160
- http://dx.doi.org/10.14188/j.1671-8844.2016-01-027
-
文章历史
- 收稿日期: 2015-06-18
2. 武汉大学电子信息学院,湖北 武汉 430072
2. School of Electronic Information, Wuhan University, Wuhan 430072, China
随着打印文件广泛应用于人们日常生活当中,与打印文件相关的民事纠纷、刑事案件等越来越多.打印文件是重要的线索或物证,经常需要鉴定打印文件是否被篡改或者查找打印的来源[1].传统的打印文件检验主要依靠人工的方法,效率低且易产生错判和漏判等,物理和化学的方法有可能对检材造成损害,现代的方法主要运用计算机技术来提取打印文档的各种特征,完成文件检验过程[1-6].Mikkilineni等[2]利用灰度共生矩阵(Gray-Level Co-occurrence Matrix,GLCM)方法,提取在英文中出现频率最高的字符“e”的纹理特征;2010年,Mikkilineni等[3]融合纹理特征和条带特征来查找打印源;文献[1]设计了一种新的双极性Hausdorff对字符图像进行有效的匹配;文献[4]利用混合度为3的高斯混合模型(Gaussian Mixture Model,GMM)对文字、噪声和背景进行建模,然后利用EM算法进行参数估计;文献[5]利用打印字符边缘粗糙度来鉴别源打印机;Tsai等[6]利用GLCM和离散小波变换(Discrete Wavelet Transform,DWT)方法,提取扫描中文汉字的特征,来查找打印源.Lee等[7]重点对彩色打印机的识别进行了较深入的研究,在文献[7]中,提取打印彩色图像的噪声特征,并利用支持向量机 ( Support Vector Machine,SVM)分类方法完成对彩色打印机的认证.Zhou等[8]提出了一种基于纹理合成与文本无关的打印文档鉴别方法,并提取合成纹理图像的快速傅里叶(Fast Fourier Transform ,FFT)和GLCM纹理特征,利用SVM分类完成打印文档的认证.上述各种特征提取方法在源打印机识别中,均取得了一定的效果.
在以往的研究[1-5]中,主要针对英文中出现频率最高的字符“e”进行研究,文献[6]选择包含中国书法中最基本八种笔画的“永”字作为研究对象,来查找打印源.全世界约15%的人口在使用汉字,研究基于中文汉字的打印文档鉴别显得尤为重要.文中首先简要分析了激光打印机的结构组成,研究了打印机传动系统对潜影的影响,从中发现打印机内部器件飞棱镜和纸张传动系统会对打印文字的纹理产生重要影响.通过提取显微图像灰度共生矩阵统计纹理特征,并对特征进行选择,最后利用SVM对打印文档进行分类鉴别.
1 打印机传动系统分析激光打印机的整体结构主要由传动系统、激光扫描系统、成像转印系统、传感器和电路等部分组成.打印机传动系统负责打印过程中纸张的传送,由电子控制系统控制机械装置完成传送动作,包括传动齿轮、光电感应器的遮挡杠杆和搓纸轮等机械元件.机械传动系统工作原理基本一致,由于有齿轮啮合误差、硒鼓半径误差等因素的存在[9-10],所以机型不同结构有所差异,传动性能也有差别;同一机型的传动系统由于损耗程度、元件特性等的不一致,传动性能也有所差别.这些差异会造成打印机激光扫描线的不等距.下面以激光打印机为例,从原理上分析打印机产生行扫描线不等距的原因.
图 1为激光打印机硒鼓转动速度与行扫描线打印间隔的关系模型图.其中OPC为激光打印机硒鼓,它由传动齿轮带动转动,激光扫描线以行扫描的方式在硒鼓上生成打印字符潜影,潜影吸附墨粉后转印到纸张上形成打印文件中的字符图像.
![]() |
图 1 激光打印机传动速度与扫描行间距关系 Figure 1 Relationship between the transmission speed of laser printer and the scanning interval |
图 1中:r为硒鼓半径,Δl为相邻行扫描间距,ω为角速度,ω×r为线速度.设θ为Δl对应的旋转角度,则模型的几何关系可表示为
理想情况下硒鼓半径r为定值,但是现实情况中是非理想的,式(1) 中用dr表示半径的变化量.由式(1) 可得:
由式(2) 进一步可得:
由于角速度ω=dθ/dt,将其代入式(3) 得到:
用(I0,t0)来代表t0时刻硒鼓的扫描位置I0,于是点阵行间隔Δl可以由以下积分公式得到:
其中:fs为扫描频率.上式证明了激光打印机传动系统的各运动参数对扫描线间距的影响.首先可以看出Δl与角速度ω有关,受齿轮等传动器件本身特性的影响,ω并不是一个固定值,造成了扫描间距Δl的不等距;dr/dθ代表了另一传动器件硒鼓的半径参数误差,它也直接影响点阵行间距的波动;同时Δl还受积分上限激光器扫描频率fs稳定性的影响.不同打印机其ω、dr/dθ和fs各自特性均不相同,导致其激光行扫描线间距不同,最终打印同一字符在纸张运动方向的潜影也不同,潜影吸附墨粉后纸张运动方向的粉墨纹理也不一样.文献[1]中的研究表明:旋转多棱镜的制造公差会造成激光束在扫描方向的不规则反射.不同打印机由于旋转多棱镜的制造公差不同,相同内容在激光扫描方向产生的潜影也不同.由此可知,不同打印机由于自身旋转多棱镜和传动系统的差异,在打印相同内容时,会在激光扫描方向和纸张运动方向产生自身独有的潜影,使最终得到的粉墨堆积纹理有明显的差异.图 2为自主开发的高倍放大扫描系统[11]采集的4台不同打印机打印相同内容的纹理图像,经过高倍放大后,可以看出他们之间有显著的纹理差异,这种差异为打印文件检验提供了证据.
![]() |
图 2 不同打印机生产的粉墨纹理比较 Figure 2 Toner texture comparison of different printers |
灰度共生矩阵描述的是图像空间中相隔一定距离的两像素之间存在的灰度关系,这种关系是图像中灰度值的空间相关特性.其对图像上保持某距离的两像素分别具有某灰度值的情况进行统计,描述了成对像素的灰度值组合的分布,是一种有效的纹理分析方法,在实际应用中得到了广泛应用.若用灰度共生矩阵来描述纹理图像IMG(m,n)中θ方向且步长为d的两个像素点分别具有灰度i和j同时出现的概率,即P(i,j|d,θ),那么图像IMG(m,n)及对应步长为1,水平方向的P(i,j|1,0) 如图 3所示.
![]() |
图 3 纹理图像IMG(m,n)与灰度共生矩阵P(i,j|d,θ) Figure 3 Texture image IMG(m,n) and corresponding GLCM |
根据文献[2, 3, 6, 12]中对灰度共生矩阵统计纹理特征的定义,文中采用的22维灰度共生矩阵统计纹理特征GLCM22重写如下:
对比度:
相关性:
信息熵:
逆差距:
方差和:
差的方差:
可简写为:GLCM22=[Fea1,Fea2,…,Fea22].
上述各式中:G表示灰度级别;
利用灰度共生矩阵进行图像纹理分析时,往往人工选择上述22维特征中的少数几个统计特征,没有确定的选择依据.文中利用ReliefF算法[13]对上述22维特征进行选择,去除一些效果上相似的冗余特征,选取对鉴别有利的特征.因Relief 算法只能处理两类问题,Kononenko等[13]在Relief 算法[14]的基础上改进提出可解决多类问题的ReliefF算法.ReliefF 算法在处理多类问题时,从同类样本集中取出N个最近邻样本,记为N_n,与此相对应,从不同类样本集中分别取出N个近邻样本,记为N_b.运行算法m次,根据N_n和N_b,并利用下式来更新特征权值向量W:
式中:P(C)为第C类样本占所有类样本(除样本Ri所在类样本外)的比例.
ReliefF算法流程简述如下:
输入:训练样本的特征向量及对应的类别标签,其中N为最近邻样本数目,n为特征维数,m为迭代次数.
输出:对应于特征向量的权值向量W
1) 初始化权值向量W=0;
2) for i:=1 to m;
3) 从样本集S中随机选择一个样本Ri;
4) 找出与样本Ri同类相邻的N个样本N_n;
5) for eachclass C≠class (Ri);
6) 从与样本Ri不同类的样本中,找出N个相邻样本N_b;
7) for A:=1 to n;
8) 使用公式(28) 来计算更新特征权重W.
经过ReliefF算法计算后,会得到一个与特征对应的权值向量W,将向量W的分量中小于等于0权值对应的特征去除,认为其为冗余特征.经过ReliefF算法特征选择后,有效特征为14维,分别是ASM,Cor,Entropy,IDM,SOV,VOD,SOE,DOE,MP,SHADE,PROM,Denergy,ROI_VAR,ROI_Entropy,用符号GLCM14表示.
2.3 分类鉴别在去除一些效果相似的冗余特征后,还需确定灰度共生矩阵的共生方向.如第1节中所分析的,选取激光行扫描方向(0°)和纸张运动方向(90°)作为灰度共生矩阵的方向,对应的特征分别为GLCM14H和GLCM14V,故样本的特征维度为14×2=28维,即GLCM28=[GLCM14H GLCM14V];如果不进行特征选择,则特征为44维,即GLCM44=[GLCM22H GLCM22V].灰度共生矩阵步长的选取比较复杂,这里采用实验的方法来确定最佳步长.
LibSVM[15]是台湾大学林智仁等开发设计的通用SVM软件工具包,主要用于解决分类、回归和分布估计等问题,LibSVM算法是SVM的一种,其原理与支持向量机算法一致.在应用LibSVM工具包的过程中,最关键的是选择适合的核函数及对应的最佳惩罚参数c和核函数参数g.在本文实验中,取径向基核函数为核函数,利用文献[16]中提到的参数寻优方法,求解最佳参数c和g.整个打印文件检验的算法流程如图 4所示.
![]() |
图 4 分类鉴别流程图 Figure 4 Flow chart of print document identification |
为了验证上述算法的可行性,将该算法应用于打印文档鉴别,采用自建的显微放大字符样本库进行实验.实验平台为64位Win7操作系统的PC机,CPU主频3.2 GHz,内存为8 G,在Matlab2012b软件平台下使用M语言进行软件编程.验证实验建立了10台黑白激光打印机,具体的打印机编号、品牌和型号如表 1所示.
编号 | 品牌 | 型号 |
1 | Ricoh | Aficio MP 7500 |
2 | Ricoh | Aficio MP 1075 |
3 | SHARP | AR550 |
4 | SHARP | M450N |
5 | OCE | IM4512 |
6 | SHARP | MX-700N |
7 | Ricoh | Aficio MP 8000 |
8 | CANON | LBP1810 |
9 | Ricoh | Aficio 2075 |
10 | Ricoh | Aficio 7001 |
每台打印机采用相同的字体和字号打印两份中文文档,一份文档用于训练,另一份文档用于测试,并进行相同字无重复和相同字有重复的两组实验.实验中,在两份文档中分别随机抽取若干个中文字符进行实验.相同字无重复选取的中文字符是{论,络,器,是,网,线,像,向,由,支,层,知,持,多,感,机,建,类,理,量},共20个汉字,样本集用符号CHN102020表示.根据汉字的结构特点,即使在相同字体和字号的情况下,不同汉字的实际大小很难一样,比如“器”与“多”,所以在图像大小归一化时,只需保证训练和测试中对应相同字大小一样即可.相同字有重复的实验中,随机选择“线”字作为对象,在测试和训练文档中,分别随机不重复地抽取10个“线”字作为训练和测试样本,样本集用符号CHN100110表示.实验中还将KNN分类器和SVM分类器进行了比较.
3.1 不同打印机型号实验在相同字不重复样本实验中,选择的样本集是CHN102020,图 5给出了取不同特征、采用LibSVM分类器、分类准确率随步长变化的曲线.
![]() |
图 5 采用SVM分类器分类准确率随步长变化曲线 Figure 5 Classification accuracy curve with the step change based on SVM |
从图 5中可看出:采用单一激光行扫描方向(0°)或者纸张运动方向(90°)特征的分类准确率低于融合2个方向特征的分类准确率;不同算法下,分类准确率会随步长增大经历一个上升至下降的变化过程,而且GLCM28+SVM算法和GLCM44+SVM算法均在步长为6时达到最佳分类准确率;经过ReliefF算法特征选择后的最佳分类准确率高于直接融合2个方向特征的分类准确率,GLCM28+SVM算法的分类准确率是96.5%,而GLCM44+SVM算法的分类准确率是95.5%.图 6为采用3NN分类器的变化曲线.
![]() |
图 6 采用3NN分类器分类准确率随步长变化曲线 Figure 6 Classification accuracy curve with the step change based on 3NN |
从图 6中可看出:融合2个方向特征的分类准确率高于单一方向特征的分类准确率;采用3NN分类器的分类准确率远低于SVM分类器;GLCM44+3NN算法同样在步长为6时达到最佳分类准确率.
表 2给出的是在步长为6、采用GLCM28+SVM算法的分类识别结果.从表 2可以看出,整个样本的分类准确率为96.50%,除个别召回率为90.91%外,召回率从95%到100%,相对来说分类效果是稳定的.
输入 | 输出 | 精确度/% | |||||||||
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | ||
1 | 20 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 100 |
2 | 0 | 19 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 95.00 |
3 | 0 | 0 | 19 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 95.00 |
4 | 0 | 0 | 1 | 19 | 0 | 0 | 0 | 0 | 0 | 0 | 95.00 |
5 | 0 | 0 | 0 | 0 | 20 | 0 | 0 | 0 | 0 | 0 | 100 |
6 | 0 | 1 | 0 | 0 | 0 | 18 | 0 | 0 | 0 | 1 | 90.00 |
7 | 0 | 0 | 0 | 0 | 0 | 0 | 19 | 0 | 0 | 1 | 95.00 |
8 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 20 | 0 | 0 | 100 |
9 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 19 | 0 | 95.00 |
10 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 20 | 100 |
召回率/% | 95.24 | 95.00 | 95.00 | 95.00 | 95.24 | 100 | 100 | 100 | 100 | 90.91 | 96.50 |
从以上的实验结果中可总结得出:SVM的分类性能好于3NN;融合2个方向的特征的识别效果高于单个方向,并且特征选择后识别率提高,这与第2节中的理论分析是一致的.
在相同字有重复样本实验中,选择的样本集是CHN100110,采用和相同字无重复一样的实验设计,实验结果表明:所有的测试和训练样本取同一个字时,分类识别结果有显著的提高,最佳分类准确率可达98%;经过特征选择和融合后,有利于鉴别性能的改善;当步长为4~7时,GLCM28+SVM算法和GLCM44+SVM算法均可达到最佳分类准确率.步长为6时,GLCM28+SVM算法在CHN100110上的分类鉴别结果为:整个样本的分类准确率为98.00%,除极少数召回率为90.91%外,召回率均为100%,相对来说分类效果是稳定的.获得鉴别性能提高的原因是:训练和测试样本的字符相同,影响鉴别性能的因素仅为打印的字符纹理,去除了字符外形的干扰.
3.2 不同品牌打印机实验虽然不同品牌的激光打印机的基本结构相同,但各个厂家在硬件结构和打印技术上存在差别,为此验证文中算法识别打印机品牌性能.表 3给出了GLCM28+SVM算法在样本集为CHN102020、步长为6时识别不同品牌的性能.
% | ||||
输入 | 输出 | |||
RICOH | SHARP | CANON | OCE | |
RICOH | 99 | 1 | 0 | 0 |
SHARP | 3.33 | 95 | 0 | 1.67 |
CANON | 0 | 0 | 100 | 0 |
OCE | 0 | 0 | 0 | 100 |
从表 3中可以得出,品牌的分类准确率为98.00%,意味着不同的品牌有自身的打印过程,同时说明本文算法的品牌分类效果也是有效的.
3.3 打印机类别实验为了进一步验证打印机类别数目对鉴别率的影响,分别在样本集CHN102020和CHN100110下进行实验.对于一个确定的类别数目N,随机地从10台打印机里抽取N台打印机进行实验,计算此时的分类准确率,重复实验10次取平均值作为最终的分类准确率.图 7给出了在固定步长为6、分类准确率随样本类别数变化的曲线.
![]() |
图 7 分类准确率随类别数变化曲线 Figure 7 Classification accuracy curve with the printer classes change |
从图 7中可以看出,随着样本类别数目的增加,分类准确率有下降的趋势,而且有一些波动,波动可能是由于随机抽取打印机及样本显微背景图像噪声引起的.总的来看,分类准确率下降较平稳,曲线波动较小,故文中算法是有效的.
4 结论本文通过提取中文汉字的显微放大图像灰度共生矩阵统计纹理特征,实现对打印文档的自动鉴别.文中首先从理论模型上分析了激光打印机传动系统对打印字符潜影的影响;然后提取图像的22维灰度共生矩阵统计纹理特征,利用ReliefF算法进行特征选择;根据理论分析融合字符图像激光扫描方向和纸张行进方向的统计纹理特征,利用最近邻分类器和支持向量机进行分类鉴别.在两种样本集上的实验结果表明:特征融合后的鉴别性能有所提高,与理论分析一致;支持向量机的分类鉴别性能优于最近邻分类器,在相同字无重复样本集上分类准确率和平均召回率分别为96.5%和96.64%,在相同字有重复样本集上分类准确率和平均召回率分别为98%和98.18%;激光打印机品牌分类准确率为98%.上述的实验结果显示文中的方法具有良好的打印文档分类鉴别性能.本文中的研究是基于相同字且字体和字号是相同的,基于不同字、字体和字号不同的打印文档鉴别是另一个研究重点.
[1] |
涂岩恺, 陈庆虎, 邓伟. 计算机激光打印文档鉴别与检索[J].
电子与信息学报, 2011, 33(2): 499–503.
Tu Yankai, Chen Qinghu, Deng Wei. Computer laser print document identification and retrieval[J]. Journal of Electronics & Information Technology, 2011, 33(2): 499–503. |
[2] | Mikkilineni A K, Chiang P J, Ali G N, et al. Printer identification based on graylevel co-occurrence features for security and forensic applications[C]//Proceedings of the SPIE International Conference on Security, Steganography,and Watermarking of Multimedia Contents Ⅶ. San Jose: SPIE Press, 2005:430-440. |
[3] | Mikkilineni A K, Khanna N, Delp E J. Texture based attacks on intrinsic signature based printer identification[C]// Proc. of SPIE-IS&T Electronic Imaging. San Jose :SPIE Press, 2010: 75410T-75410T-12. |
[4] | Umadevi M, Agarwal A, Rao C R. Printed text characterization for identifying print technology using expectation maximization algorithm[C]// Multi-disciplinary Trends in Artificial Intelligence. Springer Berlin Heidelberg, 2011: 201-212. |
[5] | Gebhardt J, Goldstein M, Shafait F, et al. Document authentication using printing technique features and unsupervised anomaly detection[C]// 12th International Conference on Document Analysis and Recognition. Washington, DC:IEEE Press, 2013:479-483. |
[6] | Tsai M J, Liu J. Digital forensics for printed source identification[C]// 2013 IEEE International Symposium on Circuits and Systems. Beijing: IEEE Press, 2013:2347-2350. |
[7] | Choi J H, Lee H Y, Lee H K. Color laser printer forensic based on noisy feature and support vector machine classifier[J]. Multimedia Tools and Applications, 2013, 67(2): 363–382. DOI:10.1007/s11042-011-0835-9 |
[8] | Zhou Q, Yan Y, Fang T, et al. Text-independent printer identification based on texture synthesis[J]. Multimedia Tools and Applications, 2015. DOI:10.1007/S11042-015-255-5 |
[9] |
李润方, 王建军.
齿轮系统动力学[M]. 北京: 科学出版社, 1997.
Li Yunfang, Wang Jianjun. Gear System Dynamics[M]. Beijing: Science Press, 1997. |
[10] |
涂岩恺.计算机打印文件检验关键技术研究[D].武汉:武汉大学, 2011.
Tu Yankai. Key technology of print document examination by computer[D].Wuhan: Wuhan University, 2011. |
[11] |
陈庆虎, 邓伟, 涂岩恺. 图像整体高倍放大扫描系统: 中国, 200920084691.2[P]. 2010-01-20.
Chen Qinghu, Deng Wei, Tu Yankai. Image High Magnification Scanning System[P]. China, 200920084691.2, 2010-01-20. |
[12] | Albrregtsen F. Statistical texture measures computed from gray level co-occurrence matrices[C]// Image Processing Laboratory, Department of Informatics, University of Oslo, 2008: 1-14. |
[13] | Kononenko I. Estimating attributes: analysis and extensions of RELIEF[C]// Proceedings of European Conference on Machine Learning . Catania : Springer, 1994: 171-182. |
[14] | Kira K, Rendell L A. The feature selection problem: Traditional methods and a new algorithm[C]// Proceedings of the 9th Conference on Artificial Intelligence. New Orleans: AAAI Press, 1992: 129-134. |
[15] | Chang C C, Lin C J. LIBSVM: A library for support vector machines[J]. ACM Transactions on Intelligent Systems and Technology, 2011, 2(3): 27. |
[16] |
史峰, 王小川, 郁磊, 等.
Matlab神经网络 30个案例分析[M]. 北京: 北京航空航天大学出版社, 2010: 123-127.
Shi Feng, Wang Xiaochuan, Yu Lei, et al. Thirty case analysis based on Matlab neural network[M]. Beijing: Beihang University Press, 2010: 123-127. |