基于模板匹配的新闻图像字幕行切分算法
王志衡, 郭超, 刘红敏     
河南理工大学 计算机科学与技术学院, 河南 焦作 454003
摘要

针对新闻图像中水平字幕行的字符切分问题,为了克服已有基于单字符切分方法造成的字符分裂问题,利用字幕行中字符的分布规律构造了响应函数,从而将字符切分问题转变为响应函数的最优值问题,最后基于优化结果进行字符切分.该算法主要包括两部分:首先,利用垂直投影直方图确定单个字符的粗略宽度,并根据该值构造一个可变长模板;然后,构造模板响应函数,根据不同长度模板的最优响应函数值确定单个字符的左右边界位置;最后输出切分结果.实验结果表明,对于粘连/非粘连字符图像,该算法均能获得较好的实验结果.

关键词: 新闻图像     标题字幕     模板匹配     字符切分    
中图分类号:TP391 文献标志码:A 文章编号:1007-5321(2016)03-0049-05 DOI:10.13190/j.jbupt.2016.03.008
News Image Caption Line Segmentation Algorithm Based on Template Matching
WANG Zhi-heng, GUO Chao, LIU Hong-min     
College of Computer Science and Technology, Henan Polytechnic University, Henan Jiaozuo 454000, China
Abstract

The research on the character segmentation of the horizontal caption line in news images was made in this article. In order to overcome the character splitting problem caused by existing single character based segmentation methods, a response function was proposed based on character distribution. The character segmentation problem is converted into an optimal problem, and the character segmentation can be attained by turning to the optimal result. The algorithm mainly contains two parts:First, the rough width of a single character is determined based on the vertical projection histogram, which is utilized to construct a variable length template; Then, the template response function is constructed and the left/right boundary position of a single character is determined by the optimal value of the response function of different length templates; Last, output the segmentation results. Experimental results show that the proposed method can obtain satisfactory results for adhesion/non-adhesion character images.

Key words: news images     captions     template matching     character segmentation    

字符切分是字符识别系统的重要组成部分,字符切分的好坏对识别结果影响极大[1]. 近年来,关于字符的切分研究,研究者们做了大量的工作,如视频文字切分[2-4]等. Shivakumara等[2]首先获取文本行的梯度图像,然后基于梯度图像的垂直投影直方图将文本行切分成单个单词(汉字段),最后利用文本高度差获得单个字符(汉字). Huang等[3]则基于二值图像的垂直投影直方图,寻找波谷位置,确定切分路径. Sharma等[4]通过分析文字行图像的“顶部距离”及“底部距离”轮廓图,确定文字切分路径. 这些算法通常以单字符为对象,基于字符间存在缝隙的特点,根据每一列含有的字符像素点数目切分字符. 但是,中文汉字的内部也可能存在缝隙,导致该类算法易分裂汉字,造成不正确的切分结果.

笔者主要面向新闻视频图像中的标题字幕行,根据字幕行中字符的分布规律构造单字符模板及响应函数,将字符切分问题转变为响应函数的最优值问题并基于优化结果切分字幕行. 实验中,通过与现有算法作对比,验证了提出算法的有效性.

1 算法描述 1.1 预处理

预处理主要是对原始图像进行二值化,输出二值图像,以便进行后续操作. 本研究中的二值图像可通过式(1)获得,其中,I表示原始输入图像,r表示IR分量,g表示IG分量,Hftm表示文献[5]中提到的二值算法,B即是获得的二值图像.

$B=Hftm\left( I \right)\cap Hftm\left( r \right)\cap Hftm\left( g \right)$ (1)

一般新闻视频图像中,为了让人们清楚地阅读字幕,通常将字幕的灰度值设为最高或最低,以提高字幕和背景的对比度[6]. 这导致二值图像会出现以下两种类型:1) 字符像素点的灰度值为1,背景像素点的灰度值为0;2) 字符像素点的灰度值为0,背景像素点的灰度值为1. 为获得统一的二值图像结果(类型1),还需对获得的B做进一步的处理.

对于上述获得的二值图像,利用字符的占空比S来判断B的类型,S的计算如式(2)所示. 若B为类型1,则不做任何处理,最终的二值图像即为B;若B为类型2,则反转B,使其转换为类型1,具体实现过程如式(3)所示. 其中,B(x,y)为二值图像中像素点的值(1或0),h和w表示二值图像的高和宽,B′为最终的二值图像

$S=\frac{\sum\limits_{x=1}^{h}{\sum\limits_{y=1}^{w}{B\left( x,y \right)}}}{hw}$ (2)
$B\prime =\left\{ \begin{matrix} B; & S\le 0.5 \\ \text{ }1-B; & S>0.5~ \\ \end{matrix} \right.\text{ }$ (3)
1.2 单字符宽度确定

向量V表示二值图像每一列含有的字符像素数目,如果V(i)≤T,则记录i为候选波谷位置,并将其存入标记向量M,其中阈值T的定义如下:

$T=\sum\limits_{i=1}^{w}{\frac{\text{ }V\left( i \right)}{w}}-\sqrt{\sum\limits_{i=1}^{w}{{{\left( V\left( i \right)-\frac{\sum\limits_{i=1}^{w}{V(i)}}{w} \right)}^{2}}/w}}$ (4)

其中,hw表示二值图像的高和宽. 向量M中,若存在连续m(m≥1)候选波谷位置,即M(i),i=1,…,m,且M(i+1)-M(i)≤3,i=1,2,…,m-1,则计算连续候选波谷的中间位置,并存入向量R,即

$R\left( j \right)=\left\{ \begin{array}{*{35}{l}} \sum\limits_{i=1}^{m}{\frac{M\left( i \right)}{m}} \\ s.t.:\forall V\left( M\left( i \right) \right)\ne 0,\text{ }i\in \left[ 1,2,\ldots ,m \right] \\ \sum\limits_{k=1}^{K}{\frac{M({{z}_{k}})}{K}} \\ s.t.:V(M({{z}_{k}}))=0,\text{ }{{z}_{k}}\in \left[ 1,2,\ldots ,m \right]\And \\ 1\le K\le m \\ \end{array} \right.$ (5)

其中,K为连续m候选波谷中满足V(M(i))=0的个数. 然后基于向量R,获得单字符的宽度值,即

$\begin{align} & W=\sum\limits_{j=1}^{m-1}{\frac{R\left( j+1 \right)-R\left( j \right)}{m-1}} \\ & s.t.: \\ & m\in \left\{ 2,3,\ldots ,n \right\} \\ & R\left( j+1 \right)-R\left( j \right)>0.2h \\ & R\left( j+1 \right)-R\left( j \right)<1.2h \\ \end{align}$ (6)

其中:n为向量R中的元素数目,m为满足条件的候选波谷数目,W为单字符宽度值,h表示二值图像的高度.

1.3 字符切分

图 1所示,基于单字符宽度值,构造了一个单字符可变长模板,图中红色区域为模板右边界的变化范围. 实验中,参数δ1和δ2用于调整模板的宽度值,且0≤δ12≤1,即模板的最小宽度值为(1-δ1)W;最大宽度值为(1+δ2)W. 在实验中,δ1=0.3且δ2=0.5.

图 1 构造模板

利用模板切分字符之前,首先需要确定模板的左边界位置,确定左边界的过程为:1) 第一个字符模板的左边界位置: 向量V中第一个V(f1)≠0,则记录第一字符模板的左边界位置f1;2) 后一个模板的左边界位置应大于前一个字符模板的右边界位置,同时满足V(fi)≠0,如式(7)所示:

$l=\left\{ \begin{array}{*{35}{l}} {{f}_{j}} \\ s.t.:\text{ }j=1; \\ V({{f}_{j}})\ne 0; \\ V\left( i \right)=0;i=1,2,\ldots ,{{f}_{j}}-1; \\ {{f}_{j}}s.t.:~j\ge 2; \\ V({{f}_{j}})\ne 0,\text{ }{{f}_{j}}>{{r}_{j-1}}; \\ V\left( i \right)=0; \\ i={{r}_{j-1}},{{r}_{j-1}}+1,\ldots ,{{f}_{j}}-1 \\ \end{array} \right.$ (7)

其中fjrj为第j字符模板的左右边界位置. 另外,新闻视频图像中的每个标题文字都具有统一的高度值,因此只需针对模板内部和右边界构造函数,最终确定模板响应函数. 模板需要包含尽可能多的字符像素,将模板内部响应函数定义为模板内部字符像素的总数,即V(i);模板的右边界需要包含尽可能多的背景像素数,定义右边界响应函数为eV(r). 最终整个字符模板的响应函数构造如下:

$F={{\frac{\left( \sum\limits_{i=l+1}^{r-l}{V\left( i \right)} \right)}{r-1+1}}^{\gamma }}{{e}^{V(r)}}$ (8)

其中:lr为模板的左右边界位置;F为模板的响应函数值;γ为健壮因子,用来提高模板内部响应函数的影响度,实验中γ=1.5. 改变模板的右边界位置,当F取得极大值时,则认为此时模板的左右边界即为单字符的左右边界.

2 实验

由于没有面向视频图像文本的标准数据集[7],且提出算法主要针对新闻视频图像中的标题字幕,这样的标准图像数据更加难以寻觅. 因此,实验中采集了来源于CCTV13、CCTV1、BTV-News和JSTV等不同电视台的新闻视频图像作为测试图像集,共有147幅标题字幕行图像,包含2 021个字符.

2.1 参数选择

实验中,利用垂直投影法获得了字符的粗略宽度值W,该值通常不是字符的真实宽度值. 为了根据W值,获得合适的模板宽度值,通过参数δ1和δ2来调整模板的宽度值. 利用40幅测试图像(577个字符)作为训练集,根据字符切分率来确定δ1和δ2,即字符切分率=正确切分的字符/全部字符×100%,其中若字符被认为切分正确,则C⊆A&C/A≥0.8,A是字符的分割区域,C是字符的真实区域.

实验中,为了确定合适的模板宽度值,针对测试图像集,统计了在不同固定模板宽度值下的字符切分率. 如图 2所示,当模板宽度取某一固定值时,字符切分率都比较低,当模板宽度值为0.9W时,字符切分率达到最大值,但结果仍不理想. 但是,当模板宽度值介于0.7W和1.5W时,字符的切分率偏高,因此在利用参数δ1和δ2控制模板的宽度时,根据训练统计结果,δ1=0.3且δ2=0.5.

图 2 不同模板宽度的字符切分率
2.2 实验结果及分析

实验中,将测试图像集分成两部分:非粘连或简单背景图像集和粘连或复杂背景图像集. 另外,为了验证提出算法的有效性,实验中将提出算法和现有算法进行了对比.

图 3列出了部分非粘连或简单背景图像集的实验对比结果. 对比算法对于具有左右结构且左右结构之间不粘连的中文汉字的切分效果不佳,如图 3(a)中的“别”. 然而,字幕行中可能存在阿拉伯数字,其宽度小于汉字的宽度,而提出算法依据模板切分字符,导致算法不能准确地切分出单个的阿拉伯数字,如图 3(b)中的 “4G”,这是提出算法有待提高的地方.

图 3 非粘连或简单背景图像集的实验对比结果

图 4列出了部分粘连或复杂背景图像集的实验对比结果. 对比算法主要利用字符间存在缝隙的特点切分字符,造成该类算法不能很好地切分粘连文字图像. 而提出算法基于模板匹配技术切分字符,且模板宽度具有一定的范围,因此提出算法对粘连或复杂背景图像具有一定的抗干扰性.

图 4 粘连或复杂背景图像集的实验对比结果

实验中,针对107幅图像做了测试,其中非粘连或简单背景图像46幅(677个字符)和粘连或复杂背景图像61幅(767个字符). 表 1列出了实验统计结果,文献[2]和文献[3]对于非粘连图像的字符切分率虽然达到80%以上,但是对于粘连图像的字符切分率较低,效果不理想. 文献[4]对于非粘连文字图像及粘连文字图像均具有较好的切分效果,但是该算法易分裂具有明显缝隙的左右结构字符(图 4(a)中的“射”),造成该算法的字符切分率低于提出算法. 综上所述,虽然提出算法不能很好地切分出单个阿拉伯数字,但是考虑到该算法较高的字符切分率,此算法还是比较优秀的.

表 1 不同图像集的字符切分率对比结果
3 结束语

提出了一种基于模板匹配的新闻图像字幕行切分算法,算法主要包括两部分:首先利用垂直投影直方图确定字符的粗略宽度;然后构造模板及模板响应函数,切分字符;最后输出切分结果. 现有算法主要是以单字符为对象的局部切分算法,而提出算法是以字符整体分布为对象的全局优化切分算法. 实验结果表明,提出算法有效地克服了现有算法分裂汉字的问题,针对非粘连或简单背景图像,字符切分率可以达到95%以上,而针对粘连或复杂背景图像,字符切分率也接近80%,提出算法的字符切分结果还是十分理想的.

参考文献
[1] Yan Jianqiang, Li Jie, Gao Xinbo. Chinese text location under complex background using Gabor filter and SVM[J]. Neurocomputing , 2011, 74 (17) :2998–3008. doi:10.1016/j.neucom.2011.04.031 (0)
[2] Shivakumara P, Bhowmick S, Su B, et al. A new gradient based character segmentation method for video text recognition[C]//International Conference on Document Analysis and Recognition. Beijing:IEEE, 2011:126-130. (0)
[3] Huang Xiaodong, Ma Huadong, Zhang He. A new video text extraction approach[C]//International Conference on Multimedia and Expo. Cancun, Mexico:IEEE, 2009:650-653. (0)
[4] Sharma N, Shivakumara P, Pal U, et al. A new method for character segmentation from multi-oriented video words[C]//International Conference on Document Analysis and Recognition. Washington, DC, USA:IEEE, 2013:413-417. (0)
[5] Huang Liangkai, Wang Maoiun. Image thresholding by minimizing the measures of fuzziness[J]. Pattern Recognition , 1995, 28 (1) :41–51. doi:10.1016/0031-3203(94)E0043-K (0)
[6] 宋砚, 刘安安, 张勇东, 等. 基于聚类的视频字幕提取方法[J]. 通信学报 , 2009, 30 (2) :136–140. Song Yan, Liu Anan, Zhang Yongdong, et al. Video text extraction method based on clustering[J]. Journal on Communications , 2009, 30 (2) :136–140. (0)
[7] Phan T Q, Shivakumara P, Lu S, et al. A gradient vector flow-based method for video character segmentation[C]//International Conference on Document Analysis and Recognition. Beijing, China:IEEE, 2011:1024-1028. (0)