2. 西安交通大学 电子与信息工程学院, 陕西 西安 710049
2. School of the Electronic and Information Engineering, Xi′an Jiaotong University, Xi′an 710049, China
文本图像二值化是光学字符识别(OCR, Optical Character Recognition)的重要前置处理环节[1-3],二值化的准确度直接影响着光学字符识别的精度和效率。图像采集设备获取到的彩色图像一般包含丰富的信息量, 为区分这些信息并突出图像中的文本部分, 通常采用二值化的方法, 将图像分为前景文字和背景两部分[4-6], 以便对文字进行识别。然而, 在实际应用中, 文本识别需应对复杂背景及特殊光照条件等。由于拍摄图像的条件限制或出于保护被拍摄物的目的, 导致拍摄图像的亮度不足,增加了文本图像提取的难度, 而直接利用现有二值化方法对这种场景的处理效果甚微, 且专门用于弱光条件下的文本图像提取算法目前还鲜有报道。因此, 对于弱光照条件及包含复杂背景干扰的文本图像而言, 研究如何快速准确地提取文本信息显得极为迫切。
现有文本图像二值化算法多是利用阈值实现文本与背景的划分,根据其运算范围一般可分为全局阈值和局部阈值两类算法[7]。同时, 近年来在分类问题中广泛使用的统计分析算法——聚类运算, 开始被探索应用于文本图像提取领域。全局阈值法指对整幅图像中的所有像素点使用单一的阈值进行判定, 通过将各像素点与该预设阈值作比较, 从而将不同像素点划归为文本与背景两类。该类算法的计算复杂度较低, 适用于背景和文本区别明显的情况。但因其只考虑单个像素点自身因素, 而不考虑空间特征, 使其受噪声影响较大, 且不适用于复杂场景的文本识别。局部阈值法则充分考虑像素点在局部区域的空间特征, 根据图像的局部特征采用不同阈值处理。通过模板计算将待处理点与其邻域像素点进行对比, 从而动态地得到不同区域的各个阈值。该类算法计算准确度较高, 有效改善了单一全局阈值的不足, 使二值化效果更好, 但缺点在于算法计算复杂度高、处理速度慢。聚类运算通过选取样本像素点作为聚类中心,计算图像中每个像素点到各聚类中心的距离, 根据计算出的距离将图像中的像素点划归为不同的类区域, 从而实现图像中文本信息的提取。但该算法易受聚类中心和文本图像复杂背景的影响, 导致聚类结果不稳定。
对基于全局阈值、局部阈值及聚类的众多算法而言, 研究的重点仍局限于如何进行阈值及聚类中心的选取问题。但阈值与聚类中心的本质仅是一个门限和参考点, 无法对实际应用中影响文本识别最为重要的场景光照因素和复杂图像背景干扰做出有效响应。针对上述问题,文中提出一种针对弱光条件和复杂图像背景的文本图像预处理算法, 将图像中的场景光和物体表面反射光进行区分, 对影响文本图像提取质量的首要照度因素进行去除。同时, 对文本图像的背景部分进行有效抑制, 从而消除复杂背景带来的干扰。通过上述操作, 并结合现有典型二值化文本提取算法, 明显提高了计算准确度和算法的实用性。
1 相关工作文本图像二值化提取中, 最典型的全局阈值法为基于整幅图像统计特性的Otsu算法[8-11], 通过直方图特性在背景与文本之间设置一个合适的阈值, 使该阈值能够满足文本像素和背景像素二者各自的类内方差最小或二者之间的类间方差最大, 从而将图像中的像素点分为背景和文本两类。该算法实现简单, 但是往往因忽略图像细节而使算法的效果不佳, 仅适用于图像中文本像素和背景像素灰度级差别较为明显的情况。Niblack算法[9]为最典型的局部阈值算法, 对图像中的每一个像素点在其邻域内计算其均值和方差, 然后用据此算出的阈值进行二值化。Niblack算法克服了全局阈值因忽略图像细节而带来的效果不佳问题, 但过度强调细节信息而忽略了图像整体效果, 使二值化结果易受背景影响, 且大量的均值和方差计算增加了算法的复杂度, 使得处理速度较慢。而流行的Sauvola算法[9-10]是对Niblack算法的一种改进, 该算法充分保留了Niblack算法的出色处理效果, 但同时,能够有效降低图像背景的噪声。算法虽然不受光照不均的影响, 但该算法实现的前提是假设图像中的文本灰度值接近于0, 这在实际应用中并不总成立, 因而限制了算法的应用范围。K-means聚类算法是目前文本图像提取领域应用最广泛的一种聚类运算[12-13], K-means算法要求各聚类域内所有像素点到聚类中心距离的平方和最小, 而类间距离差异尽可能大, 从而将背景和文本分割开来。但算法的缺点是较易受聚类中心个数及初始聚类中心选择的影响, 且受噪声影响较大, 由于没有相关优化措施, 极易陷入局部最优解。
2 本文算法传统文本二值化提取算法对弱光图像的处理效果不佳, 且易将非文本的背景及边框等误判为文本而被提取出来。为此,文中将对弱光图像进行预处理操作。如图 1所示, 为本文的算法框架图。首先利用Retinex[14]算法对影响提取效果最为严重的暗背景光幕进行处理, 再利用L0平滑滤波[15]对Retinex处理后图像中存在的块效应及局部处理过度进行滤波校正, 同时对非文本部分进行抑制,最后利用常用二值化算法进行文本提取。
![]() |
图 1 算法框架 Fig. 1 The sketch of proposed algorithm |
文本提取精度易受背景复杂度、光照条件等因素的影响, 尤其对于低照度的弱光图像,在图像采集过程中不可避免地产生了一定信息退化, 从而对进一步的文本提取带来极大干扰。因此,需对弱光图像中影响文本提取精度的首要照度分量因素进行去除。
物体表面反射光是物体在成像过程中色彩形成的首要因素, 但决定物体最终成像颜色的并不是表面反射光的强度, 而是物体表面对不同波段可见光的反射率。因此, 即使在非均匀光照条件下, 物体成像的颜色是不会改变的, 即物体颜色对成像场景的光照强度具有一致性,图像形成过程可表示为
![]() |
(1) |
其中, R(x, y)表示物体表面的反射光分量, L(x, y)表示场景光的亮度分量, 是图像成像的主要能量来源, S(x, y)表示采集设备获取到的图像。成像过程如图 2所示,对弱光图像进行去除照度分量就是要计算并抑制原始图像中造成图像变暗的主要因素——场景光分量, 进而获取影响图像色彩形成的首要因素——反射光分量。
![]() |
图 2 物体成像原理 Fig. 2 The sketch of imaging model |
将式(1)转到对数域, 并进行高斯卷积运算, 可求得场景光分量,
![]() |
(2) |
其中, “*”为高斯卷积运算, G(x, y)为高斯函数。通过上述近似估计, 可以求得场景光分量,将式(2)代入式(1)便可以获得去除照度分量的关键参数——反射光分量。基于此, 便可根据弱光下图像的反射光分量对原始图像进行照度分量的去除, 有效消除因光照因素带来的图像提取干扰问题。图 3展示了该算法下的图像照度分量去除效果, 其中, 图 3(a)为原始弱光图像, 图 3(b)为去除照度分量的结果(文中部分实验图片来自于互联网), 由图 3可以看出, 照度分量去除对弱光图像带来了明显的改善, 为进一步提高文本提取精确度提供了有利条件。
![]() |
图 3 弱光图像照度分量去除 Fig. 3 Illumination component removal of weak light image |
经2.1节照度分量去除后的弱光图像质量已经有了很大提高, 但仅停留在对物体成像中光能量的改善层次, 而影响文本提取的另一关键因素——图像结构, 并未被改变。因此, 非文本场景对文本提取的干扰不仅没有被消除, 反而随着光能量的改善使得干扰作用更加明显。同时, 照度分量的去除还会引起局部的处理过度和局部块效应, 进一步影响文本的提取。本节将对照度分量去除后的图像中, 非文本场景的干扰信息进行进一步抑制, 以提高提取精度。
为在抑制非文本场景干扰的同时, 有效保留人眼视觉系统最为敏感的大梯度文字信息,引入了L0平滑滤波。假设一幅图像g滤波后的图像
![]() |
(3) |
其中,
![]() |
(4) |
其中,
式(4)中非零梯度统计项
![]() |
图 4 L0范数平滑滤波结果 Fig. 4 The result of L0 norm smoothing filtering |
将文中方法与图像文本提取领域最经典的Otsu,Sauvola算法及K-means算法进行对比, 文中所有实验在Intel Core i7-4510U平台下的Matlab 2013b软件上实现。实验共分两部分, 第一部分对本文的预处理算法效果进行论证说明, 第二部分将经过文中算法处理后的文本图像提取结果与经典二值化算法直接提取的结果进行对比论证。
3.1 文本提取预处理算法为证明文中所提预处理算法的有效性, 对处理前后的图像进行了对比评价。图 5展示了文中预处理算法效果, 图 5(a)~(c)为原始弱光图像, 图 5(d)~(f)为去除照度分量后的图像, 图 5(g)~(i)为L0滤波后的图像。可以看出,文中的去照度分量及L0滤波操作, 使得原始弱光图像中因光照条件和各类复杂背景引起的干扰被有效排除, 处理后的图像中文本部分更加突出, 这将有助于进一步提升文本的提取精度。
![]() |
图 5 算法效果 Fig. 5 The effect of proposed algorithm |
为进一步证明文中算法的有效性, 对预处理前后的图像质量进行了客观指标评价, 表 1展示了文中预处理算法前后图像信息熵及平均梯度的对比。可以看出,文中去照度分量和L0滤波后的图像信息熵均降低, 即文本提取的不确定性变小, 准确提取文本的所需信息量变少, 该操作将原始较为混乱的高信息熵系统变为一个有序化程度更高的低信息熵系统, 使得待提取的文本部分在图像中更为突出。同时, 去照度分量使得图像的整体平均梯度变高, 即图像的层次感变强, 因光照条件带来的图像信息退化被很好地改善。
![]() |
表 1 文中预处理算法前后图像质量对比评价 Tab. 1 Quality of image contrast evaluation before and after the pretreatment algorithm |
对经文中预处理算法后图像文本的提取结果和经典的Otsu算法,Sauvola算法及K-means算法直接提取结果进行比较, 图 6(a)为3幅原始弱光图像, 图 6(b)为Otsu算法提取结果, 图 6(c)为使用文中预处理算法后,Otsu算法提取结果, 图 6(d)为Sauvola算法提取结果, 图 6(e)为使用文中预处理算法后,Sauvola算法提取结果, 图 6(f)为K-means算法提取结果, 图 6(g)为使用文中预处理算法后,K-means算法提取结果。可以看出,结合文中的预处理算法, 原始文本提取算法的准确性、抗干扰能力都显著提高。
![]() |
图 6 文本图像提取结果 Fig. 6 Extraction result of text images |
弱光环境下文本图像背景复杂,文中提出了一种相应的文本图像预处理算法。首先消除复杂照射因素对图像的影响, 从而保留反映图像真实场景信息的反射光分量, 即保留图像的本身属性, 使得处理后图像的颜色具有恒常性, 再利用能够压缩图像中过于细小纹理结构的L0平滑滤波进行非文本场景抑制操作。经过文中预处理算法后, 本中提取的效果明显优于直接通过经典的Otsu,Sauvola,K-means等算法进行二值化提取。同时应该指出,文中算法中权重系数需要根据图像特征灵活调整,而自适应参数调整算法是下一步将要研究的内容。
[1] |
李彬红, 周亚丽, 张奇志. 基于光学字符识别的报警信息二次识别[J]. 北京信息科技大学学报, 2015, 30(3): 34-40. |
[2] |
苏大壮.面向数字资源聚合平台的光学字符识别技术的研究[D].成都: 电子科技大学, 2015.
|
[3] |
曾凡锋, 郭玉阳, 肖珂. 边缘保留的光照不均文本图像二值算法[J]. 计算机工程与设计, 2016(3): 700-704. |
[4] |
常丹华, 苗丹, 何耘娴. 图谱理论在文本图像二值化算法中的应用[J]. 计算机应用, 2010, 30(10): 2802-2804. |
[5] |
张健.复杂图像文本提取关键技术与应用研究[D].天津: 南开大学, 2014.
|
[6] |
樊汝策, 王庆, 翟正军, 等. 一种改进的针对退化文本图像的二值化方法[J]. 测控技术, 2013, 32(5): 29-31. DOI:10.3969/j.issn.1000-8829.2013.05.008 |
[7] |
曾凡峰, 王战东, 郭正东. 非均匀光照文档图像快速二值化方法[J]. 计算机应用与软件, 2015, 32(11): 185-188. DOI:10.3969/j.issn.1000-386x.2015.11.043 |
[8] |
AHMADI E, AZIMIFAR Z, SHAMS M, et al. Document image binarization using a discriminative structural classifier[J]. Pattern Recognition Letters, 2015, 63: 36-42. DOI:10.1016/j.patrec.2015.06.008 |
[9] |
童立靖, 张艳, 舒巍, 等. 几种文本图像二值化方法的对比分析[J]. 北方工业大学学报, 2011, 23(1): 25-33. DOI:10.3969/j.issn.1001-5477.2011.01.005 |
[10] |
MOGHADDAM RF, CHERIET M. AdOtsu: An adaptive and parameterless generalization of Otsu's method for document image binarization[J]. Pattern Recognition, 2012, 45(6): 2419-2431. DOI:10.1016/j.patcog.2011.12.013 |
[11] |
李书茉.非均匀光照下文本图像二值化方法的研究[D].秦皇岛: 燕山大学, 2012.
|
[12] |
常莹, 何东健, 李宗儒. 基于聚类与边缘检测的自然场景文本提取方法[J]. 计算机工程与设计, 2010, 31(18): 4040-4043. |
[13] |
张凯歌.基于K-means和神经网络算法的图像文字提取与识别[D].昆明: 云南大学, 2013.
|
[14] |
HANUMANTHARAJU M C, RAVISHANKAR M, RAMESHBABU D R, et al. Color image enhancement using multiscale Retinex with modified color restoration technique[C]//2011 Second International Conference on Emerging Applications of Information Technology (EAIT).IEEE, 2011: 93-97.
|
[15] |
XU L, LU C, XU Y, et al. Image smoothing via L0 gradient minimization[J]. ACM Transactions on Graphics, 2011, 30(6): 1-11. |