内蒙古电力技术  2017, Vol. 35 Issue (06): 16-20   PDF    
基于动态边缘的OCR算法在航检影像切分中的应用
杨伟旗, 关鑫, 汪洋, 皇甫云霞     
内蒙古超高压供电局, 呼和浩特 010080
摘要:借鉴统计模式识别方法,提出了基于动态边缘的OCR算法,以字符形态为分析样本,确定在动态视频图像中字符特征边缘区域的选择,然后找出每个字符的体征特性,通过大量试验得出每个字符的特征规律,最后通过相似性概率统计方法实现字符的识别。经在内蒙古超高压供电局航检视频处理中的实际应用,该算法准确率高达99.45%,为复杂背景下视频字符识别提供了新算法。
关键词OCR技术     航检视频     动态边缘     字符特征     统计模式识别    
Application of OCR Algorithm Based on Dynamic Edge in Theaeronautical Detecting Videos
YANG Weiqi, GUAN Xin, WANG Yang, HUANGFU Yunxia     
Inner Mongolia EHV Power Supply Bureau, Hohhot 010080, Chin
Abstract: Put forward the OCR algorithm based on dynamic edge according to the statistical pattern recognition. Take the character shape as the sample of analysis, confirm the choice of the edge area for the character shape in the dynamic video. And then find out the signs characteristics of each character. Through a large amount of tests, gain the characteristic rules of each character. Finally through the method of probability statistics for similarity, realize the identification of the characters. After the practical application of aerial video processing in Inner Mongolia EHV Power Supply Bureau, the accuracy of the algorithm can reach 99.45%, which can provide a new algorithm for video character recognition under complex background.
Key words: OCR technology     aeronautical detecting videos     dynamic edge     character feature     statistical pattern recognition    
0 引言

随着计算机视觉研究水平不断提高,光学字符识别(Optical Character Recognition,OCR)技术应用越来越广泛[1]。尽管OCR技术已经比较成熟,但仍然很难有效地从具有复杂背景的视频中准确提取字符[2]。目前,直升机巡检输电线路已成为我国输电线路巡检的重要方式[3],但输电线路航检视频背景复杂,有山林、河流、农田、道路、雨雪等,且随着四季更迭视频背景也不断发生变化,给目标提取带来了很大困难。应用传统的OCR技术分析航检视频所耗时间长,对硬件要求高,且识别率较低。本文借鉴统计模式识别方法[4]对OCR算法进行了优化,提出了基于动态边缘检测OCR算法,并将该算法应用于内蒙古超高压供电局航检视频分析与识别中,处理效果良好。

1 传统OCR技术提取航检视频数据存在的问题及原因分析

架空输电线路巡检视频文件主要由巡检单位利用直升机或无人机搭载专业设备进行航检线路数据采集获取,这种传统作业方式获取的视频文件,包含了复杂背景信息的原始数据,在对原始数据处理过程中发现,利用相关开源OCR程序[5]无法直接提取画面中的有效数据。原因主要如下。

(1)被提取的有效信息与输电设备混杂在一起,特殊位置的字符串与金具、导线、绝缘子重叠,导致提取困难。

(2)在航检获取的视频文件中,包含自然环境与自然周期,雪地、湖泊、沙地、大棚、玉米地、线路跨越等均会导致数据处理的非人为困扰[6]

2 基于动态边缘识别的OCR算法的实现

为提高对原始数据的处理能力,借鉴统计模式识别方法对相关算法及数据处理方式进行优化,结合小波去噪算法、梯度法等前期处理方法,提出基于动态边缘的OCR算法。具体图像处理流程如图 1所示。

图 1 图像处理流程
2.1 图像采集与图像预处理

从航检视频中选取多种带有不同背景的字符关键帧,判别其是否满足后期处理的像素要求,若不满足,则需要对图像进行滤波去噪及规范性校验预处理,预处理过的字符图像应满足如图 2所示的像素要求。

图 2 截取数字示例
2.2 区域选择

选择视频图像中的字符特征区域是字符识别的重要步骤,特征区域选择太大会形成背景干扰,太小又无法完全包含特征。传统的基于阈值或图像边缘信息的目标分割算法,受背景信息干扰较大,特别是对于复杂背景条件下的可见光图像,由于背景变化相对剧烈,导致误选背景区域。为了克服复杂背景的不利影响,应用动态边缘演化技术提取目标轮廓,实现字符区域的选择。

2.3 特征分析

在RGB模型中,R、G、B颜色的取值范围是0~255。建立以R、G、B为坐标轴的三维灰度坐标系,用单位长度的立方体表示RGB颜色空间。杆塔字符对应10个子空间,选取N维特征空间来划分这10个子空间。为了衡量图像的特征,根据大量样本数据规律,定义字符的区域颜色特征指标C,表达式为:

(1)

式中   Ni—区域RGB值;

M×N—区域分辨率。

若能够成功提取图像特征,则进行规律提取;反之,则需要重新分割图像,选择更优的特征区域。

2.4 规律提取及字符识别

规律提取是基于动态边缘识别的OCR算法的核心,借鉴统计模式识别方法进行相似性概率统计。统计模式识别方法的主要原理是:有相似性的样本在模式空间中互相接近形成“集团”,对于给定的有限样本集,在已知判别函数类或已知研究对象统计模型条件下,把N维特征空间划分为对应的M个子空间(每个子空间为一类),并采取一定的学习机制以确保基于样本的划分最优。识别系统根据被识别对象落入的区域来确定它所属的类别。

一个完整的统计模式识别系统由预处理、特征提取和分类决策3部分组成。其中预处理部分根据公式(1)得出字符的区域颜色特征指标C,特征提取部分对每个图像进行全局特征统计,得到直方图多阶统计矩阵:

(2)

该矩阵是待评价对象矩阵,其中,s为空间数,L为特征区域,pCi)为Ci的概率分布。

分类决策部分是运用数学方法,根据权系数得出因素重要程度模糊子集:

(3)

通过计算评定出各数字特征区域的权系数ωi,形成每个子空间的标准特征对象矩阵:

(4)

建立待评价对象理想指标向量:

(5)

评价因素标准值向量:

(6)

U0中每个对象用V0中每个因素进行衡量,得到观测矩阵A=(aijm×n,其中,aij表示第j个对象关于第i个评价因素的指标值。

对原始指标进行无量纲处理,得到相对偏差矩阵R=(rijm×n,其中,

(7)

计算U0V0之间的加权相对偏差距离d为:

(8)

其中,ωn项加权值的平均值,

对比每个待评价矩阵对象与标准特征矩阵对象的偏差距离d,当d为最小值时,表示其所对应的待评价对象与标准特征对象完全匹配,实现字符的识别。

3 试验过程与数据分析 3.1 试验过程

对基于上述优化算法设计与开发的航检影像处理系统的应用效果进行相关测试性试验。选取18个样本文件(等分3组)作为试验对象,在确保样本视频基本能够涵盖输电线路实际运行环境的前提下,分别采用基于动态边缘的OCR算法(以下简称系统算法)和开源Tesseract-OCR接口函数方法(以下简称开源算法)进行测试。

3.1.1 开源算法

开源算法采用Google开源社区中的OCR引擎,通过大量的机器学习训练来获取字符集的特征集,再根据给定的字符特征集合,提取视频中待识别字符的特征,然后进行匹配识别。

3.1.2 系统算法

图 3图 4图 5所示为3组样本在航检影像处理系统中的试验切分结果,每组处理样本包含文件名称、航检架次、巡检线路、日期、巡视塔段等基础信息,其中编目结果一栏中显示的是系统对航检文件进行处理之后的结果,编目完成显示界面如图 6所示。

图 3 第1组样本试验切分结果

图 4 第2组样本试验切分结果

图 5 第3组样本试验切分结果

图 6 编目完成显示界面
3.2 试验数据分析 3.2.1 检出率

为了分析航检影像处理系统对航检视频分析与识别的有效性,将系统算法和开源算法的试验结果与样本数据进行比对,比对结果分别见表 1表 2所示。

表 1 系统算法试验数据

表 2 开源算法试验数据

表 1表 2可知,系统算法的样本平均检出率高达99.45%,而开源算法检出杆塔487基,平均检出率仅为84.65%。

3.2.2 有效性

为了进一步分析系统算法与开源算法对同一样本处理的有效性,测试完成每基杆塔识别与分析的时间,系统设置时间滤波阈值为[0,0.5],处理时间在该值域内表示系统没有完成对应杆塔的识别与分析,即无效处理。试验结果如图 7所示。

图 7 2种算法识别有效性曲线

采用描点连线法观察曲线的波动趋势,尤其注意其中极值点的突变情况。由图 7可知,2种识别算法对样本处理均具有一定的有效性。但从曲线的波动趋势及极值点的突变情况看,经开源算法处理后的部分结果变化幅度较大,趋势难以预测。而系统算法处理效果更加稳定。

3.2.3 准确率

利用2种算法对上述3组样本、570基杆塔分别进行准确率试验分析,分析结果如图 8所示。图 8中的缺口表示算法对该杆塔处理失败或需要二次处理,缺口数量越多,则准确率越低,处理效果越差。

图 8 2种算法试验分析结果对比

根据表 1表 2试验数据,结合图 8处理结果可知,利用系统算法对样本中的航检影像进行切分,结果为567基,切分准确率为99.45%。相对于开源算法,经优化之后的OCR识别算法对航检视频影像中的复杂背景更具有效性。

4 结语

将基于动态边缘识别的OCR算法应用于复杂背景下的输电线路航检影像分析,有效增强了原始数据的可处理性,为后续数据深度分析奠定了良好的基础。该算法已应用于内蒙古超高压供电局航检视频分析作业中,实践证明,相比较其他具有类似功能的算法,该算法识别精度高达99.45%,能有效过滤复杂背景所包含的噪音信息。该系统的成功应用,降低了数据分析的工作强度及难度,缩短了分析周期,有助于内蒙古超高压供电局航检作业的信息化和精细化。

参考文献
[1] Huo Q, Feng ZD. Improving Chinese/English OCR performance by using MCE-based character-pair modeling and negative training[C].//Antonacopoulos A, ed. ICDAR 2003:the 7th Int'l Conf. on Document Analysis and Recognition.Los Alamitos:IEEE Computer Soci ety Press, 2003:364-368.
[2] Lyu M R, Song J, Cai M. A comprehensive method for multilingual video text detection, localization, and extraction[J]. Circuits and Systems for Video Technology, IEEE Transaction on, 2005, 15(2): 243–255. DOI:10.1109/TCSVT.2004.841653
[3] 仝卫国, 苑津莎, 李宝树. 图像处理技术在直升机巡检输电线路中的应用综述[J]. 电网技术, 2010, 34(12): 204–208.
[4] 卢力, 田金文, 柳健. 统计模式识别研究进展[J]. 军民两用技术与产品, 2003(11): 39–42. DOI:10.3969/j.issn.1009-8119.2003.11.018
[5] 池浩. 一个基于Tesseract OCR Engine的Wrapper的设计与实现[J]. 科技传播, 2011(12): 199.
[6] 于德明, 沈建, 汪骏, 等. 直升机在电网运行维护中的研究与应用[J]. 电网技术, 2009, 33(6): 107–112.