应用气象学报  2006, 17 (4): 478-482   PDF    
历史纸质气象档案数字化技术策略初步分析
兰平, 臧海佳     
国家气象信息中心, 北京 100081
摘要: 利用安全扫描和光学字符识别技术实现气象档案数字化是对纸质气象历史档案拯救和开发利用的有效途径。该文在对数字化技术进行调研和试验的基础上, 提出了历史纸质气象档案数字化的建设思路, 针对气象档案记录内容的特点, 对OCR (optical character recognition) 手写体数字识别技术应用进行了分析, 提出了气象档案OCR识别的解决策略, 为业界的纸质气象档案数字化建设提供一种技术思路和有效的技术参考。
关键词: 纸质气象档案    数字化    光学字符识别    
Preliminary Researches on Digitizing Paper Meteorological History Archives
Lan Ping, Zang Haijia     
National Meteorological Information Center, Beijing 100081
Abstract: Realizing the digitization of the meteorological archives with the secure scanning and the OCR (optical character recognition) is an effective way to save and develop the papery historic meteorological archives. Based on the investigation and the experimentation on the digitization technique, a conception about the digitization of the papery historic meteorological archives is presented. Aiming at the character of the content recorded in the meteorological archives, the application of the handwritten numeral recognition of OCR is analyzed, and the resolution strategy of OCR recognition of the meteorological archives is presented, which provides a technical idea and effective technical reference for the construction of the digitization of the papery meteorological archives in the area. The scientific and effective way of the meteorological archive digitization is to utilize the technique of the integrated carrier and the OCR which are advanced at home and abroad, and to found a system platform of the digitization of the meteorological data. The platform is consisted of the high/low secure scanner, personal computer, the storage device, the managing software, the OCR software and the applied software etc. The system integrates the scanning process, the quality control, and the statistical process of the various papery archives and the microfilm archives, creates the electronic files in the unified format and the same medium, realizes the extraction of the data information from the meteorological data in the form of long sequence with OCR technique, and finally solves the problem of protection and the digitization of the library papery meteorological data. The construction of the meteorological archive digitization is not only simple data processing, but also relates to a series of associated techniques including the classification of the meteorological archives, the construction of the standard specification, the secure scanning, OCR technique, the data storage, the construction of the data set and the retrieval and application of the information etc. The construction of the meteorological archive digitization integrates the archives on the different carrier in order to realize the overall application of the protection and digitization of the archives. The resulting electronic documents and the long term digitizing documents have important significance for the protection of the archives and the climatic analysis in the various fields. The primary analysis of the strategy of the digitization of the papery meteorological archives indicates that it is feasible to apply the secure scanning and the OCR technique to the digitization of the papery meteorological archives. At present, the system of the meteorological archive digitization has stepped into the performing phase, and the digitization of the papery historic meteorological archives will provide the foundation for the conservation and the application of the historic meteorological data.
Key words: papery meteorological history archives     digitization     optical character recognition    
引言

数字化技术是指将原始的文字、声音、图像等信息用间断的电磁脉冲 (常用0和1来代表) 来获取、存储、处理和传递的技术。“数字化”是一个动态的过程, 是对记录内容信息处理和管理的过程。气象档案数字化建设是根据气象档案的特点和利用需求, 通过扫描和光学字符识别技术 (optical character recognition, 简称OCR), 实现通过计算机管理和检索的信息转换过程, 气象档案数字化建设, 不仅仅是通过扫描形成简单的文本文档, 而是利用OCR技术实现气象资料的数据信息提取, 气象档案数字化的对象主要是以纸张介质存储的历史气象档案。

国外从20世纪50年代就开始了OCR技术的研究[1], 目前印刷体西文和数字的识别精度已经达到了99%, 手写体数字识别技术也已到了实际应用阶段。在日本, 目前大量的存单、储单、保单以及户籍登记都是通过OCR技术来实现数字化管理的; 在美国, 大规模的人口普查、针对个人的信贷业务、个人所得税申报等工作都离不开OCR技术; 在法国, 从2000年开始利用OCR技术处理一些复杂和数量庞大的银行表单和汽车转手申报表, 自2003年起, 要求全国身份证和护照申请表中手写签字和数字栏必须利用OCR软件进行处理, 以达到高效、准确和统一。同国外相比, 我国在OCR技术研究方面起步较晚, 但由于应用领域广阔, 国内对相关技术开始给予了充分的重视, 通过借鉴国外的先进经验, 我国在印刷体数字、西文、汉字和手写体数字识别技术上已经达到很高水平, OCR技术在档案、图书、银行和政府等很多部门得到了广泛的应用。

中国气象局气象档案馆存档着大量纸质载体的历史气象资料, 这些历史气象资料年代较为久远, 是研究我国近代气候及环境的不可替代的宝贵财富, 也是区域气候变化和全球变化研究的基础资料。这些历史气象资料主要以纸质载体为主, 使用方式仍然是查阅和抄录, 其信息无法得到更为广泛和深入的应用[2]

纸质历史气象档案的数字化建设是气象档案馆当前所面临的突出问题, 这些档案存在着种类多、年代久远、原件物理质量差、数量庞大 (需要扫描处理的资料量达200万页, 需要信息化的资料量近20 GB)、格式和内容复杂、手写体数据无逻辑关系等特点, 数字化建设过程中, 既要保证档案原件的安全, 又要实现载体转换和数据信息的提取, 技术难度很大。针对气象档案资料的上述特点, 我们对有代表性的非信息化历史气象资料进行了数字化方法研究, 从档案保护和信息提取的角度, 利用目前国内外较成熟的技术对纸张和缩微胶片载体资料进行了扫描和数字识别试验, 在此基础上, 对气象档案数字化的可行性作了客观的评估, 进而对气象档案数字化的总体设计做一个策略分析。

1 气象档案数字化建设中面临的技术问题

气象档案数字化建设是一项运用多种技术进行资料处理, 兼顾档案资料的保护、管理、数字信息提取和利用的复杂过程, 整个环节面临三个必须首先解决的技术问题。

一是档案的安全扫描和扫描技术参数的选择问题。纸质气象档案原件的质量本身决定了必须采用安全的扫描方式, 同时要保证扫描结果具有较高的分辨率。解决这个问题在于扫描设备采用能够支持A2~A4等多种幅面的非接触式或平板式安全扫描仪, 在扫描参数选择上根据扫描清晰度和质量因素进行综合选择, 对于需要通过OCR技术提取信息的资料, 要采用较高的扫描分辨率来进行, 分辨率范围控制在200~400 dpi之间。

二是气象档案存在着数据资料种类多、存储形式和记录内容缺乏共性、数据表格多且表格形式不连续、大部分历史资料数据是手写体、90%的资料在信息提取前需进行扫描处理等特点, 这些特征给资料的OCR识别带来很大难度, 除了在前期处理时按照OCR技术要求进行扫描参数设置外, OCR识别软件的识别算法和系统功能是关键, 必须采用多功能的识别软件才能实现。

三是数字化建设中标准规范的建立。在数字化建设初期和过程中, 必须建立和完善科学的业务流程及相关的标准规范, 这是实现气象档案数字化的重要保证。

2 气象档案数字化的技术思路

气象档案数字化建设的本质是“原件前期处理+数字化+标准化”, 基本路线是以数字资源为主要采集对象, 实施档案的数字化存储、管理和利用的建设[3]

气象档案数字化的科学有效方式是利用目前国内外较先进的载体整合技术和OCR字符识别技术, 建立气象资料数字化系统平台, 系统由高、低端安全扫描设备、PC机、存储设备、管理软件、OCR字符识别软件、应用软件等组成。系统集成各类纸质档案、缩微胶片档案的扫描处理、质量控制、统计加工, 形成统一格式、同一介质的电子文档, 利用OCR数字识别技术, 实现长序列气象资料的数据信息提取, 最终解决馆藏纸质气象资料的保护和数字化问题。

在数字化建设过程中不容忽视的一个重要环节是标准化建设, 它是实现气象档案数字化的“生命线”, 是不可或缺的必要条件。气象档案数字化建设应从管理、业务和技术3个层面制定相关标准规范。管理性规范, 是对数字档案的管理和数字化建设过程中的管理提供一系列可供操作的规则, 包括档案的移交、整理、鉴定、存储、著录、安全性保证、检索利用等; 业务性规范和标准, 是针对档案数字化业务处理进行规范化管理, 其范围包括资源标识、描述、数字档案文件格式、元数据等; 技术性标准规范, 包括数字档案的术语标准、资源表示、描述、存储、交换、管理和使用、软硬件建设、数据压缩等。档案数字化建设中, 标准规范的制定、补充和修改应符合我国国情和本单位特点, 符合国家信息化工作基本方针, 同时也要兼顾能与国际上档案数字化方面标准规范体系相衔接。

① 中国气象局.气象记录档案管理规定 (气发[2001]130号). 2001.

3 气象档案数字化的前期处理技术———资料的安全性扫描

扫描是气象档案数字化技术环节中的一个关键步骤, 扫描技术参数的选择, 决定着扫描质量; 分辨率的控制和扫描格式的设置又决定着OCR数字识别的误识率。因此, 在扫描处理过程中要根据原件的本身质量和利用需求来设置扫描技术参数和存储格式。

3.1 扫描技术参数的选择

扫描过程中采用标准的TWAIN, ISIS编程接口, 通过整合管理软件, 直接控制各类扫描仪, 实现扫描仪群组协同扫描和自动图像压缩存储。作为存档保护的气象资料, 采用灰度图像处理; 需要OCR数字识别的资料采用灰度或黑白二值进行扫描 (黑白二值进行扫描有个缺点:如果原件不清楚, 就无法人工校对了, 可能要翻阅原件; 采用灰度图像, 人眼一般能够辨识报表中的字符。因此, 扫描参数的选择可根据原件的质量而定)。为了满足OCR识别和网络化查询利用, 黑白图像采用200~400dpi, 具体参数可以根据扫描清晰度和气象档案的质量因素进行综合选择[4]

3.2 图像文件格式的选择

存储格式的选择决定着存储空间和文件的检索。TIFF是一种支持多页存储的图像文件格式, 它支持多种压缩算法 (如CCITTLZW, JPEG等), 但TIFF本身并不是一种压缩算法。而JPEG既是一种单页存储的文件格式, 同时又是一种标准的压缩算法。TIFF的重要特点是支持多页存储、多种压缩方法, 而且扩展性强。因此, 在气象档案扫描文档存储格式的应用中, 需要OCR数字识别的档案扫描为黑白二值图像类型和多页TIFF文件格式, 采用CCITT-G4压缩方式。

4 气象档案数字化的关键技术———OCR识别技术

从表现形式来看, 气象档案的记录内容主要是数字或字符 (各类报表和观测簿等), 历史气象资料的数字记录大部分是手写体。实现数字化主要技术途径有两种:一是通过键盘手工输入; 二是先转换成电子图形文件 (通过扫描仪扫描) 再利用OCR识别技术, 进行数据提取。手工键入形式需投入的人力、物力和财力十分庞大, 周期很长。因此, 采用OCR手写数字识别技术进行气象资料的信息提取, 是解决气象档案数字化的较为科学有效的方法。

4.1 OCR的核心技术———手写数字识别 (HNR)

手写数字识别 (Handwritten Numeral Recognition) 是OCR的核心技术, 它研究的对象是:如何通过软件和相关技术自动辨认写在纸张上的阿拉伯数字。对一个手写数字识别系统, 可以用3方面的指标表征系统的性能[5] :

正确识别率A=正确识别样本数/全部样本数×100%

替代率 (误识率) S=误识样本数/全部样本数×100%

拒识率R=拒识样本数/全部样本数×100%

三者的关系是:A+S+R=100%

识别精度P=A/(A+S)×100%。

一个理想的系统应是R, S尽量小, 而P, A尽可能大。而在一个实际系统中, S, R是相互制约的, 拒识率R的提高总伴随着误识率S的下降, 与此同时识别率A和识别精度P的提高。因此, 在建立气象档案数字化识别系统时, 必须综合考虑这几个指标。

由于书写方式完全没有限制, 因此可以肯定, 采用简单的技术和方法无法达到很高的正确识别率和识别精度。手写数字识别在学科上属于模式识别和人工智能的范畴, 除了借用一般文字识别中的通常做法外, 还要根据数字识别的特点进行修改和补充。目前国内外在这方面的技术正向着更为成熟、智能和综合的方向发展, 其技术核心是通过多个引擎识别和科学的表决算法, 同时建立自己的数字样本库或选用目前具有权威性的通用样本库, 通过一定数量的识别训练, 实现书写习惯的自动对应, 从而提高正确识别率和识别精度[6]

4.2 前期试验结果评估

近几年我们对OCR相关技术进行了初步研究, 选出有一定代表性的手写体和印刷体历史气象资料, 利用3种不同功能的数字识别软件 (夏尔公司与国外合作开发的eFLOW (r) 识别软件、金信桥网络技术公司自主研发的TBS (r) 识别软件、北京优立慧科科技有限公司与法国合作开发的Uniwex识别软件) 进行了试验。3种软件的共同特点是, 其主要功能都能对手写体和印刷体数字进行识别处理, 都具有表单自动脱离、扫描件自动处理和数据库导入等功能。不同之处是对数字识别的算法和采用的识别引擎不同。根据对3种软件功能和识别结果分析, 前两个软件采用的是单引擎识别方法, 手写体气象资料的正确识别率均未达到50%, 另一种软件是Uniwex表单识别软件, 软件具有多个识别引擎、表单信息智能采集、表单自动分类、图像背景智能处理和人机校对等功能, 同时系统能够通过学习机制来不断更新数字样本库, 进而提高自动对照书写习惯的能力。该软件最大的特点在于具有多个识别引擎, 系统在这些引擎的识别结果中进行自动表决, 利用数据间的特定逻辑关系和识别产生的置信度水平来决定人工干预程度, 当识别结果满足逻辑关系时无需校对, 如果识别结果不满足逻辑关系或把握不大 (即置信度低于预先设置的阈值), 则会将相应的数据自动提交给人工校对和修改, 这既提高了资料的正确识别率, 又加快了识别速度。利用该软件进行识别试验的结果如表 1所示。

表 1 应用Uniwex表单识别软件进行气象资料识别试验结果

试验结果基本能够反映历史气象资料数字识别的正确识别率。总体来看, 印刷体的正确识别率在96%以上, 手写体的正确识别率在70%~75%, 但是需要说明的是, 软件需对大量的气象资料进行适应性训练, 通过软件的训练学习机制来提取字符的特征, 将识别结果与数字样本库数据进行自动比较, 从而提高数字的正确识别率。根据业内经验, 训练学习机制可以提高5%~10%的识别率。因此, 对于手写体, 通过学习机制识别率可达到80%。

4.3 气象档案数字化的技术策略

从需求出发, 实现纸质气象档案数字化的基本策略是:建立历史气象资料数字化业务系统。系统硬件由无接触式高速扫描设备、文档扫描服务器、数据存储服务器和PC机组成, 软件由扫描管理软件、OCR识别软件、以及相关的应用软件组成。通过该系统, 首先解决纸质气象资料的扫描处理, 实现文档电子化, 形成统一格式的电子文件, 再利用OCR数字识别技术实现长序列历史气象资料的数字化, 提供用户使用。

实现这一策略的关键之一是根据国内外现有技术和气象资料特点, 确定不同类型纸质气象资料的数字化技术路线。历史气象观测资料具有类型多、表格多、大部分是手写体和资料质量普遍较差等特点, 针对这些特点, 在数字化建设中, 既要考虑采用OCR软件进行数据提取的正确识别率, 也要考虑数字化建设的投入和效率, 同时对前期的扫描分辨率要求很高, 采用单一的技术手段实现全部历史气象观测资料的数字化十分困难, 也不切合实际。因此, 历史气象资料数字化的技术路线应根据识别软件功能和气象资料的特点综合确定。根据对OCR的技术研究和实验结果分析, 需要数字化的印刷体长序列气象资料, 采用数字识别软件进行信息提取, 如印刷体类的国外气象报表、全国雨量报和气象月刊等, 这类资料原件数据质量好, 表格规范, 能够发挥OCR识别软件的优势; 数量较大的手写体历史气象资料, 采取强制人机校对方式, 通过软件识别和人工键盘录入作为补充的方式进行数字化处理, 保证识别数据的准确率, 如手写体类的高空资料、辐射资料和农气资料等, 这些资料数量大, 但记录内容统一, 有利于发挥软件速度快、效率高和人工干预少的优势; 对于那些数量不大, 且表单种类多的手写体气象资料, 如表 1中的海关月总簿、建国前的气象月总簿等, 采用人工键盘录入方式进行数字化。

实现技术策略的关键之二是采用的数字识别技术, 鉴于气象档案资料记录内容的复杂性和特殊性, 必须选用具有多个识别引擎、表单信息智能采集、表单自动分类、图像背景智能处理 (自动去除表格边框、自动纠偏等)、人机校对等功能的数据识别软件。

实现技术策略的关键之三是制定相关的标准和规范, 建立科学的业务流程, 将资料的分类统计, 扫描处理和数据信息提取同步进行, 以避免不必要的重复劳动, 减少工作周期, 同时可以降低成本投入。

历史纸质气象档案的数字化建设应该是循序渐进的过程, 从易到难, 从长时间序列资料着手。目前国内外较先进的技术和软件, 对手写体数字识别的正确率也不可能达到100%, 科学的方法是利用OCR软件进行数据识别, 对自动拒识的数据, 采取人机校对和补录方式进行数字化处理, 提高数字化效率, 尽量减少人工干预, 实现数字化在投入、质量、效率上的统一。

5 结语

气象档案数字化建设不是简单的资料处理过程, 它是一项涉及到气象档案的分级分类、标准规范建设、安全扫描、OCR识别、数据存储、数据集建设、信息的检索利用等一系列关联技术, 对不同载体档案进行整合, 实现档案保护和数字化的综合应用过程。形成的电子文档和长年代数字化资料, 对档案保护和各领域的气候分析研究都具有重要意义。

对纸质气象档案数字化策略初步分析表明, 安全扫描和OCR识别技术应用于纸质气象档案数字化业务中是可行的, 目前气象档案数字化系统建设已经进入实施阶段, 纸质历史气象档案的数字化将为保存和利用历史气象资料奠定基础。

参考文献
[1] 段荣婷. 我国数字档案馆的研究与建设. 中国档案, 2002, (6): 24–26.
[2] 中国气象局气象档案馆. 中国气象局气象档案馆指南. 北京: 气象出版社, 2003: 23-24.
[3] 杨公之. 档案信息化建设导论. 北京: 中国档案出版社, 2001: 75-79.
[4] 王伯民, 吕勇平, 张强. 降水自记纸彩色扫描数字化处理系统. 应用气象学报, 2004, 15, (6): 737–744.
[5] 林晓帆, 丁晓青, 吴佑寿. 手写数字识别的原理及应用. 档案学研究, 2004, (2): 11–13.
[6] 刘志磊, 严继东. 论地 (市) 级图书馆建设数字图书馆的策略. 第二届海峡两岸公共图书馆基础建设研讨会, 北京, 2001.