1 引 言
全球技术研究和咨询公司2002年调查报告表明,未来10年中至少95%的人机交互信息是文本语言,而80%以上的文本中涉及地理信息描述[1]。文本、图形/图像/地图、GIS和虚拟地理环境是现实世界和虚拟世界应用的主要地理语言[2]。除了传统的摄影测量和地图数字化手段之外,GPS、遥感影像、文本等已成为新型的重要地理信息来源[3, 4]。实现文本中地理信息的语义解析,有助于更加深入地理解空间认知和空间语言的表达规律,建立自然语言与GIS计算模型之间的语义映射关系,可广泛应用于GIS空间查询、地理信息检索、空间推理等方面[9, 10, 11, 12]。在文本描述中,空间概念可能频繁改变,而且涉及不同的实体、空间关系、属性等信息[5, 6, 7, 8]。这些信息在文本中主要采用特定的空间词汇和定性方式进行表达,但是在词汇、句法和语义等方面存在较为明显的不确定性。语料库不仅是语言定性、定量分析研究的基础,而且支持特定领域的应用系统开发[13, 14, 15]。标注体系构建的任务是对语言中特定信息进行分析,发现文本中特定领域信息的语言结构(比如词、词组、句法模式等),建立描述它们的元数据[16]。不同层次标注的语料库是文本信息解析系统的必备资源,为其提供标准化的训练和测试数据。相关标注体系和语料库的匮乏是阻碍文本中地理信息解析的重要因素[17]。
地理标记语言(geography markup language,GML)以一种互联网上容易共享的方式来描述、表达现实世界中的地理信息。GML定义数据的格式和数据内容,提供一个描述地理对象的框架。KML(keyhole markup language)是基于XML(extensible markup language)语法和文件格式的文件,用来描述和保存地理信息,并在Google Earth客户端中显示。GML和KML是当前应用最广的两种地理信息标记语言,主要面向结构化、定量化地理信息的描述、表达和保存,且二者具有较好的兼容性。GUM(generalized upper model)是一个通用语言驱动本体,将自然语言中空间表达式形式化为:SpatialLocating SL (locatum "XX",placement GL (hasSpatial-Modality XX,relatum "XX" | hasSpatialModality XX,relatum "XX" + quantitativeDistance-Extent "XX",relatum "XX")),SpatialModality指连接、相离、左、右、远等关系状态[18]。TRML(toponym resolution markup language)是用于标注英文文本中地名及其要素名称、几何类型、经纬度、上层实体等属性的标注体系[19]。GeoTagger与TRML较为类似,可以对不同类型不同语言的文档进行地名标注,已应用于MetaCarta公司的智能化地名搜索系统。TESLA(the geospatial language annotator)是专用于实时路径描述的语音语料标注系统,与GIS数据库相结合,构建了PURSUIT语料库,对路径描述中的坐标、街道、交叉口、地址和标志性点状实体进行了标注[20, 21]。SpatialML定义了文本中地名及其空间关系的标注体系,并扩展为ACE(automatic content extraction)英文文本空间关系抽取评测语料库的标注规范[17]。20世纪80年代以来,面向语言学和信息抽取方法研究,国内相继建立了一些大型的标注语料库。但是,绝大多数都没有考虑空间语义的表达与解析问题。哈尔滨工业大学对中文版《伊索寓言》中的地名、人、物等实体和空间关系进行了标注[22]。文献[23]初步探讨了中文文本的空间语义角色标注,并以30篇标注文本为数据集,测试了中文文本中地理实体、空间关系和空间过程的信息抽取效果。综上所述,GUM、TRML和SpatialML等较为完善的标注体系适用于英文文本中地名标注,而针对汉语的相关研究尚处于初步探索阶段,缺乏较大规模的应用型标注语料库。 2 中文文本和GIS中地理实体描述与表达机制的差异
命名实体是自然语言处理、信息抽取和文本数据挖掘等领域广泛使用的概念,通常指文本中描述具有特定意义实体的特殊短语,包括人名、地名、机构名、专有名词等 [24]。地理命名实体(geographical named entities,GNE)可看成是特定领域的命名实体,即文本中描述具有地理位置特性的命名实体,包括地名、地址、机构名、邮政编码等,具有模糊性、不确定性和多维动态等特点[25]。地名是地理命名实体的重要组成部分,具有浓厚的语言表达特征[26, 27]。具体来讲,中文文本中地理命名实体的语言描述特征包括:① 用字较自由、分散,但具有相对集中的覆盖能力[28];② 结尾常有特征词,比如“省、路、山”等;③ 附加方位词,比如 “五台山”是一个地名,而“五台山北部”则是一个完整的地理命名实体;④ 大多数情况下作为名词出现,有时作为形容词修饰其他实体,如“[老山]洋槐蜜”;⑤ 有的地理命名实体没有具体名称,但是根据上下文中的空间位置关系描述,可以对其进行空间定位,比如“南师大正门前的池塘”中的“池塘”是一个地理命名实体,但不是一个严格意义上的地名。很显然,中文文本和GIS中对于地理实体的描述与表达机制存在较大的差异(表 1)。
特征对比 | 中文文本 | GIS |
名称描述 | 特殊名词或短语标识,结尾通常有特征词或者空间方位词。 | 每个地理实体都有标识符,但不一定都有用文字描述的名称。 |
位置表达 | 文本形式的坐标或者文本描述的相对位置(定性描述)。 | 在矢量结构中,地理实体的位置用坐标定义,在栅格结构中,用实体占据的栅格行列号来定义,二者都是定量形式的描述。 |
属性表达 | 非结构化的文字。 | 结构化的关系表。 |
空间维度 | 空间维度受到描述者、参照物等影响。 | 按照点、线、面、体分为零维、一维、二维、三维。 |
区域范围 | 一般带有模糊性,可表达具有模糊边界的区域。 | 每个地理实体均有确定边界。 |
存储方式 | 方式灵活,可存储文本的任何格式。 | 文件+关系表,不同类型可能分层存储。 |
地理命名实体标注体系侧重于地理实体在文本中的空间语义表达,同时考虑信息的兼容、共享与交换性能。本文以XML为标记元语言,设计了地理命名实体的标注体系。地理命名实体采用〈GNE〉标签,包括4个属性:① id是标注单元序号;② type和typecode分别描述地理实体的要素类型和代码,本文样例中分类参考《地理命名实体要素类型分类体系(GNEC)》[29];③ form,标识地理命名实体的具名和不具名特性,NAM和NOM分别指示有具体名称和无具体名称的地理实体;④ mod,文本中经常存在对地理命名实体的一些限制性修饰(如方位词),为了便于实体的空间位置语义解析,这些词汇作为实体的mod属性标注。
在标注过程中,需要考虑汉语中地理实体描述的语言特点。地理命名实体的标注以句子为单位,在保证空间位置语义基本完整的前提下,对地理实体概念进行最小语义单元的标注,具体标注定义如下。
(1) 组合式地理命名实体:对于不同等级连续描述的地理命名实体,按照地理范围进行分级标注。
[河北省阳原县]首次发现人类化石。
〈GNE id=1 type=“省级行政区”typecode=“410100” form=“NAM”〉河北省〈/GNE〉
〈GNE id=2 type=“县级行政区” typecode=“410300” form=“NAM”〉阳原县〈/GNE〉
(2) 并列式地理命名实体:以顿号、短划线或其他符号分隔的地理命名实体,如果单独标注会破坏空间语义的完整性,则整体进行标注。 [宁夏回族自治区][公路干线]有[包兰]、[银川-环县-西安]等。
〈GNE id=1 type=“省级行政区” typecode=“410100” form=“NAM”〉宁夏回族自治区〈/GNE〉
〈GNE id=2 type=“省道” typecode=“320200” form=“NOM”〉公路干线〈/GNE〉
〈GNE id=3 type=“省道” typecode=“320200” form=“NAM”〉包兰〈/GNE〉
〈GNE id=4 type=“省道” typecode=“320200” form=“NAM”〉银川-环县-西安〈/GNE〉
(3) 关联式地理命名实体:多个地理命名实体与上下文连接起来描述某种空间关系,将实体分开标注。
[攀枝花市]坐落在[金沙江]和[雅砻江]交汇处。(注:交汇处指示空间关系)
〈GNE id=1 type=“地级城市”typecode=“210104”form=“NAM”〉攀枝花〈/GNE〉
〈GNE id=2 type=“河流” typecode=“110000”form=“NAM”〉金沙江〈/GNE〉
〈GNE id=3 type=“河流” typecode=“110000”form=“NAM”〉雅砻江〈/GNE〉
若一个或多个具名的地理命名实体和一个不具名的地理命名实体合起来表示一个地理实体,则进行整体标注。
[滇藏交界处]的[天主教村落]。
〈GNE id=1 type=“国家行政区(包括区域和界线)” typecode=“410000” form=“NAM”〉滇藏交界处〈/GNE〉
〈GNE id=2 type=“乡、镇、村” typecode=“210106” form=“NOM”〉天主教村落〈/GNE〉
(4) 后缀式地理命名实体。
空间关系词汇:地理命名实体通常后接表示方位词,指示实体的区域范围,此类词汇作为地理命名实体的属性标注。
[蒲圻市南部]为低山丘陵。
〈SIGNAL id=1 type=“S” 〉南部〈/SINGNAL〉
〈GNE id=2 type=“地级行政区” typecode=“410200” mod=1 form=“NAM”〉蒲圻市〈/GNE〉
地理概念:一个地理命名实体与表示地理要素类型词语合起来表示一个新的地理实体,则进行整体标注。
[浏阳河流域]生态环境恶化。
〈GNE id=1 type=“河流” typecode=“110000” form=“NAM”〉浏阳河流域〈/GNE〉
混合型:空间方位词加岸、麓、坡等地理要素概念构成的实体名称,如上游、南岸、南麓,南坡等,首先标注为空间关系词汇〈SIGNAL〉,然后作为地理实体的mod属性。
[虞山] [北麓]风景优美。
〈SIGNAL id=2 type=“N”〉北麓〈/SINGNAL〉
〈GNE id=1 type=“自然地貌” typecode=“510000” mod=1 form=“NAM”〉虞山〈/GNE〉
(5) 指代名称:地理命名实体在下文中通常以指代名称出现,如××省、××县在下文通常表达为“省、市、县”,或者下文中继续描述该地理实体的“北部、东部”等。如果指代名称与完整地理实体名称位于同一语句,则对指代名称进行标注,否则不予标注。
[榆次市]是[山西省]辖市和行署辖地,铁路枢纽。[榆次市]位于省境中部。
〈GNE id=1 type=“地级行政区”typecode=“410200”form=“NAM”〉榆次市〈/GNE〉
〈GNE id=2 type=“省级行政区”typecode=“410100” form=“NAM”〉山西省〈/GNE〉
〈GNE id=3 type=“地级行政区”typecode=“410200” form=“NAM” 〉榆次市〈/GNE〉
(6) 地理分区:有些区域名称描述的地理实体,并没有固定边界,如“中东地区”和“西北地区”等,需要进行标注。
[海南省]位于[亚热带地区]。 〈
GNE id=1 type=“省级行政区” typecode=“410100” form=“NAM”〉海南省〈/GNE〉
〈GNE id=2 type=“非行政区域” typecode=“420000” form=“NAM”〉亚热带地区〈/GNE〉
(7) 机构名称:机构名称具有空间位置的指示作用,作为地理命名实体标注。 上周我们班集体参观了[超图公司]。
〈GNE id=1 type=“企业单位” typecode=“640000” form=“NAM”〉超图公司〈/GNE〉
(8) 替代性名称:地理命名实体的别名、简称等替代性名称,需要标注。但是,“意指(意为)[×××]”等不作标注。
[扎什伦布寺]始建于1447年,最早称“[康建曲批]”,意为“雪城兴佛”。
〈GNE id=1 type=“宗教设施” typecode=“260000” form=“NAM”〉扎什伦布寺〈/GNE〉
〈GNE id=2 type=“宗教设施” typecode=“260000” form=“NAM”〉康建曲批〈/GNE〉
(9) 抽象概念:如果地理命名实体不包括地理位置含义,而是仅仅作为一个抽象概念使用,则不进行标注,如“[麦当劳]24小时营业”。
为了确定文本中地理实体的地理位置,标注者可以使用整篇文章作为语义背景,或者参考常识知识和专业知识。如果文本中没有明确的位置指示,可以不标注地理参考,或者标注为最高级别的行政区划类别。例如,“芜湖”可以指安徽省的“芜湖市”,也可以指芜湖市的芜湖县。
我们在十分疲倦的情况下到达了[芜湖]。
〈GNE id=1 type=“地级行政区”typecode=“510300” form=“NAM”〉芜湖〈/GNE〉 4 标注语料库
开源自然语言处理软件GATE,可接受XSD格式的schema文件,使用户按照一定标注框架对文本进行标注,同时提供标注数据管理方案,经过GATE处理的语料可统一存储为XML格式。本文以《中国大百科全书中国地理》为源数据(约213万字),以GATE为标注平台(图 1),参考本文设计的地理命名实体标注体系,建立了大规模的标注语料库GeoCorpus。
分类代码 | 类别名称 | 样例 | 标注结果 |
100000 | 水系 | 隋开辟的[通济渠],促使[淮河流域]经济进一步发展。 | 〈GNE id=1 type=“水系” typecode=“100000” form=“NAM”〉通济渠〈/GNE〉 〈GNE id=2 type=“水系” typecode=“100000” form=“NAM”〉淮河流域〈/GNE〉 |
200000 | 居民地及设施 | [陕西窑洞]是天然黄土中的穴居形式。 | 〈GNE id=1 type=“居民地及设施” typecode=“200000” form=“NAM”〉陕西窑洞〈/GNE〉 |
300000 | 交通 | [龙厦铁路]全长约140km。 | 〈GNE id=1 type=“交通” typecode=“300000” form=“NAM”〉龙厦铁路〈/GNE〉 |
400000 | 管线 | [新疆]将在[南疆]建年输气23.5亿方[天然气管线]。 | 〈GNE id=1 type=“居民地及设施” typecode=“200000” form=“NAM”〉新疆〈/GNE〉 〈GNE id=2 type=“居民地及设施” typecode=“200000” form=“NAM”〉南疆〈/GNE〉 〈GNE id=3 type=“管线”typecode=“400000” form=“NOM”〉天然气管线〈/GNE〉 |
500000 | 境界、政区与其他区域 | [江苏省]走在改革开放的前列。 | 〈GNE id=1 type=“境界、政区与其他区域”typecode=“500000” form=“NAM”〉江苏省/GNE〉 |
600000 | 地貌 | [喜马拉雅山脉]主干是前寒武系变质岩。 | 〈GNE id=1 type=“地貌” typecode=“600000” form=“NAM”〉喜马拉雅山脉〈/GNE〉 |
700000 | 组织机构 | [南京顺泰科技有限公司]创立于2002年5月。 | 〈GNE id=1 type=“组织机构” typecode=“700000” form=“NAM”〉南京顺泰科技有限公司〈/GNE〉 |
900000 | 其他 | [北京市]邮政编码为[100000]。 | 〈GNE id=1 type=“境界、政区与其他区域” typecode=“500000” form=“NAM”〉北京市/GNE〉 〈GNE id=2 type=“其他” typecode=“900000” form=“NAM”〉100000〈/GNE〉 |
语料库中各大类标注样例参见表 2。地理命名实体标注总数为7135个,其中大类“境界、政区与其他区域”3387个、“水系”1497个、“居民地及设施”983个、“地貌”958个、“交通”256个、“组织机构”49个、“管线”等其他类5个; “国家行政区”、“自然地貌”、“河流”、“名胜古迹”、“居民地”、“湖泊”、“其他水系要素”、“非行政区域”、“铁路”、“其他建筑物及其设施”10种要素类型的地理命名实体数量最多。从空间认知的角度看,这些类型的地理实体具有较高的认知显著度,其语言描述特征具有一定的代表性。因此,尽管从数据量来看语料库存在一定的不平衡性,但是仍然具有作为标准数据的研究和应用能力。
5 结 论探讨中文文本中地理命名实体的标注体系和语料库标注方法,不仅充分考虑中文文本的语言描述特点,而且在保证空间语义正确的情况下,能够对各种不同类型的地理命名实体进行标注;以《中国大百科全书中国地理》为源数据的标注语料库,不仅规模较大,而且达到较高的标注质量,对中文文本中地理信息的语义解析有重要意义。下一步研究工作主要包括两个方面:一是进一步完善标注体系,通过大规模普通网页的标注,解决语料库的不平衡性问题;二是与GIS数据库相结合,开发可视化的标注工具,进一步提高标注效率和标注质量。
[1] | PALKOWSKY B,METACARTA I.A New Approach to Information Discovery-Geography Really Does Matter[C]//Proceedings of the SPE Annual Technical Conference and Exhibition.Dallas:[s.n.],2005. |
[2] | LIN Hui,GONG Jianghua.On Virtual Geographic Environments[J].Acta Geodaetica et Cartographica Sinica,2002,31(1):1-6.(林晖,龚建华.论虚拟地理环境[J].测绘学报,2002,31(1):1-6.) |
[3] | GOODCHILD M F.Citizens as Voluntary Sensors:Spatial Data Infrastructure in the World of Web 2.0[J].International Journal of Spatial Data Infrastructures Research,2007(2):24-32. |
[4] | CHANG K T.Introduction to Geographic Information Systems[M].New York:McGraw-Hill,2008. |
[5] | HERSKOVITS A.Language and Spatial Cognition:An Interdisciplinary Study of the Prepositions in English[M].London:Cambridge University Press,1986. |
[6] | TALMY L.Toward a Cognitive Semantics:Concept Structuring Systems[M].Cambridge:MA,MIT Press,2000. |
[7] | TENBRINK T.Space,Time and the Use of Language:An Investigation of Relationships[M].Berlin:Mouton de Gruyter,2007. |
[8] | HOIS J,KUTZ O.Counterparts in Language and Space Similarity and Connection[C]//Proceedings of the Fifth International Conference on Formal Ontology in Information Systems.[S.l.]:DFKI,2008. |
[9] | FRANK A U.Qualitative Spatial Reasoning:Cardinal Directions as an Example[J].International Journal of Geographical Information System,1996,10:269-290. |
[10] | TAPPAN D.Knowledge-based Spatial Reasoning for Automated Scene Generation from Text Descriptions[D].Las Cruces:New Mexico State University,2004. |
[11] | JONES C B,PURVES R.Geographical Information Retrieval[J].International Journal of Geographical Information Science,2008,22:219-228. |
[12] | LIU Y,GUO Q H,WIECZOREK J,et al.Positioning Localities Based on Spatial Assertions[J].International Journal of Geographical Information Science,2008,23(11):1471-1501. |
[13] | WEN Boyan.Corpus and It's Application[J].Foreign Language Learning Theory and Practice,2001,2:32-35.(文渤燕.语料库及其作用[J].国外外语教学,2001,2:32-35.) |
[14] | SINCLAIR J.Corpus Concordance Collocation[M].Shanghai:Shanghai Foreign Language Education Press,1995.(辛克莱.语料库、检索与搭配[M].上海:上海外语教育出版社,1995.) |
[15] | LIU Lianyuan.Study of Corpus for Contemporary Chinese Language[J].Applited Linguistics,1996,3:2-9.(刘连元.现代汉语语料库研制[J].语言文字应用,1996,3:2-9.) |
[16] | KIM J D,OHTA T,TSUJII J I.Multilevel Annotation for Information Extraction[J].Speech and Language Technology,2010,40:125-142. |
[17] | MANI I,HITZEMAN J,RICHER J,et al.SpatialML:Annotation Scheme,Corpora,and Tools[C]//Proceedings of the 6th International Conference on Language Resources and Evaluation.Morocco:LREC,2008. |
[18] | TALMY L.The Fundamental System of Spatial Schemes in Language[J].From Perception to Meaning:Image Schemes in Cognitive Linguistics,2005,1,199-263. |
[19] | LEIDNER J L.Toponym Resolution in Text[D].Scotland:Universal of Edinburgh,2007. |
[20] | KILGOUR J,CARLETTAM J.The NITE XML Toolkit:Demonstration from Five Corpora[C]//Proceedings of the 5th Workshop on NLP and XML:Multi-Dimensional Markup in Natural Language Processing.Trento:[s.n.],2005:65-68. |
[21] | CARLETTA J,KILGOUR J.The NITE XML Toolkit Meets the ICSI Meeting Corpus:Import,Annotation,and Browsing[C]//Proceedings of Machine Learning for Multimodal Interaction:First International Workshop.Berlin:Springer-Verlag,2005:111-121. |
[22] | LI Hanjing.Research on Spatial Conceptual Model Based on Natural Language Processing[D].Harbin:Harbin Institute of Technology,2007.(李晗静.基于自然语言处理的空间概念建模研究[D].哈尔滨:哈尔滨工业大学,2007.) |
[23] | LE Xiaoqiu.Research on Intelligent Web Search Engine of Unstructured Spatial Inofrmation[D].Beijing:Institute of Remote Sensing Applications,2007.(乐小虬.非结构化网络空间信息智能搜索与服务研究[D].北京:中国科学院遥感应用研究所,2007.) |
[24] | LI Yusen.Chinese Toponym Resolution and Visualization[D].Chongqing:Chongqing University of Posts and Telecommunications,2009.(李玉森.面向空间位置服务的地名解析方法研究[D].重庆:重庆邮电大学,2009.) |
[25] | CAO Han.Research on Knowledge Representation and Reasoning Mechanism for Spatial Relation Reasoning[D].Wuhan:Wuhan University,2002.(曹菡.空间关系推理的知识表示与推理机制研究[D].武汉:武汉大学,2002.) |
[26] | DONG Huirong.Probing the Thinking Mode and Social Psychology of the Hans in the View of Chinese Place Name[J].Academic Exchange,2003(12):138-141.(邓慧蓉.从中国地名透视汉族人的思维方式和社会心理[J].学术交流,2003(12):138-141.) |
[27] | WU Zhirong.Discussion on Place Name Words[J].Map,2006(1):42-43.(吴志荣.地名用字琐谈[J].地图,2006(1):42-43.) |
[28] | FENG Zhiwei.Empiricism-based Corpus Research[J].Terminology Standardization&Information Technology,2007(1):29-39.(冯志伟.基于经验主义的语料库研究[J].术语标准化与信息技术,2007(1):29-39.) |
[29] | ZHANG Xueying,ZHANG Chunju,LV Guonian.Design and Analysis of a Classification Scheme of Geographical Named Entities[J].Journal of Geo-Information Science,2010(2):220-227.(张雪英,张春菊,闾国年.地理命名实体分类体系的设计与应用分析[J].地球信息科学,2010(2):220-227.) |