文章快速检索  
  高级检索
中文文本的地理空间关系标注
张雪英, 张春菊, 朱少楠    
南京师范大学 虚拟地理环境教育部重点实验室,江苏 南京 210046
摘要:为有效地解决当前相关标准和标准数据匮乏的问题,通过分析中文文本中地理空间关系描述的语言特点,提出中文文本的地理空间关系标注体系,并以GATE(General Architecture for Text Engineering)为标注工具,以《中国大百科全书中国地理》为文本数据源,采用交叉校验方式建立了地理空间关系标注语料库。实现了中文文本中地理空间关系描述的结构化表达,提供了地理空间关系信息抽取的标准化测试数据。
关键词自然语言     中文文本     地理空间关系     标注体系     标注语料库    
Annotation for Geographical Spatial Relations in Chinese Text
ZHANG Xueying, ZHANG Chunju, ZHU Shaonan     
Institute of Geographical Science, Nanjing Normal University, Nanjing 210046, China
First author: ZHANG Xueying(1970-), female,PhD, professor, majors in GIS, service and processing of intelligent geographical information. E-mail:zhangsnowy@163.com
Abstract: Corpus annotation is a task to provide both reference and training material for method development and benchmark data sets annotated with a given annotation scheme. After analysis of the linguistic characteristics, an annotation scheme is proposed for markup linguistic expressions for spatial relations in Chinese text. And then a natural language processing software-GATE(General Architecture for Text Engineering) is introduced as the annotation tool. Based on the proposed annotation scheme, a corpus with “Encyclopedia of China Geography” as the source data is annotated by means of cross-validation to solve the problem of annotation inconsistency. In order to realize the structurized representation of geographical spatial relations described in natural language, and to provide standard training and test data for their extraction.
Key words: natural language     Chinese text     spatial relation     annotation scheme     annotated corpus    

1 研究背景

空间数据不仅表示地理实体的空间位置及形状、大小等形态信息,而且表示实体属性和空间关系信息。空间数据的尺度、解析、分类和概念化一直是地理信息科学需要解决的关键问题[1]。自然语言是人类描述和交流空间信息的主要手段,已成为新型的重要空间数据来源[2]。自然语言中空间关系描述具有定性、模糊和不确定性等特点,但是比GIS空间关系更接近于人们的认知和交流习惯[3]。对自然语言空间关系描述的理解是GIS空间关系研究的一个基本问题[4]。空间关系是客观世界里一种基本的存在关系,空间关系表达是人类语言的一项基本功能。每种语言都有一套能够完整表达空间关系的词汇系统,可以利用这些词汇和相关句法组织各种各样的语句,对认知空间世界的图景加以描写、叙述或说明[9]。标注体系(annotation schemes)用于对语言中特定信息进行分析,发现文本中特定领域信息的语言结构,建立描述它们的元数据[5]。不同层次和规模的标注语料库为文本信息抽取系统提供标准化的训练和测试数据。因此,构建中文文本的地理空间关系标注体系和标注语料库,可以解决当前相关标准和标准数据匮乏的问题。

文献[6]对中文版《伊索寓言》中的地名、人、物等实体以及空间关系进行了标注,其中实体类型范围较广(包括地理实体和非地理实体),空间关系包括整体和容器两种类型,与GIS空间关系类型划分差异较大。文献[7]探讨了基于语义角色的空间实体、空间关系和空间过程标注方法。具体标注以句子为单位,在汉语分词基础上附加相应的特征标记符或语言成分标记符。例如,桌子/E上/SR(SRD:ON)有/v两/m个/q红/AR(Color:RED)苹果/E。由于沿用传统的词性标注方式,通过空间关系词汇标注空间关系类型,难以标注复杂的空间关系描述,而且不能表达空间关系词汇与地理实体之间的语义关系。SpatialML 试图制定面向多语种的通用地名信息标注体系,用于标注文本中地名及其属性(包括要素类型、地名来源、方位词等)和空间关系(包括空间关系类型、目标物、参照物、空间关系词汇等),其中空间关系分类参照了GIS领域的相关标准。由于采用XML schema的标记方式,与GML(geography markup language)、KML(keyhole markup language)和TRML(toponym resolution markup language)等具有较好的兼容转换性能。但是,SpatialML比较适用于英文文本,目前已被扩展为ACE(automatic content extraction)英文文本空间关系抽取评测语料库的标注体系[8]。相比较而言,国内的相关研究尚处于小规模的探索阶段,缺乏从自然语言中地理空间概念的图形表达、空间推理和空间语义解析等角度,较为全面地考虑中文文中地理空间关系描述的语言特点和表达规律。

2 中文文本中地理空间关系描述的语言特点 2.1 空间方位参考框架

自然语言中空间方位关系描述,遵循一定的空间方位参考框架,以反映语言社会对认知空间中方位关系的认知过程和认知方式。内部参考框架(intrinsic reference frame)是一个目标在自身内部建立的方向参照系统,多用“前、后、左、右”等方位术语描述;直接参考框架(direct reference frame)根据观察者的观点建立,一个观察者以他自己的前、后、左、右等对空间进行划分,建立空间方向判断的参照系统;外部参考框架(extrinsic reference frame)将地球表面经投影转换到二维平面上,一般可以得到以东、南、西、北4个主方向描述的方向系统。内部参考框架一般用于小尺度的地理空间,直接用于人们的日常方向判断描述,而在GIS中则是典型的外部参考框架[10]

2.2 空间关系词汇

汉语中描述空间关系的词汇较为丰富,但是每个词汇可以指示一种或几种特定类型的空间关系,其具体语义大多数时候依赖于上下文。从词性角度看,空间关系词汇有动词、形容词、方位词、量度词、名词等类型,如“穿越”、“附近的”、“东边”、“公里”、“支流”等。其主要功能包括两个方面:一是作句子的动词,反映主语和谓语的关系,如“桥梁跨过河流”;二是作为各级无语义的、同义的语言单位之间的组合约束,成为词法和句法的一部分。此外,空间关系词汇通常有程度副词修饰,如“非常”、“大概”、“差不多”等。在人工收集常用空间关系词汇的基础上,本文以1万个普通网页和262个维基百科网页为数据源,采用BootStrapping算法进行扩展,获得了558个空间关系词汇。

2.3 空间关系描述的语言结构

空间语言结构都有特定的认知基础、组织原则、表达顺序和使用习惯。自然语言中空间关系表达不仅与地理实体的要素类型和几何特征有关,而且受描述者本身语言与文化的影响。但是,一个空间关系实例一般包括地理实体(至少两个)、空间关系词汇(一个或多个)或其他辅助词汇等语言单元,空间关系的语义表达通过一定的句法结构来链接各个语言单元。本文以空间关系词汇为检索词,利用Google搜索引擎,收集整理了1万个描述地理空间关系的语句,归纳出具有一定代表性的空间关系描述语言结构,包括词汇、句法结构和语义关系,作为制定标注体系的参考。

3 地理空间关系的标注体系 3.1 标注体系的基本框架

语义角色标注是浅层语义分析的一种实现方式,具有问题定义清晰,便于人工标注和评测等优点[11]。空间语义角色标注是对句子中空间表达式组成要素的识别和分类过程,有助于将自然语言映射为形式化的空间表达[12]。整体空间语义理论(holistic spatial semantics,HSS)认为,空间关系描述由目标物、参照物、参考框架、路径、区域、方向和运动等语言单元(token)组成[13]。本文在HSS理论基础上,借鉴相关标注体系的内容和结构,以XML为标记语言,制定了中文文本的地理空间关系标注体系(图 1)。

图 1 标注体系的基本框架 Fig. 1 Basic framework of the annotation system

空间关系标注的基本策略是对空间关系描述的相关语言单元和语义结构先后分别进行表达。地理实体标注采用〈GNE〉标签,包括描述地理实体的id(标注序号)、type(要素类型)、typecode(分类代码)、form(具名和不具名特性)和mod(修饰性词汇)等属性[14]。由于不同空间关系类型在文本中的语言描述存在一定差异,其标注内容需要分别定义。

3.1.1 拓扑关系标注

拓扑关系包括相接(EC)、相离(DC)、包含/包含于(IN)、交叠(PO)和相等(EQ)5种类型。〈SIGNAL〉标签用于标注空间关系词汇。拓扑关系标注用〈TLINK〉标签,包括id(标注序号)、type(空间关系大类)、topology(拓扑小类)、source(参照物)、target(目标物)、signals(空间关系词汇)等属性。如果一个空间关系实例中涉及多个空关系词汇,则在signals属性中用逗号分隔〈SIGNAL〉的id号。

例1:岷江小三峡位于乐山市境内。

〈GNE id=1 type=“名胜古迹” typecode=“250000” form=“NAM”〉岷江小三峡〈/GNE 〉

〈GNE id=2 type=“地级行政区” typecode=“410200” form=“NAM”〉乐山市〈/GNE 〉

〈SIGNAL id=3 type=“TOPOLOGY”〉境内〈/SIGNAL〉

〈TLINK id=4 topology=“IN” source=1 target=2 signals=3〉

“位于”、“在”等词汇,具有指示空间关系描述的作用,但是不能显式表达空间关系类型。这些词汇通常为连词和介词,且数量较为有限。大多数可以通过人工归纳获得,可以不予标注,在信息抽取算法中直接作为特征因子。因此,这种处理方式既可以简化标注操作,也不影响后续操作的性能。当然,也可以定义〈CONJ〉标签专门标注这些词汇,以区别于空间关系词汇的标注。

3.1.2 方向关系标注

方向关系分为两大类:绝对方向关系,包括东(E)、西(W)、南(S)、北(N)、中(C)、东北(NE)、东南(SE)、西北(NW)、西南(SW)等类型;相对方向关系,包括前(F)、后(B)、左(L)、右(R)、上(A)、下(BW)、内(INT)和外(EXT)等类型。方向关系标注采用〈DLINK〉标签,包含id(标注序号)、type(空间关系大类)、direction(方向关系小类)、source(参照物)、target(目标物)、signals(空间关系词汇)、frame(方位参照类型)等属性。方位参照分为EXTRINSIC、DEICTIC和INTRINSIC 3种类型。

例2:漠河县位于大兴安岭北部。

〈GNE id=1 type=“县级行政区” typecode=“410300” form=“NAM”〉漠河县〈/GNE 〉

〈GNE id=2 type=“山” typecode=“510100” form= “NAM”〉大兴安岭〈/GNE 〉

〈SIGNAL id=3 type=“DIRECTION”〉北部〈/SIGNAL〉

〈DLINK id=4 direction=“N” frame=“EXTRINSIC” source=2 target=1 signals=3〉

3.1.3 距离关系标注

距离关系标注采用〈DLINK〉标签,包含id、type、source、target和signals 5个属性,其定义与方向关系相同。一般情况下,将度量单位和度量值整体标记,可以简化标注操作过程。中文文本中距离关系和方向关系通常同时描述,故将其定义为相同标签,以便更加完整地描述空间语义。两种关系中的空间关系词汇要全部标注,并在signals属性中将其id以逗号分隔的形式列出。

例3:岷山位于松潘县城东20多千米。

〈GNE id=1 type=“山” typecode=“510100” form=“NAM”〉岷山〈/GNE 〉

〈GNE id=2 type=“县级城镇” typecode=“210105” form=“NAM”〉松潘县城〈/GNE 〉

〈SIGNAL id=3 type=“DIRECTION”〉东〈/SIGNAL〉

〈SIGNAL id=4 type=“DISTANCE”〉20多千米〈/SIGNAL〉

〈DLINK id=5 direction=“E” frame=“EXTRINSIC” source=2 target=1 signals=3,4〉

3.2 标注模式

空间关系标注的基本原则:以句子为单位,标识相关的语言单元及其空间语义结构。具体的标注模式如下。

3.2.1 空间关系词汇标注

如果方位词作为地理实体修饰词出现,则标注为地理实体的mod属性,否则标注为空间关系的signals属性。

例4:平果县河流属右江水系。

〈GNE id=1 type=“县级行政区” typecode=“410300” form=“NAM”〉平果县〈/GNE〉

〈GNE id=2 type=“河流” typecode=“110000” form= “NOM”〉河流〈/GNE〉

〈GNE id=3 type=“水系” typecode=“100000” form= “NAM”〉右江水系〈/GNE 〉

〈SIGNAL id=4 type=“TOPOLOGY”〉属〈/SIGNAL〉

〈TLINK id=7 topology=“IN” source=3 target=2 signals=4〉

上游、下游、中下游等词汇,指示“包含”类型的拓扑关系。但是,某些情况下需要考虑日常用语习惯,比如“长江上游”、“长江下游”作为地理实体标注。

例5:萍乡市位于萍水上游。

〈GNE id=1 type=“地级行政区” typecode=“410200” form=“NAM”〉萍乡市〈/GNE〉

〈GNE id=2 type=“河流” typecode=“110000” form= “NAM”〉萍水〈/GNE 〉

〈SIGNAL id=3 type=“TOPOLOGY”〉上游〈/SIGNAL〉

〈TLINK id=4 topology=“IN” source=2 target=1 signals=3〉

3.2.2 隐含性拓扑关系标注

连续地理实体间暗藏上下级包含关系,需要标注。标注其他实体与连续地理实体间的关系时,将其作为整体对待,并将连续地理实体的id属性以逗号分隔的形式列出。

例6:安达市是黑龙江省绥化地区辖市。

〈GNE id=1 type=“地级行政区” typecode=“410200” form=“NAM”〉安达市〈/GNE〉

〈GNE id=2 type=“省级行政区” typecode=“410100” form=“NAM”〉黑龙江省〈/GNE〉

〈GNE id=3 type=“地级行政区” typecode=“410200” form=“NAM”〉绥化地区〈/GNE〉

〈SIGNAL id=4 type=“TOPOLOGY”〉辖市〈/SIGNAL〉

〈TLINK id=5 topology=“IN” source=2 target=3〉

〈TLINK id=6 topology=“IN” source=2,3 target=1 signals=4〉

同一个空间表达式可能描述多种类型的空间关系,标注时必须将其全部标出。多数情况下,表示方向关系的词汇同时隐含拓扑关系,但是在先验知识缺省情况下,通常很难确定拓扑关系类型,所以只标注方向关系。对于同时表示方向关系和拓扑关系的组合式空间关系词汇(如“北靠”),与拓扑关系表达相比,方向关系的指示作用更加明显,因此只标注方向关系。

例7:阿尔泰山脉南邻准噶尔盆地。

〈GNE id=1 type=“山区” typecode=“510100” form=“NAM”〉阿尔泰山脉〈/GNE〉

〈GNE id=2 type=“盆地” typecode=“510200” form=“NAM”〉准噶尔盆地〈/GNE〉

〈SIGNAL id=3 type=“DIRECTION”〉南邻〈/SIGNAL〉

〈DLINK id=4 direction =“S” source=2 target=1 signals=3〉

3.2.3 层叠式空间关系标注

对于层叠式空间关系标注,引入二叉树思想。即将一个空间关系实例看做一个地理实体,进一步标注关系表达式与其他实体之间的关系(图 2)。

例8:苗栗县西临台湾海峡,东至雪山与大坝尖山一线。

〈GNE id=1 type=“地级行政区” typecode=“410300” form=“NAM”〉苗栗县〈/GNE〉

〈GNE id=2 type=“海峡” typecode= “160400” form=“NAM”〉台湾海峡〈/GNE〉

〈GNE id=3 type=“山” typecode=“510100” form=“NAM”〉雪山〈/GNE〉

〈GNE id=4 type=“山” typecode=“510100” form=“NAM”〉大坝尖山〈/GNE〉

〈SIGNAL id=5 type=“DIRECTION”〉西临〈/SIGNAL〉

〈SIGNAL id=6 type=“DIRECTION”〉东至〈/SIGNAL〉

〈DLINK id=7 direction=“W” frame=“EXTRINSIC” source=2 target=1 signals=5〉

〈TLINK id=8 topology=“EC” source=3 target=4〉

〈DLINK id=9 direction=“E” frame=“EXTRINSIC” source=8 target=1 signals=6〉

图 2 例8中层叠式空间关系标注示意图 Fig. 2 Annotation diagram of the cascading spatial

relations in the case of example 8
3.2.4 一对多地理实体间的空间关系标注

如果多个地理实体之间没有其他文字,仅以符号隔开,则不需要多次重叠标注,仅在source或target一栏将实体id号以逗号隔开即可。

例9:大洪山蜿蜒于随州市、钟祥县、京山县交界处。

〈GNE id=1 type=“山” typecode=“510100” form=“NAM”〉大洪山〈/GNE 〉

〈GNE id=2 type=“地级行政区” typecode=“410200” form=“NAM”〉随州市〈/GNE 〉

〈GNE id=3 type=“县级行政区” typecode=“410300” form=“NAM”〉钟祥县〈/GNE 〉

〈GNE id=4 type=“县级行政区” typecode=“410300” form=“NAM”〉京山县〈/GNE 〉

〈SIGNAL id=5 type=“TOPOLOGY”〉交界处〈/SIGNAL〉

〈TLINK id=6 topology=“EC” source=2,3,4 target=1 signals=5〉

3.2.5 专题地理空间关系标注

如果文本中描述的专题信息涉及非地理实体与地理实体间的关系,不进行标注。

例10:苗栗县是台湾省养蚕与香茅草种植著名县份。

〈GNE id=1 type=“县级行政区” typecode=“410300” form=“NAM”〉苗栗县〈/GNE 〉

〈GNE id=2 type=“省级行政区” typecode=“410100” form=“NAM”〉台湾省〈/GNE 〉

〈TLINK id=3 topology=“IN” source=2 target=1〉

3.2.6 嵌套空间关系标注

嵌套空间关系是指一个句子描述了多个相互关联的空间关系,则将其按照空间范围由大到小进行分解标注。此类空间关系对于空间推理有着至关重要的作用。

例11:安丰塘位于安徽省中部寿县城南30千米。

〈GNE id=1 type=“水利及附属设施” typecode=“18000” form=“NAM”〉安丰塘〈/GNE〉

〈GNE id=2 type=“省级行政区” typecode=“410100” form=“NAM”〉安徽省〈/GNE〉

〈GNE id=3 type=“县级城镇” typecode=“210105” form=“NAM”〉寿县〈/GNE〉

〈SIGNAL id=4 type=“DIRECTION”〉中部〈/SIGNAL〉

〈SIGNAL id=5 type=“DIRECTION”〉南〈/SIGNAL〉

〈SIGNAL id=6 type=“DISTANCE”〉30千米〈/SIGNAL〉

〈DLINK id=7 direction=“C” frame=“EXTRINSIC” source=2 target=3 signals=4 〉

〈DLINK id=8 direction=“S” frame=“EXTRINSIC source=3 target=1 signals=5,6 〉

3.2.7 隐喻性空间关系标注

自然语言中存在隐喻性的空间关系描述,文学色彩浓厚,不易理解,比如“天然屏障、交通要道、军事要隘”,本文不探讨此类空间关系的标注。

4 语料库构建和应用分析 4.1 语料库标注

GATE是一个开源的自然语言处理软件,可接受XSD格式的Schema文件,使用户按照一定标注框架对文本进行标注,经过GATE处理的语料可统一存储为xml格式。本文以《中国大百科全书中国地理)》为源数据(约213万字,其中每个词条生成一个纯文本文件),以GATE为标注工具,参考本文设计的标注体系,建立了地理空间关系标注语料库。试验随机抽取的188个文件,共有空间关系标注实例2355个。其中,TLINK有1845个,包括IN类1106个,PO类333个,EC类175个,EQ类176个,DC类55个;DLINK有510个,包括S类101个,N类99个,W类87个,E类65个,NE类27个,C、SW、NW类各24个,SE类23个,A、L、F等类型关系相对较少。DLINK中frame为INTRINSIC的有7例,其他都为EXTRINSIC。 在日常生活中,方向关系是最常用的一种空间关系类型[16]。与之相反,标注语料库中拓扑关系实例占主要部分,而且包含和交叠关系出现频率较高。主要原因在于语料库具有较强的领域特性,导致空间关系类型分布存在一定的不平衡性。但是,包含和交叠关系的空间认知度较高,其语言描述特征带有一定的普遍性。因此,总体上来讲,这种不平衡性不会在较大程度上影响语料库的代表性及其应用。

4.2 空间关系抽取试验分析

通过基于标注语料库的空间关系抽取试验,从实际应用角度测试标注体系与语料库的性能,以指导标注体系的进一步完善。规则模型:分析语料库中空间关系实例,采用序列比对方法泛化空间关系描述的句法模式,并进行正则表达[17]。然后,利用模式匹配算法进行空间关系抽取[17]。试验结果表明,方向关系和距离关系的抽取效果明显优于拓扑关系。主要原因在于拓扑关系描述的句法结构比较复杂多样,标注者对相关语言单元漏标或者多标的情况较多,导致句法模板的覆盖度受到限制。机器学习模型:支持向量机(SVM)是一种具备兼顾训练误差和泛化能力的机器学习方法,广泛应用于自然语言处理、信息抽取和数据挖掘等领域。一个空间关系实例可以表达多种不同的空间关系类型,如“余姚市西北濒杭州湾”描述了“余姚市”和“杭州湾”的方向关系、相 离和相接拓扑关系。因此,基于SVM的空间关系抽取算法将空间关系抽取任务从传统的多类别单标记分类转化为多类别分类问题[18]。试验发现,由于标注语料库中多类别空间关系标注不一致情况较为明显,对空间关系抽取性能的影响较大。

5 结 语

空间关系标注是一项非常复杂的工作,主要问题体现在以下3个方面。

(1) 空间关系类型判断的不一致性问题:由于人类空间认知的差异和自然语言的语义模糊性,不同标注者对同一空间关系表达语句的理解会存在冲突。例如,“泰州市是通扬运河沿线最大河港”,标注者可能将 [泰州市]与[通扬运河] 理解为相离(DC)、相接(EC)和交叠(PO)3种不同类型的拓扑关系(图 3)。另外,空间关系词汇可能表达不同类型的空间关系。例如,“境内”在“安宁温泉位于昆明市安宁县境内”中为包含关系,而在“中国境内阿尔泰山”为交叠关系。因此,集成GIS的文图一体化标注工具,可以较为有效地解决这一问题[19]

图 3 “泰州市与通扬运河”的空间关系示意图 Fig. 3 Different spatial relations between Taizhou city and Tongyang canal

但是,由于语料库往往涉及的地理范围较广,难以找到较为合适的空间数据。为了尽可能克服这种不一致性问题,本文采用交叉校验的标注方式,由多个标注者同时标注相同的文本源数据,统计分析容易标注不一致较为明显的空间关系描述语句,然后集中讨论确定较为合理的标注方案。

(2) 复杂空间关系标注的复杂性问题:复杂路径(如山脉走向、河流流向、导航路径等)和复合空间关系描述,往往涉及一个目标物和多个参照物之间的多种空间关系。按照先分别标注地理实体和空间关系词汇,再标注空间关系实例的模式进行标注,一个目标物需要标注在多个空间关系标签中。虽然标注操作比较繁琐,但是各种空间关系能够得以显式地表达,有利于简化后续的信息抽取和空间语义解析。

(3) 标注体系的适用性问题:在不同上下文环境中,地理空间关系描述的语言形式(包括词汇、句法、语法)具有不确定性。但是,绝大部分空 间关系词汇具有强烈的指示作用,而且常用的句法模式较为有限。在标注过程中,首先识别与判断空间关系词汇(隐含空间关系描述除外),可以粗略定位有空间关系描述的语句;然后通过上下文中所描述的地理实体进行空间关系的判断与标注,可以解决句法和语法的多样性和不确定性问题。

参考文献
[1] GOODCHILD M F,HAINING R P,WISE S.Integrating GIS and Spatial Analysis:Problems and Possibilities[J].International Journal of Geographical Information Systems,1992,6:407-423.
[2] CHANG K T.Introduction to Geographic Information Systems[R].Singapore:McGraw-Hill,2008.
[3] DU Shihong,WANG Qiao,LI Zhijiang.Definitions of Natural-language Spatial Relations in GIS[J].Geomatics and Information Science of Wuhan University,2005,30(6):533-538.(杜世宏,王桥,李治江.GIS中自然语言空间关系定义[J].武汉大学学报:信息科学版,2005,30(6):533-538.)
[4] CHEN Jun,ZHAO Renliang.Spatial Relations in GIS:a Survey on Its Key Issues and Research Progress[J].Acta Geodaetica et Cartographic Sinica,1999,28(2):95-102.(陈军,赵仁亮.GIS空间关系的基本问题与研究进展[J].测绘学报,1999,28(2):95-102.)
[5] KIM J D,OHTA T,TSUJⅡ J I.Multilevel Annotation for Information Extraction Introduction to the GENIA Annotation[J].Linguistic Modeling of Information and Markup Languages,2010,41:125-142.
[6] LI Hanjing.Research on Spatial Conceptual Model Based on Natural Language Processing[D].Harbin:Harbin Institute of Technology,2007.(李晗静.基于自然语言处理的空间概念建模研究[D].哈尔滨:哈尔滨工业大学,2007.)
[7] LE Xiaoqiu,YANG Chongjun,YU Wenyang.Spatial Concept Extraction Based on Spatial Semantic Role in Natural Language[J].Geomatics and Information Science of Wuhan University,2005,30(12):1100-1103.(乐小虬,杨崇俊,于文洋.基于空间语义角色的自然语言空间概念提取[J].武汉大学学报:信息科学版,2005,30(12):1100-1103.)
[8] MANI I,HITZEMAN J,RICHER J,et al.SpatialML:Annotation Scheme,Corpora,and Tools[C]//Proceedings of the 6th International Conference on Language Resources and Evaluation.Morocco:[s.n.],2008:410-415.
[9] FANG Jingming.Cognitive Structure of Chinese Spatial Reference[J].Chinese Teaching in the World,1999(4):32-38.(方经民.汉语空间方位参照的认知结构[J].世界汉语教学,1999(4):32-38.)
[10] YAN Haowen,GUO Renzhong.On Fundamental Problems of Directional Relationships[J].Acta Geodaetica et Cartographic Sinica,2002,31(4):357-360.(闫浩文,郭仁忠.空间方向关系基础性问题研究[J].测绘学报,2002,31(4):357-360.)
[11] CHE Wanxiang.Kernel-based Semantic Role Labelling[D].Harbin:Harbin Institute of Technology,2008.(车万翔.基于核方法的语义角色标注研究[D].哈尔滨:哈尔滨工业大学,2008.)
[12] KORDJAMSHIDI P,OTTERLO M V,MOENS M F.Spatial Role Labeling:Task Definition and Annotation Scheme[C]//Proceedings of the 7th Conference on International Language Resources and Evaluation,Malta:[s.n.],2010:413-420.
[13] ZLATEV J.Spatial Semantics[J].In the Oxford Handbook of Cognitive Linguistics,2007,13:318-350.
[14] ZHANG Xueying,ZHUAN Shaonan,ZHANG Chunju.Annotation of Geographical Named Entities in Chinese Text[J].Acta Geodaetica et Cartographic Sinica,2012,41(1):115-120.(张雪英,朱少楠,张春菊.中文文本的地理命名实体标注[J].测绘学报,2012,41(1):115-120.)
[15] YAN Haowen.Research on Directional Relation Theory[M].Chengdu:Chengdu Cartographic Press,2003.(闫浩文.空间方向关系理论研究[M].成都:成都地图出版社,2003.
[16] ZHU Shaonan,ZHANG Xueying,ZHANG Chunju.Syntactic Pattern Recognition of Geospatial Relations Described in Natural Language[C]//Proceedings of 2010 International Conference on Broadcast Technology and Multimedia Communication.Wuhan:IEEE,2010:354-357.
[17] ZHANG Chunju,ZHANG Xueying,JIANG Wenming,et al.Rule-based Extraction of Spatial Relations in Natural Language Text[C]//Proceedings of the 2009 International Conference on Computational Intelligence and Software Engineering.Wuhan:IEEE,2009:1-4.
[18] ZHANG Xueying,ZHANG Chunju,DU Chaoli,et al.SVM based Extraction of Textural Spatial Relations[C]//Proceedings of the First IEEE International Conference on Spatial Data Mining and Geographical Knowledge Services.Fuzhou:IEEE,2011:179-254
[19] BLAYLOCK N,SWAIN B,ALLEN J.TESLA:A Tool for Annotating Geospatial Language Corpora[C]//Proceedings of the North American Chapter of the Association for Computational Linguistics.Colorado:[s.n.],2009:28-45.
http://dx.doi.org/10.11947/j.AGCS.2015.20140110
中国科学技术协会主管、中国测绘地理信息学会主办。
0

文章信息

张雪英,张春菊,朱少楠
ZHANG Xueying, ZHANG Chunju, ZHU Shaonan
中文文本的地理空间关系标注
Annotation for Geographical Spatial Relations in Chinese Text
测绘学报,2012,41(3):468-474
Acta Geodaeticaet Cartographica Sinica,2012,41(3):468-474.
http://dx.doi.org/10.11947/j.AGCS.2015.20140110

文章历史

收稿日期:2011-05-11
修回日期:2011-09-01

相关文章

工作空间