自动化学报  2017, Vol. 43 Issue (4): 653-664   PDF    
统计与规则相结合的维吾尔语人名识别方法
塔什甫拉提·尼扎木丁1, 汪昆2, 艾斯卡尔·艾木都拉1, 帕力旦·吐尔逊3     
1. 新疆大学信息科学与工程学院 乌鲁木齐 830046;
2. 中国科学院自动化研究所模式识别国家重点实验室 北京 100190;
3. 新疆大学软件学院 乌鲁木齐 830046
摘要: 命名实体识别(Named entity recognition,NER)是自然语言处理(Natural language processing,NLP)中重要的任务,其中人名实体是主要的识别对象之一.本文从维吾尔语黏着性特点出发,从词干、音节、字符串三个角度对维吾尔语单词进行拆分,获得更小的语言单元,并把切分的新单元作为特征加入到条件随机场(Conditional random field,CRF)中,明显缓解了数据稀疏的影响,取得了比以单词为基本单元的人名识别方法更好的性能.同时还从维吾尔语中汉族人名的特点出发,提出了基于规则的维吾尔语中汉族人名的识别方法,最终利用统计和规则相结合的方法进一步提高了识别的准确率.实验结果表明,该方法人名识别的准确率、召回率和F1值分别达到了87.47%、89.12%和88.29%.
关键词: 维吾尔语     人名识别     条件随机场     音节库    
Combination of Statistical and Rule-based Approaches for Uyghur Person Name Recognition
TASHPOLAT Nizamidin1, WANG Kun2, ASKAR Hamdulla1, PALIDAN Tuerxun3     
1. Institute of Information Science and Engineering, Xinjiang University, Urumqi 830046;
2. National Laboratory of Pattern Recognition, Institute of Automation, Chinese Academy of Sciences, Beijing 100190;
3. School of Software, Xinjiang University, Urumqi 830046
Received: 2015-11-15, Accepted: 2016-03-20.
Foundation Item: Supported by National Natural Science Foundation of China (61562081), Xinjiang High Technology Research and Development Program of China (201312103)
Author brief: TASHPOLAT Nizamidin Master student at the School of Information Science and Engineering, Xinjiang University. He received his bachelor degree in electronics and information from Xinjiang University in 2013. His main research interest is natural language processing;
WANG Kun Assistant professor at National Laboratory of Pattern Recognition, Institute of Automation, Chinese Academy of Sciences. He received his Ph. D. degree from National Laboratory of Pattern Recognition in Institute of Automation, Chinese Academy of Sciences in 2013. His main research interest is natural language processing;
PALIDAN Tuerxun Associate professor at Xinjiang University. She received her Ph. D. degree from Northwestern University in 2015. Her main research interest is natural language processing
Corresponding author. ASKAR Hamdulla Professor at Xinjiang University. He received his Ph. D. degree from University of Electronic Science and Technology of China in 2003. His main research interest is natural language processing. Corresponding author of this paper
Recommended by Associate Editor ZHAO Tie-Jun
Abstract: Named entity recognition (NER) is an important subtask of natural language processing, where person name is one of the major objects. From agglutinative characteristics of the Uyghur language, we split a Uygur word into different level units such as syllable, suffix, stem, etc., so as to significantly reduce the data sparse problem. Since the Han people name is the major remaining errors for the CRF (Conditional random field)-based approach, we also propose a rule-based post-processing approach for Han people name recognition in Uyghur language. Experimental results show that this cascade approach achieves satisfactory performance, and that the recognition accuracy, recall rate and F1 score are 87.47%、89.12% and 88.29%, respectively.
Key words: Uyghur language processing     person name recognition     conditional random field (CRF)     syllable bank    

命名实体识别 (Named entity recognition, NER) 是指识别文本中的人名、地名、组织机构名等命名实体[1].命名实体识别作为自然语言处理 (Natural language processing, NLP) 领域的一个基础任务, 被广泛且成功地应用于信息抽取、信息检索、信息推荐和机器翻译等任务中.由于人名作为事件的主体, 因此人名识别是命名实体识别任务的重要一项子任务.与汉语相比, 维吾尔语的资源较为匮乏, 同时, 维吾尔语与汉语有明显的不同.例如, 就人名识别而言, 汉语人名可以利用百家姓氏字来确定人名左边界, 而维吾尔语人名全名由“人名+空格+父亲名”的形式书写.两者在书写形式上没有区别, 如果替换位置也可以造合法的人名词.人名词也可以不带父亲名在句中单独出现.另外维吾尔语人名用词二义性现象较多.因此, 汉语的命名实体识别方法无法直接用于维吾尔语.研究维吾尔语命名实体识别研究的学者也较少, 所以识别方法及效果上明显落后于汉语.

目前已有的命名实体识别方法可以大致分为基于规则的方法、基于统计的方法以及规则与统计相结合的方法.基于规则的方法速度快, 而且不需要大量的已标注语料, 但该方法对知识库的依懒性较强.另外, 基于规则的方法带有一定的主观性.例如, Hanisch等提出了基于规则的生物实体识别方法[2], Farmakiotou等提出了基于规则的用于希腊金融文本中的命名实体识别方法[3].与基于规则的方法相比, 基于统计的方法系统实现代价较小, 对语言的依赖性小, 可移植性好.目前的统计方法主要有隐马尔科夫模型[4]、最大熵模型[5]、支持向量机模型[6]和条件随机场 (Conditional random field, CRF) 模型[7]等.例如, 李佳正等提出了维吾尔语中汉族人名的识别及翻译[8], Le等提出了基于二元语法模型的中文命名实体识别方法[9], 规则与统计相结合的方法在统计中引入一些规则来进行识别.例如, 加日拉$\cdot$买买提热衣木等提出了基于统计和规则混合策略的维吾尔人名识别方法[10], 刘杰提出了基于规则和统计相结合的地名实体识别的方法[11].

近年来, 自然语言处理领域主要是统计方法占主导地位, 对命名实体识别而言, 条件随机场模型受到很多学者的青睐.该方法已被广泛地应用于人名、地名、组织机构等各种类型命名实体的识别, 并在具体应用中不断得到改进, 可以说是命名实体识别中最成功的方法.

在英汉等语言中, 人名识别方法研究的较多.相比而言, 维吾尔语中人名识别研究起步较晚, 不过近几年来开始受到很多学者的青睐.

2013年, 艾斯卡$\cdot$肉孜等[7]发表了基于条件随机场模型的维吾尔人名识别方法相关的论文, 该论文中主要用了上下文词形、词性、位置等信息作为基本特征, 还从维吾尔语黏着性特点出发, 提出了词干、词缀、第一音节和最后音节等特征.该方法存在的主要缺点在于, 其特征选择上没有进一步考虑维吾尔族人名词之间的内在联系, 同时没有把汉族人名独有的特征加入进来.因此, 该方法泛化能力较差.

2014年, 加日拉$\cdot$买买提热衣木等[10]提出了基于统计和规则混合策略的维吾尔人名识别方法, 该方法主要用人名左右边界词作为重要统计量进行人名识别, 同时加入了维吾尔族人名词典.该类方法的弱点在于没有把维吾尔语黏着性特点考虑进去, 同样也没有对维吾尔语中汉族人名进行针对性的识别.因此, 该方法对维吾尔族人名识别效果较好, 但对其他类人名的识别效果一般.

本文在以上方法的基础上, 对于语言现象进行深入分析, 设计了基于规则与统计相结合的方法.为了统计维吾尔文语料中各类人名的真实分布, 我们从《人民网》维吾尔语版抓取了197篇新闻语料, 其中111篇新闻包含人名词, 86篇新闻没有包含人名词, 全语料包括14 339个单词, 含有231个人名, 其中包含维吾尔族人名92个 (39.8%), 汉族人名88个 (38.1%), 欧美人名23个 (10.1%), 阿拉伯人名12个 (5.2%), 俄罗斯人名9个 (3.9%), 其他人名7个 (3.0%).从各类人名分布情况可以看出, 维吾尔族人名和汉族人名在维吾尔语真实语料中占77.9%, 其次是欧美人名、阿拉伯人名、俄罗斯人名和其他人名.

本文把维吾尔语文本中的各类人名作为识别对象, 从维吾尔语的语言特点出发, 合理地选择语言单元, 提出了基于条件随机场模型的人名识别方法, 同时根据维吾尔语中汉族人名的特点, 采取了基于规则的维吾尔语文本中汉族人名的识别方法, 最终通过两者结合取得了比较好的识别性能, 并通过实验验证.

1 维吾尔语人名组成特点及识别难点

维吾尔语, 简称维语, 属于阿尔泰语系突厥语族西匈语支, 在结构语法上属于黏着语类型[12].

1.1 维吾尔语特点介绍

维吾尔语文字由32个简化的阿拉伯字母组成, 单词之间由空格分隔, 单词结构为:单词=词干+词缀1 +词缀2 +$\cdots$、前缀+词干+词缀1 +词缀2 +$\cdots$(很少一部分单词有前缀).方便起见本文用维吾尔语拉丁文字 (Uyghur Latin character) 代替维吾尔语阿拉伯文字 (Uyghur Arabic character).

如下是维吾尔语单词构成的三个例子: polatni (把甫拉提) = polat (甫拉提) + ni (把), polat是词干、ni是后缀.

polatnimu (把甫拉提也) = polat (甫拉提) + ni (把) + mu (也), polat是词干、ni是后缀1、mu是后缀2.

natoghra (不正确) = na (不) + toghra (正确), na是前缀、toghra是词干.

维吾尔语中人名包括维吾尔族人名、汉族人名、外国人名等.一般外来人名各自在原语言都有明显的规律, 比如英语人名是大写开头, 汉语人名有姓氏字等明显的特点, 但这些外来人名在维吾尔语中没有任何规律可循.

1.2 维吾尔语人名识别难点

1) 组成维吾尔语人名的单词数不固定.最少有一个单词组成, 最多有三个单词组成: adil (阿迪力), nur bekri (努尔$\cdot$白克力), ablajan awut ayup (阿不拉江$\cdot$阿吾提$\cdot$阿玉普).

2) 黏着性导致派生词.人名单词连接各种词缀产生新单词, 这将产生大量未登录人名, 导致数据稀疏问题.例如人名erkin (艾尔肯) 有几种形式: erkinning (艾尔肯的)、erkinge (对艾尔肯)、erkindek (像艾尔肯)、erkinni (把艾尔肯).

3) 人名单词无大小写区分.这导致人名单词跟普通词在词形上没有任何区别.

4) 存在二义性.由于没有大小写区分, 因此有二义性的人名跟不同词义的单词在词形上没有任何区别.如adil这单词有人名“阿迪力”和普通词“公平、公正”两种含义.存在二义性的人名直接影响人名识别效果.

5) 维吾尔文信息处理领域起步较晚, 因此可用资源缺少, 缺少效果较好的词性标注 (Part-of-speech tagging, POS tagging) 工具.

6) 现有的词干提取工具对人名词的切分效果较差.

2 基于统计与规则相结合的方法

本文提出的方法有两部分组成.首先, 我们利用基于条件随机场模型的维吾尔语人名识别方法进行识别; 然后, 对识别结果利用基于规则的维吾尔语中汉族人名识别方法进行改进.流程图如图 1所示, 图 1中 (a) 为统计模块、(b) 为规则模块.

图 1 统计与规则相结合方法流程图 Figure 1 Flow chart of statistical and rule-based approach

首先, 我们利用有监督的学习方法对训练数据进行训练, 通过训练出的模型参数对测试数据进行自动标注.然后, 通过基于规则的维吾尔语文本中汉族人名识别方法对已标注的测试数据结果进行纠正.接下来我们分别介绍基于单词拆分的人名识别方法与基于规则的维吾尔语文本中汉族人名识别方法.

3 基于单词拆分的人名识别方法

本文从维吾尔语黏着性特点出发采取了一种基于单词拆分的维吾尔语人名识别方法, 同时还提出基于人名词典和人名后缀库的正向匹配算法, 把人名词典和人名后缀库等词典信息作为特征加到CRF模型中.

3.1 单词拆分方法

维吾尔语作为黏着性语言, 因此语言单元的选择是很关键的问题, 仅仅利用词干提取方法切分单词, 还是无法获得维吾尔语人名词之间的词形相似性和音节相似性, 而且目前已有的词干提取器对人名词的提取效果明显比普通词差, 因此本文提出基于单词拆分的特征实现维吾尔语人名识别, 通过实验验证该方法对维吾尔语人名识别是有效的.

本文把维吾尔语单词以三种方式进行拆分:

1) 词干拆分规则假设一个维吾尔语单词由词干+词缀组成, 利用维吾尔语词干提取器则把单词切分成两个部分, 可写为Word$_{uy}$ = Stem + Suffix.可以通过词干提取把词干相同的人名提取出来, 如下面以举例来说明.

Word$_{uy}$ = Stem + Suffix

“ekberge” (向艾克拜尔) = “ekber” + “ge”、

“ekberning” (艾克拜尔的) = “ekber” +

“ning”、

“ekberdin” (从艾克拜尔) = “ekber” + “din”.

词干信息是人名识别非常重要的特征.因此本文利用维吾尔语词干提取器[13]进行维吾尔语词干切分.

2) 音节拆分规则

由于维吾尔语人名用词除了词干层面外还在音节层面上也有共性.因此本文对维吾尔语单词进行音节拆分, 从而进一步获取有用信息.

假设一个维吾尔语单词由$N$个音节组成, 根据维吾尔语音节切分规则把一个维吾尔语单词可以切分成$N$个音节, 写成Word$_{uy}$ ($n$) = S$_{1}$S$_{2}$S$_{3}$ $\cdots$ S$_{N-1}$S$_{N}$ (S$_{i}$为第$i$个音节).如表 1所示维吾尔语人名用词的音节特点.

表 1 人名词的音节拆分 Table 1 Syllable segmentation of person name

表 1可以看出, 在不同的人名词中出现很多相同的音节, 如“ab + du”、“mu + rat”、“ba + har”等, 这些音节信息多数是人名词独有的特征.因此本文提出了基于音节拆分的音节组合特征.

3) 字符串拆分规则

维吾尔语人名用词之间的共性不仅仅体现在词干和音节层面, 也会体现在字符串层面上.维吾尔语人名词中有许多独有的人名常用字符串.例如, abdu (阿不都), ire (XX热), gvl (古丽), jan (江) 等.所以对于包含这些常用字符串的人名而言, 只进行词干切分或音节拆分无法准确获取有用的信息.假设一个维吾尔语单词由$M$个字母组成, 可以把它写成Word$_{Uy}(M)$ = C$_{1}$C$_{2}$C$_{3}$ $\cdots$ C$_{M-2}$C$_{M-1}$C$_{M}$ (C$_{i}$为第$i$个字母).如表 2所示维吾尔语人名用词的字符串特点.

表 2 人名用词字符串特点 Table 2 String characters of person name

表 2可以看出, 这些人名在字符串层面有很强的共性, 如“eli”、“ay”、“ire”、“iye”等都是维吾尔语人名词独有的一些特点.由于以上共同部分在音节层面上属于两个音节, 因此音节拆分无法获得这些共同部分, 所以利用以字符串形式拆分单词可获得更有效的信息.除了维吾尔族人名词外, 还有维吾尔语中汉族人名的字符串特点也有着很独特的共性, 如表 3所示.

表 3 汉族人名词的字符串特点 Table 3 String characters of Chinese person name

表 3可以看出不同的汉族人名在维吾尔语中都有很多相同的字符串特点, 而且这些特点也是汉族人名独有的, 如“ping”、“lyu”等, 这些共性部分对汉族人名的识别有很大贡献.

根据维吾尔语人名的以上特点, 本文又提出了对维吾尔语单词进行字符拆分的字符串特征.

本文通过以上三种拆分方式可以把维吾尔语单词以词义 (词干词缀拆分)、语音 (音节拆分)、词形 (字符串拆分) 三个方面都进行拆分来获得更多有用信息, 最终通过实验印证本文提出的基于单词拆分方法的有效性, 具体特征集在第3.4节介绍.

3.2 基于人名库和人名后缀库的正向匹配算法

对于维吾尔语人名识别而言, 建立有效的人名词典是非常重要的工作, 本文以我们实验室收集的23 200个人名作为人名词典对训练语料及测试语料进行词典特征的标注.分析测试结果得出, 由于存在二义性的人名较多, 因此导致标注错误的现象严重, 最终效果较差不适于作为词典特征加给条件随机场模型.

本文采用以无歧义性人名词典作为人名词典, 很大程度上提高了词典特征的准确率.

定义1.无歧义性人名是指人名单词在句中只能充当人名, 而不能充当普通词的人名专用词.

为了提高词典特征的召回率, 根据维吾尔语黏着性特点, 本文又建立了人名后缀库作为后向匹配项.该做法降低错误标注的同时也保证了覆盖率.人名词典建立:

图 2 无歧义人名词典建立 Figure 2 Unambiguous person name list

反过来歧义性人名指的是在句中做人名以外也可以做普通单词的人名词, 这类人名词对维吾尔语人名识别带来很大的标注错误, 也是最主要的识别难点, 由于人名词典包括大量的歧义性人名, 因此本文提出包括歧义性人名的词典 (全人名词典) 和无歧义性人名词典进行对比实验来选择最佳人名库.

人名后缀库建立:

图 3 人名后缀库抽取 Figure 3 Suffix list of person name

维吾尔语单词由词干和词缀组成, 词缀又分为前缀和后缀, 前缀在维吾尔语中占极小的比例, 而且人名没有加前缀的情况, 这里所提的前缀是指有词义的维吾尔语7个前缀, 而维吾尔语人名词不跟这些前缀搭配, 因此不考虑前缀.维吾尔语是词干加词缀来产生派生词, 因此人名后面也加后缀来产生各种派生词.由于登录词后加后缀就产生各种各样的未登录词, 所以维吾尔语中仅仅靠人名词典无法覆盖全部的登录词.

尽管维吾尔语中有2 956个后缀, 但仅有一小部分后缀能够和人名结合形成新的维吾尔语词.因此, 本文从维吾尔语后缀库中人工抽取了跟人名搭配的后缀, 这些人名后缀作为后向匹配以锁定带后缀的人名.

维吾尔语中词缀的结构复杂, 和词根连接时其新词的音节结构也可能有变化, 而且维吾尔语自动词干提取法恰恰对人名词效果较差, 所以在词根和词缀切分时我们只能按字符进行分析, 搜索时我们提出了基于正向搜素的词典匹配算法.

算法1.正向匹配算法

1) 若词的长度是$N$, 从词的前$i (i=N-1)$个字母开始在人名词典进行搜索.

2) 若无匹配词或$i>3$ (由于人名用词至少由三个字母组成), 转下一步, 若有匹配词转到4).

3) $i=i-1$转到1);

4) 若查找成功则将剩下的字符串在人名后缀库中进行匹配.若成功匹配词典特征返回为1;否则, 返回0.

我们以单词“musabiqe” (比赛) 和“musaning” (穆萨的) 为例来说明该算法的有效性.以上算法是从字符串后部开始正向进行搜索, 所以称为正向搜索.用该算法我们得出的人名词干候选是“musa” (穆萨), 后缀候选分别是“biqe”和“ning” (的), 因为后缀候选“biqe”在人名后缀库不可查, 后缀候选“ning” (的) 在人名后缀库可查, 所以单词“musabiqe” (比赛) 的词典特征返回为0, “musaning” (穆萨的) 的词典特征返回为1.这样一来, 尽管“musaning”没有出现在人名词典中, 但是我们仍然通过词干和人名后缀组合的方式将这一候选识别出来.

3.3 条件随机场模型

人名识别可以定义成序列标注问题, 即判断观察词是否属于预定义的标记集合.假设一个维语人名由单词序列$W=(w_{1}, w_{2}, \cdots, w_{m})$构成$(m\leq3$, 维吾尔语人名最多由三个单词组成), 给定的标记序列$y=(y_{1}, y_{2}, \cdots, y_{n})$ $(y_{i}\in O, $ B-PER, I-PER).其中, $n $表示给定单词序列长度.我们将对待输入句子进行单词切分并提取特征, 然后将自然句子转换为以下CRF格式数据, 如表 4所示.

条件随机场模型的定义为

$ P(Y{\mid}W, {\lambda})=\frac{1}{Z(W)}\exp{(\lambda_{j}{\cdot}F_{j}(Y, W))} $ (1)

其中, 分母$Z (W)$为归一化因子:

$ Z(W)=\sum\limits_{Y}{\exp }({{\lambda }_{j}}\cdot {{F}_{j}}(Y,W)) $ (2)

$\lambda_{j}$是第$j$个特征函数的权重系数; 函数$F_{j}(Y, W)$为特征函数的统一表示, $F_{j}(Y, W)$如式 (3) 所示.

$ {{F}_{j}}(Y,W)=\sum\limits_{i=1}^{n}{{{f}_{j}}}({{y}_{i-1}},{{y}_{i}},W,i) $ (3)

其中

$ {{P}_{r,j}}=\left\{ \begin{align} &1,{{y}_{i-1}}\text{和}{{y}_{i}}\text{满足某种搭配条件} \\ &0,\text{否则} \\ \end{align} \right.~~ $ (4)

输出句子为

< per> mEmtimin yvsvp < per> bilEn < per> abdureHim Otkvr < per> amrikiGa bardi.

表 4 CRF格式数据 Table 4 CRF format data
3.4 特征模板

本文选择了上下文词形、人名词典、上下文词干和后缀、上下文音节组合以及上下文字符串等特征.在CRF模型的特征中, 观察窗口的选择是至关重要, 窗口长度越大, 可利用的上下文信息越多, 可能准确率越高, 但是窗口长度过大会产生过拟合现象, 导致召唤率急速下降, 从而导致$F1$值下降; 而窗口长度越小, 特征模板包含的信息有限, 会丢失有用的上下文信息. 表 5列出了本文所用的特征及描述符.

表 5 特征及描述符 Table 5 Template and descriptor

其中, S$_{1}$ (第一个音节)、S$_{N}$ (最后一个音节)、S$_{1}$S$_{2}$ (第一个双音节)、S$_{N-1}$S$_{N}$ (最后一个双音节))、S$_{1}$S$_{2}$S$_{3}$ (前三个音节)、S$_{N-2}$S$_{N-1}$S$_{N}$ (最后三个音节)、C$_{1}$C$_{2}$ (前两个字符)、C$_{M-1}$C$_{M}$ (最后两个字符)、C$_{1}$C$_{2}$C$_{3}$ (前三个字符)、C$_{M-2}$C$_{M-1}$C$_{M}$ (最后三个字符)、C$_{1}$C$_{2}$C$_{3}$C$_{4}$ (前4个字符)、C$_{M-3}$ C$_{M-2}$C$_{M-1}$C$_{M}$ (最后4个字符)、C$_{1}$C$_{2}$C$_{3}$C$_{4}$C$_{5}$ (前5个字符)、C$_{M-4}$C$_{M-3}$C$_{M-2}$C$_{M-1}$C$_{M}$ (最后5个字符).

为了确定以上几种特征在不同特征模板下对于识别效果的影响, 本文分别做了对比实验, 最后根据$F1$值的大小选择窗口长度并得到最佳的特征模板.

3.5 实验语料及结果

本文实验所用语料包括已标注语料11 257句.其中, 训练语料有10 805句 (186 885个单词), 测试语料有1 650句 (21 183个单词), 其中训练语料里有10 359个人名, 测试语料里有2 359个人名.全部语料中包含12 718个人名, 其中包含维吾尔族人名5 112个 (40.20%)、汉族人名4 873个 (38.32%)、外来人名2 733个 (21.48%).所用语料有人名词典 (21 317个人名)、人名后缀库 (259个后缀) 等.语料中采用的标注分别有BPER (人名前部)、IPER (人名内部) 和O (其他).

本文语料是“新疆大学信号与信息处理”重点实验室人员搜集, 从新疆日报、《新疆大学学报》等学术杂志、小说等数据中筛选, 并安排人员进行了标注.这批数据将来会公布于众, 供研究人员进行对比研究.

本文实验评测标准为准确率$(P)$、召回率$(R)$和$F1$值3种指标, 式 (5) $\sim$ (7) 所示;

$ P=\frac{\text{正确标注的人名个数}}{\text{标注为人名的总个数}}\times100{\text{% }} $ (5)
$ R=\frac{\text{正确标注的人名个数}}{\text{语料中人名的总个数}}\times100{\text{% }} $ (6)
$ F1=\frac{2{\times}(P{\times}R)}{P+R}\times100{\text{% }} $ (7)

本文分别做了2个单类特征实验, 以确定上下文单词窗口长度和词典类型.对于提取上下文单词特征, 其窗口的选择很重要, 通过实验我们确定窗口长度为3 (前一个词、当前词和后一个词), 如表 6所示.我们还通过对比实验确定词典类型.从人名词典 (全集) 和无歧义性人名词典对比实验发现前者召回率比后者有微小的提高, 但准确率比无歧义性人名词典效果较差, 其$F1$值也比后者较低, 如表 7所示, 因此本文使用无歧义性人名库作为人名词典进行特征标注.

表 6 上下文单词窗口确定实验 Table 6 Context window experiment
表 7 词典类型确定实验 Table 7 Experiment of dictionary selection

本文把上下文单词特征作为基本特征, 分别作了5个对比实验, 如表 8所示; 表 9为5个对比实验的识别结果.

表 8 对比实验 Table 8 Comparative experiment
表 9 最佳模板确定实验 Table 9 Experiment of best template selection

为了跟已有的工作作对比, 我们把艾斯卡尔$\cdot$肉孜等提出的基于条件随机场模型的维吾尔人名识别方法[7]作为基线系统.由于词性标注工具的好坏对实验结果影响较大, 所以我们在艾斯卡$\cdot$肉孜等提出的最佳模板中去除了词性特征.我们与基线系统作对比实验, 结果如表 10所示.

表 10 对比实验 Table 10 Comparative experiment
3.6 实验分析

通过表 8中的各实验结果可知, 不同特征对人名识别的结果都有贡献.对比实验1和实验2可以看出, 我们提出的词典特征有效地缓解了未登录人名问题, 提高了人名识别的结果 (从69.98%提高到了74.33%).例如, 测试集中的人名Abdurazaq (阿不都热扎克) 在训练语料没出现过, 但是由于我们建立的人名库包含了此人名, 因此, 添加词典特征以后成功地识别了此类未登录人名.对比实验1和实验3可以看出, 我们提出的词干和词缀特征有效地缓解了带后缀的人名问题, 提高了人名识别的结果 (从69.98%提高到了77.92%), 例如, 人名“abdulla” (阿不都拉) 在训练语料出现过18次, 但是带后缀的人名“abdulladin” (从阿不都拉) 没有在训练出现过, 但是添加词干特征以后成功地识别了此类情况.对比实验1和实验4可以看出, 我们提出的音节特征有效地缓解了黏着性带来的数据稀疏性问题, 提高了人名识别的结果 (从69.98%提高到了81.16%), 例如, 人名音节“memet” (买买提) 在训练语料出现了63次, “memetzunun” (买买提祖农)、“abdumemet” (阿不都买买提)、“memeteli” (买买提艾力) 等人名都包含此音节, 因此这类高频维吾尔语人名音节对识别效果影响较大.对比实验1和实验5可以看出, 我们提出的字符串特征有效地利用维吾尔语人名词前后部高频字符串, 例如, 提高了人名识别的结果 (从69.98%提高到了81.91%), 例如, 字符串“gvl”在训练语料里人名单词前后部出现了134次, 测试语料里人名前后部出现了43次, 这类高频人名专用字符串对识别人名有很好的效果.

各个特征对实验结果的提高程度可以看出, 本文提出的音节组合特征和字符串组合特征贡献大于传统的词干词缀特征, 可见作为黏着性语言的维吾尔语来讲, 其对词干进一步进行拆分效果好于单纯利用词干提取进行人名识别.最后做多特征融合实验 (表 8实验6) 可知, 上下文单词、词典、词干词缀、音节组合、字符串组合等多特征融合的特征模板识别结果最高, 其准确率为87.37%、召回率为79.05%、$F1$值为83.00%.

通过错误分析可知, 识别错误 (873个错误) 的来源有两种, 一种是非人名词识别为人名词, 这类错误有240个 (27.49%), 另一种是人名词识别为非人名词, 这类错误有633个 (72.51%).第一种错误主要是歧义性词导致的, 如alim (阿里木或科学家) 等单词.第二种错误中各类人名占的比例不同, 比如, 维吾尔族人名识别错误有78个 (12.3%), 汉族人名识别错误有426个 (67.3%), 外国人名识别错误有128个 (20.2%).第二种错误中汉族人名占绝大多数, 其次是国外人名, 而维吾尔族人名的错误率最低.这也从侧面说明了我们单独对汉族人名进行识别的必要性.

由于汉族人名和维吾尔族人名的特点不同, 因此我们根据汉族人名的特点提出了基于规则的维吾尔语中汉族人名的识别方法.从而缓解了汉族人名导致的识别错误, 接下来我们介绍此方法.

4 维吾尔语中汉族人名的识别 4.1 维吾尔语中汉族人名的特点

维吾尔语中汉族人名的出现形式总共有四种, 如下:

1) 姓+【空格】+名, 例如 xi jinpiN (习近平), (李克强).

2) 姓+名, xijinpiN (习近平), likeqyaN (李克强).

3) 姓+【空格】+名+后缀1 +后缀2 +$\cdots$, xi jinpiNniN (习近平的) li keqyaNGa (李克强).

4) 姓+名+后缀1 +后缀2 +$\cdots$, xijinpiNniN (习近平的), likeqyaNGa (向李克强).

由于书写格式不同, 加上两种情况都可以接后缀, 还有汉语人名库几乎是开放集, 没法建立维吾尔语中汉族人名词典.因此同样对维吾尔语中的汉族人名进行音节切分来获取更小单元是比较有效的方法.

4.2 基于汉语拼音改进的维吾尔语音节切分

维吾尔语中汉族人名几乎是开放集.又因为维吾尔语的黏着性特点, 在汉族人名后也接词缀.因此建立汉族人名词典是不可行的, 所以把维吾尔语中的汉族人名单词切分成音节是必要的.因为汉字拼音在维吾尔语书写中是有限集合, 所以本文根据姓氏字和人名字的拼音转换到维吾尔文, 建立了维吾尔语化的汉族姓氏音节库和汉族人名音节库.

汉语拼音转到维吾尔语音节后, 在维吾尔语中的出现形式有CV, VC, CVC, CVV, CVVC, CCVC, V等7种, 汉语借词 (维吾尔语中从汉语音译过来的单词) 中唯一的单字符音节是“a” (“阿”).其中C为辅音字母 (Consonant character), V为元音字母 (Vowel character), 部分示例如表 11所示.

由于汉语拼音的音节组成跟维吾尔语音节组成有差异, 所以利用维吾尔语已有的音节切分规则对汉语借词进行音节切分会出现错误, 而导致无法准确获得汉字拼音到音译化音节的一一对应关系.利用维吾尔语音节切分规则对汉语借词进行切分, 如对人名likeqyaN (李克强) 进行音节切分得到结果为li + keq + yaN, 通过以上切分可知, 根据维吾尔语音节切分规则对汉语借词进行切分时会产生非法的音节, 如“keq”等, 其实“keq”中的“q”是属于后一个音节“yaN”, 正确的切分是li + ke + qyaN.针对以上错误的切分本文对维吾尔语音节切分进行改进, 维吾尔语中汉语借词内部出现的xy, dy, qy, jy, ly, by等连续的两个辅音字是维吾尔语中汉语借词独有的情况, 如“jaNdejyaN”、“lixyawloN”、“likeqyaN”、“linbyaw”等.所以可以用规则改进切分结果.如下为改进前和改进后的切分结果对比, 如表 12所示.

表 11 维吾尔语中汉语借词音节类别 Table 11 Chinese loanword syllable category in Uyghur
表 12 改进前和改进后的切分结果对比 Table 12 Comparison of syllable segmentation
4.3 维吾尔语中汉族人名的识别方法

本文提出的识别和排除规则流程图如图 4所示.

图 4 识别及排除流程 Figure 4 Process of recognition and exclusion

对于维吾尔语中汉语借词[14]的音节切分规则进行改进后, 我们就得到了正确切分的汉语借词音节单元.这对维吾尔语中汉语借词的识别是至关重要的.本文利用汉语姓氏字和人名用字音译音节在维吾尔语中的有限集和差异性等特点, 建立了基于拼音转换的汉语姓氏音节库和汉语人名用字音节库, 利用这些音节库对已切分好的单词进行识别.

首先我们把维吾尔语单词序列转为单词--音节混合序列, 如图 5所示.

通过单词--音节混合序列, 我们可以把连续出现的汉族姓氏音节和汉族人名音节视为汉族人名候选, 再根据排除法过滤掉地名头部和机构名头部最终识别出维吾尔语中的汉族人名.

本文利用汉族常用姓氏字库和汉族人名常用字库等资源, 通过汉字转拼音、拼音转维吾尔语音节的方式建立了包括216条音节的汉族姓氏音节库和包括404条音节的汉族人名常用字音节库, 如表 1314所示部分示例.

表 13 基于拼音转换的汉语姓氏音节库部分示例 Table 13 Samples of Chinese surname in Uyghur Latin version
表 14 基于拼音转换的汉族人名音节库部分示例 Table 14 Samples of Chinese lastname syllables in Uyghur Latin version

维吾尔语中的汉族人名也接后缀, 因此我们又建立了汉族人名后缀库, 包括172个词缀 (词缀集包括单词缀和复合词缀), 如表 15所示部分示例.

表 15 汉族人名后缀库部分示例 Table 15 Suffix of Chinese person name

根据维吾尔语中汉族人名的4种出现形式 (详见第3.1节), 本文提出了基于规则的识别维吾尔语中汉族人名算法.

算法2.维吾尔语中汉族人名的识别算法

1 Input: Uyghur Word-Syllable data ($w_{i}$, S$_{i}$) for

2 $i=1, \cdots$, len (W), S$_{i}$ = s$_{1}$s$_{2}$ $\cdots$ s$_{M-1}$s$_{M}$

($M$ = len (S$_{i}$))

3 CHI-SUR = false

4 for $i$ in 1, $\cdots$, len (W) then

5 if CHI-SUR == false then

6 if len (S$_{i}$) == 1 then

7 if s$_{1}$ in SURNAME-LIST then

8 CHI-SUR = true

9 else if len (S$_{i}$) $>$ 1 then

10 if s$_{1}$ in SURNAME-LIST and

11 s$_{2}$, ~[s$_{3}$] in LASTNAME-LIST and

12 [[s$_{3}$]s$_{4}$ $\cdots$ s$_{M}$M] in SUFFIX-LIST then

图 5 单词-音节混合序列 Figure 5 Word-Syllable sequences

13 CHI-SINGLE = true

14 if CHI-SUR == true then

15 if s$_{1}$, ~[s$_{2}$] in LASTNAME-LIST and

16 [[s$_{2}$]s$_{3}$ $\cdots$ s$_{M}$] in SUFFIX-LIST then

17 CHI-LAST = true

18 return R (CHI-SUR, CHI-LAST,

CHI-SINGLE)

根据上述算法, 识别步骤描述如下:

步骤1.利用空格将句子划分为单词序列;

步骤2.利用针对汉语借词改进的音节标注规则将单词序列转换为单词--音节序列;

步骤3.利用维吾尔语中汉族人名的识别算法将对每个序列给予标签 (SUR, LAST, O).

图 6 维吾尔语中汉族人名示例 Figure 6 Example of Chinese person names in Uighur

从上面的例子可以看出, 识别算法将“gowuyvEn” (国务院)、“zoNlisi” (总理)、“li keqyaN” (李克强)、“mayvngE” (向马云) 等4个名词识别为人名.由于总理、国务院等非人名词在维吾尔语中是直接从汉语音译的, 因此以上算法把这些普通词也识别为人名.对于这些错误我们又提出了一系列排除规则, 详见第4.4节.

4.4 排除规则

通过对识别算法进行错误分析发现, 本文提出的算法识别人名的召回率很高, 但准确率较差.影响准确率的主要原因有两种, 其一是将地名开头和机构名开头识别为人名, 还有一种是将部分维吾尔语普通词识别为人名, 因此我们提出了通过排除法过滤掉这部分识别错误.

分析错误时发现, 误识别为人名的地名词里, 县级以上地名有单独出现的情况, 如北京、浙江、新疆、南京、青岛、唐山等.反而, 县级以下地名都会伴随“县”、“镇”、“村”、“山”、“区”、“路"、“岛"、“矿”、“铁路”、“公路”等地名尾部关键字出现, 如天津市滨海区、柳园市、黄河路、长安街、海淀区、华西村、长白山, 钓鱼岛等.因此本文提出了通过建立地名词典和地名尾部关键词库来排除这部分错误.

除了地名以外, 机构名开头也会出现汉语音译过来的单词, 如“万达集团”、“复旦大学”、“协和医院”、“光大银行”、“腾讯公司”、“优酷网”等.这部分机构名开头词也产生识别错误, 因此我们又提出通过“集团”、“公司”、“大学”、“银行”、“网”等机构名尾部关键字来过滤掉这部分机构名开头, 同时还可以通过机构名内部关键字来进一步排除识别错误, 如“有限”、“文化”、“科技”、“传媒”等.

针对错误识别为汉族人名的维吾尔语普通词, 我们提出了基于高频词过滤的方法.对80万句维吾尔语生语料进行词频统计, 通过设阈值$N$ $(N>20)$将满足条件的单词视作高频维吾尔语普通词过滤掉.我们通过实验验证以上方法的有效性.

4.5 实验语料及结果

本实验所用的测试数据是从CRF测试数据里抽取仅包含汉族人名的600个维吾尔语句子, 其中包含汉族人名690个.本实验又利用搜狗官网提供的汉族人姓氏库 (包含1 000个常用姓氏字) 和常用汉族人名库 (包含9 023个人名), 建立了维吾尔语中汉族人名的姓氏音节库 (包含256个音节) 和人名音节库 (包含404个音节).还收集了中国国内2 594个县级及以上地名作为地名排除库, 242个地名和机构名尾部词库作为排除关键词库.所用的生语料包括80万句维吾尔语语料, 其中包含474 359个不同单词及词频.

本文通过不同的对比实验确定了最佳的识别结果, 如表 1617所示.

表 16 对比实验 Table 16 Comparative experiment
表 17 实验结果 Table 17 Experiment result

通过实验发现只采取基于姓氏音节库和人名音节库的识别规则, 召回率会很高, 但是准确率较低, 只要使用大量排除规则才能保证准确率.因此, 最终通过识别及排除相结合的方法取得了较好的实验结果, 准确率为97.63%、召回率为98.08%、$F1$值为97.86%.

5 实验结果

为了验证基于条件随机场的统计方法与基于规则的维吾尔语文本中汉族人名的识别方法联合使用的效果, 同时方便跟统计方法对比, 我们依然利用统计方法所使用的测试语料作为联合方法的测试数据.利用统计与规则相结合的方法, 以规则方法准确率高的特点对统计方法进行纠正, 将提高整体识别率.测试语料里的汉族人名识别结果和联合实验的测试结果分别为如表 1819中所示.

表 18 汉族人名识别结果 Table 18 Experimental result of Chinese person name
表 19 联合实验结果 Table 19 Combined result of experiment

为了验证实验结果的统计显著性, 我们对实验数据进行交叉验证.我们把数据分割成$K$ $(K=5)$个子样本, 一个单独的子样本被保留作为验证模型的数据, 其他$K-1$个样本用来训练.交叉验证重复$K$次, 每个子样本验证一次.交叉验证结果如表 20所示, 表中W$_i$表示被验证数据里的人名个数.

从以上实验结果可以看出, 利用统计与规则相结合的方法跟单一的统计方法相比实验结果有了明显的提高.因此, 我们提出的基于单词拆分的人名识别方法与基于规则的维吾尔语文本中汉族人名识别方法相结合是有效的.

表 20 交叉验证实验 Table 20 Cross-validation
6 结束语

本文从维吾尔语黏着性特点出发提出了基于单词拆分的人名识别方法, 还有根据维吾尔语中汉族人名的组成特点提出了基于规则的方法, 最终将两者结合取得了较好的实验结果.实验结果表明该方法具有良好的识别性能.该方法以拆分单词来缩小语言单元取得比传统词干提取作为特征更好的实验结果.该方法有实现代价小性能较好等特点.但同时, 维吾尔语人名识别正确率还有很大的提升空间, 尤其是对于外国人名识别上还需要收集适合相应语言的规则, 仍需要进一步探讨与研究.

参考文献
1 Zong Cheng-Qing. Statistical Natural Language Processing(Second edition). Beijing: Tsinghua University Press, 2013: 150-164.
( 宗成庆. 统计自然语言处理(第2版). 北京: 清华大学出版社, 2013: 150-164. )
2 Hanisch D, Fundel K, Mevissen H T, Zimmer R, Fluck J. ProMiner:rule-based protein and gene entity recognition. BMC Bioinformatics, 2005, 6 (S): S14.
3 Farmakiotou D, Karkaletsis V, Koutsias J, Sigletos G, Spyropoulos C D, Stamatopoulos P. Rule-based named entity recognition for Greek financial texts. In:Proceedings of the 2000 Workshop on Computational lexicography and Multimedia Dictionaries. Athens, Greece:COMLEX, 2000. 75-78
4 Zhou G D, Su J. Named entity recognition using an HMM-based chunk tagger. In:Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. Philadelphia:Association for Computational Linguistics. Philadelphia, USA:ACL, 2002. 473-480
5 Cao Bo, Su Yi-Dan, Deng Qi. Automatic recognition of Chinese name based on maximum entropy. Computer Engineering and Applications, 2009, 45 (4): 227–228.
( 曹波, 苏一丹, 邓琦. 基于最大熵模型的中国人名自动识别. 计算机工程与应用, 2009, 45 (4): 227–228. )
6 Li Heng, Zhu Jing-Bo, Yao Tian-Shun. SVM based Chinese text chunking. Journal of Chinese Information Processing, 2004, 18 (2): 1–7.
( 李珩, 朱靖波, 姚天顺. 基于SVM的中文组块分析. 中文信息学报, 2004, 18 (2): 1–7. )
7 Askar Rozi, Zong Cheng-Qing, Guljamal Mamateli, Rehim Mahmut, Askar Hamdulla. Approach to recognizing Uyhgur names based on conditional random fields. Journal of Tsinghua University (Science and Technology), 2013, 53 (6): 873–877.
( 艾斯卡尔·肉孜, 宗成庆, 姑丽加玛丽·麦麦提艾力, 热合木·马合木提, 艾斯卡尔·艾木都拉. 基于条件随机场的维吾尔人名识别方法. 清华大学学报 (自然科学版), 2013, 53 (6): 873–877. )
8 Li Jia-Zheng, Liu Kai, Maierheba Aili, Lv Ya-Juan, Liu Qun, Tuergen Yibulayin. Recognition and translation for Chinese names in Uighur language. Journal of Chinese Information Processing, 2013, 25 (4): 82–87.
( 李佳正, 刘凯, 麦热哈巴·艾力, 吕雅娟, 刘群, 吐尔根·依布拉音. 维吾尔语中汉族人名的识别及翻译. 中文信息学报, 2013, 25 (4): 82–87. )
9 Le J, Niu Z D. Chinese named entity recognition using improved bi-gram model based on dynamic programming. .
10 Jarulla Muhammad, Turgun Ibrahim, Hasan Omar. Research of Uyghur person names recognition based on statistics and rules. Journal of Xinjiang University (Natural Science Edition), 2014 (3): 319–324.
( 加日拉·买买提热衣木, 吐尔根·依布拉音, 艾山·吾买尔. 基于统计和规则混合策略的维吾尔人名识别研究. 新疆大学学报 (自然科学版), 2014 (3): 319–324. )
11 Liu Jie. Research on the recognition of geographical names based on rules and statistics. Journal of Jiamusi University (Natural Science Edition), 2009, 28 (4): 520–522.
( 刘杰. 基于规则和统计相结合的地名实体识别的研究. 佳木斯大学学报 (自然科学版), 2009, 28 (4): 520–522. )
12 Abudulufu Takelamaganni. Research on the Lexicology in Uighur Language. Beijing: The Ethnic Publishing House, 2011: 15-22.
( 阿布都鲁甫·塔克拉玛干尼. 维吾尔语词汇学与研究. 北京: 民族出版社, 2011: 15-22. )
13 Ablimit M, Eli M, Kawahara T. Partly supervised Uighur morpheme segmentation. In:Oriental-COCOSDA Workshop, Kyoto, Japan:ATR, 2008. 71-76
14 Mi Cheng-Gang, Yang Ya-Ting, Zhou Xi, Li Xiao, Yang Ming-Zhong. Recognition of Chinese Loan words in Uyghur based on string similarity. Journal of Chinese Information Processing, 2013, 27 (5): 173–178.
( 米成刚, 杨雅婷, 周喜, 李晓, 杨明忠. 基于字符串相似度的维吾尔语中汉语借词识别. 中文信息学报, 2013, 27 (5): 173–178. )