信息时代,每天都有不同语言的信息在生成、传播和转换。跨语言信息检索[1](cross-language information retrieval, CLIR) 为克服语言障碍提供了一种方便的途径。
融合检索技术的译文推荐系统,简称为翻译检索 (translation retrieval, TR) 系统,将翻译问题转化成检索问题,属于CLIR问题的一个特例。其不同之处在于检索模型的相关性评价。CLIR返回与用户查询意图最相近的文档,而TR的文档库由单个句子构成,最终得到的是包含查询译文的句子。
翻译检索的概念最早由Baldwin等[2]在翻译记忆系统中提出,与基于样例[3]的翻译相似,该方法依赖大规模的高质量双语语料。学者从互联网中获得平行语料[4-5],代价仍然高昂。Berger等[6]将统计机器翻译的方法运用到信息检索中,Federico等[1]实现了一个基于N-best查询翻译的CLIR系统,将需求分为查询翻译模型和查询文档模型。信息检索方面,Ng[5]采用一个最大似然估计的信息检索模型,Witten[6]使用平滑策略来优化概率估计,Navarro在文献[7]介绍了字符串相似性匹配的相关技术。Sanchez-Martinez等[8]用源文档检索目标文档,比较了使用统计机器翻译技术的不同策略。陈士杰等[9]实现了一个基于Lucene的英汉跨语言信息检索系统,旨在寻找更为有效的英汉查询翻译方法以及提高中文检索系统的性能。
传统汉英翻译检索方法的效果严重依赖于汉英平行语料库的规模与质量。TR系统使用单语语料库实现翻译检索,提高译文流畅性的同时,解决了双语料库构建代价太大的问题,其返回的单个句子直接为翻译人员提供辅助。
本文研究如何在汉英数据集上利用检索模型为翻译人员提供参考译文。系统由查询翻译子系统和检索子系统构成,查询翻译子系统采用基于短语的统计机器翻译方法,对给定的中文查询,翻译出N-best条查询译文。检索子系统采用单语语料库,基于向量空间模型评价查询译文与文档的相似性,最后返回高质量的参考译文。同时,检索子系统根据Levenshtein距离给出更恰当的参考译文排序。
1 翻译检索系统依统计学的角度,融合检索技术的译文推荐系统可以描述如下。
给定一个中文查询s,本文希望从文档集合D中返回具有最大翻译概率的译文d′:
| $ d' = \arg {\max _{d \in D}}\left\{ {\Pr \left( {d\left| s \right.} \right)} \right\} $ |
注意到中文查询一般为一句话,因此文档集合包含的并非一系列长段文档,而是目标语言的一系列句子。更一般地,系统应返回多个按相关度排序的候选译文,翻译人员依次浏览获得帮助。
为了解决中文查询s与对应的英语文档d的差异问题,引入隐藏变量t,表示查询s对应的N-best译文中的某个句子。同时假设对给定的s与t,d产生的概率只与t有关:
| $ \Pr \left( {d\left| s \right.} \right) = \Pr \left( {d,t\left| s \right.} \right) = \Pr \left( {t\left| s \right.} \right) \times \Pr \left( {d\left| t \right.} \right) $ |
式中:Pr (t|s) 由查询翻译子系统计算,Pr (d|t) 将由检索子系统计算。
1.1 系统架构图 1给出融合检索技术的译文推荐系统的整体架构,系统接受一个中文查询,最终返回多个候选译文。
|
| 图1 翻译检索系统总体架构 Figure 1 Translation retrieval system architecture |
系统分为查询翻译子系统和检索子系统,其中汉英平行语料库用来训练查询翻译模型,英文单语语料库用来提供检索查询。
本文借助NiuTrans构建查询翻译子系统[10],训练翻译模型以及n-gram语言模型。输入的中文经过查询翻译子系统得到目标语言英文的N-best译文。检索子系统接受查询翻译系统的输出结果,以Apache Lucene为基础,采用向量空间模型计算查询语句与候选文档的相似度,通过加入Levenshtein距离,使最终返回的参考译文的排序更合理。
1.2 查询翻译子系统查询翻译子系统计算将中文查询翻译成英文的概率,并得到N-best英文译文,该问题可描述为
| $ \hat t = \arg {\max _t}\left\{ {\Pr \left( {t\left| s \right.} \right)} \right\} $ |
式中:Pr (t|s) 表示把给定源语言查询s翻译成目标语言查询t的可能性。为了求得Pr (t|s),引入对数线性 (log-linear) 模型:
| $ \Pr \left( {t\left| s \right.} \right) = \frac{{\exp \left( {\sum\nolimits_{i = 1}^M {{\lambda _i} \times {\mathit{\boldsymbol{h}}_i}\left( {s,t} \right)} } \right)}}{{\sum\nolimits_t {\exp \left( {\sum\nolimits_{i = 1}^M {{\lambda _i} \times {\mathit{\boldsymbol{h}}_i}\left( {s,t} \right)} } \right)} }} $ | (1) |
式中:{hi(s, t)|i=1, 2,…, M}是计算Pr (t|s) 的特征集合,λi表示第i个特征对应的权重值,该值由最小错误率函数训练[11](minimum error rate training,MERT)。
本文的查询翻译子系统采用基于短语的翻译模型,选用了如下特征:
1) 短语翻译概率PrΦ(t|s),该概率决定了源语言短语是否能正确地翻译成英文,其值通过最大似然估计获得。
2) 反向短语翻译概率PrΦ(s|t),双向的翻译概率通常优于仅仅使用正向的模型。
3) 词汇加权概率Prlex(t|s),这是一种平滑方法,把短语分解成词的翻译来检查它们的匹配程度,用来衡量不常出现短语的可靠性。
4) 反向词汇加权概率Prlex(s|t),双向的词汇加权概率得到更优的翻译质量。
5) 语言模型概率Prlm(t),表示目标语言查询t在语料中出现的概率,确保输出句子的流利性,赋予较大权重。
6) 位变模型概率Prd(s, t),衡量短语调序的正确性,包括基于最大熵的调序模型fme(s, t) 和基于MSD的调序模型fmsd(s, t)。
7) 加权激励 (bonus),包括单词激励 (TWB) length (t);单词删除激励 (WDB);短语激励 (PB)。
用式 (1) 将所有的特征用对数线性模型结合起来,得到
| $ \begin{array}{*{20}{c}} {\Pr \left( {t\left| s \right.} \right) = {{\Pr }_\mathit{\Phi }}{{\left( {t\left| s \right.} \right)}^{{\lambda _1}}} \times {{\Pr }_\mathit{\Phi }}{{\left( {s\left| t \right.} \right)}^{{\lambda _2}}} \times }\\ {{{\Pr }_{{\rm{lex}}}}{{\left( {t\left| s \right.} \right)}^{{\lambda _3}}} \times {{\Pr }_{lex}}{{\left( {s\left| t \right.} \right)}^{{\lambda _4}}} \times }\\ {{{\Pr }_d}{{\left( {s,t} \right)}^{\lambda 5}} \times {{\Pr }_{lm}}{{\left( t \right)}^{\lambda 6}} \times \exp \left( {{\lambda _{{\rm{TWB}}}} \times } \right.}\\ {\left. {{\rm{length}}\left( t \right)} \right) \times \exp \left( {{\lambda _{PB}}} \right) \times \exp \left( {{\lambda _{{\rm{WDB}}}}} \right)} \end{array} $ |
为了优化特征权值,令S=(s1, s2, …, sm) 表示源语言句子,u(λ) 为权值的估计,T(u(λ))=(t1, t2, …, tm) 为目标译文结果,R=(r1, r2, …, rm) 是标准译文,根据MERT算法有
| $ \hat \lambda = \arg {\min _\lambda }{\rm{Err}}\left( {\mathit{\boldsymbol{T}}\left( {\mathit{\boldsymbol{u}}\left( \mathit{\boldsymbol{\lambda }} \right)} \right),\mathit{\boldsymbol{R}}} \right) $ |
采用BLEU值定义错误函数Err (),通过上述多次迭代得到适合的特征权重。
| $ {\rm{Err}}\left( {\mathit{\boldsymbol{T}}\left( {\mathit{\boldsymbol{u}}\left( \mathit{\boldsymbol{\lambda }} \right)} \right),\mathit{\boldsymbol{R}}} \right) = 1 - {\rm{BLEU}}\left( {\mathit{\boldsymbol{T}}\left( {\mathit{\boldsymbol{u}}\left( \mathit{\boldsymbol{\lambda }} \right)} \right),\mathit{\boldsymbol{R}}} \right) $ |
检索子系统计算从查询语句t到文档d的可能性,使用基于向量空间模型构建检索算法。查询和文档被表示为向量,其相似度通过向量夹角的余弦值表示:
| $ \Pr \left( {d\left| t \right.} \right) = \frac{{\sum\nolimits_{t' \in t \wedge d} {\left( {{w_{t,t'}} \times {w_{d,t'}}} \right)} }}{{\sqrt {\sum\nolimits_{t' \in t} {{{\left( {{w_{t,t'}}} \right)}^2}} \times \sum\nolimits_{t' \in d} {{{\left( {{w_{d,t'}}} \right)}^2}} } }} $ | (2) |
其中
| $ {w_{t,t'}} = \lg \left( {N/{{f'}_t}} \right) + 1,{w_{d,t'}} = \lg \left( {{f_{d,t'}} + 1} \right) $ |
本文将查询语句t中的一项表示为t′。fd, t′是项t′在文档d中出现的频率。N是文档总数,ft′是包含项t′的文档数目。
受词错误率启发,考虑到查询翻译子系统生成的N-best目标结果与单语语料库候选译文词序上的一致性,本文在检索模型中引入Levenshtein距离[12]计算查询语句与候选文档的最少编辑次数,以此作为衡量两者相似性的特征之一。Levenshtein距离的加入使得候选文档可以按对原查询语言的忠实度排序,在语序上保持一致性,因此可以提高准确率,后文实验中将对比加入Levenshtein距离和不加入Levenshtein距离的差异性。
用E(t, d) 表示Levenshtein距离的得分,式 (2) 可写为
| $ \begin{array}{*{20}{c}} {\Pr \left( {d\left| t \right.} \right) = {{\left( {\frac{{\sum\nolimits_{t' \in t \wedge d} {\left( {{w_{t,t'}} \times {w_{d,t'}}} \right)} }}{{\sqrt {\sum\nolimits_{t' \in t} {{{\left( {{w_{t,t'}}} \right)}^2}} \times \sum\nolimits_{t' \in d} {{{\left( {{w_{d,t'}}} \right)}^2}} } }}} \right)}^{\lambda 1}} \times }\\ {E{{\left( {t,d} \right)}^{\lambda 2}}} \end{array} $ |
同样,λ值由MERT算法训练。
2 翻译检索算法结合两个子系统,TR系统的算法可描述为两阶段。第一阶段计算Pr (t|s)。为缩小解空间,只取源语言s的N-best译文,生成集合Bn(s):
| $ \mathit{Pr'}\left( {t\left| s \right.} \right) = \left\{ \begin{array}{l} \Pr \left( {t\left| s \right.} \right),\;t \in {\mathit{\boldsymbol{B}}_n}\left( s \right)\\ 0,\;\;\;\;\;\;\;\;\;\;其他 \end{array} \right. $ |
第二阶段计算Pr (d|t)。限定候选文档中必须至少包含查询语的一项,令D(t) 表示包含查询项的文档集合
| $ \mathit{Pr'}\left( {d\left| t \right.} \right) = \left\{ \begin{array}{l} \Pr \left( {d\left| t \right.} \right),\;d \in \mathit{\boldsymbol{D}}\left( t \right)\\ 0,\;\;\;\;\;\;\;\;\;\;其他 \end{array} \right. $ |
算法伪代码见算法1。给定一个中文查询s,首先生成s的N-best译文集合Bn(s),对每个属于集合的t,计算对应的概率得分Pr′(t|s)。然后对包含查询语的文档集合D(t) 计算其中每个文档d的得分,最终对候选文档进行排序。
算法1:翻译检索算法
1) 输入中文查询s;
2) 由查询翻译子系统生成集Bn(s);
3) 对每一个属于Bn(s) 的目标语句t
4) 计算Pr′(t|s);
5) 对每一个属于Bn(s) 的目标语句t
6) N=0
7) 对每一个d∈D(t)
8) 计算Pr′(t|s);
9) 更新N=N+Pr′(d|t);
10) 对每一个d∈T(t)
11) 更新Pr (d)=Pr (d)+Pr′(t|s)×Pr′(d|t)/N;
12) 返回n条排序过的候选文档;
特别地,当只取1-best译文时,算法可做一些简化来提高效率,称之为1-best翻译检索算法,见算法2。此时,只需对包含最佳翻译
算法2:1-best翻译检索算法
1) 输入中文查询s;
2) 由查询翻译子系统计算最佳翻译
3) 对每一个d∈D(
4) 计算Pr′(d|
5) 返回n条排序过的候选文档;
3 实验评估本文在英汉数据集上进行了多组实验,对比不同参数对最终结果的影响:
1) 不同个数的N-best译文。N分别取1、5、10;
2) n元文法模型的n分别取3、4;
3) 是否加入Levenshtein距离。
3.1 数据集融合检索技术的译文推荐系统是数据驱动的系统,采用的数据集由NiuTrans提供。细分为六个部分:
1) 翻译模型训练集,包含45 M条汉英平行语料和对应的对齐语料;
2) 语言模型训练集,包含18 M条单语语料;
3) 优化调整数据集,包含130 k条中文语料以及其对应的参考译文,用来进行最小错误率训练;
4) 测试数据集,包含140 k条中文语句;
5) 标准译文数据集,测试集的标准译文 (323 k);
6) 检索文档数据集,包含50 M英文语料 (内含50%的标准译文)。
对中文语料使用ICTCLAS2011进行分词,并用空格隔开。汉英对齐来自GIZA++的结果。对英文语料做了符号化和大小写规整的预处理。检索的每个文档由单个句子构成。
3.2 评测指标本文采用目前应用最为广泛的自动评测指标BLEU[13](bilingual evaluation understudy)。它是一种有效解决词序作用的评测方法,考虑了机器翻译译文与参考译文中较长n元文法的匹配情况。
通常将n元文法的最大阶数设置为4,因此BLEU指标定义为
| $ {\rm{BLEU}}\left( {T,R} \right) = BP\left( {T,R} \right) \times \prod\limits_{i = 1}^4 {{\rm{Precisio}}{{\rm{n}}_n}\left( {T,R} \right)} $ |
式中:T、R分别表示目标语言与标准译文,Precisionn(T, R) 是n元文法的准确率,BP (brevity penalty) 是一个长度惩罚因子。
在BLEU基础上,加入人工评测,对结果进行准确率和召回率的评测,在返回的n条文档中比较能否包含参考译文。一般的,我们既不想输出错误单词也不想遗漏任何信息,因此同等的对待准确率和召回率,定义准确率和召回率的调和平均f测度[13](f-measure@n):
| $ \begin{array}{l} f - {\rm{measure = }}\frac{{{\rm{precision}} \times {\rm{recall}}}}{{\left( {{\rm{precision}} + {\rm{recall}}} \right)/2}} = \\ \frac{{{\rm{correct}}}}{{\left( {{\rm{output}} - {\rm{length}} + {\rm{reference}} - {\rm{length}}} \right)/2}} \end{array} $ |
本文在汉英数据集上随机地抽取了多组查询语句对进行了实验,对参数的不同取值做了对比实验。
表 1是在1-best条件下,不同阶数语言模型下的5次实验结果以及与Moses 4元文法的比较。
| 实验序号 | BLEU值 | ||
| 3-gram | 4-gram | Moses:4-gram | |
| 1 | 34.21 | 35.45 | 34.26 |
| 2 | 33.16 | 34.39 | 33.94 |
| 3 | 34.44 | 35.62 | 35.12 |
| 4 | 33.71 | 34.52 | 34.72 |
| 5 | 34.35 | 35.04 | 34.87 |
| 平均 | 33.92 | 35.00 | 34.58 |
从表 1中可以看出在1-best条件下,4-gram的语言模型有较好表现,结果优于Moses的翻译结果。
表 2给出在4元文法基础上不同N-best译文和加入Levenshtein距离后的实验结果。表中:-L表示不加入该距离,相反,+L表示加入。
| n条译文下的f-measure值 | 1-best | 5-best | 10-best | |||||
| -L | +L | -L | +L | -L | +L | |||
| f@1 | 64.62 | 68.26 | 67.54 | 69.56 | 68.42 | 69.98 | ||
| f@5 | 67.49 | 69.68 | 68.82 | 70.83 | 69.04 | 70.13 | ||
| f@10 | 63.36 | 67.26 | 63.58 | 66.97 | 63.02 | 65.52 | ||
表 3给出加入Levenshtein距离条件下,不同N-best译文的准确率 (p) 和召回率 (r) 结果:
| 译文数量 | 1-best | 5-best | 10-best | |||||
| p | r | p | r | p | r | |||
| 1 | 84.54 | 57.24 | 86.61 | 58.12 | 86.68 | 58.68 | ||
| 5 | 92.36 | 55.94 | 94.18 | 56.76 | 93.95 | 55.94 | ||
| 10 | 94.47 | 52.22 | 95.02 | 51.42 | 95.83 | 49.78 | ||
表 2反映了加入Levenshtein距离的改进效果。事实上,加入Levenshtein距离的检索模型会考虑检索语句与候选文档间的编辑次数,这样会显著提高结果的召回率,同时,查询翻译模型的语言模型保证了译文的流畅性,因此,加入Levenshtein距离也可以更好的提高最终结果的准确率,其f测度值也就更高。
实验结果也表明,在5-best译文和f@5时系统得到最佳f测度值。从表 3中可以看出在提供更多候选参考项目时,准确率会不断升高,但其召回率将下降较多,因此,选用适量的候选项目有利于翻译人员迅速准确的得到参考结果。
综上,从本文在英汉的数据集上对实验结果进行的自动评测 (BLUE) 和人工评测 (f@n) 结果看,BLEU指标优于目前主流的基于短语的机器翻译系统 (Moses)。但需要注意的是,BLEU指标只关注句子的局部,没有更多地考虑整体语法的连贯性,所以系统在4元文法基础上表现不错,超出4元文法时就可能混乱。
由此,本文更加看重实验结果的f测度,从表 3看出,准确率高于召回率,这是利于实际应用的。事实上,融合检索技术的译文推荐系统旨在为翻译人员提供参考,提高翻译的流畅性,并不要求候选文档与标准译文完全匹配,因此候选文档更多的包含标准译文是更为重要的,即准确率更能反映出翻译系统的性能。
4 结论融合检索技术的译文推荐系统,将翻译问题视作为检索问题,可为翻译人员提供高质量的参考译文。检索数据集的好坏很大程度决定了最终译文的参考质量,而我们的系统可以方便的获得大规模的单语语料集,与传统的基于平行语料的翻译系统相比有很大优势。汉英数据集上的实验表明:
1) 与基于短语的翻译系统相比,我们取得了更优的BLEU指标;
2) 将Levenshtein距离加入检索模型也可以提高f测度值并取得了最高70.83的f测度值。
未来,将把本文的成果运用到更多种类的双语翻译中。同时,进一步改进检索模型,以求针对翻译问题提供更为高效的检索算法。
| [1] | FEDERICO M, BERTOLDI N. Statistical cross-language information retrieval using n-best query translations[C]//Proceedings of the 25th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York, NY, USA:ACM, 2003:167-174. |
| [2] | BALDWIN T, TANAKA H. The effects of word order and segmentation on translation retrieval performance[C]//Proceedings of the 18th Conference on Computational Linguistics. Stroudsburg, PA, USA:Association for Computational Linguistics, 2000:35-41. |
| [3] | Nirenburg S, DOMASHNEV C, GRANNES D J. Two approaches to matching in example-based machine translation[C]//Proceedings of the 5th International Conference on Theoretical and Methodological Issues in Machine Translation. 1993:47-57. |
| [4] | ZHAO Bing, VOGEL S. Adaptive parallel sentences mining from web bilingual news collection[C]//Proceedings of the 2002 IEEE International Conference on Data Mining. Maebashi City, Japan:IEEE Computer Society, 2002:745-745. |
| [5] | RESNIK P, SMITH N A. The Web as a parallel corpus[J]. Computational linguistics, 2002, 29(3): 349–380. |
| [6] | BERGER A, LAFFERTY J. Information retrieval as statistical translation[C]//Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. Berkeley, California:ACM, 1999:222-229. |
| [7] | NG K. A maximum likelihood ratio information retrieval model[R]. 2006. |
| [8] | WITTEN I H, BELL T C. The zero-frequency problem:estimating the probabilities of novel events in adaptive text compression[J]. IEEE transactions on information theory, 1991, 37(4): 1085–1094. DOI:10.1109/18.87000 |
| [9] | NAVARRO G. A guided tour to approximate string matching[J]. ACM computing surveys, 2001, 33(1): 31–88. DOI:10.1145/375360.375365 |
| [10] | SÁNCHEZ-MARTÍNEZ F, CARRASCO R C. Document translation retrieval based on statistical machine translation techniques[J]. Applied artificial intelligence, 2011, 25(5): 329–340. DOI:10.1080/08839514.2011.559906 |
| [11] |
陈士杰, 张玥杰. 基于Lucene的英汉跨语言信息检索[J].
计算机工程, 2005, 31(13): 62–64.
CHEN Shijie, ZHANG Yuejie. English-Chinese cross-language information retrieval using Lucene system[J]. Computer engineering, 2005, 31(13): 62–64. |
| [12] | XIAO Tong, ZHU Jingbo, ZHANG Hao, et al. NiuTrans:an open source toolkit for phrase-based and syntax-based machine translation[C]//Proceedings of the ACL 2012 System Demonstrations. Stroudsburg, PA, USA:Association for Computational Linguistics, 2012:19-24. |
| [13] | OCH F J. Minimum error rate training in statistical machine translation[C]//Proceedings of the 41st Annual Meeting on Association for Computational Linguistics. Stroudsburg, PA, USA:Association for Computational Linguistics, 2003:160-167. |
| [14] | LEVENSHTEIN V I. Binary codes capable of correcting deletions, insertions, and reversals[J]. Soviet physics doklady, 1966, 10(8): 707–710. |
| [15] |
科恩. 统计机器翻译[M]. 宗成庆, 张霄军, 译. 北京: 电子工业出版社, 2012.
KOEHN P. Statistical machine translation[M]. ZONG Qingcheng, ZHANG Xiaojun, trans. Beijing:Publishing House of Electronics Industry, 2012. |


