多领域机器翻译中的非参贝叶斯短语归纳

引用本文

刘宇鹏, 马春光, 朱晓宁, 等. 多领域机器翻译中的非参贝叶斯短语归纳[J]. 哈尔滨工程大学学报, 2017, 38(10): 1616-1622. DOI: 10.11990/jheu.201605081.

LIU Yupeng, MA Chunguang, Zhu Xiaoning, et al. Multi-domain bayesian non-parametric phrasal induction in machine translation[J]. Journal of Harbin Engineering University, 2017, 38(10): 1616-1622. DOI: 10.11990/jheu.201605081.

基金项目

国家自然科学青年基金项目（61300115）；中国博士后科学基金项目（2014M561331）；黑龙江省教育厅科技研究项目（12521073）

通信作者

刘宇鹏, E-mail:flyeagle99@126.com

作者简介

刘宇鹏(1978-), 教授

文章历史

收稿日期：2016-05-24
网络出版日期：2016-08-16

Contents Abstract Full text Figures/Tables PDF

多领域机器翻译中的非参贝叶斯短语归纳

刘宇鹏^1,2, 马春光², 朱晓宁³, 乔秀明³

1. 哈尔滨理工大学软件学院, 黑龙江哈尔滨 150001;
2. 哈尔滨工程大学计算机科学与技术学院, 黑龙江哈尔滨 150001;
3. 哈尔滨工业大学计算机学院, 黑龙江哈尔滨 150001

收稿日期：2016-05-24；网络出版日期：2016-08-16

基金项目：国家自然科学青年基金项目（61300115）；中国博士后科学基金项目（2014M561331）；黑龙江省教育厅科技研究项目（12521073）

作者简介：刘宇鹏(1978-), 教授.

通信作者：刘宇鹏, E-mail:flyeagle99@126.com.

摘要：多领域机器翻译一直以来都是机器翻译领域研究的重点，而短语归纳是重中之重。传统加权的方法并没有考虑到整个归约过程，本文提出了一种使用层次化的Pitman Yor过程进行短语归约，同时把多通道引入到模型中，使得在短语归约的过程中平衡各领域的影响；从模型角度，本文的方法为生成式模型，模型更有表现力，且把对齐和短语抽取一起建模，克服了错误对齐对原有短语抽取性能的影响。从复杂度上来说，该模型独立于解码，更易于训练；从多领域融合来说，对短语归约过程中进行融合，更好地考虑到整个归约过程。在两种不同类型的语料上验证了机器翻译的性能，相对于传统的单领域启发式短语抽取和多领域加权，BLEU分数有所提高。

关键词：多领域机器翻译非参贝叶斯短语归纳 Pitman Yor过程生成式模型块采样中餐馆过程 BLEU分数

Multi-domain bayesian non-parametric phrasal induction in machine translation

LIU Yupeng^1,2, MA Chunguang², Zhu Xiaoning³, Qiao Xiuming³

1. School of Software, Harbin University of Science and Technology, Harbin 150001, China;
2. College of Computer Science and Technology, Harbin Engineering University, Harbin 150001, China;
3. School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China

Abstract: Domain adaptation has always been a key research field of machine translation, in which phrase induction is a top priority. The traditional weighted method did not take into account the entire phrase induction process. This paper proposed a method that uses hierarchical Pitman-Yor process to extract phrase pairs. Multiple channels were introduced into the model to balance the weight of various fields in the phrase induction process. From the point of the model, the generative model was expressive, and the alignment and phrase extraction were modeled together, which overcame the effect of wrong alignment on the original phrase extraction performance. From the view of complexity, the model is independent of decoding and easy to train. From the perspective of multi-domain combination, the process of phrase reduction combination takes into account the entire reduction process better. Machine translation performance was validated on two different types of corpus. Compared with the traditional method of weighted multi-domain and heuristic phrase extraction in single domain, the performance measured by BLEU score was improved.

Key words: multi-domain machine translation Bayesian non-parameter phrasal induction Pitman-Yor process (PYP) generative model block sampling Chinese restaurant process BLEU score

随着互联网技术的快速发展，信息增长的速度越来越快，更加凸显出了自然语言处理和机器翻译任务的重要性。领域自适应作为机器翻译任务的一个重要应用，一直吸引着很多研究者投入其中，关于这个方面的研讨会也是数不胜数。近几年来非参数贝叶斯模型已成为统计学、机器学习等领域内研究的热点，其基本方法为将一个复杂分布分解为简单分布(有限或无限个)的加权平均，根据训练数据来确定训练模型中简单分布的个数。非参数贝叶斯模型是常用的数据分布拟合工具之一，需要假设参数服从先验分布，为了后验概率推断方便，一般采用共轭先验。非参数贝叶斯模型解决了参数学习的随着数据增长模型参数个数不变，也解决了非贝叶斯学习无参数先验信息的问题。流行的非参数贝叶斯模型很多，如Beta过程、高斯过程、狄利克雷过程(dirichlet process, DP)等^[1-3]。这些模型在自然语言处理诸多领域都有应用，如语言模型^[4]、词性标注^[5]、短语归纳等^[6-10]。狄利克雷过程作为一种随机过程(stochastic process，SP)是有限维狄利克雷分布的推广，是无限维分布上的分布；从另一个角度来说，狄利克雷过程也是一种随机度量，每一种划分都会得到一种狄利克雷分布。由于作为无限维的狄利克雷过程描述起来和构造相对困难，有几种等价形式来解决这些问题，如中餐馆过程(chinese restaurant process)、波利亚罐子模型(polya urn scheme)和截棒过程构造(stick breaking construction)等。狄利克雷过程有很多变形，如PYP^[10]、层次化的狄利克雷过程(hierachical dirichlet process, HDP)^[11-12]、依存DP^[13]和非参树模型^[14]等，这些模型面向于不同的任务，很好的符合了任务的建模过程。

短语归纳^[6-10]作为机器翻译系统的重要组成部分，一直是研究的重点。传统的方法是把单词对齐和短语抽取看成两个过程，而这样会把对齐错误引入到短语抽取过程中，且抽取过程无法考虑到对齐信息。本文主要把非参数贝叶斯模型中的狄利克雷过程应用到机器翻译的短语归纳中。本文的方法可以归为从不同领域的数据出发基于实例权重的翻译模型融合方法^[11]。本文主要创新是在多个领域归约短语表时候进行模型级融合。

1 机器翻译概率模型

整个机器翻译过程为先进行训练以获得翻译过程使用的短语对，接着使用这些短语对进行解码，两个过程是息息相关的。翻译过程为给定训练语料 < E, F>和原句f生成目标句e概率中最大的翻译结果：

$ \hat e = \mathop {\arg \max }\limits_e P\left( {e\left| f \right.,\left\langle {E,F} \right\rangle } \right) $

(1)

本文认为在解码过程中隐含着训练过程中的参数集Θ(包括翻译模型的权重，扭曲模型和语言模型的权重等)，即贝叶斯框架为

$ \begin{array}{c} P\left( {e\left| f \right.,\left\langle {E,F} \right\rangle } \right) = \\ \int_\mathit{\Theta} {P\left( {e\left| f \right.,\mathit{\Theta} } \right)P\left( {\mathit{\Theta} \left| {\left\langle {E,F} \right\rangle } \right.} \right)} \end{array} $

(2)

式中：P(Θ| < E, F>)是整个训练过程的目标函数，即通过贝叶斯公式把参数集Θ移到结果侧然后积分掉。通过贝叶斯法则可以把隐参数Θ的后验概率进一步分解，可以描述为

$ P\left( {\mathit{\Theta} \left| {\left\langle {E,F} \right\rangle } \right.} \right) \propto P\left( {\left\langle {E,F} \right\rangle \left| \mathit{\Theta} \right.} \right)P\left( \mathit{\Theta} \right) $

(3)

式中：P( < E, F>|Θ)为语料的似然概率，P(Θ)为隐参数的先验概率。从这个公式可以看出非参数主要是指参数Θ服从概率分布P(Θ)，相对于传统模型参数模型，参数数量是随着训练实例的增加而增加的，贝叶斯法则是通过贝叶斯公式对于后验概率P(Θ| < E, F>)进行计算。训练语料中包含了很多句子，语料的似然概率表示含义为对训练语料 < E, F>中的每个句子 < e, f>的似然进行相乘可以得到整个语料的似然。这里主要是对句子似然概率P( < e, f>|Θ)和隐参数先验P(Θ)进行建模：

$ P\left( {\left\langle {E,F} \right\rangle \left| \mathit{\Theta} \right.} \right) = \prod\nolimits_{\left\langle {e,f} \right\rangle \in \left\langle {E,F} \right\rangle } {P\left( {\left\langle {e,f} \right\rangle \left| \mathit{\Theta} \right.} \right)} $

(4)

2 翻译模型描述 2.1 短语归约的产生式模型

在机器学习中，按照建模对象的不同，可以分为产生式模型(联合概率建模)和判别式模型(条件概率建模)。本文采用产生式模型，可以根据产生式模型得到判别式模型的条件概率。同步上下文无关文法(synchronous context-free grammar, SCFG)的规则不是都可以转换成反向转录语法(inversion transduction grammar, ITG)，但是使用转换后的文法对于机器翻译性能几乎没有影响^[16]。基于这点，本文采用ITG进行短语归约。传统方法对于最小短语对进行建模，忽略了更大粒度的短语，本文采用文献[9]的方法，可生成各种粒度的短语，不需要通过小粒度短语启发式的生成大粒度的短语，同时相对文献[7]中的方法有更少生成操作，模型训练起来更加容易。

从形式化上，句子似然概率P( < e, f>|Θ)可以分解成短语似然概率P( < e_i, f_i>|θ_t, θ_x)，其中隐参数集Θ中包含了两种隐参数，分别为短语对隐参数θ_t和规则类型隐参数θ_x。图 1描述了部分推导树的图模型，通过这些部分推导树可以获得整个推导，其中有向箭头表示变量之间的依存关系，菱形表示超参数。

图 1 部分推导树的图模型 Fig.1 The graph model of partial derivation tree

由于规则类型的不同，左右子节点的情况也不一样，所以把子节点用椭圆圈起来。按照无限维的HMM^[17]，本文把一个规则的生成过程拆分成3个部分：1)根据短语对隐参数θ_t产生该规则的根节点短语；2)根据规则隐参数θ_x生成该规则类型；3)根据规则类型和短语对隐参数θ_t生成当前父节点短语z_i的子节点短语l_zi和r_zi。ITG文法中的一元规则和二元规则对应了3种规则类型：一元规则的发射类型、二元规则的正向调序和反向调序。规则类型隐参数θ_x服从于Dirichlet分布，θ_t服从于无限维的PYP。PYP相对于Dirichlet过程来说更加泛化，除了含有Dirichlet过程中两个参数：基分布超参H(用于获得概率分布的位置)和强度超参s(用于控制分布和基分布拟合情况)，还增加了打折超参d(使得聚类特性满足幂律，虽然原来的Dirichlet过程中的参数会让富有的聚类更加富有，但无法满足幂律)。具体的算法如下：

θ_t ~ PYP(s, d, H)

θ_x ~ Dirichlet(α)

for each node z_i= < e_i, f_i> in the derivation tree

generate z_i|θ_t~θ_t

generate a symbol x_i|θ_x~θ_x

If x_i=Emission then

z_i|θ_t~θ_t, generateanewphrase

If x_i=Monotone then

l_{z_i}|θ_t~θ_t, r_{z_i}|θ_t~θ_t, concatenate l_{z_i} and r_{z_i}

withmonotone

If x_i=Reordering then

l_{z_i}|θ_t~θ_t, r_{z_i}|θ_t~θ_t, concatenate l_{z_i} an r_{z_i}

withreordering

2.2 多领域短语归约模型

参照文献[18]，假设不同领域的数据来自于不同数据分布，因此需要不同的通道来处理不同的数据分布，每个通道对应一个领域。进行多通道融合的时候，整个多领域短语归约的过程相当于分就餐区域的中餐馆过程。中餐馆过程刻画了多领域短语归约模型的聚类特性，只列出一个层次的，图 2给出了多领域短语归约的图模型，图 3为多领域归约的中餐馆过程。

图 2 多领域的短语归约模型 Fig.2 Multi-domain phrase induction model

图 3 多领域短语归约的CRP过程 Fig.3 CRP procedure of multi-domain phrase induction

在图 2中描述了不同领域的部分推导树共享同一个短语对隐参数θ_t，这里共有J个领域，每个领域中的短语对都根据共享参数生成。在图 3中上一层相当于菜单(用于共享)，下一层相当于顾客(表示短语，以黑点进行表示)进行就餐的过程，同一短语可以在同一就餐区域的不同桌子，也可以在不同的就餐区域。就餐区域相当于通道。θ_i是按照概率分布θ_t取出来的原子，而每个原子在下一层可以看成菜单。菜单中的每道菜为θ_i(1≤i≤n，表示上一层共生成了n道菜，注意建模过程是无限维，但生成的结果是固定维数的)，下一层没有确定桌子的数量表示还没有完成所有的短语聚类。

3 归纳语约训练

对于单通道情况来说，每个短语对z_i的后验预测概率为

$ \begin{array}{l} P\left( {{z_i}\left| {\overline {{z_i}} } \right.} \right) = \frac{{\int\limits_{{\theta _t}} {P\left( {\overline {{z_i}} ,{z_i}\left| {{\theta _t}} \right.} \right)PYP\left( {s,d,H} \right)} }}{{\int\limits_{{\theta _t}} {P\left( {{z_i}\left| {{\theta _t}} \right.} \right)PYP\left( {s,d,H} \right)} }} = \\ \;\;\;\;\;\;\;\frac{{{c_{{z_i}}} - d{t_{{z_i}}}}}{{{c_ - } + s}} + \frac{{d{t_ - } + s}}{{{c_ - } + s}}H\left( {{z_i}\left| {\overline {{z_i}} } \right.} \right) \end{array} $

(5)

通过积分掉参数θ_t和贝叶斯公式可以获得后验预测概率P(z_i|$ \overline{z_i}$)，式(5)中$ \overline{z_i}$是去掉当前短语对z_i余下的短语对；c_{z_i}表示短语对z_i的顾客数量；t_{z_i}表示短语对z_i的桌子数量；c_-表示总顾客数量；t_-表示总桌子数量。从式(5)中可以看出，与极大似然估计$\frac{{{c_{{z_i}}}}}{{{c_ - }}} $比较起来，分母中的强度参数s表示对于极大似然进行平滑，打折参数表示把更多的概率值分配到新桌子，从而聚类特性达到幂律。

式(5)可以描述为当一个顾客来到餐馆时有两种选择：

1) 以概率$\frac{{{c_{{z_i}}} - d{t_{zi}}}}{{{c_ - } + s}} $坐在已有的桌子上，坐在第k个桌子上的概率正比于$\frac{{{c_{{z_i}}}\left( k \right) - d}}{{{c_{{z_i}}} - d{t_{{z_i}}}}} $，c_{z_i}(k)表示坐在第k个桌子上短语对z_i的顾客数量；

2) 以概率$ \frac{{d{t_ - } + s}}{{{c_ - } + s}}H\left( {{z_i}\left| {\overline {{z_i}} } \right.} \right)$坐在新桌子上，而H(z_i| $\overline {{z_i}} $)计算依赖下一层的中餐馆过程。

基础分布的概率定义如下：

$ \begin{array}{c} H\left( {{z_i}\left| {\overline {{z_i}} } \right.} \right) = \\ \left\{ \begin{array}{c} P\left( {{x_i} =发射类型 } \right)P\left( {{u_{{z_i}}}\left| {\overline {{u_{{z_i}}}} } \right.} \right)\\ P\left( {{x_i} =正向调续 } \right)P\left( {{l_{{z_i}}}\left| {\overline {{l_{{z_i}}}} } \right.} \right)P\left( {{r_{{z_i}}}\left| {\overline {{r_{{z_i}}}} } \right.} \right)\\ P\left( {{x_i} =反向调续 } \right)P\left( {{l_{{z_i}}}\left| {\overline {{l_{{z_i}}}} } \right.} \right)P\left( {{r_{{z_i}}}\left| {\overline {{r_{{z_i}}}} } \right.} \right) \end{array} \right. \end{array} $

(6)

式(6)可以发现PYP的基础分布分为2个部分：规则类型的概率和规则子节点，一元规则采用P(u_{z_i}|$ \overline{u_{z_i}}$)，二元规则的左孩子采用概率P(l_{z_i}|$ \overline{l_{z_i}}$)，二元规则的右孩子采用概率P(r_{z_i}|$ \overline{r_{z_i}}$)。式(6)中P(x_i)表示不同规则类型的概率，规则类型见上面的描述。迭代过程最终成为单词之间的翻译概率P_base( < e, f>)，单词的翻译概率采用文献[7]方法，即2个方向(源语言到目标语言，目标语言到源语言)的IBM model4翻译概率的几何平均。

本文提出的方法是在多通道下进行的，在计算总的后验预测概率的时候，需要对于每个通道中的后验预测概率进行加权平均

$ P\left( {{z_i}\left| {\overline {{z_i}} } \right.} \right) = \sum\nolimits_j {{\lambda _j}P\left( {{z_i}\left| j \right.,\overline {{z_i}} } \right)} $

(7)

每个通道中相当于一个独立的层次化的PYP，其中P(z_i|j, $\overline {{z_i}} $)同式(6)一样，对于每个通道中都有独立的计数(c_{z_i}^j，c_-^j，t_{z_i}^j和t_-^j)，强度参数s_j，打折参数d_j和H(z_i|j, $\overline {{z_i}} $)。这里用总的强度参数和打折参数定义每个领域独立的强度参数和打折参数s_j= $\frac{{c_ - ^j}}{{{c_ - }}}s{d_j} = \frac{{c_ - ^j}}{{{c_ - }}}d $，把这些定义和P(z_i|j, $ \overline {{z_i}}$)代入到式(7)中可以获得总的后验预测概率为

$ \begin{array}{l} P\left( {{z_i}\left| {\overline {{z_i}} } \right.} \right) = \frac{{{c_ - }\sum\nolimits_j {{\lambda _j}\frac{{c_{{z_i}}^j}}{{c_ - ^j}}} - d\sum\nolimits_j {{\lambda _j}t_{{z_i}}^j} }}{{{c_ - } + s}} + \\ \;\;\;\;\;\;\;\;\frac{{d\sum\nolimits_j {{\lambda _j}t_ - ^j + s} }}{{{c_ - } + s}}H\left( {{z_i}\left| {\overline {{z_i}} } \right.} \right) \end{array} $

(8)

总的计数是通过每个通道中计数加权平均获得，每个领域的信息会影响到总的后验预测概率。一个通道时，式(8)成为式(6)，说明一个通道是多个通道的特例。H(z_i| $\overline {{z_i}} $)的推导形式与式(8)推导过程一样。按照文献[19]方法，采用句子级的块采样，整个采样过程为(这里只描述一层PYP采样，其他层的类似，只有当前层的桌子增加和减少时才进行下一层的采样)：

1) 从所有含有推导的双语句对中选出一个句对，减少当前推导的短语对；

2) 自底向上的对于句对进行双语分析并计算源语言的跨度概率；

3) 根据跨度概率自底向上的采样一个推导；

4) 增加新推导的短语对；

最终翻译的条件概率可以通过公式(8)计算。采样过程中需要对于每个桌子上的顾客数进行调整(顾客等可能的离开中餐馆)，当桌子空时就把桌子取消掉。

4 翻译实验和分析 4.1 翻译系统配置

实验中分别从口语翻译任务和常规文本翻译任务出发，采用两个数据集进行验证该方法的有效性，训练语料分别是来自IWSLT2012语料和LDC语料。其中IWLST2012含有HIT部分和BETC部分。LDC语料包括LDC2003E14、LDC2003E07、LDC2005T10、LDC2005E83、LDC2006E34、LDC2006E85、LDC2006E92(总共含有500k的句对)。使用隐藏狄利克雷分配模型(LDA)对于LDC语料进行划分^[20]，划分时把中英文句子连接在一起共同反应同一领域。不需要对IWLST2012划分。在口语翻译任务中，语言模型的训练语料采用训练语料中的英文；翻译模型采用IWSLT2012提供的开发集(含有3k中英文句对)和测试集(含有1k中英文句对)。在常规文本翻译任务中，语言模型的训练语料采用英文GigaWord语料中xinhua部分和训练语料的英文句子；为了更好的度量翻译结果，在标准集NIST03(含有919中英文句对)，NIST05(含有1 082中英文句对)和NIST06(含有1 664中英文句对)上进行，这些测试集即作为开发集又作为测试集，互相衡量的翻译性能，更加全面考虑机器翻译的性能。

为了更好的度量不同归约方法对于翻译系统的影响，翻译系统采用开源的Moses中的短语翻译系统^[21]，选用短语翻译系统的好处为忽略掉句法结构带来的影响。语言模型采用加入Kneser-Ney平滑的Srilm训练的五元模型^[22]。翻译质量的度量采用大小写不敏感的BLEU^[23]，训练时采用20轮迭代的间隔注入的松弛算法(margin infused relax algorithm, MIRA)，为了获得最好的参数权重，独立运行MIRA 10次，把获得最高BLEU分数的调参结果用到测试集上。采用文献[24]方法，所有的显著性测试在显著性水平为0.05下进行。

4.2 不同短语归约方法的比较

在两种训练语料(不分领域)上进行比较，主要是体现本文归约方法的优越性。为了更好的比较采用3个基线系统：第一个基线系统为采用GIZA++ Model 4词对齐后，使用Grow-Diag-Final-And启发式获得两个方向的对齐，最后再抽取短语，该基线系统表示为Heu-Model4。第二个基线系统为选用文献[9]中方法，同本文相比使用了相似的调序建模，但是没有对于非终结符号中的短语进行建模；这个基线方法也使用了启发式方法抽取短语，只是在计算短语翻译概率的时候，利用了采样器获得的短语对分布；该基线系统表示为Ali-Phr-Heu-Com。本文提出的方法表示为Ali-Phr-Mod-Com，短语归约模型的最大短语长度为7。选用这3个基线系统的原因为：第一个基线系统是传统的短语抽取方法；第二个基线系统使用了相似的非参数贝叶斯方法，但是没有本文模型表现能力强(不同粒度的短语，层次化的PYP相对于非层次的DP)。

通过和Heu-Model4基线系统比较，发现Ali-Phr-Heu-Com系统提高了0.8；通过和Ali-Phr-Heu-Com基线系统比较，发现Ali-Phr-Mod-Com系统提高了0.42。总体来说，实验结果说明了Ali-Phr-Heu-Com系统好于传统的启发式方法。表 1给出了在常规文本上的实验结果，使用典型的NIST翻译任务中语料作为开发集和测试集。

表 1 在常规文本翻译任务上不同短语规约方法的比较表 Tab.1 Comparison table of different phrase induction in normal text translation task

表 1的性能比较见表 2。

表 2 表 1系统的性能比较表 Tab.2 The performance comparison of table 1

总体来说，在3个测试集合上Ali-Phr-Heu-Com系统好于Heu-Model4系统，Ali-Phr-Mod-Com系统好于Ali-Phr-Heu-Com系统。

4.3 多领域短语归约的实验

在多领域实验中，除了对于第一个基线系统进行简单加权外，使用了经典翻译系统Moses的基于混淆度最小的自适应方法^[25], 该基线系统表示为Moses-Per。

表 1和表 3的性能比较见表 4，在每个开发集上性能的提高说明了本文方法在更大规模的常规文章翻译任务的有效性。表 3的性能比较见表 5，说明本文方法的有效性。总体来说，通过不同多领域归约方法的比较，Ali-Phr-Mod-Com-DA系统相对于Ali-Phr-Heu-Com-DA提高的性能高于Ali-Phr-Heu-Com-DA系统相对于Heu-Model4-DA系统提高的性能，说明了本文方法对于强大基线系统的有效性。

表 3 在常规文本翻译任务上多领域归约的比较表 Tab.3 Comparison table of different phrase induction in normal text translation task

表 4 表 1和表 3系统性能比较表 Tab.4 The performance comparison of table 1 and table 3

表 5 表 3系统的性能比较表 Tab.5 The performance comparison of table 3

不管是在多领域之间，还是在单领域和多领域之间，本部分的实验结果与在IWSLT2012的实验结果比较起来提高的性能较少，可能的原因是IWSLT2012中的2个领域比较明显的区别，而在常规文本中划分的领域区分性不大。从表 1、2中可以看出Moses_Per好于Heu-Model4，但性能不多，可能的原因是本文已经尝试了很多种权重配置方案；本文的文本是正规化文本，从语言模型的角度区别性不是很大，所以导致基于语言模型评价标准的混淆度不能捕捉到更多领域间的信息。本文方法超过了Moses_Per，可能是因为更好考虑了每个短语生成过程中领域间相互影响，Moses_Per虽然考虑到了每个领域中实例情况，但没有考虑到每个实例生成过程。本文提出的单领域归约方法Ali-Phr-Mod-Com和多领域归约方法Ali-Phr-Mod-Com-DA超过了所有基线系统。

4 结论

1) 本模型把传统对齐和短语抽取过程进行一起建模，在采样的过程中获得对齐；

2) 本模型中含有ITG归约过程中每一层的短语，而且可以分治的回退到下一层从而生成粒度更细的短语。对于短语归约过程中每层产生规则和短语进行了详细的模型描述，并给出了进行采样估计概率时的后验预测概率；为了更好地理解多领域模型使用中餐馆过程进行描述；

3) 在2种类型的语料上进行了验证，通过实验发现本文方法超过了经典的基线系统(包括传统方法和没有对于短语建模的非参数贝叶斯短语归约)，且做了显著性测试以证明方法的统计意义。

从实验结果中可以看出，本文的建模方法对于SMT性能的提高起到了一定作用。

参考文献

[1]	THIBAUX R, JORDAN M I. Hierarchical beta processes and the indian buffet process[C]//Proceedings International Conference on Artificial Intelligence and Statistics.New York, USA, 2007:564-571. https://www.researchgate.net/publication/220321011_Hierarchical_Beta_Processes_and_the_Indian_Buffet_Process (0)
[2]	RASMUSSEN C E, WILLIAMS C K I. Gaussian processes for machine learning[M]. USA: MIT Press, 2006. (0)
[3]	NEAL R M. Bayesian mixture modeling[C]//Proceedings of the Workshop on Maximum Entropy and Bayesian Methods of Statistical Analysis. Philadelphia, USA, 1992:197-211. http://link.springer.com/10.1007/978-94-017-2219-3_14 (0)
[4]	GOLDWATER S, GRIFFITHS T. A Fully Bayesian approach to unsupervised part-of-speech tagging[C]//Proceedings of the Annual Meeting of the Association for Computational Linguistics. Czech Republic, 2007:744-751. https://www.researchgate.net/publication/220874388_A_fully_Bayesian_approach_to_unsupervised_part-of-speech_tagging (0)
[5]	BLUNSOM P, COHN T. Inducing synchronous grammars with slice sampling[C]//In Proceedings of the Human Language Technology:The 11th Annual Conference of the North American Chapter of the Association for Computational Linguistics. Los Angeles, California, USA, 2010:238-241. http://dl.acm.org/citation.cfm?id=1858027 (0)
[6]	BLUNSOM P, COHN T, DYER C, et al. A gibbs sampler for phrasal synchronous grammar induction[C]//Proceedings of the 47th Annual Meeting of the Association for Computational Linguistics. Singapore, 2009:782-790. http://dl.acm.org/citation.cfm?id=1690256 (0)
[7]	DENERO J, BOUCHARD-COTE A, KLEIN D. Sampling alignment structure under a bayesian translation model[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. Waikiki, Honolulu, Hawaii, 2008:314-323. http://dl.acm.org/citation.cfm?id=1613758 (0)
[8]	KAMIGAITO H, WATANABE T, TAKAMURA H, et al. Hierarchical back-off modeling of hiero grammar based on non-parametric bayesian model[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. Lisbon, Portugal, 2015:1217-1227. 10.18653/v1/D15-1143 (0)
[9]	NEUBIG G, WATANABE T, SUMITA E, et al. An unsupervised model for joint phrase alignment and extraction[C]//The 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies (ACL-HLT). Portland, Oregon, USA, 2011:632-641. http://dl.acm.org/citation.cfm?id=2002553 (0)
[10]	TEH Y W. A hierarchical bayesian language model based on pitman-yor processes[C]//Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the Association for Computational Linguistics. New York, USA, 2006:985-992. http://dl.acm.org/citation.cfm?id=1220299 (0)
[11]	LIANG P, PETROV S, JORDAN M I, et al. The infinite pcfg using hierarchical dirichlet processes[C]//In Proceedings of the Conference on Empirical Methods in Natural Language Processing. Prague, Czech REpublic, 2007:688-697. https://www.mendeley.com/research-papers/nite-pcfg-using-hierarchical-dirichlet-processes-1/ (0)
[12]	TEH Y W, JORDAN M I, BEAL M J, et al. Hierarchical dirichlet processes[J]. Journal of the American statistical association, 2006, 1(101): 1566-1581. (0)
[13]	MACEACHERN S, KOTTAS A, GELFAND A. Spatial nonparametric bayesian models[C]//Proceedings of the 2001 Joint Statistical Meetings. New York, USA, 2001:1-12. https://www.mendeley.com/research-papers/spatial-nonparametric-bayesian-models/ (0)
[14]	BLEI D M, GRIFFITHS T L, JORDAN M I, et al. Hierarchical topic models and the nested Chinese restaurant process[C]//Advances in Neural Information Processing Systems.New York, USA, 2004:17-24. http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.9.8137 (0)
[15]	ZHU Conghui, WATANABE T, SUMITA E, et al. Hierarchical phrase table combination for machine translation[C]//Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics. Sofia, Bulgaria, 2013:802-810. http://mirror.aclweb.org/acl2013/accepted/211.html (0)
[16]	ZHANG Hao, HUANG Liang, GILDEA D. Synchronous binarization for machine translation[C]//Proceedings of the 2006 Meeting of the North American Chapter of the Association for Computational Linguistics (NAACL-06). New York, USA, 2006:256-263. http://dl.acm.org/citation.cfm?id=1220868 (0)
[17]	XU Z, TRESP V, YU K, et al. Infinite hidden relational models[C]//Proceedings of the Conference on Uncertainty in Artificial Intelligence. Cambridge, MA, USA, 2006:53-62. https://dl.acm.org/citation.cfm?id=3020485 (0)
[18]	BRODY S, LAPATA M. Bayesian word sense induction[C]//Proceeding of the 12th Conference of the European Chapter of the Association for Computational Linguistics Association for Computational Linguistics. Singapore, 2009:103-111. http://dl.acm.org/citation.cfm?id=1609078 (0)
[19]	KAMIGAITO H, WATANAB T, TAKAMURA H. Hierarchical back-off modeling of hiero grammar based on non-parametric bayesian model[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. Lisbon, Portugal, 2015:1217-122. 10.18653/v1/D15-1143 (0)
[20]	LIU Zhiyuan, ZHANG Yuzhou, CHANG E Y, et al. Plda+:parallel latent dirichlet allocation with data placement and pipeline processing[C]//ACM Transactions on Intelligence Systems and Technology. New York, 2011:1-18. http://dl.acm.org/citation.cfm?id=1961198 (0)
[21]	KOEHN P, HOANG H, BIRCH A, et al. Moses:open source toolkit for statistical machine translation[C]//Proceedings of the 45th Annual Meeting of the ACL on Interactive Poster and Demonstration Sessions. ACL, Stroudsburg, USA, 2007:177-180. http://dx.doi.org/10.3115/1557769.1557821 (0)
[22]	STOLCKE A. Srilm-an extensible language modeling toolkit[C]//Proceeding of The International Conference on Spoken Language Processing 2002. Denver, USA, 2002:332-330. https://www.mendeley.com/research-papers/srilm-extensible-language-modeling-toolkit/ (0)
[23]	PAPINENI K, ROUKOS S, TODDWARD D, et al. Bleu:a method for automatic evaluation of machine translation[C]//Proceedings of 40th Annual Meeting of the Association for Computational Linguistics.Philadelphia, Pennsylvania, USA, 2002:311-318. http://citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.19.9416 (0)
[24]	KOEHN P. Statistical significance tests for machine translation Evaluation[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. Barcelona, Spain, 2004:231-239. https://www.mendeley.com/research-papers/statistical-significance-tests-machine-translation-evaluation/ (0)
[25]	SENNRICH R. Perplexity minimization for translation model domain adaptation in statistical machine translation[C]//Proceedings of The European Chapter of the Association for Computational Linguistic. Avignon, France, 2012:539-549. http://link.springer.com/10.1007/978-4-431-54249-0_12 (0)