融合语义结构的注意力文本摘要模型

引用本文

滕少华, 董谱, 张巍. 融合语义结构的注意力文本摘要模型[J]. 广东工业大学学报, 2021, 38(3): 1-8. DOI: 10.12052/gdutxb.200173.

Teng Shao-hua, Dong Pu, Zhang Wei. An Attention Text Summarization Model Based on Syntactic Structure Fusion[J]. JOURNAL OF GUANGDONG UNIVERSITY OF TECHNOLOGY, 2021, 38(3): 1-8. DOI: 10.12052/gdutxb.200173.

基金项目:

国家自然科学基金资助项目(61972102)；广东省重点领域研发计划项目(2020B010166006)；广东省教育厅项目(粤教高函〔2018〕 179号，粤教高函〔2018〕 1号)；广州市科技计划项目(201903010107，201802030011，201802010026，201802010042，201604046017)

作者简介:

滕少华(1962–)，男，教授，博士，主要研究方向为数据挖掘、网络安全、协同计算、模式识别。

通信作者

张巍(1964–)，女，副教授，主要研究方向为网络安全、数据挖掘、协同计算、模式识别，E-mail：weizhang@gdut.edu.cn

文章历史

收稿日期：2020-12-17

Contents Abstract Full text Figures/Tables PDF

融合语义结构的注意力文本摘要模型

滕少华, 董谱, 张巍

广东工业大学计算机学院，广东广州 510006

收稿日期：2020-12-17

基金项目：国家自然科学基金资助项目(61972102)；广东省重点领域研发计划项目(2020B010166006)；广东省教育厅项目(粤教高函〔2018〕 179号，粤教高函〔2018〕 1号)；广州市科技计划项目(201903010107，201802030011，201802010026，201802010042，201604046017)

作者简介：滕少华(1962–)，男，教授，博士，主要研究方向为数据挖掘、网络安全、协同计算、模式识别。

通信作者：张巍(1964–)，女，副教授，主要研究方向为网络安全、数据挖掘、协同计算、模式识别，E-mail：weizhang@gdut.edu.cn.

摘要: 传统基于序列的文本摘要生成模型未考虑词的上下文语义信息, 导致生成的文本摘要准确性不高, 也不符合人类的语言习惯。本文提出了一种基于文本语义结构的文本摘要生成模型(Structure Based Attention Sequence to Sequence Model, SBA), 结合注意力机制的序列到序列生成模型, 引入文本的句法结构信息, 使得注意力结构得到的上下文向量同时包含文本语义信息与句法结构信息, 获得生成的文本摘要。最后, 基于Gigaword数据集的实验结果表明, 提出的方法能有效地提高生成摘要的准确性以及可读性。

关键词: 文本摘要序列到序列模型注意力机制语义结构

An Attention Text Summarization Model Based on Syntactic Structure Fusion

Teng Shao-hua, Dong Pu, Zhang Wei

School of Computers, Guangdong University of Technology, Guangzhou 510006, China

Abstract: The traditional text summarization generation model based on sequence does not consider the context semantic information of words, which leads to the low accuracy of the generated text summary and does not conform to the human language habits. In view of this inadequacy, a structure-based attention sequence to sequence model (SBA) is proposed, which combines the sequence to sequence generation model of attention mechanism and introduces the syntactic structure information of the text, so that the context vector obtained by the attention structure contains both the semantic information and the syntactic structure information of the text, so as to obtain the generated text abstract. The experimental results based on Gigaword dataset show that the proposed method can effectively improve the accuracy and readability of the generated summary.

Key words: text summarization sequence to sequence model attention mechanism syntactic structure

随着互联网的迅猛发展，互联网信息的数量也有了爆发量的增长，如何从互联网上的海量信息中获取有价值的信息成为了当前一个至关重要的问题。文本摘要技术作为能够通过理解长文本(例如新闻、微博、文章等)的内容信息，概括出相对简短的短文本，同时保留出长文本中的重要信息，成为解决该问题的一个关键技术。如何分析得到长文本中的重要信息以及如何将其中的重要信息组合得到人类语言习惯的短文本是文本摘要技术所要关注的重要问题。

文本摘要技术按照生成方式不同分为抽取式文本摘要和生成式文本摘要^[1]。其中抽取式文本摘要是从原始文本中判断重要的句子或者词语，抽取这些句子和单词，并将这些句子和单词进行组合，使其能够概括原文本的短文本，生成式文本摘要一般主要用于长文本的摘要生成中。生成式文本摘要是通过转述、同义替换、句子缩写等方法，按照原文本的语义信息生成间接凝练的摘要，并使其符合人类的语言习惯。由于神经网络在自然语言处理领域的成功应用，结合神经网络的生成式文本摘要技术成为了当前的研究热点。

当前，主流的生成式文本摘要模型主要使用包含注意力机制的序列到序列模型，由于序列到序列(Sequence-to-Sequence, Seq2Seq)模型^[2]在文本摘要领域的成功应用，使得生成式文本摘要的实现有了更有效的途径，最新的生成式文本摘要一般都是采用包含注意力机制的序列到序列模型为基础。该模型的基本思想是利用输入序列的全局信息推断出与之相对应的输出序列，由编码器(Encoder, en)和解码器(Decoder, de)构成。在序列到序列生成模型中，编码器一般都是基于循环神经网络(Recurrent Neural Network, RNN)^[3]，通过在传统RNN结构上的优化，现有的长短期记忆网络(Long Short-Term Memory, LSTM) ^[4]能够通过结构中输入门、输出门、遗忘门克服文本中上下文的长短期依赖问题，解决了长文本序列训练过程中的梯度消失和梯度爆炸问题。然而在实际上，LSTM需要一步步地去捕捉序列信息，在长文本上不能有效地对其进行编码，并且只能学习文本上下文的线性结构信息，对文本词语之间长期依赖没有有效的利用，忽略了上下文词与词之间的依赖关系，对文本句法结构信息的利用尚不够充分。而人类语言在语义结构上有很大的相关性，文本与文本、词语与词语之间相互具有依赖与修饰关系，因此，对语义结构层次的研究能够提高编码器对文本内容的理解能力，进一步缓解传统长短期记忆网络在长文本前后依赖关系上编码的性能缺陷。

针对上述问题，本文对当前主流的基于序列到序列模型的生成式文本摘要模型进行了如下改进：(1) 对文本中词语之间的依赖关系进行文本结构编码。文本结构编码旨在获取文档中词与词之间的前后依存关系，根据语言学关系，文本中词语之间具有依存句法关系，通过循环神经网络，对单词的依存关系进行训练，构造单词依存关系的结构嵌入。(2) 提出了一种注意力融合单元对语义信息和结构信息进行结合，得到同时包含语义信息和结构信息的全局注意力表示，并将其用于判断从词汇表中选择单词的概率指导摘要生成。

1 相关工作

生成式文本摘要是一种利用对文本中句子或者单词进行转述或者替换等方法来生成文本摘要的方法，随着深度学习在自然语言处理领域的应用，生成式文本摘要得到了迅猛发展。Seq2Seq模型最初被应用于机器翻译任务中，Rush等^[5]首次将该模型应用于生成式文本摘要任务中，与之前的生成式方法相比，该模型利用了神经网络的特点在“理解”文本语义的基础上在编码器端对输入进行编码，然后利用注意力机制利用上下文在解码器端生成摘要。而后，Chopra等^[6]在此基础上，使用RNN作为编码器，在相同数据集上取得了良好的效果。Nallapati等^[7]进而将解码器换成RNN，从而构建了基于RNN的序列到序列模型。在此之外，他们还对传统编码器进行了拓展，在编码器端增加了命名实体识别和词性标注等元素。

在进行文本摘要任务前，需要建立固定大小的词汇表(Vocabulary)，在处理文本时将文本的每个单词用其在词汇表中的索引代替。但是文章中会出现Vocabulary中未出现的词(Out of Vocabulary, OOV)，常规Seq2Seq模型只能将其视为不认识的未登录词(Unknown Word, UNK)^[8]。为了减少生成摘要中出现UNK的情况，Gu等^[9]提出的CopyNet模型引入了拷贝机制，使得模型在必要时可以直接从输入中复制单词作为输出。与此同时，在摘要生成过程中会出现生成文本重复、曝光偏差等问题。See等^[10]提出了指针生成网络(Pointer-Generator Networks, PGN)模型，通过概率来确定是从词汇表中生成一个词还是从源文本中复制一个词。同时加入覆盖机制(Coverage)强制每个时间步的输出注意力分散，在一定程度上解决了重复句子的问题。Liu等^[11]增加判别网络来评估生成的摘要，达到了识别重复句子的效果。Zhang等^[12]提出了一种结合双注意力和指针覆盖的模型用来解决摘要的句内重复和未登录词等问题。Dang等^[13]提出一种由存储注意力和解码注意力构成的混合注意力解决文本重复问题，使用强化学习来训练模型解决曝光偏差问题。

然而，在文本摘要领域，当前很少有方法在序列到序列生成模型中结合文本的语义结构以及文本的词与词之间的依赖关系。Li等^[14]首先在机器翻译中将源文本的语法结合到神经机器翻译中，在编码器端合并源本文语法结构树，学习文本的顺序结构和树结构，显著提高了机器翻译的翻译精度。Cao等^[15]利用OpenIE和文本依赖解析从源文本中提取事实元组(Fact Tuples)，根据提取的事实元组来提高生成摘要的置信度。Tan等^[16]提出了一种短文本特征组合加权方法，根据文本不同特征的贡献程度确定权重进行特征选择并应用在文本情感分析领域。本文提出的融合语义结构的注意力文本摘要模型在上述工作的基础上，在序列到序列文本摘要生成模型中加入源本文的语法结构信息，帮助模型识别出具有摘要价值的内容，同时在注意力机制中，利用语义信息注意力和语义结构注意力，获得同时具有两种信息的文本特征，生成保持源文本关键信息和必要结构的摘要。

2 融合语义结构的注意力文本摘要模型

本文提出了一种融合语义结构的注意力文本摘要模型(Structure Based Attention Sequence to Sequence Model, SBA)，图1为SBA全局模型示意图。模型的整体结构根据功能可以分解为3个部分：基于门控循环单元(Gated Recurrent Unit, GRU)^[17]的双向循环神经网络、基于注意力机制的编码器−解码器结构和语义结构注意力融合模块。

2.1 问题定义

在本文中，定义源文本序列为 $ S=\left({s}_{1},{s}_{2},\cdots ,{s}_{m}\right) $ ，将源文本作为输入，通过模型对源文本进行分析理解，生成一个简短的能概括源文本的摘要，生成的目标文本序列表示为 $ T=\left({t}_{1},{t}_{2},\cdots ,{t}_{n}\right) $ ，其中每个单词 $ {t}_{n} $ 来自于固定大小的包含常用词汇的词汇表 $ V $ ，其中 $ m $ 和 $ n $ 分别表示输入文本序列和输出文本序列的长度，且 $ m $ > $ n $ 。

图 1 融合语义结构的注意力文本摘要全局模型 Figure 1 Overall model of structure-based attention text summarization

2.2 双向循环神经网络

本文中提出的SBA模型以基本的Seq2Seq模型为基础，在编码器端和解码器端使用基于门控循环单元的双向循环神经网络，同单向循环神经网络相比，它同时包含对一个训练序列分别进行前向和后向的两个循环神经网络。对于一个输入序列，前向循环神经网络正向读取输入序列 $ \left({s}_{1},{s}_{2},\cdots ,{s}_{t}\right) $ ，并计算前向的隐藏状态信息 $(\overrightarrow{{{h}}_{1}^{\rm{en}}},\overrightarrow{{{h}}_{2}^{\rm{en}}},\cdots ,\overrightarrow{{{h}}_{t}^{\rm{en}}})$ ，反向循环神经网络反向读取输入序列 $ \left({s}_{t}{,s}_{t-1},\cdots ,{s}_{1}\right) $ ，得到反向的隐藏状态信息 $(\overrightarrow{{{h}}_{t}^{\rm{en}}},\overrightarrow{{{h}}_{t-1}^{\rm{en}}},\cdots ,\overrightarrow{{{h}}_{1}^{\rm{en}}})$ 。对于每一个词，将其对应的前向隐藏状态信息和反向隐藏状态信息拼接起来，表示为 $ {{h}}_{t} $ ，其中 $ t $ 为文本序列中的每个单词。同时，将 $ {{h}}_{t} $ 作为第 $ t $ 个词的语义表示。门控循环神经网络通过在循环神经网络中引入更新门来控制当前状态需要从之前的历史状态保留多少信息，以及从当前候选状态中接受多少信息。在一定程度上能够解决文本单词之间的长距离依赖问题。以正向神经网络为例，GRU具体计算方法如式(1)~式(5)所示。

$ \overrightarrow{{{z}}_{t}}=\sigma \left({{W}}_{z}\right[\overrightarrow{{{h}}_{t-1}},{{x}}_{t}\left]\right) $

(1)

$ \overrightarrow{{{r}}_{t}}=\sigma \left({{W}}_{r}\right[\overrightarrow{{{h}}_{t-1}},{{x}}_{t}\left]\right) $

(2)

$ {\widetilde {{{h}}_{t}}=\mathrm{t}\mathrm{a}\mathrm{n}\mathrm{h}({W}}_{r}[\overrightarrow{{{r}}_{t}}\odot \overrightarrow{{{h}}_{t-1}},{{x}}_{t}]) $

(3)

$ \overrightarrow{{{h}}_{t}}=(1-\overrightarrow{{{z}}_{t}})\odot \overrightarrow{{{h}}_{t-1}}+\overrightarrow{{{z}}_{t}}\odot \widetilde {{{h}}_{t}} $

(4)

$ {{h}}_{t}=(\overrightarrow{{{h}}_{t}}||\overleftarrow{{{h}}_{t}}) $

(5)

其中， $ \overrightarrow{{{z}}_{t}} $ 表示更新门， $ \overrightarrow{{{r}}_{t}} $ 表示重置门， $ \overrightarrow{{{h}}_{t}} $ 为正向门控循环神经网络输出的隐藏状态信息， $ \overleftarrow{{{h}}_{t}} $ 为反向门控循环神经网络输出的隐藏状态信息， $ {{W}}_{z} $ 和 $ {{W}}_{r} $ 分别表示神经网络的更新门和重置门权重， $ \sigma $ 为 $ \mathrm{s}\mathrm{i}\mathrm{g}\mathrm{m}\mathrm{o}\mathrm{i}\mathrm{d} $ 非线性函数，tanh表非线性激活函数， $ {{h}}_{t} $ 表示 $ t $ 时刻双向门控循环单元输出的隐藏状态信息， $ \odot $ 表示矩阵点乘操作， $ \left|\right| $ 表示矩阵拼接操作。

2.3 基于注意力机制的编码器−解码器结构

编码器将整个源文本通过双向门控单元循环神经网络压缩为文本向量，表示为编码器端的隐藏状态信息向量 $ \overrightarrow{{{h}}_{i}^{\rm{en}}} $ ，同时，通过对 $ \overrightarrow{{{h}}_{i}^{\rm{en}}} $ 进行平均，并且经过 $ \mathrm{t}\mathrm{a}\mathrm{n}\mathrm{h} $ 激活函数将编码器端隐藏状态转化为解码器端的初始隐藏状态 $ {{h}}_{0}^{\mathrm{d}\mathrm{e}} $ ，如式(6)所示。

$ {{h}}_{0}^{\mathrm{d}\mathrm{e}}=\mathrm{t}\mathrm{a}\mathrm{n}\mathrm{h}\left({{W}}^{{h}_{0}}\frac{1}{S}\sum\nolimits_{i=1}^{S}\overrightarrow{{{h}}_{i}^{\rm{en}}}+{{b}}^{{h}_{0}}\right) $

(6)

其中，上标 $ \mathrm{e}\mathrm{n} $ 和 $ \mathrm{d}\mathrm{e} $ 分别表示编码器(Encoder)端和解码器(Decoder)端。

解码器根据编码器得到的源文本隐藏状态来预测下一个单词来生成摘要。通过结合注意力机制，解码器生成摘要T中的每一个词 $ {T}_{t}(t={1,2},\cdots ,n) $ 都有对应的上下文向量 $ {{c}}_{t}(t={1,2},\cdots ,n) $ ，该上下文向量是对编码器中的所有隐藏状态信息的加权，用于引入源文本中每一个词的信息。见式(7)。

$ {e}_{t,i}={{v}}^{\mathrm{T}}\mathrm{t}\mathrm{a}\mathrm{n}\mathrm{h}\left({{W}}^{\rm{en}}\right[{{h}}_{t}^{\mathrm{d}\mathrm{e}}\left|\right|{{h}}_{i}^{\rm{en}}]+{{b}}^{\rm{en}}) $

(7)

其中， $ {e}_{t,i} $ 表示与每一个隐藏状态之间的权重系数， $ {{W}}^{\rm{en}} $ 和 $ {{b}}^{\rm{en}} $ 权重系数为可训练权重和偏置，上标T表示矩阵转置操作。经过加权平均，得到第 $ i $ 个词的注意力权重系数，即编码器隐藏状态 $ {{h}}_{i}^{\rm{en}} $ 与解码器隐藏状态 $ {{h}}_{t}^{\mathrm{d}\mathrm{e}} $ 之间的联系。

$ {\alpha }_{t,i}=\frac{\mathrm{e}\mathrm{x}\mathrm{p}\left({e}_{t,i}\right)}{{\displaystyle\sum }_{i=1}^{S}\mathrm{e}\mathrm{x}\mathrm{p}\left({e}_{t,i}\right)} $

(8)

根据注意力权重 $ {\alpha }_{t,i} $ ，计算得到第 $ t $ 个词的上下文向量 $ {{c}}_{t} $ 。

$ {{c}}_{t}={\sum }_{i=1}^{S}{\alpha }_{t,i}{{h}}_{i}^{\rm{en}} $

(9)

最后，解码器将上下文变量 $ {{c}}_{t} $ 和 $ {{h}}_{t}^{\mathrm{d}\mathrm{e}} $ 连接起来，使得解码器具有完整的上下文信息 $ \widetilde {{{h}}_{t}^{\mathrm{d}\mathrm{e}}} $ 。

$ \widetilde {{{h}}_{t}^{\mathrm{d}\mathrm{e}}}=\mathrm{t}\mathrm{a}\mathrm{n}\mathrm{h}({{W}}^{h}({{h}}_{t}^{\mathrm{d}\mathrm{e}}||{{c}}_{t}))+{{b}}^{h} $

(10)

$ {P}_{\mathrm{V}}\left(w\right)=\mathrm{s}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{m}\mathrm{a}\mathrm{x}({{W}}^{y}\widetilde {{{h}}_{t}^{{\rm{de}}}}+{{b}}^{y}) $

(11)

根据上下文信息来预测每一个词的生成概率 $ {P}_{\mathrm{v}\mathrm{o}\mathrm{c}\mathrm{a}\mathrm{b}}\left(w\right) $ ，表示为从词汇表 $ V $ 中取得概率值最高的单词作为下一个生成的单词的候选词， $ \mathrm{e}\mathrm{x}\mathrm{p}( \cdot ) $ 为自然常数的幂级数。

2.4 语义结构注意力融合模块

模型SBA的语义结构注意力融合模块的功能是引入文本的句法结构同文本的语义信息进行结合，提高模型对文本的理解能力。在文本摘要任务中，常采用word2vec来得到文本的词嵌入表示，该词嵌入模型注重词语间在向量表示空间的相对位置，即词语之间的语义相似关系。然而，当文本中词语的顺序及位置发生细微变化，词嵌入模型往往不能产生明显的感知，但是在实际语义上却千差万别，例如：“我爱你”和“你爱我”这两个句子中，句子的主宾位置发生变化，句子原本所要表达的意思也发生了变化，从而对最终生成的摘要准确性产生巨大的影响。

在编码器端，通过双向门控循环神经网络得到的源文本的隐藏状态信息包含了文本上下文的长短期记忆，由于对于过长的句子和具有过多段落的句子，词语的前后依赖关系变得更弱，容易丢失句子中的重要信息。为了解决这个问题，本文应用文本的依存分析来判断前后词语之间的依赖程度和相互联系程度。在一般情况下，生成的摘要句子仅使用主要语法成分(如主语、谓语、宾语)，用词简练，无关修饰词较少，利用句法树对句子主要成分之间的依赖关系可以提高生成的摘要的质量。在本文中，使用斯坦福句法分析工具(Stanford CoreNLP)对句子成分进行分析。根据Rui等^[18]的研究，在本文中将句子结构的依存结构中词与词的关系用三元组表示出来。使用双向循环神经网络对单词进行编码，得到依存树中每个词的句法结构嵌入，具体模型如图2所示。

图 2 句法结构嵌入模型样例 Figure 2 An example of syntactic structure embedding model

如图2、3所示，以“This conference is the basic unit of organization”为例，上面5个单词为“unit”的依存节点，为了得到“unit”的句法结构嵌入，可以通过将其依存节点的词嵌入向量通过双向循环神经网络后隐藏状态信息拼接起来，用来表示为“unit”的句法结构嵌入向量。其中， $ {{x}}_{i} $ 为单词的词嵌入向量， $ {{v}}_{i} $ 为正向循环神经网络得到的隐藏状态信息， $ {{u}}_{i} $ 为反向循环神经网络得到的隐藏状态信息。将两者拼接起来， $ \left({{u}}_{0}|{|{v}}_{6}\right) $ 即为最终的句法结构嵌入向量。

图 3 语法依存关系样例 Figure 3 An example of dependency parse tree

如图1所示，编码器依次读取源文本 $S$ 中的每一个词 $ {s}_{i}(i={1,2},\cdots ,m) $ ，生成对应隐藏状态信息 $ {{h}}_{t}^{\rm{en}}(i= $ $ {1,2},\cdots ,m) $ ，该隐藏状态信息仅仅包含该单词的前词、后词的语义信息，没有包含文本的整体含义，通过引入每个词的结构嵌入，可以依靠结构嵌入中含有的单词之间句法结构上的依赖性来引入文本的整体含义。

首先，将原文本输入至编码器端，经过两层双向的循环神经网络得到原文本的语义隐藏状态信息 $ {{h}}_{t}^{\rm{en}}(i={1,2},\cdots ,m) $ ，通过注意力机制，得到编码器与解码器之间每个关联权重 $ {\alpha }_{t,i} $ ，此时 $ {\alpha }_{t,i} $ 仅表示语义层面上的文本信息。为了得到句法结构层面上的文本信息，同样可以定义 $\; {\beta }_{t,i}$ ，其计算方法如式(14)所示。

$ {{g}}_{i}^{\rm{en}}=({{s}}_{i}^{\rm{en}}||{{x}}_{i}) $

(12)

$ {f}_{t,i}={{u}}^{\mathrm{T}}\mathrm{t}\mathrm{a}\mathrm{n}\mathrm{h}({{W}}^{f}({{g}}_{i}^{\rm{en}}||{{h}}_{t}^{\mathrm{d}\mathrm{e}})+{{b}}^{f}) $

(13)

$ {f}_{t,i} $ 用来衡量第 $ i $ 个输入单词去预测第 $ t $ 次输出的结构重要性， $ {{g}}_{i}^{\rm{en}} $ 表示带有结构嵌入的文本嵌入， $ {{s}}_{i}^{\rm{en}} $ 为文本的句法结构嵌入。同样地，更新 $ {\alpha }_{t,i} $ 为 $ {\beta }_{t,i} $ 。

$ {\beta }_{t,i}=\frac{\mathrm{e}\mathrm{x}\mathrm{p}\left({f}_{t,i}\right)}{{\displaystyle\sum }_{i=1}^{S}\mathrm{e}\mathrm{x}\mathrm{p}\left({f}_{t,i}\right)} $

(14)

在对整个文本理解中，语义信息与句法结构信息侧重程度不同，在生成摘要的过程中的贡献也不同，为了平衡两者的贡献，引入可训练的参数 $ \varepsilon $ ，如式(15)所示。

$ {\delta }_{t,i}=\frac{{\alpha }_{t,i}+\varepsilon {\beta }_{t,i}}{{\displaystyle\sum }_{i=1}^{S}({\alpha }_{t,i}+\varepsilon {\beta }_{t,i})} $

(15)

此时， $ {\delta }_{t,i} $ 成为为新的注意力权重，并根据其来计算上下文向量 $ {{c}}_{t} $ ，从而根据 $ {{c}}_{t} $ 来预测下一个生成的单词。

$ {{c}}_{t}=\sum\nolimits_{i=1}^{S}{\delta }_{t,i}{{h}}_{i}^{\rm{en}} $

(16)

其中 $ S $ 为输入源文本的长度。

在模型训练时，为了减少误差的累积，在解码器端，使用导师驱动(Teacher Forcing)算法^[19]依次输入参考摘要中的每一个词，生成对应的隐藏状态，用于计算损失。

此时，对于给定的文档D，通过最小化最终生成摘要的负对数似然估计来训练模型参数。损失函数L表示如式(17)所示。

$ L=-\sum\nolimits_{t}\mathrm{ln}{P}_{\mathrm{V}}\left(w\right) $

(17)

在模型测试时，使用集束搜索(Bean Search)算法^[20]来生成摘要序列，该算法是一种启发式图搜索算法，使用广度优先策略建立搜索树，在树的每一层按照一定的评价代价对节点进行排序，保留预先设定集束宽度的节点，仅在这些节点上进行下一层的拓展，即在生成摘要前检索出大量的词汇，从中得到最优的选择。

3 实验数据与实验设置 3.1 数据集

本文实验采用的数据集是Gigaword数据集，该数据集收集来自New York Times等多个新闻源的新闻语料，每条数据包含新闻源原始文章内容以及其对应的标题，标题即对应参考摘要。Gigaword数据集规模如表1所示。

表 1 实验数据集 Table 1 The statistical data of dataset

3.2 评价指标

ROUGE^[21]评估标准(Recall-Oriented Understudy for Gisting Evaluation, ROUGE)是在文本摘要领域被广泛使用评估方法。ROUGE是基于摘要与原文中 $ n $ 元词(n-gram)的共现信息来评价生成摘要的质量的方法。一般情况下，常使用ROUGE-1、ROUGE-2和ROUGE-L来对生成的摘要进行评估。ROUGE-N的定义如下所示。

$ {\rm{ROUGE}} - {\rm{N}} = \frac{{\displaystyle\sum\nolimits_{s \in R} {\displaystyle\sum\nolimits_{{\rm{gra}}{{\rm{m}}_{{n}}} \in {{S}}} {{\rm{Coun}}{{\rm{t}}_{{\rm{match}}}}} } \left( {{\rm{gra}}{{\rm{m}}_{{n}}}} \right)}}{{\displaystyle\sum\nolimits_{s \in R} {\displaystyle\sum\nolimits_{{\rm{gra}}{{\rm{m}}_{{n}}} \in {{S}}} {\rm{C}} } {\rm{ount}}\left( {{\rm{gra}}{{\rm{m}}_{{n}}}} \right)}} $

(18)

其中，分母是n-gram的个数，分子是参考摘要和文本摘要共有的n-gram的个数，R为参考摘要。

ROUGE-L指标中L为参考文本和生成摘要的最长公共子序列，ROUGE-L的计算方式如式(19)~(21)所示。

$ R=\frac{\mathrm{L}\mathrm{C}\mathrm{S}(X,Y)}{m} $

(19)

$ P=\frac{\mathrm{L}\mathrm{C}\mathrm{S}(X,Y)}{n} $

(20)

$ F=\frac{(1+{\beta }^{2})RP}{R+{\beta }^{2}P} $

(21)

其中， $ \mathrm{L}\mathrm{C}\mathrm{S}(X,Y) $ 为参考摘要X和生成摘要Y的最长公共子序列的长度， $ m $ 、 $ n $ 分别表示参考摘要和摘要的长度，R、P分别表示生成摘要的召回率(Recall)和准确率(Precision)。最终得到的F即为ROUGE-L。在实验中使用ROUGE-1和ROUGE-2表示生成摘要信息的丰富性，使用ROUGE-L则表示生成摘要的流畅性。

3.3 实验参数设置

在本文中，实验使用PyTorch深度学习框架编写代码并在一块NVIDIA 1080Ti GPU上进行实验。在本文中，选取源文本及其摘要中出现频率最高的70 000个单词作为输入字典词汇表，输出字典词汇表则包含默认的5 000个单词。在训练阶段，批量大小为64，模型使用Adam^[22]优化器，参数设置分别为 $ \alpha =0.000\;4 $ ， $\; {\beta }_{1}=0.9$ ， $\; {\beta }_{2}=0.999$ ， $ \varepsilon =1\times {10}^{-8} $ ；encoder和decoder的隐藏层节点的个数为256；decoder采用集束宽度为5的集束搜索来生成更好的摘要内容。

所有超参数都根据验证集进行调整，并在测试集上测试其性能。

3.4 模型说明

为了评估本文提出的模型在文本摘要任务中的性能，本文以结合注意力机制的Seq2Seq模型ABS+为基准模型，同时选取在文本摘要生成领域中效果较好的模型作为对比模型。在实验中，将本文提出的模型性能与对比模型性能进行了验证与比较。

3.4.1 对比模型

(1) ABS+^[5]：ABS+是一种包含注意力机制的encoder-decoder模型。编码器将输入序列转化为输入序列的隐藏状态向量，解码器再将此向量状态转换成目标序列，注意力机制将根据解码器先前的输出序列给予编码器输入序列不同的关注程度。

(2) RAS-Elman^[6]：RAS-Elman是一种包含注意力机制的编码器−解码器(encoder-decoder)模型。编码器将输入单词的位置关系考虑在内，且采用卷积神经网络进行编码。解码器采用循环神经网络。

(3) PGN^[10]：指针生成网络(Pointer-Generator Networks, PGN)模型在包含注意力的encoder-decoder模型基础上，增加 $ {P}_{\rm{gen}} $ 参数，判断是否从源文本中复制单词，解决了OOV问题。

(4) DRGD^[23]：DRGD模型通过分析文本句子中的一些固定结构，将潜在结构信息融入到生成模型中，从而提高生成文本的质量。

3.4.2 本文提出的模型

(1) PGN-S：模型以包含注意力的PGN模型为基础，编码器仅使用句法结构嵌入，提取出文本中词语间的依赖关系来指导文本摘要生成。

(2) PGN-SS：模型在PGN-S模型的基础上，编码器同时使用文本的语义信息词嵌入和句法结构嵌入，分别计算语义信息注意力权重和句法结构注意力权重，根据平均注意力权重获取文本信息的深层特征和结构特征，生成具有句法结构信息的文本摘要。

(3) SBA：模型在PGN-SS模型基础上进行优化，按照对摘要生成准确性的贡献程度，对文本的语义信息和句法结构信息赋予不同的权重，综合考虑语义信息和句法结构信息的模型性能的影响，细化模型对深层隐藏特征的理解能力。

3.5 实验结果及分析 3.5.1 ROUGE指标评估结果

表2对比了上述几种文本摘要模型在Gigaword数据集上的实验结果，每个单元的数据分别对应各个模型生成摘要准确度的评估值，R-1、R-2和R-L分别表示ROUGE-1、ROUGE-2和ROUGE-L指标。通过对上表分析得知，本文提出的模型同对比模型相比，融合句法结构的文本摘要模型SBA在ROUGE评价指标上的得分表明其文本摘要生成的性能得到了明显提升。同提出Gigaword数据集的基准模型ABS+相比，在ROUGE-1、ROUGE-2和ROUGE-L的值分别提升了6.42%、5.23%和5.89%。同DRGD模型相比，分别提升了1.15%、0.31%和0.61%。

将SBA模型同PGN-S、PGN-SS模型相比较，PGN-S模型在编码器端仅使用文本句法结构信息作为词嵌入信息，损失了文本语义信息，对文本整体信息理解不足，同基准模型在ROUGE指标上提升较小。PGN-SS模型在PGN-S模型的基础上，结合文本的语义信息和句法结构信息，同ABS+基准模型相比，ROUGE-1、ROUGE-2和ROUGE-L的指标分别提升了5.87%、4.38%和5.21%。在文本信息理解上更深入，文本摘要性能有较大提升。SBA模型则进一步根据语义信息与句法结构对文本理解的贡献度的差异，训练得到语义信息与句法结构信息的权重比例，在生成摘要的准确性上有了进一步提升。

表 2 各模型在Gigaword数据集上的实验结果 Table 2 The results of models on Gigaword dataset

3.5.2 案例展示

为了进一步直观地评估本文提出的模型的摘要生成能力，表3中展示了从最终生成的摘要中选择的样例。

表 3 生成摘要案例 Table 3 The examples of generated summary

从表3中可以看出，同其他几种模型相比。本文提出的融合语义结构的注意力文本摘要模型SBA在保证文本信息保留的准确度的情况下，通过在编码器端添加文本的结构嵌入，能够准确地捕获原始文本中的词语依赖关系。例如，同PGN模型和DRGD模型生成的摘要相比，SBA模型生成的摘要中保留了“brazilian pepe”形容词修饰名词和“defender pepe”名词组合形式，语义信息保留的更加完整具体，关键信息得以保留。最终生成的摘要文本句法结构和语义信息保留最为完整，能够准确概括原始文本的主要含义。

4 结束语

通过分析文本的句法结构以及结合注意力机制，本文提出了一种基于序列到序列模型的文本摘要生成模型，在实验中取得了较好的结果。首先，模型通过双向门控神经网络获取源文本的隐藏信息，其次，采用基于句法分析的文本嵌入得到文本的语义结构信息，最后将源文本隐藏状态信息的注意力权重与语义结构的注意力权重结合得到最终控制编码器生成摘要文本的注意力权重。通过对比本文提出的模型与对比模型生成的摘要文本在ROUGE-1、ROUGE-2、ROUGE-L评估指标的得分，验证本模型在Gigaword数据集上进行文本摘要任务，取得了良好的效果，生成了准确概括源文本的含义且具有良好语法可读性的摘要。在下一步可以考虑在现有模型的基础上结合更多特征并在中文数据集上测试本模型的效果以验证其对多种语言的适用性。

参考文献

[1]	GAMBHIR M, GUPTA V. Recent automatic text summarization techniques: a survey[J]. Artificial Intelligence Review, 2017, 47(1): 1-66. DOI: 10.1007/s10462-016-9475-9.
[2]	SUTSKEVER I, VINYALS O, LE Q V. Sequence to sequence learning with neural networks[C]//Advances in Neural Information Processing Systems. Montereal: MIT Press, 2014: 3104-3112.
[3]	ELMAN J L. Finding structure in time[J]. Cognitive Science, 1990, 14(2): 179-211. DOI: 10.1207/s15516709cog1402_1.
[4]	HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780. DOI: 10.1162/neco.1997.9.8.1735.
[5]	RUSH A M, CHOPRA S, WESTON J. A neural attention model for abstractive sentence summarization[C]//Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. Lisbon: ACL, 2015: 379-389.
[6]	CHOPRA S, AULI M, RUSH A M. Abstractive sentence summarization with attentive recurrent neural networks[C]//Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. San Diego: ACL, 2016: 93-98.
[7]	NALLAPATI R, ZHOU B, DOS SANTOS C, et al. Abstractive text summarization using sequence-to-sequence RNNs and beyond[C]//Proceedings of the 20th SIGNLL Conference on Computational Natural Language Learning. Berlin: CoNLL, 2016: 280-290.
[8]	GULCEHRE C, AHN S, NALLAPATI R, et al. Pointing the unknown words[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Berlin: ACL, 2016: 140-149.
[9]	GU J, LU Z, LI H, et al. Incorporating copying mechanism in sequence-to-sequence learning[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Berlin: ACL, 2016: 1631-1640.
[10]	SEE A, LIU P J, MANNING C D. Get to the point: summarization with pointer-generator networks[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Vancouver: ACL, 2017: 1073-1083.
[11]	LIU L, LU Y, YANG M, et al. Generative adversarial network for abstractive text summarization[C]//Proceedings of the AAAI Conference on Artificial Intelligence. San Francisco: AAAI, 2017: 8109-8110.
[12]	张敏, 曾碧卿, 韩旭丽, 等. DAPC: 结合双注意力和指针覆盖的文本摘要模型[J]. 计算机工程与应用, 2020, 56(8): 149-157. ZHANG M, ZENG B Q, HAN X L, et al. DAPC: dual attention and pointer-coverage network based summarization model[J]. Computer Engineering and Applications, 2020, 56(8): 149-157. DOI: 10.3778/j.issn.1002-8331.1901-0043.
[13]	党宏社, 陶亚凡, 张选德. 基于混合注意力与强化学习的文本摘要生成[J]. 计算机工程与应用, 2020, 56(1): 185-190. DANG H S, TAO Y F, ZHANG X D. Abstractive summarization model based on mixture attention and reinforcement learning[J]. Computer Engineering and Applications, 2020, 56(1): 185-190. DOI: 10.3778/j.issn.1002-8331.1907-0101.
[14]	LI J, XIONG D, TU Z, et al. Modeling source syntax for neural machine translation[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Vanconver: ACL, 2017: 688-697.
[15]	CAO Z, WEI F, LI W, et al. Faithful to the original: fact aware neural abstractive summarization[C]//Proceedings of the AAAI Conference on Artificial Intelligence. New Orleans: AAAI, 2018: 4781-4791.
[16]	谭有新, 滕少华. 短文本特征的组合加权方法[J]. 广东工业大学学报, 2020, 37(5): 51-61. TAN Y X, TENG S H. Combined Weighting Method for Short Text Features[J]. Journal of Guangdong University of Technology, 2020, 37(5): 51-61. DOI: 10.12052/gdutxb.200019.
[17]	CHUNG J, GULCEHRE C, CHO K, et al. Empirical evaluation of gated recurrent neural networks on sequence modeling[C]//Advances in Neural Information Processing Systems. Montereal: MIT Press, 2014: 1-9.
[18]	LIU R, HU J, WEI W, et al. Structural embedding of syntactic trees for machine comprehension[C]//Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. Copenhagen: ACL, 2017: 815-824.
[19]	GOODFELLOW I, BENGIO Y, COURVILLE A. Deep learning[M]. Cambridge: MIT Press, 2016: 55-60.
[20]	TAN J, WAN X, XIAO J. Abstractive document summarization with a graph-based attentional neural model[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Voncouver: ACL, 2017: 1171-1181.
[21]	LIN C Y. Rouge: a package for automatic evaluation of summaries[C]//Text Summarization Branches Out. Barcelona: ACL, 2004: 74-81.
[22]	KINGMA D P, BA J A. A method for stochastic optimization[C]//Proceedings of the 3rd International Conference for Learning Representations. San Diego: ICLR, 2015: 1-15.
[23]	LI P, LAM W, BING L, et al. Deep recurrent generative decoder for abstractive text summarization[C]//Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. Copenhagen: ACL, 2017: 2091-2100.