第四纪研究  2021, Vol.41 Issue (2): 550-561   PDF    
基于机器学习的历史气候重建论文智能识别与数据挖掘初探
华萌萌1,2, 尹君1, 胡召玲2, 张学珍1,3     
(1 中国科学院地理科学与资源研究所, 中国科学院陆地表层格局与模拟重点实验室, 北京 100101;
2 江苏师范大学, 江苏 徐州 221116;
3 中国科学院大学, 北京 100049)
摘要:本文基于机器学习方法开展了从海量的气候变化研究论文中智能识别历史气候重建论文,并提取关键信息的技术研究。首先以人工标注的1450篇古气候重建论文摘要作为样本数据,对机器学习中常见的9种分类模型进行训练和精度检验,发现极端随机树模型在此类文本中具有较高的分类精度;其次,利用这一模型对ResearchGate中70万余篇气候变化相关的论文摘要进行智能分类,从中筛选出6039篇千年尺度气候重建论文摘要,并根据词云图验证了分类结果的可靠性。在此基础上,采用命名实体识别技术对6039篇论文摘要,从重建气候要素、代用资料类型和目标地区(国家)这3个维度开展了文本数据挖掘。挖掘结果表明:温度和降水是两大主要的重建要素,树轮、历史文献、沉积(含孢粉)是位居前三位的主要代用资料,这与领域专家经验基本一致;同时,重建气候要素与代用资料类型及二者的组合规律呈现鲜明的地理差异,这与区域气候特征密切相关。
关键词历史气候    气候重建    文本分类    数据挖掘    机器学习    
中图分类号     P467;P468                     文献标识码    A

0 引言

历史气候变化研究是揭示气候变化规律,认识气候变化动力机制,提高气候预测能力的重要途径。由于历史时期缺少直接观测数据,基于树轮、冰芯、沉积物(含孢粉)和历史文献等代用资料的气候变化重建成为历史气候研究的基础性工作[1~3]。作为环境变化感应体,每类代用资料均同时受到包括气候在内的多种环境要素的影响,因而代用指标对气候要素的指示效果均有一定的误差,并且各类代用资料响应气候变化的物理机制与敏感度各不相同,再加上气候变化本身的区域差异,导致重建序列之间的总是存在不同程度的差异。为厘清重建序列之间差异的来源(如:代用指标的敏感度、气候变化的区域差异、测量误差等),进而提高历史气候变化重建的精度,开展不同地区、不同代用资料重建结果的对比及综合集成成为历史气候变化研究发展的迫切需求。这一工作面临的首要环节是汇总收集前人的重建成果,这类成果大多以论文的形式公开发表。因而如何从业已发表的论文中精准识别出历史气候重建研究论文,并提取关键信息成为本领域面临的技术挑战。

过去2000年既包括工业革命前的气候“纯”自然变化时段,又包括了工业革命以来自然与人共同作用下的气候变化时段,对揭示年代-百年尺度的气候变化规律及气候变化与人类活动的耦合过程具有重大意义[4~12]。在过去2000年全球、半球和区域历史气候变化重建对比与综合集成方面,学术界已开展了大量工作,例如在全球尺度上Neukom等[4]对来自全球648地区中692条包括树轮、冰芯、珊瑚、文献等代用资料数据,采用了7种不同的重建方法对全球过去两千年的平均温度进行了重建,研究结果为未来的气候变化预测研究提供了理论支撑;Ahmed等[5]利用树轮、花粉、冰芯等511条代用资料数据重建了7个大陆过去两千年的温度并建立了相关代用资料数据集,并指出过去全球气候变化具有相对一致性,在16世纪至18世纪全球出现温度持续下降的寒冷趋势,与20世纪以来气候变暖情况截然不同。在半球尺度上Mann等[6~7]利用树轮和冰芯代用资料对北半球过去千年的平均气温进行了重建研究,研究结果为人类活动影响20世纪变暖提供了可靠的论据;Ljungqvist等[8]收集了公开发表的论文中196条树轮、冰芯、文献等7类代用资料数据和128条温度相关的记录,重建了北半球过去1200年的水文气候和温度,指出全球变暖对水循环有较大的影响。在区域尺度上薛莲花等[9]基于石笋数据重建了东亚地区近两千年的夏季风变化序列,通过与其他指标记录进行对比,推测厄尔尼诺和大西洋多年代际震荡是影响亚洲季风变化的关键因子。在与人类活动的耦合研究中,魏柱灯等[10]基于所重建的多条量化指标序列,分析了220 BC~1910 A.D. 中国气候变化、财政平衡及朝代更迭之间的时间关系统计特征,认为尽管在百年尺度上,气候冷暖期与王朝历时的长短及并存政权数量的多少没有十分一致的时间对应关系,但在年代到多年代尺度上,70 % 以上的王朝更迭期和并存政权数量增加期对应冷阶段或偏干阶段及财政匮乏期;范保硕等[11]和李康康等[12]分别分析了华北平原和罗布泊地区小冰期时期气候变化与人类活动的关系。

就收集资料的途径而言,上述研究普遍采用人工检索的方式,因而收集的数量较为有限,远少于已经发表的研究成果,因而现有的对比与综合集成研究成果尚有较大的改进空间。在数据集建设方面,(美国)国家大气海洋局汇总了基于多种类型代用资料的气候重建成果,建立了古气候资料共享网(http://www.ncdc.noaa.gov)。但是,该共享网仍有一定的不足。第一,重建结果数量仍较为有限,通过与发表论文相比可以发现,大量已经发表的成果未被收录;第二,绝大部分重建结果采用的代用资料是树轮(占比超过70 %),而基于其他类型代用资料的重建结果较少被收录。为了弥补不足,张学珍等[13]开发了面向ResearchGate网站的古气候文献数据采集系统,并通过该系统获取了70万余篇与古气候相关的论文摘要,为较为全面地收集历史气候重建数据提供了先决条件。但是,由于数据量较大,采用人工判读的方式从中识别历史气候重建论文摘要则极为耗时,因此如何高效且准确的对文本进行分类成为了当前的一项紧要任务。

机器学习是一门综合了多个领域的交叉学科,是人工智能研究领域的重要分支,其本质是通过计算机来模拟人类的学习方式从大量的数据中寻找和学习其背后的隐藏规律,从而达到模拟和预测的目的[14],并且应用广泛,在搜索引擎[15]、机器翻译[16]、垃圾邮件过滤[17]和语音识别[18]等商业领域中均有较好的应用,同时也为学术研究提供了新方法,在生物医学[19]、材料科学[20]、有机化学[21]、医疗诊断[22]和气候研究[23~24]等领域均已有重要的学术建树。近年来,随着机器学习技术的日益成熟,基于机器学习的计算机智能文本技术也随之发展了起来,Maron和Kuhns[25]早在20世纪50年代末就利用贝叶斯算法进行了文本分类,开创了计算机文本分类的先河,经过几十年的不断发展和完善,基于机器学习的文本分类技术已能较好的解决大部分的分类问题。

因而,本文拟尝试采用机器学习技术对源自ResearchGate的70万余篇古气候论文摘要进行自动分类,进而从中快速精准的遴选出过去2000年(含过去2000年-数百年,以下称“千年尺度”)气候重建论文摘要,并在此基础上开展文本数据挖掘的初步探索,以期在大数据的支撑下勾勒出千年尺度气候重建的现状。

1 数据与方法 1.1 数据简介

本文使用了两个英文文本数据集:第一个是通过人工判读从全球古气候资料共享网中筛选出的1450篇古气候重建论文摘要(以下简称:NCDC数据集),以此数据集作为(范例)样本集;第二个是采集自ResearchGate的743840篇论文摘要(以下简称ResearchGate数据集)。具体地,采集过程使用了文献[13]中由12个主题关键词及时空与资料类关键词建立的逻辑“与”关系检索式。对于NCDC数据集而言,因为经过了严格地人工判读和筛选,该数据集完全由古气候重建论文摘要组成,其重建时间尺度较为宽泛,从过去数百年至过去数百万年。相对来说,ResearchGate数据集的成员较为多样,一方面涉及多个时间尺度,既有过去数百年也有过去数百万年的气候重建论文摘要,另一方面涉及领域较广,不仅有气候重建论文摘要,也有气候变化其他相关领域的研究论文摘要,因而需要进一步“精选”,以精准挖掘千年尺度气候变化重建论文。

1.2 研究思路与技术方法 1.2.1 研究思路

本研究主要包括面向ResearchGate数据集的文本分类模型选择、模型应用及数据挖掘(图 1)。其中,文本分类过程采用了机器学习技术,具体包括分类模型训练和模型评价。首先,通过人工判读对NCDC数据集中的文本进行分类,将其分为千年尺度气候变化重建文本(以下简称“千年尺度重建文本”)和其他文本两类;基于人工分类结果,对表 1中9种常用的文本分类算法进行训练和测试,并对模型的分类效果进行评价,遴选高精度模型;然后将此模型应用于ResearchGate数据集,通过智能分类“精选”出千年尺度重建文本,在此基础上开展数据挖掘,挖掘对象包括代用资料类型、气候要素和重建地区(国家)。

图 1 技术路线图 Fig. 1 Road map of technology

表 1 各机器学习模型的原理与优缺点 Table 1 Idea and advantages/disadvantages for each machine learning model
1.2.2 研究方法

(1) 范例数据的人工判读分类

通过人工判读将NCDC文本标注为两类:千年尺度重建文本和其他文本。其中,千年尺度重建文本的判别标准如下:重建时间段为过去两千年至数百年、有明确的重建目标要素(如:温度/冷暖、降水/干湿)和明确的重建地点(区域范围)。最终,标注的千年尺度重建范例文本602份,其他范例文本844份。

(2) 智能分类前的文本预处理

根据机器学习文本智能分类模型的需求,文本预处理内容包括:全部转化为小写、去除标点、去除停用词和文本分词四部分。英文文本中存在大小写之分,例如“Climate”和“climate”,这两个字符串是不同的,但在词频统计时需要归并为同一个单词进行统计,因此需要对所有文本进行小写转化。标点符号对于文本分类任务存在干扰性,因此需要对其进行删除。英文文本中的停用词,如“the”、“of”、“and”、“with”等词属于英文文本表达中的连接词,并无具体实际意义,因此需要去除。最后,根据英文空格进行分词。

(3) 文本向量化表达和文本特征值提取

文本向量化是指将文本内容转化为数字表达形式,是计算机文本智能分类的必要环节。本文的文本向量化以每篇文本内容为行,每个单词作为列,词频作为值,构建分词词频的二维矩阵,该矩阵即为语料库的文本向量化表达。

TF-IDF(Term Frequency-Inverse Document Frequency)是用于衡量单词对于文本的重要程度的一个指标,由词频(TF)和逆文档频率(IDF)两个指数相乘而得[26]。其中,词频是指每个单词出现次数占总文本词数的比例,逆文档频率是指如果一个词在某篇文本中出现的同时也在其他文本中出现,则该词所占权重会随其在其他文本中出现的次数增加而降低。TF,IDF及TF-IDF指标的计算公式分别如下(1)~(3)式所示。

(1)
(2)
(3)

(4) 文本分类模型简介和精度评价

机器学习领域的文本分类模型多样,应用于不同类型的文本,其分类精度不一。本文利用NCDC数据集中经人工标注的范例文本(样本集),对9种常见的机器学习分类模型进行训练,包括:支持向量机模型[27]、决策树模型[28]、装袋算法[29]、随机森林模型[30]、逻辑回归模型[30]、极端随机树模型[31]、朴素贝叶斯模型[32]、K邻近值模型[33]和AdaBoost算法[34],各模型的原理不尽相同,并各有相应的优缺点(表 1);然后,利用训练后的模型对NCDC中的其余文本(测试集)进行分类,并与人工标注结果进行比对,采用混淆矩阵方法评价了各模型精度,最后遴选出适用于历史气候变化重建论文摘要的最优分类模型。

模型精度评价采用了混淆矩阵方法,具体地包括4个维度的指标:模型准确率(Precision,简称P)、召回率(Recall,简称R)、查全率(Accuracy,简称A)和F1值[35]。准确率(P)是指预测为正的样本中实际为正的有多少(公式(4));召回率(R)是指实际为正的样本中有多少被预测为正(公式(5));查全率(A)是指总样本中预测正确的有多少(公式(6));F1是P与R的加权平均值(公式(7))。各指标计算公式如下:

(4)
(5)
(6)
(7)

公式(4)~(7)中,TP是实际为正,预测也为正的样本数;TN是实际为负,预测也为负的样本数;FP是实际为负,预测为正的样本数;FN是实际为正,预测为负的样本数。

(5) 关键词提取

关键词提取部分采用命名实体识别(Named-entity recognition,简称NER)技术,具体包括3种实现方法,分别是基于规则和字典的方法、基于统计的方法和两者混合的方法。本文使用了基于规则和字典方法的命名实体技术,此方法主要依赖“命名实体库”来实现实体提取的目的,“命名实体库”是指文本内容中出现的人名、地名、组织名和时间等具有特定含义的名词或名词短语所构成的库,其完善程度直接决定了关键词提取的数量和精度。

构建一个完善命名实体库是一项庞大且繁琐的工作,不仅需要较强的专业知识,而且需要阅读大量的专业文本,熟悉专业的术语搭配方式。针对气候重建研究领域,尚没有专业的实体库可用,为此本文利用文献[13]中的古气候关键词分类表中的主题类和资料类关键词构建了一个“气候重建命名实体库”,以此为基础对提取自ResearchGate的千年尺度气候重建文本进行数据挖掘;同时根据python中现有的地名提取包(内含地名实体库)对文本中的地点信息(国家或地区)进行提取。

2 结果分析 2.1 NCDC数据的人工标注(分类)结果

经人工标注(分类)后的NCDC数据集中千年尺度重建文本与其他文本的词云图如图 2所示。在排除两类文本共有高频词“temperature、record、year、climate、reconstruct”之后,千年尺度重建文本中的高频词还包括“ad、variable、centuries、region、past、warm、use”,由此可见这类文本在时间表述上多采用“公元(ad)”、“世纪(centuries)”,突显了人类历史时期的特色,在空间尺度表述上多采用“区域(region)”,突显了区域研究的特色,这些高频词反映的时空尺度与过去千年尺度气候重建的时空尺度高度吻合。在代用资料类型方面多出现“湖泊(lake)”、“年表(chronology)”等关键词,意味着千年尺度气候重建采用的主要代用类型为湖泊沉积物和树轮。

图 2 经人工标注的NCDC千年尺度气候重建文本(a)与其他文本(b)的词云图 Fig. 2 Word cloud map for the millennium scale climate reconstruction documents (a) and other documents (b) which were tagged artificially from the NCDC dataset

其他文本中的高频词还包括“change、ice、past、data、variable、use”等,高频词“冰(ice)”的出现突显了这类研究多与冰雪有关,以冰雪为代用资料指示气候变化,明显不同于千年尺度气候重建中广泛采用湖泊和(树轮)年表,或者研究对象就是冰雪本身,不同于历史气候重建多以冷暖、干湿为研究对象;另外,在可辨识的高频关键词中,“ocean、sea、Atlantic、carbon、hemisphere”也是这类研究特有的关键词。由此突显这类文本相关的研究多与海洋(特别是大西洋)有关,环境要素方面关注碳(碳循环、CO2浓度等),空间尺度上多涉及半球。这样意味着此类研究较多的采用冰雪作为代用资料,研究对象可能多与海洋、碳有关,空间尺度多为半球,这与上述过去千年尺度气候重建的研究有鲜明的差异。

2.2 文本分类模型精度评价与应用

表 2展示了采用人工标注(范例)样本训练后的9个分类模型的精度评价结果。从准确率来看,极端随机树模型和决策树模型位居前列,均超过0.8,其次是支持向量机模型、随机森林模型、装袋算法和逻辑回归模型,介于0.76~0.79之间。从召回率来看,随机森林模型、决策树模型和极端随机树模型位居前列,均超过0.7,其次是支持向量机模型、装袋算法、AdaBoost算法,介于0.63~0.69之间。从查全率来看,极端随机树模型和决策树模型位居前列,均超过0.8,其次是支持向量机模型、随机森林模型、装袋算法和逻辑回归模型,介于0.74~0.79之间。从综合准确率和召回率两个维度信息的F1指数来看,极端随机树模型位居前列,为0.77,其次是决策树模型和随机森林模型,为0.75,再次是支持向量机模型和装袋算法,为0.71。从上述混淆矩阵方法4个维度的综合评价来看,极端随机树模型的分类效果最佳,在4个维度之中的3个维度上,该模型均位居前列。因而,下文将采用极端随机树模型进行ResearchGate文本的分类。

表 2 机器学习模型评价 Table 2 Evaluations of machine learning models

采用极端随机树模型从ResearchGate的74.4万份文本中最终分离出6039份千年尺度重建文本。图 3展示了千年尺度重建文本及随机抽取的相同数量其他文本的词云图。在移除两类文本共有的5个高频词“temperature,precipitation,change,climate,data”之后,千年尺度重建文本中的高频词还包括“region,year,trend,increase”等,突显这类研究的空间尺度多为区域(region),时间单位多为年(year),要素的变化特征多体现为一定的趋势(trend),特别是呈增加(increase)特征。其中,时间与空间方面的描述与上述NCDC样本数据基本一致。其他文本中的高频词则突出体现为“glacial,ice,water”,意味着该类文本多为冰雪(ice)、冰川(glacial)相关的研究,并且多与水(water)有关,这与上述NCDC样本数据的词频特征也是基本一致的。

图 3 自ResearchGate数据集分离出的千年尺度气候重建文本(a)与其他文本(b)的词云图 Fig. 3 Word cloud map for the millennium scale climate reconstruction documents (a) and other documents (b) derived from ResearchGate dataset

但是,从ResearchGate数据集中分离出的两类文本的词频特征与上述NCDC范例数据的词频特征具有较为明显的差异。例如,在ResearchGate的重建文本中,“century”的频次极低,大幅低于NCDC中的频次,而“year”的频次较高,大幅高于NCDC中的频次;同样的,在ResearchGate的其他文本中,“change”的频次较低,大幅低于NCDC中的频次,而“glacial”、“water”的频次较高,大幅高于NCDC中的频次。形成这些差异的原因较为复杂,其中最主要的一个因素可能是样本量。NCDC的样本量是1000余篇,ResearchGate的样本量高达70余万篇。样本量增加意味着研究主题增加和作者数量增加,由此则导致文本表达的多样性更加丰富,一则表现为主题词多样性增加,二则表现为措辞类型更加多样。最终使得ResearchGate与NCDC同类型文本的词云图能够共同反映重建(研究)的基本特征,但是也呈现出较为明显的差异。

2.3 千年尺度气候重建文本的数据挖掘 2.3.1 千年尺度气候重建文本的高频关键词

就代用资料关键词而言,树轮(tree ring)、文献(document)、冰芯(ice core)、石笋(stalagmite)、沉积物(sediment)和孢粉(pollen)是频次较高的关键词,同时它们也是千年尺度气候重建常用的代用资料,见表 3。在源自ResearchGate的6039份文本中,出现“树轮”的文本数量约占46 %,其次是出现“文献”和“沉积物、花粉”的文本数量,分别占约20 % 和22 %,出现“石笋”的文本数量仅占约2 %。代用资料关键词词频的相对高低与利用相应类型代用资料进行的气候重建研究数量多寡基本一致。在千年尺度气候重建研究中,树轮因其分布范围较广且代用指标的物理意义较为明确而成为应用范围最广的代用资料,其次是沉积物及孢粉,分布范围也较为广泛;相对而言,历史文献记录主要分布于世界上几个历史较为悠久的地区,冰芯主要出现在南北两极与高山地区,由此导致其数量相对较少,因而以其作为代用资料开展的历史气候重建研究也相对较少。

表 3 ResearchGate数据集代用资料关键词词频 Table 3 Frequency of keywords for proxy data from the ResearchGate dataset

就气候要素关键词而言,温度(temperature)、降水(precipitation)、降雨(rainfall)、洪水(flood)、干湿指数(dryness-wetness index)和帕尔默干旱指数(Palmer Drought Severity Index,简称PDSI)的出现频次较高,见表 4。具体来说,在6039份文本中,出现“温度”的文本数量约占40 %,出现“降水”和“降雨”的文本数量约占37 %,这两类关键词的频次位居前列;其次是旱涝相关的关键词,其文本数量约占20 %,干旱指数类关键词词频较低,其文本数量仅约占3 %。气象要素关键词词频的相对高低与气候重建领域现状是一致的。在气候重建中,温度和降水(含降雨)是重建最多的两个气候要素,洪涝、干湿重建研究相对偏少。

表 4 ResearchGate数据集气候要素关键词词频 Table 4 Frequency of keywords for climate elements from the ResearchGate dataset

就地名关键词而言,中国、美国、加拿大和格陵兰(丹麦)这4个国家名字的词频较高,介于500~1000之间,而非洲大陆各国名字的出现频次极低,大多不超过10次。这一方面取决于国家的科技水平,同时也与各地区可用于历史气候重建的代用资料数量及各地区环境感应体对全球气候变化响应的敏感度有密切关系。

2.3.2 不同类别关键词组合特征的区域差异

东亚、欧洲(含格陵兰)、北美和南美4个气候重建热点地区代用资料类型与气候要素的组合特征如表 5~8所示。表中所示数字为该地区的国家名字、代用资料名称、气候要素名称同时出现的文本数量,以下简称信息完备文本。对东亚地区而言(表 5),树轮是出现频次最高的代用资料关键词,出现于378份文本中,占该地区信息完备文本的56 %,其次是历史文献,出现于149份(占22 %)文本中,再次分别是沉积(含孢粉)、冰芯和石笋。总体来说,温度与降水是出现频次最高的重建气候要素,分别出现于236(占35 %)和221(占33 %)份文本中,高于旱涝和干湿的频次。分不同类型代用资料来看,在出现树轮的文本中,温度的频次最高,是第二位降水的1.25倍,而在历史文献、沉积(含孢粉)、石笋和冰芯出现的文本中,降水的频次略高于温度;在树轮与历史文献出现的文本中,旱涝的频次略低于降水,而其余三类代用资料的文本中,旱涝的频次大幅低于降水。这说明树轮资料大多用于重建温度,其余四类代用资料则较多的用于重建降水,并且基于树轮和历史文献开展的旱涝重建略低于降水重建,而基于其余三类开展的旱涝重建远少于降水重建。

表 5 东亚地区代用资料类型和气候要素关键词组合的词频 Table 5 Joint frequency of keywords for proxy data and climate elements in East Asia

表 6 欧洲地区代用资料类型和气候要素关键词组合的词频 Table 6 Joint frequency of keywords for proxy data and climate elements in Europe

表 7 北美地区代用资料类型和气候要素关键词组合的词频 Table 7 Joint frequency of keywords for proxy data and climate elements in North America

表 8 南美地区代用资料类型和气候要素关键词组合的词频 Table 8 Joint frequency of keywords for proxy data and climate elements in South America

对于欧洲地区而言(表 6),树轮仍然是历史气候重建的主要代用资料,出现于256份(占46 %)文本中,其次是历史文献和沉积(含孢粉),分别出现于23 % 和19 % 的文本中,基于冰芯和石笋的重建较少,分别仅出现于9 % 和3 % 的文本中。从重建的气候要素看,温度与降水重建数量大致相当,分别出现于213份(占38 %)和201份(占36 %)文本中,多于旱涝和干湿重建研究。分不同类型代用资料来看,在出现树轮的文本中,降水的频次最高,是第二位温度的1.24倍,在出现历史文献、冰芯和沉积(含孢粉)的文本中,温度的频次最高,是第二位降水的1.1~1.9倍。这说明树轮较多的用于降水重建,而冰芯、沉积(含孢粉)和历史文献较多的用于温度重建,这一特征与上述东亚地区完全相反。

对于北美地区而言(表 7),树轮仍然是历史气候重建的主要代用资料,出现于180份(占56 %)文本中,其次是历史文献和沉积(含孢粉),分别出现于20 % 和18 % 的文本中,再次是冰芯和石笋,分别仅出现于3 % 和2 % 的文本中。从重建的气候要素看,降水和旱涝重建数量较多,二者分别出现于119份(占37 %)和102份(占32 %)文本中,其次是温度重建,出现于84份(占26 %)文本中,干湿重建相对较少。各要素重建数量之间的相对多少与上述东亚和欧洲温度重建多于降水重建的特征明显不同。分不同类型代用资料来看,在出现树轮的文本中,降水与旱涝的词频分别是温度的1.7倍和1.6倍;在出现历史文献与沉积(含孢粉)的文本中,温度的词频仅略低于降水,高于旱涝。这说明树轮较多的用于降水和旱涝重建,用于温度重建的相对较少,而历史文献与沉积用于降水与温度重建的数量大致相当,这与上述东亚与欧洲的特征明显不同。

对于南美地区而言(表 8),树轮和历史文献是主要代用资料,分别出现于37份(占33 %)和32份(占29 %)的文本中,其次是沉积(含孢粉)和冰芯,分别出现于24份(占21 %)和17份(占15 %)文本中,石笋仅出现于占2 % 的文本中。从重建的气候要素看,降水重建数量最多,出现于54份(占48 %)文本中,温度和旱涝重建数量大致相当。分不同类型代用资料来看,在出现树轮、历史文献和沉积(含孢粉)的文本中,降水的频次最高,大致是位居第二位温度的1.6倍,同时旱涝的频次也较高,与温度大致相当。这表明本地区的主要代用资料大量用于降水重建,较少的用于温度重建。

由上述分析来看,不同类型代用资料与不同气候要素关键词组合词频呈现鲜明的区域差异,反映出采用各类资料开展的不同气候要素重建数量有明显的地域差异。分析结果表明,在东亚地区,树轮资料大多用于重建温度,其余代用资料则较多的用于重建降水;在欧洲地区,树轮较多的用于降水重建,而其余代用资料较多的用于温度重建;在北美地区,树轮较多的用于降水和旱涝重建,用于温度重建的相对较少,而历史文献与沉积用于降水与温度重建的数量大致相当;在南美地区,主要的代用资料均大量用于降水重建,而较少的用于温度重建。这一地域差异与各区域代用资料分布的地理环境密切相关,例如东亚地区树轮采样点绝大多数位于山区,对温度变化响应较为敏感,而历史文献资料则主要分布于东部地区,水旱灾害记载极为丰富,故这一地区树轮资料较多的用于温度重建,而历史文献则较多的用于降水重建[36]。欧洲地区盛行海洋性气候,低温是其农业面临的主要气象灾害,因而历史文献中大量关于低温(冻害)导致的作物歉收和饥荒记载,因而较多的用于温度重建[37]。北美地区树轮主要位于中西部地区的山区,属于半干旱-干旱气候区,对降水变化响应较为敏感,所以较多的用于降水重建[38]

2.3.3 中世纪气候异常期与小冰期气候特征的数据挖掘

为进一步探索文本数据挖掘技术在历史气候变化研究中的应用价值,本文针对过去千年气候变化中的两个典型时段——中世纪异常期(Medieval Climate Anomaly)和小冰期(Little Ice Age)的相关论文摘要进行了文本数据挖掘。分别以“Medieval Climate Anomaly”和“Medieval Warm Period”为关键词,共计检索出161篇论文摘要,进而对这161篇论文摘要中包括上述两个关键词的句子进行了词频分析。从其词云图来看(图 4a),“temperature”的频次位居前列,表明这些研究最为关注的气候要素是“温度”,在词云图中用于描述温度的高频词是“warm”。通过分析词频数据发现,虽然“cold”和“cool”也有一定频次的出现,但是“warm”的频次是“cold”和“cool”总频次的17倍。由此意味着,这一时期气候的总体特征是温暖。鉴于在包括“Medieval Climate Anomaly”和“Medieval Warm Period”的摘要中,也有部分摘要涉及小冰期气候的研究,为此本文进一步剔除包括“Little Ice Age”的摘要,最终保留了68篇。对这68篇摘要中包括“Medieval Climate Anomaly”或“Medieval Warm Period”的句子再次进行了词云图分析,研究发现“temperature”的频次仍然位居前列,并且“warm”在词云图中的“显示度”进一步提高,特别是在这些句子中“cold”或者“cool”的频次均为零。由此进一步证明,温度是最受关注的气候要素,并且温暖是这一时期气候的鲜明特征。

图 4 中世纪异常期(a)与小冰期(b)论文摘要的词云图 Fig. 4 Word cloud map for Medieval Climate Anomaly (a) and Little Ice Age (b)

同样地,再以“Little Ice Age”为关键词,并且排除包括“Medieval Climate Anomaly”或“Medieval Warm Period”的摘要,共计检索出406篇论文摘要。通过对这406篇论文摘要中包括“Little Ice Age”的句子进行词频分析(图 4b),发现“glacier”的频次位居前列,在词云图中具有较高的“显示度”,同时“temperature”也具有一定的“显示度”。由此表明,这类研究较为关注的气候要素仍然是温度,同时对冰川的关注度更高,再结合词云图中“advance”也具有一定的“显示度”,进一步对文本进行人工判读,发现大量的研究以冰川发育指征气候偏冷。另外,在词云图中,“cool”、“cold”和“coldest”具有一定的“显示度”,其总频次明显高于“warm”的频次,这进一步说明小冰期时期的气候以偏冷为主要特征。

3 结论与讨论

如上所述,本文基于机器学习方法开展了从海量的气候变化研究论文中智能识别历史气候重建论文,并提取关键信息的技术探索。经过对9种文本智能分类算法的训练和精度评价,研究发现极端随机树模型在本领域具有较高的分类精度;利用这一模型从前期取自ResearchGate的70余万篇气候变化研究论文摘要中“分离”出了6039份千年尺度气候重建论文摘要,数据挖掘结果不仅与领域专家经验基本一致[13],验证了文本分类及数据挖掘结果的可信度,证明了上述技术的可靠性,而且还发现了代用资料类型与重建气候要素的组合呈现鲜明的地域差异,初步分析发现这与各区域代用资料分布的地理环境密切相关。最后,利用文本数据挖掘技术,针对中世纪气候异常期和小冰期的研究开展了初步挖掘,发现在针对这两个特征时期的研究中,温度是最受关注的气候要素,中世纪气候异常期以偏暖为主要特征,小冰期则以冰川发育、气候寒冷为主要特征。这些分析与前人[39~41]利用文献和历史记录资料的结果一致。

本研究是“面向ResearchGate的古气候文献数据采集”工作的延伸,是文本大数据技术在古气候研究领域的进一步探索应用。本研究“精选”出的6039份千年尺度气候重建论文摘要为下一步精准捕获研究论文全文,并从中多维度的提取历史气候重建数据奠定了基础,这将有益于推进历史气候重建结果对比与综合集成研究进步。作为一项探索性的工作,研究结果尚有一定的不确定性,其主要来源于两个方面,一是文本分类的精度,二是信息提取的精度。在文本分类精度方面,综合4个维度的综合评价,本文采用的极端随机树分类模型精度大约为80 %,意味着“精选”出的6039篇论文摘要中大约有20 % 的“杂质”。在信息提取精度方面,主要受制于两个因素,一是命名实体库的完善程度,二是提取规则。对于前者,本文基于以往知识初步构建了一个专业的命名实体库,基本囊括了本领域的主要关键词,但是可能仍有一定的欠缺,为避免其影响,本文仅分析了主要的代用资料和气候要素;对于后则,本文采用的词频统计方法,可能放大了部分关键词的词频数,特别是较为常用的代用资料类型关键词,因为这类关键词通常多次出现在论文摘要中。

为进一步提高数据挖掘结果的精度,在文本分类环节,单词的特征值提取算法需要进一步改进。目前的算法仅考虑了词频,将来有必要考虑单词在文本中的位置,将其作为一个因素纳入单词特征值的计算之中。在数据挖掘环节,一方面有必要继续完善命名实体库,确保数据挖掘的全面性,另一方面研发新的词频量化方法,避免因一篇摘要中反复出现同一个关键词而导致高估其词频。

致谢: 感谢审稿专家提出的宝贵修改建议

参考文献(References)
[1]
谢成晟, 李景吉, 高苑苑, 等. 基于树轮宽度重建川西南137年秋冬季平均气温变化[J]. 第四纪研究, 2020, 40(1): 252-263.
Xie Chengsheng, Li Jingji, Gao Yuanyuan, et al. Tree-ring width based autumn and winter mean temperature reconstruction and its variation over the past 137 years in southwestern Sichuan Province[J]. Quaternary Sciences, 2020, 40(1): 252-263.
[2]
侯光良, 赖忠平, 刘向军, 等. 晚冰期以来青藏高原降水序列集成重建[J]. 第四纪研究, 2019, 39(3): 615-628.
Hou Guangliang, Lai Zhongping, Liu Xiangjun, et al. Synthetically reconstructed precipitation variability in the Qinghai-Tibetan Plateau over the last 16 ka[J]. Quaternary Sciences, 2019, 39(3): 615-628.
[3]
杨保, 王鑫, 宋苗, 等. 过去2000年温度集成重建研究: 进展与展望[J]. 第四纪研究, 2017, 37(5): 945-962.
Yang Bao, Wang Xin, Song Miao, et al. Temperature reconstructions of last millennium and common era climate variations: Present status and future prospects[J]. Quaternary Sciences, 2017, 37(5): 945-962.
[4]
Neukom R, Barboza L A, Erb M P, et al. Consistent multidecadal variability in global temperature reconstructions and simulations over the Common Era[J]. Nature Geoscience, 2019, 12(8): 643-649. DOI:10.1038/s41561-019-0400-0
[5]
Ahmed M, Anchukaitis K, Asrat A, et al. Continental-scale temperature variability during the past two millennia[J]. Nature Geoscience, 2013, 6(5): 339-346. DOI:10.1038/ngeo1797
[6]
Mann M E, Bradley R S, Hughes M K, et al. Global-scale temperature patterns and climate forcing over the past six centuries[J]. Nature, 1998, 392(6678): 779-787. DOI:10.1038/33859
[7]
Mann M E, Zhang Z, Hughes M K, et al. Proxy-based reconstructions of hemispheric and global surface temperature variations over the past two millennia[J]. Proceedings of the National Academy of Sciences of the United States of America, 2008, 105(36): 13252-13257. DOI:10.1073/pnas.0805721105
[8]
Ljungqvist F C, Krusic P J, Sundqvist H S, et al. Northern Hemisphere hydroclimate variability over the past twelve centuries[J]. Nature, 2016, 532(7597): 94-98. DOI:10.1038/nature17418
[9]
薛莲花, 赵侃, 崔英方, 等. 近2000年来东亚夏季风突变的落水洞高分辨率石笋记录[J]. 第四纪研究, 2020, 40(4): 973-984.
Xue Lianhua, Zhao Kan, Cui Yingfang, et al. Abrupt changes of East Asian summer monsoon over the past two millennia from stalagmite record in Luoshui Cave, Hubei Province[J]. Quaternary Sciences, 2020, 40(4): 973-984.
[10]
魏柱灯, 方修琦, 苏筠. 过去2000年中国的气候变化、财政周期与朝代更迭[J]. 第四纪研究, 2020, 40(5): 1180-1192.
Wei Zhudeng, Fang Xiuqi, Su Yun. Climate change, fiscal balance and dynastical cycles in China over the past 2000 years[J]. Quaternary Sciences, 2020, 40(5): 1180-1192.
[11]
范保硕, 张文胜, 张茹春, 等. 华北平原小冰期以来干湿变化与人类活动特征[J]. 第四纪研究, 2019, 39(2): 483-496.
Fan Baoshuo, Zhang Wensheng, Zhang Ruchun, et al. Characteristics of dry-wet changes and human activities in the North China Plain since the Little Ice Age[J]. Quaternary Sciences, 2019, 39(2): 483-496.
[12]
李康康, 秦小光, 张磊, 等. 罗布泊(楼兰)地区1260-1450 A.D. 期间的绿洲环境和人类活动[J]. 第四纪研究, 2018, 38(3): 720-731.
Li Kangkang, Qin Xiaoguang, Zhang Lei, et al. The ancient oasis and human activity in Lop Nur (Loulan) region during 1260-1450 A.D.[J]. Quaternary Sciences, 2018, 38(3): 720-731.
[13]
张学珍, 尹君, 白孟鑫, 等. 面向ResearchGate的古气候文献数据采集系统的研制与应用测评[J]. 地理科学进展, 2020, 39(7): 1140-1148.
Zhang Xuezhen, Yin Jun, Bai Mengxin, et al. Development and application test of a collection system for paleoclimate research documents from ResearchGate[J]. Progress in Geography, 2020, 39(7): 1140-1148.
[14]
张耀铭, 张路曦. 人工智能: 人类命运的天使抑或魔鬼——兼论新技术与青年发展[J]. 中国青年社会科学, 2019, 38(1): 1-23.
Zhang Yaoming, Zhang Luxi. Artificial intelligence: An angel or a devil for human fate?-On the new technology and youth development[J]. Journal of Chinese Youth Social Science, 2019, 38(1): 1-23.
[15]
黄文娟. 基于人工智能的搜索引擎在数字图书中的应用[J]. 信息技术, 2019, 43(11): 93-96, 102.
Huang Wenjuan. Application of search engine based on artificial intelligence in digital books[J]. Information Technology, 2019, 43(11): 93-96, 102.
[16]
罗华珍, 潘正芹, 易永忠. 人工智能翻译的发展现状与前景分析[J]. 电子世界, 2017, 39(21): 21-23.
Luo Huazhen, Pan Zhengqin, Yi Yongzhong. Analysis on the development status and prospect of ARTIFICIAL intelligence translation[J]. Electronics World, 2017, 39(21): 21-23.
[17]
董源, 徐雅斌, 李卓, 等. 基于社会计算和机器学习的垃圾邮件识别方法的研究[J]. 山东大学学报(理学版), 2013, 48(7): 72-78.
Dong Yuan, Xu Yabin, Li Zhuo, et al. Research on spam identification based on social computing and machine learning[J]. Journal of Shandong University(Natural Science), 2013, 48(7): 72-78.
[18]
侯一民, 周慧琼, 王政一. 深度学习在语音识别中的研究进展综述[J]. 计算机应用研究, 2017, 34(8): 2241-2246.
Hou Yimin, Zhou Huiqiong, Wang Zhengyi. Overview of speech recognition based on deep learning[J]. Application Research of Computers, 2017, 34(8): 2241-2246. DOI:10.3969/j.issn.1001-3695.2017.08.001
[19]
徐开琨, 韩明飞, 黄传玺, 等. 基于质谱的蛋白质生物标志物发现中的特征选择与机器学习方法研究进展[J]. 生物工程学报, 2019, 35(9): 1619-1632.
Xu Kaikun, Han Mingfei, Huang Chuanxi, et al. Research progress of feature selection and machine learning methods for mass spectrometry-based protein bopmarker discovery[J]. Chinese Journal of Biotechnology, 2019, 35(9): 1619-1632.
[20]
米晓希, 汤爱涛, 朱雨晨, 等. 机器学习技术在材料科学研究中的应用进展[J]. 材料导报, 2021(15): 1-18.
Mi Xiaoxi, Tang Aitao, Zhu Yuchen, et al. Machine learning: A potential powerful tool for materials science research[J]. Materials Reports, 2021(15): 1-18.
[21]
徐优俊, 裴剑锋. 深度学习在化学信息学中的应用[J]. 大数据, 2017, 3(2): 45-66.
Xu Youjun, Pei Jianfeng. Deep learning for chemoinformatics[J]. Big Data Research, 2017, 3(2): 45-66.
[22]
龚军, 杜超, 钟小钢, 等. 基于机器学习算法的原发性高血压并发冠心病的患病风险研究[J]. 解放军医学杂志, 2020, 45(7): 735-741.
Gong Jun, Du Chao, Zhong Xiaogang, et al. Researches on the illness risk of essential hypertension complicated with coronary heart disease based on machine learning algorithm[J]. Medical Journal of Chinese People's Liberation Army, 2020, 45(7): 735-741.
[23]
马廷淮, 穆强, 田伟, 等. 气象数据挖掘研究[J]. 武汉理工大学学报, 2010, 32(16): 110-114.
Ma Tinghuai, Mu Qiang, Tian Wei, et al. Research on meteorological data mining[J]. Journal of Wuhan University of Technology, 2010, 32(16): 110-114. DOI:10.3963/j.issn.1671-4431.2010.16.027
[24]
邱声春. 数据挖掘和数据融合技术在天气预报和气象服务中的应用研究[J]. 山西气象, 2007, 20(2): 34-36.
Qiu Shengchun. Application of data digging and inosculating technology in weather forecast and meteorological decision-making service[J]. Shanxi Meteorological Quarterly, 2007, 20(2): 34-36.
[25]
Maron M E, Kuhns J L. On relevance, probabilistic indexing and information retrieval[J]. Association for Computing Machinery, 1960, 7(3): 216-244. DOI:10.1145/321033.321035
[26]
赵胜辉, 李吉月, 徐碧, 等. 基于TFIDF的社区问答系统问句相似度改进算法[J]. 北京理工大学学报, 2017, 37(9): 982-985.
Zhao Shenghui, Li Jiyue, Xu Bi, et al. Improved TFIDF-based question similarity algorithm for the community interlocution systems[J]. Transactions of Beijing Institute of Technology, 2017, 37(9): 982-985.
[27]
Cortes C, Vapnik V N. Support-vector networks[J]. Machine Learning, 1995, 20(3): 273-297.
[28]
Song Yanyan, Lu Ying. Decision tree methods: Applications for classification and prediction[J]. Shanghai Archives of Psychiatry, 2015, 27(2): 130-135.
[29]
程永锋, 汉京善, 刘彬, 等. 基于Bagging算法构造强分类器的one class SVM导线舞动预测应用[J]. 振动与冲击, 2020, 39(9): 152-158.
Cheng Yongfeng, Han Jingshan, Liu Bin, et al. Prediction of transmission line galloping by one class SVM based on the bagging algorithm for constructing a strong classifier[J]. Journal of Vibration and Shock, 2020, 39(9): 152-158.
[30]
刘黎志, 邓介一, 吴云韬. 基于HBase的多分类逻辑回归算法研究[J]. 计算机应用研究, 2018, 35(10): 3007-3010.
Liu Lizhi, Deng Jieyi, Wu Yuntao. Research on multi classification logistic regression based on Hbase[J]. Application Research of Computers, 2018, 35(10): 3007-3010. DOI:10.3969/j.issn.1001-3695.2018.10.029
[31]
Jivitesh Sharma, Charul Giri, Ole-Christoffer Granmo, et al. Multi-layer intrusion detection system with ExtraTrees feature selection, extreme learning machine ensemble, and softmax aggregation[J]. EURASIP Journal on Information Security, 2019(1): 1-16. DOI:10.1186/s13635-019-0098-y
[32]
Heckerman D. Bayesian networks for data mining[J]. Data Mining & Knowledge Discovery, 1997, 1(1): 79-119.
[33]
Cover T M, Hart P E. Nearest neighbor pattern classification[J]. IEEE Transactions on Information Theory, 1967, 13(1): 21-27. DOI:10.1109/TIT.1967.1053964
[34]
Hu G, Yin C, Wan M, et al. Recognition of diseased Pinus trees in UAV images using deep learning and AdaBoost classifier[J]. Biosystems Engineering, 2020, 194: 138-151. DOI:10.1016/j.biosystemseng.2020.03.021
[35]
米爱中, 张盼. 一种基于混淆矩阵的分类器选择方法[J]. 河南理工大学学报(自然科学版), 2017, 36(2): 116-121.
Mi Aizhong, Zhang Pan. A method of classifier selection based on confusion matrix[J]. Journal of Henan Polytechnic University (Natural Science), 2017, 36(2): 116-121.
[36]
杨保, 谭明. 近千年东亚夏季风演变历史重建及与区域温湿变化关系的讨论[J]. 第四纪研究, 2009, 29(5): 880-887.
Yang Bao, Tan Ming. Varibility of the east asian summer monsoon and its relationshio witj regional temperature and moiture change during the last millennum[J]. Quaternary Sciences, 2009, 29(5): 880-887. DOI:10.3969/j.issn.1001-7410.2009.05.04
[37]
Bell W T, Ogilvie A E J. Weather compilations as a source of data for the reconstruction of european climate during the medieval period[J]. Climatic Change, 1978, 1(4): 331-348. DOI:10.1007/BF00135154
[38]
Groisman Ya Pavel, Knight Richard W. 在过去40年里出现的新趋势——北美持续旱段(英文)[J]. 地球科学进展, 2007, 22(11): 1191-1207.
Groisman Pavel Ya, Knight Richard W. Prolonged dry episodes over North America: New tendencies emerging during the last 40 years[J]. Advances in Earth Science, 2007, 22(11): 1191-1207.
[39]
满志敏, 杨煜达. 中世纪温暖期升温影响中国东部地区自然环境的文献证据[J]. 第四纪研究, 2014, 34(6): 1197-1203.
Man Zhimin, Yang Yuda. The Medieval Warming impacts on the natural environment in Eastern China as inferred from historical documents[J]. Quaternary Sciences, 2014, 34(6): 1197-1203.
[40]
李宜垠, 李博闻, 徐鑫. 大兴安岭北部满归泥炭孢粉重建的过去2100年古气候[J]. 第四纪研究, 2019, 39(4): 1034-1041.
Li Yiyin, Li Bowen, Xu Xin. Pollen-based climate reconstruction during the past 2100 years from the MG peat profile in the northern Daxing'an Mountains[J]. Quaternary Sciences, 2019, 39(4): 1034-1041.
[41]
陈思颖, 苏筠. 《云山日记》记录的太湖流域1308-1309年寒冬[J]. 第四纪研究, 2020, 40(5): 1193-1202.
Chen Siying, Su Yun. The severe winter of 1308/1309 in the Taihu Lake Basin recorded in Yunshan Diary[J]. Quaternary Sciences, 2020, 40(5): 1193-1202.
Preliminary study on machine learning-based intelligent recognition of historical climate reconstruction papers and data mining
HUA Mengmeng1,2, YIN Jun1, HU Zhaoling2, ZHANG Xuezhen1,3     
(1 Key Laboratory of Land Surface Pattern and Simulation, Institute of Geographical Sciences and Natural Resources Research, Chinese Academy of Sciences, Beijing 100101;
2 Jiangsu Normal University, Xuzhou 221116, Jiangsu;
3 University of Chinese Academy of Sciences, Beijing 100049)

Abstract

It is a hot topic to carry out integrated reconstructions of historical climate changes using numerous existing single proxy-based reconstructions. To achieve the integrated reconstruction, there is a great demand to collect target papers of existing reconstructions. Taking this background, this study explored a machine learning-based technology of intelligently recognition of historical climate reconstruction papers and carried out key information mining from these papers. Firstly, we prepared a set of 1450 abstracts of published paleoclimate reconstruction papers and tagged one by one artificially with millennium-scale reconstruction and with other reconstruction. We used this set of abstracts as sample dataset to train and test nine machine learning-based classification models. We found that classification accuracy of Extra Trees model was higher than the other models. Then, we used the Extra Trees model on a set of more than 70×104 abstracts of climate change research papers from the ResearchGate website. As a result, 6039 abstracts for the millennium-scale climate reconstruction were selected intelligently. The reliability of the 6039 abstracts were also confirmed by comparing its word cloud to that of sample dataset. Finally, using the technology of Named-entity recognition on the 6039 abstracts, three dimensions of information, including reconstructed climate elements, proxy data categories and target regions(countries), were mined intelligently. The frequencies of key words show that on the dimension of climate elements temperature and precipitation are the two most frequently climate elements for reconstruction. On the dimension of proxy data, tree ring, historical documents and sediments(including pollen) are the three most frequently proxy data. These results keep consistent with the experts' experience of this field. The results also show that frequencies of reconstructed climate elements, proxy data categories and their combination exhibit distinct geographical differences, which may be relevant to regional climatic characteristic.
Key words: historical climate    climate reconstruction    text classification    data mining    machine learning