矿物岩石地球化学通报  2017, Vol. 36 Issue (6): 881-885   PDF    
大数据时代对科学研究方法的反思—《矿物岩石地球化学通报》2017大数据专辑代序
张旗1 , 周永章2,3     
1. 中国科学院 地质与地球物理研究所, 北京 100029;
2. 中山大学 地球环境与地球资源研究中心, 广州 510275;
3. 广东省地质过程与矿产资源探查重点实验室, 广州 510275
摘要: 人们认识世界的方法有两种:演绎法和归纳法。演绎法是从普遍性结论或一般性事理推导出个别性结论的论证方法,演绎推理的主要形式是三段论法。归纳法与演绎法相反,是从个别事实归纳出普遍性结论的方法,是从个别事实概括出一般原理的思维方式。大数据方法不同于上述方法,大数据的本质是用海量数据代替少量样本,用混杂数据代替精确数据,用相关关系代替因果关系。由此引发的宏观性和直接性是传统的认识方法所难以完全替代的。大数据方法是科学方法论的一个划时代的变革,是继演绎法和归纳法之后人类认识和改造世界的第3种工具。大数据研究的结果具有真理性和预测性,是大数据研究的热点和核心。
关键词: 大数据      方法      归纳法      演绎法      真理性      预测性     
Reflections on the Scientific Research Method in the Era of Big Data
ZHANG Qi1, ZHOU Yong-zhang2,3     
1. Institute of Geology and Geophysics, Chinese Academy of Sciences Beijing 100029, China;
2. Center for Earth Environment & Resources, Sun Yat-sen University, Guangzhou 510275, China;
3. Guangdong Provinical Key Laboratory of Mineral Resources and Geological Processes, Guangzhou 510275, China
Abstract: Deduction and induction are two ways from which people recognize the world. Deduction is the method derived from general conclusion or general summary to individual conclusions, and the main form of deductive conclusion is syllogism. Induction, the opposite of deduction, is summing up general conclusion from individual facts, outlining the general principle from individuals. Big data method is different from these two mentioned above. Huge amounts of samples instead of a small amount of samples, mixed data instead of accurate data and correlation instead of causation, are the essence of big data. The method can draw macroscopic and direct conclusions that is hard to be replaced by traditional methods. Big data method is an epoch-making revolution of scientific methodology, is the third tool of human understanding and transforming the world after deduction and induction. Big data study would dig out truthful and predictable results, which is the hot spot and core of big data research.
Key words: big data     method     inductive method     deductive method     truthfulness     predictability    
 

人们认识世界的方法有两种:一种是由亚里士多德提出的演绎法(另一种见解认为笛卡尔是演绎法之父),另一种是由培根发明的归纳法。演绎法是从普遍性结论或一般性事理推导出个别性结论的论证方法,在演绎论证中,普遍性结论是依据,个别性结论是论点。演绎推理反映了论据与论点之间由一般到个别的逻辑关系。演绎推理的主要形式是三段论,即大前提、小前提和结论。大前提是一般事理,小前提是论证的个别事物,结论就是论点。归纳法与演绎法相反,是从个别事实归纳出普遍性结论的方法。演绎法强调对因果关系和内在逻辑的探索,如果没有因果关系,也就无法进行逻辑推理;归纳法要求使用随机样本,且要求使用精确数据,如果数据中包含了不精确的数据,归纳法则不可能得出相对正确的认识和判断(江大白和徐飞,2016)。

抓典型的方法,从个别地区的研究,通过逻辑分析,得出一般性认识,总结出规律性的概念,使用的即是归纳法。例如玄武岩构造环境判别图的厘定,通常是从典型地区的研究或从若干地区的研究开始,归纳出具有普遍性结论的认识或指标,用图件的形式予以表述,企图应用于其他类似地区,解决全球性问题。这是典型的从个别到一般的、以点带面的方法,即归纳法。而玄武岩分离结晶的理论则是根据演绎法得出来的,它的起点是:岩浆是能够结晶分离的(一般性认识),玄武岩是岩浆(个别实例),所以玄武岩是能够结晶分离的(结论性认识)。在这里,一般性认识属于常识,是不需要证明的。大家都知道,岩浆是液态的,随着温度下降会发生结晶分离,分离出的晶体由于密度大,可以脱离开岩浆而下沉,留下的即是残余岩浆,于是,岩浆成分发生了变化。我们承认上述理论,按照上述理论进行演绎,于是得出玄武岩是能够分离结晶的个别性结论。此即从一般到个别的演绎法。上述两种方法是科学的、逻辑的演绎推理方法,可以交互使用,是人们所熟知的方法。

今天,人类进入了大数据时代,大数据采用的不是上述两种方法,而是从数据出发,挖掘数据中隐含的相关关系,从而得出结论的方法。于是,大数据时代诞生了第3种方法,这种方法似乎还没有正式命名,姑且称之为“大数据法”吧。“大数据法”也用到大样本,与归纳法很相近,但它与归纳法不同的是,归纳法强调同类主体的异同,大数据法强调不同类主体间的相关性。大数据不依靠先验的理论和模式,也不依靠典型和抽样的方法,而是从数据出发,从对数据的分析发现数据之间存在的相关关系,从而得出价值的方法。

1 归纳法和演绎法

归纳法是从个别事实概括出一般原理的思维方式。玄武岩判别图的厘定就是根据归纳法得出来的,采用的是从点到面的推理方式。玄武岩判别图早期是有效的,但是,随着数据的积累,出现各种不同于典型地区的复杂情况,更由于简单的因果链不能解释玄武岩的多种成因,玄武岩形成过程和源区组成的多样性也远远超出了人们原来的想像,遂使判别图越来越不适应海量数据出现的情况。早先的判别图为什么逐渐没落了呢?早先的判别图,主要采用典型地区的详细研究,抽样和经过细心挑选的数据,经过玄武岩成因理论和矿物元素分配理论的思考,从典型到一般(此处的一般似乎是“普适性”的意思)归纳出来的。由于典型并不能涵盖全球所有玄武岩的不同情况,由于不同地区情况的复杂性,由于一般的情况不一定与典型一致,从点到面的演绎不一定有效。玄武岩判别图的这种情况是与研究方法本身的局限性有关。因为,归纳法有局限性,它只适合线性的和确定性的因果联系,如果因果关系不确定,归纳法就无能为力了。

笛卡尔是近代哲学之父,是近代演绎法的代表。笛卡尔的演绎法认为,作为演绎法的出发点的命题与数学公理相类似,是直观的可靠的真理。他要求演绎法要遵守以下几个原则:①只把那些十分清楚明白地呈现在我的心智之前、使我根本无法怀疑的东西放在我的判断中;②把难题尽可能分解为细小的部分,直到可以圆满解决为止;③按从最简单、最容易认识的对象开始,一点一点地上升到复杂的对象的认识;④把一切情形尽量完全地列举出来,尽量普遍地加以审视,以保证没有遗漏。因此,笛卡尔的演绎推理法是非常严格的。

演绎法与归纳法相反,是从一般原理推演出个别结论,演绎推理的主要形式是三段论法,由大前提、小前提和结论三部分组成。演绎推理是一种必然性推理,推理的前提是一般,推出的结论是个别。演绎法也有其局限性,它取决于前提是否正确,而前提是否正确在演绎范围内是无法解决的。如学术界争论的花岗岩分离结晶问题,可能就是因为大前提错了,才导致错误的结论,而且一直影响至今,贻害无穷(张旗, 2012a, 2012b)。

研究认为,玄武岩是能够分离结晶的,这除了实验、观察,还与演绎法的推理有关,是一个完美的三段论法的实例。因为,实践和理论研究表明,“岩浆是能够分离和演化的,玄武岩是岩浆,所以玄武岩能够分离和演化”。这里“岩浆能够分离和演化”是大前提,“玄武岩是岩浆”是小前提,“玄武岩能够分离和演化”是结论。这个推理和演绎是正确的,关键是大前提是正确的,其次,小前提与大前提一致,因此,结论正确。

玄武岩如此,花岗岩呢?如果人们仿照玄武岩的推理去演绎:“岩浆能够分离和演化,花岗岩是岩浆,所以花岗岩能够分离和演化”。在这里,“岩浆能够分离和演化”是大前提,正确;“花岗岩是岩浆”是小前提,正确;于是人们认为“花岗岩能够分离和演化”的结论是正确的。对于花岗岩学术界就是这样认识的(陈喜峰,2008曹正琦和侯光久,2009张旗,2012a陈俊等,2013)。

但是,经过实践的反复检验,经过与玄武岩反复对比发现,花岗岩能够分离和演化是不正确的。为什么上述演绎适合玄武岩而不适合花岗岩?原因在于大前提不正确,大前提不严谨。岩浆能够分离和演化是正确的,但是是有条件的,条件就是岩浆的黏度不能太大。玄武岩和花岗岩都是岩浆,但是黏性不同。玄武质岩浆黏性小,结晶的矿物(橄榄石、辉石等)密度大,可以克服岩浆黏性的阻力而下沉,于是,岩浆就发生了分离(橄榄石、辉石等从岩浆中结晶出来下沉到岩浆房底部,残余的岩浆成分向贫镁富铁的方向演化)。花岗质岩浆由于黏性大,结晶的矿物(角闪石和斜长石)的密度不够大,矿物的重力就不足以克服岩浆的黏性而下沉,岩浆就不能分离和演化。于是,上述三段论需要修改,将“岩浆能够分离和演化”修改为“黏性低的岩浆能够分离和演化”。这样的修改是必须的,因为,这样修改以后才符合岩浆的基本事实。这样的修改并不影响玄武岩的结论,也符合花岗岩的实际。“黏性低的岩浆能够分离和演化,玄武岩是黏性低的岩浆,所以玄武岩能够分离和演化”。“黏性低的岩浆能够分离和演化,花岗岩是黏性高的岩浆(或花岗岩不是黏性低的岩浆),所以花岗岩不能够分离和演化”。在上述演绎中,花岗岩这个小前提(黏性高)不符合上述大前提(黏性低)的条件,因此,“花岗岩能够分离和演化”的结论是错的,而“花岗岩不能够分离和演化”的结论才是正确的。在这里,演绎法本身无所谓对错,而是演绎的前提必须正确。前提错了,结论必错。在这个具体的实例中,为什么会发现花岗岩的演绎会出现错误呢?原因在于由演绎法推出的结论还需要经由实践的检验才能证明其是对与错(张旗,2012a)。

归纳推理与演绎推理不同,归纳是从特殊性到一般,演绎是从一般到特殊。归纳的前提和结论之间的联系不是必然的,由于归纳不可能穷尽所有的个别,因此,结论未必正确,结论具有或然性;而演绎的结论与前提之间的联系是必然的。在思维过程中,可能既有归纳又有演绎,归纳与演绎相互连结、相互渗透,相互转化。演绎法的起点叫“原理”,不能问为什么。很多时候,把一个相当可疑的理论当作原理来做推论,就出了大问题。归纳法的源头是经验,而演绎法的源头其实是信仰。

2 大数据方法的主要特征

随着科学的发展,出现了海量的数据,归纳法与演绎法都不足以面对海量的、杂乱无章的、非结构化的数据,于是大数据方法就应运而生了。江大白和徐飞(2016)指出,从哲学层面分析,大数据方法的本质是用海量数据代替少量样本,用混杂数据代替精确数据,用相关关系代替因果关系。由此引发的宏观性和直接性是传统的认识方法所难以完全替代的。因此,可将大数据方法看作是科学方法论的一个划时代的变革,是继演绎法和归纳法之后人类认识和改造世界的第3种工具(江大白和徐飞,2016)。

大数据方法简言之即是:从数据出发,挖掘数据之间的相关关系,从相关关系中提取价值。如对玄武岩判别图,采用大数据法进行研究,其不同于早先的归纳法之处是:

(1) 大数据法是从数据出发,不是从理论、概念、模型出发。只要收集数据库全球全部数据即可开展研究了,而无需考虑数据来自哪里,来自哪个实验室,采用什么方法,数据的精确度如何等等。而早先的研究,理论准备是必须的,例如要研究Ti-Zr-Y之间的关系,必须把不同类型玄武岩(MORB、IAB、OIB)上述元素之间的关系、变化、岩浆演化过程、分离结晶、混合、混染作用对岩浆的影响等等搞清楚,把它们的区别搞清楚,才能进行研究(Pearce and Cann, 1973Pearce and Norry, 1979)。

(2) 研究结果给出的是相关关系而非因果关系。例如对玄武岩判别图的研究,得出几十万对关系,从中优选出几十个效果较好的相关关系,如:Sc/Sr、Ga/Nb、K2O/Cu、Sr/V、Na2O/Ga等,用它们作出的判别图,取得了令人惊叹的效果。而上述关系,许多是原有的知识很难解释的,有些是未遇见过的,尤其某些过渡元素和金属元素,主元素和金属元素之间,有些甚至难倒了地球化学专家。而早先的判别图研究得出的结论都是具有因果关系的,是可以比较完满解释的,如Ti/Y、Ti/Zr、La/Nb、Th/Ta、Th/Nb比值等。上述关系也在笔者的研究中出现了,但是,效果却不是最佳的。笔者的研究几乎穷尽了元素对之间所有的关系,包括早先的归纳和演绎推理得出的所有关系。早先根据归纳法得出的认识是有局限性的,事实证明并不是最佳的。

(3) 研究过程中基本上没有人为因素的干扰。归纳法和演绎法都离不开因果关系,而由于因果关系的复杂性,有时并不是单一的因果链条:一个“因”可以结出几个“果”,一个“果”可以来自不同的“因”。因此,归纳法和演绎法得出的结论都是相对的,属于相对真理的范畴。其次,归纳法和演绎法的主体是人,因此,避免不了人为因素的干扰。由于人们对自然规律认识的不同,人的素质、经验、喜好不同,逻辑推理的方法和思路不同,哪怕是对同一个事物,也可能得出不同的、甚至千奇百怪、不可思议的认识。例如,一个野外露头,花岗岩存在几种不同的岩性,断裂有几个不同的方向。于是,就可能出现各种各样不同的认识,对不同岩性,不同断裂方向得出各种不同的结论,而实际上正确的结论只有一个。许多学术争论就是这样产生的,其中掺杂了许多人为因素的干扰。又如一个矿区,不同时期不同人去研究,往往得出许多不同的认识,对矿床成因提出许多不同的解释。由于地质情况的复杂性,由于地质现象在许多情况下并不能清楚地揭示,人们必须用自己早先的认识(知识、学识、甚至个人的习惯)去理解,去演绎,去推导,必然导致认识的局限性。

但是,大数据方法可以最大限度地避免人为因素的干扰。在采用大数据方法研究玄武岩判别图时,收集的是全球数据库资料,采用的是学术界共享的软件,计算得出一系列结果。在这个环节,没有人为因素的干扰。人为因素只出现在计算前对数据进行清洗和计算得出结论以后对数据进行解释的环节,在从相关关系提取因果关系的过程中,才需要人为因素的介入。正如休谟指出的,人类天生有追求价值和意义的大脑,有时会为了价值而歪曲事实。而大数据可以避免这个问题。

3 大数据方法的重要性及其意义

(1) 大数据是人类认识世界的一个全新的工具。大数据方法有3个重要的技术取向:重全体不重抽样,重效率不重精确,重关联不重因果。一项研究是不是大数据研究,以此为准。技术取向指的是开展研究时的技术方法选择,例如“重全体”,是指能够获取尽可能多的全部数据,而不是“抽样”数据;不是不要抽样数据,因为采样密度再高,对于整个地球而言仍然是“抽样数据”;又如“重效率”,是指以效率为追求目标,而不是以“精确”为追求目标,并不等于“不要”精确性。大数据方法面对的是既有精确也有不精确的混杂数据,而不片面追求精确性。同样,“重关联”是指具体研究时以追求关联关系为技术取向,也不是要不要“关联关系”和“因果关系”的问题,否则一切以阐明因果关系为目标的自然科学和社会科学研究都该取消了(吴冲龙,通讯)。演绎法强调对因果关系和内在逻辑的探索,如果没有因果关系,也就无法进行逻辑推理。但是大数据方法则可绕过因果关系的难题而先去探索相关关系,从而更直接更高效地解决问题。正因为如此,大数据方法以其有别于历史上成熟科学方法的独特性而展现出其科学发现的方法论价值。从某种意义上看,大数据方法正在开启人类认识世界的新方向,作为一种全新的认识工具,它无疑已经开始并将继续对人类社会产生深远的影响(江大白和徐飞,2016)。

(2) 大数据结果的真理性。大数据使用的是“全数据模式”。“全数据模式”将与该问题相关的数据一网打尽,因此,可以将问题刻画得更精细、更全面、不需要以点带面,也不需要以局部代全部,而是系统、全面、整体地刻画和解决问题。因此,这是一种真正的整体论,是一种数据化的整体论,这种整体论是可操作、可计算、可建模的,符合现代科学范式,可称为大数据整体论(黄欣荣,2016)。当然,何谓全体?如何保证大数据就是全体?例如,目前获得的地震数据大多来自陆地。人类的很多实验数据,本身是不可避免经过人类选择的。

(3) 大数据具有预测功能。大数据是一种新的认识论范式,其基本目标有两个:描述(description)与预测(prediction)。通过描述以刻画海量数据中潜在的模式,根据数据中潜在的模式进行预测,从而发现数据中有价值的规律(张晓强等,2014)。传统的数据使用方法,一般仅涉及数据的保存、查询以及统计分析等简单的目标,倾向于对数据原始价值的使用。而大数据则通过对数据资源进行重组与整合,分析、挖掘其中隐含的关系、模型以及深层次规律,对事物的发展走向进行预测。这是一种对数据资源的深入探究与应用,可以发现一些小数据时代无法洞察的新信息和新知识(董艳丽,2015)。大数据的核心价值既不体现在″大″上面所引发的规模效应,也不体现在一堆杂无顺序的″数据″本身。维克托迈尔-舍恩伯格和肯尼思库克耶(2013)认为,建立在相关性分析基础上的功能性预测,不仅仅是大数据研究的热点,更是大数据研究的核心。

以数据为源头、以数据为载体的知识发现模式(数据-信息-知识),正在逐步形成。实证主义认为,一个命题不仅要能够对过去出现的各种现象以及问题进行解释,而且能够对以后可能出现的新现象以及新问题具有一定的预见性。而大数据的这种预测性推荐是否准确,是否具有科学性,在一定程度上是可以检验的。经过检验,被证实的大数据规律在一定程度上则也可纳入科学规律的范畴。大数据已经成为一种知识发现的新通道,这些新知识、新规律为人们科学可靠的认识事物、预测趋势,提供了坚实的依据(董艳丽,2015)。

4 初步小结

(1) 大数据方法为什么应运而生?是因为科学发展遇到了瓶颈,遇到了难以解决的问题。传统的方法是以因果关系为基础的,但是,在对世界的认识中,因果关系并非全部,在许多情况下,因果关系并不清楚,有时甚至是似是而非的。因果关系离不开推理,推理离不开人的因素。加入人的因素,推理就存在变数,结论可能正确,也可能不正确甚至误入歧途。而大数据研究的对象是数据,数据是客观的,方法是科学的,关键是在大数据研究的过程中基本上没有人为因素的干扰。只有在从相关关系中寻找因果关系时,才加入了人的因素。

(2) 正是由于大数据的这个特点,大数据研究一旦有了结果,这个结果就具有真理性。大数据由于囊括了事物的全体数据,揭示了全部数据之间的相关关系(其中包含可能的因果关系),因此,其结果是客观和真实的,是适合所有条件和各种各样情况的,是放之四海而皆准的。在数据挖掘中,使用的是全球共享的数据库资料,研究方法是众所周知的统计学方法,得出的结论是公平、客观、可靠的。黄欣荣(2016)指出,大数据是从海量数据中归纳提炼出来的具有相当似真性的规律,大数据挖掘是一种接近完全归纳法的数据密集型归纳法,其结论虽然不是普遍规律,但已具有相当大的可靠性了。而归纳法和演绎法得到的是相对真理,是有条件的,有限的。

(3) 在大数据时代,一切自然科学、社会科学甚至人文科学的研究工作都可以摆脱对自然、社会等直接对象的依赖,可以拉开人与自然、人与社会的距离,间接地挖掘早已自动生成出来的相关大数据,从数据中发现规律、预测未来(黄欣荣,2016)。大数据虽然在一定程度上改变了我们认识世界、理解世界的方式,使得很多传统的认识、方法、规则面临挑战,很多传统的观念、观点被颠覆,但是,大数据绝对不是对经典理论的排斥与否定,相反,经典理论始终贯穿在大数据分析以及研究的方方面面,很大程度上是对经典理论以及方法的补充和进一步拓展(董艳丽,2015)。

(4) 大数据的出现引发了对哲学的反思,这是世界科学史面临的新问题(张旗和周永章,2017)。从亚里士多德到培根到罗素,从古希腊到文艺复兴到现代,哲学都是第一和第二科学范式的产物。哲学理论中没有大数据的概念,大数据对科学的冲击必然波及到哲学。在大数据时代,哲学需要改变。因此,探讨大数据与哲学的关系,对于提升人类认识世界的广度和深度是至关重要和刻骨铭心的,将推进人类认识前所未有的飞跃,是人类面临的极具前景的机遇和挑战。

5 后记

大数据研究才刚刚开始,面对地球科学,面对大量非结构化数据,大数据如何研究?大数据能够解决哪些问题?突破点在哪里?这些均需要认真探索。本专辑介绍了部分作者在大数据研究中取得的一些初步认识,希望得到学术界的批评。作者借《矿物岩石地球化学通报》2017大数据专辑出版之际,不揣冒昧地探讨了大数据方法的某些特征,尝试从哲学角度提出一些思考,希望能够引起更多人的关注并付诸行动,推进大数据与地球科学的融合,开创地球科学的新局面。最后,感谢中国地质大学(北京)吴冲龙教授和本所张尉博士对本文的评论和批评,他们的点评使作者深受启发。

参考文献
[] Pearce J A, Cann J R. 1973. Tectonic setting of basic volcanic rocks determined using trace element analyses. Earth and Planetary Science Letters, 19(2): 290–300. DOI:10.1016/0012-821X(73)90129-5
[] Pearce J A, Norry M J. 1979. Petrogenetic implications of Ti, Zr, Y, and Nb variations in volcanic rocks. Contributions to Mineralogy and Petrology, 69(1): 33–47. DOI:10.1007/BF00375192
[] 曹正琦, 侯光久. 2009. 大兴安岭北段晚中生代碱性侵入岩岩石地球化学特征及其意义. 矿物岩石地球化学通报, 28(3): 209–216.
[] 陈俊, 吕新彪, 姚书振, 陈超, 张磊, 杨恩林, 柳潇, 刘阁. 内蒙古红彦镇地区早二叠世A型花岗岩锆石U-Pb年代学研究. 矿物岩石地球化学通报, 32(5): 574–582.
[] 陈喜峰. 2008. 内蒙古东升庙矿区变质火山岩的地质地球化学特征及其意义. 矿物岩石地球化学通报, 27(2): 153–160.
[] 董艳丽. 2015. 大数据的哲学研究. 硕士学位论文. 西安: 陕西师范大学
[] 黄欣荣. 2016. 大数据对科学哲学的新挑战. 新疆师范大学学报(哲学社会科学版), 37(3): 133–139.
[] 江大白, 徐飞. 2016. 大数据:科学方法的新变革. 自然辩证法研究, 32(1): 109–114.
[] 维克托·迈尔-舍恩伯格, 肯尼思·库克耶. 2013. 大数据时代: 生活、工作与思维的大变革. 盛杨燕, 周涛, 译. 杭州: 浙江人民出版社
[] 张旗. 2012a. 花岗质岩浆能够结晶分离和演化吗?. 岩石矿物学杂志, 31(2): 252–260.
[] 张旗. 2012b. 评花岗岩的哈克图解. 岩石矿物学杂志, 31(3): 425–431.
[] 张旗, 周永章. 2017. 大数据正在引发地球科学领域一场深刻的革命. 地质科学, 52(3): 637–648. DOI:10.12017/dzkx.2017.041
[] 张晓强, 杨君游, 曾国屏. 2014. 大数据方法:科学方法的变革和哲学思考. 哲学动态(8): 83–91.