2. 中山大学地球科学与工程学院, 广州 510275;
3. 广东省地质过程与矿产资源探查重点实验室, 广州 510275;
4. 河南省国土资源科学研究院, 郑州 450053
2. School of Earth Sciences and Engineering, Sun Yat-sen University, Guangzhou 510275, China;
3. Guangdong Provincial Key Laboratory of Geological Processes and Mineral Resource Exploration, Guangzhou 510275, China;
4. Academy of Land and Resources of Henan Province, Zhengzhou 450053, China
科学的发展从科学研究思路出发,可以分为四个科学范式:第一范式为经验科学时代,延续了几千年;第二范式为理论科学时代,经历了几百年,以牛顿经典力学为代表;第三范式是计算科学时代,仅几十年;第四范式为大数据科学时代,即DT时代,几年~十几年。在大数据之前,在第一和第二科学范式(经验的和科学的)阶段,人们是从追求因果关系来认识世界的。佛教信奉因果报应,种瓜得瓜,种豆得豆。前人栽树,后人乘凉,是一种大家熟知的前因后果关系:由于前人栽了树,所以后人乘了凉。三段论法的大前提、小前提、结论,也是前因后果的逻辑推理关系。
大卫·休谟是18世纪英国著名的哲学家,休谟对因果关系有杰出的贡献。休谟认为,因果关系只不过是思想中的习惯性联想,强调人们关于因果关系的知识,在任何情况下都不是由先验的推论得来的,而是凭借于经验得来的。我们研究矿床和岩石也感兴趣于矿床成因、岩浆成因、沉积成因、变质成因以及风成成因、水成成因等。人们理解这种成因关系实际上是一种血缘关系或母子关系或爷孙关系。例如,对于斑岩铜矿,人们通常认为铜来源于岩体,流体来源于岩体。人们认为,斑岩铜矿的含矿岩体即成矿母岩。
而对于一些没有因果关系的事物,人们称之为“风马牛不相及”。其实,有些“风马牛不相及”的东西也可能存在相关性,例如啤酒与尿布的故事。啤酒与尿布是完全不同的两种物质,不可能存在因果关系。但是,采用大数据方法却发现它们之间存在相关关系。如果不是大数据方法,啤酒与尿布不也是风马牛不相及吗?其实,风马牛不相及的两个事物如果存在相关关系,也是非常有价值的。
《大数据时代》的作者维克托·迈尔-舍恩伯格和肯尼思·库克耶(2013)对相关关系的至高地位进行了有力的辩解,他们说:“寄希望于识别因果关系是一种自得其乐的幻想,大数据必将打破这种幻想”。看来,因果关系是人类认识世界的主要方法,而大数据颠覆了这种方法。
1 因果关系是人类认识世界的基本方法维克托·迈尔-舍恩伯格和肯尼思·库克耶(2013)指出,一直以来,人类是通过因果关系来理解和认识世界的,主要采用两种基本方法:一种是建立在假想之上的因果关系分析,第二种是逻辑思考的因果关系分析。他们进一步认为,因果关系一般来源于人类经验中的信念以及直觉,有些经不起实证的检验。在小数据时代,因果关系是事物演化发展的逻辑条件,同时,也是我们认识世界本质的逻辑前提。在大数据时代,我们的认识产生于数据,同时也因为对数据的分析,我们洞察了以前不曾发觉的联系。在大数据时代,在很多情况下,我们仍然会借助因果关系分析来展现我们发现的事物间的相互联系。然而,我们也应该清醒地认识到,因果关系其实也是事物相关关系的表征。大数据技术推动了相关关系的应用。将来,运用大数据技术对事物进行相关关系分析将革新人类认识世界的方式(维克托·迈尔-舍恩伯格和肯尼思·库克耶,2013)。
人类认识世界是从观察和实验开始的。在古代,人们的科学活动主要是依靠在生产和生活实践中观察自然界所获得的经验来了解的,这属于第一科学范式,即依靠经验对自然现象认识的阶段。后来有了科学观测与实验的工具,人们才进入科学时代,即第二科学范式阶段。在上述两个科学范式阶段,人们认识世界的方法有两种:一种是由亚里士多德提出的演绎法,另一种是由培根提出的归纳法。演绎法强调对因果关系和内在逻辑的探索,如果没有因果关系,也就无法进行逻辑推理。归纳法则要求使用随机样本,且要求使用精确数据。如果数据中包含了不精确的数据或不完全的数据,归纳法则不可能得出相对正确的认识和判断(江大白和徐飞,2016)。
现代科学的发端之一就是逻辑学。逻辑学的基础就是因果关系,有因必有果,有果必有因。离开了因果关系,人们似乎就无所适从了,这就导致人们在科学实验中过分追求因果关系的倾向。似乎一定要找到为什么,才算完成了一个项目,一个实验,一项研究。人们认为,原因与结果之间必然有联系,只有具有完整因果链的认识才是真正具有价值的、正确的。而大数据推翻了微观层面的逻辑因果关系,进入了更高层次的相关关系之中,这是人类技术手段的提升带来的哲学层面可供观察的新视角。
矿床学研究的目的,从经济学角度来说,应着重于查明矿床形成的规律,指导矿床的找矿,提高经济价值。但是,在科学研究中,人们往往最关注的却是矿床成因、成矿模式和成矿规律问题,认为这是矿床学研究的核心。人们热衷于矿床成因的研究,寄希望于通过矿床成因来解决找矿问题,这是人们过度关注因果关系的一个反映。这样做的结果如何呢?正如国际矿床成因协会主席J.D.里奇(1983)一针见血指出的:“我一生花费了大部分时间,力求解释矿床成因,我从中得到了许多学术上的满足,但我不能说通过这种努力究竟找到了什么矿”。里奇还说,根据地球物理资料可以提供俯冲板块的更可靠的位置,所有这些当然在理论上是很吸引人的。不过,了解板块的俯冲作用,了解一部分岩石圈在软流圈上的运动及有关的其它现象对于找矿地质人员又有什么用处呢?(见张炳熹,1999)。法国地质学家P. A.贝利(1981)则认为,成因模式对于在一定矿床类型的形成中给出了令人满意的理论解释,在学术上具有重要意义,但在大多数勘查工作中并没有什么价值。尽管国外大多数矿产勘查家仍然坚持理论指导找矿,强调成因理论在矿产勘查中的作用(以上转张言海,1998)。
矿床学研究不同于岩石学研究,岩石有各种各样的变化,但是,基本上是可控的,在一个地区总结出来的岩石学理论,可以且可能应用于其他地区。矿床的变化太大,受影响的因素太多,在一个地区总结出来的成矿理论,很难应用于其他地区。因此,探讨矿床成因不是一般的难。实际上,野外我们所观察到的矿床与其他要素之间的关系,并不能简单地归结为因果关系。在许多情况下,成矿与周边要素(如岩体、地层、构造和蚀变等)之间的关系大多是相关关系而非因果关系(张旗和周永章,2017)。以安徽铜官山夕卡岩型矿床为例(图 1),如果矿液和流体来自铜官山岩体,这些矿液和流体应当聚集在岩体的顶部,可是,铜官山岩体出露在地表,说明岩体顶部已被剥蚀,地表就不可能成矿了。而实际上成矿在石英闪长岩与围岩灰岩接触带之间,说明流体和矿液来自岩体下部,主要沿接触带上升,并非来自岩体自身,也非聚集于岩体顶部。实际上,抛开成因争论,对于铜官山矿床的成矿和找矿来说,发现成矿与上述要素之间的相关关系比因果关系更重要和有效。
从矿床与围岩(地层、构造、岩浆、蚀变、岩性等)的关系可以看出,因果关系必然是是一种相关关系,但是,相关关系不一定有因果关系的内涵。因果关系必然是相关关系,因果关系隐含在相关关系中。我们不能仅仅满足于获得了某些相关性。对新的相关关系的解释,从相关关系中去追寻其中的因果关系,是科学家的任务,是新时代推动科学进步的动力。相关关系并不一定都具有因果性,即使人们暂时还不能解释某些相关性,但是,并不妨碍这些相关关系可以产生价值,甚至是巨大的价值。
哈克图解是文献中常用的图解,许多人以为哈克图解可以解释岩石成因问题,实际上,哈克图解直观上给出的是相关关系(包括相关和不相关),这些相关关系中是否隐含着某些因果关系,是需要证明的。例如一个玄武岩层,在不同层位采集的样品,随着层位的上升,Mg#数值逐渐降低,玄武岩的TiO2、Al2O3、Zr、Rb、Fe、K、Pb、Cs、V、Ni元素等会发生相应的变化(或升高,或降低,或不变,有的呈线性关系,有的不呈线性关系,有的杂乱无章,等等),直观地反映了Mg#与其他元素之间或存在相关性,或不存在相关性。不存在相关性,即不存在因果性;存在相关性的,有些可能反映了事物的因果性,有些可能并不反映事物的因果性。因此,情况是复杂的,是需要研究的,不能一厢情愿地认为只要是玄武岩的某些元素在哈克图解上表现为线性关系(表明具有相关性)即解释为因果关系。在一个花岗岩体中,可能存在辉长岩、闪长岩、花岗岩,随着SiO2含量的变化,许多元素也会发生相应的变化(或升高,或降低,或不变,有的呈线性关系,有的不呈线性关系,有的杂乱无章,等等),是否也如玄武岩一样,直观地反映了Mg#与其他元素之间或存在相关性或不存在相关性?如果野外研究表明辉长岩、闪长岩、花岗岩之间为侵入关系,是不同时代的,那么,辉长岩、闪长岩、花岗岩之间,不论是否存在线性关系,均不是相关关系,更不可能是因果关系。因此,答案是否定的。即使在一个花岗岩体中,随着SiO2含量的变化,某些元素随之也发生了变化,甚至显示很好的线性关系,表明它们之间存在相关性,但是,是否存在因果性,仍然是需要证明的。因此,相关性和因果性之间的关系是比较复杂的,有的相关性即因果性,有的相关性中隐含了某些因果性,有的相关性不存在因果性。
因果关系在许多情况下并不是一个“因”产生一个“果”,通常是一个“因”产生许多“果”,或一个“果”来自许多“因”。例如一个具有一定地球化学特征的玄武岩,可以来自不同地幔的不同程度的部分熔融,也可来自原始玄武岩浆的分离结晶作用,也可来自岩浆的混合作用等等。相反,一个地幔岩,在低程度部分熔融时可以产生LREE富集的玄武岩,在高程度部分熔融时可以形成REE平坦的玄武岩,地幔岩加水还可以形成安山岩。在上述因果关系中,也许只有一个因素;也许存在两个因素,一个为主,一个为辅;也许两个因素同样重要;也许先是一个因素,后加入另一个因素;如此等等,可能还有更加复杂的情况。这就使因果关系的推导扑朔迷离。再由于有些因果关系是线性的,有些不是线性的,更增加了因果关系推导中存在的不确定性。因此,追求因果关系并不容易,这也许是科学家锲而不舍、乐此不彼地追求的缘由。
2 大数据时代追求相关关系在经验和科学阶段,在小数据时代,由于面对的数据量有限,因此有可能找到各个数据之间的因果关系。而在大数据时代,面对的往往是海量数据,因此,人们很难跟踪每一个数据的前因后果。也就是说,我们几乎不可能找到每个数据的因果链。因此,在大数据时代,我们不必强调现象背后的原因,而是要让数据自己发声,知道是什么,没必要知道为什么(黄欣荣,2016)。大数据最重要的特征是重视数据之间的相关关系,从而不再一开始就把关注点放在因果关系上,这是对因果性的真正超越(江大白和徐飞,2016;黄欣荣,2016)。江大白和徐飞(2016)指出,从哲学层面分析,大数据方法的本质即是用海量数据代替少量样本,用混杂数据代替精确数据,用相关关系代替因果关系。由此引发的宏观性和直接性是传统的认识方法所难以完全替代的。
在大数据研究中,往往使用与该问题相关的全部数据,即所谓的“全数据模式”(黄欣荣,2016)。在大数据时代,模型、假说和理论不是最重要的,因果关系也不是最重要的。最重要的是数据,是对数据的挖掘,让数据自己说话(王天思,2016)。于是,大数据相比小数据就是一个质的提升,我们知道,量变会引起质变,当一个事物的量增加到一个极限之后,在某些条件下就可能对事物带来质的改变(当然,量变与质变的关系虽然并不是这样简单)。实际上,这不仅是量变与质变的区别,还是整体与局部的区别。因为,数据量越大,越接近事物的本来面目。因此,大数据为人类提供了一个接近事物原貌的视角,为人类科学决策与分析提供了科学的依据。
在大数据基础上建立起来的相关关系,没有关于“为什么”的理解,只有“是什么”的结果。大数据只追求“是什么”,而不关心“为什么”。虽然大数据不关注因果关系,但是并不能因此而放弃对因果性的追求,更不能停留在“是什么”就够了。舍恩伯格指出,“大数据的核心是预测”。预测不是算命,而是以事实为依据,以科学规律为基础的。
3 相关关系的实用性和重要性不同物质之间存在各种各样的相关关系,因果关系只是相关关系中的一种。不是只有因果关系才重要,相关关系也很重要,相关关系也能产生价值。例如我们对玄武岩判别图的研究(王金荣等,2017;张旗等,未刊)。早先的判别图是根据对不同构造环境玄武岩的成因研究厘定的,是从对玄武岩因果关系的了解,根据对典型地区的解剖,采用抽样的、精确的数据归纳得出来的。按照这种方法得出的玄武岩判别图非常完美,在应用中也取得了一定的效果。但是,随着数据的大量积累,发现越来越多不适应的情况,判别图几乎失效了,按照因果关系厘定的判别图遭遇了危机,判别图濒临被淘汰的命运(王金荣等,2017;张旗和周永章,2017)。我们采用大数据方法,不考虑数据之间的因果关系,对全球全体数据进行挖掘,得到了新的、效果更好的判别图(图 2),新的利用大数据方法得出的判别图,主要表现在Nb/Y、K2O/Cu、Sr/V、Na2O/Ga等关系上,上述比值部分是具有因果关系的(Nb/Yb),是我们所熟悉的。但是,许多却是我们不熟悉的,如K2O/Cu、Sr/V、Na2O/Ga,其中,有些竟然是主元素与金属元素之间的关系,他们之间显然具有某种相关性,虽然我们目前还无法对上述相关性作出科学的解释。但是,毋庸置疑,由上述相关关系组成的判别图优于早先的按照因果关系厘定的判别图。早先的判别图是有条件的,我们的判别图是没有条件的,它包含了全球全部的数据,是可以放之四海而皆准的(张旗等,未刊)。
此外,安山岩构造环境判别图的厘定也是大数据研究的一个重要结果。在判别图领域,有玄武岩构造环境判别图、花岗岩构造环境判别图,唯独没有安山岩构造环境判别图(Pearce and Cann, 1973;Wood, 1980; Maniar and Piccoli, 1989; Pearce et al., 1984),说明学术界对玄武岩和花岗岩的成因和地球化学研究有深厚基础的,对它们给予了更多的关注,而相对安山岩的研究则略显不足。
安山岩是各类岩浆岩中最复杂的,比玄武岩和花岗岩复杂得多。玄武岩的成因可有各种各样的见解,但是有一条没有疑问,即玄武岩是地幔部分熔融形成的。花岗岩的成因也异常复杂,学术界争论很大,但是也有一条是肯定的,即花岗岩是地壳部分熔融的,地幔不可能直接部分熔融形成花岗岩(张旗等,2008)。而安山岩不同,既有幔源的,也有壳源的,还可以是玄武岩分离结晶形成的、岩浆混合形成的等(如玻安岩、赞岐岩、高镁安山岩等)。上述因素可能是安山岩判别图研究难以逾越的禁区,因此,学术界对安山岩的构造环境几乎是一筹莫展。可喜的是,刘欣雨等(2017)采用大数据方法对全球全体安山岩构造环境进行了探索,研究发现,安山岩也是可以判断构造环境的,其效果甚至堪比早先的玄武岩判别图。刘欣雨的安山岩判别图使用的元素主要是Co/Nb、Pb/Ta、CaO/Nb、Cs/Zr、Cs/Ta、Cu/Ta、Cs/Nb、Cs/Ta、Er/Ta、Co/Ce、Cu/Ta、Co/Nb等关系式,其中包括了主元素、过渡元素、金属元素,上述元素之间的比值关系(相关关系)是早先的研究很少见到的,它们之间是否存在因果关系不清楚,但是,它们既然能够区分开洋岛安山岩和岛弧安山岩,上述关系必然是有价值的。看来,相关关系可能大有用处,这是判别图研究领域的一个重大突破,解决了困扰学术界几十年的难题。
4 对相关关系的追求可最大限度地避免人为因素的干扰人是科学研究和实践的主体,任何科学活动都离不开人的参与。因果关系推演的主体是人,因此,回避不了人为因素的干扰。事物A与事物B之间是否存在因果关系,是哪种因果关系,依靠人的研究和判断,依靠人去归纳和演绎。加入人的因素,推理就存在变数,结论可能正确,也可能不正确。但是大数据不同,大数据研究的对象是数据,数据是客观的,研究的方法是科学的,在大数据研究的过程中基本上没有人为因素的干扰。只有在从相关关系中寻找因果关系时,才需要有人的因素。
大数据方法从数据出发,因此,采用大数据方法可以最大限度地避免人为因素的干扰。我们在采用大数据方法研究玄武岩判别图时,收集的是全球共享的数据库资料,采用合理的软件进行计算,直至得出一系列结果。在上述过程中没有人为因素的干扰,只是在对数据进行清洗和对数据进行解释的环节(从相关关系提取因果关系的过程中,从“是什么”提升为“为什么”的过程中)需要人为因素的介入。正是由于:(a)大数据研究的是全体数据,不是典型的、抽样的数据;(b)得出的结果是相关关系,不追求因果关系;(c)研究过程中没有或很少人为因素的干扰。因此,大数据得出的结论是相对真实、客观,可靠,正确的。
5 小结(1) 一直以来,人们都是通过因果关系来认识世界的。人们关注事物的因果性,而忽视了事物之间的相关性。在地球科学中,大家关注的因果关系(如矿床成因、岩浆成因、沉积成因、变质成因等)实际上是血缘关系,这是比因果关系更狭窄的因果关系,只是因果关系中很少的一部分。
(2) 因果关系必然是相关关系,因果关系隐含在相关关系中。我们不能仅仅满足于获得了某些相关性。对新的相关关系的解释,从相关关系中去追寻其中的因果关系,是科学家的任务,是新时代推动科学进步的动力。相关关系并不一定都具有因果性,即使人们暂时还不能解释某些相关性,但是,并不妨碍这些相关关系可以产生价值,甚至是巨大的价值。
(3) 大数据改变了人们的认识论和方法论。大数据不是从理论出发,而是从数据出发,挖掘数据之间的相关性,提升数据的价值。大数据开辟了全新的“科学始于数据”这一知识发现的新模式。多少年来,人们习惯于科学的、逻辑的、传统的思维方式,习惯于对因果关系的追求。现在,科学的发展要求我们更加重视相关关系,从对因果关系的追求转变为对相关关系的追求,这是科学的进步,时代的要求。
(4) 大数据是对传统哲学的挑战。科学与哲学具有相关性,科学需要哲学的支持,而哲学也只有在与科学的结合中才能成为科学的精华。科学和哲学的任务是力图用最简单和最少的原因去说明事物,并使结果达到最大可能的普遍程度。大数据是一场新的数据技术革命,它必然会对传统哲学理论提出新的挑战,传统哲学也将随大数据革命而产生革命性变革,并随着对问题的回应而获得哲学自身的丰富和发展。
后记 大数据与哲学是一个敏感而深奥的问题,我们在大数据研究中有了一点初步的体会,获得一些感悟,存在问题不少,欢迎大家批评。感谢在研究中与中国科学院地质与地球物理研究所张尉博士的讨论,他的见解对于本文有重要的价值;感谢中国科学院地质与地球物理研究所赵勇博士(图 2是赵勇博士研究的成果)和甘肃省地调局罗建民高级工程师的帮助;感谢吴冲龙教授和张尉博士对本文的评论。
Huang XR. 2016. New challenges to philosophy of science from big data. Journal of Xinjiang Normal University (Philosophy and Social Sciences), 37(3): 133-139. |
Jiang DB and Xu F. 2016. Big data:The new revolution of scientific methodology. Studies in Dialectics of Nature, 32(1): 109-114. |
Liu XY, Zhang Q and Zhang CL. 2017. A discussion on the tectonic setting of global Cenozoic andesite. Chinese Journal of Geology, 52(3): 649-667. |
Lv CY, Cao XS and Xiao FQ. 2007. The geological features and prospecting potential in the deep of Tongguanshan deposit, Anhui. Geology and Prospecting, 43(6): 12-16. |
Maniar PD and Piccoli PM. 1989. Tectonic discrimination of granitoids. Geological Society of America Bulletin, 101(5): 635-643. DOI:10.1130/0016-7606(1989)101<0635:TDOG>2.3.CO;2 |
Mayer-Schonberger V and Cukier K. 2013. Big Data: A Revolution That Will Transform How We Live, Work, and Think. In: Sheng YY and Zhou T (Trans. ). Hangzhou: Zhejiang People's Publishing House, 1-261 (in Chinese)
|
Pearce JA and Cann JR. 1973. Tectonic setting of basic volcanic rocks determined using trace element analyses. Earth and Planetary Science Letters, 19(2): 290-300. DOI:10.1016/0012-821X(73)90129-5 |
Pearce JA, Harris NBW and Tindle AG. 1984. Trace element discrimination diagrams for the tectonic interpretation of granitic rocks. Journal of Petrology, 25(4): 956-983. DOI:10.1093/petrology/25.4.956 |
Wang JR, Chen WF, Zhang Q, Jin WJ, Jiao ST, Wang YX, Yang J and Pan ZJ. 2017. MORB data mining:Reflection of basalt discrimination diagram. Geotectonica et Metallogenia, 41(2): 420-431. |
Wang TS. 2016. Causality in big data and its philosophical connotations. Social Sciences in China, (5): 22-42. |
Wood DA. 1980. The application of a Th-Hf-Ta diagram to problems of tectonomagmatic classification and to establishing the nature of crustal contamination of basaltic lavas of the British Tertiary Volcanic Province. Earth and Planetary Science Letters, 50(1): 11-30. DOI:10.1016/0012-821X(80)90116-8 |
Zhang BX. 1999. A thinking for the studies of mineral deposits and the practice of exploration. Earth Science Frontiers, 6(1): 1-11. |
Zhang Q, Wang Y, Xiong XL and Li CD. 2008. Adakite and Granite:Challenge and Opportunity. Beijing: China Land Press: 1-344.
|
Zhang Q and Zhou YZ. 2017. Big data will lead to a profound revolution in the field of geological science. Chinese Journal of Geology, 52(3): 637-648. |
Zhang YH. 1998. Prospecting by theory or by empiricism:A controversy on the problems of prospecting for ore deposits proposed by the western explorers. Jilin Geology, 17(1): 94-96. |
黄欣荣. 2016. 大数据对科学哲学的新挑战. 新疆师范大学学报(哲学社会科学版), 37(3): 133-139. |
江大白, 徐飞. 2016. 大数据:科学方法的新变革. 自然辩证法研究, 32(1): 109-114. |
刘欣雨, 张旗, 张成立. 2017. 全球新生代安山岩构造环境有关问题探讨. 地质科学, 52(3): 649-667. DOI:10.12017/dzkx.2017.042 |
吕才玉, 曹晓生, 肖福权. 2007. 安徽铜官山矿床成矿地质特征及深部成矿预测. 地质与勘探, 43(6): 12-16. |
王金荣, 陈万峰, 张旗, 金维浚, 焦守涛, 王玉玺, 杨婧, 潘振杰. 2017. MORB数据挖掘:玄武岩判别图反思. 大地构造与成矿学, 41(2): 420-431. |
王天思. 2016. 大数据中的因果关系及其哲学内涵. 中国社会科学, (5): 22-42. |
维克托·迈尔-舍恩伯格, 肯尼思·库克耶. 2013. 大数据时代: 生活、工作与思维的大变革. 见: 盛杨燕, 周涛译. 杭州: 浙江人民出版社, 1-261
|
张炳熹. 1999. 浅谈矿床研究与勘查实践. 地学前缘, 6(1): 1-11. |
张旗, 王焰, 熊小林, 李承东. 2008. 埃达克岩和花岗岩:挑战与机遇. 北京: 中国大地出版社.
|
张旗, 周永章. 2017. 大数据正在引发地球科学领域一场深刻的革命—《地质科学》2017年大数据专题代序. 地质科学, 52(3): 637-648. DOI:10.12017/dzkx.2017.041 |
张言海. 1998. 理论找矿, 还是经验找矿—西方矿产勘查家就如何进行找矿问题展开的争论. 吉林地质, 17(1): 94-96. |