在地球化学研究中,数据图解可以直观展示数据的规律和特征,一直以来是研究人员必不可少的分析手段。迄今为止,国内外开发了多款数据分析成图软件(例如,Richard, 1997; Carr, 1995; Clarke, 1993; Petrelli, 2003;薛涛等,2013)。总的来说,这些软件可以分为三类:(1)独立运行程序,例如Minpet(Richard, 1997)、Igpet(Carr, 1995)、Newpet(Clarke, 1993)和PETROGRAPH(Petrelli, 2003; Petrelli et al., 2005)等; (2)基于Microsoft Excel的VBA宏,常用的包括PetroPlot(Su et al., 2003)、Geokit(路远发,2004)、GeoPlot(Zhou and Li, 2006)和GCDPlot(Wang et al., 2008)等;(3)基于某些软件的程序包,例如,基于统计软件R的GCDkit(Janoušek et al., 2006),和基于CorelDRAW的CGDK(Qiu et al., 2013)。这些软件在地球化学研究中发挥了重要作用,为科研人员的工作节约了很多时间,提供了便利。然而,随着科研工作中处理的数据量不断增大,以及数据分析与成图需求的不断变化,这些不同时期开发的软件或多或少都存在一些不足之处:(1)尽管微软公司的Windows是目前主流的操作系统平台,但在国内外,尤其是在科研工作者中,有大量的苹果公司Mac系统或不同版本的Linux系统用户;上述所有地球化学数据成图软件中,几乎所有的独立运行程序和绝大多数的Excel VBA宏程序都只能在Windows系统下运行。(2)通过几十年的工作,如今已获得大量来源分散的数据,而目前研究也越来越多地注重区域对比和大规模统计分析,但大多数现有的地球化学成图软件的设计都针对单一数据表或数据文件。因此,在分析不同来源数据时,科研工作者需要花费大量时间和精力对数据格式进行统一并汇总整理。(3)在许多软件中,所成图件中数据系列符号、数据线条和坐标轴属性的修改操作都比较繁琐。(4)随着Nd和Hf同位素的广泛应用,在同位素地球化学的研究中,Nd和Hf同位素随时间演化,及其与不同时期地壳演化线对比的图解是常用的一类图解,但目前很少有软件提供相关功能。(5)很多软件支持用户根据需求自定义图解,然而设置操作却多有不便。(6)一些软件,如Excel宏程序,所导出的图件中含有大量重复或无意义的点线面等元素,需要后期在其它软件中花费大量精力去除并修饰。
为了解决以上问题,并且满足目前研究工作中的一些需求,我们开发了一款基于MATLAB的地球化学数据成图软件——MATPLOT。该软件一方面可以在Windows、Mac OS或Linux系统下的MATLAB中运行(MATLAB APPS形式);还可以在安装对应版本的MATLAB支持包后,通过编译生成的软件程序独立运行在不同操作系统中(独立运行程序)。该软件不但可以处理一个数据表文件不同表单中的数据,同时还可以处理同一文件夹下不同数据表文件的数据,并且不需要数据具有严格一致的格式。通过MATPLOT可以对地球化学数据进行常用成图分析(包括Hf和Nd同位素演化图解)或简单的统计分析(平均值和相关性分析)。所有成图均可导出为位图或矢量图,用于后期添加注释和说明。
1 结构与功能MATPLOT程序的主界面(图 1)由8个不同大小的区块按键组成:数据(DATA)、成图参数(STYLE)、统计分析(STATISTICS)、预设成图(PROVIDED diagram)、自定义成图(FREE PLOT)、设置(SETTINGS)、关于(ABOUT)和退出(QUIT)。按照功能划分,MATPLOT主要由数据处理、参数设置、数据成图、统计分析和图件导出等五部分组成(图 2)。详细的使用说明和参数介绍可见《MATPLOT使用和操作说明》。
MATPLOT的数据处理功能主要有加载/保存数据文件、导入数据、查看/编辑数据、数据选取/分组和数据导出等。
MATPLOT加载或保存的数据文件格式为“*.mat”,它是一种特定的MATLAB数据文件格式。一个有效的MATPLOT数据文件由四部分组成:(1)数据类型名。目前支持“全岩地球化学(Bulk Geochemistry)”和“锆石Hf(Zircon Hf)”两种模式,后续将支持其它数据类型;(2)变量名为“DataMat”的数据;(3)成图参数名和(4)成图参数。为了使用方便,MATPLOT会在启动时自动加载最后一次成功保存的数据文件。
在导入数据时,MATPLOT不但可以导入同一个Excel不同表单中的数据,还可以导入指定文件夹下所有Excel中的数据。程序将自动按照指定的变量名结构对数据汇总整理。在MATPLOT中可以自定义变量名结构表,也可以设置变量宏以用于自动计算。
由于使用习惯的不同,不同来源的同一类型数据常常具有不同的变量名。例如,全铁在不同文献中往往有多种表示方法:“Fe2O3t”、“Fe2O3*”或“TFe2O3”等。在选定变量名结构时导入数据时,如果变量名结构表中存在这些常用“变量名”(表 1),MATPLOT可以将对应“相似变量名”的数据与之合并。
所有数据汇总整理后,MATPLOT将逐一检查含有宏的变量是否有有效数据,如果没有,将按照指定的宏计算相应的数据。最后,根据对应的年龄、测试值和放射性母体含量计算相应的Hf或Nd同位素参数。
成功加载或导入数据后,数据的一些简要信息,包括文件名、数据类型、选用数据量/总数据量和成图参数名将显示于MATPLOT数据窗口界面的右侧。如果数据在导入前没有设定分组信息,在导入时将被设定为默认值(第1组)。在MATPLOT可以根据给定条件重新设定数据分组,也可以自定义条件选取成图过程中需要显示的数据。
在使用设置数据分组、选取数据、统计分析或者自定义成图等功能时,变量表达式不但支持简单的四则运算(加减乘除),还支持一些较为复杂的运算函数,详细的运算函数和表达可见表 2。
在读取数据文件或导入数据后,MATPLOT可以将数据导出为Excel格式或以制表符分隔的文本格式。
1.2 参数设置在MATPLOT主界面的设置功能(SETTINGS)下,可以对软件的默认工作目录(Default work path)、成图坐标系尺寸(Diagram size)、预设成图(Provided diagram)参数、同位素衰变常数(Decay Constant)和常用Nd和Hf同位素储库(Reservoirs)值进行设定或修改。其中,在重置预设成图参数时,MATPLOT将读取“config”目录下对应Excel中的参数设置然后生成新的参数文件。
在成图参数(即数据点/线格式)功能(STYLE)下,可以对成图时的数据系列格式进行设定。作为基于MATLAB环境开发的程序,MATPLOT支持13种数据点格式和4种线条格式。在MATPLOT中,不仅可以在软件中逐一设置数据系列格式,同时还支持根据从Excel批量导入数据系列格式。
1.3 数据成图MATPLOT成图分两部分,一部分是自定义成图(FREE PLOT),另一部分是预设成图(PROVIDED diagram)。二者具有完全相同的成图界面(图 3)。该界面为左右两部分,左边为成图区,右边为坐标系属性面板。
MATPLOT的成图区由一个或多个成图坐标系组成(图 3),这些成图坐标系可以采用不同的成图类型。并且,MATPLOT支持将完成的多个数据图解统一导出,以便对比分析和后期处理。在使用自定义成图功能时,成图坐标系的数量由用户指定,但其最大值由成图坐标系的尺寸(用户自定义)和显示器分辨率尺寸共同决定。在使用预设成图功能时,成图坐标系的数量由成图坐标系的尺寸和预设成图的中子图数量决定。
在成图窗口的属性面板中,可以对指定成图坐标系的成图参数(成图类型、标签及相关参数)、数据显示内容(点、线、数据范围和参数线)和坐标系属性(坐标轴范围、刻度显示、坐标轴属性和网格属性)等进行设定。此外,为了方便多个成图窗口之间的对比,还可以隐藏属性面板。
1.3.1 自定义成图MATPLOT提供二元散点图(binary)、三角图(ternary)、标准化折线图(line chart)、柱状图(histogram)、概率密度图(probability density)和同位素演化图(isotope evolution)等6种常用图解类型。此外,MATPLOT还支持调用预设成图中的指定图解对数据进行成图。
三角图和同位素演化图是两种特殊类型的二元散点图。三角图是通过将三组具有相关性的数据转化为两组不相关的数据,然后绘制而成的二元散点图。同位素演化图是在εHf(t)或εNd(t)对年龄值散点图的基础上,加上根据给定参数(可设置修改)计算的同位素演化线而成的。在使用同位素演化图时,可以在图面中添加或删除指定模式年龄的地壳演化线。
标准化折线图是通过参考值对一定顺序排列的变量数据标准化后绘制的折线图。在地质学研究中,稀土元素分布模式图和微量元素比值蛛网图是应用最广泛的两个标准化折线图。MATPLOT支持用户按照需要自定义变量顺序,也支持导入或手动添加用于标准化的参考值数据。对于没有标准化值变量的数据,成图时不进行标准化处理。
在给定统计范围和数据柱的步长后,MATPLOT可以对所选取数据进行统计分析,绘制相应的柱状图。在没有给定或部分给定柱状图统计参数时,MATPLOT分别采用所选取数据的最小值、最大值和二者之差的1/10作为统计范围的下限、上限和步长进行数据的统计成图。
概率密度图是假设数据及其误差服从正态分布,所有数据在一定范围内每一点的概率总和组成的曲线。MATPLOT不仅可以对数据总体或其中每一组数据绘制概率密度曲线,还可以对每条曲线注明每一处极大值和极小值。
1.3.2 预设成图在地球化学研究中,分类图解或构造判别图解使用非常广泛。这些图解是不同类型的数据图,在添加一些参数线划定参数区域后,对不同区域进行注释而形成的。根据研究工作的需要,常常还需要成对或成组地完成一些相似的图解,用于说明或解释一些相关问题。例如,微量元素蛛网图和稀土元素分布模式图,A型花岗岩系列判别图解等。因此,通过预先设定成图参数,快速完成一些列图解的成图可以显著提供工作效率。
MATPLOT将目前常用的全岩地球化学图解,根据数据特征、岩石分类和构造环境判别等三大类,预设了13组共52个图解(图 4,详见《MATPLOT使用和操作说明》);对于锆石Hf同位素,预设了一个图解。除此之外,用户可以通过在Excel表格中设置成图参数后,在MATPLOT中添加自定义的预设成图设置,以便随后在MATPLOT中快捷地生成相应的数据图解。
在MATPLOT中,可以对数据进行简单地统计分析,包括计算变量平均值和变量相关性分析。
变量平均值计算(图 5a)包括算数平均值和两种加权平均值,即图基双权(Tukey’s biweight)和误差相关加权平均值(Error-wtd Average)。图基双权加权平均值是一种稳健统计学方法计算的平均值,可以很大程度排除异常数据点的影响(Hoaglin et al., 1983)。该加权平均值的计算与数据误差无关,距离平均值越近的数据获得的权重越大,而距离平均值越远的数据给定的权重越小,甚至可以作为数据异常点被剔除(Hoaglin et al., 1983)。误差加权平均值是一种与数据误差负相关的平均值。这一平均值的计算中,将数据误差倒数的平方作为权重对数据进行加权计算(York, 1966, 1969; Faure and Mensing, 2005)。在MATPLOT中,两种加权平均值的结果分别展示为数据散点图(图基双权加权平均值)和数据误差条图中(误差相关加权平均值)。
在MATPLOT中,可以根据给定的相关性函数表达式,通过多种非线性回归的方法对变量或变量表达式的相关性进行分析,得出参数值和相关性系数(图 5b)。由于在常用的地球化学数据分析中,元素之间的相关性或者元素比值之间的相关性主要为线性或者双曲线函数。例如,在两端员混合模型中,元素A和元素B应当具有线性关系,元素A和元素B与元素C的比值,和元素A与元素B的比值和元素C与元素D的比值的相关方程都是双曲线函数。因此,MATPLOT预设了两种线性和两种双曲线函数表达式用于相关性分析。此外,MATPLOT还支持自定义的相关性函数表达式(x为自变量,其它变量为参数变量)进行相关性分析,确定参数值和相关性参数。
1.5 图件导出数据成图和统计分析功能中所形成的数据图均可以导出为位图(300dpi,“*.jpg”或“*.tif”格式)或矢量图(“*.eps”、“*.pdf”或“*.ps”格式)。
2 与现有软件的对比MATPLOT是基于MATLAB开发的软件。相对于目前常用的其它软件,MATPLOT不但支持对较大数量的数据进行成图和统计,而且在处理数据量较大时,运行速度具有明显的优势。在MATPLOT的数据成图和统计功能中,二元散点图、三角图、标准化折线图和柱状图是数据的简单反映,它与其它软件的成图结果一致。目前研究中常用的一些功能,概率密度图和加权平均值计算主要通过Isoplot程序(Ludwig, 2003, 2008)完成,同位素演化图中的参考线主要通过手动添加。在这些功能上,MATPLOT的处理方法与Isoplot及现有方法略有不同。
2.1 概率密度图MATPLOT与Isoplot绘制完成概率密度图的处理方法相似。二者都是首先确定一个包含给定数据的计算范围。然后,根据数据和相应的误差值确定的一系列正态分布函数,以一定间距对该计算范围内若干点求概率和(概率密度值)。最后,依次连接每个点的的概率密度值进而形成数据的概率密度曲线。由此可见,概率密度线的确定与计算点概率值连接方式、计算范围和计算点间距有关。其中,计算点概率值连接方式和计算点间距直接影响概率密度线的精度和准确性。在这两方面,MATPLOT与Isoplot均有不同。
MATPLOT中计算点的概率密度值依次以折线形式连接,而Isoplot通过Excel内置的曲线圆滑功能连接这些概率密度值(Ludwig, 2003, 2008)。因此,在计算点间距较小时,二者差别不明显,而在计算点间距较大时,MATPLOT的结果准确性更高。
在MATPLOT中,计算点间距取计算范围的1/4000和数据误差值中最小值1/10两个数值中较小的一个。不同版本Isoplot中计算点间距的确定略有不同。例如,在Isoplot(v 3.25)中,间距为计算范围的1/340(Ludwig, 2003),在Isoplot(v 4.15)中,间距为计算范围的1/2000(Ludwig, 2008)。因此,在数据跨度较小时,MATPLOT和不同版本的Isoplot成图结果差异不明显,但当数据跨度较大时,Isoplot(v 3.25)所生成的概率密度曲线的准确性明显较低,Isoplot(v 4.15)的准确性和精度相对较高,而MATPLOT的准确性和精度更高。
2.2 同位素演化图在Hf和Nd同位素研究中,样品εHf(t)值和εNd(t)值对年龄的散点图是常用的图解,往往需要添加亏损地幔演化线和不同模式年龄的大陆地壳演化线。目前常用添加演化线的方法是一种近似的方法:即假设亏损地幔演化线和地壳模式年龄演化线均为直线,通过计算两个端点的值,或者根据一个端点值和固定斜率,在图中绘制相应的直线作为演化线。
根据放射性同位素理论,同位素演化图中亏损地幔演化线和地壳模式年龄演化线的理论方程分别为方程(1)和方程(2)。其中,在Nd同位素的相关计算中,DDM,DCHUR和DCC分别为现今亏损地幔、球粒陨石和地壳的143Nd/144Nd值,NDM和NCHUR分别为现今亏损地幔和球粒陨石的147Sm/144Nd值,λ为147Sm的衰变常数,T为地壳模式年龄值。在Hf同位素的相关计算中,DDM,DCHUR和DCC分别为现今亏损地幔,球粒陨石和地壳的176Hf/177Hf值;NDM和NCHUR分别为现今亏损地幔和球粒陨石的176Lu/177Hf值,λ为176Lu的衰变常数,T为地壳模式年龄值。
(1) |
(2) |
在MATPLOT中,根据公式(1)和公式(2),取50Ma和地壳模式年龄值1/100的较小值为间隔,计算模式年龄演化线。因此,通过MATPLOT绘制同位素演化图的准确性相对较高。在一些极端情况下,MATPLOT和常规方法的成图结果差异明显。例如,现今到4600Ma之间,对于亏损地幔εHf(t)演化线和模式年龄为4600Ma的大陆平均地壳演化线(如果有意义),通过两种不同方式获得结果的最大偏差分别可达0.22和0.77。
2.3 加权平均值计算在MATPLOT和Isoplot两款软件中均提供对数据进行异常点检验后,再计算图基双权和误差相关加权平均值,但异常点检验的方法有所不同。
在图基双权加权平均值的计算方法中,数据的权重和数据与平均值的距离有关。显著离群数据的权重甚至会被赋为0,即被识别为异常点(Hoaglin et al., 1983)。在MATPLOT中,取常用的时间常数c为6(Hoaglin et al., 1983)检验异常点并求加权平均值(Hoaglin et al., 1983)。在MATPLOT计算误差相关加权平均值过程中,通过学生检验(t检验)对样品中异常点进行检验,检验参数t取常用的5%(王松桂等,1999;何晓群和刘文卿,2011)。
在Isoplot中,两种不同的加权平均值计算使用统一的异常点检验方法。这是一种与数据误差有关的处理方法(Ludwig, 2008)。首先,根据数据和对应的误差,求一个相关的外在误差常数。然后,根据数据、数据误差、外在误差常数和已确定的异常点个数确定检验区间,将检验区间之外的数据识别为异常点。
由上可见,在数据中不存在异常点时,MATPLOT和Isoplot可以给出一致的加权平均值。在数据中存在异常点时,Isoplot只能对具有误差的数据进行异常点检验,而MATPLOT还可以对没有给出误差的数据进行异常点分析。对于二者异常点检验结果的可靠性,可能还需要进一步的研究探讨。
3 小结MATPLOT是一款采用MATLAB进行开发实现的地球化学数据成图软件,可运行于Windows/Mac/Linux多平台中。该软件可以对大量数据的二元散点图、三角图、标准化折线图、柱状图、概率密度图和同位素演化图等6种常用图解类型进行成图,同时还可以对数据开展简单的统计分析。相对于目前主流的同类软件,MATPLOT还具有以下主要特点:
(1) 导入数据方便。MATPLOT可以对不同格式和不同文件中的数据进行汇总导入。
(2) 成图便捷,图件精度高。在预设成图时,可以快速完成多个所需图解。对于同位素演化图和概率密度统计图,MATPLOT相对于目前常用方法的成图精度更高。
(3) 在完成数据成图后,可以快速地设置坐标系参数,隐藏或显示指定的数据系列及其显示格式和指定数据系列的分布范围,以及在概率密度图中标记极大值和极小值等常用的功能。
(4) 导出的矢量图中冗余元素少,便于后期处理和添加注释说明。
致谢 感谢杨奇荻、王增振、刘超、张建军和童英等人对软件初期版本进行了大量测试,并提供了许多有益建议。
Carr M. 1995. IGPET. Software Program. Somerset, NJ, USA: Terra Softa Inc
|
Clarke D. 1993. NEWPET Software Program. St. Johns, Newfoundland, Canada: Department of Earth Sciences, Memorial University of Newfoundland
|
Faure G and Mensing TM. 2005. Isotopes:Principles and Applications. 3rd Edition. New York: John Wiley & Sons, Inc.: 1-897.
|
He XQ and Liu WQ. 2011. Applied Regression Analysis. 3rd Edition. Beijing: China Renmin University Press: 1-288.
|
Hoaglin DC, Mosteller F and Tukey JW. 1983. Understanding Robust and Exploratory Data Analysis. New York: John Wiley & Sons, Inc.: 1-447.
|
Janoušek V, Farrow CM and Erban V. 2006. Interpretation of whole-rock geochemical data in igneous geochemistry:Introducing geochemical data toolkit (GCDkit). Journal of Petrology, 47(6): 1255-1259. DOI:10.1093/petrology/egl013 |
Lu YF. 2004. GeoKit:A geochemical toolkit for Microsoft Excel. Geochimica, 33(5): 459-464. |
Ludwig KR. 2003. User's Manual for Isoplot 3.00:A Geochronological Toolkit for Microsoft Excel. Berkeley: Berkeley Geochronology Center Special Publication: 1-70.
|
Ludwig KR. 2008. User's Manual for Isoplot 3.70:A Geochronological Toolkit for Microsoft Excel. Berkeley: Berkeley Geochronology Centre Special Publication: 1-76.
|
Petrelli M. 2003. PetroGraph:A new software for the analysis and presentation of geochemical data. Geophysical Research, 5: 06183. |
Petrelli M, Poli G, Perugini D and Peccerillo A. 2005. PetroGraph:A new software to visualize, model, and present geochemical data in igneous petrology. Geochemistry, Geophysics, Geosystems, 6(7): Q07011. |
Qiu JT, Song WJ, Jiang CX, Wu H and Dong RM. 2013. CGDK:An extensible CorelDRAW VBA program for geological drafting. Computers & Geosciences, 51: 34-48. |
Richard LR. 1997. MinPet. Software Program. Gatineau, Canada: MinPet Geological Software
|
Su YJ, Langmuir CH and Asimow PD. 2003. PetroPlot:A plotting and data management tool set for Microsoft Excel. Geochemistry, Geophysics, Geosystems, 4(3): 1030. |
Wang SG, Chen M and Chen LP. 1999. Linear Statistical Models:Linear Regression and Analysis of Variance. Beijing: Higher Education Press: 235.
|
Wang XR, Ma WF, Gao S and Ke L. 2008. GCDPlot:An extensible microsoft excel VBA program for geochemical discrimination diagrams. Computers & Geosciences, 34(12): 1964-1969. |
Xue T, Diao MG and Lü ZC. 2013. Key Issues and solution of analysis support software for petrogeochemical diagrams. Geoscience, 27(6): 1316-1322. |
York D. 1966. Least-squares fitting of a straight line. Canadian Journal of Physics, 44(5): 1079-1086. DOI:10.1139/p66-090 |
York D. 1969. Least squares fitting of a straight line with correlated errors. Earth and Planetary Science Letters, 5: 320-324. |
Zhou JB and Li XH. 2006. GeoPlot:An excel VBA program for geochemical data plotting. Computers & Geosciences, 32(4): 554-560. |
何晓群, 刘文卿. 2011. 应用回归分析. 第3版. 北京: 中国人民大学出版社: 1-288.
|
路远发. 2004. GeoKit:一个用VBA构建的地球化学工具软件包. 地球化学, 33(5): 459-464. |
王松桂, 陈敏, 陈立萍. 1999. 线性统计模型——线性回归与方差分析. 北京: 高等教育出版社: 1-235.
|
薛涛, 刁明光, 吕志成. 2013. 岩石地球化学图解辅助分析软件的关键问题及解决方法. 现代地质, 27(6): 1316-1322. |