2. 中国地质大学(北京)科学研究院, 北京 100083;
3. 中国地质大学(北京)信息网络中心, 北京 100083;
4. 北京大学地球与空间科学学院, 北京 100871;
5. 中国地质大学(北京)珠宝学院, 北京 100083
2. Institute of Earth Sciences, China University of Geosciences, Beijing 100083, China;
3. Information Network Center, China University of Geosciences, Beijing 100083, China;
4. School of Earth and Space Sciences, Peking University, Beijing 100871, China;
5. School of Gemmology, China University of Geosciences, Beijing 100083, China
0 引言
大数据及共享时代的到来,迫切需要构建各个领域的专业数据库,作为地学领域最基本的矿物学系统数据库的构建将为地学科技创新、人才培养以及公众知识普及提供重要支撑和服务。通过整合集成全球矿物学研究数据,建立具有实时更新及高效查询功能的系统矿物学数据库,可为促进系统矿物学数据高效共享和挖掘、提升数据价值提供有效途径。
矿物(mineral)主要是由地壳中的化学元素通过地质作用所形成的天然单质或化合物。它们具有一定的化学组成和内部结构,在一定的物理化学条件范围内稳定,是组成岩石和矿石的基本单元[1-2]。矿物种(mineral species)是指具有确定的化学组成和晶体学性质的矿物,其被赋予特定的名称,名称需经过国际矿物学协会新矿物及矿物分类命名专业委员会(IMA CNMNC)审查批准。系统矿物学数据(systematic mineralogy data)是描述矿物种的分类、中英文名称、化学成分、晶体结构、晶体形态、物理性质、化学性质、热性质、产地、成因产状和与其他矿物的关系等信息的一组数据。
成立于1948年的国际矿物学协会(International Mineralogical Association,IMA),是世界上最大的矿物学组织,由38个国家的官方矿物学会组成。至2018年3月,该组织发布了5 336种矿物数据(http://pubsites.uws.edu.au/ima-cnmnc/)[3],字段包括:英文名称、化学式、发现时间及序号、国家、基本数据、发表文献、最新研究数据、发布文献。
发现新矿物是一项基础性和创新性的矿物学研究工作,代表了一个国家地质学、矿物学的研究水平。1958—2017年,IMA发布的在中国发现的新矿物有129种,约占矿物种的2.4%,比例相对较低。我国幅员辽阔,极端地质条件发育,例如:祁连—秦岭—大别—苏鲁高压、超高压变质带,喜马拉雅巨型造山带,峨嵋山大火成岩省与地幔柱,白云鄂博等超大型稀土元素矿床,大型陨石坑等。当代新矿物发现研究工作,需重点关注这些特殊地质条件区域,由宏观到微观,重视微小粒级矿物,再结合现代测试技术,通过与已知矿物数据对比,加强未知矿物化学成分和晶体结构的研究,以促进我国矿物学研究达到国际水平[4]。
国外有关矿物学的经典专著有《Fleischer’s Glossary of Mineral Species》、《Strunz Mineralogical Tables》、《Dana’s System of Mineralogy, (7th edition)》,新矿物种研究数据发表的期刊有《American Mineralogist》、《Canadian Mineralogist》、《Australian Mineralogist》、《Mineralogical Magazine》、《Physics and Chemistry of Minerals》、《UK Journal of Mines and Minerals》、《European Journal of Mineralogy》、《Mineralogy Record》等。另外还有矿物学数据平台Mineralogy Database (http://webmineral.com/),Handbook of Mineralogy(http://www.handbookofmineralogy.org/)等。
我国编著的矿物学专著主要有《系统矿物学(上、中、下册)》(1982,1984,1987),《中国矿物志:第一卷:自然元素单质及其互化物矿物》(2000),《地球科学大辞典》矿物学部分(2005)及《地质大辞典》矿物学部分(2005)。发表新矿物数据的学术期刊有《岩石矿物学杂志》、《矿物学报》、《地质学报》和《科学通报》等。
上述国内外的矿物学研究成果和资料,为构建系统矿物学数据库提供了丰富的数据源,保证了数据库的科学性和系统性。
1 系统矿物学数据项及其特征由于系统矿物学数据主要来源于专著和论文,不同来源的矿物学数据项不尽相同,本着最大兼容性原则,根据系统矿物学数据的特征,充分考虑数据的完整性、规范性、通用性及可扩展性,构建了系统矿物学数据规范,对分散异构的多源数据进行系统集成[5]。
系统矿物学数据主要包括名称信息,分类信息,结晶学特征,物理性质,化学性质及其他分析测试数据。在研究不同来源数据的基础上,对系统矿物学数据的字段、含义、表示方法、计量单位做了规定。
1.1 分类及名称信息 1.1.1 分级与分类以矿物的晶体化学为基础,首先根据矿物化学组成的基本类型将矿物划分为单质及其类似物、硫化物及其类似化合物、氧化物和氢氧化物、含氧盐、卤化物共五大类,为一级分类,并充分考虑矿物学科发展新趋势,增加了其他一级分类。再根据各大类中阴离子或络阴离子的不同进一步划分二级分类[5](表 1)。
一级分类名 | 二级分类名及编码 |
单质及其类似物 | 单质、碳化物、硅化物、氮化物、磷化物(01) |
硫化物及其类似化合物 | 砷化物、锑化物、铋化物(02),碲化物(03),硫化物、硒化物(04) |
氧化物和氢氧化物 | 氧化物(05),氢氧化物(06) |
含氧盐 | 硅酸盐(07),硼酸盐(08),钒酸盐(09),砷酸盐(10),磷酸盐(11),亚硒酸盐、亚碲酸盐(12),钨酸盐、钼酸盐(13),铬酸盐、硒酸盐、碲酸盐(14),硫酸盐(15),碳酸盐(16),碘酸盐、硝酸盐(17) |
卤化物 | 氯化物、溴化物、碘化物(18),氧卤化物、氢氧卤化物(19),硫卤化物(20),氟化物(21) |
其他 | 月球及陨石矿物(22),有机矿物(23),非晶质矿物(24) |
矿物种的中文名称,主要以中华人民共和国国家标准地质矿产术语分类代码中第9部分:结晶学及矿物学GBT 9649.9—2009[6]以及《矿物岩石矿石标本及矿床资源描述标准》[2]为准。
1.1.3 矿物英文名称矿物种的英文名称,以IMA发布的矿物种名录为准(http://www.ima-mineralogy.org/minlist.htm)[3]。
1.2 化学性质 1.2.1 化学组成矿物的化学组成表示矿物的理论化学组分含量和常见的、重要的类质同象混入物等,用化学元素成分的质量分数表示。如符山石的化学组成为w(SiO2)为37.03%, w(TiO2)为0.52%, w(Al2O3)为17.04%, w(Fe2O3)为1.91%, w(FeO)为1.42%, w(MnO)为0.06%, w(MgO)为2.17%, w(CaO)为36.70%, w(H2O)为2.80%, 总和为99.65%[1]。
1.2.2 晶体化学式晶体化学式表示组成矿物的元素、常见和重要的类质同象混入物的理论化学组分含量。如黝帘石的晶体化学式为Ca2Al3[Si2O7][SiO4]O(OH),硒黝铜矿的晶体化学式为(Cu, Hg, Ag)12Sb4(Se, S)13[1]。
1.3 结晶学性质 1.3.1 晶体形态矿物晶体内部结构的特点形成特定形态,须描述矿物的单形名称、聚形特征、双晶类型及其双晶律和集合体形态等[1-2]。如磷氯铅矿晶体形态描述:晶体呈柱状,有时呈小圆桶状或针状,主要单形为六方柱{1010}、六方双锥{1011}、平行双面{0001},集合体呈晶簇状、粒状、球状、肾状等,经常呈平行连生[1]。
1.3.2 晶体形态Java图利用基于Java语言开发的Jcrystal软件绘制的三维动态数字图形,可实现矿物的晶体形态、结构特征的可视化展示。输出HTML格式的图形文件,可在IE浏览器中播放、用鼠标拖动360°旋转,如绿柱石的晶体形态Java图(图 1)。
1.3.3 晶系按晶体的对称程度可分为7个晶系:等轴晶系、六方晶系、三方晶系、四方晶系、斜方晶系、单斜晶系、三斜晶系[1]。如石英的晶系为三方晶系。
1.3.4 晶类按照所具有的点群的对称性,晶体可分为32种晶类,通常按照只出现在一个对称型中的单形,即“一般形”的名称对晶类进行命名[3]。如石英的晶类为三方偏方面体晶类。
1.3.5 对称型晶体中所有外部对称要素的集合,通常用申弗利斯(Schöflies)符号和国际符号来表示[2-3]。如绿柱石的对称型表示为D6h-6/mmm(L66L27PC)。
1.3.6 空间群按晶体内部结构的对称要素的组合,共有230个空间群。通用的符号有国际符号和申弗利斯符号[1]。如绿柱石的空间群表示为D6h2-P6/mcc。
1.3.7 晶胞参数表示晶胞形状和大小的7个参数,包括晶胞的3组棱长(即晶体的轴长)a0、b0、c0和3组棱相互间的夹角(即晶体的轴角)α、β、γ,以及单胞内的分子数Z。如方解石的晶胞参数为a0=0.498 96 nm,b0=0.498 96 nm,c0=1.706 1 nm[1],α=90°,β=90°,γ=120°,Z=6。
1.3.8 X射线粉晶衍射利用X射线粉晶衍射仪测得的晶体面网间距d和衍射峰相对强度I/I1,数据表示形式为d (I/I1)。如红砷镍矿X射线衍射数据:2.627 (100),1.937 (90),1.788 (80),1.320 (70),1.032 (70),2.66 (100),1.961 (90),1.811 (80),1.071 (40),1.328 (30),1.033 (30),0.821 (30)[1]。X射线粉晶衍射谱图可以图片格式保存。
1.3.9 晶体结构描述描述晶体内部原子(离子或分子)在三维空间排列的规律,包括晶体结构的基本类型、结构的表达、结构的稳定性、结构与性质的关系等[7]。如:绿柱石晶体结构为硅氧四面体组成的六方环,环面垂直c轴平行排列,上下二个环错动25°,由Al3+及Be2+连接,铝的配位数为6,铍的配位数为4。在环中心平行c轴有宽阔的孔道,可以容纳离子半径较大的K、Na、Cs、Rb等离子以及水分子[1]。原子间距:Be-O(4)=0.166 nm,Al-O(6)=0.192 nm,Si-O(4)=0.160 nm[1]。
1.3.10 晶体结构三维图晶体结构的三维图形,利用基于虚拟现实技术VRML的晶体结构与分子结构可视化软件DIAMOND制作。制作方法:导入晶体结构数据(*.CIF)文件,或输入空间群、晶胞参数、原子参数(元素种类、氧化态以及配位数);输出图形文件格式为wrl。用户需安装VRML 3D浏览器插件(如Cortona3D)才能在IE浏览器中显示,Cortona3D具有缩放、旋转、移动晶体结构模型的功能,能够显示结构中原子或离子的堆积、化学键的连接、配位多面体及其连接等情况,更直观和清楚地展现晶体的微观结构,如绿柱石晶体结构三维图(图 2)。
1.4 光学性质 1.4.1 颜色指矿物新鲜面在自然光下的颜色,须描述该矿物所有亚种的颜色。矿物颜色可分为体色和表面色[8]。透明矿物颜色为体色,如绿柱石颜色可为海蓝色;金属矿物颜色为表面色,金属矿物的颜色应描述为金属色,如黄铜矿颜色为铜黄色。
1.4.2 光泽光泽从强到弱为金属光泽、半金属光泽、金刚光泽和玻璃光泽。根据矿物表面特征或集合体所引起的特殊光泽有蜡状光泽、珍珠光泽、丝绢光泽、油脂光泽、树脂光泽、沥青光泽和土状光泽。根据特殊光学表现,有变彩、晕彩、锖色等[1]。如锆石的光泽为玻璃光泽至金刚光泽。
1.4.3 透明度可分透明、半透明、不透明3个级别。如黝帘石的透明度为透明至半透明。
1.4.4 条痕矿物条痕色是矿物粉末的颜色。表示方法与矿物颜色相同。如红铅铀矿的条痕为浅红色。
1.4.5 多色性在描述多色性时,需标明矿物多色性的方向及颜色。如金云母的多色性描述为:Np=黄色,Nm=Ng=褐红色、绿色、黄色。
1.4.6 色散用强弱程度表示,如有测得的红光折射率和紫光折射率的差值也可列出。如金刚石的色散表示为强,0.044。
1.4.7 轴性光性透明矿物可分为光性均质体与光性非均质体两大类。非均质体轴性分为一轴晶和二轴晶,光性分为正光性和负光性,正光性表示为(+),负光性表示为(-)。如硅灰石的轴性光性为二轴晶(-)。
1.4.8 折射率通常使用矿物的主折射率值,光性均质体只有一个折射率N,一轴晶矿物有2个主折射率No、Ne,二轴晶矿物有3个主折射率Ng、Nm和Np。如钠闪石的折射率表示为:Np=1.656~1.697;Nm=1.670~1.708;Ng=1.665~1.740。
1.4.9 反射率反射率R用光垂直入射矿物光面时的强度(Ii)与反射光强度(Ir)的比值(即R=Ir/Ii)表示。通常用于不透明矿物。反射率的数据表示形式为:(入射光波长/nm)反射率/%。如自然金反射率R表示为:(400) 36.8, (420) 36.8, (440) 36.4, (460) 36.1, (480) 36.7, (500) 45.3, (520) 62.5, (540) 75.0, (560) 82.2, (580) 86.8, (600) 89.7, (620) 91.9, (640) 93.3, (660) 94.1, (680) 94.8, (700) 95.3[1]。
1.5 物理性质 1.5.1 硬度 1.5.1.1 摩氏硬度按照摩氏硬度标准,矿物的硬度由低到高可分为10个等级,由低到高分别为:1滑石、2石膏、3方解石、4萤石、5磷灰石、6正长石、7石英、8黄玉、9刚玉及10金刚石[2]。如绿柱石的摩氏硬度为7~8。
1.5.1.2 维氏硬度对于某些难于测定摩氏硬度的矿物,需用维氏硬度(显微硬度)表示,即在矿物磨光面上加以一定质量的金刚石角锥压入,以质量与压痕面积之比来表示,单位为kg/mm2。
1.5.2 相对密度用矿物的质量和同体积的4 ℃水的质量之比值来表示。相对密度分为:相对密度小(<2.5)、相对密度中等(2.5~4.0)、相对密度大(>4.0)[1]。如黄玉的相对密度为中等(3.49~3.57(测量);3.55(计算))。
1.5.3 解理、裂理解理是矿物受力后沿一定结晶方向裂开成光滑平面的性质。按解理面的完整程度分成5个等级:极完全解理、完全解理、中等解理、不完全解理、极不完全解理[1]。如萤石具有{111}方向4组完全解理。
裂理是矿物受力后沿双晶结合面或定向包裹体等裂开产生平面的性质。刚玉常具有{1011}方向和{0001}方向裂理。
1.5.4 断口主要断口类型有贝壳状断口、参差状断口、锯齿状断口、土状断口。如石英的断口为贝壳状断口。
1.5.5 脆性、弹性、挠性脆性为矿物受外力作用时易发生碎裂的性质;弹性为矿物在外力作用下发生弯曲形变,撤出外力后能自动恢复原状的性质;挠性为当外力撤除后不能恢复原状的性质。如方铅矿为脆性。
1.5.6 其他物理性质常见的其他物理性质有发光性(磷光、荧光)、延展性、磁性、压电性、焦电性、导热性、热膨胀性、可溶性、熔点、易燃性、吸水性、表面亲合性、可塑性、放射性等[1]。如辉钼矿的其他物理性质有:熔点为1 650~1 700 ℃;电传导沿{0001}比沿c轴大103倍,当温度增高时电传导增大;具光电效应;具有油腻感;具有强磁非均质性[1]。
1.6 成因产状及共伴生矿物 1.6.1 成因产状成因产状指矿物在所赋存地质体中的空间位置、产出状态,产出的地质作用类型,矿物的次生变化等[1-2]。如蓝闪石的成因产状描述为:主要产于板块俯冲带靠大洋一侧低温高压变质带蓝闪石片岩中,它可以由富钠的岩石经变质作用形成。由榴辉岩变质而来的蓝闪石片岩,其中蓝闪石往往围绕辉石尤其是硬玉呈交代边缘,或完全交代辉石呈假象[1-3]。
1.6.2 共伴生矿物共伴生矿物是所有共生及伴生矿物组合的名称。如雌黄的共伴生矿物有辉锑矿、雄黄、自然砷、方解石、重晶石、石膏[1]。
1.7 分析测试数据利用现代分析测试技术及设备获取的数据,如拉曼光谱、红外光谱、微量元素、同位素、地质年龄等分析测试数据。此项数据最具扩展性且信息量较大,应将数据整理后保存为PDF格式,可在线浏览也可下载。
1.8 用途矿物的基本用途。如孔雀石的用途为:大量堆积时可作铜矿石,也是工艺美术制品和颜料的原料。
1.9 矿物标本索引国内外矿物标本数据平台中具有的该矿物种的实物标本数据的链接。
1.10 矿物图片自然界常见的矿物只有数十种,而全世界已发现的5 300多种[3]矿物大多数并不常见,因此,矿物彩色照片显示非常重要,是人们识别和对比研究矿物种的重要参考资料。矿物图片可多张,保存为图片格式,也可以是MOV格式或其他多媒体格式的矿物晶体3D数字模型[9]。
1.11 唯一标识数据的主键,即数据的唯一记录编码,编码规则为:DAT+学科分类编码+“-”+矿物分类代码+流水号。其中:DAT代表科学数据;学科分类编码依据《学科分类与代码国家标准(GB/T 13745—2009)》[10],矿物分类代码见表 1。如辉钼矿的唯一标识表示为DAT1117050210000-04103,其中“04”为硫化物的代码。
1.12 参考文献与本资源相关的论文、专著等。论文、专著的格式如下:作者名,论文名或专著名,出版社,出版日期,期刊刊号:页码[2]。
2 系统矿物学数据库设计 2.1 总体架构系统矿物学数据库针对矿物学数据的特征进行设计开发,采用J2EE开发技术实现系统矿物学数据的集成、管理、发布、检索和浏览。为了便于用户对矿物晶体形态和晶体结构的直观认识和理解,重点开发矿物晶体形态和结构的三维可视化展示。
2.2 数据字典根据前述矿物数据项内容和数据特征,设计了用于建立数据库的数据字典(表 2)。系统矿物学数据文件格式采用具有强大的数据管理功能的Excel或Access。
序号 | 字段名 | 字段释义 | 字段类型 | 序号 | 字段名 | 字段释义 | 字段类型 |
1 | ID | 唯一标识 | 字符型 | 23 | YS | 颜色 | 字符型 |
2 | KWMCZ | 矿物名称(中文) | 字符型 | 24 | TMD | 透明度 | 字符型 |
3 | KWMCY | 矿物名称(英文) | 字符型 | 25 | DSX | 多色性 | 字符型 |
4 | HXS | 晶体化学式 | 字符型 | 26 | GX | 轴性光性 | 字符型 |
5 | KWFL | 矿物分类 | 选择型 | 27 | GZ | 光泽 | 字符型 |
6 | HXZC | 化学组成 | 字符型 | 28 | TH | 条痕 | 字符型 |
7 | JTXTMS | 晶体形态 | 字符型 | 29 | SS | 色散 | 字符型 |
8 | JTXTT | 晶体形态Java图 | 字符型 | 30 | ZSL | 折射率 | 字符型 |
9 | JX | 晶系 | 字符型 | 31 | FSL | 反射率(%) | 字符型 |
10 | JLMC | 晶类 | 字符型 | 32 | MSYD | 摩氏硬度 | 字符型 |
11 | GJFH | 对称型符号 | 字符型 | 33 | XDMD | 相对密度 | 字符型 |
12 | KJQ | 空间群 | 字符型 | 34 | JL | 解理裂理 | 字符型 |
13 | A | 晶胞参数a0 | 字符型 | 35 | DK | 断口 | 字符型 |
14 | B | 晶胞参数b0 | 字符型 | 36 | CX | 脆性挠性弹性 | 字符型 |
15 | C | 晶胞参数c0 | 字符型 | 37 | QTXZ | 其他物理性质 | 字符型 |
16 | ALPHA | 晶胞参数α | 字符型 | 38 | CZ | 成因产状 | 字符型 |
17 | BETA | 晶胞参数β | 字符型 | 39 | GBSKW | 共伴生矿物 | 字符型 |
18 | GAMMA | 晶胞参数γ | 字符型 | 40 | CSSJ | 分析测试数据 | 字符型 |
19 | Z | 晶胞参数Z | 字符型 | 41 | KWYT | 用途 | 字符型 |
20 | DIO | X射线粉晶衍射 | 字符型 | 42 | KWSY | 矿物标本索引 | 字符型 |
21 | JTJG | 晶体结构 | 字符型 | 43 | JTTP | 矿物图片 | 字符型 |
22 | JGT | 晶体结构图 | 字符型 | 44 | CKWX | 参考文献 | 字符型 |
从逻辑结构进行划分,系统矿物学数据库的主要构成实体有表格数据、图件数据和文档数据。
1) 表格数据:用二维表格表示的数据,包括系统矿物学各项数据、矿物学编码、晶体归类编码和关联。其中系统矿物学数据表是数据库主表,根据数据字典设计,共44个字段;矿物学编码表采取分级的方式,分级依据是矿物所属的晶系和晶类;晶体归类编码表分类依据是矿物的资源类别,表的设计采用目录树结构的形式。
2) 图件数据:晶体形态Java图、晶体结构图、矿物图片等。
3) 文档数据:扫描文档、电子文档(Word、PDF等)保存的分析测试数据。
2.4 功能设计系统矿物学数据库功能主要包括矿物学数据的后台管理、发布和前端的检索、浏览,根据功能特点将系统划分成5个模块:资源浏览和检索模块、资源发布模块、系统管理模块、三维展示模块和图片处理模块。
1) 资源浏览和检索模块:提供系统矿物学数据的在线浏览、检索。数据浏览采用网页表格单页浏览。数据检索采用中文名称、英文名称、化学成分、晶系、综合查询5种资源检索方式实现数据的多通道查询。
2) 资源发布模块:实现数据在线发布功能,具有单条目录入、批量导入功能。
3) 系统管理模块:维护系统的信息。包括用户管理、单位管理、角色管理、菜单管理和数据字典管理。
4) 三维展示模块:采用Java图和VRML方式以三维的形式展示晶体形态和结构。
5) 图片处理模块:为提高访问速度,当用户在页面浏览图像时,系统采用动态缩略图的方式加载矿物图片。系统开发采用开源的Thumbnailator来实现图片压缩和水印处理。Thumbnailator是一个用来生成图像缩略图、裁切、旋转、添加水印等操作的Java类库,通过程序代码调用Thumbnailator相关的API,在不改变原始图片的情况下,可动态生成带水印的图片缩略图。
2.5 系统实现 2.5.1 软硬件环境由于世界上已发现的矿物种类仅有5 300余种[3],因此系统矿物学数据库的数据量不是很大,从安装部署、系统管理、访问速度等因素考虑将Web应用和数据库集中在一台硬件服务器中。系统开发以面向对象的Java为开发语言,配备Oracle作为数据库,运行在Linux操作系统环境。开发平台采用Eclipse。
2.5.2 技术架构系统开发使用当前流行的轻量级J2EE集成框架(Spring MVC+ Spring + Hibernate),采用三层结构设计思想,总体结构设计如图 3所示。
1) 表示层的设计:表示层是用户与数据库系统的交互界面,其设计直接影响用户体验。表示层以DIV+CSS进行页面布局设计,使用JQuery和Bootstrap框架设计用户登录界面、矿物学数据管理、检索、浏览界面等,Spring MVC通过前端控制器将接收到的页面请求委派给相应的Controller处理。主要用来接收用户输入的数据给业务逻辑层,并将后台逻辑数据显示到前端。
2) 业务逻辑层的设计:业务逻辑层是系统矿物学数据库架构层的核心部分,使用Spring作为逻辑层框架,主要应用依赖注入(IoC)技术解决复杂应用程序之间的耦合度,管理Spring MVC和Hibernate。业务逻辑层负责数据的传递和业务逻辑方法的处理。它采用接口与实现分离的技术,能更好地实现软件的可扩展性。
3) 数据访问层的设计:数据访问层也称为持久层,负责操作数据库中的数据,把数据持久化到数据库中。持久层的设计选择使用Hibernate开源框架。Hibernate在对象模型与数据库模型之间建立一一对应的映射关系,将关系型数据库的开发转变为面向对象的数据库开发。
3 系统矿物学数据库应用实践 3.1 系统矿物学数据库开发应用国家科技基础条件平台——国家岩矿化石标本资源共享平台(www.nimrf.net.cn)[4]应用上述矿物学数据标准及数据库技术架构开发了“系统矿物学数据库(www.nimrf.net.cn/kwx)”,集成了3 000种矿物数据及部分矿物种的晶体形态图、晶体结构图、矿物图片。晶体形态图和晶体结构图分别采用Java和VRML技术制作,以三维动态形式展示了晶体形态和结构。这是目前国内矿物种类最多、数据量最大的数据库。用户可在门户网站通过矿物中英文名称、晶系晶类、化学成分、颜色等16个查询条件快速检索矿物学数据。系统矿物学数据库与国家岩矿化石标本库保存的矿物标本数据库之间建立了数据关联,在每一条系统矿物学数据中,嵌入了该矿物种的库存标本资源数据,用户可点击浏览对应的实物标本信息。据统计,“系统矿物学数据库”每年实际访问量超过8万人次,为地学领域学者及社会公众提供了一个方便快捷的矿物学数据检索平台。
3.2 与国际知名矿物学数据库对比讨论国际上知名的矿物学数据库有美国的Mineralogy Database和Handbook of Mineralogy。Mineralogy Database(http://webmineral.com/)1997年建立,是发展时间最长、最具影响力的矿物学数据库,含4 714种矿物数据,数据字段包括矿物基本信息(英文名称、化学式、实验式、化学成分、产状、产地、名称来源及其他常用名)、矿物图片、结晶学性质(晶系、晶体形态及晶体结构Java图、晶胞参数、空间群、X射线粉晶衍射数据)、光学性质(颜色、光泽、透明度、条痕、多色性、轴性光性、折射率)、力学性质(摩氏硬度、相对密度、解理、断口)及其他物理性质,并且链接到了许多包含此矿物信息的其他网站。提供矿物名称查询、结晶学(晶系)查询、化学成分查询、物理性质查询、首字母查询以及图片查询[11]。但缺点是未对矿物进行分类。Handbook of Mineralogy(http://www.handbookofmineralogy.org/index.html)建于2004年,是重要的矿物学数据库,含4 529种矿物数据,数据字段包括矿物英文名称、化学式、化学成分、结晶习性、物理性质、光学性质、晶胞参数、X射线粉晶衍射数据、产地、产状、共伴生矿物、矿物名称来源、实物标本以及参考文献在内的14个字段[12]。但缺点是其数据内容均以PDF文本格式发布,只能通过首字母方式查询,而无法按照不同字段进行检索,查询方式有局限性。
系统矿物学数据库包含了Mineralogy Database和Handbook of Mineralogy的几乎所有字段,并增加了矿物分级分类、晶类、矿物的反射率、矿物的共伴生矿物等字段。在数据检索方面,根据矿物的对称型(晶类)、所含化学元素建立目录索引,并提供中英文名称单一条件快速查询及多条件综合查询,用户可输入对称型、化学组成所属分类、颜色、条痕颜色、光泽、透明度、解理、断口、轴性光性、多色性及色散多个条件进行筛选检索。因此,系统矿物学数据库结构、字段及检索功能方面优于国际上知名的数据库,但仍需要持续投入建设,增加矿物种的数量。
4 系统矿物学数据库发展前景 4.1 数据挖掘系统矿物学数据库的建立实现了数据的集成、管理、检索、浏览功能,当数据量积累到一定程度,迫切需要将数据进行二次加工,发掘数据的内在联系,以获取成更有价值的信息和知识,即数据挖掘。系统矿物学数据挖掘可从以下3个方面入手:
1) 数据统计分析功能开发。开发强大的数据统计分析功能是数据挖掘最重要的手段,也是实现数据库核心价值的重要途径。通过建立数学模型和优化算法,开发数据分析工具软件,对系统矿物学数据项进行一对多或多对多分析,输出分析图表,便于直观地显示数据的内在联系。如晶体结构与硬度、密度等物理参数之间的关系[13],矿物共生组合统计分析[14]等,这对推进系统矿物学研究具有重要作用。
2) 基于GIS技术的数据特征可视化分析及应用。基于GIS地理信息技术开发的空间数据可视化系统,能够更加直观、清晰地呈现矿物种的时空分布规律。从矿物学数据库中提取矿物产地、形成时代、赋存地层或岩体、产出矿床、形成深度及与之共生矿物种类等关键数据,投影到开发的GIS可视化工具软件之中,并将其加载到地形地质图、剖面图、全景图上,可以实现坐标区域中矿物分布特征数据的空间展示,揭示其与板块运动、大地构造、岩浆活动等地质背景的关系,对矿物成因研究及成矿预测具有重要意义。
3) 数据关联与推送。建立系统矿物学数据与地学标本数据库、地学专题数据库乃至更大范围自然科学数据库之间的关联,并利用多源数据融合技术与方法[15],可将矿物名称、晶类、产地等字段与其他数据库的元数据信息、关键词进行聚类分析,结合用户的检索记录,利用服务器推送技术,将用户关心的数据推送到用户端动态页面中,提高数据的使用效率。
4.2 维基技术的应用维基(Wiki)是一种多人协同创作的超文本系统[16],维基技术使任何人都可对互联网上的页面进行编辑,可调动广大网民群体参与,鼓励与他人共享编辑成果。当前最流行维基百科、百度百科都是基于维基架构的网络知识库。
将维基理念与技术应用于矿物学数据库,建立开放式的数据库,建立奖励机制,吸引全球的矿物学专家学者及爱好者将自己测试研究发表的数据、在学术期刊上查阅到的最新研究数据、矿物标本图片等添加到数据库中,对原有数据进行完善和扩充,并说明数据来源;也可以提出不同于经典矿物学的学术观点和论据,发起讨论,经矿物学数据库管理员审核通过后,即可在线发布,呈现给其他网络用户,形成“人人都是数据使用者和贡献者”的数据共享模式[17]。维基技术应用于矿物学数据库,将有效提升数据库的开放性、交互性,最大限度扩展了数据来源途径,大大提高了数据更新的效率,从而建成动态可持续发展并不断完善的权威矿物学大数据库。
致谢: 感谢提供资料及批评指正的中国地质大学(北京)王濮教授、翁玲宝教授、何明跃教授,中国地质博物馆杨良锋研究员、周正研究员以及北京大学曹正民教授。[1] |
王濮, 潘兆橹, 翁玲宝.系统矿物学: 上、中、下册[M].北京: 地质出版社, 1982, 1984, 1987. Wang Pu, Pan Zhaolu, Weng Lingbao.Systematic Mineralogy: Upper, Middle and Lower Volumes[M].Beijing: Geological Publishing House, 1982, 1984, 1987. |
[2] |
何明跃, 吴淦国. 矿物、岩石、矿石标本资源及矿床描述标准[M]. 北京: 地质出版社, 2013. He Mingyue, Wu Ganguo. Mineral, Rock and Ore Specimen Resources and Deposit Description Standard[M]. Beijing: Geological Publishing House, 2013. |
[3] |
Commission on New Minerals Nomenclature and Classification, International Mineralogical Association[DB/OL].(2018-3-10)[2018-03-20]. http://pubsites.uws.edu.au/ima-cnmnc/.
|
[4] |
王濮, 李国武. 1958-2012年在中国发现的新矿物[J]. 地学前缘, 2014, 21(1): 40-51. Wang Pu, Li Guowu. New Minerals Found in China(1958-2012)[J]. Earth Science Frontiers (China University of Geosciences (Beijing); Peking Univer-sity), 2014, 21(1): 40-51. |
[5] |
何明跃, 杨眉, 吴志远. 国家岩矿化石标本资源共享平台的构建[J]. 科研信息化技术与应用, 2017, 8(4): 36-43. He Mingyue, Yang Mei, Wu Zhiyuan. Construction of National Mineral Rock and Fossil Specimen Resource Sharing Infratructure[J]. E-Science Technology and Application, 2017, 8(4): 36-43. |
[6] |
地质矿产术语分类代码: 第9部分: 结晶学及矿物学: GB/T 9649.9-2009[S].北京: 中国标准出版社, 2009. Terminology Classification and Code of Geology and Mineral Resources: Part 9: Crystallography and Mineralogy: GB/T 9649.9-2009[S].Beijing: Standards Press of China, 2009. |
[7] |
秦善. 结构矿物学[M]. 北京: 北京大学出版社, 2011. Qin Shan. Structural Mineralogy[M]. Beijing: Peking University Press, 2011. |
[8] |
李胜荣, 许虹, 申俊峰, 等. 结晶学与矿物学[M]. 北京: 地质出版社, 2012. Li Shengrong, Xu Hong, Shen Junfeng, et al. Crystallography and Mineralogy[M]. Beijing: Geological Publishing House, 2012. |
[9] |
赵思艺, 何明跃. 矿物晶体标本的三维可视化展示设计与实现[J]. 科研信息化技术与应用, 2017, 8(4): 93-98. Zhao Siyi, He Mingyue. Design and Implementation of 3D Visualization of Mineral Crystals[J]. E-Science Technology and Application, 2017, 8(4): 93-98. |
[10] |
谢园, 杨眉, 何明跃, 等. 科学标本资源汇交整编规范与实践[J]. 中国科技资源导刊, 2017, 49(5): 20-29. Xie Yuan, Yang Mei, He Mingyue, et al. Aggregation Standard and Experience of Scientific Specimen Resources[J]. China Science and Technology Resources Review, 2017, 49(5): 20-29. |
[11] |
Mineralogy Database[DB/OL].(2017-12-15)[2018-02-20].http://webmineral.com/.
|
[12] |
Handbook of Mineralogy[DB/OL].(2017-09-30)[2018-02-20].http://www.handbookofmineralogy.org/.
|
[13] |
Krivovichev S V. Structural Complexity of Minerals:Information Storage and Processing in the Mineral World[J]. Mineralogical Magazine, 2013, 77(3): 275-326. DOI:10.1180/minmag.2013.077.3.05 |
[14] |
Morrison S M, Liu Chao, Eleish A, et al. Network Analysis of Mineralogical Systems[J]. American Mineralogist, 2017, 102(8): 1588-1596. DOI:10.2138/am-2017-6104CCBYNCND |
[15] |
吴志春, 郭福生, 林子瑜, 等. 三维地质建模中的多源数据融合技术与方法[J]. 吉林大学学报(地球科学版), 2016, 46(6): 1895-1913. Wu Zhichun, Guo Fusheng, Lin Ziyu, et al. Technology and Method of Multi-Data Merging in 3D Geological Modeling[J]. Journal of Jilin University(Earth Science Edition), 2016, 46(6): 1895-1913. |
[16] |
洪跃, 崔海峰. Wiki的应用领域与发展分析[J]. 中国科技资源导刊, 2008, 40(2): 39-43. Hong Yue, Cui Haifeng. Ponderover the Pluralism of Wiki Current Situation and Wiki Development[J]. China Science and Technology Resources Review, 2008, 40(2): 39-43. DOI:10.3772/j.issn.1674-1544.2008.02.008 |
[17] |
诸云强, 潘鹏, 石蕾, 等. 科学大数据集成共享进展及面临的挑战[J]. 中国科技资源导刊, 2017, 49(5): 2-11. Zhu Yunqiang, Pan Peng, Shi Lei, et al. Progress and Challenge of Scientific Big Data Integration and Sharing[J]. China Science and Technology Resources Review, 2017, 49(5): 2-11. |