2. 中山大学地球环境与地球资源研究中心, 广州 510275;
3. 中山大学地球科学与工程学院, 广州 510275
2. Center for Earth Environment & Resources, Sun Yat-sen University, Guangzhou 510275, China;
3. School of Earth Sciences and Engineering, Sun Yat-sen University, Guangzhou 510275, China
深度学习是由多伦多大学的Hinton et al. (2012)提出的一种新型的多层神经网络学习算法。在深度学习中,卷积神经网络算法(Convolutional Neural Networks,CNN)是一种高效的识别方法。简单的卷积神经网络系统由输入层、卷积层、全连接层和输出层四个部分组成(Namatēvs, 2017)。其中, 输入层用于直接输入原始数据。卷积层主要用来提取输入数据特征, 包括两部分,一部分是卷积核,另一部分是下采样层,又被称为pooling层,对目标图像进行降维处理,减少数据处理量。全连接层相当于一个分类器,用来实现信号的纵向传导。每一层的神经元节点分别连接线上权值,然后经过加权组合来获取下面一层的神经元节点的输入,输出层用于输出结果(施恩等, 2018)。
深度学习,特别是卷积神经网络算法,在计算机视觉、自然语言处理及语音识别等领域已得到较为广泛的应用,是当前大数据挖掘、人工智能和应用统计学的研究、应用热点(Li et al., 2014; Lake et al., 2015; Lecun et al., 2015; Schmidhuber, 2015; He et al., 2016; Bianco et al., 2017; Gong et al., 2017; 周飞燕等, 2017)
矿石矿物鉴定是地质分析的重要基础,传统做法是在显微镜下通过肉眼人工鉴定。如果能对其实现智能化识别,必将大幅度减少分析者的劳动强度, 增加结果的客观性。特别是,在大数据时代和智能地质学高度,它更是必然的选择(Singh et al., 2010; Li et al., 2017; 周永章等, 2017, 2018a, b, c)。为此,本研究设计了一个基于深度学习的镜下矿石矿物智能识别的实验,并分析、评价实验的结果。人工智能地质学可以有复杂的形式,基于大数据智能鉴定矿物岩石是其中一个比较基础的实验,但也是非常有意义的探索实验。
1 分析框架本实验运用计算机视觉技术和深度学习理论,以吉林夹皮沟金矿和河北石湖金矿的黄铁矿镜下薄片图像为实验案例,建立卷积人工神经网络模型,开展矿相显微镜下矿石矿物图像数据在卷积人工神经网络模型中的训练,并通过该模型提取矿石矿物镜下图像中的深层特征信息,实现矿石矿物镜下照片自动识别与分类的功能。
总体分析框架如图 1所示。
实验中对镜下矿石矿物的自动识别及分类应用监督学习的方式。首先,由人工对镜下照片中的各种矿物进行标注,然后取出一部分矿石矿物图像数据作为训练集,另一部分图像数据作为测试集。训练时每进行一次迭代,则以本次迭代训练时所用的岩石薄片图像作为验证集。最后,对测试集中镜下照片中各种矿物进行自动识别与分类。
2 样本来源矿石标本选自吉林夹皮沟金矿和河北石湖金矿。
夹皮沟金矿的矿石以含金硫化物石英脉原生矿石为主,伴有少量蚀变矿石和砂金矿。矿石金属矿物主要包括黄铁矿、黄铜矿和方铅矿,其次为少量闪锌矿、磁铁矿、黑钨矿、白钨矿、黝铜矿、菱铁矿, 偶见辉银矿、辉铋矿、辉钼矿、含铋硫盐等。金赋存状态以自然金为主,见少量银金矿,偶见银碲金矿和碲金矿(侯刚等, 2009; 杨利亚等, 2013)。
石湖金矿矿石中硫化物主要有黄铁矿、方铅矿、黄铜矿、闪锌矿等,氧化物主要有褐铁矿、赤铁矿、孔雀石等。载金的金属矿物主要是黄铁矿。黄铜矿多分布在闪锌矿中, 以固溶体形式存在。金的赋存状态以自然金为主,银金矿含量较少, 大部分金以裂隙金、粒间金和包裹金赋存在黄铁矿、闪锌矿、黄铜矿及方铅矿中(刘伟等, 2007; 曹烨等, 2010)。
图 2和图 3分别是吉林夹皮沟金矿和石湖金矿的矿相显微镜下拍摄的照片。
夹皮沟金矿黄铁矿分布在成矿阶段的各个时期,早期黄铁矿被方铅矿(具明显的黑三角)及闪锌矿穿切;黄铜矿呈固溶体形式分布在闪锌矿中。成矿中期黄铁矿,呈立方体晶、立方体-长方体聚形晶(图 2a),颗粒较大, 可见生长在黄铁矿边部及石英裂隙间的自然金、银金矿等(图 2b),黄铁矿内部含少量方铅矿、闪锌矿及毒砂等矿物。黄铜矿-闪锌矿固溶体,黄铜矿分布在闪锌矿颗粒内部(图 2c)。多金属硫化物中闪锌矿、方铅矿切穿早期形成的黄铁矿颗粒,方铅矿具有明显的“黑三角”,闪锌矿中可见黄铜矿固溶体(图 2d)。
石湖金矿中,黄铜矿常常呈固溶体形式出现在闪锌矿内部(图 3a)。方铅矿在矿石中不均匀分布,致密块状,他形,多与黄铁矿共生(图 3b)。黄铜矿为重要的含金、银矿物,多呈乳滴状、细脉状分布在闪锌矿、方铅矿及黄铁矿内,少数分布在脉石矿物中, 部分被蓝铜矿交代,图 3c中可见金分布在黄铜矿内部。黄铁矿是石湖金矿中的主要载金矿物,呈带状、网脉状分布在矿石中,多数黄铁矿形状不规则,少数呈半自形粒状(图 3d),黄铁矿颗粒内常常分布黄铜矿、闪锌矿等细小矿物颗粒。
3 实验预处理 3.1 镜下照片采集在采集镜下矿物照片过程中,尽可能多的收集训练样本照片,样本涵盖尽可能多的类型。本实验选用的照片来自几个不同的区域以及不同参数的镜下拍摄(图 4)。在训练集中加入不同参数条件下拍摄的镜下照片,以使模型在学习的过程中通过调节特征权重的方式来减少设备和人为等因素带来的干扰。
在样本图像集收集完成以后,需要进行图像参数统一调节及图像分割标注。本研究使用Photoshop等图片编辑软件对镜下岩石照片中不同种类的矿物进行标注。不同种类的矿物颗粒以不同的颜色进行覆盖,以颜色作为训练标签。
在实验中,使用红、绿、蓝、白四种颜色分别对镜下岩石照片中的黄铁矿、黄铜矿、方铅矿和铅锌矿进行标注(图 5)。对这四种以外的其他暗色矿物及实验中不涉及识别的其他矿物未做标记。
人工神经网络的学习依赖于大量的训练数据,训练集中照片质量好坏及训练集样本数量的多少都会对神经网络的性能和泛化能力产生巨大的影响。实验应用了图像的镜面翻转和随机裁剪等数据增强方法(周旺, 2017)。
利用镜面翻转是对原始图像进行上下和左右翻转(郭晓杰, 2013)。在对应的像素点数据矩阵中,如果对图像进行上下翻转,则表现为上下镜面翻转操作后所有的像素点所对应的纵坐标都与原始图像中被对应像素点的纵坐标关于此图像的水平中心线对称。同理,左右翻转即是左右镜面翻转操作后所有的像素点所对应的横坐标都与原始图像中被对应像素点的横坐标关于此图像的垂直中心线对称。
如图 6所示,图 6b为原始数据图,图 6a, c则分别对原始图像进行左右的镜面翻转和上下镜面翻转的结果。虽然这三幅图像产生的视觉效果,仍然属于同一种类别,但是在图像像素点矩阵中,它们对应的像素点位置数值却发生了变化。将这三张都作为图像数据输入模型,在算法的学习过程中,就有了三个不同的像素点数据矩阵,因而实现了数据增强的效果,扩充原始图像数据集。
利用随机裁剪,对图像进行随机的局部裁剪,以得到更多的图像数据从而达到数据增强的目的。参考前人研究(段萌等, 2018),在人工神经网络的训练过程中,一幅1080×1080的图像可以被随机裁剪出多幅513×513的局部图像,这样既可以得到大量的数据增强的图像数据。为了尽可能的避免重叠,对裁剪进行设定,分别在图像的四个角落及中心处进行裁剪。如图 7所示,图 7a为通过随机裁剪的方式对图 7b进行局部放大和随机裁剪的结果。
其他图像增强的方法还有图像的平移变化、图像的噪声抖动、图像的颜色抖动等。它们的原理都是在不改变图像所属类别的情况下,使输入图像的像素位置发生变化,从而创造出更多的输入图像数据,实现图像增强的目的。
使用上述图像增强的方式,原来150张的原始图像数据经过图像增强后得到9000余张,极大的扩充了训练集中的输入图像数量。
4 实验设计卷积神经网络模型有很多种(卢宏涛和张秦川, 2016)。前人研究显示(Yosinski et al., 2014),一般的卷积神经网络中,输入的图像数据会在经过一层层的池化和卷积操作处理之后逐渐变小,最终进入到全连接层进行训练。Unet模型与其他模型不同的是,Unet模型在全连接层后面又加了上采样层,这样就可以将图像恢复为原来大小。Unet卷积神经网络模型比起其他的卷积神经网络具有所需训练集少、分割精确度高的优势。
结合研究对象的实际情况,本实验选择了Unet卷积神经网络模型,并针对镜下矿石矿物图像的特点,在已有的VGG模型、Inception模型和ResNet模型(Do, 2008; Yosinski et al., 2014; 金钊, 2018)的基础上设计了图 8所示的模型结构。
在该结构中一共涉及五种操作。其中紫色向右箭头为3×3卷积操作(conv3×3)和欧拉激活函数(ReLU)转换;灰色向右箭头为图像复制(copy)操作;红色向下箭头表示2×2的最大池化(max-pool2×2),绿色向上箭头表示2×2的上卷积(up-conv2×2),蓝色箭头表示1×1的卷积(conv1×1)。
该模型框架的构建与训练具体解释如下:
Step1:在输入层中直接将原始矿石矿物图像数据输入网络进行训练,并将原始矿石矿物镜下照片转换为513×513大小的特征图像。
Step2:输入层在接收到原始的513×513岩石数据图像之后传播至第一个卷积层,然后经过两层的3×3卷积操作(乘以一个权重w再加上一个偏置b)和ReLU激活函数转换之后变成32幅513×513大小的特征图像。在进入step3的同时,部分特征图像被复制为32幅513×513大小的特征图像至step10。
Step3:将上一步中32幅513×513大小的特征图像进行2×2的最大池化操作得到32幅257×257大小的特征图像。然后再经过两层的3×3卷积操作和ReLU激活函数转换之后变成64幅257×257大小的特征图像。再进入step4的同时,部分特征图像被复制为64幅257×257大小的特征图像至step9。
Step4:将经过上一层操作处理的特征图像进行2×2的最大池化操作得到64幅129×129大小的特征图像,然后再将图像数据进行两层的3×3卷积操作和ReLU激活函数转换之后变成128幅129×129大小的特征图像,然后部分特征图像被复制为128幅129×129大小的特征图像至step8。
Step5:将上层中处理过的特征图像进行2×2的最大池化操作得到128幅65×65大小的特征图像,再将图像数据进行两层的3×3卷积操作和ReLU激活函数转换之后变成256幅65×65大小的特征图像,部分特征图像被复制为256幅65×65的图像至step7。
Step6:将上一步操作中256幅65×65大小的特征图像经过一次2×2的最大池化操作之后得到256幅33×33大小的图像。然后再经过两层的3×3卷积操作和ReLU激活函数转换之后得到256幅33×33大小的特征图像。
Step7:经过上一层操作处理的图像数据经过2×2的上卷积处理之后与经过step5中图像复制处理得到的256幅65×65的图像共同得到512幅65×65大小的图像,并在此基础上再经过两层3×3卷积操作和ReLU激活函数转换之后得到128幅65×65大小的特征图像。
Step8:128幅65×65大小的特征图像经过2×2的向上卷积处理之后结合step4中图像复制处理得到的结果共同组成256幅129×129大小的特征图像。再经过两层3×3卷积操作和ReLU激活函数转换之后得到64幅129×129大小的特征图像。
Step9:先经过向上卷积处理和step3中图像复制处理后得到128幅257×257大小的特征图像,然后经过两层3×3卷积操作和ReLU激活函数转换之后得到32幅257×257大小的特征图像。
Step10:先经过向上卷积处理和step2中图像复制处理后得到64幅513×513大小的特征图像。然后再经过两层的3×3卷积操作和ReLU激活函数转换后得到32幅513×513大小的特征图像。最后再将32个513×513个神经元节点分别与五层513×513个神经元节点进行全连接,最终输出为五层513×513大小的输出层,分别标记为0-4,即分别代表其他矿物、黄铜矿、黄铁矿、方铅矿及闪锌矿。
模型参数设计 采用的DCNN模型使用小批量的随机向量下降法(张野等, 2018),动量(momentum)为0.9,权值衰减系数为5×10-4; 每次输入的小批量的ROI (感兴趣区域)个数为16个; 学习率初始化为1×10-5,每6050次迭代下降20%;小批量的迭代次数为60500次,且每训练完一遍训练集(约605次迭代),就对训练集进行一次随机重排。
实验过程设计 在实验中,将150张黄铁矿镜下岩石图像随机分成了10份,在10次交叉检验中,每次不重复的取出1份作为测试集,另外9份作为训练集,所有图像共生成了9682个ROI。此外,本研究还比较了3种不同的ROI大小。
5 实验结果图 9显示了本实验模型在训练集上的精度和损失函数的变化情况。可以看出,模型在训练过程中,随着训练次数的增加模型精度在不断增大,模型的损失函数在不断减小,在经过3000个批处理之后,模型精度和损失函数基本趋向稳定。
利用这一方法可以得到测试集照片中各像素点的分类识别概率。表 1展示了训练集图像中各矿物识别准确率。
可见,矿石矿物的镜下照片中各矿物的识别成功率均高于90%,说明建立的模型已经可以实现对不同矿物镜下特征的有效提取,并可以根据所提取特征对训练集中镜下矿石矿物图片进行较准确的划分。
图 10给出了本实验模型在测试集上的评估结果。可以看出,该模型在测试集上的精度和损失函数的变化趋势与在训练集上基本一致,在大约3000个批处理之后趋向稳定。
将50张测试集照片输入卷积神经网络模型进行自动识别与分类,得到各矿物的识别结果如表 2所示,总体识别率稳定在91.38%左右,说明模型具有很好的特征提取能力,能较好的完成镜下矿物识别任务。测试准确率和交叉熵在训练过程中的变化可见,在前5000次的训练过程中,测试准确率快速提升,之后训练准确率趋近93%并逐渐稳定;交叉熵损失在经过约20000次训练后逐渐趋于稳定。根据训练准确率及交叉熵损失变化值来看,模型的训练效果较为理想。
图 11给出了在某些样本上模型的识别结果。图中不同的数字代表着每个像素点所标记以及识别结果的不同颜色(在实验中,同一种矿物在人工标记阶段以及识别阶段都采用相同的颜色),其中数字2代表红色,即黄铁矿,数字1代表绿色,即黄铜矿,数字0代表标记之外的矿物,即代表没有被标记的其他矿物。
本研究实验显示,在Tensorflow深度学习系统的基础上,Unet模型可以用来建立矿石矿物镜下照片的自动识别和分类系统。
人工神经网络的学习依赖于大量的训练数据。应用图像镜面翻转、随机裁剪、图像平移变化、图像抖动等数据增强方法,可以极大的扩充训练集中的输入图像数量,实现图像增强的目的。
本实验针对吉林夹皮沟金矿和河北石湖金矿矿石矿物镜下照片训练的卷积神经网络图像智能识别模型,对岩石薄片镜下图像的矿石矿物识别准确率达到90%以上,显示出模型具有优秀的分类准确性和良好的鲁棒性。
Bianco S, Buzzelli M, Mazzini D and Schettini R. 2017. Deep learning for logo recognition. Neurocomputing, 245: 23-30. DOI:10.1016/j.neucom.2017.03.051 |
Cao Y, Li SR, Zhang HF, Ao C, Li ZZ and Liu XB. 2010. Characteristics of cell parameters of pyrite and quartz and their geological significance at Shihu gold deposit in western Hebei, North China. Bulletin of Mineralogy Petrology and Geochemistry, 29(2): 185-91. |
Do KD. 2008. Formation tracking control of unicycle-type mobile robots with limited sensing ranges. Robotics & Autonomous Systems, 16(3): 527-538. |
Duan M, Wang GP and Niu CY. 2018. Method of small sample size image recognition based on convolution neural network. Computer Engineering and Design, (1): 224-229. |
Gong M, Yang H and Zhang P. 2017. Feature learning and change feature classification based on deep learning for ternary change detection in SAR images. ISPRS Journal of Photogrammetry and Remote Sensing, 129: 212-225. DOI:10.1016/j.isprsjprs.2017.05.001 |
Guo XJ. 2013. Image quasi dense matching and co-segmentation. Ph. D. Dissertation. Tianjin: Tianjin University.
|
He K, Zhang X and Ren S. 2016. Deep residual learning for image recognition IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society: 770-778. |
Hinton G, Deng L, Yu D, Dahl G, Mohamed A, Jaitly N, Senior A, Vanhoucke V, Nguyen P, Sainath T and Kingsbury B. 2012. Deep neural networks for acoustic modeling in speech recognition:The shared views of four research groups. IEEE Signal Processing Magazine, 29(6): 82-97. DOI:10.1109/MSP.2012.2205597 |
Hou G, Sun ZS and Wang AP. 2009. The evaluation on the ore-formation and ore-exploration prospect of Jiapigou goldmine in Jilin Province. Non-Ferrous Mining and Metallurgy, 25(2): 1-5. |
Jin Z. 2018. Comparison and analysis of different deep convolution neural networks based on TensorFlow. Electronic World, (6): 25-26. |
Lake BM, Salakhutdinov R and Tenenbaum JB. 2015. Human-level concept learning through probabilistic program induction. Science, 350(6266): 1332-1338. DOI:10.1126/science.aab3050 |
Lecun Y, Bengio Y and Hinton G. 2015. Deep learning. Nature, 521(7553): 436. DOI:10.1038/nature14539 |
Li D and Dong Y. 2014. Deep learning:Methods and applications. Foundations & Trends in Signal Processing, 7(3): 197-387. |
Li N, Hao HZ, Gu Q, Wang DR and Hu XM. 2017. A transfer learning method for automatic identification of sandstone microscopic images. Computers & Geosciences, 103: 111-121. |
Liu W, Dai TG, Fu WJ, Sun SD and Hu B. 2007. Characteristics of ore-forming fluids of the Shihu gold deposit, western Hebei. Geology in China, 34(2): 335-41. |
Lu H and Zhang Q. 2016. Applications of deep convolutional neural network in computer vision. Journal of Data Acquisition & Processing, 31(1): 1-17. |
Namatēvs I. 2017. Deep convolutional neural networks:Structure, feature extraction and training. Information Technology and Management Science, 20(1): 40-47. |
Schmidhuber J. 2015. Deep learning in neural networks:An overview. Neural Networks, 261: 85-117. |
Shi E, Qian LI, Daquan GU and Zhao Z. 2018. Convolutional neural network nodel nased on nocal feature. Computer Engineering, 44(2): 282-286. |
Singh N, Singh TN, Tiwary A and Sarkar MK. 2010. Textural identification of basaltic rock mass using image processing and neural network. Computational Geosciences, 14(2): 301-310. |
Yang LY, Yang LQ, Yuan WM, Zhang C, Zhao K and Haijun YU. 2013. Origin and evolution of ore fluid for orogenic gold traced by D-O isotopes:A case from the Jiapigou gold belt, China. Acta Petrologica Sinica, 29(11): 4025-4035. |
Yosinski J, Clune J and Bengio Y. 2014. How transferable are features in deep neural networks?. Eprint Arxiv, 27: 3320-3328. |
Zhang Y, Li MC and Han S. 2018. Automatic identification and classification in lithology based on deep learning in rock images. Acta Petrologica Sinica, 34(2): 333-342. |
Zhou FY, Jin L and Dong J. 2017. Review of convolutional neural network. Chinese Journal of Computers, 40(6): 1229-51. |
Zhou W. 2017. Facial age estimation method based on convolutional neural network. Master Degree Thesis. Nanjing: Nanjing University.
|
Zhou YZ, Li PX, Wang SG, Xiao F, Li JZ and Gao L. 2017. Research progress on big data and intelligent modelling of mineral deposits. Bulletin of Mineralogy Petrology & Geochemistry, 36(2): 334-339, 344. |
Zhou YZ, Chen S, Zhang Q, Xiao F, Wang SG, Liu YP and Jiao ST. 2018a. Advances and prospects of big data and mathematical geoscience. Acta Petrologica Sinica, 34(2): 256-263. |
Zhou YZ, Wang J, Zuo RG, Xiao F, Shen WJ and Wang SG. 2018b. Machine learning, deep learning and Python language in field of geology. Acta Petrologica Sinica, 34(11): 3173-3178. |
Zhou YZ, Zhang LJ, Zhang AD and Wang J. 2018c. Big Data Mining and Machine Learning in Geoscience. Guangzhou: Sun Yat-sen University Press: 1-360.
|
曹烨, 李胜荣, 张华锋, 敖翀, 李真真, 刘小滨. 2010. 冀西石湖金矿黄铁矿和石英的晶胞参数特征及其地质意义. 矿物岩石地球化学通报, 29(2): 185-191. DOI:10.3969/j.issn.1007-2802.2010.02.011 |
段萌, 王功鹏, 牛常勇. 2018. 基于卷积神经网络的小样本图像识别方法. 计算机工程与设计, (1): 224-229. |
郭晓杰. 2013. 图像准稠密匹配及协分割.博士学位论文. 天津: 天津大学.
|
侯刚, 孙忠实, 王爱平. 2009. 吉林夹皮沟金矿本区矿床成矿及找矿远景评价. 有色矿冶, 25(2): 1-5. DOI:10.3969/j.issn.1007-967X.2009.02.001 |
金钊. 2018. 基于TensorFlow的不同深层卷积神经网络的对比与分析. 电子世界, (6): 25-26. |
刘伟, 戴塔根, 傅文杰, 孙磉礅, 胡斌. 2007. 冀西石湖金矿成矿流体特征. 中国地质, 34(2): 335-341. DOI:10.3969/j.issn.1000-3657.2007.02.016 |
卢宏涛, 张秦川. 2016. 深度卷积神经网络在计算机视觉中的应用研究综述. 数据采集与处理, 31(1): 1-17. |
施恩, 李骞, 顾大权. 2018. 基于局部特征的卷积神经网络模型. 计算机工程, 44(2): 282-286. |
杨利亚, 杨立强, 袁万明, 张闯, 赵凯, 于海军. 2013. 造山型金矿成矿流体来源与演化的氢-氧同位素示踪:夹皮沟金矿带例析. 岩石学报, 29(11): 4025-4035. |
张野, 李明超, 韩帅. 2018. 基于岩石图像深度学习的岩性自动识别与分类方法. 岩石学报, 34(2): 333-342. |
周飞燕, 金林鹏, 董军. 2017. 卷积神经网络研究综述. 计算机学报, 40(6): 1229-1251. |
周旺. 2017. 基于卷积神经网络的人脸年龄估计算法.硕士学位论文. 南京: 南京大学.
|
周永章, 黎培兴, 王树功, 肖凡, 李景哲, 高乐. 2017. 矿床大数据及智能矿床模型研究背景与进展. 矿物岩石地球化学通报, 36(2): 327-331, 344. DOI:10.3969/j.issn.1007-2802.2017.02.016 |
周永章, 陈烁, 张旗, 肖凡, 王树功, 焦守涛, 刘艳鹏. 2018a. 大数据与数学地球科学研究进展. 岩石学报, 34(2): 256-263. |
周永章, 王俊, 左仁广, 肖凡, 沈文杰, 王树功. 2018b. 地质领域机器学习、深度学习及实现语言. 岩石学报, 34(11): 3173-3178. |
周永章, 张良均, 张奥多, 王俊. 2018c. 地球科学大数据挖掘与机器学习. 广州: 中山大学出版社: 1-360.
|