2. 湖北省疾病预防控制中心,湖北 武汉 430079
2. Hubei Provincial Center for Disease Control and Prevention, Wuhan 430079 China
固体核径迹探测技术广泛应用在核物理、射线探测、地质学和孔膜制造等领域[1-2]。带电粒子穿过绝缘固体时,沿运动轨迹造成辐射损伤,在损伤密度足够高时,经适当处理,形成可观测的径迹。随着计算机技术的发展,图像处理在固体核径迹方面的应用逐步增多。现有核径迹图像识别方法多为滤波法、边缘检测法等形态学计算方法[3-5]。这些算法对原始图像质量要求较高,且识别径迹的类型单一,对于混有噪点、杂质和不同角度入射径迹的复杂图像识别成功率低,尤其是当杂质较大、径迹较小时,误识别的概率较大,甚至会出现无法识别的情况[6]。基于多算法、多条件判断的自动径迹识别系统可大大增强识别过程中的附着灰尘、纤维及杂质的处理能力,使径迹识别变得更加准确[7]。本文在形态学方法预处理图像的基础上,探究机器学习自动识别方法,开展核径迹识别算法的初步研究,提高径迹图像识别效果,以期助力固体核径迹测量自动化水平的发展。
1 材料与方法 1.1 资料来源本文所取图像来自聚碳酸醋类塑料探测器——烯丙基二甘醇碳酸醋(CR-39)所记录的中子反冲质子径迹。本研究采用意大利Politrack RS20固体核径迹自动分析系统截取143张含有径迹的PNG格式图像文件,对其处理后得到1 250张素材用于建立训练并验证机器学习模型的数据集。
1.2 研究方法由于核径迹的形态繁多,存在垂直入射、大角度斜入射以及入射点集中造成的径迹粘连等多种情况,导致图像中出现不同的形状和亮度[8]。为识别复杂的核径迹图像,本研究基于MATLAB 2021b编程软件,采用形态学与机器学习相结合的方法,对图像中的径迹进行识别并标记。
首先,利用形态学技术分析原始图像并采集素材,用于建立机器学习所需要的训练图像数据集。基础形态学的图像处理包含膨胀腐蚀、开闭运算等。模型训练图像采集的步骤为:输入含有噪点和杂质的原始样本核径迹图像,进行二值化处理和去噪操作,然后采用开运算和膨胀腐蚀等方法清除明显杂质类图形,对剩余疑似径迹的图形进行截图,并保存为素材,同时记录每张素材的径迹类型,建立初始训练数据集。数据集分为3部分:50%为训练集,30%为验证集,20%为测试集。机器学习程序的训练素材采集流程图如图1。
训练集和验证集用于机器学习模型算法的训练,测试集用于检验模型的分类效果从而计算识别准确度。训练模型及计算识别准确度的流程图如图2。
受底片磨损、镜头和环境灰尘等因素的影响,原始图像中不但混有大量噪点和杂质,还有明亮不一的斑块区域。这些不仅会加大素材的截取量,而且会影响后续机器学习程序的识别效率和准确度,因此需要对收集到的原始图像进行预处理。
不同径迹、杂质和背景在图像中呈现的亮度不同,而对比度越高,则越容易检测出微小或相距甚微的物体[9]。为了改善径迹的视觉效果,便于程序寻找、定位和截图,要最大限度的提高样本图像的对比度[10]。自适应阈值二值化(OTSU)算法能够按图像的灰度特性,自适应的寻找像素点亮度之间的类间方差,算出最佳的二值化阈值[11-12]。本研究首先采用OTSU算法将灰度图转为二值图,白色部分为疑似径迹,黑色部分为背景。
针对非径迹的二值化影响,本研究采用3步骤进行综合处理:①采取3×3的模板对二值图进行中值滤波处理,消除部分因原图噪点和微小杂质引起的异值点;②利用开闭运算去除较上一步图像中面积大但比径迹面积小的杂质;③扫描二值图中的8连通区域,去除面积较大的杂质或边界。处理效果如图3,基本消除了二值图中的非径迹区域,记录剩余白色区域的轮廓位置信息,并在原图像中截图用作素材打包(如图3(e))。
本研究共分析143张样本图像,采集1 250张素材,部分素材为如图4。
根据图像视觉效果,将上述1 250张素材图分为10种类型,如表1。针对每张素材图按照表1分类记录,并制作出训练机器学习的完整数据集。
机器学习是利用计算机程序对一部分数据进行多次参数拟合,然后对另一部分数据进行预测与判断的算法。本研究将训练集作为用于模型拟合的数据样本;验证集作为模型训练过程中单独留出的样本集,用于调整模型的系数和交叉验证、评估模型分类效果。在模型迭代训练时,将训练集/验证集交叉验证用来检查当前模型泛化能力(准确度,召回率等),并以此数值决定是否停止继续训练,而且交叉验证的方法能根据不同的训练集/验证集划分来对模型做多组不同的训练/验证,改善单独测试结果过于片面以及训练数据不足的问题[13]。测试集在模型训练完毕后测试其效果及准确度。本研究基于卷积神经网络的算法,利用神经网络针对不同径迹图像的数字特征不断完善拟合参数以达到训练模型的目的,算法流程如图5。
参数选取对模型训练的最终效果有直接影响,本研究针对数据集选择设置如下参数:
1)激活函数的最主要功能是将线性运算转变为非线性运算。本研究针对非线性拟合分类问题,图像数据和类型数字的输入值均为非负,选择Relu作为激活函数既不存在梯度饱和问题,且计算速度较快[14]。Relu激活函数的表达式和图像如公式1)和图6。
$ f\left( x \right) = \left\{ \begin{array}{l} 0,\;x \leqslant 0\\ x,\;x > 0 \end{array} \right.$ | (1) |
2)在卷积神经网络中,在相邻的卷积层之间加入一个池化层,缩小参数矩阵的尺寸,减少最后连接层中的参数数量。本研究中输入的图像为二维数据,利用池化层可以去除图像冗余信息、对特征进行压缩、简化网络复杂度、减小计算量,从而加快计算速度,防止参数过度拟合,算法如图7。
3)选取单次传递给程序用以训练参数的个数(batch size)以最优的128为标准[15],既保证了参数的收敛速度,也减弱了随机梯度的噪声。
本研究对数据集在不同参数设置搭配下进行了多次训练,并对训练用时和测试集准确度进行比对,如表2。训练平台采用i9 9980HK CPU,搭配32 GB内存。
由表2可以发现,在Batch Size为128,卷积核为2,池化层步长为2时,模型训练计算用时最短,测试集准确度最高。在通过形态学方法预处理提取素材后,本研究在此参数集设定下对数据集进行多次训练,最终选取准确度最高的模型作为标准保存,并编写图像形态学处理-机器学习算法分类的径迹综合识别程序。程序会自动根据二值化—去噪去杂质—模型识别的步骤,截取待分析图像中的疑似径迹,识别输出目标图像中的核径迹的类型、数目与位置,并对非0结果的径迹在原图中进行标记。
2.2 应用效果本研究利用机器学习方法,训练模型提取径迹图的数字特征来设置拟合参数,建立的算法可针对不同的图像自动识别径迹并反馈数量及位置,速度较快、效率较高。对于1 250张初始样本截图中20%的测试集,识别准确度达84.8%。对于杂质、噪音和径迹粘连的复杂图像,本研究能够较好地识别径迹,并对疑似和确定的径迹用红、蓝2种颜色分别标记,效果如图8。结果显示,图像形态学处理-机器学习分类的径迹综合识别是一种有效、可靠的识别方法。
本研究采用形态学和机器学习相结合的方法,实现了中子反冲质子固体核径迹图像分类自动识别。通过算法能够较为高效、准确地识别标记图像中不同入射角度和曝光度的径迹图像,并区分统计,准确度达到84.8%。基于形态学预处理与机器学习算法相结合的径迹识别方法解决了海量图像识别中的精度低、效果差等问题[16],是一种有效、快速且可靠的识别方法,为实现高通量的核辐射快速测量提供了可能。
本研究提出算法的识别准确度还受以下因素影响:1)径迹片的磨损:底片磨损形成的沟壑无法用程序轻易去除,被沟壑遮挡的径迹不易被截取识别;2)训练素材的局限:机器学习识别程序训练出良好的分类模型需要上万数量级的素材,准确度受训练素材数量的限制。
在今后的研究中,针对上述影响因素进一步改进,探索加入更多基础形态学的函数,提升图像疑似径迹的截取效率;扩充样本图像库,采集更多不同类型的径迹素材;优化调整机器学习程序中卷积神经网络算法的参数,针对细化分类的径迹图像特征拟合出更合适的参数,使模型的识别更精准。
[1] |
李志灵, 陈波, 卓维海, 等. 固体核径迹蚀刻仿真模型研究进展[J]. 中国辐射卫生, 2019, 28(4): 473-476. Li ZL, Chen B, Zhuo WH, et al. Research progress on etching simulation of the nuclear track formed in solid state detectors[J]. Chin J Radiol Health, 2019, 28(4): 473-476. DOI:10.13491/j.issn.1004-714X.2019.04.034 |
[2] |
曹磊, 邓君, 吴鹏, 等. 固体径迹法测量氡及子体的判断阈和探测限[J]. 中国辐射卫生, 2020, 29(3): 246-248. Cao L, Deng J, Wu P, et al. Determination threshold and detection limits of Radon and its daughter by solid track method[J]. Chin J Radiol Health, 2020, 29(3): 246-248. DOI:10.13491/j.issn.1004-714X.2020.03.011 |
[3] |
张庆贤, 葛良全, 肖才锦. 数学形态学在核径迹图像识别中的应用[J]. 核电子学与探测技术, 2008, 28(1): 195-197. Zhang QX, Ge LQ, Xiao CJ. Application of mathematical morphology in discrimination nuclear track images[J]. Nucl Electron Detect Technol, 2008, 28(1): 195-197. DOI:10.3969/j.issn.0258-0934.2008.01.049 |
[4] |
张劲峰. 固体核径迹图像测量关键技术研究[D]. 成都: 西南交通大学, 2017. Zhang JF. Research on the key technologies of solid state nuclear track image measurement[D]. Chengdu: Southwest Jiaotong University, 2017. |
[5] |
袁野. Matlab可视化与机器学习课程的案例教学实践[J]. 福建电脑, 2019, 35(7): 116-118. Yuan Y. Case teaching practice of Matlab visualization and machine learning course[J]. J Fujian Comput, 2019, 35(7): 116-118. DOI:10.16707/j.cnki.fjpc.2019.07.040 |
[6] |
弟宇鸣, 叶红兵, 邱晓林, 等. 基于主成分变换的核径迹图像噪声分析及消除[J]. 核科学与工程, 2007, 27(1): 37-40,19. Di YM, Ye HB, Qiu XL, et al. The analysis and removal of the nuclear track image noise based on principal components transform[J]. Chin J Nucl Sci Eng, 2007, 27(1): 37-40,19. DOI:10.3321/j.issn:0258-0918.2007.01.008 |
[7] |
范敦煌, 卓维海, 陈波. 固体核径迹自动识别系统技术概要[J]. 中国辐射卫生, 2016, 25(5): 638-640. Fan DH, Zhuo WH, Chen B. Technical outline of solid nuclear track automatic recognition system[J]. Chin J Radiol Health, 2016, 25(5): 638-640. DOI:10.13491/j.cnki.issn.1004-714X.2016.05.055 |
[8] |
弟宇鸣, 叶红兵, 邱晓林, 等. 基于MATLAB核径迹图像聚焦算法的研究[J]. 核科学与工程, 2006, 26(4): 316-320. Di YM, Ye HB, Qiu XL, et al. Study of an nuclear track image focalization arithmetic based on MATLAB[J]. Chin J Nucl Sci Eng, 2006, 26(4): 316-320. DOI:10.3321/j.issn:0258-0918.2006.04.006 |
[9] |
范胜男, 谭展, 王博, 等. 2013—2018年部分医院808台次医用磁共振成像设备影像质量检测与临床照片评估[J]. 中国辐射卫生, 2020, 29(6): 632-636. Fan SN, Tan Z, Wang B, et al. Image quality test and clinical photographs evaluation of 808 medical magnetic resonance imaging systems in China during 2013—2018[J]. Chin J Radiol Health, 2020, 29(6): 632-636. DOI:10.13491/j.issn.1004-714X.2020.06.014 |
[10] |
宫法明, 刘芳华, 李厥瑾, 等. 基于深度学习的场景文本检测与识别[J]. 计算机系统应用, 2021, 30(8): 179-185. Gong FM, Liu FH, Li JJ, et al. Scene text detection and recognition based on deep learning[J]. Comput Syst Appl, 2021, 30(8): 179-185. DOI:10.15888/j.cnki.csa.008038 |
[11] |
Otsu N. A threshold selection method from gray-level histograms[J]. IEEE Trans Syst, Man, Cybern, 1979, 9(1): 62-66. DOI:10.1109/TSMC.1979.4310076 |
[12] |
吴冰, 秦志远. 自动确定图像二值化最佳阈值的新方法[J]. 测绘学院学报, 2001, 18(4): 283-286. Wu B, Qin ZY. New approaches for the automatic selection of the optimal threshold in image binarization[J]. J Inst Surv Mapp, 2001, 18(4): 283-286. DOI:10.3969/j.issn.1673-6338.2001.04.014 |
[13] |
梁霄. 机器学习在量子物理学中的应用[D]. 合肥: 中国科学技术大学, 2019. Liang X. Applications of machine learning in quantum physics[D]. Hefei: University of Science and Technology of China, 2019. |
[14] |
宋天阳. 基于遗传神经网络的全球年均气温预测研究[D]. 北京: 华北电力大学(北京), 2020. DOI: 10.27140/d.cnki.ghbbu.2020.000900. Song TY. Research on global average annual temperature prediction based on genetic neural network[D]. Beijing: North China Electric Power University (Beijing), 2020. DOI: 10.27140/d.cnki.ghbbu.2020.000900. |
[15] |
Mishkin D, Sergievskiy N, Matas J. Systematic evaluation of CNN advances on the ImageNet[EB/OL]. (2016-01-13)[2022-02-02]. https://arxiv.org/abs/1606.02228v1.
|
[16] |
叶建龙, 胡新海. 基于卷积神经网络的图像识别算法研究[J]. 安阳师范学院学报, 2021(5): 14-18. Ye JL, Hu XH. Research on image recognition algorithm based on convolution neural network[J]. J Anyang Norm Univ, 2021(5): 14-18. DOI:10.16140/j.cnki.1671-5330.2021.05.005 |