2. 西南林业大学大数据与智能工程学院, 云南 昆明 650224
2. College of Big Data and Intelligent Engineering, Southwest Forestry University, Kunming 650224, China
日冕物质抛射是一种日冕物质从太阳日冕层向行星际空间抛射的强烈空间天气现象[1]。由于日冕物质抛射具有巨大的速度和能量且与背景太阳风在磁场、速度、温度上存在差异,它在行星际空间传播时引起太阳风扰动,严重时甚至引起磁暴等极端空间天气。这些会导致太空中的卫星故障和数据丢失、地面电力系统崩溃及短波通信中断等。为了预防日冕物质抛射对人类生活的影响,实现对日冕物质抛射的预报具有重要意义,而日冕物质抛射检测是预报的重要前提和基础。
太阳和日光层天文台(Solar and Heliospheric Observatory, SOHO)和日地关系天文台(Solar Ter-restrial Relations Observatory, STEREO)等卫星为人类提供了大量的日冕图像资料。图 1(a)和图 1(b)是太阳和日光层天文台提供的LASCO C2图和LASCO C2图的差分图。日冕物质抛射目标在日冕图像上表现为一个明亮、纹理复杂的增亮结构,且尾随着一个亮度不足的暗区域。基于这些图像资料,人们提出了多种方法检测日冕物质抛射的发生频率、角度、速度、质量和能量等特征。现有的日冕物质抛射检测方法可以分为传统检测方法和基于学习的检测方法两类。有关日冕物质抛射检测方法的详细介绍可以参考文[2]。
|
| 图 1 日冕图像。(a)LASCO C2图;(b)LASCO C2图的差分图 Fig. 1 Coronal image. (a) LASCO C2 image; (b) running difference image of LASCO C2 image |
传统检测方法利用日冕图像的灰度或纹理特征和空间域图像处理方法实现日冕物质抛射检测。文[3-4]开发的CACTus通过霍夫变换和图像形态学等方法对日冕物质抛射进行检测,得到日冕物质抛射事件的位置、角度和速度等信息。CACTus生成的目录是第1个自动检测的日冕物质抛射目录。文[5-6]提出的SEEDS利用日冕图像的灰度信息检测日冕物质抛射的前缘和后缘, 生成的SEEDS目录和CACTus目录、CDAW目录一起组成日冕物质抛射的3大参考目录,其中,CDAW是人工标记的目录。人工检测日冕物质抛射费时费力,且弱日冕物质抛射检测结果往往受人为因素的影响,利用计算机技术检测日冕物质抛射成为趋势和发展方向。但是,传统的日冕物质抛射自动检测方法使用阈值的方式判断,不能准确识别日冕物质抛射。基于简单的阈值分析识别日冕物质抛射存在以下缺陷:(1)阈值难以选定;(2)选定的阈值难以兼顾强日冕物质抛射和弱日冕物质抛射。因此,当强日冕物质抛射检测效果好时,它们对特征不明显的弱日冕物质抛射检测效果变差,且对日冕物质抛射的角宽度和中心角等信息的检测误差大。
基于学习的检测方法的思路是先使用机器学习方法训练日冕物质抛射分类器,再使用分类器对日冕物质抛射与背景信息进行分类。文[7-8]提出基于AdaBoost的日冕图像识别方法,该方法直接识别扇形区域的日冕物质抛射。文[9]提出在极坐标下检测日冕物质抛射的学习方法,该方法提取图像的纹理、灰度和梯度方向直方图(Histogram of Oriented Gradient, HOG)等特征,训练多特征融合的分类器进行日冕物质抛射检测。然而,基于学习的检测方法使用人为定义特征进行建模,而日冕物质抛射的图像特征复杂多变,不同的日冕物质抛射之间的特征差异大,导致人为定义特征对日冕物质抛射的建模效果较差。
Faster R-CNN[10]是现阶段最好的目标检测算法之一。基于深度学习神经网络,Faster R-CNN通过自主学习数据集的特征训练一个优秀的目标检测网络。Faster R-CNN在PASCAL VOC(Pattern Analysis, Statistical Modeling and Computational Learning)数据集[11]上检测结果的平均准确率(Mean Average Precision, MAP)高达73.2%,检测效果良好,现已应用到多种检测场景[12-13]。Faster R-CNN的特征提取网络能对日冕物质抛射进行较好建模,解决了现有日冕物质抛射检测方法存在的人为定义特征无法准确表达的问题。另外,Faster R-CNN使用神经网络训练的分类器比基于学习方法的分类器效果相对较好。基于以上原因,本文提出一种基于Faster R-CNN的日冕物质抛射检测方法。本文的主要内容包括:(1)参考CDAW,SEEDS和CACTus等日冕物质抛射目录和通过人工校验标注数据集,标注了包含9 113幅日冕图像的目标检测数据集;(2)针对日冕图像的特点改进Faster R-CNN模型,使其更适合日冕物质抛射检测。
1 深度学习算法及Faster R-CNN随着机器学习的发展和计算机硬件水平的提高,基于深度学习的目标检测算法层出不穷。在该类算法中,R-CNN(Region-based Convolutional Neural Networks)系列(Faster R-CNN是其中的突出代表)、SSD(Single Shot MultiBox Detector)[14]和YOLO(You Only Look Once)[15]是现有性能比较好的几种算法。该类算法按处理流程主要分为单步检测算法和双步检测算法。双步检测算法分两步处理目标检测问题,先通过选择性搜索算法或区域建议网络(Region Proposal Network, RPN)选取一定数量的候选框,然后通过分类网络和回归网络确定目标物体的类别和位置。由于候选框选取阶段比较耗时,双步检测算法实时性略差,但精度高。为了提高目标检测的实时性,文[14-15]分别提出了SSD和YOLO等单步检测算法。这类算法不需要选取候选框,直接从原图产生目标的类别和位置,实时性好,但精度稍逊于双步检测算法。这两类算法在自然图像集上的检测效果都远优于传统检测方法。通过实验对比,Faster R-CNN在日冕图像等非自然图像的检测鲁棒性比SSD和YOLO好,我们选择Faster R-CNN作为基础搭建日冕物质抛射检测网络。
Faster R-CNN是Fast R-CNN[16]的改进算法。Fast R-CNN使用选择性搜索算法选取候选框,这一步骤耗时长,是该方法实时性的瓶颈。Faster R-CNN用区域建议网络代替选择性搜索算法,提高了候选框选取的效率,而检测精度不受影响。Faster R-CNN的模型框架如图 2,该网络可以分为特征提取网络、区域建议网络和分类器3个模块。
|
| 图 2 Faster R-CNN模型框架图 Fig. 2 Faster R-CNN model framework |
特征提取网络使用卷积层+ 激活层+ 池化层提取图像的特征图,Faster R-CNN使用VGG16网络[17]作为特征提取网络。特征图共享用于后续的区域建议网络和分类器。
区域建议网络用两个分支处理特征提取网络输出的特征图。一个分支结合锚点选取可能包含目标的候选框,另一个分支生成候选框包含目标的概率,结合两个分支得到候选目标的位置和置信度。锚点是区域建议网络的精髓,是基于特征图的每个特征点生成的一组矩形框。区域建议网络设置9种锚点,由3种尺寸和3种长宽比组合而成。3种尺寸为64 × 64,128 × 128和256 × 256,3种长宽比为1∶1,1∶2和2∶1。特征图上每一个元素根据这9种锚点生成9个候选框,N × N特征图生成N × N × 9个候选框。训练过程中随机选择128个正候选框和128个负候选框进行训练。
分类器利用特征图和区域建议网络,通过全连接层与softmax函数计算每个候选框的类别,输出类别概率向量;同时利用边框回归反演获得每个候选框的位置偏移量,得到更加精确的目标位置。
2 改进的Faster R-CNN框架Faster R-CNN对自然图像数据的检测效果比较好,但由于日冕图像与自然图像的差异,Faster R-CNN直接用于日冕图像检测的效果比较差,主要原因有:(1)本文数据集所用的日冕图像的差分图是灰度图,色彩和纹理特征不如PASCAL VOC,COCO[18]等数据集中的自然图像丰富;(2)日冕图像中的日冕物质抛射的目标尺寸与自然图像集的存在差异,使用针对自然图像设置的原始锚点检测效果较差。
基于上述原因,本文根据日冕图像的特点在特征提取网络和锚点参数方面改进了Faster R-CNN,改进后的模型如图 3。
|
| 图 3 本文改进的Faster R-CNN模型框架。t-0表示当前时刻,t-1表示前一时刻,t-2表示前第二时刻 Fig. 3 Faster R-CNN model framework is improved in this paper. t-0 represents the current moment, t-1 represents the previous moment, and t-2 represents the penultimate moment |
在目标检测领域,VGG16网络能提取目标的抽象语义特征。但用于日冕图像等非自然图像特征提取时,存在随卷积深度的增长导致特征退化而丢失浅层特征的问题。而ResNet101[19]网络通过引入残差网络可以解决卷积深度增长导致的特征退化问题。残差网络相对于普通网络不同的是引入了跳跃连接,可以使上一个残差块的信息没有阻碍地流入下一个残差块,提高信息流通,保留浅层特征,并且避免由于网络过深引起的梯度消失和退化问题。日冕图像含信息量比自然图像少,随着卷积深度增加容易退化,需要保留浅层特征。因此,本文算法选择ResNet101网络作为特征提取网络。
日冕图像具有明显的时间连续性,相邻时刻的日冕图像相似。图 4(a)和图 4(b)为2014年1月1日15时12分8秒和2014年1月1日15时24分5秒两相邻时刻的日冕图像差分图。由于日冕物质随时间向外抛射,相对前一时刻,后一时刻日冕物质离太阳中心稍远,且两幅图像的背景相似性较高。如图 4(c)和图 4(d),日冕图像差分图转化为极坐标图后,相邻两幅图像的日冕物质抛射在水平方向基本重合,在垂直方向上,后一时刻的日冕物质抛射稍微变高。由于相邻时刻的日冕物质抛射特征和位置相似,相邻图像的特征融合能加强目标特征的表达,准确区分日冕物质抛射与背景。为了更好地利用日冕图像的时间序列相似性,加强日冕物质抛射的特征建模,我们检测某一时刻日冕图像时,将当前时刻特征与前两个时刻的特征融合。具体做法为3个时刻的日冕图像经过同一个特征提取网络生成3幅特征图,3幅特征图由全连接层卷积融合成1幅新的特征图,新的特征图作为区域建议网络和分类器的输入。
|
| 图 4 相邻日冕物质抛射的差分图及极坐标图。(a)2014年1月1日15时12分8秒的差分图;(b)2014年1月1日15时24分5秒的差分图;(c)(a)图的极坐标图;(d)(b)图的极坐标图 Fig. 4 CME running difference image and polar image. (a) The running difference image at 15:12:08 on Jan. 1, 2014; (b) running difference image at 15:24:05 on Jan. 1, 2014; (c) polar coordinates of image (a); (d) polar coordinates of image (b) |
基于距离的聚类算法k-means[20]采用距离作为相似性的评价指标,即认为两个对象的距离越近,相似度越大。该算法认为类簇是由距离靠近的对象组成的,因此把得到紧凑且独立的类簇作为最终目标。
Faster R-CNN中的原始锚点是针对自然图像设置的,生成的矩形框面积较大,日冕物质抛射的面积较小且长宽比差异较大,与原始锚点不匹配。基于本文的数据集,我们对日冕物质抛射的面积和长宽比进行聚类,获得面积和长宽比组合。根据k-means得到的聚类结果,本文设置了9种锚点,为尺寸(16 × 16, 32 × 32和128 × 128)和长宽比(1∶1, 1∶2和1∶4)的组合。
3 数据集标注目前还没有关于深度学习及目标检测的日冕物质抛射数据集,本文采用自制的数据集。本文从SOHO下载2007年6月~9月、2014年1月~4月共8个月时长的LASCO C2日冕图像数据。LASCO C2图像经过图形形态学、帧间差分、极坐标转化等处理后得到极坐标差分图。差分图能更好地分辨日冕物质抛射的运动趋势,减少背景及噪声、冕流等非日冕物质抛射信息的影响。极坐标图相对于原始日冕图像更有利于矩形框的标注和检测。因此,本文以日冕图像的极坐标差分图作为检测模型的输入。
本文的数据集参考CDAW,SEEDS和CACTus 3大目录的信息标注日冕物质抛射,并通过人工校验进行微调。根据CDAW目录对日冕物质抛射种类的定义,我们将日冕物质抛射分为强日冕物质抛射和弱日冕物质抛射。强日冕物质抛射[21]是指日冕层在太阳剧烈活动期间抛射的大量物质,在日冕图像上表现为高亮区域面积较大、呈扩张状且扩张速度较快、亮度特征明显、抛射角宽度一般大于40°的日冕物质抛射现象,类似CDAW目录中种类标记为空的日冕物质抛射。弱日冕物质抛射[21]是指太阳活动前后期发生的日冕层抛射物质,在日冕图像上表现为抛射物质较少、高亮特征不明显、抛射角宽度一般小于30°、呈现为小区域的暗团或微亮的细条等日冕物质抛射现象,类似CDAW目录中种类标记为弱或非常弱的日冕物质抛射。如图 5,图 5(a)和图 5(b)图的左子图矩形框区域分别表示强日冕物质抛射和弱日冕物质抛射,右子图为左子图矩形框区域的放大图。
|
| 图 5 日冕物质抛射分类。(a)强日冕物质抛射;(b)弱日冕物质抛射 Fig. 5 CME classification. (a) The strong CME; (b) the weak CME |
表 1为2007年6月1日~3日期间3大目录的日冕物质抛射标记情况,共标记了16个日冕物质抛射事件,3大目录同时都标记的日冕物质抛射事件有4个。3大目录都较好地标记了日冕物质抛射事件,但它们之间存在较大差异且有各自的缺陷。如表 1的日冕物质抛射事件1,CDAW在2007年6月1日0时6分标记了这个日冕物质抛射事件,但CACTus和SEEDS没有标记。同时也存在CACTus或SEEDS标记了某个日冕物质抛射事件,而其他目录没有标记的情况。如表 1的日冕物质抛射事件3,3大目录都标记了2007年6月1日7时30分起始的日冕物质抛射事件,但3大目录标记的位置信息差异较大。有时,某一目录标记为两个在角度上相邻的日冕物质抛射事件,而另一个目录将它们标记为同一个日冕物质抛射事件。另外,3大目录标记的一些日冕物质抛射事件的位置与图像中日冕物质抛射的真实位置有差异。
| CME event | CDAW | CACTus | SEEDS | ||||||||
| Start time | PA/° | Width/° | Start time | PA/° | Width/° | Start time | PA/° | Width/° | |||
| 1 | 2007-06-01 0:06 | 227 | 13 | — | — | — | — | — | — | ||
| 2 | 2007-06-01 5:06 | 248 | 14 | — | — | — | — | — | — | ||
| 3 | 2007-06-01 7:30 | 88 | 53 | 2007-06-01 6:54 | 91 | 28 | 2007-06-01 7:54 | 84 | 38 | ||
| 4 | 2007-06-01 14:06 | 228 | 7 | — | — | — | — | — | — | ||
| 5 | 2007-06-01 22:06 | 288 | 121 | — | — | — | — | — | — | ||
| 6 | 2007-06-01 23:54 | 86 | 75 | 2007-06-02 0:06 | 101 | 32 | 2007-06-02 0:06 | 107 | 21 | ||
| 7 | — | — | — | 2007-06-02 1:31 | 272 | 18 | — | — | — | ||
| 8 | 2007-06-02 3:54 | 275 | 40 | — | — | — | — | — | — | ||
| 9 | 2007-06-02 7:06 | 284 | 35 | — | — | — | 2007-06-02 5:30 | 277 | 12 | ||
| 10 | — | — | — | — | — | — | 2007-06-02 7:30 | 113 | 8 | ||
| 11 | 2007-06-02 17:30 | 58 | 49 | 2007-06-02 16:54 | 78 | 10 | 2007-06-02 17:54 | 74 | 13 | ||
| 12 | 2007-06-03 4:30 | 71 | 21 | — | — | — | — | — | — | ||
| 13 | 2007-06-03 6:54 | 84 | 36 | — | — | — | — | — | — | ||
| 14 | 2007-06-03 9:54 | 86 | 71 | 2007-06-03 9:54 | 83 | 40 | 2007-06-03 9:54 | 81 | 45 | ||
| 15 | 2007-06-03 16:30 | 249 | 30 | — | — | — | — | — | — | ||
| 16 | — | — | — | — | — | — | 2007-06-03 13:32 | 76 | 16 | ||
针对上述问题,我们先利用3大目录信息自动生成目标框,再使用lambelImg工具进行手工调整。自动生成和人工调整目标框的步骤:(1)取并集,取3大目录标记的日冕物质抛射信息的并集。(2)去重,当某个日冕物质抛射事件被两个以上的目录标记时,首先以CDAW的信息为准;当CDAW没有标记时以SEEDS的信息为准,确定目录信息后将其标注于日冕图像。(3)人工检验,当3大目录出现误检时,手工将误检信息剔除;当参考目录给出的位置偏离日冕物质抛射真实位置较大时,进行手工调整。手工调整时,日冕物质抛射目标的边缘设置为目标区域块的灰度值比图像平均灰度值高5的像素,当两个目标块的边缘距离小于10个像素点时,两个目标块归为同一个日冕物质抛射,边缘重新设置为两个目标块合并后的边缘,最后沿边缘标注日冕物质抛射的矩形目标框。如图 6(a),3幅图像分别表示2007年5月1日12时54分日冕图像的CDAW,SEEDS和本文数据集的标记结果,本文数据集的标记结果主要参考CDAW目录的信息并进行微调产生。如图 6(b),3幅图像分别表示2014年2月16日18时12分5秒日冕图像的SEEDS,CACTus和本文数据集的标记结果,CDAW在该日冕图像上没有标记日冕物质抛射,本文数据集的标注结果主要参考SEEDS目录的信息并进行微调产生。如图 6(c),3幅图像分别表示CDAW,SEEDS和CACTus的误检情况:第1幅图为CDAW目录在2007年5月2日11时6分日冕图像上标注的日冕物质抛射区域,但此区域并未存在日冕物质抛射;第2幅图像为SEEDS目录在2014年2月19日3时24分5秒日冕图像检测到的日冕物质抛射区域,但此区域属于已抛射的日冕物质留下的尾部,并非一个新的日冕物质抛射;第3幅图像显示CACTus目录在2014年2月19日4时24分5秒日冕图像上检测到的日冕物质抛射区域,但该区域并未存在日冕物质抛射。在人工校验阶段,这些误检的日冕物质抛射将剔除。
|
| 图 6 本文数据集标注示意图。(a)以CDAW为主的情况;(b)以SEEDS为主的情况;(c)3大目录误检现象。红框表示CDAW,黄框表示SEEDS,蓝框表示CACTus,白框表示本文数据集 Fig. 6 The annotated schematic diagram of the data set in this paper. (a) In cases where CDAW predominates; (b) in the case of SEEDS; (c) three log errors.The red boxes represent CDAW, the yellow boxes represent SEEDS, the blue boxes represent CACTus, and the white boxes represent the text dataset |
基于上述标准,我们标记了从SOHO下载的8个月时长的日冕图像数据,共包含19 524幅图像,其中含有日冕物质抛射的图像有9 113幅,共标注了1 537个日冕物质抛射事件和13 599个标注框。本文选取2007年7月~9月和2014年1月~3月的数据作为训练集,2014年4月的数据作为验证集,而2007年6月的数据作为测试集。训练集包含6 255幅图像、128个强日冕物质抛射事件和997个弱日冕物质抛射事件;验证集包含1 983幅图像、44个强日冕物质抛射事件和195个弱日冕物质抛射事件;测试集包含875幅图像、22个强日冕物质抛射事件和151个弱日冕物质抛射事件。
4 实验训练与结果验证本文模型在主频2.6 GHz、内存16.00 GB、搭载GTX1070显卡的联想电脑上训练完成。在ImageNet训练参数的基础上,采用自制数据集对本文网络进行迁移(Finetune)训练。初始学习率设置为0.001,迭代到35 000次时,学习率减小到0.000 1,最大迭代次数为70 000。为了评价模型的检测效果,本文采用召回率、准确率和平均准确率等指标进行评估。这3个指标都是强日冕物质抛射和弱日冕物质抛射两个类别的平均值。
4.1 验证Faster R-CNN改进的有效性为了验证我们对Faster R-CNN改进的有效性,本文设置了5组对比实验,分别为Faster R-CNN,Faster R-CNN+ResNet101,Faster R-CNN+3个时刻特征融合、Faster R-CNN+锚点改进和集合所有改进的本文模型。在本文数据集的验证集上的实验结果如表 2。
| Model | Recall | Precision | MAP |
| Faster R-CNN | 0.651 | 0.556 | 0.591 |
| Faster R-CNN+ResNet101 | 0.699 | 0.718 | 0.706 |
| Faster R-CNN+3-merge-feature | 0.712 | 0.688 | 0.694 |
| Faster R-CNN+anchor-modify | 0.792 | 0.733 | 0.771 |
| Paper model | 0.873 | 0.753 | 0.815 |
首先,我们分析不同改进对召回率的影响。每一种改进在召回率上都有所提高,锚点改进对召回率提高效果最好,ResNet101网络的提高较小。这是因为改进的锚点更匹配日冕物质抛射的面积和长宽比。在准确率指标上,改进的锚点一样取得最好的提高效果,其他两种改进取得的提高效果也较明显。最后,由于ResNet101保留了日冕图像的浅层特征,3个时刻特征融合更是利用日冕图像的时间相关性加强了当前时刻的日冕物质抛射特征,3种改进的平均准确率都提高10%以上,提高效果比较明显。最终,集合了3种改进的本文模型各个指标都比Faster R-CNN有所提高,其中,召回率提高22.2%,准确率提高19.7%,平均准确率提高22.4%。这表明本文基于日冕图像的特点对Faster R-CNN的改进是有效的。
4.2 不同目标检测算法对比为了验证本文模型的检测效果,我们分别用本文模型,Faster R-CNN,SSD和YOLO V3[22]等4类检测模型对本文数据集的验证集进行测试。实验结果如表 3。
| Model | Recall | Precision | MAP |
| Faster R-CNN | 0.701 | 0.557 | 0.594 |
| SSD | 0.671 | 0.473 | 0.522 |
| YOLO V3 | 0.645 | 0.438 | 0.504 |
| Paper model | 0.873 | 0.753 | 0.815 |
SSD和YOLO V3等一步检测算法由于仅提取图像的深层特征,缺少第2次边框回归等原因,检测效果较差。Faster R-CNN也存在一步检测算法的缺点,但由于是两步回归,能通过第2步回归提高检测效果,具有更强的鲁棒性。Faster R-CNN的检测效果比SSD和YOLO V3略好,但比本文算法检测效果差。本文模型拥有最好的检测效果,平均准确率为81.5%。
4.3 与传统日冕物质抛射目录对比如图 7,一个日冕物质抛射事件在极坐标图上表现为一系列水平方向有重合、垂直方向逐渐升高的具有明亮特征的目标。另一方面,当前时刻日冕图像中的日冕物质抛射与前一时刻图像中的某个日冕物质抛射在水平方向重合且在垂直方向升高时,这两个目标属于同一日冕物质抛射事件。利用这个特征,我们在本文模型检出的结果数据中定义日冕物质抛射事件的认证标准:相邻时刻图像上的两个目标框在水平方向重叠率超过50%且在垂直方向随时间升高,即可认定这两个目标框属于同一个日冕物质抛射事件,重叠率为两个目标框在水平方向的重叠宽度除以宽度较小的目标框的水平宽度。根据认证标准,我们确定一个日冕物质抛射事件包含多个日冕物质抛射目标框,如果这些目标框超过三分之二为弱日冕物质抛射目标,则该日冕物质抛射事件为弱日冕物质抛射,反之,认为是强日冕物质抛射。角宽度为该日冕物质抛射事件多个目标框右边界的最大值与左边界的最小值之差;中心角为该日冕物质抛射事件多个目标框左边界的最小值加上角宽度的二分之一。根据定义,我们遍历本文模型的检测结果生成日冕物质抛射目录。本文2007年6月的日冕物质抛射目录发布于https://gitee.com/xian-xianggui/faster-rcnn-cme。
|
| 图 7 2007年6月9日16时54分起始的弱日冕物质抛射事件前3帧的检测效果,红框为CDAW检测结果,黄框为SEEDS检测结果,白框为本文数据集标注结果,CACTus没有检测到此事件。(a)~(c)为16时54分、17时06分和17时30分的极坐标差分图;(e)~(f)为(a)~(c)对应的日冕图像差分图 Fig. 7 The detection effect of the first three frames of weak CME event starting at 16:54 on June 9, 2007, the red box is the test result of CDAW, the yellow box is the test result of SEEDS, and the white box is the annotation result of the data set in this paper. CACTus did not detect this event. (a)-(c) is the polar coordinate running difference diagram at 16:54, 17:06 and 17:30; (e)-(f) is the running difference diagram of coronal image corresponding to (a)-(c) |
目前,学术界对日冕物质抛射事件的定义并不明确,在日冕物质抛射检测的正确率方面也没有统一的评价标准。本文标注的数据集参考现有的CDAW,CACTus和SEEDS等3大日冕物质抛射目录,综合了它们的优点,并通过人工校验进行调整,具有一定的准确性和全面性。以自制的数据集为参照标准,我们对比了本文目录与现有3大目录的检测效果。以2007年6月的数据集作为测试集,本文从两方面对日冕物质抛射检测效果进行评估:日冕物质抛射事件数量的检测和日冕物质抛射事件参数的检测。
4.3.1 日冕物质抛射正确检测数量强日冕物质抛射是活动比较激烈的太阳活动,对太空天气和人类生活的影响大,因此正确检测强日冕物质抛射非常重要。本文首先在强日冕物质抛射正确检测数量上与现有3大目录进行比较。另外,现有的检测方法在弱日冕物质抛射检测上表现均不如强日冕物质抛射。因此,提高对弱日冕物质抛射的检测正确率也是检测方法改进的重要目的。
由于日冕物质抛射定义与背景冕流的影响,CDAW等人工标记目录和自动检测目录得到同一个日冕物质抛射事件的特征参数有差异。虽然不同目录得到同一个日冕物质抛射事件的参数有一定偏差,但从相关性可以确定为同一日冕物质抛射事件。本文定义检测正确的日冕物质抛射事件为目录标记的日冕物质抛射事件在水平方向的角度与数据集标注的日冕物质抛射事件的角度重叠率大于50%,且起始时刻与数据集标注的起始时刻相差在1.5 h以内,则目录标记的该日冕物质抛射事件认定为一个检测正确的日冕物质抛射事件。如图 7为检测正确的日冕物质抛射:CDAW检测到的日冕物质抛射位置与数据集的重叠率为100%,且起始时间与数据集标注的起始时间都是16时54分,即CDAW的检测结果是正确的;SEEDS检测的日冕物质抛射位置与数据集的重叠率为100%,且起始时间与数据集标注的起始时间相差12 min,即SEEDS的检测结果也是正确的。
各个目录正确的日冕物质抛射数量对比结果如图 8。我们使用2007年6月的测试集共标记了22个强日冕物质抛射和151个弱日冕物质抛射。强日冕物质抛射检测方面,CDAW,SEEDS和CACTus分别检出22个、11个和9个。弱日冕物质抛射检测方面,CDAW,SEEDS和CACTus分别检出127个、15个和11个。而本文算法检出了22个强日冕物质抛射和138个弱日冕物质抛射。因此,在强日冕物质抛射和弱日冕物质抛射检测方面,本文算法取得最好的效果。这是因为在标注数据集时我们综合了3个目录的信息,标注一些在CDAW没有、但在SEEDS或CACTus目录可以找到的日冕物质抛射。如图 9,图 9(a)为本文方法和其他目录对强日冕物质抛射的检测效果;图 9(b)为本文方法和其他目录对弱日冕物质抛射的检测效果。
|
| 图 8 各个目录正确的日冕物质抛射数量的对比图 Fig. 8 A comparison of the correct number of CME entries for each log |
|
| 图 9 本文方法检测效果。(a)强日冕物质抛射检测效果;(b)弱日冕物质抛射的检测效果。红框为CDAW的检测结果,黄框为SEEDS的检测结果,蓝框为CACTus的检测结果,白框为本文检测结果 Fig. 9 The detection effect of this method. (a) Strong CME detection effect; (b) weak CME detection effect. The red boxes represent CDAW, the yellow boxes represent SEEDS, the blue boxes represent CACTus, and the white boxes represent article logs |
日冕物质抛射特征参数检测的准确性是评价日冕物质抛射检测算法的重要部分。本文以2007年6月测试集为基准,对比本文算法与其他3个目录对日冕物质抛射中心角和角宽度检测的表现。日冕物质抛射事件在极坐标图上表现为一系列水平方向有重合、垂直方向逐渐升高的具有明亮特征的目标。本文取测试集标注的多个目标的最小左边缘作为整个日冕物质抛射事件的左边缘,最大右边缘作为整个日冕物质抛射事件的右边缘,左右边缘的宽度即为日冕物质抛射的角宽度,中心点的角度即为中心角。由此,本文得到测试集的各日冕物质抛射事件的中心角和角宽度的参数。检测结果显示,本文算法与3大目录同时标记的强日冕物质抛射有9个,弱日冕物质抛射有10个。本文以19个日冕物质抛射事件为对象,以测试集的参数为标准,统计本文目录和3大目录各自相对于测试集的中心角和角宽度的平均误差。统计结果如图 10。
|
| 图 10 各个目录的日冕物质抛射参数的平均误差 Fig. 10 Average error of CME parameters for each log |
从图 10可以看出,本文算法和CDAW目录的中心角和角宽度与测试集相差不大。本文目录的中心角和角宽度平均误差分别为3.3°和8.2°,CDAW目录的为5.6°和10.4°,而SEEDS和CACTus目录由于采用简单阈值的方法判断日冕物质抛射,它们的中心角和角宽度的平均误差相对较大。本文算法在日冕物质抛射中心角和角宽度的检测方面都比现有3大目录更精确。
5 结束语由于人为定义日冕物质抛射特征和设定日冕物质抛射分割阈值,现有的日冕物质抛射检测方法难以准确建模及选取普适的阈值,存在检测效果不佳的问题。因此,本文引入基于深度学习的目标检测模型检测日冕物质抛射。首先,参考CDAW,CACTus和SEEDS等目录标注日冕物质抛射数据集,利用自制数据集训练的特征提取网络能够提取日冕物质抛射的特征信息。另外,深度学习检测模型自主训练分类器,避免了人为设定阈值的缺陷,因此本文算法对日冕物质抛射有较好的检测效果。以2007年6月的测试集为基准,本文算法有以下优势:(1)对强日冕物质抛射和弱日冕物质抛射的检测正确率分别达到100% 和91.4%,其中,对全部日冕物质抛射的检测准确率为92.5%,分别比CDAW,SEEDS和CACTus高出6.4%,72%和81%;(2)能够检出CDAW目录漏检的弱日冕物质抛射事件,我们检出的CDAW漏检的弱日冕物质抛射有一部分是SEEDS或CACTus标注的弱日冕物质抛射,另一部分根据我们给出的弱日冕物质抛射的定义可认证为弱日冕物质抛射;(3)在本文标注的测试集上,本文算法检出的日冕物质抛射中心角和角宽度等参数比现有3大目录更精确。
本文工作有两个创新意义。首先,引入深度学习方法,自主提取日冕物质抛射特征,能更好地表达日冕物质抛射的特征,取得了较好的检测效果。另外,参考CDAW,CACTus和SEEDS的日冕物质抛射信息,我们标注了目标检测的日冕物质抛射数据集。这个数据集综合了3大目录的优势并经过人工校验调整,能一定程度上正确反映日冕物质抛射的发生情况,也可以为后续日冕物质抛射的检测提供参考。虽然本文对日冕物质抛射检测进行了研究并取得了一定的进展,但限于时间和知识面的关系,还可以进行以下改进:(1)数据集的信息相对单一且没有用到3大目录的速度和加速度等参数,后续可以加入这些信息;(2)本文算法没有测量日冕物质抛射事件的速度等特征,后续可以检测这些日冕物质抛射参数。
| [1] |
王水, 李波, 赵寄昆. 日冕物质抛射[J]. 天文学进展, 2003(3): 192–208 WANG S, LI B, ZHAO J K. Coronal mass ejections[J]. Progress in Astronomy, 2003(3): 192–208. |
| [2] |
郭敏, 尚振宏, 强振平, 等. 日冕物质抛射检测研究进展[J]. 天文研究与技术, 2020, 17(1): 39–51 GUO M, SHANG Z H, QIANG Z P, et al. Research progress on detection of coronal mass ejection[J]. Astronomical Research & Technology, 2020, 17(1): 39–51. DOI: 10.3969/j.issn.1672-7673.2020.01.006 |
| [3] | BERGHMANS D, FOING B H, FLECK B. Automated detection of CMEs in LASCO data[J]//Proceedings of the SOHO 11 Symposium on From Solar Min to Max: Half a Solar Cycle with SOHO. 2002: 437-440. |
| [4] | ROBBRECHT E, BERGHMANS D. Automated recognition of coronal mass ejections (CMEs) in near-real-time data[J]. Astronomy & Astrophysics, 2004, 425(3): 1097–1106. |
| [5] | OLMEDO O, ZHANG J, WECHSLER H, et al. Automatic detection and tracking of coronal mass ejections in coronagraph time series[J]. Solar Physics, 2008, 248(2): 485–499. DOI: 10.1007/s11207-007-9104-5 |
| [6] | OLMEDO O, ZHANG J. Partial torus instability[J]. The Astrophysical Journal, 2010, 718(1): 433. DOI: 10.1088/0004-637X/718/1/433 |
| [7] | ZHANG L, YIN J Q, LIN J B, et al. Detection of coronal mass ejections using AdaBoost on grayscale statistic features[J]. New Astronomy, 2016, 48: 49–57. DOI: 10.1016/j.newast.2016.04.002 |
| [8] | ZHANG L, YIN J Q, LIN J B, et al. Detection of coronal mass ejections using multiple features and space-time continuity[J]. Solar Physics, 2017, 292(7): 91. DOI: 10.1007/s11207-017-1107-2 |
| [9] | YIN J, YAO H, LIN J, et al. Coronal Mass Ejections detection using multiple features based ensemble learning[J]. Neurocomputing, 2017, 244: 123–130. DOI: 10.1016/j.neucom.2017.03.030 |
| [10] | REN S, HE K, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(6): 1137–1149. |
| [11] | EVERINGHAM M, ESLAMI S, GOOL L V, et al. The Pascal Visual Object classes challenge: a retrospective[J]. International Journal of Computer Vision, 2015, 111(1): 98–136. DOI: 10.1007/s11263-014-0733-5 |
| [12] |
岳邦铮, 韩松. 基于改进Faster R-CNN的SAR船舶目标检测方法[J]. 计算机与现代化, 2019(9): 90–95, 101 YUE B Z, HAN S. A SAR ship detection method based on improved Faster R-CNN[J]. Computer and Modernization, 2019(9): 90–95, 101. |
| [13] |
杨薇, 王洪元, 张继, 等. 一种基于Faster-RCNN的车辆实时检测改进算法[J]. 南京大学学报(自然科学版), 2019, 55(2): 231–237 YANG W, WANG H Y, ZHANG J, et al. An improved vehicle real-time detection algorithm based on Faster-RCNN[J]. Journal of Nanjing University (Natural Science), 2019, 55(2): 231–237. |
| [14] | LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot MultiBox detector[C]//Proceedings of the European Conference on Computer Vision. 2016. |
| [15] | REDMON J, DIVVALA S, GIRSHICK R, et al. You Only Look Once: unified, real-time object detection[C]//Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition, 2016: 779-788. |
| [16] | GIRSHICK R. Fast R-CNN[J]//Proceedings of the 2015 IEEE International Conference on Computer Vision (ICCV). 2015. |
| [17] | SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[J]//Proceedings of the 3rd International Conference on Learning Representations. 2015. |
| [18] | LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: common objects in context[C]//Proceedings of the European Conference on Computer Vision. 2014. |
| [19] | HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2016. |
| [20] | HUANG Z. Extensions to the k-means algorithm for clustering large data sets with categorical values[J]. Data Mining and Knowledge Discovery, 1998, 2(3): 283–304. DOI: 10.1023/A:1009769707641 |
| [21] |
姚海, 尹建芹, 林佳本, 等. 一种端到端的日冕物质现象检测新方法[J]. 科学通报, 2017(23): 2680–2690 YAO H, YIN J Q, LIN J B, et al. An end-to-end method of Coronal Mass Ejections detection[J]. Chinese Science Bulletin, 2017(23): 2680–2690. |
| [22] | REDMON J, FARHADI A. YOLOv3: an incremental improvement[R/OL]. (2018-04-08)[2021-01-18]. https://arxiv.org/pdf/1804.02767.pdf. |



