2. 水利部山洪地质灾害防治工程技术研究中心, 430010, 武汉;
3. 武汉大学测绘遥感信息工程国家重点实验室, 430079, 武汉
中国水土保持科学 2024, Vol. 22 Issue (6): 155-162. DOI: 10.16843/j.sswc.2022081 |
在我国城镇化发展的过程中,建设项目活动的人为扰动易引发和加剧水土流失,亟需加强监管[1-3]。建设项目存在类型多、点多、线长、面广、变化快等特点,基于高分辨率遥感影像的传统人工检索方式很难满足全覆盖、多时相的精准监管要求[1, 4-5]。由于高分辨率遥感影像具有丰富的地物信息,以及较少的光谱波段,基于像元光谱特征统计和“面向对象”的遥感影像分类方法极易出现“椒盐效应”“同物异谱”“同谱异物”的现象,极大加剧高分辨率影像分析和处理的难度[6-7]。如何快速高效自动化处理高分辨率影像成为遥感领域的热点和难点问题[8]。
随着计算机视觉技术和遥感影像解译方法的发展,目前基于高分辨率光学遥感影像的目标检测和语义分割已经取得显著的进步[9]。飞机、车辆、船只等地物的目标检测已经取得很高的精度,主要原因是这些地物的语义定义比较明确、边界清晰、地物多样性相对有限。而建设项目的复杂语义场景缺乏统一的语义概念定义,其场景包含多种人工和自然地物,场景内部高度非结构化、图像特征差异显著[10-12]。目前高分辨率遥感影像的建设项目识别主要采用人工解译勾绘方法,但是存在人工解译工作量大的问题[13]。最新提出的选取最优分割尺度的面向对象识别方法,存在不同的遥感影像源、不同地表覆盖特征下识别结果存在差异的问题[14]。而已有的建设项目目标检测方法难以直接应用于建设项目复杂语义场景的检测,直接从特征提取来训练检测器的方法泛化能力难以达到精确提取的要求。
为了解决这些问题,笔者提出一种面向复杂语义场景的建设项目的目标检测方法和理论体系。该方法与传统目标检测方法相比,其优势在于通过合并候选框来改进检测得到的建设项目识别结果,并且对高信息量细部地物进行训练,调整建设项目候选框置信度,从而提高检测效果。
1 研究方法 1.1 技术流程计算机视觉领域从视频中检测具备复杂定义的语义事件(如婚礼、聚会等)一直是个难点,这些事件都具备定义不清晰、类内差别大、包含的视觉特征复杂等特点[15-16]。研究发现视频中的事件可由更具体且易于检测的底层概念(如婚纱、蛋糕、司仪等)组成[17-19],因此本方法将建设项目复杂场景对应视频中的复杂事件,将场景内多种类型细部地物对应视频中的底层概念,依托目标检测方法,基于组成复杂场景细部地物的组合来改进建设项目检测结果。
整个方法流程(图 1)分为以下步骤:1)构建样本数据集;2)细部地物的选取与表达;3)建设项目与细部地物的目标检测;4)组合检测优化。图中虚线框为本研究的创新点。
|
图 1 方法流程图 Fig. 1 Flow chart of the method |
对于建设项目的复杂语义场景,需要发现其内部的哪些细部地物对其检测具有促进作用,即找到最能表征建设项目的细部地物类型。本方法在专家经验基础上,结合建设项目样本中各种细部地物的面积和数量来进行选取。
假设样本所在区域常见的细部地物类型为m种,但由于细部地物的类型较多,部分细部地物提供的信息有限,利用低信息量细部地物反而会增加复杂度,因此需要从这m种细部地物中选取适当的细部地物类型。第i种细部地物的信息量可用以式1计算:
| $ C_i=N_i w_{i \circ} $ | (1) |
式中:Ni为所有建设项目样本框中第i种细部地物的数量; wi则根据词频-逆文件频率(TF-IDF)由下式计算:
| $ w_i=T_{\mathrm{F} i} I_{\mathrm{DF} i}=\frac{N_i}{N} \lg \frac{Y+1}{Y_i} 。$ | (2) |
式中:TFi为第i种细部地物出现的频率,其值为该细部地物在建设项目标注框内出现数量与所有标注的该细部地物数量的比值;逆文件频率IDFi为基于样本区域内建设项目平均面积Y与样本区域中第i种细部地物的平均面积Yi的比值,取对数计算,N为所有建设项目样框中细部地物的总数。注:式2中
本方法的2种检测器均采用经典二阶段目标检测算法Faster RCNN[20-21]。该算法主要由4个部分组成: 1)特征提取部分,利用经典卷积神经网络获得输入图像的特征图,作为目标检测网络基础;2)区域候选网络,采用了深度学习方法来生成候选框的网络结构;3)感兴趣区域池化,将生成的候选框对应到图像的特征图上,综合相关信息得到相应候选框的特征图;4)分类和回归网络,利用候选框的特征图对候选框分类及边界回归得到检测结果。
1.1.3 组合检测优化组合检测优化是基于建设项目检测器得到的建设项目检测结果。建设项目内部的视觉差异较大,覆盖范围不一致,没有清晰明显的边界,直接采用Faster RCNN等常规深度学习目标检测方法难以得到良好的检测效果。而细部地物样本内视觉差异较小,覆盖范围基本一致,可由Faster RCNN得到良好的检测结果。因此需在建设项目初步检测结果的基础上,综合建设项目特性和细部地物检测结果对检测结果进行提升。本研究的组合检测优化采用2个步骤:1)建设项目候选框合并;2)细部地物组合修正。
1) 建设项目候选框合并是针对建设项目没有清晰明显边界的特性。建设项目检测器得到的初步检测结果是多个建设项目候选框(下文简称候选框)及其对应的置信度。图 2中以武汉市一个建设项目为例,基于不同专家的认知差异,该图像既可以判定存在一个建设项目(绿色框包围),也可以判定存在2个建设项目(红色框包围)。这种认知的差异会对建设项目目标检测产生较大误差,因此笔者提出合并候选框策略来降低误差。
|
图 2 建设项目实例 Fig. 2 Actual examples of construction projects |
在建设项目样本标记中,图 2中绿色框为地面实况,红色候选框为建设项目检测器的检测结果。红色候选框存在重叠现象,因此对于建设项目场景检测器得到的检测结果,可以采取合并的方式使其符合地面实况(绿色框)。具体的实现方式为:如果建设项目场景检测器检测到候选框A、B相交,且同时满足候选框A、B的相交面积与二者的最小面积之比大于合并阈值α,且候选框A、B置信度均大于合并置信度阈值β,则候选框A、B会合并为候选框C(图 2黑色虚线框),候选框C的面积范围为候选框A、B的最小外接矩形,合并后的候选框置信度为
| $ C_{\text {onfG }}=\left(C_{\text {onfA }} S_{\mathrm{A}}+C_{\text {onfB }} S_{\mathrm{B}}\right) / S_{\mathrm{C}}。$ | (3) |
式中:ConfA、ConfB和ConfC分别为候选框A、B和C的置信度;SA、SB和SC为建设项目场景检测得到的候选框A、B及合并后候选框C的面积。
2) 细部地物组合修正。建设项目场景的检测难度一方面体现在难以确定其候选框范围,另一方面体现在检测得到候选框的置信度不够准确。而细部地物具有与一般目标检测类别相似的特性,如特征单一、边界清晰等。因此利用细部地物检测器得到细部地物候选框(简称细部框)辅助建设项目场景检测器,将建设项目整体的视觉特征及其内部细部地物的视觉特征联合起来,得到建设项目的综合表达置信度。两者联合后候选框的置信度计算公式如下:
| $ C_{\text {onf }}=\min \left(1, \gamma C_{\text {onfC }}+(1-\gamma) \sum\limits_{i=1}^N\left(C_{\text {onfi }} I_i\right)\right) 。$ | (4) |
式中:Conf为最终计算的置信度结果;γ为超参数,用于调整建设项目场景检测器和细部地物检测器的权重;N为建设项目场景检测器得到的候选框内细部地物的个数;Confi为候选框内第i个细部框的置信度,候选框交集Ii为候选框内第i个细部框和候选框相交的面积占候选框面积的比例,其定义如下:
| $ I_i=\frac{\operatorname{area}\left(B \cap B_i\right)}{\operatorname{area}(B)} 。$ | (5) |
式中B和Bi分别为候选框和第i个细部框。
1.2 试验数据 1.2.1 样本数据集本研究用最小外接框标注建设项目及其内部多种细部地物来构建样本数据集,依据收集到的武汉市建设项目水土保持方案中的防治责任范围和项目总体布局图为参考,选取建设项目及其内部的6种细部地物进行标注,分别为裸土(岩)、防尘网苫盖、施工道路、活动板房、在建建筑物和建成建筑物,标注样式如下图 3所示。基于2 m分辨率的高分一号遥感影像进行人工标注,图片的格式为RGB,尺寸为600×600像素,标注工具采用labelImg。
|
图 3 建设项目及细部地物标注示例 Fig. 3 Labelled examples of being constructed projects and detailed ground object |
标注结果中建设项目、裸土(岩)、防尘网苫盖、施工道路、活动板房、在建建筑物和建成建筑物的标注数量分别为752、763、154、82、372、292和278个。
1.2.2 试验条件在本试验中,训练和测试所用到的CPU型号为Intel(R) Xeon(R) CPU E 5-2665,GPU型号为GeForce RTX 2080 Ti,内存为DDR4 10G。软件开发操作系统为Ubuntu 18.04,采用Python 3.6编程语言,Pytorch 1.0深度学习框架和CUDA10 cuDNN 7.5.0运算平台。
1.2.3 试验设置与评价指标本试验2种检测器均随机选择数据集中的60%的图像作为训练集,20%的图像作为验证集,20%的图像作为测试集。Faster RCNN网络的相关参数设置如下:初始学习率为0.001,每10次迭代学习率降低为原来的1/10,训练遍历次数为50。采用预训练的ResNet101作为网络骨架,梯度优化算法为SGD,动量设置为0.9,衰减系数为0.000 5。
本试验的性能评价指标采用F1分数(F1 score,也称平衡F分数)、精确率-召回率曲线(precision-recall curve,也称PR曲线)、单一类别平均精度(average precision,AP)和交并比(Iou)。
其中,对于评价一个候选框检测正确的指标Iou,由于建设项目存在单个候选框与多个地面实况对应的特殊情况,使用Iou>0.5并不适用于评价建设项目候选框检测。因此在专家知识的基础上,采用一对多的方式,即单个候选框对应与之相交的多个地面实况, 即满足
| $ \sum\limits_i^N I_{\mathrm{ou}}=\sum\limits_i^N \frac{\operatorname{area}\left(D \cap D_i\right)}{\operatorname{area}\left(D U D_i\right)} 。$ | (6) |
式中:D为检测器得到的候选框;Di为与该检测器相交的第i个地面实况。
2 试验结果 2.1 细部地物的选取与表达本试验初步选取了裸土(岩)、防尘网苫盖、施工道路、活动板房、在建建筑物、建成建筑物这6类细部地物,按照细部地物的选取与表达方法,计算得到6类细部地物的信息量分别是18.81,20.96,9.93,44.82,28.77和8.22。选择活动板房、在建建筑物、防尘网苫盖和裸土(岩)这4类信息量最高的细部地物来表征建设项目,并训练这4类细部地物检测器。
2.2 试验精度比较本试验使用Faster RCNN训练建设项目检测器,并进行组合检测优化(简称本方法),并进行3组试验对照,分别是利用Faster RCNN和Yolo v5x(ref.)直接训练建设项目检测器(简称Faster RCNN和Yolo),以及在Faster RCNN的基础上仅进行建设项目候选框合并(简称变体)。Faster RCNN、Yolo、本方法变体和本方法4组试验的AP值分别为0.755,0.693,0.754和0.773,F1分数分别为0.415、0.361、0.405和0.417。4组实验的PR曲线图如图 4。
|
图 4 4组试验的准确率召回率曲线图 Fig. 4 Precision recall rate curves of the four experiments |
本方法的AP值和F1分数均高于其他3组试验,并且在图 4的低召回率阶段本方法的曲线在其他3组之上,检测效果最佳。这是本方法最重要的改进处,通过引入细部检测器的置信度,提高建设项目候选框的置信度水平,降低其在低召回率阶段的检测错误率,从而较大程度提升检测结果。
3 讨论本方法是在Faster RCNN算法的基础上,增加建设项目候选框合并和细部地物组合修正的组合检测优化方法。将建设项目按照大小和建设周期分类,对比本方法和Faster RCNN算法的检测结果,讨论检测结果差异以及细部地物作用效果。
图 5是2种试验的部分检测结果,前2组检测结果表明,建设项目边界不清晰,虽然该图像中仅存在1个地面实况,但是Faster RCNN算法却检测得到2个高分候选框,从而导致其和地面实况不符。而建设项目候选框合并可以较好地解决这一问题,使得检测结果和地面实况吻合情况更好,还能降低检测的误检率。细部地物通常特征明确、边界清晰,当候选框内存在某种细部框时,该候选框的置信度会得到提升。因此直接利用Faster RCNN对细部地物进行检测就会得到不错的检测结果。在第3组检查结果中,存在误检情况且误检框置信度较高,由于该误检框附近不存在细部地物,细部地物组合修正环节本方法的该候选框置信度会低于Faster RCNN算法得到的置信度,该组结果也证明这一点。因此,细部地物组合修正虽然不能彻底地消除误检结果,却可以在一定程度上降低误检框的置信度和提升正确检测框的置信度,从而整体上提升检测效果。
|
从左到右分别是Faster RCNN检测结果、本方法检测结果和地面实况。From left to right are the detection results via Faster RCNN and our method, and actual ground condition respectively. 图 5 Faster RCNN算法和本方法的检测结果 Fig. 5 Detection results via Faster RCNN method and our method |
细部地物检测的引入,不仅有利于提升常规深度学习目标检测方法的置信度,还具有判断建设项目周期和水土保持措施实施情况的作用。在图 5第1组检测中,建设项目内存在大片裸土(岩),说明该建设项目正处于开工初期的场地平整阶段。而当检测到在建建筑物细部地物时,可以依据该建筑物的特征与完成情况判断该建设项目类型以及项目主体是否完工,同时还可以通过建设项目内是否存在防尘网苫盖来判断该建设项目是否采取水土保持措施。
将细部地物组合检测引入建设项目场景识别,具有以下3点优势:1)细部地物与建设项目训练的网络结构具有一致性;2)在训练复杂度提升不大的情况下,可以较好地提升建设项目的检测效果;3)能够通过细部地物的特征判断出建设项目施工的时期(如建筑物是否封顶建好)和水土保持措施的实施情况(如弃土弃渣是否进行防尘网苫盖)。但由于建设项目内部信息极其复杂,没有统一的特征表达,在常规深度学习的方法上进行组合检测优化对检测效果的提升有限,对于部分的建设项目实例,该方法的提升效果不佳。如何能更好的融合细部地物信息,以及考虑细部地物信息之间的共生和互斥关系,从而得到紧凑的建设项目特征表达,是未来研究的方向和重点。
4 结论基于武汉市的高分辨率遥感影像对建设项目复杂场景进行识别。首先制作建设项目及其细部地物数据集,并选择高信息量细部地物用于目标检测。然后采用Faster RCNN算法分别检测建设项目及高信息量细部地物,并采用预测结果框合并和细部地物组合优化的方法来提高识别置信度,改进检测结果。结果表明,该方法可以有效降低错检率,提高检测结果和地面实况的吻合度。该方法的应用能够精准有效识别出在建建设项目,通过与全国水土保持监督管理系统已录入上报的水土保持方案和水土保持防治责任范围核对,可以确定该建设项目是否违规未批先建和扰动超出防治责任范围,从而实现建设项目的全覆盖监管。
| [1] |
姜德文. 高分遥感和无人机技术在水土保持监管中的应用[J]. 中国水利, 2016(16): 45. JIANG Dewen. Application of high resolution remote sensing and UAV in soil conservation monitoring and supervision[J]. China Water Resources, 2016(16): 45. |
| [2] |
鄂竟平. 工程补短板行业强监管奋力开创新时代水利事业新局面: 在2019年全国水利工作会议上的讲话(摘要)[J]. 中国水利, 2019(2): 1. E Jinping. Strengthening supervision of engineering industry to strengthen weaknesses and strive to create a new situation of water conservancy in the New Era: Speech at the 2019 National Conference on Water Conservancy Work(Abstract)[J]. China Water Resources, 2019(2): 11. |
| [3] |
王志刚, 韩培, 周耀华, 等. 超大城市水土流失空间分布格局及其防治策略: 以武汉市为例[J]. 水土保持通报, 2018, 38(5): 122. WANG Zhigang, HAN Pei, ZHOU Yaohua, et al. Spatial distribution pattern of soil and water loss and its conservation strategies in megacity: A case study in Wuhan city[J]. Bulletin of Soil and Water Conservation, 2018, 38(5): 122. |
| [4] |
蒲朝勇. 推动水土保持监测与信息化工作的思路与要求[J]. 中国水土保持, 2017(5): 1. PU Chaoyong. Ideas and requirements for promoting soil and water conservation monitoring and information technology[J]. Soil and Water Conservation in China, 2017(5): 1. DOI:10.3969/j.issn.1000-0941.2017.05.002 |
| [5] |
鄂竟平. 鄂竟平部长对2020年全国水土保持工作提出明确要求[J]. 中国水土保持, 2020(2): 2. E Jinping. Minister E Jingping put forward clear requirements for national soil and water conservation work in 2020[J]. Soil and Water Conservation in China, 2020(2): 2. |
| [6] |
BLASCHKE T, STROBL J. What's wrong with pixels? Some recent developments interfacing remote sensing and GIS[C]//Proceedings of GIS-Zeitschrift fur Geoinformationsysteme, 2001, 6(1): 12.
|
| [7] |
BRUZZONE L, CARLIN L. A multilevel context-based system for classification of very high spatial resolution images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2006, 44(9): 2587. DOI:10.1109/TGRS.2006.875360 |
| [8] |
张帆. 面向高分辨率遥感影像分析的深度学习方法研究[D]. 武汉: 武汉大学, 2017: 2. ZHANG Fan. Deep learning for very high resolution remote sensing data analysis[D]. Wuhan: Wuhan University, 2017: 2. |
| [9] |
LI Ke, WAN Gang, CHENG Gong, et al. Object detection in optical remote sensing images: A survey and a new benchmark[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2020, 159: 296. |
| [10] |
陈亮, 王志茹, 韩仲, 等. 基于可见光遥感图像的船只目标检测识别方法[J]. 科技导报, 2017, 35(20): 77. CHEN Liang, WANG Zhiru, HAN Zhong, et al. A review of ship detection and recognition based on optical remote sensing image[J]. Science and Technology Review, 2017, 35(20): 77. |
| [11] |
祝文韬, 谢宝蓉, 王琰, 等. 光学遥感图像中的飞机目标检测技术研究综述[J]. 计算机科学, 2020, 47(S2): 165. ZHU Wentao, XIE Baorong, WANG Yan, et al. Survey on aircraft detection in optical remote sensing images[J]. Computer Science, 2020, 47(S2): 165. |
| [12] |
龚健雅, 张觅, 胡翔云, 等. 智能遥感深度学习框架与模型设计[J]. 测绘学报, 2022, 51(4): 475. GONG Jianya, ZHANG Mi, HU Xiangyun, et al. The design of deep learning framework and model for intelligent remote sensing[J]. Acta Geodaetica et Cartographica Sinica, 2022, 51(4): 475. |
| [13] |
姜德文, 蒋学玮, 周正立. 人工智能对水土保持信息化监管技术支撑[J]. 水土保持学报, 2021, 35(4): 6. JIANG Dewen, JIANG Xuewei, ZHOU Zhengli. Technical support of artifical intelligence for informatization supervision of soil and water conservation[J]. Journal of Soil and Water Conservation, 2021, 35(4): 6. |
| [14] |
亢庆, 姜德文, 扶卿华, 等. 基于最优尺度的生产建设扰动图斑识别[J]. 中国水土保持科学, 2017, 15(6): 126. KANG Qing, JIANG Dewen, FU Qinghua. On the identification of construction disturbance patches based on optimal segmentation scale[J]. Science of Soil and Water Conservation, 2017, 15(6): 126. DOI:10.16843/j.sswc.2017.06.015 |
| [15] |
XU Zhongwen, YANG Yi, HAUPTMANN Alexander. A discriminative CNN video representation for event detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, MA, USA: IEEE, 2014: 1798.
|
| [16] |
FAN Hehe, CHANG Xiaojun, CHENG De, et al. Complex event detection by identifying reliable shots from untrimmed videos[C]//Proceedings of the IEEE International Conference on Computer Vision (CVPR). Venice, Italy: IEEE, 2017: 736.
|
| [17] |
CHANG Xiaojun, YANG Yi, LONG Guodong, et al. Dynamic concept composition for zero-example event detection[C]//Proceedings of the AAAI Conference on Artificial Intelligence. Phoenix, Arizona, USA: AAAI, 2016: 3464.
|
| [18] |
YUAN Jin, ZHA Zhengjun, ZHENG Yaotao, et al. Learning concept bundles for video search with complex queries[C]//Proceedings of the 19th ACM International Conference on Multimedia. Scottsdale, AZ, USA: ACM, 2011: 453.
|
| [19] |
FENG Linan, BHANU B. Semantic concept co-occurrence patterns for image annotation and retrieval[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 38(4): 1. |
| [20] |
GIRSHICK R. Fast r-cnn[C]//Proceedings of the IEEE International Conference on Computer Vision(CVPR). Boston, MA, USA: IEEE, 2015: 1440.
|
| [21] |
REN Shaoqing, HE Kaiming, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(6): 1137. |