基于细部地物组合检测的建设项目场景识别

引用本文

蒲坚, 刘仁宇, 王志刚, 张彤, 李建明, 沈盛彧, 许文盛, 刘纪根. 基于细部地物组合检测的建设项目场景识别[J]. 中国水土保持科学, 2024, 22(6): 155-162. DOI: 10.16843/j.sswc.2022081.

PU Jian, LIU Renyu, WANG Zhigang, ZHANG Tong, LI Jianming, SHEN Shengyu, XU Wensheng, LIU Jigen. Scene recognition for construction projects based on the combination detection of detailed ground objects[J]. Science of Soil and Water Conservation, 2024, 22(6): 155-162. DOI: 10.16843/j.sswc.2022081.

项目名称

国家自然科学基金"基于多辅助变量的区域土壤可蚀性因子制图及其不确定性分解研究"(D010505); 长江科学院中央级公益性科研院所基本科研业务费"降雨和上方来水条件下植被防护工程堆积体侵蚀机制研究"(CKSF2021447/TB); 水利部项目"流域水土流失自然全坡面观测与小流域控制站嵌套布设技术研究"(CKSC20211044/TB)

第一作者简介

蒲坚(1993-), 男, 博士研究生, 工程师。主要研究方向: 遥感与地理信息系统技术在水土保持中的应用。E-mail: jian.pu@nwafu.deu.cn

通信作者简介

王志刚(1981-), 男, 博士, 教授级高级工程师。主要研究方向: 城市水土保持。E-mail: 371381624@qq.com

文章历史

收稿日期：2022-05-06
修回日期：2023-05-06

Contents Abstract Full text Figures/Tables PDF

基于细部地物组合检测的建设项目场景识别

蒲坚 ^1,2, 刘仁宇 ³, 王志刚 ^1,2, 张彤 ³, 李建明 ^1,2, 沈盛彧 ^1,2, 许文盛 ^1,2, 刘纪根 ^1,2

1. 长江水利委员会长江科学院, 430010, 武汉;
2. 水利部山洪地质灾害防治工程技术研究中心, 430010, 武汉;
3. 武汉大学测绘遥感信息工程国家重点实验室, 430079, 武汉

收稿日期：2022-05-06; 修回日期：2023-05-06

项目名称：国家自然科学基金"基于多辅助变量的区域土壤可蚀性因子制图及其不确定性分解研究"(D010505); 长江科学院中央级公益性科研院所基本科研业务费"降雨和上方来水条件下植被防护工程堆积体侵蚀机制研究"(CKSF2021447/TB); 水利部项目"流域水土流失自然全坡面观测与小流域控制站嵌套布设技术研究"(CKSC20211044/TB)

第一作者简介：蒲坚(1993-), 男, 博士研究生, 工程师。主要研究方向: 遥感与地理信息系统技术在水土保持中的应用。E-mail: jian.pu@nwafu.deu.cn

通信作者简介：王志刚(1981-), 男, 博士, 教授级高级工程师。主要研究方向: 城市水土保持。E-mail: 371381624@qq.com

摘要：建设项目属于复杂语义场景, 其自动识别是水土流失动态监测和水土保持监管工作的技术难题。高分辨率遥感影像中的建设项目缺乏统一的语义概念定义, 其场景包含多种人工和自然地物, 场景内部高度非结构化、图像特征差异显著。笔者提出一种基于细部地物组合检测的建设项目场景识别方法: 首先在制作用于目标检测的建设项目及其细部地物数据集的基础上, 选择高信息量细部地物用于目标检测; 然后采用Faster RCNN算法分别检测建设项目及高信息量细部地物, 并采用预测结果框合并和细部地物组合修正的方法, 来共同提高建设项目识别置信度, 改进检测结果。实验结果表明, 该方法制作的武汉市建设项目数据集的精度评价指标均优于其他对比方法, 其平均精度值和平衡F₁分数分别达到0.773和0.417。该方法对于复杂语义场景下的建设项目能够获得较好的识别结果, 可应用于建设项目水土保持全覆盖监管。

关键词：建设项目遥感影像细部地物检测复杂语义场景水土保持

Scene recognition for construction projects based on the combination detection of detailed ground objects

PU Jian ^1,2, LIU Renyu ³, WANG Zhigang ^1,2, ZHANG Tong ³, LI Jianming ^1,2, SHEN Shengyu ^1,2, XU Wensheng ^1,2, LIU Jigen ^1,2

1. Changjiang River Scientific Research Institute of Changjiang Water Resources Commission, 430010, Wuhan, China;
2. Research Center on Mountain Torrent & Geologic Disaster Prevention of the Ministry of Water Resources, 430010, Wuhan, China;
3. State Key Laboratory of Information Engineering in Surveying, Mapping and Remote Sensing (LIESMARS), Wuhan University, 430079, Wuhan, China

Abstract: [Background] Construction projects belong to complex semantic scenes, and their automatic recognition is a technical challenge for dynamic monitoring of soil erosion and supervision of soil and water conservation. The construction projects in high-resolution remote sensing images lack a unified semantic concept definition, and their scenes contain a variety of artificial and natural features, with highly unstructured and significantly different image features inside the scenes. Therefore, it is necessary to study the target detection method for Construction projects. [Methods] We proposed a target detection method and theoretical system for complex semantic scenes of construction projects. GF-1 remote sensing image of 2 m resolution was used for annotation. Firstly, based on the construction projects data and its detailed ground object dataset for target detection, we selected high-information detailed ground objects for target detection according to the information content. Then, the Faster RCNN algorithm was used to detect construction projects and high-information detail ground objects separately, and the prediction result frame merging with detail ground objects combination correction was used to jointly increase the confidence of construction projects identification and optimize the detection results. [Results] Wuhan construction projects dataset is built, including construction project, bare land(rock), cover, construction road, prefabricated house, construction structure and built building, which amount is 752, 763, 154, 82, 372, 292, and 278, information content is 18.81, 20.96, 9.93, 44.82, 28.77, and 8.22, respectively. Comparing this method with three other methods under the same experimental conditions, including Faster RCNN, Yolo, and variation of this method. The experimental results show that the accuracy evaluation indexes of the method on the produced Wuhan construction projects dataset are better than other comparison methods, and its AP(average precision) value and F₁ score reach 0.773 and 0.417, respectively. The AP values of the three other methods were 0.755, 0.693 and 0.754, and the F₁ scores were 0.415, 0.361, and 0.405, respectively. Compared with the other three methods, all of them have a certain degree of improvement. This method can effectively reduce the rate of wrong detection and improve the coincidence of correct detection results. [Conclusions] Better recognition results for construction projects in complex semantic scenes can be gained by this method. By the application of this method we can accurately and effectively identify the construction project, and by comparing it with the water and soil conservation program that has been reported, it can determine whether the construction project is built before approval and disturbed beyond the approved boundary, so as to achieve full coverage supervision of the construction project.

Keywords: construction projects remote sensing image detailed ground object detection complex semantics context soil and water conservation

在我国城镇化发展的过程中，建设项目活动的人为扰动易引发和加剧水土流失，亟需加强监管^[1-3]。建设项目存在类型多、点多、线长、面广、变化快等特点，基于高分辨率遥感影像的传统人工检索方式很难满足全覆盖、多时相的精准监管要求^{[1, 4-5]}。由于高分辨率遥感影像具有丰富的地物信息，以及较少的光谱波段，基于像元光谱特征统计和“面向对象”的遥感影像分类方法极易出现“椒盐效应”“同物异谱”“同谱异物”的现象，极大加剧高分辨率影像分析和处理的难度^[6-7]。如何快速高效自动化处理高分辨率影像成为遥感领域的热点和难点问题^[8]。

随着计算机视觉技术和遥感影像解译方法的发展，目前基于高分辨率光学遥感影像的目标检测和语义分割已经取得显著的进步^[9]。飞机、车辆、船只等地物的目标检测已经取得很高的精度，主要原因是这些地物的语义定义比较明确、边界清晰、地物多样性相对有限。而建设项目的复杂语义场景缺乏统一的语义概念定义，其场景包含多种人工和自然地物，场景内部高度非结构化、图像特征差异显著^[10-12]。目前高分辨率遥感影像的建设项目识别主要采用人工解译勾绘方法，但是存在人工解译工作量大的问题^[13]。最新提出的选取最优分割尺度的面向对象识别方法，存在不同的遥感影像源、不同地表覆盖特征下识别结果存在差异的问题^[14]。而已有的建设项目目标检测方法难以直接应用于建设项目复杂语义场景的检测，直接从特征提取来训练检测器的方法泛化能力难以达到精确提取的要求。

为了解决这些问题，笔者提出一种面向复杂语义场景的建设项目的目标检测方法和理论体系。该方法与传统目标检测方法相比，其优势在于通过合并候选框来改进检测得到的建设项目识别结果，并且对高信息量细部地物进行训练，调整建设项目候选框置信度，从而提高检测效果。

1 研究方法 1.1 技术流程

计算机视觉领域从视频中检测具备复杂定义的语义事件(如婚礼、聚会等)一直是个难点，这些事件都具备定义不清晰、类内差别大、包含的视觉特征复杂等特点^[15-16]。研究发现视频中的事件可由更具体且易于检测的底层概念(如婚纱、蛋糕、司仪等)组成^[17-19]，因此本方法将建设项目复杂场景对应视频中的复杂事件，将场景内多种类型细部地物对应视频中的底层概念，依托目标检测方法，基于组成复杂场景细部地物的组合来改进建设项目检测结果。

整个方法流程(图 1)分为以下步骤：1)构建样本数据集；2)细部地物的选取与表达；3)建设项目与细部地物的目标检测；4)组合检测优化。图中虚线框为本研究的创新点。

图 1 方法流程图 Fig. 1 Flow chart of the method

1.1.1 细部地物的选取与表达

对于建设项目的复杂语义场景，需要发现其内部的哪些细部地物对其检测具有促进作用，即找到最能表征建设项目的细部地物类型。本方法在专家经验基础上，结合建设项目样本中各种细部地物的面积和数量来进行选取。

假设样本所在区域常见的细部地物类型为m种，但由于细部地物的类型较多，部分细部地物提供的信息有限，利用低信息量细部地物反而会增加复杂度，因此需要从这m种细部地物中选取适当的细部地物类型。第i种细部地物的信息量可用以式1计算：

$ C_i=N_i w_{i \circ} $

(1)

式中：N_i为所有建设项目样本框中第i种细部地物的数量; w_i则根据词频-逆文件频率(TF-IDF)由下式计算：

$ w_i=T_{\mathrm{F} i} I_{\mathrm{DF} i}=\frac{N_i}{N} \lg \frac{Y+1}{Y_i} 。$

(2)

式中：T_Fi为第i种细部地物出现的频率，其值为该细部地物在建设项目标注框内出现数量与所有标注的该细部地物数量的比值；逆文件频率I_DFi为基于样本区域内建设项目平均面积Y与样本区域中第i种细部地物的平均面积Y_i的比值，取对数计算，N为所有建设项目样框中细部地物的总数。注：式2中$\lg \frac{Y+1}{Y_i}$分子为Y+1是为了保证计算得到的I_DFi>0，对实际结果的影响可忽略不计。

1.1.2 建设项目与细部地物的目标检测

本方法的2种检测器均采用经典二阶段目标检测算法Faster RCNN^[20-21]。该算法主要由4个部分组成: 1)特征提取部分，利用经典卷积神经网络获得输入图像的特征图，作为目标检测网络基础；2)区域候选网络，采用了深度学习方法来生成候选框的网络结构；3)感兴趣区域池化，将生成的候选框对应到图像的特征图上，综合相关信息得到相应候选框的特征图；4)分类和回归网络，利用候选框的特征图对候选框分类及边界回归得到检测结果。

1.1.3 组合检测优化

组合检测优化是基于建设项目检测器得到的建设项目检测结果。建设项目内部的视觉差异较大，覆盖范围不一致，没有清晰明显的边界，直接采用Faster RCNN等常规深度学习目标检测方法难以得到良好的检测效果。而细部地物样本内视觉差异较小，覆盖范围基本一致，可由Faster RCNN得到良好的检测结果。因此需在建设项目初步检测结果的基础上，综合建设项目特性和细部地物检测结果对检测结果进行提升。本研究的组合检测优化采用2个步骤：1)建设项目候选框合并；2)细部地物组合修正。

1) 建设项目候选框合并是针对建设项目没有清晰明显边界的特性。建设项目检测器得到的初步检测结果是多个建设项目候选框(下文简称候选框)及其对应的置信度。图 2中以武汉市一个建设项目为例，基于不同专家的认知差异，该图像既可以判定存在一个建设项目(绿色框包围)，也可以判定存在2个建设项目(红色框包围)。这种认知的差异会对建设项目目标检测产生较大误差，因此笔者提出合并候选框策略来降低误差。

图 2 建设项目实例 Fig. 2 Actual examples of construction projects

在建设项目样本标记中，图 2中绿色框为地面实况，红色候选框为建设项目检测器的检测结果。红色候选框存在重叠现象，因此对于建设项目场景检测器得到的检测结果，可以采取合并的方式使其符合地面实况(绿色框)。具体的实现方式为：如果建设项目场景检测器检测到候选框A、B相交，且同时满足候选框A、B的相交面积与二者的最小面积之比大于合并阈值α，且候选框A、B置信度均大于合并置信度阈值β，则候选框A、B会合并为候选框C(图 2黑色虚线框)，候选框C的面积范围为候选框A、B的最小外接矩形，合并后的候选框置信度为

$ C_{\text {onfG }}=\left(C_{\text {onfA }} S_{\mathrm{A}}+C_{\text {onfB }} S_{\mathrm{B}}\right) / S_{\mathrm{C}}。$

(3)

式中：C_onfA、C_onfB和C_onfC分别为候选框A、B和C的置信度；S_A、S_B和S_C为建设项目场景检测得到的候选框A、B及合并后候选框C的面积。

2) 细部地物组合修正。建设项目场景的检测难度一方面体现在难以确定其候选框范围，另一方面体现在检测得到候选框的置信度不够准确。而细部地物具有与一般目标检测类别相似的特性，如特征单一、边界清晰等。因此利用细部地物检测器得到细部地物候选框(简称细部框)辅助建设项目场景检测器，将建设项目整体的视觉特征及其内部细部地物的视觉特征联合起来，得到建设项目的综合表达置信度。两者联合后候选框的置信度计算公式如下：

$ C_{\text {onf }}=\min \left(1, \gamma C_{\text {onfC }}+(1-\gamma) \sum\limits_{i=1}^N\left(C_{\text {onfi }} I_i\right)\right) 。$

(4)

式中：C_onf为最终计算的置信度结果；γ为超参数，用于调整建设项目场景检测器和细部地物检测器的权重；N为建设项目场景检测器得到的候选框内细部地物的个数；C_onfi为候选框内第i个细部框的置信度，候选框交集I_i为候选框内第i个细部框和候选框相交的面积占候选框面积的比例，其定义如下：

$ I_i=\frac{\operatorname{area}\left(B \cap B_i\right)}{\operatorname{area}(B)} 。$

(5)

式中B和B_i分别为候选框和第i个细部框。

1.2 试验数据 1.2.1 样本数据集

本研究用最小外接框标注建设项目及其内部多种细部地物来构建样本数据集，依据收集到的武汉市建设项目水土保持方案中的防治责任范围和项目总体布局图为参考，选取建设项目及其内部的6种细部地物进行标注，分别为裸土(岩)、防尘网苫盖、施工道路、活动板房、在建建筑物和建成建筑物，标注样式如下图 3所示。基于2 m分辨率的高分一号遥感影像进行人工标注，图片的格式为RGB，尺寸为600×600像素，标注工具采用labelImg。

图 3 建设项目及细部地物标注示例 Fig. 3 Labelled examples of being constructed projects and detailed ground object

标注结果中建设项目、裸土(岩)、防尘网苫盖、施工道路、活动板房、在建建筑物和建成建筑物的标注数量分别为752、763、154、82、372、292和278个。

1.2.2 试验条件

在本试验中，训练和测试所用到的CPU型号为Intel(R) Xeon(R) CPU E 5-2665，GPU型号为GeForce RTX 2080 Ti，内存为DDR4 10G。软件开发操作系统为Ubuntu 18.04，采用Python 3.6编程语言，Pytorch 1.0深度学习框架和CUDA10 cuDNN 7.5.0运算平台。

1.2.3 试验设置与评价指标

本试验2种检测器均随机选择数据集中的60%的图像作为训练集，20%的图像作为验证集，20%的图像作为测试集。Faster RCNN网络的相关参数设置如下：初始学习率为0.001，每10次迭代学习率降低为原来的1/10，训练遍历次数为50。采用预训练的ResNet101作为网络骨架，梯度优化算法为SGD，动量设置为0.9，衰减系数为0.000 5。

本试验的性能评价指标采用F₁分数(F₁ score，也称平衡F分数)、精确率-召回率曲线(precision-recall curve，也称PR曲线)、单一类别平均精度(average precision，AP)和交并比(I_ou)。

其中，对于评价一个候选框检测正确的指标I_ou，由于建设项目存在单个候选框与多个地面实况对应的特殊情况，使用I_ou>0.5并不适用于评价建设项目候选框检测。因此在专家知识的基础上，采用一对多的方式，即单个候选框对应与之相交的多个地面实况, 即满足$\sum_i^N I_{\mathrm{ou}}>0.5$, 其公式为：

$ \sum\limits_i^N I_{\mathrm{ou}}=\sum\limits_i^N \frac{\operatorname{area}\left(D \cap D_i\right)}{\operatorname{area}\left(D U D_i\right)} 。$

(6)

式中：D为检测器得到的候选框；D_i为与该检测器相交的第i个地面实况。

2 试验结果 2.1 细部地物的选取与表达

本试验初步选取了裸土(岩)、防尘网苫盖、施工道路、活动板房、在建建筑物、建成建筑物这6类细部地物，按照细部地物的选取与表达方法，计算得到6类细部地物的信息量分别是18.81，20.96，9.93，44.82，28.77和8.22。选择活动板房、在建建筑物、防尘网苫盖和裸土(岩)这4类信息量最高的细部地物来表征建设项目，并训练这4类细部地物检测器。

2.2 试验精度比较

本试验使用Faster RCNN训练建设项目检测器，并进行组合检测优化(简称本方法)，并进行3组试验对照，分别是利用Faster RCNN和Yolo v5x(ref.)直接训练建设项目检测器(简称Faster RCNN和Yolo)，以及在Faster RCNN的基础上仅进行建设项目候选框合并(简称变体)。Faster RCNN、Yolo、本方法变体和本方法4组试验的AP值分别为0.755，0.693，0.754和0.773，F₁分数分别为0.415、0.361、0.405和0.417。4组实验的PR曲线图如图 4。

图 4 4组试验的准确率召回率曲线图 Fig. 4 Precision recall rate curves of the four experiments

本方法的AP值和F₁分数均高于其他3组试验，并且在图 4的低召回率阶段本方法的曲线在其他3组之上，检测效果最佳。这是本方法最重要的改进处，通过引入细部检测器的置信度，提高建设项目候选框的置信度水平，降低其在低召回率阶段的检测错误率，从而较大程度提升检测结果。

3 讨论

本方法是在Faster RCNN算法的基础上，增加建设项目候选框合并和细部地物组合修正的组合检测优化方法。将建设项目按照大小和建设周期分类，对比本方法和Faster RCNN算法的检测结果，讨论检测结果差异以及细部地物作用效果。

图 5是2种试验的部分检测结果，前2组检测结果表明，建设项目边界不清晰，虽然该图像中仅存在1个地面实况，但是Faster RCNN算法却检测得到2个高分候选框，从而导致其和地面实况不符。而建设项目候选框合并可以较好地解决这一问题，使得检测结果和地面实况吻合情况更好，还能降低检测的误检率。细部地物通常特征明确、边界清晰，当候选框内存在某种细部框时，该候选框的置信度会得到提升。因此直接利用Faster RCNN对细部地物进行检测就会得到不错的检测结果。在第3组检查结果中，存在误检情况且误检框置信度较高，由于该误检框附近不存在细部地物，细部地物组合修正环节本方法的该候选框置信度会低于Faster RCNN算法得到的置信度，该组结果也证明这一点。因此，细部地物组合修正虽然不能彻底地消除误检结果，却可以在一定程度上降低误检框的置信度和提升正确检测框的置信度，从而整体上提升检测效果。

从左到右分别是Faster RCNN检测结果、本方法检测结果和地面实况。From left to right are the detection results via Faster RCNN and our method, and actual ground condition respectively. 图 5 Faster RCNN算法和本方法的检测结果 Fig. 5 Detection results via Faster RCNN method and our method

细部地物检测的引入，不仅有利于提升常规深度学习目标检测方法的置信度，还具有判断建设项目周期和水土保持措施实施情况的作用。在图 5第1组检测中，建设项目内存在大片裸土(岩)，说明该建设项目正处于开工初期的场地平整阶段。而当检测到在建建筑物细部地物时，可以依据该建筑物的特征与完成情况判断该建设项目类型以及项目主体是否完工，同时还可以通过建设项目内是否存在防尘网苫盖来判断该建设项目是否采取水土保持措施。

将细部地物组合检测引入建设项目场景识别，具有以下3点优势：1)细部地物与建设项目训练的网络结构具有一致性；2)在训练复杂度提升不大的情况下，可以较好地提升建设项目的检测效果；3)能够通过细部地物的特征判断出建设项目施工的时期(如建筑物是否封顶建好)和水土保持措施的实施情况(如弃土弃渣是否进行防尘网苫盖)。但由于建设项目内部信息极其复杂，没有统一的特征表达，在常规深度学习的方法上进行组合检测优化对检测效果的提升有限，对于部分的建设项目实例，该方法的提升效果不佳。如何能更好的融合细部地物信息，以及考虑细部地物信息之间的共生和互斥关系，从而得到紧凑的建设项目特征表达，是未来研究的方向和重点。

4 结论

基于武汉市的高分辨率遥感影像对建设项目复杂场景进行识别。首先制作建设项目及其细部地物数据集，并选择高信息量细部地物用于目标检测。然后采用Faster RCNN算法分别检测建设项目及高信息量细部地物，并采用预测结果框合并和细部地物组合优化的方法来提高识别置信度，改进检测结果。结果表明，该方法可以有效降低错检率，提高检测结果和地面实况的吻合度。该方法的应用能够精准有效识别出在建建设项目，通过与全国水土保持监督管理系统已录入上报的水土保持方案和水土保持防治责任范围核对，可以确定该建设项目是否违规未批先建和扰动超出防治责任范围，从而实现建设项目的全覆盖监管。

5 参考文献

[1]	姜德文. 高分遥感和无人机技术在水土保持监管中的应用[J]. 中国水利, 2016(16): 45. JIANG Dewen. Application of high resolution remote sensing and UAV in soil conservation monitoring and supervision[J]. China Water Resources, 2016(16): 45.
[2]	鄂竟平. 工程补短板行业强监管奋力开创新时代水利事业新局面: 在2019年全国水利工作会议上的讲话(摘要)[J]. 中国水利, 2019(2): 1. E Jinping. Strengthening supervision of engineering industry to strengthen weaknesses and strive to create a new situation of water conservancy in the New Era: Speech at the 2019 National Conference on Water Conservancy Work(Abstract)[J]. China Water Resources, 2019(2): 11.
[3]	王志刚, 韩培, 周耀华, 等. 超大城市水土流失空间分布格局及其防治策略: 以武汉市为例[J]. 水土保持通报, 2018, 38(5): 122. WANG Zhigang, HAN Pei, ZHOU Yaohua, et al. Spatial distribution pattern of soil and water loss and its conservation strategies in megacity: A case study in Wuhan city[J]. Bulletin of Soil and Water Conservation, 2018, 38(5): 122.
[4]	蒲朝勇. 推动水土保持监测与信息化工作的思路与要求[J]. 中国水土保持, 2017(5): 1. PU Chaoyong. Ideas and requirements for promoting soil and water conservation monitoring and information technology[J]. Soil and Water Conservation in China, 2017(5): 1. DOI:10.3969/j.issn.1000-0941.2017.05.002
[5]	鄂竟平. 鄂竟平部长对2020年全国水土保持工作提出明确要求[J]. 中国水土保持, 2020(2): 2. E Jinping. Minister E Jingping put forward clear requirements for national soil and water conservation work in 2020[J]. Soil and Water Conservation in China, 2020(2): 2.
[6]	BLASCHKE T, STROBL J. What's wrong with pixels? Some recent developments interfacing remote sensing and GIS[C]//Proceedings of GIS-Zeitschrift fur Geoinformationsysteme, 2001, 6(1): 12.
[7]	BRUZZONE L, CARLIN L. A multilevel context-based system for classification of very high spatial resolution images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2006, 44(9): 2587. DOI:10.1109/TGRS.2006.875360
[8]	张帆. 面向高分辨率遥感影像分析的深度学习方法研究[D]. 武汉: 武汉大学, 2017: 2. ZHANG Fan. Deep learning for very high resolution remote sensing data analysis[D]. Wuhan: Wuhan University, 2017: 2.
[9]	LI Ke, WAN Gang, CHENG Gong, et al. Object detection in optical remote sensing images: A survey and a new benchmark[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2020, 159: 296.
[10]	陈亮, 王志茹, 韩仲, 等. 基于可见光遥感图像的船只目标检测识别方法[J]. 科技导报, 2017, 35(20): 77. CHEN Liang, WANG Zhiru, HAN Zhong, et al. A review of ship detection and recognition based on optical remote sensing image[J]. Science and Technology Review, 2017, 35(20): 77.
[11]	祝文韬, 谢宝蓉, 王琰, 等. 光学遥感图像中的飞机目标检测技术研究综述[J]. 计算机科学, 2020, 47(S2): 165. ZHU Wentao, XIE Baorong, WANG Yan, et al. Survey on aircraft detection in optical remote sensing images[J]. Computer Science, 2020, 47(S2): 165.
[12]	龚健雅, 张觅, 胡翔云, 等. 智能遥感深度学习框架与模型设计[J]. 测绘学报, 2022, 51(4): 475. GONG Jianya, ZHANG Mi, HU Xiangyun, et al. The design of deep learning framework and model for intelligent remote sensing[J]. Acta Geodaetica et Cartographica Sinica, 2022, 51(4): 475.
[13]	姜德文, 蒋学玮, 周正立. 人工智能对水土保持信息化监管技术支撑[J]. 水土保持学报, 2021, 35(4): 6. JIANG Dewen, JIANG Xuewei, ZHOU Zhengli. Technical support of artifical intelligence for informatization supervision of soil and water conservation[J]. Journal of Soil and Water Conservation, 2021, 35(4): 6.
[14]	亢庆, 姜德文, 扶卿华, 等. 基于最优尺度的生产建设扰动图斑识别[J]. 中国水土保持科学, 2017, 15(6): 126. KANG Qing, JIANG Dewen, FU Qinghua. On the identification of construction disturbance patches based on optimal segmentation scale[J]. Science of Soil and Water Conservation, 2017, 15(6): 126. DOI:10.16843/j.sswc.2017.06.015
[15]	XU Zhongwen, YANG Yi, HAUPTMANN Alexander. A discriminative CNN video representation for event detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, MA, USA: IEEE, 2014: 1798.
[16]	FAN Hehe, CHANG Xiaojun, CHENG De, et al. Complex event detection by identifying reliable shots from untrimmed videos[C]//Proceedings of the IEEE International Conference on Computer Vision (CVPR). Venice, Italy: IEEE, 2017: 736.
[17]	CHANG Xiaojun, YANG Yi, LONG Guodong, et al. Dynamic concept composition for zero-example event detection[C]//Proceedings of the AAAI Conference on Artificial Intelligence. Phoenix, Arizona, USA: AAAI, 2016: 3464.
[18]	YUAN Jin, ZHA Zhengjun, ZHENG Yaotao, et al. Learning concept bundles for video search with complex queries[C]//Proceedings of the 19th ACM International Conference on Multimedia. Scottsdale, AZ, USA: ACM, 2011: 453.
[19]	FENG Linan, BHANU B. Semantic concept co-occurrence patterns for image annotation and retrieval[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 38(4): 1.
[20]	GIRSHICK R. Fast r-cnn[C]//Proceedings of the IEEE International Conference on Computer Vision(CVPR). Boston, MA, USA: IEEE, 2015: 1440.
[21]	REN Shaoqing, HE Kaiming, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(6): 1137.