高分辨率关系图卷积网络遥感语义分割方法

引用本文

王寅达, 陈嘉辉, 彭玲, 等. 高分辨率关系图卷积网络遥感语义分割方法[J]. 中国科学院大学学报, 2025, 42(1): 107-115.

Wang Y D, Chen J H, Peng L, et al. Remote sensing semantic segmentation method based on high-resolution relational graph convolutional network[J]. Journal of University of Chinese Academy of Sciences, 2025, 42(1): 107-115.

高分辨率关系图卷积网络遥感语义分割方法

王寅达^1,2, 陈嘉辉^1,3, 彭玲^1,3, 李兆博^1,3, 杨丽娜^1,3

1. 中国科学院空天信息创新研究院, 北京 100094;
2. 中国科学院大学电子电气与通信工程学院, 北京 100049;
3. 中国科学院大学, 北京 100049

2023年7月7日收稿; 2023年10月7日收修改稿

基金项目: 全球能源互联网集团有限公司科技项目(SGGEIG00JYJS2100032)资助

通信作者: 彭玲, E-mail: pengling@aircas.ac.cn

摘要: 遥感影像语义分割是遥感图像处理分析的重要任务，尤其是在多类别语义分割方面。目前方法主要围绕卷积神经网络展开，但卷积仅关注图像局部信息而忽视全局信息。因此，受高分辨率网络(HRNet)和关系图卷积网络(R-GCN)启发，提出一种高分辨率关系图卷积网络(HRGCN)，用于多类别语义分割。首先对原始图像做简单线性迭代聚类(SLIC)，利用该结果分割HRNet输出的特征图，获得同质性高且包含多分辨率信息的超像素块；然后基于超像素块构建图节点和边，使用R-GCN对图节点分类，从而学习到不同地物间长距离依赖关系，并完成遥感影像的提取分类。利用HRGCN模型在Potsdam和Vaihingen数据集上进行实验，将结果与已有方法对比，F₁值和MIoU值均有不同程度提升，证明该方法具有较好的先进性。

关键词: 遥感影像 R-GCN HRNet 超像素语义分割图像处理

Remote sensing semantic segmentation method based on high-resolution relational graph convolutional network

WANG Yinda^1,2, CHEN Jiahui^1,3, PENG Ling^1,3, LI Zhaobo^1,3, YANG Lina^1,3

1. Aerospace Information Research Institute, Chinese Academy of Sciences, Beijing 100094, China;
2. School of Electronic, Electrical and Communication Engineering, University of Chinese Academy of Sciences, Beijing 100049, China;
3. University of Chinese Academy of Sciences, Beijing 100049, China

Abstract: Semantic segmentation of remote sensing images is an important task in remote sensing image processing and analysis, especially in multi-category semantic segmentation. Current methods mainly revolve around convolutional neural networks, but convolution only focuses on the local information of the image while ignoring the global information. Therefore, inspired by high resolution network (HRNet) and relational graph convolutional network (R-GCN), this paper proposes a high-resolution relational graph convolutional network (HRGCN) for multi-category semantic segmentation. Firstly, simple linear iterative clustering (SLIC) is done on the original image, and the result is used to segment the feature map output from HRNet to obtain superpixel blocks with high homogeneity and containing multi-resolution information; then graph nodes and edges are constructed based on the superpixel blocks, and R-GCN is used to classify the graph nodes, so as to learn the long-distance dependency between different features and complete the extraction and classification of remote sensing images. The HRGCN model designed in this paper is experimented on Potsdam and Vaihingen datasets, and the results are compared with the existing methods, and the F₁ values and MIoU values are improved to certain degrees, which proves that the method has good advancement.

Keywords: remote sensing image R-GCN HRNet superpixel semamtic segmentation image processing

随着遥感技术的飞速发展，遥感影像的空间分辨率不断提高，高分辨率遥感影像资源呈爆炸式增长。由于遥感影像具有数据量大、尺度多样、空间相关性强的特点，海量、高质量的遥感影像为基于遥感影像的数据分析和研究奠定了基础。

通常，高分辨率遥感影像包含多种对象，如建筑物、道路、植被、农田、水体等^[1]。因此，从高分辨率遥感影像中提取不同对象对土地资源管理和城市规划具有重要意义。

图像分割^[2-5]是遥感影像进行下一步分析和应用的重要环节，分割结果的好坏将影响后续图像分析的准确性^[6]。遥感影像语义分割的研究方法主要分为2种: 基于人工特征的传统方法和基于神经网络的深度学习方法。

传统的图像分割方法包括基于阈值的分割方法、基于区域的分割方法和基于边缘的分割方法等, 这些方法只能提取到图像的浅层特征, 很难充分地挖掘出图像的高级语义信息, 导致图像分割的精度和效率都不高^[7]。

近年来，基于深度学习的语义分割方法已成为主流。卷积神经网络(convolutional neural networks，CNN)通过卷积、激活和池化等过程，结合大量的训练数据, 能够较快且准确地完成图像分割任务。SegNet^[8]和U-Net^[9]均采用编码器解码器结构来分割物体。前者采用最大池化提高网络感受野的同时保存池化的位置索引，再利用索引对特征图进行上采样，恢复图像原始尺寸。后者则使用双线性插值完成上采样，利用跳层连接和拼接操作使解码器学习到由于池化操作而丢失的位置信息。Deeplab^[10-13]系列工作主要聚焦于空洞卷积方面的研究。在普通卷积核中间填充0形成空洞卷积，可以扩大卷积核感受野，保持图像空间分辨率不变，降低网络计算量。但CNNs中的池化和感受野有限的卷积操作会导致信息丢失，忽略地物整体与部分之间的联系。

后来，人们也将深度学习应用在高分辨率遥感影像的语义分割任务中。Chen等^[14]采用一种新颖的多任务学习方法，该方法使用边界增强语义上下文模块(boundary enhancing semantic context，BES)优化地物的边界，并显式地增强全局信息，缓解了CNNs倾向于提取局部语义信息的缺陷。受注意力机制的启发，Wang等^[15]提出在卷积神经网络中融合Non-local模块引入全局信息，缓解了卷积层感受野有限的缺陷，使得分割结果更加完整。

近些年，一些研究将图神经网络(graph neural networks，GNN)应用到遥感影像分析任务中。GNN的运算单元是图，图中每个节点与其相邻边的节点直接相关，这种相关性可用于捕获地物间的长距离依赖特征。文献[16-18]在遥感影像场景分类任务中引入GNN。它们先采用CNN提取图像深层特征，然后将该特征构建为图模型，最后使用GNN做节点分类，从而实现对遥感影像不同场景的理解。Diao等^[19]使用GAT^[20]优化CNN提取的深层特征，在Postdam和Vaihingen数据集上的语义分割精度均高于CNNs。但是该方法在构建图模型时没有考虑到边的类型。在高分辨率遥感影像中，地物之间的关系是不同的，放弃构建一些边可能会造成信息丢失。所以，在GNN中建模边的类型十分重要。

本研究受高分辨率网络(high resolution network, HRNet)^[21]和关系图卷积网络(relational graph convolutional network, R-GCN)^[22]的启发，提出一种高分辨率关系图卷积网络(high-resolution relational graph convolutional network，HRGCN)模型。该方法首先使用简单线性迭代聚类(simple linear iterative clustering，SLIC)^[23]将原始图像聚类成同质性高的超像素块，然后使用该聚类结果分割HRNetV2^[24]输出的特征图，生成图模型的节点和边。从而避免使用原始影像直接构建图模型计算量大的缺陷。再使用R-GCN对图节点分类，这不仅打破图像固定域中局部信息的限制，克服CNN感受野有限的缺陷，还考虑到了图中不同边的类型，提高节点分类的精度。最终将分类结果还原成二维图像，从而完成对遥感影像的语义分割任务。

1 方法 1.1 模型 1.1.1 HRNet

HRNet^[21]最初是为解决人体姿态估计问题而提出的模型。该模型中包含4个平行的子网，分别表示4种不同的空间分辨率。同时，伴随着深度的增加，高分辨率子网通过下采样逐渐生成低分辨率子网，形成多分辨率子网并行连接的结构。由于HRNet能始终保持图像高分辨率特征的能力，因此它能直观地为语义分割任务带来更为丰富的位置和语义信息。在实验中，我们发现HRNet比传统的CNN模型表现更为出色，所以选择该模型来提取遥感影像的特征。为充分发挥HRNet多分辨率的优势，将4个分辨率子网输出的特征做拼接融合，用于后续构建图模型。

1.1.2 R-GCN

CNN受到卷积核感受野的限制，存在难以建模地物间远程依赖关系的缺陷。因此本文利用GNN进一步学习图像中特征间的长距离关系。为提升分类效果，优化图模型中边的构建方法，通过2个相邻节点的特征相似性判断边的类型。尽管这些节点特征在图像上可能相距较远，但是通过定义边的类型这一操作，加强了相似特征之间的关联性，从而提升了模型的分类效果。

R-GCN(图 1)是一种多关系异构图，能完成多类关系间的信息交互。它为每类关系做一次同构图运算，并与自循环特征相融合，然后经过ReLU激活函数，共同更新中心节点。本文使用R-GCN完成超像素节点分类。

	Download: JPG larger image
图 1 R-GCN结构图(以节点二分类任务为例) Fig. 1 The structure of R-GCN (with a node binary classification task as an example)

R-GCN的消息传递方法如下式所示

$h_i^{(l+1)}=\sigma\left(\sum\limits_{r \in R} \sum\limits_{j \in N_i^r} \frac{1}{c_{i, r}} \boldsymbol{W}_r^{(l)} h_j^{(l)}+\boldsymbol{W}_0^{(l)} h_i^{(l)}\right) .$

(1)

其中：h_i^(l)是第l层节点i的嵌入；h_i^(l+1)是第l+1层节点i的嵌入；N_i^r代表节点i在第r种关系下的邻居节点集合；c_{i, r}是常数；W_r^(l)代表在第l层的关系r下的特征变换矩阵，当R=0时，即W₀^(l)则代表节点对自己下一层的关系特征变换矩阵；R代表关系的种类，W₁^(l)则代表当前图在第l层的第1种关系下的特征变换矩阵(比如可以定义R=1的关系代表“相似”，R=2的关系代表“不相似”，2种关系的特征变换矩阵单独进行计算)。

1.1.3 HRGCN

本文在结合HRNetV2和R-GCN优点的基础上，提出HRGCN架构。图 2展示了HRGCN的模型框架。这种组合能带来2个明显优势：1)图结构将增强不同分辨率特征图的信息更新规模；2)基于特征相似性的异构图可以将对象分类为块，提高对象像素分类的准确性。

	Download: JPG larger image
图 2 HRGCN结构 Fig. 2 The structure of HRGCN

在这项工作中，需要将大量切割后的尺寸为512×512的影像聚类成同质性较高的超像素块。目前常用的遥感影像聚类算法有最大似然分类^[25]、K-means聚类^[26]、Iso聚类^[27]和SLIC^[23]等。与另外3种算法相比，SLIC具有无需制作样本、计算复杂度低、地物轮廓保持效果好等优势。由于待聚类影像较多，而且保持高分辨率遥感影像中地物完整的轮廓信息对于提升分割结果的精度十分重要^[28]，所以我们使用SLIC完成对原始影像的超像素分割。算法1展示了利用HRNetV2输出的特征图和SLIC方法构建图模型的伪代码。

算法1超像素生成图算法
输入参数：S, F
FOR i in S. class_num DO:
FOR c=1, …, N DO:
X_i+=[Mean(F_{c, i})]
END
Y_i=S.label_i
END
FOR x in 1, …, len(S) DO:
FORy in 1, …, len(S) DO:
Edge.append(4dir(S_{x, y}))
END
END
if X_h·X_t>0.5: (h, t)∈Edge
EdgeType=1
Else:
EdgeType=0
return X, Y, Edge, EdgeType

其中: S表示超像素分割的结果, X_i代表第i个节点的特征, F表示特征图, N表示通道数量, F_{c, i}表示第i个节点且其特征图是第c个通道的特征集合。本文使用平均函数Mean()计算第i个节点在第c维中的特征。节点X_i的标签是Y_i，Y_i是在SLIC算法聚类后，每个超像素内像素比例最大的原始标签。利用超像素4个方向上的标签，从上、下、左、右4个方向扩展一个单元，以确定是否有不同的类别来构造边。边的类型取决于头节点和尾节点特征向量的点积。在图卷积部分，使用3层关系图卷积，每一层与前一层相比，除输入通道和输出通道不同外，还将特征维度数量减少一半。最后，使用基分解正则化方法降低计算成本。

1.1.4 算法复杂度

HRGCN的算法复杂度由卷积神经网络所有层的参数量(包括卷积核大小、通道数、卷积层数、特征图尺寸)、SLIC的像素分类数量和图神经网络的参数量(包括节点数、边数量、特征转换矩阵大小)决定，具体计算复杂度如下

$\begin{gathered} O_{\mathrm{HRGCN}}=O\left(\sum\limits_{l=1}^D K_l^2 \cdot C_{l-1} \cdot C_l+\sum\limits_{l=1}^D M^2 \cdot C_l\right)+ \\ O\left(P^2\right)+O\left(|V| \cdot L^2+2 \cdot|E| \cdot L\right) . \end{gathered}$

(2)

其中：第1项是卷积神经网络的参数量，第2项是所有特征图的大小，K代表卷积核大小，C代表通道数，D代表卷积层数，M代表特征图尺寸, P代表算法1中所提到的SLIC算法聚类得到的超像素数目, |V|表示图结构的顶点数量，|E|表示图结构中的边数，L表示每个图节点特征向量的长度。对于所有顶点的特征都需要进行映射来计算，因此节点部分计算复杂度为|V|·L²。其次，过程中将边类型分成2类，图中有多少条边，就需要计算多少次与邻居顶点的相似系数，因此边部分的计算复杂度为2·|E|·L。

1.2 损失函数与学习率

本文在训练HRGCN的HRNetV2部分和R-GCN部分时，都使用多类别加权交叉熵函数来计算预测结果与真值间的损失，如下式所示

$\text { Loss }=-\frac{1}{H} \sum\limits_{i=1}^N \sum\limits_{j=1}^K \alpha_j y_{i j} \log \left(p_{i j}\right) .$

(3)

其中：H是样本数；K是地物类别的数量(K=6)；y_ij是真值，当i与j类别相同时取1，否则取0；p_ij是预测结果中i是类别j的概率; α_j是类别j的损失函数权重，衡量模型对类别j错分现象的惩罚程度。α_j增大时，模型对类别j的惩罚权重提高，模型更加关注对类别j的分类能力。由于Postdam和Vaihingen数据集都是地物类别极不均衡的数据集，所以引入该参数来增强模型对像素占比小的类别的惩罚。在训练HRNetV2时，α_j是样本图像中类别j的像素所占比例的倒数；在训练R-GCN时，α_j是图结构中类别j的节点所占比例的倒数。

本文利用Adam^[29]优化器优化模型。在训练时为使模型参数逐渐逼近最优值，采用指数衰减法调整学习率，如下式所示

$\eta=\eta_{\text {base }} \times\left(1-\frac{e_j}{e_{\max }}\right)^{\text {power }}.$

(4)

其中：η是当前学习率，η_base是初始学习率; e_j和e_max分别表示当前迭代轮次和最大迭代轮次，e_j≤e_max; power是衰减指数。

2 实验

为验证本文提出的HRGCN方法的优越性，分别在Vaihingen和Postdam数据集上将其与SegNet^[8]、Deeplabv3+^[13]、RefineNet^[30]、ResUNet++^[31]和HRNetV2^[24]模型进行对比测试。然后对不同类型的图卷积做了对比实验，以验证模型中R-GCN部分的有效性。

2.1 数据集

Postdam和Vaihingen数据集均包含6类地物：1)不透水面; 2)建筑; 3)低矮植被; 4)树木; 5)车辆和6)背景。Vaihingen数据集包含33张正射影像(平均尺寸为2 494像素×2 064像素)，空间分辨率9 cm, 并提供NIR-R-G和DSM信息。利用其中12张影像进行训练，4张图像进行验证，其余17张图像测试。Postdam数据集包含38张正射影像(平均尺寸为6 000像素×6 000像素)，提供NIR-R-G-B、DSM和标准化DSM信息，空间分辨率5 cm。利用其中18张图像训练，6张图像验证，其余14张图像做测试。

2.2 实验细节

比较HRNetV2-W18、HRNetV2-W32和HRNetV2-W48模型在Vaihingen和Postdam数据集上的精确性，发现HRNetV2-W32在2个数据集上都展现出更好的结果，因此本文使用HRNetV2-W32提取特征。上述所使用的模型都在ImageNet数据集上进行了预训练，因而模型可以快速收敛。

在实验中，使用Vaihingen数据集的NIR-R-G信息和Postdam数据集的R-G-B信息。Vaihingen和Postdam数据集图像分别被切割为512像素×512像素和600像素×600像素，利用SLIC将每个图像聚类成为2 000个超像素。使用深度学习框架Pytorch 1.7.0，不采用数据增强措施。模型的学习率根据式(3)进行调整，将CNN和GNN的初始学习率均设置为0.001，令指数衰减为0.9，最后在NVIDIA TITAN-RTX GPU(24 G)上训练该模型。将Vaihingen和Postdam数据集的批尺寸分别设置为8和12，网络经过100次迭代训练。

2.3 评估指标

为比较不同模型之间的性能差异，使用2个常见的评估指标：综合精度得分(F₁)和交并比(intersection over union，IoU)。F₁是精确率和召回率的调和平均数，IoU用于评估预测结果和真值之间的重叠情况。F₁和MIoU分别是F₁和IoU的平均值。以上指标通过下式计算

$\text { Precision }=\frac{T_{\mathrm{P}}}{T_{\mathrm{P}}+F_{\mathrm{P}}} .$

(5)

$\text { Recall }=\frac{T_{\mathrm{P}}}{T_{\mathrm{P}}+F_{\mathrm{N}}} .$

(6)

$F_1=2 \cdot \frac{\text { Precision } \cdot \text { Recall }}{\text { Precision }+ \text { Recall }} .$

(7)

$\bar{F}_1=\frac{\sum\nolimits_{i=1}^N F_1}{N} .$

(8)

$\mathrm{IoU}=\frac{T_{\mathrm{P}}}{F_{\mathrm{N}}+F_{\mathrm{P}}+T_{\mathrm{P}}} .$

(9)

$\mathrm{MIoU}=\frac{\sum\nolimits_{i=1}^N \mathrm{IoU}}{N} .$

(10)

其中：T_P、F_P和F_N分别表示正样本被正确识别的像素数目、错检的负样本数目和漏检的正样本数目，N为数据集中的类别数目。

2.4 实验结果 2.4.1 对比实验

在Vaihingen数据集上的测试结果如表 1所示。总体上，HRGCN算法取得了最高的精度，F₁和MIoU分别为83.94%和72.92%。SegNet对建筑物的识别精度(F₁：85.96%)明显低于其他5种模型，可能是该模型的最大池化下采样造成大量信息损失，导致建筑物提取效果差。Deeplab v3+(F₁：81.31%，MIoU：69.19%)和ResUNet++(F₁: 81.56%，MIoU：69.52%)提取结果的精度较高，这是因为Deeplab v3+中的空洞卷积池化金字塔能扩大卷积核的感受野，捕获多尺度上下文特征，ResUNet++中的挤压激励(squeeze-and-excitation，SE)^[32]注意力机制使得模型能关注地物重要特征，忽略次要特征。HRGCN对建筑、低矮植被、树木等大尺度地物的提取精度(F₁)比Deeplabv3+和ResUNet++高出2~3个百分点，说明该模型建模图像全局信息的能力较强。

表 1 模型在Vaihingen数据集上的对比结果 Table 1 Model comparison results on the Vaihingen dataset

在Postdam数据集上的测试结果如表 2所示。HRGCN的F₁和MIoU分别为88.76%和80.04 %，精度仍然最高，尤其是提取建筑物的F₁值高达95.56%。但是该模型对车辆的识别精度最低(F₁：85.99%)，说明HRGCN对小尺度地物的识别效果较差。

表 2 模型在Postdam数据集上的对比结果 Table 2 Model comparison results on the Postdam dataset

图 3展示HRGCN和5种对比模型在Vaihigen和Postdam数据集上的部分提取结果。在Vaihingen数据集上，HRGCN对大型建筑物提取效果明显优于另外5种模型，分割结果更加完整。这说明HRGCN提取图像全局信息的能力更强，比只使用有限感受野卷积核的HRNetV2建模像素、特征间远程依赖的效果更好。对比模型会将一些背景和不透水面识别成为建筑物，但HRGCN很好地缓解了这种现象。这说明R-GCN在做节点分类时，会以超像素为单位，修正一些HRNetV2的错分像素，从而提升最终的分割精度。在Postdam数据集上，与其他模型相比，HRGCN能有效抑制掉结果中一些将其他地物误分成背景的噪声，这不仅因为HRNetV2具有始终保持高分辨率特征图的特征，还归功于R-GCN优化特征图这一步骤，从而减弱了噪声。而且对于区分不透水面和背景的能力也很强。但是HRGCN对车辆的分割结果略差，这是因为小尺寸目标在做超像素聚类时，容易与周围地物划分成同一超像素块，导致空间信息被破坏，使得分割精度降低。基于以上分析，与其他模型相比，HRGCN模型分割精度更高，效果最好。

	Download: JPG larger image
图 3 语义分割的结果 Fig. 3 The results of semantic segmentation

在HRGCN模型中分别使用传统图卷积(graph convolutional network，GCN)^[33]和注意力图卷积(graph attention network，GAT)^[20]代替关系图卷积进行实验，精度如表 3所示。本文所提出的方法在2个数据集的F₁和MIoU上仍然获得了更好的结果，但是在树木、车辆上，使用GAT的模型获得了更高的F₁值。在Vainhingen数据集上，树木和车辆的F₁分别为86.21%和74.56%，在Postdam数据集上分别为86.59%和86.56%。这说明GAT中的注意力机制可以为尺寸较小的地物赋予更大的学习权重，减轻了小尺寸特征信息在图消息传递框架中丢失的现象。

表 3 使用不同图卷积模型的对比结果 Table 3 Comparison results using different graph convolution networks

2.4.2 消融实验

对该模型进行消融实验，探究HRGCN中HRNetV2和R-GCN这两部分的作用。在HRGCN中，拼接HRNetV2输出的4种不同分辨率的特征图(尺寸：480×512×512)，并根据该特征图生成图结构的节点和边。如果使用R-GCN，直接从原始图像(尺寸：3×512×512)生成图结构的节点，会使得图的节点仅包含颜色、形状等浅层信息，无法捕获大量的深层语义信息，导致分类结果很差。所以，我们只探究HRNetV2与HRGCN在精度上的差异。

从表 1和表 2可以看出，在Postdam数据集上HRGCN比基线模型HRNetV2的F₁和MIoU分别提升0.49和0.81个百分点。但是对于车辆的识别精度略低于HRNetV2，这可能是因为R-GCN对超像素分类后，原始的高分辨率特征有少许丢失，导致小尺寸地物的分类精度略有下降。在Vaihingen数据集上，HRGCN对不透水面、建筑物、低矮植被和树木提取结果的F₁分数分别比HRNetV2高0.88、1.03、2.06和1.49个百分点。这说明HRGCN对这类大尺度地物的识别效果较好，捕捉图像全局信息的能力较强。进一步证明R-GCN的引入对模型性能提升的重要性。

3 结论与分析

本文提出一种将CNN和GNN相结合的高分辨率遥感影像语义分割方法HRGCN。针对现有方法大多只使用CNN的情况，利用HRNetV2提取的高级语义特征图和SLIC算法生成图节点，并根据节点间的特征相似度构建边，从而生成图模型。再利用R-GCN对图模型做节点分类，从而实现对遥感影像的地物分类。

本文提出的HRGCN模型不仅可以关注高分辨率遥感影像的细节，还可以克服卷积核感受野有限的缺陷，有效建模像素、特征间的远程依赖关系。该模型在Vaihingen和Postdam数据集上取得了最佳的效果，F₁分别为83.93%和88.76%，MIoU分别为72.92%和80.04%。这说明该模型在分割精度上具有优越性。

但是HRGCN对车辆的分割效果不佳，说明该模型不适用于分割小尺寸地物。而且高分辨率遥感影像语义分割模型需要大量人工标注的训练样本来提升模型性能，制作样本费时费力。后续将在以下2个方向改进：1)根据Gated-SCNN^[34]的思想，在特征提取部分采用双流网络来学习地物边缘信息，提升模型对小物体的分割效果。2)采用自监督学习策略，利用大量无标注数据对模型做预训练，再使用少量样本微调模型，减小对人工标注样本的依赖。

参考文献

[1]	许泽宇, 沈占锋, 李杨, 等. 增强型DeepLab算法和自适应损失函数的高分辨率遥感影像分类[J]. 遥感学报, 2022, 26(2): 406-415. Doi:10.11834/jrs.20209200
[2]	陈若男, 彭玲, 刘玉菲, 等. 引入空间距离信息的城郊山区道路提取与应用[J]. 中国科学院大学学报, 2022, 39(5): 658-667. Doi:10.7523/j.ucas.2021.0004
[3]	王寅达, 彭玲, 陈德跃, 等. 基于改进U-Net模型的农业大棚遥感提取方法[J]. 中国科学院大学学报, 2024, 41(3): 375-386. Doi:10.7523/j.ucas.2023.060
[4]	Yu J E, Cai Y, Lyu X, et al. Boundary-guided semantic context network for water body extraction from remote sensing images[J]. Remote Sensing, 2023, 15(17): 4325. Doi:10.3390/rs15174325
[5]	Yan G D, Jing H T, Li H, et al. Enhancing building segmentation in remote sensing images: advanced multi-scale boundary refinement with MBR-HRNet[J]. Remote Sensing, 2023, 15(15): 3766. Doi:10.3390/rs15153766
[6]	李新娜, 王小鹏, 魏统艺. 自适应形态学与多尺度结合的植被区域遥感图像分割方法[J]. 激光与光电子学进展, 2022, 59(24): 240-246. Doi:10.3788/LOP202259.2428001
[7]	闵蕾, 高昆, 李维, 等. 光学遥感图像分割技术综述[J]. 航天返回与遥感, 2020, 41(6): 1-13. Doi:10.3969/j.issn.1009-8518.2020.06.001
[8]	Badrinarayanan V, Kendall A, Cipolla R. SegNet: a deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12): 2481-2495. Doi:10.1109/TPAMI.2016.2644615
[9]	Ronneberger O, Fischer P, Brox T. U-net: convolutional networks for biomedical image segmentation[C]//International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer, 2015: 234-241.10.1007/978-3-319-24574-4_28.
[10]	Chen L C, Papandreou G, Kokkinos I, et al. Semantic image segmentation with deep convolutional nets and fully connected CRFs[EB/OL]. arXiv: 1412.7062. (2014-12-22)[2023-09-15]. https://arxiv.org/abs/1412.7062.
[11]	Chen L C, Papandreou G, Kokkinos I, et al. DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(4): 834-848. Doi:10.1109/TPAMI.2017.2699184
[12]	Chen L C, Papandreou G, Schroff F, et al. Rethinking atrous convolution for semantic image segmentation[EB/OL]. arXiv: 1706.05587. (2017-06-17)[2023-09-15]. https://arxiv.org/abs/1706.05587.
[13]	Chen L C, Zhu Y K, Papandreou G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[EB/OL]. arXiv: 1802.02611. (2018-02-07)[2023-09-15]. https://arxiv.org/abs/1802.02611.
[14]	Chen F L, Liu H J, Zeng Z H, et al. BES-net: boundary enhancing semantic context network for high-resolution image semantic segmentation[J]. Remote Sensing, 2022, 14(7): 1638. Doi:10.3390/rs14071638
[15]	Wang X L, Girshick R, Gupta A, et al. Non-local neural networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. June 18-23, 2018. Salt Lake City, UT, USA. IEEE, 2018: 7794-7803. DOI: 10.1109/cvpr.2018.00813.
[16]	Liang J L, Deng Y F, Zeng D. A deep neural network combined CNN and GCN for remote sensing scene classification[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2020, 13: 4325-4338. Doi:10.1109/JSTARS.2020.3011333
[17]	Li Y S, Chen R X, Zhang Y J, et al. Multi-label remote sensing image scene classification by combining a convolutional neural network and a graph neural network[J]. Remote Sensing, 2020, 12(23): 4003. Doi:10.3390/rs12234003
[18]	Peng F F, Lu W, Tan W X, et al. Multi-output network combining GNN and CNN for remote sensing scene classification[J]. Remote Sensing, 2022, 14(6): 1478. Doi:10.3390/rs14061478
[19]	Diao Q, Dai Y P, Zhang C, et al. Superpixel-based attention graph neural network for semantic segmentation in aerial images[J]. Remote Sensing, 2022, 14(2): 305. Doi:10.3390/rs14020305
[20]	Veličković P, Cucurull G, Casanova A, et al. Graph attention networks[EB/OL]. arXiv: 1710.10903. (2017-10-30)[2023-09-15]. https://arxiv.org/abs/1710.10903.
[21]	Sun K, Xiao B, Liu D, et al. Deep high-resolution representation learning for human pose estimation[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). June 15-20, 2019. Long Beach, CA, USA. IEEE, 2019: 5693-5703, DOI: 10.1109/cvpr.2019.00584.
[22]	Schlichtkrull M, Kipf T, Bloem P, et al. Modeling relational data with graph convolutional networks[EB/OL]. arXiv: 1703.06103. (2017-03-17)[2023-09-15]. https://arxiv.org/abs/1703.06103.
[23]	Achanta R, Shaji A, Smith K, et al. SLIC superpixels compared to state-of-the-art superpixel methods[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(11): 2274-2282. Doi:10.1109/TPAMI.2012.120
[24]	Wang J D, Sun K, Cheng T H, et al. Deep high-resolution representation learning for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(10): 3349-3364. Doi:10.1109/TPAMI.2020.2983686
[25]	徐存东, 李洪飞, 谷丰佑, 等. 基于无人机遥感影像的盐碱地信息的精准提取方法[J]. 中国农村水利水电, 2021(8): 116-122. Doi:10.3969/j.issn.1007-2284.2021.08.020
[26]	白俊龙, 王章琼, 闫海涛. K-means聚类引导的无人机遥感图像阈值分类方法[J]. 自然资源遥感, 2021, 33(3): 114-120. Doi:10.6046/zrzyyg.2020301
[27]	杨栩, 杨润书, 朱大明, 等. 基于遥感数据的耕地信息提取方法研究[J]. 软件导刊, 2018, 17(9): 166-170, 174. Doi:10.11907/rjdk.182110
[28]	Zhang X P, Cheng B, Chen J F, et al. High-resolution boundary refined convolutional neural network for automatic agricultural greenhouses extraction from GaoFen-2 satellite imageries[J]. Remote Sensing, 2021, 13(21): 4237. Doi:10.3390/rs13214237
[29]	Kingma D P, Ba J. Adam: a method for stochastic optimization[EB/OL]. arXiv: 1412.6980. (2014-12-22)[2023-09-15]. https://arxiv.org/abs/1412.6980.
[30]	Lin G S, Milan A, Shen C H, et al. RefineNet: multi-path refinement networks for high-resolution semantic segmentation[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). July 21-26, 2017, Honolulu, HI, USA. IEEE, 2017: 5168-5177. DOI: 10.1109/CVPR.2017.549.
[31]	Jha D, Smedsrud P H, Johansen D, et al. A comprehensive study on colorectal polyp segmentation with ResUNet++, conditional random field and test-time augmentation[J]. IEEE Journal of Biomedical and Health Informatics, 2021, 25(6): 2029-2040. Doi:10.1109/jbhi.2021.3049304
[32]	Hu J, Shen L, Sun G. Squeeze-and-excitation networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. June 18-23, 2018, Salt Lake City, UT, USA. IEEE, 2018: 7132-7141. DOI: 10.1109/CVPR.2018.00745.
[33]	Kipf T N, Welling M. Semi-supervised classification with graph convolutional networks[EB/OL]. arXiv: 1609.02907. (2016-09-09)[2023-09-15]. https://arxiv.org/abs/1609.02907.
[34]	Takikawa T, Acuna D, Jampani V, et al. Gated-scnn: gated shape cnns for semantic segmentation[EB/OL]. arXiv: 1907.05740. (2019-07-12)[2023-09-15]. https://arxiv.org/abs/1907.05740.


中国科学院大学学报 2025, Vol. 42 Issue (1): 107-115	PDF