一种融合Transformer和UNet的森林覆盖信息提取方法

引用本文

廖凌岑, 刘巍, 刘士彬. 一种融合Transformer和UNet的森林覆盖信息提取方法[J]. 中国科学院大学学报, 2025, 42(3): 350-360.

LIAO L C, LIU W, LIU S B. A method to extract forest cover information by fusing Transformer and UNet[J]. Journal of University of Chinese Academy of Sciences, 2025, 42(3): 350-360.

一种融合Transformer和UNet的森林覆盖信息提取方法

廖凌岑^1,2, 刘巍¹, 刘士彬¹

1. 中国科学院空天信息创新研究院, 北京 100094;
2. 中国科学院大学资源与环境学院, 北京 100049

2023年3月20日收稿; 2023年5月6日收修改稿

基金项目: 中国科学院战略先导科技专项A类(XDA19010401)和国家重点研发计划政府间港澳台重点专项(2018YFE0100100)资助

通信作者: 刘巍, E-mail: liuwei202614@aircas.ac.cn

摘要: 森林覆盖信息提取是森林遥感应用的重要内容之一，它对于森林资源管理、生态环境保护和气候变化研究等具有重要意义。传统的基于卷积神经网络的方法虽然能够有效地提取局部特征，但难以捕获远程依赖关系和全局上下文信息。为解决这个问题，提出一种融合Transformer和UNet的森林覆盖信息提取方法，简称为DiUNet。该方法将Transformer模块嵌入到UNet网络中，以增强其对远程依赖和全局上下文信息的感知能力。此外，针对森林覆盖信息的破碎、无规则和尺度不一等特点，通过利用相对位置编码增加位置信息，提升了模型对不同层次和尺度空间信息的捕获能力。构建一个基于Landsat 8和CDL数据层的森林覆盖信息数据集，并对该数据集进行深入实验分析。在对比实验中，DiUNet在精确度、召回率、F₁分数、交并比和频权交并比等指标中取得的结果最佳，分别为91.22%、92.66%、91.94%、85.08%和81.65%，同时在泛化实验中也取得了不错的结果。表明DiUNet方法在森林覆盖信息提取方面优于现有的方法，且具有较高的鲁棒性和泛化性。

关键词: 语义分割 UNet Transformer 森林覆盖信息森林遥感

A method to extract forest cover information by fusing Transformer and UNet

LIAO Lingcen^1,2, LIU Wei¹, LIU Shibin¹

1. Aerospace Information Research Institute, Chinese Academy of Sciences, Beijing 100094, China;
2. College of Resources and Environment, University of Chinese Academy of Sciences, Beijing 100049, China

Abstract: Forest cover information extraction is one of the essential tasks in forest remote sensing applications, which is of great significance for forest resource management, ecological environment protection, and climate change research. Traditional convolutional neural network-based methods can effectively extract local features, but struggle to capture long-range dependencies and global context information. To address this issue, we propose a method for forest cover information extraction that fuses Transformer and UNet, referred to as DiUNet. This approach embeds Transformer modules into the UNet network to enhance its perception of long-range dependencies and global context information. Meanwhile, considering the fragmentation, irregularity, and inconsistent scale of forest cover information, our method enhances the model's ability to capture spatial information by using relative position encoding to increase the positional information, enabling the model to capture features at different levels and scales. We constructed a forest cover information dataset based on Landsat 8 and CDL data layers and conducted in-depth experimental analyses on this dataset. In the comparative experiments, DiUNet achieved the best results in accuracy, recall, F₁ score, intersection-over-union, and frequency-weighted intersection-over-union indices, which were 91.22%, 92.66%, 91.94%, 85.08%, and 81.65%, respectively. The model also performed well in generalization experiments. The experimental results show that the DiUNet method outperforms existing methods in forest cover information extraction and has high robustness and generalization capabilities.

Keywords: semantic segmentation UNet Transformer forest cover information forest remote sensing

森林是地球生态系统的重要组成部分，提供各种生态、社会和经济效益。然而，全球森林正面临各种威胁，包括毁林、森林退化和气候变化等。准确和及时的森林覆盖信息对于了解森林动态和管理至关重要^[1]。森林覆盖信息的语义分割是森林遥感中最关键的任务之一，其目的是将图像划分为不同的类别，如森林、水、道路和城市区域等。随着科学技术的不断发展和卫星资源的不断丰富，遥感越来越显现出巨大作用。作为一门综合性科学，遥感能在短时间内对大范围的区域进行观测，继而把海量的遥感数据传输到卫星地面站^[2]。遥感数据日趋海量化，包含的地理信息日渐繁杂。如何从海量的遥感数据中快速有效地提取出有价值的高层语义信息越来越受到国内外研究者的关注^[3-5]。不同于传统的光学图像，遥感影像特征信息丰富、覆盖范围广、地物形式多样且空间分布复杂^[6]。因此，如何智能化地从遥感影像中提取出森林覆盖信息仍是一个非常具有挑战性的问题。

目前，传统的森林覆盖信息提取方法主要包括人工目视解译方法、基于阈值分割的方法和基于传统机器学习的方法。人工目视解译方法是最早被用来进行森林覆盖信息提取的方法^[7]。采用人机交互判读的方式，勾画出需要进行分类的种植区边界，从而进行分类。这种方法简单实用，也能满足业务的精度需求，但需要解译人员有足够丰富的经验和一定的专业素养，对专业人员的要求比较高，且费时费力。基于阈值分割的方法是将遥感影像像素值与一个特定的阈值进行比较，根据阈值的设定将像素分类为不同的类别^[8]，从而得到森林覆盖区域和非森林覆盖区域等信息。然而，阈值的选择对分割结果有较大影响，而且该方法对光照和噪声等因素比较敏感，需要进行一定预处理和后处理操作以提高分割精度和完整度。传统的机器学习提取方法利用丰富的训练样本训练不同类型的分类器进行森林覆盖信息提取，包括支持向量机、决策树、随机森林等。这些方法具有自动、高效的目标分类能力和需较少人工的优点。虽然机器学习提取方法有助于森林覆盖信息的提取，但在提取复杂破碎的地物信息和上下文信息方面仍然存在挑战。

随着深度学习技术的出现，基于深度学习的遥感图像分类方法取得了重大突破，为遥感图像分类的研究和发展提供了新的机遇。深度学习技术能够通过多层抽象自动学习原始输入数据的信息表示，而无需依赖于浅层的手工设计特征^[9]。2015年提出的U-Net^[10]最初被用于医学影像分割，因为其有能够结合底层和高层信息、模型简单且所需数据量小的特点，在遥感影像分割的任务中也表现良好。杨丹等^[11]采用加入多时相植被指数的U-Net模型分类方法对森林植被进行分类，可以有效提高分类精度。Transformer^[12]是一个纯粹基于注意力的架构，具有强大的全局关系表示能力。与上述基于卷积神经网络(convolutional neural network, CNN)的结构不同，Transformer将基于2D图像的任务转换为基于1D序列的任务。由于强大的序列到序列建模能力，Transformer在提取全局上下文方面表现出优于单独注意力模型的特征，并在语义分割等基础视觉任务上获得了最先进的结果。从CNN到Transformer的转变最近开始于视觉转换器(vision transformer, ViT)^[13]，其通过将图像分割成小块以符合Transformer的输入格式，将Transformer结构转化为视觉任务。为了获得空间信息，SETR^[14]和TransUNet^[15]采用跳跃连接来连接浅层和深层，这在分割任务中首次超过了基于CNN的模型。虽然基于Transformer的语义分割模型因其全局信息提取能力而表现优秀，但是却缺乏CNN的局部信息提取能力。越来越多的研究者通过融合CNN和Transformer来获得各自方法的优势。CvT^[16]在自注意力计算中加入局部感受野，这样可以降低自注意力计算的复杂度，并有助于提取局部特征。在TransFuse^[17]模型中，卷积层与Transformer层交替堆叠。这种设计使解码器能够在局部和全局范围内建模上下文信息，从而提高图像分割的精度。而在CoAtNet^[18]中，自注意力模块与CNN的卷积层并行工作并且共享相同的输入特征，从而使得模型具有较小的计算和存储成本。上述方法在语义分割任务上不断达到新的SOTA(state-of-the-art)性能。

然而，由于森林类型和结构的复杂性和多样性，基于像素分类或分割的传统方法往往难以有效学习全局和长距离的语义信息交互过程。本研究提出一种基于Transformer模块和UNet网络的提取森林覆盖信息的新方法，采用UNet网络带有跳转连接的编码器-解码器的对称结构，以融合编码器和解码器的特征，同时保留空间信息和上下文信息。其中Transformer模块在编码阶段学习输入图像的序列表示，有效地捕获全局多尺度信息，在解码阶段用于执行上采样操作以恢复特征图的空间分辨率。浅层特征和深层特征连接在一起，以减少由下采样引起的空间信息损失，同时可以恢复特征图的空间分辨率并进一步执行分割预测，以此构建一个融合Transformer模块和UNet网络的语义分割模型。

1 实验方法

本节主要说明森林覆盖信息提取的基本流程。首先介绍实验所采用的基础原理，然后详细描述相关基础网络特性并讨论如何利用这些特性发挥网络的优势。最后，使用遥感语义分割任务中常用的相关精度评价指标对模型的精度进行评定并且通过迁移实验验证模型的泛化性和鲁棒性。总体流程图如图 1所示。

	Download: JPG larger image
图 1 总体流程图 Fig. 1 Overall flow chart

1.1 局部注意力和全局注意力

CNN和Transformer中的注意力机制是相似的，都是在输入数据的不同位置上赋予不同的权重。但是，CNN的局部注意力是通过卷积操作来实现的，而Transformer的全局注意力则是通过自注意力机制和多头注意力机制来实现的。CNN通过使用局部滤波器对输入数据进行卷积运算来提取特征，但对于森林覆盖信息的提取，可能会因为难以处理长期依赖关系而失效。相比之下，Transformer模型中的注意力机制可以通过自注意力机制和多头注意力机制捕捉森林覆盖信息中的全局信息和依赖关系。在森林覆盖信息的提取任务中，可以将输入数据看作是一个序列，将其传递到Transformer模型中进行处理。通过使用自注意力机制和多头注意力机制，Transformer模型可以在不同位置之间建立依赖关系，从而更好地捕捉森林覆盖信息的长期依赖关系和全局信息。在森林覆盖信息的提取任务中，可以使用Transformer模型的编码器部分提取特征，并将这些特征传递给后续的分类器进行森林覆盖信息的提取。

1.2 Swin block和DiNAT block

相较于ViT，Swin Transfomer^[19]在参数量和层数方面大幅度降低计算复杂度。它在深度加深的过程中逐渐合并图像块，构建层次化Transformer，并可作为通用视觉骨干网络在图像分类、目标检测和语义分割等任务中应用。Swin Transformer通过在窗口范围内进行注意力运算，避免了传统Transformer的全局计算开销，从而减少了计算量。其计算注意力的表达式如下

$ \text { Attention }(\boldsymbol{Q}, \boldsymbol{K}, \boldsymbol{V})=\text { Softmax }\left(\frac{\boldsymbol{Q} \boldsymbol{K}^{\mathrm{T}}}{\sqrt{d}}+\boldsymbol{B}\right) \boldsymbol{V}, $

(1)

其中: Q、K、V分别表示查询、键和值矩阵，B表示注意力偏置矩阵，Softmax表示归一化函数，d表示K向量的维度。为了让模型能够感知窗口内的位置信息，Swin Transformer在原始计算Attention公式中的Q、K时加入了相对位置编码，给每个相对位置赋予一个向量表示，然后将这个向量与Q、K进行点积运算，从而增加了位置信息的权重。

如图 2(a)所示，2个连续的Swin blocks包含2种不同的自注意力机制：位移窗口多头自注意力(shifted window multi-head self-attention, SW-MSA)和窗口多头自注意力(window multi-head self-attention, W-MSA)。前者用于计算局部自注意力，而后者用于计算全局自注意力。SW-MSA的优点是可以提高模型的准确性，并且可以减少计算复杂度；W-MSA的优点是可以提高模型的准确性，并且可以捕捉更多的全局信息。

	Download: JPG larger image
图 2 Swin block和DiNAT block结构图 Fig. 2 Swin block and DiNAT block structure diagram

如图 2(b)所示，DiNAT block^[20]同样也包含2种不同的注意力机制。扩展邻域注意(dilated neighborhood attention, DiNA)^[20]作为对邻域注意力(neighborhood attention, NA)^[21]的一种灵活且高效的扩展，能够捕捉更多的全局上下文信息，并在不增加额外成本的情况下显著扩大感受野。NA是一种局部注意力机制，将自注意力限制在相邻像素内，从而降低了计算复杂度。DiNAT将这2种注意力机制巧妙地结合起来，既保留了局部信息，又能捕捉到远程依赖。

Swin Transformer采用窗口自注意力(window-based self-attention, WSA)模块和像素移位窗口自注意力(shifted window-based self-attention, SWSA)模块，它们都将自我注意力限制在不重叠的子窗口内。这降低了自我注意力的成本，使其时间和空间复杂度与分辨率呈线性关系。相比Swin Transformer使用不同大小的窗口并进行移位来扩大感受野的方式，DiNAT则采用固定大小的邻域窗口并通过扩张增加感受野。其中的NA模块将每个像素的自我注意力限制在其最近的邻域内，它与Swin Transformer中的WSA和SWSA具有相同的时间和空间复杂度以及参数量，但是它在重叠的滑动窗口中操作，因此保持了平移不变性。

尽管NA的滑动窗口模式与SWSA相似，但它的最近邻公式使其成为自我注意力的直接约束，因此NA并不像SWSA那样，随着窗口大小的增加而趋近于自注意力。而DiNA是NA的一种扩展，通过增加步长来覆盖更大范围的邻域，同时保持整体注意范围。DiNA可以作为一种稀疏的全局操作，其与NA一起作为一种仅限于局部的操作时，工作效果最佳。

1.3 DiUNet模型

虽然Swin Transformer的SWSA在降低自我注意的二次复杂度方面表现出色，但它的局部注意力却削弱了自注意力2个极具价值的特性：长程依赖模型和全局感受野。也就是说，模型在捕捉图像中较远距离特征之间的关系以及整个图像的上下文信息方面表现不足。而NA的局部注意力和DiNA的稀疏全局注意力具有互补性，既保留了局部信息，又能捕捉到远程依赖。因此本研究引入了一种基于这2种机制的全新分层视觉转换器——扩张邻域注意力转换器(DiNAT)。该转换器结合了扩张机制和邻域注意力机制，能够有效地实现不同层次特征之间的信息交互和转换。

受Swin-UNet^[22]结构的启发，将Swin-UNet中的Swin更换为DiNAT模块，构建了一个新的神经网络DiUNet，DiUNet由编码器、瓶颈、解码器和跳跃连接组成，总体架构如图 3所示。编码器、瓶颈和解码器都是基于DiNAT模块构建的。输入的遥感影像通过Patch Partition层将输入图像等分成小块，每个小块作为一个Patch，然后通过一个线性层得到Patch的嵌入向量。接着，这些向量被送入基于Transformer的编码器，以学习深层的特征表示。考虑到Transformer层数过深可能导致收敛困难^[23]，模型仅使用2个连续的DiNAT模块来构建学习深层特征表示的瓶颈。这种瓶颈设计在特征转换、降低特征维度以及减少计算量和内存消耗方面都能发挥作用。在瓶颈中，特征尺寸和分辨率保持不变。解码器随后通过具有Patch Expanding层的上采样将提取到的上下文特征进行恢复，并通过跳跃连接与编码器阶段的多尺度特征融合。类似于UNet的设计，跳跃连接负责将编码器阶段的多尺度特征与上采样特征相融合。模型将浅层特征和深层特征连接在一起，以减少下采样所引起的空间信息损失，进而恢复特征图的空间分辨率，并对分割预测进行进一步优化。

	Download: JPG larger image
图 3 DiUNet网络框架图 Fig. 3 Network framework diagram of DiUNet

1.4 精度评价指标

语义分割是一种图像处理技术，它可以将图像中的每个像素分配给一个类别，从而实现对图像中不同对象或区域的识别和定位。为探究不同模型在森林覆盖信息提取中的表现，从像素层面来量化模型的准确度和鲁棒性，实验中的精度评价对不同模型的预测结果进行了对比分析。对比分析用到了目视解译与精度评价指标2种方法，其中选取的精度指标^[24-25]如表 1所示。

表 1 评价指标 Table 1 Evaluation metric

2 实验数据及处理 2.1 数据源介绍

为顺利开展森林覆盖信息提取技术研究，本研究制作一个中分辨率数据集。研究区选择为美国东部山区，纬度：24°31′N~49°23′N，经度：75°25′W~94°49′W。这个区域位于美国东部，包括肯塔基州、西弗吉尼亚州、弗吉尼亚州、田纳西州和北卡罗来纳州。其地理特征主要由阿巴拉契亚山脉和沿海平原构成，有多种地形和自然资源。气候属于温带湿润气候，四季分明，降水充沛，林地覆盖着全区域过半的土地，包括落叶林、常绿林和混合林，总共占研究区大约55.38%的面积，其他占比较大的数据层还有草地/牧场和发展用地。其区位和主要数据层占比如图 4所示。因为森林覆盖信息支离破碎，难以目视解译去勾画，不适用于大范围的研究，所以利用现有的数据层作为标签真值。其中，中分辨率数据集由GEE(google earth engine)上提供的USGS Landsat 8 Collection 2 Tier 1 Raw Scenes遥感影像和美国农业部的CDL(cropland data layer)数据层处理后得到，分辨率均为30 m。GEE是谷歌提供的一款可以批量处理卫星影像数据的工具，属于google earth系列工具之一。相比于ENVI等传统的影像处理工具，GEE可以快速、批量处理数量巨大的影像。CDL数据层是每年使用中等分辨率卫星图像和广泛的农业地面实况为美国大陆创建的特定作物土地覆盖数据层。为满足不同模型的需求，遥感图像和标签均被切割至512×512像素大小。数据集标签以tif格式呈现，其中背景被标注为“0”，森林覆盖信息被标注为“1”，经过处理后最终得到3 360个原始样本，按照3∶1∶1的比例划分为训练集、验证集和测试集。其中训练集和验证集用于模型训练和调整模型超参数，最终使用测试集对模型进行评估。

	Download: JPG larger image
左下图基于自然资源部标准地图服务网站GS(2021)5465号标准地图制作, 底图边界无修改。图 4 研究区概况图 Fig. 4 Overview map of the study area

2.2 数据预处理与增强

采用多种数据预处理和增强技术来提高语义分割模型的性能。因受到硬件的限制，不能直接将整幅遥感影像读入深度学习模型进行训练。影像和标签均被切割至512像素×512像素后再对影像进行归一化，通过减去均值并除以标准差来消除亮度和对比度差异。然后，通过随机翻转、旋转、缩放和裁剪等数据增强操作处理样本，达到扩充数据集的目的，以增强模型的泛化能力和鲁棒性。输入图像和标签都应进行相同的操作。经过这些处理步骤后3 360个原始样本被扩充到13 440个。

2.3 模型实现与训练

采用Pytorch作为深度学习框架，该框架在学术界和工业界都有广泛应用，并且具有很强的灵活性和可操作性。随着训练的进行，模型的参数也会不断更新。为加快模型收敛速度，提高训练效果，通常需要人工设定一些超参数。经过多次实验和参考相关文献，结合服务器处理能力，设置batch size为8，优化器为自适应学习率Adam^[26]函数，初始学习率为0.001。同时采用指数型权重衰减策略，衰减率为0.9，以调整每个历时的学习率。所有用于比较的模型都从头开始训练了100个Epoch直到收敛。本实验采用2块英伟达Tesla A100的Linux服务器进行训练，实验环境为Ubuntu 18.0。

根据图 5所示的结果，在训练集和验证集上分别记录了模型的损失变化曲线，以全面展示模型的训练和验证表现。通过分析损失变化曲线，可以发现DiUNet模型在训练过程中能够迅速收敛，并且避免出现过拟合的问题。同时，观察到该模型在验证集上的表现相对于其他模型更为优越，证明了DiUNet模型具备的优势。这些实验结果表明，DiUNet模型不仅在理论上具有较强竞争力，而且在实际应用中也表现出很高的可行性和鲁棒性。

	Download: JPG larger image
图 5 训练集和验证集的损失曲线对比 Fig. 5 Comparison of the loss curves of the training and validation sets

3 结果与讨论 3.1 森林覆盖信息提取

为了验证所提出网络模型的有效性，在森林覆盖数据集上进行了对比实验，将DiUNet与多种经典的语义分割方法进行比较，如PSPNet、HRNet、DeepLabV3+、UNet以及Swin-UNet。表 2呈现了各种算法的定量对比结果。实验数据显示，DiUNet在森林覆盖数据集上的各项指标均有显著提升，并且超越了其他经典语义分割方法。在对比实验中，可以明显观察到DiUNet的交并比得分相较于改进前的Swin-UNet提高了1.36个百分点。同时，Swin-UNet在各个算法中表现出了第二好的性能。特别是与PSPNet相比，所提出的方法在精确度、召回率、F₁分数、交并比和频权交并比方面分别提升10.91、3.49、7.43、11.91和15.48个百分点。这些提升表明DiUNet具有足够的鲁棒性，适用于复杂场景的森林覆盖信息提取。DiUNet之所以能够取得优越的性能，主要是因为它反复融合了通过Transformer模块获取的不同尺度特征，从而增强了特征表示能力，并进而具备更强的语义表示。相较于UNet这种采用同层次分辨率融合并在最后一次进行预测的网络，DiUNet的优势在于实现了多级预测，同时融合了不同层次的分辨率。因此，DiUNet在抑制背景误检方面具有显著优势。

表 2 不同模型的定量结果 Table 2 Quantitative results of different models%

为直观地比较不同的方法，图 6中显示了一些样本结果，包括具有不同尺度和形状的森林。与其他经典的语义分割方法相比，DiUNet获得了与地面实况最一致的结果，并且在不同的复杂场景下对森林覆盖信息的识别具有较强的鲁棒性。然而，其他方法的泛化能力则不足。总的来说，PSPNet表现最差，存在许多错误和细节提取不到位的问题；HRNet、DeepLabV3+和UNet获得了比较好的分割性能，在简单场景下都获得了合理的结果，但在复杂场景下部分信息被错误分类或遗漏。受益于Transformer的全局注意力机制，Swin-UNet可以很容易地保留空间细节，这意味着不同尺度的森林覆盖信息的完整性可以得到一定程度的保持，但是对于边缘信息的提取还不够理想。如图 6所示，DiUNet不仅获得了最好的提取结果，而且最大程度地恢复了森林的几何形状和空间分布，这验证了其优越性和准确性。进行仔细比较和观察，可以发现：

	Download: JPG larger image
图 6 不同模型提取结果可视化对比 Fig. 6 Visual comparison of classification results of different models

1) DiUNet可以更加全面地提取所有的森林覆盖信息，如图 6场景2和场景4所示，即使森林具有不明显的特征，也能够成功地被识别。这表明所提出的模型具备强大的特征提取能力，相比其他方法更具优势。

2) 根据分割结果，其他方法在区分容易混淆的相邻非森林覆盖信息方面表现较差。例如，在图 6的场景3中，耕地和森林因相似而距离较近，很容易被误判。相比之下，DiUNet通过Transformer和UNet联合实现的全局和局部注意力机制，能够有效缓解这种不可控性，呈现出真实地物信息。

3) 森林的几何形状和大小具有多种多样性，大多数情况下呈现出不规则的形状，并且其边界非常破碎。由于其他方法不能准确定位，提取的边缘会变得平滑，这与真实标签存在不一致。然而，DiUNet可以生成更具细节信息的边界，并基本保持森林的几何形态。

3.2 迁移学习

为进一步检验所提出模型在其他地区数据集的适应性及鲁棒性能，选用在研究区训练好的DiUNet模型，对美国亚拉巴马州的数据进行迁移学习。首先，对亚拉巴马州的遥感影像数据进行标准化和增强处理。接着，将源域上训练好的DiUNet模型的预训练权重作为目标域模型的初始权重。在微调策略上，冻结模型的底层参数，仅更新顶层参数，以平衡源域学到的特征表示与目标域的适应性。后续在亚拉巴马州的森林覆盖数据集上进行模型的训练和验证。模型迁移后的提取结果如图 7所示。

	Download: JPG larger image
绿色代表正确分类的森林覆盖信息; 蓝色代表漏检的森林覆盖信息; 红色代表误检的森林覆盖信息图 7 迁移学习提取示例 Fig. 7 Transfer learning extraction example

经过简单的迁移学习，DiUNet模型在亚拉巴马州的森林覆盖信息提取任务上取得了较好的结果，总精度达到86.14%，召回率达到87.84%，这证明该模型具有良好的鲁棒性。具体分析迁移后的森林提取结果可以发现，模型对于面积大的森林提取效果较好，对于破碎的边缘信息存在少量的漏检和误检的情况，这主要是因为山区的森林可能部分存在遮挡现象而造成阴影。这些问题提示在未来研究中，需要进一步优化模型以提高其在复杂地形条件下的性能。

4 总结

本研究针对中分辨率遥感影像的森林覆盖信息提取问题，以UNet为骨架加入DiNAT模块，把Transformer作为特征表示和长距离语义信息交互学习的基本单元得到新的语义分割模型，以根据Landsat 8和CDL数据层制作的美国东部的森林覆盖数据集进行训练，并采用其他经典语义分割模型对比分析，最后通过迁移实验来验证模型的鲁棒性，得出以下结论：

1) 本文提出的DiUNet针对森林覆盖信息提取任务的特殊需求，结合Transformer自注意力机制与UNet编解码结构，平衡局部感知与全局感知的矛盾，有效地捕捉森林覆盖区域的特征，实现了高精度分割。此方法充分发挥Transformer与UNet各自的优势，融合二者在特征提取和分割领域的特性，为森林覆盖信息提取任务带来了有效的解决方案。

2) 本研究的方法在森林覆盖信息提取方面优于现有的方法，在森林覆盖信息提取任务中取得了良好的效果，其准确率高达91.22%。并且通过迁移学习证明其具有较高的泛化能力和鲁棒性，在森林覆盖信息提取任务中具有一定的实际应用价值。

3) 尽管本文提出的方法在森林覆盖信息提取任务上具有一定的有效性，但其效果依赖于充足数量的样本数据。在实际应用中，大量的森林覆盖信息样本数据的获取往往受限于成本、时间等因素。因此，未来研究可以着力于小样本情境下的方法探讨，以期在数据较为稀缺的情况下，仍然能够保持较高的信息提取精度和效率。这将有助于进一步优化模型在实际应用中的可行性与适应性。

参考文献

[1]	Myroniuk V, Bell D M, Gregory M J, et al. Uncovering forest dynamics using historical forest inventory data and Landsat time series[J]. Forest Ecology and Management, 2022, 513: 120184. Doi:10.1016/j.foreco.2022.120184
[2]	吴炳方, 蒙继华, 李强子. 国外农情遥感监测系统现状与启示[J]. 地球科学进展, 2010, 25(10): 1003-1012. Doi:10.11867/j.issn.1001-8166.2010.10.1003
[3]	Song J, Gao S H, Zhu Y Q, et al. A survey of remote sensing image classification based on CNNs[J]. Big Earth Data, 2019, 3(3): 232-254. Doi:10.1080/20964471.2019.1657720
[4]	Zhang L P, Zhang L F, Du B. Deep learning for remote sensing data: a technical tutorial on the state of the art[J]. IEEE Geoscience and Remote Sensing Magazine, 2016, 4(2): 22-40. Doi:10.1109/MGRS.2016.2540798
[5]	闫雪静, 刘巍, 刘士彬, 等. 遥感影像区域覆盖数据集筛选方法研究[J]. 中国科学院大学学报, 2023, 40(4): 523-530. Doi:10.7523/j.ucas.2022.006
[6]	Kussul N, Lavreniuk M, Skakun S, et al. Deep learning classification of land cover and crop types using remote sensing data[J]. IEEE Geoscience and Remote Sensing Letters, 2017, 14(5): 778-782. Doi:10.1109/LGRS.2017.2681128
[7]	Singh S, Suresh M, Jain K. Land information extraction with boundary preservation for high resolution satellite image[J]. International Journal of Computer Applications, 2015, 120(7): 39-43. Doi:10.5120/21243-4014
[8]	罗开盛, 李仁东, 常变蓉. 利用面向对象分类技术的大尺度土地覆被调查方法[J]. 中国科学院大学学报, 2013, 30(6): 770-778. Doi:10.7523/j.issn.2095-6134.2013.06.009
[9]	张顺, 龚怡宏, 王进军. 深度卷积神经网络的发展及其在计算机视觉领域的应用[J]. 计算机学报, 2019, 42(3): 453-482. Doi:10.11897/SP.J.1016.2019.00453
[10]	Ronneberger O, Fischer P, Brox T. U-net: convolutional networks for biomedical image segmentation[C]//International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer, 2015: 234-241. DOI: 10.1007/978-3-319-24574-4_28.
[11]	杨丹, 李崇贵, 常铮, 等. 应用U-Net模型和多时相Landsat-8影像对森林植被的分类[J]. 东北林业大学学报, 2021, 49(9): 55-59, 66. Doi:10.13759/j.cnki.dlxb.2021.09.011
[12]	Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. December 4-9, 2017, Long Beach, California, USA. New York: ACM, 2017: 6000-6010. DOI: 10.5555/3295222.3295349.
[13]	Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16x16 words: transformers for image recognition at scale[EB/OL]. 2020: arXiv: 2010.11929. (2020-10-22)[2023-04-25]. https://arxiv.org/abs/2010.11929.
[14]	Zheng S X, Lu J C, Zhao H S, et al. Rethinking semantic segmentation from a sequence-to-sequence perspective with transformers[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). June 20-25, 2021, Nashville, TN, USA. IEEE, 2021: 6877-6886. DOI: 10.1109/CVPR46437.2021.00681.
[15]	Chen J N, Lu Y Y, Yu Q H, et al. Transunet: transformers make strong encoders for medical image segmentation[EB/OL]. 2021. arXiv: 2102.04306. (2021-02-08)[2023-04-25]. https://arxiv.org/abs/2102.04306.
[16]	Hassani A, Walton S, Shah N, et al. Escaping the big data paradigm with compact transformers[EB/OL]. 2021. arXiv: 2104.05704. (2021-04-12)[2023-04-25]. https://arxiv.org/abs/2104.05704.
[17]	Zhang Y D, Liu H Y, Hu Q. TransFuse: fusing transformers and CNNs for medical image segmentation[C]//International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer, 2021: 14-24. DOI: 10.1007/978-3-030-87193-2_2.
[18]	Xu W J, Xu Y F, Chang T, et al. Co-scale conv-attentional image transformers[C]//2021 IEEE/CVF International Conference on Computer Vision (ICCV). October 10-17, 2021, Montreal, QC, Canada. IEEE, 2021: 9961-9970. DOI: 10.1109/ICCV48922.2021.00983.
[19]	Liu Z, Lin Y T, Cao Y, et al. Swin transformer: hierarchical vision transformer using shifted windows[C]//2021 IEEE/CVF International Conference on Computer Vision (ICCV). October 10-17, 2021, Montreal, QC, Canada. IEEE, 2021: 9992-10002. DOI: 10.1109/ICCV48922.2021.00986.
[20]	Hassani A, Shi H. Dilated neighborhood attention transformer[EB/OL]. 2022. arXiv: 2209.15001. (2022-09-29)[2023-04-25]. https://arxiv.org/abs/2209.15001.
[21]	Hassani A, Walton S, Li J C, et al. Neighborhood attention transformer[EB/OL]. 2022. arXiv: 2204.07143. (2022-04-14)[2023-04-25]. https://arxiv.org/abs/2204.07143.
[22]	Cao H, Wang Y Y, Chen J, et al. Swin-unet: unet-like pure transformer for medical image segmentation[C]//Karlinsky L, Michaeli T, Nishino K. European Conference on Computer Vision. Cham: Springer, 2023: 205-218. DOI: 10.1007/978-3-031-25066-8_9.
[23]	Touvron H, Cord M, Sablayrolles A, et al. Going deeper with image transformers[C]//2021 IEEE/CVF International Conference on Computer Vision (ICCV). October 10-17, 2021, Montreal, QC, Canada. IEEE, 2021: 32-42. DOI: 10.1109/ICCV48922.2021.00010.
[24]	Shelhamer E, Long J, Darrell T. Fully convolutional networks for semantic segmentation[C]//IEEE Transactions on Pattern Analysis and Machine Intelligence. May 24, 2016, IEEE, 2016: 640-651. DOI: 10.1109/TPAMI.2016.2572683.
[25]	Chen L C, Papandreou G, Kokkinos I, et al. DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(4): 834-848. Doi:10.1109/TPAMI.2017.2699184
[26]	Kingma D P, Ba J. Adam: a method for stochastic optimization[EB/OL]. 2014. arXiv: 1412.6980. (2014-12-22)[2023-04-25]. https://arxiv.org/abs/1412.6980.


中国科学院大学学报 2025, Vol. 42 Issue (3): 350-360	PDF