2. 河北省工业智能感知重点实验室 河北 唐山 063210;
3. 华北理工大学附属医院 影像中心 河北 唐山 063210
2. Hebei Provincial Key Laboratory of Industrial Intelligent Perception, Tangshan 063210, China;
3. Imaging Center, North China University of Science and Technology, Affiliated Hospital Tangshan 063210, China
医学图像分割是将医学影像中感兴趣的结构或区域从背景中准确、自动地提取出来的重要技术。然而,在实际临床应用中,存在医学图像数据的稀缺和获取标注成本高的问题,这使深度学习模型在处理结构差异明显的少量医学样本时效果不佳[1]。
小样本图像分割就是从一个或几个像素标注的样本(支持集数据)中提取判别表征,从而实现对未标注样本(查询集数据)的分割预测[2]。目前对小样本医学图像分割网络的研究主要采用交互结构的方法和基于原型结构的方法。Guha Roy等[3]提出用于医学图像小样本分割的压缩激发网络SE-Net,设计了用于支持集与查询集相互作用的“挤压和激励”模块,实现对未知类的分割。Wang等[4]提出一种原型正则化对齐网络PANet,以更好地利用支持集网络,提升单个原型的表达能力。Ouyang等[5]提出的ALP-Net引入了一个自适应局部原型池模块,旨在通过提取局部对象信息来增强原型表示的泛化能力。Hansen等[6]提出的ADNet依靠单一的前景原型来计算所有查询像素的异常分数,然后利用学习到的阈值对这些异常分数进行阈值化,并进行分割。Wu等[7]提出AAS-DCL将对比学习引入小样本医学图像分割领域,从原型和上下文的角度对向量进行对比。贾熹滨等[8]提出的IBR-FSS-Net在原型网络的基础上引入类别注意力和密集比较模块,引导分割模型关注边界,从而提高分割性能。Ding等[9]设计了一种新的循环-相似注意原型网络CRAPNet,通过引入循环注意力机制,充分利用查询与支持医学图像之间的像素关系进行分割。Shen等[10]在ADNet的基础上构建了Q-Net,通过自适应调整查询集阈值和原型,并进行双路径扩展相结合,以提高小样本医学图像分割的性能。
尽管这些方法在小样本医学图像分割领域取得了巨大成功,但现有方法大多集中在直接从医学器官支持集图像中提取原型,未能充分考虑所提取的原型与查询集图像中目标器官区域之间的特征分布偏移,这导致所提取的原型与真实类中心存在偏移,从而对未见类别可生成性差。此外,医学图像中的前景和背景之间的不平衡现象更为严重,复杂的背景噪声可能会导致局部信息的丢失,进而影响边界识别,产生边界模糊的问题。因此,在小样本医学图像分割方面仍需进一步研究和改进现有方法,以解决这些问题。
在临床实践中发现,放射科医生通常通过选择初始图像中感兴趣的区域进行粗略标记,并逐步细化标记,从而实现对目标的组织分割。受上述观察结果的启发,本文提出一种原型优化和细化分割的小样本医学图像分割网络(prototype optimization and refinement segmentation network,PORSNet),其目的是更加精确地生成医学类原型,并充分捕捉查询集的边缘细节信息,实现利用少量样本获得较好的分割效果。
1 PORSNet网络模型 1.1 问题定义在医学小样本分割任务中,数据集分为训练集Dtrain(包含已知类别Ctrain)和测试集Dtest(包含未见类别Ctest),其中
本文提出的用于小样本医学图像分割的原型优化和细化分割PORSNet网络模型框架如图 1所示,框架由三个阶段构成: 原型提取阶段、原型更新阶段、查询集预测阶段。
|
图 1 网络结构图 Fig. 1 Network structure diagram |
1) 在原型提取阶段,首先,使用权重共享的ResNet-101作为骨干,得到支持集图像和查询集图像的特征
2) 在原型更新阶段,设计了原型循环迭代模块,该模块主要由三个关键部分组成:初始原型校正、原型全局感知和原型蒸馏正则化。首先,初始原型校正将支持特征分布映射到查询特征分布,使初始原型
3) 在查询集预测阶段,首先利用最终原型和查询集特征
对于支持集图像
| $\begin{equation*} \boldsymbol{p}^{i}=\operatorname{MAP}\left(\boldsymbol{F}_{\mathrm{s}}, \boldsymbol{V}^{\mathrm{s}}\right)=\frac{1}{\left|\boldsymbol{V}^{\mathrm{s}}\right|} \sum\limits_{i=1}^{H W} \boldsymbol{F}_{\mathrm{s}, i} \boldsymbol{V}_{\mathrm{s}, i}, \end{equation*} $ | (1) |
其中:
支持集特征生成初始原型后,存在初始原型与查询集图像中目标器官区域之间的特征分布偏移问题。为了弥补这一偏移,本文提出了原型循环迭代模块(prototype loop iteration module, PLIM),可用于加强初始原型与查询集图像中目标器官之间的相关性,使原型可以完整表达支持集和查询集类分布的共性,确保最终原型适合于医学查询集分割。
由于超像素分割直接生成的支持集原型
| $ \begin{equation*} \boldsymbol{A}^{i}=\boldsymbol{F}_{\mathrm{s}}^{i}\left(\boldsymbol{F}_{\mathrm{q}}^{i}\right)^{\mathrm{T}} 。\end{equation*} $ | (2) |
修正原型表示为
| $ \begin{equation*} \hat{\boldsymbol{p}}^{i}=\boldsymbol{p}^{i}+\operatorname{Softmax}\left(\boldsymbol{A}^{i}\right)\left(\boldsymbol{p}^{i}\right)^{\mathrm{T}} 。\end{equation*} $ | (3) |
最终,初始原型
虽然原型修正能使初始原型与医学查询集特征分布保持一致,但修正后的原型仍缺乏医学图像查询集特定的上下文信息。为了解决这一问题,本文将修正原型送入原型全局感知组件中,将医学查询集特征的上下文信息汇总到原型中,具体流程如图 2所示。
|
图 2 原型全局感知图 Fig. 2 Prototype global awareness diagram |
原型
| $ \begin{equation*} \hat{\boldsymbol{P}}^{i+1}=\operatorname{LN}\left(\operatorname{MHSA}\left(\hat{\boldsymbol{P}}^{i}\right)+\hat{\boldsymbol{P}}^{i}\right), \end{equation*} $ | (4) |
| $\begin{equation*} \tilde{\boldsymbol{P}}^{i}=L N\left(M L P\left(\hat{\boldsymbol{p}}^{i+1}\right)+\hat{\boldsymbol{p}}^{i+1}\right), \end{equation*} $ | (5) |
其中:
最终修正原型
最后,为了增强医学图像原型表达能力,受知识蒸馏思想的启发,本文提出适用于医学图像的原型蒸馏正则化,通过初始化原型与动态原型之间的相似性分布的KL(Kullback-Leibler)散度[12]得到蒸馏损失Lkd,实现修正原型到动态原型之间有效的知识转移,最终增强对医学图像的适应性,计算公式为
| $\begin{equation*} L_{\mathrm{kd}}=K L(\hat{\boldsymbol{P}} \| \tilde{\boldsymbol{P}}), \end{equation*} $ | (6) |
其中:
在原型循环迭代模块中进行了N步循环迭代后,生成用于指导医学查询集掩码预测的最终原型。根据Hansen等[6]的研究,本文采用自适应阈值对查询集图像进行先验分割,不仅避免了原型中含有杂质较多的医学背景组织,而且与解码器相比,节省了计算成本,最终得到初始掩码
| $ \begin{equation*} \boldsymbol{M}_{\mathrm{q}}^{\prime}=1-\sigma\left(\mathrm{S}^{i}\left(\boldsymbol{F}_{\mathrm{q}}, \operatorname{GAP}(\tilde{\boldsymbol{P}})\right)-\tau\right), \end{equation*} $ | (7) |
其中:
为了完善查询集特征以及得到更加精细化的预测,设计了原型细化分割模块(prototype refinement segmentation module, PRSM),利用掩码引导聚合和特征归一细化获得增强特征,并得到新的查询集特征
|
图 3 原型细化分割模块图 Fig. 3 Prototype refinement segmentation module diagram |
首先,由于生成的初始掩码较为粗糙,无法精确定位医学器官类别特征,所以本文进行了掩码引导聚合(mask guided aggregation,MGA),利用生成的初始掩码进行引导,将边缘细节信息注入查询集特征学习中,突出特定类别区域,同时抑制其他区域。整体的运行流程可以表示为
| $ \begin{equation*} \boldsymbol{F}_{\mathrm{q}}^{\prime}=\boldsymbol{F}_{\mathrm{q}} \otimes \boldsymbol{M}_{\mathrm{q}}, \end{equation*} $ | (8) |
其中:
| $ \begin{equation*} \boldsymbol{F}_{\mathrm{q}}^{\prime \prime}=\operatorname{Sigmoid}\left(f^{3 \times 3}\left(\left[\boldsymbol{F}_{\mathrm{q}, \max }^{\prime} ; \boldsymbol{F}_{\mathrm{q}, \mathrm{avg}}^{\prime} ; \boldsymbol{M}_{\mathrm{q}}\right]\right) \otimes \boldsymbol{F}_{\mathrm{q}}^{\prime}\right), \end{equation*} $ | (9) |
其中:f3×3(·)和Sigmoid(·)分别表示3×3卷积和Sigmoid函数;F′q, max和 F′q, avg分别是掩码特征映射 F′q的最大池化特征和平均池化特征;[a; b]是a和b沿通道轴的连接。
其次,为了进一步细化各个查询集医学器官类别进行类中心对齐,受图像修复领域归一化思想启发[13],进行了特征归一细化(feature normalization refinement,FNR),将查询集医学图像器官的空间像素划分为不同的区域,计算每个区域的均值和方差并进行归一化计算。将计算结果数值高的医学器官类别特征元素分配到对应的类别区域,最终通过可学习仿射参数进行重新位移和缩放。整体的运行流程可以表示为
| $\begin{equation*} \tilde{\boldsymbol{F}}_{\mathrm{q}}=\sum\limits_{i=1}^{N} R N\left(\boldsymbol{F}_{\mathrm{q}}^{\prime \prime}, \boldsymbol{M}_{\mathrm{q}}\right) \cdot \gamma^{i}+\beta^{i}, \end{equation*} $ | (10) |
其中:
最后,根据查询集掩码的增强特征
本文的分割任务损失函数由分割损失、原型对齐正则化损失和原型蒸馏正则化损失三部分组成,其中分割损失和原型对齐正则化损失与文献[10]保持一致。
首先采用预测掩码
| $ \begin{equation*} L_{\mathrm{seg}}=B C E\left(\boldsymbol{M}_{\mathrm{q}}, \tilde{\boldsymbol{M}}_{\mathrm{q}}\right) 。\end{equation*} $ | (11) |
为了充分利用数据集,构建一个原型对齐正则化项,以查询图像作为支持集,反向预测支持图像的标签,得到预测掩码
| $\begin{equation*} L_{\mathrm{reg}}=B C E\left(\boldsymbol{M}_{\mathrm{s}}, \tilde{\boldsymbol{M}}_{\mathrm{s}}\right) 。\end{equation*} $ | (12) |
为了使早期原型转化为医学小样本分割任务的原型,利用类别原型传递类内和类间特征差异,计算原型蒸馏正则化损失Lpd,
| $ \begin{equation*} L_{\mathrm{pd}}=\gamma L_{\mathrm{kd}}, \end{equation*} $ | (13) |
其中:γ为平衡损失权值,其值为0.1。最终模型训练时的总损失为
| $ \begin{equation*} L_{\text {total }}=L_{\text {seg }}+L_{\text {reg }}+L_{\text {pd }} 。\end{equation*} $ | (14) |
本文使用了两个小样本(腹部数据集)进行实验。ABD-MRI是用于ISBI 2019健康腹部器官组合分割挑战赛的腹部MRI数据集,包含20张三维T2-SPIR MRI扫描。ABD-CT是MICCAI 2015多图集腹部标注挑战赛中的腹部CT数据集,包含30张不同病理患者的3D腹部CT,并且扫描强度分布不同。两个数据集都采用相同的器官标注,即标注脾脏(Spleen)、左肾(LK)、右肾(RK)、肝脏(Liver)四个腹部部位。
为了对分割结果进行量化评价,本文使用骰子相似系数(dice similarity coefficient,DSC) 来衡量分割结果。骰子相似系数用于衡量分割结果与标注的相似性,数值越高代表分割效果越好。DSC指标可定义为
| $ \begin{equation*} \operatorname{DSC}(m, g)=\frac{2|m \cap g|}{|m|+|g|}, \end{equation*} $ | (15) |
其中:预测掩码为m;标注掩码为g。DSC衡量m和g的重叠部分。
2.2 实验平台与设置本文的实验基于Ubuntu18系统、PyTorch 1.10.2深度学习框架和Python 3.8编程语言进行。在训练阶段,3D扫描MRI图像被切成2D切片,输入图像像素为256×256。实验初始学习率设置为0.001,采用SGD优化器,迭代次数为50 000轮。
2.3 对比实验为了充分评估模型性能,本文将实验结果与目前小样本医学分割任务中先进的模型进行比较,包括SE-Net[3]、PANet[4],ALP-Net[5]、AD-Net[6]、AAS-DCL[7]、IBR-FSS-Net[8]、CRAPNet[9]、Q-Net[10],其中SE-Net、PANet、ALP-Net、AD-Net、AAS-DCL、IBR-FSS-Net模型的实验数据沿用文献[8],CRAPNet、Q-Net实验数据分别采用文献[9]和文献[10]。
从表 1(黑体数据为最优结果)中可以看出,本文提出的模型在分割效果上表现出了优异的性能。具体而言, 使用ResNet-101作为骨干网络时,在ABD-MRI数据集上,本文提出的PORSNet模型平均DSC指数为82.24%,在ABD-CT数据集上平均DSC指数为75.22%。其原因在于,PORSNet模型可以提取到更接近医学查询集真实特征分布的多个原型,由于进一步处理了边缘细节,对查询图像的分割结果也更准确。
|
|
表 1 定量评估的结果 Tab. 1 The quantitative evaluation results |
为了分析提出的原型循环迭代模块和原型细化分割模块对所提模型分割性能的贡献程度,本文以ABD-MRI数据集为例进行消融实验。基线方法(Baseline) 是本文所提模型中的一部分,即在本文模型基础上去掉原型循环迭代模块与原型细化分割模块之后的部分。
2.4.1 两个创新模块对实验结果的影响本文在Baseline模型的基础上分别添加原型循环迭代模块和原型细化分割模块,不同组件的消融实验结果见表 2(黑体数据为最优结果)。
|
|
表 2 ABD-MRI上所提创新组件对分割结果影响 Tab. 2 Quantitative segmentation results of different components on ABD-MRI |
+PLIM表示在Baseline的基础上添加原型循环迭代模块,平均DSC值为79.83%。这说明在使用原型生成模块生成初始类原型之后,引入原型循环迭代模块, 通过执行初始原型校正、原型全局感知、原型蒸馏等步骤,进一步纠正了原型和查询集分布偏移,更加精确地生成完整的类原型。加入PLIM模块后,模型的性能提升了2.91个百分点。
+PRSM表示在Baseline的基础上添加原型细化分割模块,DSC平均值为78.86%。这说明PRSM模块通过掩码引导聚合和特征归一细化可以引导模型关注到分割预测掩码的边界区域,加入PRSM模块后,模型的性能提升了1.94个百分点。
2.4.2 原型循环迭代模块数量对实验的影响为了确定原型循环迭代模块的最佳数量,本文对原型循环迭代模块的数量进行了实验,实验结果如图 4所示。当使用4个模块时,DSC的性能最大,提高了2.26个百分点。但是当模块数量大于4之后,过多的参数导致模型在训练集上过拟合,模型性能提升进入了瓶颈;当模块数量过少,也无法发挥出PLIM模块强大的上下文建模能力。因此本文将原型循环迭代模块数量设置为4。
|
图 4 原型循环迭代模块数量对实验的影响 Fig. 4 Influence of the number of iteration modules in prototype loop on the experiment |
图 5给出了核磁共振ABD-MRI真值标签、预测结果以及其他三种先进小样本方法的预测可视化效果,本文算法借助所提模型更好地捕获医学图像边缘区域的细节, 并对边界信息弱的器官边界做出有效分割。图 6则给出ABD-CT预测可视化效果。由于MRI影像设备采集边界信息更强, 前景和背景之间的差异也更明显,所以与ABD-CT数据集相比,模型在ABD-MRI数据集上效果更好。
|
图 5 MRI图像中的四种器官样例的预测掩码 Fig. 5 Prediction masks of four organ samples in MRI images |
|
图 6 CT图像中的四种器官样例的预测掩码 Fig. 6 Prediction masks of four organ samples in CT images |
目前基于深度学习的方法在医学图像分割领域取得了显著进展,但是医学图像数据仍存在样本稀缺和对未见类别的可生成性较差的问题,而小样本医学图像分割则缓解了样本数据有限带来的问题,具有重要的研究意义。本文提出了一种原型优化和细化分割的小样本医学图像分割网络PORSNet,取代了现有采用单一原型的方法。首先,利用维诺图算法对前景区域执行超像素分割,生成一组初始类原型。其次,利用原型循环迭代模块,精确地生成完整的类原型。最后,进一步提出了原型细化分割模块,利用掩码引导聚合和特征归一细化进一步处理边缘细节信息。在两个医学小样本分割数据集上进行对比实验可知,本文所提出的PORSNet网络在分割效果方面表现出了优异的性能,但在分割精度层面仍无法达到大量样本标注分割的水平。在大模型时代,下一步考虑使用更强的通用医学大模型作为预训练特征提取器,将引入医生临床专业领域的先验知识,结合多模态文本内容,输入器官的形态背景等医学专业先验特征,从而增强原型的判别能力。
| [1] |
HAN K, SHENG V S, SONG Y Q, et al. Deep semi-supervised learning for medical image segmentation: a review[J]. Expert systems with applications, 2024, 245: 123052. DOI:10.1016/j.eswa.2023.123052 ( 0) |
| [2] |
郭婧, 王飞. 多尺度特征融合与交叉指导的小样本语义分割[J]. 中国图象图形学报, 2024, 29(5): 1265-1276. GUO J, WANG F. Multiscale feature fusion and cross-guidance for few-shot semantic segmentation[J]. Journal of image and graphics, 2024, 29(5): 1265-1276. ( 0) |
| [3] |
GUHA ROY A, SIDDIQUI S, PÖLSTERL S, et al. 'Squeeze & excite' guided few-shot segmentation of volumetric images[J]. Medical image analysis, 2020, 59: 101587. ( 0) |
| [4] |
WANG K X, LIEW J H, ZOU Y T, et al. PANet: few-shot image semantic segmentation with prototype alignment[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV). Piscataway: IEEE Press, 2019: 9196-9205.
( 0) |
| [5] |
OUYANG C, BIFFI C, CHEN C, et al. Self-supervision with superpixels: training few-shot medical image segmentation without annotation[M]//Lecture Notes in Computer Science. Cham: Springer International Publishing, 2020: 762-780.
( 0) |
| [6] |
HANSEN S, GAUTAM S, JENSSEN R, et al. Anomaly detection-inspired few-shot medical image segmentation through self-supervision with supervoxels[J]. Medical image analysis, 2022, 78: 102385. DOI:10.1016/j.media.2022.102385 ( 0) |
| [7] |
WU H, XIAO F, LIANG C. Dual contrastive learning with anatomical auxiliary supervision for few-shot medical image segmentation[C]//European Conference on Computer Vision. Cham: Springer Press, 2022: 417-434.
( 0) |
| [8] |
贾熹滨, 郭雄, 王珞, 等. 一种迭代边界优化的医学图像小样本分割网络[J]. 自动化学报, 2024, 50(10): 1988-2001. JIA X B, GUO X, WANG L, et al. A few-shot medical image segmentation network with iterative boundary refinement[J]. Acta automatica sinica, 2024, 50(10): 1988-2001. ( 0) |
| [9] |
DING H, SUN C C, TANG H, et al. Few-shot medical image segmentation with cycle-resemblance attention[C]// 2023 IEEE/CVF Winter Conference on Applications of Computer Vision. Piscataway: IEEE Press, 2023: 2487-2496.
( 0) |
| [10] |
SHEN Q Q, LI Y N, JIN J Y, et al. Q-net: query-informed few-shot medical image segmentation[M]. Cham: Springer Press, 2024: 610-628.
( 0) |
| [11] |
魏明军, 魏帅, 刘亚志, 等. 基于跨层级注意力学习的RGB-T显著目标检测[J]. 郑州大学学报(理学版), 2025, 57(3): 42-48. WEI M J, WEI S, LIU Y Z, et al. RGB-T salient object detection based on cross-level attention learning[J]. Journal of Zhengzhou university(natural science edition), 2025, 57(3): 42-48. DOI:10.13705/j.issn.1671-6841.2023163 ( 0) |
| [12] |
LIN S H, XIE H W, WANG B, et al. Knowledge distillation via the target-aware transformer[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2022: 10905-10914.
( 0) |
| [13] |
YU T, GUO Z Y, JIN X, et al. Region normalization for image inpainting[J]. Proceedings of the AAAI conference on artificial intelligence, 2020, 34(7): 12733-12740. DOI:10.1609/aaai.v34i07.6967 ( 0) |
2026, Vol. 58



0)