基于多层级特征融合的多模态医学图像配准

引用本文

常青, 李梦珂, 陆晨豪, 等. 基于多层级特征融合的多模态医学图像配准[J]. 中国科学院大学学报, 2025, 42(5): 645-654.

Chang Q, Li M K, Lu C H, et al. Multimodal medical image registration based on multi-layer feature fusion[J]. Journal of University of Chinese Academy of Sciences, 2025, 42(5): 645-654.

基于多层级特征融合的多模态医学图像配准

常青, 李梦珂, 陆晨豪, 张扬

华东理工大学信息科学与工程学院, 上海 200237

2023年3月10日收稿; 2023年7月11日收修改稿

基金项目: 国家自然科学基金(61976091)资助

通信作者: 常青, E-mail: changqing@ecust.edu.cn

摘要: 多模态医学图像的灰度和纹理结构差别较大，难以提取相对应的特征，导致配准精度较低。针对这一问题，提出基于多层级特征融合的配准模型, 并行提取参考图和浮动图的特征，在多层级结构中使用双输入空间注意力模块实现多模态特征渐进融合，获取其相关性，并将这种相关性映射到图像配准变换中。同时使用基于密集对称尺度不变特征变换的局部特征相似性引导网络进行迭代优化，实现多模态图像的无监督配准。

关键词: 多层级特征融合多模态密集对称尺度不变特征变换无监督配准

Multimodal medical image registration based on multi-layer feature fusion

CHANG Qing, LI Mengke, LU Chenhao, ZHANG Yang

School of Information Science and Engineering, East China University of Science and Technology, Shanghai 200237, China

Abstract: As the initial step of multimodal medical image registration, the accuracy and speed of registration will largely affect the effect of medical image fusion. Due to the large difference in grayscale and texture structure of multimodal medical images, it is difficult to extract correlating features, resulting in low registration accuracy. This paper proposes a multi-layer feature fusion registration network, parallel extraction of features of the fix image and moving image, and the multimodal feature is gradually fused by using the dual-input spatial attention module in the multi-layer structure, obtaining their correlation and mapping such correlation to image registration transformation. At the same time, the structural information loss term guidance network based on dense symmetric scale invariant feature transform is introduced for iterative optimization to achieve accurate unsupervised registration.

Keywords: multi-layer feature fusion multimodal dense symmetric scale invariant feature transform unsupervised registration

多模态医学图像是指由不同成像设备对同一组织拍摄得到的图像，每种模态图像提供不同信息，通过融合不同模态图像的信息，可以为专家的临床诊断提供重要依据^[1-2]。多模态医学图像配准作为医学图像融合的初始步骤，配准的精度和速度在很大程度上会影响医学图像融合的效果。因此实现精准且实时的多模态医学图像配准具有非常重要的临床意义。

然而，将医学图像进行配准是一项具有较高难度的任务，尤其是对于多模态图像的配准^[3]。2个模态的图像在相同结构下可以呈现出完全不一样的灰度和纹理结构，如图 1所示，脑脊液在脑部核磁共振成像(magnetic resonance imaging，MRI)的T1加权图像上表现为黑色，在MRI的T2加权图像上表现为白色。然而从不同外观形态的图像中提取相对应的特征是非常困难的。

	Download: JPG larger image
橘点是特征点，箭头长度和方向代表特征点梯度幅值及方向。图 1 脑部MRI-T1和脑部MRI-T2图像 Fig. 1 Brain MRI-T1 image and brain MRI-T2 image

近几年深度学习发展十分迅速，基于该技术的方法被广泛应用于图像配准，并展现出巨大发展潜力^[4-5]。受传统配准方法启发，Haskins等^[6]提出训练深度相似网络作为迭代配准优化的度量，但是这种方法需要通过迭代进行参数寻优，图像配准速度较慢。后来，Balakrishnan等^[7]利用卷积神经网络(convolutional neural networks，CNN)直接估计图像之间的空间变换，提出一种典型的无监督配准算法VoxelMorph。与此类似，Mok等^[8]提出一种拉普拉斯金字塔网络(Laplacian pyramid image registration network，LapIRN)，采用一种新的金字塔相似性度量，用于捕捉不同层级输入的图像偏移。然而，这些方法都是针对单模态图像配准，其相似性度量不适合多模态图像，导致其在多模态图像配准中的应用受到限制。

基于深度学习的多模态图像配准需要一个有效的配准网络，因为它要提取并匹配2幅图像之间的特征，从而直接估计形变参数。Guo等^[9]提出多阶段配准框架(multi-stage registration，MSReg)，并在每个阶段利用生成的增强数据集改进网络训练。2个模态图像在输入网络前先进行融合，然后输入到ResNetXt^[10]进行深度配准，2幅图像的特征提取复合在一起，可能会导致混合区域的特征失真。还有一些方法^[11]使用2个独立的CNN分别提取图像特征，然后将2个模态图像特征通过通道级联作为后期融合，这些方法将2幅图像的特征提取完全分开，忽略了图像对之间的对应关系。之后，Song等^{[3, 12]}提出适用于多模态的注意力配准AttentionReg，通过注意力机制融合提取的特征，建立2张不同图像对应特征之间的空间对应关系，此方法仅在特征提取后加入注意力机制，不能充分提取不同水平空间2张图像特征之间的相关性。针对多模态图像的刚性配准，Chen等^[13]在不同卷积层加入注意力机制实现特征的渐进融合，取得了良好的配准性能，但该方法尚未扩展到非刚性配准中。从本质上来说，形变参数的估计是利用深度卷积网络表征图像特征的过程，如何从差距大的图像中提取相对应的特征是多模态图像配准的一个难点。

针对上述问题，本文提出一种基于多层级特征融合网络(multi-layer feature fusion registration network，MFFRN)的多模态配准算法，主要内容如下：

1) 提出一种MFFRN框架，通过2个独立的CNN分别提取图像特征，在不同空间维度对2个模态的特征进行融合，实现特征的逐步融合和对应，从而增强网络的特征表征能力。

2) 设计双输入空间注意力模块(dual-input spatial attention model，DSAM)，用于连接2个独立的特征提取网络，学习图像之间的对应关系。DSAM是通过注意力机制计算2个模态特征之间的相关性，从空间层面对2个模态的特征进行校准融合。

3) 引入密集对称尺度不变特征变换(dense symmetric scale invariant feature transform，DS-SIFT)，通过密集方式提取对称尺度不变特征变换的特征，提取到更加丰富的基于图像局部信息的特征，实现从差异大的图像中选取合适的特征并引导网络参数更新。

1 方法 1.1 MFFRN

现有的基于CNN的多模态配准方法，通常有2种方式提取参考图和浮动图的特征，一种是在输入网络前直接将2个图像的通道进行连接作为早期融合^[9]，另一种是使用2个单独的CNN分别提取图像特征以进行后期融合^[11]。但是研究表明，这些方法均忽略了图像之间的空间对应关系，不能完全提取2个模态对应的特征信息^[3]。受Chen等^[13]研究启发，本文设计一种MFFRN框架，如图 2所示，通过DSAM对2个模态的特征进行逐步融合，从而更好地提取并匹配多模态图像之间的特征。

	Download: JPG larger image
图 2 MFFRN网络结构 Fig. 2 Architecture of MFFRN network

网络在提取特征时旨在提取到能克服模态差异的高级特征，由于2个模态图像灰度和纹理结构的差异，本文使用双并行特征提取网络，即参考图和浮动图通过2个独立的CNN分别实现特征的提取，然后将得到的2个分支特征图输入到DSAM中。DSAM融合2个分支的特征信息，通过学习2个模态特征图之间的相关性，输出2个分支重新校准过的空间特征。DSAM的输出作为下一次2个CNN的输入，并且将DSAM的输出进行通道级联用于跳跃连接。在不同层级网络中使用DSAM，可以在逐步提取各自特征的同时发现更多语义对应关系，实现不同空间维度的渐进式特征融合，提高网络的特征表征能力。同时，将融合过后的特征图跳跃连接到相同空间维度的更深层的网络，进一步融合浅层特征和深层特征，也可以在一定程度上缓解神经网络梯度消失的问题。此外，本文提出的配准模型是体素到体素的映射，需要尽可能保留图像特征信息，所以网络中上采样层和下采样层均基于卷积实现。

最新研究表明，CNN在理解特征之间的空间对应关系方面的能力有限^[3]，所以本文在MFFRN中使用注意力机制对不同模态的特征进行融合。网络利用注意力机制学习一组权重参数，以动态加权的方式强调感兴趣区域同时弱化不相关区域。一些方法^[14]通过在CNN中加入注意力模块以提取到最相关的语义上下文信息，但是这些方法的研究仅针对单一图像场景，缺乏对于参考图和浮动图相关性的设计。本文设计一种双输入空间注意力模块DSAM，与单幅图像中注意力机制不同^[15]，DSAM以卷积层从不同模态中提取的特征作为输入，旨在能提取到不同模态下2幅图像特征之间的空间对应关系。DSAM通过空间权重对特征进行校准，计算来自2张不同模态图像特征之间的空间相关性，从空间层面重新校准每种模态的特征。在本文配准框架中，将DSAM嵌入到配准网络不同的下采样层，提取不同空间维度特征之间的空间对应关系，从而实现不同空间维度特征的逐步融合。

DSAM通过连接2个独立CNN提取的特征图，获取不同通道上的空间权重，进而保留2种模态特征相关的区域激活，捕获2个模态之间的相关性。DSAM基本结构如图 3所示，首先分别对2个通道数为C、大小为H×W×D的特征进行最大池化，得到2个通道数为1的特征图，其中对特征进行最大池化，可以有效突出重要特征区域。然后将得到的2个特征图进行通道级联，得到的特征图的通道大小为2，再利用卷积操作得到融合特征图M_fuse，经过卷积操作融合特征图的通道大小降为1。其数学公式如下

$ M_{\text {fuse }}=\operatorname{Conv}_{\text {fuse }}\left(\operatorname{Cat}\left(\operatorname{Max} \operatorname{Pool}\left(F^{\prime}\right), \operatorname{Max} \operatorname{Pool}\left(M^{\prime}\right)\right)\right), $

(1)

	Download: JPG larger image
图 3 DSAM基本结构 Fig. 3 Structure of DSAM

式中：F′和M′是双并行输入DSAM的特征图，MaxPool(·)是最大池化，Cat(·)代表对2个特征图从通道进行级联。Conv_fuse(·)代表融合特征图的卷积运算，该卷积用于降低特征图的通道数。对M_fuse使用2个独立的卷积运算得到2个模态上原始特征图的空间校准权重，公式如下

$ \alpha_1=\operatorname{Conv}_1\left(M_{\text {fuse }}\right), $

(2)

$ \alpha_2=\operatorname{Conv}_2\left(M_{\text {fuse }}\right) \text {, } $

(3)

式中：α₁和α₂分别是2个原始输入特征图的空间校准权重，Conv₁和Conv₂代表卷积运算，其卷积核大小为3。然后利用Sigmoid激活函数对α₁和α₂进行归一化，消除噪声差异。最后将空间校准权重与原始特征相乘对特征进行自适应调整，并将结果与原始特征相加得到融合特征，其数学公式如下

$ F_{\mathrm{DSAM}}^{\prime}=M^{\prime}+\left(M^{\prime} \times \delta\left(\alpha_1\right)\right), $

(4)

$ M_{\mathrm{DSAM}}^{\prime}=M^{\prime}+\left(M^{\prime} \times \delta\left(\alpha_2\right)\right), $

(5)

式中：δ(·)代表Sigmoid激活函数，F′_DSAM和M′_DSAM是DSAM输出的特征图。DSAM融合了2个模态的信息，可以嵌入在不同水平空间的卷积块之间，实现不同水平信息的融合。

1.2 DS-SIFT

DS-SIFT是一种基于局部梯度信息的密集特征描述子，是一种密集的特征表示方法。原始的尺度不变特征转换(scale-invariant feature transform，SIFT)^[16]不能应用于多模态图像的配准中。如图 1中MRI-T1图像和MRI-T2图像所示，2幅图像中相同关键点的梯度方向是相反的，因此SIFT方法在不同模态图像的同一个位置产生了2个完全不同的特征描述符。对称不变特征变换(symmetric scale-invariant feature transform，S-SIFT)^[17]是基于SIFT改进的局部结构特征，其生成的特征描述符对于对比度是对称的，这使得其能在不同模态下提取到相同特征描述符。SIFT和S-SIFT都是在图像上寻找关键点，并在关键点处生成特征描述符，是一种稀疏的特征表示方法，不适合用于度量参考图和形变后的浮动图之间的相似性。DS-SIFT在S-SIFT基础上进行改进，使用密集的方式对图像进行特征提取，不存在关键点检测阶段，直接在每个像素处提取局部特征描述符。

S-SIFT生成特征描述符的过程如图 4(a)~4(g)所示，其中橘色的点是特征点。首先，计算特征点4n×4n邻域内像素点的梯度幅值及梯度方向(本文中n设为4，为方便展示图 4中仅显示n为2的情况)，并将梯度方向限制在0°~180°，如图 4(b)所示。然后将原始图像旋转180°，以同样的计算方式得到特征点4n×4n邻域内像素点的梯度幅值及梯度方向，如图 4(e)所示。其次，将特征点4n×4n邻域划分为n×n个子块，并计算每一个子块在8个方向的梯度直方图，得到原始特征点的方向直方图A(n×n×8)和旋转180°后特征点的方向直方图B(n×n×8)，其结果如图 4(c)和4(f)所示。从图 4(a)~4(g)可以看出，2个方向直方图之间的关系为

$ B(i, j, k)=A(n+1-i, n+1-j, k), $

(6)

	Download: JPG larger image
图 4 DS-SIFT生成特征描述符 Fig. 4 Generating feature descriptors by DS-SIFT

式中：i, j=1, …, n，k=1, 2, …, 8。为更直观地展示2个方向直方图之间的关系，在图 4(c)和4(f)中用不同颜色标出不同子块直方图的序列，颜色相同代表子块的直方图相同。因此，为了提升效率，方向直方图B(n×n×8)不需要通过旋转计算，可以直接从A(n×n×8)得到。最后为实现对称不变性，将2个直方图A(n×n×8)和B(n×n×8)组合在一起，若C(4×4×8)是特征点的对称描述符，计算如下式所示

$ C(i, j, k)=\left\{\begin{array}{l} c_1|A(i, j, k)+B(i, j, k)|, i=1, 2 \\ c_2|A(i, j, k)-B(i, j, k)|, i=3, 4 \end{array}, \right. $

(7)

式中：c₁和c₂是用于调整对称直方图比例的2个参数，本文中均使用1。

使用DS-SIFT提取特征不需要在高斯尺度空间上获取关键点，而是先对图像进行高斯平滑操作，然后通过密集网格获取图像中的特征点及其特征描述符。DS-SIFT提取特征描述符的过程如图 4(h)所示，采样间隔和采样范围可以根据任务预先设置。本文中采样间隔设置为1，在采样范围内自左向右、从上到下提取每个像素在8个方向上的梯度，最后形成4×4×8的128维的特征描述符。这种做法会导致图像边缘提取不到特征，因此在提取特征前先对图像的边缘进行扩充填0扩大采样范围。

1.3 基于MFFRN配准的总体方案设计

在3D空间定义一组图像，即参考图F和浮动图M。图像配准的目的是找到参考图和浮动图之间的最佳空间变换参数ϕ，使配准图M(ϕ)与参考图在空间结构上对齐。本文使用MFFRN建模图像之间复杂的非线性映射函数，直接估计参考图和浮动图之间的形变场，即

$ \phi=g_\theta(F, M), $

(8)

式中：g是映射函数，用于获取参考图和浮动图之间像素级别映射关系，从而输出与参考图尺寸一致的3通道形变场，θ是映射函数g的网络参数。通过最大化图像F和M(ϕ)之间的相似性寻找最优网络参数θ，进而得到最优形变场，配准过程可以表示为

$ \hat{\theta}=\underset{\theta}{\operatorname{argmax}} S(F, M(\phi))+R(\phi), $

(9)

式中：S(·)表示图像对之间的结构信息损失，R(ϕ)是保持形变场平滑的正则项，M(ϕ)是使用空间变换网络(spatial transformer network，STN)^[18]对M进行非线性变换得到的。

MFFRN整体配准框架如图 5所示，在训练过程中每次随机选择一对参考图F和浮动图M，并将其并行输入到MFFRN中。然后利用MFFRN提取并匹配输入图像的特征，从而直接估计形变场ϕ。最后空间变换网络根据形变场对浮动图进行双线性插值得到配准图。

	Download: JPG larger image
图 5 MFFRN配准框架 Fig. 5 Frame of MFFRN

为实现多模态图像的无监督配准，网络的损失项需要考虑模态差异性，才能度量不同模态图像的相似性。DS-SIFT在不同模态下能提取到相同特征，因此MFFRN配准框架使用DS-SIFT特征构建结构信息损失项，即在训练过程中分别提取F和M(ϕ)的DS-SIFT特征，将其向量化，使网络能反向传播梯度信息，引导网络参数优化。为构建结构信息损失，使用均方误差(mean squared error，MSE)计算F和M(ϕ)之间的DS-SIFT特征，可用如下公式表达

$ \begin{gathered} L_{\mathrm{DSSIFT}}=\frac{1}{N} \sum\limits_{i=1}^N(\operatorname{DSSIFT}(F(i))- \\ \operatorname{DSSIFT}(M(\phi)(i)))^2, \end{gathered} $

(10)

DS-SIFT提取特征的方法是基于二维图像实现，因此在具体实现过程中是组合某一空间维度的二维图像特征以此构造三维图像特征。最小化图像之间的相似性损失，参考图和配准后图像差异会变小，但可能会产生不连续的形变场，导致配准结果产生过度形变，因此需在损失函数中加入空间梯度平滑形变场，如下式所示

$ R(\phi)=\sum\limits_{p \in \Omega}\|\nabla \phi(p)\|^2, $

(11)

式中：▽ϕ(p)是对形变场在位置p处求梯度。因此，模型最终的损失函数如下所示

$ L=L_{\mathrm{DSSIFT}}+\lambda R(\phi), $

(12)

式中：λ是正则项参数。

2 实验结果与分析 2.1 数据集及预处理

本文中脑部图像配准均基于脑模板，即将不同大脑图像配准到一个标准大脑模板上，使用的脑模板图像来自公共数据集MNI152^[19]。为验证本文提出方法的配准性能，使用公开数据集ISBI Challenge^[20]中MRI-T1作为配准的浮动图，该数据集包含242位患者的MRI扫描图像，图像原始大小为512×512×120，分辨率为0.410 2 mm×0.410 2 mm×1.5 mm。从242幅图像中剔除异常数据，并将剩余的232幅图像随机划分为训练集和测试集，其中训练集包含208幅图像，测试集包含24幅图像。

在训练前，对大脑数据集进行一系列标准化处理。首先使用FSL软件^[21]中bet算法对大脑颅骨进行剥离操作，然后使用仿射变换将浮动图线性配准到模板图像上，使浮动图和模板图在空间上初步对齐。直接使用原始3D图像进行训练时间较长，对显卡要求也较高，所以对图像进行重采样，重采样后图像的分辨率为1.5 mm×1.5 mm×1.5 mm。其次为减少灰度值异常点对配准结果的影响，将重采样后的图像进行灰度归一化，归一化后图像灰度范围为0~1。最后为减少空白区域带来的计算冗余，再将图像大小裁剪到128×128×160。

2.2 实验设计

本文中对比实验SyN和FSL软件基于Ubuntu系统实现，除此之外，其他实验均基于Windows10操作系统, 使用基于Pytorch的深度学习开源框架实现。在训练过程中所有进行参数更新的优化器均使用Adam，同时利用GTX2070Ti进行GPU加速。设置网络训练的总次数(Epoch)为300，每次迭代次数设置为训练集图像对个数，学习率设为1×10^-4。此外，为了适配GPU内存，训练批次batch size设置为1。

对配准结果解剖结构区域和参考图解剖结构区域的重叠部分进行测量，可以得到Dice分数，其定义如下所示

$ \text { Dice }=\frac{2|A \cap B|}{|A+B|}, $

(13)

式中：A和B分别是参考图和配准结果对应的某一解剖结构区域。Dice分数表示2个图像对应区域之间的重叠程度，取值范围在0~1，Dice值越高，表明配准结果解剖结构区域和参考图解剖结构区域的重叠度越高，即图像配准效果越好。利用FSL软件自动分割出脑脊液(cerebrospinal fluid，CSF)、白质(white matter，WM)和灰质(grey matter，GM)，然后通过分割出的解剖区域对脑部配准结果进行评估。

2.3 结果与分析

在多模态脑部数据集进行实验，并与一系列先进的配准算法进行对比，验证所提出方法MFFRN的优异性。同时，在单模态脑部数据集上进行实验，证明所提出方法MFFRN具有一定通用性。

2.3.1 多模态结果分析

在多模态脑部数据集上进行实验，选择MNI152中MRI-T2加权脑模板图像作为配准的参考图，ISBI Challenge的MRI-T1加权图像作为配准的浮动图。首先使用SimpleITK^[22]将浮动图仿射配准到MRI-T2加权的脑模板上，并将仿射配准方法作为第一个对比方法。然后与SyN^[23]、VoxelMorph^[7]和AttentionReg^[3]进行对比，其中SyN使用ANTs工具包^[24]实现，参数均使用默认参数。VoxelMorph是针对单模态图像配准，因此与VoxelMorph对比时仅保留网络框架，目标函数与本文一致。此外，本文只关注图像的非刚性配准，因此VoxelMorph、AttentionReg和本文方法MFFRN均使用仿射配准结果作为网络的输入。

表 1给出5种方法在多模态脑部测试集上不同区域的平均Dice及分别利用GPU和CPU时的配准时间对比。可以看出，与其他几种方法相比，本文方法在脑部测试集上得到了最优Dice分数。对于CSF解剖区域, 与其他4种方法相比，本文所提方法的Dice分数分别提升40.72 %、8 %、2.61 % 和3.35 %。对于GM解剖区域，与其他4种方法相比，本文所提方法的Dice分数分别提升17.99 %、5.17 %、2.87 % 和2.87 %。对于GM解剖区域，与其他4种方法相比，本文所提方法的Dice分数分别提升14.46 %、5.49 %、2.75 % 和3.06 %。从配准时间看，MFFRN使用GPU的平均配准时间是0.327 s，其配准速度是传统配准方法的100多倍。MFFRN因为在多层网络中加入了DSAM，需要更多时间计算，配准速度会比VoxelMorph和AttentionReg略慢。但MFFRN所需时间与其他2种深度学习方法差距不大，仍可以达到临床中实时配准的要求。

表 1 不同方法在多模态脑部数据集上的量化结果 Table 1 Quantitative results of different methods on multi-modal brain dataset

为更直观地展示本文方法在多模态图像上的配准效果，对不同方法结果进行可视化分析，相关结果可见图 6。图 6中共有3行测试结果图像，从上到下分别为横断面图像、矢状面图像和冠状面图像。其中图 6(a)和6(b)分别表示参考图和进行过affine预配准的结果图，因为浮动图和原始参考图的图像大小不一致，脑部片层是无法对应的，因此在这里使用预配准的图像作为浮动图，图 6(c)~6(f)是4种方法的配准结果。图 6中使用蓝色椭圆形圈起来的区域是本文方法配准结果明显有改善的地方，可以看出本文方法取得最好的可视化结果。VoxelMorph和本文方法都取得不错的配准效果，但使用本文方法得到的配准结果在局部纹理结构上与参考图更相似，说明多层级特征融合网络能学习到2个模态特征的相关性，提高特征表达能力。AttentionReg与SyN和VoxelMorph相比，配准效果有改善，但在部分纹理细节上仍不如本文方法。

	Download: JPG larger image
图 6 不同方法在多模态脑部数据集上的可视化结果 Fig. 6 Visualization results of different methods on multi-modal brain dataset

2.3.2 单模态结果分析

在单模态脑部数据集上进行实验，选择MNI152中MRI-T1加权脑模板图像作为配准的参考图，ISBI Challenge的MRI-T1加权图像作为配准的浮动图，首先使用SimpleITK^[22]将浮动图仿射配准到MRI-T1加权的脑模板上，并将仿射配准方法作为第一个对比方法。然后与SyN^[23]、VoxelMorph^[7]和LapIRN^[8]进行对比，证明本文所提方法在单模态数据上同样具有一定优越性，其中SyN使用ANTs工具包实现。本文只关注图像的非刚性配准，因此上述所有方法均使用仿射预配准结果作为网络的输入。

表 2中给出5种方法在单模态脑部测试集上不同区域的平均Dice及分别使用GPU和CPU时的配准时间对比。由于配准前参考图和浮动图仅经过仿射预配准，因此在脑区上的平均Dice较低。SyN、VoxelMorph和LapIRN相较于Affine，配准性能都有明显提升，但SyN和LapIRN在CSF解剖区域的Dice分数较低，而MFFRN方法在CSF解剖区域的Dice分数有明显提升。对于GM和WM解剖区域，MFFRN方法同样取得了最好的Dice分数。可以看出与其他配准方法相比，MFFRN在脑部CSF、GM和WM区域均取得最优Dice分数。从配准时间看，MFFRN平均配准时间为0.327 s，明显优于传统配准方法。LapIRN方法通过拉普拉斯金字塔网络实现由粗到细的配准，因此配准所需的时间最长。与VoxelMorph相比，MFFRN在多层网络中使用DSAM融合特征，增加了网络的参数，因此需要更多计算时间，但是仅比VoxelMorph慢0.1 s，仍可以达到临床中实时配准的要求。

表 2 不同方法在单模态脑部测试集上的量化结果 Table 2 Quantitative results of different methods on single-modal brain dataset

为进一步直观展示MFFRN在单模态图像上的配准效果，随机选择3组测试结果进行可视化分析，如图 7所示。图中用蓝色椭圆标出的位置，是本文配准方法有明显改善的区域。从图中可以看出，与其他方法相比，本文提出的方法不仅在整体结构上取得良好的配准效果，在纹理信息较复杂的局部结构上配准效果也有明显提升。图 8是不同方法在测试集上的差异图，包含横断面、矢状面和冠状面3个方向。将灰度差异图映射到红蓝白，其中红色和蓝色部分代表该区域灰度差异较大，白色区域表示该区域灰度差异较小，图中白色区域越多代表参考图和配准结果越相似。观察图 8可以看出，与其他方法相比，本文提出的方法可以显著地减小参考图和配准后的图像之间的差异。

	Download: JPG larger image
图 7 不同方法在单模态脑部数据集上的可视化结果 Fig. 7 Visualization results of different methods on single-modal brain dataset

	Download: JPG larger image
图 8 不同方法在单模态测试集上的强度差异图 Fig. 8 Intensity difference of different methods on single-modal test dataset

2.4 结论

本文提出一种基于MFFRN的多模态医学图像配准框架，可以有效地提取参考图和浮动图之间对应的特征，并将这种对应关系映射到图像配准变换中。通过在多层网络中嵌入双输入空间注意力模块DSAM，以渐进的方式对图像特征进行融合，提高网络特征表达能力。此外，引入DS-SIFT作为结构化信息监督引导网络参数优化，实现精准的无监督医学图像配准。在多模态脑部数据集上进行的实验结果表明，本文提出的方法能精确配准MRI-T1和MRI-T2图像，配准性能显著优于典型的传统方法和先进的深度学习方法。同时，在单模态脑部数据集上进行实验，本文方法也有效地提升了单模态医学图像的配准精度，说明该方法具有一定通用性。但本文工作也存在一定不足，在配准之前需要借助其他工具进行仿射配准。在后续工作中，我们将致力于研究端到端的医学图像配准。

参考文献

[1]	Dey N, Schlemper J, Salehi S S M, et al. ContraReg: contrastive learning of multi-modality unsupervised deformable image registration[C]//2022 International Conference on Medical Image Computing and Computer Assisted Intervention. September 18-22, 2022, Singapore. Springer, 2022: 66-77. DOI: 10.1007/978-3-031-16446-0_7.
[2]	Hu J, Luo Z W, Wang X, et al. End-to-end multimodal image registration via reinforcement learning[J]. Medical Image Analysis, 2021, 68: 101878. Doi:10.1016/j.media.2020.101878
[3]	Song X R, Chao H Q, Xu X A, et al. Cross-modal attention for multi-modal image registration[J]. Medical Image Analysis, 2022, 82: 102612. Doi:10.1016/j.media.2022.102612
[4]	Chen X, Diaz-Pinto A, Ravikumar N, et al. Deep learning in medical image registration[J]. Progress in Biomedical Engineering, 2021, 3(1): 012003. Doi:10.1088/2516-1091/abd37c
[5]	Haskins G, Kruger U, Yan P K. Deep learning in medical image registration: a survey[J]. Machine Vision and Applications, 2020, 31(1): 1-18. Doi:10.1007/s00138-020-01060-x
[6]	Haskins G, Kruecker J, Kruger U, et al. Learning deep similarity metric for 3D MR-TRUS image registration[J]. International Journal of Computer Assisted Radiology and Surgery, 2019, 14(3): 417-425. Doi:10.1007/s11548-018-1875-7
[7]	Balakrishnan G, Zhao A, Sabuncu M R, et al. VoxelMorph: a learning framework for deformable medical image registration[J]. IEEE Transactions on Medical Imaging, 2019, 1788-1800. Doi:10.1109/TMI.2019.2897538
[8]	Mok T C W, Chung A C S. Large deformation diffeomorphic image registration with laplacian pyramid networks[C]//2020 International Conference on Medical Image Computing and Computer Assisted Intervention. October 4-8, 2020, Lima, Peru. Springer, 2020: 211-221. DOI: 10.1007/978-3-030-59716-0_21.
[9]	Guo H T, Kruger M, Xu S, et al. Deep adaptive registration of multi-modal prostate images[J]. Computerized Medical Imaging and Graphics, 2020, 84: 101769. Doi:10.1016/j.compmedimag.2020.101769
[10]	Xie S N, Girshick R, Dollár P, et al. Aggregated residual transformations for deep neural networks[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). July 21-26, 2017, Honolulu, HI, USA. IEEE, 2017: 5987-5995. DOI: 10.1109/CVPR.2017.634.
[11]	Sun Y Y, Moelker A, Niessen W J, et al. Towards robust CT-ultrasound registration using deep learning methods[C]//International Workshop on Machine Learning in Clinical Neuroimaging, International Workshop on Deep Learning Fails, International Workshop on Interpretability of Machine Intelligence in Medical Image Computing. Cham: Springer, 2018: 43-51. DOI: 10.1007/978-3-030-02628-8_5.
[12]	Song X, Guo H, Xu X, et al. Cross-modal attention for MRI and ultrasound volume registration[C]//2021 International Conference on Medical Image Computing and Computer Assisted Intervention. September 27-October 1, 2021, Strasbourg, France. Springer, 2021: 66-75. DOI: 10.1007/978-3-030-87202-1_7.
[13]	Chen X C, Zhou B, Xie H D, et al. Dual-branch squeeze-fusion-excitation module for cross-modality registration of cardiac SPECT and CT[C]//2022 International Conference on Medical Image Computing and Computer Assisted Intervention. September 18-22, 2022, Singapore. Springer, 2022: 46-55. DOI: 10.1007/978-3-031-16446-0_5.
[14]	Oktay O, Schlemper J, Le Folgoc L, et al. Attention U-net: learning where to look for the pancreas[EB/OL]. 2018. arXiv: 1804.03999. (2018-04-11)[2023-06-21]. https://arxiv.org/abs/1804.03999.
[15]	Zheng S X, Lu J C, Zhao H S, et al. Rethinking semantic segmentation from a sequence-to-sequence perspective with transformers[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). June 20-25, 2021, Nashville, TN, USA. IEEE, 2021: 6877-6886. DOI: 10.1109/CVPR46437.2021.00681.
[16]	Lowe D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91-110. Doi:10.1023/B:VISI.0000029664.99615.94
[17]	Chen J, Tian J. Real-time multi-modal rigid registration based on a novel symmetric-SIFT descriptor[J]. Progress in Natural Science, 2009, 19(5): 643-651. Doi:10.1016/j.pnsc.2008.06.029
[18]	Jaderberg M, Simonyan K, Zisserman A, et al. Spatial transformer networks[EB/OL]. 2015.arXiv: 1506. 02025.(2015-06-05)[2023-06-21]. https://arxiv.org/abs/1506.02025.
[19]	Fonov V, Evans A C, Botteron K, et al. Unbiased average age-appropriate atlases for pediatric studies[J]. Neuroimage, 2011, 54(1): 313-327. Doi:10.1016/j.neuroimage.2010.07.033
[20]	Shapey J, Kujawa A, Dorent R, et al. Segmentation of vestibular schwannoma from MRI, an open annotated dataset and baseline algorithm[J]. Scientific Data, 2021, 8(1): 286. Doi:10.1038/s41597-021-01064-w
[21]	Smith S, Bannister P R, Beckmann C, et al. FSL: new tools for functional and structural brain image analysis[J]. NeuroImage, 2001, 13(6): 249. Doi:10.1016/S1053-8119(01)91592-7
[22]	Beare R, Lowekamp B, Yaniv Z. Image segmentation, registration and characterization in R with SimpleITK[J]. Journal of Statistical Software, 2018, 86. Doi:10.18637/jss.v086.i08
[23]	Avants B B, Epstein C L, Grossman M, et al. Symmetric diffeomorphic image registration with cross-correlation: evaluating automated labeling of elderly and neurodegenerative brain[J]. Medical Image Analysis, 2008, 12(1): 26-41. Doi:10.1016/j.media.2007.06.004
[24]	Avants B B, Tustison N, Song G. Advanced normalization tools (ANTS)[J]. Insight J, 2009, 1-35. Doi:10.54294/uvnhin


中国科学院大学学报 2025, Vol. 42 Issue (5): 645-654	PDF