结合超像素分割与引导滤波的图像密集匹配算法

引用本文

张政, 章文毅, 许殊. 结合超像素分割与引导滤波的图像密集匹配算法[J]. 中国科学院大学学报, 2025, 42(6): 814-822.

Zhang Z, Zhang W Y, Xu S. Image dense matching algorithm combining superpixel segmentation and guided filtering[J]. Journal of University of Chinese Academy of Sciences, 2025, 42(6): 814-822.

结合超像素分割与引导滤波的图像密集匹配算法

张政^1,2, 章文毅², 许殊²

1. 中国科学院大学, 北京 100049;
2. 中国科学院空天信息创新研究院, 北京 100094

2023年4月21日收稿; 2023年10月9日收修改稿

基金项目: 中国科学院空间科学战略性先导科技专项(XDA15040300)资助

通信作者: 章文毅, E-mail: wyzhang@rsgs.ac.cn

摘要: 针对现有局部立体匹配方法在视差不连续区域匹配精度较低的问题，提出一种结合超像素分割与引导滤波的密集匹配方法。首先，利用特征匹配方法确定视差范围，并将零均值归一化互相关系数与图像灰度及梯度信息相结合构建代价计算函数；其次，利用超像素分割后的标签图约束引导滤波窗口形状自适应变化，进行代价聚合；最后，将聚合代价作为数据项构建全局能量函数，用图割算法求解视差图，并对视差图作多步视差优化。实验结果表明，该方法在Middlebury网站提供的标准测试图像集上平均误匹配率为4.8%，明显优于传统的引导滤波密集匹配方法与半全局匹配方法等。

关键词: 机器视觉密集匹配超像素分割引导滤波图割算法

Image dense matching algorithm combining superpixel segmentation and guided filtering

ZHANG Zheng^1,2, ZHANG Wenyi², XU Shu²

1. University of Chinese Academy of Sciences, Beijing 100049, China;
2. Aerospace Information Research Institute, Chinese Academy of Sciences, Beijing 100094, China

Abstract: In order to solve the problem that the existing local stereo matching method has low matching accuracy in the discontinuous region of parallax, a dense matching method combining superpixel segmentation and guided filtering is proposed in this paper. Firstly, a feature matching method is used to determine the disparity range, and the zero-mean normalized cross correlation is combined with gray-level and gradient information to construct the cost function. Secondly, the label map after superpixel segmentation is used to constrain the adaptive changes of the guided filtering window shape, and the cost is aggregated. Finally, the aggregation cost is used as the data item to construct the global energy function, and the disparity map is solved by graph cut algorithm, and multi-step disparity optimization is performed on the disparity map. Experimental results show that the average mismatching rate of the proposed method is 4.8% on the standard test image set provided by Middlebury website, which is significantly better than the traditional guided filtering dense matching method and semi-global matching method.

Keywords: machine vision dense matching superpixel segmentation guided filtering graph cut algorithm

作为摄影测量与计算机视觉领域的关键技术，密集匹配旨在确定同一场景在不同视角影像中同名像点的对应关系，通过逐像素匹配获取视差图，进而实现场景三维重建。多年来，国内外学者针对密集匹配问题进行了大量研究，并已取得实质性的进展^[1]。密集匹配方法主要由以下4个步骤组成^[2]：1)代价计算；2)代价聚合；3)视差计算/优化；4)视差细化。一般而言，局部匹配算法^[3-5]逐步执行这4个步骤，通过构造窗口利用邻域信息优化中心点匹配代价，然后选取匹配代价最小的点作为同名点。而全局方法一般做出明显的平滑假设并为匹配过程构建能量函数，将视差计算视为多标签分配问题，寻求令能量函数最小化的视差分配结果^[1]。这类方法的主要区别在于其使用的最优化算法，如模拟退火^[6]、最小生成树^[7]或图割算法^[8-10]。

代价计算的关键在于寻找一种稳健的相似性测度作为代价函数。文献[11]将匹配代价分为以下3类并对已有的各种代价函数作出评估：1)基于像素的匹配代价；2)基于窗口的匹配代价；3)非参数匹配代价。其中基于像素的匹配代价主要有灰度绝对差、灰度平方差及采样不敏感绝对差^[12]等；基于窗口的匹配代价包括灰度绝对差/平方差及归一化互相关系数等；非参数成本包括Census及Rank等。文献[13]将梯度信息与Census变换结合构建新的代价函数；文献[14]将增强后的梯度信息与基于增强梯度的Census变换结合进行代价计算。这些做法都提高了算法在弱纹理或重复纹理区域的匹配精度。

代价聚合通过对原始代价矩阵中支持窗口内的匹配代价作加权平均来消除噪声影响，从而提高匹配精度。该步骤的关键在于选取合适的支持窗口并构建可靠的权重函数。在窗口选择方面主要有可移动窗口^[2]、形状自适应窗口^[15]等。在窗口权重方面，文献[16]针对双边滤波计算复杂度较高的问题，提出将引导滤波用于代价聚合，在保证精度的同时实现实时匹配。

近年来，深度学习方法表明密集匹配的4个步骤可以由一个卷积神经网络(convolutional neural networks，CNN)来完成，从而由立体影像直接得到视差图。文献[17]提出一种端到端的监督学习方法，利用3D卷积从构建好的代价体中学习得到视差图；文献[18]提出利用2D卷积层替代广泛使用的3D卷积层进而减少网络复杂度；文献[19]引入了空间金字塔池化操作，充分利用图片中的几何与上下文信息。总的来说，大量的深度学习密集匹配方法已在近景数据集中进行了广泛验证，其缺点主要在于对数据量需求较大、计算复杂度较高等。

针对固定窗口在代价聚合步骤中引入噪声的问题，本文提出一种结合超像素分割与引导滤波的密集匹配方法。在代价计算阶段，利用特征匹配方法确定视差范围，并将零均值归一化互相关系数(zero-mean normalized cross-correlation coefficient, ZNCC)与图像灰度及梯度信息相结合构建代价计算函数；在代价聚合阶段，利用超像素分割后的标签图约束引导滤波窗口形状自适应变化，进行代价聚合；在视差求解阶段，将聚合代价作为数据项构建全局能量函数，用图割算法求解视差图，并对错误匹配进行视差优化。

1 提出算法 1.1 基本流程

本文算法将极线校正后得到的立体影像对作为输入，对立体影像对依次执行视差范围约束、代价计算、代价聚合、视差计算及视差后处理等步骤得到视差图，算法具体流程如图 1所示。具体说明如下：

	Download: JPG larger image
图 1 算法流程 Fig. 1 Flowchart of the algorithm

1) 输入图像应为一对核线立体影像；

2) 为解决视差范围估计的问题，本文采用辐射变化不敏感特征变换(radiation-variation insensitive feature transform, RIFT)算法^[20]提取大量可靠的匹配点对，并利用筛选后的大量点对的横坐标差值估计视差范围；

3) 在代价计算时采用ZNCC与灰度-梯度差加权求和构建代价函数，对立体像对逐像素逐视差计算匹配代价，得到视差空间影像(disparity space image, DSI)；

4) 代价聚合时首先对原始影像作SLIC(simple linear iterative cluster)^[21]超像素分割构建自适应窗口，并基于该任意形状的窗口在视差空间中对代价影像作引导滤波；

5) 视差计算过程中将聚合后代价作为数据项为匹配过程构建能量函数，并利用图割算法求解满足全局最优的初始视差图；

6) 对初始视差图作左右一致性检验，利用超像素分割结果构建支持区域对无效像素作填充，并对填充后视差图作指数阶跃(exponential step，ES)滤波^[3]和中值滤波等后处理，得到最终视差图。

1.2 视差范围估计

相较于传统的特征匹配方法(如尺度不变特征变换等)，RIFT算法被证明能够有效应对非线性辐射畸变，在各类图像数据集上都能取得良好的匹配效果，因而在本文中用以得到大量可靠的特征匹配点。在得到初始匹配结果后，依照以下立体匹配的约束条件对错误匹配点进行剔除：

1) 极线约束：经极线校正后的立体像对，匹配点对处于同一水平线上，具有相同的纵坐标；

2) 视差范围约束：对沿极线方向的匹配点搜索范围应当给予最大值约束，以剔除粗差。

对明德学院(Middlebury)网站提供的4组标准测试图像作视差范围估计，结果如表 1所示，其中有效视差像素占比表示估计范围内像素数量与最大范围内像素数量的百分比。可以看出，依据特征匹配方法在有效缩小视差搜索范围的同时也能较好地保持视差范围的可靠性，从而提高匹配效率。

表 1 视差范围 Table 1 Disparity range

1.3 代价计算

代价计算在校正后的立体像对上进行，通过某种相似性测度沿水平线在视差搜索范围内计算左右影像对应点的相似性程度。作为摄影测量领域常用的相似性度量，ZNCC本质上是对窗口灰度矢量线性相关的最小二乘拟合^[22]，能有效应对灰度线性畸变，因而对噪声具有较强的稳健性。其计算公式如下

$ \begin{aligned} & C_{\mathrm{ZNCC}}(p, d)= \\ & \frac{\sum\nolimits_{q \in W_{\text {in }}}\left[I_{\mathrm{L}}(q)-\bar{I}_{\mathrm{L}}(p)\right] \times\left[I_{\mathrm{R}}(q+d)-\bar{I}_{\mathrm{R}}(p+d)\right]}{\sqrt{\sum\nolimits_{q \in W_{\text {in }}}\left[I_{\mathrm{L}}(q)-\bar{I}_{\mathrm{L}}(p)\right]^2} \times \sqrt{\sum\nolimits_{q \in W_{\text {in }}}\left[I_{\mathrm{R}}(q+d)-\bar{I}_{\mathrm{R}}(p+d)\right]^2}} \end{aligned} . $

(1)

式中：C_ZNCC表示ZNCC计算得到的匹配代价；W_in为匹配窗口；p为窗口中心像素，q为中心像素在窗口内的所有相邻像素，d为视差值；I_L与I_R分别表示左右影像。

同时，传统基于引导滤波器的密集匹配方法使用灰度-梯度算法计算匹配代价。该算法对灰度变化敏感，因而在物体边缘处能取得较好的效果，其计算公式如下

$ \begin{gathered} C_{\text {gray-gradient }}(p, d)=c_1 \min \left(\left\|I_{\mathrm{L}}(p)-I_{\mathrm{R}}(p+d)\right\|, n_1\right)+ \\ c_2 \min \left(\left\|\nabla I_{\mathrm{L}}(p)-\nabla I_{\mathrm{R}}(p+d)\right\|, n_2\right) . \end{gathered} $

(2)

式中：C_{gray-gradident}为灰度-梯度算法得到的匹配代价；c₁与c₂为对灰度差与梯度差分配的常值权重；Δ I_L与Δ I_R为图像结合水平与垂直方向梯度值得到的梯度图像；n₁与n₂则分别为灰度差与梯度差的截断值，用以去除噪声。

为结合ZNCC与灰度-梯度算法的优点，综合考虑图像亮度与梯度信息对匹配的影响，本文给出以下代价计算函数

$ C(p, d)=k_1\left[1-C_{\text {ZNCC }}(p, d)\right]+k_2 C_{\text {gray-gradient }}(p, d) . $

(3)

式中：k₁与k₂分别为分配的ZNCC与灰度-梯度算法的常值权重。

具体来说，组合式代价函数的实现方法如下：首先，在逐像素计算过程中，利用式(1)计算得到左右影像对应像点的ZNCC值；其次，将对应像点与邻近像点的灰度差与梯度差相结合，利用式(2)计算得到灰度-梯度代价值；最后，将2种不同的匹配代价值按比例相加，利用式(3)即可得到最终的组合式代价值。

1.4 代价聚合 1.4.1 超像素分割

本文采用SLIC算法对图像进行超像素分割，分割后的结果用于约束引导滤波窗口自适应变化与视差后处理。SLIC算法将像素颜色(l, a, b)与坐标(x, y)结合在CIE-Lab空间中为每个像素构建一个5维向量[l, a, b, x, y]，并依据向量的欧氏距离度量像素的相似程度。随后在图像上生成T个种子点，并依据一定的聚类法则得到T个超像素。最后对聚类中心进行更新并反复迭代聚类直到满足收敛条件。

1.4.2 自适应引导滤波

传统引导滤波的局部窗口为固定大小的正方形窗口，并基于滤波器输入的引导图像与输出结果在局部范围内满足线性关系的假设。而在代价聚合过程中，固定窗口在视差不连续区域无法有效剔除粗差，难以满足局部匹配在支持窗口内像素视差平滑的假设^[2]。因此本文基于像素颜色变化与视差变化的一致性假设，提出利用图像超像素约束支持窗口形状自适应变化的想法，新构建的支持窗口避免了属于不同颜色标签的像素在聚合过程中的互相影响，从而提高了代价聚合的可靠性。

改进后的引导滤波基于自适应支持窗口，在代价聚合时将原始影像I视为引导图像，DSI在不同视差级别上的切片即代价影像P为待处理图像，Q为滤波后的代价影像，则根据引导滤波线性模型得到改进后引导滤波在局部窗口的线性变换系数a_k与b_k如下

$ a_k=\frac{\frac{1}{\left|n_k\right|} \sum\nolimits_{i \in n_k} I_i P_i-\mu_k \bar{P}_k}{\sigma_k^2+\varepsilon} . $

(4)

$ b_k=\bar{P}_k-a_k \mu_k . $

(5)

式中：i与k表示不同像素；n_k代表像素k的自适应窗口，|n_k|为窗口的像素总数；μ_k与σ_k²分别代表I在窗口n_k中的均值与方差，ε为正则化参数。进而能够得到滤波后的结果如下

$ Q_i=\frac{1}{\left|n_i\right|} \sum\limits_{k \in n_i}\left(a_k I_i+b_k\right) . $

(6)

式中：Q_i表示滤波后影像在i像素处的对应值。

1.5 视差计算

在视差计算阶段，本文并未采用局部方法或半全局方法常用的胜者为王策略(winner-takes-all，WTA)简单为每个视差选取最小匹配代价对应的视差值作为其初始视差，而是将聚合后得到的匹配代价C′(p, d)作为数据项为匹配过程构建全局能量函数，并选取图割算法作为最优化方法令能量函数最小化得到视差图。全局能量函数形式如下

$ E_p(d)=\sum\limits_{(p, q) \in N} V_{(p, q)} \cdot T\left(d_p \neq d_q\right)+\sum\limits_{p \in P} C^{\prime}(p, d) . $

(7)

式中：d代表视差；p，q代表不同像素；N代表像素间连接边的集合；P则表示像素集合；C′为数据项，表示各像素在不同视差级别下的聚合代价值；V为平滑项权重，用以约束视差平滑变化；T为判断条件，当条件为真时输出1，否则为0。

不难看出，要得到可靠的匹配结果，关键在于为能量函数平滑项构建合理的权重函数。本文依旧基于视差变化与灰度变化保持一致性的假设，认为视差在全局呈现平滑变化的整体趋势，而在物体边缘表现出局部突变的特征。构建平滑项如下

$ V_{(p, q)}=\exp \left(\frac{-|I(p)-I(q)|^2}{2 \sigma_I^2}\right) . $

(8)

式中：σ_I为权重调节参数; I代表输入影像; p，q代表不同像素。令权重与灰度差成反比能保证在灰度平滑变化的区域对视差突变加以约束，以满足前面的假设。

最后，利用图割算法最小化式(7)给出的能量函数, 得到初始视差图如下

$ d_p=\operatorname{argmin}_{d \in D}\left[E_p(d)\right] . $

(9)

式中：d代表当前视差，d_p表示最优视差，D表示所有可能的视差集合。

1.6 视差优化

经过上述策略得到的初始视差图仍然存在一定数量的错误匹配点，这种情况在视差不连续区域与遮挡区域尤为常见，因而需要对初始视差图进行后处理。参考文献[3]的做法，对初始视差图作左右一致性检验、视差填充与视差图滤波等处理以提高匹配精度。

1.6.1 左右一致性检验

依据同名像素左右视差相同的原理，给出左右一致性检验准则如下

$ \left|d_{\mathrm{L}}(p)-d_{\mathrm{R}}\left[p-d_{\mathrm{L}}(p)\right]\right|＜1 . $

(10)

式中：d_L(p)为像素p在左视差图中视差值；d_R[p-d_L(p)]为像素p在右视差图上的匹配像素q的视差值。该准则认为左右视差之差大于1则为错误匹配，将其当前视差视为无效值，并采用后续策略对无效值进行填充。

1.6.2 视差填充

对于无效视差，采用超像素分割与四方向传播相结合的方式进行填充。首先，利用SLIC算法为所有无效视差构建支持域，即只利用同一类别的像素视差填充无效值，并要求支持域内有效像素占比大于60 % 以保证支持域的可靠性；其次，在支持域内从上下左右4个方向搜索最近的有效视差，得到填充策略如下

$ \begin{aligned} & d(p)= \\ & \left\{\begin{array}{l} \operatorname{mean}\left[\min \left(d_1, d_{\mathrm{r}}\right), \min \left(d_{\mathrm{u}}, d_{\mathrm{d}}\right)\right], \text { if } \sim \text { isnan }(\text { all }), \\ \min \left(d_1, d_{\mathrm{r}}\right), \text { elseif } \sim \text { isnan }\left[d_1, d_{\mathrm{r}}\right], \\ \min \left(d_{\mathrm{u}}, d_{\mathrm{d}}\right), \text { elseif } \sim \text { isnan }\left[d_{\mathrm{u}}, d_{\mathrm{d}}\right], \\ \text { nan , otherwise. } \end{array}\right. \end{aligned} $

(11)

式中：d_l与d_r分别为支持域内左右方向最近的有效视差，d_u及d_d则为上下方向最近的有效视差。该步骤要经过2次迭代处理以得到较为完整的视差填充结果。

1.6.3 视差图滤波

为消除在视差填充阶段可能产生的条纹效应，同时进一步消除左右一致性检验未能剔除的错误匹配及其在视差填充阶段可能出现的扩散效应，还需进一步对视差图进行滤波处理。这一阶段的处理包括ES滤波和中值滤波2个步骤，其中ES滤波是利用优化后的视差图构建新的代价矩阵，并设置截断值以剔除噪声，如下所示

$ d_p=\operatorname{argmin}_{d \in D}\left[\min \left(\mu d_{\max }, \left|d-D^{\prime}(p)\right|\right)\right] . $

(12)

式中：p为当前像素，d代表视差，μ为常值参数，d_max为最大视差，D′为经视差填充后的视差集合，d_p为滤波后视差集合。

将该滤波迭代处理2次以达到有效抑制噪声的目的。最后，再作窗口半径为3的中值滤波处理以平滑视差图，得到最终结果。

2 实验与分析

实验环境为：Windows10 64位系统，Intel(R)Xeon(R)W-2223CPU主频3.6 GHz，4核，36 GB内存。实验数据为：Middlebury^[23]网站提供的筑波(Tsukuba), 金星(Venus), 泰迪(Teddy)以及锥面(Cones)4组标准彩色立体像对。

2.1 参数设置

在代价计算阶段：参考文献[3]中的参数设置，令c₁=0.25，c₂=0.65，n₁=18，n₂=8，k₁=0.5，k₂=0.05；在代价聚合与视差计算阶段，ϵ设置为0.01，σ_I为1.2；最后，在视差优化阶段，设置μ为0.2。

而对于剩余参数，包括ZNCC窗口大小W，滤波窗口大小N以及超像素分割系数T，则需要通过实验确定，利用控制变量法给出该参数与平均误匹配率(AvgError)的相关性，如图 2所示。其中AvgError为4组图像在所有区域的误匹配率，视差的误差阈值为1。经过实验，最终确定W=3, N=7, T=250。

	Download: JPG larger image
图 2 不同参数对平均误匹配率的影响 Fig. 2 Influence of different parameters on average mismatching rate

2.2 消融实验 2.2.1 组合式代价函数验证

为验证组合式代价函数的有效性，使用Middlebury数据集提供的筑波图像做对比实验。首先，采用不同的代价计算函数得到初始视差图；其次，对代价计算后的结果均采用自适应引导滤波聚合方法及WTA策略得到最终视差图。如图 3所示，从左到右依次为ZNCC方法、灰度-梯度方法、组合式代价函数方法得到的视差图以及真实视差图，可以看出单纯的ZNCC方法在摄像机与台灯等物体边缘都出现了较为严重的误匹配现象，而单纯的灰度-梯度方法则完全丢失了台灯的后半部分。使用组合式代价函数后，能较为有效地提高保边性，同时不丢失物体信息。

	Download: JPG larger image
图 3 不同代价函数得到的Tsukuba图像视差图 Fig. 3 Disparity maps via different cost functions for Tsukuba

2.2.2 自适应引导滤波验证

同理，对筑波图像使用组合式代价函数计算得到初始视差图后，采用不同的代价聚合方法以验证自适应引导滤波的可靠性，同样利用WTA策略得到最终视差图。如图 4所示，从左到右依次为半全局匹配方法、引导滤波方法、自适应引导滤波方法得到的视差图及真实视差图。可以看出半全局匹配方法会导致大量噪点的出现，而原始的引导滤波方法在视差不连续区域的效果较差。在对引导滤波方法进行改进后能够有效克服以上问题。

	Download: JPG larger image
图 4 不同代价聚合方法得到的Tsukuba图像视差图 Fig. 4 Disparity map via different cost aggregation methods for Tsukuba

2.3 算法对比

在得到视差图后，为验证本文算法在代价聚合步骤改进的有效性，在采用相同视差后处理步骤的前提下，将本文算法得到的视差图与基于传统引导滤波器得到的视差图进行比较，如图 5所示。不难看出：筑波图像中，传统方法在摄像机、台灯及桌子边缘等处的误匹配现象较改进方法均严重一些；金星图像中，传统方法在报纸中心有一块较大的误匹配区域，保边性也较差；泰迪图像中，改进方法较传统方法在泰迪右臂区域的误匹配现象要好得多；锥面图像中，2种方法的差距不大。总的来说，由于限制了非同类像素参与代价聚合，本文算法在视差不连续区域具有更好的保边性，同时在图像背景等弱纹理区域也具有较好的精度。

	Download: JPG larger image
从上到下依次为筑波、金星、泰迪及锥面测试图像；从左到右依次为左图像、真实视差图、本文算法的视差图以及传统引导滤波的视差图。图 5 不同算法视差图对比 Fig. 5 Disparity map comparison of different algorithms

为进一步对算法的总体性能作定量评价，选择其余7种立体匹配算法与本文算法对比视差图精度(见表 2)，包括自适应引导滤波(AdaptiveGF)^[24]、引导滤波(CostFilter)^[16]、半全局匹配(C-SemiGlob)^[25]、基于图像分割自适应权重(SegmentSupport)^[26]、图割全局匹配(GC+occ)^[27]、基于融合代价和自适应惩罚项系数的立体匹配算法^[13]以及基于改进Census变换和动态规划的立体匹配算法^[28]。从总体精度来看，本文算法的平均误差为4.8 %，低于上述7种方法，且相较于图割全局匹配方法低3.45个百分点；在视差不连续区域，本文算法相较于引导滤波方法平均低1.3个百分点，证明了代价聚合改进的有效性；在未遮挡区域与全部区域，本文算法在场景复杂的泰迪数据上显著优于其他算法，表明本文算法得益于超像素分割较好地抑制了前景放大现象。从最终视差图效果来看，除去图像左侧不存在匹配点的部分像点，总体效果较好；在筑波图像弱纹理区域出现了错误视差连通域，推测是由于视差填充导致错误视差在超像素内的扩散效应。

表 2 不同算法的误匹配率 Table 2 Error matching rates of different algorithms for different images

%
算法	nocc				all				disc				AvgPBM
算法	筑波	金星	泰迪	锥面	筑波	金星	泰迪	锥面	筑波	金星	泰迪	锥面	AvgPBM
本文算法	1.2	0.1	5.1	2.4	2.8	0.4	9.1	8.2	5.4	1.8	13.8	7.4	4.8
文献[24]	1.0	0.2	5.7	2.4	1.5	0.4	11.3	8.2	5.6	2.0	14.3	7.1	5.0
文献[28]	1.4	0.3	5.9	2.6	1.7	0.4	11.4	7.9	6.9	3.0	14.9	7.4	5.3
文献[16]	1.5	0.2	6.2	2.7	1.8	0.4	11.8	8.2	7.6	2.4	16.0	7.7	5.6
文献[25]	2.6	0.2	5.1	2.8	3.2	0.6	11.8	8.4	9.9	3.2	13.0	8.2	5.8
文献[26]	1.2	0.2	8.4	3.8	1.6	0.6	14.2	9.9	6.7	2.6	18.2	9.8	6.4
文献[13]	1.4	—	4.9	2.4	2.7	—	10.9	7.9	7.4	—	12.8	7.0	6.4
文献[27]	1.1	1.6	11.2	5.4	2.0	2.2	17.4	12.4	6.2	6.8	19.8	13.0	8.3
注：nocc、all及disc分别代表未遮挡区域误差、全部区域及视差不连续区域的误匹配百分比，AvgPBM表示4组图像在3种区域的误匹配百分比平均值，视差误差阈值为1。

表 2 不同算法的误匹配率 Table 2 Error matching rates of different algorithms for different images

3 结束语

本文提出一种结合超像素分割的自适应引导滤波密集匹配算法。该方法在代价计算阶段提出一种结合ZNCC与灰度-梯度差的代价函数，以确保对重复纹理与弱纹理区域都能有较好的稳健性；在代价聚合阶段，构建自适应形状窗口以提升引导滤波方法在视差不连续区域的匹配精度；在视差优化阶段，结合超像素分割结果与4方向传播为无效视差作填充，并对视差图进行滤波去噪。相较于其他传统密集匹配方法而言，本文方法的优势在于：1)能够自动确定视差范围；2)在视差不连续区域误匹配率较低；3)视差图整体效果较好。本文方法的局限性在于：1)需要控制的参数较多；2)后处理流程较为复杂。针对这些局限性，后续优化中可以考虑：1)针对图像分割方法与最优化方法做改进以减少参数量的设置；2)去除部分对视差图误匹配率影响较小的后处理步骤，以提升算法的效率。同时今后将进一步优化算法在弱纹理区域的匹配精度，并研究将算法应用于影像三维重建的生产工作当中。

参考文献

[1]	Remondino F, Spera M G, Nocerino E, et al. State of the art in high density image matching[J]. The Photogrammetric Record, 2014, 29(146): 144-166. Doi:10.1111/phor.12063
[2]	Scharstein D, Szeliski R. A taxonomy and evaluation of dense two-frame stereo correspondence algorithms[J]. International Journal of Computer Vision, 2002, 47(1): 7-42. Doi:10.1023/A:1014573219977
[3]	Zhan Y L, Gu Y Z, Huang K, et al. Accurate image-guided stereo matching with efficient matching cost and disparity refinement[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2016, 26(9): 1632-1645. Doi:10.1109/TCSVT.2015.2473375
[4]	Stentoumis C, Grammatikopoulos L, Kalisperakis I, et al. On accurate dense stereo-matching using a local adaptive multi-cost approach[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2014, 91: 29-49. Doi:10.1016/j.isprsjprs.2014.02.006
[5]	Kordelas G A, Alexiadis D S, Daras P, et al. Enhanced disparity estimation in stereo images[J]. Image and Vision Computing, 2015, 35: 31-49. Doi:10.1016/j.imavis.2014.12.001
[6]	Marroquin J, Mitter S, Poggio T. Probabilistic solution of ill-posed problems in computational vision[J]. Journal of the American Statistical Association, 1987, 82(397): 76-89. Doi:10.1080/01621459.1987.10478393
[7]	Yang Q X. A non-local cost aggregation method for stereo matching[C]//2012 IEEE Conference on Computer Vision and Pattern Recognition. June 16-21, 2012, Providence, RI, USA. IEEE, 2012: 1402-1409. DOI: 10.1109/CVPR.2012.6247827.
[8]	Boykov Y, Veksler O, Zabih R. Fast approximate energy minimization via graph cuts[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2001, 23(11): 1222-1239. Doi:10.1109/34.969114
[9]	Hong L, Chen G. Segment-based stereo matching using graph cuts[C]//Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. June 27-July 2, 2004, Washington, DC, USA. IEEE, 2004: I. DOI: 10.1109/CVPR.2004.1315016.
[10]	Fezza S A, Ouddane S. Fast stereo matching via graph cuts[C]//International Workshop on Systems, Signal Processing and their Applications, WOSSPA. May 9-11, 2011, Tipaza, Algeria. IEEE, 2011: 115-118. DOI: 10.1109/WOSSPA.2011.5931427.
[11]	Hirschmuller H, Scharstein D. Evaluation of stereo matching costs on images with radiometric differences[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(9): 1582-1599. Doi:10.1109/TPAMI.2008.221
[12]	Birchfield S, Tomasi C. A pixel dissimilarity measure that is insensitive to image sampling[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1998, 20(4): 401-406. Doi:10.1109/34.677269
[13]	邱建滨, 郑茜颖, 俞金玲. 基于融合代价和自适应惩罚项系数的立体匹配[J]. 激光与光电子学进展, 2022, 59(16): 366-371. 1615008. Doi:10.3788/LOP202259.1615008
[14]	闫利, 王芮, 刘华, 等. 基于改进代价计算和自适应引导滤波的立体匹配[J]. 光学学报, 2018, 38(11): 257-267. Doi:10.3788/AOS201838.1115007
[15]	Kanade T, Okutomi M. A stereo matching algorithm with an adaptive window: theory and experiment[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1994, 16(9): 920-932. Doi:10.1109/34.310690
[16]	Hosni A, Rhemann C, Bleyer M, et al. Fast cost-volume filtering for visual correspondence and beyond[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(2): 504-511. Doi:10.1109/TPAMI.2012.156
[17]	Kendall A, Martirosyan H, Dasgupta S, et al. End-to-end learning of geometry and context for deep stereo regression[C]//2017 IEEE International Conference on Computer Vision. October 22-29, 2017, Venice, Italy. IEEE, 2017: 66-75. DOI: 10.1109/ICCV.2017.17.
[18]	Zhang F H, Prisacariu V, Yang R G, et al. GA-net: guided aggregation net for end-to-end stereo matching[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. June 15-20, 2019, Long Beach, CA, USA. IEEE, 2020: 185-194. DOI: 10.1109/CVPR.2019.00027.
[19]	Chang J R, Chen Y S. Pyramid stereo matching network[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. June 18-23, 2018, Salt Lake City, UT, USA. IEEE, 2018: 5410-5418. DOI: 10.1109/CVPR.2018.00567.
[20]	Li J Y, Hu Q W, Ai M Y. RIFT: multi-modal image matching based on radiation-variation insensitive feature transform[J]. IEEE Transactions on Image Processing, 2020, 29: 3296-3310. Doi:10.1109/TIP.2019.2959244
[21]	Achanta R, Shaji A, Smith K, et al. SLIC superpixels compared to state-of-the-art superpixel methods[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(11): 2274-2282. Doi:10.1109/TPAMI.2012.120
[22]	张祖勋, 张剑清. 数字摄影测量学[M]. 2版. 武汉: 武汉大学出版社, 2012: 196-199.
[23]	Scharstein D, Szeliski R, Hirschmüller H. Middlebury stereo vision page[EB/OL]. (2017-11-15)[2023-09-07]. http://vision.middlebury.edu/stereo/.
[24]	Yang Q Q, Ji P, Li D X, et al. Fast stereo matching using adaptive guided filtering[J]. Image and Vision Computing, 2014, 32(3): 202-211. Doi:10.1016/j.imavis.2014.01.001
[25]	Hirschmuller H. Stereo vision in structured environments by consistent semi-global matching[C]//2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. June 17-22, 2006, New York, NY, USA. IEEE, 2006: 2386-2393. DOI: 10.1109/CVPR.2006.294.
[26]	Tombari F, Mattoccia S, Di Stefano L. Segmentation-based adaptive support for accurate stereo correspondence[C]//Pacific-Rim Symposium on Image and Video Technology. Berlin, Heidelberg: Springer, 2007: 427-438. DOI: 10.1007/978-3-540-77129-6_38.
[27]	Kolmogorov V, Zabih R. Computing visual correspondence with occlusions using graph cuts[C]//Proceedings of 8th IEEE International Conference on Computer Vision. ICCV. July 7-14, 2001, Vancouver, BC, Canada. IEEE, 2002: 508-515. DOI: 10.1109/ICCV.2001.937668.
[28]	祝世平, 闫利那, 李政. 基于改进Census变换和动态规划的立体匹配算法[J]. 光学学报, 2016, 36(4): 216-224. Doi:10.3788/AOS201636.0415001


中国科学院大学学报 2025, Vol. 42 Issue (6): 814-822	PDF