2. Science and Technology on Underwater Acoustic Laboratory, Harbin Engineering University, Harbin 150001, China
随着国家海洋战略的牵引,水下目标探测技术得到了快速发展,其应用需求[1-2]包括水下入侵的监测与预警、水下避障与导航、沉物搜索与救捞、管道维护与桥墩检测等领域。研究人员普遍借助侧扫声呐或多波束声呐成像[3],形成水下场景的声图像,通过图像分割[4-5]实现水下目标探测,面临的问题包括分割阈值的选择和单幅图像信息的局限。检测前跟踪[6-7](track before detect,TBD)是一种新兴的微弱目标探测理论,对单帧图像中有无目标先不进行判断,在图像序列中对多个目标同时进行追踪,然后依据目标轨迹从潜在目标中筛选出真实目标。基于TBD在多波束声呐图像序列中进行特征追踪,是实现水下目标探测的一种新颖的方法。
特征选择是实现多波束声呐图像序列追踪的关键,常用特征[8-9]包括统计特征、纹理特征、形状特征、数学变换特征等。这些特征应用于水下目标探测时,仍然存在区分能力弱、计算复杂度大、鲁棒性差等问题。Lowe提出的尺度不变特征变换[10] (scale invariant feature transform,SIFT),基于尺度空间理论,在光学图像匹配和识别领域[11-12]已经有成功的应用先例。SIFT生成的特征对旋转、尺度缩放、亮度变化保持不变性,对视角变化、仿射变换、噪声也保持一定程度的稳定性,能够更好的表征成像质量相对较差和易受环境干扰的声呐图像中的潜在目标。
本文提出了一种基于TBD的多波束声呐图像序列SIFT特征追踪方法。将该方法应用于多波束声呐图像序列的水下目标探测,并与基于SURF (speeded up robust features,SURF)特征和Harris特征的方法进行比较,验证方法的可行性和有效性。
1 SIFT特征追踪方法 1.1 声呐图像预处理多波束声呐图像普遍存在分辨率低、噪声和旁瓣干扰严重[13]等特点,这增加了从图像中获取有用信息的难度。为了后续更好的提取与追踪特征,要尽可能的滤除噪声并增强对比度。本文采用中值滤波和动态亮度分配来实现声呐图像的预处理。中值滤波能够在平滑图像的同时,尽量减少图像细节信息特征的损失,是一种简单而有效的滤波降噪方法。动态亮度分配[14]是将原始图像强度映射到线性灰度[0, 255],通过优化映射函数,增强目标与背景之间的对比度。在原始图像中以强度最小值为L;为避免产生孤立单峰,将原始图像强度的前1%取平均作为最大值H。在亮度分配时,当输入值为L时赋予灰度值0,当输入值不小于H时赋予灰度值255,当输入值在L和H之间时则赋予0~255灰度值。输入强度和输出灰度的映射函数:
$\left\{ \begin{matrix} {{z}_{out}}=0 & {{z}_{in}}=L \\ {{z}_{out}}=255{{\left( \frac{{{z}_{in}}-L}{H-L} \right)}^{\gamma }} & L<{{z}_{in}}<H \\ {{z}_{out}}=255 & {{z}_{in}}\ge H \\ \end{matrix} \right.$ | (1) |
式中:zin是图像输入强度值,zout是图像输出灰度值,γ是映射参数。γ=1产生线性变换,γ <1增强图像整体亮度,γ>1则减弱图像整体亮度,尤其是对于介于H和L之间的输入值。
1.2 声呐图像的SIFT特征SIFT特征包含了声呐图像中具有独特性和稳定性的信息,可以用来表征潜在目标。将声呐图像定义为I (x,y),高斯核函数为G(x,y,σ):
$G\left( \text{ }x,\text{ }y,\text{ }\sigma \right)=\frac{1}{2\pi {{\sigma }^{2}}}{{e}^{{{\frac{{{x}^{2}}+y}{2{{\sigma }^{2}}}}^{2}}}}$ | (2) |
式中:σ为尺度空间因子,反映了图像被平滑的程度。将I(x,y)和G(x,y,σ)卷积得到图像在不同尺度下的尺度空间:
$~R\left( \text{ }x,\text{ }y,\text{ }\sigma \right)=\text{ }G\left( \text{ }x,\text{ }y,\text{ }\sigma \right)*\text{ }I\left( \text{ }x,\text{ }y \right)$ | (3) |
图像的差分高斯(difference of Gaussian,DoG)算子定义为
$D\left( \text{ }x,\text{ }y,\text{ }\sigma \right)=\text{ }R\left( \text{ }x,\text{ }y,\text{ }k\sigma \right)-R\left( \text{ }x,\text{ }y,\text{ }\sigma \right)$ | (4) |
式中k为相邻尺度间的比例因子。由DoG算子构成图像的DoG金字塔,DoG金字塔中的每个点需要跟同一尺度的周围邻域8个点和相邻尺度对应位置的周围邻域18个点进行比较。当该点为局部极值时,判定为候选特征点。定义图像的候选特征点集合U0,依据式(5)和式(6)从中剔除对比度低和位于边缘特征点,筛选出关键点S(x,y)。
$\left\{ \begin{matrix} u\in S,|D\left( {\hat{u}} \right)|\ge {{T}_{e}} \\ u\notin S,|D\left( {\hat{u}} \right)|<{{T}_{e}} \\ \end{matrix} \right.$ | (5) |
式中:u∈ U0,Tc为对比度阈值,D(u^)为对比度绝对值。
$\left\{ \begin{matrix} u\in \text{ }S,\frac{Tr{{\left( u \right)}^{2}}}{Det\left( \text{ }He \right)}\le \frac{{{({{T}_{\gamma }}+1)}^{2}}}{{{T}_{\gamma }}} \\ u\notin \text{ }S,\frac{Tr{{\left( u \right)}^{2}}}{Det\left( \text{ }He \right)}>\frac{{{({{T}_{\gamma }}+1)}^{2}}}{{{T}_{\gamma }}} \\ \end{matrix} \right.$ | (6) |
式中:Tγ为主曲率比值阈值,Tr(u)为u的迹,Det(He)为Hessian矩阵的行列式。
通过式(7)计算其梯度的模m(x,y)与方向 θ(x,y)。以S(x,y)为中心的邻域窗口内利用直方图的方式统计邻域像素的梯度分布,直方图的峰值反映S(x,y)所处邻域梯度的主方向,通过抛物线插值精确得到S(x,y)的方向。
$\left\{ \begin{matrix} m\left( \text{ }x,\text{ }y \right)=\text{ }\sqrt{{{\left[ R\left( \text{ }x+1,\text{ }y \right)-R{{\left( \text{ }x-1,\text{ }y \right)}^{2}}+\text{ }R\left( \text{ }x,\text{ }y+1 \right)-R\left( \text{ }x,\text{ }y-1 \right) \right]}^{2}}} \\ \theta \left( \text{ }x,\text{ }y \right)=ta{{n}^{-1}}~\frac{R\left( \text{ }x,\text{ }y+1 \right)-R\left( \text{ }x,\text{ }y-1 \right)}{\text{ }R\left( \text{ }x+1,\text{ }y \right)-R\left( \text{ }x-1,\text{ }y \right)} \\ \end{matrix} \right.$ | (7) |
以关键点为中心取16×16窗口,在每个4×4小块中计算8个方向的梯度方向直方图,绘制每个梯度方向的累加值,即可形成一个种子点,每个关键点使用16个种子点来描述。关键点即SIFT特征,每个SIFT特征包含坐标、尺度和方向,并具有128维的特征描述向量。
1.3 声呐图像序列的特征追踪声呐图像序列中的特征追踪通过帧间特征匹配来实现。特征匹配以SIFT的特征描述向量欧氏距离作为相似性度量,采用最近邻比值法。寻找待匹配特征点的最近邻和次近邻,如果最近邻距离与次近邻距离的比值小于某阈值,则认为最近邻点与该特征为最佳匹配对,否则视为匹配失败。考虑到声呐成像易受环境干扰导致稳定性不足,仅当连续3帧追踪失败时,终止对该特征的追踪,并将其判定为虚假目标,从而提高追踪的容错能力。
SIFT特征追踪的算法流程如图 1所示。首先读取一帧图像,获取SIFT特征集并存为一个模板;接着读取下一帧图像,将提取的SIFT特征与模板进行匹配,匹配成功将该特征标定为潜在目标暂存并更新模板中对应特征,连续3帧匹配不成功的特征,可以从模板中剔除;遍历图像序列,将依然存留的特征判定代表真实目标,同时获取目标的特征轨迹。
![]() |
图1 SIFT特征追踪的算法流程 Figure 1 The SIFT feature tracking procedure |
选用试验设备为哈尔滨工程大学研制的国内首台浅水高分辨多波束测深系统。系统的声学基阵为“T”型,发射基阵为多元弧阵,接收基阵为80阵元的均匀线阵。系统工作频率为300 kHz,采样频率为40 kHz,选用的脉冲宽度为1 ms。
在室内水池和室外湖泊采集了多组数据评估提出方法的有效性,本文举出3组典型数据集。数据集I从湖北宜昌清江水库获取,将油桶作为动态小目标,试验中将测量船停靠在岸边,声呐系统固定安装,在舷侧使用两根粗缆绳吊放油桶,让其在水中做缓慢的垂直和水平运动。对采集的数据成像[15-16],选取连续的28帧151×301的声呐图像组成图像序列。数据集II在哈尔滨工程大学水声工程学院的消声水池中获取,将边长为0.25 m的金属立方体作为动态小目标在水中作水平运动,数据成像后选取连续的25帧121×241的声呐图像组成图像序列。数据集Ⅲ在吉林松花湖获取,将直径为0.2 m的塑料小球作为动态小目标在水中作垂直运动,数据成像后选取连续的20帧201×101的声呐图像组成图像序列。下文2.1~2.3节的分步试验结果以数据I示例,2.4节给出3组数据的最终试验结果。
2.1 声呐图像预处理试验从声呐图像序列中选取一帧的成像效果如图 2所示。可以看出声呐原始图像中有大量的斑点噪声,旁瓣干扰严重,动态小目标和水底轮廓都周边有大量背景杂波中。
![]() |
图2 图像序列的一帧原始图像 Figure 2 An original image of the image sequence |
采用动态亮度分配和中值滤波对图像进行预处理,以改善图像质量。依照式(1)进行动态亮度分配时,需要确定映射参数γ。将γ值分别设定为0.5、1、1.5、2.0,试验结果如图 3所示。随着γ的增加,原本对应中低亮度的像素变暗,高亮度的目标和背景的对比度则不断增强。当γ=2时,过大的对比度又损失了部分目标细节,通过比较发现当γ=1.5时对比度强化和细节保留的平衡最好,因此选择映射参数γ=1.5。中值滤波采用滑动窗大小为3×3。
![]() |
图3 不同映射参数时动态亮度分配效果 Figure 3 Images obtained by the dynamic brightness assignmentwith the different mapping parameterγ |
对原始图像的预处理抑制了斑点噪声和旁瓣干扰,提高了目标与背景的对比度,改善了图像质量。但原始数据成像效果并不稳定,同样的预处理方法应用于图像序列中的不同图像改善效果不一,典型情况如图 4所示。图 4(a)中预处理图像中动态小目标非常微弱难以识别;图 4(b)中预处理图像中目标淹没于背景噪声中无法分辨。这种单幅图像信息的局限导致采用传统图像分割法,分割阈值的选择极为困难。
![]() |
图4 典型的预处理效果 Figure 4 The typical pretreatment effects |
用SIFT方法提取声呐图像特征,图像序列中前两帧提取的特征如图 5所示。第1帧提取SIFT特征79个,第2帧SIFT提取特征84个。图中横坐标为相对基阵的水平方向,纵坐标为相对基阵的垂直方向,箭头指向和长度分布表示特征方向和尺度。从图像可以看出特征集中于深度为17 m的动态小目标和深度为22~26 m的水底轮廓,有不少特征的坐标和尺度相同、但方向不同,这些特征的存在有利于提高帧间匹配的鲁棒性。
![]() |
图5 连续两帧提取的SIFT特征 Figure 5 Extracted SIFT features on a pair of successive frames |
对声呐图像序列的28帧图像,依次提取SIFT特征、SURF特征和Harris特征,统计相邻帧帧内提取特征数和帧间匹配特征数,试验结果如表 1所示。可以发现整个图像序列中,每帧图像中SIFT特征数量最多,SURF和Harris特征数量接近,相邻帧间SIFT匹配特征数量最多,SURF匹配特征次之,Harris匹配特征最少。对比SURF特征和Harris特征,SIFT方法获取了更多的帧内特征和相邻帧帧间匹配特征,提高了在图像序列中成功追踪特征和探测到目标的几率。
特征 | 帧内提取特征 | 相邻帧间匹配特征 | |||||
最大值 | 最小值 | 平均值 | 最大值 | 最小值 | 平均值 | ||
SIFT | 173 | 75 | 118.7 | 67 | 32 | 51.4 | |
SURF | 82 | 51 | 64.0 | 38 | 9 | 21.9 | |
Harris | 79 | 49 | 64.1 | 14 | 2 | 7.9 |
按照前文所述算法对声呐图像序列展开SIFT特征追踪。前两帧的特征匹配状况如图 6所示。从图中可以看出表征动态小目标和水底轮廓的特征都实现了匹配,但也有一些非目标的特征匹配,将匹配成功的特征标定为潜在目标,后续通过整个图像序列的追踪来进一步判定是否代表真实目标。
![]() |
图6 连续两帧SIFT特征匹配状况 Figure 6 The result of SIFT feature matching on a pair of successive frames |
特征追踪过程如图 7所示。第1帧包含79个特征,追踪到第3帧时舍弃始终未匹配的特征,剩余52个特征。之后陆续舍弃连续3帧未匹配的特征,到第13帧时下降到25个特征,追踪到最后一帧时,得到6个稳定的SIFT特征。
![]() |
图7 图像序列中的SIFT特征追踪过程 Figure 7 The features tracking along the sequence |
特征追踪统计信息如表 2所示,其中追踪成功率表示该特征在整个声呐图像序列28帧中匹配成功的比例,可衡量特征的稳定性。依据平均偏移量和始末偏移量可以判断出5组偏移量较小的表征静态水底轮廓,而第2组偏移量较大的表征动态小目标。
特征号 | 追踪成功帧 | 追踪 成功率 | 平均偏移量/m | 始末偏移量/m | 表征类型 |
1 | 16 | 59.26% | 0.12 | 0.23 | 静态目标 |
2 | 19 | 70.37% | 0.43 | 5.82 | 动态目标 |
3 | 14 | 51.85% | 0.21 | 0.71 | 静态目标 |
4 | 17 | 62.96% | 0.34 | 0.47 | 静态目标 |
5 | 15 | 55.56% | 0.31 | 1.82 | 静态目标 |
6 | 16 | 59.26% | 0.26 | 1.06 | 静态目标 |
数据集I的目标探测结果如图 8所示。从图像序列中成功追踪到6个SIFT特征,静态水底轮廓特征位置分布是(-13.0,24.4)、(-7.0,24.1)、(5.8,23.8)、(16.2,23.2)和(20.8,23.0),动态小目标从水深17.0 m开始向上运动,到水深10.8 m开始水平运动。
![]() |
图8 数据集I的目标探测结果 Figure 8 The result of target detection using data set I |
数据集II的目标探测结果如图 9所示,从图像序列中成功追踪到表征立方体目标的特征,立方体目标在水深4.1 m处从水平位置1.9 m处向6.6 m处平移。
![]() |
图9 数据集II的目标探测结果 Figure 9 The result of target detection using data set II |
数据集Ⅲ的目标探测结果如图 10所示,从图像序列中成功追踪到表征小球目标的特征,小球目标在水平位置-1.2 m附近从水深18.3 m处向11.9 m处向上运动。
![]() |
图10 数据集Ⅲ的目标探测结果 Figure 10 The result of target detection using data set Ⅲ |
综合以上实验结果,本文方法在不同场景的声呐图像序列中通过特征追踪探测到了潜在目标。在追踪过程部分帧未能正确匹配特征情况下,后续迅速追踪到了特征,并没有因为部分帧的信息缺失而导致目标丢失,体现出了良好的鲁棒性。而用相同算法提取SURF特征及Harris特征进行追踪,部分帧不匹配后就彻底丢失了目标,未能完成特征追踪。
3 结论1) 中值滤波和动态亮度分配,显著改善了多波束声呐图像质量,为特征提取和追踪创造了有利条件。与SURF特征和Harris特征相比较,SIFT特征包含更多的帧内信息、帧间匹配效果更好、更适用于表征多波束声呐图像序列中的潜在目标。
2) SIFT特征追踪方法,不用对单帧图像有无目标进行判断,依据特征轨迹的连续性和一致性进行决策,从表征潜在目标的特征中筛选出代表真实目标的特征,实现了水下目标的探测。依据偏移量能够判断目标是静态目标还是动态目标,获取的动态小目标特征轨迹还能进一步分析目标运动特征。
3) 由于声成像的不稳定,在限定匹配条件的前提下,图像序列中部分帧无法追踪到特征,如果放宽匹配条件则特征表征真实目标的置信度降低,下一步工作考虑利用目标在帧间的运动信息改善帧间的匹配,进一步提高追踪效率。
[1] | GUO Haitao, LI Renping, XU Feng, et al. Review of research on sonar imaging technology in China[J]. Chinese journal of oceanology and limnology, 2013, 31(6): 1341–1349. |
[2] | COLBO K, ROSS T, BROWN C, et al. A review of oceanographic applications of water column data from multibeam echosounders[J]. Estuarine, coastal and shelf science, 2014, 145: 41–56. |
[3] |
李海森, 周天, 徐超. 多波束测深声纳技术研究新进展[J].
声学技术, 2013, 32(2): 73–80.
LI Haisen, ZHOU Tian, XU Chao. New developments on the technology of multi-beam bathymetric sonar[J]. Technical acoustics, 2013, 32(2): 73–80. |
[4] | CELIK T, TJAHJADI T. A novel method for sidescan sonar image segmentation[J]. IEEE journal of oceanic engineering, 2011, 36(2): 186–194. |
[5] |
张金果, 郭海涛, 吴君鹏, 等. 改进的最小交叉Tsallis熵的小目标声呐图像分割[J].
吉林大学学报:工学版, 2014, 44(3): 834–839.
ZHANG Jinguo, GUO Haitao, WU Junpeng, et al. Improved minimum symmetric Tsallis cross entropy for segmentation of a sonar image from a small underwater target[J]. Journal of Jilin University:engineering and technology edition, 2014, 44(3): 834–839. |
[6] | DAVEY S J, RUTTEN M G, CHEUNG B. Using phase to improve track-before-detect[J]. IEEE transactions on aerospace and electronic systems, 2012, 48(1): 832–849. |
[7] | LIU Shulin, CHEN Xinliang, ZENG Tao, et al. New analytical approach to detection threshold of a dynamic programming track-before-detect algorithm[J]. IET radar, sonar & navigation, 2013, 7(7): 773–779. |
[8] | NEGAHDARIPOUR S. On 3-D motion estimation from feature tracks in 2-D FS sonar video[J]. IEEE transactions on robotics, 2013, 29(4): 1016–1030. |
[9] | WANG Shuguang, ZENG Xiangyang. Robust underwater noise targets classification using auditory inspired time-frequency analysis[J]. Applied acoustics, 2014, 78: 68–76. |
[10] | LOWE D G. Distinctive image features from scale-invariant keypoints[J]. International journal of computer vision, 2004, 60(2): 91–110. |
[11] | LIU Yu, LIU Shuping, WANG Zengfu. Multi-focus image fusion with dense SIFT[J]. Information fusion, 2015, 23: 139–155. |
[12] | LENC L, KRÁL P. Automatic face recognition system based on the SIFT features[J]. Computers & electrical engineering, 2015, 46: 256–272. |
[13] | SCHETTINI R, CORCHS S. Underwater image processing:state of the art of restoration and image enhancement methods[J]. EURASIP journal on advances in signal processing, 2010, 2010: 746052. |
[14] | TRUCCO A, GAROFALO M, REPETTO S, et al. Processing and analysis of underwater acoustic images generated by mechanically scanned sonar systems[J]. IEEE transactions on instrumentation and measurement, 2009, 58(7): 2061–2071. |
[15] |
徐超, 李海森, 陈宝伟, 等. 多波束相干海底成像技术[J].
哈尔滨工程大学学报, 2013, 34(9): 1159–1164.
XU Chao, LI Haisen, CHEN Baowei, et al. Multibeam interferometric seafloor imaging technology[J]. Journal of Harbin Engineering University, 2013, 34(9): 1159–1164. |
[16] |
刘晓, 李海森, 周天, 等. 基于多子阵检测法的多波束海底成像技术[J].
哈尔滨工程大学学报, 2012, 33(2): 197–202.
LIU Xiao, LI Haisen, ZHOU Tian, et al. Multibeam seafloor imaging technology based on the multiple sub-array detection method[J]. Journal of Harbin Engineering University, 2012, 33(2): 197–202. |