文章快速检索  
  高级检索
纹理特征与视觉注意相结合的建筑区提取
沈小乐,邵振峰 ,田英洁     
武汉大学 测绘遥感信息工程国家重点实验室,湖北 武汉 430079
摘要:提出一种有效提取高分辨率遥感影像建筑区的算法。通过模拟人类视觉系统感知环境的过程,引入视觉注意机制,提出基于自信息最大化视觉注意机制的建筑区显著指数。根据建筑区在高分辨率遥感影像中的特点,基于时/频域的纹理分析,提出一种针对建筑区的纹理特征描述方法,实现了建筑区的高效提取。通过对8组高分辨率遥感影像进行试验,验证了本文算法的有效性。
关键词高分辨率遥感影像     非下采样轮廓波变换     纹理特征     视觉注意     建筑区提取    
Built-Up Areas Extraction by Textural Feature and Visual Attention Mechanism
SHEN Xiaole,SHAO Zhenfeng ,TIAN Yingjie    
State Key Laboratory of Information Engineering in Surveying,Mapping and Remote Sensing,Wuhan University,Wuhan 430079,China
First author: SHEN Xiaole(1986-),male,PhD candidate,majors in analysis of high resolution remote sensing images.E-mail: shenxiaole@whu.edu.cn
Corresponding author: SHAO Zhenfeng,E-mail:shaozhenfeng@whu.edu.cn
Abstract:An effective built-up areas extraction algorithm of high-resolution remote sensing images was proposed. Based on a signal processing method,a texture description method was presented for the characteristics of built-up areas in high-resolution remote sensing images. Through an information theory based visual attention mechanism,a saliency map was calculated to extract built-up areas. Experiments proved the effectiveness of the proposed algorithm.
Key words: high-resolution remote sensing images     NSCT     textural feature     visual attention     built-up areas extraction    

1 引 言

建筑区是人类进行土地规划、灾后评估、城市扩张、城市监测等研究分析的必要信息,是人口估计与调查、城市规划等的重要依据。为提高研究效率并降低成本,从遥感影像中自动、半自动提取建筑区已经成为城市研究的重要手段。因此,研究如何在遥感影像中快速有效地提取建筑区具有非常重要的意义。

随着遥感影像空间分辨率的提高,影像中地物光谱变化强烈,“同物异谱”“异物同谱”现象普遍,建筑物在高分辨率遥感影像中的光谱和结构复杂性也将进一步提高。许多仅利用遥感影像光谱信息进行建筑区提取的算法,如NDBI(normalized difference built-up index)[1]、IBI(index-based built-up index)[2]等,更适用于中低分辨率遥感影像,而在处理高分辨率遥感影像时很难达到满意的精度。因此,一些研究者利用纹理特征、边缘特征、形状特征等辅助信息以提取高分辨率遥感影像中的建筑区[3, 4, 5],也有学者通过LiDAR数据辅助提取建筑目标,生成建筑平面的轮廓线[6]。文献[7]提出了PanTex算法,利用灰度共生矩阵计算影像多方向纹理,并将基于模糊规则融合的结果作为建筑区存在指数,进行建筑区的提取。随后,其又对PanTex算法进行改进,利用NDVI对PanTex进行增强,并通过形态学运算对提取结果进行改进[8]。但是,PanTex算法主要适用于5 m或更低空间分辨率的影像(如SPOT-5卫星影像),针对更高分辨率的遥感影像,其建筑区提取效果并不理想。目前,在甚高分辨率(空间分辨率高于1 m)遥感影像中提取建筑区,仍然没有一个成熟而有效的算法。

为解决这一问题,本文分析了建筑区在高分辨率遥感影像中特有的纹理表现,通过对影像进行非下采样轮廓波变换[9](nonsubsampled contourlet transform,NSCT)描述影像的纹理特征,并在原有的纹理表达方法上进行了针对性的改进,通过引入视觉注意机制,将建筑区纹理特征作为视觉注意模型的主要底层特征,提出了一种基于纹理驱动视觉注意机制的建筑区提取算法。

2 建筑区纹理特征表达

与空间分辨率较低的遥感影像相比,建筑的复杂性和多样性在高分辨率遥感影像中更为明显,因此建筑的提取难度也随影像空间分辨率的提高而增加。但在一定尺度上,建筑区具有明显的纹理特征,具体表现为:

(1) 建筑区内部的建筑物在结构上具有一定的相似性。

(2) 在遥感影像中阴影会伴随建筑物产生,使建筑区呈现周期性的明暗变化。

(3) 由于人为因素的影响,建筑物一般具有相对一致的朝向以及规则的排列,因此在高分辨率遥感影像中建筑区纹理表现出明显的方向性。与无方向性纹理相比,建筑区纹理在某一组相互垂直的方向上具有相似的纹理特征。

根据建筑区纹理特性突出这一特点,本文将影像的纹理特征作为建筑区提取的最主要的底层特征。为突显建筑区纹理并提高建筑区纹理与其他地物纹理的区别度,本文根据建筑区纹理的特点提出了针对建筑区的纹理表达方法。

建筑区纹理特征表达流程如图 1所示,步骤如下。

图 1 建筑区纹理特征提取流程 Fig. 1 The flow chart of built-up areas textural feature extraction

人类视觉系统在对纹理影像进行分析时,首先将影像依据频率和方向进行分解,然后进行频率和方向选择性滤波从而感知影像特征[10]。基于时/频域的方法模拟人类视觉进行纹理分析,首先采用某种滤波方法对影像进行频率滤波得到不同的频率和方向子带,然后经过局部能量函数运算对得到的多个子带进行整合与平滑,得到影像纹理特征[11]

在时/频域分析研究方面,继小波、小波树以及Gabor小波之后,NSCT逐渐成为研究热点。NSCT可以对影像进行多尺度、多方向的分解,其过程主要分为两个步骤:首先用非下采样的金字塔结构将影像分为低频子带及多尺度的高频子带,获得多尺度分解结果;然后采用非下采样的方向滤波器组对每个高频子带分别进行多方向分解。由于两个步骤中所使用的滤波器皆为非下采样的,因此确保了结果的平移不变性。本文则利用NSCT多尺度、多方向、平移不变的特性[12],采用NSCT进行影像特征的分解,然后使用局部纹理能量函数计算每个尺度和方向子带的局部能量,并将该结果作为影像的纹理特征。

首先对原始影像进行NSCT变换得到多尺度多方向的高频子带fs,d,其中s表示尺度,d表示方向。然后分别对每个尺度方向子带进行局部纹理能量统计,取窗口大小为(2n+1)×(2n+1),得到初始纹理特征Es,d,其在像素(x,y)位置的系数计算公式如下

本文采用基于时/频域的方法表达影像纹理,并针对建筑区的特点构建建筑区纹理特征。本文认为建筑区纹理在某一组相互垂直的方向上纹理特征强度相似,并根据该特点提出了针对建筑区的纹理特征向量T,以突出在相互垂直方向上纹理特征都较强的纹理。向量T由元素ts,d′构成,ts,d′由式(3)计算得到

式中,d是垂直于d的方向;d′为建筑区纹理特征方向。

3 基于视觉注意机制的建筑区提取

视觉是人类获取外界信息的重要方式之一。据统计,人类所接收到的外界信息约有80%~90%是通过视觉系统获取的。而视觉注意在视觉系统中所起到的作用就是在所获取的复杂视觉场景中快速定位感兴趣的目标[13]。由于建筑区显著的纹理特征会引起人类视觉的注意,因此本文利用视觉注意机制,将建筑区作为视觉搜索任务的目标,以建筑区的纹理特征作为视觉注意模型中的底层特征计算建筑区的显著性,将该建筑区显著性作为建筑区的存在指数,通过对其进行阈值分割来确定建筑区的位置与范围。

目前,已有很多研究表明人类感知系统是对周围自然信号的统计特征进行进一步处理的。从信息论角度看,环境中的信息是不均匀分布的,而视觉注意过程可以快速定位环境中信息较为丰富的区域[14]。换言之,信息驱动了视觉注意,可以认为引发视觉注意的区域或对象其包含的信息量较大。文献[14, 15, 16, 17, 18]提出了基于信息论的视觉注意模型,并验证了其生物可信性。基于信息论的视觉注意模型的研究关键是信息的表达,其中文献[14, 15, 16]使用熵衡量信息量,而文献[17][18]提出使用自信息衡量信息量更符合视觉注意过程。本文从信息论角度解释视觉注意机制,并利用自信息计算建筑区的显著性,生成视觉显著图。

本文采用自信息来表达图像特征的信息量。自信息表示一个随机事件w所包含的信息量I(w)与事件发生的概率P(w)相关,事件发生的概率越低,在事件确实发生时,其信息量越大。从式(4)中可以看出事件发生的概率越高时信息量越小

在图像处理过程中,式(4)中的变量w表示图像特征,该图像特征由位置(i,j)和特征向量T两部分组成,即w=(i,j,T)。P(w)表示图像特征w在给定的邻域范围内发生的联合概率。定义位置(i,j)的邻域范围D={(x,y)|x∈(iR,i+R),y∈(jR,j+R)},R为邻域半径。w=(i,j,T)与邻域范围D内其他像素的特征差异越大,则w发生的概率越小;反之则越大。

由于图像特征w是一个多维向量,其发生的联合概率P(w)估算困难。本文首先对建筑区纹理特征向量T进行独立成分分析(independent component analysis,ICA),得到各维都相互独立的特征向量w′,w′由wk构成,然后计算当观测值wk的真值为vk时的概率P(wk=vk),则特征w的联合概率即为

关于概率P(wk=vk)的估算方法并不是唯一的,可以采用无参概率密度估计或直方图概率密度估计等方法,本文采用高斯核无参概率密度估计的方法计算概率P(wk=vk)

式中,ω体现了邻域D中的像素与中心像素(i,j)之间关联的重要程度,需满足∑(x,y)∈Dω(x,y)=1。本文中权重ω采用高斯分布,即

图像中每个像素的特征在其所在的局部区域内都具有一定的自信息,本文将建筑区纹理特征的自信息作为建筑区的显著性指数,通过计算自信息,得到遥感影像建筑区显著图,然后对建筑区显著图进行阈值分割,提取高分辨率遥感影像中的建筑区。算法的整体流程如图 2所示。

图 2 基于视觉注意机制的建筑区提取流程 Fig. 2 The flow chart of built-up extraction based on visual attention mechanism
4 试验结果及分析

为验证本文算法提取建筑区的效果,本文以空间分辨率为0.1 m的江苏省泰州市航空遥感影像作为试验数据源,从中选取了8幅不同场景的遥感影像进行建筑区提取试验。每幅试验影像的范围均为500 m×500 m,所选取的试验波段为可见光波段。8幅影像包括了城镇、农村及城乡结合区等多种区域,除建筑区外还包含耕地、林地、草地、河流、坑塘、沟渠、公路、农村道路和裸地等多种地物类型,影像中地物环境较为复杂。其中,前4幅影像中的建筑区类型为由尺度较小的农村的普通民房构成的建筑区。后4幅影像包括由较大尺度的多层、中高层建筑构成的城镇住宅小区,以及不同尺度建筑混合构成的建筑区。本文不仅对提取结果进行了主观评价,还将本文算法与PanTex算法进行对比试验,并通过分析8组提取结果的受试者工作特征(receiver operating characteristic,ROC)图和F-measure值[19],评价本文所提算法的提取效果。在试验中,本文的建筑区显著图与PanTex指数图均采用最大类间方差法[20]进行阈值分割,以此提取建筑区。对于经阈值分割后的PanTex指数图,本文对其进行了闭运算及开运算,以消除提取结果中的孔洞、孤岛及锯齿边缘等现象,提高提取区域的平滑性。

图 3给出了本文算法与PanTex算法提取建筑区的结果。图中第1行为原始影像。第2行为通过人工解译提取的建筑区参考图,白色部分为建筑区参考区域。第3行和第4行分别为本文算法、PanTex算法的提取结果。从图 3中可以直观地看出本文算法所提取建筑区的完整度明显优于PanTex算法。在试验影像中,一些耕地呈条块状分布,其形状和亮度与建筑区相似,在PanTex算法的提取结果中可以看到有误提取为建筑区的耕地,而本文所提算法在区分建筑区与其他亮度、结构相似的地物上效果明显。另外,部分农村道路、公路具有较高的亮度,与周围地物形成较强烈的明暗变化,在PanTex算法中亦存在误提取的现象,但对本文算法的影响较小。本文算法提取结果中,仍存在部分误提取的情况,这是由于有部分耕地或道路在影像中的一组垂直方向上的纹理特征有同建筑区相似的表现。

图 3 建筑区提取结果 Fig. 3 The built-up areas extraction results of different methods

图 4为本文算法与PanTex算法试验结果对比的ROC图。ROC图以假阳性率(false positive rate,FPR)为横坐标轴,真阳性率(true positive rate,TPR)为纵坐标轴,其中FPR表示被错误地提取为建筑区的样本与所有实际不为建筑区的样本的比率,TPR表示被正确地提取为建筑区的样本与所有实际为建筑区的样本的比率。ROC图可以形象地描述出FPR与TPR两个量之间的相对变化情况,离左上角越近的点表示其提取精度越高。图 5为本文算法与PanTex算法试验结果的F-measure值对比图。F-measure值是一种评价提取精度的指标,它综合考虑了查准率和查全率,F-measure值的计算公式为


图 4 ROC对比图 Fig. 4 ROC graph of different methods

图 5 F-measure对比图 Fig. 5 F-measure of different methods

图 4所示,本文算法其FPR范围为9.72%~28.64%,PanTex提取结果的FPR范围为9.26%~45.09%,本文算法的FPR平均值(17.01%)优于PanTex算法结果(26.44%)。对于TPR,本文算法结果其TPR均高于93.12%,而PanTex算法结果的TPR范围为70.95%~87.36%,本文算法对所有影像的提取结果的TPR均优于PanTex算法。从图 5中可以看出,本文算法在提取精度F-measure值上优于PanTex提取算法。

PanTex算法在甚高分辨率遥感影像及较复杂环境中提取建筑区的效果不够理想,这是受其纹理表达方法在尺度上的局限性的影响。PanTex算法进行纹理表达基于建筑物与阴影亮度对比强的假设,该算法利用灰度共生矩阵,描述的是具有某种空间位置关系的两个像素的联合分布。而在高分辨率遥感影像中,地物细节更为复杂,单纯采用像素对的关系已经很难表达高分辨率遥感影像中的建筑区纹理。高分影像中纹理较强的区域也不仅仅是建筑区,因此造成PanTex算法提取结果会有较高的误差。而本文提出的算法采用多尺度的纹理表达方法,对于不同尺度的建筑物构成的建筑区均有较好的提取效果,如图 3中第6-8幅影像的城乡结合区中作为纹理基元的建筑物的尺度虽然不同,但通过本文算法均能较好地提取。本文采用多方向纹理特征表达并强调了建筑区在纹理方向方面所具有的特点,因此可以很好地剔除只具有单一方向的道路以及各向纹理特性均匀的耕地、草地、林地、水体等地物特征。

5 结 论

本文针对高分辨率遥感影像提出了一种基于纹理驱动视觉注意机制的建筑区提取算法,该算法的关键是利用建筑区的纹理特征及视觉注意机制构建高分辨率遥感影像的建筑区显著模型。算法充分考虑了高分辨率遥感影像中建筑区的特点,是具有多尺度多方向特性的建筑区纹理特征表达方法。提取算法模拟人眼视觉注意过程,采用基于信息论的视觉注意模型构造建筑区显著图,通过对建筑区显著图进行阈值分割从而提取建筑区。试验结果表明该算法对高分辨率遥感影像建筑区具有很好的提取效果,其结果优于PanTex算法,在较复杂的环境中也能保证提取的精度。

对比人工提取的建筑区参考结果,本文算法所提取的建筑区在边界上不够平滑,这是由于该算法通过对建筑区显著图进行阈值分割得到建筑区提取结果,对建筑区边界未作更精细的定位。后续研究可考虑通过曲线拟合等方法提高建筑区边界精度。对于影像中一些在形状、亮度、结构上同建筑物相似的地物,本文算法仍存在误提取现象。而对于建筑物比较分散的情况,本文算法提取结果也存在一定的误差。今后的研究可考虑融合多种信息,如建筑物角点、阴影等信息,以提高提取精度。

参考文献
[1] ZHA Y, GAO J, NI S. Use of Normalized Difference Built-up Index in Automatically Mapping Urban Areas from TM Imagery [J]. International Journal of Remote Sensing, 2003, 24(3): 583-594.
[2] XU H. A New Index for Delineating Built-up Land Features in Satellite Imagery [J]. International Journal of Remote Sensing, 2008, 29(14): 4269-4276.
[3] LEE D S, SHAN J, BETHEL J S. Class-Guided Building Extraction from IKONOS Imagery[J]. Photogrammetric Engineering and Remote Sensing, 2003, 69(2): 143-150.
[4] HU X Y, SHEN J J, SHAN J, et al. Local Edge Distributions for Detection of Salient Structure Textures and Objects [J]. IEEE Geoscience and Remote Sensing Letters, 2013,10(3): 466-470.
[5] TAN Qulin. Urban Building Extraction from VHR Multi-spectral Images Using Object-based Classification [J]. Acta Geodaetica et Cartographica Sinica, 2010, 39(6): 618-623.( 谭衢霖. 高分辨率多光谱影像城区建筑物提取研究[J]. 测绘学报, 2010, 39(6): 618-623.)
[6] CHENG Liang, GONG Jianya. Building Boundary Extraction Using Very High Resolution Images and LiDAR [J]. Acta Geodaetica et Cartographica Sinica, 2008, 37(3): 391-393,399. ( 程亮, 龚健雅. LiDAR辅助下利用超高分辨率影像提取建筑物轮廓方法[J]. 测绘学报, 2008, 37(3): 391-393,399.)
[7] PESARESI M, GERHARDINGER A, KAYITAKIRE F. A Robust Built-Up Area Presence Index by Anisotropic Rotation-Invariant Textural Measure [J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2008, 1(3): 180-192.
[8] PESARESI M, GERHARDINGER A. Improved Textural Built-Up Presence Index for Automatic Recognition of Human Settlements in Arid Regions with Scattered Vegetation [J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2011, 4(1): 16-26.
[9] DA CUNHA A L, ZHOU J P, DO M N. The Nonsubsampled Contourlet Transform: Theory, Design, and Applications [J]. IEEE Transactions on Image Processing, 2006, 15(10): 3089-3101.
[10] WANG Shiwei. Texture Feature Extraction and Analysis in Remote Sensing Image [D]. Shanghai: Shanghai Jiao-tong University, 2010: 15-24. (王世伟. 遥感影像纹理特征提取与分析研究[D]. 上海: 上海交通大学, 2010: 15-24.)
[11] RANDEN T, HUSOY J H. Filtering for Texture Classification: a Comparative Study [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1999, 21(4): 291-310.
[12] YUE Chunyu, JIANG Wanshou. An Algorithm of SAR Image Denoising in Nonsubsampled Contourlet Transform Domain Based on Maximum A Posteriori and Non-local Restriction [J]. Acta Geodaetica et Cartographica Sinica, 2012, 41(1):59-64.(岳春宇,江万寿.基于最大后验和非局域约束的非下采样轮廓波变换域SAR图像去噪方法[J]. 测绘学报, 2012,41(1):59-64.)
[13] ITTI L, KOCH C. Computational Modelling of Visual Attention [J]. Nature Reviews Neuroscience, 2001, 2(3): 194-203.
[14] KADIR T, BRADY M. Saliency, Scale and Image Description [J]. International Journal of Computer Vision, 2001, 45(2): 83-105.
[15] LEE T S, YU S X. An Information-theoretic Framework for Understanding Saccadic Eye Movements[C]//Proceedings of Advances in Neural Information Processing Systems 12. Cambridge: MIT Press, 2000: 834-840.
[16] FRITZ G, SEIFERT C, PALETTA L, et al. Attentive Object Detection Using an Information Theoretic Saliency Measure[C]//Proceedings of Attention and Performance in Computational Vision. Berlin: Springer, 2005: 29-41.
[17] BRUCE N D B, TSOTSOS J K. Saliency Based on Information Maximization[C]//Proceedings of Advances in Neural Information Processing Systems 18. Cambridge: MIT Press, 2006: 155-162.
[18] BRUCE N, TSOTSOS J K. Saliency, Attention, and Visual Search: an Information Theoretic Approach [J]. Journal of Vision, 2009, 9(3): 1-24.
[19] FAWCETT T. An Introduction to Roc Analysis [J]. Pattern Recognition Letters, 2006, 27(8): 861-874.
[20] OTSU N. A Threshold Selection Method from Gray Level Histogram [J]. IEEE Transactions on System, Man and Cybernetics, 1979, 9(1): 62-66.
http://dx.doi.org/10.13485/j.cnki.11-2089.2014.0131
中国科学技术协会主管、中国测绘地理信息学会主办。
0

文章信息

沈小乐,邵振峰,田英洁
SHEN Xiaole,SHAO Zhenfeng,TIAN Yingjie
纹理特征与视觉注意相结合的建筑区提取
Built-Up Areas Extraction by Textural Feature and Visual Attention Mechanism
测绘学报,2014,43(8):842-847
Acta Geodaetica et Cartographica Sinica,2014,43(8): 842-847.
http://dx.doi.org/10.13485/j.cnki.11-2089.2014.0131

文章历史

收稿日期:2013-12-02
修回日期:2014-04-11

相关文章

工作空间