| 随机森林回归模型的悬浮泥沙浓度遥感估算 |
收稿日期: 2017-11-27
2. University of Chinese Academy of Sciences, Beijing 100049,China
天然水体中悬浮物主要成分为泥沙,悬浮泥沙不仅影响水体的透明度、浊度和水色等光学性质,还影响河道、河岸带冲淤变化过程(程天文和赵楚年,1985)。水体中的悬浮泥沙会吸附重金属、总氮、总磷等污染物(王晓青 等,2006,2007),影响水生生物(特别是藻类)的繁殖和生长(谢贻发 等,2007;龚玲 等,2006)。泥沙若得不到有效处理,会出现大量淤积,从而加剧流域全局性水患,影响流域生态环境(李义天 等,2004)。
三峡工程建设规模大、周期长,建成后在防洪、发电、航运、抗旱和供水等方面发挥着巨大效益。由于“蓄清排浊”,原有河流径流量的季节分配过程以及与径流相关的生态环境因子发生改变(姜刘志,2014)。同时,坝上游来沙减少,坝下游河道中不饱和水流则会寻求泥沙补给持续冲刷河床(张卫军 等,2013),从而发生自上而下、长时间长距离的沿程冲刷(刘小斌 等,2006)。这些都会对坝下游范围内的生态环境带来深远影响,如重要生物资源的栖息水域、生活习性改变,群落组成结构、分布特征发生变化等(姜刘志,2014)。因此,充分了解区域水体悬浮泥沙浓度及其时空变化规律对河道治理、生物栖息地监测和保护具有重要现实意义。
传统泥沙浓度的调查方法主要采用点位采样、室内分析。该方法调查速度慢、周期长,且只能获得在时间、空间分布上都很离散的少量数据点(李洪灵 等,2006)。遥感技术的发展使这一状况得到了有效改观(翟伟康,2006)。很多学者利用不同的遥感数据源和遥感途径对悬浮物进行了大量的研究,均取得了不错的效果。李四海和恽才兴(2001)采用斜率法寻找NOAA AVHRR卫星遥感数据和准同步实测表层含沙量间的关系,Miller和McKee(2004)直接探求MODIS单波段反射率数据与水体总悬浮泥沙的相关性,Bowers等(2014)利用实测数据建立了波段后向散射系数与悬浮泥沙浓度间的指数模型,林承达等(2014)则采用高斯模型构建Landsat ETM+波段反射率与悬浮泥沙浓度间的关系。目前,针对水体悬浮泥沙遥感监测多采用数理统计模型,即先将水体信息与遥感信息之间的不确定性假设成一个特定的函数关系,通过转化为多元线性函数对模型参数进行估计(张文,2012)。该方法通常要求样本总体满足特定的分布特征(如正态分布),而对于水体参数广泛存在的时空自相关性并不能满足假设条件(张文,2012)。所以,该假设在理论上就存在着缺陷(张恒喜 等,2002),使得模型的预测精度不高、推广性能较差、适用范围较小。
非参数模型适用范围广、可靠性强,受到很多学者青睐,如王繁等(2009)利用人工神经网络ANN(Artificial Neural Network)方法建立了表层悬浮泥沙浓度定量遥感反演模型,李致博(2012)基于支持向量机模型SVM(Support Vector Machine)构建海洋悬浮物与遥感影像间的相关关系。尽管如此,也存在一些问题:ANN虽不需要提前假设样本浓度与遥感参数间的函数关系,但其预测精度会受到“过拟合”现象的影响;SVM在使用默认参数时模型效果不佳,在使用经验参数时预测效果却不够理想,计算量大(张文,2012)。另外,上述模型建构方法复杂,内部运行机理未知,难以有效地对变量进行合理解释,使得模型预测能力有限,依然停留在探索阶段。此外,含沙水体光谱响应不仅仅取决于悬浮泥沙浓度,还与泥沙性质(颜色、类型、颗粒大小)、矿物组成、水体中叶绿素和有色可溶性有机物等密切相关(樊辉 等,2007)。因此,悬浮泥沙反演所涉及的变量数量多且种类复杂。随机森林模型RF(Random Forest)是一种基于分类树的机器学习方法(Breiman,2001)。它灵活、稳健、实用、高效,可以用于回归、聚类、分类、预测等分析。由于模型在参数优化、变量排序以及后续变量分析解释等方面优势明显,近年来被广泛应用于悬浮泥沙模拟方面。然而,这些研究存在时相单一(江佳乐 等,2014)、未有效结合遥感影像(Francke 等,2008;Zimmermann 等,2012;Stephens和Diesing,2015)、模型精度未知(Wang 等,2016)等问题,都不能实现对水体悬浮泥沙的有效监测预报。因此,随机森林模型在水体悬浮泥沙遥感监测估算方面的能力尚未得到充分认识,相应的对比参考数据也较为缺乏。
本文针对遥感影像数据在河段水质监测方面的优势,及时开展三峡工程蓄水运用前后坝下游河段悬浮泥沙浓度变化研究。通过构建随机森林模型,对三峡工程坝下游宜昌至城陵矶河段悬浮泥沙浓度进行遥感估算,以期了解该区域水体中悬浮泥沙浓度及其时空变化规律,为区域河道治理、水库调度提供参考依据。
2、材料与方法 (2.1) 研究区域选择三峡工程坝下游宜昌至城陵矶河段作为研究区域(图1)。该河段位于长江中游(29°26′28″N—30°41′42″N,111°17′30″E— 113°10′51″E),全长约480 km。根据河段特性不同,分为宜昌至枝城河段和枝城至城陵矶河段(即荆江)(高志斌和段光磊,2006)。受三峡工程蓄水直接影响,河水对河道两岸土地侵蚀严重,地区生态环境、生产生活受到影响。位于其中几个重要水文控制站沿河流方向从上往下依次是宜昌站、沙市站和城陵矶站。这些水文站所处地理位置及其水文特性,基本能够代表不同河段的水文信息(如径流、来水来沙等),其监测数据可以作为悬浮泥沙遥感反演建模和模型验证的样本数据(乔晓景 等,2013)。
|
| 图 1 研究区域 Figure 1 The study area |
通过收集水利部长江水利委员会发布的各年(2002年—2015年)长江泥沙公报,获得了宜昌站、沙市站、城陵矶站3个水文控制站14年所有月份的月径流量和月输沙量统计图。先利用Origin 9.0软件Digitize模块获得3个水文站各月的径流量和输沙量数值(表1),然后依据月径流量、月输沙量估算出月平均含沙量(式1)(乔晓景 等,2013),一共得到504个泥沙样本浓度。
|
|
表 1 各水文站实测月输沙量、月径流量及估算的月平均泥沙浓度(以2015年为例) Table 1 Monthly sediment discharge, runoff and estimated sediment concentration at various hydrological stations (2015) |
| $ \rho {\rm{ = }}\frac{{100m}}{v} $ | (1) |
式中,m表示月输沙量(万吨),v表示月径流量(亿立方米),ρ表示月平均泥沙浓度(mg/L)。
2.2.2. 遥感数据MODIS数据具有光谱分辨率高、幅宽较大、回访周期短、时空分辨率适宜(同一地区可以得到每天至少2次白天和2次黑夜更新数据)、数据获取免费且易于批量处理等特点,能满足资源环境监测与调查的需要(丁莉东 等,2006)。由于MODIS在三峡工程坝下游地区每月都具有影像数据,能更好地对应水文站点月平均泥沙浓度。因此,MODIS是当前能进行宏观时空尺度研究的最佳数据源。
通过NASA官网下载了研究区2002年—2015年各年的MODIS Terra MOD13Q1地面反射率产品(图幅号为h27v05和h27v06)。此产品为经过大气校正的植被指数16天合成数据,投影方式采用正弦曲线投影,空间分辨率为250 m,包含蓝、红、中红外及近红外波段的地面反射率(裴雪原 等,2014)。对下载的影像做如下处理:
(1)研究区域提取。利用MRT(MODIS Reprojection Tool)软件批量对每期MODIS产品中h27v05、h27v06两景影像进行镶嵌、重投影(WGS 1984 UTM Zone 49N)和裁剪,得到包含三峡工程坝下游区域在内的矩形影像(图1)。
(2)反射率信息提取。为了提取各水文站泥沙监测点对应位置的反射率,首先选择监测点周围3
将悬浮泥沙数据和原始波段反射率数据进行分类整理,采用迪克松准则剔除异常值(范德芹 等,2013)。为保证回归参数估计量具有良好的统计性质,提高模型精度,待求取悬浮泥沙浓度的自然对数值(以Ln(SSC)表示)后,再将它与其他波段反射率进行拟合(Smith和Croke,2005)。为了探索不同站点、水文情势以及季节对模型的影响,除了将全部原始数据集用于建模外,还将其按照站点、水文情势(丰水期5—10月,枯水期11—次年4月)、季节(春季3—5月,夏季6—8月,秋季9—11月,冬季12—次年2月)分类,划分为不同数据子集参与建模。对于划分的各建模数据集(包括全部,丰水期、枯水期,宜昌站、沙市站、城陵矶站,春季、夏季、秋季和冬季),分别从数据(子)集随机选择80%的样点数据作为随机森林回归模型的训练样本集,剩余的20%作为模型测试样本集,参与随机森林模型构建。
基于随机森林回归模型的悬浮泥沙遥感估算是以不同时期获得的遥感影像为主要数据源。为充分利用数据源所提供的信息,本文结合已有的相关研究结果(温兆飞,2017),选取了29个潜在预测变量参与随机森林回归建模(表2)。
|
|
表 2 参与随机森林回归建模的29个潜在预测变量 Table 2 The 29 potential predictive variables involved in random forest regression model |
29个潜在预测变量大致分为以下5类:
(1)单一波段类,比较常见,主要是利用不同遥感卫星某一波段的反射率与悬浮泥沙数据,通过构建合适的数学模型对反演情况进行研究(李四海和恽才兴,2001;李洪灵 等,2006;乔晓景 等,2013;林承达 等,2014)。
(2)增强植被指数EVI(Enhanced Vegetation Index),是Liu和Huete(1995)提出的一种参数构建方式。EVI对基础数据进行了全面的大气校正,解决了植被指数易饱和以及与实际地表覆被缺乏线性关系等问题(王正兴 等,2003)。
(3)归一化植被指数类,来源于归一化植被指数NDVI(Normalized Difference Vegetation Index)。NDVI是Rouse等(1974)提出的,计算公式为:(B4-B2)/(B4+B2)。水体反射率在红光区高于植被,在近红外区远低于植被。在遥感影像中,水体的NDVI值为负,而植被、土壤的为正。因此,可通过选取合适的阈值增强水陆反差,从而识别水体。
(4)差值植被指数类,主要来源于差值植被指数DVI(Difference Vegetation Index)。DVI是Richardson和Wiegand(1977)提出的,计算公式为DVI=B4-sB2,s为土壤背景线性方程的斜率。裸地的DVI值为零,水体为负,植被为正。后来,Ray对DVI计算方式进行改良,认为可以直接用近红外减去红光波段(田婷 等,2013)。DVI不仅能很好地反演植被覆盖度,还能在一定范围内弥补大气造成的不利影响。
(5)比值植被指数类,来源于比值植被指数RVI(Ratio Vegetation Index)。RVI由Birth和McVey(1968)提出,计算公式为:RVI=B4/B2。RVI在绿色健康植被覆盖地区远大于1,在无植被覆盖地区(裸地、水体、病虫害)趋近于1。RVI能消除土壤背景阴影,增强土壤与植被的反射比,可有效区分出水体与其他物体,尤其适用于洪灾期间或薄云情况下的水体监测(王志辉和易善桢,2007)。
2.3.2. 建模过程随机森林算法中具有两个重要的自定义参数,分类回归树的数量k和分隔节点的随机变量数量m(张雷 等,2014),通过优化这两个参数可以提高模型预测精度(Liaw和Wiener,2002)。本研究中,k以50为间隔,取值范围从10到1010;m则以1为间隔,取值范围涵盖1到n(n为预测变量的个数,即潜在变量数29),共同进行最优参数探索。
利用Python 中scikit-learn模块进行算法建模,并对随机森林算法得到的各变量重要性大小进行排序。变量重要性是指预测变量对预测精度贡献率的大小,值越大表示变量越重要。在随机森林模型中,其变量重要性为相对重要性,总和为1。
变量按照重要性进行排序后,需从中进行筛选,以保证模型既有较少的预测变量又有较好的预测效果。这样不仅能使模型简单,还有利于后续模型的解释(Ismail 等,2010)。变量选择采用后向变量选择法,即按照重要性大小排序后,首先将全部变量n都作为预测参数构建随机森林算法,利用该模型预测测试样本集,记录其预测精度,此后依次减少一个变量并重复上述过程。比较不同变量组合下各模型的预测精度,将精度最高的组合作为最优变量组,并以此为依据,重新构建随机森林算法模型,检验模型预测精度。
2.3.3. 模型检验采用决定系数R2、均方根误差RMSE(Root Mean Square Error)式(2)和相对均方根误差rRMSE(relative Root Mean Square Errors)式(3)(Bian 等,2013)作为评价指标,综合评价所有回归模型的预测能力,并绘制预测值与实测值间的1∶1关系图。RMSE是最常用的衡量模型误差的统计量;rRMSE则使用百分比来表达模型误差,其相对而言更为直观且不受原始数据取值范围的影响,更适宜于不同数据(子)集之间的对比。
| ${\rm{RMSE}} = \sqrt {\frac{{\sum\limits_1^{{n}} {{{\left({X{{\left(i \right)}_p} - X\left(i \right)} \right)}^2}} }}{n}} $ | (2) |
| ${\rm{rRMSE}} = \frac{{{\rm{RMSE}}}}{{{\rm{Mean}}}} = \sqrt {n\sum\limits_1^n {{{\left({\frac{{X{{\left(i \right)}_p} - X\left(i \right)}}{{X\left(i \right)}}} \right)}^2}} } \times 100\text{%} $ | (3) |
式中,X(i)表示验证数据集中第i个(i=1,2,3,···,n)样点的悬浮泥沙浓度的自然对数值,X(i)P表示利用验证数据集中的第i个(i=1,2,3,···,n)样点预测变量所得到的模型预测悬浮泥沙浓度的自然对数值。
3、结果与讨论 (3.1) 回归模型参数优化参与随机森林回归模型参数优化的参数是分类树的数量k和分隔节点的随机变量数量m,不同参数组合所对应的分类精度如图2所示(图2只展示了当所有29个潜在预测变量参与随机森林建模运算时的参数优化结果,其中“全部”代表所有样点参与建模)。从图2中可以看出,不同的k和m组合对模型预测精度的影响较大,当m保持不变时,k越大模型的精度越高;同样,当k固定时,m越大模型的精度也就越高。在图2中右下方位置可以发现较高的预测精度,综合分析数据的稳健程度,总体而言,当k∈[800,1000],m∈[15,29]时,模型的回归精度较高且变异较小。
|
| 图 2 随机森林回归模型不同参数下的精度评估 Figure 2 Accuracy evaluation on random forest regression models under different parameters |
随机森林回归模型通过评估每个变量对总体模型预测精度提高的能力,对这些变量进行排序,从而用于评估各变量在模型中的相对重要性。若变量对模型预测精度提高的贡献越大,则变量也就越重要。从图3可以发现(柱状图表示随机森林回归模型中对各预测变量的重要性排序,折线图表示执行后向变量选择后模型的拟合精度):
|
| 图 3 随机森林回归模型变量筛选 Figure 3 Variable selection of random forest regression model |
(1)随着变量数量的变化,各子模型的预测精度会出现不同程度的波动,但最终都会逐渐归于相对稳定的状态。
(2)当所有变量参与模型拟合时,所得预测精度不是最高的,最大模型预测精度出现在部分变量组合上;当所有悬浮泥沙样点参与建模时,其模型预测精度普遍低于其他分类模型,可以考虑按属性(如站点、季节、水文情势)划分样点数据。
(3)从拟合效果来看,对于宜昌站、夏季、冬季数据,虽然变量数目的增加会提高模型预测精度,但提升效果不明显,而且变量过多会导致解释的困难,可见过多变量对模型精度的影响不大。因此,在重新构建模型时,以模型精度达到较大值时所具有变量组合为宜。
总体上,红波段(波长范围为600—700 nm)在各模型达到最大预测精度时的变量组合中出现次数较多,可以认为是随机森林预测模型中最重要的变量,对悬浮泥沙预测精度具有重要的影响(乔晓景 等,2013;Novo 等,1991;邬国锋 等,2009)。因为波长的改变会导致其水体反射率的变化,蓝绿波段对太阳光吸收较少,而近红外波段(波长大于600 nm)吸收能力较强,综合表现为吸收;当水体中出现泥沙颗粒时,其反射光谱曲线受泥沙散射影响会相应地发生改变,波段反射率增加,峰值在黄红波段区出现(梅安新 等,2001),这与野外采样在船中时所测水体遥感反射率数据变化情况相一致(图4)。故红波段对水中悬浮泥沙反应敏感,能进行较好地识别(姜杰,2004;韩震,2004)。此外,变量组合中也存有较多的复合变量,它们来源于不同波段的特定运算。表明,悬浮泥沙估算所涉及的变量较多,会受到多种因素的影响,是一个复杂、繁琐的过程,但不能单纯使用某些特定波段(如红波段)进行估算,与乔晓景等(2013)所得出的结论并不相符。
|
| 图 4 不同泥沙浓度下水体反射率光谱曲线 Figure 4 Reflectance spectrum of surface waters with various SSCs |
以随机森林算法为基础,通过变量筛选,分别按水文情势、站点、季节建立模型训练样本集与测试样本集间的拟合关系图。图5为由随机森林算法所预测的悬浮泥沙自然对数值(预测Ln(SSC))与实际自然对数值(实测Ln(SSC))间的散点关系图。
|
| 图 5 随机森林回归模型精度评价 Figure 5 Accuracy evaluation on random forest regression model |
结果表明,由随机森林模型推算得到的预测值与实测值之间都呈比较高的相关性,RMSE和rRMSE都比较理想,说明用随机森林模型来监测悬浮泥沙浓度是可行的。但部分来看,全部数据、城陵矶站数据精度仍然较低,其决定系数不到0.5,推测原因可能包含以下几个方面:
(1)遥感卫星分辨率。MODIS卫星最高分辨率为250 m,虽然可以反映河流水色特征信息,但部分长江河段宽度不到1000 m,即只有几个像元的宽度,MODIS影像在反映空间细节上的变化方面仍存在不足。为降低误差,本研究将样点像元位置尽可能地选在距监测站点较近的河道中央,以保证样点在较长时间序列内存在于水体当中,但仍不能避免某些极端情况下河道出现暂时出露的可能,也就导致了数据中存在着非河流悬浮泥沙样点。
(2)悬浮泥沙自身性质。悬浮泥沙粒径小、不稳定,易受河流波动影响,区域河段悬浮泥沙浓度在短时间内也可能会有较大的变化。MODIS遥感卫星获取的则是水体瞬时信息,它提供的波段反射信息是水体表层悬浮物的反射率,但泥沙站点实测悬浮物浓度是各断面一定深度范围内平均的悬浮物浓度,二者关系并不等同。
(3)数据来源。城陵矶水文站控制着洞庭湖的总出湖水量、沙量及出湖水质状况,其监测河段为洞庭湖出口水道,而宜昌、沙市水文站监测河段则为长江干流三峡工程坝下游河道,即它们所监测的悬浮泥沙在来源上就存有差异。
(4)其他因素干扰。三峡工程坝下游河段表层悬沙分布的影响因素以径流、地形作用为主,气象、水文等其他环境因素也会带来影响。由于三峡工程采用“冬蓄夏排”的反季节运行方案,在它影响下的悬浮泥沙自然也会与正常季节演变时有所差异。此外,从实地调研可知,某些地方采砂严重,船舶活动频繁,不仅会影响自然水体中实际悬浮泥沙浓度,而且也会降低由卫星所接收的水体悬浮物反射信息的质量。因此,为使遥感监测更具科学性和客观性,以后分析还需要综合更多的影响因素。
总体而言,将季节作为数据分类标准时,各季节预测误差分别为0.48 mg/L、0.34 mg/L、0.58 mg/L、0.45 mg/L,相对均方根误差为12.67%、7.51%、16.21%、12.93%。综合比较,将悬浮泥沙数据按季节分类所划分而成的模型精度明显优于按站点、水文情势数据。它所得到的Ln(SSC)分布数据结果较为可靠,对样本点平均值附近的样本预测较好,预测的结果与实测值之间具有良好的一致性,可以作为后续悬浮泥沙时空反演的参考依据。它所包含的变量组合如表3。
|
|
表 3 将季节作为分类依据时的变量组合 Table 3 The combinations of seasons as a basis for classification |
生态学研究中,通常采用模拟响应变量与解释变量间的关系来阐述格局和过程的形成机制以及实现生态变量在空间或时间维度上的预测(张雷 等,2014)。为此,线性回归模型应运而生,但其应用范围有限,只能处理线性关系。一般情况下,各水环境参数因受复杂环境条件的影响,往往呈现复杂的、高维的非线性关系,甚至还存在共线的可能。所以,线性回归模型在预测上就存在着不足。现阶段,很多学者开始转向机器学习方面的研究,如人工神经网络模型、支持向量机模型、随机森林模型等(张雷 等,2014;楼琇林和黄韦艮,2003;梁栋 等,2013;王茵茵 等,2016)。
本次研究在应用随机森林回归模型前,也尝试过其他模型,拟合效果如表4所示。在各个模型中,虽然在各属性分类中存有个别拟合精度较高的情况,但从整体效果来看,将季节作为分类属性时拟合的效果整体上是最优的。以线性回归模型为例,全部数据参与模型回归时的拟合精度:R2为0.52,RMSE为0.73,rRMSE为18.76%(简写为(0.52,0.73,18.76%)),低于按水文情势(0.58,0.74,19.54%)(为各属性分类的平均值,下同)、站点(0.60,0.60,17.15%)、季节(0.70,0.62,15.31%)分类。故,按季节分类是线性回归中最优的,而其他模型也满足这一发现;再比较各模型中按季节分类时的效果,随机森林(0.78,0.62,12.33%)、支持向量机(0.55,0.59,15.18%)、人工神经网络(0.63,0.66,17.02%)。可见,随机森林模型中,不论在决定系数,还是在拟合效果都是所有模型中最优的。
|
|
表 4 各模型拟合效果 Table 4 The fitting effect of each model |
此外,支持向量机、人工神经网络模型在应用上也存在不足。由于是黑箱模型,研究者无法了解模型内部的实际运行机理,也无法直观地知道预测变量总体的重要性大小(王强 等,2006)。而且,还存有诸多使用上的限制,如“过拟合”现象(金龙 等,2004)、计算量大等问题。虽然随机森林回归也是黑箱模型,但它提供了其他有效方式协助解释,比如各变量对模型预测的重要性。相对于支持向量机、人工神经网络模型,随机森林更易于解释。所以,也有研究者倾向于把它定为灰箱模型(Prasad 等,2006)。此外,随机森林算法中两个随机参数(k,m)的引入,使其具有较好的抗噪能力,不易陷入过度拟合。因此,在三峡工程坝下游河道悬浮泥沙浓度遥感估算中,可以考虑引入以季节为划分依据的随机森林模型。尽管如此,随机森林算法也不可能做到尽善尽美,因为它所构建的模型是非参数的。在应用方面还存在一定局限,在后期的尝试探索中还需进一步研究。
4、结 论机器学习是遥感影像处理的热点问题和核心问题。在诸多机器学习算法中,随机森林因其高效、准确而备受关注,是目前最好的机器学习算法之一,并广泛应用于各行各业。三峡工程蓄水以来,坝下游河流,特别是宜昌至城陵矶河段,泥沙问题日益严重。水体悬浮物是评价水质的重要参数,通过卫星遥感监测研究,可以为宏观了解三峡工程坝下游河段悬浮泥沙变化规律提供有利途径。此时,随机森林算法的优势日益凸显,成为估算水体悬浮泥沙浓度的有效方法之一。本文基于泥沙站点监测数据和卫星遥感反射率数据,通过构建随机森林非参数模型,结合及比较其他回归模型,对三峡工程坝下游宜昌至城陵矶河段悬浮泥沙浓度进行遥感估算,得到了如下结论:
(1)线性回归模型应用范围有限,只能处理线性关系,难以适用于复杂多变的水环境参数遥感。支持向量机、人工神经网络模型是黑箱模型,无法明确模型内部的实际运行机理,也无法直观了解预测变量总体的重要性大小,还存有“过拟合”现象、计算量大等诸多使用上的限制,在应用上存在不足。随机森林模型灵活、稳健、简单、方便,在参数优化、变量排序以及后续变量分析解释等方面优势明显,且相关系数和预测精度明显优于线性模型、支持向量机模型、神经网络模型等其他模型,更适用于坝下游水体悬浮物监测遥感估算。
(2)由于泥沙的散射作用,波段反射率会随着波长的增加而出现变化,但峰值始终出现在黄红波段区,且能发现较为明显的区分,与野外实测数据和研究结果变化情况相一致。研究表明,MODIS中,红波段是随机森林模型中对悬浮泥沙浓度具有重要意义的预测变量。同时,在研究结果的变量组合中也存有较多的复合变量,它们来源于不同波段的特定运算。可见,悬浮泥沙估算所涉及的变量较多,会受到多种因素的影响。因此,不能单纯使用某一波段(如红波段),悬浮泥沙遥感估算需要多变量共同参与。
(3)由于数据来源、卫星分辨率、悬浮泥沙自身特性等诸多限制因素,样点全部参与随机森林时回归精度较低。将悬浮泥沙数据按季节分类所构建的随机森林模型,其平均误差为0.46 mg/L,平均相对均方根误差为12.33%,估算效果最优,能够满足较高精度下悬浮泥沙浓度估算的需求。为最大限度地保证模型精度,充分利用数据,可以考虑以季节为划分依据,通过与MODIS影像中波段反射率建立随机森林模型估算悬浮泥沙浓度,甚至反演时空范围内悬浮泥沙浓度。
| [1] | Bian M, Skidmore A K, Schlerf M, Wang T J, Liu Y F, Zeng R and Fei T. Predicting foliar biochemistry of tea (Camellia sinensis) using reflectance spectra measured at powder, leaf and canopy levels [J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2013, 78 : 148 –156. DOI: 10.1016/j.isprsjprs.2013.02.002 |
| [2] | Birth G S and McVey G R. Measuring the color of growing turf with a reflectance spectrophotometer[J]. Agronomy Journal, 1968, 60 (6) : 640 –643. DOI: 10.2134/agronj1968.00021962006000060016x |
| [3] | Bowers D G, Hill P S and Braithwaite K M. The effect of particulate organic content on the remote sensing of marine suspended sediments[J]. Remote Sensing of Environment, 2014, 144 : 172 –178. DOI: 10.1016/j.rse.2014.01.005 |
| [4] | Breiman L. Random forests[J]. Machine Learning, 2001, 45 (1) : 5 –32. DOI: 10.1023/A:1010933404324 |
| [5] | 程天文, 赵楚年. 我国主要河流入海径流量、输沙量及对沿岸的影响[J]. 海洋学报, 1985, 7 (4) : 460 –471. Cheng T W and Zhao C N. The runoff, sediment discharge and its impacts on the coastal waters of China’s major rivers[J]. Acta Oceanologica Sinica, 1985, 7 (4) : 460 –471. |
| [6] | 丁莉东, 吴昊, 王长健, 覃志豪, 章其祥. MODIS图像湖泊水体信息的快速识别与制图[J]. 海洋测绘, 2006, 26 (6) : 31 –34. Ding L D, Wu H, Wang C J, Qin Z H and Zhang Q X. Quick recognition and mapping of Lake Water information based on MODIS image[J]. Hydrographic Surveying and Charting, 2006, 26 (6) : 31 –34. DOI: 10.3969/j.issn.1671-3044.2006.06.009 |
| [7] | 范德芹, 朱文泉, 潘耀忠, 姜楠. 基于狄克松检验的NDVI时序数据噪声检测及其在数据重建中的应用[J]. 遥感学报, 2013, 17 (5) : 1158 –1174. Fan D Q, Zhu W Q, Pan Y Z and Jiang N. Noise detection for NDVI time series based on Dixon’s test and application in data reconstruction[J]. Journal of Remote Sensing, 2013, 17 (5) : 1158 –1174. DOI: 10.11834/jrs.20132274 |
| [8] | 樊辉, 黄海军, 唐军武. 黄河口水体光谱特性及悬沙浓度遥感估测[J]. 武汉大学学报(信息科学版), 2007, 32 (7) : 601 –604. Fan H, Huang H J and Tang J W. Spectral signature of waters in Huanghe estuary and estimation of suspended sediment concentration from remote sensing data[J]. Geomatics and Information Science of Wuhan University, 2007, 32 (7) : 601 –604. DOI: 10.3969/j.issn.1671-8860.2007.07.009 |
| [9] | Francke T, López-Tarazón J A and Schröder B. Estimation of suspended sediment concentration and yield using linear models, random forests and quantile regression forests[J]. Hydrological Processes, 2008, 22 (25) : 4892 –4904. DOI: 10.1002/hyp.7110 |
| [10] | 高志斌, 段光磊. 边界条件对三峡坝下游河床演变影响[J]. 人民长江, 2006, 37 (12) : 92 –94. Gao Z B and Duan G L. Influence of boundary condition on downstream river bed evolution of TGP[J]. Yangtze River, 2006, 37 (12) : 92 –94. DOI: 10.3969/j.issn.1001-4179.2006.12.032 |
| [11] | 龚玲, 钟成华, 邓春光. 水体中悬浮泥沙对藻类生长的影响[J]. 农业环境科学学报, 2006, 25 (S2) : 687 –689. Gong L, Zhong C H and Deng C G. Effect of suspended sand particles on growth of algae in aquatic system[J]. Journal of Agro-Environment Science, 2006, 25 (S2) : 687 –689. |
| [12] | 韩震. 2004. 海岸带淤泥质潮滩和Ⅱ类水体悬浮泥沙遥感信息提取与定量反演研究. 上海: 华东师范大学 Han Z. 2004. Remote Sensing Information Extraction and Quantitative Inversion Research of Silt Tidal Flat and Suspended Sediment of Case II Waters in Coast Zone. Shanghai: East China Normal University |
| [13] | Ismail R, Mutanga O and Kumar L. Modeling the potential distribution of pine forests susceptible to Sirex noctilio infestations in Mpumalanga, South Africa [J]. Transactions in GIS, 2010, 14 (5) : 709 –726. DOI: 10.1111/j.1467-9671.2010.01229.x |
| [14] | 姜杰. 2004. 悬浮泥沙浓度遥感反演模式研究. 南京: 南京师范大学 Jiang J. 2004. A Study on Retrieval and Change Analysis of Suspended Sediment Concentration. Nanjing: Nanjing Normal University |
| [15] | 江佳乐, 刘湘南, 刘美玲, 毕晓庆. 基于随机森林的香港海域海表盐度遥感反演模型[J]. 海洋通报, 2014, 33 (3) : 333 –341. Jiang J L, Liu X N, Liu M L and Bi X Q. Remote sensing retrieval model of sea surface salinity in Hong Kong waters based on the random forest[J]. Marine Science Bulletin, 2014, 33 (3) : 333 –341. DOI: 10.11840/j.issn.1001-6392.2014.03.013 |
| [16] | 姜刘志. 2014. 三峡蓄水后长江中下游水文情势变化特征及其对鱼类的影响研究. 北京: 中国科学院大学 Jiang L Z. 2014. Assessment of Hydrological Alteration and its Impacts on Fish Population in the Middle-Lower Yangtze River after the Impoundment of the Three Gorges Dam. Beijing: University of Chinese Academy of Sciences |
| [17] | 金龙, 况雪源, 黄海洪, 覃志年, 王业宏. 人工神经网络预报模型的过拟合研究[J]. 气象学报, 2004, 62 (1) : 62 –70. Jin L, Kuang X Y, Huang H H, Qin Z N and Wang Y H. Study on the overfitting of the artificial neural network forecasting model[J]. Acta Meteorologica Sinica, 2004, 62 (1) : 62 –70. DOI: 10.3321/j.issn:0577-6619.2004.01.007 |
| [18] | 李洪灵, 张鹰, 姜杰. 基于遥感方法反演悬浮泥沙分布[J]. 水科学进展, 2006, 17 (2) : 242 –245. Li H L, Zhang Y and Jiang J. Study on the inversion model for the suspended sediment concentration in remote sensing technology[J]. Advances in Water Science, 2006, 17 (2) : 242 –245. DOI: 10.3321/j.issn:1001-6791.2006.02.015 |
| [19] | 李四海, 恽才兴. 河口表层悬浮泥沙气象卫星遥感定量模式研究[J]. 遥感学报, 2001, 5 (2) : 154 –160. Li S H and Yun C X. A study on the quantitative model of the suspended sediment concentration from the meteorological satellite imagery[J]. Journal of Remote Sensing, 2001, 5 (2) : 154 –160. DOI: 10.3321/j.issn:1007-4619.2001.02.015 |
| [20] | 李义天, 孙昭华, 邓金运, 张为. 泥沙输移变化与长江中游水患[J]. 泥沙研究, 2004 (2) : 33 –39. Li Y T, Sun Z H, Deng J Y and Zhang W. Variation of sediment transport and flood disaster in the middle reach of Yangtze River[J]. Journal of Sediment Research, 2004 (2) : 33 –39. DOI: 10.3321/j.issn:0468-155X.2004.02.006 |
| [21] | 李致博. 2012. 基于支持向量机的海洋悬浮物浓度遥感反演模型研究. 北京: 中国地质大学(北京) Li Z B. 2012. Based Support Vector Machine Retrieval Model for Ocean Suspended Solids Remote Sensing Concentration. Beijing: China University of Geosciences (Beijing) |
| [22] | 梁栋, 管青松, 黄文江, 黄林生, 杨贵军. 基于支持向量机回归的冬小麦叶面积指数遥感反演[J]. 农业工程学报, 2013, 29 (7) : 117 –123. Liang D, Guan Q S, Huang W J, Huang L S and Yang G J. Remote sensing inversion of leaf area index based on support vector machine regression in winter wheat[J]. Transactions of the Chinese Society of Agricultural Engineering, 2013, 29 (7) : 117 –123. DOI: 10.3969/j.issn.1002-6819.2013.07.015 |
| [23] | Liaw A and Wiener M. Classification and regression by randomForest[J]. R News, 2002, 2-3 : 18 –22. |
| [24] | 林承达, 周斌, 马琪, 姜萌薪. 基于遥感反演长江中游地区悬浮泥沙研究[J]. 长江流域资源与环境, 2014, 23 (8) : 1119 –1124. Lin C D, Zhou B, Ma Q and Jiang M X. Study on the inversion model of the suspended sediment in the middle Yangtze River based on remote sensing technology[J]. Resources and Environment in the Yangtze Basin, 2014, 23 (8) : 1119 –1124. DOI: 10.11870/cjlyzyyhj201408011 |
| [25] | Liu H Q and Huete A. A feedback based modification of the NDVI to minimize canopy background and atmospheric noise[J]. IEEE Transactions on Geoscience and Remote Sensing, 1995, 33 (2) : 457 –465. DOI: 10.1109/36.377946 |
| [26] | 刘小斌, 卢金友, 林木松. 2006. 三峡工程对长江中下游河道影响分析//水电2006国际研讨会论文集. 昆明: 中国水利学会中国水力发电工程学会中国大坝委员会 Liu X B, Lu J Y and Lin M S. 2006. The influence of the Three Gorges Project on the middle and lower reach of the Yangtze River//Proceedings of 2006 International Symposium on Hydropower. Kunming: China Dam Committee of China Hydropower Engineering Society, China Water Conservancy Society |
| [27] | 楼琇林, 黄韦艮. 基于人工神经网络的赤潮卫星遥感方法研究[J]. 遥感学报, 2003, 7 (2) : 125 –130. Lou X L and Huang W G. An artificial Neural Network Method for detecting red tides with NOAA AVHRR imagery[J]. Journal of Remote Sensing, 2003, 7 (2) : 125 –130. DOI: 10.3321/j.issn:1007-4619.2003.02.008 |
| [28] | 梅安新, 彭望琭, 秦其明, 刘慧平. 2001. 遥感导论. 北京: 高等教育出版社: 236-238 Mei A X, Peng W L, Qin Q M and Liu H P. 2001. An Introduction to Remote Sensing. Beijing: Higher Education Press: 236-238 |
| [29] | Miller R L and McKee B A. Using MODIS Terra 250 m imagery to map concentrations of total suspended matter in coastal waters[J]. Remote Sensing of Environment, 2004, 93 (1/2) : 259 –266. DOI: 10.1016/j.rse.2004.07.012 |
| [30] | Novo E M L M, Steffen C A and Braga C Z F. Results of a laboratory experiment relating spectral reflectance to total suspended solids[J]. Remote Sensing of Environment, 1991, 36 (1) : 61 –72. DOI: 10.1016/0034-4257(91)90031-Z |
| [31] | 裴雪原, 臧淑英, 那晓东. MODIS MOD13Q1植被产品介绍及快速预处理[J]. 哈尔滨师范大学自然科学学报, 2014, 30 (2) : 65 –67, 77. Pei X Y, Zang S Y and Na X D. The introductions and rapid pretreatment of MODIS MOD13Q1 Vegetation product[J]. Natural Science Journal of Harbin Normal University, 2014, 30 (2) : 65 –67, 77. DOI: 10.3969/j.issn.1000-5617.2014.02.017 |
| [32] | Prasad A M, Iverson L R and Liaw A. Newer classification and regression tree techniques: bagging and random forests for ecological prediction[J]. Ecosystems, 2006, 9 (2) : 181 –199. DOI: 10.1007/s10021-005-0054-1 |
| [33] | 乔晓景, 何报寅, 张文, 李元征, 苏振华. 基于MODIS的长江中游河段悬浮泥沙浓度反演[J]. 长江流域资源与环境, 2013, 22 (8) : 1090 –1095. Qiao X J, He B Y, Zhang W, Li Y Z and Su Z H. MODIS-based retrieval and change analysis of suspended sediment concentration in middle Yangtze River[J]. Resources and Environment in the Yangtze Basin, 2013, 22 (8) : 1090 –1095. |
| [34] | Richardson A J and Wiegand C L. Distinguishing vegetation from soil background information[J]. Photogrammetric Engineering and Remote Sensing, 1977, 43 (12) : 1541 –1552. |
| [35] | Rouse J W Jr, Haas R H, Schell J A and Deering D W. 1974. Monitoring Vegetation Systems in the Great Plains with ERTS. PAPER-A20. NASA Special Publication: 309 |
| [36] | Smith C and Croke B. 2005. Sources of uncertainty in estimating suspended sediment load//Proceedings of Symposium S1 Held During the Seventh IAHS Scientific Assembly. Foz do Igaussu, Brazil: IAHS-AISH Publication: 136-143 |
| [37] | Stephens D and Diesing M. Towards quantitative spatial models of seabed sediment composition[J]. PLoS One, 2015, 10 (11) : e0142502 . DOI: 10.1371/journal.pone.0142502 |
| [38] | 田婷, 孙成明, 刘涛, 郭斗斗, 王力坚, 陈瑛瑛. 高光谱遥感技术及其在草地及植被中的应用[J]. 安徽农业科学, 2013, 41 (7) : 3192 –3195. Tian T, Sun C M, Liu T, Guo D D, Wang L J and Chen Y Y. Hyperspectral remote sensing and its applications in grassland and vegetation[J]. Journal of Anhui Agricultural Sciences, 2013, 41 (7) : 3192 –3195. DOI: 10.3969/j.issn.0517-6611.2013.07.139 |
| [39] | 王繁, 凌在盈, 周斌, 宋立松, 王新. MODIS监测河口水体悬浮泥沙质量浓度的短期变异[J]. 浙江大学学报(工学版), 2009, 43 (4) : 755 –759. Wang F, Ling Z Y, Zhou B, Song L S and Wang X. MODIS images monitoring short-period variation of estuary surface water suspended sediment concentration[J]. Journal of Zhejiang University (Engineering Science), 2009, 43 (4) : 755 –759. DOI: 10.3785/j.issn.1008-973X.2009.04.028 |
| [40] | 王强, 沈永平, 陈英武. 支持向量机规则提取[J]. 国防科技大学学报, 2006, 28 (2) : 106 –110. Wang Q, Shen Y P and Chen Y W. Rule extraction from support vector machines[J]. Journal of National University of Defense Technology, 2006, 28 (2) : 106 –110. DOI: 10.3969/j.issn.1001-2486.2006.02.024 |
| [41] | Wang W, Yang X, Liu G, Zhou H, Ma W, Yu Y and Li Z. 2016. Random forest classification of sediments on exposed intertidal flats using ALOS-2 Quad-Polarimetric SAR data. ISPRS-International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences, XLI-B8: 1191-1194 [DOI: 10.5194/isprsarchives-XLI-B8-1191-2016] |
| [42] | 王晓青, 李哲, 吕平毓, 郭劲松. 三峡库区悬移质泥沙对磷污染物的吸附解吸特性[J]. 长江流域资源与环境, 2007, 16 (1) : 31 –36. Wang X Q, Li Z, Lv P Y and Guo J S. Adsorption and desorption of phosphorus on suspended particles in the Three Gorges Area[J]. Resources and Environment in the Yangtze Basin, 2007, 16 (1) : 31 –36. DOI: 10.3969/j.issn.1004-8227.2007.01.007 |
| [43] | 王晓青, 吕平毓, 胡长霜. 三峡库区悬移质泥沙对TP、TN等的吸附影响[J]. 人民长江, 2006, 37 (7) : 15 –17. Wang X Q, Lv P Y and Hu C S. Influence of suspended sediment in TGP reservoir on absorption of TP, TN etc[J]. Yangtze River, 2006, 37 (7) : 15 –17. DOI: 10.3969/j.issn.1001-4179.2006.07.006 |
| [44] | 王茵茵, 齐雁冰, 陈洋, 解飞. 基于多分辨率遥感数据与随机森林算法的土壤有机质预测研究[J]. 土壤学报, 2016, 53 (2) : 342 –354. Wang Y Y, Qi Y B, Chen Y and Xie F. Prediction of soil organic matter based on multi-resolution remote sensing data and random forest algorithm[J]. Acta Pedologica Sinica, 2016, 53 (2) : 342 –354. DOI: 10.11766/trxb201508170308 |
| [45] | 王志辉, 易善桢. 不同指数模型法在水体遥感提取中的比较研究[J]. 科学技术与工程, 2007, 7 (4) : 534 –537. Wang Z H and Yi S Z. Comparison and research on the different index models used in water extraction by remote sensing[J]. Science Technology and Engineering, 2007, 7 (4) : 534 –537. DOI: 10.3969/j.issn.1671-1815.2007.04.028 |
| [46] | 王正兴, 刘闯, Huete A. 植被指数研究进展: 从AVHRR-NDVI到MODIS-EVI[J]. 生态学报, 2003, 23 (5) : 979 –987. Wang Z X, Liu C and Huete A. From AVHRR-NDVI to MODIS-EVI: advances in vegetation index research[J]. Acta Ecologica Sinca, 2003, 23 (5) : 979 –987. DOI: 10.3321/j.issn:1000-0933.2003.05.020 |
| [47] | 温兆飞. 2017. 三峡水库消落带地上净初级生产力时空变化及其影响因素分析. 重庆: 中国科学院大学(中国科学院重庆绿色智能技术研究院) Wen Z F. 2017. Spatial and Seasonal Patterns of Aboveground Net Primary Productivity and Their Responses to Environmental Factors in the Drawdown Zone of the Three Gorges Reservoir, China. Chongqing: Chongqing Institute of Green and Intelligent Technology, Chinese Academy of Sciences |
| [48] | 邬国锋, 崔丽娟, 纪伟涛. 基于时间序列MODIS影像的鄱阳湖丰水期悬浮泥沙浓度反演及变化[J]. 湖泊科学, 2009, 21 (2) : 288 –297. Wu G F, Cui L J and Ji W T. Time-series MODIS images-based retrieval and change analysis of suspended sediment concentration during flood period in Lake Poyang[J]. Journal of Lake Sciences, 2009, 21 (2) : 288 –297. DOI: 10.18307/2009.0219 |
| [49] | 谢贻发, 胡耀辉, 刘正文, 谢贵水. 沉积物再悬浮对沉水植物生长的影响研究[J]. 环境科学学报, 2007, 27 (1) : 18 –22. Xie Y F, Hu Y H, Liu Z W and Xie G S. Effects of sediment resuspension on the growth of submerged plants[J]. Acta Scientiae Circumstantiae, 2007, 27 (1) : 18 –22. DOI: 10.3321/j.issn:0253-2468.2007.01.004 |
| [50] | 翟伟康. 2006. MODIS大气校正及渤海水色时空分布特征研究. 大连: 大连海事大学 Zhai W K. 2006. Atmospheric Correction of MODIS and Analysis Space-Time Distribution Characteristics for Ocean Color in Bohai Sea. Dalian: Dalian Maritime University |
| [51] | 张恒喜, 郭基联, 朱家元, 虞健飞. 2002. 小样本多元数据分析方法及应用. 西安: 西北工业大学出版社: 153-154 Zhang H X, Guo J L, Zhu J Y and Yu J F. 2002. Multivariate Data Analysis Methods and Applications with Few Observations. Xi’an: Northwestern Polytechnical University Press: 153-154 |
| [52] | 张雷, 王琳琳, 张旭东, 刘世荣, 孙鹏森, 王同立. 随机森林算法基本思想及其在生态学中的应用——以云南松分布模拟为例[J]. 生态学报, 2014, 34 (3) : 650 –659. Zhang L, Wang L L, Zhang X D, Liu S R, Sun P S and Wang T L. The basic principle of random forest and its applications in ecology: a case study of Pinus yunnanensis [J]. Acta Ecologica Sinica, 2014, 34 (3) : 650 –659. DOI: 10.5846/stxb201306031292 |
| [53] | 张文. 2012. 基于智能计算的水体悬浮物遥感反演研究——以长江中游为例. 北京: 中国科学院大学 Zhang W. 2012. Remote Sensing Retrieval of Suspended Matters Based on Intelligent Calculation——A Case Study of Middle Yangtze River. Beijing: University of Chinese Academy of Sciences |
| [54] | 张卫军, 魏立鹏, 渠庚. 三峡工程运用后荆江不同河型河道演变分析[J]. 水利科技与经济, 2013, 19 (11) : 56 –59. Zhang W J, Wei L P and Qu G. The analysis of channel evolution of Jingjiang River in different types after operation of Three Gorges Project[J]. Water Conservancy Science and Technology and Economy, 2013, 19 (11) : 56 –59. DOI: 10.3969/j.issn.1006-7175.2013.11.021 |
| [55] | Zimmermann A, Francke T and Elsenbeer H. Forests and erosion: Insights from a study of suspended-sediment dynamics in an overland flow-prone rainforest catchment[J]. Journal of Hydrology, 2012, 428-429 : 170 –181. DOI: 10.1016/j.jhydrol.2012.01.039 |

