出版日期: 2019-09-25
点击次数:
下载次数:
DOI: 10.11834/jrs.20198027
2019 | Volumn23 | Number 5
上一篇  |  下一篇


技术方法 
动态数据驱动模式下的湖泊流域降雨径流模拟
expand article info 廖明1,2,3 , 詹总谦1 , 呙维1 , 庞超1 , 刘异1
1. 武汉大学,武汉 430079
2. 流域生态与地理环境监测国家测绘地理信息局重点实验室,南昌 330209
3. 江西省基础地理信息中心,南昌 330209

摘要

湖泊流域汇水径流过程的模拟预测是一种复杂系统中的时间序列分析问题。模型选择上,现有的机理模型法与辨识模型法各有利弊。同时,现有的模型多采用静态数据驱动模拟,不能有效利用传感网实时观测数据来改善模拟不确定性的问题。本文基于深度循环神经网络技术,提出一种适应动态数据驱动的模式,可融合遥感数据与原位传感器站点数据的DTSM(Dynamic Data Driven Time Series Model)时序模拟预测模型,并在观测值与数值模拟之间建立了一种能动态反馈、自适应调整的模拟框架,解决了传统辨识模型法对时序信息挖掘较弱导致模拟精度较低的问题。通过在鄱阳湖多个子流域入湖径流的案例中验证,显示静态数据驱动模式下,以不同数据源作为输入模拟时,本文DTSM模型的纳希效率系数Ens精度比机理模型提高10个百分点以上;相比静态模式,动态数据驱动模式的模拟精度有进一步提高,尤其是对于静态模式精度较低的流域,提高更为明显。

关键词

遥感, 动态数据驱动模拟, 深度学习, 径流模拟, TRMM降雨, 传感网

Study on rainfall-runoff simulation and prediction in lake basin based on dynamic data-driven deep recurrent network
expand article info LIAO Ming1,2,3 , ZHAN Zongqian1 , GUO Wei1 , PANG Chao1 , LIU Yi1
1.Wuhan University, Wuhan 430079, China
2.Key Laboratory of Watershed Ecology and Geographical Environment Monitoring, National Administration of Surveying, Mapping and Geoinformation, Nanchang 330209, China
3.Jiangxi Provincial Geomatics Center, Nanchang 330209, China

Abstract

Performing rainfall-runoff simulation and prediction in a lake basin is a time-series analysis problem in complex systems. Existing mechanistic and identification methods for model selection have advantages and disadvantages. Mechanism model has a clear physical explanation, but it requires professional data for support and the model-solving process is complicated. Identification model is flexible and its solution is simple, but it has difficulty building a universal model and the accuracy of the model is low. Existing simulation models are also based mostly on static data, which cannot effectively use real-time observation data from sensor networks to improve simulation uncertainty. This study aims to improve the problem of traditional identification models being incapable of effectively using timing information, which results in low simulation accuracy. Moreover, it establishes a simulation and simulation framework for dynamic feedback and adaptive adjustment between observation and numerical simulation. This research proposes a dynamic data-driven model based on deep recurrent neural network, named dynamic data-driven time sequence model, which consists of a multilayered long short-term memory loop body and a fully connected layer. The proposed model incorporates runoff remote sensing rainfall data and ground station observation rainfall data as static data input and recent ground station actual runoff observation data as dynamic data input to simulate catchment runoff process. Several cases of multiple sub-river runoff into Poyang Lake indicate that in static data-driven mode, with TRMM_3B42_V7 precipitation as input, the ENS accuracy of DTSM is 10 percentage points higher or more than that of the mechanism model. The cases also indicate that in static data-driven mode, with the fusion precipitation from TRMM_3B42_V7 and ground station as input, the ENS accuracy of DTSM is 29 percentage points higher or more than that of the mechanism model. Lastly, the dynamic data-driven model can further improve the accuracy of simulation compared with the static-driven model, and the improvement is substantial in the basin with lower accuracy in static data-driven mode. The model based on deep recurrent neural network can effectively extract the timing information from the data. The dynamic data-driven model can make adaptive adjustments to improve simulation uncertainty. Based on the above two reasons, the DTSM proposed in this paper can achieve the same or a better simulation accuracy than existing representative mechanism models. At the same time, DTSM is flexible and the solving process is simple.

Key words

remote sensing, data-driven simulation, deep learning, runoff simulation, TRMM rainfall, sensor network

1 引 言

流域径流对下游湖泊的生态环境具有重要意义。降雨汇水是径流形成的首要环节,从降雨到达地面至水流汇集、流经流域出口断面的整个过程,称为径流形成过程。径流主要受降雨和人类活动影响。对于同一流域来说,短时间内地形地貌与土壤性状相对稳定,而且植被覆盖在短期内也不会发生太明显的变化(程甜甜 等,2016吕玉娟 等,2014),因此降雨是决定河川径流最重要的气象驱动因素(刘佳凯 等,2016)。

湖泊流域汇水径流过程的模拟预测,可以认为是一种复杂系统中的时间序列分析预测问题。一般而言,有机理模型法和辨识模型法两种模式(杨正瓴 等,2007)。机理模型法是根据复杂系统遵循的有关科学规律、系统自身的结构和初值等,建立系统行为的因果关系性质的机理数值模型,再通过对模型的求解后得到对未来的预测,如WATLAC(李云良 等,2013)、CREST(唐国强 等,2015)、VIC(黄钰瀚 等,2016)、新安江模型(费明哲,2015)等。机理模型法能揭示汇水径流过程的内在机理和规律,有明确的物理意义,但需要较强的专业背景,需要符合物理过程的各类输入数据,模型参数多且过程性参数不易获取,解算过程较复杂。辨识模型法是对复杂系统历史观测获取的输入和输出数据之间直接建模,通过一定的方式构造出某种已知关系的预测方程,如线性多元回归、非线性回归、人工神经网络、支持向量机等,再将当前值带入预测方程后得到对未来的预测,也可称为经验模型、非机理模型。辨识模型法因不考虑物理过程,以数据为驱动,故一般模型结构简单,数据和计算要求都低于机理模型。由于降水汇入等因素的动态变化,径流时间序列呈现非平稳特征,具有高度非线性的行为特征。在应用辨识模型法进行径流预测的过程中,参数辨识算法需要具有较强的实时跟踪能力, 以适应径流运动变化过程的要求。以输入数据不同,径流模拟的辨识模型法又可以分为两类:第1类为基于历史径流数据的时间序列高精度建模方法;第2类为从径流影响因素到径流的过程建模方法。第1类方法以径流历史数据为输入,基于辨识模型法对径流时间序列的变化规律进行分析与建模,如Carlson等(1970)郭俊等(2010)赵雪花等(2014)利用ARMA、支持向量机、神经网络及其组合方法进行了大量研究。该类研究较为广泛,将径流数据看作一组数值,利用数学分析方法来模拟水文过程中蕴含的非平稳特征,其优点是历史径流数据精度高,数学模型在各流域的普适性较好,但因其在数学分析方法中未充分利用引起水文过程不确定性的径流变化影响因素数据,建模结果的精度不稳定。第2类方法以径流变化影响因素为数据驱动,基于辨识模型法对影响因素到径流的过程进行建模,如胡平(2004)汪丽娜等(2009)Chau等(2010)Machado等(2011)利用神经网络、支持向量机等开展了降水影响径流的相关研究,以降水为驱动因素模拟预测径流过程。该类研究近年来兴起,还相对较少,大部分基于神经网络对水文时间序列中的隐含规律及其复杂的变化特性进行建模,改进算法均属于对神经网络算法的改进,鲜少有网络结构方面的研究。

近年来,随着深度学习方法的快速发展,其中RNN(循环神经网络)是一种更适用于时间序列分析的神经网络结构,并在语音识别、机器翻译以及时序分析等方面实现了突破(周志华,2016)。因此,径流模拟作为一种时间序列分析问题,也迎来了一种新的辨识模型方法。左岗岗等(2017)采用循环神经网络利用对渭河流域的月径流量进行预测,初步探讨了方法的可行性,但精度有待提高。

同时,鉴于传感网动态观测能力快速发展的趋势,通过遥感技术、点上观测数据,逐渐能够及时的获取大量径流变化影响因素的实时观测数据,这类数据可以有效地帮助揭示径流数据的非平稳性,改善基于历史径流数据的时间序列建模方法。实测的历史径流数据具有高精度,应当充分利用,在过程建模中动态选择性地加载实测径流历史数据并回馈过程模型以改进模拟模型及其精度。这是一种协作模拟和测量回馈共生的新型范式,可以看作一种动态数据驱动应用范式(Darema,2015)。

综上所述,本文提出一种适应动态数据驱动模式,可融合遥感数据与传感器站点数据的时序模拟预测模型。该模型充分利用深度循环神经网络挖掘数据时序信息的深度表达能力,能有效地融合遥感降雨与地面站监测数据,采用历史径流数据动态驱动模式相比静态数据驱动模式,对模拟精度有显著提高,而且与经典的机理模型比较表现出更好的模拟精度。

2 基于RNN的动态数据驱动径流预测建模

降雨是决定河川径流最重要的气象驱动因素。在辨识模型法中,不考虑影响径流的其他过程参数,直接建立降雨与径流的输入输出关系。但因降雨与径流数据不在一个量级上,在建模前,需要对数据进行归一化处理。反映降雨的观测数据包含遥感数据和地面站点数据。遥感数据分布均匀,但其精度不高;地面站点数据稀疏,但精度较高。两者的联合互补可以减少由采样代表性、采样范围和频率以及数据获取模式不同所带来的差异性。在本文的模型中,静态模式指的是仅利用一段时期内历史降雨数据为输入来进行模型训练,动态模式指的是在利用一段时期内历史降雨数据训练模型的同时,还通过近几日传感器刚刚获取的实测历史径流数据,来动态修正模型训练,这样定义主要是为了区分出动态模式下可以较快地利用到实测的数据,一旦站点的传感器获取了新的径流数据,可以很快的加入到模型的训练中,以修正模型,提高精度。

本文提出的动态数据驱动时间序列建模方法DTSM(Dynamic Data Driven Time Series Model)如图1所示。其中采用RNN进行过程建模来提高降雨到径流过程模拟的时序特性建模能力;同时,将降雨数据与历史径流数据进行融合建模,综合利用两类数据的各自优点。一方面,使得模型不断地利用观测到的历史径流数据自动调整模拟轨迹,来减小模拟系统的误差;另一方面,通过降雨数据过程模型为历史径流数据加入随机性、非线性表达。

图 1 径流模拟预测技术路线图
Fig. 1 The technology roadmap of rainfall-runoff simulation and prediction

2.1 数据归一化

考虑到鄱阳湖流域日降水数据值域一般为[0,400],单位mm, 日径流量值域[1, 14000],单位 ${{\rm{m}}^3}/{\rm{s}}$ 。两类数据不在一个量级上,在参与模型训练前,需要做归一化处理。通常归一化处理方法两种:

(1) 线性函数归一化(Min-Max scaling)。将原始数据线性化的方法转换到[0,1]的范围,实现对原始数据的等比例缩放。

$X_{\rm{norm}} = \frac{X - X_{\rm{min}}}{X_{\rm{max}} - X_{\rm{min}}}$ (1)

(2) 0均值标准化(Z-score standardization)。将原始数据集归一化为均值为0、方差1的数据集。

本论文实验中考虑到径流模型目的是进行具体数值预测,而非分类、聚类,不需要使用距离来度量相似性或者使用PCA(主成分分析方法)进行降维的,且原始数据的分布并非近似高斯分布,故采用线性函数归一法分别对降水量数据和径流量数据做归一化处理。

2.2 基于RNN的时间序列建模原理

2.2.1 RNN原理简介

循环神经网络RNN是受人脑中神经细胞连接成环路启发,通过设计重复使用迭代函数来存储信息的一类神经网络(Graves,2012)。传统神经网络的输入与输出都是相互独立的,但在某些任务中,其后续输出不仅与当前输入有关系,还受到之前输入的输入内容的影响。因此,RNN引入记忆单元,使得先前输入内容可以保存在网络中作用后续输出。图2为一个标准RNN的网络结构。

图 2 循环神经网络结构
Fig. 2 Recurrent neural network structure

图2Xt是时间t处的输入。UVW是权重矩阵,Ct是时间t处的“记忆”,由当前时间的输入和之前所有“记忆”计算得到。ht是时间t处的输出,由当前时间及之前所有的“记忆”共同计算得到。在实际应用中,因为计算过程有信息丢失,Ct只能存储之前很短时间内的信息,这限制了RNN可以处理的序列长度(Grave 等,2005)。

2.2.2 LSTM原理简介

LSTM(长短期记忆网络)是在标准RNN结构上通过加入门限操作,来去除或者增加信息到记忆中,使得LSTM有能力存储很长时间前的“记忆”(Gers 等,2002),结构如图3所示。

图 3 标准循环神经网络和长短期记忆网络结构
Fig. 3 The structure of standard Recurrent Neural Network and Long Short-Term Memory

首先进行记忆的取舍计算,得到忘记参数 ${f_t}$

${{{f}}_t} = \operatorname{sigmoid} ({{ W}_{ f}} \cdot ({{ h}_{ {t - 1}}},{{ X}_{ t}}) + {{ b}_{ f}})$ (2)

其次,控制部分输入信息进入记忆,得到更新参数 ${i_t}$ 和新的候选信息 ${\widetilde C_t}$

${{ i}_{ t}} = {\rm{sigmoid}}({{ W}_{ i}} \cdot ({{ h}_{{ {t - 1}}}},{{ X}_{ t}}) + {{ b}_{ i}})$ (3)
${\tilde { C}_{ t}} = \tanh ({{ W}_{ C}} \cdot ({{ h}_{{t - 1}}},{{ X}_{ t}}) + {{ b}_{ C}})$ (4)

最后更新记忆并选择输出信息,依次得到t时刻的记忆 ${C_t}$ 、输出参数 ${O_t}$ t时刻的输出 ${h_t}$

${{ C}_{ t}} = {{ f}_{ t}} * {{ C}_{{t - 1}}} + {{ i}_{ t}} * {\tilde { C}_{ t}}$ (5)
${{ o}_{ t}} = {\rm{sigmoid}}({{ W}_{ o}} \cdot [{{ h}_{{t - 1}}},{{ X}_{ t}}] + {{ b}_{ 0}})$ (6)
${{ h}_{ t}} = {{ o}_{ t}} * \tanh ({{ C}_{ t}})$ (7)

因此t时刻输出的结果是之前若干输入数据的函数。其中Wf, Wi, Wo, bf, bi, bo参数是模型利用BPTT(随时间反向传播)算法在样本数据中训练学习得到最优值的参数,即参数值取决于提供的样本数据。

2.3 基于DSTM的湖泊流域径流预测

针对将降雨汇水产生径流的过程看做一个时间序列累积作用的过程,本文提出由一个多层的LSTM构成的循环体和一个全连接层构成DTSM模型,用于径流预测,如图4所示;其中循环体的单层LSTM的结构见图3(b)

图 4 基于LSTM网络的径流模拟模型
Fig. 4 Runoff simulation model based on LSTM network

图4Xi为第i天的降雨数据,Xi+1为第(i+1)天的降雨数据,Xi+t为第(i+t)天的降雨数据,他们是一个由遥感数据和地面站点数据组成的一维向量。输出为第(i+t)天的径流预测值。在不同时刻的循环体中虽然中间输出值hC等没有明确的物理意义,但是可以看到第(i+1)天的输出是由第i天的降雨和第(i+1)天当天降雨综合作用结果。以此类推,前t天的降雨都会对第(i+t)天产生影响。因此,第(i+t)天的输出是前t天的历史降雨数据累积并与第(i+t)天的降雨数据共同作用得到。循环体的输出是一段时间降雨的综合表达,在循环体后设计一个全连接层实现融合历史地面实测径流数据,得到第(i+t)天的日径流量预测值。设每个时刻输入向量的长度为L1,循环体的输出特征数据长度是L2,动态驱动模式下输入历史观测数据的长度为L3,则全连接层的输入神经元个数是L2+L3,输出模拟结果的长度为1的径流预测值。

X为驱动输入序列,Obs为观测反馈序列,TIMESTEPS 为降雨数据的历史数据时长,PRE_TIME为预测时长,HIS_TIME为实测径流历史数据时长,三者关系如图5。当PRE_TIME等于0时为模拟模式,当PRE_TIME大于0时,为预测模式;HIS_TIME等于0时,为静态数据驱动模型,当HIS_TIME大于0时为动态数据驱动模式。

图 5 模型时间参数示意图
Fig. 5 The schematic of model time parameters

3 基于DTSM的TRMM降雨径流模拟实验

3.1 模拟区域概况

鄱阳湖流域具有多河入湖、5大主要水系及其所属的五大子流域相对独立的特点,流域水文模型一般包括除湖区平原区以外的整个山区区域。具体来说,赣江子流域采用最下游的外洲控制站作为流域出口,抚河子流域以最下游的李家渡控制站作为流域出口,信江子流域以最下游的梅港控制站作为流域出口。而饶河(石镇街)和修水子流域(万家埠)控制站点处于中上游位置,下游径流量数据难以获取。所以,本文研究对象暂为前3个子流域,详见图6

图 6 试验区域数据分布
Fig. 6 Data distribution of experiment area

3.2 流域数据资料分析

实验所需的数据资料如下:

(1)遥感数据TRMM_3B42_V7。TRMM计划为美国宇航局和日本宇航局联合发起,用于观测和研究热带、亚热带地区的降水及能量交换过程。美国GFSC(Gorddard Space Flight Center)发布的最新版本数据V7,采用最新算法对各类微波输入数据进行了重新处理。覆盖南北纬度50°之间,格网分辨率0.25°×0.25°,全球格网数目为1440×400(NASA Earth Data,2017)。这里选取其在赣江、抚河、信江子流域内3B42_V7日降雨数据,其分布如图6所示。3B42_V7卫星降水与基准地面雨量站网降水的一致性分析显示:3B42_V7卫星降水能探测到大部分日降水事件的发生,与基准降水的相关性较好,对低强度降水探测及估计能力存在不足,对中高强度降水估计能力较好(黄钰瀚 等,2016胡庆芳,2013)。

(2)地面站数据。采用赣江、抚河、信江子流域内25个气象站点获取的日降雨量数据(国家气象信息中心,2017),与网格化的遥感数据联合参与数据驱动模拟,有助于提高遥感数据模拟精度,其分布如图6所示。

(3)水文数据。赣江、抚河、信江子流域下游入鄱阳湖分别对应的外洲、李家渡、梅港水文站逐日监测到的径流量数据(江西水文信息网,2017),用于率定与验证模拟结果。

(4)其他地理信息数据,如流域边界、数字化水系、水文气象站点分布等,用于数据提取和空间分析。

3.3 日径流模拟实验设计

3.3.1 实验方案

实验方案划分为3个层次进行对比试验,见表1。方案1:仅采用TRMM降雨数据进行模型训练和预测;方案2:融合少量地面站点日降雨数据进行模型训练和预测;方案3:动态加入近期径流监测反馈数据进行模型训练和预测。

表 1 对比试验方案设计
Table 1 The design of different experiment approaches

下载CSV 
方案 模拟机制 输入驱动数据 模拟输出数据 试验目的
方案1 静态数据驱动 子流域TRMM日降雨 下游日径流量 TRMM对流域径流模拟预测能力
方案2 静态数据驱动 子流域TRMM日降雨,少量
地面站点日降雨
下游日径流量 地面站点融合对流域径流模拟的
提升能力
方案3 动态数据驱动在模拟过程中加
入反馈的近期历史径流量数据
子流域TRMM日降雨,少量地面站
点日降雨,近期历史径流量反馈
下游日径流量 动态数据驱动模式对径流模拟的
提升能力

3.3.2 训练集与测试集数据

通常采用实验测试来对深度学习模型的泛化误差进行评估,需要使用“测试集”来测试深度学习模型对新样本的判断能力,然后以测试集上的测试误差作为泛化误差的近似。从数据集中分割训练集与测试集的常见的做法有:留出法、交叉验证法、自助法等。考虑到降雨径流量在年内变化规律是具有相似性的,这里选择采用留出法,将数据集D划分为2个互斥的数据集,其中一个作为训练集S,另一个作为测试集T ${{D}} = {{T}} \cup {{S}},{{T}} \cap {{S}} = $ ∅。留出法对数据集特性的一般性原则要求是(周志华,2016):训练集与测试集的划分要尽可能保持数据分布的一致性;大约将2/3—4/5的样本用于训练,剩余样本用于测试。因此,这里将2000年—2005年数据集做如下划分:2000年1月—2004年12月逐日数据作为训练集S来率定模型内部参数,2005年1月—12月逐日数据作为测试集T来验证模型精度。

3.3.3 模拟精度评价指标设定

本论文采用均方误差(MSE)、纳希效率系数(Ens)、确定性系数(R2)和相对误差(Re)来评价模拟精度。其中,确定性系数R2和纳希效率系数Ens趋于1为最佳拟合效果,而均方误差MSE和相对误差Re趋于0为最佳拟合效果。这4个指标能够综合评估模型训练期和测试期的湖泊域降雨汇水径流模拟预测能力,具体计算公式如下

${\rm{MSE}} = \sum\limits_{i = 1}^n {{{({Q_{{\rm{obsi}}}} - {Q_{{\rm{simi}}}})}^2}/n} $ (8)
${E_{{\rm{ns}}}} = 1 - {\sum\limits_{i = 1}^n {\left({{Q_{{\rm{obsi}}}} - {Q_{{\rm{simi}}}}} \right)} ^2}\Big/{\sum\limits_{i = 1}^n {\left({{Q_{{\rm{obsi}}}} - {{\overline Q }_{{\rm{obs}}}}} \right)} ^2}$ (9)
$ \begin{split} {R^2} = & {\left( {\sum\limits_{i = 1}^n {\left({{Q_{{\rm{obsi}}}} - {{\overline Q }_{{\rm{obs}}}}} \right)\left({{Q_{{\rm{simi}}}} - {{\overline Q }_{{\rm{sim}}}}} \right)} } \right)^2}\Big/ \\ & \left( {\sum\limits_{i = 1}^n {{{\left({{Q_{{\rm{obsi}}}} - {{\overline Q }_{{\rm{obs}}}}} \right)}^2}\sum\limits_{i = 1}^n {{{\left({{Q_{{\rm{simi}}}} - {{\overline Q }_{{\rm{sim}}}}} \right)}^2}} } } \right) \end{split} $ (10)
${R_{\rm{e}}} = \sum\limits_{i = 1}^n {\left({{Q_{{\rm{simi}}}} - {Q_{{\rm{obsi}}}}} \right)} \Big/\sum\limits_{i = 1}^n {{Q_{{\rm{obsi}}}}} \times 100\text{%} $ (11)

式(8)—(11)中, ${Q_{{\rm{obsi}}}}$ 观测序列; ${Q_{{\rm{simi}}}}$ 为模拟序列; ${\overline Q _{{\rm{obs}}}}$ ${Q_{{\rm{sim}}}}$ 分别代表观测序列和模拟序列的平均值;i代表数据序列;n为时间步长总数。

3.3.4 模型参数

本文提出的DTSM模型是基于TensorFlow框架实现的。TensorFlow是谷歌推出的一个开源人工智能学习系统,广泛用于机器学习和深度深度神经网络方面的研究(Google,2017)。

模型参数设置分为两类:第一类为超参数,参数设置通过与实际模拟区域进行经验调参;其中部分为训练时参数,主要用于训练时能够快速合理的求解一般参数。第二类为一般参数,包括循环体内隐藏层参数、输出全连接层参数等,一般参数通过训练数据自动率定。

表 2 模型主要参数
Table 2 The main parameters of the model

下载CSV 
参数类型 参数名称 说明(推荐值) 调参
方式
超参数 全局超
参数
hidden_size 单层循环体中隐藏层的个数(30) 经验
调参
num_layers 多层循环体的层数(4)
time_steps 最大时序截断长度
his_time 历史径流数据时长(2)
pre_time 预测径流时间(2)
训练时
参数
batch_size 损失计算时训练数据包大小(32)
optimizer 梯度下降方式(adam)
learning_rate 学习率(0.001)
一般参数 Wrnn, Brnn 循环体隐藏层参数 自动
调参
Woutput, Boutput 输出全连接层参数

模型中timestep参数值根据子流域大小调整,调参结果推荐在赣江、抚河、信江子流域分别取值为45、17、12。

3.4 实验结果与分析

赣江子流域模拟结果见图7图9;抚河子流域模拟结果见图10图12;信江子流域模拟结果见图13图15。各子流域均采用3种方案进行模拟。方案1:TRMM径流模拟结果;方案2:TRMM融合地面站点径流模拟实结果;方案3:结合近期历史径流数据预测径流结果。所有模拟结果精度汇总见表3

图 7 赣江流域方案1模拟结果
Fig. 7 GanJang River Basin’s scenario 1 simulation results
图 8 赣江流域方案2模拟结果
Fig. 8 GanJang River Basin’s scenario 2 simulation results
图 9 赣江流域方案3模拟结果
Fig. 9 GanJang River Basin’s scenario 3 simulation results
图 10 抚河流域方案1模拟结果
Fig. 10 FuHe River Basin’s scenario 1 simulation results
图 11 抚河流域方案2模拟结果
Fig. 11 FuHe River Basin’s scenario 2 simulation results
图 12 抚河流域方案3模拟结果
Fig. 12 FuHe River Basin’s scenario 3 simulation results
图 13 信江流域方案1模拟结果
Fig. 13 XinJiang River Basin’s scenario 1 simulation results
图 14 信江流域方案2模拟结果
Fig. 14 XinJiang River Basin’s scenario 2 simulation results
图 15 信江流域方案3模拟结果
Fig. 15 XinJiang River Basin’s scenario 3 simulation results

表 3 模拟结果汇总表
Table 3 Summary of the simulation results

下载CSV 
径流站 方案 数据 训练期 验证期
MSE MSE Ens R2 Re
赣江(外洲) 1 3B42 V7 0.000951 0.058212 0.88 0.88 0.30
2 融合站点(13个) 0.000701 0.049782 0.91 0.92 0.71
3 动态驱动 0.000472 0.038978 0.95 0.95 0.28
抚河(李家渡) 1 3B42 V7 0.021118 0.038904 0.85 0.85 5.46
2 融合站点(5个) 0.019919 0.027668 0.92 0.93 1.32
3 动态驱动 0.022931 0.026095 0.94 0.94 −1.40
信江(梅港) 1 3B42 V7 0.001601 0.051132 0.65 0.67 0.07
2 融合站点(6个) 0.000751 0.032860 0.87 0.87 −1.63
3 动态驱动 0.002085 0.023325 0.94 0.94 −0.27

各子流域模拟结果如图7图15所示,其中蓝色曲线代表模拟结果,橙色曲线代表观测真值。各精度评价指标如表3所示,结果表明,(1)方案1仅通过TRMM降雨数据驱动模拟,在不同流域的精度差别较大。原因可能在于3B42_V7在日时间尺度上与地面雨量站观测值间的相关系数,在0.25°空间网格尺度上仅为0.71左右(唐国强,2015刘硕,2017),其对实际降雨量的表征能力对日径流模拟精度来说还是具有一定影响。(2)方案2通过少量地面站点数据融合后,精度有较大的提高。(3)方案3采用动态数据驱动模式相比静态数据驱动模式,对模拟精度有进一步提高,尤其是对于静态模式精度较低的流域,提高更为明显。

3.5 与现有机理模型对比分析

鄱阳湖流域日径流模拟目前以分布式水文模型为主,考虑湖泊流域特点通过复杂的数学模型对地表—地下径流进行耦合模拟,模拟的水文过程包括冠层截留、冠层蒸散、地表入渗、土壤蓄水、土壤垂向渗漏、土壤水平侧向流、土壤蒸发、坡面汇流、河道汇流、地下水运动等。虽然模型的主要驱动条件是降雨和潜在蒸散发数据,但其输入数据一般还包括大量静态栅格数据(如数字高程模型、叶面积指数、土地利用数据、土壤饱和渗透、田间持水量、总空隙度等),一旦流域范围偏大时,计算耗时较长。在鄱阳湖流域水文模型应用代表性的有WATLAC(王野乔 等,2016)、CREST(刘硕,2017唐国强 等,2015)、VIC(黄钰瀚 等,2016费明哲,2015)、新安江模型(费明哲,2015)、GR4J(胡庆芳,2013)等。

下面分别从TRMM_3B42_V7降水模拟、融合降水模拟、最佳模拟精度来进行各类机理模型与本文DTSM模型进行比对分析。

表4中可以看出,静态数据驱动模式下,在使用TRMM_3B42_V7降水作为输入模拟赣江流域汇水径流时,相对于已有的CREST、VIC和新安江模型中的最高精度,本文DTSM模型的纳希效率系数Ens提高4个百分点、确定性系数R2提高3个百分点,相对误差Re仅略低0.22个百分点。

表5中可以看出,静态数据驱动模式下,在使用TRMM_3B42_V7降水和地面站点融合作为输入模拟赣江流域汇水径流时,相对于GR4J、CREST模型中的最高精度,本文DTSM模型的纳希效率系数Ens、确定性系数R2、相对误差Re均为最好,其中Ens精度提高12个百分点以上,R2精度提高2个百分点,Re精度绝对值提高1.7个百分点。

表 4 TRMM_3B42_V7降水模拟精度对比
Table 4 Accuracy comparison of TRMM_3B42_V7 precipitation simulation

下载CSV 
模型简称 模拟流域(站点) 纳希效率系数Ens 确定性系数R2 相对误差Re
CREST(刘硕,2017) 赣江(外洲) 0.67 0.71 -10.34
VIC(黄钰瀚 等,2016) 赣江(外洲) 0.780 0.781 -1.700
新安江模型(费明哲,2015) 赣江(外洲) 0.838 0.848 -0.08
本文DTSM模型 赣江(外洲) 0.88 0.88 0.30

表 5 融合降水模拟精度对比
Table 5 Accuracy comparison of fusion precipitation simulation

下载CSV 
模型简称 模拟流域(站点) 纳希效率系数Ens 确定性系数R2 相对误差Re
CREST(刘硕,2017) 赣江(外洲) 0.79 0.79 -3.27
GR4J(胡庆芳,2013) 赣江(外洲) 0.90 -2.4
本文DTSM模型 赣江(外洲) 0.91 0.92 0.71

表6中可以看出,不论输入数据情况,只看各类模型的最高精度比较。在赣江流域,本文DTSM模型的纳希效率系数Ens、确定性系数R2精度提高5个百分点,相对误差Re精度仅略降低0.2个百分点。

表 6 赣江流域模型各自最佳模拟精度对比
Table 6 Accuracy comparison of the best simulation in Gan River valley

下载CSV 
模型简称 模拟流域(站点) 纳希效率系数Ens 确定性系数R2 相对误差Re
WATLAC(李云良 等,2013) 赣江(外洲) 0.90 0.90 0.76
CREST(刘硕,2017) 赣江(外洲) 0.79 0.79 -3.27
GR4J(胡庆芳,2013) 赣江(外洲) 0.90 -2.4
VIC(黄钰瀚 等,2016) 赣江(外洲) 0.855 0.867 -4.75
新安江模型(费明哲,2015) 赣江(外洲) 0.838 0.848 -0.08
本文DTSM模型 赣江(外洲) 0.95 0.95 0.28

在信江流域,纳希效率系数Ens精度提高18个百分点,确定性系数R2精度提高11个百分点,相对误差Re仅略降低0.12个百分点。

总体来看,本文DTSM模型在鄱阳湖流域对径流的模拟精度要优于现有的WATLAC、CREST、VIC、GR4J、新安江模型等现有的机理模型,且对多个子流域都有较好的模拟效果,证明该模型具备有效性和普适性。

3.6 与传统辨识模型法对比分析

按照模拟模型的类型分类,本文提出的DTSM方法属于辨识模型法。下面选取辨识模型法中广泛应用的支持向量回归机SVR(Support Vector Regression)和多层感知机MLP(Multilayer Perceptron)进行对比试验。SVR是机器学习在函数回归领域的典型算法,MLP是人工神经网络最基础的网络模型,具有代表性。

表 8 DTSM方法与辨识模型精度对比
Table 8 Accuracy comparison between DTSM methods and Identification Models

下载CSV 
模型简称 模拟流域(站点) 纳希效率系数Ens 确定性系数R2 相对误差Re
SVR 赣江(外洲) 0.64 0.77 3.58
抚河(李家渡) 0.52 0.80 50.20
信江(梅港) 0.66 0.72 24.00
MLP 赣江(外洲) 0.88 0.89 0.68
抚河(李家渡) 0.90 0.91 11.38
信江(梅港) 0.86 0.80 -1.81
本文的DTSM模型 赣江(外洲) 0.95 0.95 0.28
抚河(李家渡) 0.94 0.94 -1.40
信江(梅港) 0.94 0.94 -0.27

表7中可以看出,SVR在3个子流域上面的模拟效果都很差,MLP在赣江流域的模拟精度较高,与本文模型不分上下,但是MLP在数据量较少的抚河、信江两个流域模拟效果下降,与本文模型精度有一定差距,确定性系数R2最大相差14个百分点,相对误差Re最大相差近10个百分点,DTSM模型由于采用了更适合处理时序数据的RNN网络,结果表明比SVR、MLP方法的模拟效果都要好很多,且在数据量偏少的抚河和信江流域模拟精度不受影响,比SVR、MLP对数据量的适应性强。

表 7 信江流域模型各自最佳模拟精度对比
Table 7 Accuracy comparison of the best simulation in Xin River valley

下载CSV 
模型简称 模拟流域(站点) 纳希效率系数Ens 确定性系数R2 相对误差Re
WATLAC(王野乔 等,2016) 信江(梅港) 0.76 0.83 -14.0
VIC(费明哲,2015) 信江(梅港) 0.572 0.584 -0.147
本文DSTM模型 信江(梅港) 0.94 0.94 -0.27

4 结 论

在湖泊流域汇水径流过程的模拟预测方面,机理模型法精度较为优良,但模型依据其明确的物理意义,需要较多种类的数据输入且解算复杂,不易于接入动态数据。辨识模型法在数据输入、数据接入方面具有较大的灵活性,对输入数据的种类要求降低且易于接入动态数据,但模型需要较强的非线性表达能力, 以适应径流运动变化过程的要求,否则模拟精度较低。针对辨识模型法模拟精度较低的问题,本文基于循环神经网络,提出了DTSM模型,能够刻画时序数据在时间序列上的非线性和不确定性,使得径流模拟精度显著提高。同时,DTSM模型发挥了辨识模型法在动态性和灵活性方面的优势: (1)模型输入数据种类减少。(2)融合地面观测点数据与遥感数据有利于提高精度。(3)可在模拟过程中动态接入和加载动态观测的反馈数据,使得模型不断地利用观测数据自动调整模拟轨迹,来减小模拟系统的误差。实验证明,相比较现有机理模型,在更少种类的数据支持下,DTSM模型可以达到同样等级的精度,甚至更优,特别是在有动态数据支持的情况下。

参考文献(References)

  • Carlson R F, MacCormick A J A and Watts D G. 1970. Application of linear random models to four annual streamflow series. Water Resources Research, 6 (4): 1070–1078. [DOI: 10.1029/WR006i004p01070]
  • Cheng T T, Li S, Zhang X G and Zhang Y T. 2016. Study on the relationship between rainfall and runoff in Yaoxiang small watershed of Shandong province. Journal of Soil and Water Conservation, 30 (2): 34–37, 43. [DOI: 10.13870/j.cnki.stbcxb.2016.02.006] ( 程甜甜, 李赛, 张兴刚, 张永涛. 2016. 山东药乡小流域降雨径流关系研究. 水土保持学报, 30 (2): 34–37, 43. [DOI: 10.13870/j.cnki.stbcxb.2016.02.006] )
  • Fei M Z. 2015. Accuracy Analysis and Application of New Generation TRMM V7 Precipitation Product in Poyang Lake Basin. Nanjing: Nanjing University of Posts and Telecommunications (费明哲. 2015. 新一代TRMM V7降水产品在鄱阳湖流域精度分析及应用研究. 南京: 南京邮电大学)
  • Gers F A, Schraudolph N N and Schmidhuber J. 2002. Learning precise timing with LSTM recurrent networks. Journal of Machine Learning Research, 3 (1): 115–143.
  • Google. 2017. Tensorflow Chinese community[EB/OL]. http://www.tensorfly.cn/.2018.10
  • Graves A, Fernández S and Schmidhuber J. 2005. Bidirectional LSTM networks for improved phoneme classification and recognition//Proceedings of the 15th International Conference Artificial Neural Networks: Formal MODELS and Their Applications - ICANN 2005. Warsaw, Poland: Springer: 799-804
  • Graves A. 2012. Sequence transduction with recurrent neural networks. Computer Science, 58 (3): 235–242.
  • Guo J, Zhou J Z, Zhang Y C, Song L X and Liu Q. 2010. Daily runoff forecast based on improved support vector machine regression model. Water Power, 36 (3): 12–15. [DOI: 10.3969/j.issn.0559-9342.2010.03.004] ( 郭俊, 周建中, 张勇传, 宋利祥, 刘强. 2010. 基于改进支持向量机回归的日径流预测模型. 水力发电, 36 (3): 12–15. [DOI: 10.3969/j.issn.0559-9342.2010.03.004] )
  • Hammer C L and Small G W. 2000. Artificial neural networks for the automated detection of trichloroethylene by passive fourier transform infrared spectromrtry. Analytical Chemistry, 72 (7): 1680–1689. [DOI: 10.1021/ac991075s]
  • Hochreiter S and Schmidhuber J. 1997. Long short-term memory. Neural Computation, 9 (8): 1735–1780. [DOI: 10.1162/neco.1997.9.8.1735]
  • Hu P. 2004. Application Research on Rainfall-Runoff Combinatorial Forecasting Theory. Wuhan: Huazhong University of Science and Technology (胡平. 2004. 降雨径流组合预测理论及其应用研究. 武汉: 华中科技大学)
  • Hu Q F. 2013. Rainfall Spatial Estimation Using Multi-source Information and Its Hydrological Application. Beijing: Tsinghua University (胡庆芳. 2013. 基于多源信息的降水空间估计及其水文应用研究. 北京: 清华大学)
  • Huang Y H, Zhang Z X, Fei M Z and Jin Q. 2016. Hydrological evaluation of the TMPA multi-satellite precipitation estimates over the Ganjiang Basin. Resources and Environment in the Yangtze Basin, 25 (10): 1618–1625. [DOI: 10.11870/cjlyzyyhj201610017] ( 黄钰瀚, 张增信, 费明哲, 金秋. 2016. TRMM 3B42卫星降水数据在赣江流域径流模拟中的应用. 长江流域资源与环境, 25 (10): 1618–1625. [DOI: 10.11870/cjlyzyyhj201610017] )
  • Jiangxi Hydrology Information Network. 2017. http://www.jxsl.gov.cn/slxxhw/jhsq/index.html.2018-10-1 (江西水文信息网.2017. http://www.jxsl.gov.cn/slxxhw/jhsq/index.html)
  • Li Y L, Zhang Q and Li X H. 2013. Multi-objectives model calibration for distributed hydrological model in the Poyang lake watershed. Resources and Environment in the Yangtze Basin, 22 (5): 565–572. ( 李云良, 张奇, 李相虎. 2013. 鄱阳湖流域分布式水文模型的多目标参数率定. 长江流域资源与环境, 22 (5): 565–572. )
  • Liu J K, Zhang Z M, Yan G X and Yu X X. 2016. Multi-scale analysis on precipitation-runoff relationship in Chaobaihe basin. Science of Soil and Water Conservation, 14 (4): 50–59. [DOI: 10.16843/j.sswc.2016.04.007] ( 刘佳凯, 张振明, 鄢郭馨, 余新晓. 2016. 潮白河流域径流对降雨的多尺度响应. 中国水土保持科学, 14 (4): 50–59. [DOI: 10.16843/j.sswc.2016.04.007] )
  • Liu S. 2017. Precipitation Data Fusion and Its Application in Hydrological Simulation of TRMM Satellite and Ground Rainfall Network. Wuhan: Wuhan University (刘硕. 2017. TRMM卫星与地面雨量站网的降水数据融合及其水文模拟应用. 武汉: 武汉大学)
  • Lv Y J, Peng X H, Gao L and Zhang Z B. 2014. Characteristics of runoff and soil loss and their influential factors on sloping land in red soil hilly region. Journal of Soil and Water Conservation, 28 (6): 19–23, 51. [DOI: 10.13870/j.cnki.stbcxb.2014.06.004] ( 吕玉娟, 彭新华, 高磊, 张中彬. 2014. 红壤丘陵岗地区坡地产流产沙特征及影响因素研究. 水土保持学报, 28 (6): 19–23, 51. [DOI: 10.13870/j.cnki.stbcxb.2014.06.004] )
  • Machado F, Mine M, Kaviski E and Fill H. 2011. Monthly rainfall–runoff modelling using artificial neural networks. Hydrological Sciences Journal, 56 (3): 349–361. [DOI: 10.1080/02626667.2011.559949]
  • NASA Earth Data. 2017. [EB/OL]. https://mirador.gsfc.nasa.gov. 2018-10-1
  • National Meteorological Information Center. 2017. [EB/OL]. http://data.cma.cn (国家气象信息中心. 2017. [EB/OL].)
  • Tang G Q, Li Z, Xue X W, Hu Q F, Yong B and Hong Y. 2015. A study of substitutability of TRMM remote sensing precipitation for gauge-based observation in Ganjiang River basin. Advances in Water Science, 26 (3): 340–346. [DOI: 10.14042/j.cnki.32.1309.2015.03.005] ( 唐国强, 李哲, 薛显武, 胡庆芳, 雍斌, 洪阳. 2015. 赣江流域TRMM遥感降水对地面站点观测的可替代性. 水科学进展, 26 (3): 340–346. [DOI: 10.14042/j.cnki.32.1309.2015.03.005] )
  • Wang L N, Li Y A and Chen X H. 2009. Prediction of rainfall-runoff based on support vector machine method. Journal of China Hydrology, 29 (1): 13–16. [DOI: 10.3969/j.issn.1000-0852.2009.01.004] ( 汪丽娜, 李粤安, 陈晓宏. 2009. 基于支持向量机的降雨—径流预测研究. 水文, 29 (1): 13–16. [DOI: 10.3969/j.issn.1000-0852.2009.01.004] )
  • Wu C L, Chau K W and Fan C. 2010. Prediction of rainfall time series using modular artificial neural networks coupled with data-preprocessing techniques. Journal of Hydrology, 389 (1/2): 146–167. [DOI: 10.1016/j.jhydrol.2010.05.040]
  • Yang Z L, Zhang J, Chen X, Zhang J L and Chen H X. 2007. " Mechanism model + identification model” strategy for Prediction of complex systems’ behavior Online[EB/OL]. [2006-09-29]. http://www.paper.edu.cn/releasepaper/content/200609-432 (杨正瓴, 张军, 陈曦, 张惊雷, 陈红新. 2007. 复杂系统行为预测的" 机理+辨识”策略. 中国科技论文在线[2006-09-29]. http://www.paper.edu.cn/releasepaper/content/200609-432)
  • Wang Y Q, Gong J Y, Xia J, Lin H, Dai X Z and Fang C Y. 2006. Ecological security and monitoring in Poyang Lake basin. Beijing: Science Press (王野乔, 龚建雅, 夏军, 林辉, 戴星照, 方朝阳. 2016. 鄱阳湖流域生态安全及其监控. 北京: 科学出版社)
  • Zhao X H, Chen X and Yuan X Q. 2014. Application of data-driven model based on empirical mode decomposition for runoff forecasting. Systems Engineering, (9): 150-154 (赵雪花, 陈旭, 袁旭琦. 2014. 基于EMD的数据驱动模型在径流预测中的应用. 系统工程, (9): 150-154)
  • Zhou Z H. 2016. Machine Learning. Beijing: Tsinghua University Press (周志华. 2016. 机器学习. 北京: 清华大学出版社)
  • Zuo G G. 2017. The Research of Wei River Runoff Prediction System Based on Machine Learning. Xi’an University of Technology. (左岗岗. 2017. 基于深度学习的渭河流域径流预测系统研究.西安理工大学)