文章快速检索     高级检索
  大地测量与地球动力学  2019, Vol. 39 Issue (2): 153-157  DOI: 10.14075/j.jgg.2019.02.009

引用本文  

高彩云, 高宁. 一种基于M估计的Robust-ELM滑坡位移预测方法[J]. 大地测量与地球动力学, 2019, 39(2): 153-157.
GAO Caiyun, GAO Ning. A Robust-ELM Approach Based on M Estimation for Landslide Displacement Prediction[J]. Journal of Geodesy and Geodynamics, 2019, 39(2): 153-157.

项目来源

国家自然科学基金(51474217)。

Foundation support

National Natural Science Foundation of China, No. 51474217.

第一作者简介

高彩云,博士,讲师,主要研究方向为滑坡地质灾害演化、防治控制和数值分析,E-mail:gaocaiyungao@163.com

About the first author

GAO Caiyun, PhD, lecturer, majors in evolution, control and numerical analysis of landslide geological hazard, E-mail: gaocaiyungao@163.com.

文章历史

收稿日期:2018-01-03
一种基于M估计的Robust-ELM滑坡位移预测方法
高彩云1,2     高宁1     
1. 河南城建学院测绘与城市空间信息学院,河南省平顶山市龙翔大道,4670362;
2. 东华理工大学江西省数字国土重点实验室,南昌市广兰大道418号,330013
摘要:采用传统ELM算法进行滑坡位移预测时,其网络输出权值由最小二乘估计得出,导致ELM抗差能力较差,从而造成网络训练参数不准确。为此,将M估计与ELM相结合,提出一种基于M估计的Robust-ELM滑坡变形预测方法。该方法利用加权最小二乘方法来取代最小二乘法计算ELM输出权值,以减少滑坡监测数据中粗差对ELM预测的干扰。分别以链子崖、古树屋滑坡体为例,将Robust-ELM进行了单维、多维粗差的抵御性验证。结果表明,该方法能够有效降低粗差对预测的影响,具有良好的抗差能力。
关键词滑坡位移预测M估计ELM粗差

滑坡的发生不仅给人类的生命、财产安全带来严重威胁,还给资源、环境、生态等各方面带来巨大破坏。滑坡灾害的预测工作是滑坡灾害综合防治的有效途径之一,但由于滑坡发展演化的影响因素众多,使得滑坡运动具有开放性、复杂性和不确定性等特点[1],导致很难采用传统方法对其进行准确预测。以智能算法为主要研究手段开展的滑坡位移预测研究,如BP(back propagation)、RBF(radial basis function)神经网络以及SVM(support vector machine)等得到广泛应用,但实践表明,上述算法存在如下不足[2-3]

1) BP算法存在训练时间长、网络收敛速度慢、易陷入局部极小的问题;

2) RBF算法在网络训练过程中需以“聚类算法迭代”为基础选取基函数中心,当建模样本数量较大时,训练耗时较长,也易陷入局部极小;

3) SVM存在如何采取适当惩罚函数来防止过拟合、核参数选取困难等问题。

极限学习机(extreme learning machine,ELM)作为近年来发展起来的一种单隐层前馈神经网络学习算法,具有泛化能力强、学习速度快、网络参数设置简单等优点,逐渐被相关学者引入到滑坡变形预测中来。如周超等[4]利用小波分析对滑坡位移序列进行分解,进而利用ELM算法对其分解量进行预测,并将其应用于三峡库区八字门滑坡位移预测;李骅锦等[5]基于ELM与OS-ELM分别对长江三峡库区白水河滑坡的趋势项和周期项进行建模预测,取得了较好的预测效果。然而,由于ELM的输出权重直接由最小二乘估计方法得出,如果训练数据存在粗差干扰,则输出层权值的最小二乘估计结果会很差,从而导致预测结果失真。为此,本文将M估计与ELM相结合,提出一种基于M估计的Robust-ELM滑坡变形预测方法,以减少滑坡监测数据中粗差对ELM预测的干扰。

1 ELM算法

ELM算法[6]较传统的单隐层前馈神经网络,克服了传统梯度算法易陷入局部极小的局限性,具有网络调节参数少、学习速度快及泛化能力强等优点。ELM网络由输入层、隐含层和输出层组成。设mLn分别为输入层、隐含层和输出层的节点数,假定存在N个不同的样本(xi, ti),其中网络输入xi=[xi1, xi2, …, xim]TRn,网络的期望输出ti=[ti1, ti2, …, tim]TRm,则ELM训练模型可表示为[7-8]

$ {y_j} = \sum\limits_{i = 1}^L {{\beta _i}g\left( {{w_i}{x_j} + {b_i}} \right)} ,j = 1,2, \cdots ,N $ (1)

式中,yj表示ELM期望输出,βi为隐含层第i个神经元与输出层神经元间的连接权值,wi表示输入层神经元与隐含层第i个神经元的连接权,bi为隐含层神经元的阈值,g(x)为激励函数。假定训练样本数量N与隐含层神经元数量L相等,则对于任意给定的wibi,ELM都可以零误差逼近训练样本,即

$ \sum\limits_{j = 1}^N {\left\| {{t_j} - {y_j}} \right\|} = 0 $ (2)

顾及式(1),则式(2)可改写为:

$ \sum\limits_{i = 1}^L {{\beta _i}g\left( {{w_i}{x_j} + {b_i}} \right)} = {t_j},j = 1,2, \cdots ,N $ (3)

其矩阵表达式为:

$ \mathit{\boldsymbol{H\beta }} = \mathit{\boldsymbol{T}} $ (4)

式中,H为隐含层输出矩阵,T为网络输出矩阵。ELM的网络训练目标可以归结为非线性优化问题:

$ \begin{array}{l} {\rm{Minimize}}:\left\| {\mathit{\boldsymbol{H\beta }} - \mathit{\boldsymbol{y}}} \right\|\;\;\;\;\;{\rm{and}}\;\;\;\;\;\left\| \mathit{\boldsymbol{\beta }} \right\|\\ {\rm{s}}.\;{\rm{t}}.\;\;\sum\limits_{i = 1}^L {{\beta _i}g\left( {{w_i}{x_j} + {b_i}} \right) = {y_j}} ,j = 1,2, \cdots ,N \end{array} $ (5)

g(x)无限可微时,连接权值wi和阈值bi在网络训练开始时可随机给定,则隐含层输出矩阵H固定不变,那么ELM的训练过程可以看作求解线性系统 = T关于$ \hat \beta $的最小二乘解:

$ \mathit{\boldsymbol{\hat \beta }} = {\mathit{\boldsymbol{H}}^ + }\mathit{\boldsymbol{T}} $ (6)

式中,H+为矩阵H的Moore-Penrose广义逆。H+的计算方法有多种,其中$ {\mathit{\boldsymbol{\hat \beta }}_{{\text{LS}}}} = {({\mathit{\boldsymbol{H}}^{\text{T}}}\mathit{\boldsymbol{H}})^{ - 1}}{\mathit{\boldsymbol{H}}^{\text{T}}}\mathit{\boldsymbol{T}} $β的最小二乘估计[9-10]

2 ELM输出权值辨识

考虑误差V的存在,将式(4)改写为:

$ \mathop {\mathit{\boldsymbol{H}}}\limits_{N \times L} \mathop {\mathit{\boldsymbol{\beta }}}\limits_{L \times m} {\rm{ = }}\mathop {\mathit{\boldsymbol{T}}}\limits_{N \times m} + \mathop {\mathit{\boldsymbol{V}}}\limits_{N \times 1} $ (7)

其误差方程为:

$ \mathit{\boldsymbol{V}} = \mathit{\boldsymbol{H\hat \beta }} - \mathit{\boldsymbol{T}} $ (8)

式中,$ \mathit{\boldsymbol{\hat \beta }} $为待估参数,且满足VTPV =min的约束条件(P为观测值权阵),则

$ \mathit{\boldsymbol{\hat \beta }} = {\left( {{\mathit{\boldsymbol{H}}^{\rm{T}}}\mathit{\boldsymbol{PH}}} \right)^{ - 1}}{\mathit{\boldsymbol{H}}^{\rm{T}}}\mathit{\boldsymbol{PT}} $ (9)

当权重P为单位矩阵时,式(9)的形式与$ \mathit{\boldsymbol{\hat \beta }} $LS=(HTH)-1HTT完全相同。

3 基于M估计的Robust-ELM

M估计准则为[11]

$ \sum\limits_{i = 1}^n {\rho \left( {{V_i}} \right)} = \min $ (10)

通常残差V为未知参数的函数,将式(10)对参数X求导,并令其等于0,以求出极值点:

$ \partial \sum\limits_{i = 1}^n {\rho \left( {{V_i}} \right)/\partial \mathit{\boldsymbol{X}}} = \sum\limits_{i = 1}^n {\rho '\left( {{V_i}} \right)\frac{{\partial \mathit{\boldsymbol{V}}}}{{\partial \mathit{\boldsymbol{X}}}}} = 0 $ (11)

顾及式(7)、式(8),则式(11)可改写为:

$ \sum\limits_{i = 1}^n {{\mathit{\boldsymbol{H}}^{\rm{T}}}\frac{{\rho '\left( {{V_i}} \right)}}{{{V_i}}}\left( {\mathit{\boldsymbol{H\beta }} - \mathit{\boldsymbol{T}}} \right)} = 0 $ (12)

$ \frac{{\rho '({V_i})}}{{{V_i}}} $为权函数P(Vi),即

$ \mathit{\boldsymbol{P}}\left( {{V_i}} \right) = \frac{{\rho '\left( {{V_i}} \right)}}{{{V_i}}} $ (13)

则式(12)变为:

$ \sum\limits_{i = 1}^n {{\mathit{\boldsymbol{H}}^{\rm{T}}}\mathit{\boldsymbol{P}}\left( {{V_i}} \right){V_i}} = 0 $ (14)

$ \sum\limits_{i = 1}^n {{\mathit{\boldsymbol{H}}^{\rm{T}}}\mathit{\boldsymbol{P}}\left( {{V_i}} \right)\left( {\mathit{\boldsymbol{H\beta }} - \mathit{\boldsymbol{T}}} \right)} = 0 $ (15)

其矩阵表达式为:

$ {\mathit{\boldsymbol{H}}^{\rm{T}}}\mathit{\boldsymbol{P}}\left( {{V_i}} \right)\mathit{\boldsymbol{H\hat \beta }} - {\mathit{\boldsymbol{H}}^{\rm{T}}}\mathit{\boldsymbol{P}}\left( {{V_i}} \right)\mathit{\boldsymbol{T}} = 0 $ (16)

式(16)与最小二乘估计中的法方程式(11)在形式上完全一致,不同之处在于,式(16)利用权函数矩阵P(V) =diag(P1(Vi), P2(Vi), …,Pn(Vi))代替了观测值权阵P,则在M估计下ELM网络输出权值矩阵为:

$ \mathit{\boldsymbol{\hat \beta }} = {\left( {{\mathit{\boldsymbol{H}}^{\rm{T}}}\mathit{\boldsymbol{P}}\left( \mathit{\boldsymbol{V}} \right)\mathit{\boldsymbol{H}}} \right)^{ - 1}}{\mathit{\boldsymbol{H}}^{\rm{T}}}\mathit{\boldsymbol{P}}\left( \mathit{\boldsymbol{V}} \right)\mathit{\boldsymbol{T}} $ (17)

由式(15)、式(16)可知,式(17)的求解过程类似最小二乘估计的计算过程,不同的是,权函数P (Vi)是残差的函数,计算前未知,通过赋予一定的初始值,由迭代计算方法估计参数$ \mathit{\boldsymbol{\hat \beta }} $

在迭代计算中,根据残差值的大小,赋予各观测值不同的权重,通过反复计算,迭代完成时,含有粗差的观测值权重趋近于零或某个极小值,从而达到抗粗差的目的。利用上述估计下求解ELM的输出权值$ \mathit{\boldsymbol{\hat \beta }} $,本文称之为Robust-ELM(简记为RELM)。

RELM抗粗差性是通过等价权原理实现的,权函数的选取有多种不同的形式,比较常用的有Huber法、一次范数最小法、P范数最小法、IGG法等[11],本文选取一次范数最小法,即

$ \mathit{\boldsymbol{P}}\left( \mathit{\boldsymbol{V}} \right) = \frac{1}{{\left| \mathit{\boldsymbol{V}} \right| + K}} $ (18)

式中,K是一个很小的量。

4 Robust-ELM算法流程

给定任意训练样本(xi, ti),其中xi=[xi1, …,xin]TRnti=[ti1, …,tim]TRm,激励函数为g(x),设网络隐含节点为LLN,则RELM训练步骤如下:

1) 随机给定输入权值ai,隐含层节点的偏差bi

2) 根据激励函数g(x),计算隐含层输出矩阵H

3) 选取最小二乘估计的$ \mathit{\boldsymbol{\hat \beta }} $ =(HTH)-1HTT为迭代初值,计算初始残差V

4) 由选取的权函数P(V),求取每个观测量的初始权值;

5) 利用式(17)求解ELM的输出权值$ \mathit{\boldsymbol{\hat \beta }} $(i)

6) 迭代计算,重复步骤1)~5),直到max|$ \mathit{\boldsymbol{\hat \beta }} $(i)$ \mathit{\boldsymbol{\hat \beta }} $(i)|≤ε或迭代次数达到预设的最大次数时,迭代结束。

5 Robust-ELM滑坡预测中的抗粗差性验证 5.1 数据源 5.1.1 链子崖滑坡

链子崖危岩体是长江流域稳定性最差的大型灾害性崩滑体,与北岸新滩滑坡隔江对峙,上距秭归县城15.5 km,下距三峡大坝26.5 km,其地理位置紧扼长江航道咽喉,一旦崩滑将对长江航运及附近城镇居民带来严重的影响。自1989年以来,我国相关部门针对链子崖的防治工作,采用相关大地测量监测设备,对T0~T6缝危岩区、T7缝危岩区、T8~T12缝危岩区3个重点区域布设大量监测点进行定期监测。GA监测点位移曲线如图 1所示。

图 1 链子崖滑坡GA点监测位移曲线 Fig. 1 Displacement curve of point GA of Lianziya landslide
5.1.1 古树屋滑坡

古树屋滑坡位于湖北省境内,沪-蓉-西高速宜昌至恩施段东起宜昌长江公路大桥,该高速在巴东县境内,地质环境属于典型的喀斯特地貌,加之沟壑纵横,其断面跨越2道峡谷,穿越8座高山,线路走向复杂,在巴东古树屋段施工过程中发现边坡有较大变形,为了保障高速公路施工安全,对古树屋滑坡进行监测,其主滑方向中部3#监测点的变形时序曲线见图 2所示。

图 2 古树屋滑坡3#点监测位移曲线 Fig. 2 Displacement curve of point 3# of Gushuwu landslide
5.2 Robust-ELM对单个粗差的抵御性验证 5.2.1 链子崖滑坡

利用链子崖滑坡体GA点进行如下实验:

1) GA点共计11期观测数据,在第6期(1983年)观测值44.93 mm中加入2 mm粗差(粗差值的大小根据监测数据趋势和经验确定),即假定第6期观测数据为46.93 mm。

2) 利用加入粗差后的滑坡数据进行ELM预测:建模样本为1978~1986年9期数据,检验样本为1987~1988年9期数据;网络拓扑结构为:输入节点为2,输出节点为1,隐含层神经元数量为6,激励函数为Sigmoid。

3) Robust-ELM预测:以实验2)中ELM预测结果为基础,构建Robust-ELM预测模型,其中迭代权函数为一次范数法,以最大迭代次数100次为收敛条件。

将2)、3)结果与正常情况下(不含粗差时)的预测残差进行对比,如图 3所示。

图 3 3种情况下预测残差对比 Fig. 3 Comparison of predicted residual error by ELM and RELM
5.2.2 古树屋滑坡

利用古树屋滑坡体3#点进行如下实验:

1) 3#点共计33期观测数据,在第28期观测值7.4 mm中加入2 mm粗差(粗差值的大小根据监测数据趋势和经验确定),即假定第28期观测数据为9.4 mm。

2) 利用加入粗差后的滑坡数据进行ELM预测:建模样本为1~28期数据,检验样本为29~33期数据;网络拓扑结构为:输入节点为3,输出节点为1,隐含层神经元数量7,激励函数Sigmoid。

3) Robust-ELM预测:以实验2)中ELM预测结果为基础,构建Robust-ELM预测模型,其中迭代权函数为一次范数法,以最大迭代次数100次为收敛条件。

将2)、3)结果与正常情况下(不含粗差时)的预测残差进行对比,如图 4所示。

图 4 3种情况下预测残差对比 Fig. 4 Comparison of predicted residual error by ELM and RELM

图 3图 4可知,当滑坡监测数据中不含粗差时,利用ELM进行滑坡预测所获取的残差值大体符合正态分布。由于粗差的加入,使得预测残差波动起伏较大,破坏了原有残差概率分布。利用RELM对算例1、算例2的检验样本预测结果见表 1(单位mm)、表 2(单位mm)。

表 1 ELM和RELM网络对链子崖GA点位移的预测结果(含粗差时) Tab. 1 Results of ELM and RELM neural network for point GA of Lianziya landside

表 2 ELM和RELM网络对古树屋3#点位移的预测结果(含粗差时) Tab. 2 Results of ELM and RELM neural network for point 3# of Gushuwu landside

表 1表 2可以看出,Robust-ELM具有抗粗差的性质,而传统ELM不具备该性质。

5.3 Robust-ELM对多维粗差的抵御性验证

为验证Robust-ELM对多个粗差的抵御性,利用古树屋滑坡体3#点进行如下实验:

1) 3#点共计33期观测数据,在第6期、第18期、第28期观测值中分别加入2 mm粗差。

2) 利用加入粗差后的滑坡数据进行ELM预测:建模样本为1~28期数据,检验样本为29~33期数据;网络拓扑结构为:输入节点为3,输出节点为1,隐含层神经元数量为4,激励函数为Sigmoid。

3) Robust-ELM预测:以实验2)中ELM预测结果为基础,构建Robust-ELM预测模型,其中迭代权函数为一次范数法,以最大迭代次数100次为收敛条件。

将2)、3)的预测结果进行对比,如图 5所示。

图 5 RELM对多个粗差的抵御效果 Fig. 5 Predicted results of RELM under the condition of multiple gross errors in original data

图 5可知,当滑坡数据中含有多个粗差时,利用ELM进行预测时,所得预测结果与真实值存在很大偏差,且预测残差整体偏大;利用Robust-ELM经过100次迭代计算后,在第6期、18期、28期粗差点位上,预测残差明显小于ELM预测结果,且所得预测值与真实值较为逼近,说明Robust-ELM也具有抵抗多个粗差的性质。

6 结语

1) Robust-ELM滑坡预测模型,该方法具有良好的泛化能力,其不仅延续了ELM的快速学习特点,且对存在明显粗差的数据集,根据其每个样本残差的大小赋予不同的权重,从而降低了粗差对预测结果的影响。

2) 基于M估计的Robust-ELM算法能较好地抵御滑坡数据中的单个、多个粗差,且预测精度较高。

3) 在构建Robust-ELM算法过程中,并未讨论不同的迭代权函数及对Robust-ELM预测性能的影响,该工作是后期深入研究的重点。

参考文献
[1]
高彩云.基于智能算法的滑坡位移预测与危险性评价研究[D].北京: 中国矿业大学(北京), 2016 (Gao Caiyun. Research on Displacement Prediction and Risk Assessment of Landslide Based on Intelligent Algorithm[D]. Beijing: China University of Mining & Technology, 2016) http://cdmd.cnki.com.cn/Article/CDMD-11413-1016282346.htm (0)
[2]
Gao C Y, Cui X M. Nonlinear Time Series of Deformation Forecasting Using Improved BP Neural Networks[J]. Computer Modelling and New Technologies, 2014, 18(8): 249-253 (0)
[3]
曹洋兵, 晏鄂川, 谢良甫. 考虑环境变量作用的滑坡变形动态灰色-进化神经网络预测研究[J]. 岩土力学, 2012, 33(3): 847-852 (Cao Yangbing, Yan Echuan, Xie Liangfu. Study of Landslide Deformation Prediction Based on Gray Model-Evolutionary Neural Network Model Considering Function of Environmental Variables[J]. Rock and Soil Mechanics, 2012, 33(3): 847-852) (0)
[4]
周超, 殷坤龙, 黄发明. 混沌序列WA -ELM耦合模型在滑坡位移预测中的应用[J]. 岩土力学, 2015, 36(9): 2674-2680 (Zhou Chao, Yin Kunlong, Huang Faming. Application of the Chaotic Sequence WA-ELM Coupling Model in Landslide Displacement Prediction[J]. Rock and Soil Mechanics, 2015, 36(9): 2674-2680) (0)
[5]
李骅锦, 许强, 何雨森, 等. WA联合ELM与OS-ELM的滑坡位移预测模型[J]. 工程地质学报, 2016, 24(5): 721-731 (Li Huajin, Xu Qiang, He Yusen. Predictive Modeling of Landslide Displacement by Wavelet Analysis and Multiple Extreme Learning Machine[J]. Journal of Engineering Geology, 2016, 24(5): 721-731) (0)
[6]
Huang G B, Zhu Q Y, Siew C K. Universal Approximation Using Incremental Constructive Feed Forward Networks with Random Hidden Nodes[J]. IEEE Transaction on Neural Networks, 2006, 17(4): 879-892 DOI:10.1109/TNN.2006.875977 (0)
[7]
Huang G B, Zhou H.M, Ding X J, et al. Extreme Learning Machine for Regression and Multiclass Classification[J]. IEEE Transactioins on Systems, Man, and Cybernetics, 2012, 42(2): 513-529 DOI:10.1109/TSMCB.2011.2168604 (0)
[8]
Lian C, Zeng Z G, Yao W. Ensemble of Extreme Learning Machine for Landslide Displacement Prediction Based on Time Series Analysis[J]. Neural Computing and Applications, 2014, 24(1): 99-107 (0)
[9]
陈华, 章兢, 张小刚, 等. 一种基于Parzen窗估计的鲁棒ELM烧结温度检测方法[J]. 自动化学报, 2012, 38(5): 841-848 (Chen Hua, Zhang Jing, Zhang Xiaogang, et al. A Robust-ELM Approach Based on Parzen Windiow's Estimation for Kiln Sintering Temperature Detection[J]. Acta Automatica Sinica, 2012, 38(5): 841-848) (0)
[10]
Pan F, Zhao H B. Online Sequential Extreme Learning Machine Based Multilayer Perception with Output Self Feedback for Time Series Prediction[J]. Journal of Shanghai Jiaotong University, 2013, 18(3): 366-375 DOI:10.1007/s12204-013-1407-0 (0)
[11]
王新洲, 陶本藻. 高等测量平差[M]. 北京: 测绘出版社, 2006 (Wang Xinzhou, Tao Benzao. Advanced Surveying Adjustment[M]. Beijing: Surveying and Mapping Press, 2006) (0)
A Robust-ELM Approach Based on M Estimation for Landslide Displacement Prediction
GAO Caiyun1,2     GAO Ning1     
1. School of Geomatics and Urban Spatial Information, Henan University of Urban Construction, Longxiang Road, Pingdingshan 467036, China;
2. Key Laboratory for Digital Land and Resources of Jiangxi Province, East China Institute of Technology, 418 Guanglan Road, Nanchang 330013, China
Abstract: In predicting landslide displacement using traditional ELM algorithm, the solution of ELM network output weight parameter is based on least square estimation, leading to poor resistance to gross error of ELM algorithm. To enhance the resistance to gross error of the ELM algorithm, generalized maximum likelihood estimation (M estimation) is integrated with it and M estimation-based Robust-ELM landslide deformation displacement prediction is proposed. Then, the model is applied to predicting the deformation time series data monitored at the Lianziya and Gushuwu landslides. The case studies show that the traditional ELM algorithm is sensitive to gross error in landslide data and has poor resistance to gross error. M estimation-based Robust-ELM algorithm can better resist single and multiple gross errors in landslide data and its prediction accuracy is high.
Key words: prediction of landslide displacement; M estimation; extreme learning machine(EIM); gross error