环境科学学报  2015, Vol. 35 Issue (11): 3730-3735
基于关联向量机回归的水质预测模型    [PDF全文]
笪英云1, 汪晓东1 , 赵永刚2, 蒋敏兰1, 叶美盈1    
1. 浙江师范大学数理与信息工程学院, 金华 321004;
2. 江苏省环境监测中心, 南京 210036
摘要: 提出了一种基于关联向量机回归的水质时间序列预测模型,并以该模型对氢离子浓度指数(pH值)、溶解氧(DO)、高锰酸盐指数(CODMn)和氨氮(NH3-N) 4种重要水质指标进行预测.首先采用国家环保部发布的四川攀枝花龙洞水质自动监测数据进行实验,对该模型的有效性进行了验证;然后将关联向量机回归预测模型与支持向量机回归预测模型进行比较.为了比较不同核函数的预测效果,实验中预测模型的核函数分别采用了线性函数和高斯函数.实验结果表明,关联向量机回归模型的预测效果不亚于支持向量机回归模型;且在给出预测值时,还能同时给出预测结果的可信程度.
关键词: 水质指标    预测模型    关联向量机回归    支持向量机回归    
Water quality prediction model based on relevance vector machine regression
DA Yingyun1, WANG Xiaodong1 , ZHAO Yonggang2, JIANG Minlan1, YE Meiying1    
1. College of Mathematics Physics and Information Engineering, Zhejiang Normal University, Jinhua 321004;
2. Environmental Monitoring Center of Jiangsu Province, Nanjing 210036
Abstract: Water quality time series prediction model based on a relevance vector machine regression is proposed, which is applied to predict the four important water quality indexes of pH value, DO, CODMn and NH3-N. The Panzhihua Cave automatic water quality monitoring data released by the Ministry of Environmental is used to validate the effectiveness of the relevance vector machine regression prediction model, and then compared with the support vector machine regression prediction model. The linear and gaussian functions are selected as the kernel function to contrast the result of different kernel functions. Experimental results indicate that the relevance vector machine regression prediction model is no less than the support vector machine regression prediction model. Furthermore, the relevance vector machine regression can give the prediction values and also compute the confidence levels for prediction results.
Key words: water quality index    prediction model    relevance vector machine regression    support vector machine regression    
1 引言(Introduction)

根据水质监测历史数据,建立水质预测模型,准确地预测水体中污染物浓度随时间发展变化的趋势,是水环境管理和污染控制的基础工作.建立可靠的水质预测模型成为近年来水环境科学领域的研究热点之一.

水环境系统是一个受到生物、化学、物理、人为等多种因素影响的复杂系统,水质随时间非线性地变化,因此以传统方法很难建立一个精确的水质预测模型.然而,在一些局部水环境系统中,长期来看水质的变化是缓慢的、有规律可循的(Liu et al., 2013; Liu et al., 2014; 李冬等,2012).随着监测技术以及监测手段的多样化,通过对日益增多的监测数据进行分析和挖掘,借助近年来迅速发展的智能方法,建立人工神经网络非线性水质预测模型,使预测水体中污染物浓度随时间发展变化成为可能,并且已在水环境管理和污染控制中得到了应用(Maier and D and y, 2000).

目前,人工神经网络与支持向量机(Support Vector Machine,SVM)已广泛应用于金融、电力、医学及环境科学等领域的时间序列预测.在水质时间序列预测方面,人工神经网络预测模型(Durdu,2010; Gazzaz et al., 2012; 郭劲松等,2001; 李晓东等,2006; Maier and D and y, 19962000; Palani et al., 2008; Thoe et al., 2012)和SVM回归预测模型(Liu et al., 2013; Liu et al., 2014; Noori et al., 2012; Tan et al., 2012)也得到了一些较成功的应用.虽然人工神经网络具有强非线性映射和自适应能力,但其算法易出现过学习或欠学习、局部极小、网络结构难以确定、推广能力差等诸多问题(张成成等,2013).而SVM回归模型是一种建立在统计学习理论和结构风险最小化原则基础上的监督式学习方法(Vapnik,1995),该方法通过引入核函数将原始输入映射到线性可分的高维特征空间,具有泛化能力强、不易发生过拟合等优点,能较好地解决小样本、非线性、高维数和局部极小点等问题(Liao et al., 2011; 毕温凯等,2012).与人工神经网络预测模型相比,SVM预测模型的性能有所提高(King et al., 2000; Singh and Gupta, 2012; Yuan et al., 2009).但在SVM预测模型中,核函数必须满足Mercer条件,支持向量的个数会随着训练样本的增加呈线性增加(De Martino et al., 2011).且只给出确定性的预测结果,没有概率输出,无法估计预测的不确定性(周建宝等,2013).而在实际应用中概率式的预测能够提供重要的信息,有助于确定水质预测的可信度.

关联向量机(Relevance Vector Machine,RVM)是Tipping于2001年在贝叶斯框架的基础上提出的一种较新的机器学习算法(Tipping,2001; Widodo and Yang, 2011),其核函数不必满足Mercer条件,解的稀疏性也远高于SVM,且能够给出预测的概率信息,具有较好的泛化能力(孙斌和杨晓明,2012).RVM已在解决模式识别和回归估计等诸多实际问题中得到了应用,并取得了良好的效果(Samui and Dixon, 2012; 赵树延等,2011).因此,本文针对人工神经网络和SVM水质预测模型存在的问题,建立RVM水质预测模型,并以该模型对pH值、DO、CODMn和NH3-N 4种重要水质指标进行预测.

2 关联向量机水质预测模型(RVM water quality prediction model)

RVM回归算法的详细原理可参见相关文献(Tipping,2001; Widodo and Yang, 2011).

将RVM用于水质预测,首先需依据监测的某一水质指标的历史数据时间序列建立RVM水质预测模型,然后以此模型预测该水质指标将来的变化.

设水质指标的历史数据时间序列为{yn}n=1N,其中N为序列长度,yn为n时刻的水质指标监测值,xn=〖yn-dτ,yn-(d-1)τ,…,yn-τ〗为之前的d个监测值组成的向量,τ是采样周期.则建立水质预测模型的关键在于确定映射关系:

为此,需构建一训练样本集{xn,yn}n=1N,其中xn为输入样本,yn为输出样本,并以该样本集训练RVM,利用RVM回归极强的非线性映射能力,使RVM的输入与输出逼近式(1),从而建立RVM水质预测模型.在此基础上,将后续水质指标的时间序列送入训练后的RVM预测模型输入端,即可在该预测模型输出端得到未来水质指标的预测值.

3 基于关联向量机的水质预测(Water quality prediction based on RVM regression) 3.1 实验数据来源

本文探讨pH值、DO、CODMn和NH3-N这4种主要水质指标的预测.实验数据来源于中华人民共和国环境保护部网站(http://www.mep.gov.cn/)公布的全国主要流域重点断面四川攀枝花龙洞水质自动监测周报(2004年第1周至2012年第53周),其中只有2011年的52周数据是完整的,其它年份均有1~6周不等的监测数据不全的情况,所以本应含469组的监测数据而实际上只有451组是完整的.水质预测属时间序列预测,任何一个时间点的数据缺失都会在一定程度上影响整体预测的准确性,故有必要将监测数据补全.本文选用Lagrange插值法将监测不全的数据补全.Lagrange插值法是一种多项式插值法,可以给出一个恰好穿过二维平面上若干个已知点的多项式函数,即Lagrange插值多项式.根据这个多项式,可以估计出缺失时间点的水质指标值.

本文选择四川攀枝花龙洞的2004年第1周至2009年第52周作为训练数据集,2010年第1周至2012年第53周作为测试数据集.采用d=4,即用前4周数据预测下一周数据,则训练数据集为308组,测试数据集为153组.

3.2 关联向量机核函数选择及控制变量设置

RVM回归涉及到核函数K(x,xi)类型的选择,不同的核函数会对预测效果产生不同的影响.本文选择线性核函数m(xn)=xnm和高斯核函数m(xn)=exp{-‖xm-xn2/2γ2分别对4种水质指标进行预测.在用线性核函数,只需要设置噪声方差σ2一个控制变量,且4种水质指标的噪声方差σ2都设置为0.12.而在应用高斯核函数时,需要设置核函数宽度γ和噪声方差σ2二个控制变量,由于本文RVM回归采用MacKay迭代估计,在迭代估计过程中会出现奇异阵,从而导致矩阵无法求逆,控制变量无法使用交叉验证直接寻优,故需经过多次试验才能得到使预测效果较好的控制变量值.实验中RVM回归算法的最大迭代次数取1000.现将不同水质指标建模过程中试验得到的高斯核函数宽度γ和噪声方差σ2值列于表 1.

表 1 高斯核函数宽度γ和噪声方差σ2的设置 Table 1 Setting gaussian kernel function γ and noise variance σ2
3.3 实验

由于4种水质指标各自的量纲不同,因此不易以定量方式分析确定RVM回归模型对哪种水质指标的预测效果更好.但根据图 1给出的采用线性核函数时RVM回归模型对4种水质指标的预测结果,可以看出,线性核函数RVM回归模型对pH值的预测效果较好,对DO、CODMn和NH3-N的预测效果虽然略微差一些,但仍可接受.而根据图 2给出的采用高斯核函数时RVM回归模型对4种水质指标的预测结果可知,虽然高斯核函数RVM回归模型对4种水质指标的预测值与原始值(实际值)均能较好地吻合,但DO和CODMn的预测效果明显优于对pH值和NH3-N的预测效果.

图 1 线性核函数RVM回归模型对 pH值(a)、 DO(b)、 CODMn(c)及 NH3-N (d)的预测结果 Fig.1 (a) pH value, (b) DO, (c) CODMn and (d) NH3-N prediction results of RVM regression model with linear kernel function

图 2 高斯核函数RVM回归模型对 pH值 (a)、 DO (b)、 CODMn (c)及 NH3-N (d)的预测结果 Fig.2 (a) pH value, (b) DO, (c) CODMn and (d) NH3-N prediction results of RVM regression model with gaussian kernel function

由于RVM回归模型在给出预测值时,还可同时获得置信区间,因此能得到预测结果的可信程度,从而为水质监测与管理机构提供更多的参考信息.在本文实验中,RVM回归预测模型的4种水质指标预测值均落在统计学上最常用的置信度95%的置信区间内.

4 关联向量机与支持向量机预测结果比较(Comparing predicted results of RVM and SVM)

为进一步评估RVM回归水质预测模型的性能,本文以同样的监测数据用SVM回归模型预测相同的水质指标.由于SVM回归模型同样存在核函数的选择问题,为便于比较,在SVM回归模型中同样采用线性核函数和高斯核函数.

本文在比较不同预测模型对同一水质指标的预测效果时,采用了均方误差MSE(Mean Square Error)、相关系数r(Correlation Coefficient)作为评价预测模型性能的指标,其计算公式分别为:

式中,yaiypi分别代表第i个样本的实际值和预测值,yayp 分别代表n个样本的实际值均值和预测值均值.均方误差越小表示模型的预测性能越好,相关系数的绝对值越接近于1说明实际值和预测值之间的相关程度越高.

此外,应用SVM回归模型预测前,需先训练SVM.影响SVM回归模型训练算法的控制参数有两个,一个是核函数参数,另一个是惩罚因子.一旦这两个算法控制参数确定了,即可训练SVM,以得到较优的SVM回归模型,并将该模型用于预测.若SVM回归模型采用高斯核函数K(x,xi)=exp{-γ‖x-xi2},则核函数参数就是其宽度γ.核函数宽度γ太大会出现过拟合,即对训练样本拟合得较好,而对预测样本泛化能力变得较差;反之,核函数宽度γ太小,会出现欠拟合.与RVM预回归模型不同的是SVM回归模型还需额外确定惩罚因子的大小.惩罚因子用于控制拟合精度惩罚程度,实现拟合精度与算法复杂度的折中.惩罚因子越大,越易出现过拟合;惩罚因子越小,则越易出现欠拟合.惩罚因子及与核函数宽度γ大小的选择与需解决的具体问题以及采用的核函数类型有关,但迄今为止理论上仍无精确决定其数值大小的明确指导.目前最常用的方法是采用交叉验证法寻优,确定它们的较优值.本文采用5折交叉验证对惩罚因子及高斯核函数宽度γ进行寻优,线性核函数及高斯核函数的寻优结果分别如表 2表 3所示.

表 2 线性核函数SVM回归模型的惩罚因子交叉验证寻优 Table 2 Cross validation optimization of the penalty factor in SVM regression model with linear kernel function

表 3 高斯核函数SVM回归模型的惩罚因子及核函数宽度γ的交叉验证寻优 Table 3 Cross validation optimization of the penalty factor and the kernel width γ in SVM regression model with gaussian kernel function

线性核函数和高斯核函数的RVM与SVM回归预测模型对各水质指标预测性能的比较如表 4~7所示,具体从相关系数r、均方误差MSE、训练时间、预测时间和关联向量数nRV或支持向量数nSV(在SVM中与关联向量相对应的是支持向量)这5个方面进行比较.除相关系数r外,其它方面越小越好.

表 4 pH的预测结果比较 Table 4 Comparison of pH value prediction results

表 5 DO的预测结果比较 Table 5 Comparison of DO prediction results

表 6 CODMn的预测结果比较 Table 6 Comparison of CODMn prediction results

表 7 NH3-N的预测结果比较 Table 7 Comparison of NH3-N prediction results

对比表 4中的RVM与SVM回归预测结果可知,对于pH来说,若采用同样的核函数,RVM回归模型的相关系数明显大于SVM回归模型,均方误差、预测时间以及关联向量(或支持向量)数都明显小于SVM回归模型.且对比线性核函数和高斯核函数可知,线性核函数的预测效果比高斯核函数好.从表 5和6中可以看出,SVM回归模型对DO和CODMn的预测在均方误差MSE上优于RVM,相关系数相差不大,但是预测时间RVM回归模型小得多,SVM的支持向量数是RVM回归模型关联向量数的几十倍甚至上百倍.总的来说两种模型对DO和CODMn的预测效果相差不多.由表 7可知,在采用高斯核函数时,RVM回归模型对NH3-N的预测在均方误差、相关系数、预测时间和关联向量都比SVM回归的要好,在采用线性核函数时,RVM回归模型除了相关系数、训练时间外其它方面比SVM好.

综合表 4~7的预测结果可发现,RVM像SVM一样,有良好的泛化能力,两种回归模型均可得到良好的预测结果.且RVM回归模型的相关系数大多数大于SVM,RVM的关联向量数远远少于SVM的支持向量数,RVM的预测时间比SVM短得多,但4种水质指标的RVM回归模型的训练时间明显比SVM回归模型长.

5 结论(Conclusion)

针对SVM水质预测模型存在支持向量数多,预测时间长,无概率性输出等问题,本文提出了采用RVM回归建立水质预测模型的方法,并分别选择线性核函数模型和高斯核函数的RVM回归模型进行预测.通过与采用对应核函数的SVM回归水质预测模型进行比较可知,RVM模型的预测精度在整体上不低于SVM模型,且RVM给出的是预测的概率分布,能在给出预测的同时给出预测的置信区间,从而为水质监测与管理机构提供更多的参考信息.此外,RVM回归模型具有很强的稀疏性,具有关联向量数少、预测时间短、泛化能力强等优点.因此,RVM回归模型的应用可为水质预测提供一种新的解决思路.

参考文献
[1] 毕温凯, 袁兴中, 唐清华, 等. 2012. 基于支持向量机的湖泊生态系统健康评价研究 [J]. 环境科学学报, 32(8): 1984-1990
[2] De Martino F, De Borst A W, Valente G, et al. 2011. Predicting EEG single trial responses with simultaneous fMRI and Relevance Vector Machine regression [J]. NeuroImage, 56(2): 826-836
[3] Durdu O F. 2010. A hybrid neural network and ARIMA model for water quality time series prediction [J]. Engineering Applications of Artificial Intelligence, 23(4): 586-594
[4] Gazzaz N M, Yusoff M K, Aris A Z, et al. 2012. Artificial neural network modeling of the water quality index for Kinta River (Malaysia) using water quality variables as predictors [J]. Marine Pollution Bulletin, 64(11): 2409-2420
[5] 郭劲松, 霍国友, 龙腾锐. 2001. BOD-DO耦合人工神经网络水质模拟的研究 [J]. 环境科学学报, 21(2): 140-143
[6] King S L, Bennett K P, List S. 2000. Modeling noncatastrophic individual tree mortality using logistic regression, neural networks, and support vector methods [J]. Computers and Electronics in Agriculture, 27(1/3): 401-406
[7] Liao Y, Xu J Y, Wang W J. 2011. A method of water quality assessment based on biomonitoring and multiclass support vector machine [J]. Procedia Environmental Sciences, 10(Part A): 451-457
[8] Liu S Y, Tai H J, Ding Q S, et al. 2013. A hybrid approach of support vector regression with genetic algorithm optimization for aquaculture water quality prediction [J]. Mathematical and Computer Modelling, 58(3/4): 458-465
[9] Liu S Y, Xu L Q, Jiang Y, et al. 2014. A hybrid WA-CPSO-LSSVR model for dissolved oxygen content prediction in crab culture [J]. Engineering Applications of Artificial Intelligence, 29: 114-124
[10] 李冬, 周川, 袁朋飞, 等. 2012. 基于时间序列分析的渐变性水源水质预测研究 [J]. 环境科学与技术, 35(6): 184-188
[11] 李晓东, 曾光明, 黄国和, 等. 2006. 城市污水量短时预测的混沌神经网络模型 [J]. 环境科学学报, 26(3): 416-419
[12] Maier H R, Dandy G C. 1996. The use of artificial neural networks for the prediction of water quality parameters [J]. Water Resources Research, 32(4): 1013-1022
[13] Maier H R, Dandy G C. 2000. Neural networks for the prediction and forecasting of water resources variables: a review of modelling issues and applications [J]. Environmental Modelling & Software, 15(1): 101-124
[14] Noori R, Karbassi A, Ashrafi K, et al. 2012. Active and online prediction of BOD5 in river systems using reduced-order support vector machine [J]. Environmental Earth Sciences, 67(1): 141-149
[15] Palani S, Liong S Y, Tkalich P. 2008. An ANN application for water quality forecasting [J]. Marine Pollution Bulletin, 56(9): 1586-1597
[16] Samui P, Dixon B. 2012. Application of support vector machine and relevance vector machine to determine evaporative losses in reservoirs [J]. Hydrological Processes, 26(9): 1361-1369
[17] Singh K P, Gupta S. 2012. Artificial intelligence based modeling for predicting the disinfection by-products in water [J]. Chemometrics and Intelligent Laboratory Systems, 114: 122-131
[18] 孙斌, 杨晓明. 2012. 基于ACO和RVM的两相流流型特征选择方法 [J]. 仪器仪表学报, 33(10): 2181-2186
[19] Tan G H, Yan J Z, Gao C, et al. 2012. Prediction of water quality time series data based on least squares support vector machine [J]. Procedia Engineering, 31: 1194-1199
[20] Thoe W, Wong S H C, Choi K W, et al. 2012. Daily prediction of marine beach water quality in Hong Kong [J]. Journal of Hydro-environment Research, 6(3): 164-180
[21] Tipping M E. 2001. Sparse Bayesian learning and the relevance vector machine [J]. Journal of Machine Learning Research, 1: 211-244
[22] Vapnik V. 1995. The nature of statistical learning theory [M]. New York: Springer
[23] Widodo A, Yang B S. 2011. Application of relevance vector machine and survival probability to machine degradation assessment [J]. Expert Systems with Applications, 38(3): 2592-2599
[24] Yuan Y N, Zhang R S, Hu R J, et al. 2009. Prediction of CCR5 receptor binding affinity of substituted 1-(3,3-diphenylpropyl)-piperidinyl amides and ureas based on the heuristic method, support vector machine and projection pursuit regression [J]. European Journal of Medicinal Chemistry, 44(1): 25-34
[25] 张成成, 陈求稳, 徐强, 等. 2013. 基于支持向量机的太湖梅梁湾叶绿素a浓度预测模型 [J]. 环境科学学报, 33(10): 2856-2861
[26] 赵树延, 于金涛, 王翥, 等. 2011. 基于RVM的多功能自确认水质检测传感器 [J]. 仪器仪表学报, 32(8): 1690-1696
[27] 周建宝, 王少军, 马丽萍, 等. 2013. 可重构卫星锂离子电池剩余寿命预测系统研究 [J]. 仪器仪表学报, 34(9): 2034-2044