个体最优共享GEP算法及其气象降水数据预测建模

Download PDF 打印本文

文章快速检索

高级检索

引用本文

彭昱忠, 元昌安, 李洁, 许明涛, 陈冰廉. 个体最优共享GEP算法及其气象降水数据预测建模[J]. 智能系统学报, 2016, 11(3): 401-409 复制到剪切板

PENG Yuzhong, YUAN Changan, LI Jie, XU Mingtao, CHEN Binglian. Individual optimal sharing GEP algorithm and its application in forecast modeling of meteorological precipitation[J]. CAAI Transactions on Intelligent Systems, 2016, 11(3): 401-409.

DOI: 10.11992/tis.2016030 复制到剪切板

个体最优共享GEP算法及其气象降水数据预测建模

彭昱忠^1,2, 元昌安¹, 李洁³, 许明涛¹, 陈冰廉¹

1. 广西师范学院计算机与信息工程学院, 广西南宁 530021;
2. 广西师范学院北部湾环境演变与资源利用教育部重点实验室, 广西南宁 530001;
3. 广西科技师范学院数计系, 广西柳州 545004

基金项目: 国家自然科学基金项目(61562008、41575051);广西科学研究与技术开发计划项目(1598019-1)、广西高校科学技术研究重点项目(ZD2014083).

作者简介: 彭昱忠,男,1980年生,副教授,主要研究方向为智能计算及数据挖掘。主持国家级和省级基金项目4项,发表学术论文21篇。
元昌安,男,1964年生,教授,主要研究方向为数据库与知识工程,先后主持国家级和省级基金项目8项,获广西科技进步奖5项,发表学术论文58篇。
李洁,女,1980年生,讲师,主要研究方向为智能计算及数据挖掘,发表学术论文7篇。

收稿日期: 2016-3-18; 网络出版日期: 2016-05-13

通信作者: 李洁.E-mail:lijie980522@163.com.

摘要: 针对基因表达式编程算法存在进化后期收敛慢且容易陷入局部最优而降低其数据建模的性能问题,和降水量因受诸多自然因素相互影响而难以准确地建模与预测的问题,提出了一种改进的基因表达式编程算法。该算法具有染色体最优状态记忆功能,在进化过程中可以按条件学习自身的历史经验知识,以加强局部搜索能力和促进收敛,同时尽量控制个体的趋同化而保持种群的多样性。3组不同区域和不同类型的真实降水数据集的实验验证了其可以改善传统GEP算法后期收敛慢的问题,寻优能力更强,降水数据拟合和预测效果均显著优于传统GEP算法、BP神经网络和NAR神经网络等算法。

关键词: 基因表达式编程经验共享时间序列气象建模降水预测演化计算演化建模

Individual optimal sharing GEP algorithm and its application in forecast modeling of meteorological precipitation

PENG Yuzhong^1,2, YUAN Changan¹, LI Jie³, XU Mingtao¹, CHEN Binglian¹

1. College of Computer & Information Engineering, Guangxi Normal University, Nanning 530023, China;
2. Key Lab of Beibu Gulf Environment Change and Resource Use of ministry of Education, Guangxi Normal University, Nanning 530001, China;
3. Department of Mathematics and computer science, Guangxi Science and Technology University, Liuzhou 545004, China

Abstract: Gene expression programming (GEP) is characterized by slow convergence and ease of falling into a local optimum in the later stages of its evolution. Many methods are difficult to model and use to accurately forecast precipitation because of the simultaneous influence of many natural factors. In this paper, we propose an improved GEP algorithm, which has an optimal state memory function, can learn from historical experience in the process of evolution to strengthen the local search ability, and can thus promote convergence and, at the same time, control the convergence of individuals and maintain the diversity of the population. The experimental results of three groups from different regions and different actual precipitation data sets show that the proposed algorithm can improve the slow convergence problem of the traditional GEP algorithm and has better search ability. Experimental results also show that the proposed algorithm's ability to fit and forecast precipitation data is significantly better than that of traditional GEP algorithm, as well as the BP and NAR neural network algorithms.

Key words: gene expression programming experience sharing time series meteorology modeling precipitation forecasting evolutionary computation evolution modeling

大气系统是个极为复杂的动态巨系统，具有高维性、多尺度性、复杂性、开放性、混沌性、非平稳性、不确定性和动态性等特点。传统上，被主要用于建立预测模型的常规统计方法难以精确描述大气系统的复杂关系，因而预测质量较低。近年来，利用先进的智能计算和数据挖掘方法，构建和改进气象预测的方法与模型，帮助对未知气象规律的认识和提高气象预测能力，已逐渐成为气象、数学和计算机领域专家和学者们关注的热点，多个相关国际会议上设置了相关的专题和Workshop^[1]。

近年来，被众多学者应用到气象或灾害天气的预测中的神经网络方法等智能计算方法^{[2, 3, 4, 5, 6, 7, 8, 9]}可有效描述气象要素间的复杂关系，但这些算法结构和参数难选定、计算量过大而不利于大容量样本学习等自身固有的缺陷，严重降低了其应用和发展的效果。基于大量历史数据进行气象数据挖掘与建模预测是个较有发展前途的研究和应用方向，已吸引了不少的学者进行研究^{[10, 11, 12, 13]}。但用传统数据挖掘算法难于避免由于气象数据的多层次特性造成的难以建立准确模型的缺陷，从而降低了气象预报的精度。

基因表达式编程(gene expression programming,GEP)是借鉴生物遗传的基因表达规律，融合了遗传算法(GA)和遗传编程(GP)的优点发展起来的进化计算家族中的革命性新成员。GEP不但可以轻易地进化多种形态的复杂计算程序，构建稳健而精确、可解释性较强的计算模型，而且具有很强的问题表达能力、知识发现能力和寻优能力，可有效进行数据挖掘，发现公式、规则或规律，模型的最优化等^[14]。相关研究表明，GEP能有效克服很多智能计算方法和传统数据挖掘与知识发现的不足，求解很多复杂问题表现更出色，可望是一个具有发展前途的气象数据建模与预测研究方向。但GEP自身还存在复杂问题建模的进化后期寻优缓慢且易陷入局部最优的缺陷。针对此问题，本文提出了个体最优共享的改进GEP算法(best individual shared-based gene expression programming，BIS_GEP)，能更好地解决后期寻优缓慢和局部最优问题，并通过3组真实降水案例的实验验证了其性能。

1 GEP基本原理概述

GEP的个体(染色体)由单个或者多个基因组成，基因之间可以用函数符号连接起来。GEP的基因用长度固定的符串来表示，由头和尾两部分组成。其中头部既可以包含函数符号也可以包含终结符号，而尾部则只能包含终结符号。基因中的函数符号是问题求解过程中的所需要的数学函数和逻辑运算等所有候选的函数和操作符的表示，终结符通常是问题求解过程所需要的候选变量或常量，其中尾部长度 t和头部长度h之间应该满足式(1)的关系：

t=h×(n-1)+1(1)

(1)

式中n代表函数符集中的最大操目数(可能的最多的参数个数)。GEP的基因有基因型和表现型两种表现形式，因此，每个基因对应一个K表达式(表示基因编码的有效部分)和一棵表达式树。其中， K表达式就是基因型，表达式树就是表现型，两者之间可以相互转化。如，以$\sqrt {{x^2} + xy} $为例来说明 GEP的染色体编码方法，这个式子可以用基因： Q＋**xxxyz表示，该基因对应的表达式树如图 1所示。

图 1 表达式树 Fig. 1 The expression tree

图选项

GEP的若干个染色体构成种群，然后通过个体在种群中不断进化而逐渐逼近问题的解。GEP作为进化计算家族的成员，其算法的进化过程类似于GA和GP。具体算法过程描述见文献^[14]。

2 个体最优共享GEP算法

GEP存在进化后期寻优缓慢且易陷局部最优的问题，已经引起了一些学者的注意，并试图通过控制和调节种群结构^{[15, 16, 17]}、改进和调节遗传操作^{[18, 19, 20]}、改变个体编码结构^{[21, 22]}等方式改进GEP算法，并取得了一定的成效。本文借鉴粒子群算法进化过程中粒子历史最优信息共享的机制促进粒子群算法快速收敛的思想，对GEP进行了改进，提出了个体最优共享GEP(BIS_GEP)。

2.1 BIS_GEP的基本思想

PSO是模拟鸟群寻找食物过程的动作迁徙和群聚行为的一种启发式随机搜索的演化计算方法。GEP和PSO同属仿生演化算法，本质上都是基于自然性质和行为规则随机搜索解空间寻求问题最优解。PSO具有良好的个体最优信息共享和全局最优信息共享与更新机制，能充分利用个体自身经验和群体经验来调整自身的状态，使其位置与速度的更新具有很好的导向性。故对局部空间最优解的逼近能力很强，收敛速度快，但同时这种导向性也导致其全局搜索能力不强^[23]。相对PSO算法，GEP的各种遗传操作都缺乏明确的导向性，因此其对空间最优解的逼近能力不强，但这同时让GEP算法对空间最优解的搜索能力变得很强。经典的社会学理论认为，人类在决策过程时，个体学习和文化传递这两类信息(即自身的经验和其他人的经验)具有极为关键的作用。对比分析PSO和GEP，GEP在对以往搜索经验的学习利用上相对较差，因为GEP算法的个体并不像PSO那样具有记忆能力，以前的知识随着种群的改变被破坏。本文认为这是导致GEP后期搜索慢且易陷局部最优的重要原因。 BIS_GEP算法正是借鉴了社会学理论和PSO的个体经验学习优势而设计的，旨在尽可能保持GEP自身的全局搜索优势，增强局部搜索能力和加快收敛速度。因此，在BIS_GEP设计上，为每个染色体设计了最优状态记忆功能，让个体在进化过程中可以充分学习自身的历史经验知识，以加强局部搜索和促进收敛。同时还需控制因过度的个体学习历史经验而引起种群个体的趋同化，尽量保持种群的多样性，让种群向全局最优移动。为了实现此目标，需要抑制个体对历史最佳状态的学习程度，避免所有个体均无节制地学习历史最佳状态而致个体快速趋同降低了种群的多样性。为此BIS_GEP将种群划分为两个子种群，其中一个子种群的染色体在交叉时按一定的概率与自身历史最优状态进行交叉操作，不断迭代进化，并每隔给定的step代通过轮盘赌选择二分之一的个体移到另一个子种群中；而另一个子种群则按常规的GEP算法过程进行进化，并每隔给定的step代排挤出适应度最差的二分之一个体移到另一子种群，同时接收选自另一子种群的个体，在迭代终止条件达到时该子种群中的最优染色体即为本次寻优过程中的最优解。BIS_GEP算法基本思想如图 2所示。

图 2 BIS_GEP算法基本思想示意图 Fig. 2 The basic algorithm idea of BIS_GEP

图选项

2.2 BIS_GEP算法过程

根据上述主要思想，设计了如图 3所描述的BIS_GEP算法流程图。

图 3 BIS_GEP算法流程图 Fig. 3 The algorithm procedure of BIS_GEP

图选项

BIS_GEP在经典GEP的基础上，将种群划分为两个等规模的子种群分别按精英保留策略进行进化，然后每隔若干代即对两个相对独立的子种群进行个体选择与交换，其中的一子种群按常规的GEP遗传操作进化(详见文献^[14])，另一子种群则在常规遗传操作的基础上增加按概率进行自身历史最佳状态(该染色体的适应度值最高时的编码表示)交叉的操作。选择个体的标准是按常规的GEP遗传操作进化的子种群采用轮盘赌选择取余法选择个体(选取没被轮盘赌选择法选中而排挤出的那一半)，另一种群则按轮盘赌选择法进行需移群交换的个体选择。该算法通过划分子种群分别进行常规进化和外加个体历史最优交叉进化，然后隔若干代选择个体移群交换，既可通过充分学习个体自身经验加强局部搜索和促进收敛，也能保持种群的多样性，从而改善算法的寻优效果。BIS_GEP算法描述如下：

输入训练数据集T，种群大小Gs、函数集、终结符集、基因头长HL、移群步数step、各遗传操作率和终止条件等算法的基本参数

输出最优函数模型 f及其适应度

1)生成初始种群;

2)种群二等分割为G1和G2;

3)种群进化过程:

While (终止条件 ≠ true)

G1. CommGeneticOperateInProbability();//子种群1进行常规遗传操作

G1. divHistoryBestCrossInProbability();

//子种群1进行个体最优状态交叉

G1. CaculateFitness();

//计算子种群1个体适应度

G2. CommGeneticOperateInProbability();//子种群2进行常规遗传操作

G2. CaculateFitness();

//计算子种群2个体适应度

If (generation Modulo step ==0)//如果当前进化代数是step的倍数

G1Exchdiv=G1. RoulSelectHalf();

//子种群1进行轮盘赌选出一半的个体待交换

G2Exchdiv=G2 - G2. RoulSelectHalf();

//子种群2进行轮盘赌排挤出一半个体待交换

G1. Add(G2Exchdiv);

//个体移群交换

G2. Add(G1Exchdiv);

End if

G1. SelectNextPopulation();

//选择个体构成下一代

G2. SelectNextPopulation();

generation ++;

End while

4)输出结果。

3 基于BIS_GIS的气象降水建模与预测 3.1 数据预处理

输入数据的质量对数据挖掘与数据建模有着非常重要的影响。气象数据资料在收集过程中受到较多主观因素(如操作员认知程度等)和客观因素(如仪器设备的工作状态、环境因素等)的影响，使得气象数据不可避免地包含噪声，直接进行数据挖掘和预测建模必然会导致结果出现偏差。为了提高模型的有效性和预测结果的准确性，本文在建模前先利用菲波那契(Fibonacci)数列作为时不变线性滤波器对输入的气象数据进行滤波抑制高频噪声，然后再进行函数挖掘与建模预测。记待测时间序列为{x(t),t=1,2,…,N}，根据 Fibonacci 数列性质，取线性滤波器 H 满足式(2)^[24]：

\[{h_j} = \left\{ \begin{array}{l} Fib\left( j \right)/{\rm{totalWeight}},j \le K \le N\\ 0,j > K \in N, \end{array} \right.\]

(2)

totalWeight=Fib(1)+Fib(2)+…+Fib(K)

(3)

式中：K一般取值为滑动窗口大小减1，则该时不变线性滤波器的输出为

Y_t=(Fib(1)×X_t－k+Fib(2)×X_t－k+1+…+Fib(K)×X_t)/totalWeight

3.2 建模方法

用GEP进行时间序列的建模和预测通常是将时间序列建模问题转换成符号回归问题，挖掘出对给定时间序列数据拟合度和对未来预测精度较高的函数模型，将用此函数模型计算未来可能的值。先求时间序列X(t)的M阶延迟得到矩阵X，如式(4)所示，矩阵 X中的元素与原序列对应关系为X_ji=x_j+1，然后把矩阵X中的第N－M＋1列看作是所求函数模型的因变量，其余每一列看作所求函数模型的一个自变量，因而窗口大小为N－M＋1，而矩阵X 的每一行即为一个样本数据，则所求的目标函数模型可记为x_N－M=f(x₀,x₁,…,x_N－M)。接下来，GEP根据输入样本，在给定函数符组成的所有可能函数表达空间中寻找拟合样本数据程度较佳的函数表达式。

\[X\left[ \begin{array}{l} {x_1}{x_2}...{x_{N - M + 1}}\\ {x_2}{x_3}...{x_{N - M + 2}}\\ ............\\ {x_M}{x_{M + 1}}...{x_N} \end{array} \right] = \left[ \begin{array}{l} {x_{10}}{x_{11}}...{x_{1,N - M}}\\ {x_{20}}{x_{21}}...{x_{2,N - M}}\\ ............\\ {x_{M0}}{x_{M1}}...{x_{M,N - M}} \end{array} \right]\]

(4)

3.3 案例实验与结果分析 3.3.1 实验数据与方案

本文分别用北京年降水量(1949-2013年，样本长度65，下文简称“北京降水”)、广西桂平冬季月均降水量(1951-2013年，样本长度63，下文简称“桂平降水”)和UNION CITY旱季的6月份降水量 (1884-2006年，样本长度123，位于美国新泽西州东北部，下文简称“UNION降水”)这3个典型的不同区域和类型的降水量作为建模预测对象，检验BIS_GEP预测模型实用效果。这3组降水案例数据的值分布如图 4所示。其中，北京年降水数据逐年变化差异较大，突变点多而尖锐，最大值是最小值的6倍之多，数据的分布曲线相当复杂；桂平降水数据尽管最大值是最小值的6倍之多，但其逐年变化曲线比北京年降水数据逐年变化曲线平滑，突变点少；UNION CITY降水数据波动幅度较小，数据的分布曲线相对平稳。

图 4 实验案例数据的值分布 Fig. 4 The value distribution of experimental data

图选项

本文实验验证的主要方案是，先分别用原始GEP算法、GEP改进算法ADF_GEP和本文所提BIS_GEP算法对3个降水案例数据集进行拟合建模，观察和比较3种GEP算法的收敛过程，验证BIS_GEP收敛性能改善效果。然后用这3种方法，以及被大气科学领域运用较多的BP和NAR等神经网络建模预测算法分别对3个降水案例数据集进行建模与预测，比较分析所得结果进而验证BIS_GEP的建模预测性能。

3组实验均保留序列中最后10%的样本作为测试样本，其余样本为训练样本，采用逐月/年预报形式预测测试样本的结果。3组实验中所用的各算法的主要参数保持不变，其中，时间延迟系数都取1，嵌入维数取5。GEP相关算法的主要参数如表 1所示，其中的终结符a,b,c,d,e,…分别代表目标函数模型中的变量X₀,X₁,…,X_N-M-1。本文实验中的BP神经网络和NAR神经网络的均用 MATLAB中的神经网络相关类构建，隐层数均为20，BP采用的其他主要参数如下：传递函数为tansig,训练函数为traingdm,epochs=10 000,lr=0.000 1,mc=0.5；NAR采用的其他主要参数如下：trainRatio=70/100,valRatio=15/100,testRatio=15/100。

表 1 实验中的GEP及改进算法的主要参数 Table 1 Main parameters of GEPs on experiments

参数名	原始GEP	ADF_GEP	BIS_GEP
最大进化代数	2 000
群体规模	100
函数集	+,－,×,/,sin,cos,exp,log,sqrt
终结符集	a,b,c,d,e,f
头长/同源基因头长	8/无	8/3	8/无
基因数/同源基因数	5	5/3	5
交叉率(单点、两点一致)	0.2	0.2	0.2
变异率	0.25	0.25	0.25
基因迁移率( IS和RIS一致)	0.1	0.1	0.1

表选项

3.3.2 收敛性验证实验与结果分析

本文首先对BIS_GEP算法的改进性能进行验证。分别用3种GEP算法对北京降水数据集、桂平降水数据集和UNION CITY降水数据集进行自动建模，模型评价函数为平均相对误差。本文为避免因进化过程中的初始几代的适应度与目标值间的差异过大影响收敛过程曲线图展示效果，在画图时均忽略前5代的收敛过程曲线。桂平降水数据集实验的进化过程(见图 6)的前期适应度与中后期的差异较大，本文根据该收敛过程特点将其进化收敛过程图拆分成5~125代(见图 7(a))和125~2 000代(见图 7(b))两部分，以便更清晰地展示算法收敛过程的效果。

图 5 北京年降水量建模进化收敛过程 Fig. 5 Convergence process of precipitation modeling of Beijing

图选项

图 6 桂平冬季月均降水量建模进化收敛过程图 Fig. 6 Convergence process of precipitation modeling of Guiping

图选项

BIS_GEP、原始GEP和ADF_GEP等对3组不同数据集的自动建模的进化收敛实验结果如图 5,图 6,图 7,图 8所示。由图可知：1) 如图 5,图 6,图 7,图 8所示均表明了BIS_GEP算法在这3组不同数据集的自动建模过程中，无论是10次运行结果的平均值，还是最佳运行状况，BIS_GEP比原始GEP和ADF_GEP均有更好的收敛性能和寻优结果表现。这充分说明了本文提出的改进方法的有效性和优越性。2) 如图 5,图 6,图 7,图 8所示中的左边部分显示的进化过程初期的适应度曲线均显示了在算法进化的初期，如图 5显示的北京降水实验中的前70代、图 7(a)显示的桂平降水实验中的前40代和图 8显示的UNION CITY降水实验中的前200代，BIS_GEP、原始GEP和ADF_GEP这3种GEP算法有近似的收敛性能表现。它们几乎都以极快速度趋于目标方向收敛，然后收敛速度逐渐减小，甚至不同程度地进入收敛缓慢状态，陷入局部最优。这说明了GEP算法存在着遗传算法家族常见的不足——前期收敛快，后期收敛缓慢甚至陷入局部最优。3)图 5、图 7,图 8中的右边的适应度曲线均显示的进化过程中后期的BIS_GEP算法的适应度迭代进化比同阶段的原始GEP和ADF_GEP的更频繁，更能跳出局部最优而向全局最优方向逼近。这表明了经过本文提出的个体最优共享改进GEP算法可有效改善GEP算法后期收敛缓慢状态和易陷入局部最优的不足，寻优性能比原始GEP和ADF_GEP有显著的提高。 4)在UNION CITY的降水实验中，BIS_GEP、原始GEP和ADF_GEP这3种GEP算法在前600代的适应度迭代进化较北京降水实验和桂平降水实验的表现更明显和更频繁，且更快速地逼近全局最优。5)从图 5,图 6,图 7,图 8所示可知，UNION CITY降水实验的平均相对误差比北京降水实验和桂平降水实验的明显小很多，桂平降水实验的平均相对误差也比北京降水实验的明显小很多。这说明了GEP算法在进行UNION CITY降水自动建模中的效果最好，在北京降水自动建模中的效果较差。

从图 4可看出UNION CITY的降水量数据波动范围相对较小、数据分布相对平稳、噪声少，而北京降水数据逐年变化差异较大、突变点多而尖锐、最大值与最小值差距大、数据的分布曲线相当复杂。这些数据集的特点与4)和5)的情况充分表明了时间序列建模的效果与数据集的复杂程度呈强相关，建模数据分布和变化越简单，自动建模的平均相对误差越小，建模效果越好。

图 7 桂平冬季月均降水量建模进化收敛过程二分解图 Fig. 7 Second decomposition for convergence process of precipitation modeling of Guiping

图选项

表 2 各算法的3组降水案例数据集建模与预测实验结果 Table 2 Experimental results of mentioned algorithms of modeling and foreca sting on 3 group of precipitation cases

数据与指标	BIS_GEP		ADF_GEP		原始GEP		BP		NAR
数据与指标	拟合	预测	拟合	预测	拟合	预测	拟合	预测	拟合	预测
北京降水	MREF最佳	16.64	23.71	16.85	24.98	16.87	26.78	27.48	47.15	29.17	36.77
北京降水	MREF平均	17.22	24.85	17.34	27.13	17.80	29.17	28.38	51.64	30.42	37.89
桂平降水	MREF最佳	2.57	7.16	2.92	7.83	2.95	8.04	15.69	30.86	10.97	19.65
桂平降水	MREF平均	3.16	10.25	3.28	11.51	3.90	12.18	17.08	32.17	12.29	21.83
UNION 降水	MREF最佳	0.021 2	0.034 7	0.022 3	0.036 2	0.022 4	0.039 2	1.205 1	3.221 1	0.087 2	0.368 2
UNION 降水	MREF平均	0.022 3	0.041 6	0.024 1	0.043 4	0.023 7	0.046 7	1.378 4	3.756 3	0.096 5	0.411 3

表选项

3.3.3 建模与预测效果比较验证

BIS_GEP算法与其他GEP算法和气象界常用神经算法进行了自动建模与预测比较实验，取3组降水案例数据集的后10%样本(北京降水和桂平降水的数据集均取2008-2013年的样本，UNION CITY降水数据集取1995-2006年样本)作为预测的检验样本，其余样本为训练样本。采用逐月/年预报形式预测检验样本的结果，如，用1949-2007年真实的北京降水数据建模所得模型预测2008年北京降水量，接着继续用1949-2008年真实的北京降水数据建模所得模型预测2009年北京降水量，依次类推。同理，用于北京降水、桂平降水和UNION CITY降水实验中。比较结果如表 2所示，MREF最佳预测值是取10独立运行算法所得的10次各个预测检验样本预测结果平均值中的最小者，而MREF平均预测值是取10独立运行算法所得的10次各个预测检验样本预测结果的综合平均值。

图 8 UNION CITY每年6月降水量建模进化收敛过程 Fig. 8 Convergence process of precipitation modeling of UNION CITY

图选项

从表 3可看出，总体上，在3组不同类型和不同复杂度的真实降水数据集的实验中的3种GEP方法的拟合和预测实验结果均比另外两种神经网络方法更好。而BIS_GEP算法在实验上获得较其他算法更好的数据模型拟合性能和预测性能,模型具有一定的适用性。在UNION CITY降水数据集上的数据拟合和预测的平均相对误差10次运行得的最佳值分别达到0.021%和0.034%。据表 3数据可知，BIS_GEP比实验中效果第二好的ADF_GEP的相应MREF最佳值分别减少了4.93%和5.55%。这比实验中效果最差的BP的相应MREF最佳值分别减少了99.45%和99.89%。即使在逐年变化差异较大、突变点多而尖锐、最大值与最小值差距大、数据的分布曲线相当复杂的北京降水数据集上，数据拟合和预测时，BIS_GEP算法的平均相对误差也都能分别保持在18%和25%以内。据表 3数据可知BIS_GEP比实验中效果第二好的ADF_GEP的相应MREF最佳值分别减少了1.25%和5.08%。这比实验中拟合效果最差的NAR和预测效果最差的BP的相应MREF最佳值分别减少了42.94%和49.71%。这些实验对比结果充分表明了本文提出的BIS_GEP算法较其他算法在降水序列数据自动建模和预测上有较强优势。

4 结束语

本文提出了一种个体最优共享的GEP改进算法BIS_GEP，并在3组真实时间序列的自动建模和预测实验中，与原始GEP算法、另一经典的GEP改进算法ADF_GEP，以及BP神经网络和NAR神经网络进行比较。算法收敛过程实验对比结果表明BIS_GEP能相对改善GEP进化后期收敛缓慢和容易陷入局部最优的缺陷，具有更强的逼近最优能力；自动建模能力与预测能力实验对比结果表明，BIS_GEP在3组不同类型的降水数据的数据拟合和数据预测实验中，10次独立运行的最佳平均相对误差和平均相对误差均比实验中的其他GEP算法和神经网络算法更小，说明其自动建模能力和模型泛化能力均有较强的优势。

对3组不同类型和不同复杂度的真实降水数据集的拟合和预测的对比实验结果表明，本文BIS_GEP算法对降雨时间序列数据的建模和预测结果比传统GEP及其改进算法ADF_GEP、常用的BP和NAR神经网络自动建和预测算法的效果好,模型具有一定的适用性，同时由于该算法模型对资料要求比较单一,只需降水历史数据,因而具有广泛的应用价值。

总之，BIS_GEP的改进是有效的，并为气象时间序列预测建模提供了一种切实可行的方法。下一步工作是进一步研究和修改 BIS_GEP算法，并将其应用于高维多要素气象预测建模的研究和应用中。另外，该方法若在实际业务中大规模推广应用还有若干问题有待解决，如海量高维气象数据建模的适应性和稳定性问题等，都有待进一步研究。

参考文献

[1]	彭昱忠, 王谦, 元昌安, 等. 数据挖掘技术在气象预报研究中的应用[J]. 干旱气象, 2015, 33(1): 19-27. PENG Yuzhong, WANG Qian, YUAN Chang’an, et al. Review of research on data mining in application of meteorological forecasting[J]. Journal of arid meteorology, 2015, 33(1): 19-27.

[2]	金龙, 吴建生, 林开平, 等. 基于遗传算法的神经网络短期气候预测模型[J]. 高原气象, 2005, 24(6): 981-987. JIN Long, WU Jiansheng, LIN Kaiping, et al. Short-term climate prediction model of neural network based on genetic algorithms[J]. Plateau meteorology, 2005, 24(6): 981-987.

[3]	EL-SHAFIE A, JAAFER O, AKRAMI S A. Adaptive neuro-fuzzy inference system based model for rainfall forecasting in Klang River, Malaysia[J]. International journal of the physical sciences, 2011, 6(12): 2875-2885.

[4]	GOSAV S, TIRON G. Artificial neural networks built for the rainfall estimation using a concatenated database[J]. Environmental engineering and management journal, 2012, 11(8): 1383-1388.

[5]	VENKADESH S, HOOGENBOOM G, POTTER W, et al. A genetic algorithm to refine input data selection for air temperature prediction using artificial neural networks[J]. Applied soft computing, 2013, 13(5): 2253-2260.

[6]	RAHMAN M, SAIFUL ISLAM A H M, NADVI S Y M, et al. Comparative study of ANFIS and ARIMA model for weather forecasting in Dhaka[C]//Proceedings of IEEE international conference on informatics, electronics & vision. Dhaka, Bangladesh, 2013: 1-6.

[7]	ZHAO Huasheng, JIN Long, HUANG Ying, et al. An objective prediction model for typhoon rainstorm using particle swarm optimization: neural network ensemble[J]. Natural hazards, 2014, 73(2): 427-437.

[8]	HE Suhong, FENG Taichen, GONG Yanchun, et al. Predicting extreme rainfall over eastern Asia by using complex networks[J]. Chinese physics B, 2014, 23(5): 059202.

[9]	WU Jiansheng, LONG Jin, LIU Mingzhe. Evolving RBF neural networks for rainfall prediction using hybrid particle swarm optimization and genetic algorithm[J]. Neurocomputing, 2015, 148: 136-142.

[10]	DHANYA C T, KUMAR D N. Data mining for evolving fuzzy association rules for predicting monsoon rainfall of India[J]. Journal of intelligent systems, 2009, 18(3): 193-210.

[11]	TERZI O. Monthly rainfall estimation using data-mining process[J]. Applied computational intelligence and soft computing, 2012, 2012: 698071.

[12]	BERNARD E, NAVEAU P, VRAC M, et al. Clustering of maxima: spatial dependencies among heavy rainfall in France[J]. Journal of climate, 2013, 26(20): 7929-7937.

[13]	TENG Shaohua, FAN Jihui, ZHU Haibin, et al. A cooperative multi-classifier method for local area meteorological data mining[C]//Proceedings of the 18th IEEE International Conference on Computer Supported Cooperative Work in Design. Hsinchu, Taiwan, China, 2014: 435-440.

[14]	FERREIRA C. Gene expression programming: mathematical modeling by artificial intelligence[M]. Portugal: Angra do Heroismo, 2002: 1-15.

[15]	胡建军, 唐常杰, 段磊, 等. 基因表达式编程初始种群的多样化策略[J]. 计算机学报, 2007, 30(2): 305-310.HU Jianjun, TANG Changjie, DUAN Lei, et al. The strategy for diversifying initial population of gene expression programming[J]. Chinese journal of computers, 2007, 30(2): 305-310.

[16]	李太勇, 唐常杰, 吴江, 等. 基因表达式编程种群多样性自适应调控算法[J]. 电子科技大学学报, 2010, 39(2): 279-283. LI Taiyong, TANG Changjie, WU Jiang, et al. Adaptive population diversity tuning algorithm for gene expression programming[J]. Journal of university of electronic science and technology of China, 2010, 39(2): 279-283.

[17]	宣士斌, 刘怡光. 基于混合差异度控制的基因表达式编程[J]. 模式识别与人工智能, 2012, 25(2): 186-194. XUAN Shibin, LIU Yiguang. GEP evolution algorithm based on control of mixed diversity degree[J]. Pattern recognition & artificial intelligence, 2012, 25(2): 186-194.

[18]	TANG Changjie, DUAN Lei, PENG Jing, et al. The strategies to improve performance of function mining by gene expression programming: genetic modifying, overlapped gene, backtracking and adaptive mutation[C]//Proceedings of the 17th Data Engineering Workshop. Ginowan, Japan, 2006: 100-106.

[19]	BAUTU E, BAUTU A, LUCHIAN H. AdaGEP-an adaptive gene expression programming algorithm[C]//Proceedings of IEEE International Symposium on Symbolic and Numeric Algorithms for Scientific Computing. Timisoara, Romania, 2007: 403-406.

[20]	元昌安, 唐常杰, 左劼, 等. 基于基因表达式编程的函数挖掘-收敛性分析与残差制导进化算法[J]. 四川大学学报:工程科学版, 2004, 36(6): 100-105. YUAN Changan, TANG Changjie, ZUO Jie, et al. Function mining based on gene expression programming-convergency analysis and remnant-guided evolution algorithm[J]. Journal of Sichuan university :engineering science edition, 2004, 36(6): 100-105.

[21]	RYAN N, HIBLER D. Robust gene expression programming[J]. Procedia computer science, 2011, 6: 165-170.

[22]	ZHONG Jinghui, ONG Y S, CAI Wentong. Self-learning gene expression programming[J]. IEEE transactions on evolutionary computation, 2016, 20(1): 65-80.

[23]	张鑫源, 胡晓敏, 林盈. 遗传算法和粒子群优化算法的性能对比分析[J]. 计算机科学与探索, 2014, 8(1): 90-102.ZHANG Xinyuan, HU Xiaomin, LIN Ying. Comparisons of genetic algorithm and particle swarm optimization[J]. Journal of frontiers of computer science and technology, 2014, 8(1): 90-102.

[24]	陈宇, 唐常杰, 钟义啸, 等. 基于基因表达式编程和时变强度的时间序列预测[J]. 计算机科学, 2005, 32(7 Suppl. B): 269-271. CHEN Yu, TANG Changjie, ZHONG Yixiao, et al. Time series predication based on gene expression programming and time series vibration intensity[J]. Computer science, 2005, 32(7 Suppl. B): 269-271.

DOI: 10.11992/tis.2016030
中国人工智能学会和哈尔滨工程大学联合主办。

文章信息

彭昱忠, 元昌安, 李洁, 许明涛, 陈冰廉

PENG Yuzhong, YUAN Changan, LI Jie, XU Mingtao, CHEN Binglian

个体最优共享GEP算法及其气象降水数据预测建模

Individual optimal sharing GEP algorithm and its application in forecast modeling of meteorological precipitation

智能系统学报, 2016, 11(3): 401-409.

CAAI Transactions on Intelligent Systems, 2016, 11(3): 401-409.

DOI: 10.11992/tis.2016030

文章历史

收稿日期: 2016-3-18

网络出版日期: 2016-05-13

文章信息

文章历史

相关文章

工作空间