基于最佳范化能力的BP网络隐节点数反比关系式的环境预测模型

引用本文

李祚泳, 余春雪, 张正健, 等. 2021. 基于最佳范化能力的BP网络隐节点数反比关系式的环境预测模型[J]. 环境科学学报, 41(2): 718-730.

LI Z Y, YU C X, ZHANG Z J, et al. 2021. An environment prediction model based on the inverse relation of hidden nodes of BP network with the best normalization ability[J]. Acta Scientiae Circumstantiae, 41(2): 718-730.

基于最佳范化能力的BP网络隐节点数反比关系式的环境预测模型

[PDF全文]

李祚泳¹, 余春雪², 张正健³, 汪嘉杨¹

1. 成都信息工程大学, 资源环境学院, 成都 610225;
2. 东莞理工学院, 生态环境工程技术研究中心, 东莞 523808;
3. 中国科学院成都山地灾害与环境研究所, 成都 610041

收稿日期: 2020-05-20; 修回日期: 2020-07-10; 录用日期: 2020-07-10

基金项目: 国家重点研发计划（No.2017YFC0404506）；国家自然科学基金青年基金（No.51709045）；四川省社科规划项目（No.SC18B027）；四川省科技厅项目（No.19JDJQ0006）

通讯作者（责任作者）: 李祚泳(1944-), 男, 教授, E-mail:lizuoyong@cuit.edu.cn
余春雪, E-mail:yucx@dgut.edu.cn

摘要：网络结构和样本集复杂性是影响BP网络泛化能力的两个最重要因素.对一个给定的训练样本集，为了构造一个与样本集复杂性相匹配的网络结构，使BP网络具有最佳泛化能力，在分析BP网络的泛化能力（用检测误差E₂表示）与网络结构和样本集复杂性之间关系的基础上，建立了含参数的BP网络检测误差E₂与网络隐节点数H、样本的因子数n、样本数N和样本集的复相关系数R之间的一般关系表达式，并提出了用于定量描述样本集复杂性的"广义"复相关系数R_n的新概念.借助于222个复杂函数的模拟仿真实验，应用免疫进化算法，对表达式中的参数进行优化，得到参数优化后的网络检测误差E₂的定量解析表达式；依据误差理论和灵敏度概念，对优化得到的最小检测误差E₂₀的表达式进行了可靠性论证.在此基础上导出了具有最佳泛化能力的BP网络隐节点数H₀与"广义"复相关系数R_n之间满足的H₀-R_n反比关系式.分别用满足H₀-R_n反比关系式的隐节点数和6个经验公式的隐节点数构造的BP网络用于100个模拟检测函数进行仿真实验，发现前者构造的BP网络具有最佳泛化能力（即最小检测误差）的函数个数达到76个，远远多于后者构造的BP网络具有最佳泛化能力的函数个数；还将二者构造的BP网络用于环境预测的7个具体实例，进行预测效果比较，结果表明，前者预测的相对误差绝对值的平均值和最大值小于或远小于后者的相应值.从而验证了由H₀-R_n反比关系式得出的BP网络隐节点数计算公式的可行性和实用性，为具有最佳泛化能力的BP网络的结构设计指出了新途径.

关键词：BP网络泛化能力网络结构隐节点数广义复相关系数 H₀-R_n反比关系式预测模型

An environment prediction model based on the inverse relation of hidden nodes of BP network with the best normalization ability

LI Zuoyong¹, YU Chunxue², ZHANG Zhengjian³, WANG Jiayang¹

1. College of Resources and Environment, Chengdu University of Information Technology, Chengdu 610225;
2. Research Center of Ecological Environment Engineering Technology, Dongguan Institute of Technology, Dongguan 523808;
3. Institute of Mountain Hazards and Environment, Chinese Academy of Sciences, Chengdu 610041

Received 20 May 2020; received in revised from 10 July 2020; accepted 10 July 2020

Abstract: Network structure and sample set complexity are the two most important factors that affect the generalization ability of BP network. For a given training sample set, the purpose is to construct a network structure matching the given complexity of the sample set, so that the BP network has the best generalization ability. Based on the analysis of the relationship between the generalization ability of BP network (expressed by detection error E₂) and the network structure and sample set complexity, the general expression between the detection error E₂ of BP network with parameters and the number of hidden nodes H, the number of sample factors n, the number of samples N and the complex correlation coefficient R of sample set is established, and a new concept of "generalized" complex correlation coefficient R_n is proposed to quantitatively describe the complexity of samples set. With the help of 222 complex function simulation experiments, the parameters in the expression are optimized by using immune evolution algorithm, and the quantitative analytical expression of the network detection error E₂ is obtained. According to the error theory and the concept of sensitivity, the reliability of the expression E₂₀ of the minimum generalization error is demonstrated. On this basis, the H₀-R_n inverse relation between the hidden nodes H₀ of BP network and the "generalized" complex correlation coefficient R_n with the best generalization ability is derived. The BP network constructed by the number of hidden nodes satisfying H₀-R_n inverse relation and the number of hidden nodes satisfying 6 empirical formulas are used in 100 simulated detection functions for simulation experiments. The number of functions with the best generalization ability (i.e. the minimum detection error) of the BP network constructed by the former reaches 76, far more than the number of functions with the best generalization ability of the BP network constructed by the latter. In addition, the BP networks constructed by the two methods were applied to 7 specific cases of environmental prediction, and compared the prediction effects, The results show that the average value and the maximum value of the absolute value of the relative error predicted by the former are less than or far less than the corresponding value of the latter. Thus, the feasibility and practicability of the calculation formula of hidden node numbers of BP network derived from H₀-R_n inverse relation are verified, and a new way for the structural design of BP network with the best generalization ability is pointed out.

Keywords: BP network generalization ability network structure hidden node number generalized complex correlation coefficient generalized H₀-R_ninverse relation prediction model

1 引言(Introduction)

进入21世纪以来, 虽然以深度学习算法为代表的新型神经网络的理论和应用研究取得了长足的进展(焦李成等, 2016), 但比较而言, 传统的BP网络因其原理简单、编程简便, 尤其是具有只需三层的网络结构就可以实现以任意精度逼近任意非线性函数这一优势, 而使其在环境的分类、识别、评价和预测等方面的应用仍十分广泛(Paschalidou et al., 2011；Liu, et al., 2015；李佟等, 2016；孙宝磊等, 2017).然而BP网络也存在易陷入局部极小、参数选择困难、学习效率低、泛化能力差、易出现“过拟合”和结构设计的理论依据不足等缺陷(Funahashi, 1989).在BP网络的的诸多缺陷中, 网络的泛化能力和学习效率是衡量BP网络性能的两个主要指标.因为没有泛化能力或泛化能力差的网络没有任何理论意义, 学习效率低则降低了网络的实用价值, 因而这两个指标备受人们的关注, 但却又是难以解决的问题(魏海坤等, 2001).关于提高网络的学习效率、加速收敛的方法目前已有很多讨论(Wang et al., 2011)；虽然网络初始参数和学习参数的选择、调整和所用的学习算法也会对网络的泛化能力产生影响, 但网络结构和样本集复杂性才是影响泛化能力的两个重要因素.因此, 这两个问题的解决在BP网络研究中具有重要的理论意义和实用价值.目前针对网络泛化能力、过拟合及网络结构设计的理论和方法研究已取得若干进展(胡铁松等, 2016), 例如, Setiono(1997)提出采用权重惩罚来提高泛化能力；郭海如等(2014)给出了一种基于随机GA的提高BP网络泛化能力的方法；李祚泳等(2003)确立了BP网络出现过拟合时泛化能力与学习能力之间满足的不确定关系式, 并由此不确定关系式指出为改进泛化能力的训练最佳停止方法.由于网络结构设计难度很大, 因此, 已有的研究多是一些网络结构设计的定性分析结论或选择隐节点数的经验公式(Benardos et al., 2007; Goh et el., 2008; Islam et al., 2009).经验公式不仅缺乏严格的理论依据, 不能保证构建的网络具有最佳泛化能力, 而且对同一训练样本集, 不同经验公式计算的隐节点数存在差异, 具有不确定性(焦斌等, 2013; 蔡荣辉, 2017).关于样本集的复杂性仅对由因子数和样本数引起的样本规模复杂性有所研究, 而对由样本集的数据分布和变化规律特性所确定的样本质量复杂性的定量研究, 目前在国内外尚未见报道.因此, 对于一个给定的训练样本集, 在选择适当的网络初始参数和学习参数的情况下, 如何根据样本集的复杂性构造一个具有最佳泛化能力的BP网络结构, 是一个具有重要的理论意义和实用价值的问题.这个问题的解决, 将极大地推动BP网络的理论和应用的发展.

本文在分析BP网络的泛化能力与网络结构、样本复杂性之间关系的基础上, 提出用复相关系数定量描述由样本数据分布特性和变化规律所引起的样本集复杂性, 建立了用检测误差E₂表示的BP网络泛化能力与网络隐节点数H、样本因子数n、样本数N和样本集的复相关系数R之间含参数的一般关系表达式.通过222个复杂函数的模拟仿真实验, 应用免疫进化算法对表达式中参数进行优化, 得出参数优化后的解析表达式, 并对优化得到的最优泛化能力(即最小检测误差E₂₀)的解析表达式进行可靠性论证.在提出用“广义”复相关系数R_n新概念描述包括样本规模和样本质量在内的样本集的复杂性基础上, 导出具有最佳泛化能力的BP网络隐节点数H₀与样本集的“广义”复相关系数R_n之间满足的反比关系式(建立BP算法的H₀-R_n关系式流程如图 1所示).文中除了模拟100个仿真测试函数, 对导出的隐节点数反比关系式和6个传统的隐节点数经验公式构建的BP预测模型进行对比检验外, 还将反比关系式与6个传统的隐节点数经验公式用于环境预测的7个具体实例, 进行模型的预测效果比较.

图 1 BP算法的H₀-R_n关系式流程图 Fig. 1 H₀-R_n relation flow chart of BP algorithm

2 BP网络泛化能力表示式和最佳泛化能力的网络隐节点数满足的反比关系式(The expression of BP network generalization ability and the inverse relation of the number of hidden nodes of the network with the best generalization ability) 2.1 BP网络泛化能力的一般表示式

国内外学者对只有一个隐层的BP网络训练的动态过程进行分析后发现, 随着网络结构复杂性增加, 用检测误差表示的泛化能力与用训练误差表示的学习能力的变化趋势分为3个阶段：①训练误差和检测误差皆单调减小；②训练误差单调减小, 检测误差变化较复杂, 但最终达到最小, 即网络泛化能力达到最佳；③训练误差单调减小, 而检测误差单调增加, 即泛化能力逐渐减弱, 出现“过拟合”现象.对于只有一个隐层的BP网络, Barron给出了样本集学习过程中用检测误差表示的总泛化能力的表示式, 具体如式(1)所示(Barron, 1994).

(1)

式中, c_f为样本集(问题)的复杂程度；o为无穷小量；H为网络隐节点数；n和N分别为样本集的因子数和训练样本数.

式(1)右端第1项称为逼近误差, 表征了样本集包含的关于未知函数的信息, 由样本集的复杂性(c_f)和网络结构复杂性(H)共同决定；第2项称为估计误差, 表征了网络结构所能表示的函数集对未知函数的拟合能力, 由网络结构复杂性(H)和样本数N和因子数n决定.可见, 在训练样本集已确定的情况下, 由于因子数n、训练样本数N和样本集的复杂性c_f已确定, 故随着网络结构复杂性的增加(H增大), 第1项将逐渐减小, 而第2项将逐渐增大.因此, 好的泛化能力取决于选择一个适当的隐节点数H, 使式(1)的第1项逼近误差和第2项估计误差得到协调.

根据式(1)不难发现, 样本集的复杂性c_f主要体现在样本规模和样本质量两个方面.样本规模可简单理解为训练样本数N和因子数n；样本质量指样本数据反映总体分布的程度, 它与采样过程相关；训练样本的复杂性决定了训练集所包含的信息.虽然样本质量对网络的泛化能力有很大影响, 但有关样本质量对泛化能力影响的定量研究目前尚未见报道.为此, 本文提出用样本集的复相关系数R的倒数1/R表征样本的复杂程度c_f, 即c_f =1/R；并引入参数α、β分别替代式(1)右端的两个无穷小量o.若将检测误差下界记为E₂, 则由式(1)可得网络的检测误差下界E₂(式(1)取等号, 变为等式)与网络的隐节点数H、样本因子数n、训练样本数N及样本复相关系数R之间含参数的一般关系表达式, 具体如式(2)所示.

(2)

式中, β为逼近参数；α为估计参数；R为样本集的复相关系数；H、n和N的意义与式(1)中相同.

2.2 具有最佳泛化能力的网络隐节点数H₀与样本集的广义复相关系数R_n之间的反比关系式

由前述可知, 给定一个训练样本集, 存在一个与样本集复杂性相匹配的最佳隐节点数H₀的网络结构, 使该结构下的网络有最佳泛化能力.即好的泛化能力取决于式(2)中右端两项的协调.于是问题转化为求E₂为最小值时的最佳隐节点数H₀.为此, 先将H视作正实数, 对式(2)求E₂关于H的一阶偏导数, 得到式(3).

(3)

令，可得，即：

(4)

式(4)两边同时开平方, 可得：

(5)

若采用式(6)和式(7)定义的参数R_n和C分别代替式(5)等号两边的不同参数组合, 则式(5)可记为式(8).

(6)

(7)

(8)

若用H₀代表(理论)最佳隐节点数, 则有：

(9)

式中, 符号[ ]表示取整, R_n为由式(6)表示的“广义”复相关系数, 它由样本总体分布(样本质量)引起的样本集复杂性R与样本因子数n和训练样本数N(样本规模)引起的样本集复杂性共同决定.式(7)所示的C为需要优化确定的β和α构成的组合参数.式(9)表明具有最佳泛化能力的网络的隐节点数H₀与样本集的“广义”复相关系数R_n成反比, 即H₀-R_n反比关系式.

对于一个给定的样本集, 具有N个样本的n个自变量(因子)和因变量y之间的复相关系数定义为：

(10)

式中, R^*是相关矩阵的行列式, R_yy^*是相关矩阵去掉第n+1行和第n+1列后的代数余子式.可见, 只要能确定出对任意训练样本集都适合的参数α、β, 再由式(7)计算得到普适组合参数C=(β/α)^1/2, 并由式(10)和式(6)计算出“广义”复相关系数R_n, 就能由H₀与R_n的反比关系式(9), 计算出具有最佳泛化能力的BP网络需要的最佳隐节点数H₀.

3 最佳泛化能力的泛化误差表达式中参数α和β的优化(Optimization of parameters α and β in generalization error expression of optimal generalization ability) 3.1 构建模拟测试函数和网络结构进行仿真实验

为得到适用于任何复杂训练样本集的H₀-R_n反比关系式(9)中的组合优化参数C, 需要确定对大量不同训练样本集都适合的BP网络的检测误差表示式(2)中的优化参数α、β值.为此, 模拟构建了222个不同复杂函数, 用BP网络进行模拟仿真实验.为使模拟实验函数能更好地仿真现实中的各种复杂问题, 这222个函数包括由若干个典型测试函数、代数函数和超越函数(对数函数、指数函数、幂函数、各种三角函数、反三角函数、双曲函数、反双曲函数)的任意随机组合成的复杂函数.为简化计算, 且不失一般性, 本实验只构建包含1个输入层、1个隐层和1个输出节点的输出层的3层BP网络用于训练和检验.模拟函数实验过程中, BP网络的结构(输入节点数n与隐节点数H)及网络的初始权值w_ij设置和训练样本数N₁\检验样本数N₂等的变化范围如表 1所示.采用各模拟函数定义域内样本因子随机值的极差归一化值作为样本的网络因子输入值, 各模拟函数样本的计算值的极差归一化值作为样本的网络期望(目标)输出值.

表 1 BP网络的结构和参数的设置范围 Table 1 Bp network structure and parameter setting range

3.2 参数α和β的优化

为了优化确定具有最佳泛化能力的检测误差表达式(2)中的参数α和β, 需要构造满足如式(11)所示的优化目标函数式.

(11)

式中, E₂⁽¹⁾(l, k)和E₂⁽⁰⁾(l, k)分别为用第l个模拟函数训练BP网络时, 当隐节点数H改变到第k(k=1, 2, …, 18)次的BP网络的实际最小检测误差和当优化参数α和β分别为某值时, 由式(2)计算得到的理论最小检测误差；L为模拟函数的总个数(L=222)；由于对每个模拟实验函数而言, 隐节点数从3个开始, 逐次改变到20个, 因此, K为对每个函数的数值模拟实验过程中, BP网络隐节点数改变的总次数(K=18).对222个模拟函数中的每一个函数, 用随机生成的训练样本集的归一化值输入相应BP网络, 并相继改变BP网络的隐节点数H=3, 4, …, 20, 进行训练, 用检验样本集的归一化值进行检验, 以每次不同的隐节点数的实际检验误差最小值, 作为式(11)中的E₂⁽¹⁾(l, k)；同时, 由式(2)计算出相应的隐节点数的理论最小检验误差值, 作为式(11)中的E₂⁽⁰⁾(l, k).对222个模拟函数都进行完全同样的数值仿真实验.用免疫进化算法对式(2)中的参数α和β反复迭代优化, 当优化目标函数式(11)满足minQ = 0.0449不再减小的情况下, 停止迭代, 最终得到BP网络对222个模拟函数皆具有最佳泛化能力时的检测误差表达式中的参数β和α, 分别为β₀=0.033098、α₀=0.005285, 并将β₀和α₀代入式(7), 得C₀=(β₀/α₀)^1/2= 2.5025.从而得到具有最佳泛化能力的网络的隐节点数H₀与训练样本集的广义复相关系数R_n之间的H₀-R_n反比关系式, 具体如式(12)所示.

(12)

式中, H₀是具有最佳泛化能力的BP网络的隐节点数；R_n是训练样本集的广义复相关系数.

[ ]表示取整.由于优化得出的参数β₀、α₀存在一定的不确定性, 则由β₀、α₀计算得出的参数C₀=2.5025也存在不确定性, 因此, 由2.5025/R_n计算得出的值也是不能完全确定的.故式(12)右边的[ ]既可向上取整, 也可向下取整.多数情况下, 需要用向上和向下都取整得到的隐节点数构建网络预测模型, 进行预测效果比较, 从中选择拟合和预测的综合效果较好者作为网络结构模型.

H₀- R_n反比关系式(12)表明, 随着样本集复杂性增加, “广义”复相关系数R_n减小, 为使网络具有最佳泛化能力, 网络的最佳隐节点数H₀应与“广义”复相关系数R_n成反比增加, 即网络结构复杂性也相应增加.

4 最小检测误差公式的可靠性分析(Reliability analysis of the formula of minimum detection error)

将网络具有最佳泛化能力(即最小理论检测误差E₂₀)时参数β₀、α₀、H₀之间的关系式(7)和式(9)代入泛化误差E₂的表达式(2)中, 可得网络的最小检测误差理论值, 见式(13)或式(14).

(13)

(14)

式中, β₀=0.033098, α₀=0.005285；H₀为用H₀-R_n反比关系式(12)计算得出的网络隐节点数；E₂₀为用隐节点数H₀构造的网络能达到的最小理论检测误差；R为复相关系数；n和N分别为训练样本的因子数和样本数.

优化得出的参数β₀和α₀存在的不确定性对最小检测误差E₂₀的影响程度可以通过对式(13)和式(14)的灵敏度分析来确定.而检测误差公式(13)或(14)的灵敏度是指网络最小检测误差E₂₀对优化得出的参数β₀和α₀的不确定性(相对误差)的响应程度.通过对式(13)或式(14)的分析, 估计最小检测误差E₂₀计算结果的偏差.根据灵敏度分析理论, 由式(13)和式(14)可得最小检测误差E₂₀的相对误差ΔE₂/E₂₀与参数β₀、α₀的相对误差和灵敏度S_β、S_α之间的关系分别如式(15)和式(16)所示.

(15)

(16)

式中, ΔE₂= E₂₀ - E₂；Δβ = β₀ - β；Δα = α₀ - α；β₀=0.033098；α₀=0.005285；E₂₀为用训练样本训练由H₀-R_n反比关系式(12)确定的最佳隐节点数H₀构造的网络, 达到最佳泛化能力时的理论最小检测误差；E₂为用训练样本训练不同隐节点数构造的网络, 其中, 隐节点数为H_m的网络达到的实际最小检测误差.S_β和S_α分别为参数β和α的灵敏度, 定义为：

(17)

(18)

当Δβ和Δα都趋于0时, 式(17)和式(18)可分别写为：

(19)

(20)

对每个模拟函数实验过程中, 可由理论最佳隐节点数H₀计算得到的最小检测误差E₂₀, 以及实际隐节点数H_m构造的网络训练样本达到的最小检测误差E₂, 计算出ΔE₂/E₂₀, 并由式(19)和式(20)计算得出灵敏度S_β和S_α.在所有模拟函数的ΔE₂/E₂₀和S_β、S_α都计算出的情况下, 用免疫进化算法分别对式(15)和式(16)中的Δβ/β₀和Δα/α₀反复迭代优化.当优化目标函数值分别达到minQ₁= =0.0145和minQ₂= = 0.0141时, 停止迭代.最终得到参数β和α的相对误差分别为Δβ/β₀=2.83%和Δα/α₀=7.21%.可见参数β₀和α₀的相对误差变化都小于10%, 因而优化得到的参数β₀和α₀具有较好的可靠性, 从而C₀=(β₀/α₀)^1/2= 2.5025亦具有可靠性.因此, 导出的具有最佳泛化能力的网络的隐节点数H₀-R_n反比关系式(12)也是可靠的.

5 模型的验证(Model validation) 5.1 BP网络隐节点数的6个经验公式

相关文献(焦斌等, 2013)给出了BP网络隐节点数计算的若干经验公式：

(21)

(22)

(23)

(24)

(25)

(26)

式中, h为网络隐节点数；n为输入节点数；N为样本数；p为网络输出节点数.

5.2 不同隐节点数计算公式的效果比较与分析

为了验证具有最佳泛化能力的BP网络的隐节点数H₀与训练样本的广义复相关系数R_n之间的H₀-R_n反比关系式的正确性和实用性, 重新任意模拟了100个检测函数用于验证.为了有可比性, 对同一个模拟检测函数, 网络的初始权值在[-1, 1]区间内随机选取情况下, 都用生成的同一组训练样本, 分别对由6个隐节点数经验公式(21)~(26)和H₀-R_n反比关系式(12)确定的隐节点数构造的网络进行训练, 并用同一组检测样本进行效果检验.此100个检测函数的变量个数n(即网络的输入节点数)、训练样本数N₁、检测样本数N₂、总样本数N(N= N₁+ N₂)、计算得到函数的复相关系数R和广义复相关系数R_n、由H₀-R_n反比关系式(12)计算得到的理论最佳隐节点数H₀及网络具有最佳泛化能力时的实际最小检测误差E₂及其相应的实际最佳隐节点数H_m, 如表 2所示.在100个模拟检测函数中, 用H₀-R_n关系式(12)和用6个经验公式(21)~(26)计算得到的不同隐节点数构造的网络, 能达到实际最小检测误差E₂(即具有最佳泛化能力)的不同网络结构, 如表 2的第12列所示, 其中, fc代表用 H₀-R_n关系式(12)计算得到的隐节点数构建的网络, f1~f6分别代表用6个经验公式(21)~(26)计算得到的隐节点数构建的网络.用不同隐节点数公式计算得到隐节点数构造的网络在100个模拟检测函数中达到实际最小泛化误差的函数个数如表 3所示.

表 2 100个检测函数的有关参数及理论最佳隐节点数H₀和网络具有实际最小检测误差E₂时的最佳隐节点数H_m Table 2 Relevant parameters of 100 detection functions and theoretical optimal hidden node H₀ and optimal hidden node H_m when the network has the actual minimum detection error E₂

序号	测试函数	n	N	N₁	N₂	R	R_n	H₀	H_m	E₂	达到E₂的不同网络结构
1	F3_1	3	35	20	15	0.1822	0.1221	20	20	0.167968	fc
2	F3_2	3	35	20	15	0.6935	0.4649	5	5	0.067297	fc, f4
3	F3_3	3	35	20	15	0.6439	0.4316	6	6	0.067297	fc
4	F3_4	3	35	20	15	0.4447	0.2981	8	8	0.067297	fc
5	F3_5	3	35	20	15	0.9932	0.6658	4	4	0.067297	fc, f2 f3, f5
6	F3_6	3	16	10	6	0.9134	0.7592	3	7	0.113082	f1
7	F3_7	3	16	10	6	0.3617	0.3006	8	8	0.179959	fc, f1
8	F3_8	3	9	5	4	0.8717	0.8566	3	3	0.132309	fc
9	F3_9	3	9	5	4	0.9935	0.9763	3	3	0.081028	fc
10	F4_1	4	40	25	15	0.3107	0.2230	11	11	0.112295	fc
11	F4_2	4	40	25	15	0.4585	0.3290	8	8	0.079493	fc
12	F4_3	4	40	25	15	0.8054	0.5780	4	4	0.120683	fc
13	F4_4	4	40	25	15	0.2377	0.1706	15	15	0.108662	fc
14	F4_5	4	40	25	15	0.3330	0.2390	10	10	0.165749	fc
15	F4_6	4	40	25	15	0.1494	0.1072	23	23	0.143812	fc
16	F4_7	4	32	20	12	0.1954	0.1512	17	17	0.137495	fc
17	F4_8	4	16	10	6	0.8007	0.7684	3	3	0.193767	fc, f2
18	F4_9	4	15	9	6	0.8196	0.8099	3	3	0.191123	fc, f2
19	F5_1	5	40	25	15	0.6440	0.5167	5	5	0.111473	fc, f2 f5
20	F5_2	5	40	25	15	0.4213	0.3380	7	7	0.094522	fc, f1, f3
21	F5_3	5	40	25	15	0.7497	0.6015	4	4	0.095594	fc, f4
22	F5_4	5	40	25	15	0.8345	0.6696	4	7	0.115999	f1, f3
23	F5_5	5	40	25	15	0.6399	0.5134	5	5	0.074747	fc, f2 f5
24	F5_6	5	40	25	15	0.9742	0.7817	3	7	0.041941	f1, f3
25	F5_7	5	32	20	12	0.7748	0.6705	4	4	0.058999	fc, f2
26	F5_8	5	20	13	7	0.7268	0.7219	3	3	0.102676	fc
27	F5_9	5	16	10	6	0.3813	0.4091	6	6	0.128647	fc
28	F6_1	6	45	30	15	0.4029	0.3323	8	8	0.065337	fc, f1
29	F6_2	6	45	30	15	0.4894	0.4036	6	6	0.163066	fc, f5
30	F6_3	6	45	30	15	0.3736	0.3081	8	8	0.123752	fc, f1
31	F6_4	6	45	30	15	0.8017	0.6612	4	8	0.089863	f1
32	F6_5	6	45	30	15	0.7354	0.6065	4	4	0.120625	fc, f4
33	F6_6	6	32	20	12	0.3892	0.3690	7	7	0.099370	fc
34	F6_7	6	26	17	9	0.8531	0.8531	3	3	0.047927	fc
35	F6_8	6	23	15	8	0.6665	0.6937	4	4	0.207171	fc, f2
36	F6_9	6	16	10	6	0.8726	1.0256	2	2	0.056617	fc, f6
37	F7_1	7	50	30	20	0.2818	0.2510	10	3	0.096931	f6
38	F7_2	7	50	30	20	0.5455	0.4860	5	5	0.171024	fc, f2
39	F7_3	7	50	30	20	0.3971	0.3538	7	7	0.056106	fc
40	F7_4	7	50	30	20	0.4312	0.3841	7	7	0.055732	fc
41	F7_5	7	50	30	20	0.5598	0.4987	5	5	0.058344	fc, f2
42	F7_6	7	32	21	11	0.4407	0.4440	6	6	0.118973	fc, f5
43	F7_7	7	31	20	11	0.8452	0.8655	3	11	0.085986	f3
44	F7_8	7	23	15	8	0.8033	0.9030	3	3	0.103341	fc, f6
45	F8_1	8	55	35	20	0.7281	0.6564	4	4	0.118059	fc, f4
46	F8_2	8	55	35	20	0.2473	0.2229	11	12	0.049349	f3
47	F8_3	8	55	35	20	0.3615	0.3259	8	8	0.080351	fc, f1
48	F8_4	8	55	35	20	0.2321	0.2092	12	4	0.053621	f4
49	F8_5	8	55	35	20	0.9513	0.8576	3	3	0.063639	fc, f6
50	F8_6	8	40	26	14	0.2205	0.2208	11	11	0.106867	fc
51	F8_7	8	31	20	11	0.7683	0.8410	3	3	0.148893	fc, f6
52	F8_8	8	23	15	8	0.7764	0.9331	3	3	0.120079	fc, f6
53	F9_1	9	55	35	20	0.5888	0.5630	4	4	0.060919	fc, f4
54	F9_2	9	55	35	20	0.4089	0.3910	6	6	0.089125	fc
55	F9_3	9	55	35	20	0.7798	0.7456	3	14	0.056946	f3
56	F9_4	9	55	35	20	0.3512	0.3358	7	7	0.143441	fc, f5
57	F9_5	9	55	35	20	0.9107	0.8708	3	3	0.105163	fc, f6
58	F9_6	9	48	31	17	0.7671	0.7659	3	3	0.100063	fc, f4, f6
59	F9_7	9	40	26	14	0.4758	0.5053	5	5	0.188173	fc, f2
60	F9_8	9	32	20	12	0.9704	1.1267	2	14	0.067260	f3
61	F10_1	10	60	40	20	0.3306	0.3175	8	16	0.033962	f3
62	F10_2	10	60	40	20	0.6727	0.6460	4	4	0.024936	fc, f4
63	F10_3	10	60	40	20	0.3840	0.3688	7	7	0.181366	fc, f5
64	F10_4	10	60	40	20	0.3871	0.3717	7	7	0.039337	fc, f5
65	F10_5	10	60	40	20	0.2233	0.2144	12	12	0.183556	fc
66	F10_6	10	55	36	19	0.5676	0.5663	4	4	0.042094	fc
67	F10_7	10	46	30	16	0.6707	0.7141	4	7	0.055095	f5
68	F10_8	10	32	20	12	0.8993	1.1006	2	16	0.092252	f3
69	F11_1	11	60	40	20	0.5123	0.5160	5	17	0.054871	f3
70	F11_2	11	60	40	20	0.6113	0.6157	4	4	0.063655	fc
71	F11_3	11	60	40	20	0.4880	0.4915	5	3	0.048999	f4, f6
72	F11_4	11	60	40	20	0.5320	0.5358	5	5	0.059557	fc, f2
73	F11_5	11	60	40	20	0.7312	0.7365	3	3	0.062839	fc, f4, f6
74	F11_6	11	62	40	22	0.5129	0.5166	5	5	0.138660	fc, f2
75	F11_7	11	38	25	13	0.6687	0.7958	3	3	0.081079	fc, f6
76	F12_1	12	65	40	25	0.6256	0.6581	4	4	0.045472	fc
77	F12_2	12	65	40	25	0.7951	0.8364	3	3	0.130427	fc, f4, f6
78	F12_3	12	65	40	25	0.7189	0.7563	3	3	0.176012	fc, f4, f6
79	F12_4	12	65	40	25	0.4600	0.4839	5	5	0.052295	fc, f2
80	F12_5	12	38	25	13	0.7800	0.9695	3	2	0.080816	f4
81	F12_6	12	62	40	22	0.4807	0.5057	5	3	0.044843	f4, f6
82	F12_7	12	71	46	25	0.5685	0.5682	4	4	0.042276	fc, f4
83	F13_1	13	65	40	25	0.7713	0.8445	3	8	0.087121	f5
84	F13_2	13	65	40	25	0.5277	0.5778	4	4	0.163231	fc, f6
85	F13_3	13	65	40	25	0.6856	0.7507	3	3	0.039819	fc, f4
86	F13_4	13	38	25	13	0.8029	1.0388	2	20	0.139739	f3
87	F13_5	13	46	30	16	0.6241	0.7577	3	3	0.084029	fc
88	F13_6	13	80	52	28	0.5714	0.5679	4	4	0.113255	fc, f4, f6
89	F14_1	14	70	45	25	0.6479	0.7051	4	3	0.028667	f4
90	F14_2	14	70	45	25	0.9696	1.0552	2	2	0.061088	fc
91	F14_3	14	70	45	25	0.9279	1.0098	2	22	0.078244	f3
92	F14_4	14	46	30	16	0.9598	1.2092	2	2	0.107680	fc, f4
93	F14_5	14	77	50	27	0.5263	0.5508	5	4	0.188782	f6
94	F14_6	14	86	56	30	0.5471	0.5488	5	4	0.037802	f4, f6
95	F15_1	15	70	45	25	0.5470	0.6162	4	4	0.048989	fc, f6
96	F15_2	15	70	45	25	0.6669	0.7512	3	3	0.036867	fc, f4
97	F15_3	15	70	45	25	0.5710	0.6432	4	4	0.154473	fc, f6
98	F15_4	15	46	30	16	0.9467	1.2346	2	24	0.168865	f3
99	F15_5	15	77	50	27	0.7701	0.8343	3	3	0.076543	fc, f4
100	F15_6	15	92	62	30	0.4572	0.4569	5	5	0.038743	fc

表 3 不同隐节点数的网络在100个模拟测试函数中具有最小检测误差的函数个数 Table 3 Numbers of functions with minimum detection error in 100 simulated test functions for networks with different hidden node numbers

从表 3可见, 在100个测试函数中, 以H₀-R_n反比关系式(12)计算得到的隐节点数构建的网络, 能达到最小检测误差的函数个数有76个, 远远大于用6个经验公式(21)~(26)计算得到的隐节点数构建的网络所能达到的最小检测误差的函数个数, 从而表明H₀-R_n反比关系式(12)的可行性和实用性.

6 H₀-R_n反比关系式用于环境预测建模的实例验证(Example verification of H₀-R_n inverse relationship used in environmental prediction modeling)

为了验证隐节点数反比关系式H₀-R_n用于实际问题的可行性和实用性, 对洛河BOD₅(李世玲, 2005)、青弋江COD_C_r(李俊等, 2008)、南昌市降水酸度(pH)(徐源蔚等, 2015)、郭庄泉流量(Q)(高波, 2002)、滦河地下水位(曹邦兴, 2010)、新疆伊犁河雅马渡站径流(崔东文等, 2016)和某水文站径流量(阎俊爱等, 2003)等7个环境的具体实例, 分别用H₀-R_n反比关系式(12)和6个隐节点数经验公式(21)~(26)计算得到的不同隐节点数, 构建BP网络的预测模型.7个实例的因子和预测变量的原始数据分别见相应文献, 其因子和预测变量的归一化一般变换式如式(27)所示.

(27)

式中, x_j′为预测变量或因子的极差归一化值；x_j为预测变量或因子的实际值；x_j_M和x_j_m分别为设定的预测变量或因子的最大极限值和最小极限值；x_j₀=x_j_M-x_j_m为预测变量或因子的最大极限值与最小极限值之差.

7个实例的因子X_j和预测变量Y的归一化变换式(27)中x_j_M和x_j_m的设置如表 4所示.为了有可比性, 对同一个实例, 隐节点数的H₀-R_n反比关系式和6个经验公式的因子和预测变量的归一化变换式设置为相同, 7个实例的因子数n、训练样本数N₁和预测(检验)样本数N₂如表 5所示.根据各个实例训练样本因子和预测变量的原始数据, 由式(10)和式(6), 计算得出7个实例的广义复相关系数R_n, 具体见表 5；再由式(12)和6个隐节点数经验公式(21)~(26), 计算得到7个实例建模的隐节点数, 如表 6所示.

表 4 7个实例的因子X_j和预测变量Y归一化公式中x_j_M和x_j_m的设置及优化目标函数值minQ Table 4 The setting of x_j_M and x_j_m in the normalization formula of factors X_j and prediction variables Y of 7 examples and the optimization objective function value minQ

表 5 7个实例的影响因子数n、训练样本数N₁、检验样本数N₂和广义复相关系数R_n Table 5 Number of influence factors n, number of training samples N₁, number of test samples N₂ and generalized complex correlation coefficient R_n of 7 examples

表 6 用H₀-R_n反比律公式和6个经验公式计算得到不同实例的BP网络隐节点数 Table 6 The number of hidden nodes in different examples of BP network is calculated by H₀-R_n inverse law formula and 6 empirical formulas

对每个实例, 分别构建如表 6所示的不同隐节点数的BP网络预测模型；初始权值w_ij在[-1, 1]和阈值在(-1, 1)之间随机赋予, 设置优化目标函数式, 如式(28)所示.

(28)

式中, K为训练样本个数；y′_k是BP网络训练过程中第k个训练样本的模型输出值；y′_k0为第k个训练样本预测变量实际值c_y的归一化值.用H₀-R_n隐节点数关系式(12)构建的网络对每个实例训练过程中, 当优化目标函数式minQ满足表 4所示的值时, 停止训练.分别用训练好的网络对各实例带“*”的预测样本预测的相对误差绝对值如表 7所示.类似的, 用6个隐节点数经验公式(21)~(26)构建的网络对各实例的预测样本预测的相对误差绝对值(郭淳, 2010)亦见表 7.各实例的不同结构(不同隐节点数)的BP网络预测的相对误差绝对值的最小值、最大值和平均值见图 2.

表 7 不同结构的BP网络对各实例预测样本预测的相对误差r_i比较 Table 7 Comparison of relative error r_i of BP network with different structures for each sample prediction

实例	样本序号	r_i
实例	样本序号	fc	f1	f2	f3	f4	f5	f6
实例1	13*	1.10%	3.72%	5.59%	0.07%	8.70%	1.09%	5.59%
	14^*	17.68%	36.84%	13.80%	36.91%	36.87%	37.55%	13.80%
	15^*	9.32%	4.52%	22.75%	7.49%	6.03%	5.61%	22.75%
实例2	17^*	2.63%	2.11%	2.63%	2.18%	3.17%	0.87%	4.85%
实例2	18^*	9.01%	11.75%	9.01%	17.88%	7.55%	14.21%	12.64%
实例3	16^*	1.49%	0.91%	4.33%	3.44%	4.33%	3.44%	4.60%
	17^*	0.67%	0.46%	0.50%	1.40%	0.50%	1.40%	1.31%
	18^*	1.09%	2.49%	1.45%	0.97%	1.45%	0.97%	3.11%
	19^*	0.42%	4.51%	3.83%	1.45%	3.83%	1.45%	5.53%
实例4	21^*	8.26%	9.47%	11.24%	11.24%	7.05%	11.24%	10.02%
	22^*	3.59%	2.01%	10.71%	10.71%	4.62%	10.71%	0.54%
	23^*	11.64%	9.86%	9.93%	9.93%	9.96%	9.93%	8.70%
	24^*	7.77%	13.35%	17.81%	17.81%	13.12%	17.81%	16.61%
	25^*	3.04%	12.56%	32.21%	32.21%	9.96%	32.21%	36.80%
实例5	19^*	0	11.74%	0	11.74%	18.22%	4.74%	12.03%
	20^*	1.30%	13.40%	1.30%	13.40%	17.66%	3.68%	13.08%
	21^*	0.54%	15.24%	0.54%	15.24%	16.30%	8.14%	14.57%
	22^*	9.59%	10.29%	9.59%	10.29%	11.62%	10.50%	10.11%
	23^*	6.17%	2.99%	6.17%	2.99%	3.73%	5.88%	2.86%
	24^*	4.72%	0.89%	4.72%	0.89%	1.98%	4.37%	1.16%
实例6	21^*	11.94%	2.82%	2.33%	2.76%	2.33%	0.51%	3.15%
	22^*	5.83%	28.15%	27.06%	26.23%	27.06%	26.53%	31.23%
	23^*	1.43%	19.56%	17.68%	16.88%	17.68%	17.16%	21.57%
实例7	19^*	1.72%	2.96%	1.72%	1.84%	4.53%	1.84%	3.56%
	20^*	0.53%	4.05%	0.53%	1.00%	2.92%	1.00%	2.81%
	21^*	0.75%	6.17%	0.75%	1.46%	2.08%	1.46%	4.03%

图 2 不同结构的BP网络对各实例预测的最大、最小和平均相对误差比较 Fig. 2 Comparison of the maximum, minimum and average relative errors of BP networks with different structures for each instance

从图 2可见, 7个预测实例中, 除实例2用H₀-R_n构建的网络预测的相对误差绝对值的均值(5.82%)和最大值(9.01%)分别略大于用f4经验公式(24)构建的网络预测的相对误差绝对值的均值(5.36%)和最大值(7.55%)外, 其余用H₀-R_n关系式(12)构建的模型预测的相对误差绝对值的均值和最大值, 皆小于或远小于(个别实例等同于经验公式f2)用6个隐节点数经验公式构建的模型预测的相对误差绝对值的均值和最大值.

7 分析与比较(Analysis and comparison)

① 网络泛化能力(E₂)下界的定量关系表达式(2)揭示了网络结构复杂性(H)与样本集复杂性(复相关系数R)两个重要因素对网络泛化能力的影响.并依据误差理论和灵敏度概念, 对最佳泛化能力时的表达式(2)进行了可靠性论证, 从而表明由式(2)导出的最佳隐节点数的反比关系式(12)的可靠性和合理性.

② 由于用隐节点数经验公式(21)~(26)构造的网络只与因子数n、样本数N、输出节点数p有关, 没有考虑训练样本质量(数据分布特征和变化规律)的复杂性对网络泛化能力的影响；而用隐节点数H₀-R_n反比关系式(12)构造的网络, 其中的广义复相关系数R_n包含了用因子数n和样本数N表示的样本集规模的复杂性和用复相关系数R表示的样本集质量的复杂性二者对泛化能力的影响, 因而构造的网络的复杂性与样本集的复杂性更相匹配.

③ 用隐节点数H₀-R_n反比关系式(12)构建的网络用于100个模拟仿真函数实验和环境预测的7个具体实例, 其预测效果皆优于或远优于用6个隐节点数经验公式构建的网络的预测效果, 验证了隐节点数H₀-R_n反比关系式(12)的可行性和实用性.

④ 若存在多个因变量对应于同一组影响因子, 可分别将每个因变量与该组影响因子建模, 则同样可用隐节点数H₀-R_n反比关系式(12)计算的隐节点数构建网络预测模型.

8 结论(Conclusions)

本文获得的主要结果为：在分析网络结构和样本集的复杂性对BP网络泛化能力影响的基础上, 提出用广义复相关系数R_n新概念来定量描述包括样本集规模和样本质量在内的样本集的复杂性；提出用含参数的检测误差E₂表示BP网络的泛化能力的定量关系表达式；基于具有最佳泛化能力的检测误差E₂达到最小时的逼近误差与估计误差相协调, 导出BP网络隐节点数H与样本的复杂性R之间满足的H₀-R_n反比关系式.与隐节点数经验公式相比, 用H₀-R_n反比关系式确定隐节点数有严格的理论依据, 并具有可靠性；与确定隐节点数的试凑法相比, 省时、快速、简单.

BP网络隐节点数H₀-R_n反比关系式的重要意义在于：对于包括环境系统在内的任意系统的一个给定的训练样本集, 在选择适当的网络初始参数和学习参数的情况下, 为如何构造一个与训练样本集的复杂性相匹配的最佳隐节点数的网络结构, 使BP网络具有最佳泛化能力这一基本问题的解决开辟了新途径.由于该方法具有普适性, 因而具有重要的理论意义和实用价值.

H₀-R_n反比关系式的局限为：该公式是网络初始参数被限定在[-1, 1]情况下导出的, 若网络初始参数选择在其他不同区间, 对具有最佳泛化能力时的H₀-R_n反比关系式中的组合参数C的优化结果是否有影响, 还有待于进一步深入探索.

参考文献

Barron A R. 1994. Approximation and estimation bounds for artificial neural networks[J]. Machine Learning, 14: 115-133.

Benardos P G, Vosniakos G C. 2007. Optimzing feedforword artificial neural network architecture[J]. Engineering Application of Artificial Intelligence, 20(3): 365-382. DOI:10.1016/j.engappai.2006.06.005

蔡荣辉, 崔雨轩, 薛培静. 2017. 三层BP神经网络隐层节点数确定方法探究综述[J]. 电脑与信息技术, 25(5): 29-33. DOI:10.3969/j.issn.1005-1228.2017.05.009

曹邦兴. 2010. 基于蚁群径向基函数网络的地下水预测模型[J]. 计算机工程与应用, 46(2): 224-226. DOI:10.3778/j.issn.1002-8331.2010.02.066

崔东文, 金波. 2016. 鸟群算法-投影寻踪回归模型在多元变量年径流预测中的应用[J]. 人民珠江, 37(11): 26-30. DOI:10.3969/j.issn.1001-9235.2016.11.006

Funahashi K I. 1989. On the approximate realization of continuous mappings by neural networks[J]. Neural Networks, 2(3): 183-192. DOI:10.1016/0893-6080(89)90003-8

高波. 2002. 郭庄泉流量衰减原因分析及对策[J]. 水资源保护, (1): 64-65. DOI:10.3969/j.issn.1004-6933.2002.01.020

Goh C K, Teoh L J, Tan K C. 2008. Hybrid muliobjective evolutionary design for artificial neural networks[J]. IEEE Trans on Neural Network, 19(9): 1531-1547. DOI:10.1109/TNN.2008.2000444

郭淳.2010.BP神经网络结构设计及其在水环境中的应用[D].成都: 成都信息工程学院.31-40

郭海如, 李志敏, 万兴, 等. 2014. 一种基于随机GA的提高BP网络泛化能力的方法[J]. 计算机技术与发展, 24(1): 105-108.

胡铁松, 严铭, 赵萌. 2016. 基于领域知识的神经网络泛化性能研究进展[J]. 武汉大学学报(工学版), 49(3): 321-328.

Islam M M, Sattar M A, Amin F, et al. 2009. A new adaptive merging and growing algorithm for designing artificial neural theory networks[J]. IEEE Trans on Systems, Man and Cybernetics Part B:Cybernetics, 39(3): 705-718. DOI:10.1109/TSMCB.2008.2008724

焦斌, 叶明星. 2013. BP神经网络隐层单元数确定方法[J]. 上海电机学院学报, 16(3): 113-116. DOI:10.3969/j.issn.2095-0020.2013.03.002

焦李成, 杨淑媛, 刘芳, 等. 2016. 神经网络七十年:回顾与展望[J]. 计算机学报, 39(8): 1697-1716.

李峻, 孙世群. 2008. 基于BP网络模型的青弋江水质预测研究[J]. 安徽工程科技学院学报(自然科学版), 23(2): 23-26.

李世玲. 2005. 基于投影寻踪和遗传算法的一种非线性系统建模方法[J]. 系统工程理论与实践, 25(4): 22-28. DOI:10.3321/j.issn:1000-6788.2005.04.004

李祚泳, 彭荔红. 2003. BP网络学习能力与泛化能力满足的不确定关系式[J]. 中国科学(E辑), 33(10): 887-895.

李佟, 李军. 2016. 基于BP神经网络与马尔可夫链的污水处理厂脱氮效果模拟预测[J]. 环境科学学报, 36(2): 576-581.

Liu Y H, Zhu Q, Yao D, et el. 2015. Forecasting urban air quality via a back-propagation neural networks and a selection sample rule[J]. Atmosphere, 6(7): 891-907. DOI:10.3390/atmos6070891

Paschalidou A K, Karaktisios S, Kleanthous S, et el. 2011. Forecasting hourly PM₁₀ concentration in Cyprus through artificial neural networks and multiple regression models:implications to local environmental management[J]. Environmental Science and Pollution Research, 18(2): 316-327. DOI:10.1007/s11356-010-0375-2

Setiono R. 1997. A penalty-function approach for pruning feedforward neural networks[J]. Neural Computation, 9(1): 185-204. DOI:10.1162/neco.1997.9.1.185

孙宝磊, 孙暠, 张朝能, 等. 2017. 基于BP神经网络的大气污染物浓度预测[J]. 环境科学学报, 37(5): 1864-1871.

Wang J, Wu W, Zurada J M. 2011. Deterministic convergence of conjugate gradient method for feedforward neural networks[J]. Neurocomputing, 74(14/15): 2368-2376.

魏海坤, 徐嗣鑫, 宋文忠. 2001. 神经网络的泛化理论和泛化方法[J]. 自动化学报, 27(6): 806-815.

徐源蔚, 李祚泳, 汪嘉杨. 2015. 基于集对分析的降水酸度及水质相似预测模型研究[J]. 环境污染与防治, 37(2): 59-62, 88.

阎俊爱, 钟登华. 2003. 基于遗传算法的神经网络优化预测模型及其在年径流预报中的应用[J]. 水利水电技术, 34(6): 1-4, 67.


环境科学学报 2021, Vol. 41 Issue (2): 718-730