环境科学学报  2021, Vol. 41 Issue (12): 4771-4782
人工神经网络模型在水质预警中的应用研究进展    [PDF全文]
陈能汪1,2, 余镒琦1,2, 陈纪新1,2, 陈龙彪3, 张东站3    
1. 厦门大学环境与生态学院, 福建省海陆界面生态环境重点实验室, 厦门 361102;
2. 厦门大学, 近海海洋环境科学国家重点实验室, 厦门 361102;
3. 厦门大学信息学院, 厦门 361005
摘要:水质预警模型是大数据时代构建环境智能决策与管理体系的关键技术.近年来, 水质自动化监测能力的提升以及测管协同对环境模型的强烈需求, 激发了研究人员探索新的建模方法并努力提高模型预测性能.其中, 人工神经网络(Artificial Neural Network, ANN)模型发展迅速.本文综述了3大类ANN模型的发展历史和模型结构特点, 梳理了ANN模型在水质数据软测量、数据异常检测和时间序列预测等方面的研究进展, 归纳了一般建模流程、技术建议和常用的模型性能指标, 发现ANN模型的应用依赖于监测数据质量, 存在模型可解释性差、模型运行硬件资源要求较高等不足, 提出未来水质预警模型的研发思路和重点, 需要加快推进水环境监测技术与预警模型的协同发展和业务化应用, 通过多种应用场景检验实现技术迭代, 形成大数据驱动的水质在线监测-智能预警-应急管理支撑体系, 助力我国环境治理能力现代化.
关键词人工智能    人工神经网络    大数据    水质预警    
Artificial neural network models for water quality early warning: A review
CHEN Nengwang1,2, YU Yiqi1,2, CHEN Jixin1,2, CHEN Longbiao3, ZHANG Dongzhan3    
1. College of the Environment and Ecology, Fujian Provincial Key Laboratory for Coastal Ecology and Environmental Studies, Xiamen University, Xiamen 361102;
2. State Key Laboratory of Marine Environment Science, Xiamen University, Xiamen 361102;
3. School of Informatics, Xiamen University, Xiamen 361005
Received 10 July 2021; received in revised from 5 August 2021; accepted 5 August 2021
Abstract: Water quality early warning models are a key component of intelligent environmental decision-making and management systems in the era of big data. In recent years, the increasing demand for early warning of water quality deterioration has stimulated researchers to develop new modeling approaches and improve prediction reliability, and artificial neural network (ANN) models are developing rapidly. In this paper we review the development history of three group ANN model and model structure characteristics. The research progress of ANN models for the purpose of soft measurement, data quality control and time series prediction of water quality are summarized. We summarized the general modeling procedure, technical recommendations, and performance indexes that are commonly used. We found that the application of ANN models has been limited by the poor quality of measured data, weak interpretability of model outputs and the substantial requirements in terms of hardware and computing resources. We emphasize that future efforts should be made to develop and apply early warning models in the field of water quality prediction. There is an urgent need to promote the coordinated development of innovative technologies for environmental monitoring and early warning, through constant validation and upgrading of models after their application in a variety of situations. The long-term goal is to form an online water quality monitoring system, incorporating intelligent early warning and emergency management, driven by big data, to support environmental governance.
Keywords: artificial intelligence    artificial neural network    big data    water quality early warning    
1 引言(Introduction)

水质污染是人类面临的重要环境问题之一, 其造成的危害在很大程度上是由于预测预警和应急处置能力不足导致的.因此, 构建有效的监测预警体系实现水质智能决策和管理是迫切需要解决的关键科技问题之一.水质预测是水质预警的前置环节.基于传统统计学的预测模型主要包括多元线性回归模型(Multiple Linear Regression, MLR)(Wu et al., 2009)和差分自回归移动平均模型(Auto-Regressive Integrated Moving Average, ARIMA)(Valipour, 2015)等.然而由于水质指标通常具有非线性和非平稳性的特点, 常规的统计学模型往往难以进行准确的预测(Liao et al., 2020).基于水文物理过程以及生物地球化学循环过程的机理模型, 如水质分析模拟程序(Water Quality Analysis Simulation Program, WASP)(Ambrose, 1988)、环境流体动力学模型(Environment Fluid Dynamics Computer Code, EFDC)(Hamrick et al., 2000)等, 由于需要大量的输入参数, 在建模和应用过程中往往要消耗大量的人力物力.此外, 用于模型校验的监测数据不足、时效性差, 这类模型实际应用较少, 难以支撑有效的水质预警.

当前, 新一轮技术革命席卷全球, 人工智能成为产业变革的核心方向, 各行业以人工智能为发展动力, 在摸索过程中创造新机遇.在此背景下, 基于数据驱动的支持向量机(Support Vector Machine, SVM)、模糊逻辑(Fuzzy logic)、进化计算(Evolutionary Computing, EC)和人工神经网络(Artificial Neural Network, ANN)等智能算法得到了越来越多的青睐, 也为解决水质预警问题提供了新的机遇(Luger, 2005).其中, ANN以其强大的学习能力和泛化能力成为了学术界和工业界的研究焦点.ANN是一种以建立输入输出数据之间的最优数学关系为目标的“黑箱方法”, 适用于对规律不明确的系统的研究, 在水质预警领域有良好的应用潜力, 但当前我们对于这类模型的认识不足.本文主要综述3大类ANN模型的发展历史和模型结构特点, 梳理了ANN在水质数据软测量、数据异常检测和时间序列预测等方面的研究进展, 归纳一般建模流程, 提出相关技术建议, 总结模型应用存在的问题并提出未来的研究思路与重点, 仅为抛砖引玉, 望以此与广大同行交流, 促进环境模型相关学科交叉研究与应用.

2 人工神经网络模型的发展(Development of artificial neural network) 2.1 人工神经网络简介

ANN是一种以神经元为基本结构单元的大规模信息处理系统, 通常由输入层、隐藏层和输出层组成.ANN训练过程中, 数据经过加权求和后被输入到激活函数中计算输出值, 最后计算损失函数数值并更新权重.ANN自1957年提出以来已有60余年的发展历史.1957—1969年是ANN的第一次发展浪潮, 在此期间ANN诞生并迅速发展;1986年后ANN迎来了第二次发展浪潮, 模型研究取得重大突破;2006年后ANN开始出现爆发式增长, 创新研究速度明显加快, 技术趋于实用性.ANN发展历程如图 1所示.

图 1 人工神经网络模型发展脉络图 (FFNN, 前馈神经网络;BPNN, 反向传播神经网络;RBFNN, 径向基神经网络;GRNN, 广义回归神经网络;ELM, 极限学习机;CNN, 卷积神经网络;RNN, 循环神经网络;LSTM, 长短期记忆网络;GRU, 门循环单元;SRU, 简单循环单元) Fig. 1 Development history of artificial neural networks

1957年Frank Rosenblatt提出了包含两层处理单元的前馈神经网络(Feed Forward Neural Networks, FFNN), 是ANN的雏形(Rosenblatt, 1957).最初, 研究者们普遍认为感知机有着良好的发展潜力, 但1969年Minsky和Papert提出了单层感知机无法有效处理异或回路而多层感知机又无法被训练到足够好的问题, ANN的发展自此进入低谷期(Minsky et al., 1969).1974年Werbos提出了误差反向传导算法(Back Propagation, BP), 使得训练多层ANN成为可能(Werbos, 1974).1986年Rumelhat等提出了并行分布式处理的方法, 解决了长期以来ANN中的权值调整问题, 至此ANN进入了蓬勃发展期(Rumelhart et al., 1986).1989年LeCun提出卷积神经网络(Convolution Neural Network, CNN)并成功将其应用于手写数字识别(Lecun et al., 1989).1990年Elman提出了循环神经网络(Recurrent Neural Networks, RNN) (Elman, 1990), 但由于容易出现梯度消失和梯度爆炸问题没有得到广泛应用.1997年Hochreiter提出长短期记忆网络(Long short-term memory, LSTM), 创造性的使用了门控单元结构, 缓解了RNN长时间序列训练困难的问题, 极大地拓宽了RNN的应用范围, 为时间序列建模的发展奠定了重要基础(Hochreiter et al., 1997).2006年Hinton提出深层ANN训练时梯度消失问题的解决方案, 大幅度提高了ANN模型的性能, 因此2006年被称为“深度学习元年”(Hinton et al., 2006).此后, 随着大数据时代的到来和计算机硬件的迅速发展, ANN得到了越来越多研究者的关注, 相关研究数量逐年攀升, 结构和算法层出不穷.与此同时, ANN也快速拓展应用到教育、金融、医疗、制造、环保、海洋等各个领域.

2.2 人工神经网络模型分类与技术特点

ANN有多种分类, 其中用于水质预警领域的主要包括前馈神经网络(FFNN)、循环神经网络(RNN)和卷积神经网络(CNN)3个主要类型(Chen et al., 2020).

FFNN是神经元连接仅存在于输入层、隐藏层以及输出层之间的神经网络(Nourani et al., 2016), 有多种结构功能各异的分支.利用BP算法进行训练的反向传播神经网络(Back Propagation Neural Network, BPNN)是最常见的前馈神经网络之一.BPNN能计算每一层的输入和激活值并反向传播计算每一层的误差项, 最后计算各层参数的偏导数, 实现参数更新(Karsoliya, 2012).径向基神经网络(Radial Basis Function Neural Network, RBFNN)是将径向基函数作为激活函数的FFNN.RBFNN是一种局部逼近神经网络, 具有唯一的最佳逼近点, 能有效解决BPNN存在的局部最优问题(Yaseen et al., 2016).广义回归神经网络(Generalized Regression Neural Network, GRNN)是RBFNN的一种改进形式.GRNN去除了隐层和输出层之间的连接, 添加了模式层和求和层, 在小样本问题上取得了不错的成果(Lixi et al., 2014).极限学习机(Extreme Learning Machine, ELM)是一种具有极快学习速度和较强泛化能力的FFNN.ELM使用了矩阵逆运算的方法代替了传统FFNN中的BP算法, 在保证一定精度的情况下拥有比传统FFNN更快的学习和运算速度, 适用于各种需要实时运算的场景中(Huang et al., 2011).时延神经网络(Time Delay Neural Network, TDNN)是一种用于处理时间序列数据的FFNN.TDNN通过时延单元来处理时间序列数据的动态特性, 对序列信息有较强的特征提取能力(Wang et al., 2007).

与FFNN相比, RNN最大的不同在于处理单元中包含了一个环状信息流, 这种特殊的结构使得RNN拥有前一时刻状态的记忆并影响当前输出.但当时间序列数据过长时, RNN容易出现梯度消失或梯度爆炸的问题, 对早期的序列信息不具备记忆功能, 进而影响RNN模型的训练难度及其预测效果.为了解决这个问题, LSTM在RNN的基础上创造性的提出了遗忘门、输入门和输出门的结构, 它能够选择性地筛除部分早期的序列信息(Gers et al., 2000).由于LSTM需要学习的参数较多, 训练速度相对较慢.而门循环单元(Gated Recurrent Units, GRU)作为LSTM的一种轻量级变体, 其训练速度远快于LSTM.GRU舍弃了遗忘门、输入门和输出门的设计, 增设了更新门来决定保留多少早期序列信息.GRU与LSTM的功能十分相似, 训练速度更快, 但学习能力有所降低, 在实际运用中需要做出权衡(Shen et al., 2018).

CNN则是通过卷积层来传递信息, 由多个卷积层组成的序列会逐步从输入层移动到各个输出层进行特征提取, 最后将提取的特征加权求和计算结果.与FFNN相比, CNN每个特征提取层中的神经元只和前一输入层中的对应部分连接, 显著减少训练时间, 降低了过拟合的可能性.LeNet-5被普遍认为是CNN研究的源头(Dhruv et al., 2020).但LeNet-5刚被提出时, 缺乏可供训练的实测数据, 加上计算机的运算能力不足, LeNet-5对于复杂问题的处理结果并不理想.2012年诞生的AlexNet在传统CNN的基础上使用ReLU作为激活函数, 并且提出Dropout、数据增强等手段防止过拟合.以AlexNet为基础, VGG、GoogLenet等新模型在随后几年内被相继提出(Rawat et al., 2017), 使得CNN的应用得到较快发展.

3 人工神经网络模型的建模流程(Modelling procedure of artificial neural network)

ANN模型的一般建模流程包括:输入变量处理、数据集划分、特征缩放、模型选择、结构选择、超参数优化、模型评价等步骤(图 2).

图 2 人工神经网络一般建模流程 (FFNN, 前馈神经网络; RNN, 循环神经网络; CNN, 卷积神经网络; MSE, 均方误差;RMSE, 均方根误差;MAE, 平均绝对误差;MAPE, 平均绝对百分比误差;NSE, 纳什效率系数;R2, 决定系数) Fig. 2 General modeling procedure of artificial neural networks

① 输入变量处理.输入变量处理的主要目的是移除数据集中的不相关特征及冗余特征, 方法可分为特征提取和特征选择两种.特征提取方法, 如主成分分析, 可以将高维特征空间中的原始特征组合后投影到新的低维特征空间.这类方法简便高效, 但由于不保留原始特征, 因此可解释性较差.相比之下, 相关性分析、敏感性分析等方法通过检测原始特征对目标特征的相关性或重要程度来摒弃冗余特征, 获取原始特征的子集, 可解释性更强(Li et al., 2017).此外, 对输入变量进行数学转换或多变量组合, 从而简化模型, 可提高计算速度.

② 数据集划分.数据集通常被划分为用于训练模型的训练集和用于测试模型能力的测试集.为了评估模型的预测能力, 需要使用未被输入模型的数据来验证模型的性能.但如果在模型训练过程中直接使用测试集数据来调整模型参数, 就相当于泄露了测试集数据的信息, 从而无法对模型预测训练集以外数据的能力进行客观评估.为此, 可以从训练集中划分出验证集来对模型的结构和参数进行调整, 在测试集上进行模型性能的最终评价.在数据量较少的时候, 则建议采取交叉验证方法, 将数据集分割为多份并按不同方式组合成训练集和测试集, 合理评估模型的性能.

③ 特征缩放.这是ANN模型建立过程中至关重要的一步.建模前需要先将自变量和因变量的原始数据缩放至同一分布区间, 以确保所有输入和输出数据在训练过程中受到同等的关注并加快网络收敛速度.常见的特征缩放方法主要有归一化和标准化两种.归一化方法是最常见的特征缩放方法, 具体形式见式(1).

(1)

式中, Xi为归一化后的数据, xi为原始数据, xminxmax分别为原始数据序列的最小值和最大值, ab为常数, 用于控制归一化范围.

归一化能将数据严格控制在同一量纲, 但当数据集中存在极端值时, 归一化会改变数据分布从而影响模型预测效果, 此时可以选用标准化方法进行特征缩放, 具体形式见式(2).

(2)

式中, Xi为标准化后的数据, xi为原始数据, x为数据平均值, σ为数据标准差.

④ 模型选择.不同模型的适用性有明显区别.在进行软计算时, 相对简单易用的FFNN得到了较多的应用, CNN和RNN则分别在图像处理和时间序列预测方面有出色的表现.将不同类型的模型进行组合, 如利用CNN模型和RNN进行图像的时间序列预测, 可以充分发挥各自的优势(Hill et al., 2020).此外, 文献表明采用线性回归、随机森林等方法对多个子模型进行集成, 往往能取得比单一模型更好的预测效果(Abba et al., 2020).

⑤ 结构选择.针对实际需求选择合适的激活函数和优化算法.激活函数也叫非线性映射函数, 用于增加神经网络的非线性表达能力.在相对简单的预测分析任务中一般选用Sigmoid和Tanh作为激活函数, 而随着网络层数的加深, Relu及其变种则能显著提升模型的性能.另外, 不同优化算法的选择也可能会导致不同的训练效果.常用的优化算法主要有Adam、AdaGrad、RMSProp等, 其中Adam优化算法结合了其他几种算法的优势, 是目前的主流算法(Kingma et al., 2014).

⑥ 超参数优化.超参数包括神经元数量、学习率、批次大小、正则化系数等.超参数优化是一个组合优化问题, 因此无法通过基于梯度下降的方法进行优化.常用的超参数优化方法包括网格搜索、贝叶斯优化和进化计算等.网格搜索通过遍历所有超参数的组合来分别训练一个模型, 然后从中挑选一组性能最好的配置, 计算成本极大, 不适用于对高复杂度模型的优化.贝叶斯优化是一种自适应的超参数优化方法, 根据当前已经试验的超参数组合, 来预测下一个可能带来最大收益的组合.该方法利用了不同超参数组合之间的相关性, 但无法处理超参数维度较高的情况.进化计算方法包括粒子群优化算法(Particle Swarm Optimization, PSO)、遗传算法(Genetic Algorithm, GA)等, 其思想来源于生物在不断变化的环境中发生的进化过程, 常被用于寻找近似最优解.超参数优化方法的选择应结合模型特性来决定, 复杂度不高时可用网格搜索法来选择最优超参数组合, 否则选用贝叶斯优化、进化计算等方法来降低计算成本(Bergstra et al., 2011).

⑦ 模型评价.模型评价指标是调整模型结构与参数的依据.常用的评价指标包括均方误差(Mean Square Error, MSE)、均方根误差(Root Mean Square Error, RMSE)、平均绝对误差(Mean Absolute Error, MAE)、平均绝对百分比误差(Mean Absolute Percentage Error, MAPE)、纳什效率系数(Nash-Sutcliffe Efficiency coefficient, NSE)和决定系数(Coefficient of Determination, R2)等.MSE和RMSE是最常用的模型性能指标, 会为较大的误差分配较高的权重, 因此部分预测偏差较大的数据会对MSE和RMSE的数值产生较大的影响.MAE表示实测值和预测值之间绝对差值的平均值, 能简单直观的反映预测误差的实际情况, 但它只提供关于预测错误程度的信息, 而无法直接反映模型有效性.MAPE表示预测百分比误差的平均值, 可用于比较模型对不同序列的预测效果.MAPE有一个明显的缺点, 当序列中某一时刻的实测值接近于0时, 极小的误差都会对MAPE的数值带来较大的影响.NSE用于衡量实际序列和预测序列之间的拟合程度, 根据Moriasi等(2012)提出的水文模型性能评估的指导原则, 如果NSE大于0.75, 表示模型的预测性能非常好.R2也是常用的性能指标, 但只能反映两组数据之间的相关性而无法显示数据的离散程度, 在应用时有较大的局限性.由于单一的评价指标只能从特定角度反映模型的性能, 因此, 建议应至少选择一个拟合程度评价指标(如NSE、R2等)和一个绝对误差度量指标(如MSE、MAE等)对模型进行更加综合和客观的评价.

4 人工神经网络模型在水质预警中的应用(Application of ANN model for water quality early warning)

基于Web of Knowledge数据库检索并经人工筛选与统计, 发现1996年以来ANN水质预警相关的研究论文数量呈快速上升趋势, 近两年发表的论文数量增幅最大(图 3), 反映了ANN模型在水质预警中的应用研究处于高速发展时期.对以上文献中的248个高频关键词进行聚类分析(图 4), 共得到6个聚类标签, 分别为水质(water-quality)、人工神经网络(artificial neural networks)、模型(model)、预测(prediction)、管理(management)和算法(algorithm).大部分论文关注ANN对各类水质污染物的预测效果以及应用潜力;也有部分论文着重于ANN结构的改进, 并通过水质预测情景进行论证.论文数量排在前十名的国家依次是中国、美国、伊朗、韩国、印度、土耳其、马来西亚、加拿大、澳大利亚和英国(图 5a).其中, 中国和美国的论文数量明显高于其他国家, 但从论文的篇均被引用数来看, 中国明显低于其余各国(图 5b), 在一定程度上反映了我国在这一方向的高水平研究成果与国际上仍有一定差距.

图 3 以“人工神经网络”和“水质”为主题词的SCI论文数量年际变化 Fig. 3 Number of publications with themes of "artificial neural networks" and "water quality" over year

图 4 以“人工神经网络”和“水质”为主题词的SCI论文关键词聚类分析结果 Fig. 4 Cluster analysis of publications with themes of "artificial neural networks" and "water quality"

图 5 各国SCI论文数量及篇均被引用数 Fig. 5 Number of publications and citation per article by country

近年来, ANN在水质数据软计算、数据异常检测和时间序列预测中的应用较为集中.

4.1 数据软计算

软计算是采用低代价、易控制的手段来获得不完全真值的方法(姚鹏辉, 2014).利用ANN进行数据软计算能减少采样和测定成本.生化需氧量的常规测定方法较为繁琐且时效性差, 一般需要5 d甚至更长的时间才能得到测定结果.Dogan等(2008)将化学需氧量、流量、浊度等指标作为输入数据, 建立BPNN模型对生化需氧量浓度进行软计算.计算结果与实测值的相关系数高达0.958, 显著高于MLR模型.藻蓝蛋白是监测水环境中蓝藻浓度的重要指标, 但测定成本高且耗时(Kuo et al., 2018).Heddam等(2019)通过RBFNN模型成功预测了藻蓝蛋白浓度, 相关系数达到了0.917.集约化水产养殖区域的水环境极为复杂, 溶解氧、氨氮等水质指标还很难实现高精度的自动化检测.为解决实际生产中溶解氧浓度无法及时预报和动态监测难度较大等问题, 施珮等(2020)采用ELM建立水产养殖水体中溶解氧浓度的软计算模型, 为渔业生产人员提供实时水质信息.林少涵等(2020)提出一种基于BPNN模型与支持向量机模型的混合建模方法, 能迅速反映水产养殖水体中氨氮浓度与其他变量之间的深层关系, 为氨氮浓度在线监测提供了新思路.针对污水处理过程中的水质监测, 潘峥嵘等(2011)研究了一种结合模糊逻辑系统和BPNN模型特点的化学需氧量预测模型, 均方误差小于0.005, 及时反馈水质变化趋势, 保证出水质量.

基于ANN的软计算模型在缺失数据处理方面也有广泛的应用.Amiri等(2009)通过FFNN回归模型估计了缺失的水质数据.Heydari等(2013)的研究结果表明, 基于FFNN模型的缺失值插补方法优于拉格朗日插补、最近邻插补等方法.针对基于物理过程的水质模型因数据缺失导致的预测精度不足的问题, Nhantumbo等(2018)使用BPNN模型进行缺失数据的插补, 经过校准, 模型的表现令人满意.Mitrovic等(2019)通过BPNN模型对18个常见水质参数进行了插补, 效果优于克里金插值和样条插值.

4.2 数据异常检测

由于仪器状况异常、操作方法不当等原因, 水质监测数据集中通常含有异常值, 需要预先进行异常值剔除等质控步骤, 才能进行数据分析和建模.水质数据异常检测方法主要包括基于统计规律的方法、基于密度的方法、基于距离的方法以及基于聚类的算法(余宇峰等, 2014), 但这些算法通常无法捕获数据中的复杂关系, 且无法满足多指标、大规模异常检测的需求.近年来基于ANN模型的异常检测算法得到广泛应用.Jesus等(2018)利用相邻站点的传感器数据作为输入数据, 建立了基于BPNN模型的盐度数据异常检测框架.Sun等(2019)提出了一种基于改进变分模式分解和BPNN模型的异常数据检测与校正方法, 与单一BPNN模型相比显著提高了检测准确率.Rodriguez-Perez等(2020)建立了FFNN异常检测模型, 并使用贝叶斯多目标优化方法进行超参数和学习方法选择, 能准确识别数据突变、数据波动等多种类型的异常值.

4.3 时间序列预测

时间序列预测是水质预警的基础.高效准确的预测可以清晰地反映水质特征和未来变化趋势.管理者根据预测结果可适时采取水质防控措施, 将后处理改为事前预防, 显著改善水污染防治成效.Huan等(2017)K均值聚类法将历史数据分为不同种类并分别建立ELM模型对湖泊中的溶解氧浓度进行预测, 该方法预测结果与实测值的平均绝对百分比误差和均方误差均优于MLR和SVM模型, 且计算速度较快.Liu等(2018)将简单循环单元(Simple Recurrent Unit, SRU)模型用于水产养殖水中pH和水温的预测, 发现该预测方法比基于RNN模型的预测方法具有更高的预测精度和更快的预测速度.Ta等(2018)提出了一种简化的CNN预测模型来解决溶解氧浓度的预测问题, 结果表明在相同条件下, CNN模型的性能优于优化的BPNN模型, 预测稳定性更好.Chatterjee等(2017)建立FFNN模型对pH、电导率等多个水质指标进行预测, 并用多目标遗传算法寻找最优超参数向量, 预测结果的均方根误差显著低于未经过优化的模型.虞英杰等(2011)用粒子群优化算法优化了BPNN模型的结构及算法全局收敛性, 改善了传统BPNN模型容易陷入局部最优的缺点, 在叶绿素浓度的短期预测中显示了良好的学习能力和泛化能力.Cao等(2020)先将溶解氧浓度时间序列进行聚类, 再使用GRU模型对每一类序列分别构建预测模型, 与传统方法相比具有更高的预测精度和灵活性.Zhang等(2018)提出了一种基于核主成分分析和RNN模型的溶解氧浓度预测模型, 证明了该方法在平稳性较差的水质变量预测中的有效性.Zhou等(2020)将迁移学习思想应用于LSTM模型的训练, 克服了由输入数据缺失导致的模型欠拟合问题, 并将多元不确定性处理器用于后处理技术, 以提高概率性河水水质预测的可靠性.Eze等(2020)提出的一种基于整体经验模式分解和LSTM模型的溶解氧浓度预测方法, 在短期预测(12 h)和长期预测(1个月)上均有令人满意的表现.Barzegar等(2020)建立了CNN和LSTM的混合模型, 其中CNN模型用于输入数据的高阶特征提取, LSTM模型则将提取的特征作为输入进行预测.周朝勉等(2021)进行了类似的研究, 证明了与单一LSTM模型相比, CNN-LSTM混合模型的均方根误差和平均百分比误差均有明显下降.Abba等(2020)利用ELM、RNN和LSTM3种模型进行分别预测和集成预测, 发现集成预测效果显著优于单一模型.注意力机制是一种能让模型对重要信息重点关注并充分学习的技术, 基于注意力机制的RNN模型能更好地学习序列的时间关联性, 从而取得更好的预测效果(Liu et al., 2019).Yang等(2021)利用注意机制捕获了较长的时间依赖性, 使得CNN-LSTM混合模型能够很好地解决非线性时间序列预测问题, 并且能够稳定地预测不同时滞的情况.

此外, 图像特征也可以作为模型输入数据来进行时间序列预测.Hill等(2020)用CNN模型提取遥感图像序列信息并输入LSTM模型来预测藻类浓度.Wang等(2020)将灰度共生矩阵和CNN模型提取的图像特征进行融合并探索适合于不同水质参数的最优特征, 提出了基于多源特征融合的水质时间序列预测模型, 效果令人满意.

综上, ANN在3个应用方向上有所侧重.数据软测量, 根据现有数据对测定成本较高的水环境指标进行模拟, 降低监测成本;数据异常检测, 用ANN模型剔除异常值并填补缺失值, 保证数据的完整性;时间序列预测, 主要用于推断或通过预警的方式指示未来水质变化趋势, 帮助管理者合理制定并适时启动应急处置方案.其中, 时间序列预测是最常见的应用, 而数据软计算和异常检测则可以降低水质监测成本, 提高水质数据集的质量, 促进时间序列预测模型的应用.3种应用方向相辅相成, 构成水质预警方法的技术体系.各应用方向涉及的常用模型列于表 1.

表 1 水环境领域常用的ANN模型 Table 1 Application of ANN models in field of water environment
4.4 人工神经网络模型应用面临的问题

总体而言, ANN在水环境领域的应用仍处于起步阶段, 有许多问题亟待解决:①依赖于数据质量.ANN本质上是一种数据挖掘工具, 数据质量决定了模型的性能上限, 获取足量的优质监测数据是建立ANN模型进行有效水质预警的前提.目前的监测技术已经实现对水温、pH、溶解氧、浊度、电导率等常规理化指标的高频高精度连续监测, 而氨氮、总氮、总磷、生化需氧量等与水质污染关系密切的指标则需要复杂的样品采集、预处理和分析测试程序, 在线监测频率较低, 部分仪器故障率较高, 若维护不及时容易造成数据质量不稳定、数据缺失等问题, 这给有效的水质预警带来相当大的挑战.因此高精度的自动化监测技术的发展和数据质量控制是模型得到切实应用的基础.②受限于数据分布.ANN要求数据满足独立同分布假设, 即输入空间中的所有样本都服从特定的分布形式(Godreche et al., 2017).在独立同分布假设的基础上进行训练学习, 得到的预测值才能反映样本总体的特征.对于水质数据, 独立同分布表现为数据的统计特征不随时间或空间的演化而出现明显变化(谭秋衡, 2013).在实际环境中, 水质指标的变化规律极其复杂, 容易发生数据分布漂移, 从而导致预测值与实际值偏差较大、不能适用等情况.③模型结果解释性差.传统机理模型和统计学方法可以利用变量之间的关系式中的系数来对研究对象的变化做出解释, 而ANN作为“黑箱方法”缺乏可解释性, 在实际应用中无法根据模型结果判断水质异常的原因, 也无法为发布的水质预警信息提供可靠的机理解释.目前缺乏对ANN水质模型解释性的研究, 无法准确把握水质数据特征和模型结果的关联性.④将水质变化过程简单化.水质的变化是一个复杂的环境过程, 受到多种因素的影响.而目前的大部分研究仅仅局限于对历史数据特征的分析, 输入参数不足, 不能很好地反映水质变化的内在机理联系.此外, 大部分研究在变量选择时仅凭主观经验或变量间的相关系数进行简单判断, 变量冗余严重, 影响模型的收敛速度及预测精度.⑤模型运行对硬件条件的要求较高.ANN模型的预测能力或性能很大程度上取决于数据集的大小和模型结构的复杂程度, 模型训练时涉及的数据量大(特别是图像数据), 模型计算时对服务器等硬件资源要求较高.

5 总结(Conclusion)

ANN在60余年的发展过程中出现了多个分支, 其中FFNN、RNN和CNN 3种类型模型在水质预警领域有较多的应用, 他们在激活函数、拓扑结构、参数优化算法及应用方向等方面有所不同.许多研究已经证明了ANN是一种高效的数据处理、评估和预测工具, 在人工智能领域具有巨大的发展潜力.随着大数据时代的到来以及计算机硬件和人工智能算法的蓬勃发展, ANN在环境领域的应用研究呈现爆发式增长态势.ANN的一般建模流程通常包括输入变量处理、数据集划分、特征缩放、模型选择、结构选择、超参数优化、模型评价等7个步骤, 具有数据软测量、数据异常检测和时间序列预测等功能.

在水质预警体系中, ANN模型的应用主要包括以下几个方面:①现有监测体系无法实现对所有重要污染物的在线高频监测, 因此可利用ANN模型进行软计算来提升在线监测的时效性、覆盖面和监测频率, 形成有效的水质预警与管理.②根据实时监测数据进行水质变化趋势预测和水质风险判断, 当预测结果反映出水质状况有恶化趋势时, 相关管理部门可在第一时间跟踪警情并进行污染防控和应急准备, 最大程度减少水质污染事故带来的损失.③根据历史数据规律挖掘不同监测站点间水质指标的空间关联, 当某一站点出现水质异常时, 预测下游站点的水质变化, 通过等级预报方式进行流域尺度的水质联防管理.

ANN模型在水质预警领域将有广阔的发展空间, 但目前仍然面临长时间系列观测数据获取难、数据质量不稳定、模型部署条件和运行成本较高等限制, 加上专业人才缺乏, 业务化应用案例还很少见.只有理性对待ANN模型的优缺点, 同时打破学科壁垒, 促进统计学、计算机科学和环境科学的深度融合, 才能推进ANN模型的技术创新与落地应用.

6 展望(Perspective)

在我国加快推进新基建和数字经济发展的背景下, 在生态环境智慧管理重大需求牵引下, 面向水质预警应用目标的ANN模型将迎来快速发展的机遇, 未来研发重点是:①建立可推理、可解释的ANN水质模型.目前, ANN主要对变量间的关联性进行挖掘, 即只知道两者相关, 而无法得出相互影响的方向.而水质预警体系的实际运作中, 通常要求根据模型结果, 对水质变化机理和因果关系进行分析, 以便采取针对性的治理.因此, 结合先验知识, 采用知识图谱、因果推断等技术进行机理判断并设定因果关系, 再利用ANN的强数据挖掘功能建立可推理、可解释的ANN模型至关重要.目前, 对ANN可解释性的研究主要集中在偏依赖图、全局代理模型、图神经网络等技术(Angeloy et al., 2021).偏依赖图可以遍历输入特征的所有可能取值并计算模型预测均值, 从而全局化地描述输入特征对模型的影响;全局代理模型则是通过学习模型的可解释的简化形式来辅助因果推断;此外, 基于图神经网络的可解释模型已经得到初步应用(Pope et al., 2020), 值得关注.②基于数据驱动的ANN模型与基于过程的机理模型相结合.实际应用中, 单独的ANN模型和机理模型都有明显的缺点, 将两类模型结合起来, 优势互补, 可以达到更好的水质预警效果.机理模型的建模过程中往往会遇到输入数据不足的问题, 可以利用ANN的模拟结果为其提供参数补充.同时, 机理模型的结果也可以作为ANN模型的输入参数.此外, 为降低机理模型的不确定性可选取多组参数分别建模并用ANN模型进行集成.③结合水质数据特点, 设计新型ANN模型结构, 丰富ANN节点功能, 增加ANN模型预测精度.复杂时序模式和基于变量间关系的建模是研究热点, 也是提升水质预测能力的关键.多数水质参数数据具有自相关性、多元相关性、周期性等特点, 如何基于这些特点, 利用时间序列卷积、注意力机制、时间序列聚类等算法提取更深层次的信息值得深入研究.④开发ANN自动化设计、模型压缩等工程化应用技术.ANN模型的结构选择和超参数优化等步骤对专业知识和经验有较高的要求, 研究如何利用神经架构搜索技术针对特定数据集自动设计性能良好的模型, 使得研究人员或管理人员能快速上手运行模型, 这对于ANN水质模型的推广应用有重要意义.此外, 随着ANN模型结构复杂度的增加, 高额的存储空间和计算资源消耗严重阻碍了ANN模型在各硬件平台上的应用.因此, 模型裁剪、核稀疏化等模型压缩技术也应得到重视.

展望未来, 应加快推进我国自主监测技术创新和环境监测类仪器设备的产业化进程, 实现更多的水质参数的高频高精度监测, 提升数据的质量和稳定性, 以此促进ANN水质模型的协同发展, 在各种水环境和应用场景反复检验实现技术迭代, 最终建立大数据驱动的水质在线监测-数据质控-模型预测-水质预警技术链条, 形成水质风险控制体系, 发挥ANN模型在日常水质管理、应急处置和智慧环保中的技术引领作用, 助力我国环境治理能力现代化.

参考文献
Abba S I, Linh N T T, Abdullahi J, et al. 2020. Hybrid machine learning ensemble techniques for modeling dissolved oxygen concentration[J]. IEEE Access, 8: 157218-157237. DOI:10.1109/ACCESS.2020.3017743
Ambrose R B. 1988. WASP4, A Hydrodynamic and Water Quality Model: Model Theory, User's Manual and Programmer's Guide[M]. Washington: Environmental Research Laboratory.
Amiri B J, Nakane K. 2009. Comparative prediction of stream water total nitrogen from land cover using artificial neural network and multiple linear regression approaches[J]. Polish Journal of Environmental Studies, 18(2): 151-160.
Angelov P P, Soares E A, Jiang R, et al. 2021. Explainable artificial intelligence: An analytical review[J]. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 1424: 1-13.
Barzegar R, Aalami M T, Adamowski J. 2020. Short-term water quality variable prediction using a hybrid CNN-LSTM deep learning model[J]. Stochastic Environmental Research and Risk Assessment, 34(2): 415-433. DOI:10.1007/s00477-020-01776-2
Bergstra J, Bardenet R, Bengio Y, et al. 2011. Algorithms for hyper-parameter optimization[J]. Advances in Neural Information Processing Systems, 25: 24.
Cao X K, Liu Y R, Wang J P, et al. 2020. Prediction of dissolved oxygen in pond culture water based on K-means clustering and gated recurrent unit neural network[J]. Aquacultural Engineering, 91: 102122-102131. DOI:10.1016/j.aquaeng.2020.102122
Chatterjee S, Sarkar S, Dey N, et al. 2017. Water quality prediction: Multi objective genetic algorithm coupled artificial neural network based approach[C]. 2017 IEEE 15th International Conference on Industrial Informatics (INDIN). IEEE: 963-968
Chen Y, Song L, Liu Y, et al. 2020. A review of the artificial neural network models for water quality prediction[J]. Applied Sciences, 10(17): 5776-5824. DOI:10.3390/app10175776
Dhruv P, Naskar S. 2020. Image classification using convolutional neural network (CNN) and recurrent neural network (RNN): a review[J]. Machine Learning and Information Processing, 34: 367-381.
Dogan E, Ates A, Yilmaz E C, et al. 2008. Application of artificial neural networks to estimate wastewater treatment plant inlet biochemical oxygen demand[J]. Environmental Progress, 27(4): 439-446. DOI:10.1002/ep.10295
Elman J L. 1990. Finding structure in time[J]. Cognitive Science, 14(2): 179-211. DOI:10.1207/s15516709cog1402_1
Eze E, Ajmal T. 2020. Dissolved oxygen forecasting in aquaculture: A hybrid model approach[J]. Applied Sciences, 10(20): 7079-7092. DOI:10.3390/app10207079
Gers F A, Schmidhuber J, Cummins F. 2000. Learning to forget: Continual prediction with LSTM[J]. Neural Computation, 12(10): 2451-2471. DOI:10.1162/089976600300015015
Godreche C, Majumdar S N, Schehr G. 2017. Record statistics of a strongly correlated time series: Random walks and Lévy flights[J]. Journal of Physics A: Mathematical and Theoretical, 50(33): 1-65.
Hamrick J M, Mills W B. 2000. Analysis of water temperatures in Conowingo Pond as influenced by the Peach Bottom atomic power plant thermal discharge[J]. Environmental Science & Policy, 3: 197-209.
Heddam S, Sanikhani H, Kisi O. 2019. Application of artificial intelligence to estimate phycocyanin pigment concentration using water quality data: A comparative study[J]. Applied Water Science, 9(7): 1-16. DOI:10.1007/s13201-019-1044-3
Heydari M, Olyaie E, Mohebzadeh H, et al. 2013. Development of a neural network technique for prediction of water quality parameters in the Delaware River, Pennsylvania[J]. Middle East Journal of Scientific Research, 13(10): 1367-1376.
Hill P R, Kumar A, Temimi M, et al. 2020. HABNet: Machine learning, remote sensing-based detection of harmful algal blooms[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 13: 3229-3239. DOI:10.1109/JSTARS.2020.3001445
Hinton G E, Salakhutdinov R R. 2006. Reducing the dimensionality of data with neural networks[J]. Science, 313(5786): 504-507. DOI:10.1126/science.1127647
Hochreiter S, Schmidhuber J. 1997. Long short-term memory[J]. Neural Computation, 9(8): 1735-1780. DOI:10.1162/neco.1997.9.8.1735
Huan J, Cao W, Liu X. 2017. A dissolved oxygen prediction method based on K-means clustering and the ELM neural network: A case study of the Changdang Lake, China[J]. Applied Engineering in Agriculture, 33(4): 461-469. DOI:10.13031/aea.11786
Huang G B, Wang D H, Lan Y. 2011. Extreme learning machines: A survey[J]. International Journal of Machine Learning and Cybernetics, 2(2): 107-122. DOI:10.1007/s13042-011-0019-y
Jesus G, Casimiro A, Oliveira A. 2017. Dependable Outlier Detection in Harsh Environments Monitoring Systems[C]. International Conference on Computer Safety, Reliability, and Security. Springer, Cham: 224-233
Karsoliya S. 2012. Approximating number of hidden layer neurons in multiple hidden layer BPNN architecture[J]. International Journal of Engineering Trends and Technology, 3(6): 714-717.
Kuo Y M, Yang J, Liu W, et al. 2018. Using generalized additive models to investigate factors influencing cyanobacterial abundance through phycocyanin fluorescence in East Lake, China[J]. Environmental Monitoring and Assessment, 190(10): 1-13.
LeCun Y, Boser B, Denker J S, et al. 1989. Backpropagation applied to handwritten zip code recognition[J]. Neural Computation, 1(4): 541-551. DOI:10.1162/neco.1989.1.4.541
Liao Z, Li Y, Xiong W, et al. 2020. An in-depth assessment of water resource responses to regional development policies using hydrological variation analysis and system dynamics modeling[J]. Sustainability, 12(14): 5814-5831. DOI:10.3390/su12145814
林少涵, 王魏, 王奕鹏. 2011. 养殖水质氨氮混合软测量模型研究[J]. 渔业现代化, 47(3): 36-44.
Liu J, Yu C, Hu Z, et al. 2018. Automatic and accurate prediction of key water quality parameters based on SRU deep learning in mariculture[C]. 2018 IEEE International Conference on Advanced Manufacturing (ICAM). IEEE: 437-440
Lixi Z, Pengbo S, Fang J, et al. 2014. Using monitoring data of surface soil to predict whole crop-root zone soil water content with PSO-LSSVM, GRNN and WNN[J]. Earth Science Informatics, 7(1): 59-68. DOI:10.1007/s12145-013-0130-6
Li Y, Li T, Liu H. 2017. Recent advances in feature selection and its applications[J]. Knowledge and Information Systems, 53(3): 551-577. DOI:10.1007/s10115-017-1059-8
Liu Y, Zhang Q, Song L, et al. 2019. Attention-based recurrent neural networks for accurate short-term and long-term dissolved oxygen prediction[J]. Computers and Electronics in Agriculture, 165: 1-11.
Luger G F. 2005. Artificial Intelligence: Structures and Strategies for Complex Problem Solving[M]. New Jersey: Pearson Education.
Minsky M, Papert S. 1969. An Introduction to Computational Geometry[M]. Cambridge, MA: MIT Press.
Mitrovic T, Antanasijević D, Lazović S, et al. 2019. Virtual water quality monitoring at inactive monitoring sites using Monte Carlo optimized artificial neural networks: A case study of Danube River (Serbia)[J]. Science of the Total Environment, 654: 1000-1009. DOI:10.1016/j.scitotenv.2018.11.189
Moriasi D N, Rossi C G, Arnold J G, et al. 2012. Evaluating hydrology of the Soil and Water Assessment Tool (SWAT) with new tile drain equations[J]. Journal of Soil and Water Conservation, 67(6): 513-524. DOI:10.2489/jswc.67.6.513
Nhantumbo C, Carvalho F, Uvo C, et al. 2018. Applicability of a processes-based model and artificial neural networks to estimate the concentration of major ions in rivers[J]. Journal of Geochemical Exploration, 193: 32-40. DOI:10.1016/j.gexplo.2018.07.003
Nourani V, Alami M T, Vousoughi F D. 2016. Self-organizing map clustering technique for ANN-based spatiotemporal modeling of groundwater quality parameters[J]. Journal of Hydroinformatics, 18(2): 288-309. DOI:10.2166/hydro.2015.143
Pope P E, Kolouri S, Rostami M, et al. 2020. Explainability methods for graph convolutional neural networks[C]. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE: 10772-10781
潘峥嵘, 王群. 2011. 基于模糊神经网络的COD软测量技术的研究[J]. 计算机测量与控制, 19(7): 1572-1574.
Rawat W, Wang Z. 2017. Deep convolutional neural networks for image classification: a comprehensive review[J]. Neural Computation, 29(9): 2352-2449. DOI:10.1162/neco_a_00990
Rodriguez-Perez J, Leigh C, Liquet B, et al. 2020. Detecting technical anomalies in high-frequency water-quality data using artificial neural networks[J]. Environmental Science & Technology, 54(21): 13719-13730.
Rosenblatt F. 1957. The Perceptron, a Perceiving and Recognizing Automaton Project Para[M]. New York: Cornell Aeronautical Laboratory.
Rumelhart D E, McClelland J L, PDP Research Group. 1986. Parallel Distributed Processing[M]. Cambridge, MA: MIT press.
Shen G, Tan Q, Zhang H, et al. 2018. Deep learning with gated recurrent unit networks for financial sequence predictions[J]. Procedia Computer Science, 131: 895-903. DOI:10.1016/j.procs.2018.04.298
施珮, 匡亮, 袁永明, 等. 2020. 基于改进极限学习机的水体溶解氧预测方法[J]. 农业工程学报, 36(19): 225-232. DOI:10.11975/j.issn.1002-6819.2020.19.026
Sun G, Jiang P, Xu H, et al. 2019. Outlier detection and correction for monitoring data of water quality based on improved VMD and LSSVM[J]. Complexity, 12: 9643921-9643932.
Ta X, Wei Y. 2018. Research on a dissolved oxygen prediction method for recirculating aquaculture systems based on a convolution neural network[J]. Computers and Electronics in Agriculture, 145: 302-310. DOI:10.1016/j.compag.2017.12.037
谭秋衡. 2013. 时间序列的非平稳性度量及其应用[D]. 武汉: 中国科学院研究生院(武汉物理与数学研究所)
Valipour M. 2015. Long-term runoff study using SARIMA and ARIMA models in the United States[J]. Meteorological Applications, 22(3): 592-598. DOI:10.1002/met.1491
Wang L, Yue X, Wang H, et al. 2020. Dynamic inversion of inland aquaculture water quality based on UAVs-WSN spectral analysis[J]. Remote Sensing, 12(3): 402. DOI:10.3390/rs12030402
Wang X K, Lu W Z, Cao S Y, et al. 2007. Using time-delay neural network combined with genetic algorithms to predict runoff level of Linshan Watershed, Sichuan, China[J]. Journal of Hydrologic Engineering, 12(2): 231-236. DOI:10.1061/(ASCE)1084-0699(2007)12:2(231)
Werbos P. 1974. Beyond regression: New tools for prediction and analysis in the behavioral sciences[D]. USA: Harvard University
Wu M, Zhang W, Wang X, et al. 2009. Application of MODIS satellite data in monitoring water quality parameters of Chaohu Lake in China[J]. Environmental Monitoring and Assessment, 148(1): 255-264.
姚鹏辉. 2014. 基于软计算方法的天津海域水体富营养化研究[D]. 天津: 天津大学
Yang Y, Xiong Q, Wu C, et al. 2021. A study on water quality prediction by a hybrid CNN-LSTM model with attention mechanism[J]. Environmental Science and Pollution Research, 30: 1-11. DOI:10.1007/s11356-021-14687-8
Yaseen Z M, El-Shafie A, Afan H A, et al. 2016. RBFNN versus FFNN for daily river flow forecasting at Johor River, Malaysia[J]. Neural Computing and Applications, 27(6): 1533-1542. DOI:10.1007/s00521-015-1952-6
虞英杰, 蒋卫刚, 徐明芳. 2011. 基于PSO算法的BP神经网络对水体叶绿素a的预测[J]. 环境科学研究, 24(5): 526-532.
余宇峰, 朱跃龙, 万定生, 等. 2014. 基于滑动窗口预测的水文时间序列异常检测[J]. 计算机应用, 34(8): 2217-2220, 2226.
周朝勉, 刘明萍, 王京威. 2021. 基于CNN-LSTM的水质预测模型研究[J]. 水电能源科学, 39(3): 20-23.
Zheng F, Tao R, Maier H R, et al. 2018. Crowdsourcing methods for data collection in geophysics: State of the art, issues, and future directions[J]. Reviews of Geophysics, 56(4): 698-740. DOI:10.1029/2018RG000616
Zhou Y. 2020. Real-time probabilistic forecasting of river water quality under data missing situation: Deep learning plus post-processing techniques[J]. Journal of Hydrology, 589: 125164-125180. DOI:10.1016/j.jhydrol.2020.125164