2. 天津城建大学经济与管理学院,天津市津静路26号,300384;
3. 河北省气象局,石家庄市体育南大街178号,050021
PM2.5是造成空气污染的主要污染物之一[1],其粒径小、活性强、易扩散,附带有毒、有害物质,对人体健康和大气环境质量影响很大[2-4],准确预测未来若干时间内PM2.5浓度变化是当前大气环境研究领域的热点之一[5-6]。现有的PM2.5浓度预测模型主要包括机理模型、统计模型和深度学习模型,基于机理模型的预测方法是通过对大气污染物的物理化学过程进行模拟从而实现对未来大气污染状况的预测[7],该类模型过程复杂,数据难以精确获取,从而会影响模型精度[8];基于统计模型的预测方法是利用一种或多种统计学方法建立预测模型对PM2.5浓度进行预测[9-11],而使用单一统计方法很难建立精度较高的预测模型;深度学习模型是一种新的机器学习模型,其对大量输入数据特征进行有效学习,为PM2.5时间序列的预测提供新的研究思路和方法[12-13]。但以上预测模型的研究仅以空气污染物或气象要素为自变量构建浓度模型,却忽略了PM2.5浓度的变化受大气污染物和气象要素的共同影响[14-16],PM2.5浓度的预测需要综合考虑其内在因素(大气污染物)及外在因素(气象要素,如风速、水汽)的影响,在保证预测精度的基础上尽可能延长预测时效。
本文以河北省为例,综合考虑大气污染物和气象要素(风速、GNSS水汽),采用快速傅里叶变换(FFT)与长短时记忆(LSTM)网络相结合的方法,构建PM2.5浓度预测模型,预测24 h内PM2.5浓度,并开展模型预测精度和预测时效分析,以期为河北省大气污染防治提供参考。
1 研究数据与研究方法 1.1 研究数据PM2.5浓度的变化受大气污染物和风速、水汽等因素影响,本文综合考虑大气污染物、GNSS水汽及风速等数据,选择晋州、文安、滦平和迁安4个城市开展基于大气污染物与气象要素的PM2.5浓度预测模型研究。
1.1.1 大气污染物观测数据大气污染物是影响PM2.5浓度变化的内在因素,其观测数据类型包括PM2.5、PM10、SO2、NO2、O3和CO。本文研究时段为2014-12-01~2015-02-28,其中CO浓度单位为mg/m3,其他5类观测数据浓度单位为μg/m3,观测数据采样率为1 h。
1.1.2 水汽与风速数据由于水汽参与光化学过程和大气污染物作用生成PM2.5,风速会影响PM2.5的水平移动,本文PM2.5浓度预测模型涉及的气象要素选择水汽和风速。风速的观测时段为2014-12-01~2015-02-28,采样率为1 h,单位为m/s。
水汽的获取方法包括无线电探空、卫星遥感、水汽辐射计及GNSS,相较于其他3种观测手段,利用GNSS技术反演的水汽具有高时空分辨率、不受天气影响、精度高等优势,是水汽反演的一种有效手段。河北地区建有GNSS连续观测网络,已积累多年的观测数据,可进行水汽反演。选择2014-12-01~2015-02-28的连续观测数据,利用高精度GNSS定位定轨软件GAMIT10.6进行解算,其中星历为精密星历,解算方式为松弛解模式,卫星高度角设为10°,并与国内多个IGS站点(BJFS、LHAZ、SHAO、WUHN、URUM)的GNSS数据进行联合解算,每小时估算1个对流层延迟值,结合测站气象观测数据可获得4个站点的时值水汽序列。经数据处理获得文安、迁安、滦平和晋州4个站点2014-12-01~2015-02-28 GNSS时值水汽序列,采样率为1 h,单位为mm。
1.2 研究方法 1.2.1 快速傅里叶变换(FFT)为构建基于GNSS水汽、风速和大气污染物的PM2.5浓度预测模型,模型输入需要选择相同时间长度的大气污染物和GNSS水汽、风速数据,以分析各类观测要素的共同变化周期,本文选择FFT方法确定各类观测要素的变化周期。该方法通过建立以时间为自变量的信号与以频率为自变量的频谱函数之间的某种对应关系,快速计算序列的离散傅里叶变换(DFT)或其逆变换,并利用单位复根作为旋转因子提高DFT运算速度。通过对各观测要素进行快速傅里叶变换发现,各观测要素的最佳共同周期为216 h(9 d)。
1.2.2 LSTM神经网络原理PM2.5浓度预测模型要求模型输入为具有公共周期长度的大气污染物、GNSS水汽和风速的时间序列(216 h),模型输出为24 h的PM2.5浓度序列,常用的BP和RBF神经网络难以满足要求,本文选用基于长短时记忆(LSTM)神经网络构建PM2.5浓度预测模型。LSTM神经网络为递归神经网络(RNN)中的一种,与传统的前馈神经不同,RNN是基于时间序列的模型,能够建立先前信息和当前环境之间的时间相关性,可解决梯度爆炸和梯度弥散问题。LSTM神经网络擅长处理多个输入变量的问题,有助于预测时间序列[17]。LSTM神经网络能够有效学习各要素长时间的周期波动特征,并记忆任意长度时间区间内的信息,适用于非线性PM2.5浓度预测,且预测模型设置的参数较少。
2 PM2.5浓度影响因素分析PM2.5浓度变化受大气污染物和气象要素的共同影响,为了确定其影响因素,选择2014-12-01~2015-02-28文安、迁安、滦平和晋州4个站点开展PM2.5浓度与其他大气污染物(PM10、SO2、NO2、CO、O3)、GNSS水汽、风速的相关性比较,结果见表 1。
由表 1可知,PM2.5与PM10、SO2、NO2、CO具有较好的正相关性,与O3、风速负相关,与GNSS水汽正相关。分析其原因为风速影响PM2.5的水平移动,水汽在PM2.5的形成过程中起着重要作用,并参与光化学过程及与微颗粒结合形成雾霾[14-16];大气中的气态前体污染物通过大气化学反应生成二次颗粒物,实现由气体到颗粒的相态转换,从而影响PM2.5浓度变化[18-19]。因此,PM2.5浓度的预测需要综合考虑其内在(大气污染物)和外在因素(风速、水汽)的影响,在保证预测精度的基础上尽可能延长预测时效。
3 利用FFT确定大气污染物、GNSS水汽与风速的最佳公共周期为构建基于大气污染物和气象要素的PM2.5浓度预测模型,需分析各类观测要素的最佳公共周期。影响PM2.5浓度变化的各类要素时间序列可以当作一系列的时域信号,经过FFT处理后将时域信号转换为频域信号,利用频谱分析方法计算各个要素在FFT下空间频率(cpd)的周期,确定其共同周期。由于各类观测要素的单位、数值不统一,为便于比较分析,通过min-max标准化将各类观测要素的时间序列数据进行线性变换,使其值映射到[0, 1]之间。归一化处理后1 d的采样点数为24,以采样频率fZ对S(t)进行采样,并对变换处理所得的频谱以频率fZ/2作对称,即频谱可见范围为0~fZ/2 Hz,得到4个观测站点大气污染物、GNSS水汽和风速的FFT处理结果(图 1),图中横轴为频率,1代表 1 cpd,即24 h。由于水汽的日变化为单峰型,而大气污染物的日变化为双峰型,两者的日变化存在明显不同,因此提取公共周期时不考虑1 d以内的变化周期,选取频率在0~1之间的FFT结果(周期大于1 d)进行对比研究,由于篇幅限制,本文仅展示文安和晋州2个站点的处理结果。
由图 1可知,不同观测要素在不同频率下对应不同的变化周期,选取各类观测要素相同频率对应的峰值,计算相同频率对应的时间周期,结果见表 2。
由图 1和表 2可知,文安、滦平、迁安和晋州4个站点各类观测要素存在多个公共周期,为选择最佳公共周期,对各公共周期对应时间长度的PM2.5浓度与其他大气污染物、GNSS水汽和风速的相关性进行比较,结果见表 3。
由表 3可知,4个站点在公共周期为0.11 cpd(时间长度为216 h)时PM2.5浓度与其他大气污染物、GNSS水汽和风速的相关性最佳。因此,本文选取各类观测要素共同周期的时间长度为216 h。
4 融合大气污染物、GNSS水汽和风速的PM2.5浓度预测模型 4.1 利用LSTM构建融合大气污染物、GNSS水汽和风速的PM2.5浓度预测模型为使PM2.5浓度的预测时效达到24 h,将4个站点2014-12-01 00:00~2015-02-28 23:00的各类观测数据,按照间隔240 h(公共周期216 h+预测时效24 h)进行滑差分组,共分为1 921组。根据分级标准将PM2.5浓度分为4个等级:优良污染等级(0~75 μg/m3),轻、中度污染等级(75~150 μg/m3),重度污染等级(150~250 μg/m3)和严重污染等级(250~500 μg/m3)。从每个等级中提取8组不同时间段的时间序列用于模型的可靠性检验,每个站点各提取32组时间序列,包括大气污染物(PM2.5、PM10及气态污染物)、GNSS水汽和风速数据。其余分组数据用于模型训练,其中每组各类观测要素的时间序列长度为240 h,将各类观测要素1~216 h时间序列作为LSTM模型输入,217~240 h的PM2.5浓度作为模型输出。经过多次实验,LSTM模型中的参数固定训练次数Epochs为300次、Batch_Size设为50、学习率设为自适应、损失率降为0.001时,模型效果最优。
为便于评价模型精度,本文以PM2.5变量作为模型输入(216 h)和模型输出(24 h),利用RBF神经网络构建单变量PM2.5浓度预测模型。
4.2 PM2.5浓度预测模型的可靠性分析为检验融合大气污染物、GNSS水汽和风速的PM2.5浓度预测模型的时效性和预测精度,选择预留的32组各观测要素时间序列,分别利用FFT-RBF(单变量)模型和FFT-LSTM(多变量)模型预测PM2.5浓度,并与实测PM2.5浓度进行比较。由于篇幅限制,图 2和3仅给出晋州、滦平2个站点不同污染等级预测值与PM2.5实测值的比较。
由图 2和3可知,基于单变量的FFT-RBF模型和多变量的FFT-LSTM模型均可预测未来24 h内PM2.5浓度,与晋州站和滦平站冬季实测的PM2.5浓度变化趋势较为一致。对比2种预测模型的结果可知,FFT-LSTM模型比FFT-RBF模型的结果更优,更接近实测值,具有更高的预测精度。
为全面评价FFT-LSTM模型与FFT-RBF模型的性能,将利用4个站点32组检验数据预测的PM2.5浓度时间序列,采用均方根误差(RMSE)及一致性指数(IA)[20]进行精度评价。RMSE可以很好地反映预测精度,其值越小,表明模型对于真实值拟合的偏差越小,结果越准确;IA值域在0~1之间,可描述预测值与实测值分布的相似程度,IA值越接近1,表明模型的拟合度越好。
图 4和5为4个站点2种模型预测值与实测值的RMSE和IA对比。从图中可以看出,基于单变量的FFT-RBF模型预测的PM2.5浓度RMSE和IA变化较大,而基于多变量的FFT-LSTM模型预测的PM2.5浓度RMSE明显较小,IA也基本超过80%,高于单变量模型的IA值,这是因为多变量模型综合考虑了大气污染物、风速和水汽对PM2.5浓度变化的影响。为全面评价基于多变量的FFT-LSTM模型的预测时效性,采用均方根误差(RMSE)及一致性指数(IA)对4个站点24 h预测结果进行统计(表 4)。
由表 4可知,对于24 h内PM2.5浓度预测序列,4个站点基于多变量的FFT-LSTM模型的平均一致性指数(IA)为84.36%,平均RMSE为16.22 μg/m3,表明基于多变量的FFT-LSTM模型具有良好的预测效果,且在未来24 h内预测精度较高。
5 结语本文综合大气污染物、GNSS水汽和风速等观测要素,利用FFT与LSTM神经网络方法构建PM2.5浓度预测模型,并对模型进行外部可靠性检验,获得以下结论:
1) 对大气污染物、GNSS水汽和风速等观测要素进行快速傅里叶变换,提取各类要素的公共变化周期,得到最佳公共周期为216 h;
2) 基于历史大气污染物、GNSS水汽数据和气象数据,融合多要素构建的PM2.5浓度预测模型精度优于基于单变量的PM2.5浓度预测模型;
3) 利用LSTM神经网络构建融合大气污染物、GNSS水汽和风速的PM2.5浓度预测模型,模型检验的平均一致性指数(IA)为84.36%,平均RMSE为16.22 μg/m3,表明该模型预测精度较高,可有效预测未来24 h内的PM2.5浓度。
本文选用河北地区2014-12~2015-02的数据,该时间段为该地区冬季雾霾天气频发时段,空气质量为优良等级的时间较少,下一步研究将构建不同季节的PM2.5浓度预测模型。同时,在以后研究中可在FFT-LSTM模型中加入更多约束条件,改善PM2.5浓度预测模型的精度,为实现快速、实时、准确的雾霾预测奠定基础。
[1] |
郦嘉诚, 高庆先, 李亮, 等. 对首要污染物所揭示的京津冀环境空气质量状况的认识启迪与对策建议[J]. 环境科学研究, 2018, 31(10): 1651-1661 (Li Jiacheng, Gao Qingxian, Li Liang, et al. Enlightenment and Suggestions on the Air Quality of Beijing, Tianjin and Hebei Revealed by Primary Pollutants[J]. Research of Environmental Sciences, 2018, 31(10): 1651-1661)
(0) |
[2] |
顾芳婷, 胡敏, 王渝, 等. 北京2009~2010年冬、春季PM2.5污染特征[J]. 中国环境科学, 2016, 36(9): 2578-2584 (Gu Fangting, Hu Min, Wang Yu, et al. Characteristics of PM2.5 Pollution Winter and Spring of Beijing during 2009-2010[J]. China Environment Science, 2016, 36(9): 2578-2584)
(0) |
[3] |
Tang B Y, Xin J Y, Gao W K, et al. Characteristics of Complex Air Pollution in Typical Cities of North China[J]. Atmospheric and Oceanic Science Letters, 2018, 11(1): 29-36 DOI:10.1080/16742834.2018.1394158
(0) |
[4] |
Jiang N, Li Q, Su F C, et al. Chemical Characteristics and Source Apportionment of PM2.5 between Heavily Polluted Days and Other Days in Zhengzhou, China[J]. Journal of Environmental Sciences, 2018, 66: 188-198 DOI:10.1016/j.jes.2017.05.006
(0) |
[5] |
贾佳, 韩力慧, 程水源, 等. 京津冀区域PM2.5及二次无机组分污染特征研究[J]. 中国环境科学, 2018, 38(3): 801-811 (Jia Jia, Han Lihui, Cheng Shuiyuan, et al. Pollution Characteristic of PM2.5 and Secondary Inorganic Ions in Beijing-Tianjin-Hebei Region[J]. China Environmental Science, 2018, 38(3): 801-811)
(0) |
[6] |
Wang G, Cheng S Y, Lang J L, et al. Characteristic of PM2.5 and Assessing Effects of Emission Reduction Measures in the Heavy Polluted City of Shijiazhuang, before, during and after the Ceremonial Parade 2015[J]. Aerosol and Air Quality Research, 2017, 17(2): 499-512 DOI:10.4209/aaqr.2016.05.0181
(0) |
[7] |
Zhang Y, Bocquet M, Mallet V, et al. Real-Time Air Quality Forecasting, Part Ⅰ: History, Techniques and Current Status[J]. Atmospheric Environment, 2012, 60: 632-655 DOI:10.1016/j.atmosenv.2012.06.031
(0) |
[8] |
王平, 张红, 秦作栋, 等. 基于Wavelet-SVM的PM10浓度时序数据预测[J]. 环境科学, 2017, 38(8): 3153-3161 (Wang Ping, Zhang Hong, Qin Zuodong, et al. PM10 Concentration Forecasting Model Based on Wavelet-SVM[J]. Environmental Science, 2017, 38(8): 3153-3161)
(0) |
[9] |
戴李杰, 张长江, 马雷鸣. 基于机器学习的PM2.5短期浓度动态预报模型[J]. 计算机应用, 2017, 37(11): 3057-3063 (Dai Lijie, Zhang Changjiang, Ma Leiming. Dynamic Forecasting Model of Short-Term PM2.5 Concentration Based on Machine Learning[J]. Journal of Computer Applications, 2017, 37(11): 3057-3063)
(0) |
[10] |
Zhao J C, Deng F, Cai Y Y, et al. Long Short-Term Memory-Fully Connected(LSTM-FC) Neural Network for PM2.5 Concentration Prediction[J]. Chemosphere, 2019, 220: 486-492 DOI:10.1016/j.chemosphere.2018.12.128
(0) |
[11] |
宋国君, 国潇丹, 杨啸, 等. 沈阳市PM2.5浓度ARIMA-SVM组合预测研究[J]. 中国环境科学, 2018, 38(11): 4031-4039 (Song Guojun, Guo Xiaodan, Yang Xiao, et al. ARIMA-SVM Combination Prediction of PM2.5 Concentration in Shenyang[J]. China Environment Science, 2018, 38(11): 4031-4039)
(0) |
[12] |
朱亚杰, 李琦, 侯俊雄, 等. 基于支持向量回归的PM2.5浓度实时预测[J]. 测绘科学, 2016, 41(1): 12-17 (Zhu Yajie, Li Qi, Hou Junxiong, et al. Real Time Prediction of PM2.5 Concentration Based on Support Vector Regression Algorithms[J]. Science of Surveying and Mapping, 2016, 41(1): 12-17)
(0) |
[13] |
Feng X, Li Q, Zhu Y J, et al. Artificial Neural Networks Forecasting of PM2.5 Pollution Using Air Mass Trajectory Based Geographic Model and Wavelet Transformation[J]. Atmospheric Environment, 2015, 107: 118-128 DOI:10.1016/j.atmosenv.2015.02.030
(0) |
[14] |
程春英, 尹学博. 雾霾之PM2.5的来源、成分、形成及危害[J]. 大学化学, 2014, 29(5): 1-6 (Cheng Chunying, Yin Xuebo. Source, Composition, Formation and Hazard of PM2.5 in Haze[J]. University Chemistry, 2014, 29(5): 1-6)
(0) |
[15] |
王勇, 刘严萍, 李江波, 等. 水汽和风速对雾霾在PM2.5/PM10变化的影响[J]. 灾害学, 2015, 30(1): 5-7 (Wang Yong, Liu Yanping, Li Jiangbo, et al. The Effect of PM2.5/PM10 Variation Based on Precipitable Water Vapor and Wind Speed[J]. Journal of Catastrophology, 2015, 30(1): 5-7)
(0) |
[16] |
王勇, 刘严萍, 李江波, 等. GPS和无线电探空的水汽变化与PM2.5/PM10变化的相关性研究[J]. 武汉大学学报:信息科学版, 2016, 41(12): 1626-1631 (Wang Yong, Liu Yanping, Li Jiangbo, et al. The Correlation between the Variation of PM2.5/PM10 and Precipitable Water Vapor Based on GPS and Radiosonde[J]. Geomatics and Information of Wuhan University, 2016, 41(12): 1626-1631)
(0) |
[17] |
Zhang R, Sun X S, Shi A J, et al. Secondary Inorganic Aerosols Formation during Haze Episodes at an Urban Site in Beijing, China[J]. Atmospheric Environment, 2017, 177: 275-282
(0) |
[18] |
Huang X F, Yun H, Gong Z H, et al. Source Apportionment and Secondary Organic Aerosol Estimation of PM2.5 in an Urban Atmosphere in China[J]. Science China: Earth Sciences, 2014, 57(6): 1352-1362 DOI:10.1007/s11430-013-4686-2
(0) |
[19] |
Shen R Q, Ding X, He Q F, et al. Seasonal Variation of Secondary Organic Aerosol Tracers in Central Tibetan Plateau[J]. Atmospheric Chemistry and Physics, 2015, 15(15): 8781-8793 DOI:10.5194/acp-15-8781-2015
(0) |
[20] |
母艳梅, 李俊, 同小娟, 等. 基于Penman-Monteith模型和Shuttleworth-Wallace模型对太行山南麓人工林蒸散的模拟[J]. 北京林业大学学报, 2017, 39(11): 35-44 (Mu Yanmei, Li Jun, Tong Xiaojuan, et al. Evapotranspiration Simulated by Penman-Monteith and Shuttleworth-Wallace Models over a Mixed Plantation in the Southern Foot of the Taihang Mountain, Northern China[J]. Journal of Beijing Forestry University, 2017, 39(11): 35-44)
(0) |
2. School of Economics and Management, Tianjin Chengjian University, 26 Jinjing Road, Tianjin 300384, China;
3. Hebei Meteorological Service, 178 South-Tiyu Street, Shijiazhuang 050021, China