环境科学学报  2019, Vol. 39 Issue (11): 3692-3701
方位聚散因子及其在PM2.5浓度预报中的应用    [PDF全文]
蔺旭东1 , 耿世刚2 , 单磊敬3 , 付献斌1 , 刘佳1 , 王春迎4 , 郝龙腾4     
1. 河北环境工程学院信息工程系, 秦皇岛 066102;
2. 河北环境工程学院环境科学系, 秦皇岛 066102;
3. 中国人民解放军联勤报障部队北戴河康复疗养中心, 秦皇岛 066100;
4. 河北先河环保科技股份有限公司, 石家庄 050035
摘要: 污染物浓度预报是应对大气污染问题的重要手段.现有的模式类预报方法受限于排放源清单的准确性,而在污染物排放源短期少变的条件下,基于气象要素的统计类预报方法是一种更具实用性的方法.但现有统计类预报方法的计算模型输入量缺乏对气象要素累积效应的表征,以及对气象因素影响大气污染物聚散过程的表征,严重影响了预报的精度.为此,本文提出了一种着眼于改善计算模型输入量的统计类PM2.5浓度预报方法.该方法采用方位聚散因子作为计算模型输入量,既可表征出PM2.5累积与消散的过程,又考虑了气象要素在一定时段内的累积效应,为提高预报精度奠定了良好的基础.同时,通过BP神经网络训练,本方法在方位聚散因子与PM2.5浓度值之间建立起关联模型,从而完成对PM2.5浓度值的准确预报.
关键词: PM2.5预报     京津冀     气象要素     方位聚散因子     BP神经网络    
Azimuth convergence-diffusion factor and its application in PM2.5 concentration forecasting
LIN Xudong1, GENG Shigang2, SHAN Leijing3 , FU Xianbin1, LIU Jia1, WANG Chunying4, HAO Longteng4    
1. Department of Information Engineering, Hebei University of Environmental Engineering, Qinhuangdao 066102;
2. Department of Environmental Science, Hebei University of Environmental Engineering, Qinhuangdao 066102;
3. Rehabilitation Center of the Joint Logistic Support Force of the Chinese People's Liberation Army in Beidaihe, Qinhuangdao 066100;
4. Hebei Sailhero Environmental Protection Hi-tech., Ltd, Shijiazhuang 050035
Received 18 March 2019; received in revised from 22 April 2019; accepted 8 May 2019
Abstract: Contaminant concentration forecast is an important means to deal with air pollution problems. Existing model-based forecasting methods are limited by the accuracy of source lists. Under the condition that the pollutant emission sources are stable during short terms, the statistical forecasting method based on meteorological elements is a more practical method. However, the input of the calculation model of the existing statistical forecasting method lacks the characterization of the cumulative effect of meteorological elements and the characterization of the atmospheric pollutants gathering process caused by meteorological factors, which affects the accuracy of the forecast seriously.To this end, a statistical PM2.5 concentration forecasting method that focuses on improving the input of computational models is proposed in the paper. The method uses the azimuth convergence-diffusion factor as the input of the computational model, which not only represents the process of PM2.5 accumulation and dissipation, but also considers the cumulative effect of meteorological elements in a certain period of time, which lays a good foundation for improving the prediction accuracy. Through the BP neural network training, the method establishes a correlation model between the azimuth convergence-diffusion factor and the PM2.5 concentration value, thus completing the accurate prediction of the PM2.5 concentration value.
Keywords: PM2.5 forecasting     Jing-Jin-Ji     meteorological element     azimuth convergence-diffusion factor     BP neural network    
1 引言(Introduction)

近年来, 京津冀地区大气污染问题突出, PM2.5经常成为雾霾天气过程的首要污染物.对PM2.5进行及时、准确的预报, 对于整个京津冀地区的大气污染防控和日常生产生活都有重要的现实意义.现有的大气污染物浓度预报方法主要分为两类:模式类预报方法、统计类预报方法.

1.1 模式类预报方法

模式类预报方法基于空气动力学原理, 综合考虑大气物理化学机制, 定量描述一定区域内大气污染物的变化, 从而达到预报大气污染物浓度的目的.这类方法又可细分为4个子类:未修正的模式类预报方法、从源头上对排放源进行同化修正的模式类预报方法、从结果上对模式运算结果进行修正的模式类预报方法、从源头和结果两方面进行修正的模式类预报方法.

① 未修正的模式类预报方法邓伟等(2007)利用Models-3/CMAQ模式对郑州市SO2和NO2浓度的预报进行了分析研究.Wang等(2012)利用WRF-Chem模式和RegAEMS模式, 开展了长三角地区城市空气质量和雾霾天气过程的预报研究.黄思等(2015)将NAQPMS、CAMx、CMAQ一起纳入多模式集合预报系统中, 对北京地区PM10的日均浓度预报水平进行了改进.

② 从源头上对排放源进行同化修正的模式类预报方法为了减小排放源的不确定性, 研究者采用资料同化的方法对排放源精度进行改进.主要的资料同化方法包括牛顿松弛法(Nudging)、最优插值法、集合卡尔曼滤波和集合卡尔曼平滑法等.Xu等(2008)提出了CMAQ模式“Nudging”源同化反演方法, 改进了城市群SO2、NO2浓度的预报效果.崔应杰等(2006)利用最优插值法改善了城市尺度大气污染的预报精度.白晓平等(2008)利用最优插值法和卡尔曼滤波法改进了南京地区NOx、SO2的数值预报精度.

③ 从结果上对模式运算结果进行修正的模式类预报方法这类方法并未对空气质量模式的初始场开展优化工作, 而是在模式运算结束后, 利用统计数据对运算产生的预报结果进行修正.谢敏等(2012)采用预报日前一天的监测数据作为修正项, 并考虑CMAQ模式预报的浓度变化趋势, 来进行预报结果的修正.陈彬彬等(2012)通过多元线性逐步回归, 建立了不同天气系统下CMAQ模式产品和多类预报因子相结合的日污染物浓度预报模型.王茜等(2015)采用学习型线性回归方法, 对CMAQ模式的PM2.5浓度数值预报结果进行了修正.张晗宇等(2018)利用WRF-Chem模式, 对京津冀地区一次大气污染过程进行模拟, 分析了污染过程中气溶胶直接反馈效应对温度、大气边界层高度等气象要素之间的相互影响.

④ 从源头和结果两方面进行修正的模式类预报方法程兴宏等(2013)采用源同化版的MM5-CMAQ准业务空气质量预报系统, 对北京地区的PM10浓度进行预报, 并利用线性订正方法和自适应偏最小二乘回归法对预报结果进行订正.此外, 程兴宏等(2016)还采用MM5-CMAQ准业务空气质量预报系统和自适应偏最小二乘回归法相结合的方法, 改进了全国范围的PM2.5浓度预报的效果.

在上述4类的模式类预报方法中, 不论采用原始排放源清单, 还是采用资料同化后的排放源清单, 都需要在模式运算过程中将排放源清单的年排放量通过时间分裂和空间分裂转化为网格化的小时排放量.在转化过程中会引入主观人为因素导致的误差, 影响模式运算的准确性.

虽然通过资料同化技术可以对排放源清单进行不断的修正, 但由于排放源本身排放情况的不断变化、“小、散、乱”污染源的无规律增减及气象因素的影响等, 使得修正后的排放源清单很难匹配未来时间的数值预报.而且反复修正的过程极大地降低了算法的效率, 使预报工作丧失了时效性.而对模式运行结果进行修正, 并未改变模式初始场误差所导致的固有缺陷.它是一种在实验数据集范围内的数值逼近, 无法从机理上给出必然的因果结论.

1.2 统计类预报方法

实际上, 在污染物排放源短期少变的条件下, 气象要素才是影响大气质量的主导因素(杨孝文等, 2016张晗宇等, 2018).因此, 在无法获取准确排放源清单的前提下, 基于气象要素的统计类预报方法是一种更具实用性的方法, 值得深入研究.

这类方法利用数值统计筛选出与大气污染物浓度相关性较强的影响因子, 再与大气污染物浓度建立起定量的预报关系.研究者尝试利用回归分析、神经网络、支持向量机、卡尔曼插值等不同的计算模型, 来建立气象要素影响因子和大气污染物浓度之间的预报关系.

王黎明等(2017)在选入预报当日气象要素的基础上, 采用支持向量机回归, 对PM2.5浓度值进行逐日滚动统计预报.郎艺超等(2018)基于SARIMA模型, 以过去360期的PM2.5数据对未来120期的PM2.5水平进行预报.崔相辉等(2017)利用大气气溶胶光学厚度AOD和平均温度、最高平均风速等气象数据, 采用深度置信网络, 建立了PM2.5预报模型.孙荣基等(2015)利用主成分分析和提前终止训练法, 对BP神经网络预报模型进行了改进.王飞龙等(2017)基于2015年的PM2.5浓度数据和气象数据, 使用机器学习方法预报北京市的PM2.5浓度水平.杨云等(2016)分别建立了基于BP神经网络和基于遗传算法优化的AQI预报模型.谢申汝等(2017)基于LIBSVM建立了PM2.5浓度预报模型.王伟等(2018)提出了一种结合3次样条插值方法的卡尔曼预报模型.何建军等(2013)根据WRF的模拟要素, 建立了气象影响因子与大气污染物浓度的回归方程.尤佳红(2014)根据WRF的模拟要素, 构建了3个MOS预报模型, 对上海地区霾的预报开展了研究.

上述的统计类预报方法在考虑气象因素对大气污染的影响时, 将研究的重点放在气象要素与大气污染物浓度间相关性的计算模型上, 却忽略了对计算模型输入量合理性的研究.而不合理的输入量使得采用任何计算模型的预报方法都无法取得期望的预报精度.具体来讲, 输入量的不合理性体现在以下两个方面.

① 缺乏对气象要素累积效应的表征.气象要素的影响过程往往持续一段时间后才会引起大气污染物浓度值的显著变化.因此, 一个时刻大气污染物的浓度值是与此时刻之前的一定时段内气象要素的累积数据对应的.而现有方法却通常在同一时刻的气象要素和大气污染物浓度值之间建立相关性模型, 这是影响现有统计类方法预报精度的重要原因.

② 缺乏对气象因素影响大气污染物聚散过程的表征.大气污染物浓度值的升高和降低与大气污染物的聚集与消散过程密切相关.而现有统计类预报方法缺乏对气象要素如何在大气污染物累积与消散过程中持续发挥作用的过程表征, 无法为预报结论提供机理性保障.

为消除上述两个缺陷, 本文从改进计算模型的输入量入手, 提出一种基于方位聚散因子的统计类PM2.5浓度预报方法.方位聚散因子作为本文方法所采用的计算模型输入量, 显著区别于现有统计类预报方法中的计算模型输入量.它能够表征出PM2.5累积与消散的过程, 同时, 也考虑了气象要素在一定时段内的累积效应, 为提高预报精度奠定了良好的基础.

通过BP(Back Propagation)神经网络训练, 本文方法在方位聚散因子与PM2.5浓度值之间建立起关联模型, 从而完成对PM2.5浓度值的准确预报.下文中将所提出的PM2.5浓度预报方法称为基于方位聚散因子的PM2.5浓度预报方法(PM2.5 Concentration Forecast Method based on Azimuth Convergence-Diffusion Factor, FM-ACDF).

具体来讲, FM-ACDF的主要贡献可概括如下:①将研究区域划分为不同的计算单元, 然后, 计算24 h内各计算单元的方位聚散因子, 作为FM-ACDF中计算模型的输入量.这样选择输入量, 一方面考虑了气象要素在时间上的累积效应, 另一方面使输入量能够表征出PM2.5累积与消散的过程.②采用BP神经网络作为FM-ACDF中的计算模型, 并利用Levenberg_Marquardt算法改进计算模型的训练效果, 减小局部优化和过拟合的影响.③利用北京市2018年1—3月期间的相关数据开展验证实验.在每一个独立的计算时段, FM-ACDF的PM2.5浓度预报值和实测值之间的相关系数均超过0.92.这充分证明了方位聚散因子作为计算模型输入量的合理性和它在PM2.5累积与消散过程中所发挥的重要作用.因此, FM-ACDF具有出色的预报效果和实用价值.

2 研究区域和数据来源(Research area and data source)

以北京市作为本研究的目标城市, 其具体的经纬度为东经116.4°、北纬39.9°.本文的研究区域则是以东经116.4°、北纬39.9°为中心, 经纬度跨度为1°×1°的区域.

本研究中所采用的气象数据是美国国家环境预报中心(NCEP)的全球预报系统(GFS)运行所产生的数据.GFS每天在0:00、6:00、12:00和18:00 UTC运行4次, 以0.25°×0.25°分辨率产生16 d的全球气象预报数据, 并且每天对上一天的数据进行同化修正.

本研究中所采用的PM2.5浓度数据来自中国环境监测总站的全国城市空气质量实时发布平台.通过自主研发的实时数据采集系统, 每个整点时刻从全国城市空气质量实时发布平台采集一次北京市行政区划内的12个国控站点的PM2.5浓度数据.研究中所用的PM2.5浓度实测值是指12个国控站点在同一时刻的PM2.5实测浓度的均值.

3 方位聚散因子(Azimuth convergence-diffusion factor) 3.1 基础气象要素

在污染物排放源短期少变的条件下, 气象要素是影响大气质量的主导因素, 而气象要素的构成是多样而复杂的.从气象要素在大气污染物累积与消散过程中所起的作用上, 可以将GFS数据中所包含的主要气象要素分为4种类型(有些气象要素有多方面的作用):①影响大气污染物水平扩散能力的气象要素, 包括气压(PRSS)、纬向风速(UWND)、经向风速(VWND)等;②影响大气污染物垂直扩散能力的气象要素, 包括行星边界层厚度(PBLH)、垂直风速(WWND)、显热通量(SHTF)、累积降水量(TPP6)等;③影响气态污染物通过冷却和水汽凝结生成固态污染物能力的气象要素, 包括温度(T02M)、湿度(SPH2)等;④影响通过光化学转换生成二次污染物能力的气象要素, 包括向下短波辐射通量(DSWF)、显热通量(SHTF)、湿度(SPH2)等.

虽然气象要素在上述4个方面都对大气污染物累积与消散过程产生作用, 但作用大小有所不同.就本文的研究对象PM2.5而言, 存在逆温时, 大气层结较稳定, 垂直方向上的湍流受到很强的抑制, 因此, 污染物在垂直方向上的扩散较差, PM2.5浓度主要受水平风速影响;而非逆温条件下, 垂直方向上的湍流强度虽然较大, 但也使得污染物混合较为均匀(潘纯珍等, 2004杨龙等, 2005).平均而言, 夏季边界层中的气溶胶质量浓度为近地面相应值的90%左右, 而在冬季, 这一比率平均为70%~80%(王庚晨等, 2004).因此可以近似认为, PM2.5浓度在一个目标地点附近边界层的整体分布是均匀的.目标地点附近大气水平扩散条件是决定PM2.5浓度的主要因素.本文也正是基于这一考虑, 选取对大气水平扩散影响最大的纬向风速和经向风速作为FM-ACDF的基础气象要素.

3.2 方位聚散因子的定义

从3.1节分析可知, 纬向风速、经向风速是选定的FM-ACDF基础气象要素.但气象要素的影响过程往往持续一段时间后才会引起PM2.5浓度数值的显著变化.因此, 不充分考虑气象要素在时间上的累积效应, 而直接在纬向风速、经向风速和PM2.5浓度之间建立预报模型, 显然与实际情况不符, 也会影响PM2.5预报的精度.

因此, FM-ACDF不直接采用单一时刻的纬向风速和经向风速作为其计算模型的输入量, 而是将纬向风和经向风所引起的一个时间段内大气颗粒物相对于目标地点的移动距离作为其计算模型的输入量, 这也就是方位聚散因子(Azimuth Convergence-Diffusion Factor, ACDF).它表示了一段时间内, 各个空间点处的大气颗粒物向目标地点聚集或从目标地点扩散的程度.如果一个空间点处是清洁大气, 那么, 它向目标地点的聚集会导致目标地点PM2.5数值的下降;如果一个空间点处是受污染大气, 那么, 它向目标地点的聚集则会导致目标地点PM2.5数值的升高.

3.3 方位聚散因子的构造

FM-ACDF计算模型中的输入量, 即方位聚散因子, 可以基于基础气象要素, 用下述的步骤进行构造.

① 将研究区域上方一定高度的空间按不同的层次划分成相同体积的长方体, 每个长方体称为一个计算单元(Computing Unit, CU).图 1显示了在北京市周围空间所划分的计算单元, 图中位于底部中心的黑色小实心块表示目标城市北京市.而每个由灰色填充的长方体都表示一个计算单元, 每个计算单元的经纬度跨度为0.25°×0.25°, 每个目标城市周围研究区域总的经纬度跨度为1°×1°.

图 1 计算单元 Fig. 1 Computing unit

在垂直方向上, 计算单元分布于3个垂直分层上, 这3个垂直分层分别用h1h2h3表示.h1h2h3分别对应sigma坐标系的3个等压层(0.9947、0.9886和0.9817).若地面大气压为一个标准大气压, 则h1h2h3距离地面的高度大体为49、105和169 m.在水平方向上, 按照计算单元所在的方位(Azimuth)由南向北、由东向西的顺序进行连续的编号, 则这些计算单元分别处于d1, …, d16号方位上.由此, 下文中用CUh, d表示一个计算单元, 其中, h∈{1, 2, 3}代表计算单元所在的垂直分层, d∈{1, …, 16}则代表计算单元所处的水平方位.

② 在每个计算单元中, 以相等的经纬度跨度定位计算点(Computing Point, CP).图 2显示了一个计算单元中的所有计算点.浅灰色填充的大长方体代表一个计算单元, 而其中深灰色填充的小长方体则表示计算点.本文中一个计算单元包含16个计算点, 计算点相互间距为0.05°.当一个计算点CP位于一个计算单元CUh, d中时, 用CP∈CUh, d表示.

图 2 一个计算单元中的计算点 Fig. 2 Computing points in a computing unit

③ 在每个计算点上, 计算大气颗粒物在一个时间段内与目标城市距离的变化, 称为计算点相对于目标城市的聚散因子(Convergence-Diffusion Factor, CDF).用c表示目标城市, CP表示c的任一计算单元中的任一计算点.那么, CP在时刻t相对于c的聚散因子CDFc, CP(t)计算方法如下所示:

(1)
(2)
(3)

式中, ori_dis表示CP点的大气颗粒物与c点的初始水平距离;end_dis表示CP点的大气颗粒物从时刻t开始, 以纬向速度wt, u和经向速度wt, v运动了Δt时间后与c点的水平距离, 其中, Δt在FM-ACDF的实际计算过程中取值60 s;lonx、latx分别表示x的经度、纬度坐标;Unitlon、Unitlat分别表示1经度和1纬度代表的公里数(km), 对于京津冀地区, 分别取值86 km和111 km;Sqrt(x)表示x的平方根.

从式(1)的计算过程可知, 聚散因子表示了在时间段Δt内, 计算点CP处的大气颗粒物与目标城市c之间水平距离的变化.聚散因子为正时, CP处的大气颗粒物向c靠近(聚集);聚散因子为负时, CP处的大气颗粒物远离c(扩散), 这也是命名聚散因子的原因所在.

④ 在一个计算单元CUh, d中, 将所有16个计算点CPi在时刻t相对于c的聚散因子求和, 作为CUh, d在时刻t相对于c的聚散因子, 记作CDFc, CUh, d(t)(式(4)).一个计算单元的聚散因子为正, 表示计算单元中的大气颗粒物总体上是向目标城市聚集的;反之, 则表示计算单元中的大气颗粒物总体上是从目标城市向外扩散的.

(4)

⑤ 将不同分层位于同一方位d上的计算单元CUhi, d(i=1, 2, 3)在时刻t相对于c的聚散因子求和, 可以得到方位d在时刻t相对于c的聚散因子, 记作ACDFc, d(t)(式(5)).一个方位聚散因子表明了此方位上大气颗粒物的整体运动状态.为正时, 此方位上的大气颗粒物总体上是向目标城市聚集的, 反之, 则是从目标城市向外扩散的.目标城市周围16个方位聚散因子可以作为目标城市周边区域大气颗粒物聚集-扩散状态的表征, 但这一表征是单一时刻的.气流的无规律扰动会给各方位聚散因子带来随机性的影响.因此, 需要进一步对方位聚散因子进行处理, 以尽量消除不利于相关性关系计算的因素.

(5)

⑥ 在一个时间段T内, 对方位d在各时刻ti相对于c的聚散因子求和, 这样求得的聚散因子称为方位d在时段T内相对于c的聚散因子, 记作ACDFc, d(T):

(6)

式中, fti表示ti时刻的权重.在FM-ACDF中, 对各整点时刻过去24 h的16个方位聚散因子进行累积, 以求得后续计算模型中所使用的各方位聚散因子.权重按时间由远至近, 分别取0.1~1.

4 FM-ACDF的计算模型

(Computational model of FM-ACDF) FM-ACDF采用BP神经网络算法作为计算模型, 在方位聚散因子和整点时刻PM2.5浓度值之间建立关联规则, 从而对PM2.5浓度进行预报.神经网络是一组连接的输入/输出单元, 每个连接都与一个权重相关联.通过学习调整这些权重, 使得神经网络可以预报输入元组的最可能输出.FM-ACDF中使用的BP神经网络算法是在多层前馈神经网络上训练的后向传播算法.求解过程采用MATLAB平台的神经网络拟合应用包(Neural Fitting App, NFA), NFA能够较好地解决多维参数拟合的问题.

FM-ACDF使用NFA进行求解的参数如下:①输入量:计算时段内, 每一整点时刻过去24 h的16方位聚散因子;②输出量:计算时段内, 每一整点时刻的PM2.5浓度预报值;③训练、验证、测试数据的选取方式:随机选取;④训练、验证、测试数据的比例:70%、15%、15%;⑤隐藏层节点数:20, 此项取值据实验而来, 在NFA中将隐藏层节点数由10~30按每次增加2进行设置, 并利用同样数据集进行训练, 然后得到测试数据的均方误差(Mean Squared Error)分别为389、395、292、271、269、281、299、281、278、275、332, 在隐藏层节点数取16~28期间, 出现了相对较小的均方误差;⑥激活函数:sigmoid函数;⑦优化方法:Levenberg-Marquardt.此优化方法使BP神经网络的训练过程不致陷入局部优化或过拟合的状态.

5 实验结果分析(Analysis of experimental results)

在FM-ACDF的验证实验中, 首先将2018年1、2、3月分别作为独立的计算时段, 利用FM-ACDF对北京市PM2.5浓度值进行预报.具体实验过程为:在1月和3月计算时段, 各有31×24=744个整点时刻, 按照训练、验证、测试数据比例分别为70%、15%、15%的数据选取方法, 从全部744个整点时刻中任意选取522(744×70%)、111(744×15%)、111(744×15%)个时刻的数据, 分别作为训练、验证、测试数据集.NFA利用训练数据集和验证数据集对BP神经网络进行训练, 然后利用训练后的BP神经网络, 对测试数据集中各整点时刻PM2.5浓度值进行预报计算, 并将PM2.5浓度预报值与对应时刻的PM2.5浓度实测值绘制成回归曲线.而对于2月计算时段, 共有672(28×24)个整点时刻.实验过程与1月和3月完全一致.

较之FM-ACDF, 现有统计类预报方法不考虑累积效应, 主要利用单一时刻的气象要素建立污染物浓度预报模型.为此, 验证实验分别选取了两种对比方案与FM-ACDF展开比较.

① 将单一时刻的纬向风速、经向风速作为BP神经网络的输入量, 以PM2.5浓度预报值作为BP神经网络的输出量, 此方案称为两要素对比方案.

② 在方案①的基础上, 增加了湿度、温度、累积降水量、行星边界层高度、显热通量、向下短波辐射通量等6个气象要素作为BP神经网络的输入量, 与输出量—PM2.5浓度值建立相关性预报关系, 此方案称为八要素对比方案.

两个对比方案的求解过程也采用MATLAB平台的神经网络拟合应用包NFA, 并且求解过程的参数除了输入量之外, 其余参数均与FM-ACDF相同.对比方案的实验也将2018年1、2、3月分别作为独立的计算时段, 对北京市的整点时刻的PM2.5浓度值进行预报.

FM-ACDF计算模型的输出量—PM2.5浓度预报值与PM2.5浓度实测值之间的回归曲线分别如图 3~5所示.从图中可以看到, 不论哪一个计算时段, FM-ACDF的PM2.5浓度预报值和实测值之间的相关系数r均超过0.92, 这是现有其它的大气污染物浓度预报方法未曾达到过的.训练数据集、验证数据集、测试数据集的回归曲线(图中实线)都与y=x的期望回归曲线(图中虚线)有较高的重合度.由此可见, FM-ACDF的PM2.5浓度预报精度处于较高水平, 对改善现有的预报工作有较大的实用价值.

图 3 北京市2018年1月PM2.5浓度的回归曲线 Fig. 3 Regression curve of PM2.5 concentration of Beijing in January 2018

图 4 北京市2018年2月PM2.5浓度的回归曲线 Fig. 4 Regression curve of PM2.5 concentration of Beijing in February 2018

图 5 北京市2018年3月PM2.5浓度的回归曲线 Fig. 5 Regression curve of PM2.5 concentration of Beijing in March 2018

需要进一步指出的是, 在2018年1、2、3月3个独立的计算时段, FM-ACDF的实验结果都能保持相对稳定, 在随机选择的测试集上, 相关系数r均超过0.92且波动幅度很小, 这说明FM-ACDF的适用性较强, 不确定性较小.

为了定量地对FM-ACDF在适用性和不确定性方面进行评价, 本文对2018年1、2、3月FM-ACDF在各整点时刻的PM2.5预报浓度的误差值进行了统计.限于篇幅, 本研究仅在图 6中给出了2018年1月的误差值统计结果, 省略了2018年2月和3月的统计结果.但必须指出的是, 2018年1、2、3月FM-ACDF浓度预报的误差总体处于同一水平.

图 6 北京市2018年1月的FM-ACDF浓度预报误差分析直方图 Fig. 6 Histogram of FM-ACDF concentration forecast error analysis of Beijing in January 2018

图 6的横坐标是FM-ACDF预报PM2.5浓度的误差值, 为PM2.5实测浓度与PM2.5预报浓度之差, 纵坐标是整点时刻的数量.从图 6可以看出, 不论对于训练集、验证集还是测试集数据, FM-ACDF浓度预报的误差都处于较低水平, 86%即640个整点时刻的预报误差值位于-17.45~11.42 μg·m-3之间.

进一步对FM-ACDF预报误差按PM2.5实测浓度的范围进行分段统计, 结果如表 1所示.为统计的方便, 表 1中的PM2.5浓度预报误差值取图 6中各整点时刻误差值的绝对值, 而误差率则是指PM2.5浓度预报误差值的绝对值/PM2.5实测浓度.在PM2.5实测浓度大于等于75 μg·m-3时, 虽然PM2.5浓度预报误差值最大值达到83.6 μg·m-3, 但PM2.5浓度预报误差值均值为13.8 μg·m-3, PM2.5浓度预报误差率均值为11.1%, 都处于较低水平.

表 1 北京市2018年1月的FM-ACDF浓度预报分段误差统计 Table 1 Segmentation error statistics of FM-ACDF concentration forecast of Beijing in January 2018

随着PM2.5实测浓度值的下降, FM-ACDF预报误差率也有所升高.当PM2.5实测浓度≤25 μg·m-3时, PM2.5浓度预报误差率均值上升至67.4%, 最大误差率高达424.1%.但浓度预报误差率的上升在很大程度上是由于计算分母(即PM2.5实测浓度)偏小造成的, 此时的预报误差值均值仅为6.3 μg·m-3.总体而言, FM-ACDF进行浓度预报的误差处于较低水平, 方法具有良好的适用性.

对于两要素对比方案和八要素对比方案的实验结果, 限于篇幅, 本研究只在图 7~8中分别给出了北京市2018年1月的回归曲线, 省略了2018年2月和3月的回归曲线.但必须指出的是, 北京市2018年1、2、3月两要素对比方案、八要素对比方案的回归曲线有着相似的变化特征, 相关系数r也处于同一水平.

图 7 北京市两要素对比方案2018年1月回归曲线 Fig. 7 Regression curve of the two-element comparison scheme of Beijing in January 2018

图 8 北京市八要素对比方案2018年1月回归曲线 Fig. 8 Regression curve of the eight-element comparison scheme of Beijing in January 2018

图 7~8可以看出, 北京市两要素对比方案的训练数据集、验证数据集、测试数据集的回归曲线(图中实线)都与y=x的期望回归曲线(图中虚线)严重偏离.PM2.5浓度预报值与实测值之间的相关系数r总体处于较低水平.因此, 利用两要素对比方案进行PM2.5浓度预报显然会产生较大的误差.

而八要素对比方案的PM2.5浓度预报值与实测值之间的相关系数r比两要素对比方案有所提高, 各回归曲线(图中实线)与y=x的期望回归曲线(图中虚线)的偏离程度有所减小, 说明PM2.5浓度与8个气象要素存在明显的正相关性.但较之FM-ACDF, 八要素对比方案的预报精确度显然还有较大差距.如果将FM-ACDF和八要素对比方案两种方法分别用于预报未来时刻PM2.5的浓度值, 显然FM-ACDF具有较大的优势.

6 结论(Conclusions)

本文提出了一种新的统计类PM2.5浓度预报方法FM-ACDF.不同于现有的大气污染物浓度预报方法, FM-ACDF将研究的重点放在计算模型输入量合理性的研究上.通过为预报方法构造更加符合PM2.5累积与扩散过程的计算模型输入量—方位聚散因子, 充分考虑了气象要素的累积效应, 使得PM2.5的预报精度大幅提升.北京市2018年1—3月期间相关数据的验证实验表明:方位聚散因子是与PM2.5浓度值具有强相关性的可信赖的计算模型输入量, 采用方位聚散因子作为计算模型输入量的FM-ACDF, PM2.5浓度预报值和实测值之间的相关系数均超过0.92.总体而言, FM-ACDF进行浓度预报的误差处于较低水平, 方法具有良好的适用性.

7 展望(Prospect)

未来, 本课题组将把研究的重点放在两个方面, 第一, 将FM-ACDF的研究区域扩大至整个京津冀地区的13个城市, 为区域性大气污染的联防联控提供基础性的辅助决策支持;第二, 开展气象要素的同化修正工作, 在GFS气象资料的基础上, 引入本地化的地面观测数据进一步提高气象要素的准确性, 降低气象预报误差给PM2.5浓度预报所带来的不利影响.

参考文献
白晓平, 李红, 方栋, 等. 2008. 资料同化方法在空气污染数值预报中的应用研究[J]. 环境科学, 2008, 29(2): 283–289.
陈彬彬, 林长城, 杨凯, 等. 2012. 基于CMAQ模式产品的福州市空气质量预报系统[J]. 中国环境科学, 2012, 32(10): 1744–1752.
程兴宏, 刁志刚, 胡江凯, 等. 2016. 基于CMAQ模式和自适应偏最小二乘回归法的中国地区PM2.5浓度动力-统计预报方法研究[J]. 环境科学学报, 2016, 36(8): 2771–2782.
程兴宏, 李德平, 徐祥德, 等.2013.北京地区CMAQ源同化模式预报PM10产品订正方法研究[A]//中国环境科学学会学术年会浦华环保优秀论文集[C].昆明: 中国环境科学学会
崔相辉, 谢剑锋, 张丰, 等. 2017. 基于深度学习的PM2.5预测模型建立[J]. 北京测绘, 2017(6): 22–27.
崔应杰, 王自发, 朱江, 等. 2006. 空气质量数值模式预报中资料同化的初步研究[J]. 气候与环境研究, 2006, 11(5): 616–626.
邓伟, 陈怀亮, 杨海鹰, 等. 2007. Models-3/CMAQ模式对郑州市大气污染物的预报分析研究[J]. 气象与环境科学, 2007, 30(1): 54–57.
何建军, 余晔, 刘娜, 等. 2013. 基于WRF模式的兰州秋冬季大气污染预报模型研究[J]. 气象, 2013, 39(10): 1293–1303.
黄思, 唐晓, 徐文帅, 等. 2015. 利用多模式集合和多元线性回归改进北京PM10预报[J]. 环境科学学报, 2015, 35(1): 56–64.
郎艺超, 肖璐, GeorgeChristakos. 2018. 基于SARIMA模型和普通Kriging法对杭州市主城区PM2.5短期预测和制图[J]. 环境科学学报, 2018, 38(1): 62–70.
潘纯珍, 陈刚才, 杨清玲, 等. 2004. 重庆市地区道路PM10/PM2.5浓度分布特征研究[J]. 西南农业大学学报(自然科学版), 2004, 26(5): 576–579.
孙荣基, 赵松, 张小琴, 等. 2015. 一种基于BP神经网络改进算法的PM2.5预测方法[J]. 四川环境, 2015, 34(4): 85–90.
王飞龙.2017.基于机器学习的北京PM2.5预测算法[D].天津: 天津工业大学 http://cdmd.cnki.com.cn/Article/CDMD-10058-1017198499.htm
王庚辰, 谢骅, 万小伟, 等. 2004. 北京地区气溶胶质量浓度及组分随高度的变化[J]. 环境科学研究, 2004, 17(1): 37–40.
王黎明, 吴香华, 赵天良, 等. 2017. 基于距离相关系数和支持向量机回归的PM2.5浓度滚动统计预报方案[J]. 环境科学学报, 2017, 37(4): 1268–1276.
王茜, 吴剑斌, 林燕芬. 2015. CMAQ模式及其修正技术在上海市PM2.5预报中的应用检验[J]. 环境科学学报, 2015, 35(6): 1651–1656.
Wang T, Jiang F, Deng J, et al. 2012. Urban air quality and regional haze weather forecast for Yangtze River Delta region[J]. Atmospheric Environment, 58(15): 70–83.
王伟, 郑斌, 陈彬林, 等. 2018. 基于微区域PM2.5浓度卡尔曼插值预测模型的研究[J]. 生物医学工程学杂志, 2018, 35(1): 64–69.
谢敏, 钟流举, 陈多宏. 2012. CMAQ模式及其修正预报在珠三角区域的应用检验[J]. 环境科学与技术, 2012, 35(2): 102–107.
谢申汝, 钱彬彬, 杨宝华. 2017. 基于LIBSVM的PM2.5浓度预测模型[J]. 洛阳理工学院学报(自然科学版), 2017, 27(2): 9–12.
Xu X, Xie L, Cheng X, et al. 2008. Application of an adaptive nudging scheme in air quality forecasting in China[J]. Journal of Applied Meteorology and Climatology, 96(4): 264–268.
杨龙, 贺克斌, 张强, 等. 2005. 北京秋冬季近地层PM2.5质量浓度垂直分布特征[J]. 环境科学研究, 2005, 18(2): 23–28.
杨孝文, 周颖, 程水源, 等. 2016. 北京冬季一次重污染过程的污染特征及成因分析[J]. 中国环境科学, 2016, 36(3): 679–686.
杨云, 杨毅. 2016. 基于GA-BP神经网络的供暖期空气质量指数预测分析[J]. 陕西科技大学学报, 2016, 34(4): 171–176.
尤佳红.2014.上海地区霾集合预报研究[D].上海: 华东师范大学 http://cdmd.cnki.com.cn/Article/CDMD-10269-1014322252.htm
张晗宇, 温维, 程水源, 等. 2018. 京津冀区域典型重污染过程与反馈效应研究[J]. 中国环境科学, 2018, 38(4): 1209–1220.