中国气象学会主办。
文章信息
- 黄丛吾, 陈报章, 马超群, 王体健. 2018.
- HUANG Congwu, CHEN Baozhang, MA Chaoqun, WANG Tijian. 2018.
- 基于极端随机树方法的WRF-CMAQ-MOS模型研究
- WRF-CMAQ-MOS studies based on extremely randomized trees
- 气象学报, 76(5): 779-789.
- Acta Meteorologica Sinica, 76(5): 779-789.
- http://dx.doi.org/10.11676/qxxb2018.036
-
文章历史
- 2017-10-25 收稿
- 2018-04-10 改回
2. 中国矿业大学环境与测绘学院, 徐州, 221116
2. School of Environment Science and Spatial Informations, China University of Mining and Technology, Xuzhou 221116, China
多尺度空气质量模型(CMAQ)作为MODES-3的核心组成部分,可用于局地、城市、区域和大陆等多尺度的空气质量预报研究。为了提高模式预报精度,使模型能够真实反映研究区域的大气污染过程,中外已经有许多学者开展了相关研究,如许建明等(2005)进行的CMAQ-MOS区域空气质量统计修正模型预报途径研究,通过观测气象要素值以及观测污染物浓度值对模型模拟结果进行统计订正,成功将概率预报方式与数值预报方式结合起来;Peng等(2014)基于CMAQ模型成功建立了东亚地区的碳同化反演系统;Chang等(2016)使用了同化后的MACC(Monitoring Atmospheric Composition and Climate)数据作为初始和边界条件,成功地对CMAQ模型进行优化;Gou等(2011)使用四维变分方法优化了CMAQ模型的化学传输过程;Zubrow等(2008)使用了集合调整卡尔曼滤波方法对CMAQ模型预报中CO的化学传输过程进行优化;针对CMAQ模型所使用的排放源清单,程兴宏等(2013, 2016)提出了使用自适应偏最小二乘回归法以及张弛逼近源同化反演对排放源清单进行订正的方法。
为了提高多尺度空气质量模型(CMAQ)的模拟准确度,本研究引入了结合WRF气象要素的CMAQ-MOS模型。在模拟试验过程中,发现传统的多元线性回归方法限制了MOS模型的优化效果,采用非线性的极端随机树方法和梯度提升回归树方法对模式输出统计模型进行优化,将两种方法应用到徐州空气质量预报业务中,并进行性能比较。
2 模式和方法 2.1 WRF-CMAQ-MOS模型传统的多元线性回归方法限制了结合WRF气象要素的CMAQ-MOS模型的发挥,多元线性回归方法可较好地预测线性过程,但对于非线性过程,例如大气污染物预报过程,其效果显然会受到较大的限制。为了解决以上问题,提升结合WRF气象要素的CMAQ-MOS模型优化效果,文中选取较为新颖且易于实现的极端随机树(Extremely Randomized Trees)方法(Galelli, et al, 2013;Scalzo, et al, 2012)和梯度提升回归树(Gradient Boosted Regression Trees)方法(Carslaw, et al, 2009),对结合WRF气象要素的CMAQ-MOS模型进行改进。传统的使用多元线性回归方法、基于WRF预报气象要素的MOS模型计算式为
(1) |
(2) |
式中,Xt|t-t0代表t|t-t0时刻至t时刻某种污染物的浓度观测值矩阵,
由式(1)、(2)可知,使用MOS模型综合考虑了污染物浓度观测数据、大气要素观测数据、WRF预报气象数据和空气质量模型预报数据进行污染物浓度预报订正,考虑了动力作用、化学作用和污染物排放的影响。
图 1为结合WRF预报气象要素的CMAQ-MOS模型运行流程,分为模拟阶段和预报阶段。在模拟阶段,模型读取t-1时段观测气象数据,t时段CMAQ模型预报污染物浓度数据,t时段WRF预报气象数据,t时段观测污染物浓度数据,建立基于多元线性回归的矩阵方程,其中,观测气象要素数据为4×25的矩阵,4列分别为观测温度、湿度、气压、风速,25行为从t-1天00时至t天00时的时间序列;WRF气象要素数据为4×25的矩阵,4列分别为WRF预报温度、湿度、气压、风速,25行为从t天00时至t+1天00时的时间序列;CMAQ模型预报污染物浓度数据为7×25的矩阵,7列分别为空气质量指数(AQI)、PM2.5、PM10、CO、NO2、O3、SO2的模型模拟值,25行为从t天00时至t+1天00时的时间序列;观测污染物浓度数据为7×25的矩阵,7列分别为空气质量指数、PM2.5、PM10、CO、NO2、O3、SO2的观测值,25行为从t天00时至t+1天00时的时间序列。通过以上数据组成多元线性回归模型,将所得模型代入预报阶段中,得到t+1时段MOS模型污染物预报浓度值,为7×25的矩阵,7列分别为空气质量指数、PM2.5、PM10、CO、NO2、O3、SO2的污染物浓度预报值,25行为从t天00时至t+1天00时的时间序列。
2.1.1 极端随机树方法Geurts等(2006)提出了极端随机树方法,根据经典的自上而下的方法,极端随机树构建了一系列“自由生长”的回归树集合。与随机森林方法相似,极端随机树方法也是由多棵决策树构成,但与随机森林方法不同在于极端随机树方法是完全随机的得到分叉值,从而进行对回归树的分叉,不同于随机森林的在一个随机子集内得到最佳分叉属性。此外,极端随机树方法中的每一棵回归树用的都是全部训练样本。该方法的实现流程为:
(1) 根据观测污染物浓度数据建立随机拆分(S, a)
计算S的最大值和最小值,分别记为aminS和amaxS;选择均匀切点为[aminS,amaxS]中的ac;返回拆分[a < ac]。
(2) 结合WRF预报气象数据、模型预报数据建立一棵极端随机树t
在以下3种情况时,返回叶子结点:(ⅰ)|S| < nmin,即叶子节点的最小样例;(ⅱ)S中包含了所有的候选属性;(ⅲ)S中包含了输出变量。运行流程如下:在所有的属性中选择互不相同的随机K属性{a1, …, aK}; 利用随机拆分(S, ai),构建K拆分{S1, …, SK};选择拆分S*,其中,Score(S*, S)=maxi=1, …, KScore(Si, S),Score为评分函数,文中,ScoreR(Si, S)=
(3) 建立极端随机树集合
根据(2)构建极端回归树集合T={t1, …, tM}。
2.1.2 梯度提升回归树方法梯度提升回归树是根据梯度提升算法构建的回归树模型,梯度提升是一种组合算法,它的基分类器是决策树,既可以用来回归,也可以用作分类。与随机森林相比,梯度提升算法在分类性能上能够与其媲美,甚至有可能表现得更好。梯度提升回归树具有以下三点优势:自然而然地处理混合类型的数据、预测能力强及在输出空间通过强大的损失函数对于异常值的鲁棒性强。
Friedman(2001)提出梯度提升算法,其核心就在于每棵树是从先前所有树的残差中来学习。利用的是当前模型中损失函数的负梯度值作为提升树算法中的残差的近似值,进而拟合一棵回归树。其运行流程为:
(1) 初始化,结合WRF预报气象数据、模型预报数据和观测污染物浓度数据通过函数
(3) |
估计一个使损失函数极小化的常数值,式中,yi为WRF预报气象数据和模型预报数据,c为观测污染物浓度数据,此时它是只有一个节点的树。
(2) 迭代法建立M棵提升树
在第1层循环中m=1,2,…,M;在第2层循环中i=1,2,…,N,计算损失函数的负梯度在当前模型的值,并将其作为残差的估计值。
(4) |
对于rm, i拟合一棵回归树,得到第m棵树的叶节点区域Rm, j,j=1,2,…,J;在第2层循环中j=1,2,…,J,计算
(5) |
利用线性搜索估计叶节点区域的值,使损失函数极小化;之后,更新
(6) |
式中,指示函数I在x∈Rm, j时,I=1,否则I=0。
(3) 最后得到的fm(x)就是最终的梯度提升回归树模型
(7) |
以六大污染物(NO2、PM2.5、PM10、SO2、O3、CO)及空气质量指数(AQI)为研究对象,利用空气质量模型CMAQ及Python、Fortran语言,shell脚本语言,进行CMAQ-MOS统计修正模型研究,用于徐州空气质量预报。
模型使用3层嵌套网格(图 2),水平分辨率分别为27、9和3 km,第1层区域覆盖整个东亚、大部分东南亚和部分南亚地区,第2层区域覆盖大部分华东地区及部分华中地区,第3层区域覆盖徐州市全域,网格数分别为88×76,112×94和97×97;垂直方向采用η坐标系,共29层,模式层顶气压为50 hPa,模式层顶距地面20 km,边界层(约2 km)内分为10层。对于污染源排放数据,区域内层主要采用SMOKE模型输出,外层嵌套采用清华大学MEIC清单数据。
2.3 误差分析方法采用的误差分析方法主要有4种,分别是均方根误差(RMSE)、相关系数(R)、平均相对误差(MFE)、平均相对偏差(MFB)(Boylan, et al, 2006)。当平均相对误差在±30%内,且平均相对偏差小于50%时,可认为预报是准确的。
(8) |
(9) |
(10) |
(11) |
选取2016年9月13-24日徐州市黄河新村站点逐时污染物浓度观测数据、WRF气象预报数据、CMAQ模型污染物浓度预报数据,使用极端随机树方法和梯度提升回归树方法并结合WRF气象要素进行CMAQ-MOS模型试验。分别以WRFMOS1代表使用多元线性回归方法、结合WRF气象要素预报的CMAQ-MOS模型优化结果,EXTRA代表使用极端随机树方法、结合WRF气象要素预报的CMAQ-MOS模型优化结果,GBRT代表使用梯度提升回归树方法、结合WRF气象要素预报的CMAQ-MOS模型优化结果,试验结果如下:
由表 1可以看出,EXTRA方案优化效果最佳。结合观测污染物浓度值(OBV)、WRFMOS1方案结果、EXTRA方案结果、GBRT方案结果,绘制出2016年9月13-24日徐州市空气质量指数、CO、NO2、O3、PM10、PM2.5、SO2浓度观测、WRFMOS1方案、EXTRA方案、GBRT方案时间变化和泰勒图(图 3、4)。
R | RMSE(mg/m3) | MFB(%) | MFE(%) | |
AQI-WRFMOS1 | 0.4915 | 0.0309 | 47.17 | -18.02 |
AQI-EXTRA | 0.5453 | 0.0199 | 22.29 | 5.12 |
AQI-GBRT | 0.3881 | 0.0187 | 22.47 | 6.28 |
CO-WRFMOS1 | 0.2250 | 0.7175 | 28.41 | 5.99 |
CO-EXTRA | 0.2827 | 0.4228 | 27.37 | 12.40 |
CO-GBRT | 0.1622 | 0.4455 | 30.45 | 13.04 |
NO2-WRFMOS1 | 0.2798 | 0.0357 | 51.83 | 4.05 |
NO2-EXTRA | 0.4020 | 0.0220 | 30.66 | 14.16 |
NO2-GBRT | 0.2971 | 0.0241 | 32.73 | 15.92 |
O3-WRFMOS1 | 0.2728 | 0.0575 | 173.61 | -95.34 |
O3-EXTRA | 0.5796 | 0.0355 | 40.86 | 17.92 |
O3-GBRT | 0.5097 | 0.0373 | 43.82 | 21.45 |
PM10-WRFMOS1 | 0.4472 | 0.0307 | 23.12 | -0.32 |
PM10-EXTRA | 0.5324 | 0.0223 | 28.04 | 7.98 |
PM10-GBRT | 0.4079 | 0.0224 | 30.69 | 7.19 |
PM2.5-WRFMOS1 | 0.5680 | 0.0249 | 46.81 | -24.80 |
PM2.5-EXTRA | 0.5904 | 0.0180 | 28.76 | 2.88 |
PM2.5-GBRT | 0.4958 | 0.0176 | 29.64 | 1.50 |
SO2-WRFMOS1 | 0.2178 | 0.0278 | 21.57 | 9.24 |
SO2-EXTRA | 0.3665 | 0.0179 | 23.11 | 10.43 |
SO2-GBRT | 0.2270 | 0.0188 | 24.94 | 12.87 |
针对CMAQ模型,使用多元线性回归方法,结合WRF预报气象要素的CMAQ-MOS模型,其优化效果仍未达到预期。在选取极端随机树方法和梯度提升回归树方法,分别对结合WRF气象要素的CMAQ-MOS模型进行改进之后,经由试验结果发现,使用极端随机树方法比梯度提升回归树方法的改进效果更显著,其原因主要是因为其每一棵树都是用了全部的样本,并进行了完全随机的拆分。
3.2 极端随机树方法的应用为了验证使用极端随机树方法并结合WRF气象要素的CMAQ-MOS模型优化效果并进行应用,进行了针对徐州地区2016年1-3月的逐时预报应用试验,选取黄河新村站点(1177A)观测数据进行评估,并针对7个站点的优化效果进行统计分析。模型运行效率较高,进行单站点一个月逐时预报试验耗时约15 min,业务化运行中每日对7个站点进行未来3 d逐时预报,耗时约3 min。
针对空气质量指数及六大污染物,使用极端随机树方法结合WRF气象要素预报的CMAQ-MOS模型进行试验,7个站点试验结果见表 2。可见,经过优化后的六大污染物及空气质量指数的准确度均得到了极大的提高。根据试验结果,针对黄河新村站点的空气质量指数与六种污染物分别绘制2016年1-3月徐州市空气质量指数、CO、NO2、O3、PM10、PM2.5、SO2污染物浓度预报和订正误差时间变化、散点分布和泰勒图。从图 5-7可明显看出,针对空气质量指数、CO、NO2、O3、PM10、PM2.5、SO2,使用极端随机树方法结合WRF气象要素预报的CMAQ-MOS模型具有良好的优化效果。
a.相关系数 | AQI | CO | NO2 | O3 | PM10 | PM2.5 | SO2 | |
黄河新村 | CMAQ | 0.40 | 0.44 | 0.35 | 0.39 | 0.34 | 0.47 | 0.12 |
MOS | 0.47 | 0.53 | 0.63 | 0.73 | 0.49 | 0.55 | 0.53 | |
淮塔 | CMAQ | 0.47 | 0.47 | 0.43 | 0.39 | 0.47 | 0.50 | 0.15 |
MOS | 0.48 | 0.52 | 0.61 | 0.57 | 0.50 | 0.51 | 0.22 | |
铜山兽医院 | CMAQ | 0.19 | 0.35 | 0.22 | 0.51 | 0.16 | 0.29 | 0.06 |
MOS | 0.49 | 0.52 | 0.68 | 0.54 | 0.52 | 0.50 | 0.20 | |
新城区 | CMAQ | 0.26 | 0.42 | 0.41 | 0.49 | 0.22 | 0.41 | -0.04 |
MOS | 0.39 | 0.60 | 0.55 | 0.71 | 0.42 | 0.57 | 0.20 | |
桃园路 | CMAQ | 0.41 | 0.44 | 0.33 | 0.40 | 0.38 | 0.46 | 0.16 |
MOS | 0.49 | 0.49 | 0.65 | 0.62 | 0.52 | 0.52 | 0.38 | |
农科院 | CMAQ | 0.22 | 0.36 | 0.31 | 0.47 | 0.19 | 0.35 | -0.01 |
MOS | 0.45 | 0.55 | 0.63 | 0.68 | 0.48 | 0.54 | 0.32 | |
铜山区环保局 | CMAQ | 0.17 | 0.33 | 0.26 | 0.38 | 0.17 | 0.25 | 0.13 |
MOS | 0.43 | 0.45 | 0.66 | 0.59 | 0.49 | 0.48 | 0.40 | |
b.均方根误差 | AQI | CO | NO2 | O3 | PM10 | PM2.5 | SO2 | |
黄河新村 | CMAQ | 0.072 | 1.076 | 0.045 | 0.056 | 0.120 | 0.051 | 0.051 |
MOS | 0.063 | 0.800 | 0.024 | 0.037 | 0.080 | 0.048 | 0.030 | |
淮塔 | CMAQ | 0.077 | 1.123 | 0.049 | 0.069 | 0.117 | 0.059 | 0.065 |
MOS | 0.068 | 0.889 | 0.021 | 0.019 | 0.087 | 0.056 | 0.031 | |
铜山兽医院 | CMAQ | 0.077 | 1.264 | 0.049 | 0.053 | 0.124 | 0.054 | 0.050 |
MOS | 0.076 | 0.921 | 0.027 | 0.042 | 0.101 | 0.059 | 0.040 | |
新城区 | CMAQ | 0.068 | 0.898 | 0.041 | 0.047 | 0.128 | 0.041 | 0.035 |
MOS | 0.047 | 0.573 | 0.023 | 0.032 | 0.077 | 0.034 | 0.024 | |
桃园路 | CMAQ | 0.076 | 1.172 | 0.048 | 0.061 | 0.118 | 0.056 | 0.057 |
MOS | 0.070 | 0.889 | 0.024 | 0.032 | 0.093 | 0.056 | 0.035 | |
农科院 | CMAQ | 0.071 | 1.071 | 0.044 | 0.049 | 0.124 | 0.047 | 0.042 |
MOS | 0.062 | 0.748 | 0.025 | 0.037 | 0.088 | 0.047 | 0.032 | |
铜山区环保局 | CMAQ | 0.074 | 1.199 | 0.048 | 0.053 | 0.122 | 0.052 | 0.053 |
MOS | 0.063 | 0.887 | 0.025 | 0.034 | 0.090 | 0.049 | 0.036 |
为了提高CMAQ空气质量模型的预报精度,基于多元线性回归方法,引入了结合WRF气象要素的CMAQ-MOS模型,通过试验发现其优化效果一般,主要原因是多元线性回归方法限制了结合WRF气象要素的CMAQ-MOS模型的发挥。为了提升模型优化效果,选取极端随机树方法和梯度提升回归树方法,对结合WRF气象要素的CMAQ-MOS模型进行改进,通过试验发现,相对梯度提升回归树方法,极端随机树方法的改进效果更为显著。
采用极端随机树方法,并结合WRF预报气象要素的CMAQ-MOS模型在徐州地区进行2016年1-3月的模拟应用试验。结果表明,针对空气质量指数及六大污染物逐时预报,与未经优化的CMAQ模型相比,采用极端随机树方法并结合WRF预报气象要素的CMAQ-MOS模型在相关系数、均方根误差、平均相对误差、平均相对偏差方面都有较为明显的优化效果,NO2及O3两种污染物优化效果最为明显,其原因可能是O3、NO2与MOS模型引入的温度气象要素的相关性较高,这是因为温度的变化往往与太阳辐射的变化相关,而太阳辐射的变化会导致O3光化学反应速率的变化。与此同时,NO2和O3的化学耦合较强,O3浓度的变化会导致NO2浓度也发生变化,因此MOS模型针对NO2及O3两种污染物优化效果最为明显。
综上所述,采用极端随机树方法并结合WRF预报气象要素的CMAQ-MOS模型预报准确度得到较大的提升,未来可以投入实际业务应用。
此外,采用极端随机树方法并结合WRF预报气象要素的CMAQ-MOS模型仍存在有一定的局限性,有待进一步改进,主要包括以下两个方面:(1)本方法优化的仅为点位数据,并不能完成对整个预报场的优化;(2)本方法针对空气质量模型预报较差时优化效果较好,但针对空气质量模型预报较好时优化效果并不明显。
程兴宏, 李德平, 徐祥德等. 2013.北京地区CMAQ源同化模式预报PM10产品订正方法研究//2013中国环境科学学会学术年会浦华环保优秀论文集.昆明: 中国环境科学学会. Cheng X H, Li D P, Xu X D, et al. 2013. Study on PM10 product correction method for CMAQ source assimilation model prediction in Bei-jing region//Proceedings of 2013 Chinese Academy of Environmental Sciences. Kunming: Chinese Society of Environmental Sciences (in Chinese) |
程兴宏, 刁志刚, 胡江凯, 等. 2016. 基于CMAQ模式和自适应偏最小二乘回归法的中国地区PM2.5浓度动力-统计预报方法研究. 环境科学学报, 36(8): 2771–2782. Cheng X H, Diao Z G, Hu J K, et al. 2016. Dynamical-statistical forecasting of PM2.5 concentration based on CMAQ model and adapting partial least square regression method in China. Acta Sci Circumst, 36(8): 2771–2782. (in Chinese) |
许建明, 徐祥德, 刘煜, 等. 2005. CMAQ-MOS区域空气质量统计修正模型预报途径研究. 中国科学D辑:地球科学, 48(S2): 155–172. Xu J M, Xu X D, Liu Y, et al. 2005. Study of statistically correcting model CMAQ-MOS for forecasting regional air quality. Sci China Ser D Earth Sci, 48(S2): 155–172. (in Chinese) |
Boylan J W, Russell A G. 2006. PM and light extinction model performance metrics, goals, and criteria for three-dimensional air quality models. Atmos Environ, 40(26): 4946–4959. DOI:10.1016/j.atmosenv.2005.09.087 |
Carslaw D C, Taylor P J. 2009. Analysis of air pollution data at a mixed source location using boosted regression trees. Atmos Environ, 43(22-23): 3563–3570. DOI:10.1016/j.atmosenv.2009.04.001 |
Chang L S, Cho A, Park H, et al. 2016. Human-model hybrid Korean air quality forecasting system. J Air Waste Manag Assoc, 66(9): 896–911. DOI:10.1080/10962247.2016.1206995 |
Friedman J H. 2001. Greedy function approximation:A gradient boosting machine. Ann Stat, 29(5): 1189–1232. |
Galelli S, Castelletti A. 2013. Assessing the predictive capability of randomized tree-based ensembles in streamflow modelling. Hydrol Earth Syst Sci, 17(7): 2669–2684. DOI:10.5194/hess-17-2669-2013 |
Geurts P, Ernst D, Wehenkel L. 2006. Extremely randomized trees. Mach Learn, 63(1): 3–42. DOI:10.1007/s10994-006-6226-1 |
Gou T Y, Sandu A. 2011. Continuous versus discrete advection adjoints in chemical data assimilation with CMAQ. Atmos Environ, 45(28): 4868–4881. DOI:10.1016/j.atmosenv.2011.06.015 |
Peng Z, Zhang M, Kou X, et al. 2014. A regional carbon data assimilation system and its preliminary evaluation in East Asia. Atmos Chem Phys Discuss, 14(14): 20345–20381. DOI:10.5194/acpd-14-20345-2014 |
Scalzo F, Hamilton R, Asgari S, et al. 2012. Intracranial hypertension prediction using extremely randomized decision trees. Med Eng Phys, 34(8): 1058–1065. DOI:10.1016/j.medengphy.2011.11.010 |
Zubrow A, Chen L, Kotamarthi V R. 2008. EAKF-CMAQ:Introduction and evaluation of a data assimilation for CMAQ based on the ensemble adjustment Kalman filter. J Geophys Res Atmos, 113(D9): D09302. |