中国媒介生物学及控制杂志  2023, Vol. 34 Issue (5): 654-663

扩展功能

文章信息

张梦真, 任周鹏, 范俊甫, 肖建鹏, 张应涛
ZHANG Meng-zhen, REN Zhou-peng, FAN Jun-fu, XIAO Jian-peng, ZHANG Ying-tao
基于多源地理数据的广州市精细尺度登革热传播风险预测
Fine-scale dengue transmission risk prediction based on multi-source geographic data in Guangzhou, China
中国媒介生物学及控制杂志, 2023, 34(5): 654-663
Chin J Vector Biol & Control, 2023, 34(5): 654-663
10.11853/j.issn.1003.8280.2023.05.013

文章历史

收稿日期: 2023-04-06
基于多源地理数据的广州市精细尺度登革热传播风险预测
张梦真1,2 , 任周鹏2 , 范俊甫1 , 肖建鹏3 , 张应涛4     
1 山东理工大学建筑工程与空间信息学院, 山东 淄博 255000;
2 中国科学院地理科学与资源研究所资源与环境信息系统国家重点实验室, 北京 100101;
3 广东省疾病预防控制中心广东省公共卫生研究院, 广东 广州 511430;
4 广东省疾病预防控制中心, 广东 广州 511430
摘要: 目的 开展精细尺度登革热传播风险预测研究,为满足精细化预防和控制的现实需求和疾控部门制定更加精准的登革热疫情应对方案提供参考。方法 收集广州市2017-2019年的登革热病例数据,结合降水、地表温度、人口密度、道路密度、归一化植被指数、医院可达性、公交站点密度和土地利用香农均匀度指数等自然和社会经济数据,采用随机森林模型实现1 km×1 km精细尺度登革热传播风险预测。结果 基于过采样方法的预测模型精度优于欠采样和组合采样,检验受试者工作特征曲线的曲线下面积(AUC)值为0.999,准确率为0.978,精确率为0.999,查全率为0.959,F1分数值为0.979。分析单一因素对登革热预测的重要性程度发现,人口密度的重要性程度远高于其他变量,其均方误差增加量平均值为63.76。医院可达性为第2重要特征变量,平均地表温度在所选变量中重要性程度最低,其均方误差增加量平均值为35.42。广州市登革热传播风险分布与人口区分布一致,高风险区面积占总面积的6.18%,位于高风险区内的风险人口占总人口的39.13%。越秀、荔湾、海珠和天河区4个区均有80.00%以上的人口处于高风险区。结论 广州市登革热传播风险区主要分布于广州市中心城区,以越秀、荔湾和海珠区为中心,向北延伸至白云区中部,向南延伸至番禺和南沙区交界处,向东延伸至黄埔区东部。预测结果中的风险区域与病例分布高度吻合,表明该研究提出的方法能够较为准确描述登革热传播风险地理分布。
关键词: 登革热    传播风险预测    随机森林    重采样    广州市    
Fine-scale dengue transmission risk prediction based on multi-source geographic data in Guangzhou, China
ZHANG Meng-zhen1,2 , REN Zhou-peng2 , FAN Jun-fu1 , XIAO Jian-peng3 , ZHANG Ying-tao4     
1 School of Civil Engineering and Geomatics, Shandong University of Technology, Zibo, Shandong 255000, China;
2 State Key Laboratory of Resources and Environmental Information Systems, Institute of Geographic Sciences and Natural Resources Research, Chinese Academy of Science, Beijing 100101, China;
3 Guangdong Provincial Institute of Public Health, Guangdong Provincial Center for Disease Control and Prevention, Guangzhou, Guangdong 511430, China;
4 Guangdong Provincial Center for Disease Control and Prevention, Guangzhou, Guangdong 511430, China
Abstract: Objective This study predicted the risk of dengue fever transmission on a fine scale, aiming to meet the practical needs of meticulous prevention and control and to provide a reference for relevant departments to formulate more precise response plans against dengue fever. Methods A Random Forest model was constructed to predict the risk of dengue fever transmission at a fine resolution of 1 km×1 km based on the data on dengue fever cases as well as natural and socio-economic factors including precipitation, land surface temperature, population density, road density, the normalized difference vegetation index, hospital accessibility, bus stop density, and the Shannon evenness index of land use in Guangzhou, China from 2017 to 2019. Results Compared with the models based on undersampling or combined sampling, the oversampling-based prediction model had better precision, with the area under the curve (AUC) being 0.999, accuracy being 0.978, precision being 0.999, recall being 0.959, and F1 value being 0.979. The analysis of the importance of single factors in dengue fever prediction revealed that the importance of population density was much higher than those of the other variables, with an average increase in mean squared error of 63.76; hospital accessibility was the second important feature; the average land surface temperature had the lowest importance among the selected variables, with an average increase in mean squared error of 35.42. The distribution of dengue fever transmission risk was consistent with the distribution of populated areas in Guangzhou. The high-risk areas accounted for 6.18% of the total area, and the at-risk populations in the high-risk areas accounted for 39.13% of the total population. More than 80.00% of the population in Yuexiu, Liwan, Haizhu, and Tianhe districts were in the high-risk areas. Conclusions The risk of dengue transmission in Guangzhou was mainly distributed in the central urban areas of Guangzhou, with Yuexiu, Liwan, and Haizhu districts as the center, extending northward to central Baiyun District, southward to the junction of Panyu and Nansha districts, and eastward to eastern Huangpu District. The predicted risk areas were highly consistent with case distributions, indicating that the method proposed in this study can more accurately depict the geographical distribution of dengue transmission risk.
Key words: Dengue fever    Transmission risk prediction    Random forest    Resampling    Guangzhou    

登革热是由登革病毒经伊蚊[埃及伊蚊(Aedes aegypti)、白纹伊蚊(Ae. albopictus)等]传播引起的急性虫媒传染病,具有传播速度快、发病率高等特点[1]。目前,登革热主要流行于热带和亚热带地区[2-6]。据估计全球每年约1亿人感染登革热,风险人口占世界总人口的一半之多[7]。在中国,2011-2015年登革热主要流行于东南沿海地区[8]。其中,2014年广东省登革热病例数最多[9-10]。2017年登革热疫情波及全国26个省(自治区、直辖市);2019年中国大陆登革热报告本地病例和地区数大幅升高,对人群健康造成了严重威胁[11],给当地卫生系统带来了巨大压力[12]。目前登革热无特异治疗方法,虽然有登革热疫苗已获批上市,但效果有限,媒介控制仍是防控登革热疫情的重要手段。

登革热的传播与流行受自然因素和社会经济因素的共同作用。其中,温度主要通过影响登革病毒和蚊虫的生理活性来影响登革热的传播[13],温度过高或过低都会抑制蚊媒的发育。另一方面温度升高会改变人群的穿着,使更多的皮肤裸露在外,加之出汗等原因也会增加蚊虫叮咬机会[14]。降雨可影响传播媒介的种群数量以及生存环境[15]。蚊虫从卵到孵化都生活在水中,潮湿多雨的地方容易孳生蚊虫。适度的降雨能够为媒介蚊虫提供适宜的孳生地,但强降雨也会破坏伊蚊孳生地,从而不利于蚊虫种群发展[16-17]。不同的土地利用类型则可直接影响蚊虫的孳生地状态进而影响登革热的传播风险[18-22]。因此,温度、降雨和土地利用通过影响蚊虫的生态特征进而影响登革热的传播风险[23-25]。人口密度[26]、道路密度、公共交通站[27]和医疗机构的数量[28]同样对登革热的传播产生重要影响。在人口密度较高的地区,人口流动量随之升高[29],感染者快速流动是加速登革热传播的重要因素;较密集的道路和公共交通站(公交车站、地铁站)等基础设施在为中心地区居民的出行提供便利的同时,也增大了登革热传播的空间距离[23, 28]。医疗机构的数量反映了医疗设施在预防和控制登革热方面的能力[27],同样与登革热传播风险密切相关。

在探究登革热传播影响因素的基础上,本研究通过构建相关因素与登革热传播风险的关系预测登革热传播风险。Wang和Nishiura[30]在区县尺度上预测了日本47个县的登革热暴发风险。Mussumeci和Coelho[31]应用长短期记忆网络,结合温度、相对湿度、气压和社交网络数据,在城市尺度下对巴西的790个城市建立了登革热预测模型。但上述研究多以市、区、县为尺度进行分析,难以为制定精准的登革热防控措施提供直接参考[30, 32]。目前,少数研究逐渐扩展到更细尺度(如乡镇级、社区级或格网尺度)层面。如Qi等[33]在对2013年珠江三角洲登革热的研究中,从街道/乡镇尺度分析了导致登革热发病数增加的相关因素。Bouzid等[34]在10 km×10 km尺度上分析了月平均最低气温、月平均相对湿度对墨西哥登革热疫情的影响,预测了登革热的传播风险。然而,现有多数研究的空间尺度依然无法满足登革热精准防控的需求。近年来,少数学者开始关注精细尺度下登革热传播风险研究。陈业滨等[35]在1 km×1 km格网尺度上对广州市主城区登革热不同阶段时空传播的特点进行了研究。Ren等[28]在1 km×1 km格网尺度上,定量分析了城中村、公共交通、道路密度、人口密度、国民生产总值(GDP)和登革热流行之间的空间关系,为城市地区防治登革热流行提供参考。然而,这2项研究的目的并不是预测登革热传播风险。Ong等[36]采用1 km×1 km格网对新加坡登革热传播风险进行了预测和风险分级,较为直观地反映了新加坡登革热疫情的空间分布状况。但该研究未考虑登革热病例在格网尺度上的样本不平衡问题。因此,本文拟在解决登革热病例样本不平衡问题的前提下,在精细空间尺度上对广州市的登革热空间分布进行预测,为风险严重区域优先开展预防工作提供指导。

1 材料与方法 1.1 研究区概况

广州市地处珠江三角洲,位于22°26′N~23°56′N,112°57′E~114°03′E(图 1)。该地区地势呈现出从西南往东北上升的趋势,北部和东北部为山地,南部为沿海冲积平原,土地利用类型丰富。广州市属于亚热带气候,热量充足,各区的年平均气温为21~23 ℃,水资源丰富,平均年降水量达1 800 mm,年降水日数150 d左右[37],气候特点是温暖多雨。同时,广州市具有人口密度大和流动量大等特点。

图 1 本研究的研究区广州市区域位置图 Figure 1 Location map of Guangzhou City, the study area of this study
1.2 实验数据与预处理 1.2.1 登革热病例数据

登革热病例数据来源于广东省疾病预防控制中心。收集2017-2019年广州市本地个案病例数据,包括报告病例的家庭住址和发病时间等信息。采用高德应用程序编程接口(application programming interface,API)对登革热病例数据进行地理编码,其中78例(占总病例数据的2.25%)无法匹配具体位置信息,经优化处理后进行人工地址匹配,处理后共得到3 462个登革热病例点数据。最后将病例点数据汇总到1 km×1 km格网。

1.2.2 降水和地表温度数据

采用国家青藏高原科学数据中心提供的中国1 km分辨率逐月降水量数据集[38]。该数据集基于英国东英格利亚大学气候研究所(climatic research unit,CRU)发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方法生成。本文采用谷歌地球引擎(Google earth engine,GEE)获取中分辨率成像光谱仪(moderate-resolution imaging spectroradiometer,MODIS)MOD11A2地表温度数据,并将单位转换为摄氏度(℃)[39]。本文选取2017-2019年逐月降水数据和逐月地表温度数据,并计算每个格网单元的平均降水量和平均地表温度。

1.2.3 土地利用数据

土地利用数据来源于北京大学中国主要城市景观数据集(PKU Urbanscape Essential Dataset)[40](空间分辨率为2.4 m)。该数据集基于资源3号卫星、高分6号卫星、谷歌地球卫星影像等数据生成,于2020年完成。依据《城乡用地分类与规划建设用地标准》(GB 50137-2011),将城市功能区划分为林地、水体、绿地、交通用地等12个景观要素类别(表 1)。本研究采用土地利用香农均匀度指数(Shannon’s evenness index,SHEI)反映各土地利用类型的分布均匀程度。其计算公式如式(1)所示:

(1)
表 1 土地利用类型 Table 1 Land use type

式中,Pi表示栅格单元中第i个土地利用类型占栅格总面积的比例;m表示景观中土地利用类型的总数;0≤SHEI≤1。SHEI值越大表示不同土地利用类型所占面积比越接近,均匀程度越高。SHEI=0表明土地利用类型仅由一种土地利用类型组成,无多样性;SHEI=1表明各土地利用类型均匀分布,有最大多样性。即SHEI值越小则土地利用类型中可能存在占比较大的土地利用类型,SHEI值越接近于1,表明土地利用类型分布越均匀,不存在明显的优势类型。

1.2.4 归一化植被指数(normalized difference vegetation index,NDVI)数据

NDVI常被用于反映植被生理状况、绿色生物量及植被生产力等。基于GEE下载2017-2019年MODIS NDVI遥感数据(空间分辨率为500 m),并利用GEE平台计算年平均NDVI,然后利用ArcGIS 10.7软件计算得到1 km×1 km格网的平均NDVI。其中NDVI的计算公式如式(2)所示:

(2)

式中,NIR为遥感影像近红外波段的反射值,R为遥感影像红光波段的反射值。

1.2.5 医院可达性

首先爬取高德地图兴趣点(point of interest,POI)数据得到医院(只包含综合类医院和传染病医院,其他专科医院因与登革热的治疗和防治无关,故未考虑在内)位置信息,再使用高德地图的路径规划服务功能计算各格网到医院通行时间(按照驾车方式),以此度量医院可达性。为保证结果的准确性,本研究在同一时间段内多次实验,取其平均值作为最终的医院可达性数值。医院可达性的计算时间为2022年10月。

1.2.6 公交站点密度、道路密度和人口密度数据

公交站点位置通过高德API爬取POI数据得到。爬取时间为2022年10月。本文统计了每个格网单元的公交站点数量作为公交站点密度指标。2020年道路数据来自开放街道地图(OpenStreetMap,OSM)(https://www.openstreetmap.org/),包括道路名称、类型、功能、方向、长度等基本信息。道路密度定义为单位面积的道路长度。人口数据采用WorldPop(https://www.worldpop.org/)提供的2020年总人口数据,空间分辨率为100 m。人口密度定义为1 km格网单元内的人口总数。

1.3 研究方法 1.3.1 随机森林

本研究基于随机森林(Random Forest,RF)模型进行1 km×1 km格网登革热传播风险预测。随机森林是一种使用决策树集合解决分类和回归问题的集成机器学习方法[41],其原理是组合多个二元决策树,这些决策树使用来自学习样本的多个自举样本构建,并在每个决策树的节点上对预测变量的一个小随机子集进行变量选择[42]。随机森林结合了多个决策树的结果,以使用引导方法确定最终预测结果[41],预测的风险通过对所有决策树的预测求平均值获得。

随机森林模型构建需考虑2个重要参数ntree和mtry。ntree是指用于构建随机森林模型的树的数量,主要控制模型的复杂度。寻找最佳ntree的常见方法是使用训练集构建具有不同决策树数量的随机森林模型,从小到大增加决策树个数,直到性能达到稳定状态。mtry是指每个决策树在随机选取特征时考虑的特征数量。mtry决定了每个决策树的多样性,选择合适的mtry可以使得每个决策树的特征选择更具随机性,减小过拟合的风险。如果mtry太小,可能会导致模型欠拟合,准确度降低。本文在多次实验后,绘制错误率与不同决策树的关系曲线,得到错误率最小且达到稳定状态时对应的最小决策树数量。因此将ntree设置为1 000,mtry参数设置为3。

本文使用Random Forest R 4.1.1软件包实现随机森林方法。

1.3.2 样本不平衡问题及处理方法

将病例数据统计到1 km×1 km格网后,发现无病例格网共有7 029个,有病例格网仅有771个,无病例的格网数量远大于有病例的格网数量。因此,数据存在样本分布不平衡问题。已有研究表明,样本数据不平衡问题会降低随机森林模型的预测精度[42]。因此,本文分别采用欠采样、过采样和组合采样[43]3种重采样方法对病例数据进行处理,并将基于3种方法的预测结果与原始数据建模结果进行比较,依据比较结果选择最优采样方法。过采样是通过复制一批少数类,使少数类的数量增加,达到数据平衡的目的。欠采样是通过去除多数类中的部分样本,使得多数类的数量减少,达到正反例数目接近的目的。组合采样则是通过增加少数类,减少多数类的方式来达到样本平衡。

1.3.3 模型验证与评估

本文采用交叉验证法评估预测模型的精度:随机选择75%样本数据用于模型建立,剩余25%用于验证。为避免随机误差对训练样本与验证样本选择结果的影响,重复运行随机森林模型30次,然后取其平均值作为最终运算结果。

本文选取了准确率(Accuracy)、精确率(Precision)、查全率(Recall)、F1分数、受试者工作特征曲线(receiver operating characteristic curve,ROC曲线)的曲线下面积(area under curve,AUC)指标评价随机森林模型的预测精度,通过混淆矩阵计算得出。混淆矩阵包括4种情况:真正(true positive,TP)、真负(true negative,TN)、假正(false positive,FP)和假负(false negative,FN)。准确率:预测正确的样本占总样本的比例。精确度反映了登革热预测的精度,精确度越高,模型预测的正确率就越高。查全率反映了模型的查全率,查全率越高,模型预测正确的格网越多。F1分数将精确度和查全率这2个指标都考虑在内,F1分数值越高,模型综合性能越好。ROC曲线的横轴表示模型的假阳性率(false positive rate,FPR),纵轴表示模型的真阳性率(true positive rate,TPR)。AUC的值介于0和1之间,AUC值越大表示模型预测精度越高。指标的计算方法如下所示:

(3)
(4)
(5)
(6)

式中,TP为真正,TN为真负,FP为假正,FN为假负。

1.3.4 预测变量选择

为避免所选变量之间存在的较强相关性导致预测模型产生多重共线性问题,本文采用以下方法进行变量选择:首先,比较各单变量预测模型检验AUC指标,选择AUC值更高的变量作为多变量预测模型的候选变量。其次,计算Pearson相关系数以确定变量之间的潜在共线性。如果某个预测变量具有较高的AUC值,但与其他变量有很强的相关性,则同时考虑其预测能力和重要性来选择最终预测变量组合。如果预测变量之间Pearson相关系数 > 0.75[44],则认为预测模型存在严重的共线性。

2 结果 2.1 变量筛选

变量之间的相关系数见图 2,图中左下部分的扇形面积和右上部分的圆形面积均代表各影响因素之间的相关性大小。其中,人口密度和公交站点数量的Pearson相关系数最大,为0.69,呈正相关关系。医院可达性与人口密度之间的相关系数最小,为-0.54,呈负相关关系。由此可见,变量之间的Pearson相关系数绝对值均 < 0.75。单变量预测模型的检验AUC结果见图 3,人口密度检验的AUC值最大,为0.896。平均降雨量检验AUC值为0.733,是单变量预测中检验AUC值最小的变量。单变量预测模型检验AUC值均 > 0.7。综合考虑单变量预测模型检验AUC值和变量之间的相关性后,最终选取平均降雨量、平均地表温度、人口密度、道路密度、NDVI、医院可达性、公交站点密度和SHEI等8个变量用于构建登革热传播风险预测模型。

注:NDVI归一化植被指数;Hosp医院可达性;Pop人口密度;Busstop公交站点密度;Road道路密度;SHEI香农均匀度指数;Lst平均地表温度;Rain平均降雨量。 图 2 基于多元地理数据的广州市登革热传播风险预测模型各变量之间的Pearson相关系数 Figure 2 Pearson correlation coefficients between the variables of dengue transmission risk prediction model based on multi-source geographic data in Guangzhou, Guangdong Province, China
注:Pop人口密度;Busstop公交站点密度;Hosp医院可达性;NDVI归一化植被指数;SHEI香农均匀度指数;Road道路密度;Lst平均地表温度;Rain平均降雨量。 图 3 基于多元地理数据的广州市登革热传播风险预测单变量预测模型检验曲线下面积值 Figure 3 Area under the curve of univariable model for dengue transmission risk prediction based on multi-source geographic data in Guangzhou, Guangdong Province, China
2.2 样本数据处理方法评估

为排除实验结果的偶然性,在保证实验参数一致的情况下,分别将4种方法处理后的数据用于预测模型,每个模型均运行30次,以各指标的平均值作为最终的模型评价结果。见表 2

表 2 基于多元地理数据的广州市登革热传播风险预测模型采样方法结果对比 Table 2 Comparison of results using different sampling methods for dengue transmission risk prediction model based on multi-source geographic data in Guangzhou, Guangdong Province, China

由实验结果可知,未经过处理的样本得到的AUC值为0.944,准确率为0.936,但在精确率、查全率和F1分数值较低,模型预测的正确率和综合性能偏低,效果相对较差。欠采样在精确率、查全率和F1分数值与未处理样本相比较大,但精确率和AUC的值在4种方法中最低。组合采样的所有评价指标相比于未处理和欠采样的所有指标均大。过采样的各评价指标在4种方法中值最大,因此本文最终选择过采样后的样本用于登革热空间传播的预测,本文也将此结果作为随机森林建模的最终检验结果。

2.3 各影响因素对登革热传播风险预测的重要程度

通过计算变量的重要性分数来度量变量对登革热传播风险预测的重要程度。本文选取均方误差增加量(increase in mean square error,%IncMSE)度量变量的重要性。各变量的重要性排序见图 4。人口密度的%IncMSE平均值为63.76,远高于其他变量。医院可达性是影响登革热传播风险的第2个重要变量,该变量的%IncMSE平均值为54.40。其次是公交站点密度和SHEI的%IncMSE平均值> 40。平均降水量、道路密度、NDVI和平均地表温度等4项变量的%IncMSE平均值均 > 30,最低为平均地表温度(35.42)。

注:Lst平均地表温度;NDVI归一化植被指数;Road道路密度;Rain平均降雨量;SHEI香农均匀度指数;Busstop公交站点密度;Hosp医院可达性;Pop人口密度。 图 4 各变量对登革热传播风险预测的重要性排序 Figure 4 Ranking of importance of each variable in the risk predictien of dengue transmissiont
2.4 登革热传播风险地理分布预测

本研究将0.75≤登革热发生概率≤1.00的区域定义为高风险区,0.50≤登革热发生概率 < 0.75为中高风险区,0.25≤登革热发生概率 < 0.50为中低风险区,0≤登革热发生概率 < 0.25为低风险区。根据预测结果可知:广州市的登革热疫情主要呈聚集分布:城市中心区大面积聚集与城郊县区小面积聚集。越秀、荔湾、天河和海珠区4个区的风险最高,其次,黄埔、番禺和白云区存在大面积的较高风险区域,增城区的东部、从化区南部和南沙区的西北部存在小面积中高风险的区域(图 5A)。由分乡镇统计的登革热传播风险的预测平均值(图 5B)可以发现,高风险区主要分布于城市中心区域,以越秀、荔湾和海珠区为主,共包含68个乡镇/街道,面积为239.85 km2。中高风险区主要分布于白云、番禺和黄埔区的部分街道,包含27个乡镇/街道,面积为289.88 km2。中低风险区域分布于白云区北部、黄埔与增城区交界地带和番禺区南部,共有23个乡镇/街道,面积为579.60 km2。低风险区域共包含53个乡镇/街道,总面积为6 289.53 km2

图 5 广州市登革热疫情传播风险预测结果 Figure 5 Prediction results of dengue epidemic transmission risk of Guangzhou

虽然登革热高、中高风险区的面积仅占总面积的10.97%,风险人口却占广州市总人口的53.86%(图 6)。其中,高传播风险区的面积为457.08 km2占广州市总面积的6.18%,处于风险区的人口为642.46万人,占到总人口的39.13%。中高风险区的面积占广州市总面积的4.79%,处于风险区的人口占总人口的14.73%。相较于高、中高风险区,中低风险区和低风险区的面积较大,风险人口数量较小。中低传播风险区的面积为697.04 km2,占广州市总面积的9.42%,处于风险区的人口为343.76万人,占总人口的20.94%。低传播风险区的面积最多,为2 887.16 km2,占广州市总面积的79.60%,处于风险区的人口为413.73万人,占总人口的25.20%。

注:人口数据来自于WorldPop。 图 6 广州市登革热不同传播风险下的面积和人口统计 Figure 6 Area and population statistics under different dengue transmission risks of Guangzhou

登革热疫情传播风险在不同区县存在明显差异(图 7)。越秀、荔湾、海珠和天河区的高风险区面积占比较大,越秀区有95.33%的地区处于高风险区域,荔湾区有87.80%的地区为高风险区,海珠和天河区的高风险区分别占所在区面积的62.31%和60.94%。与上述情况不同的是,从化、增城和南沙区分别有97.66%、93.17%和86.18%的区域处于低风险区域,从化和增城区的高风险区仅占该区域的0.15%、0.19%,南沙区的高风险区为0。从风险人口数方面来看,越秀、荔湾、海珠和天河区的情况与高风险区面积占比情况基本一致。其中,越秀区的情况依旧最为突出,占该区总人口的98.60%,荔湾区有92.51%的人口处于高风险区域中,海珠和天河区处于高风险区的人口比面积所占的比重更大,分别占该区人口的82.60%和80.60%。白云、黄埔和番禺区高风险区域的面积 < 20%,但处于高风险区域的人口分别占区总人口的47.97%、20.68%和13.14%。

图 7 基于格网尺度预测结果的广州市不同区县登革热不同传播风险下的面积、人口占比 Figure 7 Area and population share of different districts and counties in Guangzhou under different dengue transmission risks based on grid-scale prediction results
3 讨论

本文收集了广州市2017-2019年的登革热病例资料,结合降水、地表温度、人口密度、道路密度、NDVI、医院可达性、公交站点密度和SHEI等自然与社会经济数据,采用过采样方法对病例数据进行处理,有效解决了样本不平衡的问题;基于随机森林模型预测1 km×1 km格网广州市的登革热传播风险。

本文分别采用欠采样、过采样和组合采样3种重采样方法进行处理,并将基于3种方法的预测结果与原始数据建模结果进行比较,最终选取过采样处理后的数据用于随机森林模型预测。随机森林模型的AUC值、准确率、精确率、查全率和F1值,相比于原始数据建模结果分别提升了4.23%、45.41%、22.41%、35.35%和5.53%。综合考虑单变量预测模型检验AUC值和变量之间的相关性后,共选取8个变量用于构建模型。从各变量的重要性来看,人口密度的重要性远高于其他变量,其%IncMSE平均值为63.76,表明人口密度是预测登革热传播风险的最关键因素,人口密度的变化将引起预测结果的明显变化。医院可达性为第2个重要变量,平均地表温度在所选变量中重要性最低,其%IncMSE平均值为35.42。医院可达性对于登革热的传播的影响呈非线性关系,这可能是由于距离医院越近,健康人群和感染人群的接触机会及通过蚊媒传播感染的概率也会加大。因此,医院可达性对登革热传播的贡献相对较高,仅次于人口密度。平均降水量、道路密度、NDVI和平均地表温度等4项变量的%IncMSE平均值虽然比变量低,但均 > 30,表明这些变量也会对登革热的传播风险预测结果产生一定的影响。

广州市登革热疫情空间聚集特征十分明显。越秀、荔湾、海珠和天河区4个区的高风险区面积均占区域总面积的60.00%以上,风险人口占比为80.00%以上。广州地区疫情主要聚集于越秀、荔湾、海珠和天河区等中心城区,这与桑少伟和刘起勇[45]对广东省登革热疫情分析得出的结论一致,推测与当地居民的生活方式及环境因素密切相关。广州市居民爱好种植富贵竹、万年青等水生植物,为蚊虫提供了良好的孳生环境。建议加强对上述4个区的登革热防控力度。白云、黄埔和番禺区高风险区的面积虽不多(< 20.00%),但处于高风险区的人口占比高于面积占比。白云、黄埔和番禺区也需针对登革热高风险区重点防控。

以往的研究多以区县、街道/乡镇为统计单元,格网尺度登革热传播风险预测研究还很少。本文利用随机森林模型预测1 km×1 km格网尺度广州市登革热传播风险,估算了广州市登革热疫情的风险区和风险人口,为广州市疾病预防控制部门制定更加精准的登革热防控措施提供理论与方法支撑。然而,本研究仅进行了登革热传播风险地理分布的预测,未预测不同时间点的登革热传播风险,因此无法揭示精细尺度上广州市登革热传播风险的演变特征。后期研究将在现在研究的基础上进一步预测多时期登革热传播风险地理分布。此外,本研究仅考虑广州市登革热本地病例,忽略了境外输入病例在登革热传播中的作用。未来建模需要考虑境外输入病例与本地病例的交互作用,以提升登革热传播风险预测精度。

利益冲突  无

参考文献
[1]
陈业滨, 李卫红, 华家敏, 等. 基于机器学习的登革热时空扩散预测模型对比分析[J]. 地理信息世界, 2016, 23(6): 8-14.
Chen YB, Li WH, Hua JM, et al. Comparing of spatio-temporal diffusion prediction models of dengue fevers based on machine learning[J]. Geomat World, 2016, 23(6): 8-14. DOI:10.3969/j.issn.1672-1586.2016.06.002
[2]
Bravo L, Roque VG, Brett J, et al. Epidemiology of dengue disease in the Philippines (2000-2011): A systematic literature review[J]. PLoS Negl Trop Dis, 2014, 8(11): e3027. DOI:10.1371/journal.pntd.0003027
[3]
Cheng J, Bambrick H, Yakob L, et al. Heatwaves and dengue outbreaks in Hanoi, Vietnam: New evidence on early warning[J]. PLoS Negl Trop Dis, 2020, 14(1): e0007997. DOI:10.1371/journal.pntd.0007997
[4]
Guo CC, Zhou ZX, Wen ZH, et al. Global epidemiology of dengue outbreaks in 1990-2015: A systematic review and meta-analysis[J]. Front Cell Infect Microbiol, 2017, 7: 317. DOI:10.3389/fcimb.2017.00317
[5]
Mone FH, Hossain S, Hasan MT, et al. Sustainable actions needed to mitigate dengue outbreak in Bangladesh[J]. Lancet Infect Dis, 2019, 19(11): 1166-1167. DOI:10.1016/S1473-3099(19)30541-9
[6]
Xu L, Stige LC, Chan KS, et al. Climate variation drives dengue dynamics[J]. Proc Natl Acad Sci USA, 2017, 114(1): 113-118. DOI:10.1073/pnas.1618558114
[7]
Messina JP, Brady OJ, Golding N, et al. The current and future global distribution and population at risk of dengue[J]. Nat Microbiol, 2019, 4(9): 1508-1515. DOI:10.1038/s41564-019-0476-8
[8]
廖志武, 王善青. 我国2000-2019年主要热带病的流行与防治概况[J]. 中国热带医学, 2020, 20(3): 193-201.
Liao ZW, Wang SQ. Prevalence and prevention of major tropical diseases in China, 2000-2019[J]. China Trop Med, 2020, 20(3): 193-201. DOI:10.13604/j.cnki.46-1064/r.2020.03.01
[9]
Lai SJ, Huang ZJ, Zhou H, et al. The changing epidemiology of dengue in China, 1990-2014: A descriptive analysis of 25 years of nationwide surveillance data[J]. BMC Med, 2015, 13: 100. DOI:10.1186/s12916-015-0336-1
[10]
Zhao H, Zhang FC, Zhu Q, et al. Epidemiological and virological characterizations of the 2014 dengue outbreak in Guangzhou, China[J]. PLoS One, 2016, 11(6): e0156548. DOI:10.1371/journal.pone.0156548
[11]
刘起勇. 我国登革热流行新趋势、防控挑战及策略分析[J]. 中国媒介生物学及控制杂志, 2020, 31(1): 1-6.
Liu QY. Dengue fever in China: New epidemical trend, challenges and strategies for prevention and control[J]. Chin J Vector Biol Control, 2020, 31(1): 1-6. DOI:10.11853/j.issn.1003.8280.2020.01.001
[12]
Shepard DS, Undurraga EA, Halasa YA, et al. The global economic burden of dengue: A systematic analysis[J]. Lancet Infect Dis, 2016, 16(8): 935-941. DOI:10.1016/S1473-3099(16)00146-8
[13]
Morin CW, Comrie AC, Ernst K. Climate and dengue transmission: Evidence and implications[J]. Environ Health Perspect, 2013, 121(11/12): 1264-1272. DOI:10.1289/ehp.1306556
[14]
Mahmood S, Irshad A, Nasir JM, et al. Spatiotemporal analysis of dengue outbreaks in Samanabad town, Lahore metropolitan area, using geospatial techniques[J]. Environ Monit Assess, 2019, 191(2): 55. DOI:10.1007/s10661-018-7162-9
[15]
Morgan J, Strode C, Salcedo-Sora JE. Climatic and socio-economic factors supporting the co-circulation of dengue, Zika and chikungunya in three different ecosystems in Colombia[J]. PLoS Negl Trop Dis, 2021, 15(3): e0009259. DOI:10.1371/journal.pntd.0009259
[16]
Cheng J, Bambrick H, Yakob L, et al. Extreme weather conditions and dengue outbreak in Guangdong, China: Spatial heterogeneity based on climate variability[J]. Environ Res, 2021, 196: 110900. DOI:10.1016/j.envres.2021.110900
[17]
李传玺, 刘起勇, 马伟. 广州市极端降水事件对不同特征人群登革热发病的影响[J]. 山东大学学报: 医学版, 2021, 59(12): 151-157.
Li CX, Liu QY, Ma W. Effects of extreme precipitation events on the incidence of dengue fever in different characteristic populations in Guangzhou[J]. J Shandong Univ: Health Sci, 2021, 59(12): 151-157. DOI:10.6040/j.issn.1671-7554.0.2021.1013
[18]
Akter R, Hu WB, Gatton M, et al. Climate variability, socio-ecological factors and dengue transmission in tropical Queensland, Australia: A Bayesian spatial analysis[J]. Environ Res, 2021, 195: 110285. DOI:10.1016/j.envres.2020.110285
[19]
Li CL, Wu XX, Sheridan S, et al. Interaction of climate and socio-ecological environment drives the dengue outbreak in epidemic region of China[J]. PLoS Negl Trop Dis, 2021, 15(10): e0009761. DOI:10.1371/journal.pntd.0009761
[20]
Mudele O, Frery AC, Zanandrez LFR, et al. Dengue vector population forecasting using multisource earth observation products and recurrent neural networks[J]. IEEE J Sel Top Appl Earth Obs Remote Sens, 2021, 99: 4390-4404. DOI:10.1109/JSTARS.2021.3073351
[21]
Ogashawara I, Li L, Moreno-Madrinan MJ. Spatial-temporal assessment of environmental factors related to dengue outbreaks in São Paulo, Brazil[J]. Geohealth, 2019, 3(8): 202-217. DOI:10.1029/2019GH000186
[22]
Pineda-Cortel MB, Clemente B, Nga PT. Modeling and predicting dengue fever cases in key regions of the Philippines using remote sensing data[J]. Asian Pac J Trop Med, 2019, 12(2): 60-66. DOI:10.4103/1995-7645.250838
[23]
Francisco ME, Carvajal TM, Ryo M, et al. Dengue disease dynamics are modulated by the combined influences of precipitation and landscape: A machine learning approach[J]. Sci Total Environ, 2021, 792: 148406. DOI:10.1016/j.scitotenv.2021.148406
[24]
Xavier LL, Honório NA, Pessanha JFM, et al. Analysis of climate factors and dengue incidence in the metropolitan region of Rio de Janeiro, Brazil[J]. PLoS One, 2021, 16(5): e0251403. DOI:10.1371/journal.pone.0251403
[25]
敖琳珺, 张昱勤, 许欢, 等. 评估气象对广东省登革热时空预测模型的贡献[J]. 现代预防医学, 2020, 47(16): 2899-2903.
Ao LJ, Zhang YQ, Xu H, et al. Assessing the contribution of meteorology to the spatio-temporal prediction model of dengue in Guangdong province[J]. Mod Prev Med, 2020, 47(16): 2899-2903.
[26]
Watts MJ, Kotsila P, Mortyn PG, et al. Influence of socio-economic, demographic and climate factors on the regional distribution of dengue in the United States and Mexico[J]. Int J Health Geogr, 2020, 19(1): 44. DOI:10.1186/s12942-020-00241-1
[27]
Li CL, Wu XX, Wang XF, et al. Ecological environment and socioeconomic factors drive long-term transmission and extreme outbreak of dengue fever in epidemic region of China[J]. J Cleaner Prod, 2021, 279: 123870. DOI:10.1016/j.jclepro.2020.123870
[28]
Ren HY, Wu W, Li TG, et al. Urban villages as transfer stations for dengue fever epidemic: A case study in the Guangzhou, China[J]. PLoS Negl Trop Dis, 2019, 13(4): e0007350. DOI:10.1371/journal.pntd.0007350
[29]
Wu PC, Lay JG, Guo HR, et al. Higher temperature and urbanization affect the spatial patterns of dengue fever transmission in subtropical Taiwan[J]. Sci Total Environ, 2009, 407(7): 2224-2233. DOI:10.1016/j.scitotenv.2008.11.034
[30]
Wang X, Nishiura H. The epidemic risk of dengue fever in Japan: Climate change and seasonality[J]. Can J Infect Dis Med Microbiol, 2021, 2021: 6699788. DOI:10.1155/2021/6699788
[31]
Mussumeci E, Coelho FC. Large-scale multivariate forecasting models for Dengue-LSTM versus random forest regression[J]. Spat Spatiotemporal Epidemiol, 2020, 35: 100372. DOI:10.1016/j.sste.2020.100372
[32]
刘仰青, 柳小青, 宋文涛, 等. 江西省南昌市2011-2019年登革热流行病学特征分析[J]. 现代预防医学, 2021, 48(12): 2135-2138, 2154.
Liu YQ, Liu XQ, Song WT, et al. Epidemiological analysis of dengue fever in Nanchang city, Jiangxi province from 2011 to 2019[J]. Mod Prev Med, 2021, 48(12): 2135-2138, 2154.
[33]
Qi XP, Wang Y, Li Y, et al. The effects of socioeconomic and environmental factors on the incidence of dengue fever in the Pearl River Delta, China, 2013[J]. PLoS Negl Trop Dis, 2015, 9(10): e0004159. DOI:10.1371/journal.pntd.0004159
[34]
Bouzid M, Colón-González FJ, Lung T, et al. Climate change and the emergence of vector-borne diseases in Europe: Case study of dengue fever[J]. BMC Public Health, 2014, 14: 781. DOI:10.1186/1471-2458-14-781
[35]
陈业滨, 李卫红, 黄玉兴, 等. 广州市登革热时空传播特征及影响因素[J]. 热带地理, 2016, 36(5): 767-775.
Chen YB, Li WH, Huang YX, et al. Spatio-temporal spreading features and the influence factors of dengue fever in downtown Guangzhou[J]. Trop Geogr, 2016, 36(5): 767-775. DOI:10.13284/j.cnki.rddl.002881
[36]
Ong J, Liu X, Rajarethinam J, et al. Mapping dengue risk in Singapore using Random Forest[J]. PLoS Negl Trop Dis, 2018, 12(6): e0006587. DOI:10.1371/journal.pntd.0006587
[37]
中共广州市委宣传部. 广州概述[EB/OL]. [2023-02-10]. http://www.guangzhou.gov.cn/156080.shtml.
Guangzhou Overview[EB/OL]. [2023-02-10]. http://www.guangzhou.gov.cn/156080.shtml. (in Chinese)
[38]
Peng SZ, Ding YX, Liu WZ, et al. 1 km monthly temperature and precipitation dataset for China from 1901 to 2017[J]. Earth Syst Sci Data, 2019, 11(4): 1931-1946. DOI:10.5194/essd-11-1931-2019
[39]
USGS. MOD11A2 v006[EB/OL]. (2019-07-26) [2023-02-10]. https://lpdaac.usgs.gov/products/mod11a2v006/.
[40]
Du SJ, Du SH, Liu B, et al. Large-scale urban functional zone mapping by integrating remote sensing images and open social data[J]. GISci Remote Sens, 2020, 57(3): 411-430. DOI:10.1080/15481603.2020.1724707
[41]
Breiman L. Random Forests[J]. Mach Learn, 2001, 45(1): 5-32. DOI:10.1023/A:1010933404324
[42]
Ren ZP, Zhu J, Gao YF, et al. Maternal exposure to ambient PM10 during pregnancy increases the risk of congenital heart defects: Evidence from machine learning models[J]. Sci Total Environ, 2018, 630: 1-10. DOI:10.1016/j.scitotenv.2018.02.181
[43]
Lunardon N, Menardi G, Torelli N. ROSE: A package for binary imbalanced learning[J]. R J, 2014, 6(1): 79-89. DOI:10.32614/RJ-2014-008
[44]
Ren ZP, Wang DQ, Ma AM, et al. Predicting malaria vector distribution under climate change scenarios in China: Challenges for malaria elimination[J]. Sci Rep, 2016, 6: 20604. DOI:10.1038/srep20604
[45]
桑少伟, 刘起勇. 广东省2003-2012年登革热本地病例时空分析[J]. 中国媒介生物学及控制杂志, 2015, 26(5): 451-453.
Sang SW, Liu QY. Spatial and temporal analysis of indigenous dengue cases in Guangdong province during 2003-2012[J]. Chin J Vector Biol Control, 2015, 26(5): 451-453. DOI:10.11853/j.issn.1003.4692.2015.05.005