扩展功能
文章信息
- 李之超, 董金玮, 刘起勇
- LI Zhi-chao, DONG Jin-wei, LIU Qi-yong
- 地理空间大数据与人工智能在城市登革热驱动因素识别与风险预测中的应用
- Application of geospatial big data and artificial intelligence in driving factor identification and risk prediction for urban dengue fever
- 中国媒介生物学及控制杂志, 2022, 33(3): 321-325
- Chin J Vector Biol & Control, 2022, 33(3): 321-325
- 10.11853/j.issn.1003.8280.2022.03.001
-
文章历史
- 收稿日期: 2022-05-13
2 中国疾病预防控制中心传染病预防控制所, 传染病预防控制国家重点实验室, 北京 102206
2 State Key Laboratory of Infectious Disease Prevention and Control, National Institute for Communicable Disease Control and Prevention, Chinese Center for Disease Control and Prevention, Beijing 102206, China
登革热作为全球最严重的蚊媒传染病,主要发生在全球热带、亚热带、甚至暖温带的城市化、半城市化地区[1]。全球约100多个国家受到登革热疫情的影响,每年约有3.9亿人口感染登革病毒,其中约9 600万例出现临床症状[1]。我国大陆的登革热主要为输入引起的本地传播,截至2019年,已经有广东、云南、浙江、福建、海南等15个省(自治区、直辖市)出现本地病例,带来严重的公共卫生风险[2]。新型冠状病毒肺炎(新冠肺炎)疫情以来,我国登革热病例数显著降低。然而,随着新冠肺炎疫情缓和,国内外交流增加,我国仍有暴发登革热的风险。随着全球气候变化、城市化、城市人口增长,全球更多城市化地区变得适宜登革热媒介伊蚊的栖息与繁殖,导致登革热防控需求变得更加迫切[3-5]。近年,登革热防控仍然是国内外的热点话题[5],联合国将控制登革热列入2030年全球可持续发展目标中。《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》明确提出全面推进健康中国建设的任务,强调“加快推进疾病预防控制体系改革,强化监测预警、风险评估、流行病学调查、检验检测、应急处置等职能”。实现城市登革热的精准防控不仅依赖登革热驱动因素的准确刻画,也需要结合驱动因素构建高精度的预测模型。地理空间大数据的发展满足不同时空尺度下登革热驱动因素的识别[6]。此外,人工智能算法的发展,尤其是多种深度学习网络的出现,能够深入地挖掘登革热病例数据与驱动因素数据之间的线性、非线性关系,为登革热传播风险的预测提供了多种技术方法[7-8]。在此背景下,本文从地理空间大数据在城市登革热驱动因素识别和人工智能方法在登革热风险预测两方面调研国内外研究现状,旨在助力未来城市登革热传播机制和风险预测研究。
1 地理空间大数据在登革热关键驱动因素识别中的应用前期研究表明,多类因素影响城市登革热的发生与流行,包括城市土地利用、气象环境条件、人口日常流动等。城市土地利用主要反映登革热媒介伊蚊的孳生地、栖息地以及人口等因素的空间分布差异,间接地反映了人与蚊媒的接触概率[9-11]。气象环境因素可在较短时间内影响蚊媒的繁殖和发育,进而影响了媒介蚊虫的数量[12-13]。此外,由于登革热媒介伊蚊成蚊的飞行距离有限,城市人口流动成为病毒远距离传播的驱动因素。病毒感染者将病毒携带至其他地区,使得联系紧密的区域之间表现出疫情关联[14-15],例如我国广州和佛山市两地的登革热疫情存在密切关联[16]。地理空间大数据是包含地球表面上特定位置空间信息的数据,来源众多(如遥感对地观测、物联网与自发地理信息传感器等),已在登革热驱动因素识别中发挥重要作用。
1.1 城市土地利用城市土地类型及其构成决定了登革热媒介伊蚊栖息地、孳生地的分布和数量,决定了媒介伊蚊的生态载量、媒介能量,也影响人群分布、流动,人群暴露及蚊媒接触概率。建筑物、建筑物周围的景观类型(如树木、草地、水体等)以及建筑物功能(如居民区、城中村、商业区、工业区、建筑工地等),对登革热传播的作用机制有一定的差异[11]。基于开源的地理信息数据是识别上述因素的方法之一,例如公开地图(open street map,OSM)包含了多种城市土地利用信息。然而开源地理信息数据常常出现信息错误或更新不及时的问题。此外,基于超高空间分辨率卫星遥感图像或无人机、飞机航拍图像,组合应用当前人工智能领域的多种深度学习算法,如迁移学习、主动学习等,可实现少样本且高精度的遥感图像分割,高效地提取城市土地利用类型。目前,计算机视觉领域的多种卷积神经网络(convolutional neural networks,CNN)被用于超高空间分辨率的遥感图像分割(即图像的像素级分类),而高精度的图像分割对训练样本的数量和质量有较高要求。在CNN模型训练中引入迁移学习和主动学习能够有效地降低模型对样本的依赖性。简单来说,迁移学习是基于当前遥感领域公开的城市土地利用样本数据集预训练CNN模型,将模型从公开样本库中学习到的知识应用到目标数据集,为基于目标数据的土地利用类型识别提供信息基础[17]。主动学习是基于CNN图像分割结果为模型的进一步训练选择最具信息量的样本,以最少的样本尽最大可能地提高模型性能[18]。组合迁移学习、CNN和主动学习,以预训练的模型作为信息基础,通过主动学习算法从未标注的图像数据中选择最具信息量的数据进行人工标注,为CNN模型的训练提供最适宜的样本数据,是实现少样本且高精度城市土地利用识别的有效方法。最后,引入评价指标实现图像分割模型性能的验证。在图像分割的基础上,基于多个地图平台的海量城市兴趣点(point of interest,POI)数据,对数据进行重分类,并对位于建筑物内和建筑物周围的POI赋值反距离权重,计算不同POI类型的加权频数密度比例实现建筑物类型的进一步划分[19-20]。
1.2 城市气候环境适宜的气候是媒介伊蚊和登革病毒生存的必要条件。多种气象环境因素与登革热时空传播有关,如气温、降雨量、降雨频次、相对湿度、风速、风向、气压、归一化植被指数(NDVI)、增强植被指数(EVI)、归一化水分指数(NDWI)、日间地表温度(dLST)、夜间地表温度(nLST)等[12-13, 21]。集合媒介生物传染病各因素数据源,构建多因素数据集,是解析疾病风险分布和实现早期预警的重要数据基础[22]。然而,不同影响因素的识别需要不同的数据源和方法,不同数据源的元数据信息又不同,为城市登革热气象环境因素识别带来不便[23]。目前,公共云计算平台出现,如谷歌地球引擎(Google Earth Engine,GEE)和我国航天宏图地理信息平台(PIE-Engine Studio),承载了海量地理空间大数据集和多种时空分析算法,并加速算法迭代,可实现全球范围内不同时空尺度下的数据快速分析[24-25]。应用云计算平台,可在城市不透水层(人类主要活动区域)周围定义缓冲区来刻画城市登革热主要传播范围,缓冲区的宽度可设置为研究区登革热媒介伊蚊飞行的平均距离[21]。选用云计算平台承载的多源地理空间大数据,以逐周或逐月为时间尺度,对每种因素的栅格数据进行时间合成。在此基础上,以不同的公里格网或行政划分单元为空间尺度,对时间合成后的数据进行空间聚合,形成不同时空尺度的气候环境因素时空数据集。目前,GEE云计算平台承载的多源地理空间大数据可满足全球范围内上述登革热气候环境因素的提取。已有个别研究揭示了GEE公共云计算平台在疟疾与登革热研究中的高效性与合理性[21, 26]。
1.3 城市人口流动手机信令数据、公共交通站点和线路数据、城市交通报告等城市大数据可以支持城市人口日常流动特征的刻画[14-15, 27-28]。其中,手机信令数据能够实时准确地刻画城市人口流动特征,主要包括基于手机信令数据提取个体停留点的时序信息;设置停留时间与停留空间范围,应用聚类算法将个体位置转化为空间单元;设置统计时间间隔,计算时间间隔内相邻空间单元之间迁移的个体数,构建出以不同地理位置为节点组成的图;基于网络嵌入表示方法将节点的数据转化为向量代表各个单元的人口流动情况。上述方法已经被应用于近期的登革热风险预测中[14]。
1.4 登革热关键驱动因素疾病监测系统(如中国疾病预防控制信息系统、巴西国家疾病监测系统)提供的个体病例数据通常包括病例地址、邮编、发病时间等信息,可满足不同空间单元层级(如省/州、市、区/街道、建筑物等)的病例数据地理编码。具有经纬度信息的登革热个体病例满足不同时空尺度下的病例数统计与发病率计算,为登革热关键驱动因素的识别提供重要的数据基础。基于城市土地利用、气候环境和人口流动3方面因素和登革热发病率数据,应用线性混合模型(linear mixed model,LMM)等方法可实现一定时空尺度上的关键驱动因素的识别,并结合疫情的时空格局分析讨论不同因素在登革热传播过程中的作用[28]。
2 登革热风险预测 2.1 时空尺度当前的登革热风险预测大多是时间序列预测,以逐周、逐月的登革热信息(如病例数、发病率、疫情峰值与发生时间等)作为预测目标,结合多种预测风险因子,在不同空间尺度上(如国家、省/州、市、区/街道等)构建预测模型。因此,其当前的登革热风险预测多以周或月为时间尺度,以某个行政区划单元为空间尺度。
2.2 预测因子气候环境因素、登革热历史病例、网络搜索指数、社交媒体数据等常常被用作登革热风险预测模型的解释变量[8, 12, 21, 29-34]。个别研究将城市土地利用纳入登革热风险的时间序列预测中,揭示城市土地利用格局(如建筑物、水体、道路和树等类型的空间分布)可以间接反映当地登革热的传播率,与气候因素结合有助于提高预测模型的精度[35]。此外,基于手机信令与城市交通大数据刻画的人口日常流动特征有助于提高登革热风险预测精度[15, 36]。尽管地理空间大数据可支持精细的建筑物与建筑物周围环境的土地利用、人口流动以及气候环境因素的识别,然而耦合上述3个因素的登革热风险预测研究仍较少。
2.3 预测模型预测模型方面,时间序列模型和传统机器学习算法在登革热风险预测中被广泛应用,如自回归整合移动平均模型(ARIMA)、季节时间序列模型(SARIMA)、随机森林(random forest,RF)、支持向量机(support vector machine,SVM)、线性回归(linear regression,LR)、广义相加模型(generalized additive model,GAM)等,而深度学习开始被应用于登革热的风险预测,且表现出优异的性能[8, 12, 29-33]。例如,文献[31]以哥伦比亚登革热为例,结合历史病例数据、降雨量、增强植被指数、温度、人口数量、教育程度与基尼系数,应用人工神经网络(artificial neural network,ANN),分别在国家尺度和省尺度下实现登革热发病率的逐周预测。文献[8]以巴西790个城市为研究区,应用长短记忆网络(long short-term memory,LSTM),结合温度、相对湿度、气压和社交网络数据,在城市尺度下建立病例数的逐周预测模型。在我国,这方面的研究多关注于广州市。例如,文献[30]关注包括广州市在内的20个有登革热疫情的城市,应用LSTM结合历史登革热病例数、温度、降雨量、降雨天数、相对湿度以及大气压等变量,在城市尺度下实现病例数的逐月预测。当前的模型评估主要考虑模型对数据预测准确度(数据预测值与真实值的差距)和防疫需求两方面,包括均方根误差(RMSE)、均方误差(MSE)、平均绝对百分比误差(MAPE)、平均绝对误差(MAE)、对疫情暴发期间峰值强度(peak intensity,PI)和峰值出现时间(peak timing,PT)等评价指标。
2.4 未来基于人工智能的登革热风险预测研究上述人工智能模型在登革热风险预测中的应用是从时间序列的角度挖掘驱动因子与预测目标之间的联系,实现未来时间的登革热传播风险的预测,进而对比预测值与真实值之间的差距评估模型的预测性能。未来登革热风险预测研究应该加强多时空尺度的登革热风险预测研究,并从预测值与真实值之间的差异、对疫情时空聚集格局的辨析能力和实际防疫需求等方面评估模型性能。见表 1。
3 结语本文考虑登革热驱动因素及传播机制、地理空间大数据与人工智能技术,综合阐述了城市登革热的土地利用、气象环境和人口流动3方面驱动因素的识别,及其应用于基于人工智能方法的城市登革热传播风险预测研究的现状。多种城市地理空间大数据(如多源遥感图像、基于遥感图像制备的数据产品、手机信令、交通数据、网络搜索与社交数据等)满足不同时空尺度的登革热驱动因素识别,为登革热的驱动机制研究与风险预测模型的构建提供重要支撑。人工智能算法已被广泛用于登革热传播风险的时间序列预测中,尤其是深度学习模型在近几年的研究中表现出良好的预测性能。未来研究应该思考如何在不同时空尺度上基于地理空间大数据识别登革热关键影响因素,并且应用人工智能技术构建时空一体的登革热风险预测模型以及多维度的评估模型。
利益冲突 无
[1] |
Bhatt S, Gething PW, Brady OJ, et al. The global distribution and burden of dengue[J]. Nature, 2013, 496(7446): 504-507. DOI:10.1038/nature12060 |
[2] |
赵春春, 周欣欣, 李文玉, 等. 2020年中国13省份登革热媒介白纹伊蚊抗药性监测及分析研究[J]. 中国媒介生物学及控制杂志, 2022, 3(1): 30-37. Zhao CC, Zhou XX, Li WY, et al. Insecticide resistance surveillance and characteristic analysis of dengue vector Aedes albopictus in 13 provinces of China in 2020[J]. J Vector Biol Control, 2022, 3(1): 30-37. DOI:10.11853/j.issn.1003.8280.2022.01.006 |
[3] |
Ryan SJ, Carlson CJ, Mordecai EA, et al. Global expansion and redistribution of Aedes-borne virus transmission risk with climate change[J]. PLoS Negl Trop Dis, 2019, 13(3): e0007213. DOI:10.1371/journal.pntd.0007213 |
[4] |
Brady OJ, Hay SI. The global expansion of dengue: How Aedes aegypti mosquitoes enabled the first pandemic arbovirus[J]. Ann Rev Entomol, 2020, 65: 191-208. DOI:10.1146/annurev-ento-011019-024918 |
[5] |
刘起勇. 我国登革热流行新趋势、防控挑战及策略分析[J]. 中国媒介生物学及控制杂志, 2020, 31(1): 1-6. Liu QY. Dengue fever in China: New epidemical trend, challenges and strategies for prevention and control[J]. J Vector Biol Control, 2020, 31(1): 1-6. DOI:10.11853/j.issn.1003.8280.2020.01.001 |
[6] |
Louis VR, Phalkey R, Horstick O, et al. Modeling tools for dengue risk mapping: A systematic review[J]. Int J Health Geogr, 2014, 13: 50. DOI:10.1186/1476-072X-13-50 |
[7] |
Sylvestre E, Joachim C, Cécilia-Joseph E, et al. Data-driven methods for dengue prediction and surveillance using real-world and Big Data: A systematic review[J]. PLoS Negl Trop Dis, 2022, 16(1): e0010056. DOI:10.1371/journal.pntd.0010056 |
[8] |
Mussumeci E, Coelho FC. Large-scale multivariate forecasting models for dengue-LSTM versus random forest regression[J]. Spat Spatio: Temporal Epidemiol, 2020, 35: 100372. DOI:10.1016/j.sste.2020.100372 |
[9] |
Campbell LP, Luther C, Moo-Llanes D, et al. Climate change influences on global distributions of dengue and chikungunya virus vectors[J]. Philos Trans R Soc Lond B Biol Sci, 2015, 370(1665): 20140135. DOI:10.1098/rstb.2014.0135 |
[10] |
Franklinos LHV, Jones KE, Redding DW, et al. The effect of global change on mosquito-borne disease[J]. Lancet Infect Dis, 2019, 19(9): e302-e312. DOI:10.1016/S1473-3099(19)30161-6 |
[11] |
Marti R, Li ZC, Catry T, et al. A mapping review on urban landscape factors of dengue retrieved from earth observation data, GIS techniques, and survey questionnaires[J]. Remote Sens, 2020, 12(6): 932. DOI:10.3390/rs12060932 |
[12] |
Polwiang S. The time series seasonal patterns of dengue fever and associated weather variables in Bangkok (2003-2017)[J]. BMC Infect Dis, 2020, 20: 208. DOI:10.1186/s12879-020-4902-6 |
[13] |
Jain R, Sontisirikit S, Iamsirithaworn S, et al. Prediction of dengue outbreaks based on disease surveillance, meteorological and socio-economic data[J]. BMC Infect Dis, 2019, 19(1): 272. DOI:10.1186/s12879-019-3874-x |
[14] |
Wesolowski A, Qureshi T, Boni MF, et al. Impact of human mobility on the emergence of dengue epidemics in Pakistan[J]. Proc Natl Acad Sci USA, 2015, 112(38): 11887-11892. DOI:10.1073/pnas.1504964112 |
[15] |
Bomfim R, Pei S, Shaman J, et al. Predicting dengue outbreaks at neighbourhood level using human mobility in urban areas[J]. J R Soc Interface, 2020, 17(171): 20200691. DOI:10.1098/rsif.2020.0691 |
[16] |
Li QX, Cao W, Ren HY, et al. Spatiotemporal responses of dengue fever transmission to the road network in an urban area[J]. Acta Trop, 2018, 183: 8-13. DOI:10.1016/j.actatropica.2018.03.026 |
[17] |
Pan SJ, Yang Q. A survey on transfer learning[J]. IEEE Trans Knowl Data Eng, 2010, 22(10): 1345-1359. DOI:10.1109/TKDE.2009.191 |
[18] |
Ren PZ, Xiao Y, Chang XJ, et al. A survey of deep active learning[J]. ACM Comput Surv, 2022, 54(9): 1-40. DOI:10.1145/3472291 |
[19] |
曹元晖, 刘纪平, 王勇, 等. 基于POI数据的城市建筑功能分类方法研究[J]. 地球信息科学学报, 2020, 22(6): 1339-1348. Cao YH, Liu JP, Wang Y, et al. A study on the method for functional classification of urban buildings by using POI data[J]. J Geo-Inf Sci, 2020, 22(6): 1339-1348. DOI:10.12082/dqxxkx.2020.190608 |
[20] |
Lin AQ, Sun XM, Wu H, et al. Identifying urban building function by integrating remote sensing imagery and POI data[J]. IEEE J Sel Top Appl Earth Obs Remote Sens, 2021, 14: 8864-8875. DOI:10.1109/JSTARS.2021.3107543 |
[21] |
Li ZC, Gurgel H, Xu L, et al. Improving dengue forecasts by using geospatial big data analysis in google earth engine and the historical dengue information-aided long short term memory modeling[J]. Biology (Basel), 2022, 11(2): 169. DOI:10.3390/biology11020169 |
[22] |
Chabot-Couture G, Nigmatulina K, Eckhoff P. An environmental data set for vector-borne disease modeling and epidemiology[J]. PLoS One, 2014, 9(4): e94741. DOI:10.1371/journal.pone.0094741 |
[23] |
Siraj AS, Rodriguez-Barraquer I, Barker CM, et al. Spatiotemporal incidence of Zika and associated environmental drivers for the 2015-2016 epidemic in Colombia[J]. Sci Data, 2018, 5(1): 180073. DOI:10.1038/sdata.2018.73 |
[24] |
Tamiminia H, Salehi B, Mahdianpari M, et al. Google earth engine for geo-big data applications: A meta-analysis and systematic review[J]. ISPRS J Photog Remote Sens, 2020, 164: 152-170. DOI:10.1016/j.isprsjprs.2020.04.001 |
[25] |
付东杰, 肖寒, 苏奋振, 等. 遥感云计算平台发展及地球科学应用[J]. 遥感学报, 2021, 25(1): 220-230. Fu DJ, Xiao H, Su FZ, et al. Remote sensing cloud computing platform development and Earth science application[J]. Nat Remote Sens Bull, 2021, 25(1): 220-230. DOI:10.11834/jrs.20210447 |
[26] |
Frake AN, Peter BG, Walker ED, et al. Leveraging big data for public health: Mapping malaria vector suitability in Malawi with Google Earth Engine[J]. PLoS One, 2020, 15(8): e0235697. DOI:10.1371/journal.pone.0235697 |
[27] |
Ramadona AL, Tozan Y, Lazuardi L, et al. A combination of incidence data and mobility proxies from social media predicts the intra-urban spread of dengue in Yogyakarta, Indonesia[J]. PLoS Negl Trop Dis, 2019, 13(4): e0007298. DOI:10.1371/journal.pntd.0007298 |
[28] |
Zhang Y, Riera J, Ostrow K, et al. Modeling the relative role of human mobility, land-use and climate factors on dengue outbreak emergence in Sri Lanka[J]. BMC Infect Dis, 2020, 20(1): 649. DOI:10.1186/s12879-020-05369-w |
[29] |
Appice A, Gel YR, Iliev I, et al. A Multi-stage machine learning approach to predict dengue incidence: A case study in Mexico[J]. IEEE Access, 2020, 8: 52713-52725. DOI:10.1109/ACCESS.2020.2980634 |
[30] |
Xu JC, Xu KQ, Li ZC, et al. Forecast of dengue cases in 20 Chinese cities based on the deep learning method[J]. Int J Environ Res Public Health, 2020, 17(2): 453. DOI:10.3390/ijerph17020453 |
[31] |
Zhao NZ, Charland K, Carabali M, et al. Machine learning and dengue forecasting: Comparing random forests and artificial neural networks for predicting dengue burden at national and sub-national scales in Colombia[J]. PLoS Negl Trop Dis, 2020, 14(9): e0008056. DOI:10.1371/journal.pntd.0008056 |
[32] |
Amin S, Uddin MI, Hassan S, et al. Recurrent neural networks with TF-IDF embedding technique for detection and classification in tweets of dengue disease[J]. IEEE Access, 2020, 8: 131522-131533. DOI:10.1109/ACCESS.2020.3009058 |
[33] |
Amin S, Uddin MI, Zeb MA, et al. Detecting dengue/Flu infections based on tweets using LSTM and word embedding[J]. IEEE Access, 2020, 8: 189054-189068. DOI:10.1109/ACCESS.2020.3031174 |
[34] |
Hoyos W, Aguilar J, Toro M. Dengue models based on machine learning techniques: A systematic literature review[J]. Artif Intellig Med, 2021, 119: 102157. DOI:10.1016/j.artmed.2021.102157 |
[35] |
Rehman NA, Saif U, Chunara R. Deep landscape features for improving vector-borne disease prediction[C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). Long Beach: IEEE, 2019: 44-51.
|
[36] |
Liu K, Zhang M, Xi GK, et al. Enhancing fine-grained intra-urban dengue forecasting by integrating spatial interactions of human movements between urban regions[J]. PLoS Negl Trop Dis, 2020, 14(12): e0008924. DOI:10.1371/JOURNAL.PNTD.0008924 |