1 青岛市疾病预防控制中心消毒与病媒生物防制科/食品卫生科/地方病防制科, 山东 青岛 266033;
2 青岛市预防医学研究院, 山东 青岛 266033
收稿日期: 2020-08-06
基金项目: 国家科技重大专项(2017ZX10303404)
Application of two different algorithms in prediction of adult mosquito density in Qingdao, China
1 Department of Disinfection and Vector Control, Food Hygiene, Endemic Disease, Qingdao Center for Disease Control and Prevention, Qingdao, Shandong 266033, China;
2 Qingdao Institute of Preventive Medicine, Qingdao, Shandong 266033, China
Supported by the National Science and Technology Major Project of China (No. 2017ZX10303404)
蚊媒传染病是由蚊类传播病原体导致的一类传染病。成蚊密度具有一定的季节性,是蚊媒传染病发生的重要因素之一[1-2]。蚊媒传染病的防控需要建立在准确的成蚊密度季节消长趋势研判和科学的防蚊灭蚊决策之上。因此,成蚊密度是重要的病媒生物监测和评价指标。研究表明,成蚊密度与气温、降水、湿度等气象因素存在一定程度的关联[3-4]。人工智能算法领域的快速发展,有助于将表观抽象的关联转变为直观具体的函数模型,揭示多者之间存在的自然规律[5-6]。本研究尝试通过多元线性回归(multiple linear regression algorithm,MLR)和基因表达式编程(gene expression programming,GEP)算法,探讨成蚊密度与气象因素之间的关系,建立可用于成蚊密度预测的函数模型。
1 材料与方法
1.1 数据来源 数据来自青岛市2016-2019年3-11月的成蚊密度监测资料。按照《全国病媒生物监测实施方案》(中疾控传防发〔2016〕56号)[7]要求,在青岛市10个区(市)的居民区、公园、医院、农村民房、牲畜棚等生境分别选择2处开展成蚊密度监测,每月开展2次,相邻2次测定间隔时间不少于10 d。监测时,将诱蚊灯挂于室外避风的场所,光源距离地面1.5 m,远离干扰光源。于日落前1 h接通电源,开启诱蚊灯诱捕蚊虫,直至次日日出后1 h关闭电源,将集蚊袋取出,于冰箱冷冻处死捕获的蚊虫,并进行计数,鉴定种类、性别,根据该月监测布放总灯数、总诱灯夜数和捕获总雌蚊数计算成蚊密度。计算公式如下:
气象资料由中国气象局官方网站获得[8],该网站公开发布了青岛市每日的气温、湿度、降水等信息。本文收集整理了成蚊监测月份的月最高气温、月最低气温、月平均气温、月平均湿度、月累计降水量和月累计降水天数6种地面气象数据资料做为函数预测模型的自变量,当月的成蚊密度为因变量。将2016-2018年的6种气象数据和成蚊密度数据作为训练集,分别采用多元线性回归算法和基因表达式编程算法建立2种不同的成蚊密度回归预测模型。外部验证时,2019年的气象和成蚊密度数据作为测试集,将6种气象数据代入新建立的2个成蚊密度预测模型计算理论的蚊密度,并与2019年实际监测的成蚊密度作比较,检验模型的预测能力。
1.2 多元线性回归算法 多元线性回归算法在很多研究领域有着广泛的应用,是数据挖掘的重要方法。在成蚊密度预测中,利用函数关系式,由自变量气象资料数据计算因变量成蚊密度数值,得到预测的成蚊密度。该方法的多元线性回归数学模型在本研究中表示为:
式中,b0为常数项,b1、b2、b3、b4、b5、b6为偏回归系数,表示在其他自变量固定的条件下,xi改变1个单位时应变量的改变量。x1、x2、x3、x4、x5、x6分别代表月最高气温、月最低气温、月平均气温、月平均湿度、月累计降水量和月累计降水天数。最后,该模型在SPSS 17.0软件中构建生成。
多元线性回归模型建立的成蚊密度预测模型,有2个方面的检验:(1)拟合度检验;(2)回归方程的显著性检验。拟合度检验主要应用决定系数R2(0≤R2≤1),公式为:
式中,SSR为回归平方和,SSE为残差平方和,SST为离差平方和。R2越接近1,则拟合度越好,越接近0,拟合度越差。通常,R2≥0.85的回归方程模型可用于进行成蚊密度的预测分析[9]。
回归方程和回归系数的统计学显著性检验以P < 0.05表示差异有统计学意义。模型的预测性能采用相关系数(r)和方差(S2)检验,由SPSS 17.0软件计算生成。同时采用2019年3-11月的6种气象数据和成蚊密度数据作为测试集对该模型的预测能力进行外部验证。
1.3 基因表达式编程算法 基因表达式编程算法是一种典型的非线性回归分析方法,该算法通过模拟基因的遗传规律,以基因组为单位,借助线性染色体来表达数学函数[10-11]。该算法吸收了遗传算法和遗传程序设计的优点,以固定长度的线性编码表示个体,从而提升了遗传操作效率,具备更强的函数挖掘和探索能力。气象因素与成蚊密度间除了线性关系外,可能存在某种非线性的关系。因此,本文尝试借助非线性的函数挖掘方法揭示两者之间的函数关系。
GEP算法由染色体和表达式树2部分组成。在研究中,月最高气温、月最低气温、月平均气温、月平均湿度、月累计降水量、月累计降水天数将分别作为算法的染色体部分,具体的某种气象数值将作为基因进一步构成该类染色体。通过含有多基因新构成的染色体变异、基因倒置、基因重组等方式,可以使函数关系发生改变,最后编码、运算形成非线性函数模型。表达式树用来表达不同气象染色体间的编码信息,可以体现每个染色体的位置排列及与其他染色体的函数关系,进一步可转换为函数关系方程式。例如,如图 1所示的表达式树,可以用函数F=b*(a+(c-sqrt(d)))表示,a、b、c、d分别代表 4种不同的染色体。那么,本研究中选择了6种气象参数,将分别作为6种不同的染色体构建预测模型,最后模型的表达式树可以进一步转化为预测方程式来展示。本次研究应用的分析软件GeneXproTools 5.0下载于网站gepsoft(www.gepsoft.com/gxpt.htm),数据将在该软件中进行各种方式的编码排列组合,最终将获得最佳的函数预测模型。软件中固定参数栏目的不同数值将会影响预测结果。设置的部分参数中,尝试次数:单次建模尝试次数;连接函数:建立的分段函数间的连接关系;代内变异数:未改变的单次建模变异运算次数;突变率:染色体内基因的突变概率;基因重组率:染色体内基因重新组合概率;倒置率:染色体倒置概率;基因移位率:染色体内基因移位概率;精确度:函数模型检验精确度。经过多次调整参数后获得最佳预测模型,本研究的参数设置见表 1。模型的预测性能采用相关系数和方差检验,同时采用测试集对模型的预测能力进行外部验证。
表 1 GeneXproTools 5.0软件中的基因表达式编程算法参数设置
Table 1 Parameter settings for gene expression programming algorithm in GeneXproTools 5.0 software
2 结果
2.1 相关分析 相关分析结果显示,2016-2019年3-11月青岛市成蚊密度监测值与月最高气温、月最低气温、月平均气温、月累计降水量、月平均湿度、月累计降水天数呈正相关关系,差异有统计学意义(r1=0.84,P=0.001;r2=0.86,P=0.001;r3=0.83,P=0.001;r4=0.78,P=0.001;r5=0.81,P=0.001;r6=0.41,P=0.013)。
2.2 MLR模型预测结果 基于SPSS 17.0软件,采用多元线性回归方法对成蚊密度和气象资料进行分析,得到预测模型的R2为0.89,调整后的R2为0.87,大于经验值0.85,显示拟合度较好;在回归方程的显著性检验中,所建方程模型有统计学意义(F=20.942,P=0.001),预测值与监测值的折线图对比基本达到了吻合状态(图 2)。训练集预测结果与监测成蚊密度之间,r=0.94,P=0.001,S2=3.36。所建模型方程如下:
式中,x1、x2、x3、x4、x5、x6分别表示月最高气温、月最低气温、月平均气温、月累计降水量、月平均湿度和月累计降水天数。基于该线性回归方程对青岛市2019年3-11月成蚊密度测试集进行预测,测试集预测结果与实际监测成蚊密度之间,r=0.93,P=0.001,S2=3.35。预测结果见表 2,吻合情况见图 3。
表 2 多元线性回归算法和基因表达式编程算法对青岛市2019年3-11月成蚊密度的预测结果
Table 2 Results of adult mosquito density from March to November, 2019 in Qingdao, predicted by multiple linear regression algorithm and gene expression programming algorithm
2.3 GEP模型预测结果 建立预测蚊密度的线性方程后,以相同的自变量、因变量作为GEP算法的参数建立非线性方程。GEP算法软件包易于操控,模型可随时通过测试集检验优劣,优化过程更加直观便捷。本次研究的函数集为“+,-,×,/,sin”,通过266次优化后建立了最佳非线性方程模型,预测结果吻合情况见图 2。所建GEP模型方程如下:
式中,x1、x2、x3、x4、x5、x6分别表示月最高气温、月最低气温、月平均气温、月累计降水量、月平均湿度和月累计降水天数。
GEP算法训练集预测结果与监测成蚊密度之间,r=0.97,P=0.001,S2=1.95。基于该线性回归方程对青岛市2019年3-11月成蚊密度测试集进行预测,测试集预测结果与监测成蚊密度之间,r=0.96,P=0.001,S2=1.03。预测结果见表 2,吻合情况见图 3。
3 讨论 蚊虫是重要的医学昆虫之一,能传播疟疾、登革热、流行性乙型脑炎(乙脑)和寨卡病毒病等蚊媒传染病。蚊虫的生存、发育、行为以及生态学受气象因素的影响极大。本文研究显示,月最高气温、月最低气温、月平均气温、月累计降水量、月平均湿度和月累计降水天数6个气象因素是影响成蚊生长的关键正相关因素,能够促进媒介的生长从而提高其密度。影响成蚊密度的多种因素之间往往存在着复杂的关系,简单的因果结构模型很难揭示其流行趋势。随着数学模型和信息技术的发展,人工智能算法预测模型已经在成蚊密度的短期预测中得到了初步尝试。吴崧霖等[12]运用支持向量机算法预测深圳市坪山区成蚊密度,潘衍宇等[13]基于R语言自回归积分移动平均模型来预测广州市白纹伊蚊(Aedes albopictus)密度,刘起勇[6]表示基于多学科模型的预测,已成为当前病媒生物监测预警最常用的方法。
成蚊密度变化受到气象因素的影响,其中温度、降水量、湿度是影响成蚊密度的关键因素[6, 14-15]。因此,利用气象因素对成蚊密度季节消长情况进行预测较为合适。本次研究采用的MLR算法训练集r为0.94,测试集r为0.93;GEP算法训练集r为0.97,测试集r为0.96,2种模型中的因变量成蚊密度与自变量气象因素的拟合优度均较好,所建回归方程预测模型效果较为理想。由表 2和图 3可以看出,GEP预测模型的相对误差最小,预测值最接近于真实值,预测准确度明显高于MLR预测模型。由此可见,GEP预测模型具有较高的预测准确度。蚊密度与气象因素存在内部复杂、指标和因素较多的非线性关系。GEP作为一种通用的自适应随机搜索算法[16-17],在没有任何先验知识、不了解事物内部机制的情况下,对于复杂、多输入、不确定的非线性问题具有较强的映射能力,在预测和函数挖掘中具有优异的表现能力[18-21]。
加强媒介成蚊密度监测和控制,是遏制蚊媒疾病传播和流行的有效手段。而通过建立蚊密度的预测,提前了解密度变化趋势,有利于主动开展灭蚊、防蚊工作,可以降低包括乙脑、登革热等在内的蚊传疾病的发生、传播和流行风险。随着人工智能算法和大数据模块的快速发展,未来更加准确、适应度更广的预测模型将会运用到病媒生物防制的各个领域。
利益冲突 无