中国媒介生物学及控制杂志  2017, Vol. 28 Issue (6): 523-525

扩展功能

文章信息

岳玉娟, 任东升, 王君, 刘起勇
YUE Yu-juan, REN Dong-sheng, WANG Jun, LIU Qi-yong
国家重要生物安全监测数据整合方案设计
Design of integration scheme of the key national surveillance data on bio-safety
中国媒介生物学及控制杂志, 2017, 28(6): 523-525
Chin J Vector Biol & Control, 2017, 28(6): 523-525
10.11853/j.issn.1003.8280.2017.06.002

文章历史

收稿日期: 2017-06-22
网络出版时间: 2017-10-10 13:59
国家重要生物安全监测数据整合方案设计
岳玉娟, 任东升, 王君, 刘起勇     
中国疾病预防控制中心传染病预防控制所, 传染病预防控制国家重点实验室, 北京 102206
摘要: 目的 通过研制相关标准规范,对国家重要生物安全监测数据进行处理整合。方法 设计以数据为核心、基于数据自身特点的整合方案。结果 在分析现有国家重要监测数据特征的基础上,基于时空特征、生物学特征对多元、多平台、多尺度及动态化的全国重要监测数据进行抽取、转换、清洗和整合,形成覆盖面广、结构与标准统一、内容完整的数据库。结论 基于数据的时空特征和生物学特征的整合方案,可有效地整合国家重要监测数据,为构建国家重要生物安全监测数据查询及可视化平台建设提供有力的数据支持。
关键词: 时空特征     生物学特征     数据整合     监测数据库    
Design of integration scheme of the key national surveillance data on bio-safety
YUE Yu-juan, REN Dong-sheng, WANG Jun, LIU Qi-yong     
State Key Laboratory of Infectious Disease Prevention and Control, National Institute for Communicable Disease Control and Prevention, Chinese Center for Disease Control and Prevention, Beijing 102206, China
Supported by the National Key Research and Development Plan (No. 2016YFC1200802)
Corresponding author: LIU Qi-yong, Email:liuqiyong@icdc.cn
Abstract: Objective To formulate relevant standards and specifications, and then to design integration plans for the key national surveillance data on bio-safty. Methods The integration scheme was proposed based on data characteristics. Results Based on the analysis of the characteristics of the existing national important bio-safty surveillance data, the multi-source, multi-platform, multi-scale and dynamic data were extracted, sorted, transformed, and integrated according to the rules of spatio-temporal features and biological characteristics, and then the database, which has the characteristics of wide coverage, unified structure and standard and complete content, was formed. Conclusion The integration scheme based on spatio-temporal features and biological characteristics, can effectively achieve the integration of national important surveillance data. It can provide strong support for data query and visualization platform construction of the key national surveillance data on bio-safty.
Key words: Spatio-temporal     Biological characteristic     Data integration     Surveillance database    

互联网技术的快速发展使企业和科研工作数据化,同时具有数据分散、孤立、整合困难的问题[1]。人类的衣食住行均伴随数据的产生,国内外学者广泛关注如何将不同类别、不同形式和来源的数据整合并加以应用。关于数据整合的研究,国内主要侧重于基础和技术研究,应用上侧重商务智能和面向服务应用等商业方面[1]。在万方数据知识服务平台以“数据整合”为关键字搜索文献,大多是关于房地产、地籍和海洋沉积物等领域内容[2-4]。而国外更多关注地理信息系统(geographic information system,GIS)、遥感、生物信息学和基因表达等公共事业方面的研究[5-13]

本研究的监测数据包括重要病媒生物数据、病原体生物风险知识数据、入侵动物数据、入侵植物数据、生物安全组学数据和环境数据。因现有国家重要监测数据资源的数据量庞大而复杂、时间跨度大(最早为1981年)、空间分布跨度大(中国大陆区、县级)和形式多样(省、市、县和点)、数据标准不一、格式多样、管理分散、质量参差不齐等特点,形成了“数据孤岛”和“信息孤岛”,不利于数据交换和共享[14]。经过多年的信息化建设,在不同阶段应不同需求搭建较多不同业务系统,而产生许多数据。由于技术和需求的原因,从单一系统应用的角度,数据的准确性、一致性、完整性和可用性尚可,但从全局分析,多个业务系统数据存在交叉、缺少统一规划和集中管理、标准化低、大量数据冗余等问题。随着国家重要监测数据资源信息化的发展和应用,基于统一平台的国家重要监测数据系统的开发和应用,迫切需要统一的“国家重要监测数据库”的支撑进行数据整合。如何从全局角度出发,梳理数据的准确性、一致性、完整性和可用性及解决形式上的数据过剩是目前国家重要监测数据整合亟待解决的难题[2]

1 材料与方法 1.1 材料

国家重要监测数据整合内容主要针对6类数据,使数据统一其标准、统一时空参考、降低数据冗余、提高数据现势。

1.1.1 重要病媒生物数据库

基于登革热中转支付病媒数据库和全国病媒生物监测数据库,构建重要病媒生物数据库,重要病媒物种包括蚊〔白纹伊蚊(Aedes albopictus)、埃及伊蚊(Ae. aegypti)、淡色库蚊(Culex pipiens pallens)、三带喙库蚊(Cx. tritaeniorhynchus)、中华按蚊(Anopheles sinensis)、雷氏按蚊嗜人亚种(An. lesteri anthropophagus,监测方案中称为嗜人按蚊,以下均称嗜人按蚊)和微小按蚊(An. minimus)7种〕、蝇〔家蝇(Musca domestica)〕、鼠〔褐家鼠(Rattus norvegicus)、黑线姬鼠(Apodemus agrarius)〕、蜚蠊〔德国小蠊(Blattella germanica)〕、蜱(寄生蜱、游离蜱)和臭虫。

1.1.1.1 重要病媒“蚊”数据来源

(1)登革热中转支付数据库:数据表字段包括时间属性(年/月,或上半月和下半月,跨度为2016年)、空间属性〔省/市/县(区),实际尺度到市或县(区)混杂,8位地理编码,跨度为23个省份〕、布雷图指数。数据表征白纹伊蚊幼虫密度,与登革热发病相关。(2)全国病媒生物监测数据库:数据表字段包括时间属性(年/月,跨度为2005-2016年)、空间属性〔省/市/县(区)/乡镇,实际尺度到市或县(区)混杂,8位地理编码,跨度为全国〕、环境类型、蚊密度、白纹伊蚊、埃及伊蚊和淡色库蚊数量等。数据表征成蚊密度与登革热发病相关。

伊蚊是登革热的传播媒介。因此,基于中国疾病预防控制信息系统获取登革热疾病数据库:数据表字段包括时间属性(年/月,跨度为2005-2016年)、空间属性〔省/市/县(区)/乡镇,8位地理编码,跨度为全国〕、病例数。

1.1.1.2 重要病媒“蝇”数据来源

全国病媒生物监测数据库:数据表字段包括时间属性(年/月,跨度为2005-2016年)、空间属性〔省/市/县(区)/乡镇,实际尺度到市或县(区)混杂,8位地理编码,跨度为全国〕、环境类型、蝇密度、家蝇数量等。数据表征蝇密度。

1.1.1.3 重要病媒“鼠”数据来源

全国病媒生物监测数据库:数据表字段包括时间属性(年/月,跨度为2005-2016年)、空间属性〔省/市/县(区)/乡镇,实际尺度到市或县(区)混杂,8位地理编码,跨度为全国〕、环境类型、鼠捕获率、褐家鼠数量、黑线姬鼠数量等。数据表征鼠密度。

1.1.1.4 重要病媒“蜚蠊”数据来源

全国病媒生物监测数据库:数据表字段包括时间属性(年/月,跨度为2005-2016年)、空间属性〔省/市/县(区)/乡镇,实际尺度到市或县(区)混杂,8位地理编码,跨度为全国〕、环境类型、蜚蠊密度、德国小蠊数量等。数据表征蜚蠊密度。

1.1.1.5 重要病媒“蜱”数据来源

全国病媒生物监测数据库:数据表字段包括时间属性(年/月,跨度为2005-2016年)、空间属性〔省/市/县(区)/乡镇,实际尺度到市或县(区)混杂,8位地理编码,跨度为全国〕、动物种类、寄生蜱指数、游离蜱指数等。数据表征蜱指数。

1.1.1.6 重要病媒“臭虫”数据来源

全国病媒生物监测数据库:数据表字段包括时间属性(年/月,跨度为2005-2016年)、空间属性〔省/市/县(区)/乡镇,实际尺度到市或县(区)混杂,8位地理编码,跨度为全国〕、环境类型、臭虫密度监测等。数据表征臭虫密度。

1.1.2 入侵动物检疫监测数据库

利用马铃薯甲虫(Leptinotarsa decemlineata)和苹果蠹蛾(Cydia pomonella)数据构建国家有害生物检疫监测数据库,或实现链接引用已构建的国家有害生物检测监测数据库。数据表字段包括时间属性(年/月/日,马铃薯甲虫时间跨度为2014-2016年,共计约20条记录;苹果蠹蛾的时间跨度为2016年,共计约2条记录)、空间属性〔省/市/县(区),8位地理编码,同时拥有采样点经纬度,空间跨度为全国〕、虫态等。该数据库记录的是某个时间点某个地点是否存在有害生物马铃薯甲虫和苹果蠹蛾。

1.1.3 入侵植物检疫监测数据库

利用北美刺龙葵(Solanum carolinense)、刺萼龙葵(S. rostratum)和银毛龙葵(S. elaeagnifolium)数据构建龙葵属入侵植物检疫监测数据库,或实现链接引用已构建的龙葵属入侵植物检疫监测数据库。数据表字段包括时间属性(年/月,北美刺龙葵和银毛龙葵仅2016年3条记录;刺萼龙葵时间跨度为1981-2016年,主要集中在东北三省、内蒙古自治区、新疆维吾尔自治区和河北省,记录约200条)、空间属性〔省/市/县(区)/乡镇,北美刺龙葵和银毛龙葵位置在浙江和山东省,刺萼龙葵集中在东北三省、内蒙古自治区、新疆维吾尔自治区和河北省〕、危害程度等。

1.1.4 病原体生物风险知识数据库

通过微生物名录,构建病原体生物风险知识数据库,或实现链接引用已构建的病原体生物风险知识数据库。数据表字段包括病毒名称、自然宿主、中间宿主、终末宿主(如白纹伊蚊、臭虫)等。总数据记录约800条。

1.1.5 生物安全组学数据库

与其他子课题的物种相对应,构建生物安全组学数据库,或实现链接引用已构建的生物安全组学数据库。数据表字段包括基因组名(如白纹伊蚊和马铃薯甲虫)、基因数量等。估计总数据记录79条,其中按蚊属、库蚊属和伊蚊属基因组数据约26条记录,臭虫属2条记录,硬蜱科、软蜱科和纳蜱科3条记录,小蠊属1条记录,蝇属和蝇科2条记录,大鼠属和鼠科6条记录,叶甲科2条记录,鳞翅目29条记录,茄属8条记录。

1.1.6 环境数据库

包括气象气候信息库、地理环境信息库、人口信息库、社会经济信息库等。其中气象数据通过中国气象局下载气象台站年、月、日等数据和使用网络爬虫等工具获取气象年、月、日等数据;土地覆盖数据;人口栅格;国内生产总值(gross domestic product,GDP)栅格数据。

1.2 方法

参照黄华南[2]提出的以数据为核心,基于数据自身特点的数据整合方案。按照人类认识和理解现实世界普遍运用的3个构造法则(区分对象及其属性、区分整体对象及其组成部分、不同对象类的形成及区分)来构造数据及规则,将国家重要监测数据进行整合,根据数据查询与可视化功能需求进行数据库系统建设。方案具体实施从数据全局出发,将涉及的数据进行分类并找出相互的内在联系,构造数据规则,并基于规则进行现有数据整合。

2 结果

分析各子数据库特征,基于时空特征和生物学特征,设计国家重要监测数据整合方案,以表格和地图相结合方式表现,为后续国家重要监测数据查询与可视化平台提供数据支持。具体按以下方式进行:

时间属性:年/月/日-年/月/日,筛选获得年/月-年/月的数据。因国家有害生物检疫监测数据库的时间尺度是“年/月/日”。

空间属性:全国、省、市、县4级尺度供选择,筛选获得省、市、县、乡镇级别数据。

数据库类型一:重要病媒生物数据库、国家有害生物检疫监测数据库、龙葵属入侵植物检疫监测数据库、环境数据库(其中包括气象数据库),可多选。

通过以上时空属性和数据库类型一的选择,实现重要病媒生物数据库、国家有害生物检疫监测数据库、龙葵属入侵植物检疫监测数据库和环境数据库间的整合;以点(国家有害生物检疫监测数据库)和面(重要病媒生物数据库和龙葵属入侵植物检疫监测数据库)相结合的方式基于GIS进行数据整合及变化监测,地图上属性显示区间和颜色可灵活调节。环境数据库(土地覆盖、人口和GDP)可作为GIS地图底图。

数据库类型二:“病原体生物风险知识数据库”、“生物安全组学数据库”,可多选。

由以上整合结果确定数据库类型二所选数据库的查询属性宿主类型或(和)生物组学名称,进一步整合数据库类型二中数据。

3 讨论

本次研究的国家重要监测数据包括重要病媒生物数据库、入侵动物检疫监测数据库、入侵植物检疫监测数据库、病原体生物风险知识数据库、生物安全组学数据库和环境数据库,前三者和环境数据库具有时间和空间关键属性,后两者具有生物学关键属性。数据量庞大而复杂、时空跨度大、数据标准不统一、格式多样、管理分散等是目前国家重要监测数据存在的问题,故数据有效管理和数据整合研究势在必行。

通过制定标准规范为国家重要监测数据的集成、共享、交换的技术体系和服务环境奠定基础;将多元、多平台、多尺度和动态化的全国重要监测数据进行抽取、转换、清洗、装载,形成覆盖面广、结构与标准统一、内容完整的“数据中心”,为国家重要监测数据库建设提供强有力的数据支持。避免数据的重复建设,保障信息的安全与可靠,协调各部门间的关系,提高信息交互能力。通过基于时空特征和生物学特征分类数据库,设计国家重要监测数据的整合方案,为国家重要监测数据查询与可视化平台建设提供数据保障。

参考文献
[1]
李伟华, 郑彦宁, 刘志辉. 国内外数据整合研究进展分析[J]. 数字图书馆论坛, 2015(6): 54-61.
[2]
黄华南. 基于GIS的国土房产数据整合方案设计[J]. 测绘通报, 2007(10): 64-66. DOI:10.3969/j.issn.0494-0911.2007.10.020
[3]
张李军, 刘寿福, 黄东海, 等. 南京市城乡地籍数据整合若干问题探讨[J]. 安徽农业科学, 2015, 43(1): 295-297.
[4]
刘志杰, 金秉福, 张瑞端, 等. 海底沉积物碎屑矿物数据整合技术研究[J]. 海洋通报, 2015, 34(6): 657-662. DOI:10.11840/j.issn.1001-6392.2015.06.008
[5]
Ma Z, Hart MM, Redmond RL. Mapping vegetation across large geographic areas:integration of remote sensing and GIS to classify multisource data[J]. Photogramm Eng Rems, 2001, 67(3): 295-308.
[6]
李勇, 包世泰, 周品. ECDIS与GIS数据集成研究[J]. 测绘科学, 2007, 32(4): 135-137.
[7]
Karnatak HC, Shukla R, Sharma VK, et al. Spatial mashup technology and real time data integration in geo-web application using open source GIS-a case study for disaster management[J]. Geocarto Int, 2012, 27(6): 499-514. DOI:10.1080/10106049.2011.650651
[8]
Salleh SA, Hamid JRA, Ariffin IM. Investigation of potential integration of spectroradiometer data with GIS technology:the spectro-GIS tools[J]. IOP Conf Ser:Earth Environ Sci, 2014, 18(1): 012053.
[9]
Seoane JA, Aguiar-Pulido V, Munteanu CR, et al. Biomedical data integration in computational drug design and bioinformatics[J]. Curr Comput Aided Drug Des, 2013, 9(1): 108-117. DOI:10.2174/15734099112089990011
[10]
Goble C, Stevens R. State of the nation in data integration forbioinformatics[J]. J Biomed Inform, 2008, 41(5): 687-693. DOI:10.1016/j.jbi.2008.01.008
[11]
Rezola A, Pey J, Tobalina L, et al. Advances in network-based metabolic pathway analysis and gene expression data integration[J]. Brief Bioinform, 2015, 16(2): 265-279. DOI:10.1093/bib/bbu009
[12]
Fagan A, Culhane AC, Higgins DG. A multivariate analysis approach to the integration of proteomic and gene expression data[J]. Proteomics, 2007, 7(13): 2162-2171. DOI:10.1002/(ISSN)1615-9861
[13]
De la Prieta F, Rodríguez S, Bajo J, et al. Data integration in cloud computing environment[C]//Leyva López JC, Espín Andrade RA, Pérez B, et al. Fourth International Workshop on Knowledge Discovery, Knowledge Management and Decision Support. Mexico:Atlantis Press, 2013:407-412.
[14]
唐健, 沈陈华, 周国峰, 等. 国土资源数据整合方案设计及其实现研究[J]. 中国土地科学, 2009, 23(9): 72-78.