2. 上海市卫生健康委员会, 上海 200125
传染病的暴发或流行不仅会威胁人类的生命健康,还会给国家或地区造成严重的经济负担[1-2],受到社会的高度关注[3]。新型冠状病毒肺炎(以下简称“新冠肺炎”)更是让世界各国政府和公众认识到公共卫生安全治理的重要性[4]。2020年3月,习近平总书记在清华大学医学院主持召开新冠肺炎疫情防控调研座谈会时指出,要利用人工智能、大数据等新技术开展流行病学和溯源调查,搞清楚病源从哪里来、向哪里去,提高密切接触者筛查效率[5]。
传染病防控工作的关键解决路径是控制传染源、切断传播链、保护易感人群,在传染病快速扩散且无针对性的治疗手段时,隔离治疗和医学观察是阻断传播的最有效方式。随着传染病感染者数量增加,时空传播路径就会变得非常复杂[6-10],传统以人工为主要形式的流行病学调查(以下简称“流调”)及密切接触(以下简称“密接”)者排查方法,难以兼顾时空传播关系和语义关联关系实现有效应对数以万计的人群流调[11]。
现结合城市传染病防控工作的具体需求,基于大数据、机器学习等技术,研究大人群背景下的传染病密接者排查方法,以期提升流调效率,助力大型城市的传染病病例与风险人群管控。
1 设计与实现 1.1 业务需求和现实困难流调是通过收集汇总传染病患者的基本信息、家庭情况、发病就诊情况,以及发病前的旅行史、居住史及活动情况等资料,分析判定确诊病例的感染来源以及其他密接者,最终明确疾病的传播方式和途径。传统的流调存在以下难点:
(1)传统流调耗时耗力、效率低。传统流调方式主要通过现场或电话问询相关对象、查阅相关资料、记录各类信息等方式进行,问询的对象包括患者本人、患者家属、知情人、诊治医师等[12]。但日常流调面对的群体只是几十人或几百人,当遇到传染病疫情大暴发时,传统的方式方法就难以有效支撑大量群体的流调。
(2)城市场所多样,流调场景复杂。我国城市人口数量庞大、人员流动频繁,在流调过程中流调人员需要了解被调查者的行动轨迹、接触人员等,并基于这些信息进行追踪调查。城市场所众多、交通形式多样,一旦患者进入人员密集的公共场所或搭乘过公共交通工具,必然会接触到其他人员,传统的流调方法往往就会走入“死胡同”。
(3)流调难度大,信息核实难。在传染病流调过程中,有部分人出于种种原因采取不配合的态度,或提供虚假信息、隐瞒重要信息等,易造成流调人员不仅无法获得准确完整的信息,还会因为不实信息导致判断错误。这种情形将大幅增加流调工作难度,同时因为信息不准确,形成不了准确完整的传播链,造成密接者被遗漏,给传染病防控带来严重的后果。
1.2 模型设计与实现面对上述困难和城市传染病防控业务需求,基于多源数据,研究构建面向大人群的传染病密接者排查模型,主要通过分析14 d内确诊病例的传播关系路径,并基于确诊患者的工作信息、出行信息、就餐信息、医院就诊等传播时空轨迹建立模型,基于模型与公安等部门数据库的人口信息进行比对,发现在相同时间、相同地点出现的人员信息,辅助锁定疑似密接者。最终,通过构建的排查模型,收集详细的疑似密接者信息。
1.2.1 数据来源研究使用的多源数据主要包括个人基本信息、手机信令数据、空间信息等,其中通信部门提供的区域内确诊病例手机信令数据是基础数据,可基于此进一步聚焦于时空伴随数据和重点区域数据,并运用地理信息技术将这些数据高效处理、提取和分析,再整合飞机、火车、公交、就医、购药、住宿、社会保障、快递物流等20类数据,形成超2亿条跨行业数据,为后续构建排查模型提供原始数据。
1.2.2 数据加工原始数据主要包括时间周期中区域内传染病确诊病例的姓名、性别、年龄、职业、家庭住址、确诊时间、活动位置轨迹等信息。由于上述自由书写的文本信息混合有大量名词、缩略语、英文缩写、惯用语、测量数字等,为满足构建模型的需求,研究对上述数据进行加工预处理,包括对部分文本内容采用文本分词的方式提取所需信息,形成结构化数据。针对文本预处理,研究按照预定义的信息格式标准进行了全角半角转换、规范化语言转换、多余空格去除等操作。然后,将机器学习得到的语言模型应用于这些文本信息,算法根据前述训练所得经验,分析该文本序列组合邻接关系,判断最佳的文本切分位置,输出分词结果[13-17]。研究把自然语言描述的病例文本信息分拆成key-value键值对,并在无额外判断信息的条件下实现了正确分拆。最后,对处理后的数据进行逻辑校验和异常值核查,通过对数据规则和逻辑关系校验发现数据存在的问题,并查阅原始数据或与数据来源部门进行沟通核实,确保信息准确。
1.2.3 实体识别基于预处理后的数据,研究对传染病确诊病例数据信息进行实体识别,同时在实体识别后建立关系路径。实体识别结果和关系路径结果如表 1、表 2所示。
| 表 1 实体识别结果 |
|
|
| 表 2 关系路径结果 |
|
|
针对识别出的实体进行分类,得到“确诊病例”“位置”等主要实体类型。其中:“确诊病例”表示在传染病疫情中被感染的患者,并对该患者设置唯一的身份标志name_id,同时“确诊病例”的信息还包含确诊病例的姓名、性别、年龄、工作、家庭住址等基本信息;“位置”则主要指确诊病例在14 d内去过的地点,同时设置唯一的位置标志place_id,place_id为一个复合属性,既包含详细场所地址,也包含病例在场所的具体活动时间。
根据对传染病病例信息抽取出的关系,建立2种主要的关系:①确诊病例和位置之间的关系,表示这个确诊患者在14 d内曾经去过的地点信息;②位置和位置之间的关系,表示一个出行事件,每个出行事件包括出行的对象、出行的时间以及出行的交通方式等信息。
2 模型构建排查模型的基本组成元素为抽取出的实体所表示的节点以及节点与节点之间的关系,通过从传染病确诊病例原始信息数据中抽取出的实体识别结果和关系路径结果构建排查模型。
排查模型基本操作如下:
(1)增加节点
create(a:patient{name_id:“王五”,id=“0003”})return a;
create(b:place{name_id:“位置3”,place_id=“0003”})return b;
(2)删除确诊病例和位置信息节点
match(a:patient)where a.name_id =“李四”delete a
match(b:place_id)where b.name_id =“位置3”delete b
(3)增加关系
match(a:patient),(b:place_id)
where a.name_id =“丙”AND b.name_id =“位置2”
create(a)-[r:relation]- > (b)return r
图 1为传染病确诊病例传播路径模型,表示“某确诊病例在某一段时间采用某一种交通方式去了某地”这一出行事件,基于这一思路进行确诊病例活动轨迹的构建。
|
图 1 传染病确诊病例传播路径模型 |
通常1个确诊病例在14 d内到每个name_id有若干个place_id,这就形成了该病例14 d的涉及场所集合SPI(set_place_id),SPI = {PI1,PI2,PI3,…,PIi,…, PIm}(1≤i≤m), m为该确诊病例去过的所有场所数。
排查某个确诊病例的密接者时,首先遍历该确诊病例的SPI集合,然后搜索在该地理位置出现过的个体,与确诊病例出现在该场所的时间进行分析,如果两者相距时间不超过设定好的阈值,则判定该个体为密接者。
3 模型应用排查模型通过对传染病确诊病例的出行、工作、住宿等活动信息进行有效处理,描绘出确诊病例的传染病传播路径,再结合公安部门的数据库信息,将基于分析模型筛选出的传染病密接者信息与公安数据库中的人员信息进行比对,并对由此产生的重合数据、交叉数据进行深度分析,主要步骤包括:
(1)确定确诊对象,基于确诊对象的行为轨迹、身份、接触人员等信息,查找疑似密接人群。
(2)根据查找到的疑似密接人群,筛选出相关数据集,例如运动轨迹数据集。
(3)根据身份证号等唯一识别字段将选取的数据集与公安部门数据库信息进行比对,采用基于用户查询模式等信息检索方式匹配出交叉数据[18-19]。
(4)根据传染病防控需要进一步对交叉数据进行分析研判,获取更多的线索,进一步确立密接者和次密接人群的排查方向。
(5)进行迭代与回归分析,圈定接触人群和高风险对象。
通过以上步骤可以对该传播路径上相关的人群进行初筛,能有效查出接触人群,为后续精细化排查提供支撑。
4 应用效果随着确诊病例人数的增加,与传统的人工开展流调和密接者排查方式相比,利用该模型可以将排查时间从72 h缩短至24 h内,且排查时间相对稳定。同时,准确率大幅度提升,平均在80%~90%,最高可达95%。该模型既缩短了排查时间,又提升了排查准确率,能够有效降低传染病扩散的风险。
面向大人群的传染病密接者排查模型应用多源跨领域数据,通过对接触地点、接触时间等信息的溯源排查,可较为精确地锁定确诊患者接触过的泛人群,为基层传染病防控排查工作提供了更为清晰、明确的排查路线与名单,可协助疾病预防控制机构高效追踪风险人群。
研究立足于传染病“防扩散”,通过汇集区域内传染病病例的相关数据资源,基于跨行业多来源数据,开展确诊病例和密接者相关活动轨迹还原研究,利用大数据和机器学习技术形成智能排查快速反应模式,支持疾病预防控制机构等传染病防控部门迅速锁定并筛选高风险人群。研制的模型有效解决了突发公共卫生事件应急处置过程中人手不足和工作效率低等难题,是国家公共卫生安全治理体系现代化建设的一次有益探索。
·作者声明本文无实际或潜在的利益冲突
| [1] |
TIENSIN T, CHAITAWEESUB P, SONGSERM T, et al. Highly pathogenic avian influenza H5N1, Thailand, 2004[J]. Emerg Infect Dis, 2005, 11(11): 1664-1672. DOI:10.3201/eid1111.050608 |
| [2] |
MOLINARI N A, ORTEGA-SANCHEZ I R, MESSONNIER M L, et al. The annual impact of seasonal influenza in the US: measuring disease burden and costs[J]. Vaccine, 2007, 25(27): 5086-5096. DOI:10.1016/j.vaccine.2007.03.046 |
| [3] |
陈雅杰. 健康教育在传染病预防控制中的作用研究[J]. 中国医药指南, 2020, 18(1): 157. |
| [4] |
WORLD HEALTH ORGANIZATION. Statement on the second meeting of the International Health Regulations (2005) Emergency Committee regarding the outbreak of novel coronavirus (2019-nCoV)[EB/OL]. [2021-10-20]. https://www.who.int/news-room/detail/30-01-2020-statement-on-the-second-meeting-of-the-international-healthregulations-(2005)-emergency-committee-regarding-theoutbreak-of-novel-coronavirus-(2019-ncov).
|
| [5] |
新华网. 习近平在北京考察新冠肺炎防控科研攻关工作时强调协同推进新冠肺炎防控科研攻关为打赢疫情防控阻击战提供科技支撑[EB/OL]. [2021-10-20]. http://www.xinhuanet.com/politics/leaders/2020-03/02/c_1125652961.htm.
|
| [6] |
朱洪平, 孙满芳. 新型冠状病毒肺炎传播的时空特征及空间风险因子: 以广州市为例[J]. 中国高原医学与生物学杂志, 2020, 41(4): 275-283. |
| [7] |
夏吉喆, 周颖, 李珍, 等. 城市时空大数据驱动的新型冠状病毒传播风险评估: 以粤港澳大湾区为例[J]. 测绘学报, 2020, 49(6): 671-680. |
| [8] |
程欣欣, 饶亚情, 黄刚. 封闭空间中新型冠状病毒肺炎传播模型: 以日本"钻石公主"号邮轮为例[J]. 数学物理学报, 2020, 40(2): 540-544. DOI:10.3969/j.issn.1003-3998.2020.02.024 |
| [9] |
张晓, 黄勇, 李科, 等. 一起娱乐场所共同暴露引起的外籍人员新型冠状病毒肺炎聚集性疫情的传播特征分析[J]. 医学动物防制, 2021, 37(8): 814-817. |
| [10] |
袁永剑, 王晨雅, 郭佳炜, 等. 重庆市万州区新型冠状病毒肺炎时空分布特征分析[J]. 江苏海洋大学学报(自然科学版), 2021, 20(3): 76-81. |
| [11] |
刘运喜, 索继江, 柴光军. 新型冠状病毒肺炎暴发与大流行的流行病学调查及应对策略[J]. 中华医院感染学杂志, 2020, 30(17): 2561-2565. |
| [12] |
温志红, 唐慧荷, 王浜琴, 等. 一起新型冠状病毒肺炎家庭聚集性疫情流行病学和临床特征调查分析[J]. 中国临床新医学, 2020, 13(12): 1250-1254. |
| [13] |
梁南元. 书面汉语的自动分词与一个自动分词系统-CDWS[J]. 北京航空航天大学学报, 1984, 4(1): 97-104. |
| [14] |
揭春雨, 刘源, 梁南元. 汉语自动分词实用系统CASS的设计和实现[J]. 中文信息学报, 1991, 5(4): 27-34. |
| [15] |
崔明明. 基于机器学习的中文分词的研究与实现[D]. 沈阳: 沈阳工业大学, 2009.
|
| [16] |
何克抗, 徐辉, 孙波. 书面汉语自动分词专家系统设计原理[J]. 中文信息学报, 1991, 5(2): 1-14. |
| [17] |
岑咏华, 韩哲, 季培培. 基于隐马尔科夫模型的中文术语识别研究[J]. 现代图书情报技术, 2008, 12(1): 54-58. |
| [18] |
张苗. 基于用户查询意图的信息检索技术研究与实现方法[D]. 长沙: 湖南大学, 2013.
|
| [19] |
ZHANG A, GOYAL A, KONG W, et al. AdaQAC: adaptive query auto-completion via implicit negative feedback[C]//Proceedings of the 38th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: [s. n. ], 2015: 143-152.
|
2022, Vol. 25


