1. 北京大学公共卫生学院流行病与卫生统计学系/重大疾病流行病学教育部重点实验室, 北京 100191;
2. 北京大学软件工程国家工程研究中心, 北京 100871;
3. 宁波市鄞州区疾病预防控制中心, 宁波 315100
A risk prediction model of cervical cancer developed based on nested case-control design
1. Key Laboratory of Epidemiology of Major Diseases, Ministry of Education/Department of Epidemiology and Biostatistics, School of Public Health, Peking University, Beijing 100191, China;
2. National Engineering Research Center for Software Engineering, Peking University, Beijing 100871, China;
3. Yinzhou District Center for Disease Control and Prevention of Ningbo, Ningbo 315100, China
宫颈癌是严重威胁妇女生命健康的恶性肿瘤之一,是女性第四大恶性肿瘤[1],死亡率较高[2]。我国宫颈癌发病率高于欧美地区[3],宫颈癌为我国女性的健康和生命带来严重威胁的同时也造成了沉重的经济负担[4]。宫颈癌是一种可预防的癌症,其危险因素较为明确,高危型HPV长期慢性感染是其主要的危险因素,免疫功能低下和吸烟等也是其重要的危险因素[5]。针对这些危险因素,开展健康教育、HPV疫苗接种和宫颈癌筛查等措施可以有效预防宫颈癌。我国尚未将HPV疫苗纳入免疫规划,人群接种率较低[6-7],宫颈癌筛查仍是预防的重要手段[8]。预测模型可以综合多个危险因素预测个体的发病风险[9],为个体对自身风险的认知提供参考,以针对自身风险改变高风险行为。目前已有的宫颈癌发病风险预测模型主要在欧美地区建立[10-12]。我国的宫颈癌发病风险预测模型研究大多基于在医院就诊的患妇科疾病人群[13-15],这些人群与一般人群的基础风险不同,存在的宫颈癌危险因素也不同。本研究基于宁波市鄞州区域健康信息平台(YRHIP),使用巢式病例对照的研究设计构建宫颈癌发病风险预测模型。
资料与方法
1. 资料来源:使用YRHIP中记录时间为2021年10月31日之前的数据。该平台于2005年开始建设,2010年基本建设完成,覆盖全区所有一级以上的医院和社区卫生服务中心、乡镇卫生院,可以提供医院的电子病历、公共卫生管理数据和社区健康管理数据,不同数据源之间可以通过个人唯一识别编码进行关联。目前鄞州区常住居民在该平台的建档率已超过95%,该平台基本能够捕捉区域内居民的所有健康相关行为数据,从建设以来已经积累了十余年的纵向数据记录,是对区域内常住居民进行长期健康随访的良好数据源。
2. 研究设计:本研究采用回顾性巢式病例对照的设计。首先建立宫颈癌发病队列,纳入标准:①2018年10月31日前在YRHIP建立健康档案的常住女性居民;②年龄在25~75岁之间;③建档后3年内没有宫颈癌诊断记录。排除标准:①有宫颈癌或宫颈内膜上皮细胞高级别病变病史;②有子宫全切或宫颈锥切手术史;③在数据平台中记录时间不满3年。基于此队列,从2010年1月1日开始识别宫颈癌病例。采用1∶10匹配的方式使用风险集抽样为病例匹配对照,匹配变量为进入队列的日历年和建档街道地址。
3. 资料整理:本研究提取的指标来源于YRHIP上的健康档案信息、慢性病信息、体检信息和患者电子病历数据信息,不同表单间通过身份证号进行链接。
宫颈癌病例从门诊和住院诊断信息表、恶性肿瘤报卡和死因登记表单中进行识别。病例的提取标准:门诊或住院诊断中包含“宫颈癌”“宫颈恶性肿瘤”或诊断的《国际疾病分类》第十版(ICD-10)编码为C53;或恶性肿瘤报卡中ICD-10编码为C53;或死因登记中根本死亡原因ICD-10编码为C53。发病日期为第一次诊断日期、恶性肿瘤报卡记录的首次诊断日期和死亡日期中最早的一个。
基于既往关于宫颈癌发病风险因素的研究和宫颈癌发病风险预测模型研究,结合YRHIP中变量的可及性,纳入人口学特征变量、既往相关病史、宫颈癌筛查相关变量、行为因素变量合计21个变量作为预测因子。
预测因子的提取主要基于健康档案信息、门诊和住院诊断信息表、慢性病报卡和健康体检表。人口学特征变量包括年龄、婚姻状况、文化程度、BMI,从健康档案信息表中直接提取。既往相关病史包括自身免疫病(系统性红斑狼疮、溃疡性结肠炎、克罗恩病、类风湿性关节炎、炎症性肠病等)、实体器官移植或异基因造血干细胞移植、性传播疾病、宫颈炎、阴道炎、子宫肌瘤、子宫腺肌瘤、多囊卵巢综合征、盆腔炎、其他慢性病史(高血压、糖尿病、高脂血症),从门诊和住院诊断信息表中提取,诊断名称包括疾病名称或诊断的ICD-10编码为对应的疾病ICD-10编码的即识别为存在病史,其中糖尿病、高血压除了从门诊和住院的诊断信息中提取外,还从慢性病报告卡信息中进行提取补充。为了避免所提取的宫颈癌筛查相关变量[HPV检测和液基薄层细胞检测(TCT)结果]和宫颈癌确诊实际是来自于同一次筛查流程,保证预测变量的提取与结局的确定在时间上有先后顺序,所有预测因子的提取均限制在距离结局发生前120 d以上的时间段。预测变量的赋值情况见表 1。
4. 模型构建和内部验证:病例组和对照组的基本特征中,计数资料采用频数(%)描述,并报告各个变量的缺失数量和占比,两组间比较采用χ2检验,连续变量采用x±s描述,两组间比较采用t检验。连续型变量依据医学标准或等距划分进行分段,并转化为分类变量。
使用多重填补法对缺失变量进行填补后构建模型。纳入模型的预测因子选择方式:先将预测因子纳入Lasso-logistic回归模型,采取十折交叉验证法确定参数λ,选取模型误差最小时的λ,将此时β不为0的因子纳入并拟合logistic回归模型。分别计算最终模型F1分数(阳性预测值和灵敏度的调和平均数,最大为1,最小为0)最大和约登指数(灵敏度与特异度之和-1)最大时的截断值,以及其对应的灵敏度和特异度,选择合适的截断值。使用Bootstrap法对最终确定的模型进行内部验证,Bootstrap重抽样共进行500次,将受试者工作特征曲线下面积(AUROC)的平均值作为内部验证的区分度评价指标,内部验证的校准度通过绘制校准曲线和Hosmer-Lemeshow检验来评价。在没有填补的完全数据集上对模型进行验证,评价模型的稳健性。以P < 0.05为差异有统计学意义。
结果
1. 基本特征:本研究所基于的队列共纳入250 485名研究对象,其中宫颈癌新发病例346名,匹配对照3 460名,预测模型共纳入3 806名研究对象,年龄为(49.3±12.2)岁,3 359名(88.3%)已婚,2 957名(77.7%)为初中以下文化程度,190名(5.0%)做过HPV检测,215名(5.9%)做过宫颈TCT。
两组研究对象的基本特征和组间比较见表 2。病例组与对照组年龄、文化程度、婚姻状况分布差异有统计学意义;病例组与对照组之间做过HPV检测和TCT的人数分布差异有统计学意义,病例组与对照组有宫颈炎史、子宫肌瘤史、子宫腺肌瘤史、盆腔炎史的比例差异均有统计学意义(P < 0.05),有糖尿病和高脂血症的人数差异均有统计学意义(P < 0.05)。
2. 模型构建:将表 2中的所有潜在预测因子共30个变量(包括哑变量)纳入Lasso-logistic回归,内部十折交叉验证选择模型误差最小时的λ,此时β不为0的变量共16个,将这些变量和与这些变量属于同一组哑变量的变量纳入logistic回归模型进行拟合,将这个模型记为模型1,模型系数见表 3。
模型1中的变量数仍较多,为进一步精简模型以便应用,考虑继续筛选模型中的变量。注意到模型1中有些变量的P值较大,考虑只留下模型1中P < 0.10的变量和与这些变量属于同一组哑变量的变量,将留下的预测因子纳入并拟合logistic回归模型,记为模型2。为了考察删去这些变量对模型表现的影响,引入赤池信息量(AIC)、贝叶斯信息量(BIC)、综合判别改善指数(IDI)和AUROC作为模型比较的主要参考指标,比较模型1和模型2的指标差异,选择合适的模型作为最终的模型。模型2的logistic回归模型系数见表 4。
模型1的AIC为2 028.2,BIC为2 068.8,AUROC为0.753;模型2的AIC为2 017.4,BIC为2 039.1,AUROC为0.747。模型2的AIC和BIC小于模型1,Delong's检验两模型AUROC值差异无统计学意义(Z=0.91,P=0.362),模型1相比模型2加入更多变量后,模型整体改善程度较小(IDI=0.38%,95%CI:0.00%~0.71%)。故选择模型2为最终模型,模型2的受试者工作特征曲线(ROC)见图 1。最终纳入模型的预测因子包括年龄、吸烟状况、宫颈炎史、HPV检测情况和TCT情况。模型的表达式:发病概率P=1/{1+e^[-(-4.27+2.11×有宫颈炎史+1.18×吸烟+1.02×年龄35~45岁+1.67×年龄45~岁+1.66×年龄55~岁+1.57×年龄≥65岁-0.91×HPV检测阴性+0.03×HPV检测阳性-0.42×TCT阴性+1.31×TCT阳性)]}[这里的“有宫颈炎史”对应“无宫颈炎史”,对照变量赋值表(表 1)即为:有宫颈炎史则在公式中代入1,无宫颈炎史则在公式中代入0;其他变量以此类推]。使用者结合自身情况,通过将公式中的变量取值带入,可以计算出自身的宫颈癌发病风险。取F1分数最大时的截断值,模型灵敏度为0.697,特异度为0.648;取约登指数最大时的截断值,模型灵敏度为0.491,特异度为0.894。由于本模型的主要目的是尽早发现潜在的宫颈癌病例,减少漏诊,故应选择灵敏度高的截断值在实际应用中进行病例和非病例的划分。本研究绘制了列线图(图 2),以便在实际工作中进行应用和推广。
3. 模型验证结果:经过500次Bootstrap重抽样计算的AUROC为0.740(95%CI:0.739~0.740)。校准度方面,经重抽样校正后的校准曲线与理想曲线重合度较好(图 3),Hosmer-Lemeshow检验P=0.991,认为模型校准度良好。
4. 敏感性分析:模型在完全数据集上的AUROC为0.746(95%CI:0.716~0.775),校准曲线与理想曲线重合程度较高,Hosmer-Lemeshow检验P=0.973,可以认为模型在完全数据集上的区分度和校准度均与主分析相近,模型较为稳健。
讨论
本研究利用区域医疗数据平台的数据构建了基于一般人群的宫颈癌发病风险预测模型,纳入的预测因子有年龄、宫颈炎史、吸烟状况、HPV检测情况和TCT情况,模型纳入的预测因子较易获取且数量合适,模型内部验证区分度良好,校准度良好。
本研究使用logistic建模,在实现对结局预测的同时,也通过系数反映出不同预测因子与宫颈癌发病之间的关系。模型系数显示,与25~34岁相比,年龄≥35岁是宫颈癌发病的危险因素。这与既往文献报道的我国宫颈癌发病年龄分布较一致,我国宫颈癌平均确诊年龄为48.2岁,30~59岁为发病高峰[16]。本研究的最终模型显示,与25~34岁人群相比,除35~64岁人群宫颈癌发病风险升高外,≥65岁人群发病风险也更高,这可能是因为本研究识别宫颈癌病例时使用了死因数据进行补充,并将无宫颈癌诊断记录但死因为宫颈癌的患者的死亡时间记为发病时间,造成部分病例组的患者发病年龄存在高估。
妇科病史方面,宫颈炎是宫颈癌的危险因素。Aballéa等[17]综述了中国人群的宫颈癌发病风险因素,发现宫颈炎史是继HPV感染和宫颈健康知晓情况之后的第三大危险因素。宫颈炎与宫颈癌有共同的病因即HPV感染,并且长期慢性的宫颈炎症可能发展为宫颈癌前病变甚至发展为宫颈浸润癌[18-19]。宫颈炎可以由多种病原体感染导致,长期慢性的感染可能导致宫颈部位炎症水平较高,易受病毒感染,且感染后不易清除,形成长期反复的感染,进展为宫颈上皮内瘤变和宫颈癌[20]。
大量研究显示,吸烟是宫颈癌发病的重要危险因素。吸烟与众多已知的癌症发生均有密切关系,包括宫颈癌[21]。一项基于日本人群开展的系统综述指出,相对于从不吸烟者,现在吸烟或曾经吸烟者患宫颈癌的风险高1倍[22]。另一项针对中国人群的宫颈癌发病危险因素的系统综述显示,被动吸烟显著提高宫颈癌的发生风险[23]。本研究的结果亦与上述研究的结果一致,显示吸烟是宫颈癌发病的危险因素。
HPV检测和TCT是主要的宫颈癌筛查手段,模型系数显示,与未做过HPV检测相比,做过HPV检测且结果为阴性是宫颈癌发病的保护因素,而做过HPV检测且结果为阳性是宫颈癌发病的危险因素;与未做过TCT相比,做过TCT且结果为阴性是宫颈癌发病的保护因素,而做过TCT且结果为阳性是宫颈癌发病的危险因素。高危型HPV持续感染是宫颈癌发病公认的主要危险因素[24],既往HPV检测结果是构建宫颈癌发病风险预测模型的常用指标,Rothberg等[25]利用logistic回归模型建立的宫颈原位癌预测模型也纳入了这个变量,模型系数提示该研究中HPV检测结果与宫颈癌发病风险的关系与本研究的结果一致。
本研究的优势在于:第一,本研究采用巢式病例对照的研究设计,并严格规定了预测变量的测量时间在结局发生之前并间隔一段时间,使模型能够应用于预测未来结局发生的场景;第二,本研究基于我国的健康人群建立宫颈癌发病预测模型,为一般人群评估自身发病风险提供参考;第三,本研究建立的模型纳入的预测因子包括一般情况、病史、检查史等,易于获取,便于推广应用。
本研究存在局限性。首先,研究所用的数据库是区域医疗数据库,代表性较差,要进一步验证模型的外推性还需用外部的数据库进行外部验证;其次,本研究所用的历史数据主要采集自我国广泛推行HPV疫苗之前,绝大部分研究人群未接种过HPV疫苗,故本研究的模型在用于接种过HPV疫苗的人群时需要进行进一步的更新。
综上所述,本研究开发了一个简便且实用的宫颈癌发病风险预测模型,模型的可解释性强,内部验证区分度良好,校准度良好,可以用于一般人群,为个人对自身宫颈癌发病风险的评估提供依据。
利益冲突 所有作者声明无利益冲突
作者贡献声明 李沛:设计和实施研究、整理数据、统计分析、文章撰写;刘志科、赵厚宇:设计研究、文章审阅、指导;刘学洋:文章审阅、指导;沈鹏、林鸿波:文章审阅、行政、技术支持;詹思延:文章审阅、指导、经费支持;孙凤:设计研究、文章审阅、指导、经费支持