1. 450052 郑州,郑州大学第一附属医院胸外科;
2. 410012 长沙,中南大学湘雅公共卫生学院
收稿日期: 2021-06-02; 修回日期: 2021-11-19
基金项目: 国家自然科学基金(32070623);郑州大学学科建设重点专项(XKZDQY202006)
作者简介:
罗文卿(1995-),男,硕士在读,医师,主要从事肺癌、食管癌的相关研究.
Construction and Validation of A Nomogram Prognostic Model for Patients with Lung Adenocarcinoma
1. Department of Thoracic Surgery, First Affiliated Hospital of Zhengzhou University, Zhengzhou 450052, China;
2. Xiangya School of Public Health, Central South University, Changsha 410012, China
Foundation item: National Natural Science Foundation of China (No. 32070623); Key Discipline Construction Project of Zhengzhou University (No. XKZDQY202006)
Competing interests: The authors declare that they have no competing interests.
0 引言
肺癌是世界上常见的恶性肿瘤,发病率和死亡率分别位居世界第二和第一[1]。肺癌的两种主要类型是小细胞肺癌和非小细胞肺癌,分别约占所有病例的15%和85%[2]。肺腺癌是非小细胞肺癌的主要组织学亚型,近年来,肺腺癌的发病率增长明显快于肺鳞癌,约占肺癌发病率的40%[3]。由于肺腺癌在早期容易发生转移,并且在确诊时三分之二的肺腺癌患者已经处于晚期(ⅢB/Ⅳ期),因此肺腺癌患者的预后较差,平均5年生存率不足20%[4]。尽管目前肺腺癌在免疫治疗和靶向治疗上研究进展迅速,但5年生存率仍然相对较低[5]。列线图是一种通过给出特定临床事件概率的数值估计,同时结合肿瘤学结果的关键因素来直观评估风险的可靠工具[6]。而且,列线图比传统的TNM分期标准具有更精确的生存预测能力[7]。本研究旨在基于SEER数据库[8],通过大数据队列构建肺腺癌患者生存预后的列线图预测模型。
1 资料与方法
1.1 一般资料
回顾性收集SEER数据库中2010年至2015年诊断为肺腺癌患者的临床数据。按照第7版美国癌症联合委员会(American Joint Committee on Cancer,AJCC)标准对TNM分期进行分类。
1.2 纳入标准与排除标准
纳入标准:(1)患者在2010—2015年间明确诊断;(2)组织学类型(ICD-O-3)为腺癌;(3)经过明确病理学确诊;(4)所有患者均只有一种原发性肿瘤;(5)死因限定为肺癌;(6)随访信息完整。排除标准:(1)组织学类型(ICD-O-3)为非腺癌者;(2)有多种原发性肿瘤;(3)临床资料缺失;(4)治疗信息和随访信息缺失;(5)年龄 < 18岁;(6)生存时间小于1月或未知。
1.3 危险因素的选择
淋巴结阳性比率(lymph node ratio, LNR)是指阳性淋巴结数与总淋巴结数之比。有学者发现,LNR会影响非小细胞肺癌患者的生存预后[9],因此本研究纳入LNR。最终确定的分析变量为:年龄、种族、性别、婚姻状况、肿瘤原发部位、肿瘤分级、肺叶分侧、肿瘤分期、T分期、N分期、M分期、手术、放疗、化疗、LNR、骨转移、脑转移、肝转移、肺转移、肿瘤大小。
1.4 统计学方法
随机将70%的患者分为建模组,30%的患者分为验证组。建模组使用Lasso Cox回归分析筛选出独立危险因素,确定每个独立危险因素的风险比(hazard ratio, HR),并计算相关95%置信区间(95%CI)。
利用筛选出的独立危险因素作为变量,建立一个预测肺腺癌患者1、3和5年特异生存率的列线图模型,并进行内部验证。通过C指数(C-index)和校准曲线对列线图的判别和校准能力进行评估,使用NRI(net reclassification index, NRI)和DCA曲线(decision curve analysis, DCA)对列线图的预测能力和净收益进行评估。为了缩小偏差,上述分析均经过Bootstrap重复进行1 000次。
根据预测模型计算每例患者的总风险得分,并按照总风险得分的四分位数对建模组患者进行分层。采用Kaplan-Meier法和Log rank检验对各风险组生存差异进行显著性评价。使用R4.0.3软件和SPSS25软件进行数据分析。P < 0.05为差异有统计学意义。
2 结果
2.1 建模组和验证组的特征
根据纳入和排除标准,在SEER数据库中确定了16 558例肺腺癌患者(建模组11 592例,验证组4 966例)。患者特征见表 1。
表 1 建模组和验证组患者的特征(n(%))
Table 1 Characteristics of patients in training cohort and validation cohort (n(%))
2.2 Lasso回归分析筛选建模组变量情况
经过Lasso回归分析20个可能影响肺腺癌患者预后的变量,最终筛选出15个与预后密切相关的变量,即年龄、种族、性别、婚姻状况、肿瘤分级、肿瘤分期、T分期、N分期、手术、化疗、LNR、骨转移、脑转移、肝转移、肿瘤大小。
2.3 建模组的单因素和多因素Cox回归情况
单因素Cox回归分析显示,Lasso回归分析筛选的15个变量均与特异性生存率显著相关。多因素分析显示,15个变量均是独立的生存预后影响因素,见表 2。
表 2 建模组单因素和多因素Cox回归分析
Table 2 Univariate and multivariate Cox regression analyses of training cohort
2.4 肺腺癌患者列线图预后模型的构建与评估
根据上述筛选出的独立预后因素,构建预测肺腺癌患者生存概率的预测模型,见图 1。预测模型判别力检验结果显示出了良好的预后准确性和临床适用性,建模组的C指数为0.819,验证组的C指数为0.810。预测模型建模组的1、3和5年特异性生存率有较高的AUC(area under ROC curve, AUC),分别为0.846、0.869和0.875,验证组的AUC分别为0.838、0.866和0.865。预测模型校准度评估结果显示,建模组和验证组校准曲线预测的1、3和5年特异性生存率与实际特异性生存率吻合较好,见图 2。
2.5 预测模型与第7版AJCC TNM分期系统的比较
根据第7版AJCC TNM分期系统,构建了预测肺腺癌患者生存概率的预测模型,见图 3。NRI评估发现,本研究构建的预测模型比第7版AJCC TNM分期系统有更强的预测能力,见表 3。DCA分析表明,该预测模型比第7版AJCC TNM分期系统有更高的净收益和临床有效性,见图 4。
表 3 预测模型的NRI
Table 3 NRI of prediction model
2.6 风险分层模型的构建和检验
在建模组中,本研究以总风险得分的四分位数为截断值,将建模组的11 592例患者分为低风险组(0~138分)、中风险组(139~154分)、中高风险组(155~199分)和高风险组(≥200分)。Kaplan-Meier生存分析表明,四组特异性生存率有显著差异(P < 0.001),见图 5A。在验证组使用该截断值,依然能有效区分不同风险组患者的预后(P < 0.001),见图 5B。
3 讨论
近年来,腺癌在非小细胞肺癌中占比越来越高,并且已经超过鳞癌成为最常见的肺癌组织学类型[10]。肺腺癌患者早期一般无明显症状,容易发生转移,侵犯神经、淋巴管和血管等,因此肺腺癌患者的预后较差[11]。准确识别影响肺腺癌预后的独立因素对于个体化治疗的选择具有重要的临床指导意义。与传统的TNM分期相比,列线图更加直观简便,有利于临床医生安排个体化治疗和应对患者咨询。因此,本研究的目的是通过分析肺腺癌患者预后相关因素,构建并验证列线图预后模型。
目前,Lasso回归分析已经广泛应用于Cox回归模型中变量的筛选和预后模型的构建[12-13]。因此,本研究采用Lasso回归分析初步筛选影响肺腺癌生存预后的因素,其优点是可以同时分析所有的变量,避免过度拟合,减少共线性的影响。Lasso Cox回归分析发现,年龄、种族、性别、婚姻状况、肿瘤分级、肿瘤分期、T分期、N分期、手术、化疗、LNR、骨转移、脑转移、肝转移和肿瘤大小是肺腺癌的独立预后因素,与以往研究的结果一致。
此前有报道称,肺腺癌患者的预后与年龄有关,且年龄越大,生存期越短[14]。心脑血管疾病并发症和肝肾功能差可能是老年患者预后差于年轻患者的原因。已有研究发现,不同种族的肺癌患者有不同的生存预后[15]。Zhou等[16]发现,除了原发性肺癌,41.78%的患者死亡是由其他原因引起的,而种族是其中一个竞争性危险因素。Pitz等[17]研究发现,男性肺腺癌患者的生存率远低于女性患者。女性肺腺癌患者的预后优于男性,这可能与女性EGFR突变率高、对于治疗的敏感度高有关。Varlotto等[18]发现,未婚肺腺癌患者的预后比已婚的预后差。这可能与已婚患者可以和伴侣共担风险、获得伴侣足够的情感支持和经济支持有关。
肿瘤分级代表了肿瘤的分化程度,影响肺腺癌患者的生存和预后。有学者认为,肿瘤分级低是导致肺腺癌患者不良预后的一个重要原因[19]。有研究表明,TNM分期会影响肺腺癌患者的预后,且TNM分期越早,患者生存期越长,这与我们的结果一致[20-21]。外科手术通常被认为是治疗肺癌的最佳选择。有学者认为,手术治疗是影响肺腺癌患者预后的独立因素,而且手术患者的生存率比非手术患者的生存率高[22]。Shi等[23]发现,化疗能明显延长肺腺癌患者的生存期,是影响肺腺癌患者生存预后的一个重要的保护因素。Shin等认为,LNR越高的非小细胞肺癌患者,预后往往越差[9]。LNR与肺癌的病理类型有关,肺腺癌更容易发生淋巴结转移,这可能使肺癌复发风险增加,从而影响患者的预后。研究表明,有骨转移、脑转移或肝转移的肺癌患者生存期普遍短于没有器官转移的肺癌患者[14, 23]。患者发生器官转移多提示肿瘤侵袭性较强,TNM分期较晚,预后比较差。研究发现,肿瘤直径越大,肺腺癌患者的生存期越短,这表明肿瘤大小会影响肺腺癌预后[15, 24]。
本研究有以下优点:首先,基于SEER数据库应用大样本量肺腺癌患者临床数据;其次,C指数表明预测模型判别准确性较高,校准曲线表明预测模型的预测值与真实值具有很好的一致性。NRI指数和DCA曲线表明,模型的预测能力和获得的净收益优于第7版AJCC TNM分期系统;最后,预测模型可以根据评分系统把患者分为不同的风险亚组,用于预测肺腺癌患者的个体化生存。
本研究同时也有一些局限性:首先,没有对预测模型进行外部队列的验证,只进行了内部队列的验证;其次,SEER数据库缺乏一些重要的变量,如吸烟史、肿瘤标志物、靶向治疗等,这些变量可能会影响肺腺癌患者的预后;最后,回顾性研究结果可能有固有的偏倚和误差。
综上,我们通过Lasso回归分析筛选出影响肺腺癌患者预后的变量,Lasso回归分析中不要求变量符合正态分布,减少共线性的影响,避免了过度拟合。使用Cox比例风险回归分析得到独立预后因素,建立并验证了列线图预测模型,为肺腺癌患者的生存预测提供了一个简便可靠的工具。同时,预测模型构建的风险分层模型可以便捷地筛选出不同风险的患者,这对肺腺癌患者的个体化治疗具有重要意义。
作者贡献:
罗文卿:资料收集、文献查阅、数据分析及论文撰写
李源奇、叶飞:文献查阅、资料收集
李强明、张国庆:研究方案设计、审阅
李向楠:论文修改