孤立性肺结节良恶性判别数学模型的建立与验证

引用本文

杨娟, 孙雪丽, 赖国祥, 余晖, 李强, 韩一平. 孤立性肺结节良恶性判别数学模型的建立与验证[J]. 第二军医大学学报, 2015, 35(4): 407-412 复制到剪切板

YANG Juan, SUN Xue-li, LAI Guo-xiang, YU Hui, LI Qiang, HAN Yi-ping. Establishment and validation of mathematics model for differentiating benign and malignant solitary pulmonary nodules[J]. Academic Journal of Second Military Medical University, 2015, 35(4): 407-412 (in Chinese with English abstract) 复制到剪切板

孤立性肺结节良恶性判别数学模型的建立与验证

杨娟¹, 孙雪丽¹, 赖国祥², 余晖³, 李强¹, 韩一平¹

1. 第二军医大学长海医院呼吸内科, 上海 200433;
2. 南京军区福州总医院呼吸内科, 福州 350025;
3. 厦门大学福州第二医院呼吸内科, 福州 350007

收稿日期:2014-09-23 接受日期: 2015-03-02.

作者简介：杨娟,硕士生.E-mail:yangjuanchanghai@gmail.com

通信作者(Corresponding author)：韩一平,Tel:021-31161313,E-mail:yphan2006@163.com

摘要：目的分析筛选出与孤立性肺结节(solitary pulmonary nodules, SPN)恶性概率相关的一组临床资料,建立并验证了SPN良恶性判别的数学模型,并将该模型与国内李运模型和国外Mayo模型、VA模型进行比较。方法分别收集2011年1月至2014年11月在第二军医大学长海医院手术切除并明确病理的资料252例,总结性别、年龄、症状、吸烟史、肺部基础疾病史、既往肿瘤家族史、结节部位、最大直径、边界清楚、边缘光滑、毛刺、分叶、棘突、胸膜凹陷征、血管集束征、透亮影等资料。从252例资料中选出83例作为验证组(B组),剩余169例作为建模组(A组);同时从B组数据中剔出6例使得其剩余的77例数据均符合其他3个模型的入选和排除条件并组成C组。通过Logistic分析A组资料筛选出与SPN良恶性相关的5个独立因子,构建良恶性概率判别模型。并用B组验证本文模型、C组分别对四个模型进行统一验证和比较。结果年龄、既往肿瘤史、最大直径、钙化、透亮影这5项因素的差异在良性和恶性SPN之间有统计学意义(P<0.05)。建立的SPN良恶性概率数学判别方程,将B组数据代入公式,得出的model ROC (receiver operating characteristic)曲线下面积(AUC)为 0.905±0.036,灵敏性为79.3%、特异性为84.0%、阳性似然比为4.957、阴性似然比为 0.246、阳性预测值为0.920、阴性预测值0.636。将C组数据验证长海模型AUC为0.893±0.040,李运模型AUC为0.817±0.056,Mayo模型AUC为0.804±0.050,VA模型AUC为0.780±0.057。结论患者年龄、肿瘤史、结节最大直径、钙化、透亮影是SPN良、恶性判别的独立预测因子,通过Logistic回归建立的数学模型有一定的临床应用价值。对于本研究的患者病例,长海模型比李运模型、Mayo模型、VA模型预测效果都更有效。

关键词：孤立性肺结节;logistic模型;肺肿瘤;临床病理学

Establishment and validation of mathematics model for differentiating benign and malignant solitary pulmonary nodules

YANG Juan¹, SUN Xue-li¹, LAI Guo-xiang², YU Hui³, LI Qiang¹, HAN Yi-ping¹

1. Department of Respiratory Medicine, Changhai Hospital, Second Military Medical University, Shanghai 200433, China;
2. Department of Respiratory Medicine, Fuzhou General Hospital, PLA Nanjing Military Area Command, Fuzhou 350025, Fujian, China;
3. Department of Respiratory Medicine, Second Hospital of Fuzhou, Xiamen University, Fuzhou 350007, Fujian, China

Abstract: Objective To establish a prediction model by multivariate logistic regression analysis for estimating the malignant probability of solitary pulmonary nodules (SPNs), and to compare our model with other models. Methods From January 2011 to November 2014, totally 252 patients with SPNs who had undergone pneumonectomies in Thoracic Surgery Department of Changhai Hospital and been confirmed with definite pathological results were included in this retrospective study. The gender, age, symptom, smoking history, history of pulmonary diseases, history of tumor, family history of tumor, the location of lesion, maximum diameter, clear border, smooth border, spiculation, lobulation, spinous protuberant sign, pleural indentation, calcification, vessel convergence sign, and lucency shadow were all reviewed. Eighty-three cases were designated as validation group (group B), and the remaining 169 cases were taken as the modeling group (group A). Six cases were excluded from group B to meet all the inclusion and exclusion criteria of the other three models, and the remaining 77 cases constituted group C. Logistic analysis identified five independent factors associated with malignant probability of SPNs from group A and a clinical prediction model was built. With the data of group B and group C, this model was verified and was compared with the other three classical models. Results The age, history of tumor, maximum diameter, calcification, and lucency shadow were the five factors identified for differentiating benign and malignant SPNs (P<0.05). When group B data was substituted into the established formula, the area under curve (AUC) of the ROC was 0.905±0.036, sensitivity was 79.3%, specificity was 84.0%, positive likelihood ratio was 4.957, negative likelihood ratio was 0.246, positive predictive value was 0.920, and negative predictive value was 0.636. When the data of group C were fed to the four formulas of Changhai, Li Yun, Mayo and VA models, the corresponding AUCs were 0.893±0.040, 0.817±0.056, 0.804±0.050, and 0.780±0.057, respectively. Conclusion The patient's age, history of tumor, maximum diameter, calcification, and lucency shadow are the independent predictors of malignant probability of SPNs. This logistic regression prediction mathematic model is of clinical application value. For patients in this study, our Changhai model seems to work better than the Li Yun, Mayo,and VA model.

Key words: solitary pulmonary nodule;logistic models;lung neoplasms;clinical pathology

2003年Ann Intern Med杂志^[1]发布了对于孤立性肺结节(solitary pulmonary nodules,SPN)全面而又成本效益比较高的分析策略，此策略分层分析的第一步即建议用1997年Mayo等^[2]发表的多因素分析数学模型来评估SPN的良恶性风险。2013年chest杂志上发表的第3版美国胸科医师学会关于肺癌的诊断和管理循证临床实践指南；在指南中同样建议对于>8 mm难以定性的结节要根据医生经验定性和用验证过的模型来定量计算恶性概率^[3]。中国抗癌协会肺癌专业委员会于2009年形成了对于孤立性肺结节的共识和对孤立性肺结节的处理，共识中指出一旦发现肺部有孤立性结节，应采用验证的方法进行良恶性的判别，而通过Mayo模型计算恶性概率则是方法之一^[4]。Mayo模型在1999年被证实，在SPN良恶性判断上与临床医生相比的并无统计学的差异，甚至对低度恶性组更加客观^[5]。2005年，在一组由106例荷兰病人组成的回顾性队列研究中，却显示此模型可能低估了SPN的恶性概率，尤其在低度恶性组^[6]。2014年Shinohara等^[7]用241例患者的资料代入Mayo模型，结果显示ROC曲线的线下面积，仅为0.67。此外，Mayo模型的建立同样是在非亚裔的北美人群中进行的，且尚有12%的病例无明确病理，而是通过随访2年来判断良恶性，可能仅适用于实性结节^[3]。

本研究通过收集手术切除且明确病理的SPN资料共252例，建立并验证SPN良恶性判别模型。 1 资料和方法 1.1 资料收集与整理

收集了2011年1月至2014年11月在第二军医大学长海医院胸外科手术切除并明确病理的252例患者的临床及影像学资料，具体包括：患者的性别，年龄，症状(包括咳嗽、咳痰、咯血、胸痛、胸闷、气促、发热、体质量有无减轻等)，吸烟史，肺部基础疾病史，既往肿瘤史，肿瘤家族史，结节部位，结节最大直径，结节的边界是否清楚、结节的边缘是否光滑、毛刺、分叶深浅，棘突征、胸膜牵拉征、有无钙化、血管集束征、透亮影有无。

所有患者中，男性135例、女性117例，年龄 (56.14±11.54)岁，有临床症状者75例，无症状者177例；有吸烟史者80例，无吸烟史者172例；有肺部基础疾病者7例,无肺部基础疾病者245例；既往有肿瘤病史者24例,无肿瘤病史者228例；有肿瘤家族史者11例,无肿瘤家族史者241例；影像学表现，结节最大径4～30 mm，平均值为(17.00±6.61) mm；结节位置在左上叶63例，左下叶35例，右上叶77例，右中叶23例，右下叶54例；结节的边界清楚者184例，边变界不清楚者68例；结节的边缘光滑者27例，边缘不光滑者225例，结节有毛刺者136例或无毛刺者116例，结节有分叶者128例，无分叶者124例，结节有棘突者147例，无棘突者105例；有胸膜牵拉征者155例，无胸膜牵拉征者97例；有血管集束征者202例，无血管集束征者50例；有钙化者15例，无钙化者237例；有透亮影者145例，无透亮影者106例。

从以上252例资料中，选出83例作为模型验证组(B组)，剩余169例作为模型建立组(A组)。同时将B组数据中不符合其他3个模型病例条件的6例，剩下的77例作为验证组(C组)。 1.2 统计学处理

主要采用SPSS 21.0软件进行统计分析。 A组资料整理后，单素分析SPN良恶性概率相关因素:计量资料间的比较，符合正态分布者采用独立样本t检验，不符合正态分布者采用秩和检验；计数分类资料间比较主要采用卡方检验，若计数分类资料四格表中存在某一格理论频数T<5，则用Fisher精确检验。多因素Logistic回归采用后退法筛选与SPN良恶性概率相关的资料，筛选出的变量用来建立Logistic回归模型；并根据模型选择合适的截点值T。

B组资料整理后代入A组建立的模型方程，用Excel计算预测概率值，根据预测概率值用MedCalc软件绘制对应的ROC曲线；并根据A组得到的截点值T计算对应的灵敏度、特异性、阳性似然比、阴性似然比、阳性预测值、阴性预测值。C组资料整理后分别带入A组资料建立的模型、李运模型、Mayo模型、VA模型，用Excel计算预测概率值，根据预测概率值用MedCalc软件绘制4个模型各自对应的ROC曲线，并用Z检验比较4个模型的ROC曲线面积的差异有无统计学意义。检验水准(α)为0.05。 2 结果 2.1 病理结果

长海医院收集的数据中：良性83例占32.9％，包括结核瘤23例、硬化性血管瘤11例、错构瘤11例、机化性肺炎9例、非典型增生6例、纤维瘤及纤维组织增生4例、真菌感染4例、炎性病变4例、炎性假瘤2例、支气管源性囊肿2例、血管畸形2例、良性病变2例、间质性肺炎1例、支扩1例、放疗后坏死结节1例；恶性169例占67.1%，包括腺癌131例、鳞癌15例、转移瘤13例、支气管肺泡癌5例、小细胞癌3例、类癌1例、涎腺型癌1例。 2.2 单因素及多因素分析结果

单因素分析示(表 1)，年龄、既往肿瘤史、肿瘤最大直径、边缘光滑、毛刺、分叶、血管集束征、钙化、透亮影(表 1)在良恶性结节中差异有统计学意义。患者的性别，症状(包括咳嗽、咳痰、咯血、胸痛、胸闷，气促，发热，体质量有无减轻等)，吸烟史，肺部基础疾病史，肿瘤家族史，肿瘤部位，结节的最大直径、结节的边界清楚、边缘光滑、结节是否有毛刺、分叶、棘突征、胸膜牵拉征在良恶性SPN中差异均无统计学意义。

表 1 单因素分析结果 Tab 1 Single-factor analysis

多因素回归分析示(表 2)，年龄、既往肿瘤史、结节直径、钙化、透亮影在良恶性SPN中差异有统计学意义，均是SPN良恶性的独立相关因子。

表 2 Logistic回归分析结果 Tab 2 Logistic regression analysis

2.3 建立的模型及其截点值

我们建立的SPN良恶性预测模型 p=e^x/(1+e^x) ，其中x=-6.525+(0.084×年龄)+(2.1×肿瘤史)+(0.111×结节最大直径)-(2.751×结节钙化)+(1.178×结节透亮影)，e为自然对数，年龄单位为年，最大直径单位为毫米，既往肿瘤史、钙化、透亮影均以1代表有、以0代表无。A组数据代入公式计算良恶性概率，根据约登指数最大得出最佳截点值T=0.578。

李运模型为x=-4.496+(0.07×年龄)+(0.676×直径)+(0.736×毛刺)+(1.267×肿瘤家族史)-(1.615×钙化)-(1.408×边界)。

Mayo模型为x=-6.8272+(0.0391×年龄)+(0.7917×吸烟史)+(1.3388×恶性肿瘤史)+(0.1274×直径)+(1.0407×毛刺)+(0.7838×上叶)。

VA模型为x=-8.404+(2.061×吸烟史)+ [0.779×年龄(10岁)]+(0.112×直径)-[0.567× 戒烟时间(10年)]。 2.4 模型的验证

将B组资料代入以上数学模型计算所有患者的预测概率，根据截点值T=0.578判断良恶性，并绘制相应的ROC曲线，如图 1。B组ROC为0.905±0.036，灵敏性为79.3%、特异性为84.0%、阳性似然比为4.957、阴性似然比为0.246、阳性预测值为0.920、阴性预测值0.636。

图 1 本文模型ROC曲线(B组) Fig 1 ROC curve for this model (group B)

将C组资料分别代入本文模型、李运模型^[8]、Mayo模型^[2]和VA模型^[9]，绘制ROC曲线，四个模型对应ROC曲线见图 2。通过Z检验，本文模型和其他三个模型的ROC曲线的线下面积差异具有统计学意义(P<0.05)，见表 3。

图 2 四个模型对应ROC曲线(C组) Fig 2 Corresponding ROC curve for the four models (group C)

表 3 四个模型ROC面积差异统计学意义 Tab 3 Statistical significance of the AUC differences for the four models

3 讨论

SPN是指单个被肺组织完全包绕的，直径小于3 cm的类圆形结节，且不伴有肺不张、肺门增大或者胸腔积液等其他异常表现。SPN病因多种多样，可能为恶性疾病如支气管肺癌、类癌、淋巴瘤及其他肿瘤的单个肺转移，也可能为一系列良性病变如非特异性肉芽肿、特异性肉芽肿感染、错构瘤等^[9]。

随着经济的改善、人民健康意识的提高、各种筛查手段(DR、LDCT)以及高分辨率螺旋CT的应用，SPN的检出率越来越高^{[10, 11]}。

2007年新英格兰杂志公布的数据显示：在所有在胸部X线检查中，SPN的检出率为0.09%~0.2%，每年发现的SPN数量为150 000，SPN的恶性概率为10%~70%^[12]。对8个大型肺癌筛查研究回顾性分析发现，SPNs的CT检出率为8%～51%，其中恶性占1.1％～12％^[13]。故当患者胸部CT检查提示存在SPN时，如何对其进行良恶性判断是诊断和后续治疗的关键。

尽管国内外很多SPN管理策略均建议使用1997年建立的Mayo模型来作为初步评估良恶性分层的工具，但此概率计算工具的建立和外部验证研究的对象均非亚裔人群、并且12%病理类型不确定、排除了5年前有肿瘤史的所有患者、近20年来SPNs病理类型的转变、肺癌发病率地域性不同及逐年升高等因素均为此模型应用于国内人群的瓶颈^[14]。

本模型建立及验证共252例患者，均为中国人群。B组83例资料验证所得ROC曲线下面积为0.905±0.036，表明本文模型对于长海病例数据具有较好的预测效果。本研究将77例同时符合本文、李运、Mayo、VA这4个模型的患者资料代入相应的模型公式，绘制ROC曲线，得出的AUC分别是本文模型0.893±0.040，李运模型0.817±0.056，Mayo模型0.804±0.050，VA模型0.780±0.057。四个模型比较结果表明，基于本文模型对于长海医院数据表现更好，而且差异具有统计学意义(P<0.05)。对于本文C组77例数据的验证，李运、Mayo、VA三大模型的ROC曲线相比较，虽然李运模型的AUC参数更佳，但是三者之间的差异并无统计学意义，这与李运应用其自身数据验证以上三大模型所得ROC曲线差异有统计学意义不一样^[15]，说明针对国人病例数据，国内模型可能较国外模型良恶性判别效果更好，但通用性还有待考证。

本模型针对SPN良恶性判别最后筛选出的5个因素为年龄、肿瘤史、结节的最大直径、钙化、透亮影。

年龄、结节的最大直径在国内外各个模型中基本均为独立影响因子^{[2, 16]}。李运模型年龄OR值为1.073^[8]，Mayo模型年龄OR值为1.011，VA模型每增加10岁的OR值为2.200，本模型为1.087与李运模型相近。李运模型最大直径单位是厘米，对应的OR值为1.966^[8]；本模型最大直径对应的OR值为1.117，与Mayo模型较为相近，后者为1.131，VA模型OR值为1.1，后三个模型最大直径的单位均为毫米。肿瘤史为包含5年内、5年外肿瘤史，包含胸外及胸内肿瘤，消除了VA模型无5年外肿瘤史资料的缺陷，同时也解决了Mayo模型及李运模型排除5年内及胸内肿瘤史的非普适性的缺点。钙化OR值本模型为0.064，李运模型为0.199。透亮影为首次出现在SPN良恶性预测模型中，其OR值为3.249。肺部透亮影包括支气管充气征、空泡征、空洞征，为判断肺部阴影良恶性的影像学征象^{[17, 18]}。空泡征在恶性结节中较常见，空洞在良恶性结节中均可出现^{[19, 20, 21]}。既往认为出现在炎性结节中的支气管充气征，也有很多研究表明腺癌、肺泡癌中更为常见^{[17, 22, 23]}。程瑞新等^[24]将肺部透亮影分类为点状透亮影、多点状透亮影、条线状透亮影、空洞形透亮影及不规则透亮，并显示肺结节内点状、多点状透亮影在良、恶性结节中出现率有显著差异。本研究将透亮影作为一整体该选项进行分析，意外发现其为SPN良恶性独立相关因子。肺部透亮影作为一个良恶性独立相关因子为首次提出，其临床应用虽仍需进一步验证，但对于判断SPN良恶性有一定的参考价值。

参考文献

[1]	Gould M K, Sanders G D, Barnett P G, Rydzak C E, Maclean C C, McClellan M B,et al. Cost-effectiveness of alternative management strategies for patients with solitary pulmonary nodules[J]. Ann Intern Med,2003,138:724-735.
[2]	Swensen S J, Silverstein M D, Ilstrup D M, Schleck C D, Edell E S.The probability of malignancy in solitary pulmonary nodules: application to small radiologically indeterminate nodules[J]. Arch Intern Med,1997,157:849-855.
[3]	Gould M K, Donington J, Lynch W R, Mazzone P J, Midthun D E, Naidich D P, et al. Evaluation of individuals with pulmonary nodules: when is it lung cancer? Diagnosis and management of lung cancer,3re ed: American College of Chest Physicians evidence-based clinical practice guidelines[J]. Chest,2013,143(5 Suppl):e93S-e120S.
[4]	中国抗癌协会肺癌专业委员会. 吴一龙, 蒋国樑, 廖美琳, 周清华, 陆舜, 王俊, 等, 孤立性肺结节的处理[J]. 循证医学,2009,4:243-246.
[5]	Swensen S J, Silverstein M D, Edell E S, Trastek V F, Aughenbaugh G L, Ilstrup D M, et al. Solitary pulmonary nodules: clinical prediction model versus physicians[J]. Mayo Clin Proc,1999,74:319-329.
[6]	Herder G J, van Tinteren H, Golding R P, Kostense P J, Comans E F, Smit E F, et al. Clinical prediction model to characterize pulmonary nodules: validation and added value of 18F-fluorodeoxyglucose positron emission tomography[J]. Chest,2005,128:2490-2496.
[7]	Shinohara S, Hanagiri T, Takenaka M, Chikaishi Y, Oka S,Shimokawa H, et al. Evaluation of undiagnosed solitary lung nodules according to the probability of malignancy in the American College of Chest Physicians (ACCP) evidence-based clinical practice guidelines[J]. Radiol oncol,2014,48:50-55.
[8]	李运, 陈克终, 隋锡朝, 卜梁, 周足力, 杨帆, 等, 孤立性肺结节良恶性判断数学预测模型的建立[J]. 北京大学学报(医学版),2011,43:450-454.
[9]	Gould M K, Ananth L, Barnett P G. Veterans Affairs SNAP Cooperative Study Group. A clinical model to estimate the pretest probability of lung cancer in patients with solitary pulmonary nodules[J]. Chest,2007,131:383-388.
[10]	Wender R, Fontham E T, Barrera E Jr, Colditz G A, Church T R, Ettinger D S, et al. American Cancer Society lung cancer screening guidelines[J]. CA Cancer J Clin,2013,63:107-117.
[11]	Aberle D R, DeMello S, Berg C D, Black W C, Brewer B, Church T R, et al. Results of the two incidence screenings in the National Lung Screening Trial[J]. N Eng J Med,2013,369:920-931.
[12]	Ost D, Fein A M, Feinsilver S H. The solitary pulmonary nodule[J]. N Engl J Med,2003,348:2535-2542.
[13]	Patel V K, Naik S K, Naidich D P, Travis W D, Weingarten J A, Lazzaro R, et al. A practical algorithmic approach to the diagnosis and management of solitary pulmonary nodules. Part 1: radiologic characteristics and imaging modalities[J]. Chest,2013,143:825-839.
[14]	Patel V K, Naik S K, Naidich D P, Travis W D, Weingarten J A, Lazzaro R, et al. A practical algorithmic approach to the diagnosis and management of solitary pulmonary nodules. Part 2: pretest probability and algorithm[J]. Chest,2013,143:840-846.
[15]	杨德松, 李运, 姜冠潮, 陈克终, 王俊, 孤立性肺结节良恶性判断数学预测模型的临床验证及应用[J].中华胸心血管外科杂志,2012,28:82-85.
[16]	McWilliams A, Tammemagi M C, Mayo J R, Roberts H, Liu G, Soghrati K, et al. Probability of cancer in pulmonary nodules detected on first screening CT[J]. N Engl J Med,2013,369:910-919.
[17]	Kuriyama K, Tateishi R, Doi O, Higashiyama M, Kodama K, Inoue E, et al. Prevalence of air bronchograms in small peripheral carcinomas of the lung on thin-section CT: comparison with benign tumors[J]. AJR Am J Roentgenol,1991,156:921-924.
[18]	Choi J A, Kim J H, Hong K T, Kim H S, Oh Y W, Kang E Y. CT bronchus sign in malignant solitary pulmonary lesions: value in the prediction of cell type[J]. Eur Radiol,2000,10:1304-1309.
[19]	马大庆. 肺部空洞影像的鉴别诊断[J]. 中华放射学杂志,2004,38:7-9.
[20]	陈楠, 谢坪,付凯. 空泡征对早期肺癌的诊断价值[J]. 医学影像学杂志,2002,12:13-15.
[21]	Gadkowski L B, Stout J E. Cavitary pulmonary disease[J]. Clin Microbiol Rev,2008,21:305-333.
[22]	彭光明, 蔡祖龙, 高元桂, 空气支气管征在周围肺结节中的诊断价值[J]. 中国医学影像技术,1995,2:132-133.
[23]	Jiang B, Takashima S, Miyake C, Hakucho T, Takahashi Y, Morimoto D, et al. Thin-section CT findings in peripheral lung cancer of 3 cm or smaller: are there any characteristic features for predicting tumor histology or do they depend only on tumor size?[J]. Acta Radiol,2013,55:302-308.
[24]	程瑞新, 詹松华, 毕小利, 袁明远, 唐敖荣. 肺结节内透亮影的 CT 表现及其对鉴别诊断的意义[J]. 实用放射学杂志,2008,24:180-182.


第二军医大学 2015, Vol. 36 Issue (4): 407-412	PDF