数据挖掘技术在肺癌危险度预测模型中的应用

本刊由国家卫生和计划生育委员会主管，湖北省卫生厅、中国抗癌协会、湖北省肿瘤医院主办。

文章信息

Application of Data Mining Technology in Risk Prediction Model for Lung Cancer

肿瘤防治研究, 2021, 48(5): 479-483

Cancer Research on Prevention and Treatment, 2021, 48(5): 479-483

http://www.zlfzyj.com/CN/10.3971/j.issn.1000-8578.2021.20.0829

收稿日期: 2020-07-17

修回日期: 2021-02-06

引用本文

高孜博, 李迪, 段书音, 周晓蕾, 刘红, 王静, 王威, 吴拥军. 数据挖掘技术在肺癌危险度预测模型中的应用[J]. 肿瘤防治研究, 2021, 48(5): 479-483.

GAO Zibo, LI Di, DUAN Shuyin, ZHOU Xiaolei, LIU Hong, WANG Jing, WANG Wei, WU Yongjun. Application of Data Mining Technology in Risk Prediction Model for Lung Cancer[J]. Cancer Research on Prevention and Treatment, 2021, 48(5): 479-483.

数据挖掘技术在肺癌危险度预测模型中的应用

高孜博¹ , 李迪¹ , 段书音¹ , 周晓蕾² , 刘红³ , 王静³ , 王威¹ , 吴拥军¹

1. 450001 郑州，郑州大学公共卫生学院;
2. 450052 郑州，河南省胸科医院呼吸内科;
3. 450052 郑州，郑州大学第一附属医院呼吸内科

收稿日期: 2020-07-17; 修回日期: 2021-02-06

基金项目: 国家自然科学基金（81973099）；河南省医学科技攻关计划联合共建项目（2018020544）

作者简介: 高孜博（1996-），女，硕士在读，主要从事肺癌早期筛查和外泌体检测的研究.

通讯作者: 吴拥军（1968-），男，博士，教授，主要从事肺癌早期筛查关键技术的研究，E-mail: wuyongjun135@126.com.

摘要: 目的使用数据挖掘技术建立肺癌危险度预测模型，比较C5.0决策树与人工神经网络用于肺癌风险预测的性能，并探讨其在肺癌风险预测中的价值。方法选择180例肺癌患者及240例肺良性疾病患者，收集肺癌相关危险因素和临床症状共17个自变量，建立C5.0决策树与人工神经网络模型，比较模型的预测性能。结果共收集420份病历资料，将所有样本按7:3随机分为训练集样本和测试集样本。人工神经网络模型的测试集准确度为65.3%、敏感度为61.7%、特异性为73.3%、约登指数为0.350、阳性预测值为54.9%、阴性预测值为73.1%、AUC为0.675（95%CI: 0.628~0.720）。C5.0决策树模型的测试集准确度为61.0%、敏感度为47.8%、特异性80.4%、约登指数为0.282、阳性预测值为35.3%、阴性预测值为80.6%、AUC为0.641（95%CI: 0.593~0.687）。结论人工神经网络模型整体性能优于C5.0决策树，在肺癌危险度的预测中具有潜在的应用价值。

关键词: 肺癌 C5.0决策树人工神经网络风险预测

Application of Data Mining Technology in Risk Prediction Model for Lung Cancer

GAO Zibo¹ , LI Di¹ , DUAN Shuyin¹ , ZHOU Xiaolei² , LIU Hong³ , WANG Jing³ , WANG Wei¹ , WU Yongjun¹

1. College of Public Health, Zhengzhou University, Zhengzhou 450001, China;
2. Department of Respiratory Medicine, Henan Provincial Chest Hospital, Zhengzhou 450052, China;
3. Department of Respiratory Medicine, The First Affiliated Hospital of Zhengzhou University, Zhengzhou 450052, China

Foundation item: National Natural Science Foundation of China (No. 81973199); Henan Medical Science and Technique Joint Project (No. 2018020544)

Competing interests: The authors declare that they have no competing interests.

Corresponding author: WU Yongjun, E-mail: wuyongjun135@126.com.

Abstract: Objective To establish a lung cancer risk prediction model using data mining technology and compare the performance of decision tree C5.0 and artificial neural networks in the application of risk prediction model, and to explore the value of data mining techniques in lung cancer risk prediction. Methods We collected the data of 180 patients with lung cancer and 240 patients with benign lung lesion which contained 17 variables of risk factors and clinical symptoms. Decision tree C5.0 and artificial neural networks models were established to compare the prediction performance. Results There were 420 valid samples collected in total and proportioned with the ratio of 7:3 for the training set and testing set. The accuracy, sensitivity, specificity, Youden index, positive predictive value, negative predictive value and AUC of artificial neural networks model were 65.3%, 61.7%, 73.3%, 0.350, 54.9%, 73.1% and 0.675 (95%CI: 0.628-0.720) in testing set; those of decision tree C5.0 model were 61.0%, 47.8%, 80.4%, 0.282, 35.3%, 80.6% and 0.641 (95%CI: 0.593-0.687) in testing set. Conclusion The artificial neural networks model is superior to the decision tree C5.0 model at overall performance and it has potential application value in the risk prediction of lung cancer.

Key words: Lung neoplasms Decision trees C5.0 Artificial neural network Risk prediction

0 引言

晚期肺癌患者5年生存率仅5%，但若能在早期诊断并治疗，5年存活率可达57%^[1-2]。因此，结合肺癌危险因素及其临床特征建立肺癌危险度预测模型对早期诊断及治疗肺癌，提高患者5年生存率具有重要意义。近年来，数据挖掘技术已经在生物医学预测模型中得到广泛应用。人工神经网络（artificial neural network, ANN）具有良好的鲁棒性、高容错性和较强的归纳能力，而C5.0算法作为决策树模型的常用算法之一，适用于分类变量和大数据集^[3]。因此，该研究拟将肺癌常见危险因素与临床症状相结合，采用C5.0决策树与ANN构建肺癌危险度预测模型，并评价两模型的性能优劣，为肺癌早期筛查及临床辅助诊断提供依据和工具。

1 资料与方法 1.1 研究对象

收集2014年10月至2016年10月郑州大学第一附属医院的住院患者样本420例，其中包括肺癌患者180例，肺良性疾病患者240例。入组患者均知情同意并自愿参加。

入选标准：肺癌组：以《中华医学会肺癌临床诊疗指南（2019版）》为标准^[4]，经病理学或细胞学被证实为原发性肺癌患者；肺良性疾病组：由郑州大学第一附属医院诊断为肺部良性病变患者。排除标准：（1）入组前曾接受放化疗、药物治疗或手术治疗者；（2）主要脏器功能衰竭患者；（3）合并肺或其他恶性肿瘤患者；（4）妊娠或哺乳期患者；（5）不同意入组者。

1.2 观察指标

调查人员经过统一培训后，通过问卷访谈形式对患者进行调查询问获得数据资料，包括流行病学资料（疾病诊断、年龄、吸烟史、饮酒史、粉尘接触史、输血史、肺癌家族史、炎性反应史）和临床症状（咳嗽、咳痰、痰中带血、咯血、胸闷、胸痛、心慌、乏力、畏寒、发热出汗）。其中年龄根据《中华医学会肺癌临床诊疗指南（₂₀₁₉版）》以45岁为界限进行分组。总数据集包括18个定性变量（17个预测变量和1个因变量），因变量为诊断结果，各变量赋值见表 1。

表 1 肺癌危险度评价研究的变量赋值说明 Table 1 Instructions of variables assignment in risk assessment studies of lung cancer

表选项

1.3 统计学方法

应用SPSS21.0对420例样本数据进行统计分析，对所有变量进行描述性统计分析，采用χ²检验进行差异分析，检验水准α=0.05。

使用SPSS Clementine 12.0软件建立两种数据挖掘预测模型，使用MedCalc15.10软件绘制受试者工作特征（receiver operating characteristic curve, ROC）曲线。将两组样本均按照7:3随机分为两部分，其中训练数据集包含302例样本，测试数据集包含118例样本。C5.0决策树模型和ANN模型的比较采用敏感度、特异性、准确度、阳性预测值（positive predictive values, PPV）、阴性预测值（positive and negative predictive values, NPV）、约登指数和ROC曲线下面积（area under ROC curve, AUC）进行评估。

2 结果 2.1 基本情况

420例患者中，肺癌患者180例（42.9%），肺良性疾病患者240例（57.1%）。肺良性疾病患者中小于45岁者（63.8%）明显多于肺癌组（36.2%），差异有统计学意义（P=0.004）。肺癌患者中吸烟、饮酒者（57.1%、55.7%）均多于肺良性疾病患者（42.9%、44.3%）。肺癌组有粉尘接触史或肺癌家族史者分别仅2例。肺良性疾病组中有6例有输血史，而肺癌组中没有。10个临床症状变量中，肺癌组中痰中带血（64.0%）及胸痛（55.3%）的比例高于肺良性疾病患者（36.0%、44.7%）。两组样本的基线特征分析结果见表 2。

表 2 肺癌组和肺良性疾病组的样本基线特征及卡方检验(n(%)) Table 2 Baseline characteristics and chi-square test of lung cancer and lung benign disease groups (n(%))

表选项

2.2 输入变量的选择

两组间年龄（P=0.004）、吸烟史（P < 0.001）、饮酒史（P=0.028）、输血史（P=0.033）、炎症史（P < 0.001）、痰中带血（P=0.001）、胸痛（P=0.006）、乏力（P=0.049）和发热出汗（P < 0.001）9个因素差异有统计学意义，见表 2。此外由于既往研究提示粉尘接触史、癌症家族史、咳痰、咳嗽和咯血为肺癌的影响因素^[4-5]，该研究入选这14个因素作为输入变量建立风险预测模型。

2.3 危险度预测模型的构建与比较

2.3.1 两种风险预测模型的建立

经过训练，C5.0决策树风险预测模型的参数设置如下：Use partitioned data: no, Output type: Decision Tree, Group symbolic: no, Use boosting: yes, Cross-validate: no, Mode: expert, Pruning severity: 75, Minimum records per child brunch: 2, Use global pruning: yes, Window attributes: no, Use misclassification costs: no。ANN风险预测模型的参数设置如下：Use partitioned data: yes, Method: prune, Prevent overtraining sample: 50%, Set random seed: 321, Stop on: time (mins) 1 min, Optimize: memory, Continue training existing model: no; Use binary set encoding: yes, Show feedback graph: yes, Model selection: Use best network, Mode: expert。

2.3.2 两种危险度预测模型的性能比较

两种模型训练集和测试集样本的分类结果见表 3。在训练集与测试集样本中C5.0模型的准确率分别为68.54%和61.0%，ANN模型的准确率分别为69.5%和65.3%。可以看出ANN模型在训练集和预测集中准确度均高于C5.0模型。根据两个数据挖掘模型的ROC曲线中各危险因素对应的AUC评估各自变量对模型的影响大小，重要性前10位影响因素排序见表 4。由表可知，对模型影响最大的三个影响因素在ANN模型中分别是吸烟史、痰中带血与胸痛；而在C5.0模型中分别是吸烟史、胸痛与年龄。在ANN模型和C5.0模型中吸烟均为最主要的影响因素。

表 3 C5.0决策树和ANN模型的训练集和测试集样本分类结果 Table 3 Classification results of training set and testing set samples by Decision tree C5.0 and ANN models

表选项

表 4 C5.0决策树模型和ANN模型中纳入变量的重要性排序 Table 4 Importance ranking of variables in Decision tree C5.0 model and ANN model

表选项

两种数据挖掘模型对肺癌综合预测性能的相关指标包括准确度、约登指数、敏感度、特异性、预测值和AUC。其中C5.0决策树模型的特异性和NPV高于ANN模型，ANN模型预测模型的准确度、约登指数、敏感度、PPV和AUC均高于C5.0决策树模型，见表 5。测试集中两种数据挖掘模型的ROC曲线可发现ANN模型预测性能优于C5.0决策树模型，见图 1。

表 5 两种数据挖掘模型的测试集结果比较 Table 5 Comparison of testing set results between two data mining models

表选项

图 1 测试集中两种数据挖掘模型的ROC曲线 Figure 1 ROC curves of two data mining models in testing set

图选项

3 讨论

当前，肺癌的高发病率和高病死率已经造成巨大的公共卫生负担，利用肺癌的危险因素来预测肺癌危险度，对于肺癌的预防和早期筛查具有重要意义。本研究分别建立了C5.0决策树与ANN肺癌风险预测模型，比较发现，ANN模型预测性能优于C5.0决策树模型。

本研究按照0.05的显著性水平，单因素检验发现有9个变量与肺癌患病率呈相关关系：5个流行病学变量中年龄、吸烟史、饮酒史、炎性反应史与肺癌患病率呈正相关，输血史与肺癌患病率呈负相关；4个临床症状中痰中带血、胸痛与肺癌患病率正相关，乏力和发热出汗与肺癌患病率存在负相关关系。同时，本研究的两种数据挖掘模型中吸烟均为关键影响变量。既往研究表明肺癌常见于70岁以上人群且发病率和死亡率随年龄增加而升高，同时吸烟、饮酒以及慢性炎性反应均为肺癌的危险因素之一^[5]，而围手术期输血对肺癌预后和复发的影响当前研究仍不一致^[6]，这与本研究结果基本相符。有研究显示，遗传因素与职业性粉尘接触也是肺癌的危险因素之一^[7]，这与本研究结果不符。

决策树模型是一种由层次分类逐步构建的贪心算法，作为一种新兴的数据挖掘技术，它可以经过多次迭代演算后得到最优化的算法模型，具有较高的数据分析能力。相关研究已经将C5.0决策树模型用于利用基因表达数据和职业危险因素预测肺癌风险的模型建立^[8-10]。C5.0算法作为决策树模型的常用算法之一，适用于分类变量和大数据集，已经在生物医学预测模型的建立中得到广泛应用。另外一些研究将C5.0决策树模型与其他多种研究进行比较，建立疾病风险预测模型，均得到C5.0决策树模型的预测性能最优的结果^[11-12]。

ANN模型的数学结构模拟人类大脑的生物神经元学习动态，对输入变量经过训练产生一个加权组合的输出结果。ANN相比于一般统计学方法优势显著，具有良好的鲁棒性、高容错性和较强的归纳能力，可以快速识别线性模型、受阈值影响的非线性模型、分类模型、逐步线性模型，甚至偶然影响，故其可以确定潜在的预后影响因素^[13]。已有研究将ANN应用于肺癌风险评估相关模型的构建^{[3, 14]}。该研究结果同样显示ANN模型在准确度、敏感度、约登指数、阳性预测值、ROC曲线下面积均优于决策树模型^[15-16]，这与相关研究结果一致。因此，本研究建议利用ANN模型结合人群的流行病学资料和临床症状判别肺癌高危人群，为肺癌的早期诊断早期治疗提供参考依据^[17]。

本研究仍然存在一定的局限性：一方面，纳入的样本量较少，如果能收集更大样本量和多中心样本资料，样本数据将具有更好的代表性，模型将具有更优异的性能；另一方面，纳入的变量种类有限，而与肺癌相关的危险因素众多且对肺癌存在交互作用，如果能纳入环境因素、职业因素、遗传因素、行为生活方式等多种研究变量，模型将更为准确可靠。因此，我们建议未来的研究应涵盖更大的样本量，纳入更为丰富的研究变量进行综合分析，同时将ANN模型应用于肺癌高危人群中筛查验证。

作者贡献

高孜博：数据分析及撰写论文

李迪、段书音：数据整理与分析

周晓蕾、刘红、王静：论文审阅与修订

王威、吴拥军：研究设计与论文修订

参考文献

[1]	Siegel RL, Miller KD, Jemal A. Cancer statistics, 2020[J]. CA Cancer J Clin, 2020, 70(1): 7-30. DOI:10.3322/caac.21590

[2]	Brownlee AR, Donington JS. Update on Lung Cancer Screening[J]. Semin Respir Crit Care Med, 2020, 41(3): 447-452. DOI:10.1055/s-0039-3400480

[3]	Duan S, Cao H, Liu H, et al. Development of a machine learning-based multimode diagnosis system for lung cancer[J]. Aging (Albany NY), 2020, 12(10): 9840-9854.

[4]	中华医学会, 中华医学会肿瘤学分会, 中华医学会杂志社. 中华医学会肺癌临床诊疗指南(2019版)[J]. 肿瘤研究与临床, 2020, 32(4): 217-249. [Chinese Medical Association, Oncology Branch of Chinese Medical Association, Chinese Medical Journals Publishing House. Chinese Medical Association guidelines for clinical diagnosis and treatment of lung cancer (2019 edition)[J]. Zhong Liu Yan Jiu Yu Lin Chuang, 2020, 32(4): 217-249. DOI:10.3760/cma.j.cn115355-20200202-00036]

[5]	Bade BC, Dela Cruz CS. Lung Cancer 2020: Epidemiology, Etiology, and Prevention[J]. Clin Chest Med, 2020, 41(1): 1-24. DOI:10.1016/j.ccm.2019.10.001

[6]	Sakin A, Sahin S, Yasar N, et al. Prognostic impact of blood transfusion in patients with metastatic non-small cell lung cancer receiving chemotherapy[J]. Lung Cancer, 2019, 133: 38-44. DOI:10.1016/j.lungcan.2019.05.007

[7]	Akhtar N, Bansal JG. Risk factors of lung cancer in nonsmoker[J]. Curr Prob Cancer, 2017, 41(5): 328-339. DOI:10.1016/j.currproblcancer.2017.07.002

[8]	Kim TW, Koh DH, Park CY. Decision Tree of Occupational Lung Cancer Using Classification and Regression Analysis[J]. Saf Health Work, 2010, 1(2): 140-148. DOI:10.5491/SHAW.2010.1.2.140

[9]	Sherafatian M, Arjmand F. Decision tree-based classifiers for lung cancer diagnosis and subtyping using TCGA miRNA expression data[J]. Oncol Lett, 2019, 18(2): 2125-2131.

[10]	Jeong Y, Xie Y, Xiao G, et al. Nuclear Receptor Expression Defines a Set of Prognostic Biomarkers for Lung Cancer[J]. PLoSMed, 2010, 7(12): e1000378.

[11]	王海东, 张璐, 王洁, 等. C5.0决策树与RBF神经网络模型用于急性缺血性脑卒中出血性转化的风险预测性能比较[J]. 中华疾病控制杂志, 2019, 23(2): 227-232. [Wang HD, Zhang L, Wang J, et al. Comparing performance of C5.0 decision tree and radial basis function neural network for predicting hemorrhagic transformation in patients with acute ischemic stroke[J]. Zhonghua Ji Bing Kong Zhi Za Zhi, 2019, 23(2): 227-232.]

[12]	Meng XH, Huang YX, Rao DP, et al. Comparison of three data mining models for predicting diabetes or prediabetes by risk factors[J]. Kaohsiung J Med Sci, 2013, 29(2): 93-99. DOI:10.1016/j.kjms.2012.08.016

[13]	Shi HY, Hwang SL, Lee KT, et al. In-hospital mortality after traumatic brain injury surgery: a nationwide population-based comparison of mortality predictors used in artificial neural network and logistic regression models[J]. J Neurosurg, 2013, 118(4): 746-752. DOI:10.3171/2013.1.JNS121130

[14]	Bertolaccini L, Solli P, Pardolesi A, et al. An overview of the use of artificial neural networks in lung cancer research[J]. J Thorac Dis, 2017, 9(4): 924-931. DOI:10.21037/jtd.2017.03.157

[15]	彭玲, 杨渝伟, 王开正. 系统性红斑狼疮自身抗体谱数据的解读与疾病模型预测[J]. 检验医学与临床, 2018, 15(5): 635-638. [Peng L, Yang YW, Wang KZ. Interpretation and predictive modeling of antibody spectrum data for system lupus erythematosus[J]. Jian Yan Yi Xue Yu Lin Chuang, 2018, 15(5): 635-638. DOI:10.3969/j.issn.1672-9455.2018.05.019]

[16]	Pournik O, Dorri S, Zabolinezhad H, et al. A diagnostic model for cirrhosis in patients with non-alcoholic fatty liver disease: an artificial neural network approach[J]. Med J Islam Repub Iran, 2014, 28: 116.

[17]	Kourou K, Exarchos TP, Exarchos KP, et al. Machine learning applications in cancer prognosis and prediction[J]. Comput Struct Biotechnol J, 2014, 13: 8-17.