- 基于TCGA数据库乳头状甲状腺癌miRNA预后风险模型的建立与分析
- Establishment and Analysis of MicroRNA Prognostic Risk Model of Papillary Thyroid Carcinoma Based on TCGA Database
- 肿瘤防治研究, 2020, 47(4): 262-267
- Cancer Research on Prevention and Treatment, 2020, 47(4): 262-267
- http://www.zlfzyj.com/CN/10.3971/j.issn.1000-8578.2020.19.0947
- 收稿日期: 2019-07-24
- 修回日期: 2019-11-01
甲状腺癌是人类内分泌系统和头颈部最常见的恶性肿瘤之一,其发病率在国内外均呈上升趋势[1]。许多危险因素与甲状腺癌的发病相关,包括电离辐射、雌激素、碘摄入和遗传因素等。研究表明,手术联合放化疗以及分子靶向治疗有助于控制甲状腺癌进展,延长患者的无进展生存期,提高总体生存率[2-4]。然而由于早期缺乏典型的临床表现,甲状腺癌很容易被患者自身忽略,从而错过最佳治疗时间[5]。分化型甲状腺癌一般预后较好,但当其失分化为碘难治性甲状腺癌时便进展迅速,病死率较高,预后较差[6]。乳头状甲状腺癌(papillary thyroid carcinoma, PTC)是最常见的甲状腺恶性肿瘤,约占甲状腺癌的80%[7]。据报道,在发达国家PTC的发病率呈上升趋势[8-10],PTC的不良预后因素包括年龄、性别、肿瘤大小等[7]。Grogan等[11]对269例PTC患者进行平均27年的长期随访,结果发现超过25%的患者复发,并且在11%的病例中,PTC复发发生在治疗后20多年。因此,评估患者的疾病进展情况,寻找影响PTC患者预后的相关因素值得重视[12]。
1 资料与方法 1.1 原始数据的下载与处理在TCGA官方网站上下载PTC患者的miRNA测序数据和患者的临床数据。其中癌组织514例,正常甲状腺组织59例。使用Perl5.24.3软件将原始miRNA测序数据转换成miRNA表达矩阵。在分析过程中,若有多个探针检测同一miRNA表达量,则取该miRNA表达量的平均值作为该miRNA的表达值。对于患者临床资料的分析,删除生存时间未知和生存时间为0的患者临床信息。
1.2 差异miRNA的筛选以|log foldchange|≥2,错误发现率FDR < 0.05为筛选条件,使用R3.6.0软件中的edgeR包筛选出在甲状腺癌中差异表达的miRNA。使用ggplot2和heatmap软件程序包绘制差异基因的火山图和热图。
1.3 Cox/Lasso回归分析结合患者的生存信息,首先对上述得到的差异miRNA进行单因素Cox回归分析,计算每个miRNA与甲状腺癌患者生存的风险比(hazard ratio, HR)和P值,以P < 0.05的标准筛选出与甲状腺癌患者预后显著相关的miRNA。将这些miRNA进一步行Lasso回归分析,目的减少基因之间共线性的影响,防止后续构建的风险模型变量过度拟合。Lasso回归使用交叉验证以确定参数,得到合适的模型。再将Lasso回归得到的miRNA进行多因素Cox回归分析,计算每个miRNA的多因素回归系数,构建风险评分方程。
1.4 风险预后模型的建立与分析根据上述多因素Cox回归分析的结果,构建基于miRNA表达的风险评分方程risk score。按照文献报道使用公式:Risk score=β1×miRNA1EXP+β2×miRNA2EXP+......+βn×miRNAnEXP [15-16]。式中β为相应miRNA的多因素回归系数,miRNAEXP为相应miRNA的表达量。根据risk score数值的中位值,将PTC患者分为高风险评分组和低风险评分组。利用R3.6.0软件绘制模型预测预后的列线图,并比较两组患者之间生存的差异。利用R3.6.0软件绘制模型的ROC曲线和校准曲线以评价模型的敏感度和特异性。使用Survival ROC软件程序包计算受试者工作特征曲线(ROC)下面积(AUC)的数值。
2 结果 2.1 差异miRNA的筛选利用|logfoldchange|≥2,FDR < 0.05为筛选条件,在PTC组织中共筛选到差异表达的miRNA75个。其中,上调表达的有70个、下调表达的有5个。根据FDR数值的排序前十位差异表达的miRNA,见表 1。图 1为差异miRNA相应的火山图和热图。图中红色表示与正常甲状腺组织相比,该基因在PTC组织中表达上调;绿色表示与正常甲状腺组织相比,该基因在PTC组织中表达下调。
![]() |
![]() |
图 1 PTC组织中差异表达的miRNA火山图(A)和热图(B) Figure 1 Volcano plot(A) and heat map(B) of differentially-expressed miRNA in PTC tissues |
对上述差异表达的miRNA进行单因素Cox回归分析,计算相应miRNA与甲状腺癌患者的HR和P值,结果共有9个miRNA与甲状腺癌患者生存相关(P < 0.05):hsa-mir-6730、hsa-mir-4709、hsa-mir-196a-2、hsa-mir-146b、hsa-mir-6860、hsa-mir-509-3、hsa-mir-513c、hsa-mir-515-1、hsa-mir-551b。进一步使用lasso回归对这些miRNA进行筛选,见图 2A,并使用交叉验证建立模型,见图 2B。结果共有8个miRNA(hsa-mir-6730, hsa-mir-4709, hsa-mir-196a-2, hsa-mir-146b, hsa-mir-6860, hsa-mir-509-3, hsa-mir-513c, hsa-mir-515-1)纳入分析模型。
![]() |
A: the Lasso regression model and cross validation method were utilized to screen miRNA. When the number of variables was 8, the partial likelihood deviation was the minimum, corresponding to the minimum λ value; B: the regression coefficient map of miRNA in lasso model, and double dashed lines showed the 1-fold standard error of the minimum partial likelihood deviation. 图 2 Lasso回归分析筛选miRNA(A)和交叉验证结果(B) Figure 2 miRNA screened by Lasso regression analysis(A) and cross validation results(B) |
对上述8个miRNA进行多因素Cox回归分析,根据相应的回归系数,建立风险评分方程。Risk score=0.41×hsa-mir-196a-2EXP–0.14×hsa-mir-146bEXP–0.22×hsa-mir-4709EXP+0.83×hsa-mir-509-3EXP –0.03×hsa-mir-513cEXP +0.36×hsa-mir-515-1EXP – 0.33×hsa-mir-6730EXP –0.63×hsa-mir-6860 EXP。根据此方程,计算每位甲状腺癌患者的risk score数值,并根据risk score数值的中位值,将甲状腺癌患者分为高风险评分组和低风险评分组。
2.4 风险预后模型分析根据上述结果,利用R3.6.0软件绘制基于8个miRNA的组合预测甲状腺癌患者生存的列线图,见图 3。
![]() |
图 3 基于8个miRNA表达预测甲状腺癌患者生存的列线图 Figure 3 Nomogram of thyroid cancer patients' survival predicted based on eight miRNA expression |
利用R3.6.0软件绘制模型的ROC曲线以评价模型的敏感度和特异性,见图 4。我们所构建的miRNA模型预测患者3年生存率和5年生存率的ROC曲线下面积数值AUC分别为0.860和0.896,这表明模型具有较好的敏感度和特异性。同时,校准曲线的结果也显示构建的模型可靠,这些结果表明我们构建的miRNA预后模型可以较准确的预测甲状腺癌患者的生存,见图 5。
![]() |
图 4 风险预后模型的ROC曲线 Figure 4 ROC curve of risk prognosis model |
![]() |
图 5 预测模型的校准曲线 Figure 5 Calibration curve of prediction model |
利用R3.6.0软件中的survival程序包分析高低风险评分组患者的生存差异,绘制生存点图,图中绿色点表示未死亡患者,红色点表示死亡患者。随着risk score数值的升高,高风险评分组患者的死亡人数显著多于低风险评分组,说明高风险评分组的患者生存率较差,见图 6。
![]() |
The green dots in the figure represented the surviving PTC patients, and the red dots represented the dead PTC patients. The dotted line represented the median value of risk score. The left side of the dotted line represented the low risk score group, and the right side of the dotted line represented the high risk score group. With the increase of risk score in PTC patients, the number of red dots increased gradually, and the number of dead PTC patients increased. It showed that the high risk group had poorer survival and higher risk of death. 图 6 高低风险评分组患者的生存点图 Figure 6 Survival points diagram of patients in high and low risk groups |
