中国医科大学学报  2021, Vol. 50 Issue (4): 312-317

文章信息

石凤, 陈志鸿, 李光景, 陈升才, 罗小琼, 王俊利
SHI Feng, CHEN Zhihong, LI Guangjing, CHEN Shengcai, LUO Xiaoqiong, WANG Junli
基于TCGA数据库筛选调控mRNA表达的子宫颈癌相关基因
TCGA-based screening for the detection of cervical cancer-related genes that regulate mRNA expression
中国医科大学学报, 2021, 50(4): 312-317
Journal of China Medical University, 2021, 50(4): 312-317

文章历史

收稿日期:2020-07-28
网络出版时间:2021-04-07 16:10
基于TCGA数据库筛选调控mRNA表达的子宫颈癌相关基因
1. 右江民族医学院 附属医院生殖医学中心, 广西 百色 533000;
2. 右江民族医学院 基础医学院, 广西 百色 533000
摘要目的 基于癌症基因组图谱(TCGA)数据库筛选调控子宫颈癌发生发展的遗传突变基因,并探讨突变基因的临床价值。方法 从TCGA数据库下载子宫颈癌相关单核苷酸多态性数据和表达谱数据。通过R软件进行差异表达分析。通过DAVID软件对差异表达基因进行基因本体论(GO)和京都基因与基因组百科全书(KEGG)通路富集分析,并使用String和Cytoscape进行蛋白网络互作分析。筛选与蛋白表达水平相关的突变基因并绘制生存曲线。结果 GO和KEGG富集分析显示突变基因负调控RNA聚合酶Ⅱ启动子区域、参与Notch信号通路及多种致癌过程。DNAH17FBXW7SYNE2 3个突变基因与相应的mRNA表达水平显著相关(P分别为0.020、0.029、0.031)。SYNE2高表达显著降低子宫颈癌患者的无病生存期(P = 0.008)。结论 DNAH17FBXW7SYNE2基因突变可调控mRNA的表达水平,为子宫颈癌的遗传突变风险提供重要的生物信息学理论依据。
关键词生物信息学    子宫颈癌    单核苷酸多态性    
TCGA-based screening for the detection of cervical cancer-related genes that regulate mRNA expression
1. Reproductive Medicine Center of Affiliated Hospital, Youjiang Medical University for Nationalities, Baise 533000, China;
2. Basic Medical College, Youjiang Medical University for Nationalities, Baise 533000, China
Abstract: Objective To evaluate the clinical value of using The cancer genome atlas (TCGA) database to screen for mutant genes that regulate the development and function of cervical cancer cells. Methods Single-nucleotide polymorphisms and data on expression profiles associated with cervical cancer were downloaded from the TCGA database. We used R software to analyze differences in genetic expression; we used online DAVID software to perform gene ontology enrichment analysis and Kyoto encyclopedia of genes and genomes (KEGG) enrichment analysis on differentially expressed genes, and we used String and Cytoscape software to analyze protein network interactions. In addition, we used R software to screen for mutant genes that were associated with protein expression levels, and we analyzed survival curves. Results Gene ontology and KEGG enrichment analyses showed that mutant genes contributed to multiple oncogenic processes, participated in Notch signaling pathways, and negatively regulated the RNA polymerase Ⅱ promoter region. Three mutant genes (DNAH17, FBXW7, and SYNE2) were significantly associated with the expression levels of their corresponding proteins (P = 0.020, 0.029, and 0.031, respectively). Moreover, high SYNE2 expression levels significantly reduced disease-free survival in cervical cancer patients (P = 0.008). Conclusion DNAH17, FBXW7, and SYNE2 mutations regulate mRNA expression; these findings provide an important theoretical basis for the increased risk posed to patients with genetic mutations for cervical cancer.

子宫颈癌是女性最常见的恶性肿瘤之一,世界卫生组织报道子宫颈癌的发病率和死亡率有下降趋势,但每年仍有750 000例新增患者及311 000例患者死于子宫颈癌[1]。子宫颈癌致病因素涉及高危型HPV感染、表观遗传改变和基因序列突变。研究[2]表明多种生物过程的基因变异参与了子宫颈癌的发生发展。基因遗传变异使患者对疾病的易感性和患病后的严重程度各不相同,从分子生物学水平研究子宫颈癌诊断和预后对于患者的个体化和精确治疗至关重要。

基于高通量测序的生物信息学研究癌症的差异表达基因、初步筛选与癌症相关的早期分子诊断和治疗靶点是目前重要的手段之一。单核苷酸多态性(single nucleotide polymorphism,SNP) 是多种癌症的治疗靶点,对于癌症的早期诊断和治疗具有重要意义,一些基因的SNP被矫正可能会逆转癌症的恶性生物学行为。随着全基因组序列的研究进展,越来越多与子宫颈癌易感性相关的SNP被发现[3-5]。癌症基因组图谱(the cancer genome atlas,TCGA) 数据库广泛应用于癌症相关基因的高通量基因组分析,初步筛选与癌症相关的基因。本研究通过对TCGA数据库中与子宫颈癌相关的基因SNP数据进行生物信息学分析,筛选与子宫颈癌相关的突变基因,旨在为阐明子宫颈癌发病机制提供参考。

1 材料与方法 1.1 子宫颈癌SNP数据来源

TCGA数据库SNP原始数据不对外开放,因此从TCGA数据库(https://portal.gdc.cancer.gov/) 下载经处理后的子宫颈癌SNP相关数据,同时下载子宫颈癌mRNA原始数据,共309个mRNA样本,包括3个正常样本和306个肿瘤样本。从SNP相关数据得到子宫颈癌突变基因,利用R语言中的Edger包对mRNA数据进行整合和标准化,得到差异表达基因以及表达水平。

1.2 差异表达SNP功能富集分析

通过DAVID软件对子宫颈癌样本突变 > 20例的突变基因进行基因本体论(gene ontology,GO) 和京都基因与基因组百科全书(Kyoto encyclopedia of genes and genomes,KEGG) 通路富集分析,以P < 0.05为检验水准,获得突变基因的分子功能(molecular function,MF)、生物过程(biological process,BP)、细胞组分(cellular component,CC) 和KEGG通路信息。

1.3 差异表达SNP的mRNA表达

对mRNA整理和标准化来获得mRNA表达水平,对突变例数多的基因进行分析,通过秩和检验得到基因突变与基因mRNA表达水平的相关性,对具有相关性的基因进行生存曲线分析并绘制生存曲线。

1.4 统计学分析

子宫颈癌差异基因使用R软件3.6.0 “Edger”包进行筛选,通过Wilcox秩和检验比较突变基因mRNA的表达水平,通过Kaplan-Meier绘制生存曲线。P < 0.05为差异有统计学意义。

2 结果 2.1 子宫颈癌SNP数据分析

结果显示,有110个基因突变样本超过20例(图 1)。共309个子宫颈癌mRNA样本,癌症样本有306个,设定阈值为4,P < 0.01,对正常组织和子宫颈癌组织样本进行差异表达分析,共获得803个差异表达基因(图 2)。

图 1 突变 > 15例的突变基因瀑布图 Fig.1 Waterfall map of mutated genes from more than 15 samples

Fold change > 4, P < 0.01. red, up-regulated expression; green, down-regulated expression; black, no significant difference. 图 2 差异表达mRNA的火山图 Fig.2 Volcanic map of differentially expressed mRNA

2.2 GO和KEGG富集分析

结果显示,子宫颈癌突变基因参与多种通路途径影响BP和MF。在BP方面,SNP主要影响转录过程,参与RNA聚合酶Ⅱ的负调节和细胞膜黏附分子的黏附能力;在CC中,SNP主要定位于细胞膜和细胞外泌体。在MF方面,SNP主要参与蛋白质结合、Ca2+离子结合、ATP酶结合和激活,见表 1。此外,对突变基因进行KEGG富集分析结果显示,SNP参与多条信号通路(甲状腺激素信号通路和Notch信号通路等),见表 2

表 1 子宫颈癌突变基因的功能富集分析 Tab.1 Functional enrichment analysis of cervical cancer gene mutations
Category Count P
GOTERM_BP_DIRECT
  Negative regulation of transcription from RNA polymerase Ⅱ promoter 11 0.011
  Homophilic cell adhesion via plasma membrane adhesion molecules 7 3.83e-4
  Cytoskeleton organization 6 0.002
  Viral process 6 0.034
  Heterophilic cell-cell adhesion via plasma membrane cell adhesion molecules 5 2.30e-4
  O-glycan processing 5 4.64e-4
  Notch signaling pathway 5 0.005
  Protein stabilization 5 0.009
  Response to hypoxia 5 0.020
  Brain development 5 0.027
GOTERM_CC_DIRECT
  Integral component of membrane 40 0.035
  Extracellular exosome 29 0.002
  Membrane 21 0.027
  Z disc 13 4.05e-12
  Cytoskeleton 10 3.15e-4
  Apical plasma membrane 8 0.001
  Extracellular matrix 7 0.007
  Focal adhesion 7 0.026
  Golgi lumen 6 2.43e-4
  Axonemal dynein complex 5 2.21e-7
GOTERM_MF_DIRECT
  Protein binding 63 0.011
  Calcium ion binding 24 1.14e-11
  ATP binding 23 3.09e-5
  ATPase activity 12 7.96e-9
  Enzyme binding 8 0.003
  Calmodulin binding 7 7.73e-4
  Chromatin binding 7 0.025
  Transcription factor binding 6 0.023
  Ubiquitin-protein transferase activity 6 0.041
  Ion channel binding 5 0.004

表 2 子宫颈癌突变基因KEGG信号通路富集分析 Tab.2 KEGG signaling pathway analysis of cervical cancer gene mutations
KEGG_PATHWAY Count P
hsa05016:huntington's disease 10 2.59e-6
hsa05161:hepatitis B 6 0.002
hsa05215:prostate cancer 5 0.002
hsa04919:thyroid hormone signaling pathway 5 0.006
hsa04330:notch signaling pathway 3 0.037
hsa05205:proteoglycans in cancer 5 0.038
hsa05203:viral carcinogenesis 5 0.041
hsa00310:lysine degradation 3 0.043
hsa05213:endometrial cancer 3 0.043
hsa04110:cell cycle 4 0.044

2.3 突变基因蛋白互作网络(protein-protein interaction networks,PPI)构建及其与mRNA表达水平的相关分析

为了了解蛋白质互作关系,通过String在线软件对110个突变基因构建PPI,包括107个节点和299个边。通过Cytoscape软件的cytoHubba包进行可视化处理,见图 3。对突变基因和经校正后的mRNA表达进行相关性分析。结果显示,DNAH17FBXW7SYNE2 3个与mRNA表达相关的突变基因,DNAH17SYNE2突变后的mRNA表达水平降低,而FBXW7突变后mRNA表达水平升高(P分别为0.020、0.029、0.031),见图 4。对DNAH17FBXW7SYNE2突变基因绘制Kaplan-Meier生存曲线,发现SYNE2高表达显著降低子宫颈癌患者的无病生存期(P = 0.008),见图 5

图 3 子宫颈癌突变基因的PPI网络 Fig.3 PPI networks of cervical cancer mutant genes

A, DNAH17; B, FBXW7; C, SYNE2. 图 4 子宫颈癌突变基因与mRNA表达水平的相关性 Fig.4 Correlation between cervical cancer gene mutations and mRNA expression levels

A, DNAH17; B, FBXW7; C, SYNE2. 图 5 子宫颈癌突变基因的无病生存期(Kaplan-Meier) Fig.5 Disease-free survival in patients with cervical cancer gene mutations (Kaplan-Meier)

3 讨论

SNP指单碱基DNA序列发生突变、逆转、插入和缺失,是人类最常见的遗传变异方式,基因启动子SNP变异可影响RNA聚合酶识别转录起始位置,使mRNA表达水平异常,基因内含子区域SNP影响mRNA可变剪切过程[6]。研究表明,基因突变与子宫颈癌的发病风险有关。DUAN等[7]发现IL-6 -174G > C降低子宫颈癌的发病风险。HABBOUS等[8]发现P53Arg72Pro突变促进HPV阳性患者的子宫颈病变,增加子宫颈癌患病风险。

本研究从TCGA公共数据库下载子宫颈癌相关SNP数据和表达谱数据,通过表达谱数据获取经校正后的基因表达水平和差异表达基因,通过SNP数据筛选出突变基因。为了阐明这些突变基因在疾病中的分子机制,本研究通过GO和KEGG富集分析结果显示,这些突变基因主要定位于细胞膜和细胞外泌体,参与蛋白质结合和ATP酶激活,并参与转录调控作用,包括负调节RNA聚合酶Ⅱ启动子转录。此外,通路分析表明这些突变基因参与Notch信号通路、甲状腺激素信号通路、细胞周期、病毒致癌和多种癌症致病过程。

对突变 > 20例的突变基因表达水平分析结果显示,DNAH17SYNE2突变后的mRNA表达水平降低,而FBXW7突变后的mRNA表达水平升高。进一步对DNAH17SYNE2FBXW7基因进行生存分析发现,SYNE2高表达显著降低子宫颈癌患者的无病生存期(P < 0.05),然而,未发现DNAH17FBXW7基因与子宫颈癌生存期有关,可能是在TCGA数据库子宫颈癌相关SNP数据中,基因突变例数过少,导致生存时间差异不显著。DNAH17是与轴突重链编码的相关基因,FAN等[9]发现DNAH17的异常甲基化水平与肝癌纤维胶囊、肿瘤坏死、肝硬化和肿瘤血栓等临床特征有关。此外,ZHAN等[10]对乙型肝炎病毒相关的早期肝癌组织进行整个外显子进行了测序,发现DNAH17在肝癌中存在高频突变,与本研究通路富集结果一致。子宫颈癌的发生发展主要是HPV持续感染致癌的动态过程,本通路富集分析表明突变基因参与病毒致癌。目前,尚未发现突变基因与子宫颈癌相关性的研究报道,本研究为子宫颈癌的分子机制研究提供了新的理论依据。

FBXW7是包含F框和WD重复域蛋白,属于F盒蛋白家族,是SCFE3泛素连接酶底物识别部位[11]。FBXW7参与细胞调控(细胞周期、细胞分化、细胞增殖和凋亡)。BEN等[12]发现miR-27a-3p通过下调FBXW7促进子宫颈癌细胞增殖。XU等[13]研究发现FBXW7表达水平降低与淋巴血管间隙浸润和淋巴结转移有关,提示患者无病生存期和总体生存期较短。本研究通路富集表明突变基因参与子宫颈癌致癌过程,FBXW7突变使mRNA表达水平升高。因此,突变型FBXW7可能降低子宫颈癌的恶行生物学行为。SYNE2属于巨谱蛋白重复序列(Nesprins) 家族,主要参与连接细胞核与细胞骨架。研究[14]表明SYNE2突变rs4027405与抑癌基因P21表达有关,携带rs4027405 GA/AA基因型的肝癌患者生存期较短、预后较差。本研究中发现SYNE2突变后表达水平降低,且低表达SYNE2的子宫颈癌患者无病生存期较长。

综上所述,通过GO和KEGG富集分析发现DNAH17FBXW7SYNE2参与多种致癌过程。子宫颈癌组织中DNAH17FBXW7SYNE2突变调控mRNA的表达水平,且SYNE2突变患者无病生存期较长,表明SYNE2突变是子宫颈癌的保护因素。本研究为临床诊断和预后评估提供了新的思路,但仍需在今后的临床研究中进一步验证。

参考文献
[1]
BRAY F, FERLAY J, SOERJOMATARAM I, et al. Global cancer statistics 2018:globocan estimates of incidence and mortality worldwide for 36 cancers in 185 countries[J]. CA: Cancer J Clin, 2018, 68(6): 394-424. DOI:10.3322/caac.21492
[2]
CHAUHAN A, PANDEY N, DESAI A, et al. Association of TLR4 and TLR9 gene polymorphisms and haplotypes with cervicitis susceptibility[J]. PLoS One, 2019, 14(7): e0220330. DOI:10.1371/journal.pone.0220330
[3]
WANG LY, LI RL, GUO M, et al. Long noncoding RNA HULC promoter polymorphism rs1041279 is associated with an increased risk of cervical squamous cell carcinoma[J]. Reprod Sci Thousand Oaks Calif, 2020, 27(1): 93-99. DOI:10.1007/s43032-019-00013-8
[4]
ABBAS M, SRIVASTAVA K, IMRAN M, et al. Genetic polymorphisms in DNA repair genes and their association with cervical cancer[J]. Br J Biomed Sci, 2019, 76(3): 117-121. DOI:10.1080/09674845.2019.1592884
[5]
WENG SL, WU WJ, HSIAO YH, et al. Significant association of long non-coding RNAs HOTAIR genetic polymorphisms with cancer recurrence and patient survival in patients with uterine cervical cancer[J]. Int J Med Sci, 2018, 15(12): 1312-1319. DOI:10.7150/ijms.27505
[6]
MUCAKI EJ, SHIRLEY BC, ROGAN PK. Expression changes confirm genomic variants predicted to result in allele-specific, alternative mRNA splicing[J]. Front Genet, 2020, 11: 109. DOI:10.3389/fgene.2020.00109
[7]
DUAN HX, CHEN YY, SHI JZ, et al. Association of IL-6-174G > C (rs1800795) polymorphism with cervical cancer susceptibility[J]. Biosci Rep, 2018, 38(5). DOI:10.1042/bsr20181071
[8]
HABBOUS S, PANG V, ENG L, et al. p53 Arg72Pro polymorphism, HPV status and initiation, progression, and development of cervical cancer: a systematic review and meta-analysis[J]. Clin Cancer Res, 2012, 18(23): 6407-6415. DOI:10.1158/1078-0432.ccr-12-1983
[9]
FAN X, GUO H, DAI B, et al. The association between methylation patterns of DNAH17 and clinicopathological factors in hepatocellular carcinoma[J]. Cancer Med, 2019, 8(1): 337-350. DOI:10.1002/cam4.1930
[10]
ZHAN H, JIANG J, SUN Q, et al. Whole-exome sequencing-based mutational profiling of hepatitis B virus-related early-stage hepatocellular carcinoma[J]. Gastroenterol Res Pract, 2017, 2017: 2029315. DOI:10.1155/2017/2029315
[11]
KITAGAWA K, KITAGAWA M. The SCF-type E3 ubiquitin ligases as cancer targets[J]. Curr Cancer Drug Targets, 2016, 16(2): 119-129. DOI:10.2174/1568009616666151112122231
[12]
BEN W, ZHANG GM, HUANG YG, et al. MiR-27a-3p regulated the aggressive phenotypes of cervical cancer by targeting FBXW7[J]. Cancer Manag Res, 2020, 12: 2925-2935. DOI:10.2147/CMAR.S234897
[13]
XU Y, YU JW, LIU TB, et al. Loss of FBXW7 is related to the susceptibility and poor prognosis of cervical squamous carcinoma[J]. Biomarkers, 2016, 21(4): 379-385. DOI:10.3109/1354750X.2016.1148778
[14]
HAN C, LIAO X, QIN W, et al. EGFR and SYNE2 are associated with p21 expression and SYNE2 variants predict post-operative clinical outcomes in HBV-related hepatocellular carcinoma[J]. Sci Rep, 2016, 6: 31237. DOI:10.1038/srep31237