肿瘤防治研究  2018, Vol. 45 Issue (7): 441-446
本刊由国家卫生和计划生育委员会主管,湖北省卫生厅、中国抗癌协会、湖北省肿瘤医院主办。
0

文章信息

基因芯片筛选多形性胶质母细胞瘤差异表达基因和通路
Identification of Differently Expressed Genes and Pathways in Glioblastoma Multiforme Using Microarray
肿瘤防治研究, 2018, 45(7): 441-446
Cancer Research on Prevention and Treatment, 2018, 45(7): 441-446
http://www.zlfzyj.com/CN/10.3971/j.issn.1000-8578.2018.17.1403
收稿日期: 2017-11-06
修回日期: 2018-02-27
基因芯片筛选多形性胶质母细胞瘤差异表达基因和通路
石磊, 王建祥, 曹成安, 彭翔     
430030 武汉,华中科技大学同济医学院附属普爱医院神经外科
摘要: 目的 利用基因芯片技术和生物信息学分析方法,筛选出多形性胶质母细胞瘤相关的核心基因和信号通路,为寻找多形性胶质母细胞瘤早期诊断和靶向治疗潜在标志物提供依据。方法 从GEO数据库中获取多形性胶质母细胞瘤mRNA表达谱芯片原始数据,利用R软件分析得到明显差异表达基因(differentially expressed genes, DEGs),对DEGs进行功能注释(GO ontology)和KEGG信号通路(KEGG signaling pathway)富集,进一步构建蛋白质相互作用网络(protein-protein interaction network, PPI),筛选核心基因,最后利用TCGA肿瘤数据库进行验证。结果 通过Pearson聚类分析发现肿瘤和正常组织聚类区分明显,说明表达谱结果可靠;差异基因共2 142个,其中上调基因968个,下调基因1 174个;GO和KEGG富集结果显示,差异基因的功能主要涉及细胞周期、细胞分裂和增殖、突触传递等生物学功能和通路,通路网络分析表明MAPK信号通路起核心调控地位。通过构建PPI网络筛选出9个与GBM密切相关的核心基因,进一步利用TCGA肿瘤数据库验证,与芯片结果一致。结论 KEGG信号通路和核心基因可能揭示了多形性胶质母细胞瘤发生发展的分子机制,核心基因可能用作多形性胶质母细胞瘤的早期诊断的分子标志物和治疗靶点。
关键词: 多形性胶质母细胞瘤     生物信息学     基因芯片     差异表达基因     诊断靶标    
Identification of Differently Expressed Genes and Pathways in Glioblastoma Multiforme Using Microarray
SHI Lei, WANG Jianxiang, CAO Cheng'an, PENG Xiang     
Department of Neurosurgery, Puai Hospital, Tongji Medical College, Huazhong University of Science and Technology, Wuhan 430030, China
Abstract: Objective To identify the hub genes and signal pathways of glioblastoma multiforme(GBM) by microarray and bioinformatics analysis method, and to find out the potential markers for early diagnosis and targeted therapy of GBM. Methods The expression profiling data of GBM was obtained from the GEO database. R software was used to screen differentially expressed genes (DEGs), and DEGs was annotated using DAVID online tools for GO ontology and KEGG signaling pathway enrichment. Moreover, protein-protein interaction network(PPI) was constructed and from which the hub genes were selected. Finally, the TCGA database was used to validate the hub genes. Results Samples Pearson correlation analysis showed that the expression profiling was reliable. Totally 2142 DEGs including 968 up-regulated genes and 1174 down-regulated genes were screened. GO and KEGG enrichment showed that the DEGs mainly correlated with cell cycle, cell division and proliferation, synaptic transmission and other biological functions and pathways. Pathway network analysis indicated that MAPK signal pathway played a core regulatory role in the network. In addition, 9 hub genes most related to GBM were screened from PPI network, and further confirmed by TCGA database. Conclusion KEGG signaling pathways and hub genes may reveal the molecular mechanism of the development of GBM, and the hub genes may be used as the molecular marker for early diagnosis and therapeutic targets of GBM.
Key words: Glioblastoma multiforme     Bioinformatics     Microarray     Differently expressed genes     Diagnosis marker    
0 引言

多形性胶质母细胞瘤(glioblastoma multiforme, GBM)是成人最常见的恶性原发性脑肿瘤之一。目前主要治疗手段包括手术切除联合放疗,但疗效不佳,中位生存期仅12~15月[1]。通过手术获得的肿瘤组织的组织学检查是目前确定性诊断的必要条件。尽管神经系统影像学检查可以提供GBM诊断价值,但对与GBM具有相似的影像学特征的其他脑病变诊断价值不大。因此,在组织学结果不确定或手术禁忌的情况下,筛选GBM分子标志物将为其诊断提供一定帮助。目前已经发现一些GBM中潜在的生物标志物,如PTEN[2]、IDH1[3]、TP53[4]

本研究利用生物信息学方法对基因芯片GSE7696进行分析来获得差异表达基因(differentially expressed genes, DEGs),并对差异基因进行聚类分析和功能富集分析,同时构建蛋白互作(protein-protein interaction, PPI)网络来筛选核心基因,最后通过TCGA肿瘤数据库GBM全基因组表达谱数据,对核心基因的表达水平进行验证,以提供GBM更多可能的潜在诊断和治疗的分子靶标。

1 材料与方法 1.1 芯片数据

从GEO(gene expression omnibus, http://www.ncbi.nlm.nih.gov/geo/)中下载编号为GSE7696[5]的基因芯片,该芯片共有84例样本,包括4例正常脑组织样本(对照组)和80例GBM组织样本(实验组),比较实验组和对照组之间基因表达谱的差异情况。该芯片的平台信息:GPL570(HG-U133 Plus 2.0,Affymetrix Human Genome U133 Plus 2.0 Array)。芯片的探针注释信息来自Affymetrix公司,包含54 675条探针信息。芯片表达谱分析方法利用R软件(https://www.r-project.org/)。

1.2 样本的预处理及聚类分析

从GEO数据库下载原始CEL文件,利用R软件读取原始文件后,使用Affy包中的RMA算法标准化数据后得到基因的表达矩阵,计算样本之间的Pearson相关系数,对所有样本进行聚类分析,剔除离群样本。

1.3 差异表达基因分析

将预处理后得到的基因表达矩阵文件用R软件读入,利用R软件中limma包[6]对80例GBM组织样本和4例正常脑组织样本进行差异表达分析,并且应用贝叶斯检验方法进行多重检验校正。差异基因筛选标准为P < 0.05,基因表达值倍数变化(fold change, FC)≥2或≤-2。

1.4 GO功能注释、KEGG信号富集以及通路网络构建

采用DAVID在线分析平台[7]https://david.ncifcrf.gov/)对差异基因在基因本体(gene ontology, GO)中注释其参与的生物学过程(biological process, BP),并进行京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes, KEGG)通路分析。采用Cytoscape软件对富集到的所有信号通路进行网络构建。

1.5 蛋白互作网络构建及核心蛋白筛选

利用String蛋白互作数据库[8](the Search Tool for the Retrieval of Interacting Genes, STRING, http://string-db.org/)分析GBM组织和正常脑组织差异基因之间的蛋白互作关系,构建蛋白质互作网络,以综合评分(combination score)大于0.4为阈值条件。将STRING中所得蛋白互作网络数据导入Cytoscape软件[9],运用其网络分析(network analyzer)插件计算节点的边(Degree, 即互作连线的数量)筛选网络中心节点(Hub Node)。中心节点对应的蛋白质为具有重要生理调节功能的核心蛋白质(基因)[10]

1.6 核心蛋白(基因)的验证

利用TCGA肿瘤数据库(The Cancer Genome Atlas Database, https://cancergenome.nih.gov/)获取169例GBM样本和5例正常脑组织样本全基因组表达谱数据,对PPI网络的核心基因进行进一步验证。

1.7 统计学方法

采用SPSS19.0统计软件。两组比较采用t检验,P < 0.05为差异有统计学意义。

2 结果 2.1 样本聚类分析

Pearson相关分析结果显示80例GBM组织样本和4例正常脑组织样本聚类良好,无离群样本,84例样本均可用于下一步分析,见图 1

图 1 80例GBM组织样本和4例正常脑组织样本聚类情况 Figure 1 Cluster dendrogram of 80 GBM tissue samples and four normal brain tissue samples
2.2 差异表达基因

P < 0.05,基因表达值倍数变化≥2或≤-2为筛选条件。GBM组织和正常脑组织DEGs一共2 142个,其中上调基因968个,下调基因1 174个,见图 2。差异基因基本能够区分肿瘤组织样本和正常组织样本。

Red: high expression; Green: low expression 图 2 差异基因热图 Figure 2 Heatmap of differentially expressed genes
2.3 差异表达基因生物学功能注释

GO功能注释显示,GBM中差异表达基因富集到的生物学过程(biological process, BP)中富集度最高的20条,见图 3A。其中与GBM密切相关程度最高的3个生物学过程是突触传递(synaptic transmission)、有丝分裂细胞周期(mitotic cell cycle)、细胞分裂(cell division)。图 3A中每一条横柱代表一个生物学过程,横柱的长度代表富集到的差异基因数目,颜色越红表示P值越小,越具有统计学意义,下同。

A: GO ontology analysis of differentially expressed genes; B: KEGG pathway enrichment analysis of differentially expressed genes; C: network chart of pathways 图 3 基因功能富集和KEGG通路富集 Figure 3 Functional enrichment and KEGG pathway enrichment analysis
2.4 差异表达基因KEGG信号通路及信号通路网络(pathway network)

利用DAVID在线富集工具将差异基因进行KEGG信号通路富集,图 3B显示富集度最高的20条通路。其中在GBM中明显富集且研究较多的3条信号通路有细胞周期(cell cycle)、MAPK信号通路(MAPK signaling pathway)以及PI3K-Akt信号通路(PI3K-Akt signaling pathway)。信号通路网络图(图 3C)显示MAPK信号通路、凋亡(apoptosis)、细胞周期以及P53信号通路(P53 signaling pathway)在通路网络中处于核心地位,说明他们在GBM的发生发展中起到极其重要的作用。图 3C中点的大小代表degree值,点越大代表通路越核心;颜色反映了通路中差异表达基因的情况,红色代表差异基因全部上调,蓝色代表下调,黄色代表既有上调又有下调。带箭头的实线表示两个信号通路之间的上下游关系,箭头起始端为上游的信号通路,箭头指向端为下游的信号通路。

2.5 通过Cytoscape软件构建的蛋白互作网络

网络分析显示,根据每个基因的节点数目排序,节点数目最多的基因,代表在整个PPI网络中所起的作用越大,即最相关的核心基因,有CDK1、KIF2C、BIRC5、CDC20、KIF11、CENPA、KIF20A、TOP2A、NDC80等9个核心基因,见图 4。这9个核心基因中全部在GBM中表达升高,差异有统计学意义,见表 1

Red: high expression; Blue: low expression; Yellow: nine hug genes with the highest connectivity 图 4 蛋白相互作用网络图 Figure 4 Protein-protein interaction network of differentially expressed genes

表 1 GBM基因芯片数据GSE7696中9个核心基因表达情况 Table 1 Detailed information of the nine hub genes in GSE7696 gene chip
2.6 核心基因TCGA肿瘤数据库验证

从TCGA肿瘤数据库获取169例GBM样本和5例正常脑组织样本全基因组表达谱数据,比较这9个核心基因在GBM和正常组织中的转录水平,相对于正常组织,9个基因在GBM样本中表达明显升高,差异有统计学意义(P < 0.001),见图 5(略)。

3 讨论

目前基因芯片在疾病的诊断,特别是肿瘤和正常组织对比、肿瘤组织来源的鉴别等方面具有重要作用。它可用于肿瘤基因表达检测,寻找新基因,为寻找肿瘤的分子靶标提供了一个重要手段。

本研究从GEO芯片数据库获取了美国Affymatrix公司全基因组表达谱芯片,包括80例GBM组织和4例正常的脑组织样本,进行深入分析,以Fold Change绝对值≥2和差异显著性指标P < 0.05为条件,我们获得差异表达基因的数目为2 142个,其中上调968个,下调1 174个。这一结果提示在GBM发生发展的过程中,多种肿瘤相关的基因表达异常或者肿瘤抑制基因表达失活,说明GBM是由多个分子生物学调节异常共同导致。

为了探究这些调节异常基因在GBM中所起的生物学作用,我们将获得的2 142个差异基因进行GO功能注释,结果发现这些基因群主要参与细胞周期、细胞增殖、信号转导以及小分子物质代谢过程,由此说明这些生物学过程的调节异常是导致GBM发生发展的重要因素。同时,为了探究这些基因群所参与的信号通路过程,我们将差异基因进行了KEGG信号通路富集分析,同样发现细胞周期的异常调节在GBM中占有重要地位,其他明显富集到的信号通路有PI3K-AKT信号通路,肿瘤相关信号通路、钙离子信号通路以及MAPK信号通路。对富集到的信号通路进行网络分析后发现,MAPK信号通路处于通路网络的核心,由此说明GBM的发生与该信号通路密切相关。MAPK又称丝裂原活化蛋白激酶,是信号从细胞表面转导到细胞核内部的重要传递者,许多肿瘤的发生和发展都与MAPK信号通路的异常调节有关[11]。以上结果对于研究GBM的生物学发生过程具有很好的提示作用,有待进一步验证。

在9个核心基因中,与细胞周期调节有关的有CDK1和CDC20。CDK1又称细胞周期蛋白依赖性激酶1,是一种高度保守的蛋白质,起到丝氨酸/苏氨酸激酶的作用,是细胞周期调控的关键参与者。CDK1的过度表达与多种肿瘤细胞的增殖密切相关[12]。CDC20又称细胞分裂周期蛋白20,通过与其他几种蛋白质相互作用从而在细胞周期的多个点上起到调节作用[13]

与细胞分裂有关的基因有KIF2C、KIF11、CENPA、KIF20A、TOP2A、NDC80。KIF2C属于驱动蛋白样蛋白家族的成员,该家族的大多数蛋白质是微管依赖的分子马达,在细胞分裂期间运输细胞器中的细胞器并移动染色体。最新的研究表明,沉默KIF11可以导致染色体的不稳定从而促进肿瘤的发生[14]。CENPA是修饰的核小体或核小体样结构的组成部分,其含有靶向着丝粒所需的组蛋白H3相关蛋白结构域,在细胞的有丝分裂中发挥重要作用,研究表明CENPA是乳腺癌潜在的预后生物标志物,其表达增加与乳腺癌的不良预后有关[15]。KIF20A过表达与宫颈癌患者进展和不良预后有关[16],并且,研究发现KIF20A在神经胶质瘤组织中高表达并且提示预后不良[17]。TOP2A基因编码DNA拓扑异构酶,是一种控制和改变转录过程中DNA拓扑状态的酶,在乳腺癌[18]、神经母细胞瘤[19]、肺癌[20]等肿瘤中高表达,并且促进肿瘤细胞的增殖和迁移。NDC80在细胞有丝分裂的过程中主要参与染色体的正确分离的调控,有研究发现过表达NDC80后能够明显促进结肠癌细胞的增殖和迁移[21]

BIRC5又称survivin蛋白或者存活蛋白,凋亡抑制剂家族的成员。survivin蛋白抑制半胱天冬酶活性的作用,从而负性调控导致凋亡。抑制survivin蛋白导致细胞凋亡增加和肿瘤生长减少[22]。数据表明survivin蛋白可能作为癌症治疗的新靶标。最近研究发现survivin蛋白的核表达是GBM患者预后不良的一个因素,survivin蛋白亚细胞定位可以帮助预测用标准方案治疗的GBM患者的总生存期[23]

综上,应用基因表达谱芯片可以筛选GBM相关基因及信号通路,是否是GBM特异的敏感基因需要更多病例验证以及细胞实验的进一步研究,希望从中能筛选出有助于GBM早期诊断和治疗的分子标志物或基因治疗靶点。

参考文献
[1] Ostrom QT, Gittleman H, Xu J, et al. CBTRUS Statistical Report: Primary Brain and Other Central Nervous System Tumors Diagnosed in the United States in 2009-2013[J]. Neuro Oncol, 2016, 18(suppl_5): v1–v75. DOI:10.1093/neuonc/now207
[2] Benitez JA, Ma J, D' Antonio M, et al. D' Antonio M, et al. PTEN regulates glioblastoma oncogenesis through chromatin-associated complexes of DAXX and histone H3.3[J]. Nat Commun, 2017, 8: 15223. DOI:10.1038/ncomms15223
[3] 施金龙, 陈建, 倪兰春, 等. 星形细胞胶质瘤中IDH1基因突变及DNA甲基化分析[J]. 中华神经外科杂志, 2013, 29(3): 255–8. [ Shi JL, Chen J, Ni LC, et al. IDH1 mutation and DNA methylation of astrocytic glioma patients[J]. Zhonghua Shen Jing Wai Ke Za Zhi, 2013, 29(3): 255–8. ]
[4] Cho SY, Park C, Na D, et al. High prevalence of TP53 mutations is associated with poor survival and an EMT signature in gliosarcoma patients[J]. Exp Mol Med, 2017, 49(4): e317. DOI:10.1038/emm.2017.9
[5] Murat A, Migliavacca E, Gorlia T, et al. Stem cell-related " self-renewal" signature and high epidermal growth factor receptor expression associated with resistance to concomitant chemoradiotherapy in glioblastoma[J]. J Clin Oncol, 2008, 26(18): 3015–24. DOI:10.1200/JCO.2007.15.7164
[6] Ritchie ME, Phipson B, Wu D, et al. Limma powers differential expression analyses for RNA-sequencing and microarray studies[J]. Nucleic Acids Res, 2015, 43(7): e47. DOI:10.1093/nar/gkv007
[7] Huang da W, Sherman BT, Lempicki RA. Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources[J]. Nat Protoc, 2009, 4(1): 44–57. DOI:10.1038/nprot.2008.211
[8] Szklarczyk D, Morris JH, Cook H, et al. The STRING database in 2017: quality-controlled protein-protein association networks, made broadly accessible[J]. Nucleic Acids Res, 2017, 45(D1): D362–8. DOI:10.1093/nar/gkw937
[9] Shannon P, Markiel A, Ozier O, et al. Cytoscape: a software environment for integrated models of biomolecular interaction networks[J]. Genome Res, 2003, 13(11): 2498–504. DOI:10.1101/gr.1239303
[10] Chen F, Shen C, Wang X, et al. Identification of genes and pathways in nasopharyngeal carcinoma by bioinformatics analysis[J]. Oncotarget, 2017, 8(38): 63738–49.
[11] 崔婷婷. MAPK信号传导通路与肿瘤的发生[J]. 实用肿瘤杂志, 2013, 28(5): 550–2. [ Cui TT. MAPK signaling pathway and tumorigenesis[J]. Shi Yong Zhong Liu Za Zhi, 2013, 28(5): 550–2. ]
[12] 赵志强, 张培礼. CDK1在肿瘤中的研究进展[J]. 北方药学, 2013, 10(4): 49–50. [ Zhao ZQ, Zhang PL. The research Progress of CDK1 in Tumor[J]. Bei Fang Yao Xue, 2013, 10(4): 49–50. ]
[13] Wang Z, Wan L, Zhong J, et al. Cdc20: a potential novel therapeutic target for cancer treatment[J]. Curr Pharm Des, 2013, 19(18): 3210–4. DOI:10.2174/1381612811319180005
[14] Asbaghi Y, Thompson LL, Lichtensztejn Z, et al. KIF11 silencing and inhibition induces chromosome instability that may contribute to cancer[J]. Genes Chromosomes Cancer, 2017, 56(9): 668–80. DOI:10.1002/gcc.v56.9
[15] Rajput AB, Hu N, Varma S, et al. Immunohistochemical Assessment of Expression of Centromere Protein-A (CENPA) in Human Invasive Breast Cancer[J]. Cancers (Basel), 2011, 3(4): 4212–27. DOI:10.3390/cancers3044212
[16] Zhang W, He W, Shi Y, et al. High Expression of KIF20A Is Associated with Poor Overall Survival and Tumor Progression in Early-Stage Cervical Squamous Cell Carcinoma[J]. PLoS One, 2016, 11(12): e0167449. DOI:10.1371/journal.pone.0167449
[17] Duan J, Huang W, Shi H. Positive expression of KIF20A indicates poor prognosis of glioma patients[J]. Onco Targets Ther, 2016, 9: 6741–9. DOI:10.2147/OTT
[18] 汤小江, 周瑜辉, 张伟, 等. TOP2A基因表达与乳腺癌HER2通路的相关性[J]. 西安交通大学学报(医学版), 2015, 36(4): 519–22, 557. [ Tang XJ, Zhou YH, Zhang W, et al. Correlation between expression of TOP2A and HER2 signaling pathway in breast cancer[J]. Xi' an Jiao Tong Da Xue Xue Bao(Yi Xue Ban), 2015, 36(4): 519–22, 557. ]
[19] 陈佳敏, 周春菊, 马晓莉, 等. 儿童神经母细胞源性肿瘤TOP2A蛋白表达及其基因拷贝数的变化[J]. 中华病理学杂志, 2016, 45(11): 748–54. [ Chen JM, Zhou CJ, Ma XL, et al. Abnormality of TOP2A expression and its gene copy number variations in neuroblastic tumors[J]. Zhonghua Bing Li Xue Za Zhi, 2016, 45(11): 748–54. DOI:10.3760/cma.j.issn.0529-5807.2016.11.002 ]
[20] 韩正祥, 张梦瑾, 张英楠, 等. TOP2A在非小细胞肺癌中的高表达促进肿瘤细胞的增殖和侵袭能力[J]. 现代肿瘤医学, 2016, 24(9): 1371–5. [ Han ZX, Zhang MJ, Zhang YN, et al. Overexpression of TOP2A in non-small cell lung cancer promotes cancer cell proliferation and invasion[J]. Xian Dai Zhong Liu Yi Xue, 2016, 24(9): 1371–5. ]
[21] Xing XK, Wu HY, Chen HL, et al. NDC80 promotes proliferation and metastasis of colon cancer cells[J]. Genet Mol Res, 2016, 15(2).
[22] Sah NK, Khan Z, Khan GJ, et al. Structural, functional and therapeutic biology of survivin[J]. Cancer Lett, 2006, 244(2): 164–71. DOI:10.1016/j.canlet.2006.03.007
[23] Saito T, Sugiyama K, Takeshima Y, et al. Prognostic implications of the subcellular localization of survivin in glioblastomas treated with radiotherapy plus concomitant and adjuvant temozolomide[J]. J Neurosurg, 2018, 128(3): 679–84. DOI:10.3171/2016.11.JNS162326