浙江大学学报 (农业与生命科学版)  2016, Vol. 43 Issue (1): 15-23
文章快速检索     高级检索
多层网络模型在水稻与癌症蛋白质互作网络中的应用[PDF全文]
翁宇豪, 陈铭    
浙江大学生命科学学院生物信息学系, 杭州310058
摘要: 网络是研究系统间连接结构的学科方法与研究技术。本文介绍单层网络和多层网络模型的数学理论, 以及多层网络中多重度、重叠度与激活度、重叠性、度关联函数、参与系数以及度相关系数的概念, 并将这些分析方法运用到了水稻细胞、癌症细胞和正常组织的蛋白质互作网络 (protein-protein interaction networks,PPI) 中, 研究它们的特殊结构与性质。在水稻的蛋白质互作网络中, 发现它的重叠度与激活度呈幂律分布; 通过参与系数的分析发现了与细胞整体功能相关的重要蛋白质; 通过相关系数热图分析发现了关联性较强的细胞器以及关联性较弱的细胞器。在癌症组织PPI以及正常组织中, 通过重叠性图谱分析和核心网络比对的方法,发现了癌症网络的核心网络的规模比正常组织大, 且具有强核心结构、高度均质性以及不易受到攻击而崩溃的特点; 发现了非平凡的重叠度和激活度分布, 并分析了癌症与正常组织在结构和功能上的差异。
关键词: 单层网络    多层网络    水稻    癌症    正常组织    
Application of multilayer network in protein-protein interaction networks (PPI) of rice and cancer
WENG Yuhao, CHEN Ming    
Department of Bioinformatics, College of Life Sciences, Zhejiang University, Hangzhou 310058, China
Abstract: Network is a disciplinary methodology to study the connecting patterns of complex systems. Network science has developed fast and obtained surprising results in lots of areas. However, single-layer network is powerless facing various relationships in real systems. Therefore, it is necessary to create a new model to break the bottleneck. This paper describes the multilayer network which is powerful in dealing with these problems. Most protein interactions in organisms can be simplified as networks (PPI), but we can not locate each protein specifically in a single-layer PPI network model which makes it difficult to study the difference between PPI in special regions in an organism and the whole PPI in an organism. We divided the rice cell into several organelles to study the relationship between organelles and cell functions. Moreover, we used different cancer tissues and normal tissues in human body to construct two multilayer PPI and study the underlying mechanics of cancer comparing with the normal tissues. We introduced the mathematical theories of multilayer networks along with the concept of multi-degree, overlap of edge, activity of node, multiplexity, degree correlation, participation coefficient and degree correlation coefficient, which are used to analyze the nontrivial structure and properties in PPIs of rice, cancer and normal tissue. In rice PPIs, we investigated the power-law distribution of edge overlap and node activity, and found important proteins related to functional organelles in cell by analyzing participation coefficient, and organelles of strong correlations or weak correlations by analyzing heat map of layer’s degree. In PPIs of cancer and normal tissue, we discovered that there are strong core structure, high homogeneousness and robustness in cancer by multiplexity diagram analysis and alignment of core networks, and the nontrivial distribution of overlap and activity. There are more core proteins in cancer than in normal tissues and various types of cancers have mostly the same core structure along with the degeneration of tissue-specified proteins. It is indicated that the core structure of cancer PPIs is related to cell proliferation, growth and transfer. Moreover, different cancers have their own specified proteins that are probably encoded by different oncogenes which lead to series of gene expressions and biochemical reactions during the formation of the same core network. The former results showed that multilayer networks is a creative and powerful tool in studying complex systems and can be used in biology widely to find nontrivial properties and mechanism of biology phenomenon.
Key words: Key words single-layer network    multilayer network    rice    cancer    normal tissue    

网络科学的目标主要是研究系统主体间的连接模式。网络的概念最初产生于欧拉发明的图论, 随后经历了包括ER随机图理论在内的迅速发展。而从1998年开始, 小世界效应[1]和无标度现象[2]的相继提出, 标志着以复杂网络为研究对象的网络科学[3]的兴起, 之后相继提出了许多度量属性、整体属性、动态过程方面的理论[4], 并在实际应用领域取得极大的成功。然而近年来, 单层网络模型的发展遇到了瓶颈, 它没有办法描述实际系统中复杂多样的作用关系, 从而无法将系统的真实信息完整而又精确地保留下来。

多层网络 (multilayer network)[5]是将许多单层网络通过层间的关系而连接起来得到的联合网络, 可以用张量形式表示。多层网络的模型可以表示对象间多种类型的作用关系, 也可以用于研究不同尺度、不同层级以及动态的网络, 在生物领域也有广泛的运用。而在蛋白质互作网络 (protein-protein interaction networks,PPI) 中, 以往的研究多是通过单层网络模型, 而多层网络模型还没有得到充分的应用。

1 材料与方法 1.1 多层网络模型的数学基础

一个多层网络的标准数学表示[5-6]M=(G, C),其中G={Gα; α∈{1, …, M}}是一系列图Gα=(Xα, Eα)(有向或无向、有权或无权) 的集合,这些图叫做M的层;而C= EαβXα×Xβ; α, β∈{1, …, M}, αβ是属于不同的层Gα, Gβ(αβ) 节点之间所有连接的集合全体 (若α=β,则Eαβ就代表Gα)。C中的元素Eαβ称为交错层,每一Eα中的元素称为M的层内连接,而Eαβ(αβ) 内的元素称为M的交错层间连接。

多次网络 (multiplex network)[7-8]是网络的特殊情形, 即X1=X2=…=XM=X,而且唯一的层间连接是一个层中某一节点与其他层中它自身的连接,即对于任意αβEαβ={(x, x); xX}。图 1是一个2层的多层网络,每一层拥有相同的节点数,层之间通过相同点之间对应的连接 (图 1中垂直的虚线表示边) 将2层连接起来。在多次网络中,用kiα表示节点i在第α层的度。一个多次网络的整合层 (aggregation layer) 定义为(XAEA), 其中XA=XEA为所有层的边的并,${E_A} = \bigcup\limits_{i = 1}^n {{E_i}} $(即若一对节点在某一层中相连,当且仅当它们在整合层中相连);一个多次网络的重叠层 (overlap layer) 定义为XOEO, 其中XO=X, EO为所有层的边的不交并$ {E_O} = \coprod\limits_{i = 1}^n {{E_i}} $(此运算符号表示一列集合不交并),即重叠层中一对节点的边是这对节点在所有层中所连的边的集合。

图1 多层网络图 Fig. 1 Illustration of multilayer network
1.2 生物网络数据

生物网络主要包括基因调控网络、蛋白质互作网络、代谢网络、大脑神经网络、生态系统网络等。在之前的研究中, 已经发现生物网络的特性主要有稀疏性、小世界性、无标度性、异配性[9]等非平凡的性质。

本文中的数据主要来源于2个数据库, 其一是来自BIS (http://bis.zju.edu.cn/) 上的RiceNet数据库, 它是根据基因注释而建立的具有解释意义的数据库, 包含了水稻 (Oryza sativa) 中有空间定位的基因调控信息、蛋白质互作信息以及代谢网络信息。文中选取了RiceNet的蛋白质调控网络 (后称RicePPI), 它可以定位到10个特定空间中, 分别是叶绿体、线粒体、细胞核、细胞质、细胞膜、液泡、过氧化物体、内质网、细胞外以及未定位。研究的目的在于发现水稻细胞中与细胞整体功能有关的重要蛋白质, 以及研究细胞器之间的关联性[10]

第二个数据来源是BIS上的CancerNET数据库[11], 它整合了人类癌症的特异性作用 (mRNA, 蛋白质, 代谢) 的数据库。文中选取其中的15种癌症, 用于构建多层网络。另外,选取了15个与这些癌症有明确人体位置对应的正常组织PPI而组成了另一个多层网络, 用于对比分析, 意在发现癌症的多层网络与正常PPI的差异, 阐释肿瘤和疾病的PPI的作用机制[12]以及癌症基因编码的蛋白质在癌症多层网络的特殊地位与作用。

2 单层网络模型

RicePPI和CancerPPI (癌症PPI) 的每一层都是单层网络, 可以用单层网络的模型对于网络进行分析, 了解网络整体概貌。表 1给出了水稻细胞中各层的基本属性, 可以看到RicePPI由4 883个蛋白质节点和36 811个蛋白质边互作关系组成, 有133个连通分支, 密度为0.003, 是典型的稀疏网络; RicePPI的10个区域定位的子网络中, 最主要的组成部分有5个——线粒体、叶绿体、细胞核、细胞质和细胞膜, 它们的成分占据整个RicePPI的95%以上; RicePPI具有小世界效应 (聚集系数相对较大, 平均路径长度相对较小), 具有异质性, 并且RicePPI的不同细胞器的PPI中也呈现出了相同的性质; 线粒体、叶绿体和细胞核的PPI的巨片比例相对其他网络要大, 说明在这3个地方的蛋白质有更加紧密的联系。

表1 RicePPI中9个单层网络和整合网络的基本度量属性表 Table 1 Basic metrics of nine single-layer and aggregate layer in RicePPI
点击放大

表 2给出了15种癌症以及与其对应的正常组织的PPI的规模比对, 图 2给出了癌症与正常组织PPI的图示。可以发现, 正常组织网络的规模普遍比癌症网络的规模大, 这说明正常组织中的某些功能蛋白质在癌症中消失了。为了研究癌症PPI和正常组织PPI核心结构的差异, 抽提出多层网络的核心网络, 即所有层共有的最大子网络。通过抽提我们得到了癌症核心网络 (cancer intersect) 和正常组织核心网络 (normal intersect) 以及这2个核心网络的交 (intersect), 其基本信息体现在表 3中。

表2 15种癌症组织和与其对应的正常组织网络规模 Table 2 Network sizes of 15 cancers and normal tissues
点击放大

A:癌症;B:正常组织。 A:cancer; B: normal tissue. 图2 大脑内蛋白质网络图 Fig. 2 Single-network PPI diagram of brain

表3 核心网络基本信息比对 Table 3 Basic information of core network
点击放大

可见, 癌症核心网络的规模远比组织核心网络的规模要大, 也就是说15个癌症网络中共同存在的蛋白质互作对远比正常组织要多。这表明癌症组织中具有高度的一致性。基于以往对于肿瘤的研究结果, 可以认为由于细胞恶性增殖现象作为主要的生化过程, 导致了在不同癌症中一系列相似的生化代谢过程的出现, 使得不同组织的部分异质性被消除, 从而使得癌症中的核心网络的规模变大, 而组织的特异性功能变弱。而在NormalPPI (正常组织PPI) 中, 由于不同组织拥有特异性结构、功能的原因, 不同层的差异性较大, 故核心网络的规模较小。除此之外, 还可以观察到组织核心交的大部分成分 (85%) 均在癌症核心网络中出现, 这说明正常组织的核心网络基本在癌症网络中被保留了, 它们是维持细胞、组织的基本生命活动的必要组分。

3 多层网络模型

通过将在不同细胞器或不同癌症中出现的同一蛋白质视为相同的点, 就能建立多次网络, 下面用多层网络的分析方法对其进行研究, 试图找到单层网络模型无法发现的非平凡性质[5, 8, 13]

3.1 多重度

点的多重度 (multi-degree) 是指一个节点在不同层中的度所组成的向量, 向量在第i位的值代表了该节点在第i层中的度。表 4展示了RicePPI中4个主要网络的多重度, 并且根据重叠层中的度 (即各层度之和) 进行了排序。可以发现, 排名较高的蛋白质中, 大部分都同时出现在细胞质和细胞核中, 小部分只出现在细胞核或细胞质中, 它们都是由持家基因编码的维持细胞生命活动所必需的蛋白质。

表4 RicePPI中蛋白质的多重度分布及功能 Table 4 Multi-degree and function of protein in RicePPI
点击放大
3.2 重叠度与激活度

边的重叠度 (edge overlap) 是指一条边在不同层中出现的次数之和, 点的激活度 (node activity) 是指一个点在不同层中激活 (节点i在第α层中激活代表kiα大于0) 的次数之和。它们分别代表了边和点在网络中的多重性, 重叠度或激活度高的边或点表示在多层网络中扮演多重的角色。

从RicePPI中边的重叠度分布 (图 3) 以及点的激活度分布 (图 4) 可以看出, 它们都呈幂律分布, 大部分的边和点都出现1次, 只有少数的边和点出现多次, 即水稻细胞中只有少数的蛋白质和蛋白质对具有多重性。

图3 RicePPI中边的多重性 Fig. 3 Overlap of edges in RicePPI

图4 RicePPI中点的激活度 Fig. 4 Activity of nodes in RicePPI

从CancerPPI与NormalPPI边的重叠度分布图 (图 5) 以及点的激活度分布图 (图 6) 可以发现, 它们与RicePPI中的分布模式完全不同。在激活度A=15的点, CancerPPI的值是明显高于NormalPPI的, 这说明在癌症中, 核心蛋白质数量比正常组织要多; 癌症都具有相似的核心结构, 不同癌症组织各自的组织特异性功能均有所退化, 主要保留了细胞生长、增殖、转移相关的蛋白质; A=1处, CancerPPI也大于NormalPPI, 这说明各层癌症的自身持有的特异性蛋白质也比正常组织要多, 这些蛋白质可能是各自的致癌基因编码的组织特异性的致癌蛋白, 它们能引发一系列相同的核心基因的表达和生化调控, 从而激活了相同的核心网络结构的表达, 形成了我们看到的癌症的强核心结构、均质性的特点。然而中激活度 (A=2~14) 区域, CancerPPI的数量则要少很多, 这说明CancerPPI的多重性相对NormalPPI较弱, 它主要是由高度统一的核心结构网络和一些癌症组织特异性蛋白质而形成的网络, 这样缺少中等激活点的网络是功能、结构相对单一的网络。同样的分析也适用于边的重叠度。

图5 CancerPPI与NormalPPI边的重叠度分布 Fig. 5 Overlap of edges in CancerPPI and NormalPPI

图6 CancerPPI与NormalPPI点的激活度分布 Fig. 6 Activity of nodes in CancerPPI and NormalPPI
3.3 参与系数

对于一个多层网络, 我们不仅希望知道一个点的激活度和度, 而且希望知道它在哪些层中是激活的, 以及在不同层中的度是多少, 这可以通过参与系数 (participation coefficient) 得到。参与系数P是衡量一个节点在所有层中的活跃性的一个度量, 其计算公式为$ {P_i} = \frac{M}{{M- 1}}\left[{1-\sum\limits_{a = 1}^M {{{\left( {\frac{{k_i^a}}{{{O_i}}}} \right)}^2}} } \right]$。参与系数为0代表只在一层中出现, 参与系数为1代表在所有网络中都出现, 且度都相同。根据参与度的大小, 可以将节点划分为3类 (低参与系数:0~0.3, 又称为集中型; 中参与系数:0.3~0.6, 又称为混合型; 高参数系数:0.6~1.0, 又称为多重型)。

中心化度 (Z score) 是重叠矩阵中的度经过正规化得到的值。根据Z的大小和某一阈值 (一般是Z的前3%的平均值), 可以将节点分为2类:大于这一平均值的称为中心节点 (hub) 蛋白, 其余的称为普通节点 (node)。

图 7中展示了不同网络中的P-Z散点图, 根据PZ的大小将图分为6部分, 分别是集中型、混合型或多重型的hub和node。在多层网络中, 最引人注意的是多重型hub, 它们往往扮演了连接各层、整合功能的重要劫色。图 7是在RicePPI的P-Z散点图, 并根据激活度的不同赋予了不同颜色, 可以看到其中最重要的蛋白质的多重型hub有2个蛋白质, 而在混合型hub中, 度明显高于其他节点的点 (大于14) 有3个, 这5个节点是水稻细胞中发挥关键功能的蛋白质, 可以通过实验手段研究它们在细胞器与细胞整体功能之间的作用。A=4的2个蛋白质的度相差较大, 这也说明拥有相同激活度的蛋白质可能扮演完全不同的角色;另一方面这2个蛋白质都不是hub, 这说明它们处在各自层的边缘, 并非核心蛋白, 但在整合细胞器功能上可能有比较重要的作用。

图7 RicePPI中的参与系数、正规化度的二维图 Fig. 7 Scattergraph of participation coefficient and Z score in RicePPI

参与系数-中心度的方法可以运用在任何PPI中, 起到了提供研究方向的作用。通过此方法找到的少数重要的蛋白质, 可以认为是需要重点研究的实验对象, 尤其是在一些未经详细研究的生物中。

3.4 层的重叠性

层的重叠性 (multiplexity) 是用来计算2个层之间共同出现的节点占整个网络比例的度量, 其计算公式为${Q_{\alpha, \beta }} = \frac{1}{N}\sum\limits_{i = 1}^N {b_i^\alpha } b_i^\beta $(其中biα是取值为0或1的整数,1代表节点i在第α层中激活,0代表不激活)。重叠性为0代表没有节点同时在这2层中同时激活;重叠性为1代表 2个层的激活节点都是N。重叠性图谱是将网络的每对层的重叠性按层的对应顺序作图得到的图谱,15个癌症则一共可以得到225个值 (每一层都与包括自己在内的15层进行比较,然后按照每一层与15层对比的顺序排列)。

可见, CancerPPI和NormalPPI的图谱存在明显差异, CancerPPI各层的重叠性明显比NormalPPI更高, 这说明癌症网络中不同层的重叠更大, 同质性更高, 而正常组织网络中不同层之间的异质性更大。这说明癌症网络由于其类似的代谢机制, 导致不同层都趋向于同一核心结构, 在保持细胞增殖、转移的同时, 将不必要的功能尽量缩减, 而正常组织网络会有大量的组织特异性蛋白质存在, 重叠的部分主要保持正常的细胞活动和组织生存。此外, 从图 8中不同峰之间差异可以看出, 第14个峰的差异尤其明显, 这说明14层的食道组织的PPI与普通组织的差异相对较大, 并且食道癌的PPI的某些基本机制可能与其他癌症有所区别, 这是值得探究的地方。

图8 CancerPPI与NormalPPI的重叠性图谱 Fig. 8 Multiplexity diagram of CancerPPI and NormalPPI
3.5 相关系数

对于多层网络的每一层, 可以通过度量函数对每个点赋予一个值, 以衡量它在某一方面的重要性。这样,每一层的点的全体就形成一个序列, 从而2层之间的2个序列就可以进行相关系数的分析。图 9展示了RicePPI中节点在2层中度的相关系数的热图。在计算时, 对于2层网络中的节点, 只选择那些在2层网络中都激活的节点来计算相关系数, 这样可以防止过多的0导致相关系数过小而影响分析。

图9 RicePPI中各层之间度分布的相关系数热图 Fig. 9 Heat map of Pearson correlation degree in RicePPI

图 9可知, 在5个主要层中, 相关系数高的是叶绿体与线粒体、叶绿体与细胞质、细胞核与细胞质、细胞质与细胞核, 这说明它们间的蛋白质作用互作的结构与功能有紧密的联系。而细胞质层与其他主要层之间几乎都没有相关性, 这说明细胞膜蛋白质与其他细胞器的PPI的连接模式有很大区别。而细胞核、细胞质层与投射层、重叠层的相关系数是5个主要层中最大的。这说明RicePPI中的核心网络是由细胞核与细胞质中的PPI决定的。

3.6 度关联函数

度关联 (degree correlation) 的定义是:在网络中任意选择一条边,它的2个节点的度分别为整数ij的概率,用P(i, j) 表示。单层网络的所有信息都可以用P(i, j) 来描述。而在实际网络中,由于网络的规模是有限的,因此在计算度关联时的噪音可能很大,因此可以用度函数来代替度关联。度函数的概念是网络中一个节点的邻点的平均度随节点度变化的函数。由该函数的性质也可以很好地刻画网络的属性。如果度函数是幂律函数,那么可以用幂指数的大小来表示网络的度关联强度。K(n) 表示度为n节点的邻点平均度,其计算公式为$K\left( n \right) = \sum\limits_m {mP\left( {m|n} \right)} $

图 10展示了癌症核心网络与组织核心网络的层内度关联函数, 它们都符合幂律分布, 组织核心网络的幂指数是-0.509 4, 癌症核心网络的幂指数-0.257 6, 这证明了它们的异配性。幂指数的不同说明这2个网络有着不同的关联结构, 癌症核心网络有着更平稳的连接结构, 即不同度节点的邻点的平均度更加接近。因此,当hub节点被蓄意攻击时, 它的邻点失灵的可能性更小。这说明在癌症中网络的抵抗攻击的能力较强, 不易被破坏, 具有鲁棒性。这也反映了肿瘤细胞生存能力强、不易受到来自周围环境的针对性攻击的特点。

图10 癌症核心网络和组织核心网络的层内度关联函数 Fig. 10 Intralayer degree correlation of cancer intersect and normal intersect
4 结语

本文介绍了单层网络向多层网络发展的缘由以及具体的数学表达, 同时引入了多重度、参与系数、重叠性、激活度和重叠度、度相关系数、度关联函数的概念, 并将这些分析方法运用到了水稻细胞的PPI和癌症PPI以及正常组织的PPI中。

在RicePPI中, 发现重叠度与激活度呈幂律分布; 通过参与系数的分析发现了与细胞整体功能、细胞器功能整合相关的2个多重型hub蛋白, 3个高度数的混合型hub以及2个激活度为4的蛋白质; 通过相关系数热图分析发现了关联性较强的叶绿体与线粒体、叶绿体与细胞质、细胞核与细胞质、细胞质与细胞核, 以及与其他细胞器关联性较弱的细胞膜, 表明细胞膜蛋白质与其他细胞器的PPI的连接模式有很大区别。

在CancerPPI以及NormalPPI中, 通过重叠性图谱分析、核心网络比对以及度关联函数的方法,发现了癌症网络的核心网络的规模比正常组织大, 且具有强核心结构、高度均质性以及鲁棒性的特点; 发现了非平凡的重叠度与激活度的分布, 并分析了癌症与正常组织在结构和功能上的差异, 推断不同癌症组织各自的组织特异性功能均有所退化, 主要保留了细胞生长、增殖、转移相关的核心结构。这些核心结构是由具有组织特异性的不同致癌基因引发的一系列核心基因的表达和生化调控而最终形成的。

致谢: 此项工作得到浙江大学生物信息学实验室刘丽丽和孟宪文博士提供的RicePPI和CancerPPI数据并给予了大力帮助,谨致谢意。
参考文献
[1] WATTS D J, STROGATZ S H. Collective dynamics of 'small-world' networks. Nature, 1998, 393(6684): 440-442. DOI:10.1038/30918
[2] BARABASI A L, ALBERT R. Emergence of scaling in random networks. Science, 1999, 286(5439): 509-512. DOI:10.1126/science.286.5439.509
[3] STROGATZ S H. Exploring complex networks. Nature, 2001, 410(6825): 268-276. DOI:10.1038/35065725
[4] BOCCALETTI S, LATORA V, MORENO Y, et al. Complex networks: structure and dynamics. Physics Reports, 2006, 424(4/5): 175-308.
[5] BOCCALETTI S, BIANCONI G, CRIADO R, et al. The structure and dynamics of multilayer networks. Physics Reports, 2014, 544(1): 1-122. DOI:10.1016/j.physrep.2014.07.001
[6] DOMENICO M D, SOLÈ-RIBALTA A, COZZO E, et al. Mathematical formulation of multilayer networks. Physical Review X, 2013, 3(4): 4192-4195.
[7] LEE K M, MIN B, GOH K I. Towards real-world complexity: an introduction to multiplex networks. The European Physical Journal B, 2015, 88(2): 1-20. DOI:10.1140/epjb/e2014-50167-4
[8] BATTISTON F, NICOSIA V, LATORA V. Structural measures for multiplex networks. Physical Review E Statistical Nonlinear & Soft Matter Physics, 2014, 89(3): 32804-32804.
[9] BARABÁSI A L, OLTVAI Z N. Network biology: understanding the cell's functional organization. Nature Reviews Genetics, 2004, 5(2): 101-113. DOI:10.1038/nrg1272
[10] MICHAEL C, ANASTASIA B, JEREMY B, et al. The genetic landscape of a cell. Science, 2010, 327(5964): 425-431. DOI:10.1126/science.1180823
[11] MENG X, WANG J, YUAN C, et al. CancerNet: a database for decoding multilevel molecular interactions across diverse cancer types. Oncogenesis, 2015, 4(12): e177. DOI:10.1038/oncsis.2015.40
[12] VIDAL M, CUSICK M E, BARABÁSI A L. Interactome networks and human disease. Cell, 2011, 144(6): 986-998. DOI:10.1016/j.cell.2011.02.016
[13] NICOSIA V, LATORA V. Measuring and modeling correlations in multiplex networks. Physical Review E, 2015, 92(3): 32805. DOI:10.1103/PhysRevE.92.032805