同时研究表明,生命活动本质上是蛋白质分子或者基因在微观层面上“互相合作”的宏观表现,这说明蛋白质分子并不是孤立的,而是在它们之间存在相互作用关系,这种相互作用关系被称为蛋白质相互作用[7]。
而蛋白质相互作用网络(Protein-Protein Interaction Network, PPI)是指一个生物体内的所有蛋白质分子和它们之间的相互作用关系所构成的复杂网络,简称蛋白质网络,即将蛋白质分子表示成网络中的节点,蛋白质相互作用表示成网络中的边。这样不仅简化了蛋白质分子之间复杂的相互作用关系,也便于将图论、复杂网络等相关知识应用到蛋白质网络中,然后从中提取网络拓扑等其它有效信息,进而识别关键蛋白质。如图1.1,是酵母的蛋白相互作用网络。
图1.1 酵母的蛋白质相互作用网络
除此之外,随着高通量技术的发展,如酵母双杂交[8]、质谱分析[9]、串联亲和纯化[10]、蛋白质芯片[11]和噬菌体显示[12]等,我们可以获得越来越多的蛋白质相互作用数据。通过这些数量庞大且准确率较高的数据,我们可以更加方便的从蛋白质相互作用的网络水平进行关键蛋白质的识别。
1.2 研究意义
一方面,关键蛋白质在细胞的组成和生命活动中具有十分重要的作用,它们的缺失可能会导致生命体病变甚至无法继续生存[6]。另一方面,关键蛋白质在生物的进化过程中往往起到关键的作用,一般参与多个生物进程,而非关键蛋白质则参与较少;除此之外,相比于非关键蛋白质,关键蛋白质在生物进化过程中更加保守,不易发生变化[2]。因此,准确且高效的识别关键蛋白质不仅有助于我们了解细胞的生长调控过程,而且也会帮助我们研究生物进化的相关机制。
同时现有的研究表明,在生物体细胞中关键的蛋白质或者关键的基因通常更有可能是致病的[13, 14]。因此,在生物医学领域,准确且高效的识别关键蛋白质将有助于发现致病基因以及鉴定药物标靶的工作,同时在疾病诊治和药物设计等方面也具有不可忽视的现实意义。
1.3 研究现状
2 关键蛋白质识别算法研究
2.1 基于网络中节点拓扑特征的中心性测度的方法
2.1.1 概述
复杂网络,正如其名,是一种呈现极其复杂化的网络结构,其复杂性可以体现在多个方面,比如节点的数目庞大,节点之间的关系错综复杂,两者随着时间不断地发生变化包括不断的产生或消失,节点之间的关系通常具有不同的权重而且带有方向性等等。另外多数复杂网络具有以下几个特征:小世界、集群或者模块化以及无尺度[18-21],其中小世界特征是指节点数目虽然庞大但是它们之间特征路径长度非常小,即大量节点之间虽然并没有直接相连但是却可以借助少数几个节点就可到达,例如在社会网络中,两个人之间并不相识但是却可以通过少数人就可以产生联系;集群或者模块化特征是指节点之间容易结集成团;无尺度特征是指在网络中的大部分节点只和很少节点连接,而有极少的节点却与非常多的节点连接,即节点的度呈幂律分布,这些拥有大量连接的节点一般被称为枢纽点或者hub点。
研究表明,包括蛋白质网络在内的多数生物信息网络也是一种复杂网络,具有上面介绍的三种网络特征[22, 23],并且在这类网络中节点所蕴含的生物功能通常和其在网络中的拓扑结构位置有关。
根据复杂网络的无尺度特征,hub点拥有大量的连接并处于网络中心的位置,它一方面使整个网络面对意外故障有强大的承受能力,另一方面也使得整个网络非常脆弱,如图2.1所示,删除该网络中的边缘节点对整个网络几乎没有影响,但是剔除处于网络中心的hub点之后,整个网络的结构就被完全破坏了。而根据“中心性-致死性”法则,蛋白质网络中也存在这些hub点,并通常具有重要的生物功能,更有可能表现出关键性,这不仅再次说明了在该类网络中节点所蕴含的生物功能确实和其拓扑特征有关,也体现了该法则的核心思想:处于网络中心的节点更倾向表现出关键性,其对应的蛋白质分子也更有可能是关键蛋白质。基于此,利用蛋白质网络的节点拓扑特征的中心性度量关键蛋白质的方法也越来越多的被提出,下面我们简介其中具有代表性的6种具体算法。 基于蛋白质相互作用网络和基因表达数据的关键蛋白质预测(2):http://www.youerw.com/jisuanji/lunwen_20516.html