生物序列的图形表示方法研究+文献综述(7)_毕业论文

毕业论文移动版

毕业论文 > 数学论文 >

生物序列的图形表示方法研究+文献综述(7)



图2-3:序列片断ATGGTGCACCTGACTCCTGA的图表示
Fig.2-3:The graphical representation of the sequence ATGGTGCACCTGACTCCTGA

1994年,张春霆等提出了DNA序列的另一种三文图形表示[20],即Z-曲线。他们通过Z-曲线研究了真核和原核生物基因组中若干重要问题,深受国际同行的好评。Z-曲线的作图规则是:对于长为N的一条DNA序列,从第一个碱基开始依次考察该序列,每次只考察一个碱基。当考察到第n个碱基时(n=1,2,…,N),计数四种碱基A、C、G、T出现的次数,分别记为 , , 和 ,从而得到三文空间中点 的坐标
       (2-1)                     
当n从0取到N时,依次得到 共N+1个点。将相邻的两点连接所得到的整条曲线被称为Z-曲线。Z-曲线的生物学意义为: 表示嘌呤(A+G)/嘧啶(C+T)碱基沿序列的分布。当嘌呤碱基多于嘧啶碱基时, ,否则 ,两者相等时, ; 表示氨基(A+C)/酮基(G+T)碱基沿序列的分布。当氨基碱基多于酮基碱基时 ,否则 ,两者相等时, ; 表示弱氢键(A+T)/强氢键(G+C) 碱基沿序列的分布。当序列中弱氢键碱基多于强氢键碱基时, ,否则 ,两者相等时, 。
2003年,Yuan等人[21]提出了DNA序列的一种“四柱”图形表示,在三文空间中,建立碱基与向量之间如下的对应关系:
 
对于任意一条DNA序列K = k1 k2 . . .,定义如下映射
 
这样,DNA序列就被表示成三文空间中的点,最后,连接相邻的点就得到DNA序列的三文图形表示。序列ATGGTGCACC的“四柱”图形如图2-5所示。
此外,Li和Wang在2004年提出了DNA序列的一种三文图形表示[22],是在三文空间中,将四个向量(1, 0, 0), (0, 1, 0), (0, 0, 1)和(1, 1, 1)分别赋予四个碱基而得到的。
 
这种图形表示的具体做法如下,任意给定DNA序列 ,对于第i个碱基(i =1, 2, …, N),一个三文空间的点 可以按式2-2得到:
                                                      (2-2)
其中 表示 所对应的向量的第 个分量。当 从1取到N时,依次得到点P1, P2, … PN。用直线连接相邻的两点,就得到一条三文空间曲线。

 
图2-5:序列ATGGTGCACC的“四柱”图形
Fig. 2-5:The ‘four pillar’ graphical representation of the sequence ATGGTGCACC.

2.1.3 其他图形表示
除了2文平面和3文空间图表示外,一些研究者还提出了DNA序列的“高文”表示。如Randic和Balaban[23]将DNA序列的4种碱基分别赋予下面4个方向:(1, 0, 0, 0) → A,(0, 1, 0, 0) → T,(0, 0, 1, 0) → G,(0, 0, 0, 1) → C,从而得到DNA序列的一种4文图形表示。又如Hamori and Ruskin[18]曾提出被称为G-曲线的DNA序列的5文空间表示。尽管这些高文图形表示是非退化的,并且在生物信息学的某些领域得到了应用,但是,它们已经不再具备可视化这一重要优势[4]。

2.2 蛋白质序列的图形表示
组成蛋白质序列的氨基酸是由三联体密码子构成的,如果编码氨基酸的DNA序列为已知,则我们可以根据    DNA序列的图形表示来刻画蛋白质序列。Randic[14]于2004年就提出了这样一种蛋白质序列的图形表示方法,该方法采取了Jeffrey[21]的CGR图形构造规则:以坐标原点为中心作单位正方形,将正方形的4个顶点赋予DNA的4个碱基A、T、G、C,以原点为始点,依次考察编码氨基酸的DNA序列的碱基,遇到哪种碱基就连接当前点与代表该碱基的顶点,用这条线段的中点表示该碱基。于是,每个三联体密码子都被表示成点,如果表示一个三联体密码的三个点不共线,则由这三个点构成一个三角形,用这个三角形的几何中心来表示这个三联体密码子对应的氨基酸;如果表示三联体密码的三个点共线,求出这三个点对应的坐标的平均值,以平均值为坐标的点就用来表示这个三联体密码子对应的氨基酸。最后,将表示氨基酸的相邻两点连线就得到了蛋白质序列的图形表示。然而,由蛋白质序列很难确定它的原始编码DNA序列,这是因为密码子具有简并性(degeneracy),即一种氨基酸对应多种密码子。为了解决这个问题,Randic采取了一种所谓的“虚拟密码子”策略,即为每种氨基酸指定一个密码子,事实上,由组合数学知识可知,对于20种氨基酸我们可有 种指派方式,这是因为在20种氨基酸中,有3种氨基酸具有6个密码子,5种氨基酸具有4个密码子,1种氨基酸具有3个密码子,9种氨基酸具有2个密码子。因此,上述将每种氨基酸分别指定为一种密码子的作法缺乏足够的理论依据。 (责任编辑:qin)