(1) 用图或曲线等数学对象来表示序列;
(2) 从得到的数学对象构造矩阵;
(3) 从得到的矩阵提取不变量作为描述子向量的分量。
1.4 论文的主要工作
本文主要针对生物序列的图形表示和相似性分析的问题进行了研究。首先,在第二章,对DNA序列的二文和三文图形表示做了分析,利用实例展开说明,并且还对蛋白质图形表示做了分析。在第三章,对基于5-字母模型的蛋白质序列图形表示方法展开分析。第四章,对该篇论文做了总结和展望。
2 生物序列的图形表示综述
图形表示是生物学数据可视化的一条重要途径,也是直观分析生物学数据的有力工具。本章介绍了一些生物序列的图形表示。
2.1 DNA序列的图形表示
2.1.1 2-D图形表示
1986年Gates[5]提出了DNA序列的一种2-D图形表示:将X轴的正方向设为C,负方向设为G,Y轴正方向设为T,负方向设为A (参图2-1)。对于任一DNA序列,都以坐标原点为初始点,从左到右一次一个碱基考察该序列,每增加一个碱基就按照该碱基所对应的方向移动一个单位向量。同样基于这种用两个坐标轴的4个方向分别代表4种核苷酸碱基的思想,Leong P. M.等[6]和Nandy[7,10]分别提出了DNA序列的另两种2-D图形表示。这三种图从不同的角度描绘了DNA序列,并在序列分析、分子进化、区分内含子和外显子等领域得到了很好的应用[7-9, 6-10]。但是,这三种图形表示共同的缺点是都有一定程度上的简并/退化(degeneracy, 指图形的交叉、重叠),从而导致一定量的信息丢失。例如在Gates的图形表示里,序列AT,ATA,ATAT,ATATA等的几何图形表示是完全相同的,我们无法对其加以区分。
图2-1:四种碱基A, T, G, C所对应的方向
Fig. 2-1:Four directions associated with the four nucleic acid bases A, T, G and C
从图论的角度看,简并现象与图中圈的存在是一致的。在2-D图形表示中,一个最小圈的长度是2。若能使图中可能出现的圈的最小长度尽可能大,那么图的简并现象就能被尽可能的减少。为此,Guo 等人[14]改进了上述Gates等人的表示方法,具体做法如下:在二文笛卡尔坐标系上,将4种碱基分别赋予下面四个方向, 这里d取正整数(如图2-2所示)。在这个图中圈的最小长度与d有关; Li等人[15]则结合上述2-D图形提出了DNA序列的有向图表示,DNA序列的有向图表示的简并度比相应无向图的低得多,甚至在某些情况下将不再出现简并现象。
图2-2:四种碱基A, C, G, T所对应的向量
Fig. 2-2:Four special vectors associated with the four nucleic acid bases A, T, G and C
2003年,Randic等人[16,17]提出了一种新的图形表示,我们称之为“四水平线图”。具体做法是:首先画出相互间隔一个单位的4条水平线,并让A, C, G, T这4种碱基分别与这4条水平线对应,然后,从左向右考察DNA序列的每一个碱基,遇到哪种碱基,就在这种碱基所对应的水平线上描点,同时,若不是最后一个碱基还要向右移动一个单位。最后,用直线连接所有相邻的点。以序列片断ATGGTGCACCTGACTCCTGA为例,它的“四水平线”图见图2-3。由图可见,这种图形表示避免了简并现象的出现。
2.1.2 3-D图形表示
1983年,Hamori and Ruskin[18]提出了DNA序列的一种三文图形表示,H-曲线。其作图规则是:将空间直角坐标系xoy面上东南、东北、西南、西北四个方向分别赋予4种碱基,同时用z-轴正方向记数碱基的个数。 Hamori and Ruskin利用H-曲线对抗生素M13进行研究,观察到所有基因的起始位点都由短的富含嘌呤的序列引导,给出了直观上识别基因的信号[4, 19]。 生物序列的图形表示方法研究+文献综述(6):http://www.youerw.com/shuxue/lunwen_2316.html