在1971年,Epstein和Kim[6]合作发现了第一个KUP/HAK/KT家族基因,它是从大肠杆菌(Escherichia coli)中被提取发现的。他们将其命名为KUP(K+ uptake permease),是因为它在大肠杆菌中担任钾吸收透性酶的编码。之后,科学家们在土壤酵母菌中鉴定得到了KUP的同源基因HAK。这个名称的命名由于该基因可使酵母即是处在在极低的K+浓度条件下仍能在细胞内保持较高的K+含量[7]。GVVYGDLGTSPLY是HAK钾离子转运体存在的保守基序,这一特征在这个基因家族的成员中差别不大[8]。本实验从荷花基因组中筛选出18个荷花的HAK转运体基因,并对荷花HAK转运体基因与拟南芥HAK转运体基因以及水稻HAK转运体基因进行了多序列联配及系统发生树的构建,分析了荷花HAK转运体基因的功能性分歧和正选择作用。
2 材料与方法
2.1. 在基因组水平上鉴定荷花HAK基因
从GenBank数据库中获取拟南芥中已知的13个HAK钾离子转运体基因的编码及蛋白质序列。用上一步获得的拟南芥HAK钾离子转运体蛋白序列作检索序列,搜索NCBI数据库,以E≤10-10作为筛选标准筛选出满足该条件的蛋白序列作为候选序列。要确认候选序列为荷花HAK基因序列,还需要检验候选序列中是否包含有HAK基因的保守结构域。然后用Pfam软件对候选序列进行保守结构域的比对,含有该保守结构域的候选序列即确认为荷花HAK转运体。接着再把这些已经确定了的荷花HAK转运体蛋白序列作为检索序列重复上面的步骤。最后用这些基因的编码序列用作检索序列,通过Blastn检索KOME数据库,获得基因的全长cDNA序列。最后还需要获取与所得基因匹配的EST序列,用前面测得的荷花HAK基因序列对NCBI的EST数据库分别进行检索。
2.2. 多序列联配并构建系统发生树
用Clustal软件对检索获得的荷花HAK转运体蛋白序列与拟南芥HAK转运体蛋白序列及水稻HAK转运体蛋白序列进行多序列联配。
系统发生树在分子生物学中,表示着基因序列或蛋白质序列与其祖先序列的关系。将多序列联配的结果录入MEGA中,构建拟南芥、荷花和水稻的HAK基因家族的系统发生树,方法为邻接法,最小进化法和最大简约法。最大简约法是选择出解释数据所需要变化步长最短的系统发生树,这个方法能够在分析的序列位点上没有回复突变或平行突变,且被检验的序列位点数很大的时候推导出很好的进化树。极大似然法最早是应用于对基因频率数据的分析上,该计算方法是选取一个特定的替代模型来分析给定的一组序列数据,在每组序列比对中考虑每个核苷酸替换的概率,概率总和最大的那棵树最有可能是反映真实情况的系统发生树。邻接法是距离矩阵法中的一种,距离矩阵法是先通过各个物种之间的比较,根据一定的假设推导得出分类群之间的进化距离构建进化距离矩阵,利用矩阵计算出最优树的系统进化树计算法[9]。其中的邻接法是最常用的距离法。
系统发生树进行评估方法我们采用的是自举法(bootstrap method),即在排列好的多序列中,有放回的随机地抽取某一列,组成新的排列序列,新的排列序列与原序列的长度保持一致,重复该步骤,得到多组新序列,再用这些新序列进行建树,观察新树与原始树的差别,以此评价进化树的可靠性。
2.3. 正选择的检验
目前应用最广泛、最有效的检测编码蛋白的基因的正选择作用的方法是比较同义替换率(dS),又称为同义突变速率和非同义替换率(dN),又称为异义突变速率。通常用ω表示非同义替换率和同义替换率的比值(dN/dS),用来衡量选择压力的分子进化。ω>1表示基因受达尔文正选择压力作用影响,同义突变速率远远小于异义突变被固定的速率;ω<1表示基因受到了纯化选择的压力,也被称为负选择;而ω=1表示基因受到自然选择压力或中性选择。对于有功能区的基因序列来说,如果只对比整条序列来说的话,ω值往往是远小于1的,就可能会出现忽视一些功能区受正选择的情况。因此对于包含了功能区的基因来说,要划分出该基因序列的不同功能区,再一一进行分析,这样就能一定范围内避开检测到正选择的假阴性的情况。但每个功能区所发挥的功能的重要性不同,受到正选择作用的强度也就相对性的不同,因此就需要考虑单一位点受到的正选择作用[11]。 荷花高亲和力钾离子转运体(HAK)基因家族的适应性进化研究(2):http://www.youerw.com/shengwu/lunwen_22778.html