揭示生物分子数据的内涵是生物信息学的长远目标,这些数据之间存在着复杂的联系,并蕴涵着生物学规律。目前生物信息的主要任务是研究生物分子数据的获取、存储、查询,发展数据分析的方法,并开发分析工具和实用软件。同时,生物分子数据类型的不断增多及数据量的不断膨胀又促进了生物信息学的研究和应用。现有的数据源包括:DNA 序列,蛋白质序列,大分子结构,基因组、蛋白质组等等。这些数据也要求我们不断提出新的生物信息算法和工具。
1.1 研究背景及意义
后基因组时代的到来,“海量”的生物数据被收集汇编在各种数据库中,如何处理这些庞大的数据,分析和理解这些生物序列所表示的生物意义已成了我们迫切的任务。所以,生物信息学已成为整个生命科学发展的重要组成部分,成为生命科学研究的前沿。生物信息学的研究内容主要是核酸和蛋白质两个方面,包括核酸和蛋白质的序列、结构和功能的分析研究。生物信息学以基因组 DNA 序列信息分析作为出发点,破译遗传语言,认识遗传信息的组织规律,辨别隐藏在 DNA序列中的基因,掌握基因调控信息,对蛋白质空间结构进行模拟和预测,依据蛋白质结构和功能的关系进行药物分子设计。
20 世纪的 90 年代,在人类基因组计划的推动下,生物信息学迅猛发展。生物信息学的研究重点已经从最初的生物分子数据库中数据的获取、储存和查询逐渐向数据处理和分析发展,通过数据分析,发现数据之间的关系,认识数据的本质。如何更好地解释、挖掘和利用生物信息数据,是计算机学家和生物学家等面临的巨大挑战。
数据挖掘是近年来新兴的一种科学计算技术与数据分析方法,它能够有效地从大量数据中提取潜在的信息与知识。经过多年的研究与发展,它目前已成为一项很重要的数据分析技术,并且在生物信息领域内也具有良好的研究与应用景,可以帮助人类认识生物数据所蕴藏的结构和功能信息,从而理解数据所代表的生物学意义。如何将众多的数据挖掘技术应用于生物数据信息分析是当前的研究热点,其中包括生物数据挖掘体系架构的设计、各种分析算法的研究以及针对生物数据挖掘分析的功能研究等。
用几何学的方法分析生物序列是由我国科学家张春庭院士首先提出来的,当时是用几何学方法来分析 DNA 序列。这与传统的基于统计学的方法不同,他把几何学的某些概念如坐标系、多面体、投影曲线、曲线微分与抽象的 DNA 序列建立起紧密联系,利用几何学的知识发现生物序列的信息。几何学方法在蛋白结构类预测,反义核酸,氨基酸的亲、疏水性与分类,原核生物编码区与非编码区的辨别,分子进化研究等问题上做了大量试验研究与分析,并取得了较好的应用结果。
从生物基本序列(DNA 序列或蛋白质序列)出发,结合数据挖掘技术,提取生物基因信息,更好的分析基因数据,研究基因的变异和进化过程,可以为遗传学、生物信息学、分子生物学、医学等方面的研究者提供更好的研究基础。序列相似性是指一条 DNA 或蛋白质序列与另一条序列的相似程度。这个程度是有差别的,如两条序列的相似程度达到 30%或 60%。在进行序列比较时也经常用到“同源”这个概念,需要注意的是两条序列同源是指它们具有共同的祖先,在这个意义上,无所谓同源的程度,两个序列要么同源,要么不同源。
1.2 生物信息学的基础知识
在分子和细胞生物学、生物物理学、脑和神经科学、医药学、农牧渔林学和分子和生态进化领域,生物信息学都有广泛和深入的应用。但从整体上来讲,生物信息学的研究对象主要为两种信息载体,即核酸(DNA和RNA分子)和蛋白质分子。 生物序列的图形表示方法研究+文献综述(2):http://www.youerw.com/shuxue/lunwen_2316.html