1 核小体定位理论在所有的真核生物的染色质中都含有一种相同组织结构单元——染色质的基本 亚单元。这些基本的亚单元又被称为核小体,核小体由DNA与组蛋白组成,核小体 之间是通过连接器(linker DNA)连接形成的串珠状结构,核小体的位置信息是组蛋白 在DNA双螺旋结构上的具体位置[3,4]。核小体是染色体基本组织结构单元[4]。实验发现核小体随着细胞周期的变化,在细 胞中的染色质上呈现出不同的状态。核小体的位置信息对基因表达具有重要影响。最 新的研究表明,在真核生物中,核小体的位置信息在基因的转录调控、DNA的剪切拼接、基因的表达调控以及DNA的复制与修复等生命的基本过程起到了重要的角色[4-6]。近年来,核小体的研究是生物细胞和遗传学的重点方向之一[7],核小体定位理论 的研究更是得到了科研人员的重点关注。核小体定位理论具体指核小体相对基因组的 核苷酸的位置,具体可以分为两种:线性定位和旋转定位。其中核小体线性定位是指组蛋白与 DNA 之间的相对位置。核小体旋转定位是指组蛋白八聚体表面的 DNA 双 螺旋方向性。在某种程度上,核小体定位受到了序列信息的影响[8]。不同碱基组成的 DNA 序列,核小体形成能力的强弱差别会因为不同的 DNA 序列的组成碱基不同达到 近千倍。核小体位置信息的研究对深层次认识不同形态结构的染色质对基因表达的影 响具有重要意义,为解决遗传疾病和各种重大疾病提供宝贵的理论基础和指导。82331
2 核小体定位研究现状
随着实验水平和信息技术的极大提高,核小体定位研究的实验技术和理论预测技 术都已经得到了很大的提高与改进。核小体在 DNA 上的位置测量的研究由来已久。 Hewish 和 Burgoyun[9]等人在 1973 年对细胞核进行处理并分离出脱氧核糖核苷酸,最 终发现长度为 200bp 的一系列多聚体。Komberg[10]等人于 1974 年通过实验研究发现 100nm 的小体组成单体,二聚体三聚体和四聚体依次分别是由两个三个四个相联的小 体组成,表明一个“绳珠单位”是两百核苷酸,他们将其命名为核小体,这一实验对 于理解核小体在序列上的分布起到了重要作用。1977 年,Pedro Suau[11]等人通过中子
-散射研究证明 DNA 缠绕在组蛋白八聚体的外部组装成为核小体。实验者在接下来的 研究中通过一系列的生物化学方法,进一步对组蛋白与 DNA 结合的方式进行了研究 并构造了核小体模型。Yuan[12]等采用染色质免疫沉淀芯片技术,将得到的实验数据 正交化,然后用隐马尔科夫模型(HMM)处理后得到分辨率较高的核小体定位图。 近年来,一种更为精确的新技术 Chip-Seq 能够较为简便的对脱氧核糖核酸进行测序, 通过这种方法,研究人员测定了果蝇、人类以及线虫的核小体位置信息。论文网
目前,核小体定位的研究工作已由基于传统的实验方法转向了基于高通量测序技 术得到的测序信息[11]。大量的序列的出现促进了研究人员利用基于机器学习的生物信 息学手段分析并预测核小体位置信息。Reynolds[13]等人利用核苷酸的权重模型预测核 小体的位置信息,Zhao[14]等人利用 k-mer 信息成功地预测了酵母菌基因的核小体位置 信息[15],Chen[16]等人基于 DNA 的物理化学属性开发了 iNuc-PhysChem 预测算法[17], Guo[18] 等人利用核 苷酸 K 联体 伪核苷 酸组 成成 份设计 开发 出了在 线预 测系统 iNuc-PseKNC 预测核小体位置信息。