1。2 长链非编码RNA与人类复杂疾病关联性简述
根据分子生物学中心法则,遗传信息是储存在蛋白编码基因中[4],而在整个基因组中,蛋白编码基因大约只占2%左右,这就意味着剩余的98%的基因组都不能编码蛋白[5,6]。过去很长一段时间,这些非编码基因的功能性曾引起了研究者们非常多的争论和质疑,甚至它们曾被认为是基因组的“暗物质”,并不具有生物学功能。然而近些年,越来越多的研究证明实际上这些非编码基因在很多的生物过程中都起到了非常重要的作用[7,8]。根据转录本的长度,非编码RNA可以进一步分为小非编码RNA(small non-coding RNA, SncRNA)和长链非编码RNA(long non-coding RNA, LncRNAs)。其中,大多数的非编码RNA是长链非编码RNA,一类长度大于200nt的RNA分子。它的基因结构类似于mRNA,是RNA聚合酶Ⅱ转录的副产物,具有5’端帽子结构和3’端聚腺苷酸尾巴[9,10]。
20世纪90年代,基于传统的基因定位技术,人们发现了两个最早的长链非编码RNA,H19和X-inactive-specific transcript(Xist)[11,12]。随着长链非编码RNA生物测序技术的出现和计算算法的发展,在从线虫类到人类的真核生物中已经识别出了越来越多的长链非编码RNA[13]。Guttman等人利用启动子区域的染色质标记和基因表达数据并采用全基因组方法识别了四种老鼠细胞类型中1600个大量干预的长链非编码RNA,同时他们还提出了一种具有功能性的基因组方法识别了每一种长链非编码RNA可能的功能以及揭示了多种关键性的功能作用[14]。Cabili等人利用染色质标记和RNA测序提出建立人类长链非编码RNA目录的综合方法,该目录包括了24种不同人类细胞类型和组织的8000多条长链非编码RNA,并对它们做了有关序列、结构等30多种特征性质的描述[15]。近些年,随着长链非编码RNA数量的不断增多,大量的长链非编码RNA被收集在各种生物数据库中,比如LNCipedia[16]、NONCODE[17,18]、LncRNAWiki[19]、lncRNAdb[20]等等。据统计,目前在GENCODE数据库中已经被注释和存储的人类长链非编码RNA (LncRNAs)至少有15000个。然而,其中功能已经被注释研究过的长链非编码RNA (LncRNAs)却很少。由于与蛋白编码基因相比,长链非编码RNA具有相对较低的交叉物种保守性、较低的表达水平和较高的组织特异性等特点,因此它们一度也被称作基因转录组的“噪音”,不具有任何的功能性作用。
然而,随后大量的科学研究表明,实际上长链非编码RNA通过不同的生物机制几乎参与了细胞的整个生命过程,并在许多基本和关键的生物过程中都起到了非常重要的作用,这些过程包括:细胞分化、X-染色体失活、细胞增殖和凋亡、转录、染色质水平的表观遗传学状态调控,胚胎干细胞状态维持、转录调控以及疾病状态调控等[14,18,21]。正是因为这些重要的发现结束了许久以来人们对于长链非编码RNA功能性的一些质疑。同时,越来越多的研究也表明长链非编码RNA的突变与调节异常和人类心血管疾病[22],前列腺癌[23],乳腺癌[24],肺癌[25]等多种重要复杂疾病的发生和发展都有着紧密的联系。例如:来自第二军医大学、复旦大学和中科院的研究人员利用Arraystar芯片发现了一种叫做DANCR的长链非编码RNA。它通过解除对CTNNB1的抑制增强了肝癌的干性特征[26]。上海交通大学附属瑞金医院的研究人员在新的研究中证实,一种叫做ZFAS1的长链非编码RNA通过发生扩增促进了肝细胞癌(HCC)的转移。他们的研究最终揭示了ZFAS1在肝癌转移进程中的作用,同时也表明它可以作为一种新的生物标记物以及临床治疗肝癌的一个潜在靶点[27]。近几年,对人类复杂疾病相关长链非编码RNA (LncRNAs)的识别研究引起了越来越多研究者们的关注。这项工作不仅可以从长链非编码RNA (LncRNAs)水平理解多种人类复杂疾病的潜在分子机制,也为很多疾病的诊断、治疗、预后处理和药物反应过程中生物标志物的发现提供了重要的依据。