由于传统的生物实验需要耗费大量的时间和资金,而随着长链非编码RNA数量的不断增多,基于传统的实验方法对人类复杂疾病相关长链非编码RNA进行识别将受到一定的条件限制。另一方面,随着计算工具的快速发展,同时关于长链非编码RNA (LncRNAs)序列、表达、功能等的相关信息已被收集到许多公共数据库中,这为利用计算方法来识别人类复杂疾病相关长链非编码RNA的工作提供了有利的条件。79922
目前,针对人类复杂疾病相关长链非编码RNA识别的计算方法主要分为三类。第一类方法是基于机器学习模型识别长链非编码RNA与复杂疾病的关联性。2013年,Chen等首次提出了一种预测长链非编码RNA与人类复杂疾病关联性的计算模型LRLSLDA[28]。该方法基于相似的疾病更易与具有相似功能的长链非编码RNA具有关联性的假设,利用拉普拉斯正则化最小二乘法的半监督学习,通过长链非编码RNA表达数据和已知的长链非编码RNA与复杂疾病关联性数据对与复杂疾病相关联的长链非编码RNA进行了预测。针对这类问题的机器学习,我们在实际中往往很难获得负样本的数据,即确定的不具有关联性的长链非编码RNA与复杂疾病的关系。而该方法的优点就是不需要负样本的关系数据。2015年,基于同样的假设,Chen等又进一步提出了计算长链非编码RNA功能相似性的计算模型LNCSIM[29]。该模型首次计算了复杂疾病间的语义相似性进而获得了对应长链非编码RNA的功能相似性。此外,他们还将LRLSLDA与LNCSIM模型相结合,这使得长链非编码RNA与人类复杂疾病关联性的识别工作得到了非常好的预测效果。近几年,Chen等的研究团队针对人类复杂疾病相关长链非编码RNA (LncRNAs)的识别研究提出了很多有意义的计算模型,他们的工作为利用计算方法识别长链非编码RNA (LncRNAs)与人类复杂疾病关联性的研究开拓了新的视角[30-32]。第二类方法是基于生物网络识别长链非编码RNA (LncRNAs)与人类复杂疾病的关联性。Sun等基于长链非编码RNA (LncRNAs)功能相似性网络提出了识别长链非编码RNA (LncRNAs)与复杂疾病关联性的新方法[33]。Liu等又基于前列腺癌蛋白编码基因、长链非编码RNA (LncRNAs)的表达数据以及蛋白质相互作用关系数据库构建了蛋白编码基因和长链非编码RNA (LncRNAs)的二分网络,进而识别了与癌症相关的长链非编码RNA (LncRNAs)[34]。基于生物网络的方法识别人类复杂疾病相关长链非编码RNA (LncRNAs)是一个非常有效的工具,尤其是一个好的网络模型对于复杂疾病的时间诊断、个性化治疗、预后干预等都起了关键的作用[35]。第三类方法是不依赖于已有的长链非编码RNA (LncRNAs)与复杂疾病关联性的方法。前两类方法都需要依赖于已知的长链非编码RNA (LncRNAs)与复杂疾病关联性的数据,然而实际上通过实验验证的这类数据也是非常有限的。因此研究者们开始着重利用已知的其它相关信息,比如与人类复杂疾病相关的miRNA 和基因关系、LncRNAs与基因关系以及LncRNAs与miRNA的关系等数据识别人类复杂疾病和LncRNAs的关联性。Liu等首次提出了不依赖于已有的LncRNAs和疾病关联性数据的方法,通过整合人类复杂疾病LncRNAs和基因表达数据构建了LncRNAs和基因的共表达网络,然后基于已知的基因与疾病的关系和基因和LncRNAs的共表达关系数据进而识别了人类复杂疾病和LncRNAs的关联性[36]。Li等基于基因组定位的方法全局扫描了所有参与到血管瘤中的LncRNAs,并且将预测的十个跟血管瘤有关的LncRNAs进一步进行了实验验证,取得了80%的预测准确度。这表明了该方法的可靠性以及在识别LncRNAs与血管瘤关联性研究中的潜在价值[37]。论文网
尽管目前针对人类复杂疾病相关LncRNAs识别的计算方法研究已经有了很多的成果和进展,但从计算模型构建的应用性方面考虑仍然面临许多挑战,例如:(1)利用机器学习方法识别LncRNAs与复杂疾病关联性需要负样本数据,即确定不具有关联性的LncRNAs与复杂疾病信息。由于这部分数据非常有限,因此这类方法经常选取没有标签的LncRNAs与复杂疾病关联性数据作为负样本数据,这将影响模型对于复杂疾病相关LncRNAs识别的预测效果。(2)目前很多基于生物网络的计算方法都是利用已知的LncRNAs与复杂疾病关联性、LncRNAs与miRNAs 关系等数据构建LncRNAs与复杂疾病关联性网络、疾病表型相似性网络以及LncRNAs功能相似性网络等进行预测。然而针对LncRNAs与miRNAs相互作用网络、蛋白质相互作用网络等这样单一的网络,因为很多数据的缺失将引起整体网络的不完整性。这种数据的不完整性也使构建的网络模型在识别复杂疾病相关LncRNAs的研究中受到了一定的限制。