4.2 标准测试集 14
4.3 PDTCR 特征对预测性能的影响 16
4.4 特征选择技术对预测性能的影响 16
4.5 与已知预测工具的比较 17
4.5.1 交叉验证方面的比较 17
4.5.2 独立测试结果比较 18
4.6 案例分析 19
结 论 21
致 谢 22
学术论文 23
参 考 文 献 24
1 绪论
1.1 研究背景及意义
蛋白质的三维结构可以决定它的生物功能,这已经成为一种共识。在后基因时代
[1],大量蛋白质的序列已经通过非常先进的蛋白质测序技术和相关的基因项目被测试
出来了,然而,由于三维结构测量方法相对滞后等原因,能直接从序列信息中准确地 预测蛋白质的三维结构的技术就变得异常紧要。也正因如此,单从序列来预测蛋白质 三维结构的技术在最近的几十年里面确实取得了长足的进步 [2-4]。尽管如此,直到现 在这一技术仍然不成熟。考虑到上述问题,学者们又尝试把预测蛋白质的三维结构信 息分解为一系列结构片段和结构特性,比如,无序区域[5-8] 、跨蛋白膜螺旋[9, 10]、β 折叠结构[6, 11, 12]、残基接触图[13-16]、溶剂可溶性[17, 18]、还有二硫键的连接等[19-24]。上述 的结构片段以及结构特性信息可以给蛋白质三维结构的预测提供非常有价值的参考, 而且可以更深层次地去理解蛋白质的功能特性[20]。论文网
二硫键是最重要的蛋白质结构特性之一。如图 1.1 所示,二硫键是在蛋白质多肽 链中两个半胱氨酸残基之间形成的主共价键,它们可以在肽链的链间或者链内形成。 二硫键在蛋白质折叠方式以及稳定性方面有着非常重要的作用[25, 26]。因此,预测蛋白 质里面的半胱氨酸残基组成二硫键的方式在预测蛋白质结构跟功能上起着举足轻重 的作用。
图 1.1 二硫键是在两个半胱氨酸之间形成的共价键
摘自 假设一个蛋白质有 M 个二硫键,则可能的半胱氨酸残基对数 N 为:
N M (2M 1) (1)
所有可能的连接模式个数为:
1.2 研究现状
1.3 本研究概及本文内容安排
1.3.1 本研究概况
综上所述,前人已经在预测二硫键模式方面取得了很高的成就,不过在预测精度 方面仍有提升的空间。本文旨在通过引入从预测出的蛋白质的三维结构信息中提取出 的特征和 Breiman 提出的随机森林[31]回归算法来提高二硫键连接模式的预测性能。我 们把提出的方法称为 TargetDisulfide,第二章主要说明在每个半胱氨酸残基是否可 以形成二硫键的信息已知的情况下预测链内二硫键的连接模式。我们还把可以预测半 胱氨酸残基是否成键的 DiANNA[32]工具集成到 TargetDisulfide 里面来,以增强本工具 在半胱氨酸残基成键信息未知情况下的适用性。在三个标准数据集上面的实验结果表 明,把从预测出来的蛋白质三维结构里面提取的信息加入 TargetDisulfide 确实可以 显著提高二硫键连接模式的预测精度。本研究使二硫键连接预测方法领域更加丰富,