摘 要:针对蛋白质质谱数据中包含大量未知的内部结构和变量的特点,提出利用蛋白质质谱数据进行癌症诊断的方法:先对质谱数据进行预处理,然后采用分箱法和T-test检验方法进行降维处理,其次采用二次主成分分析法进行特征提取,最后采用支持向量机的方法进行分类识别。通过对典型卵巢癌蛋白质质谱数据的分类实验,证明该方法可以较好的对测试样本进行识别和分类。66435
毕业论文关键词:卵巢癌质谱数据,预处理,降维,特征提取,分类
Abstract:Because the protein pattern data contains a large number of unknown internal structure and variables, this paper puts forward the method of using protein pattern data for cancer diagnosis. First of all, we need to preprocess the data, and then we have to use the method of boxing and T-test to reduce dimension; secondly, we can use twice principal component analysis to extract feature; finally, we need to adopt the method of support vector machine to classify and recognize. Based on the experiments of the typical ovarian cancer protein pattern data, we can prove that this method can be a precise identification and classification of training samples.
Keywords:Ovarian pattern data, preprocessing, dimensionality reduction, feature extraction, classify
目 录
1 前言 4
2 质谱数据 4
2.1 质谱技术简介 4
2.2 基于蛋白质质谱数据的癌症诊断 5
3 数据的预处理 5
3.1 本文所用质谱数据 5
3.2 基线校正和去噪处理 6
3.3 数据的标准化处理 6
3.4 数据的降维处理 7
4 特征的提取 8
4.1 T-test检验方法 8
4.2 主成分分析 9
4.3 主元余像集主成分分析 11
5 支持向量机 12
6 分类器的实现 12
结 论 15
参 考 文 献 16
致 谢 17
1 前言
癌症是人类重大疾病之一。在发展中国家,每年因患癌症而去世的人在所有重大疾病中排名数一数二,即便是拥有较高医疗条件的发达国家,每年死于癌症的人数也位列前列。然而,治疗癌症的最佳时期是癌症早期,此时的癌症患者病灶具有病灶规模相对小,治愈几率相对较高以及并发症及发病率相对较少等若干优势,因此癌症早期检测成为了医学研究领域的焦点。癌症有很多检测方法[1],例如在成像方面用来检测乳腺癌的X射线照相术,在化学方面用来检测前列腺癌的PSA测试等。然而,当癌症肿瘤直径小于1厘米时,癌症肿瘤太小,上述方法就会因此而检测不出,从而达不到检测的效果[2],但是早期癌症肿瘤的尺寸通常又小于1厘米,因此人们需要其他更加有效的方法来对早期癌症肿瘤进行检测。
由人类基因组计划,原癌基因已被证实存在于人类基因中,然而原癌基因不会在一般情况下通过载体表达,因此存在一定的潜在风险。然而基因可以决定癌症,而基因却由蛋白质在生命体中表达。有研究表明,早期癌症肿瘤在病灶产生时,病人的生命体征并不会有变化,但体内某些特殊蛋白质水平却会有一定变化,因此检测蛋白质非常重要。 蛋白质质谱高通量分析方法研究:http://www.youerw.com/tongxin/lunwen_74383.html