摘要:数量性状是大多数人类疾病和动植物的重要性状,想要揭示遗传学本质,就需要将生物个体的性状与基因型相联系。关联分析可以将生物个体的表现型与基因型相联系,利用统计方法在整个基因组上搜索控制数量性状的基因位点(QTL),通过此方法来发现复杂性状的遗传基础。但是目前,全基因组关联分析的方法均是单标记分析方法,即一次只分析一个基因,而忽略了基因之间的联系,又由于基因个数数以万计,而样本容量通常较小(几百),相当于几百个方程解数万个未知数,求解十分麻烦,因此探索全基因组关联分析的参数估计算法是关键。本文采用了基于弹性网方法的全基因组关联分析,在较短时间内得出了与真实值较贴近的结果,从而验证了此方法是可行且高效的。38817
毕业论文关键词:参数估计;弹性网;基因定位
Genome-wide association study based on elastic net method
Abstract:Most of the important traits of human diseases and animals and plants are quantitative traits, such as the yield from the plant, the cure of human diseases, human height and so on. So it is necessary to link the traits of biological inpiduals with the genotype in order to reveal the nature of genetics. Association study can be used to link the phenotype of biological inpidual with the genotype. By using statistical methods to search for quantitative trait locus in the whole genome, the genetic which basis of complex traits can be found. But at present, on the one hand, the method of genome-wide association study is a single marker analysis, that is, ignore the contraction between the genes, only analyse a gene at a time. On the other hand, there are tens of thousands genes, but the sample size is usually small (several hundred), it is equivalent to a few hundred million unknowns solutions of equation, very troublesome. So it is the key to explore the parameter estimation algorithm of genome-wide association study. In this paper, an elastic net method is used to estimate the parameters of genome-wide association study, in a short period of time, it get a result which is closer to the real value and showed that this method is feasible and efficient .
Keywords: parameter estimation; elastic net; gene mapping
目 录
摘要1
关键词1
Abstract1
Key words1
引言1
1 研究背景2
2 研究意义 3
3 原理及方法 3
3.1 遗传统计模型3
3.2 弹性网方法4
3.2.1 原理4
3.2.2 优缺点4
4 仿真实验及结果分析5
4.1 参数估计结果5
4.2 结果分析6
4.2.1 功效6
4.2.2 准确度6
4.2.3 精度7
4.2.4 计算时间7
5讨论7
致谢8
参考文献8
表1 染色体标记位置及效应的真实值与估计值6
基于弹性网方法的全基因组关联分析
引言
弹性网方法是由Lasso方法改进的一种参数估计方法,它基于Lasso方法,进一步引入了系数的二次惩罚,一方面,当遇到微阵列数据时,它能反映出具有组效应(复共线性)的变量对响应变量产生的影响;另一方面,当样本容量远远小于自变量的个数时,它能有效进行变量选择,因此有较高的预测精度。
数量性状在群体中呈连续的分布,只能用数值来衡量其性状表现。农作物的很多重要农艺性状,如产量性状、品质性状、对病虫害的水平抗性等,一般表现为数量性状,它对人类生存和发展十分重要。数量性状不仅遗传机理相对复杂,而且受到环境影响时易发生变异。基因型与环境的互作是不遗传的,它同时与遗传变异互存,导致很难区分它们,再加上没有明显的对应关系存在于基因型和表现型之间,这都给数量性状的遗传研究增加了难度。关联分析可以将生物个体的表现型与基因型相联系,利用统计方法在整个基因组上搜索控制数量性状的基因位点,从而揭示复杂性状的遗传基础。起初,关联分析比较多的应用在人类疾病的预防与控制上,与连锁分析相比,关联分析的品种群体一般是自然群体,群体构建时间短,省时省力,而且它能利用自然群体长期进化过程中累积的重组信息,定位结果分辨率更高,结果更精确,甚至可以直接定位到基因本身,近年来在植物遗传研究中应用较为广泛,已成功应用于水稻、玉米等作物的遗传研究中。目前,全基因组关联分析的方法均是单标记分析方法(single marker analysis,SMA),即利用单个遗传标记,开展数量性状与标记间的连锁分析。 基于弹性网方法的全基因组关联分析+源代码+答辩PPT:http://www.youerw.com/jisuanji/lunwen_37901.html