基于转录组的鱼虾精巢差异表达基因分析(2)
时间:2018-08-01 23:00 来源:毕业论文 作者:毕业论文 点击:次
近年来已有关于凡纳滨对虾和尼罗罗非鱼雌雄性腺间的转录组学研究。Peng等[1]完成了第一次虾性腺的大规模RNA测序,确定了许多与凡纳滨对虾性别相关的功能基因。 Tao[11]等人对罗非鱼性腺转录组进行了最大程度的收集,发现雌雄技术受体都在XX型性腺中表达,然而孵化后5天的XY性腺中只有雌激素受体表达,解释了外源性类固醇引起罗非鱼性逆转的原因。 本课题基于前人高通量测序获得的成年凡纳滨对虾和尼罗罗非鱼孵化后30、180天精巢转录组数据,通过比较转录组学研究,寻找它们之间的基因表达情况的差异,为水产动物转基因育种提供参考。 1 材料与方法 1.1 测序数据及其质量控制 选取Peng等[1]在2015年构建的凡纳滨对虾精巢cDNA文库(NCBI的SRA数据库,检索号为SRR2060962)用t代表,选取W Tao等[11]在2013年构建的罗非鱼孵化后30天与孵化后180天精巢cDNA文库(NCBI的SRA数据库,检索号分别为SRR526903、SRR521273)分别用L30X与L180X代表。为获得Clean Read,将原始数据进行过滤,移除接头序列,低质量序列和Ploy-N部分,同时计算Clean Read的碱基质量值(Q10,Q20,Q30),GC含量和序列重复度[12]。 1.2 转录组数据与参考基因组序列比对 本课题选取罗非鱼全基因组作为参考基因,利用TopHat2软件,将Clean Reads与参考基因组进行序列对比,得到在参考基因组上的位置信息,以及测序样品特有的序列信息。高质量且对比效率高的数据是进行后续分析的基础。 1.3 基因表达量分析 使用Cufflinks软件的Cuffquant和Cuffnorm组件,通过Mapped Read在基因上的位置信息,对转录本和基因的表达水平进行定量。采用FPKM(Fragments Per Kilobase of transcript per Million fragments mapped)作为衡量转录本或基因表达水平的指标。FPKM计算公式如下: 公式中,位于分子的cDNA Fragments表示为比对到某一转录本上的片段数目,即为双端Reads数量;位于分母的Mapped Fragments (Millions)表示比对到转录本上的片段总数,以10^6为单位;同样位于分母的Transcript Length(kb)表示转录本长度,以10^3个碱基为单位. 1.4差异表达分析 用DESeq R package (1.10.1)分析鱼虾两个生物学条件之间的差异表达基因集。将Fold Change>=2且错误发生率(False Discovery Rate,FDR)大于0.01作为筛选标准,P <0.05为差异表达。用BLAST软件将转录组数据与GO、KEGG数据库对比,获得注释信息。在两样本间的差异表达基因中,将Corrected-P value ≤0.05 作为评价标准,满足此条件为显著富集。KEGG Pathway显著性富集分析是以KEGG数据库中Pathway为单位,通过超几何检验,找出与整个基因组背景相比,在差异表达基因中有显著性富集的Pathway。 2 结果与分析 2.1测序数据及其质量控制 测序数据经过滤处理L180X、L30X、t分别获得4,523,263,020、4,732,151,940和6,562,140,084条clean read。CG含量分别为49.52%、48.45%和46.96%。三组测序数据90%以上的碱基质量值大于30,表明测序质量较好。测序数据统计如表1所示。 表1本文中用于分析的转录组数据描述统计表 Tab.1 Description statistics of transcriptome data used in this artical 样品 Sample 洁净片段(Gb) Clean read (Gb) 过滤的碱基 Clean bases(Gb) GC含量 GC Content 碱基质量值>30% %>Q30 L180X L30X t 25,129,239 26,289,733 32,485,842 4,523,263,020 4,732,151,940 6,562,140,084 49.52% (责任编辑:qin) |