近些年来,高通量测序技术(High-throughput sequencing)得到快速发展,高通量测序技术以其低成本、高效等特点受到广泛的应用,并催生出一种新的转录组映射和量化研究方法,我们称之为RNA-Seq。这种方法已经革新了转录组学的研究,增进了我们对基因组表达和调控的理解[13]。在鱼类转录组研究中RNA-seq已经得到许多应用,如鲶鱼精巢转录组的研究揭示了雄性性别偏向基因,为鲶鱼性别决定机制研究奠定基础[14]。对黄颡鱼XY、YY雄鱼性腺转录组的研究,了解miRNA与其可能参与调节精巢发育和精子发生的基因之间的相互作用[15]。半滑舌鳎脑组织的转录组研究则确定了一系列可能与生长和繁殖相关的性别偏向的基因,为了解半滑舌鳎复杂的性别决定过程奠定基础[16]。
在本研究中,我们尝试分析蓝头濑鱼和尼罗罗非鱼性腺转录组之间的表达差异。采用性腺转录组数据来自于NCBI,每种鱼类的每种性腺有2组重复。采用RNA-Seq方法[13],以尼罗罗非鱼参考基因组为基础,旨在鉴定两种鱼类雌雄性性腺之间差异表达基因。分析两种鱼类性腺的转录组学特征,筛选物种间的生长和繁殖相关差异表达基因。这些方法与结果能为鱼类不同物种间转录组的差异表达基因分析以及鱼类性别决定和分化机制的研究提供参考。
1材料与方法
1.1转录组数据获取
本文使用的8个性腺转录组数据来自于NCBI(National Centre for Biotechnology Information)的SRA(Sequence Read Archive)数据库,其中包括4个蓝头濑鱼性腺转录组数据(编号:SRX1176335,SRX1176337, SRX1176332,SRX1176334),以及4个尼罗罗非鱼性腺转录组数据(编号:SRX160791,SRX170662, SRX159747,SRX170664)。
1.2转录组比对
对8个转录组的Raw data进行质量控制,通过Trimmomatic v0.25[17]将其中只有接头和测序质量低下(Qvalue <=20)的Reads过滤,获得相应的Clean data数据。参考基因组来自于Ensembl数据库中的尼罗罗非鱼参考基因组(Orenil1.0 http://www.ensembl.org/Oreochromis_niloticus/Info/Index)。通过TopHat v2.0.6[18]将每个转录组的Clean reads比对到参考基因组上。
1.3表达量及表达模式分析
转录组测序中抽取自某一基因(或转录本)的片段数目服从负二项分布[19] (Beta Negative Binomial Distribution)。基于该数学模型,使用Cufflinks v2.2.1[20,21]对基因的表达水平进行定量分析。Cufflinks v2.2.1采用FPKM[20,22](Fragments Per Kilobase of transcript per Million fragments mapped)作为衡量基因表达水平的指标,FPKM计算公式如下:
FPKM=Fragments/(Mapped Fragments × Transcript Length)
其中,Fragments表示比对到某一转录本上的片段数目,即双端Reads数目;Mapped Fragments表示比对到转录本上的片段总数,以10^6为单位;Transcript Length表示转录本长度,以10^3个碱基为单位。
根据FDR值和|log2(B_FPKM/N_FPKM)|两个条件[4],将各个性腺转录组所包含的基因分为五种表达模式:蓝头濑鱼特异表达基因、尼罗罗非鱼特异表达基因、无检验意义的性别特异表达基因、蓝头濑鱼高表达基因、尼罗罗非鱼高表达基因和无差异共表达基因具体分类标准见表1。
表1 性腺基因表达模式分类 Table1 Classification standards for genes expressed in gonads 尼罗罗非鱼和蓝头濑鱼的性腺转录组差异表达分析(2):http://www.youerw.com/shengwu/lunwen_25150.html