(3)根据ENCODE或NCBI的Gene Expression Omnibus的数据,确认全基因组microRNA的表达量。
(4)计算在小鼠组织(相同培养条件、发育阶段等等)中microRNA基因转录与microRNA表达之间的Spearman相关性。显著正相关性则说明在该生物样品中,转录在基因组范围内调控microRNA表达,相关系数越高,转录的贡献越大。
1.3 研究方法
所采取的研究方案,即是在ENCODE(https://www encodeproject org/)网站上下载小鼠各组织的miRNA-seq、mRNA-seq和ChIP-seq的数据集,然后利用数据分析网页平台Galaxy(https://usegalaxy org/)初步整理与合并,并用EXCEL、Past等数据处理软件分析转录活性和miRNA表达量的相关性。最后,结合研究小鼠的各组织中的miRNA表达,揭示调控机制的保守性、重要性。具体如下:
第一步:在NCODE网站上下载小鼠各组织所对应的miRNA-seq、mRNA-seq和ChIP-seq的数据集;
第二步:基因组miRNA信息参考miRBase。将“小鼠miRNA基因组信息”数据集下载下来,以成熟miRNA序列为中心向5’和3’方向各延长一定距离,本项目将向两个方向各延长1,2,5,10,20千碱基对,然后以5’-->3’的区间作为miRNA基因的代表。pri-miRNAs的已有实验证据可以不用延伸,直接用相应信息代替;
第三步:利用Galaxy数据分析网页平台中的“Operate on Genomic Intervals”工具中的“Join the intervals of two datasets side-by-side”方法将“小鼠基因组信息数据集”和“miRNA对应的基因组数据集(第二步所得文件)”进行比对,保留序列位置重叠部分的数据。即将序列位置重叠的mRNA和miRNA所对应的信息相连接,包括其对应的ID名、基因名、染色体位置或序列起始位点;
第四步:取得第三步所得数据集文件,利用Galaxy数据分析网页平台中的“Join, Subtract and Group”工具中的“Join two Datasets side by side on a specified field”方法,先根据文件中的miRBase ID将其与第一步下载的小鼠各组织miRNA-seq数据取交集合成一个文件,再根据文件中的ID名或者基因名,将其与第一步下载的小鼠各组织的mRNA-seq数据或RNA-seq的数据进行处理分析,取其交集,合成一个最终的文件,便于后续分析;
第五步:利用EXCEL简化上一步得到的数据,即对其进行删除重复项、表达量求和等处理,最终只保留miRNA表达量与mRNA或RNA表达量俩列数据;
第优尔步:利用数据处理软件Past,取得第五步所得数据,计算分析小鼠组织中基因转录与miRNA表达之间的Spearman相关性。
2 结果与分析 (仿宋体四号)
2.1 所获取的原始数据结果汇总
本课题一共从encode网站上获取了分别来自12个不同的小鼠组织的41对数据,每对中都有相应组织的miRNA-seq以及mRNA-seq/RNA-seq数据,其中:
小鼠心脏6对:分别来自0day, 11.5days, 13.5days,14.5days,15.5days,16.5days的小鼠胚胎;
小鼠肝脏6对:分别来自0day, 11.5days, 13.5days,14.5days,15.5days,16.5days的小鼠胚胎;
小鼠前脑5对:分别来自11.5days, 13.5days,14.5days,15.5days,16.5days的小鼠胚胎;
小鼠中脑5对:分别来自0day, 11.5days, 13.5days, 15.5days,16.5days的小鼠胚胎;
小鼠肾脏4对:分别来自0day, 14.5days,15.5days,16.5days的小鼠胚胎;
小鼠四肢4对:分别来自11.5days, 13.5days,14.5days,15.5days的小鼠胚胎;
小鼠后脑3对:分别来自13.5days,14.5days, 16.5days的小鼠胚胎;
小鼠肺3对:分别来自0day, 14.5days,15.5days的小鼠胚胎;
小鼠肾上腺1对:来自0day的小鼠胚胎;
小鼠膀胱1对:来自0day的小鼠胚胎;
小鼠骨骼肌组织1对:来自0day的小鼠胚胎;
小鼠胸腺1对:来自0day的小鼠胚胎; 以小鼠(Mus musculus)为模型分析miRNA表达量与转录的相关性(3):http://www.youerw.com/shengwu/lunwen_21899.html