以人的细胞系为模型分析miRNAs表达量与转录的相关性(3)_毕业论文

毕业论文移动版

毕业论文 > 生物论文 >

以人的细胞系为模型分析miRNAs表达量与转录的相关性(3)


经过不断筛选,最终下载了人类细胞系各自对应的41组mRNA-seq和small RNA-seq/microRNA-seq数据文件,这些细胞系涵盖了人类永生细胞系、原代细胞系、干细胞系、诱导多能干细胞系、体外分化型细胞系等细胞系。10组ChIP-seq和small RNA-seq/microRNA-seq数据文件,这些细胞系涵盖了人类永生细胞系、干细胞系、诱导多能干细胞系、体外分化型细胞系等细胞系。
1.2.3 对所下载的数据进行整理分析
第一步:以“人类miRNAs基因组数据集”中的成熟miRNA的序列为中心向5’和3’方向各延长1、2、5、10、20千碱基对,然后以5’-->3’的区间作为“成熟miRNAs基因的代表”;对于部分已有实验证据的pri-miRNAs,则直接用相应信息代替;
第二步:利用Galaxy数据分析网页平台中的“Operate on Genomic Intervals”工具中的“Join the intervals of two datasets side-by-side”方法将第一步所得文件(“成熟miRNAs基因的代表”与已有实验证据的pri-miRNAs)和“人类基因组信息数据集”进行交叉合并处理,保留基因位置重叠部分的数据,得到数据集A。最终得以将基因位置重叠的mRNA和miRNAs所对应的信息在文件中呈现一列,该文件包括其对应的所在染色体数、基因起始位点、基因终止位点、基因ID、基因名等。
第三步:以第二步得到的数据集A为“桥梁”,将所下载的mRNA-seq与small RNA-seq / microRNA-seq数据文件连接起来;将所下载的ChIP-seq与small RNA-seq / microRNA-seq数据文件连接起来。具体方法为将上述文件上传到Galaxy数据分析网页平台,利用“Join, Subtract and Group”工具中的“Join two Datasets side by side on a specified field”方法,根据各文件中的基因ID或者基因名,分别将其与文件集A对应的基因ID或者基因名相连,合成一个新文件,便于后续分析;
第四步:简化并分析数据。将ENCODE或NCBI的Gene Expression Omnibus下载mall RNA-seq / microRNA-seq数据作为全基因组miRNAs的表达量[8],由于miRNAs基因与一个或者多个已知基因重叠,转录活性将由与miRNAs基因重叠的mRNA的RNA-seq或Pol2 ChIP-seq总量而定[8],用PAST软件计算分析人的细胞系中miRNAs基因转录与miRNA表达之间的Spearman相关性。计算在人类细胞系中基因转录与miRNAs表达之间的Spearman相关性[8,18,19]。
2  结果与分析
2.1  数据汇总
本试验分析了41组不同人类细胞系的mRNA-seq和small RNA-seq/microRNA-seq数据文件,这些细胞系涵盖了:
人类永生细胞系immortalized cell line(11组):A549、K562、HepG2、GM12878、MCF-7、SK-N-SH、HeLa-S3、A375、HT-29、Karpas-422、OCI-LY7。
人类原代细胞系primary cell(20组):IMR-90、keratinocyte、mammary epithelial cell、B cell、fibroblast of lung、CD14-positive monocyte、fibroblast of arm、melanocyte of skin、hematopoietic multipotent progenitor cell、fibroblast of dermis、articular chondrocyte of knee joint、fibroblast of the aortic adventitia、fibroblast of villous mesenchyme、hair follicle dermal papilla cell、osteoblast、pericyte cell、placental epithelial cell、subcutaneous preadipocyte、thoracic aorta endothelial cell、vein endothelial cell。
干细胞系stem cell(3组):H1-hESC、mesenchymal stem cell of adipose、mesenchymal stem cell of the bone marrow。
诱导多能干细胞系induced pluripotent stem cell line(1组):induced pluripotent stem cell。
体外分化型细胞系等细胞系in vitro differentiated cells(6组):neural cell、bipolar spindle neuron、neural progenitor cell、smooth muscle cell、LHCN-M2、hepatocyte。
本试验分析了10组不同人类细胞系的ChIP-seq和small RNA-seq/microRNA-seq数据文件,这些细胞系涵盖了:
人类永生细胞系immortalized cell line(7组):A549、K562、HepG2、GM12878、MCF-7、SK-N-SH、HeLa-S3、HCT116。 (责任编辑:qin)