2 数据来源
2。1 NCBI 简介
NCBI 是美国国家生物技术信息中心(National center of Biotechnology information)的英 文缩写。它创立于 1988 年并且由美国国会提议创立[5]。其宗旨是开发和研究各种服务于 生物医学领域的自动信息存取系统[6],本实验主要通过查阅国际生物技术信息数据库( NCBI)( https://www。ncbi。nlm。nih。gov/) 中的 Gene Expression Omnibus( GEO) 板块( http://www。ncbi。nlm。nih。gov/geo/ ) 对目前水稻转录组数据进行统计分析( 图 1 , 图 2)。
图 1 国际生物技术信息数据库(NCBI)
图 2 国际生物技术信息数据库(NCBI)中 Gene Expression Omnibus(GEO)板块
2。2 NCBI 数据类型文献综述
在 NCBI 的 GEO 板块上有四类数据研究数据,分别为 GSM、GSE、GDS 和 GPL 四 个层级,其中 GPL-Platform 描述实验平台的信息,对芯片平台而言,描述芯片类型及芯 片上的探针数据等信息[7];GSE-Series 包含一系列的样本(GSM),据此可以得知多个相 关样本的所有基因的表达量等信息;GSM-Sample 描述单个芯片实验的杂交数据,据此可 知特定样本与芯片杂交之后测得的 mRNA 表达量或 SNP 等位基因型等信息; GDS- Dataset 由 GEO 职员根据 GSM 编纂组合起来的条目,与 GSE 类似,同样描述了多个相 关样本的所有基因的表达量等信息[8] 。 如在 NCBI 网站上公布的水稻芯片平台编号 GPL2025,通过该编号可以在已有数据库 NCBI 的 GEO 板块中找到该芯片的具体信息。 如(图 3)
图 3 通过芯片编号获得的具体信息
通过该平台可以发现水稻芯片 GPL2025 中有 198 个系列共 3216 个样本,但是由于本 次目标为水稻种子转录组数据库的搜集,因此通过种子转录组关键词比对,最终有 17 个
系列实验中 533 个样本的相关信息是关于水稻种子转录组数据。对该 17 个系列进行进一 步的查阅,以系列 GSE3053 为例(图 4),通过该页面,我们可以得到 GSE3053 这一系 列实验的状态、题目、组织部位、实验类型、摘要、实验设计、平台、样品数、平台及 唯一标识码 PMID 等关键字段。