表1 2008年-2016年试验项目合作网络基本信息概要 5
表2 合作文献(试验)中的平均机构数和最多机构数 7
表3 不同论文数量的项目数分布 10
表4 合作试验(文献)点度中心度 13
表5 合作试验(文献)中间中心度 14
图1 数据可视化图像 6
图2 试验项目合作网络度分布 8
图3 试验项目合作网络度分布拟合曲线 8
图4 论文合作网络度分布 9
图5 ClinicalTrials。gov注册试验合作网络 11
图6 ClinicalTrials。gov论文合作网络 11
图7 合作最为密切的前三个合作团队 12
图8 k核值为8的三个合作小团体 13
基于临床试验数据的合作网络研究——以ClinicalTrials。gov网站的临床试验数据为例
引言
科研合作网络研究,对于分析科学领域合著网络结构与特性从而发掘优秀科研团队和核心位置有着重要的意义,随着开放科学数据仓储的快速发展,科学家们可以不受时间地理的限制进行各方面的合作,基于科学试验数据的新兴合作网络将会受到越来越多的重视。研究科学合作最常用的方式即根据出版物中元数据来提取合作关系,元数据包括作者,机构,期刊,日期等题录信息,还可以通过问卷调查、定性访问或者三种方法的任意混合,但是每一种方法对合作关系的研究都存在一定的限制,使用合作作者来研究合作网络可能会存在高估或者低估的现象[1],仅仅通过传统论文信息探究合作网络已经不能很好地反映一门学科的发展,因为在发表论文之前首先进行的是科学试验合作,科学试验数据已经成为非常重要的信息资源,能从中挖掘到丰富的信息。由此想到科学试验合作网络与论文合著网络是否存在差异;合作科学试验的机构是否会合作撰写论文;通过研究科学试验合作网络能否完善科学合作网络的信息。本文基于ClinicalTrials。gov网站的临床试验数据库,通过爬虫抓取了该网页所有的研究,提取每个研究的传统论文信息以及临床试验信息的元数据,构建科学试验合作网络以及论文合著网络,从而比较他们的异同。
一、研究综述
(一)科学数据资源库
科学数据资源库如今被使用的非常频繁,尤其在网络高速公路出现后被广泛的讨论,但是很少有准确的定义,虽然如此,科学家们对其的功能和特征都有一种隐式的共识——即通过收集、注册、观察和创造得出的各种实验数据、观察数据、统计数据等,以表格、数字、图像、多媒体等各种格式为表现形式。它可以是论文后附带的实验数据,也可以是独立的研究数据,包括对数据进行描述的元数据、数据集以及数据相关的出版物[2]。它还可以提供额外的数据服务,包括访问、导入、导出、处理、回档以及跟踪和链接到出版物或外部网站等[3],这些数据是免费的,且在获取、复用上没有知识产权或其他机构的限制,完全处于数据拥有者自己的意愿[4]。近几年,开放科学数据得到越来越多的重视,很多国家、机构、大学都在建立开放的科学数据资源库,目的主要是进行数据的复用与共享[5][6]。很多开放科学数据资源库要支持一整个领域,所以采用了复杂的技术去运行和文护,这就意着科学数据仓储的成本高昂,因此这些数据仓储有很强烈的意愿被使用,在国家政策和法规的支持下被广泛推广,由此科学数据仓储正在影响着科学研究的共享行为,影响着科学合作行为[7][8]。例如,资源型数据库有物理学领域的LIGO数据网格,用来支持激光重力波观测试验,它的激光重力波观测协作(LIGO Scientific Collaboration LSC),约有500名科学家参加,其数据对外公开服务。在地球空间科学领域中,美国国家基金会(NSF)和美国国家海洋局(NOAA)资助的CODIAC数据库为地球物理研究提供服务[9]。典型的参考型数据库包括蛋白质数据库PDB、美国国立卫生研究院的基因序列数据库GenBank、法国斯特拉斯堡天文数据库SMBAD、欧洲分子生物学实验室的核苷酸序列数据库EMBL等[10]。这些数据资源存储库的使用对科学工作影响的程度以及对科学家们、合作机构合作行为的影响程度都是未可知的,在我们探究这些数据仓储的出现对各个领域科学家合作行为的结构和规模的影响之前,首先要回答更加基本的问题——科学家们在使用这些数据库时进行科学试验合作的结构特点是什么? 基于临床试验数据的合作网络研究(2):http://www.youerw.com/yixue/lunwen_23517.html