科学数据开放共享中出版商政策研究
分类号:G251
科学数据的开放共享,具有重要意义,有利于经济价值与学术价值的提升。正如欧盟委员会所指出,科学数据的开放获取,提高了数据质量,减少了重复研究的成本,加快了科技进步,并有助于打击学术造假“[1]。英国皇家学会报告认为,开放论文网对于科学事业具有重要价值,开放可以识别错误,支持。反对或优化理论,数据的重用可更深入了解和掌握知识[2]。开放数据是开放科学的一部分,具有可获得。可理解。可评估和可用的特征,开放数据与科学出版物的开放获取相结合,可以有效沟通与交流科学的研究内容。
1科学数据开放共享中的出版商
1。1科学数据开放共享
在科学研究过程中,有不同的利益相关者参与其中。这些利益相关者类别多样,性质各异,共同形成科学研究的生态系统。根据各利益相关者的职能,围绕研究人员,将这一系统进行分类研究,确定出4个利益相关者群体,即资助者。数据管理者。研究机构与出版商作为关键参与者,以促进和实现科学研究数据的开放共享。
在这一系统中,每类利益相关者都有各自不同的职能。驱动力及利益点,但总体利益与动机相同,即促进科学的进步。利益相关者的利益与行为动机与各自职能连接在一起,形成了科学研究系统的边界。该系统本质上受到外部和内部因素的双重影响:外部因素可能表现为政治。社会。经济。科学和文化体系等;内部因素包括政治意愿。经济及学术竞争。技术基础设施。法律。道德等因素。该系统的价值与动机是外部和内部因素共同作用的结果,其中外部因素控制资源输入到该系统中,内部因素控制这些资源的可用性和分配。如图1所示:
在此科学开放系统中,利益相关者群体职能众多并偶有重叠,总体上各利益相关方对研究数据的开放获取的意义已达成共识,但各利益相关方对实现开放研究数据的方式的认识并不一致。本研究主要探讨在推动科学数据开放共享中,出版商数据政策的现状。问题,并构建相应模型,提出相应建议。
1。2出版商在科学数据开放共享系统中的目标
在促进研究数据开放共享方面,各利益相关方发挥不同的作用。出版商通过期刊向作者提供数据共享政策,在数据开放中发挥着重要作用。研究出版商的数据政策,是因为这是在研究过程中将数据政策与研究人员密切关联起来的点,为发布研究成果,研究人员有动力。有可能遵守数据政策。同时,研究发现,虽然包括出资者和研究机构都可能有适用于研究人员的政策,但遵守这些政策的研究人员的比例还很低。研究人员没有遵守数据政策的直接动力;此外研究人员在需要进行数据存档时,可能也没有合适的机构知识库可以选择。出版商提出的数据政策,是在研究人员完成研究过程后发表研究成果前,研究人员有可能。有动力遵守出版商的数据政策。
1。2。1科学数据开放共享的价值
科学的思想与科学的证据互相佐证,研究数据和科学实践之间的联系是不言自明的,因此,推动开放获取研究数据,与促进科学严谨的目标相一致。更大程度地共享与获取数据,能加强科学的基础价值,即允许科学研究有效地自我校正,以便二次分析。检验。质疑或改进原有成果[3]。此外,开放获取政策通过减少重复工作,最大限度地减少研究人员用在搜索信息和数据方面的精力,因而改善了他们的工作条件。
JISC以英国高等教育和研究机构为例,指出研究数据的监护与开放共享具有如下利益[4]:①研究人员能够更广泛地获得数据,从而促进更多的跨部门的合作,研究人员在行业。政府和非政府组织内有可能获得大量的教育和培训机会。数据的开放共享有助于实现数据使用和重用,降低数据的收集和复制成本,分担数据收集的直接和间接成本(如避免调查疲劳,从而提高响应率等),创造出在数据收集时未曾预想到的新的利用方式,进行数据挖掘等。②在项目申请拨款和评估阶段。出版和研究评估阶段,更容易发现欺诈和抄袭,更容易进行评估和同行审查。因此将有机会创造更加完整和透明的科学记录。③通过将研究人员。知识库。资助者与有价值的资源相链接,从而有更多的机会提高研究的可见度。
科学研究系统中的各个利益相关者群体认识到走向开放数据的利益,认同将数据的开放共享置于战略高度进行考虑。科学表现为知识积累的过程,数据在促进早期工作中起着重要作用。开放获取研究数据,通过避免重复劳动,促进协作,有助于显著加快这一科学过程,从整体上使科学成为更加透明的进程,实现推动公众参与,激励创新和改革公共服务的宗旨[5]。
1。2。2基本情况
出版商作为利益相关者,越来越关注数据密集型研究,认同开放获取研究数据的意义。很多出版商认同布鲁塞尔宣言,即所有的研究者应能自由地获取原始研究数据。出版商鼓励公开公布原始研究数据结果,将相关的数据集及子数据集与论文共同提交给期刊,应尽可能让其他研究人员自由获取“[6]。很多出版商的数据政策为强制性政策,要求作者将支持出版物的研究数据存储在经认证的知识库中,实现开放获取。研究表明,如果期刊具有强制性数据政策,并且有可获取数据的声明,那么在线找到该数据的可能性,几乎是没有类似政策的期刊的1000倍[7]。
尽管目前出版商已开始重视出版物的开放获取,将开放获取作为一种出版的商业模式,不过出版商参与研究数据的出版,特别是开放获取研究数据,目前尚未形成规模。出版商关注研究数据及其开放,重要原因在于数据为出版商的主要产品即出版物增加了价值,数据有助于验证研究成果,从而增强了所发表研究成果的可信性,而可信度对于研究具有重要意义[2]。此外,资助机构的政策要求公开获取研究数据,实质上向出版商施加了压力,出版商需要参与到研究数据开放获取中,帮助作者和研究机构符合出资人的要求。现在,领先发展的出版商开始与其他利益相关方合作,试图挖掘研究数据的潜能,形成以数据为基础的新产品和服务,对研究数据进行同行评议,开展提高数据质量的其他服务。2出版商主要数据管理政策
本研究根据STM的年度报告[8],确定出以下出版商为主要分析对象(见表1)。这十大出版商所出版期刊占到2014年所有出版期刊的45。2百分号,另外本研究将开放获取出版商,科学公共图书馆(PLoS)。生物医学中心(BioMedCentral)的数据开放政策考虑在内。
2。1出版商数据政策现状
2。1。1将开放获取作为默认情况
出版商将数据的开放获取作为订立政策的基础,如PLOS研究数据开放获取强制性政策[9],指出除了极少数例外情况,支持PLOS出版物的所有研究数据都必须开放获取。作者在向PLOS提交稿件时,要同时提交数据可用性声明,在声明中表明遵守PLOS的政策规定,在手稿成功提交后,数据作为最终手稿的部分内容发布。PLOS要求作者将数据存储于推荐的经认证的数据中心或知识库。小数据集可与稿件一并上传。PLOS的编辑和投稿指南,向研究人员提供指导,协助研究人员遵守期刊开放数据政策。在限制数据获取的情况下,PLOS有权发布修正说明,联系作者的机构或资助者,甚至撤销出版。
2。1。2新的出版形式的出现
出版界越来越关注开放数据,产生了一种新型出版产品,即数据期刊。数据期刊的出现,与数据可以单独发布紧密相关。数据的单独发布可以确保数据作为科学记录的基本组成部分,以可理解的形式向科学界提供。数据期刊是同行评议的开放获取平台,用于发布。分享和传播各学科的数据。发表的数据论文包含数据集的具体相关信息,如收集。处理方式等。发表的数据论文与认可的知识库互相关联,数据论文引用存储于知识库或数据中心中的数据集。正如澳大利亚国家数据服务中心(ANDS)在其数据期刊指南中所指出的,从根本上说,数据期刊寻求促进科学认证和再利用,提高科学方法和结果的透明度,支持良好的数据管理方法,并为数据集提供一个可访问的。永久的。可解析的路径“。ANDS指出,数据论文的出版过程包括对数据集的同行评议,最大限度地提高了数据再利用的机会,并为研究人员提供了学术认可的可能性[10]。
2。1。3同行评审
对研究数据与数据出版物开放获取的关注,彰显了研究数据的科学质量及研究数据同行评审的重要意义。在此背景下,一些出版商将同行评议的范围扩大到包括数据在内的同行评审。M。S。Mayernik等2014年进行了有关数据同行评审“的研究,提出因为出版物或资源类型有所不同,进行同行评审的方式也必须有所变化。研究者对几种类型的评审资源进行了区分,包括在传统科学论文中分析的数据,在传统科学期刊上发布的数据文章,以及通过数据期刊发布的开放获取知识库与数据集。M。S。Mayernik等针对数据的同行评审。数据的质量保证过程确定了一些共同因素,包括:可通过数据中心或知识库获取数据集;数据集有足够的信息以备评审;期刊有明确的方针指明审核的要点,指导评审者进行数据审查等[11]。
开放考古学杂志(JOAD[12-13])对所有提交的数据论文采用同行评审程序,评审内容包括论文的内容与存储的数据。论文的内容指与数据集的建立和重用相关的信息,以及对数据集的描述。存储的数据指以可持续性模式提交到存储库的数据,包括其许可方式。
2。1。4数据引用
除对数据进行同行评审外,出版商还逐步引入数据引用政策,以促进研究数据的标准化使用。研究数据对研究过程具有重要价值与意义,为扩大高质量研究数据的传播,形成数据利用的规范方式,FORCE11[14]制定了数据引用的主要原则。FORCE11的引用原则的前提是数据引用需要实现人类和机器均可读。该数据引用原则可能并不全面,主要目的是鼓励各学科制定体现自身特点的引用方式。
FORCE11原则包括:说明数据引用的重要性;通过数据引用促进学术信用;数据引用要实现机器可操作性,包括全球永久唯一标识符;数据引用要促进对数据本身的获取;数据引用应该具有持久性;便于识别,易于获取,可以验证;具有互操作。灵活性等特点。
2。1。5内容发现和链接服务
出版商逐渐把发展方向转移到内容发现和链接服务,专注于文本与数据挖掘(TDM)工具,以便能开发内容,进而提供相关服务。出版商越来越关注数据挖掘是研究人员利用大型数据库的内容。数据和出版物的需求的直接结果。一份文本和数据挖掘专家小组的报告指出,TDM是一种重要技术,可用于从指数级增长的数字数据中,分析和提取新的见解和知识[15]。该报告的结论是,因为研究人员的技能和技术不断提升,所研究的数据集的复杂性。多样性及规模不断扩大,因此TDM有可能会更加重要。但对于利用文本与数据挖掘工具是否应有所限制,目前仍有争议。
2。2期刊数据政策问题
2。2。1数据格式与文件大小的差异
期刊要包括支持文章结果的所有数据,往往是很难实现的。研究的方法不同,产生的数据也大不相同,数据的格式和文件大小差异巨大。定性研究生成的数据,多以文本形式存在,例如实地观察笔记,或采访或报道的文字记录等。定量研究生成的数据,多以电子表格的形式保存。一项研究可能产生多种类型的数据,而论文可能包括附加文本。数值数据集和数字图像,这些都可能增加论文的大小。因此出版商表现出对集成到每篇论文中的数据集大小的关注。某些出版商开始尝试出版在线期刊文章,以包括多种数据,例如爱思唯尔的有关未来的文章的探索[16]。然而,并不是每一种期刊都有包括各种数据的能力。这就要求期刊的办刊方针应清楚说明,作为论文组成部分的数据,在何种程度上可以包括在论文中。
2。2。2机构知识库的成本
为解决出版商服务器超载的问题,将期刊文章的重要数据链接到一个特定的机构知识库,可能是一个合理的选择,但这将相关的长期运营成本转嫁到了机构中。但资助者目前的基金中并不包括这部分资金,而机构可能也并不愿意在当前的管理费用中增加这种支出。这就使得在机构知识库中存储科学数据的可持续性有待探讨。2。2。3研究人员对数据开放的认识
许多研究人员并不知道相关的知识库,为此期刊数据政策应说明,数据是否应该在认可的知识库中存储,是否要使用永久统一资源定位符(URL),是否要采用某种形式的数据引用。数据发布的时间也是一个需要关注的问题,研究人员并不关心在出版过程中的什么时候数据可被公开访问,而是关心在研究过程中何时数据应被公开访问。研究论文并不是在研究结果全部产生后才会形成,而是在研究过程中逐步产生的。在论文发表的同时,是否适合发布研究数据取决于多种因素,诸如某些形式的数据有敏感性,要保护受试者等因素。
3构建期刊研究数据策略模型框架
3。1出版商期刊政策的基本要求
有效的政策制定过程必然需要将注意力集中于数据共享过程中各利益相关方的意见,而目前的数字基础设施在不断变化,出版商。知识库和系统之间,并没有强有力的措施鼓励共享数据。共同点包括:①出版商共享数据的方式差异很大;②在出版过程中,出版商对所接受的数据类型。数据应存储的地点。应存储的时间等说明,模糊不清;③研究人员普遍赞成共享数据,但研究人员不知道该如何克服共享障碍;④研究人员认为出版商和期刊有关数据格式和存放地点等清晰的政策,将有益于研究;⑤出版商也认为在数据的关联与嵌入方面存在障碍。
科学数据共享的许多问题,能够在出版过程中通过期刊强有力而明确的政策加以解决。因此,本研究的目标是确定能推荐给期刊使用的政策模型。研究收集到的期刊政策信息,对材料进行分析后,归纳出目前主要的政策要求,如表2所示:
3。2框架模型
以上所列出的观察,形成基本的期刊研究数据政策的模型框架。由资助者和研究机构作为一方,与出版商的另一方进行合作,发展数据政策。表3为所构建的期刊研究数据策略模型框架。
3。3实施方式
3。3。1逐步制定出版物的支持性数据的强制性开放共享政策
出版商应该支持期刊编辑制定研究数据的强制性政策,从而提高研究过程透明度,扩展研究数据的潜力。数据的编辑政策应解决诸如文档。元数据。数据出版格式。许可。引用等问题。编辑政策要求作者在文章提交过程和同行评议过程中,提交数据的可用性描述。对提交的文章不符合规定的情况,政策应提出对应的措施,如撤销发表的文章。
3。3。2与认证知识库和数据中心协作,简化数据提交流程
出版商可按照相关标准考查知识库与数据中心的可信度,与符合数据认证标准的数据中心与知识库协作。类似的知识库或数据中心可以是主题明确的学科知识库,也可以是机构知识库或综合知识库。二者的合作应该会产生积极影响,为研究人员和研究机构提供高品质的产品和服务,服务具有可操作性。技术上无缝的特点,从而实现以开放格式传播和保存高质量的学术产品和研究数据。对于没有公认的数据中心或知识库的学科,出版商对研究人员提供指导和帮助,提供适合存储与获取的机构知识库建议,或提供商业数据服务。在这方面,出版商的角色应该是更多地促使学术团体建立资源库评估准则,从而帮助研究人员选择合适的存储库。当学术界建立起知识库的认可标准,出版商就可以通过期刊政策执行这些标准。
3。3。3数据作为一流学术成果,接受同行评议
出版商的主要职责之一是确保出版物的高质量,而研究数据同行评审制度的建立,有助于提升出版产品的品质。同行评审过程,应详细说明评审的标准,要评估研究数据的技术与质量问题,技术方面如考量数据集的完整性和一致性,收集数据的标准,使用的软件等;研究数据的科学质量则由研究团体通过出版前与出版后的同行评审进行评估。同行评审流程中,出版商也应该探索对评审者的激励方式,包括支付酬金,邀请编写特稿,加入编辑委员会,甚至聘用一些专家进行内容评审。
3。3。4发展有关研究数据引用的策略
研究数据通过传统的出版过程传播,为实现数据的长期可重用,需建立并使用数据的引用标准。在这方面,出版商应要求出版物及相关的数据可引用,并为数据的引用提供明确指导。在说明数据引用时,出版商可参照一些已有的实践,如Force11[14]的原则,参与DataCite[17],加入到研究界和编辑讨论的过程中。数据引用应包括DOI,以及使用许可信息,如创作共用许可,数据的引用方式最好是机器可操作的,可让用户知道可以如何处理研究数据。
3。3。5建立许可政策鼓励进行文本数据挖掘
出版商的编辑政策应以清晰的方式,说明研究数据的发布与获取方式,如默认或建议开放获取等。考虑到文本数据挖掘工具可带来显著经济效益,鼓励出版商调整策略,允许研究人员在研究中使用这种技术。
4结语
尽管出版商已经强烈关注出版物的开放获取,将开放存取作为一种商业模式,但出版商参与研究数据,特别是开放研究数据,还未形成规模。出版商关注研究数据与研究数据开放,是因为数据为出版商的主要产品即出版物增加了价值,通过对研究成果的验证功能,增强了所发表研究成果的可信性,而可信度对于研究具有重要意义。同时出版商为应对来自于出资人对开放获取的压力,也在逐步制定政策。
出版商和出版商的数据政策在更广泛地采用数据归档,与协助数据存档政策模型的发展过程中,可以发挥关键作用。出版商所提出的数据政策,应能体现透明性,实现重用的可能,提出存储数据的要求,提供对数据结构和元数据的指导,向作者指明适当的网络链接的存储库。数据政策不仅有利于研究人员自己及相同或相关领域同行的研究,同时促进了数据归档和数据链接,完善了数据的存储。
科学数据开放共享中出版商政策研究
科學数据开放共享中出版商政策研究【6593字】:http://www.youerw.com/guanli/lunwen_143470.html