聶東波,張靜林
(中國科學院武漢病毒研究所,湖北 武漢 430071)
數(shù)據(jù)共享與公開—科技期刊需關注的新問題
聶東波,張靜林
(中國科學院武漢病毒研究所,湖北 武漢 430071)
元數(shù)據(jù)共享是大數(shù)據(jù)時代的趨勢,它有利于文章發(fā)表后,科學界對其進行數(shù)據(jù)驗證、復制、再分析,提升科研投資資金的價值,加速領域內(nèi)科技進步。調(diào)查了國外主流學術期刊和2016年JCR發(fā)布的被收錄的196本中國期刊的作者指南,發(fā)現(xiàn)在國外科技期刊的“作者指南”中,數(shù)據(jù)共享一般都有詳盡規(guī)定和操作指南,但在被JCR收錄的中國期刊中卻只有10%的期刊有提及,且全部為與國外出版商合辦期刊。我國的科技期刊界也應完善與數(shù)據(jù)共享相關的各項規(guī)定,制度及提供相關的可操作流程,以促進全球科技共享與進步。
數(shù)據(jù)共享;大數(shù)據(jù);科技期刊;國際期刊
科學數(shù)據(jù)作為學術研究的一部分,不僅是檢驗一項研究成果是否可信的重要證據(jù),更是進一步發(fā)展科技和從事科研的基石[1~3]。隨著大數(shù)據(jù)的電子化存儲和網(wǎng)絡獲取成為可能,以及信息技術的發(fā)展和開放獲取越來越成為主流,科學界對于科研數(shù)據(jù)共享(Data sharing)的要求也越來越高。國際主流科學界要從模糊的呼吁數(shù)據(jù)共享到強制的數(shù)據(jù)可用性(data availability)[3]??蒲袛?shù)據(jù)可用性是指科學數(shù)據(jù)與方法的長期存儲和公開。它避免了種種地域機構保護以及個人原因造成的數(shù)據(jù)共享障礙,使得實驗重復和驗證更易進行,進一步促進了全球范圍內(nèi)的科學交流和傳播[2]。學術期刊界也出現(xiàn)了以專門發(fā)表大數(shù)據(jù)為特色的數(shù)據(jù)期刊,如Nature旗下的Scientific data,BMC旗下的Giga data,Wiley旗下的Geoscience Data Journal的等。本文以傳統(tǒng)的科技期刊為研究對象,探討在大數(shù)據(jù)背景下期刊的“作者指南”中對于數(shù)據(jù)共享應有的規(guī)定與說明。并對比國內(nèi)外期刊的操作辦法,以期給我國科技期刊同行提供借鑒和思考。
1.1數(shù)據(jù)共享的定義
數(shù)據(jù)共享是指用于學術研究的數(shù)據(jù)需要與其他研究者共享。“最小數(shù)據(jù)集”是指用于得出文章結論、含有相關元數(shù)據(jù)和方法的數(shù)據(jù)集以及用于復制全文研究結果的其他數(shù)據(jù)。核心描述性數(shù)據(jù)、方法和研究結果應包含在論文主體中。PLOS拒絕接受數(shù)據(jù)被描述為“未顯示數(shù)據(jù)”(data not shown)這種情形[4]。期刊編輯和審稿人應根據(jù)具體情況要求部分文章的作者提供特殊數(shù)據(jù)類型。若文章所含數(shù)據(jù)集過大、無法通過資源庫或上傳文件共享,作者應咨詢其旗下相關期刊。
1.2提供數(shù)據(jù)共享的幾大儲存知識庫
一些不是太大的文件可以作為補充材料(Supplementary Materials或Supporting Data)隨文放在網(wǎng)站上,一些太大的元數(shù)據(jù)分析文件則需要遞交到專門的存儲網(wǎng)站并在提交文章時提供該元數(shù)據(jù)的DOI或檢索號。較常見的國際通用大型數(shù)據(jù)庫如序列數(shù)據(jù)庫(如GenBank,EMBL, dbSNP),組學數(shù)據(jù)庫 (如ArrayExpress, BioGRID),結構學數(shù)據(jù)庫(如Biological Magnetic Resonance Data Bank),神經(jīng)科學數(shù)據(jù)庫(如Functional Connectomes Project International Neuroimaging Data-Sharing Initiative (FCP/INDI)),模式生物數(shù)據(jù)庫(如Eukaryotic Pathogen Database Resources (EuPathDB)),分類學及物種多樣性數(shù)據(jù)庫(如Integrated Taxonomic Information System (ITIS), NCBI Taxonomy),生物醫(yī)學數(shù)據(jù)庫(如Influenza Research Database),生物化學數(shù)據(jù)庫(如caNanoLab),物理科學數(shù)據(jù)庫(如Australian Antarctic Data Centre (AADC)),社會科學數(shù)據(jù)庫(如Inter-university Consortium for Political and Social Research (ICPSR))。此外,不屬于常規(guī)分類的大數(shù)據(jù)則可以遞交到Dryad,figshare,GigaDB等專門的數(shù)據(jù)存儲機構。大型國際數(shù)據(jù)的存儲期限往往比小型的地方數(shù)據(jù)更長久。
1.3兩大主流非專業(yè)數(shù)據(jù)庫的簡介
Dryad[5]:是目前學術界比較認可的除專業(yè)數(shù)據(jù)庫以外的數(shù)據(jù)存儲機構,由一家非營利組織機構經(jīng)營。目前已有102家期刊與Dryad合作,其優(yōu)勢是可以將數(shù)據(jù)提交整合到投稿流程中,作者只需要在投稿過程中將與該文章結論相關的元數(shù)據(jù)遞交至Dryad,就會得到一個關于本數(shù)據(jù)的DOI號,審稿人或讀者即可通過該DOI號獲取相關數(shù)據(jù)。
Figshare[6]:適用于任何格式和類型的數(shù)據(jù)。嚴格說來它并不是一個針對期刊的數(shù)據(jù)存儲庫,而是一個讓科研人員自由分享的平臺,其中一個特色是鼓勵發(fā)布陰性數(shù)據(jù)(negative data)和圖。這是非常有意義的,一方面可避免其他研究者無謂地重復,另一方面這些數(shù)據(jù)可能在別人的研究中得到佐證,或者被進行合理解釋。目前也有很多期刊,出版社和學會等與其合作。
1.4共享數(shù)據(jù)(Data accessible)和一般的補充材料(Supplementary Materials)的異同
表1 補充材料和共享數(shù)據(jù)的異同比較
2.1國際期刊的做法
筆者調(diào)查了幾家國際期刊和出版機構,發(fā)現(xiàn)幾乎所有的國外主流期刊在作者指南中對于數(shù)據(jù)的可用性都有詳盡而明確規(guī)定,除了典型的數(shù)據(jù)期刊如Scientific Data[7],專門以論文的形式發(fā)表有科學價值的數(shù)據(jù)描述。其他的傳統(tǒng)科技期刊,如細胞(Cell)的 “材料和數(shù)據(jù)的發(fā)布”(Distribution of Materials and Data)[8];自然(Nature)的“數(shù)據(jù)和材料的可用性”(Availability of data and materials)[9]; 科學 (Science) 的“數(shù)據(jù)和材料的可用性”(Data and materials availability)[10]; BMC的“開放數(shù)據(jù)”(Open Data)[11];eLife的“數(shù)據(jù)組和報告的標準”(Datasets and reporting standards)[12]。雖然標題不一樣,但細則都是規(guī)定與論文結論相關的分析數(shù)據(jù),實驗材料等(即重復此實驗結果所需的全部素材)需要對讀者完全開放,否則被期刊視為不可接受(Unacceptable).
PLOS系列期刊的具體實踐是與文章結論相關的所有數(shù)據(jù)的都必須具有可用性(Data availability),可以讓讀者免費獲得而不得有任何限制,作者在在線投稿的同時需要簽署一份關于數(shù)據(jù)可用性的聲明。文章發(fā)表后,該項聲明會隨文發(fā)表。若文章出版后發(fā)現(xiàn)數(shù)據(jù)獲取存在限制,編輯部有權發(fā)布勘誤、聯(lián)系作者所在單位及贊助方、在極端事件中甚至會撤銷出版[4]。
國外的科研數(shù)據(jù)共享從號召到如今的強制共享,已經(jīng)如火如荼進行了幾十年。相比較之下,國內(nèi)的期刊在這方面是如何操作的呢?筆者對2016年JCR收錄的196種科技期刊進行了調(diào)查,在其門戶網(wǎng)站查找“作者指南”欄目。經(jīng)統(tǒng)計發(fā)現(xiàn):196中期刊中,僅有20種提及數(shù)據(jù)共享,占所有被收錄期刊的10%,且全部為與國外出版商合辦期刊。
2.2國內(nèi)期刊在科研數(shù)據(jù)共享方面的現(xiàn)狀
90% JCR收錄期刊對于數(shù)據(jù)共享沒有規(guī)定,17個期刊有提及,介紹也比較簡單,沒有關于該如何操作的詳細指導或建議;部分與國外出版商合作的期刊,如香港職業(yè)治療雜志(英文版)、訓練科學與健身雜志(英文版),應用地球物理學(英文版)等則是直接鏈接到出版商的官方條款。顯示出國內(nèi)期刊在這方面關注較少。
目前國內(nèi)的政策制定者和基金資助方對于數(shù)據(jù)共享有一定的限制,導致作者和期刊在這方面小心翼翼,不太積極。福建農(nóng)林大學的黃曉磊教授的調(diào)查研究顯示,受到政策支持或鼓勵的科學家們則更愿意分享他們的科研數(shù)據(jù)[13]。無獨有偶,上海海事大學的Wan Zheng教授曾在《自然》上發(fā)文稱中國的數(shù)據(jù)共享政策與氛圍阻礙了中國的科學研究與創(chuàng)新[14]。
數(shù)據(jù)共享不單單是期刊編輯部將相關的規(guī)定放入“作者指南”就可以了,還需要國家政策的引導、作者的支持與配合,才能真正落到實處。筆者認為,應該從以下三方面入手,促進全球范圍的科研數(shù)據(jù)共享。
3.1政府和資金資助機構等從政策上支持數(shù)據(jù)共享
這是能否順利實行數(shù)據(jù)分享的基本條件也是最重要的條件。政策制定者們應該看到,壟斷或限制數(shù)據(jù)分享,最終將損害自己的科研進展。上海生物信息技術研究中心李亦學主任也指出科研數(shù)據(jù)難以共享已成為國內(nèi)生命科學研究的一大障礙;而在大數(shù)據(jù)時代,其負面效應還可能被繼續(xù)放大[15]。同時應盡快建立健全科學數(shù)據(jù)共享的法律體系,明確規(guī)定科學數(shù)據(jù)共享的知識產(chǎn)權及數(shù)據(jù)惡意使用的法律后果,保證原始數(shù)據(jù)作者的權益。
3.2建立本國自有的大型數(shù)據(jù)存儲庫
從長遠的政治和經(jīng)濟角度來看,建立本國自有的大型數(shù)據(jù)儲存庫并鼓勵本國學者將原始數(shù)據(jù)上傳保存,具有重要意義。雖然放在國外數(shù)據(jù)庫上的原始數(shù)據(jù)也可以隨時免費查閱,但是長遠看來,元數(shù)據(jù)的長期保存,調(diào)用數(shù)據(jù)庫內(nèi)的小領域或行業(yè)數(shù)據(jù),進行綜合分析預測本領域的發(fā)展趨勢,以便相關部門在戰(zhàn)略上整體部署,及時修改政策,調(diào)整經(jīng)費劃撥比例等意義深遠。
3.3本國科技期刊應積極響應數(shù)據(jù)共享政策
作為推動科學進步的一種傳播工具,期刊理應重視支持數(shù)據(jù)共享,從發(fā)表政策上提倡甚至強制共享才可發(fā)表。中國的科技期刊也承擔著傳播科學,促進科技進步的責任,理應順應國際趨勢和潮流,對于涉及數(shù)據(jù)共享的知識產(chǎn)權、法律法規(guī)等給作者以實用性指導,并提供針對不同類型數(shù)據(jù)的操作指南和詳細的上傳流程,在促進全球科研數(shù)據(jù)共享及科學進步中展示科技大國的力量。
發(fā)表在PLOS Medicine上一份研究報告證實:相比沒有共享癌癥臨床數(shù)據(jù)的文章,發(fā)表后共享數(shù)據(jù)的文章其引用率提升了70%,并且該增量與期刊的影響因子,發(fā)表時間,作者來源等無關[16]。英國生態(tài)學會自2014年年初開始對其旗下的6份期刊強制實行來稿數(shù)據(jù)-檢索政策,要求支持實驗結論的數(shù)據(jù)必須完全公開。根據(jù)其實行6個月以后的調(diào)查結果顯示,總投稿量提升了6.7%[17].國際醫(yī)學期刊編輯委員會(ICMJE)最近也發(fā)表了一項提議:根據(jù)政府部門,基金資助機構等的共識,準備試行“強制共享臨床實驗數(shù)據(jù)”[18],該項提議已聯(lián)合發(fā)表在其旗下14家會員期刊上,并在其網(wǎng)站上廣泛征求關于具體要求的細節(jié)條款??梢?,元數(shù)據(jù)共享是大勢所趨,是科學發(fā)展的必然方向,有利于提高研究的再現(xiàn)性、提升科研投資資金的價值。對于期刊來說,也有利于提升文章的引用率和來稿量。
[1]Gary Marchionini, 楊冠燦, 盧昆. 科研數(shù)據(jù)管理: 保障數(shù)據(jù)質(zhì)量, 促進ischools新科學研究[J]. 圖書情報知識, 2013, 4:4~9.
[2]彭 潔,賀德方,張英杰. 數(shù)字出版環(huán)境中科學數(shù)據(jù)引用的實現(xiàn)路徑及策略調(diào)查分析[J]. 出版發(fā)行研究, 2014, 4:57~61.
[3]Scientific data archiving [EB/OL]. [2017-5-6]. https://en.wikipedia.org/wiki/Scientific_data_archiving
[4]PLOS ONE: Data Availability[EB/OL]. [2017-5-6]. http://journals.plos.org/plosone/s/data-availability
[5]Dryad[EB/OL]. 2017-5-6. http://datadryad.org/
[6]Figshare[EB/OL]. 2017-5-6. https://figshare.com/
[7]劉晶晶, 顧立平. 數(shù)據(jù)期刊的政策調(diào)研與分析[J]. 中國科技期刊研究, 2015, 26(4):331~339.
[8]CELL: Instruction for authors[EB/OL]. [2017-5-6]. http://www.cell.com/cell/authors#policies
[9]Nature: availability of data, material and methods[EB/OL]. [2017-5-6]. http://www.nature.com/authors/policies/availability.html.
[10]Science: editorial policies[EB/OL]. [2017-5-6]. http://www.sciencemag.org/authors/science-editorial-policies#dataavail.
[11]BiomedCentral: Open Data[EB/OL]. [2017-5-6]. http://www.biomedcentral.com/about/policies/open-data.
[12]eLife: Datasets and reporting standards[EB/OL]. [2016-9-4]. http://submit.elifesciences.org/html/elife_author_instructions.html#Data_statement.
[13]Huang X, Hawkins BA, Lei F, et al. Willing or unwilling to share primary biodiversity data: results and implications of an international survey [J]. Conservation Letters, 2012, 5:399~406.
[14]Wan Zheng. China’s scientific progress hinges on access to data [J]. Nature, 2015, 520: 587~587.
[15]李亦學:科研數(shù)據(jù)難共享阻礙國內(nèi)生物科技發(fā)展[EB/OL]. 2013-07-17. http://www.biodiscover.com/news/research/105002.html.
[16]Taichman DB, Backus J, Baethge C, et al. Sharing clinical trial data: a proposal from the international committee of medical journal editors [J]. PLoS Medicine. 2016, 13(1):e1001950.
[17]Norman H. Mandating data archiving: experiences from the frontline [J]. Learned Publishing, 2014, 27: S35~S38.
[18]Taichman DB, Backus J, Baethge C, et al. Sharing clinical trial data: a proposal from the international committee of medical journal editors [J]. PLoS Medicine, 2016, 13(1): e1001950.
Address: Wuhan Institute of Virology, Chinese Academy of Sciences, 44 Xiaohongshan, Wuhan 430071, ChinaAbstract: Data sharing and archiving is the trend in big data era. It is benefit for data verification, replication and re-analysis, and then improves the value for scientific investment and accelerates the improvement of science and technology in related fields. To understand the situation about the policies and regulations of data archiving in Chinese scientific journals, the top international academic journals and all Chinese scientific journals indexed in JCR(Journal Citation Report) had been studied. It is found that data archiving and sharing are mentioned and regulated in total of 9.9% Chinese scientific journals comparing with the detailed instructions in mainstream international journals. In summary, The Chinese scientific journals should value data archiving, perfect the related regulations and provide practicable operation procedures for authors.
Keywords: data archiving; big data; Chinese scientific journals; international journals
Datasharingandarchiving—thenewquestionthatacademicjournalshouldconcern
NIE Dong-bo, ZHANG Jin-glin
G231
A
2096-3149(2017)03- 0071-04
10.3969/j.issn.2096-3149.2017.03.013
2017—03—11
聶東波(1983— ),女,編輯,碩士,從事科技期刊編輯工作.