楊明芳 袁曦臨
預(yù)印本是指科研工作者的研究成果還未在正式出版物上發(fā)表,而出于和同行交流目的自愿先在學(xué)術(shù)會(huì)議上或通過(guò)互聯(lián)網(wǎng)發(fā)布的科研論文、科技報(bào)告等文章[1],以滿足學(xué)校交流需求。預(yù)印本(Preprint)包括“無(wú)同行評(píng)議發(fā)表”“提前獲取”“開(kāi)放獲取”和“作者自存檔”科研論文、科技報(bào)告等文章,可實(shí)現(xiàn)出版的“零等待”和“即時(shí)出版”。作為一種新的學(xué)術(shù)交流和學(xué)術(shù)出版模式,預(yù)印本能夠確認(rèn)首發(fā)權(quán),且其透明、多元的評(píng)審機(jī)制,不僅為數(shù)字網(wǎng)絡(luò)時(shí)代的研究者提供了更為廣泛的發(fā)表研究成果的空間,而且能夠顯著縮短學(xué)術(shù)成果共享的時(shí)間,加快學(xué)術(shù)創(chuàng)新成果的交流傳播速度,提升學(xué)術(shù)交流的廣度。
2014年5月15日,中國(guó)科學(xué)院、國(guó)家自然科學(xué)基金委員會(huì)聯(lián)合發(fā)布《關(guān)于實(shí)施開(kāi)放獲取政策的聲明》, 此后OA出版論文越來(lái)越成為主流的出版模式。2020年OA出版數(shù)量首次超過(guò)傳統(tǒng)訂閱出版。學(xué)術(shù)出版和科學(xué)傳播進(jìn)入“后期刊時(shí)代”,ORCID、DOI和出版發(fā)布平臺(tái)成為新學(xué)術(shù)出版范式的“三元素”,擁有新一代學(xué)術(shù)出版和服務(wù)技術(shù)的數(shù)字平臺(tái)取代傳統(tǒng)期刊成為科學(xué)傳播的主渠道[2]。
預(yù)印本和OA出版對(duì)于學(xué)術(shù)交流和學(xué)術(shù)出版具有深遠(yuǎn)影響,無(wú)論是出版者、出版地、學(xué)科范圍、同行評(píng)審標(biāo)準(zhǔn)、商業(yè)模式、APC價(jià)格、影響因子、作者來(lái)源、出版周期、創(chuàng)辦停辦時(shí)間等基本信息都和傳統(tǒng)的期刊不同,傳播渠道也日趨多樣。一些出版商已經(jīng)開(kāi)始將預(yù)印本平臺(tái)納入自己的出版體系,實(shí)現(xiàn)“預(yù)印本+期刊”一體化出版。目前盡管對(duì)預(yù)印本已經(jīng)受到了社會(huì)各界普遍的關(guān)注,但對(duì)預(yù)印本的出版和交流模式的認(rèn)識(shí)仍不夠深入,就現(xiàn)狀而言,對(duì)于在開(kāi)放學(xué)術(shù)交流環(huán)境下的預(yù)印本論文的文獻(xiàn)特征與規(guī)律,以及其對(duì)學(xué)術(shù)文獻(xiàn)資源管理等方面的影響研究還比較欠缺,有待深入探討。
COVID-19爆發(fā)后,出于學(xué)術(shù)交流快捷的需要,全球的醫(yī)務(wù)和科研工作者全力以赴應(yīng)對(duì),一些科學(xué)家在預(yù)印本平臺(tái)不斷推出創(chuàng)新性、最具時(shí)效性的研究成果,其發(fā)文量增長(zhǎng)迅猛。大量的COVID-19論文發(fā)布在了預(yù)印本上,引起了國(guó)際學(xué)術(shù)界和學(xué)術(shù)期刊界的廣泛關(guān)注,其中MedRxiv和BioRxiv預(yù)印本平臺(tái)是國(guó)際上公認(rèn)的生物醫(yī)學(xué)領(lǐng)域最重要的兩個(gè)預(yù)印本平臺(tái),其開(kāi)放性和重要性在國(guó)際學(xué)術(shù)界得到高度認(rèn)可。由此,本文以MedRxiv和BioRxiv電子預(yù)印本平臺(tái)上收錄的COVID-19專題論文為研究對(duì)象,具有數(shù)據(jù)的典型性、代表性及完整性,以此分析疫情期間生物醫(yī)學(xué)電子預(yù)印本出版情況,可以增進(jìn)對(duì)預(yù)印本文獻(xiàn)特征和出版模式的認(rèn)識(shí)。
預(yù)印本論文的發(fā)表異于傳統(tǒng)學(xué)術(shù)期刊論文的出版,其出版實(shí)現(xiàn)了流通介質(zhì)的數(shù)字化,交流渠道的網(wǎng)絡(luò)化,運(yùn)營(yíng)形式的媒體化及出版流程的信息化,并產(chǎn)生了一些全新的概念和出版問(wèn)題,而其中預(yù)印本論文的版本情況就是較為突出的一個(gè)問(wèn)題。
在傳統(tǒng)學(xué)術(shù)期刊的出版模式中,同一個(gè)研究成果是絕不能夠重復(fù)發(fā)表在正式出版的期刊中的,論文重復(fù)發(fā)表被認(rèn)為是學(xué)術(shù)失范。而在預(yù)印本平臺(tái)上,論文的發(fā)表情況則有所不同。預(yù)印本論文可以有多個(gè)版本,甚至可以說(shuō),有多個(gè)版本是預(yù)印本論文的典型特征之一。第一次發(fā)布的預(yù)印本論文及其后續(xù)修改的版本具有相同的DOI號(hào),預(yù)印本平臺(tái)上顯示的論文是同一個(gè)DOI號(hào)論文的最新版本,同時(shí)將同一個(gè)DOI號(hào)的歷史版本鏈接在該最新版本論文頁(yè)面的“Info/History”功能中。這說(shuō)明預(yù)印本平臺(tái)是將具有同一個(gè)doi號(hào)的論文認(rèn)為是同一個(gè)成果,且最終只認(rèn)可最后的更新版本論文,而歷次修改的版本則作為研究過(guò)程作為歷史記錄予以保留和呈現(xiàn)。DOI號(hào)將同一作者不同修改版本的文章關(guān)聯(lián)在一起,顯示出不同版本修改標(biāo)記,以方便讀者閱讀和鑒別。
預(yù)印本論文的另一個(gè)突出特征是相當(dāng)數(shù)量的預(yù)印本論文最終在通過(guò)同行評(píng)議后獲得學(xué)術(shù)期刊正式發(fā)表的機(jī)會(huì),但仍不一定是最終版本,作者還可能進(jìn)一步修改或完善,并仍可在預(yù)印本平臺(tái)發(fā)表自己進(jìn)一步修改更新后的版本??梢?jiàn),預(yù)印本的版本會(huì)隨著預(yù)印本交流和出版而不斷變化,并由此產(chǎn)生了一系列新的概念。
預(yù)印本(Preprint,也稱pre-print)與后印本(Postprint,也稱post-print),其最主要的區(qū)別在于是否通過(guò)了同行評(píng)議的審核。預(yù)印本即作者提交在預(yù)印本平臺(tái)上未經(jīng)同行評(píng)議和出版發(fā)表之前的任何版本的論文,包括作者在撰寫過(guò)程中不斷完善修改的若干“修訂本”;換言之,自存檔時(shí)間先于期刊在線出版時(shí)間的版本均可被稱為預(yù)印本;而提交給學(xué)術(shù)期刊的預(yù)印本,且經(jīng)過(guò)同行評(píng)議后發(fā)表,就成為后印本。后印本出版后,再進(jìn)行的修改更新的版本被稱作勘誤本(Corrigenda),等同于待論文正式發(fā)表后再補(bǔ)充勘誤表。由此就出現(xiàn)了預(yù)印本“發(fā)表時(shí)滯”(Preprint Delay)的概念,即預(yù)印本從首次存檔預(yù)印本平臺(tái)到期刊網(wǎng)絡(luò)在線發(fā)表的時(shí)間差,而更新間隔則是指預(yù)印本最新更新時(shí)間與期刊網(wǎng)絡(luò)在線發(fā)表的時(shí)間差(Update Lag)[4]。
2013年11月,美國(guó)冷泉港實(shí)驗(yàn)室(Cold Spring Harbor Laboratory,CSHL)宣布啟動(dòng)一項(xiàng)生命科學(xué)領(lǐng)域的免費(fèi)電子預(yù)印本服務(wù)BioRxiv。2019年6月,該實(shí)驗(yàn)室與耶魯大學(xué)及世界頂級(jí)綜合醫(yī)學(xué)出版商BMJ出版集團(tuán)共同創(chuàng)立了MedRxiv,收錄醫(yī)學(xué)、臨床和相關(guān)健康科學(xué)的電子預(yù)印本,至此BioRxiv不再接收臨床試驗(yàn)和流行病學(xué)主題類別的新提交的論文,科研人員需將這兩種類別主題的預(yù)印本提交給MedRxiv[5]。
目前,MedRxiv和BioRxiv預(yù)印本平臺(tái)已經(jīng)成為生物醫(yī)學(xué)領(lǐng)域最重要的兩個(gè)預(yù)印本平臺(tái)。Nicholas Fraser等[6]人以生物醫(yī)學(xué)研究中正在發(fā)展的兩個(gè)預(yù)印本服務(wù)器BioRxiv和MedRxiv為研究對(duì)象,研究了2020年1月1日至4月30日期間COVID-19預(yù)印本的屬性、訪問(wèn)和使用率及跨平臺(tái)共享的特點(diǎn),研究結(jié)果突出了預(yù)印本服務(wù)器在COVID-19科學(xué)傳播中的前所未有的作用,以及對(duì)科學(xué)出版前景可能產(chǎn)生的長(zhǎng)期影響。程冰[7]等人對(duì)2020年1月至2月11日的301篇國(guó)內(nèi)外COVID-19相關(guān)論文進(jìn)行分析,中國(guó)學(xué)者發(fā)文貢獻(xiàn)最大,專業(yè)文獻(xiàn)主要以開(kāi)放獲取的形式發(fā)表在預(yù)印本文獻(xiàn)平臺(tái)和權(quán)威期刊上,其中約72%的預(yù)印本文獻(xiàn)發(fā)布在MedRxiv和BioRxiv預(yù)印本平臺(tái)上。
基于MedRxiv平臺(tái)(https://www.medrxiv.org/,以下稱MedRxiv平臺(tái)) 于2020年7月23日至7月30日期間對(duì)“COVID-19 SARS-CoV-2 preprints from medRxiv and bioRxiv”專題組(以下簡(jiǎn)稱COVID-19專題組)的2020年上半年數(shù)據(jù)(公布日期posted)進(jìn)行了采集,采集到的COVID-19專題組數(shù)據(jù)包括MedRxiv和BioRxiv數(shù)據(jù)。需要說(shuō)明的是,COVID-19專題組數(shù)據(jù)包含最早一篇文獻(xiàn)首次公布日期為2019年9月25日,這篇文獻(xiàn)發(fā)布時(shí)疫情尚未爆發(fā),而該作者在2020年2月4日對(duì)首版論文修改并發(fā)布了第2版,故該論文被系統(tǒng)平臺(tái)收錄在COVID-19專題組中[5]。
由于MedRxiv平臺(tái)不能直接獲取所有COVID-19專題論文的發(fā)表狀態(tài)等信息,故采取以下步驟進(jìn)行采集處理,具體方法及步驟如下。
(1)利用MedRxiv平臺(tái)提供的API(http://api.biorxiv.org/details/medrxiv/help)服務(wù),分別下載了MedRxiv和BioRxiv預(yù)印本上2020年1月1日到2020年6月30日的所有數(shù)據(jù),并下載了2019年9月25日最早的那篇文獻(xiàn),共31 548篇文獻(xiàn)。MedRxiv平臺(tái)的API服務(wù)提供的數(shù)據(jù)包括doi、title、authors、author_corresponding、author_corresponding_institution、date、version、type、license、category、abstract、published、server信息,數(shù)據(jù)比較完整。其中,published數(shù)據(jù)給出了正式發(fā)表的期刊分配的新的doi號(hào),數(shù)據(jù)中有新doi號(hào)的文獻(xiàn)即為已經(jīng)正式發(fā)表的文獻(xiàn)。
(2)利用MedRxiv平臺(tái)提供的COVID-19專題組JSON格式下載功能,下載COVID-19專題組JSON格式數(shù)據(jù)并轉(zhuǎn)換成excel,2020年7月30日采集到7087篇文獻(xiàn)(包括5622篇MedRxiv,1465篇BioRxiv),COVID-19專題組的數(shù)據(jù)中整合了MedRxiv和BioRxiv平臺(tái)上的新冠肺炎論文數(shù)據(jù)。數(shù) 據(jù) 包 括rel_title、rel_doi、rel_link、rel_abs、rel_num_authors、rel_authors、rel_date、rel_site信息。
(3)由于下載的31 548篇文獻(xiàn)中的DOI數(shù)據(jù)就是COVID-19專題組7087篇文獻(xiàn)中的rel_doi數(shù)據(jù)。在excel中根據(jù)此DOI號(hào)關(guān)聯(lián),比對(duì)以上2組數(shù)據(jù),得到兩組數(shù)據(jù)中的重合數(shù)據(jù)為7992篇文獻(xiàn)。這7992篇文獻(xiàn)即為本研究所需的包含了正式發(fā)表等完整信息的樣本數(shù)據(jù)組,時(shí)間區(qū)間為2020年1月1日至2020年6月30日。
查看這7992篇文獻(xiàn)的數(shù)據(jù),發(fā)現(xiàn)與下載得到的COVID-19專題組7087篇文獻(xiàn)并不一致。其一,數(shù)據(jù)時(shí)間范圍不完全一致:7087篇文獻(xiàn)是COVID-19專題組數(shù)據(jù)從2019年9月25日最早一篇文獻(xiàn)至采集日2020年7月30日止的數(shù)據(jù),而7992篇文獻(xiàn)是從2019年9月25日最早一篇文獻(xiàn)到2020年6月30日這半年的數(shù)據(jù);其二,預(yù)印本上的論文未經(jīng)同行評(píng)審,預(yù)印本上論文發(fā)布后,可以對(duì)論文進(jìn)行多次修正,同一篇文獻(xiàn)可以有重復(fù)記錄。通過(guò)DOI號(hào)和version(版本)發(fā)現(xiàn),7992篇文獻(xiàn)中同一個(gè)DOI號(hào)有幾條不同的記錄,這些重復(fù)記錄是作者修改后上傳的不同修改版本記錄,修改的版本是對(duì)同一研究論文的完善,這些修正的版本和第一次發(fā)布的論文具有相同的DOI號(hào),即7992篇文獻(xiàn)中存在同一篇文獻(xiàn)(有相同的DOI號(hào))有不同修改版本的重復(fù)記錄。有重復(fù)修改版本的論文最終只認(rèn)可一個(gè)研究成果,并最終在同行評(píng)議后獲得正式發(fā)表。這類似于有相同ISBN號(hào)的圖書就是同一本書,而有相同ISSN號(hào)的期刊就是同一種期刊。
因此,在這7992篇文獻(xiàn)中,去除重復(fù)修改版本后得到5950篇文獻(xiàn),即從2019年9月25日最早一篇文獻(xiàn)到2020年6月30日止,實(shí)際有5950篇文獻(xiàn)發(fā)布在預(yù)印本COVID-19專題組中。
為了更好地對(duì)所采集的COVID-19專題組論文數(shù)據(jù)進(jìn)行分析,本研究對(duì)王智琦等人繪制的預(yù)印本出版過(guò)程說(shuō)明圖[4]進(jìn)行了修正,依據(jù)時(shí)間軸繪制出預(yù)印本出版與期刊出版過(guò)程中的版本說(shuō)明,如圖1所示。
圖1 預(yù)印本發(fā)表與期刊發(fā)表的版本及時(shí)滯說(shuō)明圖
就圖1中時(shí)間軸上部的預(yù)印本出版(Preprint publication)過(guò)程而言,需要重點(diǎn)關(guān)注的是三個(gè)階段:預(yù)印本首次提交(Pre-print submission,v1);通過(guò)同行評(píng)議進(jìn)程(Peer-review process),被期刊接受(accepted),成為后印本(Post-print);完成后印本最新更新(Post-print latest update)后,正式提交發(fā)表(Post-print submission)。而在這一過(guò)程中,后印本是一個(gè)關(guān)鍵節(jié)點(diǎn),它是聯(lián)結(jié)預(yù)印本出版和期刊出版的最為關(guān)鍵的環(huán)節(jié),表明該預(yù)印本論文通過(guò)了同行評(píng)議,可以進(jìn)入期刊出版(Journal publication)過(guò)程,實(shí)現(xiàn)論文的期刊在線發(fā)表(online Publish),并最終獲得出版(print)。
基于上述預(yù)印本發(fā)表流程及采集到的COVID-19論文組數(shù)據(jù),發(fā)現(xiàn)在所采集的預(yù)印本上關(guān)于新冠的論文中,有一部分已經(jīng)被學(xué)術(shù)期刊評(píng)審?fù)ㄟ^(guò)后正式發(fā)表,成為后印本。在這些正式發(fā)表的后印本論文中,又有一部分被Web of Science 核心合集收錄。
根據(jù)published字段篩選,在7992篇預(yù)印本文獻(xiàn)中,已經(jīng)正式發(fā)表的有735篇文獻(xiàn),成為后印本。而沒(méi)通過(guò)評(píng)審的7257篇依然叫做預(yù)印本。仔細(xì)考察,可以發(fā)現(xiàn)在預(yù)印本論文中還存在著大量的修改版本,即修訂本。由于預(yù)印本平臺(tái)上的論文可以發(fā)布不同的版本,可以不斷更新,因此如果從這7992篇預(yù)印本文獻(xiàn)僅篩選了第一版本,并去除修訂版本,實(shí)際則為5950篇文獻(xiàn)。而在這735篇后印本中,如果去除同一個(gè)文獻(xiàn)的多個(gè)修改版本,那么,僅有505篇文獻(xiàn)正式發(fā)表成為期刊論文。
由于scopus數(shù)據(jù)庫(kù)能便捷獲取論文更新信息,數(shù)據(jù)庫(kù)中論文若更新會(huì)在明顯的地方提示更新信息,故本研究將這505篇文獻(xiàn)期刊發(fā)表后的DOI號(hào)輸入scopus中得到471篇文獻(xiàn)(數(shù)據(jù)采集時(shí)間為2021年6月),數(shù)量基本接近505篇,發(fā)現(xiàn)更新版本的論文有20篇,這20篇文獻(xiàn)在scopus中的更新提示的類型有Corrigendum、Correction、Erratum、Publisher Correction、Author Correction,說(shuō)明這20篇即為勘誤本。但在MedRxiv和BioRxiv預(yù)印本平臺(tái)上,則未見(jiàn)對(duì)這20篇論文的預(yù)印本進(jìn)行同步更新,說(shuō)明MedRxiv和BioRxiv預(yù)印本平臺(tái)未關(guān)注已經(jīng)發(fā)表的后印本的后續(xù)更新。
將正式發(fā)表的505篇文獻(xiàn)期刊發(fā)表后的DOI號(hào)輸入到Web of Science 核心合集中,得到399篇文獻(xiàn)(其中,ESCI文獻(xiàn)13篇,此為2020年10月22日檢索數(shù)據(jù))。此399篇SCI論文無(wú)疑是高質(zhì)量的關(guān)于新冠肺炎的論文,同時(shí)也是核心期刊論文。由此可見(jiàn),預(yù)印本論文的出版過(guò)程是一個(gè)動(dòng)態(tài)的發(fā)展過(guò)程,在此過(guò)程中,論文的版本形態(tài)在不斷地調(diào)整,存在著一系列目前尚未被普遍關(guān)注且存在認(rèn)識(shí)和理解差異的問(wèn)題?;诒狙芯克杉臄?shù)據(jù)集合,可以將COVID-19專題組論文分成了預(yù)印本論文、后印本論文(期刊論文)、勘誤本期刊論文-Web of Science 核心合集論文這四個(gè)分區(qū),如表1所示。
表1 預(yù)印本COVID-19專題組論文的版本分布
(1)去除重復(fù)的修訂版本后,Web of Science核心合集區(qū)論文非常接近正式發(fā)表的期刊論文區(qū),Web of Science 核心合集區(qū)論文在后印本中占比79%,說(shuō)明截止到本研究采集數(shù)據(jù)的時(shí)間,預(yù)印本上通過(guò)同行評(píng)議的COVID-19論文絕大部分正式發(fā)表在高質(zhì)量的核心期刊上。隨著時(shí)間的后續(xù),可能會(huì)有更多的論文通過(guò)同行評(píng)議,被學(xué)術(shù)期刊接受。
(2)預(yù)印本區(qū)論文數(shù)量很大,而能正式發(fā)表的后印本文獻(xiàn)數(shù)量較少,包含修訂本中后印本占比預(yù)印本9.2%,而去除修訂本后,后印本占比預(yù)印本8.5%,即截止到本研究采集數(shù)據(jù)的時(shí)間,預(yù)印本上有接近十分之一的論文能夠被期刊正式發(fā)表。這表明預(yù)印本文獻(xiàn)的總體質(zhì)量良莠不齊,因此論文質(zhì)量控制是一個(gè)不容忽視的問(wèn)題,而同行評(píng)議在論文質(zhì)量把關(guān)和正式學(xué)術(shù)出版中占據(jù)極為重要的位置。
(3)同一論文的修訂版本數(shù)量占比較大,值得注意。發(fā)布在預(yù)印本平臺(tái)上的文獻(xiàn)中,有2042篇(7992篇減去5950篇)文獻(xiàn)是反復(fù)修改發(fā)布的修訂版本,修訂本文獻(xiàn)占預(yù)印本文獻(xiàn)總數(shù)的25.6%。在正式發(fā)表的期刊論文中,即后印本論文區(qū),有230篇(735篇減去505篇)是反復(fù)修改發(fā)布的版本文獻(xiàn),占正式發(fā)表期刊文獻(xiàn)的31.3%。這說(shuō)明預(yù)印本文獻(xiàn)中有近三分之一的文獻(xiàn)是幾經(jīng)修改后才得以正式發(fā)表在學(xué)術(shù)期刊上。當(dāng)論文提交在預(yù)印本平臺(tái)后,作者就可以接收到讀者同行的評(píng)論反饋,進(jìn)而不斷修正自己的論文,修改包括科研數(shù)據(jù)的更新,結(jié)論的更正與完善,甚至論文標(biāo)題也會(huì)有所調(diào)整,可以認(rèn)為作者最后修正的論文是更成熟和完整的。這一現(xiàn)象充分揭示了學(xué)術(shù)研究是一個(gè)不斷優(yōu)化和完善的過(guò)程,而預(yù)印本提供了真實(shí)呈現(xiàn)這一過(guò)程的平臺(tái),一方面為相關(guān)領(lǐng)域研究者提供了圍觀和評(píng)價(jià)研究發(fā)展變化過(guò)程的可能,另一方面也提供了研究的真實(shí)性和可靠性的循證。
(4)勘誤本是對(duì)被學(xué)術(shù)期刊接受發(fā)表的預(yù)印本文獻(xiàn)的進(jìn)一步修正和完善,勘誤本在后印本中的占比接近4%。本研究的勘誤本數(shù)據(jù)來(lái)源是通過(guò)scopus獲得的,這一方面說(shuō)明學(xué)術(shù)研究是一個(gè)嚴(yán)謹(jǐn)?shù)倪^(guò)程,并不因論文已經(jīng)正式發(fā)表而終結(jié);另一方面也反映出一個(gè)現(xiàn)象,即目前的預(yù)印本平臺(tái)MedRxiv和BioRxiv尚未對(duì)已正式發(fā)表的后印本的后續(xù)更新和勘誤給予足夠的關(guān)注。
學(xué)術(shù)交流供需鏈主要由四個(gè)部分構(gòu)成,即產(chǎn)生和利用學(xué)術(shù)成果的科研人員;支持科學(xué)研究的資助者和科研機(jī)構(gòu);控制論文質(zhì)量、加工、傳播學(xué)術(shù)成果的出版商;獲取、組織學(xué)術(shù)資源并開(kāi)展服務(wù)的圖書館。當(dāng)學(xué)術(shù)出版和交流環(huán)境發(fā)生改變,走向越來(lái)越開(kāi)放之后,學(xué)術(shù)文獻(xiàn)的整體生態(tài)發(fā)生了變化。研究表明,疫情顯然加速了研究論文的出版和交流模式的發(fā)展,改變了學(xué)者們的交流合作的方式[8],而預(yù)印本更是加速了學(xué)術(shù)交流和出版的速度,縮短了學(xué)術(shù)傳播時(shí)滯。經(jīng)過(guò)反復(fù)修改后再投稿及預(yù)印本版本可多次更新的開(kāi)放出版方式,在形成學(xué)術(shù)文獻(xiàn)出現(xiàn)多版本等新特征的基礎(chǔ)上,也對(duì)學(xué)術(shù)文獻(xiàn)資源管理產(chǎn)生了新影響,出現(xiàn)了預(yù)印本論文版本的歸檔、預(yù)印本論文的引用分流、預(yù)印本論文的篩選與保存等問(wèn)題。
如以上分析結(jié)果所示,半年的預(yù)印本新冠肺炎論文中有約占25.6%的重復(fù)修改版本,正式發(fā)表的期刊論文中有約31.3%的論文是重復(fù)修改版本后才發(fā)表。這說(shuō)明預(yù)印本文獻(xiàn)中有近三分之一的文獻(xiàn)在發(fā)布后作者通過(guò)讀者反饋不斷修正論文,并最終正式發(fā)表在期刊上。這同Lin jialiang等人研究結(jié)果一致,其研究結(jié)果表明,在arXiv預(yù)印本平臺(tái)上的計(jì)算機(jī)領(lǐng)域,大多數(shù)出版的預(yù)印本比未出版的預(yù)印本呈現(xiàn)出適當(dāng)?shù)男抻?、多作者、詳?xì)的摘要和介紹、廣泛權(quán)威的參考文獻(xiàn)和可用的源代碼等共同特征[9]。由此可見(jiàn),預(yù)印本這種開(kāi)放出版方式有助于作者論文的正式出版。
傳統(tǒng)出版模式下,正式出版的論文經(jīng)同行評(píng)議和出版機(jī)構(gòu)嚴(yán)格把關(guān)才得以出版發(fā)表,質(zhì)量和內(nèi)容相對(duì)可靠。就傳統(tǒng)的論文出版而言,無(wú)論期刊的優(yōu)劣級(jí)別,一旦出版了就是一次定稿,不可以修改。因此在傳統(tǒng)期刊論文中,看不到作者在研究過(guò)程中的思想演進(jìn),因?yàn)榘l(fā)表論文只保留了作者最終的研究成果和結(jié)論。而預(yù)印本網(wǎng)絡(luò)論文和傳統(tǒng)的期刊發(fā)表不一樣,發(fā)布在預(yù)印本平臺(tái)上的論文,作者可以進(jìn)行修改后多次發(fā)布,因此預(yù)印本論文往往具有幾個(gè)修改版本。這些版本的論文都記錄在預(yù)印本平臺(tái)上。當(dāng)瀏覽和檢索預(yù)印本時(shí),可以根據(jù)DOI號(hào)檢索到最新版論文,在這個(gè)最新版論文頁(yè)面的“Info/History”欄目中可以查看該論文的歷史版本及全文。這些修改的版本論文具有和第一次發(fā)布論文同樣的DOI號(hào)。
預(yù)印本論文這種開(kāi)放出版發(fā)表方式,無(wú)疑是更具有靈活性,也更利于學(xué)術(shù)交流和知識(shí)傳播。但由此產(chǎn)生的文獻(xiàn)版本的更新迭代卻增加了讀者檢索、閱讀論文的甄別難度。面對(duì)未經(jīng)同行評(píng)議的預(yù)印本論文,以及不確定的論文版本和不確定的最終研究結(jié)果,不僅要求閱讀參考和引用該論文結(jié)論和成果的人具有更高的辨別力及更為慎重的態(tài)度,也對(duì)預(yù)印本論文的保存和管理提出了新的要求。由此也就產(chǎn)生了預(yù)印本論文的版本歸檔問(wèn)題。20世紀(jì)80年代后伴隨電子文件的日漸增多,對(duì)檔案保存和管理提出了新的要求,文件連續(xù)體理論(Records Continuum)應(yīng)運(yùn)而生。澳大利亞檔案學(xué)者弗蘭克·阿普沃德認(rèn)為,由于紙質(zhì)文件從生成到處置的直線運(yùn)動(dòng)過(guò)程不再適用于電子文件,因此電子文件的生命周期可以理解為“往復(fù)運(yùn)動(dòng)于從生成到處置的連續(xù)體中的一個(gè)過(guò)程”,提出了對(duì)電子文件形成、保存和長(zhǎng)久利用應(yīng)實(shí)施一體化管理的理念[10]。電子文件連續(xù)體理論對(duì)于預(yù)印本論文的保存管理是具有指導(dǎo)意義的。具體而言,就是在對(duì)那些通過(guò)同行評(píng)議最終被期刊接受,正式成為期刊論文的學(xué)術(shù)成果的保存過(guò)程中,不能僅僅關(guān)注其最終的成果版本,還需要保存其預(yù)印本平臺(tái)的歷史修訂版本。因?yàn)轭A(yù)印本平臺(tái)不僅記載了科研過(guò)程不同的修改版本,同時(shí)記錄了科研數(shù)據(jù)的演進(jìn)過(guò)程,保存了研究者為完善研究所作出的研究思路的調(diào)整,而這些數(shù)據(jù)和記錄正是科研檔案的一部分,也是科研數(shù)據(jù)管理的內(nèi)容范疇。
隨著預(yù)印本學(xué)術(shù)交流形式日益被認(rèn)可,對(duì)預(yù)印本的引用行為必然受到關(guān)注。通常論文的被引量是作為學(xué)術(shù)影響力評(píng)價(jià)的一個(gè)重要指標(biāo)看待的。由于印本網(wǎng)絡(luò)論文存在多個(gè)版本,不同時(shí)期看到的同一個(gè)DOI號(hào)論文的版本可能并不一樣,論文內(nèi)容會(huì)存在差異,有時(shí)候標(biāo)題名稱都會(huì)發(fā)生變化。有研究顯示,2008年至2017年間提交arXiv的計(jì)算機(jī)科學(xué)領(lǐng)域的預(yù)印本中,66%以相同的標(biāo)題正式出版發(fā)表,11%的預(yù)印本以不同的標(biāo)題和其他修改版本正式出版發(fā)表[9]。不同時(shí)期檢索和瀏覽的論文也可能產(chǎn)生變化,且由于論文標(biāo)題可能出現(xiàn)變化,因此直接用標(biāo)題檢索或許都找不到當(dāng)時(shí)的文獻(xiàn),只能用DOI號(hào)來(lái)進(jìn)行確認(rèn)和檢索。DOI號(hào)檢索后在預(yù)印本平臺(tái)上顯示出的是該文的最新版本,發(fā)布時(shí)間是該論文的版本標(biāo)記,在該最新版本頁(yè)面的“Info/History”欄目中可以鏈接到同一個(gè)DOI號(hào)的歷史版本。如果有研究者引用該論文的特定版本,就需要標(biāo)記出DOI號(hào)及版本,例如:需要引用biorxiv預(yù)印本文獻(xiàn)DOI:10.1101/2019.12.11.123456 version 2,其引用格式為:https://www.biorxiv.org/content/ 10.1101/2019.12.11.123456v2[11]。在預(yù)印本論文未正式期刊發(fā)表前,研究者只能引用其預(yù)印本,因此預(yù)印本對(duì)正式發(fā)表的期刊論文版本被引量產(chǎn)生分流效應(yīng),導(dǎo)致該文期刊正式版本論文被引量減少[12]。此外,由于預(yù)印本論文存在不斷更新,研究者引用預(yù)印本又存在引用不同版本情況,這又進(jìn)一步增加了引用分流。因此在統(tǒng)計(jì)分析論文被引量時(shí),就需要考慮以上多種引用的情況。這一變化,對(duì)于文獻(xiàn)計(jì)量學(xué)的研究無(wú)疑會(huì)產(chǎn)生較大影響。
由以上結(jié)果得到,從文獻(xiàn)數(shù)量來(lái)計(jì)算,預(yù)印本論文被正式發(fā)表的文獻(xiàn)占發(fā)布總文獻(xiàn)的8.5%(505篇/5950篇),被Web of Science 核心合集收錄的核心論文占正式發(fā)表論文的79%(399篇/505篇)。最終被期刊正式發(fā)表的預(yù)印本論文和被Web of Science 核心合集收錄的預(yù)印本論文在數(shù)量上很接近,這在一定程度上反映出一個(gè)現(xiàn)象,即預(yù)印本的不斷修改和更新版本迭代,提高了論文的最終質(zhì)量,使得經(jīng)同行評(píng)審后發(fā)表的文章大部分都是較高水平的核心文獻(xiàn)。ArXiv及BioRxiv等權(quán)威預(yù)印本平臺(tái)受到出版商及期刊的普遍認(rèn)同,這些出版商和期刊鼓勵(lì)和允許作者將論文發(fā)布到這些預(yù)印本平臺(tái)上[13]。Richard J Abdill等人[14]2019年的研究發(fā)現(xiàn),在2017年之前發(fā)布的BioRxiv預(yù)印本中,有三分之二文獻(xiàn)后來(lái)在同行評(píng)議期刊上發(fā)表。隨著時(shí)間的推移,預(yù)印本平臺(tái)上的新冠COVID-19專題組論文是否也能滿足這個(gè)結(jié)論,將有待時(shí)間來(lái)驗(yàn)證。
隨著科研活動(dòng)向開(kāi)放、共享、協(xié)同方面的深化,預(yù)印本平臺(tái)正日益被學(xué)界認(rèn)可,需要打通預(yù)印本平臺(tái)與期刊開(kāi)放出版的關(guān)聯(lián)通道,通過(guò)預(yù)印本平臺(tái)與期刊投審稿系統(tǒng)、出版系統(tǒng)的互聯(lián),實(shí)行優(yōu)秀稿件向期刊出版的推送機(jī)制[15]。期刊編輯可利用預(yù)印本尋找優(yōu)質(zhì)稿源、縮短評(píng)審周期、嘗試新型評(píng)審方式、探索開(kāi)放獲取模式、期刊平臺(tái)網(wǎng)絡(luò)化建設(shè)及嘗試與預(yù)印本網(wǎng)站建立合作等舉措[16]。而在出版環(huán)節(jié),將知識(shí)工作自動(dòng)化算法應(yīng)用于預(yù)印本環(huán)境下,提出論文發(fā)表“預(yù)印本+自組織同行評(píng)議”新模式[17]。更令人激動(dòng)的是,在開(kāi)放出版的新生態(tài)下,Gowers于2016年創(chuàng)立基于預(yù)印本平臺(tái)的新型期刊Discrete Analysis,該期刊是基于arXiv的虛擬化期刊,其組稿和出版流程是:作者先向arXiv投稿,同時(shí)通知期刊并將鏈接附上,期刊組織專家直接到arXiv評(píng)閱,決定錄用后將論文以鏈接方式發(fā)布,讀者直接通過(guò)鏈接跳轉(zhuǎn)到arXiv平臺(tái)閱讀。期刊以每篇論文為單位進(jìn)行發(fā)布,不按年、卷、期組稿,這種出版模式既避免了傳統(tǒng)期刊的出版時(shí)滯,又融入傳統(tǒng)期刊的同行評(píng)議,加強(qiáng)了質(zhì)量控制,代表預(yù)印本和正式出版融合發(fā)展的新方向[13]。新型期刊Discrete Analysis的出現(xiàn),預(yù)示著新的出版方式,這將倒逼圖書館的資源采購(gòu)與保存做出適當(dāng)?shù)恼{(diào)整。
就本研究結(jié)果顯示,MedRxiv和BioRxiv預(yù)印本作為權(quán)威的生物醫(yī)藥領(lǐng)域預(yù)印本平臺(tái),平臺(tái)上通過(guò)同行評(píng)議正式發(fā)表的期刊論文絕大多數(shù)是被Web of Science 核心合集收錄,說(shuō)明MedRxiv和BioRxiv預(yù)印本平臺(tái)已經(jīng)成為期刊優(yōu)質(zhì)稿件來(lái)源,成為集論文發(fā)布、期刊評(píng)審、出版一體的開(kāi)放式平臺(tái)。事實(shí)上新型期刊Discrete Analysis模式中,期刊論文是存儲(chǔ)在預(yù)印本平臺(tái)上,讀者通過(guò)鏈接可直接跳轉(zhuǎn)到arXiv平臺(tái)閱讀論文。對(duì)于期刊論文的使用機(jī)構(gòu)來(lái)說(shuō),不需要保存預(yù)印本論文,只需要將預(yù)印本論文鏈接整理,組織起來(lái)揭示即可,既節(jié)約了采購(gòu)經(jīng)費(fèi)又節(jié)省了使用機(jī)構(gòu)的存儲(chǔ)空間。而圖書館則不僅要在用戶中宣傳開(kāi)放出版,同時(shí)也需要為用戶預(yù)印本投稿時(shí)提供作者投稿指引,投稿指引除了包含預(yù)印本投稿政策外,還需要提供各學(xué)科投稿期刊所在的預(yù)印本平臺(tái)信息。
已有圖書館將預(yù)印本平臺(tái)作為開(kāi)放獲取資源納入館藏建設(shè)和服務(wù)中[18]。未來(lái)將有更多圖書館可能根據(jù)館藏需求和計(jì)劃,在資源采購(gòu)時(shí)選擇不購(gòu)買期刊數(shù)據(jù)庫(kù),而只要從這些權(quán)威的預(yù)印本上篩選已正式出版的論文,搜集論文在預(yù)印本上的鏈接和DOI號(hào),組織整理后,以學(xué)科導(dǎo)航或建立知識(shí)庫(kù)方式揭示。
開(kāi)放學(xué)術(shù)交流和出版將日趨成為主流,而國(guó)內(nèi)的作者普遍對(duì)開(kāi)放出版認(rèn)可度不高,圖書館作為信息和知識(shí)服務(wù)中心,肩負(fù)著知識(shí)傳播的職責(zé),培養(yǎng)用戶使用開(kāi)放出版的意識(shí),并在用戶使用開(kāi)放學(xué)術(shù)交流和出版中提供幫助。鑒于目前圖書館資源建設(shè)存在資源經(jīng)費(fèi)不足、各種數(shù)據(jù)庫(kù)采購(gòu)價(jià)格上漲、紙本資源使用率較低等問(wèn)題,圖書館應(yīng)該與時(shí)俱進(jìn),同步采用新的知識(shí)交流與傳播模式,從預(yù)印本資源的采集、組織及相關(guān)資源的采購(gòu)方面展開(kāi)工作,改善圖書館的資源配置,調(diào)整圖書館資源建設(shè)策略。同時(shí),根據(jù)預(yù)印本的獨(dú)有特征,圖書館為用戶提供包括預(yù)印本在內(nèi)的學(xué)術(shù)資源揭示、預(yù)印本論文發(fā)布及投稿指引、考慮引用分流及替代計(jì)量的學(xué)術(shù)評(píng)價(jià)等相應(yīng)服務(wù),提升圖書館的服務(wù)水平。