■馮昌揚(yáng) 陳雨雪
1)武漢大學(xué)信息管理學(xué)院,湖北省武漢市武昌區(qū)八一路299號(hào) 4300722)福建船政交通職業(yè)學(xué)院,福建省福州市倉山區(qū)首山路80號(hào) 350007
在學(xué)術(shù)交流活動(dòng)中,越來越多的學(xué)術(shù)期刊意識(shí)到開放代碼的好處,開始鼓勵(lì)作者共享代碼,并要求他們在每篇論文中包含一份關(guān)于代碼可用性的聲明。開放代碼指的是可供免費(fèi)分發(fā)和重復(fù)使用的計(jì)算機(jī)代碼(軟件),其源代碼不受限制[1]。結(jié)合Easterbrook的觀點(diǎn)[2],本研究將“開放代碼”定義為在某些平臺(tái)上自由發(fā)布代碼、模型和算法的過程,因此,其他學(xué)科的研究人員可以對這些代碼進(jìn)行分析,并可以重新運(yùn)行代碼來驗(yàn)證結(jié)果。例如,為了解決日益復(fù)雜的數(shù)據(jù)和分析問題,《科學(xué)》(Science)擴(kuò)展了數(shù)據(jù)訪問要求,包括涉及數(shù)據(jù)創(chuàng)建或分析的代碼[3];《自然》(Nature)、《自然方法》(NatureMethods)、《自然生物技術(shù)》(NatureBiotechnology)和《自然神經(jīng)科學(xué)》(NatureNeuroscience)等期刊鼓勵(lì)作者提供源代碼、安裝指南和樣本數(shù)據(jù)集,以供審稿人檢查[4];《生物統(tǒng)計(jì)學(xué)》(Biostatistics)創(chuàng)建了“再現(xiàn)性副主編”(Associate Editor for Reproducibility)這一職位,致力于根據(jù)收到的數(shù)據(jù)和代碼重復(fù)論文;《生物信息學(xué)》(Bioinformatics)要求作者在提交論文時(shí)描述如何訪問其軟件,并在文章的標(biāo)題頁中指明能夠訪問源代碼的統(tǒng)一資源定位符(Uniform Resource Locator, URL)[5];《內(nèi)科醫(yī)學(xué)年鑒》(AnnalsofInternalMedicine)則要求作者說明他們是否愿意在論文出版后分享他們在研究中開發(fā)和使用的源代碼、數(shù)據(jù)和協(xié)議[6]。
鑒于期刊對科學(xué)傳播的重要作用和對研究人員具有較大的影響,國外一些學(xué)者已經(jīng)展開期刊開放代碼政策的相關(guān)研究,如Stodden等[7-8]通過評(píng)估樣本期刊的數(shù)據(jù)共享政策、代碼共享政策、補(bǔ)充材料政策和開放獲取狀態(tài),建立了期刊采用開放數(shù)據(jù)和代碼政策的預(yù)測模型;通過向作者請求數(shù)據(jù)和代碼并嘗試復(fù)現(xiàn)已發(fā)表的結(jié)果來評(píng)估開放代碼政策的有效性,研究發(fā)現(xiàn),作者的數(shù)據(jù)和代碼發(fā)布情況比沒有推出開放代碼政策時(shí)有所改進(jìn),但目前還不足以復(fù)現(xiàn)實(shí)驗(yàn)結(jié)果。此外,Rowhani-Farid等[9]發(fā)現(xiàn)《生物統(tǒng)計(jì)學(xué)》采用再現(xiàn)性政策獎(jiǎng)勵(lì)帶有數(shù)據(jù)和代碼共享徽章的文章,他們通過樣本期刊文章的提交日期繪制代碼共享概率,并進(jìn)行貝葉斯邏輯回歸建模,發(fā)現(xiàn)生物統(tǒng)計(jì)學(xué)期刊的徽章并沒有影響代碼共享。如前所述,生物醫(yī)學(xué)領(lǐng)域的研究人員更多地關(guān)注代碼可用性及可重復(fù)性,然而筆者通過文獻(xiàn)調(diào)研發(fā)現(xiàn)我國生物醫(yī)學(xué)領(lǐng)域期刊鮮有對開放代碼提出要求,目前也鮮有關(guān)于期刊開放代碼政策的研究,因此,本研究試圖采用內(nèi)容分析法調(diào)研生物醫(yī)學(xué)期刊開放代碼政策的相關(guān)特征。
本研究使用的數(shù)據(jù)集來自2017年《期刊引證報(bào)告》(JournalCitationReports,JCR)中的生物醫(yī)學(xué)研究期刊,這些期刊廣泛分布于Web of Science(WoS)數(shù)據(jù)庫的生物化學(xué)和分子生物學(xué)、生物學(xué)、細(xì)胞生物學(xué)、晶體學(xué)、發(fā)育生物學(xué)、生物醫(yī)學(xué)工程、免疫學(xué)、醫(yī)學(xué)信息學(xué)、微生物學(xué)、顯微術(shù)、多學(xué)科科學(xué)和神經(jīng)科學(xué)等分類中。由于生物醫(yī)學(xué)期刊數(shù)量較多,本研究將研究樣本限制為Q1區(qū)的期刊。具體檢索式為:Select Categories:Biochemistry & Molecular Biology,Biology,Cell Biology,Crystallography,Developmental Biology, Engineering、Biomedical,Immunology,Medical Informatics,Microbiology,Microscopy,Multidisciplinary Sciences,Neurosciences; Select JCR Year:2017; Select Edition:SCIE; Category Scheme:WoS; JIF Quartile:Q1。
初始數(shù)據(jù)集包括299種期刊。經(jīng)過人工審核,排除非英語語種期刊、簡短報(bào)告和評(píng)論期刊、基礎(chǔ)醫(yī)學(xué)或臨床研究期刊,最終確定的研究樣本包括152種期刊,占JCR該領(lǐng)域Q1區(qū)期刊總量的50.84%。從JCR報(bào)告中獲取的數(shù)據(jù),包括期刊標(biāo)題(Full Journal Title)、期刊的總被引頻次(Total Cites)、影響因子(Impact Factor)和特征因子分值(Eigenfactor Score)。2017年各影響因子區(qū)間的期刊數(shù)量和相應(yīng)的占比如表1所示。提取這些期刊的期刊政策(Information for Authors和Editorial Policies)作為編碼文本。
表1 期刊影響因子分布
采用內(nèi)容分析法研究國外期刊開放代碼政策。內(nèi)容分析法是從文本語料庫中發(fā)現(xiàn)定量模式的有效方法。在內(nèi)容分析法中,編碼是數(shù)據(jù)收集和數(shù)據(jù)解釋之間的關(guān)鍵聯(lián)系,它可以為研究人員提供一套系統(tǒng)的指導(dǎo)方針(即編碼方案)來解釋數(shù)據(jù)。
編碼的第一步是確定研究目標(biāo)并創(chuàng)建一個(gè)明確的編碼方案。本研究結(jié)合Stodden的編碼方案[7],創(chuàng)建一個(gè)編碼草案。為了補(bǔ)充在擬定草案時(shí)未注意到的元素,筆者采用基礎(chǔ)理論方法將草案應(yīng)用于數(shù)據(jù)集的一個(gè)子集,以幫助進(jìn)一步改進(jìn)編碼方案,得到最終版編碼方案(表2)。
兩位具有編程背景,并具有文本編碼經(jīng)驗(yàn)的信息科學(xué)專業(yè)的研究生作為編碼人員,對50個(gè)隨機(jī)抽取的期刊樣本進(jìn)行編碼。本研究使用Cohen′s kappa系數(shù)來測量編碼人員之間的可信度(Interrater Reliability,IRR),其IRR為0.8,這為一位編碼人員提供了足夠的可靠性來編碼所有樣本。
表2 最終版編碼方案
在152種樣本期刊中,40種(26.32%)期刊將開放代碼作為發(fā)表?xiàng)l件, 57種(37.5%)期刊明確鼓勵(lì)開放代碼,但并未強(qiáng)制要求,55種(36.18%)期刊未提及任何有關(guān)開放代碼的內(nèi)容(表3)。
表3 樣本期刊開放代碼政策的概況
65種(67.01%)期刊沒有明確提及公開代碼的處理方式,2種(2.06%)期刊愿意托管作者提交的代碼,30種(30.92%)期刊會(huì)對代碼進(jìn)行審核。與僅鼓勵(lì)作者開放代碼的期刊相比,將開放代碼作為發(fā)表必要條件的期刊審核代碼的概率更大(表4)。
表4 樣本期刊對公開代碼的處理方式
75種(49.34%)期刊建議作者通過公共在線存儲(chǔ)庫開放代碼,2種(1.32%)期刊推薦通過期刊托管方法,2種(1.32%)期刊建議讀者請求作者共享,73種(48.03%)期刊沒有指定代碼公開方式(表5)。
在要求開放代碼(編碼為A-3)的40種期刊中,36種期刊建議通過公共存儲(chǔ)庫開放代碼,4種期刊沒有指定代碼公開方式。
表5 樣本期刊推薦的代碼公開方式
對開放獲取期刊的開放代碼概況進(jìn)行Fisher精確檢驗(yàn)(Fisher′s Exact Test),結(jié)果得出P值為0.007,表明開放代碼政策強(qiáng)度與期刊訪問模式之間差異有統(tǒng)計(jì)學(xué)意義。筆者進(jìn)一步將編碼A分為兩大類,期刊政策將開放代碼列為必需條件(編碼為A-3的期刊)和期刊政策認(rèn)為開放代碼是非必需的(編碼為A-2或A-1的期刊),并使用卡方檢驗(yàn)(Chi-Square Test)來測試此關(guān)聯(lián),發(fā)現(xiàn)兩類期刊開放代碼政策的差異有統(tǒng)計(jì)學(xué)意義(P=0.009)。兩個(gè)結(jié)果都表明,開放獲取期刊更有可能要求開放代碼。
圖1 不同影響因子期刊的開放代碼要求
圖1所示為2017年每個(gè)開放代碼級(jí)別期刊的影響因子中位數(shù)。2017年具有最強(qiáng)開放代碼政策(編碼為A-3)的期刊,其期刊影響因子中位數(shù)為6.772;然而,沒有提及開放代碼(編碼為A-1)的期刊的影響因子中位數(shù)為5.186。
影響因子與編碼A的差異具有統(tǒng)計(jì)學(xué)意義(Kruskal-Wallis檢驗(yàn),P<0.0001)。通過檢查編碼A中各類別之間的成對差異,筆者發(fā)現(xiàn)將開放代碼政策作為論文發(fā)表必要條件(編碼為A-3)的期刊具有顯著高于期刊政策認(rèn)為開放代碼是非必需(編碼為A-2或A-1)的期刊影響因子(Wilcoxon檢驗(yàn),均為P<0.0001)。筆者進(jìn)一步將期刊政策分為兩類,即期刊政策將開放代碼列為必需條件(編碼為A-3的期刊)和期刊政策認(rèn)為開放代碼是非必需的(編碼為A-2和A-1的期刊),發(fā)現(xiàn)需要開放代碼期刊的影響因子顯著增加(Wilcoxon檢驗(yàn),P<0.0001)。
只有60種(61.86%)期刊明確提到版權(quán)或許可,即使是要求開放代碼(編碼為A-3)的期刊,也只有30種(30.93%)期刊提到版權(quán)或許可(表6)。
表6 期刊開放代碼版權(quán)聲明
從整體來看,生物醫(yī)學(xué)期刊對開放代碼有不同程度的要求,但大多數(shù)期刊沒有明確提及公開代碼的處理方式,這或許與這項(xiàng)工作背后需投入的巨大人力有關(guān)。但從另一方面考慮,期刊審核無異于一種作者代碼監(jiān)督機(jī)制,可以在一定程度上減少粗糙的代碼。如若可行,期刊還可不定期跟蹤作者共享代碼的后續(xù),如研究人員是否對代碼進(jìn)行更新和維護(hù)、代碼的影響力如何等。
從代碼公開方式來看,大多數(shù)期刊推薦作者使用GitHub等公共在線存儲(chǔ)庫分享代碼,這與實(shí)際情況相吻合。在實(shí)踐中,GitHub、FigShare、Zenodo和Bitbucket已成為預(yù)選的學(xué)術(shù)交流工具,尤以GitHub為甚[10]。GitHub成立于2008年,廣泛用于存儲(chǔ)、分享、更新數(shù)據(jù)集和軟件代碼。截至2018年6月13日,谷歌學(xué)術(shù)(Google Scholar)中有超過22.3萬篇學(xué)術(shù)論文引用GitHub存儲(chǔ)的代碼[11]。GitHub在2018年7月的美國Alexa網(wǎng)站排名中位居32位[12]。
從期刊獲取方式來看,開放獲取期刊更傾向于出臺(tái)開放代碼政策,這也是開放科學(xué)的題中之意。盡管開放代碼與開放獲取、開放數(shù)據(jù)的目的不盡相同,開放代碼更多地是為了讓讀者重復(fù),甚至更新模型、算法、實(shí)驗(yàn)步驟,但開放獲取、開放數(shù)據(jù)和開放代碼之間存在著緊密聯(lián)系,開放科學(xué)、數(shù)據(jù)共享、軟件共享都是未來的發(fā)展趨勢[13]。
從影響因子來看,影響因子與開放代碼政策顯著相關(guān),高影響因子的期刊如《自然》《科學(xué)》等更有可能要求作者開放代碼。但反過來,影響因子計(jì)算方法中的總被引頻次是根據(jù)WoS所收錄的SCI期刊論文對該期刊兩年內(nèi)發(fā)表論文的引用情況計(jì)算出來的,那么開放代碼是否與期刊被引頻次存在相關(guān)關(guān)系,并對期刊影響因子產(chǎn)生影響,則是筆者在下一個(gè)研究中討論的問題。
從版權(quán)聲明來看,明確提及版權(quán)聲明的期刊所占比例不高,知識(shí)產(chǎn)權(quán)是否是作者不愿分享代碼的原因還有待考量。但從既往研究來看,Stodden等[14]從用戶角度對機(jī)器學(xué)習(xí)社區(qū)進(jìn)行調(diào)查,并指出了開放代碼沒有得到廣泛實(shí)踐的原因,其中權(quán)屬不清晰占44%,其次是專利問題(40%);Barnes[15]也發(fā)現(xiàn)公開代碼與機(jī)構(gòu)知識(shí)產(chǎn)權(quán)相悖,這是科學(xué)家沒有公布其代碼的原因之一 ??梢姡R(shí)產(chǎn)權(quán)問題確是影響作者共享代碼的因素之一,至于如何擬定版權(quán)聲明,包括代碼公開范圍、使用范圍、程度等需要聲明的條款,則可以成為后續(xù)研究考慮的問題。
普遍和大規(guī)模的計(jì)算正在改變?nèi)藗儗茖W(xué)方法的實(shí)踐。如果沒有代碼,就會(huì)導(dǎo)致所提供的信息不足,影響他人再現(xiàn)已發(fā)布的計(jì)算結(jié)果。在這項(xiàng)研究中,筆者試圖了解期刊在出版結(jié)果的代碼公開可用性方面發(fā)揮的作用。
本研究通過對2017年JCR中Q1區(qū)的152種生物醫(yī)學(xué)期刊開放代碼政策的相關(guān)特征進(jìn)行分析,發(fā)現(xiàn)開放獲取期刊比傳統(tǒng)訂閱制期刊的開放代碼政策更普遍;公共在線存儲(chǔ)庫如GitHub等是大多數(shù)期刊推薦的公開代碼存儲(chǔ)平臺(tái);高影響因子期刊比低影響因子期刊更有可能出臺(tái)開放代碼政策。
本研究的局限性主要體現(xiàn)在樣本的選擇上:(1)由于選取的是JCR中生物醫(yī)學(xué)Q1區(qū)的期刊,鑒于樣本期刊已具有較高的影響力,它們選擇通過開放獲取來擴(kuò)大影響力的可能性相對較低,因此本研究的樣本期刊選取具有一定的局限性;(2)部分期刊如《自然》影響因子顯著高于Q1區(qū)期刊影響因子的平均水平,這可能對顯著性檢驗(yàn)產(chǎn)生了一定影響;(3)筆者假設(shè)年輕期刊更有可能出臺(tái)開放代碼政策,并意圖研究期刊創(chuàng)刊年份對開放代碼政策的影響,但由于JCR Q1區(qū)期刊多為老牌期刊,不適合開展此研究。
后期研究,筆者將集中在以下3個(gè)方面:(1)筆者在對期刊政策進(jìn)行編碼時(shí)發(fā)現(xiàn),一些出版社旗下期刊存在共用該出版社同一套期刊政策的現(xiàn)象,出版社對開放代碼政策的影響可以進(jìn)行回歸分析和預(yù)測分析;(2)期刊開放代碼政策的有效性,即驗(yàn)證作者的執(zhí)行情況,甚至可以對比期刊論文開放代碼出臺(tái)政策前后有何不同,以檢驗(yàn)開放代碼政策的影響力;(3)研究期刊創(chuàng)刊年份對開放代碼政策的影響,是否年輕期刊出臺(tái)開放代碼政策的可能性更大。
作者貢獻(xiàn)聲明:
馮昌揚(yáng):確定選題,提出研究框架,撰寫論文初稿;
陳雨雪:文獻(xiàn)檢索,圖表制作,修改論文。