丁培
[摘要]科學數(shù)據(jù)使用統(tǒng)計是科學數(shù)據(jù)使用計量的重要構(gòu)成,是科研學術(shù)評價的重要參考依據(jù)。對比三類數(shù)據(jù)使用計量的效果及應(yīng)用難度,文章認為使用統(tǒng)計計量有良好的可信度和可操作性。在梳理研究現(xiàn)狀基礎(chǔ)上,文章分析數(shù)據(jù)使用統(tǒng)計的利益相關(guān)方,結(jié)合數(shù)據(jù)自身特點,總結(jié)流程,并重點闡述數(shù)據(jù)收集、規(guī)范、清洗、報告等關(guān)鍵流程問題,最后提出思考與建議。
[關(guān)鍵詞]科學數(shù)據(jù);數(shù)據(jù)計量;使用統(tǒng)計;評價;在線電子資源使用統(tǒng)計
科學數(shù)據(jù)是現(xiàn)代科學研究的基礎(chǔ)支撐之一。它既是科研產(chǎn)出的重要內(nèi)容,也是后續(xù)科學研究、科研創(chuàng)新的基石。近年來,學術(shù)界日漸重視科學數(shù)據(jù)的公開、共享以及重用。科研機構(gòu)在數(shù)據(jù)長期保存、數(shù)據(jù)監(jiān)護、科學數(shù)據(jù)開放及數(shù)據(jù)出版等方面取得諸多實質(zhì)性的進展??蒲腥藛T也逐漸關(guān)注科學數(shù)據(jù)共享及重用所產(chǎn)生的價值,他們關(guān)注自己的數(shù)據(jù)被誰使用,自己的數(shù)據(jù)價值多高,使用他人的數(shù)據(jù)是否可靠等問題。科學數(shù)據(jù)的使用績效和影響評估已成為推動科學數(shù)據(jù)公開、共享以及重用的重要助力。
績效分析與影響評估包括定性與定量兩個方面,數(shù)據(jù)的使用計量則是定量分析的基礎(chǔ)。目前,科學數(shù)據(jù)的使用計量分三類,分別是科學數(shù)據(jù)的引用計量,科學數(shù)據(jù)的使用統(tǒng)計以及科學數(shù)據(jù)的替代計量。它們從不同角度計量科學數(shù)據(jù)的使用,并提供多樣化的數(shù)據(jù)以便評估。本文關(guān)注科學數(shù)據(jù)使用計量中的使用統(tǒng)計部分,梳理現(xiàn)狀,分析關(guān)鍵問題,并探討如何利用它為機構(gòu)、學者、科學數(shù)據(jù)提供商、圖書館等角色提供科學數(shù)據(jù)的使用績效評價。
1科學數(shù)據(jù)使用計量
現(xiàn)有學術(shù)評估體系中,科研人員傾向于認可數(shù)據(jù)引用和數(shù)據(jù)下載作為科學數(shù)據(jù)的影響評價指標。研究數(shù)據(jù)聯(lián)盟(Research data alliance,RDA)文獻計量學小組的調(diào)查發(fā)現(xiàn),研究人員認為評價數(shù)據(jù)影響力的前三個指標分別是數(shù)據(jù)引用計量、數(shù)據(jù)下載和同行評議文章中被提及的數(shù)量,社交媒體、博客等使用排序靠后。2014年的另一個在線調(diào)查中,95%的研究人員表示引用或者正式出版是獲知自己數(shù)據(jù)影響力的最佳方式,而60%左右的研究者認為數(shù)據(jù)下載量也是反映自身數(shù)據(jù)影響力的重要方式。
引用是傳統(tǒng)科研學術(shù)評估體系中的重要一環(huán),在科學文獻領(lǐng)域廣泛應(yīng)用。作為文獻領(lǐng)域中成熟的影響力評估數(shù)據(jù),引用計量在科學數(shù)據(jù)影響力評估中也獲得優(yōu)先考慮??茖W數(shù)據(jù)引用計量是三類使用計量中最早進入研究,也獲得最多關(guān)注。文獻方面,幾乎所有關(guān)于科學數(shù)據(jù)評價計量的文獻都會涉及引用計量,研究角度包括引用規(guī)范、引用行為研究、引用評價模型等。實踐上,Datacite、英國數(shù)據(jù)監(jiān)護中心(The Digital Curation Centre,DCC)、ESIP、RDA、英國聯(lián)合信息系統(tǒng)委員會(Joint InformationSystems Committee,JISC)等機構(gòu)對數(shù)據(jù)引用標準、引用原則、引用應(yīng)用等方面進行研究實踐。Springer、Nature,Elsevier等出版商也在生物醫(yī)學領(lǐng)域開展數(shù)據(jù)引用試點項目,獲得了許多的一手數(shù)據(jù)。
盡管數(shù)據(jù)引用計量被認為是最權(quán)威的評估數(shù)據(jù)來源,然而數(shù)據(jù)引用計量的廣范圍應(yīng)用存在四大障礙。第一,鑒于數(shù)據(jù)出版成本高、出版流程不完善及研究者缺乏出版動力,科學數(shù)據(jù)公開出版還不具備廣范圍實施的條件;第二,盡管DataCite、PANGAEA、Dataverse、ICPSR、中國西部環(huán)境與生態(tài)科學數(shù)據(jù)中心、冰川凍土科學數(shù)據(jù)中心、基礎(chǔ)科學數(shù)據(jù)共享網(wǎng)等重要學術(shù)組織、數(shù)據(jù)倉儲和研究機構(gòu)都提出了相應(yīng)的科學數(shù)據(jù)引用和著錄標準,但世界范圍內(nèi)缺乏統(tǒng)一的科學數(shù)據(jù)引用標準;第三,數(shù)據(jù)引用行為匱乏,許多作者在數(shù)據(jù)二次分析時不標明數(shù)據(jù)引用;第四,數(shù)據(jù)倉儲商對科學數(shù)據(jù)引用的不重視。Making Data Count項目調(diào)查了71個科學數(shù)據(jù)倉儲庫,結(jié)果顯示僅有23%的倉儲追蹤數(shù)據(jù)引用。
數(shù)據(jù)下載是科研人員認可的另一大計量數(shù)據(jù)。它是數(shù)據(jù)使用統(tǒng)計的主要構(gòu)成之一。NISO定義數(shù)據(jù)使用是用戶訪問以及下載一個公開出版的數(shù)據(jù)集的行為,其統(tǒng)計范圍包括數(shù)據(jù)的下載、數(shù)據(jù)訪問、數(shù)據(jù)集標注等。相比引用計量,科學數(shù)據(jù)的使用統(tǒng)計計量具有預(yù)先、直觀的特點。預(yù)先性指我們可以在數(shù)據(jù)正式被引用發(fā)生前就洞悉數(shù)據(jù)的可能影響,而直觀性表現(xiàn)為我們能夠從數(shù)據(jù)的瀏覽或者下載直觀了解數(shù)據(jù)或者數(shù)據(jù)集受歡迎和關(guān)注的程度。此外數(shù)據(jù)使用統(tǒng)計比引用更為廣泛。John等調(diào)查71個數(shù)據(jù)倉儲,發(fā)現(xiàn)90%的倉儲提供數(shù)據(jù)下載統(tǒng)計,僅有23%的數(shù)據(jù)倉儲引用獨立數(shù)據(jù)集,20%的引用將數(shù)據(jù)倉儲作為整體引用。由此看出,數(shù)據(jù)使用統(tǒng)計比數(shù)據(jù)引用計量更具可操作性。但使用統(tǒng)計數(shù)據(jù)并不能完全反映出數(shù)據(jù)本身質(zhì)量的問題。數(shù)據(jù)使用統(tǒng)計具有來源復(fù)雜、數(shù)據(jù)量龐大的特點,尤其需要在統(tǒng)計來源、數(shù)據(jù)清洗、數(shù)據(jù)標準等方面進行大量工作,本文第三部分將對這些內(nèi)容詳細闡述。
替代計量學是文獻計量學領(lǐng)域的新寵。它作為傳統(tǒng)引用計量的補充,主要關(guān)注學術(shù)資源的網(wǎng)絡(luò)使用??茖W數(shù)據(jù)的替代計量學內(nèi)容和文獻的替代計量學內(nèi)容區(qū)別不大,主要統(tǒng)計對象包括科學數(shù)據(jù)的社交媒體提及、評論、訪問等。近年來也有部分研究探索科學數(shù)據(jù)的替代計量模型。如NISO的替代計量小組將計劃研究科學數(shù)據(jù)的替代計量方式。雖然替代計量學的研究在持續(xù)增加,但由于缺乏標準化的數(shù)據(jù)集以及數(shù)據(jù)統(tǒng)計來源,其應(yīng)用的普遍性受到限制。
目前而言,數(shù)據(jù)引用、數(shù)據(jù)使用及數(shù)據(jù)替代計量尚未形成完整的評估體系,其中數(shù)據(jù)引用和替代計量受制于數(shù)據(jù)來源較少,短期內(nèi)無法普遍適用。而科學數(shù)據(jù)的使用數(shù)據(jù)一直存在于數(shù)據(jù)倉儲的日志中,獲取難度低,其評價績效的效果也得到科研人員的肯定,因此,利用科學數(shù)據(jù)的使用數(shù)據(jù)來幫助評價科學數(shù)據(jù)的影響力具有可行性。
2數(shù)據(jù)使用統(tǒng)計研究現(xiàn)狀與實踐
科學數(shù)據(jù)作為科學研究的另一個重大產(chǎn)出,其成果管理、利用、評估的發(fā)展路線基本上遵循科學文獻的模式??茖W數(shù)據(jù)早期作為科學文獻的附加材料,僅僅在保存和數(shù)據(jù)驗證上發(fā)揮作用。伴隨著科學數(shù)據(jù)日漸受到科研機構(gòu)、科研人員的重視,科研數(shù)據(jù)的使用統(tǒng)計也得到關(guān)注。
倉儲機構(gòu)及數(shù)據(jù)中心是最早利用科學數(shù)據(jù)使用統(tǒng)計的主體之一。它們基于使用統(tǒng)計數(shù)據(jù)評價科學數(shù)據(jù)的傳播和推廣的力度。隨著科研人員反思引用作為學術(shù)評價計量指標的單一性和絕對性,利用使用統(tǒng)計評價學術(shù)影響的研究逐漸興起。Bollen等提出基于使用且覆蓋整個研究過程的影響計量方法,計量內(nèi)容涵蓋引用、發(fā)現(xiàn)、下載、同行評議郵件數(shù)、閱讀以及保存等。Fear指出學術(shù)數(shù)據(jù)集的評價計量不能依據(jù)單一指標,應(yīng)多因素考慮,如數(shù)據(jù)引用計量、二次影響(如G指數(shù))、數(shù)據(jù)重用的學科廣度以及數(shù)據(jù)下載量。
2009年,Chavan等提出數(shù)據(jù)使用索引(Data usageindex)是數(shù)據(jù)出版框架中三大技術(shù)基礎(chǔ)設(shè)施之一,其統(tǒng)計指標涵蓋訪問、下載頻率、下載量、使用度等。這是學術(shù)界第一次正式提出數(shù)據(jù)使用統(tǒng)計,并將其作為單獨對象進行研究。GBIF數(shù)據(jù)出版工作組進一步細化數(shù)據(jù)使用索引中指標的統(tǒng)計及用途,提出利用下載、檢索、記錄數(shù)量、數(shù)據(jù)集數(shù)量等數(shù)據(jù)可以計算出數(shù)據(jù)使用影響、興趣影響、使用率、使用評分等評價指標。Rodrigo Costas(2012)提出數(shù)據(jù)計量的概念,認為數(shù)據(jù)使用統(tǒng)計也是計量的重要組成。NISO報告認同研究數(shù)據(jù)使用統(tǒng)計是重要評價衡量,建議研究數(shù)據(jù)共享平臺(包括數(shù)據(jù)倉儲)為研究數(shù)據(jù)使用統(tǒng)計建立標準和最佳實踐。國內(nèi)目前主要關(guān)注科學數(shù)據(jù)引用對數(shù)據(jù)影響評估的作用,尚未對專門研究數(shù)據(jù)使用統(tǒng)計,僅在科學數(shù)據(jù)共享平臺績效評估指標中提及或科學數(shù)據(jù)出版環(huán)境中建議包含使用統(tǒng)計的科學數(shù)據(jù)評價指標。
國際上已有多個項目對科學數(shù)據(jù)使用統(tǒng)計進行研究和實踐。如研究數(shù)據(jù)聯(lián)盟下的數(shù)據(jù)出版計量小組正在研究如何對數(shù)據(jù)計量概念化;NISO的替代計量指標小組考慮將替代計量指標擴展到非傳統(tǒng)的軟件或科學數(shù)據(jù);JISC資助的數(shù)據(jù)計量項目準備基于COUNTER標準進行數(shù)據(jù)使用計量實踐;由NSF資助,加州數(shù)字圖書館、PLOS和DataONE共同參與的Making Data Count項目創(chuàng)建了一個數(shù)據(jù)計量的試點網(wǎng)站。
3科學數(shù)據(jù)使用統(tǒng)計流程及關(guān)鍵問題
3.1科學數(shù)據(jù)使用統(tǒng)計的利益相關(guān)方
3.1.1數(shù)據(jù)提供者
數(shù)據(jù)保存是數(shù)據(jù)使用的最基本前提。使用統(tǒng)計數(shù)據(jù)最主要的來源是數(shù)據(jù)倉儲。英國數(shù)據(jù)監(jiān)護中心DCC將數(shù)據(jù)倉儲分為公共獲取的科學數(shù)據(jù)倉儲數(shù)據(jù)中心或科學數(shù)據(jù)庫、通用的數(shù)據(jù)倉儲庫、機構(gòu)數(shù)據(jù)倉儲庫、期刊的補充材料存儲服務(wù)、項目、部門或者個人主頁五類。表1對這五類數(shù)據(jù)倉儲的優(yōu)缺點及使用統(tǒng)計數(shù)據(jù)提供的力度進行對比。
可以看出,機構(gòu)倉儲、數(shù)據(jù)中心、通用的數(shù)據(jù)倉儲庫是科學數(shù)據(jù)使用統(tǒng)計的主要數(shù)據(jù)提供方。從供應(yīng)方的角度,使用統(tǒng)計能直觀的了解其資源的利用情況,為后續(xù)資源推廣、用戶行為分析、資源個性化加工、提供數(shù)據(jù)分析服務(wù)奠定數(shù)據(jù)基礎(chǔ)。
3.1.2數(shù)據(jù)消費者
科研人員、科研機構(gòu)、學術(shù)資助機構(gòu)既是統(tǒng)計數(shù)據(jù)產(chǎn)生過程中的數(shù)據(jù)使用者,也是使用統(tǒng)計數(shù)據(jù)消費的主體??蒲腥藛T可利用科學數(shù)據(jù)使用統(tǒng)計幫助評估個人科學數(shù)據(jù)的受關(guān)注程度,利于開展同行甚至是跨行業(yè)的科研合作,有條件的情況下,還可將其作為自身科研績效評價的一項佐證數(shù)據(jù)。科研機構(gòu)可以利用使用統(tǒng)計數(shù)據(jù)評估機構(gòu)的學術(shù)影響力和傳播范圍,還可以基于數(shù)據(jù)分析熱點活躍的學科及主題,進行針對性的學科建設(shè)。使用統(tǒng)計數(shù)據(jù)還可以作為機構(gòu)特色科學數(shù)據(jù)資源建設(shè)的依據(jù);對于學術(shù)資助機構(gòu)而言,國外許多機構(gòu),如美國自然科學基金會(NSF)、英國人文研究委員會(AHRC)等機構(gòu)要求科研人員在項目中提交科學數(shù)據(jù)的倉儲及管理計劃,而科學數(shù)據(jù)的使用統(tǒng)計可以作為資助成果績效評價的一個參考。
3.2科學數(shù)據(jù)使用統(tǒng)計流程
科學數(shù)據(jù)的使用統(tǒng)計并非簡單的數(shù)字統(tǒng)計,而是一個完整的數(shù)據(jù)分析流程。它涵蓋了數(shù)據(jù)準備、數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)規(guī)范化、數(shù)據(jù)分析及報告以及最終使用統(tǒng)計數(shù)據(jù)報告應(yīng)用等一系列流程。數(shù)據(jù)和文獻同作為科學研究的產(chǎn)出,在成果保存、傳播及共享等方面有諸多相似之處,因而其使用統(tǒng)計在流程和方法上也類似。然則科學數(shù)據(jù)缺乏成熟共享的傳播模式,加之其具備分布式倉儲、表現(xiàn)粒度不一、缺乏統(tǒng)一描述及應(yīng)用標準等特點,所以數(shù)據(jù)的使用統(tǒng)計也需具體情況具體分析。
3.2.1數(shù)據(jù)準備
數(shù)據(jù)采集的穩(wěn)定性和可靠性關(guān)系到最終數(shù)據(jù)應(yīng)用的效果。無論是數(shù)據(jù)引用、數(shù)據(jù)使用或者是數(shù)據(jù)的替代使用,都需要保證數(shù)據(jù)來源的可靠、穩(wěn)定以及效率。數(shù)據(jù)的使用統(tǒng)計需要在以下方面進行準備。
首先是使用統(tǒng)計數(shù)據(jù)的可信度。數(shù)據(jù)中心、通用數(shù)據(jù)倉儲以及機構(gòu)數(shù)據(jù)倉儲庫,擁有較完善的數(shù)據(jù)提交審核機制,提供數(shù)據(jù)的元數(shù)據(jù)描述,還基于唯一數(shù)據(jù)標識符追溯數(shù)據(jù)來源,可以保證數(shù)據(jù)的穩(wěn)定獲取,是合適的使用數(shù)據(jù)來源。
其次是數(shù)據(jù)版本。區(qū)別于文獻,數(shù)據(jù)具有多版本的特點。例如研究者提交一份數(shù)據(jù)后,后續(xù)新的研究對原有數(shù)據(jù)進行了增改刪除,新的數(shù)據(jù)是原有數(shù)據(jù)的高級版本。此種情況下,數(shù)據(jù)的版本控制需要發(fā)揮作用。版本控制前需要明確一個問題,即同源數(shù)據(jù)不同版本是屬于一個還是多個處理對象?現(xiàn)有的數(shù)據(jù)管理實踐將科學數(shù)據(jù)的不同版本認定為原始數(shù)據(jù)的升級,作為同一個對象處理,同時保留數(shù)據(jù)的版本信息。例如UK DATA ACHIVE、Leicester大學的數(shù)據(jù)倉儲實踐。因而我們建議在數(shù)據(jù)命名上體現(xiàn)出版本信息,采用唯一標識符定位數(shù)據(jù),跟蹤數(shù)據(jù)保存位置,并在統(tǒng)計數(shù)據(jù)使用量時,將同源數(shù)據(jù)集的不同版本在不同平臺上的使用量歸一。此外我們也可借助版本控制工具,在數(shù)據(jù)庫中對科學數(shù)據(jù)進行版本化,并基于算法和工具來追蹤數(shù)據(jù)版本。
第三是數(shù)據(jù)粒度。湯森路透(Thomson Reuters)公司的數(shù)據(jù)引用索引DCI將科學數(shù)據(jù)粒度劃分為三個層次:數(shù)據(jù)倉儲,數(shù)據(jù)研究,數(shù)據(jù)集。數(shù)據(jù)倉儲是數(shù)據(jù)的實際存儲地,包含數(shù)據(jù)研究和數(shù)據(jù)集。數(shù)據(jù)研究是指某一項研究或者實驗中產(chǎn)生的一系列關(guān)聯(lián)的數(shù)據(jù)集合,通常包含若干數(shù)據(jù)集,可根據(jù)項目或主題分類。數(shù)據(jù)集是DCI中的最小單元。也有研究關(guān)注更細粒度的科學數(shù)據(jù)。如數(shù)據(jù)使用索引以文獻數(shù)據(jù)作為基準,把科學數(shù)據(jù)統(tǒng)計粒度分兩層:第一層是數(shù)據(jù)集,相當于期刊;第二層是數(shù)據(jù)集的記錄,相當于期刊文章。
原則上,數(shù)據(jù)統(tǒng)計的粒度越細越好,然而在實際操作中,數(shù)據(jù)倉儲范圍太大,數(shù)據(jù)研究適用性較窄,數(shù)據(jù)記錄則由于不同數(shù)據(jù)倉儲或數(shù)據(jù)中心對數(shù)據(jù)記錄的定義不一致,導(dǎo)致統(tǒng)計困難。目前科學數(shù)據(jù)的數(shù)字標識主要集中數(shù)據(jù)集層次,異構(gòu)數(shù)據(jù)倉儲中對于數(shù)據(jù)集的定義和描述相比更為統(tǒng)一,因而在數(shù)據(jù)集粒度層進行使用數(shù)據(jù)的統(tǒng)計更具有效率。
第四是數(shù)據(jù)標識符。持續(xù)獨特的標識符可以永久保證一個數(shù)據(jù)集甚至是一條數(shù)據(jù)記錄獨立、唯一的位置,它在保證數(shù)據(jù)的可訪問性以及重用性上有著非常重要的作用。同時在數(shù)據(jù)使用中,應(yīng)用數(shù)字對象唯一標識符可以合并不同版本的同源數(shù)據(jù)使用以及同一數(shù)據(jù)在不同的數(shù)據(jù)倉儲中的使用。目前國際范圍內(nèi)有多種數(shù)字對象標識符應(yīng)用,如Digital Object Identifiers(DOIs),Archival Resource Keys(ARKs),Persistent Uniform Resource Locators(PURLs),Uniform Resource Names(URNs),Life Science Identifiers(LSIDs)等。其中DOI應(yīng)用范圍最廣,也得到許多機構(gòu)的承認。
3.2.2數(shù)據(jù)采集
倉儲平臺的兩種主流使用數(shù)據(jù)采集方式是日志文件和頁面標簽。
日志文件記錄了所有記錄的原始使用情況,涵蓋各種類型的訪問,訪問來源、響應(yīng)情況、IP地址等,內(nèi)容詳細但瑣碎。因而日志文件需要清洗和轉(zhuǎn)換后才可作為使用統(tǒng)計來利用,轉(zhuǎn)換過程中還涉及日志數(shù)據(jù)和統(tǒng)計標準對接的問題。日志數(shù)據(jù)可以直接在數(shù)據(jù)倉儲平臺下載,或借助協(xié)議自動、定時采集。下載方式直接簡單,但面對多個平臺使用日志時,用戶或者機構(gòu)需要手動搜集、保存和整理使用日志,這樣的方式復(fù)雜、低效。協(xié)議收割方式可以解決多平臺數(shù)據(jù)自動采集和統(tǒng)一處理,是最理想的數(shù)據(jù)收集方式。
頁面標簽方法是在每一個頁面上使用JavaScript,當頁面被瀏覽器訪問時,JavaScript將通知第三方服務(wù)進行統(tǒng)計。
這兩種數(shù)據(jù)采集方式各有長短。日志統(tǒng)計方式不需要額外改造網(wǎng)站和查詢DNS,因而不會增加服務(wù)器的負擔,但其數(shù)據(jù)噪音大,無法直接去除無效訪問和網(wǎng)絡(luò)爬蟲訪問等;頁面標簽方式在數(shù)據(jù)噪音處理上優(yōu)于日志,日漸成為網(wǎng)絡(luò)分析的一個標準。它允許第三方服務(wù)訪問網(wǎng)絡(luò)服務(wù)器,以頁面激活打開作為計數(shù),并非以請求作為依據(jù),可排除未響應(yīng)請求和爬蟲請求,但是其不能追蹤下載完成事件和搜索引擎蜘蛛,對服務(wù)器負擔大。
科學數(shù)據(jù)的使用統(tǒng)計具有跨平臺、海量的特點,在內(nèi)容豐富化,實時性和標準化上有較高的要求。因而經(jīng)過標準化清洗并且可以自動收割的日志方式是優(yōu)秀的解決方案。標準化清洗可基于標準進行,自動收割則需要標準化的數(shù)據(jù)交換和采集協(xié)議。SUSHI(Standardized Usage StatisticsHarvesting Initiative,標準化使用統(tǒng)計收割協(xié)議)是由NISO發(fā)起的項目。它是一個請求數(shù)據(jù)的網(wǎng)絡(luò)服務(wù)模型,可以實現(xiàn)通過一個XML框架將使用數(shù)據(jù)在不同的系統(tǒng)中自動傳遞。SUSHI協(xié)議解決了符合COUNTER規(guī)范的使用統(tǒng)計報告自動收集及跨平臺雙向傳遞的問題。但是國外的實踐也只是解決了SUSHI自動收集符合COUNTER規(guī)范數(shù)據(jù)的問題。
3.2.3數(shù)據(jù)規(guī)范
使用統(tǒng)計的最大障礙在于缺乏對下載、瀏覽等統(tǒng)計的標準。只有規(guī)范化的數(shù)據(jù),才能相互比較并發(fā)現(xiàn)資源的價值。
在線電子資源使用統(tǒng)計(Counting Online Usage ofNetwork Electronic Resources,COUNTER)是規(guī)范電子資源使用統(tǒng)計報告數(shù)據(jù)處理、審核和提交的國際化標準,于2002年由高校、出版界和中間商共同發(fā)起,其統(tǒng)計報告解決了使用統(tǒng)計數(shù)據(jù)的統(tǒng)計標準和格式的一致性問題,并對數(shù)據(jù)庫、電子期刊、電子圖書和參考文獻的統(tǒng)計格式分別進行了規(guī)定。目前已經(jīng)被數(shù)十個數(shù)據(jù)庫商所支持,還有多個基于COUNTER標準的使用數(shù)據(jù)分析平臺。科學數(shù)據(jù)的使用統(tǒng)計缺乏規(guī)范,鑒于文獻和數(shù)據(jù)的同源性,部分研究實踐嘗試利用COUNTER標準規(guī)范科學數(shù)據(jù)的使用統(tǒng)計。例如JISC的數(shù)據(jù)計量項目與IRUS-UK合作嘗試基于COUNTER統(tǒng)計數(shù)據(jù)集使用;Making Data Count項目組對150000個數(shù)據(jù)集進行了COUNTER規(guī)范的統(tǒng)計實驗;NISO的替代計量指標小組的報告中建議基于COUNTER標準并考慮特殊情況對科學數(shù)據(jù)使用進行統(tǒng)計。
科學數(shù)據(jù)使用統(tǒng)計借鑒COUNTER規(guī)范益處良多。首先它可以利用COUNTER標準在數(shù)據(jù)清洗、數(shù)據(jù)標準化、數(shù)據(jù)審核、標準化報告格式方面的豐富經(jīng)驗。其次,SUSHI和COUNTER已經(jīng)建立了一套完整的數(shù)據(jù)交換方式,基于兩個規(guī)范可以實現(xiàn)標準化使用數(shù)據(jù)的自動收集。
但是COUNTER標準應(yīng)用于科學數(shù)據(jù)還存在一些問題。如COUNTER標準中未定義科學數(shù)據(jù)資源類型,所以沒有對應(yīng)的使用統(tǒng)計報告;COUNTER對機器自動獲取的數(shù)據(jù)實行完全過濾,這在科學數(shù)據(jù)使用統(tǒng)計中不可取。
3.2.4數(shù)據(jù)清洗
通過日志或頁面標簽方式獲取原始的使用數(shù)據(jù)后,我們需要清洗和處理數(shù)據(jù)。這些處理包括對數(shù)據(jù)分類、識別有效的使用等。
數(shù)據(jù)分類主要是對數(shù)據(jù)使用的用戶分類,可以參照IP地址、機構(gòu)用戶、個人注冊用戶等類型對使用數(shù)據(jù)分類。
在COUNTER規(guī)范中,使用數(shù)據(jù)的有效計數(shù)有嚴格規(guī)定,如只計算成功和有效的請求、HTML格式鏈接上間隔不足lOs的雙擊只計數(shù)一次、PDF格式鏈接上不足30s的雙擊只計數(shù)一次等。但是COUNTER規(guī)范并非完美。如COUNTER并未定義檢索行為是服務(wù)器端響應(yīng)還是用戶端實際接收完整結(jié)果。但實際操作中多數(shù)以服務(wù)器端響應(yīng)來進行統(tǒng)計,未考慮用戶是否成功接收到數(shù)據(jù),也未明確定義服務(wù)器端會話不完整和用戶自行點擊取消下載情況如何計數(shù)。
科學數(shù)據(jù)的使用與電子資源使用有一明顯區(qū)別,即利用APIs或者爬蟲等所產(chǎn)生的使用應(yīng)計入科學數(shù)據(jù)的使用統(tǒng)計。COUNTER針對電子資源使用,專門提供一個附錄記錄已知的集成和自動搜索引擎列表以及網(wǎng)絡(luò)機器人、網(wǎng)絡(luò)爬蟲、網(wǎng)頁、爬蟲等列表,并在頭標區(qū)中設(shè)有參數(shù)來排除非人下載以及消除同一個機器的重復(fù)下載。這并不適合科學數(shù)據(jù)的使用統(tǒng)計。因而NISO建議采用兩種方式統(tǒng)計科學數(shù)據(jù)下載,一種針對人類使用,另一種包括合法的機器訪問和下載,可以通過白名單的方式,保存合法的機器訪問數(shù)據(jù)。
3.2.5數(shù)據(jù)分析和報告
收集、清洗和規(guī)范化使用數(shù)據(jù),其最終是為了分析數(shù)據(jù),以幫助科學數(shù)據(jù)提供和使用的各方來評價科學數(shù)據(jù)的效果和價值。
基于數(shù)據(jù)集的使用統(tǒng)計數(shù)據(jù),科學數(shù)據(jù)使用統(tǒng)計報告可從數(shù)據(jù)倉儲、數(shù)據(jù)研究以及數(shù)據(jù)集三個維度展示。表2參考COUNTER規(guī)范,結(jié)合科學數(shù)據(jù)存儲和使用方式,大致對科學數(shù)據(jù)的使用數(shù)據(jù)報告的內(nèi)容和字段進行說明。
4思考與建議
4.1重視對科學數(shù)據(jù)使用統(tǒng)計
隨著科學數(shù)據(jù)共享和開放程度提高,科學數(shù)據(jù)的使用績效評估日漸受到重視。鑒于引用在學術(shù)評價中正的重要地位,科學數(shù)據(jù)引用的機制、行為、規(guī)范等內(nèi)容得到廣泛關(guān)注。而科學數(shù)據(jù)使用統(tǒng)計作為第一手評價數(shù)據(jù),關(guān)注明顯少于引用。
事實上,使用統(tǒng)計數(shù)據(jù)比引用數(shù)據(jù)更容易獲取,有廣泛的基礎(chǔ)數(shù)據(jù)來源。一手的使用統(tǒng)計可以直觀了解數(shù)據(jù)資源使用情況、追蹤和分析用戶使用行為、檢驗科學數(shù)據(jù)倉儲商的服務(wù)品質(zhì),還能夠快速反映出科學數(shù)據(jù)領(lǐng)域內(nèi)的研究熱點,甚至可以基于使用數(shù)據(jù)來測量學者的學術(shù)影響力。已有多個學者研究發(fā)現(xiàn)學術(shù)資源下載和引用問存在很強的正關(guān)聯(lián)。因此科學數(shù)據(jù)倉儲平臺、研究機構(gòu)、科研資助機構(gòu)以及研究者都要重視科學數(shù)據(jù)使用統(tǒng)計。
科學數(shù)據(jù)倉儲平臺應(yīng)該積極探索、解決科學數(shù)據(jù)使用統(tǒng)計實際操作過程中的技術(shù)問題,例如為科學數(shù)據(jù)分配機器可讀的永久標識符、創(chuàng)建科學數(shù)據(jù)的登錄頁面、使用數(shù)據(jù)下載接口提供等,并且致力于為用戶提供基于標準(例如COUNTER)的使用數(shù)據(jù)報告,多角度、多層次的分析用戶使用行為。
科研資助機構(gòu)和大學等學術(shù)機構(gòu)應(yīng)該積極鼓勵研究者制定詳細的科研數(shù)據(jù)管理計劃,并鼓勵他們將科學數(shù)據(jù)保存到合適的數(shù)據(jù)倉儲庫中。同時,學術(shù)機構(gòu)可以考慮將數(shù)據(jù)使用統(tǒng)計引入到學術(shù)績效評價或職業(yè)獎勵結(jié)構(gòu)體系中,這樣有助于使數(shù)據(jù)共享與數(shù)據(jù)發(fā)布成為學者常規(guī)工作中的重要活動,激勵數(shù)據(jù)共享。
科研人員應(yīng)該重視科研數(shù)據(jù)的長期保存,建立良好的數(shù)據(jù)管理計劃,共享科學數(shù)據(jù),主動利用科學數(shù)據(jù)使用統(tǒng)計,積極從中尋找合作機會。
4.2科學數(shù)據(jù)使用統(tǒng)計標準建設(shè)
只有遵循規(guī)范,才能產(chǎn)生一致性的數(shù)據(jù),才能合理分析數(shù)據(jù)?,F(xiàn)行背景下尚未有專門的科學數(shù)據(jù)使用統(tǒng)計標準,這是使用統(tǒng)計應(yīng)用過程中的最大障礙。標準的制定是一個復(fù)雜的過程,它需要多方參與,并且可以用于指導(dǎo)實踐。COUNTER標準是一個成熟的學術(shù)電子資源使用統(tǒng)計規(guī)范,其在使用數(shù)據(jù)收集、清洗等處理過程、標準化的統(tǒng)計報告的經(jīng)驗和大量數(shù)據(jù)庫商與圖書館推動的COUNTER實踐都能夠在科學數(shù)據(jù)使用統(tǒng)計應(yīng)用過程中提供有力指導(dǎo)。
我們建議標準制定機構(gòu)、科學數(shù)據(jù)倉儲平臺及科研資助機構(gòu)通力合作,以COUNTER規(guī)范為基礎(chǔ)藍本,結(jié)合科學數(shù)據(jù)使用的獨有特點,制定合適科學數(shù)據(jù)的COUNTER報告規(guī)范??茖W數(shù)據(jù)倉儲平臺也可以自主探索并實踐新的科學數(shù)據(jù)使用規(guī)范。同時需要將數(shù)據(jù)倉儲商納入到SUSHI注冊商體系內(nèi),確保可以基于SUSHI協(xié)議自動傳遞標準化的科學數(shù)據(jù)使用統(tǒng)計報告。
4.3建設(shè)統(tǒng)計平臺
使用統(tǒng)計平臺是一站式的收集、集成、瀏覽、下載、保存及分析利用數(shù)字資源使用統(tǒng)計數(shù)據(jù)門戶。借助SUSHI協(xié)議,統(tǒng)計分析平臺定期從不同的數(shù)據(jù)倉儲平臺中自動收集標準化的使用統(tǒng)計數(shù)據(jù),并整合數(shù)據(jù)。統(tǒng)計平臺可以對統(tǒng)計數(shù)據(jù)長期保存,即使源數(shù)據(jù)已經(jīng)被刪除?;跇藴驶膱蟾?,統(tǒng)計平臺為科學數(shù)據(jù)使用中參與各方提供豐富數(shù)據(jù)報表,例如倉儲庫訪問的年、月度變化,國家下載排名、機構(gòu)下載排名、熱點學科科學數(shù)據(jù)下載排名等。
目前已經(jīng)有使用數(shù)據(jù)統(tǒng)計平臺在嘗試科學數(shù)據(jù)使用計量分析。IRUSdata-UK是代表之一。IRUS-UK是JISC資助的國際服務(wù),為機構(gòu)提供機構(gòu)倉儲內(nèi)容的使用統(tǒng)計,并提供基于COUNTER標準的可對比統(tǒng)計報告。IRUSdata-UK項目是IRSU-UK項目基礎(chǔ)上針對科學數(shù)據(jù)集的使用統(tǒng)計數(shù)據(jù)分析項目。該項目與UK Data Service等15個科學數(shù)據(jù)倉儲(類型涵蓋EPrints,DSpace和Fedora等)合作,利用倉儲自身后臺日志文件,統(tǒng)計數(shù)據(jù)集級別的科學數(shù)據(jù)下載,基于COUNTER標準,過濾噪音內(nèi)容(多重點擊、不完全下載、網(wǎng)絡(luò)機器人反復(fù)隨機下載鏈接等),最后分析使用績效。
盡管目前國內(nèi)并未有科學數(shù)據(jù)的使用統(tǒng)計平臺實踐,但國內(nèi)已經(jīng)有基礎(chǔ)數(shù)據(jù)的整合平臺,如基礎(chǔ)科學數(shù)據(jù)共享網(wǎng)等。建議由圖書館或數(shù)據(jù)出版商推動研制專門的科學數(shù)據(jù)資源使用統(tǒng)計平臺,基于出版商提供的符合COUNTER規(guī)范的使用統(tǒng)計數(shù)據(jù),側(cè)重數(shù)字資源使用數(shù)據(jù)的收集、集成和分析。
4.4圖書館積極參與科研數(shù)據(jù)影響評價
一直以來,圖書館是科學數(shù)據(jù)管理及共享的積極推動者和實踐者。尤其是高校圖書館和研究型圖書館。它們創(chuàng)建機構(gòu)存儲庫對科研數(shù)據(jù)長期保存,幫助科研人員制定數(shù)據(jù)管理計劃,參與科學數(shù)據(jù)共享規(guī)范的研究,幫助學校或機構(gòu)創(chuàng)建科研數(shù)據(jù)管理政策,與出版社一道推動數(shù)據(jù)出版實踐,可以說,圖書館是科學數(shù)據(jù)管理領(lǐng)域的先驅(qū)者和重要貢獻者。
參與科學數(shù)據(jù)影響評價實踐也是圖書館參與數(shù)據(jù)管理的重要方向。一方面,圖書館應(yīng)繼續(xù)推動科學數(shù)據(jù)共享及重用理念的傳播,為學?;蛘邫C構(gòu)的科研人員提供數(shù)據(jù)管理相關(guān)服務(wù),例如提供科學數(shù)據(jù)長期保存、元數(shù)據(jù)規(guī)范、數(shù)據(jù)工作流管理等。另一方面,圖書館可以多方式參與到科學數(shù)據(jù)影響評價過程中。圖書館可以積極推動學?;驒C構(gòu)的決策層將科學數(shù)據(jù)使用納入科研學術(shù)的績效評估體系,并提供相應(yīng)的科學數(shù)據(jù)使用計量數(shù)據(jù);提供科學數(shù)據(jù)機構(gòu)倉儲的圖書館可以嘗試基于COUNTER規(guī)范提供科學數(shù)據(jù)使用統(tǒng)計分析報告;圖書館還可以參與數(shù)據(jù)使用統(tǒng)計標準規(guī)范的制定和測試過程。
5結(jié)語
在未來的時間里,科學數(shù)據(jù)的影響績效評估將會變得愈發(fā)重要。全面綜合的科學數(shù)據(jù)計績效評估,不應(yīng)僅僅將數(shù)據(jù)引用作為考量標準,科學數(shù)據(jù)使用統(tǒng)計和替代計量也應(yīng)納入考核的數(shù)據(jù)支撐??茖W數(shù)據(jù)的使用統(tǒng)計應(yīng)用的主要障礙在于數(shù)據(jù)采集和數(shù)據(jù)標準化。而建立一個長效、規(guī)范化、多層次的科學數(shù)據(jù)使用統(tǒng)計體系,需要科學數(shù)據(jù)倉儲平臺、科研機構(gòu)、科研資助機構(gòu)、科研工作者、圖書館、標準制定機構(gòu)各方的積極參與及合作。