●臧國全,王曉梅(鄭州大學(xué) 信息管理系,鄭州 450001)
數(shù)字保存主要有兩類:學(xué)術(shù)論著保存和研究型數(shù)據(jù)保存。前者比較普遍,理論和實踐相對成熟,后者集中在數(shù)據(jù)密集型領(lǐng)域,理論和實踐都較滯后。高能物理(又稱粒子物理)是一個典型的實驗型學(xué)科,產(chǎn)生大量研究型數(shù)據(jù)(實驗數(shù)據(jù)是研究型數(shù)據(jù)的一種重要類型),對該學(xué)科研究人員的實驗數(shù)據(jù)保存的認(rèn)知與實踐的調(diào)查,有助于了解對數(shù)字保存的期望,掌握數(shù)字保存的現(xiàn)狀,發(fā)現(xiàn)數(shù)字保存理論與實踐的不足。
目前為止,全方位對數(shù)字保存認(rèn)知與實踐的調(diào)查甚為鮮見,歐盟PARSE.insight項目[1]歷經(jīng)三年(2008—2010),不僅對數(shù)字保存利益相關(guān)方(包括科研人員、保存機構(gòu)和出版商)進行了比較系統(tǒng)的調(diào)查,而且也選擇了若干個代表性學(xué)科領(lǐng)域進行案例分析,其中之一是高能物理學(xué)科,針對該學(xué)科的科研人員的調(diào)查對象選擇來自歐洲核子研究中心CERN[2]在全球各地分支機構(gòu)的880位實驗研究者和260位理論研究者。本文基于該項調(diào)查,總結(jié)該領(lǐng)域科研人員對數(shù)字保存的認(rèn)知與實踐,分析數(shù)字保存存在的問題,尋求可能的解決方案。
總體上,絕大多數(shù)理論研究者和實驗研究者對數(shù)字保存的重要性都給予了高度認(rèn)可(見表1)。不同研究經(jīng)歷的人員(少于5年和大于5年)對該項認(rèn)知的程度沒有明顯差別,但理論研究者要明顯高于實驗研究者,這可能說明了前者更注重使用實驗數(shù)據(jù),而不僅僅局限于基于實驗數(shù)據(jù)分析而公開發(fā)表的成果。
表1 數(shù)字保存的重要性
保存原因有很多,但得到比較廣泛認(rèn)可的(見表2)??傮w上,與實驗研究者相比,理論研究者對保存原因的認(rèn)知度要略高一點,可能的解釋是實驗研究者對實驗數(shù)據(jù)保存的困難以及進行分析的缺憾體會較深,對保存原因的認(rèn)知更趨理智。
表2 數(shù)字保存的原因
原因1:如果由公共資金資助,實驗數(shù)據(jù)為公共財產(chǎn),應(yīng)合理保存,為未來科學(xué)研究之用。
原因2:實驗數(shù)據(jù)可以用于未來研究成果的驗證。
原因3:實驗數(shù)據(jù)可以結(jié)合未來實驗數(shù)據(jù)一起使用。
原因4:實驗數(shù)據(jù)可以根據(jù)未來新理論模型進行重新分析。
原因5:實驗數(shù)據(jù)可以用于教育。
數(shù)字保存的基本作用是促進科學(xué)發(fā)展和傳承文化遺產(chǎn)。針對高能物理學(xué)科實驗數(shù)據(jù)保存的最主要作用為前者,對此,實驗研究者(97%) 和理論研究者(99%)都給予了高度認(rèn)可。具體來說,表3列出的四項用途(尤其是前三項)得到研究人員的認(rèn)可度較高。除此之外,被調(diào)查者提到的用途還有完善或驗證新的模擬工具和分析方法等。
表3 保存數(shù)據(jù)的用途
用途1:測試新理論模型。
用途2:驗證新老實驗之間的兼容性或一致性;或探測新老實驗之間的偏差。
用途3:供設(shè)計新實驗方案時參考。
用途4:專題資料匯編(如述評)。
實驗數(shù)據(jù)的保存威脅比較多,表4列出了受訪者最關(guān)心的威脅。
威脅1:數(shù)字保存缺乏可持續(xù)性導(dǎo)致實驗數(shù)據(jù)未來可能無法訪問。
威脅2:保存數(shù)據(jù)的無控制訪問與使用可能導(dǎo)致錯誤結(jié)論的膨脹。
威脅3:使用保存的數(shù)據(jù),但未對原始作者進行引用或說明。
威脅4:保存的數(shù)據(jù)可能被無意地修改或被不恰當(dāng)?shù)夭僮鳌?/p>
針對威脅1,對數(shù)字保存可持續(xù)性的關(guān)注為最高,這也充分說明了與傳統(tǒng)信息資源相比,研究人員對數(shù)字資源脆弱性的認(rèn)知更深刻。
表4 保存威脅
針對威脅2,錯誤結(jié)論的膨脹被高度關(guān)注(尤其是實驗研究者),可能因為實驗研究者深知實驗數(shù)據(jù)的復(fù)雜性和其他研究人員對實驗數(shù)據(jù)分析的潛在失誤風(fēng)險。應(yīng)該說,兩者的最主要區(qū)別還是在于學(xué)術(shù)名譽,如果基于原始數(shù)據(jù)由第三方進行分析得出的結(jié)論不夠完善,可能會影響原始數(shù)據(jù)生產(chǎn)者的名譽,但對理論研究者沒有影響。
絕大多數(shù)實驗研究者(77%)認(rèn)為,采取一定程度的訪問控制(比如訪問許可、用戶認(rèn)證等)可以減少錯誤結(jié)論。另外也有一些實驗研究者(34%) 和理論研究者(28%)建議,實驗數(shù)據(jù)在提交保存之前,應(yīng)該對其真實性和完整性以及應(yīng)用的合理性等方面進行評價(如通過同行評審方式),但會增加成本,甚至可能會阻礙科學(xué)交流的自然流程。實際上,訪問控制與開放存取是數(shù)字保存的兩個方面,目前的理論探討和業(yè)界實踐比較傾向的看法是:雖然開放存取存在風(fēng)險,但它帶來的益處要遠(yuǎn)遠(yuǎn)大于所產(chǎn)生的弊端,并且開放存取也可以進行適當(dāng)控制。
針對威脅3,業(yè)界可以參考現(xiàn)行的學(xué)術(shù)論著引用規(guī)范來制定實驗數(shù)據(jù)的引用規(guī)范,研究人員應(yīng)該遵守該規(guī)范,出版商應(yīng)該監(jiān)督實施該規(guī)范,學(xué)術(shù)機構(gòu)應(yīng)該評估該規(guī)范的實施情況。另外,還應(yīng)該加強研究人員的科研誠信教育,設(shè)立科研誠信監(jiān)督機構(gòu),接受并處理有關(guān)投訴。同行之間監(jiān)督和輿論也是一種方法。總之,科研誠信是科學(xué)昌盛之本,多管齊下才是解決方法。
針對威脅4,研究人員的關(guān)注度較低,主要是技術(shù)層面的問題,任何保存系統(tǒng)都應(yīng)該提供相應(yīng)手段(比如設(shè)置保存數(shù)據(jù)的屬性為只讀型)保護數(shù)據(jù)。另外,保存系統(tǒng)應(yīng)該具有數(shù)據(jù)自動備份機制,定期運行數(shù)據(jù)完整性檢查,必要時實施逆向恢復(fù)功能等。
調(diào)查結(jié)果顯示,實驗研究人員保存實驗數(shù)據(jù)的類型分布比較寬泛(見表5),表明該研究群體在此項實踐上缺乏共識。
表5 保存數(shù)據(jù)類型
最常見的答案是在整個實驗結(jié)束時,或者完成數(shù)據(jù)分析且分析結(jié)果公開發(fā)表后(見表6)。這說明在高能物理領(lǐng)域,對實驗數(shù)據(jù)的加工需要一個漫長過程,且常常持續(xù)到項目結(jié)束,甚至在整個實驗周期中需要加工多次。
表6 保存數(shù)據(jù)時間
保存位置與數(shù)據(jù)共享密切相關(guān)。調(diào)查結(jié)果顯示(見表7),大多數(shù)實驗研究者不僅將實驗數(shù)據(jù)提交到面向公共服務(wù)的數(shù)字保存系統(tǒng),同時也保存在僅供課題組內(nèi)部使用共享的數(shù)據(jù)平臺中,說明高能物理學(xué)科實驗研究者具有較強的開放存取意識。
表7 保存數(shù)據(jù)位置
調(diào)查結(jié)果顯示,保存投資占整個費用(包括實驗數(shù)據(jù)生產(chǎn)、分析、處理等各項費用)的比例較高,其中近一半的實驗研究者對實驗數(shù)據(jù)的保存投資占整個費用10%以上(見表8)。而在PARSE.insight的另外一項調(diào)查中,[3]只有少數(shù)實驗研究者(16%)表明他們所在的機構(gòu)提供該項投資,并且該項投資伴隨實驗數(shù)據(jù)生產(chǎn)的整個過程(41%),甚至發(fā)生在數(shù)據(jù)生產(chǎn)之前(31%)。這說明了在實驗項目收尾階段,項目組已優(yōu)先考慮下一個項目,很難籌集資金用于已經(jīng)完成的實驗數(shù)據(jù)的保存。
表8 保存投資
實驗數(shù)據(jù)不僅被理論研究者使用,而且也被實驗研究者使用(當(dāng)然實驗研究者同時也是數(shù)據(jù)生產(chǎn)者)。在數(shù)據(jù)使用過程中,最常遇到的問題見表9。
表9 數(shù)據(jù)使用最常遇到的問題
問題1:保存質(zhì)量無法保證。
問題2:實驗數(shù)據(jù)丟失。
問題3:表征信息丟失和過時。
問題4:保存格式過時導(dǎo)致無法訪問。
針對問題1,實際上,保存質(zhì)量是一個寬泛的概念,不僅包括上述其他3個問題,還涵蓋更多內(nèi)容(如實驗數(shù)據(jù)的產(chǎn)權(quán)、保存所需的軟硬件性能等)。
針對問題2,這里的“數(shù)據(jù)丟失”不僅包括一般意義上的數(shù)據(jù)丟失(如存儲介質(zhì)的退化導(dǎo)致數(shù)據(jù)的丟失),而且還包括雖然數(shù)據(jù)存在但已經(jīng)無法使用,比如,由于實驗數(shù)據(jù)的有效訪問依賴于充分的元數(shù)據(jù),而元數(shù)據(jù)的丟失會導(dǎo)致相應(yīng)實驗數(shù)據(jù)處于“檢索不到”狀態(tài),這種意義的數(shù)據(jù)丟失所占比例可能更大。
針對問題3,表征信息是有效瀏覽和使用實驗數(shù)據(jù)所必須的工具,比如瀏覽軟件、分析軟件、理解實驗數(shù)據(jù)所需的知識、記錄實驗數(shù)據(jù)生產(chǎn)的文檔等,這類信息常常要求與實驗數(shù)據(jù)一起保存。由于高能物理領(lǐng)域中實驗數(shù)據(jù)的高度復(fù)雜性,表征信息對有效使用和理解實驗數(shù)據(jù)至關(guān)重要。
表征信息的丟失有三種情況:其一是自然丟失,比如存儲介質(zhì)的退化導(dǎo)致保存在這些介質(zhì)中的表征信息丟失;其二是保存策略的實施導(dǎo)致表征信息丟失,比如實施數(shù)字遷移可能會導(dǎo)致表征信息沒有同步遷移;其三是惡意損壞,比如黑客對表征信息數(shù)據(jù)庫的惡意攻擊。表征信息的過時是指新的瀏覽軟件和分析軟件的出現(xiàn)導(dǎo)致采用原來的軟件無法有效使用實驗數(shù)據(jù),此時原來的瀏覽軟件就過時了。
針對問題4,格式過時是導(dǎo)致數(shù)字資源無法有效使用的最重要原因之一,根據(jù)目前的實踐,解決該問題的常用方法有二:數(shù)字遷移和數(shù)字仿真。數(shù)字遷移是通過改變數(shù)字資源的文檔格式,使其適應(yīng)于新的軟件環(huán)境,從而使用戶能夠采用當(dāng)前軟件有效地訪問和瀏覽過去的數(shù)字資源。數(shù)字仿真則不同,不改變數(shù)字資源的文件格式,但要提供采用新的瀏覽軟件來瀏覽過時格式數(shù)字資源的仿真工具。
認(rèn)知上,雖然研究人員認(rèn)為實驗數(shù)據(jù)的保存非常重要,并且對實驗數(shù)據(jù)保存的原因和用途的認(rèn)識也比較一致,但對實驗數(shù)據(jù)保存的未來高度憂慮(具體體現(xiàn)在最嚴(yán)重的保存威脅是“可持續(xù)性”)。因此,業(yè)界應(yīng)該加強對數(shù)字保存的可持續(xù)性研究。宏觀上,數(shù)字保存的可持續(xù)性包括管理、技術(shù)、經(jīng)濟可持續(xù)性等方面。多年來,對數(shù)字保存的研究主要集中在管理和技術(shù)層面,但對經(jīng)濟可持續(xù)性涉獵甚少,因此應(yīng)該開展對該課題的探討。
從運行機制角度,目前的數(shù)字保存有兩大類:基于市場機制運營(如CNKI的中國期刊網(wǎng))和基于公益性機制運營(如美國國會圖書館的American Memory)。這兩類數(shù)字保存都可以視為經(jīng)濟產(chǎn)品,其中前者可視為市場經(jīng)濟產(chǎn)品,后者可視為公共經(jīng)濟產(chǎn)品。從經(jīng)濟產(chǎn)品角度,數(shù)字保存經(jīng)濟可持續(xù)性可以從解析其經(jīng)濟要素并在此基礎(chǔ)上對其進行經(jīng)濟評價兩個方面進行研究。
數(shù)字保存的經(jīng)濟要素解析可以從宏觀和微觀兩個層面進行,宏觀經(jīng)濟要素主要包括“供給與需求”,微觀經(jīng)濟要素主要包括“成本與收入”。數(shù)字保存的經(jīng)濟評價包括定性評價和定量評價,其中定量評價可以從評價指標(biāo)體系建立和評價方法設(shè)計兩個方面進行,評價指標(biāo)體系包括財務(wù)指標(biāo)和實物期權(quán)指標(biāo),評價方法包括評價指標(biāo)的計量方法、評價指標(biāo)的基準(zhǔn)值設(shè)置方法以及評價實施等。
實踐上,比較集中的是數(shù)字保存質(zhì)量問題。與其他產(chǎn)品一樣,無論是作為經(jīng)濟產(chǎn)品的數(shù)字保存還是作為公共產(chǎn)品的數(shù)字保存,其質(zhì)量問題都可以通過建立其質(zhì)量標(biāo)準(zhǔn)并在此基礎(chǔ)上對其進行質(zhì)量認(rèn)證來解決。
在質(zhì)量標(biāo)準(zhǔn)建立方面,根據(jù)全面質(zhì)量管理理論,產(chǎn)品質(zhì)量不僅限于生產(chǎn)過程,也體現(xiàn)在各個環(huán)節(jié):決策、設(shè)計、制造、檢查、使用和服務(wù)等。對數(shù)字保存來說,“決策”和“設(shè)計”由保存者實施,“制造”和“檢查”由數(shù)字資源生產(chǎn)者實施(有時候,保存者和生產(chǎn)者是同一個機構(gòu),有時候則是不同機構(gòu)),“使用”由用戶實施,“服務(wù)”也由保存者實施。鑒于數(shù)字保存的特點,“使用”和“服務(wù)”都需信息技術(shù)支撐。因此,數(shù)字保存的質(zhì)量標(biāo)準(zhǔn)可以從管理質(zhì)量(如保存方針、災(zāi)難性事件的應(yīng)對方案、數(shù)字保存風(fēng)險識別與管理)、性能質(zhì)量(如數(shù)字資源的正確性和完整性、保存信息包組成的完整性、系統(tǒng)檢索性能)、服務(wù)質(zhì)量(如用戶服務(wù)政策、用戶服務(wù)管理)、技術(shù)支持質(zhì)量(如數(shù)據(jù)備份的同步更新、損壞和丟失數(shù)據(jù)的檢測與恢復(fù)、系統(tǒng)軟件與硬件、系統(tǒng)安全)等四個方面來研究建立。
在數(shù)字保存質(zhì)量認(rèn)證方面,可以借鑒成熟的ISO質(zhì)量體系認(rèn)證方案,結(jié)合數(shù)字保存的特點,設(shè)計認(rèn)證模型。該模型可以從認(rèn)證機構(gòu)和認(rèn)證人員的要求與資格、認(rèn)證模式、認(rèn)證標(biāo)準(zhǔn)、認(rèn)證流程和認(rèn)證方案等方面來構(gòu)建。