劉宇琪
一、開(kāi)放數(shù)據(jù)環(huán)境下的檔案工作
(一)開(kāi)放數(shù)據(jù)的內(nèi)涵
開(kāi)放數(shù)據(jù)近些年來(lái)作為一個(gè)熱點(diǎn)話題,有相當(dāng)數(shù)量的研究成果,但是很多作者并沒(méi)有對(duì)“開(kāi)放數(shù)據(jù)”下一個(gè)嚴(yán)格的定義,大多是針對(duì)其開(kāi)放性的描述。而關(guān)于開(kāi)放數(shù)據(jù),至今尚無(wú)統(tǒng)一標(biāo)準(zhǔn)的定義。常見(jiàn)的如以下幾種觀點(diǎn)。
吳旻在《開(kāi)放數(shù)據(jù)在英、美政府中的應(yīng)用及啟示》中,采用了維基百科的定義:“開(kāi)放數(shù)據(jù)是一種哲學(xué)理念及實(shí)踐,要求數(shù)據(jù)可以被任何人自由獲取,沒(méi)有來(lái)自版權(quán)、專(zhuān)利或其他機(jī)制的限制?!遍_(kāi)放知識(shí)基金會(huì)對(duì)開(kāi)放數(shù)據(jù)的闡釋?zhuān)洪_(kāi)放數(shù)據(jù)是一類(lèi)可以被任何人免費(fèi)使用、再利用、再分發(fā)的數(shù)據(jù),在其限制上,頂多是要求署名和使用類(lèi)似的協(xié)議再分發(fā)。相麗玲、王晴在文章中指出,“開(kāi)放數(shù)據(jù)是一種自然屬于或被許可進(jìn)入公有領(lǐng)域,可以面向所有人自由使用或被授權(quán)利用、再利用和重新分配的數(shù)據(jù)”。李佳佳提出:“開(kāi)放數(shù)據(jù)不是可供人們獲取的數(shù)據(jù),也不是免費(fèi)的數(shù)據(jù),它是總是被給予的數(shù)據(jù),它依賴于見(jiàn)證者而存在。”侯人華、徐少同對(duì)美國(guó)聯(lián)邦政府開(kāi)放數(shù)據(jù)網(wǎng)站進(jìn)行分析時(shí),指出開(kāi)放數(shù)據(jù)具有免費(fèi)、非私有性、可再利用、合法性、數(shù)據(jù)格式多樣性等特點(diǎn)。
要明確“開(kāi)放數(shù)據(jù)”的定義,首先得明確開(kāi)放數(shù)據(jù)的理論根源。如果為了“開(kāi)放數(shù)據(jù)”而對(duì)數(shù)據(jù)進(jìn)行開(kāi)放,難免會(huì)遇到許多問(wèn)題,如:數(shù)據(jù)的來(lái)源、數(shù)據(jù)的安全性等。開(kāi)放數(shù)據(jù)旨在建立一個(gè)數(shù)據(jù)完全開(kāi)放的世界,但是很多高價(jià)值的數(shù)據(jù)是不同的主體耗費(fèi)了無(wú)數(shù)的精力才得到的,如果無(wú)條件的開(kāi)放數(shù)據(jù)很容易對(duì)這些企業(yè)或者其他主體積極性造成損傷。在當(dāng)前生產(chǎn)力水平下,無(wú)疑會(huì)產(chǎn)生消極的影響。
所以開(kāi)放數(shù)據(jù)的主客體的界定都不是一個(gè)隨意為之的事情。開(kāi)放數(shù)據(jù)的目的是“數(shù)據(jù)共享”,以減少為獲得數(shù)據(jù)過(guò)程中造成的資源浪費(fèi),同時(shí)以期形成數(shù)據(jù)共享的社會(huì),促進(jìn)社會(huì)的發(fā)展?!皵?shù)據(jù)可以被任何人自由獲取,沒(méi)有來(lái)自版權(quán)、專(zhuān)利或其他機(jī)制的限制?!边@樣理想化的情況,在現(xiàn)行的制度下,是不可能行得通的。換句話說(shuō),在全世界未形成一個(gè)技術(shù)或者數(shù)據(jù)共同體的前提下,任何數(shù)據(jù)自由獲取“開(kāi)放數(shù)據(jù)”是不能形成的。
基于上述分析,本文對(duì)“開(kāi)放數(shù)據(jù)”的定義,選取曹凌在《大數(shù)據(jù)創(chuàng)新:歐盟開(kāi)放數(shù)據(jù)戰(zhàn)略研究》一文中所提出的,開(kāi)放數(shù)據(jù)是指公共機(jī)構(gòu)產(chǎn)生、收集或支付的所有信息,包括地理信息數(shù)據(jù)、統(tǒng)計(jì)資料、氣象資料,由政府資助的研究項(xiàng)目的數(shù)據(jù)。公共機(jī)構(gòu)由國(guó)家出資,國(guó)家資金來(lái)源分為兩部分,一是稅收收入,二是國(guó)有企業(yè)上繳利潤(rùn)。而稅收理應(yīng)取之于民,用之于民,國(guó)有企業(yè)為全體人民所有,所以公共機(jī)構(gòu)的“開(kāi)放數(shù)據(jù)”具有合理性。
(二)開(kāi)放數(shù)據(jù)與檔案工作
在開(kāi)放數(shù)據(jù)背景下,檔案機(jī)構(gòu)作為“公共服務(wù)機(jī)構(gòu)”,為公民和法人提供數(shù)據(jù)服務(wù),是具有合理性的。自從美國(guó)在2009年建立政府?dāng)?shù)據(jù)開(kāi)放平臺(tái)以來(lái),世界多個(gè)國(guó)家政府也開(kāi)始紛紛建立起自己的政府?dāng)?shù)據(jù)開(kāi)放平臺(tái),向公眾開(kāi)放政府?dāng)?shù)據(jù)。
目前,我國(guó)的政府?dāng)?shù)據(jù)開(kāi)放仍處在起步階段,無(wú)論是在理論研究還是實(shí)踐探索層面都與歐美國(guó)家有著相當(dāng)大的差距。我國(guó)并沒(méi)有統(tǒng)一的政府?dāng)?shù)據(jù)開(kāi)放平臺(tái),僅有的政府?dāng)?shù)據(jù)開(kāi)放平臺(tái)也只是地方政府自己建設(shè)的地方性政府?dāng)?shù)據(jù)開(kāi)放平臺(tái),無(wú)法滿足全國(guó)公眾的需要。中國(guó)不管在政策上、技術(shù)上還是在創(chuàng)新上都沒(méi)有足夠的保障來(lái)建立統(tǒng)一的政府?dāng)?shù)據(jù)開(kāi)放平臺(tái)。
在信息化時(shí)代,掌握了數(shù)據(jù),也就相當(dāng)于擁有了一座金礦。檔案部門(mén)掌握這大量“高價(jià)值”的數(shù)據(jù),但是因其身份的原因無(wú)法對(duì)這些數(shù)據(jù)進(jìn)行完全的開(kāi)發(fā)和利用。又因?yàn)閿?shù)據(jù)的敏感性,讓檔案數(shù)據(jù)開(kāi)放成為亟待研究的問(wèn)題。檔案部門(mén)應(yīng)當(dāng)充當(dāng)怎樣的角色,和公民、企業(yè)又當(dāng)保持怎樣的關(guān)系,如何找準(zhǔn)自身所處的位置,是開(kāi)放數(shù)據(jù)背景下不可避免的問(wèn)題。而開(kāi)放數(shù)據(jù)的大環(huán)境,也必然會(huì)給檔案信息資源開(kāi)發(fā)利用帶來(lái)各方面的影響。
二、開(kāi)放數(shù)據(jù)對(duì)檔案信息資源開(kāi)發(fā)主體的影響
(一)檔案部門(mén)角色的變化
在傳統(tǒng)檔案視角下,檔案工作既是信息的提供者,又是信息資源開(kāi)發(fā)的主體。但是作為開(kāi)發(fā)者,檔案開(kāi)發(fā)工作很難真實(shí)的了解需求者的意圖,也就是需求不匹配的問(wèn)題。然而在開(kāi)放數(shù)據(jù)的語(yǔ)境下,不存在這樣的問(wèn)題。因?yàn)?,在開(kāi)放數(shù)據(jù)環(huán)境下,數(shù)據(jù)的需求者(用戶)自身就是數(shù)據(jù)開(kāi)發(fā)的主體,檔案工作只起到信息提供的作用。
所以檔案部門(mén)在檔案信息資源開(kāi)發(fā)的過(guò)程中,應(yīng)當(dāng)從“開(kāi)發(fā)者”的身份跳出來(lái),只作為原始數(shù)據(jù)的提供者或者相關(guān)開(kāi)發(fā)工具的提供者。開(kāi)放數(shù)據(jù)的視角下,政府機(jī)關(guān)等公共服務(wù)機(jī)構(gòu)的數(shù)據(jù)都應(yīng)向公眾開(kāi)放。而檔案部門(mén)作為數(shù)據(jù)的保管者,理應(yīng)牽頭各部門(mén)制定開(kāi)放數(shù)據(jù)的標(biāo)準(zhǔn)化程序。法律法規(guī)政策是開(kāi)放數(shù)據(jù)的有力武器,走在開(kāi)放數(shù)據(jù)運(yùn)動(dòng)前列的歐美國(guó)家已經(jīng)制定了國(guó)家層面的開(kāi)放數(shù)據(jù)政策和法令。在跳出“開(kāi)發(fā)者”身份,充當(dāng)法律法規(guī)的制定者的同時(shí),檔案部門(mén)應(yīng)該肩負(fù)起檔案真實(shí)性與完整性維護(hù)的重任。大概念的“檔案信息資源”包括:公共安全、公共教育、文體休閑、科學(xué)技術(shù)等各個(gè)領(lǐng)域。檔案部門(mén)應(yīng)當(dāng)對(duì)各個(gè)方面數(shù)據(jù)的真實(shí)性負(fù)重要職責(zé)。檔案部門(mén)可以在數(shù)據(jù)的歸檔、收集和保存方面為其他機(jī)構(gòu)提供方法指導(dǎo),參與到開(kāi)放數(shù)據(jù)中去,并指導(dǎo)其數(shù)據(jù)的發(fā)布。
(二)用戶角色的再定位
信息化時(shí)代的到來(lái),帶來(lái)了大量的信息資源,但是檔案部門(mén)作為信息資源的開(kāi)發(fā)主體并沒(méi)有對(duì)自身的開(kāi)發(fā)手段做出相應(yīng)的改變。硬件和軟件的提升并沒(méi)有給檔案信息開(kāi)發(fā)工作帶來(lái)本質(zhì)上的變化,是檔案部門(mén)自身在完成“用戶需求匹配”的工作。面對(duì)龐大的數(shù)據(jù)量和復(fù)雜的用戶需求,這一問(wèn)題日益凸顯。
在這里,筆者想引入U(xiǎn)GC的概念。UGC最早起源于web2.0時(shí)代,即用戶將自己原創(chuàng)的內(nèi)容通過(guò)互聯(lián)網(wǎng)平臺(tái)進(jìn)行展示或者提供給其他用戶。UGC本身其實(shí)就是用戶根據(jù)自身需求,進(jìn)行內(nèi)容的開(kāi)發(fā)和再生產(chǎn)的過(guò)程,然后進(jìn)行分享。
傳統(tǒng)的檔案工作,由檔案館或者其他的檔案機(jī)構(gòu)進(jìn)行開(kāi)發(fā)工作,然后向社會(huì)公眾進(jìn)行開(kāi)放。但檔案部門(mén)的人力資源是有限的,并且難以做到用戶需求的精確匹配。當(dāng)下我們所講的開(kāi)放數(shù)據(jù),本質(zhì)上就是一個(gè)更廣義的UGC模式。傳統(tǒng)的UGC中,用戶只負(fù)責(zé)上傳資料,然后用戶之間進(jìn)行共享。但是在開(kāi)放數(shù)據(jù)的環(huán)境下,用戶不僅可以就內(nèi)容進(jìn)行共享,還可以對(duì)開(kāi)發(fā)工具和模式等開(kāi)發(fā)的全過(guò)程進(jìn)行共享,而不只是對(duì)最后的結(jié)果進(jìn)行共享。檔案部門(mén)在開(kāi)放數(shù)據(jù)的環(huán)境下,扮演的角色應(yīng)當(dāng)是UGC整個(gè)模式規(guī)則制定者,通過(guò)現(xiàn)有的“檔案信息資源”去吸引用戶加入其中,從而使檔案部門(mén)從“開(kāi)發(fā)者”的身份中跳出去,不在作為檔案開(kāi)發(fā)工作的主體存在。
從檔案部門(mén)和用戶分別在檔案價(jià)值實(shí)現(xiàn)過(guò)程中所發(fā)揮的作用來(lái)看,檔案部門(mén)在檔案信息資源開(kāi)發(fā)過(guò)程中可以利用館藏資源做好檔案信息資源開(kāi)發(fā)的基礎(chǔ)性工作,但不適宜作為檔案信息資源開(kāi)發(fā)的主體;而用戶因其具備的檔案信息需求動(dòng)力和檔案信息資源開(kāi)發(fā)條件,在檔案館提供有序化檔案信息資源的前提下,是可以承擔(dān)起檔案信息資源開(kāi)發(fā)主體責(zé)任的。而這種開(kāi)發(fā)主體從“檔案部門(mén)”到“用戶”的轉(zhuǎn)變,正是開(kāi)放數(shù)據(jù)最核心的理念。
三、開(kāi)放數(shù)據(jù)對(duì)檔案信息資源開(kāi)發(fā)客體的影響
(一)檔案形態(tài)的轉(zhuǎn)變
開(kāi)放數(shù)據(jù)給檔案信息資源開(kāi)發(fā)客體帶來(lái)的第一個(gè)轉(zhuǎn)變就是檔案形態(tài)的數(shù)字化到數(shù)據(jù)化。為應(yīng)對(duì)信息時(shí)代對(duì)于檔案工作新要求,檔案數(shù)字化的工作已經(jīng)進(jìn)行了多年,并在一定程度上解決了傳統(tǒng)檔案利用信息技術(shù)進(jìn)行管理及共享的問(wèn)題,收到了相當(dāng)?shù)某尚?。但?shù)字化僅僅是解決了載體形式或者說(shuō)是信息技術(shù)的應(yīng)用問(wèn)題,可以理解為檔案工作對(duì)信息技術(shù)的適應(yīng)性應(yīng)用。
隨著移動(dòng)互聯(lián)網(wǎng)、云計(jì)算、物聯(lián)網(wǎng)等新興技術(shù)的蓬勃發(fā)展和廣泛應(yīng)用,以及各種傳感器的無(wú)所不在,信息技術(shù)已經(jīng)可以將一切事物“數(shù)據(jù)化”。技術(shù)的革新勢(shì)必給現(xiàn)有的檔案存在形態(tài)帶來(lái)沖擊,數(shù)字化的檔案已經(jīng)不能滿足用戶的需求,對(duì)于對(duì)檔案信息資源進(jìn)行深入的數(shù)據(jù)挖掘與利用也是遠(yuǎn)遠(yuǎn)不夠的。檔案部門(mén)不能再被動(dòng)地適應(yīng)信息化發(fā)展需要,更應(yīng)該主動(dòng)根據(jù)檔案信息利用需求,積極的完成檔案數(shù)字化到數(shù)據(jù)化的轉(zhuǎn)變。更要將檔案的管理深入到數(shù)據(jù)層面,注重對(duì)數(shù)據(jù)本身的研究和開(kāi)發(fā)利用。
(二)檔案信息資源價(jià)值的轉(zhuǎn)變
檔案因其歷史性和原始記錄性構(gòu)成信息資源體系中最具基礎(chǔ)意義的部分,具有其他信息資源難以比擬的價(jià)值。有效開(kāi)發(fā)檔案信息資源是實(shí)現(xiàn)檔案價(jià)值的前提條件,可以將檔案由封閉的內(nèi)部資源轉(zhuǎn)化為流動(dòng)的社會(huì)信息資源,為科學(xué)進(jìn)步、社會(huì)全面發(fā)展服務(wù)。
在開(kāi)放數(shù)據(jù)時(shí)代來(lái)臨之前,檔案的價(jià)值是由檔案鑒定工作者完成的工作,且因?yàn)閮?chǔ)存技術(shù)的原因要制定一個(gè)歸檔范圍,即確定哪些要?dú)w檔保存,哪些不需要?dú)w檔保存;同時(shí)對(duì)歸檔保存的信息和數(shù)據(jù)要根據(jù)其價(jià)值確定不同的保管期限以節(jié)省人力和物力資源。隨著物聯(lián)網(wǎng)技術(shù)的普及、互聯(lián)網(wǎng)時(shí)代媒體的網(wǎng)絡(luò)化,各種信息的數(shù)據(jù)化。并且近些年來(lái),儲(chǔ)存設(shè)備的價(jià)格大幅下降,“將一切歸檔”成為可能。不同類(lèi)型的“檔案”對(duì)應(yīng)不同的主體,也會(huì)體現(xiàn)不同的價(jià)值,不再是檔案鑒定工作者的“一家之言”。所以檔案信息資源的價(jià)值隨著數(shù)據(jù)挖掘技術(shù)的應(yīng)用而有了不同的解讀,所有的信息管理者都面臨著同樣一個(gè)問(wèn)題:即需要對(duì)自身所掌握的信息的價(jià)值有準(zhǔn)確的理解。這對(duì)檔案服務(wù)利用工作將是全新的挑戰(zhàn),這不僅僅要求能夠靈活地運(yùn)用各種技術(shù)挖掘檔案數(shù)據(jù)中蘊(yùn)含的價(jià)值,更需要檔案工作者對(duì)于信息價(jià)值有著更為清晰的認(rèn)識(shí)。
四、開(kāi)放數(shù)據(jù)下檔案信息資源開(kāi)發(fā)途徑的轉(zhuǎn)變
我國(guó)檔案工作已融入經(jīng)濟(jì)社會(huì)發(fā)展各領(lǐng)域,檔案部門(mén)傳統(tǒng)的復(fù)印、借閱、展覽等提供利用方式顯然已經(jīng)無(wú)法滿足公眾的需求。開(kāi)放數(shù)據(jù)的開(kāi)展,要求檔案部門(mén)能夠根據(jù)用戶需求,合理組織、整合館藏檔案數(shù)據(jù),對(duì)海量的數(shù)據(jù)資源進(jìn)行知識(shí)化輸出,實(shí)現(xiàn)檔案信息資源協(xié)同共享和信息增值服務(wù)。但目前為止,無(wú)論是編制檔案館藏目錄、檔案檢索工具,還是編研出版史料匯集、文件匯集等都依賴于檔案館內(nèi)工作人員。檔案館人力資源、資金投入及技術(shù)力量畢竟有限,館內(nèi)工作人員受精力、時(shí)間和知識(shí)儲(chǔ)備的限制在面對(duì)海量的檔案信息資源以及“并不容易”的開(kāi)發(fā)工作時(shí)往往力不從心。
所以開(kāi)放數(shù)據(jù)背景下,要積極探索檔案信息資源開(kāi)發(fā)的新途徑。如檀竹茂在《檔案信息資源開(kāi)發(fā)的有效途徑——協(xié)同合作》中提出,檔案部門(mén)應(yīng)該與社會(huì)外部力量的協(xié)同合作,協(xié)同合作可以實(shí)現(xiàn)不同資源擁有者之間的優(yōu)勢(shì)互補(bǔ),是彌補(bǔ)檔案部門(mén)自身力量不足、實(shí)現(xiàn)檔案信息資源開(kāi)發(fā)的有效途徑。周文泓將公眾參與的理念引入檔案信息資源開(kāi)發(fā)中,從立足開(kāi)放政府建立公眾參與制度、創(chuàng)建公眾參與的組織架構(gòu)與社區(qū)、設(shè)計(jì)與開(kāi)放檔案信息資源體系、布局?jǐn)?shù)字工具的應(yīng)用策略、以最佳實(shí)踐引領(lǐng)大眾參與五個(gè)方面探討如何構(gòu)建公眾參與的檔案信息資源開(kāi)發(fā)模式。在探索新途徑之余,也要注重各級(jí)檔案部門(mén)之間以及與其他信息機(jī)構(gòu)之間數(shù)據(jù)的關(guān)聯(lián),為公眾提供最全面的數(shù)據(jù)資源,消除網(wǎng)絡(luò)數(shù)據(jù)孤島。
檔案部門(mén)作為國(guó)家核心的數(shù)據(jù)機(jī)構(gòu),檔案部門(mén)應(yīng)當(dāng)牽頭建立全國(guó)統(tǒng)一的“公共服務(wù)部門(mén)”數(shù)據(jù)開(kāi)放平臺(tái),在開(kāi)放數(shù)據(jù)的大環(huán)境下,邁出堅(jiān)實(shí)的一小步,迎接“大一統(tǒng)”的開(kāi)放數(shù)據(jù)時(shí)代的到來(lái)。
(作者單位:上海大學(xué)圖書(shū)情報(bào)檔案系)