任慧朋(南京政治學(xué)院軍事信息管理系,上海,200433)
?
數(shù)字檔案資源整合新技術(shù)的研究與探討*
任慧朋
(南京政治學(xué)院軍事信息管理系,上海,200433)
[摘要]針對檔案信息資源整合與共享中存在的問題,文章通過介紹國際最新的“Digital Vellum”數(shù)字檔案整合方案,分析了如何通過云技術(shù)實(shí)現(xiàn)數(shù)字檔案的集中共享,最后討論了資源整合技術(shù)面臨的諸多挑戰(zhàn)。
[關(guān)鍵詞]數(shù)字檔案資源整合云技術(shù)
[分類號]G273
隨著信息科技的不斷進(jìn)步,數(shù)字檔案的資源總量迅猛增長,檔案管理工作中遇到了很多難題,出現(xiàn)了軟硬件技術(shù)更新快、存儲介質(zhì)不穩(wěn)定性、存儲格式多樣化等方面的突出性問題,同時,由于技術(shù)發(fā)展和經(jīng)濟(jì)水平等因素,各個地區(qū)和國家間的文檔格式和存儲介質(zhì)不能相互兼容,難以實(shí)現(xiàn)檔案資源的整合共享,這將是數(shù)字檔案整合需要研究的重要課題[1]。
1.1存在的問題
1.1.1掃描復(fù)制階段。在數(shù)字檔案發(fā)展的過程中,人們不斷嘗試用高效的方式來復(fù)制和讀取數(shù)字資源。目前常見的文字格式有DOC、XML、RTF和TXT;圖像數(shù)據(jù)格式有JPEG和TIFF;網(wǎng)絡(luò)圖像查詢格式有CEB和PDF。隨著科技水平的不斷進(jìn)步,這些格式又發(fā)展出很多版本,而且兼容性不強(qiáng),導(dǎo)致數(shù)字檔案資源的格式標(biāo)準(zhǔn)非常雜亂,同時計(jì)算機(jī)存儲技術(shù)發(fā)展較快,當(dāng)前的計(jì)算機(jī)對很多陳舊的存儲格式不支持(如5.4英寸磁盤)。計(jì)算機(jī)軟硬件發(fā)展速度快是導(dǎo)致儲存格式混亂的主要原因,某些存儲介質(zhì)往往需要專用的讀取設(shè)備,而隨著技術(shù)革新,很多提供相關(guān)技術(shù)服務(wù)的公司被市場淘汰,一些過去的數(shù)字資源面臨著無法讀取的局面[2]。
1.1.2存儲保管階段。數(shù)字檔案的具體保存時間依存儲介質(zhì)的性能和保管條件而定。采用磁力存儲方式的介質(zhì)可存儲的信息量較大,但穩(wěn)定性比較差,保存時間不長。光盤存儲的時間較長,容量也大,但對保管條件的要求比較苛刻。早期經(jīng)常采用的3.5英寸軟盤在常溫狀態(tài)下的最長保存時間為15年,目前普通光盤的最長保存期限為20年,數(shù)字膠片等存儲介質(zhì)的保管時間還要視保管條件而定[3]。
從表1中可以看出,各種存儲介質(zhì)各有優(yōu)缺點(diǎn),其中綜合性能最好的是感光膠片,但其壽命、保存條件和保管風(fēng)險等依然無法與紙質(zhì)檔案相比。數(shù)字化的檔案資源較紙質(zhì)檔案雖有著高效、便捷、方便檢索等優(yōu)勢,但數(shù)字資源具有著不易恢復(fù)的致命缺點(diǎn),遭受損壞后復(fù)原的可能性不大。
1.1.3整合共享階段。整合數(shù)字資源是檔案界長久以來都想要實(shí)現(xiàn)的目標(biāo),但實(shí)現(xiàn)的過程中面臨著非常多的難題,其中包括技術(shù)兼容、文化差異、知識產(chǎn)權(quán)等多個方面。資源整合是把相互獨(dú)立的、多元異構(gòu)的零散信息資源統(tǒng)一成資源整體,要實(shí)現(xiàn)這一目的,除去法律許可和標(biāo)準(zhǔn)規(guī)范等因素,還受到很多技術(shù)條件的限制,如硬件設(shè)備、操作系統(tǒng)、軟件應(yīng)用環(huán)境等,如果要實(shí)現(xiàn)共享還需要與資源所在檔案館建立信任連接,設(shè)定各方均認(rèn)可的通信協(xié)議和參數(shù),同時還要考慮語言互通等問題。
1.2資源整合的意義
1.2.1喚醒沉睡的檔案
目前,對檔案資源的信息挖掘主要依靠檔案工作者,因其有緊密接觸檔案資源的機(jī)會,對特殊檔案的信息處理還需要有一定的技術(shù)和知識背景。經(jīng)過幾十年的積累,數(shù)字檔案的數(shù)量已經(jīng)非常龐大,一些資源儲存過久已經(jīng)被海量資源所淹沒,有價值的信息常處于被忽視的狀態(tài),僅憑檔案工作者的力量和有限的技術(shù)很少能被重新開發(fā)利用,對資源的信息內(nèi)容進(jìn)行查詢也將變得非常困難,有時甚至無法準(zhǔn)確定位檔案資源的保存位置。數(shù)字檔案資源如果處于開放使用的狀態(tài),將有更多的人員和技術(shù)參與檔案資源的開發(fā)利用,數(shù)字檔案資源的價值會最大程度地體現(xiàn),讓這些沉睡已久的檔案信息真正活起來[4]。
1.2.2延長數(shù)字檔案壽命
數(shù)字檔案的維護(hù)和管理需要資金和技術(shù)的投入,因此經(jīng)濟(jì)條件和政策原因也會導(dǎo)致檔案館的發(fā)展水平不均衡。保管條件是影響數(shù)字檔案保管壽命的主要因素;軟硬件的發(fā)展要經(jīng)歷技術(shù)變革和市場競爭等多個環(huán)節(jié),這又直接影響著數(shù)字檔案的技術(shù)壽命。對于陳舊數(shù)字檔案的挽救工作,某些欠發(fā)達(dá)地區(qū)的檔案館因缺少維護(hù)資金的支持,將會導(dǎo)致一些數(shù)字檔案資源徹底消失。云技術(shù)的應(yīng)用使得存儲維護(hù)更新的成本大幅降低,提高了綜合利用效率,能夠解決檔案館建設(shè)水平不平衡、技術(shù)資金匱乏和重復(fù)性建設(shè)等問題,延長數(shù)字資源的生命周期。
表1 各種存儲介質(zhì)的性能比較
1.2.3讓資源流動起來
檔案分類實(shí)現(xiàn)了資源的集中統(tǒng)一管理,而各種檔案間的聯(lián)系往往又是十分緊密的,例如歷史檔案與城建檔案、財務(wù)檔案與科技檔案,在信息獲取和認(rèn)定的過程中是相互佐證的關(guān)系。對某歷史事件的資料進(jìn)行全面整理,一般需要對多個相關(guān)聯(lián)的檔案進(jìn)行分析提煉,搜集分散的檔案便成為最繁重的工作,檔案館之間的相對孤立會帶來巨大的阻礙。檔案資源的整合不只是檔案館間點(diǎn)對點(diǎn)的簡單聯(lián)合,需要建立統(tǒng)一的信息集中共享平臺,統(tǒng)一資源的傳輸協(xié)議,規(guī)范數(shù)據(jù)格式和標(biāo)準(zhǔn),實(shí)現(xiàn)資源在網(wǎng)絡(luò)間的高速流轉(zhuǎn),從而節(jié)省大量的時間和資金成本,實(shí)現(xiàn)對檔案資源的精確定位,提高綜合查詢效率和分析能力[5]。
2.1整體架構(gòu)
Digital Vellum方案,最早由谷歌公司提出,最初定義為“數(shù)字化羊皮紙計(jì)劃”,其意在利用云技術(shù)整合不同來源、不同格式、不同歷史時期的數(shù)字檔案。Digital Vellum的整體架構(gòu)稱為Olive,它根據(jù)服務(wù)端、客戶端和用戶端的需求有區(qū)分地提供云服務(wù)。在資源客戶端提供私有云服務(wù),為檔案資源存儲提供足夠的空間,支持各種版本的操作系統(tǒng)、讀寫軟件和虛擬硬件設(shè)備,可同時在多個操作系統(tǒng)環(huán)境下使用資源;服務(wù)端為客戶的檔案資源提供磁盤的鏡像備份,云端的備份實(shí)現(xiàn)了數(shù)字檔案資源的永久保存;在普通用戶端,通過Apache服務(wù)器提供Web瀏覽界面,支持普通用戶通過網(wǎng)頁的方式進(jìn)行瀏覽和檢索等操作[6]。服務(wù)端和客戶端用Spice遠(yuǎn)程桌面協(xié)議的方式進(jìn)行連接,這也對網(wǎng)絡(luò)通信提出了更高的要求。
2.2資源提供端
資源客戶端的構(gòu)成主要有兩個部分,一是私有云的搭建,需要根據(jù)客戶端的實(shí)際需求確定存儲空間和軟硬件環(huán)境,有時私有云內(nèi)會包含多個虛擬環(huán)境,必要時還要提供一定的模擬硬件設(shè)備;二是客戶端與服務(wù)端的數(shù)據(jù)傳輸,有實(shí)時和離線兩種方式[7]。在私有云的空間內(nèi)實(shí)現(xiàn)全部資源的數(shù)字化存儲,對老舊數(shù)字檔案的分類歸檔等工作,在私有云與服務(wù)器間進(jìn)行傳輸實(shí)現(xiàn)對資源進(jìn)行鏡像備份,這種傳輸可以采用實(shí)時的方式也可離線進(jìn)行,Olive保證了即使在網(wǎng)絡(luò)通信不暢的情況下,也可通過本地的私有云進(jìn)行離線操作,正常通信后再自動進(jìn)行增量備份。Olive根據(jù)不同需求合理地劃分存儲空間,可以實(shí)現(xiàn)高效的數(shù)字化管理,同時確保了檔案資源的信息安全[8]。
2.3云服務(wù)端
服務(wù)端主要提供兩方面的服務(wù),一是對客戶端私有云的磁盤進(jìn)行云備份;二是提供查詢、瀏覽等綜合性的Web服務(wù)。服務(wù)端通過高速網(wǎng)絡(luò)實(shí)現(xiàn)客戶資源的備份,利用Spice遠(yuǎn)程桌面協(xié)議提供Web服務(wù),針對不必要建設(shè)私有云的地方也可直接提供云服務(wù),但對網(wǎng)絡(luò)通訊質(zhì)量的要求比較高。備份的方法采用的是制作磁盤鏡像的方式,對資源進(jìn)行增量備份,這種存儲的好處就是通過云服務(wù)實(shí)現(xiàn)不可預(yù)見性災(zāi)難的恢復(fù)[9]。按照方案的預(yù)期,云服務(wù)端將擁有著巨大的資源,這些資源利用就是人類文明財富價值的體現(xiàn),服務(wù)端可以通過云計(jì)算支持對整合資源進(jìn)行分析應(yīng)用,用最科學(xué)、簡易、高效的Web方式來為用戶提供信息資源服務(wù)。
2.4普通用戶端
整合數(shù)字檔案資源的目的就是為信息需求者提供高效的服務(wù)。目前對于普通用戶來說,從檔案館獲取資源的過程非常麻煩,首先要準(zhǔn)確定位資源的具體位置,同時還需要具備一定的信息檢索和計(jì)算機(jī)操作技能。Olive架構(gòu)將這一系列的復(fù)雜程序簡化,服務(wù)端將全部鏡像盤的資源進(jìn)行集中,經(jīng)過標(biāo)準(zhǔn)格式的轉(zhuǎn)化,通過Apache服務(wù)器提供Web的瀏覽操作方式,用戶可以從服務(wù)端快速獲取資源信息,無需具備相關(guān)的專業(yè)知識和信息檢索技術(shù),不必知道中間的處理過程,甚至不用了解信息資源的存儲方式和具體來源[10]。
圖1 資源客戶端的虛擬機(jī)結(jié)構(gòu)
圖2 Web網(wǎng)頁圖像表示原理圖
3.1設(shè)施和技術(shù)的支持
各個地區(qū)和國家的檔案數(shù)字化水平極不均衡,需要的投入力度和技術(shù)支持也不同。云構(gòu)架的建設(shè)工作需要大量的資金和技術(shù)支持,在整體的構(gòu)架建成后又要考慮經(jīng)費(fèi)維持問題[11]。一方面需要從國家層面進(jìn)行頂層的整體規(guī)劃,在標(biāo)準(zhǔn)、存儲格式、檢索流程等方面進(jìn)行集中統(tǒng)一,如果不能達(dá)到整體的規(guī)范化就很難實(shí)現(xiàn)與國際接軌;另一方面,在加大數(shù)字檔案建設(shè)投入力度的同時,要考慮到檔案資源開放的商業(yè)化,因?yàn)樾畔⒓夹g(shù)的發(fā)展日新月異,需要不斷的經(jīng)費(fèi)投入作為支撐,只靠政策撥款將會很難維持,技術(shù)和設(shè)施的更新進(jìn)程將會非常緩慢[12]。
3.2安全機(jī)制的建立
檔案資源的整合是一項(xiàng)跨區(qū)域、跨國家的系統(tǒng)工程,對資源使用的合理性和可靠性要求建立嚴(yán)格的安全機(jī)制。首先要制定相關(guān)的法規(guī)政策,規(guī)范數(shù)字資源的使用與開發(fā)行為,在遇到信息安全事故的情況時能做到有法可依,在國際層面上,需要建立各國公認(rèn)的公約條款,在安全防范策略方面達(dá)成共識,防止引發(fā)嚴(yán)重的信任危機(jī)。一些珍貴的歷史資源大多存屬于不發(fā)達(dá)的國家,這些國家雖有著悠久的歷史文化,但與發(fā)達(dá)國家之間有很大的文化差異和政治分歧,因此建立世界范圍內(nèi)的安全機(jī)制共同體變得非常必要。
3.1知識產(chǎn)權(quán)的保護(hù)
數(shù)字檔案數(shù)據(jù)庫和紙質(zhì)檔案都受到知識產(chǎn)權(quán)的保護(hù)。知識產(chǎn)權(quán)一方面保護(hù)了檔案資源的合法利益,但另一方面也在一定程度上促生了“信息壟斷”。對檔案數(shù)據(jù)庫知識產(chǎn)權(quán)的保護(hù)難點(diǎn)在于保護(hù)范圍的認(rèn)定上,歐盟和美國采用了雙重保護(hù)模式即著作權(quán)和特殊權(quán)利保護(hù),其保護(hù)的范圍相差不大。我國自加入WTO后對《著作權(quán)法》進(jìn)行了修改(2001年10月),但是對獨(dú)創(chuàng)性檔案數(shù)據(jù)庫的保護(hù)范圍較小,對非獨(dú)創(chuàng)性檔案資源的保護(hù)尚處于空白階段,與發(fā)達(dá)國家的保護(hù)范圍有很大的差異,同時在“網(wǎng)絡(luò)傳播權(quán)”的劃定范圍上也存在巨大的差異。
整合數(shù)字檔案資源是必然的發(fā)展趨勢,隨著信息時代技術(shù)的革新,對數(shù)字檔案的維護(hù)管理面臨著諸多的難題,對呈數(shù)量級增長的數(shù)字檔案資源,通過云構(gòu)架的執(zhí)行可節(jié)省存儲空間和保管成本,實(shí)現(xiàn)資源的實(shí)時全壽命備份,確保了數(shù)字檔案的存儲安全,增強(qiáng)了數(shù)字檔案的開放共享性能,但是在文化差異、知識產(chǎn)權(quán)、安全機(jī)制等因素上,數(shù)字檔案整合的工作還面臨著很多挑戰(zhàn)。
*本文為國家社會科學(xué)基金項(xiàng)目“信息化條件下檔案社會化媒體信息資源的整合路徑與機(jī)制研究”(批號:15BTQ078)的階段性研究成果之一。
參考文獻(xiàn)
[1]Vint Cerf. Digital Vellum and the Expansion of the internet into the Solar System [EB/OL].[2015- 2- 11].Http://www.cmu.edu/silicon- vally/news- evente/dls/2015/cerfnews.html.
[2]中國科學(xué)網(wǎng).第十七屆中國科協(xié)年會國際科學(xué)大師論壇舉辦[EB/OL].[2015-05-24].Http://zt.cast.org.cn/n435777/n435799/n16364438/index.html.
[3]姜針針.數(shù)字檔案面臨的災(zāi)害及應(yīng)對研究[J].蘭臺世界,2015(05):96.
[4]安小米,鐘文睿,白文琳等.我國國家數(shù)字檔案整合與服務(wù)研究現(xiàn)狀及未來研究建議[J].檔案學(xué)研究,2014(02):4-8.
[5]Buchel O,Sedig K. Extending map-based visualizations to support visual tasks:The role of ontological properties[J].Knowledge Organization,2011,38(3):204-229.
[6]Osinska V. Fractal analysis of knowledge organization in digital library[J].[EB/ OL].[2014-09-30].https:// repozytoriium. umk. pl/handle/item/467.
[7]Fagan J C. Usability testing of a large,multidisciplinary library database:Basic search and visual search[J]. Information Technology and Libraries,2013,25(3):140-150.
[8]鄭然,李晶.我國圖書館、檔案館與博物館數(shù)字資源整合研究進(jìn)展[J].圖書資料工作,2012(03):69-71.
[9]吳藝博.我國檔案信息資源整合實(shí)踐探索行為研究[J].檔案學(xué)研究,2012(04):41-45.
[10]林麗群.數(shù)字檔案信息長期保存的策略研究[J].廣州工業(yè)大學(xué)學(xué)報(社會科學(xué)版),2011(02):78-81.
[11]蔣衛(wèi)榮.論《中華人民共和國檔案法》的立法定位[J].檔案學(xué)研究,2012(05):30-34.
[12]劉祥麟.數(shù)字檔案存儲介質(zhì)的發(fā)展[J].湖北檔案,2007(10):20-23.
任慧明,南京政治學(xué)院上海校區(qū)軍事信息管理系研究生,主要研究方向?yàn)閳D書館學(xué)、檔案學(xué)。
The Research on the New Technology about Digital Archives Integration
Ren Huipeng
(Department of Information Manegement of Nanjing Academy,Shanghai,200433)
Abstract:For archival information resources integration and sharing of existing problems,the paper describes the latest international“Digital Vellum”archive digital resources integrated solutions. We analyze how through cloud-based digital archives are centralized shared and finally discussed the integration of archival information resources faced the many challenges in future.
Keywords:Digital Archive;Resource Integration;Cloud Technology;Digital Vellum
[作者簡介]