文/柳州市工人醫(yī)院 盧杰森
淺談云計(jì)算關(guān)鍵技術(shù)在數(shù)字檔案館中的應(yīng)用
文/柳州市工人醫(yī)院盧杰森
本文擬通過(guò)介紹云計(jì)算的概念及主要技術(shù),分析云計(jì)算環(huán)境下數(shù)字檔案館建設(shè)的現(xiàn)實(shí)需求,探討云計(jì)算在數(shù)字信息發(fā)展建設(shè)領(lǐng)域中的影響。
云計(jì)算;數(shù)字檔案館;虛擬化;資源共享
隨著計(jì)算機(jī)技術(shù)與網(wǎng)絡(luò)通訊技術(shù)的飛速發(fā)展,人類社會(huì)進(jìn)入了網(wǎng)絡(luò)信息時(shí)代,為檔案館信息資源的收集、整理和開(kāi)發(fā)利用創(chuàng)造了高效的技術(shù)環(huán)境。數(shù)字檔案館作為網(wǎng)絡(luò)信息時(shí)代的產(chǎn)物,是傳統(tǒng)實(shí)體檔案館在信息時(shí)代的新型組織形式。作為一種全新的基礎(chǔ)設(shè)施和信息環(huán)境,數(shù)字檔案館必須加快引入新技術(shù)提高自身服務(wù)水平,加速嘗試新的服務(wù)模式的應(yīng)用,提高數(shù)字檔案館自身的服務(wù)途徑。由于檔案工作涉及安全性、保密性等諸多問(wèn)題,檔案界一直對(duì)云計(jì)算的應(yīng)用還在強(qiáng)烈爭(zhēng)論與探索之中。數(shù)字檔案館建設(shè)過(guò)程中,合理利用硬件設(shè)備資源、以較少的花費(fèi)為利用者者提供準(zhǔn)確、高效的訪問(wèn)服務(wù),并使之具有靈活的共享性是數(shù)字檔案館建設(shè)中應(yīng)該考慮的首要問(wèn)題,而云計(jì)算模式的出現(xiàn),恰好為解決這些相關(guān)的問(wèn)題提供了較好的解決方案,它能夠最大限度地降低數(shù)字檔案館建設(shè)的運(yùn)營(yíng)成本,真正消除數(shù)字檔案館資源孤島狀態(tài),實(shí)現(xiàn)全球級(jí)的數(shù)字化檔案館資源的共享。
(一)云計(jì)算的基本原理。云計(jì)算(Cloud Computing)是一種基于互聯(lián)網(wǎng)的超級(jí)計(jì)算模式。它是分布式計(jì)算、并行計(jì)算和網(wǎng)格計(jì)算的發(fā)展。其基本原理為:“利用非本地或遠(yuǎn)程服務(wù)器(集群)的分布式計(jì)算機(jī)為互聯(lián)網(wǎng)用戶提供服務(wù)(計(jì)算、存儲(chǔ)、軟硬件等服務(wù))”。這使得企業(yè)能夠?qū)①Y源切換到需要的應(yīng)用上,根據(jù)需求訪問(wèn)計(jì)算機(jī)和存儲(chǔ)系統(tǒng)?!霸朴?jì)算是一種生產(chǎn)者——消費(fèi)者模型,系統(tǒng)采用以太網(wǎng)等快速網(wǎng)絡(luò)將若干集群連接在一起,用戶通過(guò)因特網(wǎng)獲取云計(jì)算系統(tǒng)提供的各種數(shù)據(jù)處理服務(wù)”。其實(shí)現(xiàn)技術(shù)是采用集群來(lái)存儲(chǔ)和管理數(shù)據(jù)資源,運(yùn)行的任務(wù)以數(shù)據(jù)為中心,即調(diào)度計(jì)算任務(wù)到數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)運(yùn)行。
(二)云計(jì)算的關(guān)鍵技術(shù)。云計(jì)算是分布式處理、并行計(jì)算和網(wǎng)格計(jì)算等概念的發(fā)展和商業(yè)實(shí)現(xiàn),其技術(shù)實(shí)質(zhì)是計(jì)算、存儲(chǔ)、服務(wù)器、應(yīng)用軟件等IT軟硬件資源的虛擬化,云計(jì)算在虛擬化、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)管理、編程模式等方面具有自身獨(dú)特的技術(shù)。云計(jì)算的關(guān)鍵技術(shù)包括以下幾個(gè)方向:
1.虛擬機(jī)技術(shù)。虛擬機(jī),即服務(wù)器虛擬化是云計(jì)算底層架構(gòu)的重要基石?!霸诜?wù)器虛擬化中,虛擬化軟件需要實(shí)現(xiàn)對(duì)硬件的抽象,資源的分配、調(diào)度和管理,虛擬機(jī)與宿主操作系統(tǒng)及多個(gè)虛擬機(jī)間的隔離等功能,目前典型的實(shí)現(xiàn)(基本成為事實(shí)標(biāo)準(zhǔn))有Citrix Xen、VMware ESX Server 和Microsoft Hype-V等”。虛擬化的使用者可以是最終用戶、應(yīng)用程序或者是服務(wù)。虛擬化技術(shù)降低了資源使用者與資源具體實(shí)現(xiàn)之間的耦合程度,讓使用者不再依賴于資源的某種特定實(shí)現(xiàn)。虛擬化的常見(jiàn)類型有服務(wù)器虛擬化、存儲(chǔ)虛擬化、系統(tǒng)虛擬化、軟件虛擬化和網(wǎng)絡(luò)虛擬化等。
2.數(shù)據(jù)存儲(chǔ)技術(shù)。數(shù)據(jù)存儲(chǔ)技術(shù)主要是分布式存儲(chǔ),它的目標(biāo)主要是利用多臺(tái)服務(wù)器的存儲(chǔ)的資源滿足單臺(tái)服務(wù)器所不能滿足的存儲(chǔ)需要,因?yàn)樵撓到y(tǒng)需要同時(shí)滿足大量用戶的需求,并行地為大量用戶提供服務(wù)。分布式存儲(chǔ)必須具有分布式、高吞吐率和高傳輸率的特點(diǎn),并且存儲(chǔ)資源能夠被抽象表示和統(tǒng)一管理,能夠保證數(shù)據(jù)讀寫(xiě)操作的安全性、可靠性、準(zhǔn)確性等各方面的要求。目前數(shù)據(jù)存儲(chǔ)技術(shù)主要有Google的GFS(Google File System,非開(kāi)源)以及HDFS(Hadoop Distributed File System,開(kāi)源),目前這兩種技術(shù)已經(jīng)成為事實(shí)標(biāo)準(zhǔn)。
3.數(shù)據(jù)管理技術(shù)。數(shù)據(jù)管理技術(shù)即是對(duì)海量數(shù)據(jù)的處理。它是指對(duì)大規(guī)模數(shù)據(jù)的計(jì)算和分析,通常數(shù)據(jù)的規(guī)??梢赃_(dá)到TB甚至PB級(jí)別?!盎诨ヂ?lián)網(wǎng)時(shí)代的數(shù)據(jù)統(tǒng)計(jì)和分析很多是海量數(shù)據(jù)級(jí)別的,其典型的例子如搜索引擎、數(shù)字圖書(shū)館”。由于數(shù)據(jù)量非常大,一臺(tái)計(jì)算機(jī)不可能滿足海量數(shù)據(jù)處理的性能和可靠性等方面的要求。所以如何提高數(shù)據(jù)的處理能力、更新速率以及進(jìn)一步提高隨機(jī)讀速率是未來(lái)的數(shù)據(jù)管理技術(shù)必須解決的問(wèn)題?!霸朴?jì)算的數(shù)據(jù)管理技術(shù)最著名的是谷歌的BigTable數(shù)據(jù)管理技術(shù),同時(shí)Hadoop開(kāi)發(fā)團(tuán)隊(duì)正在開(kāi)發(fā)類似BigTable的開(kāi)源數(shù)據(jù)管理模塊”。
云計(jì)算的基本原理和關(guān)鍵技術(shù)提供了安全可靠的數(shù)據(jù)存儲(chǔ)、方便快捷的云服務(wù)以及不同設(shè)備間的資源共享,結(jié)合數(shù)字檔案館的基本屬性和特征,筆者認(rèn)為云計(jì)算作為一種全新的技術(shù)在網(wǎng)絡(luò)中應(yīng)用,必然會(huì)形成新的信息管理與信息服務(wù)體系,這種新的管理與服務(wù)體系的目標(biāo)正是數(shù)字檔案館基本特征和屬性的表現(xiàn)。這種新興的云計(jì)算服務(wù)有望從基礎(chǔ)設(shè)施層面解決許多長(zhǎng)期困擾數(shù)字檔案信息資源管理與服務(wù)中存在的問(wèn)題,例如檔案信息資源的開(kāi)發(fā)與利用、數(shù)字檔案資源的存取問(wèn)題、檔案信息資源共享中的版權(quán)等問(wèn)題。
云計(jì)算的關(guān)鍵技術(shù)帶給我們以全新的視角去審視目前的數(shù)字檔案館的信息管理與服務(wù)的新模式,本文結(jié)合上述內(nèi)容嘗試從信息存儲(chǔ)、信息處理、信息資源共享層面入手,來(lái)探析云計(jì)算在數(shù)字檔案館中的應(yīng)用,以此促進(jìn)數(shù)字檔案館能夠更好調(diào)整服務(wù)方式,增強(qiáng)數(shù)字檔案信息服務(wù)功能以及拓寬服務(wù)空間。
(一)云計(jì)算環(huán)境下的虛擬化信息存儲(chǔ)。數(shù)字檔案館的建設(shè)和運(yùn)作對(duì)數(shù)據(jù)的共享備份和調(diào)整存儲(chǔ)訪問(wèn)具有很高的要求,云環(huán)境下的虛擬存儲(chǔ)系統(tǒng)能夠有效地適應(yīng)數(shù)字檔案館數(shù)據(jù)的海量存儲(chǔ)和數(shù)據(jù)的不斷增長(zhǎng),同時(shí)又能滿足當(dāng)今網(wǎng)絡(luò)環(huán)境復(fù)雜性和擴(kuò)展性的不斷提高,對(duì)海量數(shù)據(jù)進(jìn)行存儲(chǔ)和備份。具有海量存儲(chǔ)能力的虛擬存儲(chǔ)系統(tǒng)是數(shù)字檔案館建設(shè)和運(yùn)作的重要保障。
此外,云計(jì)算虛擬存儲(chǔ)技術(shù)能把數(shù)字檔案館現(xiàn)有的各類存儲(chǔ)設(shè)備DAS、NAS、SAN架構(gòu)存儲(chǔ)匯集成一個(gè)"虛擬存儲(chǔ)池",它使系統(tǒng)性能最大化,消除數(shù)據(jù)存取瓶頸,縮短尋道距離,同時(shí)也加快了訪問(wèn)時(shí)間。云計(jì)算還能保障檔案信息資源的安全,因其數(shù)據(jù)集中存儲(chǔ),更容易安全監(jiān)測(cè),是一種安全性比較高的技術(shù)。數(shù)據(jù)中心有專門的管理者對(duì)數(shù)據(jù)進(jìn)行統(tǒng)一管理、分配資源、控制安全,并進(jìn)行可靠的安全實(shí)時(shí)監(jiān)測(cè)。有效地保證網(wǎng)絡(luò)計(jì)算環(huán)境的安全性和方便性。還能保證數(shù)字檔案館中的檔案信息資源的安全存取和通信,保證不同用戶對(duì)檔案信息資源的不同訪問(wèn)權(quán)限,滿足檔案信息資源的特殊安全要求。
(二)云計(jì)算環(huán)境下的海量信息處理。數(shù)字化檔案館所要處理的數(shù)據(jù)通常非常大,其數(shù)據(jù)的規(guī)模可以達(dá)到TB甚至PB級(jí)別,經(jīng)常存在需要海量信息處理能力的業(yè)務(wù),如多媒體數(shù)據(jù)存儲(chǔ)格式的轉(zhuǎn)換、大量信息的掃描識(shí)別、資源數(shù)據(jù)庫(kù)的索引倒排等。云計(jì)算本身的特點(diǎn)是對(duì)海量的信息存儲(chǔ)、讀取后進(jìn)行大量分析,數(shù)據(jù)的讀操作頻率遠(yuǎn)大于數(shù)據(jù)的更新頻率。云計(jì)算有利于檔案信息資源的數(shù)據(jù)處理隨著檔案信息化進(jìn)程的加快,檔案館中需要處理的檔案數(shù)據(jù)越來(lái)越多,云計(jì)算能夠充分利用現(xiàn)有資源,更好地解決海量數(shù)據(jù)的計(jì)算處理和分析問(wèn)題,云計(jì)算提供了無(wú)限大的存儲(chǔ)空間,為數(shù)字檔案館日益增長(zhǎng)的海量數(shù)據(jù)提供了解決途徑。此外,云計(jì)算能夠?yàn)槌瑥?fù)雜的計(jì)算聯(lián)合處理提供優(yōu)于網(wǎng)格技術(shù)的技術(shù)支持。通過(guò)云計(jì)算的運(yùn)用,可以智能地分配和優(yōu)化檔案信息資源,更快地解決檔信息資源的數(shù)據(jù)處理和檢索利用問(wèn)題,從而以更短的時(shí)間、更低的成本實(shí)現(xiàn)海量數(shù)字檔案信息資源的數(shù)據(jù)處理?!斑\(yùn)用云計(jì)算模式,用戶使用手機(jī)、PDA等設(shè)備也可以使用數(shù)字檔案館中的非保密行的電子資源服務(wù)”。
(三)云計(jì)算環(huán)境下的信息資源共享。云計(jì)算可以實(shí)現(xiàn)數(shù)字檔案信息資源共享實(shí)現(xiàn)資源全面共享是云計(jì)算的出發(fā)點(diǎn)和目的之一云計(jì)算技術(shù)屏蔽了信息資源的多樣性格式,它將網(wǎng)上所有資源連通,消除信息孤島,為用戶提供“一站式跨庫(kù)”檢索,實(shí)現(xiàn)信息資源的智能共享?!皺n案作為十分重要的信息資源,利用云計(jì)算的共享性,可將分布在不同地域、不同部門異構(gòu)檔案信息資源集成起來(lái),實(shí)現(xiàn)各檔案館、各檔案部門之間檔案信息資源共享,同時(shí)還能為用戶提供統(tǒng)一的訪問(wèn)接口,選擇適當(dāng)?shù)脑L問(wèn)協(xié)議來(lái)實(shí)現(xiàn)用戶提出的服務(wù)請(qǐng)求”。基于云計(jì)算的數(shù)字檔案館將異構(gòu)分布環(huán)境下不同來(lái)源的海量數(shù)據(jù)資源進(jìn)行統(tǒng)一整合,實(shí)現(xiàn)信息資源的智能共享,也極大地提高數(shù)字檔案館資源的利用效率。而且在云計(jì)算模式下,運(yùn)用云網(wǎng)強(qiáng)大的計(jì)算能力和幾乎無(wú)限的帶寬可以為檔案信息資源共享提供一個(gè)良好的交流環(huán)境,有助于檔案部門及時(shí)了解用戶的要求,提供準(zhǔn)確、有效、個(gè)性化的檔案信息服務(wù)。云計(jì)算是一種開(kāi)放式的環(huán)境,在這一環(huán)境下,可以運(yùn)用云計(jì)算平臺(tái)功能強(qiáng)大的整合播客、維基百科、博客等服務(wù)方式,提升檔案信息資源個(gè)性化服務(wù)的能力,這不僅有效滿足用戶的個(gè)性化需求而且還有助于檔案信息的宣傳提高了檔案利用的社會(huì)意識(shí)。
云計(jì)算的出現(xiàn)宣告了低成本提供超級(jí)計(jì)算時(shí)代的到來(lái),它以超強(qiáng)的計(jì)算能力和低成本、高安全性等優(yōu)勢(shì)將人類社會(huì)推進(jìn)了一個(gè)超共享時(shí)代。但是,目前云計(jì)算技術(shù)的應(yīng)用還處在探索階段,相關(guān)工具和技術(shù)還在不斷完善中,將云計(jì)算應(yīng)用于數(shù)字檔案館建設(shè)領(lǐng)域還只是處于實(shí)踐探索的過(guò)程中。"對(duì)于數(shù)字檔案館的建設(shè)來(lái)說(shuō),要注意的是:充分掌握各種云計(jì)算服務(wù)的技術(shù)實(shí)質(zhì)、特征、基本屬性與應(yīng)用價(jià)值,然后有所選擇地引入數(shù)字檔案領(lǐng)域,從而進(jìn)一步提升數(shù)字檔案館的服務(wù)能力"。相信隨著云計(jì)算技術(shù)在其他領(lǐng)域的成熟應(yīng)用,必定在數(shù)字檔案信息資源服務(wù)與管理中得到廣泛的應(yīng)用,對(duì)推動(dòng)數(shù)字檔案館的建設(shè)與服務(wù)管理具有非常重大的應(yīng)用價(jià)值與現(xiàn)實(shí)意義。
[1]Li zhe W ang, Gregor von Laszew ski. Scientific Cloud Com puting:Early Definition and Experience [EB/O L].[2009-12-09].http://cyberaide.googlecode.com/svn/trunk/papers/08-cloud/vonLaszew ski-08-cloud.pdf.
[2]陳全,鄧倩妮.云計(jì)算及其關(guān)鍵技術(shù)[J].計(jì)算機(jī)應(yīng)用,2009(9):2565-2566.
[3]馬林山,趙慶峰.云計(jì)算環(huán)境下圖書(shū)館服務(wù)的創(chuàng)新[J].大學(xué)圖書(shū)情報(bào)學(xué)刊,2011(1).
[4]http://baike.baidu.com/view/1316082.htm l
[5]王平.云關(guān)鍵技術(shù)在數(shù)字圖書(shū)館中的應(yīng)用于研究[J].情報(bào)資料工資,2010(5).
[6]http://baike.baidu.com/view/1316082.http
[7]施海燕.云計(jì)算和移動(dòng)圖書(shū)館[J].圖書(shū)館建設(shè),2009(9):10-12.
[8]嚴(yán)真.云計(jì)算環(huán)境下的圖書(shū)館變革[J].圖書(shū)館工作者研究,2010(2):45-46.
[9]彭小芹,程結(jié)晶.云計(jì)算環(huán)境中數(shù)字檔案館服務(wù)與管理初探[J].檔案學(xué)研究,2010(6).