于英濤
(華北計算技術(shù)研究所 中國 北京 100083)
檔案數(shù)字化是隨著計算機技術(shù)、掃描技術(shù)、OCR 技術(shù)、數(shù)字?jǐn)z影技術(shù)(錄音、錄像)、數(shù)據(jù)庫技術(shù)、多媒體技術(shù)、存儲技術(shù)的發(fā)展而產(chǎn)生的一種新型檔案信息形態(tài),它把各種載體的檔案資源轉(zhuǎn)化為數(shù)字化的檔案信息, 以數(shù)字化的形式存儲,網(wǎng)絡(luò)化的形式互相連接,利用計算機系統(tǒng)進行管理,形成一個有序結(jié)構(gòu)的檔案信息庫,及時提供利用,實現(xiàn)資源共享。
檔案數(shù)字化是數(shù)字檔案建設(shè)最基礎(chǔ)的工作,傳統(tǒng)栽體的檔案經(jīng)高科技技術(shù)加工成數(shù)字檔案形式,通過局域網(wǎng)、政務(wù)網(wǎng)、互聯(lián)網(wǎng)進行計算機檢索、閱讀電子檔案,為迎接檔案信息服務(wù)新環(huán)境的挑戰(zhàn),提高管理水平、提高效率,增強檔案業(yè)務(wù)部門的服務(wù)水平,為檔案內(nèi)部管理及面向客戶服務(wù)提供高效率的全面服務(wù)。 檔案數(shù)字化流程圖檔案工作的數(shù)字化建設(shè)是順應(yīng)潮流、適應(yīng)時代發(fā)展的新舉措、新要求。 檔案作為一種原生信息資源,其重要性正日益凸顯出來,逐步掌握信息技術(shù)為檔案工作服務(wù),為社會主義經(jīng)濟建設(shè)服務(wù),為社會主義精神文明建設(shè)服務(wù)。
隨著檔案信息化建設(shè)和數(shù)字化工作的開展,某檔案館在機讀目錄的管理以及檔案數(shù)字化加工方面進行了大量的研究和工作,目前大約形成機讀目錄上百萬條,檔案數(shù)據(jù)容量約9TB,聲像光盤幾千余張。 另外隨著檔案接收進館工作的進行,大量的檔案信息數(shù)據(jù)也陸續(xù)接收進館。 因此如何充分運用先進的網(wǎng)絡(luò)、存儲和數(shù)字化技術(shù)手段,將寶貴的館藏檔案數(shù)據(jù)進行有效的整理加工并轉(zhuǎn)儲到安全可靠的存儲設(shè)備中,再通過網(wǎng)絡(luò)環(huán)境實現(xiàn)對這些信息資源的高效率的檢索和共享,充分發(fā)揮它們的價值,是檔案館信息化基礎(chǔ)建設(shè)亟待解決的任務(wù)。
圖1
針對檔案館目前數(shù)據(jù)分散、增長速度快,工作效率低及數(shù)據(jù)安全性差的現(xiàn)實, 設(shè)計了一套完整的存儲系統(tǒng)解決方案,幫助檔案館實現(xiàn)業(yè)務(wù)目標(biāo)。 該方案將檔案館存儲系統(tǒng)的架構(gòu)分為三級,分別為在線數(shù)據(jù)存儲(On-Line)、近線數(shù)據(jù)存儲(Near-Line)、離線數(shù)據(jù)存儲(Off-Line)。 具體如圖1 所示。
每個級別的功能簡要描述如下:
1)在線數(shù)據(jù)存儲(On-Line)
在線存儲(On-Line)是工作級的存儲,在線存儲的最大特征是存儲設(shè)備和所存儲的數(shù)據(jù)時刻保持“在線”狀態(tài),可以隨時讀取和修改,以滿足前端應(yīng)用服務(wù)器或數(shù)據(jù)庫對數(shù)據(jù)訪問的速度要求,其中最主要的在線存儲是磁盤存儲。 在線存儲的性能是最高的,但成本也是最高的。
2)近線數(shù)據(jù)存儲(Near-Line)
近線存儲就是在原有的在線存儲及離線存儲之間引入的第二層存儲,是在線和離線存儲的中間點,是近似在線的存儲。 其特點是數(shù)據(jù)訪問的速度接近在線存儲,但在價格上卻接近離線海量存儲,因此,在有效降低存儲產(chǎn)品成本的同時,也保證了數(shù)據(jù)能夠被及時訪問。 由于存放的數(shù)據(jù)容量大、訪問頻度低,用近線存儲設(shè)備來存儲,比使用磁帶庫靈活,同時也避免了在線存儲的昂貴投資。 傳統(tǒng)定義的近線存儲設(shè)備主要為NAS 系統(tǒng)與光盤庫設(shè)備。
3)離線數(shù)據(jù)存儲(Off-Line)
離線數(shù)據(jù)是對在線數(shù)據(jù)的備份,以防范可能發(fā)生的數(shù)據(jù)災(zāi)難,離線數(shù)據(jù)不常被調(diào)用,一般也遠(yuǎn)離系統(tǒng)應(yīng)用。 離線存儲的典型產(chǎn)品是磁帶庫,價格相對低廉,但離線存儲介質(zhì)上的數(shù)據(jù)在讀寫時是順序進行的,當(dāng)需要讀取數(shù)據(jù)時,需要把磁帶卷到頭,再進行定位。 因此,離線存儲的訪問速度慢、效率低。
檔案館可根據(jù)應(yīng)用系統(tǒng)的主要功能、業(yè)務(wù)類型、對數(shù)據(jù)訪問要求等因素,將其數(shù)據(jù)部署在各級存儲上,既能最大限度滿足應(yīng)用需求,又可使存儲成本最小化。
圖2
某檔案館以前采用傳統(tǒng)的LAN 結(jié)構(gòu)和手工備份方式,人工手動備份數(shù)據(jù)庫中的關(guān)鍵數(shù)據(jù),SQL、Oracle 的數(shù)據(jù)備份需要占用較多的工作量,對核心業(yè)務(wù)數(shù)據(jù)信息備份的工作無法量化考核。針對這一情況,設(shè)計了采用SAN 存儲架構(gòu)和集中、高效的網(wǎng)絡(luò)備份系統(tǒng)。 其目的在于一方面是采用最先進的存儲技術(shù),最大化的利用現(xiàn)有的存儲設(shè)備,建立一個數(shù)據(jù)集中管理的存儲系統(tǒng);另一方面為系統(tǒng)和數(shù)據(jù)建立備份,從而對系統(tǒng)和數(shù)據(jù)進行有效保護,在系統(tǒng)遭遇意外損害時,能及時對系統(tǒng)和數(shù)據(jù)進行恢復(fù)。
該備份方案示意圖如圖2。
檔案館備份系統(tǒng)的組成如下:
1)備份主服務(wù)器:負(fù)責(zé)整個備份系統(tǒng)的管理,包括備份策略的制訂、 備份數(shù)據(jù)庫的保存。 該服務(wù)器同時也是一個Media Server 服務(wù)器, 負(fù)責(zé)將本機的數(shù)據(jù)和客戶端的數(shù)據(jù)備份到磁帶庫中。
2)備份客戶端程序:安裝在所有需要通過SAN 備份的其他服務(wù)器上。 每個服務(wù)器均通過SAN 連接光纖交換機。 備份數(shù)據(jù)均通過光纖網(wǎng)絡(luò)備份到磁帶庫中。
3)NAS 備份軟件:使用網(wǎng)絡(luò)數(shù)據(jù)管理協(xié)議(NDMP),為網(wǎng)絡(luò)附屬存儲(NAS)主機提供在線數(shù)據(jù)備份和恢復(fù)。
4)數(shù)據(jù)庫備份程序:安裝在需要備份數(shù)據(jù)庫的服務(wù)器。能夠?qū)崿F(xiàn)熱備份,和快速恢復(fù)數(shù)據(jù)庫。
5)光纖磁帶庫與光纖交換機連接。 采用LTO 磁帶機,通過備份軟件的控制,實現(xiàn)備份數(shù)據(jù)的高速、自動、存儲。 當(dāng)數(shù)據(jù)受到損害時,可以從磁帶庫中恢復(fù)數(shù)據(jù)。
6)由于主機及磁帶庫均接入SAN 結(jié)構(gòu),故未來可以平滑的升級到SAN 的方式備份一些重要的主機及數(shù)據(jù)庫,以避免備份數(shù)據(jù)對現(xiàn)有局域網(wǎng)絡(luò)的沖擊。
目前, 該存儲備份系統(tǒng)已在某檔案館建成并投入運行。通過該系統(tǒng),檔案館可使信息像其他業(yè)務(wù)資產(chǎn)一樣有效地得到管理。 該系統(tǒng)不僅能幫助檔案館解決數(shù)據(jù)分散、效率低及安全性差的問題,并能滿足未來業(yè)務(wù)增長的需求。 它還可以滿足存儲空間的需求,減少開銷及資源浪費,同時減少在管理跨多種操作系統(tǒng)平臺的企業(yè)系統(tǒng)和信息孤島時的眾多難題。 大大提高了檔案館檔案信息化水平。
建成后的的存儲系統(tǒng)的特點為:
檔案館存儲系統(tǒng)的通道帶寬、存儲系統(tǒng)I/O 能力、服務(wù)器的網(wǎng)絡(luò)性能和響應(yīng)能力等重要指標(biāo),可以滿足實時性要求很高的多節(jié)點客戶端數(shù)據(jù)請求及大容量數(shù)據(jù)存儲的需要,提高了業(yè)務(wù)運行效率。
檔案館存儲系統(tǒng)具備超大容量,同時也具備穩(wěn)定性與安全性也達到了很高的要求。 同時由于其先進的架構(gòu),可使存儲容量靈活擴展,提高了應(yīng)用的可持續(xù)運行能力。
檔案館存儲系統(tǒng)采用了業(yè)界領(lǐng)先的三級的架構(gòu),成熟先進而且為高端產(chǎn)品,適合未來幾年內(nèi)的技術(shù)發(fā)展方向。
檔案館存儲系統(tǒng)中的磁盤陣列均采取基于鏡像的數(shù)據(jù)保護機制,確保數(shù)據(jù)的可靠性;同時通過建設(shè)備份系統(tǒng),實現(xiàn)了文件系統(tǒng)數(shù)據(jù)、操作系統(tǒng)數(shù)據(jù)、多種應(yīng)用及數(shù)據(jù)庫數(shù)據(jù)的定期自動備份,在發(fā)生數(shù)據(jù)災(zāi)難時,可快速恢復(fù)數(shù)據(jù),保證了數(shù)據(jù)的安全性和應(yīng)用的持續(xù)運行。S