趙順梅
(天水電氣傳動研究所有限責(zé)任公司,甘肅天水741020)
隨著互聯(lián)網(wǎng)技術(shù)的飛躍發(fā)展,其每一次的進(jìn)步都對社會、生活各個方面產(chǎn)生著巨大的影響。檔案工作是國家信息資源建設(shè)的一個重要部分,已經(jīng)從不同層面、多方位地利用互聯(lián)網(wǎng)技術(shù)為自身建設(shè)服務(wù),期望實現(xiàn)國家檔案資源的有機整合和充分利用。如今,一種新的互聯(lián)網(wǎng)技術(shù)-網(wǎng)格的出現(xiàn),在網(wǎng)格技術(shù)發(fā)展的影響和推動下,網(wǎng)格技術(shù)越來越逼近實際生活,檔案工作也不可避免地受到碰撞和沖擊。如何利用網(wǎng)格技術(shù)的優(yōu)勢管理檔案信息資源將是檔案信息化管理的一個重要課題,它必將引起檔案工作的時代變遷。
計算機和Internet發(fā)展到今天,對社會發(fā)展產(chǎn)生了巨大的影響,從根本上改變了人們的工作方式、生產(chǎn)方式和生活方式,使整個社會進(jìn)入了“信息時代”。信息的產(chǎn)生、加工、傳播和獲取隨著計算機技術(shù)和網(wǎng)絡(luò)技術(shù)的應(yīng)用逐漸朝著數(shù)字化、信息化、自動化和網(wǎng)絡(luò)化方向發(fā)展,信息的種類、形式、范圍大大拓展,從傳統(tǒng)的印刷型文獻(xiàn)過渡到數(shù)字化信息,純文本信息逐漸被文本、圖像、聲頻、視頻等多種媒體數(shù)字信息所取代,信息共享正在逐步實現(xiàn)。
在信息時代,Internet使得信息共享成為可能,但由于人們對信息的渴求程度大大提高,不再滿足于現(xiàn)有的網(wǎng)絡(luò)和共享模式,而要尋求更加廣泛的資源共享,于是一種可以將地理上分散的資源集成起來的基礎(chǔ)設(shè)施-網(wǎng)格(Grid)被提了出來。關(guān)于網(wǎng)格,美國科學(xué)家伊安·福斯特(Ian Foster)曾這樣描述:“網(wǎng)格是構(gòu)筑在互聯(lián)網(wǎng)上的一組新興技術(shù),它將高速互聯(lián)網(wǎng)、計算機、大型數(shù)據(jù)庫、傳感器、遠(yuǎn)程設(shè)備融為一體,為科技人員和普通老百姓提供更多的資源、功能和服務(wù)?;ヂ?lián)網(wǎng)主要為人們提供電子郵件、網(wǎng)頁瀏覽等通信功能,而網(wǎng)格的功能則更多更強,它能讓人們透明地使用計算、存儲等其他資源”。網(wǎng)格是一個一致、開放、標(biāo)準(zhǔn)的計算環(huán)境的信息基礎(chǔ)設(shè)施,支持聚合地理上廣泛分布的高性能計算資源、大容量數(shù)據(jù)和信息存儲資源、軟件和應(yīng)用系統(tǒng)、高速測試和獲取系統(tǒng)、以及人力等各種資源的合作問題求解系統(tǒng)的構(gòu)造。網(wǎng)格的出現(xiàn)讓人們看到資源無縫共享的前景,因此人們常常用“下一代因特網(wǎng)”、“國際互聯(lián)網(wǎng)2”、“下一代萬維網(wǎng)”等詞語來描述網(wǎng)格。
網(wǎng)格是借鑒電力網(wǎng)的概念提出來的,也稱網(wǎng)格計算或網(wǎng)格技術(shù),它是伴隨互聯(lián)網(wǎng)的發(fā)展而發(fā)展起來的新型科學(xué)計算模式。這種計算模式利用互聯(lián)網(wǎng)把分散在不同地理位置的電腦組織成一個“虛擬的超級計算機”,其中每一臺參與計算的計算機都是一個“節(jié)點”,整個計算系統(tǒng)是由成千上萬個“節(jié)點”組成的“一張網(wǎng)格”,這種計算方式數(shù)據(jù)處理能力超強,能充分利用網(wǎng)上的閑置處理能力,并像電力一樣隨處可得。
網(wǎng)格所連接的資源相當(dāng)廣泛,可以是計算機的軟硬件,也可以是其他的儀器設(shè)備,甚至是操作計算機的人。網(wǎng)格的目的就是將這些可用資源連結(jié)起來,實現(xiàn)計算資源、存儲資源、數(shù)據(jù)資源、信息資源、軟件資源、通信資源、知識資源、專家資源等的全面共享。
網(wǎng)格是因特網(wǎng)應(yīng)用的新發(fā)展,因特網(wǎng)實現(xiàn)了計算機硬件、網(wǎng)頁等的連接,而網(wǎng)格具有比因特網(wǎng)更強的功能。首先,網(wǎng)格比因特網(wǎng)具有更大的帶寬,歐美的網(wǎng)格計劃都使用更高速度的主干網(wǎng);第二,網(wǎng)格能將更多高性能計算機資源連接共享,它的計算速度、數(shù)據(jù)處理速度可以大幅度提高;第三,網(wǎng)格的體系結(jié)構(gòu)將比因特網(wǎng)更能有效地利用網(wǎng)絡(luò)信息資源。網(wǎng)格采用廣域緩存技術(shù),能夠自動把用戶最需要的信息放在離用戶最近的服務(wù)器上;第四,網(wǎng)格將促進(jìn)更多、更大規(guī)模的網(wǎng)絡(luò)社區(qū)的出現(xiàn),這些相互聯(lián)結(jié)的社區(qū)最終構(gòu)成一個龐大的網(wǎng)格社區(qū)。
網(wǎng)格是一個在地理位置上廣泛分布的基礎(chǔ)設(shè)施,用戶數(shù)量巨大,資源千差萬別,需求種類繁多,應(yīng)用功能各異,要給用戶提供安全、高效、高質(zhì)量的服務(wù),網(wǎng)格技術(shù)應(yīng)具有如下基本特點:
(1)網(wǎng)格具有分布與異構(gòu)性。網(wǎng)格系統(tǒng)由分布在Internet上的各類資源組成,包括各類大型機、工作站和個人計算機,它們是異構(gòu)的,可運行在UNIX、Windows、Linux等各種操作系統(tǒng)下,也可以是上述機型的機群系統(tǒng)、大型存儲設(shè)備、數(shù)據(jù)庫或其他設(shè)備。
(2)網(wǎng)格具有集成與共享性。網(wǎng)格把地理位置上分布的各種資源集成在一起,成為一個有機的整體,協(xié)調(diào)分散在不同地理位置的資源使用者。同時,解決異構(gòu)機器之間資源與任務(wù)的分配與調(diào)度、安全通信與互操作、實時性等問題,實現(xiàn)對各種資源的充分共享,從計算資源、設(shè)備資源到服務(wù)資源,多個用戶不僅可以共同使用網(wǎng)格總的一個資源,網(wǎng)格中的一個用戶也可以同時使用多個網(wǎng)格資源,從而實現(xiàn)在非集中控制的網(wǎng)絡(luò)環(huán)境中協(xié)同使用資源。
(3)網(wǎng)格具有動態(tài)性。組成網(wǎng)格系統(tǒng)的資源不是一成不變的,而是動態(tài)變化的。隨著時間的推移,原先不在網(wǎng)格上的資源有可能連接到網(wǎng)格上,原先在網(wǎng)格上的資源由于故障或者其他原因有可能不再可用。針對網(wǎng)格資源的動態(tài)變化性,資源管理必須能動態(tài)監(jiān)視,實現(xiàn)任務(wù)的動態(tài)遷移,從可利用資源中選取最佳資源服務(wù)。
(4)網(wǎng)格具有自治性與多重管理性。網(wǎng)格上的資源是屬于不同的組織或個人的,資源的擁有者應(yīng)該擁有對資源的自主管理能力,可以隨時允許其資源進(jìn)入或退出網(wǎng)格而不影響整個網(wǎng)格的使用。但網(wǎng)格資源也必須接受網(wǎng)格的統(tǒng)一管理,否則不同組織的資源就無法建立聯(lián)系,無法實現(xiàn)共享和互操作,消滅不了信息資源的“孤島效應(yīng)”。
(5)網(wǎng)格具有開放性與標(biāo)準(zhǔn)性。網(wǎng)格系統(tǒng)面向所有的設(shè)備開放,只要遵守網(wǎng)格規(guī)則,任何設(shè)備都可加入網(wǎng)格。網(wǎng)格提供的接口是標(biāo)準(zhǔn)的,不依賴于接入的具體設(shè)備和管理系統(tǒng),設(shè)備接入閾值低。
網(wǎng)格技術(shù)作為新一代的網(wǎng)絡(luò)技術(shù),具有分布性與異構(gòu)性、集成性與共享性、動態(tài)性、自治性和多重管理性、開放性與標(biāo)準(zhǔn)性等特點,有利于檔案的信息化建設(shè)和檔案信息資源的管理,能進(jìn)一步推動檔案工作的發(fā)展。
(1)在資源建設(shè)方面,網(wǎng)格可以實現(xiàn)數(shù)字檔案信息資源的全面共享。
檔案部門在檔案信息資源建設(shè)時,需要處理大量的數(shù)據(jù),由于現(xiàn)有技術(shù)條件、經(jīng)濟(jì)條件的限制和檔案信息安全的制約,現(xiàn)有網(wǎng)絡(luò)無法對各個數(shù)據(jù)庫之間的數(shù)據(jù)進(jìn)行連通和數(shù)據(jù)交換,各個檔案館之間的檔案信息資源還處于分散和孤立狀態(tài),沒有能夠?qū)崿F(xiàn)全面關(guān)聯(lián),“信息孤島”、“信息煙囪”現(xiàn)象嚴(yán)重,在很多情況下用戶并不知道檔案信息資源存儲位置,不利于檔案信息資源跨地區(qū)、跨部門之間的利用,極大地影響用戶的利用需求。這些檔案信息資源各自為政、互不相通,造成了十分嚴(yán)重的人力、物力、財力浪費。
網(wǎng)格的本質(zhì)特征是共享利用,與目前的計算機網(wǎng)絡(luò)不同,實現(xiàn)資源全面共享是網(wǎng)格的出發(fā)點和目的。網(wǎng)格能實現(xiàn)應(yīng)用層面的連通,它主要關(guān)注的是如何消除“信息孤島”,為用戶提供“一站式跨庫”檢索,實現(xiàn)信息資源的智能共享。檔案是一種十分重要的信息資源,利用網(wǎng)格的共享性,可將分布在不同地域、不同部門異構(gòu)檔案信息資源集成起來,不僅能在各檔案館、各檔案部門之間實現(xiàn)檔案信息資源共享,還能為用戶提供統(tǒng)一的訪問接口,選擇適當(dāng)?shù)脑L問協(xié)議來實現(xiàn)用戶提出的服務(wù)請求。網(wǎng)格技術(shù)在檔案信息資源管理中的應(yīng)用,可以提高檔案部門的管理水平和服務(wù)質(zhì)量,提高數(shù)字檔案信息資源的利用效率,有助于國家綜合信息系統(tǒng)的組建?!昂饬恳粋€國家信息產(chǎn)業(yè)發(fā)展程度的一項重要指標(biāo),就是這個國家所組建的信息系統(tǒng)的完善程度和綜合程度。而國家信息系統(tǒng)主要涉及全部學(xué)科領(lǐng)域的文獻(xiàn)、圖書館和檔案服務(wù)。由此可見,完善的國家信息系統(tǒng),也依賴于檔案信息系統(tǒng)的建立和完善?!本W(wǎng)格技術(shù)的應(yīng)用必將極大地增強整個檔案信息系統(tǒng)的功能和與其他信息系統(tǒng)的聯(lián)網(wǎng)能力,從而有利于構(gòu)建完善的國家綜合信息系統(tǒng)。
網(wǎng)格技術(shù)的優(yōu)勢在于不僅能實現(xiàn)檔案信息資源的共享,還能實現(xiàn)計算機硬件及其他電子設(shè)備的共享,利用網(wǎng)格中其它檔案館閑置計算機的計算能力為用戶查詢和數(shù)據(jù)處理服務(wù);也可以利用存儲虛擬化技術(shù)進(jìn)行網(wǎng)絡(luò)存儲,整合閑置的存儲資源?!按鎯μ摂M化是指將物理的存儲設(shè)備以邏輯的形式呈現(xiàn),將網(wǎng)絡(luò)中的存儲設(shè)備視為一個或多個存儲池進(jìn)行數(shù)據(jù)存取,而不用考慮信息具體存放在哪臺設(shè)備上。利用虛擬化技術(shù)來改善數(shù)據(jù)管理所帶來的好處是簡化管理,降低管理的復(fù)雜性,提高存儲設(shè)備的利用率,提高數(shù)據(jù)的高可用性。
(2)在資源管理方面,網(wǎng)格能為數(shù)字檔案信息資源構(gòu)造統(tǒng)一的管理平臺。
數(shù)字化檔案信息異構(gòu)現(xiàn)象嚴(yán)重,信息有文本、圖形、圖像、影像等形式,存儲工具千差萬別,數(shù)據(jù)庫類型各不相同,檔案管理軟件品種繁多,不同計算機使用的操作系統(tǒng)也不相同。如何整合這些異構(gòu)的載體、軟件和管理系統(tǒng)等問題成為檔案信息化建設(shè)的重要內(nèi)容。
在分布式的異構(gòu)環(huán)境中,網(wǎng)格技術(shù)能夠精確定位所需的數(shù)據(jù)集,并且能對分布在廣域網(wǎng)環(huán)境中的信息資源進(jìn)行抽象描述,支持網(wǎng)格應(yīng)用對資源訪問的透明性,為用戶提供一體化的智能信息平臺。在這個平臺上,信息處理是分布式、協(xié)作和智能化的,用戶可以通過單一入口訪問所有信息。而不像目前的因特網(wǎng)那樣,需要用戶自己在大量的、凌亂的、不統(tǒng)一的網(wǎng)頁信息中尋找自己所需的信息。
網(wǎng)格技術(shù)可以提供一個統(tǒng)一的、可以相互訪問的接口或者協(xié)議標(biāo)準(zhǔn)。網(wǎng)格的許多平臺和資源只要滿足這些標(biāo)準(zhǔn),就可以將分布在各地的計算機、知識、數(shù)字檔案信息等組成一個邏輯整體,在此基礎(chǔ)上運行各自的應(yīng)用網(wǎng)格,為數(shù)字檔案信息資源管理提供軟硬件基礎(chǔ)設(shè)施,使網(wǎng)格中的檔案資源被統(tǒng)一管理和使用。
(3)在數(shù)據(jù)處理方面,網(wǎng)格有利于數(shù)字檔案信息資源的海量數(shù)據(jù)處理。
隨著檔案信息化進(jìn)程的加快,檔案館中需要處理的檔案數(shù)據(jù)越來越多,如果為了處理這些數(shù)據(jù)而添置大量的計算機或其他電子設(shè)備,顯然會加重檔案館的經(jīng)濟(jì)負(fù)擔(dān)。而網(wǎng)格能夠充分利用現(xiàn)有資源,更好地解決海量數(shù)據(jù)的計算處理和分析問題;它能將分布在不同地域的計算機連接在一起,用戶只需通過客戶端發(fā)出要求計算的指令,網(wǎng)格就能把這些任務(wù)調(diào)配給各個計算機執(zhí)行,然后將各個計算機計算出來的結(jié)果匯總反饋給用戶,連接的計算機規(guī)模越大,計算能力就越高。此外,網(wǎng)格用戶還可以在較短時間內(nèi)把需要的數(shù)據(jù)從不同的數(shù)據(jù)庫中找出來,綜合在一起實現(xiàn)“一站式檢索”,這種檢索方式向用戶提供了統(tǒng)一的檢索接口,將用戶的檢索要求轉(zhuǎn)化為不同數(shù)據(jù)源的檢索表達(dá)式,并發(fā)的檢索本地和互聯(lián)網(wǎng)上的多個分布式異構(gòu)數(shù)據(jù)庫,并對檢索結(jié)果加以整合,在經(jīng)過去重和排序以后,以統(tǒng)一格式將結(jié)果呈現(xiàn)給用戶,而且這一過程用戶只需要以單一身份、單次登錄和單一的檢索方式就可以實現(xiàn)。省去了用戶多次訪問不同數(shù)據(jù)庫的麻煩,可直接調(diào)用網(wǎng)格中的算法和程序等資源,避免了許多重復(fù)性的工作。
網(wǎng)格可以智能地分配和優(yōu)化計算資源,更快地解決檔案館數(shù)字檔案信息資源的數(shù)據(jù)處理和檢索利用問題,能將應(yīng)用程序的每個部分調(diào)整到最適合它的系統(tǒng)中去;從而以更短的時間、更低的成本實現(xiàn)海量數(shù)字檔案信息資源的數(shù)據(jù)處理。
(4)在資源利用方面,網(wǎng)格可為檔案用戶提供知識服務(wù)。
目前用戶查閱數(shù)字檔案信息大多是采用Web方式,由于Web在技術(shù)方面的不足,未能解決當(dāng)前存在的信息泛濫但知識貧乏的困境。雖然Web上采用了不少對信息進(jìn)行學(xué)習(xí)與挖掘的嘗試,如智能搜索引擎、知識發(fā)現(xiàn)等,但是這些努力并沒有從根本上解決知識利用率低的難題。因此,人們開始尋找一種新的技術(shù)平臺,希望從根源上打破這種瓶頸,此時網(wǎng)格出現(xiàn)在人們的視野中。
網(wǎng)格不僅能將各種資源連接起來,還能根據(jù)用戶的要求自動生產(chǎn)知識。在知識生產(chǎn)的過程中,高性能計算機將起到關(guān)鍵的作用,能將從數(shù)據(jù)源中得到的各種原始數(shù)據(jù)運行特定的程序加工成信息和知識。網(wǎng)格技術(shù)可根據(jù)用戶需求,利用高性能計算機自動地尋找有關(guān)的數(shù)據(jù)源進(jìn)行綜合分析和知識發(fā)現(xiàn),形成新的知識,傳送給需要的用戶。這種量體裁衣的模式與知識管理系統(tǒng)管理知識是不謀而合的。由此可見,隨著網(wǎng)格技術(shù)在檔案信息資源管理中的應(yīng)用,將會增強數(shù)字檔案信息資源的知識服務(wù)能力,全面提升數(shù)字檔案信息資源的作用,從而使數(shù)字檔案信息的服務(wù)功能更加完善。
(5)在資源安全方面,網(wǎng)格能保障檔案信息資源的安全。
目前Internet的安全保障主要提供兩個方面的服務(wù):訪問控制服務(wù),用來保護(hù)各種資源不被非授權(quán)使用;通信安全服務(wù),用來提供認(rèn)證,數(shù)據(jù)保密性與完整性和各通信端的不可否認(rèn)性服務(wù)。這兩方面的安全服務(wù)不能完全解決網(wǎng)絡(luò)環(huán)境中的安全問題。網(wǎng)格環(huán)境中,各種資源都動態(tài)連接到Internet上,不同網(wǎng)格節(jié)點之間的通信是通過Internet連接的,用戶向網(wǎng)格計算環(huán)境提交任務(wù)和監(jiān)控管理任務(wù)也是通過Internet來完成的,并且所有主體都是可以動態(tài)加入或撤離網(wǎng)格中的虛擬組織。因此,網(wǎng)格對安全的要求要高于Internet。
網(wǎng)格通過網(wǎng)格安全基礎(chǔ)設(shè)施保障網(wǎng)格計算環(huán)境的安全。這種安全基礎(chǔ)設(shè)施支持網(wǎng)格環(huán)境中主體之間的安全通信,防止主體假冒和數(shù)據(jù)泄漏;支持跨虛擬組織的安全;支持網(wǎng)格環(huán)境中用戶的單點登陸,包括跨多個資源和地點的信任委托和信任轉(zhuǎn)移等。網(wǎng)格安全基礎(chǔ)設(shè)施為網(wǎng)格計算環(huán)境提供了一系列的安全協(xié)議、安全服務(wù)、安全SDK和命令行程序,如安全應(yīng)用編程接口、相互安全身份鑒別技術(shù)、單點登錄(single sign-on)技術(shù)等。通過使用這些安全技術(shù),可有效地保證網(wǎng)絡(luò)計算環(huán)境的安全性和方便性。這樣就能保證網(wǎng)格中檔案信息資源的安全存取和通信,保證不同用戶對檔案信息資源的不同訪問權(quán)限,滿足檔案信息資源的特殊安全要求。
網(wǎng)格技術(shù)是一種新興的互聯(lián)網(wǎng)技術(shù),它有著傳統(tǒng)Internet所沒有的優(yōu)勢,將給世界帶來前所未有的改變,是一次深刻的互聯(lián)網(wǎng)革命。雖然目前網(wǎng)格技術(shù)還處在試驗和初步應(yīng)用階段,但很有發(fā)展前景。對于大量產(chǎn)生的電子文件和數(shù)字化檔案信息資源,目前無法解決的技術(shù)難題,如異構(gòu)環(huán)境的管理、海量數(shù)據(jù)的處理、共享和協(xié)作等,網(wǎng)格技術(shù)將在這些方面有著巨大的優(yōu)勢。因此,應(yīng)該關(guān)注網(wǎng)格技術(shù)的發(fā)展和應(yīng)用,使之成為檔案信息化管理的重要手段。
[1]Ian Foster,Carl Kesselman,editors.The Grid:Blueprint for a New Computing Infrastructure.CA.Morgan Kaufmann Publishers,1999.
[2]黃曉斌,鄧愛貞.網(wǎng)格技術(shù)的發(fā)展與數(shù)字圖書館建設(shè)[J].情報資料工作,2003(5).
[3]都志輝,陳 渝,劉 鵬.網(wǎng)格計算[M].北京:清華大學(xué)出版社,2002.
[4]傅榮校.從技術(shù)革命本質(zhì)看電子文件的兩面性[J].檔案學(xué)通訊,2000(3).
[5]卞昭玲.基于網(wǎng)格應(yīng)用的企業(yè)信息管理模式之創(chuàng)新[J].檔案學(xué)通訊,2006(6).
[6]高 丹.知識網(wǎng)格資源管理研究.中國優(yōu)秀博碩士學(xué)位論文全文數(shù)據(jù)庫,2005.
[7]都志輝,陳 渝,劉 鵬.網(wǎng)格計算[M].北京:清華大學(xué)出版社,2002,61-62.