趙云華
[摘要]介紹了分布式異構(gòu)信息資源整合方法,分析了面向分布式異構(gòu)平臺的信息資源整合技術(shù),最后給出了面向分布式異構(gòu)平臺的信息資源整合設(shè)計與實現(xiàn),重點探討了平臺的體系結(jié)構(gòu)、開發(fā)模式和實現(xiàn)方法等。
[關(guān)鍵詞]分布式;異構(gòu)平臺;信息資源整合
[中圖分類號]G250.74[文獻標志碼]B[文章編號]1005-6041(2016)04-0081-04
在分布式計算領(lǐng)域中,人們越來越重視異構(gòu)數(shù)據(jù)的集成問題,隨著日益普及的分布式系統(tǒng)和網(wǎng)絡(luò)信息環(huán)境,在網(wǎng)絡(luò)的各個節(jié)點中都分散有大量的相互之間獨立存在的異構(gòu)數(shù)據(jù)源系統(tǒng)。在這些相互孤立的數(shù)據(jù)中,為了更好地共享資源,需要構(gòu)建一個集成環(huán)境,這個集成環(huán)境是統(tǒng)一的公共的,可以把相對透明地訪問界面提供給用戶。伴隨科學(xué)技術(shù)的不斷發(fā)展和進步,信息數(shù)據(jù)呈現(xiàn)了多樣化的樣式特征,不同的數(shù)據(jù)如文本、圖像、視頻、音頻。遙感以及地理等具有不同的數(shù)據(jù)組織方式[1]。不同的信息來源數(shù)據(jù)庫具有各不相同的構(gòu)建方式、數(shù)據(jù)內(nèi)容表現(xiàn)形式以及支持平臺,進而凸顯了不同數(shù)據(jù)庫之間的異構(gòu)性。從實現(xiàn)的目標上來看,數(shù)字信息資源進行整合就是要完全摒棄局部數(shù)據(jù)源之間的異構(gòu)性,使數(shù)據(jù)源從自治的、分布式向一個整體集成,使訪問界面統(tǒng)一化,便于用戶的訪問,可以快捷的從分布式數(shù)據(jù)源中完成信息的提取和合并。
自20世紀80年代起,就開始研究如何整合分布式異構(gòu)信息資源,至今已將近30年,截至目前,整合分布式異構(gòu)信息資源的研究方法包括聯(lián)邦數(shù)據(jù)庫法、聯(lián)邦數(shù)據(jù)倉庫法、電子數(shù)據(jù)交換法、虛擬數(shù)據(jù)庫法、虛擬視圖法、分布式組件集成法、直接數(shù)據(jù)庫訪問接口法、基于網(wǎng)格、本體、Web Service以及可擴展標記語言法等[2],其中后者是近年來剛引入使用的新方法。
1分布式異構(gòu)信息資源整合方法
1.1 基于網(wǎng)格、XML、本體和Web Service方法
利用可擴展標記語言具有以下特點:跨語言、跨平臺、可擴充、高效、顯示和內(nèi)容分離等。該方法在以上特點的基礎(chǔ)上,在數(shù)據(jù)表述過程中以XML文檔為媒介,通過一定的通信手段達到集成分布式異構(gòu)數(shù)據(jù)的目的。其中,Web Service的功能包括包裝、查找、綁定和注冊XML文檔,與數(shù)據(jù)源的動態(tài)變化相符合[3];網(wǎng)格法在對數(shù)據(jù)進行訪問時使用的是網(wǎng)格數(shù)據(jù)服務(wù),該服務(wù)是由網(wǎng)格中間件GT4開發(fā)的,提供的數(shù)據(jù)訪問功能相當優(yōu)越;本體法從實質(zhì)上來說就是采用本體描述語言在具體的領(lǐng)域中對相關(guān)概念和概念間的關(guān)系進行顯式描述,使建模能力和信息捕獲能力都得到有效提升?;诰W(wǎng)格、本體、Web Service以及可擴展標記語言法具有適于松散系統(tǒng)、跨平臺能力強等優(yōu)點,但同時也存在一定的缺點:無法等同于傳統(tǒng)數(shù)據(jù)庫技術(shù),針對分布式異構(gòu)信息,把其中的全局應(yīng)用模式較好地提供給上層應(yīng)用。
1.2 分布式組件集成法與直接數(shù)據(jù)庫訪問接口法
在實際應(yīng)用過程中,多采用Java RMI技術(shù)對多個數(shù)據(jù)源的數(shù)據(jù)直接訪問,這就是直接數(shù)據(jù)庫訪問接口法,技術(shù)較為簡單是這種方法的優(yōu)點[4]。分布式組件集成法是通過封裝把數(shù)據(jù)訪問轉(zhuǎn)變?yōu)橄嗷オ毩⒌姆植紝ο螅跀?shù)據(jù)訪問者以及數(shù)據(jù)源之間把單個的或多個服務(wù)者設(shè)置為數(shù)據(jù)訪問代理,完成存取數(shù)據(jù)源的操作,最終實現(xiàn)集成異構(gòu)數(shù)據(jù)。分布式組件集成法是通過微軟分布式組件技術(shù)的應(yīng)用把集成分布式數(shù)據(jù)的中間件平臺建立起來,這種方法的優(yōu)點是具有較好的數(shù)據(jù)源自治性、能靈活地配置、提供實時的查詢。
1.3 虛擬數(shù)據(jù)庫法
從實質(zhì)上來說,虛擬數(shù)據(jù)庫技術(shù)就是表現(xiàn)外界的數(shù)據(jù)為擴展的關(guān)系數(shù)據(jù)庫系統(tǒng)(前提是該關(guān)系數(shù)據(jù)庫是可擴展的),通過映射器、包裝器和提取器等部件采集、提取和轉(zhuǎn)換異構(gòu)信息源的信息,最終得到的信息具有完全統(tǒng)一的格式[5]。虛擬數(shù)據(jù)庫也擁有自己獨立的數(shù)據(jù)模式,但值得注意的是,虛擬數(shù)據(jù)庫中并不能真實地存儲有相應(yīng)的數(shù)據(jù),執(zhí)行的數(shù)據(jù)庫查詢操作知識通過查詢轉(zhuǎn)換的方式在相應(yīng)的數(shù)據(jù)源中執(zhí)行查詢。
虛擬數(shù)據(jù)庫的核心為編寫包裝器,在虛擬數(shù)據(jù)庫服務(wù)器以及外部數(shù)據(jù)源之間包裝器是作為接口存在的,每一個外部數(shù)據(jù)源都與一個包裝器相對應(yīng)。從整體上來說VDB模型內(nèi)部為集中式操作,而且應(yīng)用程序代碼的冗余量相當大,會帶給用戶使用上的不便利,不僅處理方式較為復(fù)雜,計算量在不可承受范圍之內(nèi),而且跨平臺能力較低,運算速度也不理想。
2面向分布式異構(gòu)平臺的信息資源整合技術(shù)
2.1 XML技術(shù)
伴隨不斷多樣化和復(fù)雜化發(fā)展的Web文件,HTML日益表現(xiàn)出較差的擴展性、語義性及交互性,同時還顯現(xiàn)出了單向超鏈接的問題。通過XML技術(shù)的使用,不僅可以使Web數(shù)據(jù)查詢檢索的速度得到提升,同時還能有效提升互聯(lián)網(wǎng)的接入速度。XML技術(shù)在實際工作中的應(yīng)用日益廣泛,成為組織和交換Web數(shù)據(jù)的標準,為實現(xiàn)數(shù)據(jù)集成系統(tǒng)提供了新路徑。
可擴展鏈接語言Xlink、可擴展的樣式表XSL以及文檔類型定義DTD共同組成了XML,其中XML的布局語言也是DTD,XML的樣式表語言就是其樣式表[6]。在XML中,其中的內(nèi)容、處理和表示相互之間都是分離的,其中的任意一部分都可以進行相對獨立的發(fā)展,沒有必要折中在統(tǒng)一的框架中。所以相較于HTML,XML具有靈活性和伸縮性。在對文檔數(shù)據(jù)的邏輯結(jié)構(gòu)和存儲形式進行描述時,XML使用的標記語言是嵌套的,與此同時,對于用戶來說,XML還允許創(chuàng)建其自身結(jié)構(gòu),賦予屬性和標記的定義,從理論上來說,通過文檔類型的利用定義DTD可以對無窮無盡的元素進行定義。
圖書館信息資源是由Web信息資源以及本地信息資源組成的,其中前者的數(shù)據(jù)資源使傳統(tǒng)數(shù)據(jù)集成技術(shù)無法完成集成的易購、半結(jié)構(gòu)化的信息。XML技術(shù)可以有效描述不規(guī)則類型的數(shù)據(jù),不僅能有效集成結(jié)構(gòu)化的傳統(tǒng)數(shù)據(jù),還能對非結(jié)構(gòu)化以及半結(jié)構(gòu)化的數(shù)據(jù)進行集成。它能夠在同一個XML文件中把不同應(yīng)用程序生成的數(shù)據(jù)集成在一起,從而完成各種類型信息資源的集成,進而提取和查詢數(shù)據(jù),把處理完成的數(shù)據(jù)向用戶傳送。從用戶端把XML表達信息數(shù)據(jù)解析出來之后的再利用有助于用戶的本地化編輯。
2.2 CORBA技術(shù)
伴隨逐漸興起的面向?qū)ο蠹夹g(shù),各個領(lǐng)域也開始應(yīng)用客戶/服務(wù)器模式,在此基礎(chǔ)上,在20世紀90年代初期對象管理組織OMG為了更好地進行異構(gòu)環(huán)境對象互操作提出了CORBA技術(shù),該技術(shù)作為一種對象計算結(jié)構(gòu)是分布式和開放式的[7]。CORBA技術(shù)充分結(jié)合了分布式處理技術(shù)以及面向?qū)ο蠹夹g(shù),完全可以彌補傳統(tǒng)處理系統(tǒng)的缺憾。通過較深入地利用標準通信模型,可以實現(xiàn)操作系統(tǒng)、硬件結(jié)構(gòu)、服務(wù)器以及客戶應(yīng)用層間交互的目的。CORBA通過面向?qū)ο蠹夹g(shù)的采用,結(jié)合了面向?qū)ο蠛头植际接嬎愕母拍?,對冗余度進行控制。CORBA技術(shù)規(guī)范提供的抽象集是切實可行的和靈活的,并且對一些服務(wù)進行了再明確,確保能在分布式環(huán)境下能成功地集成相關(guān)應(yīng)用。CORBA技術(shù)具有可擴展性、語言無關(guān)性以及平臺無關(guān)性,能有效保障在分布異構(gòu)環(huán)境下基于對象的軟件成員可以實現(xiàn)互操作、可移植及可重用等。CORBA技術(shù)規(guī)范把先進的技術(shù)發(fā)展成果納入應(yīng)用中,維持了在跨平臺、IDL規(guī)范以及互操作方面的優(yōu)勢,表現(xiàn)在可以整合來自不同運行環(huán)境以及不同來源的分布信息資源。
3面向分布式異構(gòu)平臺的信息資源整合設(shè)計與實現(xiàn)
3.1 體系結(jié)構(gòu)
在XML數(shù)據(jù)庫和虛擬數(shù)據(jù)中心的基礎(chǔ)上,圖1給出了具體的信息資源整合模型。由圖可知,該模型共分為整合層、數(shù)據(jù)源層以及應(yīng)用層,主要內(nèi)容包含了虛擬數(shù)據(jù)中心、元數(shù)據(jù)模型構(gòu)造器、XML數(shù)據(jù)庫以及信息連接適配器。其中針對分布式信息源虛擬數(shù)據(jù)中心給出了具體的全局虛擬視圖,XML消息全局集合的提供方則為XML數(shù)據(jù)庫。
共由信息整合、信息源連接以及數(shù)據(jù)集成三個部分構(gòu)成了模型的基本工作過程。在信息資源整合的過程中,數(shù)據(jù)源層是整合的基礎(chǔ),通過元數(shù)據(jù)模型構(gòu)造器以及XML數(shù)據(jù)庫的利用可以實現(xiàn)局部信息資源的連接,把連接服務(wù)提供給上層。整個模型的核心是整合層,利用元數(shù)據(jù)模型構(gòu)造器構(gòu)造的元數(shù)據(jù)模型是全局通用的,把數(shù)據(jù)集成服務(wù)提供給應(yīng)用層。應(yīng)用層是把數(shù)據(jù)訪問接口提供給應(yīng)用程序或外部用戶,支持應(yīng)用程序更新和查詢異構(gòu)數(shù)據(jù),并可以把結(jié)果返回至用戶或應(yīng)用中。
3.2 系統(tǒng)開發(fā)模式
在當今研究和應(yīng)用過程中,使用較多的為三層B/S結(jié)構(gòu)開發(fā)模式,具體的數(shù)據(jù)處理步驟如下:首先是客戶端,負責用戶或系統(tǒng)接口的提供;其次是中間層,主要提供服務(wù)程序;最后是數(shù)據(jù)服務(wù)器,用來對數(shù)據(jù)信息進行存儲。中間層負責服務(wù)程序的運行,使客戶端的負擔得以降低,所以也可稱為瘦客戶結(jié)構(gòu)。不管是服務(wù)程序,還是用戶使用的具體界面,分別處在不同的平臺,需要系統(tǒng)對其中的通信協(xié)議進行再定義。這種結(jié)構(gòu)模式便于服務(wù)程序的分享與使用,便于對分布式計算提供支持,在WEB和分布式計算基礎(chǔ)上開展的軟件開發(fā)具有以下優(yōu)勢:易維護、可伸縮、高安全性、擴展性強以及高效性。
三層結(jié)構(gòu)模式按照應(yīng)用服務(wù)器和客戶端層把業(yè)務(wù)邏輯部分分離開來,通過中間件和相應(yīng)的應(yīng)用程序完成客戶端以及若干個服務(wù)器之間的通信。當數(shù)據(jù)庫或者相關(guān)服務(wù)器的業(yè)務(wù)邏輯發(fā)生改變時,由于應(yīng)用邏輯的分裝方式不同,需要修改相應(yīng)服務(wù)器中的應(yīng)用程序,但是原有的客戶端并不需要做任何改變。
3.3 實現(xiàn)方法
圖2給出了在XML基礎(chǔ)上構(gòu)建的數(shù)據(jù)交換模型,其中虛線是遠程數(shù)據(jù)轉(zhuǎn)換格式模型。在圖2示意的整個數(shù)據(jù)交換模型中,重中之重是XML轉(zhuǎn)換器,把數(shù)據(jù)庫中的數(shù)據(jù)向XML文檔轉(zhuǎn)換,同時將接收的XML文檔向數(shù)據(jù)庫中的數(shù)據(jù)轉(zhuǎn)換,實現(xiàn)虛擬數(shù)據(jù)中心以及異構(gòu)數(shù)據(jù)庫之間的數(shù)據(jù)交換。當數(shù)據(jù)庫對應(yīng)不同的應(yīng)用系統(tǒng)時,相應(yīng)的數(shù)據(jù)表示方法也應(yīng)有所不同。因此面對來自不同數(shù)據(jù)源的異構(gòu)數(shù)據(jù),必須要轉(zhuǎn)換相應(yīng)的數(shù)據(jù)格式。
XML不僅能對不規(guī)則數(shù)據(jù)進行描述,還能在同一個XML文件中納入來自多個應(yīng)用程序的數(shù)據(jù),從而集成不同的來源數(shù)據(jù)。從屬性值的字段名稱和規(guī)格類型上來說,虛擬數(shù)據(jù)表與原始數(shù)據(jù)表中的數(shù)據(jù)存在差異,所以要按照凈化規(guī)則把原始數(shù)據(jù)表中的數(shù)據(jù)進行規(guī)格化處理,再進入虛擬視圖基表。
4結(jié)語
不同的異構(gòu)數(shù)據(jù)源,其差異是相當顯著的,所以很難進行異構(gòu)信息的整合,尤其是在分布環(huán)境下,一直沒有很理想的異構(gòu)數(shù)據(jù)源整合方法。本文在分布環(huán)境下提出了整合異構(gòu)信息資源的方法,這是一條有效的途徑,通過互聯(lián)網(wǎng)的應(yīng)用,有助于更好地整合分布式異構(gòu)信息資源。
[參考文獻]
[1]林源,陳志泊.分布式異構(gòu)數(shù)據(jù)庫同步系統(tǒng)的研究與應(yīng)用[J].計算機工程與設(shè)計,2010(24):5278—5281.
[2]劉瑜.當代圖書館信息資源整合的若干模式[J].圖書館雜志,2010(3):38—41.
[3]鄭燃,唐義,戴艷清.基于關(guān)聯(lián)數(shù)據(jù)的圖書館、檔案館和博物館數(shù)字資源整合研究[J].圖書與情報,2012,(1):71—75.
[4]崔偉,徐愷英,王寧.基于知識鏈的數(shù)字資源整合研究[J].圖書館學(xué)研究,2010,(8):32—35.
[5]馬小軍,李廣建.基于本體的數(shù)字資源整合方法與技術(shù)[J].情報科學(xué),2010(10):42—46.
[6]郝欣,劉英濤.基于本體集成的數(shù)字資源整合研究[J].圖書館學(xué)研究,2011(10):55—59.
[7]王操.一種解決分布式異構(gòu)信息資源整合的方法研究[J].圖書館學(xué)研究,2011(3):108—112.