劉雪芳
(景德鎮(zhèn)學院,江西 景德鎮(zhèn) 333000)
目前,大部分高校均配備了若干個數(shù)據(jù)庫平臺,并以此類平臺為基準運行相應(yīng)的教學應(yīng)用系統(tǒng)。然而,這不可避免地會加劇教育資源建設(shè)的重復(fù)性問題。恰當?shù)乩卯悩?gòu)數(shù)據(jù)源整合技術(shù)不僅可以實現(xiàn)對使用率較低、分散度較高的數(shù)字資源的無縫整合,賦予其集成檢索的能力,還可以構(gòu)建一個全新的能夠跨越數(shù)據(jù)庫、平臺和內(nèi)容數(shù)字資源體系,從而在有效提高知識服務(wù)水平、改善知識服務(wù)質(zhì)量的同時,使數(shù)字資源整體應(yīng)用水平邁上新的臺階。
隨著高校信息資源的需求量日趨增加,高校紛紛在信息化建設(shè)上投入許多物力、人力以及財力,實施高校信息化建設(shè)是大勢所趨?,F(xiàn)階段,大量高校已完成了各類信息服務(wù)系統(tǒng)的構(gòu)建,給高校提供現(xiàn)代化服務(wù)、開展現(xiàn)代化管理工作創(chuàng)造了便利條件。在高等教育信息化建設(shè)的初期,信息往往只服務(wù)于單一部門,缺乏統(tǒng)一標準以及系統(tǒng)規(guī)劃。這種情況下,信息資源采集時常常會出現(xiàn)重復(fù)和浪費的問題。同時,各部門之間的信息管理能力和信息查詢的開放程度也大相徑庭,一些資源只能服務(wù)于少數(shù)人群,導致信息資源的利用效率不盡如人意。鑒于此,本文認為應(yīng)合理地調(diào)整和整合高校的信息資源,以充分發(fā)揮其潛在價值。
高校在進行信息資源異構(gòu)數(shù)據(jù)集成的過程中,一定會面臨異構(gòu)性問題,該問題的具體表現(xiàn)包括以下3個方面。(1)模式異構(gòu):在存儲模式方面數(shù)據(jù)源存在差異;(2)系統(tǒng)異構(gòu):具體有基礎(chǔ)操作系統(tǒng)異構(gòu)、計算機體系結(jié)構(gòu)的異構(gòu)、DBMS本身的異構(gòu);(3)來源異構(gòu):由于數(shù)據(jù)獲取渠道差異產(chǎn)生的異構(gòu),具體有外部數(shù)據(jù)與內(nèi)部數(shù)據(jù)異構(gòu)[1]。
本文討論的完整性包含了約束完整性和數(shù)據(jù)完整性。整合異構(gòu)數(shù)據(jù)源的出發(fā)點是為應(yīng)用提供一致的訪問支持。數(shù)據(jù)完整性是指全面提取所有數(shù)據(jù),比較容易實現(xiàn)。數(shù)據(jù)完整性中的約束完整性可以充分體現(xiàn)數(shù)據(jù)之間的聯(lián)系與數(shù)據(jù)間的邏輯關(guān)系。若能保障約束完整性,則能夠有效提升效率,為數(shù)據(jù)處理創(chuàng)造便利條件,是順利完成數(shù)據(jù)交換與數(shù)據(jù)發(fā)布的重要前提。
權(quán)限問題有2種:(1)在異構(gòu)數(shù)據(jù)源集成系統(tǒng)中,有許多數(shù)據(jù)存在,而大學環(huán)境中,存在多樣化的群體,每個群體對系統(tǒng)的訪問權(quán)限各不相同。因此,高校應(yīng)合理管控系統(tǒng)訪問權(quán)限,避免出現(xiàn)系統(tǒng)使用混亂的問題;(2)在進行異構(gòu)數(shù)據(jù)源整合時,需要確保這個過程不會干擾各部門訪問原始數(shù)據(jù)庫的權(quán)限[2]。
為了使得高校能夠又快又準地對突發(fā)性事件做出判斷,高校的異構(gòu)數(shù)據(jù)源集成系統(tǒng)就必須具有優(yōu)異的數(shù)據(jù)處理能力,且具備較強的對或許產(chǎn)生的數(shù)據(jù)源的適應(yīng)能力??紤]到高校的運作成本,此系統(tǒng)還需滿足投入少的要求。
在集成系統(tǒng)內(nèi)至少有2個數(shù)據(jù)源的情況下,數(shù)據(jù)源的數(shù)據(jù)間或許存在一些聯(lián)系,將關(guān)聯(lián)附加至集成結(jié)果內(nèi)的過程就叫做附加約束。
集成性要求所有異構(gòu)商務(wù)數(shù)據(jù)能夠?qū)崿F(xiàn)聯(lián)結(jié)存儲和有序集成,而不是僅僅被簡單地放在一個數(shù)據(jù)庫系統(tǒng)里。在經(jīng)過集成處理之后,所有過去在高校中孤立的應(yīng)用系統(tǒng)的數(shù)據(jù)僅需經(jīng)由一個統(tǒng)一的檢索入口即可實現(xiàn)對全部數(shù)據(jù)的訪問。
數(shù)據(jù)集成并不僅僅是在各數(shù)據(jù)源之間進行全面的數(shù)據(jù)融合,而是在進行集成處理的過程中需要緊密與高校的各種業(yè)務(wù)流程相結(jié)合。關(guān)于集成范圍的定義,實際上是對集成內(nèi)容的邊界問題的界定。
語義沖突通常會使數(shù)據(jù)集成的結(jié)果出現(xiàn)重復(fù),對數(shù)據(jù)的發(fā)布、處理和交換構(gòu)成阻礙。因此,在數(shù)據(jù)集成時需重點解決語義沖突的規(guī)避問題。
在具體實施時,需要在數(shù)據(jù)庫內(nèi)實施快照設(shè)置,以便在指定時間將其他數(shù)據(jù)源的數(shù)據(jù)復(fù)制到本地數(shù)據(jù)庫,如此可以有效地彌補數(shù)據(jù)庫訪問接口技術(shù)整合方案在處理不同數(shù)據(jù)源問題時的不足。然而,該技術(shù)要求在規(guī)定時間進行復(fù)制,無法實現(xiàn)實時同步數(shù)據(jù),不適用于對實時性有著高要求的應(yīng)用。
Sun公司開發(fā)的JDBC技術(shù)和微軟公司推出的ODBC技術(shù),都是數(shù)據(jù)庫訪問接口技術(shù)的典型代表,可以在應(yīng)用程序中實現(xiàn)對多種數(shù)據(jù)源的數(shù)據(jù)連接。這就要求用戶對連接對應(yīng)的數(shù)據(jù)庫具有強大的辨識能力,若在進行設(shè)計時還牽扯到存儲過程,那么程序員必須重點參考不同數(shù)據(jù)庫的要求完成編寫。該項技術(shù)的應(yīng)用對程序員的能力與水平有著較高的要求。
雖然采用前述的2種方案能夠妥善處理好內(nèi)部應(yīng)用系統(tǒng)集成的問題,但是由于各種數(shù)據(jù)封裝標準和組件模型架構(gòu)之間存在差異,使得各組件模型間的集成變得更加困難。目前,在所有的異構(gòu)數(shù)據(jù)源系統(tǒng)整合方案中,效果最為顯著且使用最頻繁的方案是利用中間件進行異構(gòu)數(shù)據(jù)源整合這一方案。中間件異構(gòu)數(shù)據(jù)集成平臺可用于創(chuàng)建平臺的工具有2種,其一為網(wǎng)格,其二為Web服務(wù),借助在數(shù)據(jù)轉(zhuǎn)換上XML的優(yōu)勢完成異構(gòu)數(shù)據(jù)轉(zhuǎn)換[3]。
作為新的Web應(yīng)用程序中的一部分,Web Service具有自描述、自包含、模塊化的特點,支持定位、發(fā)布、經(jīng)由Web調(diào)用。同時,Web Service具有處理從基礎(chǔ)請求到高級商務(wù)操作的廣泛能力。經(jīng)過一系列的配置步驟后,其他Web Service應(yīng)用能夠識別并使用已經(jīng)部署的服務(wù),同時能夠兼容XML、HTTP等標準的網(wǎng)絡(luò)協(xié)議。
可擴展標記語言中的標記指處在計算機可理解范圍內(nèi)的信息符號,以標記為導向,計算機與計算機之間能實現(xiàn)對各類文獻等的處理[4]。對此類標記下定義,不僅僅能選用國際通用標記語言,如HTML等,還能使用XML等標記語言,此為語言的可擴展性。
現(xiàn)階段,高校對一站式的信息資源服務(wù)的要求較高,資源交換以及資源共享的需求量大。受歷史因素的影響,我國大部分學校往往具備若干個教學應(yīng)用系統(tǒng),這些系統(tǒng)在數(shù)據(jù)結(jié)構(gòu)方面往往存在差異,但卻一般可以運行同一課程。同時,數(shù)據(jù)孤島式的本地數(shù)據(jù)庫管理系統(tǒng)無法滿足資源互換和共享的要求。如今,高校教師和學生獲取信息的方法以及習慣已經(jīng)有了明顯的轉(zhuǎn)變,無需前往圖書館查閱資料即可在網(wǎng)絡(luò)上得到自己想要的文獻資料或者信息,且不受時間、地點的限制。因此,高校信息資源服務(wù)的目標應(yīng)是:在不對現(xiàn)有數(shù)據(jù)庫正常運作產(chǎn)生任何負面影響的同時,能顯著提升對不同異構(gòu)信息平臺進行優(yōu)化整合的效率。
基于對高校信息資源異構(gòu)數(shù)據(jù)源基本特點的思量,以中間件異構(gòu)數(shù)據(jù)集成平臺為媒介,對異構(gòu)數(shù)據(jù)源進行整合這一方案具有較高的可行性。該方案通過提供Web服務(wù)的路徑實現(xiàn)交互功能,只要依托相應(yīng)的平臺或者軟件開發(fā)環(huán)境,Web應(yīng)用客戶端及其他應(yīng)用程序客戶端均能成功調(diào)用Web服務(wù)接口以獲取自己想要的數(shù)據(jù),以此達到透明式訪問數(shù)據(jù)的目的。從實現(xiàn)上看,本文將列舉教學應(yīng)用系統(tǒng)、試題庫應(yīng)用系統(tǒng)、教務(wù)管理系統(tǒng)整合的案例,借助開放網(wǎng)格服務(wù)架構(gòu) (OGSA)打造中間件異構(gòu)數(shù)據(jù)集成平臺。
(1)各種系統(tǒng),如試題應(yīng)用系統(tǒng),都需要利用異構(gòu)數(shù)據(jù)資源和數(shù)據(jù)庫進行建模,可以使用JAXP和JDOM來實現(xiàn)數(shù)據(jù)庫數(shù)據(jù)和XML數(shù)據(jù)之間的轉(zhuǎn)換[5]??紤]到數(shù)據(jù)庫內(nèi)有過多的表,因此需借助通用的ResultSet對象實現(xiàn)向XML文件的程序的轉(zhuǎn)換。因此,只需要提供要生成的XML文件和查詢結(jié)果集的路徑,再完成屬性名和元素名的指派工作,利用designOver( )函數(shù)對其對應(yīng)的查詢結(jié)果的集中字段進行調(diào)用。該解決方案的特征是:無需讀固定的標簽,僅僅需借助一個映射條件雙向轉(zhuǎn)換數(shù)據(jù)即可。
(2)開放網(wǎng)格服務(wù)架構(gòu)(OGSA)是一種支持無縫銜接異構(gòu)數(shù)據(jù)源、提供各類后臺服務(wù)、為中間件異構(gòu)數(shù)據(jù)集成平臺的建設(shè)提供支持的架構(gòu),目前已得到了廣泛應(yīng)用。
(3)實施OGSA所設(shè)定的接口,整理所有中間件之間以及異構(gòu)數(shù)據(jù)庫與中間件異構(gòu)數(shù)據(jù)集成平臺之間的連接信息,構(gòu)筑全面的數(shù)據(jù)共享網(wǎng)絡(luò)。在數(shù)據(jù)共享網(wǎng)絡(luò)內(nèi)數(shù)據(jù)共享的程度與共享數(shù)據(jù)信息量的多少主要取決于數(shù)據(jù)共享網(wǎng)絡(luò)內(nèi)所有中間件權(quán)限的配置情況。在實踐過程中,用戶可使用該平臺實現(xiàn)訪問,通過網(wǎng)格服務(wù)的形式對外發(fā)布集成平臺內(nèi)的所有節(jié)點數(shù)據(jù)源。利用中間件異構(gòu)數(shù)據(jù)集成平臺對客戶端請求進行研究分析的過程中,第一步要對客戶端請求使用的數(shù)據(jù)庫以及中間件進行剖析,若2個以上的中間件數(shù)據(jù)需匹配查詢,那么首先要獨立查詢其中的單一中間件數(shù)據(jù),然后提取結(jié)果數(shù)據(jù),最后得到與另外的中間件數(shù)據(jù)相匹配的一個子查詢。
(4)調(diào)用這一中間件的網(wǎng)格服務(wù)接口是各類教學應(yīng)用系統(tǒng)收集所需數(shù)據(jù)的一種有效路徑,從而達到無障礙式訪問異構(gòu)數(shù)據(jù)的目的。當用戶將查詢語句的請求提交至Web后,該平臺會立即進入工作狀態(tài),系統(tǒng)探究此類查詢語句,并將其轉(zhuǎn)發(fā)至相應(yīng)的中間件。查詢結(jié)果將通過多個DataSet的形式展現(xiàn),然后由異構(gòu)數(shù)據(jù)集成平臺進行再處理,最終生成一個最終版的DataSet。根據(jù)客戶端的需求,平臺將DataSet轉(zhuǎn)化為一個結(jié)果XML文件,并傳輸至客戶端。至此,查詢過程全部完成。
綜上,異構(gòu)數(shù)據(jù)源整合是一種可以使高等教育信息資源得到更充分的利用、能給用戶訪問提供更為便捷的環(huán)境的有效方式。一方面可以減少高校在物力、人力方面的投入,另一方面可以有效提升高校對特色資源的利用率。未來,高校信息資源異構(gòu)數(shù)據(jù)源整合將和大量技術(shù)逐步融合在一起,如計算機協(xié)同工作技術(shù)等。