王益
(浙江傳媒學院 現代教育技術中心,浙江 杭州 310018)
數據中心信息交換平臺的研究與設計
王益
(浙江傳媒學院 現代教育技術中心,浙江 杭州 310018)
在數字化校園體系結構中,數據中心是支撐大量應用服務的底部基礎,一個可靠的信息交換平臺,既能解決數據之間互通問題,又能共享教育資源、降低教育運行成本。本文結合浙江傳媒學院數字化校園建設的具體實踐,在分析數據集成方法的基礎上提出了數據中心信息交換平臺的建設框架,為實現消除信息孤島、建立信息與應用規(guī)范、集成應用服務提供了一個方案。
數字化校園;數據中心;數據集成
1.業(yè)務系統建設現狀
在我校信息化建設過程中,各個部門根據自身的業(yè)務需求,分別開發(fā)了各自的業(yè)務系統,如表所示。這些系統之間擁有各自的數據存儲與訪問方式,彼此獨立,形成了一個個“信息孤島”。此外,各個系統在建設時沒有遵循統一的信息標準與規(guī)范,增加了數據之間互通的難度,對于一些基礎數據重復建設,不僅浪費了人力、物力,更難以保障數據的權威性、唯一性、完整性和準確性。
表 主要業(yè)務系統情況
2.業(yè)務系統之間的共享需要
學校在日常事務處理中,往往會綜合運用到各個系統中的數據,很多關鍵的信息存在著密切的聯系,有共享的需要,如果能把基礎的數據信息共享,可以解決數據不一致的問題。例如:圖書借閱系統、財務系統、學工系統、教務系統等都會用到學生的基本信息,各個系統都需要維護一個正確的學生名單,產生了很多重復的錄入,也同時增加了數據不統一的可能性。再則,學生基本信息也并不來自于同一部門,同一系統:學生在校期間各個系統,如迎新系統,教務系統,學工系統,離校系統,就業(yè)系統都在不斷補充、更新學生的基本信息,產生各種變化,如沒有一個權威的來源,很難保證數據的統一。正是這些業(yè)務系統之間的共享需要對數據中心信息交換平臺的建設提出了要求。
1.數據集成方法的選擇
數據集成又可稱為信息集成,用于解決數據的互通問題。數據集成的核心任務是要將互相關聯的分布式異構數據源集成到一起,使用戶能夠以透明的方式訪問這些數據源。集成是指維護數據源整體上的數據一致性、提高信息共享利用的效率,透明的方式是指用戶無需關心如何實現對異構數據源數據的訪問,只關心以何種方式訪問何種數據。[1]
數據集成的難點主要集中在三個方面:數據源的異構性、分布性和自治性。[2]異構性:被集成的數據源通常是獨立開發(fā)的,在數據語義、相同語義數據的表達形式、數據源的使用環(huán)境上存在著差異。分布性:而且數據源是異地分布的,依賴網絡傳輸數據,存在網絡傳輸的性能和安全性等問題。自治性:各個數據源有很強的自治性,它們可以在不通知集成系統的前提下改變自身的結構和數據。
典型的數據集成方法有模式集成法與數據復制法。這兩種數據集成法各有優(yōu)缺點與適用范圍。模式集成方法為用戶提供了全局數據視圖及統一的訪問接口,透明度高,但該方法并沒實現數據源間的數據交互,用戶使用時經常需要訪問多個數據源,因此網絡依賴性強,執(zhí)行效率也相對較低。數據復制方法在用戶使用某個數據源之前將用戶可能用到的其他數據源的數據預先復制過來,用戶使用時只需訪問某個數據源或少量的幾個數據源,這會大大提高系統處理用戶請求的效率,但很難保障數據源之間數據的實時一致性。模式集成方法適用于被集成的系統規(guī)模大、數據更新頻繁、數據實時一致性要求高的情況。數據復制則適用于數據源相對穩(wěn)定、用戶查詢模式已知或有限的情況。[3]
如果采用模式集成方式的聯邦數據庫系統,每個系統都要實現一個與虛擬共享庫的接口,要對原系統做相應的修改。同樣對于中間件的模式集成需要建立一個全局的模式,需要花費大量的時間,更為重要的是目前現階段建立數據中心主要目的不是為了數據的查詢,而是為了共享數據的收集和交換。所以,單純的模式集成法不能完全適應數字化校園建設需求的方案。因此,在經過詳細的需求調研、分析與綜合考慮各種因素后我們選擇數據復制法,建立數據中心數據倉庫,為今后的應用需求提供實現空間,而對于一些本身業(yè)務具有封閉性的系統則使用統一的數據封裝格式如XML,通過通訊前置機來實現數據信息的共享。
2.信息交換平臺框架
信息交換平臺需要提供一個集成平臺包括的所有數據集成的功能:基于數據的、基于事件的和基于服務的。核心交換組件如圖所示:
圖 數據中心信息交換平臺交換組件
設計要點:
(1)保持現有業(yè)務系統基本不變,在各業(yè)務系統與數據中心之間做接口,完成對接,實現抽取與推送數據的目的,節(jié)約成本。
(2)根據實際應用的需求,數據交換采用數據庫級交換與應用級數據交換相結合的方式來應對不同的數據交換要求。數據庫級數據交換比較適合于數據集實時要求高數據量不大的數據交換,如學籍異動、成績修改等類型數據交換提供數據的業(yè)務系統通過CDC(Change Data Capture)動態(tài)數據捕獲機制,每次只捕獲、集成有變化部分的數據,從而減輕數據中心平臺網絡傳輸及系統處理的負擔。應用級數據交換比較適合于數據實時性要求不是很高但數據量比較大的數據交換。
(3)堅持信息共享這一基本原則,以師、生角色為主線,將分散在各部門業(yè)務系統的基礎數據集中到數據中心統一存放,提供跨部門立體式的人事、教學、科研、公共資產等綜合數據,從而為教工、學生提供全方位的信息服務。
(4)保證中心數據庫數據的權威性,及時更新與同步各業(yè)務系統數據。
(5)雖然目前現階段建立數據中心的主要目的不是為了數據查詢,而是為了共享數據的收集和交換,但也需要提供良好的數據環(huán)境,為將來更高層次的決策和應用提供數據準備。
(6)建立統一的信息標準,保證信息的交流和共享。
數據中心信息交換平臺是數字化校園核心技術支撐平臺的重要組成部分,它保留了原有業(yè)務系統的數據庫,實現了異構數據庫之間的信息交換,推進了數據的集中和共享,解決了數字化校園建設中信息孤島問題,為實現應用集成奠定基礎,并為數據分析和挖掘提供了可能。此外,為了使信息能有序流通,還需制定全校性的信息編碼標準,使學校的所有信息能夠實時的互連互通,消除業(yè)務部門之間的數據冗余,避免多部門的重復勞動,節(jié)約人力成本,保證數據的標準化存儲。
[1]陳躍國,王京春.數據集成綜述[J].計算機科學,2004,31(5):48-51.
[2]C.Convey,O.Karpenko,N.Tatbul.Data Integration Services[EB/OL].http://cs.brown.edu/courses/cs227/archives/2001/groups/dataint/first_draft_Apr16/chapter.pdf,2010-07-07.
(編輯:楊馥紅)
TP274
A
1673-8454(2010)21-0016-02