李一鳴 韓 博
摘 要:目前高校數(shù)字校園進入到系統(tǒng)集成與信息集成階段,構(gòu)建一個集成的數(shù)據(jù)環(huán)境是深入集成的基礎(chǔ)。本文分析了數(shù)據(jù)集成過程中所面臨的元數(shù)據(jù)管理問題,為解決這些問題,本文結(jié)合西安交通大學(xué)數(shù)字校園建設(shè)的實際,提出了一套元數(shù)據(jù)管理體系,包括:元數(shù)據(jù)建模、元數(shù)據(jù)管理系統(tǒng)和運行保障機制,為數(shù)字校園建設(shè)的數(shù)據(jù)集成提供了有力保障。
關(guān)鍵詞:數(shù)字校園 元數(shù)據(jù) 元數(shù)據(jù)管理 數(shù)據(jù)集成
中圖分類號:TP311 文獻標(biāo)識碼:A 文章編號:1673-8454(2009)05-0025-02
目前數(shù)字校園建設(shè)處于系統(tǒng)集成與信息集成的階段,集成的數(shù)據(jù)環(huán)境需要高效率的元數(shù)據(jù)管理。[1] 西安交通大學(xué)在數(shù)字校園建設(shè)過程中面臨嚴(yán)峻的數(shù)據(jù)集成問題:由于以前的系統(tǒng)建設(shè)缺乏統(tǒng)一的規(guī)劃,建成了一批孤立的彼此不關(guān)聯(lián)的系統(tǒng)。同時,學(xué)校的管理又要和教育部、人事部、科技部、衛(wèi)生部等管理部門的信息系統(tǒng)相集成,例如完成各種信息統(tǒng)計和填報等工作。學(xué)校迫切需要有效地提高與這些外部系統(tǒng)信息交換的自動化程度。而進行數(shù)據(jù)倉庫的建設(shè)和數(shù)據(jù)挖掘分析,元數(shù)據(jù)的有效管理和共享是必不可少的。本文分析了目前元數(shù)據(jù)管理面臨的一些問題,并提出了一個有效的解決方案。
一、數(shù)字校園建設(shè)中對元數(shù)據(jù)管理的迫切需求
在數(shù)字校園建設(shè)中,開發(fā)、運行維護人員關(guān)注技術(shù)元數(shù)據(jù),通過它們掌握數(shù)據(jù)流動規(guī)則,制定數(shù)據(jù)清洗、粒度策略,建立新的數(shù)據(jù)抽取、聚合、發(fā)布過程,跟蹤數(shù)據(jù)增量運行過程。業(yè)務(wù)人員關(guān)注業(yè)務(wù)元數(shù)據(jù),通過它們掌握數(shù)據(jù)的全局視圖,了解需要數(shù)據(jù)的位置、意義、關(guān)聯(lián)關(guān)系、統(tǒng)計口徑,生成需要的報表,展開多維分析、相關(guān)分析,輔助數(shù)據(jù)挖掘過程。[2]
因此元數(shù)據(jù)必須是可靠的、一致的、最新的,但是在數(shù)字校園建設(shè)過程中發(fā)現(xiàn),我們能夠得到的元數(shù)據(jù)并不是我們想象的那么完美,很多遺留系統(tǒng)存在著如下問題:
1.元數(shù)據(jù)的描述缺乏統(tǒng)一的標(biāo)準(zhǔn),描述的方式多種多樣。有的用E-R圖,有的用數(shù)據(jù)字典,而且大多只停留在數(shù)據(jù)層面,而對系統(tǒng)本身和維護人員的描述基本沒有。有的學(xué)生開發(fā)的系統(tǒng)很不規(guī)范,甚至沒有元數(shù)據(jù)描述。
2.各個應(yīng)用系統(tǒng)自己維護自己的元數(shù)據(jù),元數(shù)據(jù)的管理是封閉的,許多系統(tǒng)的數(shù)據(jù)字典還只停留在設(shè)計階段,隨著系統(tǒng)運行時間的延長,實際的元數(shù)據(jù)已經(jīng)和設(shè)計時的元數(shù)據(jù)大相徑庭了。
3.有些系統(tǒng)開發(fā)和設(shè)計人員已經(jīng)流失,變成了不可維護的“煙囪系統(tǒng)”。[3] 沒有人能說清楚系統(tǒng)的元數(shù)據(jù),這給系統(tǒng)的集成和改造帶來了巨大的麻煩。
4.由于元數(shù)據(jù)都是各系統(tǒng)分別管理,因此在系統(tǒng)變化的時候也不會通知其他使用該系統(tǒng)資源的相關(guān)系統(tǒng),這樣經(jīng)常會造成其他系統(tǒng)在不知情的情況下發(fā)生故障。
為了解決上述問題,保證數(shù)字校園數(shù)據(jù)交換平臺的平穩(wěn)運行,以及數(shù)據(jù)倉庫建設(shè)的數(shù)據(jù)裝載能夠順利的進行,有必要建設(shè)一個全局的元數(shù)據(jù)管理系統(tǒng)來規(guī)范全校各應(yīng)用系統(tǒng)的元數(shù)據(jù)。為了有效地管理元數(shù)據(jù),我們設(shè)計了一個全局的元數(shù)據(jù)管理體系:首先建立一個元數(shù)據(jù)描述的模型,其次建立一套元數(shù)據(jù)管理的系統(tǒng),最終通過一套制度來保證全局元數(shù)據(jù)管理得到實施。
二、元數(shù)據(jù)建模
為了能更好地做到全局元數(shù)據(jù)管理,參考《都柏林核心元數(shù)據(jù)標(biāo)準(zhǔn)》和《中國科學(xué)院科學(xué)數(shù)據(jù)庫核心元數(shù)據(jù)標(biāo)準(zhǔn)》,專門制定了《西安交通大學(xué)元據(jù)標(biāo)準(zhǔn)》,采用XML作為元數(shù)據(jù)的描述方式。[4] [5] 對于所有新建立的應(yīng)用系統(tǒng)我們要求其必須提供符合元數(shù)據(jù)描述標(biāo)準(zhǔn)的元數(shù)據(jù)。對于舊的系統(tǒng)則通過人工的方式整理出符合標(biāo)準(zhǔn)的元數(shù)據(jù),并作為元數(shù)據(jù)管理系統(tǒng)采集、對比和維護的數(shù)據(jù)對象。
在模型中根據(jù)學(xué)校實際情況簡化了《都柏林核心元數(shù)據(jù)標(biāo)準(zhǔn)》中的定義,定義了最核心的基本的元數(shù)據(jù)的描述方式。例如,圖1表示的是對“數(shù)據(jù)集結(jié)構(gòu)描述”的定義。
有了元數(shù)據(jù)的描述標(biāo)準(zhǔn),我們就可以通過元數(shù)據(jù)記錄有關(guān)數(shù)據(jù)的建立、結(jié)構(gòu)以及維護等方面的信息,數(shù)據(jù)管理者可以通過這些元數(shù)據(jù)對數(shù)據(jù)資源進行有效的管理,數(shù)據(jù)使用者也可據(jù)此了解數(shù)據(jù)資源的背景資料;其次,元數(shù)據(jù)的使用能夠在一定程度上消除數(shù)據(jù)資源之間的語義獨立性和異構(gòu)性,幫助實現(xiàn)數(shù)據(jù)資源的整合和交換。
三、元數(shù)據(jù)管理系統(tǒng)
只有元數(shù)據(jù)的描述標(biāo)準(zhǔn)是遠遠不夠的,我們還需要建立一套的元數(shù)據(jù)管理系統(tǒng)來注冊、抽取和存儲元數(shù)據(jù),以及對元數(shù)據(jù)做版本控制和血統(tǒng)分析,這樣才能充分保護和利用元數(shù)據(jù),使其發(fā)揮更大的價值。
我們設(shè)計的元數(shù)據(jù)管理系統(tǒng)的架構(gòu)如圖2所示。
1.系統(tǒng)把符合元數(shù)據(jù)標(biāo)準(zhǔn)的系統(tǒng)元數(shù)據(jù)以XML方式存儲在原生數(shù)據(jù)庫中。
2.系統(tǒng)可以通過注冊的方式把應(yīng)用系統(tǒng)的元數(shù)據(jù)注冊進來,一旦基本元數(shù)據(jù)注冊成功,系統(tǒng)就可以主動地抓取應(yīng)用系統(tǒng)中的元數(shù)據(jù)到版本庫,版本庫中的源數(shù)據(jù)也是以XML方式進行存儲。
3.系統(tǒng)管理員可以調(diào)度抽取元數(shù)據(jù)的周期,元數(shù)據(jù)的抽取按照調(diào)度自動執(zhí)行。
4.每次調(diào)度而抽取出的元數(shù)據(jù)都被保存在版本庫中,任何版本的元數(shù)據(jù)都可以被調(diào)出來以便做對比和系統(tǒng)分析,我們在系統(tǒng)中集成優(yōu)秀的版本管理軟件Subversion作為版本控制的引擎,利用其豐富的二次開發(fā)接口來實現(xiàn)我們的需求。[6]
5.系統(tǒng)提供對于XML元數(shù)據(jù)的自動對比功能。XML的比較是一個目前比較困難問題,我們參考了世界上比較通用的一些算法,由于我們的XML的schema基本固定,最后我們使用了通過客戶端進行比較的策略,取得了比較好的效果。
6.其他的應(yīng)用系統(tǒng)的管理員可以登錄到元數(shù)據(jù)管理系統(tǒng)中根據(jù)授權(quán)查詢使用系統(tǒng)中的元數(shù)據(jù),并可以查閱元數(shù)據(jù)變化的歷史。
7.提供一套基于Web service 的開放的編程接口(OpenAPI),方便其他系統(tǒng)可以通過編程自動地感知元數(shù)據(jù)的變化,完成一些自動化的增值功能。
有了這樣一套系統(tǒng),元數(shù)據(jù)不再孤立,可以在最大限度上實現(xiàn)元數(shù)據(jù)的共享,為各系統(tǒng)的數(shù)據(jù)集成和數(shù)據(jù)倉庫的建設(shè)提供強有力的支撐。
四、元數(shù)據(jù)管理的保障機制
有了良好的元數(shù)據(jù)標(biāo)準(zhǔn),建立了完善的元數(shù)據(jù)管理系統(tǒng)依然不能保證元數(shù)據(jù)能夠得到有效的管理和使用。為此必須要有一套管理機制來保證標(biāo)準(zhǔn)可以得到真正的貫徹執(zhí)行,為此,我們專門制定了一些有關(guān)元數(shù)據(jù)的規(guī)章制度和管理辦法,主要有這樣兩個方面:
1.對于任何新的軟件系統(tǒng)的招標(biāo)和建設(shè),把遵循元數(shù)據(jù)標(biāo)準(zhǔn)和公開其元數(shù)據(jù)寫到標(biāo)書中去,約束軟件開發(fā)商必須貫徹元數(shù)據(jù)管理規(guī)范,這樣就能保證新建立的系統(tǒng)可以納入到全局的元數(shù)據(jù)管理體系中來。
2.對于已有的系統(tǒng),如果需要通過學(xué)校的數(shù)據(jù)共享平臺使用其他部門的數(shù)據(jù),那么首先要按照元數(shù)據(jù)標(biāo)準(zhǔn)注冊他自己的系統(tǒng),然后再根據(jù)需求整理目標(biāo)系統(tǒng)的元數(shù)據(jù),這樣隨著系統(tǒng)運行的不斷深入,舊系統(tǒng)中的數(shù)據(jù)也源源不斷地納入到元數(shù)據(jù)管理體系中來。
五、結(jié)束語
西安交通大學(xué)通過制定元數(shù)據(jù)標(biāo)準(zhǔn),建立元數(shù)據(jù)管理系統(tǒng),實施元數(shù)據(jù)管理保障機制,打破了“信息孤島”,目前已經(jīng)建立了基于數(shù)據(jù)共享的全校的用戶管理中心等多個大型共享數(shù)據(jù)的信息系統(tǒng),元數(shù)據(jù)得到有效的管理和開放共享,為順利地進行數(shù)據(jù)和信息的集成起到了關(guān)鍵作用。目前,基于元數(shù)據(jù)的深度的信息集成正在緊鑼密鼓的進行中,元數(shù)據(jù)將在今后數(shù)字校園的發(fā)展中起到更大的作用。
參考文獻:
[1]蔣東興,許慶紅,劉啟新,陳懷楚.信息集成階段新一代數(shù)字校園建設(shè)探討[J].教育信息化,2006(10):1-7.
[2]潘定,沈鈞毅.數(shù)據(jù)倉庫中實時元數(shù)據(jù)管理的研究[J].西安交通大學(xué)學(xué)報(自然科學(xué)版),2005(6):566.
[3]William J. Brown 、Raphael C. Malveau 、Hays W. McCormick III、Thomas J. mowbray.反模式-危機中的軟件、架構(gòu)和項目重構(gòu)[M].北京:人民郵電出版社,2008.1:106.
[4]都柏數(shù)林核心元數(shù)據(jù)標(biāo)準(zhǔn).http://dublincore.org/
[5]中國科學(xué)院科學(xué)數(shù)據(jù)庫核心元數(shù)據(jù)標(biāo)準(zhǔn).http://www.nsdc.cn/
[6]http://subversion.tigris.org/