文/高亮
上海財經(jīng)大學(xué)實施主數(shù)據(jù)管理 高效發(fā)掘數(shù)據(jù)價值
文/高亮
高校信息化經(jīng)過多年發(fā)展,學(xué)校各類核心業(yè)務(wù)都建立了相應(yīng)的管理信息系統(tǒng),日常業(yè)務(wù)運作已經(jīng)離不開信息系統(tǒng),而且不同管理部門及業(yè)務(wù)的相互協(xié)作越來越多,需要不同管理系統(tǒng)聯(lián)動的情況也越來越普遍,很少有系統(tǒng)能夠獨立于其他系統(tǒng)而運作。在大數(shù)據(jù)背景下高校也正在逐步邁入智慧校園時代,但是由于高校信息化規(guī)劃相對落后、建設(shè)思路不同、實施廠商眾多、開發(fā)技術(shù)多樣等等原因,數(shù)據(jù)孤島現(xiàn)象依然很嚴重,各業(yè)務(wù)系統(tǒng)在相互聯(lián)動、協(xié)作方面還存在很多困難,未能形成有機整體從而充分發(fā)揮信息化優(yōu)勢。由此產(chǎn)生的問題普遍存在于各高校信息化建設(shè)過程中,也是一直困擾信息化從業(yè)人員的棘手問題,比如:缺乏數(shù)據(jù)標準、數(shù)據(jù)源頭不唯一、數(shù)據(jù)不一致、數(shù)據(jù)無法共享使用、上報數(shù)據(jù)困難、對外口徑不一致、各系統(tǒng)交互形成網(wǎng)狀結(jié)構(gòu)增加運維難度和工作量等等,這樣也就導(dǎo)致信息系統(tǒng)雖然產(chǎn)生了很多有價值的數(shù)據(jù),但是無法深度利用,更無法產(chǎn)生更多價值,僅僅完成了最基本的支撐日常業(yè)務(wù)運作任務(wù)。
以上所有問題產(chǎn)生的一個主要原因在于缺乏有效的主數(shù)據(jù)管理,本文從管理和技術(shù)兩個方面詳細介紹在高校如何有效實施主數(shù)據(jù)管理,從而能夠更好地推進高校信息化建設(shè)。
主數(shù)據(jù)(MD Master Data)是信息系統(tǒng)中描述核心業(yè)務(wù)、實體并且在不同業(yè)務(wù)系統(tǒng)間共享使用的數(shù)據(jù),共享是關(guān)鍵詞,它們分散在各業(yè)務(wù)系統(tǒng)中,是企業(yè)內(nèi)部能夠跨業(yè)務(wù)、跨系統(tǒng)重復(fù)使用的高價值數(shù)據(jù)。一個機構(gòu)有很多業(yè)務(wù)系統(tǒng),每個系統(tǒng)又有很多數(shù)據(jù),那么如何去鑒定哪些是主數(shù)據(jù)呢?可以用一個簡單的原則去區(qū)分,凡是需要在不同業(yè)務(wù)系統(tǒng)間進行交互和共享使用的數(shù)據(jù)都可以稱之為主數(shù)據(jù),比如教師基本信息就是高校的核心主數(shù)據(jù),因為教師基本信息是很多業(yè)務(wù)系統(tǒng)中都要使用的關(guān)鍵數(shù)據(jù)。主數(shù)據(jù)具有準確性、一致性、集成性、共享性、高價值等特點,其范圍和內(nèi)容無法一次性完成定義,需要根據(jù)業(yè)務(wù)需求逐步擴展完善。主數(shù)據(jù)通常需要在整個業(yè)務(wù)范圍內(nèi)保持一致性、完整性、準確性和實時性,為了達成這一目標,就需要專人采用專業(yè)管理工具或平臺進行主數(shù)據(jù)管理。
通過主數(shù)據(jù)的定義可以總結(jié)出主數(shù)據(jù)的主要作用:1.在企業(yè)內(nèi)定義完整的全局業(yè)務(wù)實體;2.保證核心業(yè)務(wù)實體數(shù)據(jù)的準確性、實時性;3.為業(yè)務(wù)系統(tǒng)提供共享數(shù)據(jù),保證數(shù)據(jù)一致性。
主數(shù)據(jù)管理(Master Data Management,簡稱MDM )描述了一組規(guī)程、技術(shù)和解決方案,它們用于為所有利益相關(guān)方(如用戶、應(yīng)用程序、數(shù)據(jù)倉庫、流程)創(chuàng)建并維護業(yè)務(wù)數(shù)據(jù)的一致性、完整性、相關(guān)性和精確性。主數(shù)據(jù)管理的關(guān)鍵就是“管理”,主數(shù)據(jù)管理不會創(chuàng)建新的數(shù)據(jù),它將業(yè)務(wù)系統(tǒng)中各類主數(shù)據(jù)進行歸集和整理,納入到統(tǒng)一管理平臺,進行統(tǒng)一編碼、發(fā)布和更新,自動、準確、及時地為使用方分發(fā)數(shù)據(jù),并對數(shù)據(jù)進行驗證。主數(shù)據(jù)管理涉及部門廣,牽涉系統(tǒng)多,實施難度大,需要管理措施和技術(shù)手段相互結(jié)合才能有效地推動項目開展,取得成效。
管理措施
1.提高數(shù)據(jù)共享意識
目前信息化環(huán)境中存在數(shù)據(jù)孤島、數(shù)據(jù)源頭多、數(shù)據(jù)不一致現(xiàn)象的主要原因是沒有進行數(shù)據(jù)共享,根本原因是數(shù)據(jù)共享意識不強,沒有將數(shù)據(jù)共享意識提高到足夠的高度。因此,為了走出目前由數(shù)據(jù)問題造成的困境,首要問題是從上到下、從管理層到一線人員提高數(shù)據(jù)共享意識,首先要有開放的心態(tài),數(shù)據(jù)是全校公共資產(chǎn),應(yīng)該與所有相關(guān)部門、業(yè)務(wù)共享使用;其次,在建設(shè)業(yè)務(wù)系統(tǒng)時如果需要跨業(yè)務(wù)的數(shù)據(jù),應(yīng)該考慮通過共享手段從準確的數(shù)據(jù)源頭來獲取數(shù)據(jù),堅決杜絕另起爐灶再維護一份新數(shù)據(jù),本系統(tǒng)只需維保本業(yè)務(wù)領(lǐng)域的數(shù)據(jù)即可。
2. 改變數(shù)據(jù)共享模式
目前高校信息化建設(shè)中數(shù)據(jù)共享思路已經(jīng)基本普及,但是共享模式多種多樣,由此也產(chǎn)生了很多問題,如:數(shù)據(jù)接口重復(fù)開發(fā)、數(shù)據(jù)接口維護復(fù)雜、系統(tǒng)間相互共享數(shù)據(jù)形成網(wǎng)狀結(jié)構(gòu)、系統(tǒng)間耦合程度高等。為此,應(yīng)該建立專門的主數(shù)據(jù)管理平臺,維護標準的數(shù)據(jù)接口,提供統(tǒng)一的數(shù)據(jù)共享方法,為不同應(yīng)用場景、應(yīng)用需求提供不同數(shù)據(jù)接口,斷絕業(yè)務(wù)系統(tǒng)間的引用關(guān)系,各業(yè)務(wù)系統(tǒng)只與主數(shù)據(jù)平臺有關(guān)系,形成數(shù)據(jù)共享星型結(jié)構(gòu)。
3.技術(shù)部門統(tǒng)籌管理
不論是企業(yè)還是高校,主數(shù)據(jù)管理、數(shù)據(jù)共享在整個信息化環(huán)境中是一盤棋,開發(fā)、維護和管理又具有一定的技術(shù)門檻,因此需要由技術(shù)部門站在全局角度去統(tǒng)籌規(guī)劃和管理,同時成立專職技術(shù)小組去開發(fā)、維護,這樣既可以避免重復(fù)建設(shè),又可以避免業(yè)務(wù)系統(tǒng)間共享數(shù)據(jù)的情況再次發(fā)生,同時又能全局掌握主數(shù)據(jù)使用情況。
4.定義數(shù)據(jù)管理規(guī)范
主數(shù)據(jù)的流暢運作離不開規(guī)范的約束,配套的規(guī)范制度應(yīng)該隨著主數(shù)據(jù)管理平臺的建設(shè)而一起制定。規(guī)范按使用對象分為對內(nèi)和對外兩部分,對內(nèi)的主要供主數(shù)據(jù)開發(fā)、維護、管理人員使用,側(cè)重技術(shù)方面的要求,具體包括開發(fā)技術(shù)規(guī)范、日常運維管理規(guī)范等,技術(shù)人員需要清晰掌握主數(shù)據(jù)平臺有哪些主數(shù)據(jù)、來自于哪、為哪些用戶提供了服務(wù)、每一種主數(shù)據(jù)有哪些共享方式等方面的內(nèi)容;對外的主要供數(shù)據(jù)使用方使用,具體內(nèi)容包括主數(shù)據(jù)申請、審核批準、下發(fā)使用、注銷停用、安全等方面內(nèi)容,數(shù)據(jù)使用方需要向數(shù)據(jù)主管部門(數(shù)據(jù)屬于業(yè)務(wù)部門的資產(chǎn))說明使用目的并獲得同意,主數(shù)據(jù)平臺管理員才能對其授權(quán)使用,用戶在使用中需遵循數(shù)據(jù)安全等方面的要求,不得對外泄露數(shù)據(jù)。
5.落實數(shù)據(jù)維護職責
主數(shù)據(jù)對準確性和及時性的要求不言而喻,所有的主數(shù)據(jù)都來源于業(yè)務(wù)系統(tǒng),主數(shù)據(jù)管理平臺本身不產(chǎn)生、不修改主數(shù)據(jù),這就有必要明確數(shù)據(jù)維護責任和要求,業(yè)務(wù)系統(tǒng)管理員應(yīng)該及時維護數(shù)據(jù),保證系統(tǒng)提供高質(zhì)量的源數(shù)據(jù)。
技術(shù)手段
1.構(gòu)建校級主數(shù)據(jù)平臺
主數(shù)據(jù)管理平臺一定是一個全局性平臺,統(tǒng)一管理全校的主數(shù)據(jù)和數(shù)據(jù)共享,平臺架構(gòu)如圖1所示。
平臺的核心是數(shù)據(jù)抽取層、數(shù)據(jù)存儲層和數(shù)據(jù)分發(fā)層,按數(shù)據(jù)內(nèi)容和性質(zhì)主數(shù)據(jù)可以分為三類:代碼數(shù)據(jù)類、基礎(chǔ)數(shù)據(jù)類、交易數(shù)據(jù)類,代碼數(shù)據(jù)類一般指各類數(shù)據(jù)字典,基礎(chǔ)數(shù)據(jù)一般是數(shù)據(jù)量相對較少、變化相對緩慢的用于支撐其他業(yè)務(wù)活動開展的核心數(shù)據(jù),如教師信息、學(xué)生信息等,交易類數(shù)據(jù)一般指數(shù)據(jù)量較大、產(chǎn)生較快的業(yè)務(wù)數(shù)據(jù),如一卡通交易流水、學(xué)生課表、學(xué)生成績等。數(shù)據(jù)分發(fā)層完成對外提供數(shù)據(jù)的功能,根據(jù)應(yīng)用場景選擇具體的工具及技術(shù)方法。
圖1 主數(shù)據(jù)管理平臺架構(gòu)
2. 定義主數(shù)據(jù)模型
定義主數(shù)據(jù)模型包括識別主數(shù)據(jù)實體、識別主數(shù)據(jù)屬性、識別主數(shù)據(jù)關(guān)系等幾個環(huán)節(jié)。一個主數(shù)據(jù)模型就是對一個業(yè)務(wù)、實體的準確全面描述,主數(shù)據(jù)模型在結(jié)構(gòu)關(guān)系上并不復(fù)雜,主要由實體和描述實體的屬性組成,不同主數(shù)據(jù)之間通過邏輯主外鍵來產(chǎn)生關(guān)系。主數(shù)據(jù)模型不應(yīng)直接依賴于具體應(yīng)用需求,準確、完整地描述業(yè)務(wù)實體即可,設(shè)計時要充分考慮模型的標準性、通用性和擴展性。不同模型之間要劃清界限,盡量避免模型重疊導(dǎo)致不同模型存放同樣的數(shù)據(jù),每一個模型針對一類應(yīng)用場景,不能期望一個模型滿足所有需求。定義一個主數(shù)據(jù)模型不可能一次性完成,定義之初先確定該主數(shù)據(jù)所要描述的業(yè)務(wù)含義,然后參考現(xiàn)有數(shù)據(jù)共享需求填充屬性,后續(xù)再根據(jù)新增需求逐步擴展、完善。這其中一定要注意數(shù)據(jù)粒度問題,同一類數(shù)據(jù),不同粒度就是不同的模型,比如一卡通消費明細和一卡通月匯總就是不同的模型,雖然匯總數(shù)據(jù)可以由明細數(shù)據(jù)生成,但最好還是單獨定義。
3.主數(shù)據(jù)命名規(guī)范
主數(shù)據(jù)存儲在數(shù)據(jù)庫中需要有規(guī)范的名稱來標識以便于理解和使用,建議主數(shù)據(jù)名稱采用英文三級形式命名,具體約束如下:
第一級表示數(shù)據(jù)存儲形式,T代表數(shù)據(jù)庫表、V代表視圖、MV代表物化視圖;
第二級表示主數(shù)據(jù)來源或業(yè)務(wù)領(lǐng)域,統(tǒng)一使用源系統(tǒng)三位英文簡稱;
第三級表示數(shù)據(jù)內(nèi)容,如果數(shù)據(jù)內(nèi)容無法用一個單詞完整描述可以采用下劃線命名方式,單詞可以用全拼或縮寫,保證名稱長度不超過數(shù)據(jù)庫限制即可。
主數(shù)據(jù)名稱形式:數(shù)據(jù)存儲形式_業(yè)務(wù)域簡稱_數(shù)據(jù)內(nèi)容描述。例如,教師基本信息主數(shù)據(jù)可以定義為:V_HRS_ EMPLOYEE_INFOR。
4.主數(shù)據(jù)提取分發(fā)
主數(shù)據(jù)管理平臺的第一個任務(wù)就是使用數(shù)據(jù)集成工具將分散于各業(yè)務(wù)系統(tǒng)的源數(shù)據(jù)按主數(shù)據(jù)模型抽取到存儲主數(shù)據(jù)的數(shù)據(jù)庫中,抽取過程完成分散數(shù)據(jù)的整合和異構(gòu)數(shù)據(jù)源的同構(gòu)。抽取過程中可對源數(shù)據(jù)進行邏輯轉(zhuǎn)換或計算,比如做一些值映射、衍生一些新的屬性字段等,但不得修改源數(shù)據(jù),主數(shù)據(jù)開發(fā)完成后需要進行測試、校驗,確保抽取過程進行關(guān)聯(lián)、轉(zhuǎn)換的正確性。數(shù)據(jù)抽取可以使用ETL工具Informatica、ODI、Kettle等,也可以編寫存儲過程。由于不同數(shù)據(jù)共享需求對實時性要求不同,可以根據(jù)具體需求對不同的抽取任務(wù)設(shè)置抽取頻率。對于一些標準類的線下數(shù)據(jù),一般變動較少,維護頻率較低,如果沒有相應(yīng)的管理系統(tǒng),可以一次性導(dǎo)入主數(shù)據(jù)管理平臺,后續(xù)在主數(shù)據(jù)管理平臺中進行簡單維護。
主數(shù)據(jù)管理平臺的另一個任務(wù)就是為數(shù)據(jù)使用方提供數(shù)據(jù),可以采用主數(shù)據(jù)平臺主動推送和使用方主動提取兩種方式。開發(fā)工具可以采用ETL工具,也可以在業(yè)務(wù)系統(tǒng)和主數(shù)據(jù)庫間建立DBlink進行讀取,對于第三方用戶建議封裝成Webservice供其調(diào)用。這其中要注意兩個問題,一是訪問安全性要求,比如為了主數(shù)據(jù)庫的安全,不允許建立DBlink,或者不允許直接訪問數(shù)據(jù)庫;另一個是數(shù)據(jù)實時性要求,這依賴于主數(shù)據(jù)的抽取和分發(fā)頻率。由于應(yīng)用需求存在差異性,使用方拿到數(shù)據(jù)后可以進行再次加工,如只挑選需要的屬性,或者擴展屬性等。
5.主數(shù)據(jù)平臺監(jiān)控
主數(shù)據(jù)平臺的穩(wěn)定運行離不開完善的系統(tǒng)監(jiān)控,主要包括數(shù)據(jù)共享功能監(jiān)控和數(shù)據(jù)質(zhì)量監(jiān)控兩個方面。功能監(jiān)控主要監(jiān)控數(shù)據(jù)抽取和分發(fā)任務(wù)是否正常執(zhí)行,對于異常情況要第一時間給系統(tǒng)管理員發(fā)送報警信息。主數(shù)據(jù)管理平臺本身不產(chǎn)生數(shù)據(jù)質(zhì)量問題,為了保證共享數(shù)據(jù)的有效利用,有必要對主數(shù)據(jù)相關(guān)的業(yè)務(wù)數(shù)據(jù)進行數(shù)據(jù)質(zhì)量檢查和監(jiān)控,對于發(fā)現(xiàn)的數(shù)據(jù)問題還是回歸到源頭去解決。數(shù)據(jù)質(zhì)量監(jiān)控具體方法可以參考中國教育網(wǎng)絡(luò)2016年1月文章《利用數(shù)據(jù)質(zhì)量規(guī)則庫推動數(shù)據(jù)質(zhì)量管理》。
主數(shù)據(jù)管理是目前解決數(shù)據(jù)孤島、實現(xiàn)數(shù)據(jù)共享比較好的方法,也是數(shù)據(jù)治理的一個重要環(huán)節(jié),但是搭建主數(shù)據(jù)管理平臺是一個長期、復(fù)雜的過程,涉及組織架構(gòu)、管理流程、技術(shù)攻關(guān)等多方面內(nèi)容。本文基于上海財經(jīng)大學(xué)主數(shù)據(jù)管理項目的實施過程,從管理措施和技術(shù)手段兩個方面詳細介紹了實施主數(shù)據(jù)的幾個重要環(huán)節(jié),為高校信息化建設(shè)提供一些參考。
(責編:楊燕婷)
(作者單位為上海財經(jīng)大學(xué)信息化辦公室)