高垣 佀潔 西北大學(xué)現(xiàn)代教育技術(shù)中心
近十年,隨著信息化迅速發(fā)展,高校信息化業(yè)務(wù)系統(tǒng)如雨后春筍般快速搭建起來,大多數(shù)高校初期是沒有信息化建設(shè)部門,并針對學(xué)校信息化建設(shè)做整體規(guī)劃的,各個部門是按需建設(shè),雖然建成的業(yè)務(wù)系統(tǒng)可以高效的梳理各部門業(yè)務(wù)功能和統(tǒng)計業(yè)務(wù)數(shù)據(jù),但是這些系統(tǒng)之間的數(shù)據(jù)互不相通,信息孤島日益增多,造成的不良影響越來越顯著,例如很多基礎(chǔ)數(shù)據(jù)需要反復(fù)采集、反復(fù)錄入到各個系統(tǒng)中去,造成數(shù)據(jù)的準確性、時效性、唯一性不能保障,各個業(yè)務(wù)系統(tǒng)之間的數(shù)據(jù)也不能交叉使用,大多只能通過導(dǎo)出EXCEL等文件,再導(dǎo)入到其他業(yè)務(wù)系統(tǒng)中去,也會造成數(shù)據(jù)的時效性和完整性降低,還會不定時增加導(dǎo)入導(dǎo)出的工作量。
近三年,已經(jīng)有高校開始對校內(nèi)數(shù)據(jù)做整合,即校內(nèi)數(shù)據(jù)匯聚工作,初期的數(shù)據(jù)匯聚只是簡單的將業(yè)務(wù)系統(tǒng)的基礎(chǔ)數(shù)據(jù)做周期性的數(shù)據(jù)采集工作,并存儲在一個中心數(shù)據(jù)庫中,但是采集來的數(shù)據(jù)并不能得到充分利用,新建的業(yè)務(wù)系統(tǒng)依舊是根據(jù)部門處室的工作流程指導(dǎo)建設(shè),部門處室并不清楚校內(nèi)有哪些共享數(shù)據(jù)可供他們直接采用,就會造成數(shù)據(jù)的重復(fù)錄入,造成數(shù)據(jù)源來源不唯一,對共享數(shù)據(jù)庫的數(shù)據(jù)可靠性造成嚴重問題。
所以,數(shù)據(jù)匯聚的框架設(shè)計是對高校信息化發(fā)展進程中一個非常重要的環(huán)節(jié),為了保證高校數(shù)據(jù)的準確性、完整性、唯一性和安全性,需要提前做好三個方面:
(1)業(yè)務(wù)系統(tǒng)數(shù)據(jù)梳理:對現(xiàn)有業(yè)務(wù)系統(tǒng)進行梳理,重點梳理哪些數(shù)據(jù)可以作為數(shù)據(jù)唯一來源,哪些數(shù)據(jù)可以從其他系統(tǒng)中提供。
(2)數(shù)據(jù)采集:對梳理好的數(shù)據(jù)進行分類歸整,使用數(shù)據(jù)抽取工具對數(shù)據(jù)源進行采集。
(3)數(shù)據(jù)治理:對采集的數(shù)據(jù)進行治理工作,對冗余數(shù)據(jù)和重復(fù)數(shù)據(jù)進行清理,將不完整的數(shù)據(jù)和無效數(shù)據(jù)進行排查清洗,將準確的數(shù)據(jù)、完整的數(shù)據(jù)和有效的數(shù)據(jù)存儲入共享數(shù)據(jù)庫。
完成以上三方面,已經(jīng)為數(shù)據(jù)匯聚做好基礎(chǔ)準備,由信息化建設(shè)部門指導(dǎo),并規(guī)劃統(tǒng)一的數(shù)據(jù)流向,針對數(shù)據(jù)流向權(quán)責(zé)信息電子化,需要精細到表級、字段級,便于持續(xù)優(yōu)化與積累,以及對表級與字段級的U/C矩陣,便于清晰的展現(xiàn)數(shù)據(jù)的來龍去脈,最后,需要有IPO圖形化的展示,便于直觀的了解部門的外部數(shù)據(jù)關(guān)系。
數(shù)據(jù)匯聚主要針對主數(shù)據(jù),即系統(tǒng)之間的共享數(shù)據(jù),主數(shù)據(jù)的特征體現(xiàn)為結(jié)構(gòu)化、跨部門需要、結(jié)果型的管理數(shù)據(jù),非結(jié)構(gòu)化、半結(jié)構(gòu)化、行為分析等日志數(shù)據(jù),以及管理信息系統(tǒng)內(nèi)容過程性數(shù)據(jù)不屬于主數(shù)據(jù)。主數(shù)據(jù)從各部門、各院系集成并管理起來,建立一個全校范圍內(nèi)、標準唯一的權(quán)威主數(shù)據(jù)中心,用以解決標準統(tǒng)一、數(shù)據(jù)不一致、數(shù)據(jù)沖突、數(shù)據(jù)質(zhì)量低下等問題。主數(shù)據(jù)中心的數(shù)據(jù)來源、目標系統(tǒng)無需改變,各個數(shù)據(jù)來源系統(tǒng)中對主數(shù)據(jù)做的更改將同步到主數(shù)據(jù)中心中,同時通過主數(shù)據(jù)中心分發(fā)到數(shù)據(jù)目標系統(tǒng)中,實現(xiàn)數(shù)據(jù)收集的高效自動化,支持標準動態(tài)的優(yōu)化調(diào)整,數(shù)據(jù)同步按需采取實時或周期等方式。
(1)底層業(yè)務(wù)系統(tǒng)將數(shù)據(jù)源數(shù)據(jù)通過數(shù)據(jù)集成工具,通過抽取、復(fù)制、整合進入校級主數(shù)據(jù)治理平臺,再由主數(shù)據(jù)管理平臺分發(fā)數(shù)據(jù)到相應(yīng)的應(yīng)用系統(tǒng),實現(xiàn)各應(yīng)用系統(tǒng)之間的數(shù)據(jù)共享及相互操作,支撐基于集成數(shù)據(jù)的全局應(yīng)用建設(shè),加強流程協(xié)作;
(2)校級主數(shù)據(jù)庫可以把主數(shù)據(jù)推向數(shù)據(jù)倉庫,支持多維數(shù)據(jù)分析挖掘,輔助管理與決策;同時,分析結(jié)果也可以作為衍生主數(shù)據(jù)同步到校級主數(shù)據(jù)庫,供應(yīng)用系統(tǒng)使用;
(3)主數(shù)據(jù)管理平臺包括元數(shù)據(jù)管理、主數(shù)據(jù)管理、數(shù)據(jù)集成、數(shù)據(jù)質(zhì)量檢測等一系列工具,包括元數(shù)據(jù)庫、代碼標準庫、主數(shù)據(jù)庫等存儲庫;
(4)利用主數(shù)據(jù)管理平臺中數(shù)據(jù)集成工具抽取、復(fù)制、整合學(xué)校有價值的數(shù)據(jù)進入校級主數(shù)據(jù)庫,為學(xué)校長期發(fā)展積累數(shù)據(jù),此數(shù)據(jù)為后期大數(shù)據(jù)分析做儲備。
綜上所述,可以將校內(nèi)各個業(yè)務(wù)系統(tǒng)的數(shù)據(jù)協(xié)同使用管理起來,讓數(shù)據(jù)在所有系統(tǒng)中可以充分利用,避免重復(fù)數(shù)據(jù)及冗余數(shù)據(jù)的產(chǎn)生,還可以為學(xué)校主數(shù)據(jù)庫沉淀大量準確的、可靠的基礎(chǔ)數(shù)據(jù),用來做校內(nèi)綜合應(yīng)用和數(shù)據(jù)分析應(yīng)用,并且這些應(yīng)用所產(chǎn)生的衍生數(shù)據(jù)依然可以累積到主數(shù)據(jù)庫中繼續(xù)沉淀數(shù)據(jù),循環(huán)利用,使沉淀的數(shù)據(jù)的利用率提高,為領(lǐng)導(dǎo)層做決策管理更加準確和可靠。
[1].大數(shù)據(jù)融合研究:問題與挑戰(zhàn)[J].孟小峰,杜治娟.計算機研究與發(fā)展.2016(02)
[2].不確定性數(shù)據(jù)管理技術(shù)研究綜述[J].周傲英,金澈清,王國仁,李建中.計算機學(xué)報.2009(01)