陳軍民
(江西外語外貿(mào)職業(yè)學(xué)院,江西 南昌 330099)
眾所周知,近幾年高校信息化建設(shè)發(fā)展迅速,業(yè)務(wù)部門根據(jù)各自的業(yè)務(wù)需求建立了很多信息管理系統(tǒng),為業(yè)務(wù)部門的工作提供了很大的便捷,如科研系統(tǒng)、教務(wù)系統(tǒng)、學(xué)工系統(tǒng)等。但這些信息管理系統(tǒng)的數(shù)據(jù)是運(yùn)行在各自的數(shù)據(jù)庫(kù)管理平臺(tái)上,有著各自的表格定義、字段定義,和各自的存儲(chǔ)結(jié)構(gòu)。這些信息管理系統(tǒng)形成了一個(gè)個(gè)的“信息孤島”。
“信息孤島”無法適應(yīng)高校發(fā)展的需要。決策層領(lǐng)導(dǎo)不能及時(shí)獲取全校數(shù)據(jù),做出正確的決策;職能部門無法及時(shí)掌握本部門員工的科研、教學(xué)、帶班等全面的信息;教師與學(xué)生,也不能通過統(tǒng)一的門戶網(wǎng)站,一鍵登錄查詢自己的各方面信息,或更新自己的信息。
“信息孤島”是高校信息化建設(shè)進(jìn)一步發(fā)展的瓶頸?,F(xiàn)有的信息管理系統(tǒng)數(shù)據(jù)由于運(yùn)行在各自的數(shù)據(jù)管理平臺(tái)上,數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)不同,表格定義、字段定義等也不相同,數(shù)據(jù)不能相互共享,同時(shí)由于更新的時(shí)間點(diǎn)也不一樣,同一數(shù)據(jù)往往還存在出入,降低了數(shù)據(jù)的信任度。涉及到各部門的數(shù)據(jù),還是需要用傳統(tǒng)的方法,經(jīng)常性地需要重復(fù)收集數(shù)據(jù),按要求制作各種表格,整天忙于這些“雜事”,增加基層班主任、辦公干事等工作人員的工作量,增加學(xué)校的人力成本以致大家都以“表哥表妹”進(jìn)行互稱調(diào)侃。辦工流程也沒有優(yōu)化,數(shù)據(jù)的審核,提交還是利用傳統(tǒng)方法,需要數(shù)據(jù)錄入口人員簽名,部門蓋章,領(lǐng)導(dǎo)簽字,過程繁瑣,沒有發(fā)揮信息化建設(shè)的應(yīng)有作用。
解決“信息孤島”的唯一途徑就是建立校級(jí)層面的,能提供給全校共享的數(shù)據(jù)中心。只有這樣,決策層領(lǐng)導(dǎo)才能通過統(tǒng)一數(shù)據(jù)入口,及時(shí)獲取校級(jí)層面的統(tǒng)計(jì)數(shù)據(jù),做出正確地決策;職業(yè)部門通過統(tǒng)一的數(shù)據(jù)入口查詢本部門員工的完整信息;教師與學(xué)生通過一鍵登錄查看或更新自己的信息。只有這樣,才能保證數(shù)據(jù)的一致性,提高數(shù)據(jù)的信任度,職業(yè)部門的數(shù)據(jù)才能共享,不需要重復(fù)收集數(shù)據(jù),降低了學(xué)校的人力成本。
數(shù)據(jù)中心的建立,應(yīng)基于現(xiàn)有的信息管理系統(tǒng)和其中的數(shù)據(jù)。一方面保護(hù)現(xiàn)有信息化建設(shè)的投資,另一方面,充分利用現(xiàn)有的數(shù)據(jù)。調(diào)研學(xué)?,F(xiàn)有信息管理系統(tǒng)的數(shù)據(jù)存儲(chǔ)平臺(tái),分析數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)、表格定義、字段定義,對(duì)現(xiàn)有數(shù)據(jù)進(jìn)行清洗與整合,提供給學(xué)校層面的門戶信息管理系統(tǒng)及后續(xù)可能加入的部門信息管理系統(tǒng)共享數(shù)據(jù)。數(shù)據(jù)中心的建立,還應(yīng)該基于全校的視角,應(yīng)對(duì)整個(gè)學(xué)校的辦工流程進(jìn)行優(yōu)化,改變傳統(tǒng)的數(shù)據(jù)收集,處理、分發(fā),審核、簽名等辦公模式,實(shí)現(xiàn)“網(wǎng)上辦公”與“無紙化辦公”。
目前所流行的數(shù)據(jù)清洗與整合的方法是通過數(shù)據(jù)聯(lián)邦技術(shù)進(jìn)行分布式數(shù)據(jù)訪問,將企事業(yè)單位中各部門業(yè)務(wù)系統(tǒng)需要的數(shù)據(jù)抽取到對(duì)業(yè)務(wù)系統(tǒng)更方便、更集中的數(shù)據(jù)端進(jìn)行統(tǒng)一存儲(chǔ)和管理。分布式數(shù)據(jù)訪問所使用的技術(shù)是企業(yè)信息集成EII(Enterprise Information Integration),數(shù)據(jù)交換使用的則是ETL(Extract Transform Load)技術(shù),ETL是構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的重要組成部分,EII 是數(shù)據(jù)聯(lián)邦技術(shù)將大量的異構(gòu)數(shù)據(jù)源作為一個(gè)單一的、統(tǒng)一的數(shù)據(jù)視圖的方式實(shí)時(shí)的提供給一個(gè)用戶或系統(tǒng)。在目前的高校信息自動(dòng)化系統(tǒng)建設(shè)的中,ETL和EII技術(shù)通常是放到一起的,這樣才能更好的適應(yīng)高校的信息化建設(shè)數(shù)據(jù)集成要求。
信息化建設(shè)中的數(shù)據(jù)清洗與整合主要是為了實(shí)現(xiàn)數(shù)據(jù)共享的目的,建立校級(jí)層面共享的數(shù)據(jù)中心,可以用于智能統(tǒng)計(jì)決策、業(yè)務(wù)數(shù)據(jù)的管理以及基于數(shù)據(jù)清洗與整合平臺(tái)的建設(shè),但是這需要數(shù)據(jù)清洗與整合工具與WebSphereMQ服務(wù)、WebServices服務(wù)等進(jìn)行對(duì)接,這樣才有利于數(shù)據(jù)的共享和實(shí)時(shí)傳輸。
目前國(guó)內(nèi)外已經(jīng)有不少關(guān)于數(shù)據(jù)清洗與整合方面的設(shè)計(jì)方案,許多數(shù)據(jù)庫(kù)生產(chǎn)廠家也發(fā)布了針對(duì)異構(gòu)數(shù)據(jù)清洗與整合的解決方案。如 IBM的 DB2聯(lián) 邦 系 統(tǒng)、Sybase 的 DI(Data Integration)、BEA的DSP(Data Service Platform),SQL Server 的 Integration Services等 都有各自的數(shù)據(jù)集成特點(diǎn)。許多生產(chǎn)數(shù)據(jù)庫(kù)管理軟件的供應(yīng)商都提供數(shù)據(jù)抽取工具,這些數(shù)據(jù)清洗與整合工具在一定程度上實(shí)現(xiàn)了數(shù)據(jù)的清洗與整合。但這些數(shù)據(jù)清洗與整合工具大多數(shù)都不能實(shí)現(xiàn)數(shù)據(jù)集成的自動(dòng)化,開發(fā)人員還需利用這些集成工具建立相應(yīng)的管理控制程序。
還有其他公司提供的產(chǎn)品,比如IBM公司的WebSphere DataStagel就是一套有比較完善的解決方案的系統(tǒng)。DataStage 提供了圖形框架,可以使用該框架通過可視化圖形界面來設(shè)計(jì)和運(yùn)行用于數(shù)據(jù)清洗與整合的任務(wù),可以從多個(gè)不同平臺(tái)的數(shù)據(jù)庫(kù)中抽取需要的數(shù)據(jù),進(jìn)行數(shù)據(jù)清洗和數(shù)據(jù)轉(zhuǎn)換,再加載到各個(gè)應(yīng)用系統(tǒng)數(shù)據(jù)庫(kù)里面。由于每一步操作都是在可視化圖形界面上進(jìn)行的,所以使用很廣,做設(shè)計(jì)人員的技術(shù)要求不需要太高就可以完成。DataStage支持高度復(fù)雜的數(shù)據(jù)規(guī)則和海量數(shù)據(jù)的清洗與轉(zhuǎn)換,以及大量的預(yù)先構(gòu)建好的數(shù)據(jù)集成任務(wù),如排序、合并、連接、過濾等,以便于高效地訪問用于清洗與轉(zhuǎn)換的關(guān)系數(shù)據(jù)庫(kù)。
在數(shù)據(jù)清洗與整合方面,國(guó)內(nèi)也有不少研究比較完善的成果,例如康賽信息技術(shù)有限公司的DCI數(shù)據(jù)交換平臺(tái),集數(shù)據(jù)抽取、清洗、轉(zhuǎn)換及加載于一體,通過標(biāo)準(zhǔn)化各個(gè)業(yè)務(wù)系統(tǒng)產(chǎn)生的數(shù)據(jù),向數(shù)據(jù)中心/倉(cāng)庫(kù)提供可靠的數(shù)據(jù),實(shí)現(xiàn)部門內(nèi)的應(yīng)用和跨部門的應(yīng)用的業(yè)務(wù)數(shù)據(jù)間單向整合、雙向整合和多級(jí)數(shù)據(jù)共享,進(jìn)而為實(shí)現(xiàn)商業(yè)智能、數(shù)據(jù)挖掘、應(yīng)用集成、正確決策分析等提供必要的數(shù)據(jù)支撐。除了支持基礎(chǔ)的數(shù)據(jù)清洗整合工作以外,還結(jié)合實(shí)際的問題做了大量的擴(kuò)展,提供了數(shù)據(jù)整合管理系統(tǒng)(DCI-MS)、智能調(diào)度、可視化設(shè)計(jì)等輔助系統(tǒng),以支持業(yè)務(wù)化的數(shù)據(jù)監(jiān)控和管理、數(shù)據(jù)源管理、多引擎管理、問題數(shù)據(jù)管理和可視化業(yè)務(wù)建模等。
在數(shù)據(jù)集成的實(shí)際應(yīng)用上,某大學(xué)的信息中心在學(xué)校的教育教學(xué)信息化建設(shè)中使用數(shù)據(jù)聯(lián)邦技術(shù)建立了數(shù)據(jù)集成機(jī)制,通過數(shù)據(jù)倉(cāng)庫(kù)對(duì)各個(gè)業(yè)務(wù)系統(tǒng)之間的數(shù)據(jù)清洗與整合進(jìn)行統(tǒng)一的管理和監(jiān)控。數(shù)據(jù)交換平臺(tái)會(huì)根據(jù)學(xué)校各部門的數(shù)據(jù)存儲(chǔ)結(jié)構(gòu),建立一個(gè)共享數(shù)據(jù)中心,將學(xué)?;A(chǔ)數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)存儲(chǔ)標(biāo)準(zhǔn)進(jìn)行有效的管理,再通過有效的機(jī)制及時(shí)共享到全校各業(yè)務(wù)系統(tǒng)中。對(duì)各業(yè)務(wù)系統(tǒng)中數(shù)據(jù)標(biāo)準(zhǔn)不一致的情況,要經(jīng)過數(shù)據(jù)的清洗與轉(zhuǎn)換,達(dá)到數(shù)據(jù)中心的規(guī)范要求才能進(jìn)行數(shù)據(jù)通信,實(shí)時(shí)的共享給各個(gè)需要的業(yè)務(wù)系統(tǒng)里去,徹底解決高校的“信息孤島”問題。
在數(shù)據(jù)清洗與數(shù)據(jù)整合中,有比較成熟的開發(fā)技術(shù)與工具軟件和可借鑒的其它高校的解決方案。但數(shù)據(jù)清洗與數(shù)據(jù)整合是一個(gè)系統(tǒng)工程,每個(gè)高?,F(xiàn)有的數(shù)據(jù)庫(kù)管理平臺(tái)不盡相同,面對(duì)的辦公流程不盡相同,利用數(shù)據(jù)的辦公流程不盡相同。本項(xiàng)目以江西外語外貿(mào)職業(yè)學(xué)院為例,在現(xiàn)有業(yè)務(wù)部門的數(shù)據(jù)管理系統(tǒng)基礎(chǔ)上,面對(duì)學(xué)校的實(shí)際問題,研究數(shù)據(jù)清洗與整合的技術(shù)方案與業(yè)務(wù)優(yōu)化問題,開發(fā)適合本校共享的數(shù)據(jù)中心。
江西外語外貿(mào)職業(yè)學(xué)院的信息化建設(shè)發(fā)展迅速,現(xiàn)有科研系統(tǒng)、學(xué)工系統(tǒng)、財(cái)務(wù)系統(tǒng)、教務(wù)系統(tǒng)、圖書系統(tǒng)等多個(gè)信息管理系統(tǒng),但這些信息管理系統(tǒng)的數(shù)據(jù)管理平臺(tái)各不相同,有SQL Server,Oracle,MySql等數(shù)據(jù)庫(kù)系統(tǒng),表格的定義,字段的含義,字段等各不相同。為了學(xué)校的長(zhǎng)遠(yuǎn)發(fā)展,迫切需要對(duì)現(xiàn)有的數(shù)據(jù)管理系統(tǒng)的數(shù)據(jù)進(jìn)行清洗與整合,建立一個(gè)全校能夠共享的數(shù)據(jù)中心。
為了項(xiàng)目的順利實(shí)施,須做好一些前期工作,明確研究?jī)?nèi)容,研究目標(biāo),需要解決的關(guān)鍵問題,然后制定技術(shù)路線。
(一)研究?jī)?nèi)容
1.研究學(xué)校現(xiàn)有業(yè)務(wù)系統(tǒng)平臺(tái)的數(shù)據(jù)結(jié)構(gòu)、表格定義、字段含義,字段長(zhǎng)度、數(shù)據(jù)類型、數(shù)據(jù)安全機(jī)制等;
2.研究抽取現(xiàn)有業(yè)務(wù)平臺(tái)數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行清洗,對(duì)數(shù)據(jù)進(jìn)行整合與優(yōu)化的技術(shù)方案;
3.結(jié)合學(xué)校各職能部門及師生員工近期問題與未來對(duì)數(shù)據(jù)共享的需求,研究學(xué)校共享數(shù)據(jù)中心的數(shù)據(jù)利用方案等。
(二)研究目標(biāo):開發(fā)對(duì)現(xiàn)有管理系統(tǒng)平臺(tái)的數(shù)據(jù)清洗與整合的軟件實(shí)驗(yàn)性平臺(tái),建立學(xué)校層面的數(shù)據(jù)共享中心,提出符合學(xué)校實(shí)際情況的,切實(shí)可行的,適應(yīng)學(xué)校近期與未來長(zhǎng)遠(yuǎn)發(fā)展的信息化建設(shè)的技術(shù)解決方案與數(shù)據(jù)利用方案,徹底解決學(xué)校的“信息孤島”問題。
(三)需解決的關(guān)鍵問題:
擬解決的關(guān)鍵問題的有三個(gè),第一,在保證數(shù)據(jù)隱私的情況下,盡可能獲取更多的樣本數(shù)據(jù);第二是數(shù)據(jù)抽取的訪問速度與并發(fā)控制問題;第三是數(shù)據(jù)利用如何符合職能部門及師生員工近期與未來對(duì)數(shù)據(jù)共享的需求。
(四)項(xiàng)目實(shí)施技術(shù)路線
下面以江西外語外貿(mào)職業(yè)學(xué)院為例,介紹高校信息化建設(shè)的技術(shù)路線。見圖1。
圖1 建立校級(jí)數(shù)據(jù)中心數(shù)據(jù)清洗與數(shù)據(jù)整合技術(shù)路線
在上述信息化建設(shè)的技術(shù)路線中,最關(guān)鍵的就是開發(fā)小范圍網(wǎng)絡(luò)數(shù)據(jù)清洗整合實(shí)驗(yàn)平臺(tái),開發(fā)實(shí)驗(yàn)平臺(tái)應(yīng)按以下四個(gè)步驟進(jìn)行。
對(duì)學(xué)校各部門的業(yè)務(wù)系統(tǒng)及日常辦公數(shù)據(jù)進(jìn)行調(diào)研分析。
確定需要數(shù)據(jù)清洗的具體范圍、確認(rèn)各系統(tǒng)的業(yè)務(wù)流程、原系統(tǒng)使用數(shù)據(jù)庫(kù)平臺(tái)及版本,和數(shù)據(jù)存儲(chǔ)格式。推算出需要清洗數(shù)據(jù)量的多少,需要清洗的數(shù)據(jù)業(yè)務(wù)字典表,需要清洗的數(shù)據(jù)關(guān)聯(lián)關(guān)系,需要清洗的數(shù)據(jù)備份腳本等。
抽取各業(yè)務(wù)系統(tǒng)數(shù)據(jù)與日常辦公樣本數(shù)據(jù),對(duì)全校數(shù)據(jù)進(jìn)行統(tǒng)一管理。
抽取各業(yè)務(wù)系統(tǒng)與日常辦樣本數(shù)據(jù)的數(shù)據(jù)庫(kù)數(shù)據(jù)與文件數(shù)據(jù),統(tǒng)一各業(yè)務(wù)部門的業(yè)務(wù)標(biāo)識(shí),制定全校統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)數(shù)據(jù)字典,對(duì)全校的數(shù)據(jù)庫(kù)數(shù)據(jù)與文件數(shù)據(jù)進(jìn)行統(tǒng)一管理。
對(duì)現(xiàn)有數(shù)據(jù)進(jìn)行清洗。這是項(xiàng)目研究的核心任務(wù),為確保項(xiàng)目順利進(jìn)行,分三個(gè)小步驟進(jìn)行。首先應(yīng)對(duì)現(xiàn)有數(shù)據(jù)進(jìn)行預(yù)清洗,修改錯(cuò)誤數(shù)據(jù),補(bǔ)齊缺失數(shù)據(jù),拋棄重復(fù)數(shù)據(jù),統(tǒng)一數(shù)據(jù)格式,刪除正態(tài)分布異常數(shù)據(jù),等。然后對(duì)數(shù)據(jù)進(jìn)行建模。數(shù)據(jù)建模采用PowerdeSigner工具,數(shù)據(jù)模型必須真實(shí)反應(yīng)學(xué)?,F(xiàn)有業(yè)務(wù)關(guān)系,便于開發(fā)人員理解,數(shù)據(jù)結(jié)構(gòu)精簡(jiǎn)有效,符合未來高校信息化的發(fā)展,同時(shí)兼容未來大數(shù)據(jù)發(fā)展,人臉識(shí)別數(shù)據(jù)特殊存儲(chǔ)等。最后進(jìn)行數(shù)據(jù)清洗。采用Kettle Spoon工具對(duì)數(shù)據(jù)進(jìn)行清洗,并采用oracle數(shù)據(jù)庫(kù)對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)。ETL開源工具如Kettle是一款開源的ETL工具,純JAVA編寫,可以在Window、Linux、Unix上運(yùn)行,數(shù)據(jù)抽取高效穩(wěn)定。在Kettle Spoon工具中編寫JAVA代碼進(jìn)行業(yè)務(wù)控制,并調(diào)用Job實(shí)現(xiàn)數(shù)據(jù)的實(shí)時(shí)清洗。在預(yù)算允許的情況下可申請(qǐng)購(gòu)買第三方數(shù)據(jù)清洗工具及數(shù)據(jù)中心工具對(duì)數(shù)據(jù)進(jìn)行清洗存儲(chǔ)。第四,建設(shè)統(tǒng)一開放靈活的數(shù)據(jù)傳輸接口。
采用企業(yè)總線ESB(開源框架Mule ESB,或付費(fèi)ORACLE ESB等架構(gòu)進(jìn)行設(shè)計(jì))作為數(shù)據(jù)傳輸通訊的開放標(biāo)準(zhǔn)接口。為各業(yè)務(wù)系統(tǒng)提供標(biāo)準(zhǔn)業(yè)務(wù)數(shù)據(jù),達(dá)到數(shù)據(jù)清洗后保障現(xiàn)有數(shù)據(jù)的有效性及一致性要求。為今后的系統(tǒng)運(yùn)營(yíng)數(shù)據(jù)有效性提供良好的支撐。
具體實(shí)驗(yàn)方案見下圖2:
圖2 數(shù)據(jù)清洗與數(shù)據(jù)整合實(shí)驗(yàn)方案
結(jié)束語:信息化建設(shè)是一個(gè)系統(tǒng)工程,它不僅是技術(shù)的問題,更是人的問題與管理的問題,且每個(gè)單位所面對(duì)的情況都各不相同,所以在項(xiàng)目開始之前,必須做好充分的調(diào)研,技術(shù)上的儲(chǔ)備,建立科學(xué)的方案。建立校級(jí)數(shù)據(jù)中心可以解決“信息孤島”所產(chǎn)生的問題。其中的核心技術(shù),就是對(duì)現(xiàn)有業(yè)務(wù)系統(tǒng)的數(shù)據(jù)進(jìn)行清洗與整合。