李玉平
(齊齊哈爾工程學(xué)院,黑龍江 齊齊哈爾 161003)
Excel有很多種可以對數(shù)據(jù)進(jìn)行處理與分析,比如:數(shù)據(jù)處理函數(shù)、數(shù)據(jù)的合并計(jì)算、數(shù)據(jù)的匯總、數(shù)據(jù)的分類、數(shù)據(jù)的篩選等,這些處理方法可以實(shí)現(xiàn)快速的處理。除此之外,Excel還可以利用時間序列、回歸分析、概率統(tǒng)計(jì)、均值判斷等技術(shù)進(jìn)行數(shù)據(jù)的處理工作。Excel的優(yōu)勢是操作簡便,容易掌握,目前普遍被各大高校所應(yīng)用。但Excel也存在明顯缺陷,即在數(shù)據(jù)的采集、加載、處理等環(huán)節(jié)上還存在精度低、準(zhǔn)確性差的問題,需要借助其他的手段進(jìn)行輔助,如VBA宏編程等。
在ETL數(shù)據(jù)處理方面,有一些數(shù)據(jù)維護(hù)處理工具,比如:Microsoft公司的DTS、Oracle公司的Warehouse Builder以及IBM公司的DataStage等。數(shù)據(jù)處理工具的優(yōu)勢是可以獨(dú)立完成多數(shù)據(jù)源之間的數(shù)據(jù)維護(hù)、轉(zhuǎn)換以及抽取工作,但其缺點(diǎn)是想要處理復(fù)雜的數(shù)據(jù)局,需要利用DBA級別的數(shù)據(jù)庫技術(shù)進(jìn)行幫助,尤其是針對一些數(shù)據(jù)需求復(fù)雜、時效性差、穩(wěn)定性不足的數(shù)據(jù)轉(zhuǎn)換任務(wù),依靠單一的ETL數(shù)據(jù)處理工具還是很難辦到[1]。綜上所述,在ETL數(shù)據(jù)處理工作中,依靠一種或者集中技術(shù),很難完成工作目標(biāo)。因此,想要提高高校數(shù)據(jù)處理工作,需要在頂層數(shù)據(jù)治理的框架下,利用建立數(shù)據(jù)處理標(biāo)準(zhǔn)對數(shù)據(jù)處理系統(tǒng)進(jìn)行研發(fā),利用科學(xué)的人員調(diào)配提升數(shù)據(jù)處理工作的準(zhǔn)確性、可靠性與時效性。做到在高校計(jì)算機(jī)數(shù)據(jù)處理工作中,數(shù)據(jù)可以得到復(fù)用以及數(shù)據(jù)的實(shí)時共享,彌補(bǔ)單一ETL數(shù)據(jù)處理工具的不足。
在高校中進(jìn)行信息化建設(shè),所面臨的工作最難、問題最多的環(huán)節(jié)就是進(jìn)行數(shù)據(jù)從復(fù)雜多樣的數(shù)據(jù)源中加載、轉(zhuǎn)換以及抽取出來。這是由于目前高校信息化建設(shè)中所應(yīng)用數(shù)據(jù)都是來自不同操作系統(tǒng)、不同平臺、不同時期的長久沉淀資產(chǎn),很多數(shù)據(jù)都出現(xiàn)了準(zhǔn)確性差、數(shù)據(jù)難考證的問題,對于高校的教學(xué)工作以及管理研究工作都增添了阻礙。
數(shù)據(jù)報表工作的本質(zhì)是ETL的一次閉環(huán)過程,主要包括數(shù)據(jù)的采集、加工以及上報3個環(huán)節(jié)。在高校中,數(shù)據(jù)報表既可以實(shí)現(xiàn)學(xué)校的具體工作,也可以反映學(xué)校的具體情況。教師或者學(xué)校管理人員可以根據(jù)報表的數(shù)據(jù),發(fā)現(xiàn)學(xué)校、學(xué)生是否存在問題,并及時尋找解決方案。高效報表需要時效性高、專業(yè)性強(qiáng)的特點(diǎn)。但目前很多高校對于數(shù)據(jù)報表的數(shù)據(jù)庫管理混亂,缺乏統(tǒng)一標(biāo)志,導(dǎo)致管理者在尋找報表時,不能根據(jù)ID快速獲取想要的報表,需要對文件進(jìn)行逐一篩選,大大降低了工作效率。除此之外,在數(shù)據(jù)的錄入工作時,如果相關(guān)人員對于計(jì)算機(jī)的掌握程度不足,會導(dǎo)致錯誤率過高,影響學(xué)校管理者的決策。
學(xué)校信息系統(tǒng)的業(yè)務(wù)邏輯需要ETL數(shù)據(jù)處理工作的幫助,對于學(xué)校的財務(wù)部門來說,其需要利用教務(wù)系統(tǒng)、學(xué)工系統(tǒng)等數(shù)據(jù)進(jìn)行查閱交換,來實(shí)現(xiàn)繳費(fèi)管理工作。對學(xué)工部門來說,想要將各種獎學(xué)金、助學(xué)金、校園貸款等成功發(fā)放,需要對數(shù)據(jù)庫中的學(xué)生成績、家庭狀況等指標(biāo)進(jìn)行查閱,以確保學(xué)生滿足學(xué)校標(biāo)準(zhǔn)。這些業(yè)務(wù)往往都是由學(xué)校的業(yè)務(wù)部門進(jìn)行完成。但由于數(shù)據(jù)梳理的規(guī)范不統(tǒng)一,導(dǎo)致不同數(shù)據(jù)庫對于同一類型數(shù)據(jù)的實(shí)現(xiàn)形式存在差異,且數(shù)據(jù)格式多樣,不能及時提供業(yè)務(wù)部門所需的數(shù)據(jù),降低了各部門之間的辦事效率,加重相關(guān)人員的工作負(fù)擔(dān)。
高校的信息集成任務(wù)一般分為數(shù)據(jù)集成、門戶集成以及認(rèn)證集成。目前,我國各高校的校園信息平臺基本搭建完成,學(xué)校的信息平臺所能提供的數(shù)據(jù)也愈發(fā)完善,信息集成的需求也就隨之提高。在實(shí)際操作中,業(yè)務(wù)系統(tǒng)和數(shù)據(jù)中心的集成過程,需要將數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行修改,然后按照統(tǒng)一標(biāo)準(zhǔn)進(jìn)行建模工作,并按照模型的規(guī)格完成數(shù)據(jù)集成工作[2]。這種工作模式由于其開發(fā)周期過長、投資成本大且數(shù)據(jù)集成過程復(fù)雜,導(dǎo)致系統(tǒng)集成工作會占用大量時間,且一旦業(yè)務(wù)信息系統(tǒng)要求過高,數(shù)據(jù)集成工作就會愈發(fā)困難,甚至出現(xiàn)崩潰。因此,想要將數(shù)據(jù)集成工作發(fā)展完善,需要校方利用快速的ETL數(shù)據(jù)處理。
ETL數(shù)據(jù)處理工作即在數(shù)據(jù)源中,進(jìn)行數(shù)據(jù)的抽取、轉(zhuǎn)換以及加載過程,這個過程被稱為project,即一次工程。一次完整的ETL數(shù)據(jù)處理過程一般分為四個步驟,即:數(shù)據(jù)的加載、數(shù)據(jù)的抽取、數(shù)據(jù)的轉(zhuǎn)換以及日志系統(tǒng)。在每個模塊中,又需要配合多種ETL操作指令,這些指令被稱為task,即一個任務(wù)。想要保證每一個數(shù)據(jù)工程的質(zhì)量,需要制定規(guī)范,規(guī)范的制作標(biāo)準(zhǔn)應(yīng)該遵從高校的實(shí)際需要。規(guī)范需要按照三種不同形式來科學(xué)制定。首先,進(jìn)行設(shè)計(jì)規(guī)范,設(shè)計(jì)規(guī)范包含數(shù)據(jù)的轉(zhuǎn)換規(guī)則制定、數(shù)據(jù)集的定義、數(shù)據(jù)源的規(guī)范定義以及數(shù)據(jù)處理流程的規(guī)范制定等。目前,ETL數(shù)據(jù)處理規(guī)范大多利用XML標(biāo)準(zhǔn)文檔進(jìn)行操作。其規(guī)定一份完整的XML文檔需要利用每一項(xiàng)ETL數(shù)據(jù)處理工程來描述。在XML文檔中,一般包含一個根元素,即project。同時,在根元素下面,包含4個子元素,即:Log,Load,Transform以及Extract[3]。除此之外,對于高校ETL數(shù)據(jù)處理規(guī)范的開發(fā)指數(shù),需要依據(jù)數(shù)據(jù)的實(shí)際用途進(jìn)行規(guī)范。開發(fā)規(guī)范由結(jié)構(gòu)規(guī)范、功能規(guī)范以及命名規(guī)范所組成。因?yàn)槭艿紼TL數(shù)據(jù)處理平臺的幫助,技術(shù)平臺得以自主的開發(fā)、生成規(guī)范文件,以減輕工作人員的工作任務(wù)以及節(jié)省大量的時間。維護(hù)規(guī)范是用于用戶數(shù)據(jù)平臺的維護(hù)工作,為數(shù)據(jù)處理作業(yè)中的各種工作起到支撐、檢查作用。
為了增強(qiáng)數(shù)據(jù)的可靠性,需要進(jìn)行嚴(yán)格的事務(wù)控制。ETL數(shù)據(jù)信息處理平臺一般分為4個層面來架構(gòu)數(shù)據(jù)體系。第一層是即ETL的數(shù)據(jù)處理組件庫,其中擁有數(shù)據(jù)加載組件、數(shù)據(jù)轉(zhuǎn)換組件、數(shù)據(jù)清洗組件以及數(shù)據(jù)處理組件。第二層是ETL數(shù)據(jù)任務(wù)執(zhí)行引擎,其可以幫助用戶進(jìn)行數(shù)據(jù)的解析與執(zhí)行工作,服務(wù)器可以根據(jù)當(dāng)前的可用資源以及數(shù)據(jù)作業(yè)的任務(wù)量進(jìn)行工作的協(xié)調(diào)平均,以保證數(shù)據(jù)作業(yè)可以同時進(jìn)行多個任務(wù)。第三層是ETL數(shù)據(jù)作業(yè)編輯,其可以幫助用戶進(jìn)行數(shù)據(jù)的完整作業(yè)處理,并進(jìn)行保存工作,且操作簡便,用戶不需要掌握負(fù)載的標(biāo)稱技術(shù),一樣可以完成作業(yè),為一些計(jì)算機(jī)基礎(chǔ)薄弱的人群帶來了極大的便利,深受此類人群所喜歡。第四層可以實(shí)現(xiàn)ETL作業(yè)的監(jiān)控與調(diào)度,在此層中,用戶可以利用ETL數(shù)據(jù)任務(wù)執(zhí)行引擎將數(shù)據(jù)作業(yè)過程中出現(xiàn)的問題以及作業(yè)完成情況如實(shí)匯報給底層的ETL數(shù)據(jù)監(jiān)控中心,工作人員可以根據(jù)反饋,進(jìn)行數(shù)據(jù)作業(yè)資源的合理分配。
在高校ETL數(shù)據(jù)處理工作中,數(shù)據(jù)的集成主要來自高校內(nèi)部的數(shù)據(jù)報表、各個部門之間的數(shù)據(jù)流轉(zhuǎn)等。在高校中,負(fù)責(zé)計(jì)算機(jī)數(shù)據(jù)處理工作任務(wù)的工作人員可以按照任務(wù)種類分為報表填報人員、業(yè)務(wù)部門的數(shù)據(jù)流轉(zhuǎn)人員以及信息系統(tǒng)集成的技術(shù)專員。除此之外,還需要一些專業(yè)人員對平臺進(jìn)行日常的維護(hù)檢測工作。這些人員所負(fù)責(zé)的任務(wù)往往是重疊的,因此需要做好崗位的分配,以避免出現(xiàn)重復(fù)工作,重復(fù)工作即使工作人員的工作壓力變大,也會影響其工作效率。因此,需要針對ETL數(shù)據(jù)處理用戶角色以及崗位的調(diào)整進(jìn)行合理、科學(xué)的搭配。與此同時,高校的ETL數(shù)據(jù)處理具有跨專業(yè)、跨部門的工作特性,利用ETL數(shù)據(jù)處理工作人員矩陣的建立,可以幫助工作人員進(jìn)行任務(wù)的分解與責(zé)任的界定,確保工作落到每一個人的頭上,并將工作內(nèi)容細(xì)化,以保證工作井然有序的進(jìn)行[4]。ETL數(shù)據(jù)處理工作是隸屬于計(jì)算機(jī)范疇內(nèi)的工作,其工作量雖然不大,但是需要耐心、細(xì)致,因?yàn)橐粋€數(shù)據(jù)的處理不當(dāng),可能會影響整體的工作效果。因此,各部門之間的管理人員,需要將工作內(nèi)容明確下發(fā),工作人員之間需要積極溝通,避免出現(xiàn)因溝通不暢導(dǎo)致工作重疊,影響工作效率,另外,管理人員需要及時核對數(shù)據(jù)的準(zhǔn)確性,避免數(shù)據(jù)出現(xiàn)錯誤,實(shí)現(xiàn)多重保險。爭取各部門、各環(huán)節(jié)之間的協(xié)調(diào)運(yùn)轉(zhuǎn),提升工作效率,提高工作質(zhì)量,使ETL數(shù)據(jù)處理工作可以在高校中平穩(wěn)運(yùn)行,為更多的學(xué)生創(chuàng)造學(xué)習(xí)空間,提升資源的質(zhì)量與信息服務(wù)水平。
ETL數(shù)據(jù)處理工作,需要運(yùn)用科學(xué)的方法,制定相應(yīng)的規(guī)則,并找出其中所存在的問題,搭建ETL數(shù)據(jù)處理平臺,合理的調(diào)配各個崗位之間的工作,使ETL數(shù)據(jù)可以廣泛地應(yīng)用于各高校的信息建設(shè)當(dāng)中,幫助高校提升信息化建設(shè)水平。