• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      ETL數(shù)據(jù)治理在高校信息化建設(shè)中的研究與應(yīng)用

      2020-08-04 11:32陳鋒
      中國教育信息化·高教職教 2020年7期
      關(guān)鍵詞:數(shù)據(jù)治理數(shù)據(jù)處理

      陳鋒

      摘 ? 要:文章首先對ETL數(shù)據(jù)處理及應(yīng)用價值進行了定義和表述,并就ETL數(shù)據(jù)處理工作在高校內(nèi)的具體應(yīng)用場景和所面臨的問題進行介紹;其次對當前高校開展ETL數(shù)據(jù)處理工作的幾個主流解決方案進行了剖析,并圍繞ETL數(shù)據(jù)治理工作中的ETL數(shù)據(jù)技術(shù)平臺建設(shè)、ETL數(shù)據(jù)規(guī)范及從業(yè)人員隊伍的整合優(yōu)化等問題進行了詳細闡述與分析;最后對開展ETL數(shù)據(jù)治理的意義進行了總結(jié)。

      關(guān)鍵詞:ETL;數(shù)據(jù)處理;數(shù)據(jù)治理;數(shù)據(jù)規(guī)范

      中圖分類號:G647;TP311.13 文獻標志碼:A 文章編號:1673-8454(2020)13-0068-03

      ETL即Extract-Transform-Load,是指將數(shù)據(jù)從數(shù)據(jù)來源端經(jīng)抽取(extract)、轉(zhuǎn)換(transform)、加載(load)至數(shù)據(jù)目的端的處理過程。在大數(shù)據(jù)、移動應(yīng)用技術(shù)蓬勃發(fā)展的今天,高校信息化建設(shè)正由信息管理向提供優(yōu)質(zhì)信息服務(wù)方向轉(zhuǎn)變,當前制約高校信息化發(fā)展的瓶頸不在于智能化的多終端數(shù)據(jù)采集,不在于圖形化個性化的數(shù)據(jù)展現(xiàn),而在于如何對數(shù)據(jù)進行精準快速處理。ETL數(shù)據(jù)處理作為院校在信息管理、信息化服務(wù)中的一項最基本最重要的工作,它的時效性、準確性及可重用性將直接影響高校信息化服務(wù)的質(zhì)量與效能。

      一、ETL數(shù)據(jù)處理在高校當前的應(yīng)用場景和所面臨的問題

      在高校信息化建設(shè)進程中,問題最多、工作量最大的環(huán)節(jié)就是從各種數(shù)據(jù)源抽取、轉(zhuǎn)換和加載數(shù)據(jù)的操作,高校信息化建設(shè)中沉淀產(chǎn)生的數(shù)據(jù)來自不同時期、不同硬件平臺、不同操作系統(tǒng),數(shù)據(jù)源的多樣性造成“臟數(shù)據(jù)”的大量存在。這些“臟數(shù)據(jù)”給學(xué)校教學(xué)、科研、管理等各項工作的開展都帶來一定困難。

      1.高校的各種數(shù)據(jù)統(tǒng)計報表離不開ETL數(shù)據(jù)處理

      數(shù)據(jù)報表工作主要包括數(shù)據(jù)的收集、加工和上報三個工作環(huán)節(jié),數(shù)據(jù)報表工作的本質(zhì)就是一次ETL閉環(huán)過程。高校數(shù)據(jù)報表既有反映全校概況的,如高基報表、財務(wù)預(yù)決算報表;也有客觀展現(xiàn)學(xué)校具體工作的,如專業(yè)評估報表、教科研報表等??傮w來說高校報表具有專業(yè)性強、指標體系復(fù)雜、時效性高等特點。在報表工作中,由于高校業(yè)務(wù)數(shù)據(jù)庫之間缺乏統(tǒng)一的標志,表示同一對象的數(shù)據(jù)庫記錄的ID不唯一;此外,用戶在輸入數(shù)據(jù)時,也會出現(xiàn)手工錄入錯誤。這就要求報表人員要掌握計算機數(shù)據(jù)處理相關(guān)技術(shù)和方法。

      2.高校的信息業(yè)務(wù)邏輯離不開ETL數(shù)據(jù)處理

      ETL數(shù)據(jù)處理工作與高校信息系統(tǒng)的業(yè)務(wù)邏輯密不可分,如學(xué)工部門的獎勤助貸管理要根據(jù)學(xué)生家庭經(jīng)濟狀況、個人成績等指標進行量化賦分換算;財務(wù)部門的繳費管理要與學(xué)工系統(tǒng)、教務(wù)系統(tǒng)進行數(shù)據(jù)交換。以往這些業(yè)務(wù)數(shù)據(jù)工作由學(xué)校業(yè)務(wù)部門獨立完成。由于缺乏必要數(shù)據(jù)處理規(guī)范,不同數(shù)據(jù)庫對同一數(shù)據(jù)類型的實現(xiàn)形式不同,不同組織采用不同格式表示數(shù)據(jù),從而導(dǎo)致業(yè)務(wù)部門各自的業(yè)務(wù)數(shù)據(jù)邏輯無法實現(xiàn)共用,其建立的計算機數(shù)據(jù)處理過程無法被復(fù)制調(diào)用。

      3.高校內(nèi)部的信息系統(tǒng)集成離不開ETL數(shù)據(jù)處理

      隨著高校數(shù)字校園信息平臺的逐漸成熟與完善,業(yè)務(wù)信息系統(tǒng)與信息平臺的集成需求也越來越多。信息系統(tǒng)的集成主要包括認證集成、門戶集成和數(shù)據(jù)集成,其中數(shù)據(jù)集成是信息系統(tǒng)集成的核心建設(shè)內(nèi)容。業(yè)務(wù)系統(tǒng)與數(shù)據(jù)中心集成過程中需要先修改數(shù)據(jù)標準,按其數(shù)據(jù)標準進行數(shù)據(jù)建模,最后依據(jù)數(shù)據(jù)模型來完成數(shù)據(jù)集成。這種傳統(tǒng)的數(shù)據(jù)集成方式開發(fā)周期過長,且在業(yè)務(wù)集成過程中,學(xué)校的建設(shè)成本很大,業(yè)務(wù)系統(tǒng)數(shù)據(jù)集成工作往往不會一蹴而就,隨著業(yè)務(wù)信息系統(tǒng)迭代升級,信息集成面臨的困難也會越來越多。因此,如何根據(jù)業(yè)務(wù)系統(tǒng)集成需要,高效快速創(chuàng)建ETL數(shù)據(jù)處理過程,縮短數(shù)據(jù)集成開發(fā)工期,降低建設(shè)成本,是高校所面臨的難點問題。

      二、當前高校開展ETL數(shù)據(jù)處理所采用的技術(shù)方案

      1.利用Excel完成ETL數(shù)據(jù)處理工作

      Excel提供了很多數(shù)據(jù)處理和分析方法。目前常見的應(yīng)用于數(shù)據(jù)處理的方法有排序、篩選、分類、匯總、合并計算及各類數(shù)據(jù)處理函數(shù),此外,Excel還提供均值判斷、概率統(tǒng)計、回歸分析、時間序列等數(shù)據(jù)分析方法。Excel工具簡單易學(xué),目前仍是高校開展數(shù)據(jù)處理工作的主流技術(shù)手段,但Excel自身在ETL數(shù)據(jù)采集、數(shù)據(jù)加載環(huán)節(jié)上沒有優(yōu)勢,所以一般通過VBA宏編程等手段輔助完成。

      2.利用專業(yè)的ETL數(shù)據(jù)處理工具

      如IBM公司的DataStage、Oracle的Warehouse Builder、Microsoft公司的DTS都能夠獨立完成多數(shù)據(jù)源的抽取、轉(zhuǎn)換和數(shù)據(jù)維護。但這些專業(yè)ETL數(shù)據(jù)處理工具,一般需要DBA級別的數(shù)據(jù)庫技術(shù)專家參與才能完成復(fù)雜的數(shù)據(jù)加工處理過程,對于一些數(shù)據(jù)需求不穩(wěn)定、時效性要求高的數(shù)據(jù)轉(zhuǎn)換任務(wù),僅依靠專業(yè)的ETL數(shù)據(jù)處理工具還是難以勝任的。

      綜上所述,使用一種或幾種技術(shù)解決方案完成學(xué)校的ETL數(shù)據(jù)處理工作有較大的局限性,只有在頂層數(shù)據(jù)治理框架下通過建立數(shù)據(jù)處理標準規(guī)范,開發(fā)數(shù)據(jù)處理系統(tǒng),科學(xué)調(diào)配人員分工,才能提高學(xué)校數(shù)據(jù)處理工作的時效性、可靠性與準確性,才能讓高校的計算機數(shù)據(jù)處理工作得到共享和復(fù)用。

      三、高校ETL數(shù)據(jù)處理規(guī)范的制定

      ETL數(shù)據(jù)處理就是把數(shù)據(jù)從數(shù)據(jù)源中抽取出來,經(jīng)過清洗、轉(zhuǎn)換、加載到目標數(shù)據(jù)集的過程,在信息技術(shù)中稱之為一次工程(project)。一個完整的ETL數(shù)據(jù)處理工程由數(shù)據(jù)抽取、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)加載、日志系統(tǒng)四個模塊組成。同時,每個模塊下,又由很多具體的ETL操作指令組合而成。每個具體的ETL操作,則稱之為一個任務(wù)(task)。為保證每一個ETL數(shù)據(jù)處理工程(project)都能夠被規(guī)范化設(shè)計、實施和維護,就必須制定出高校自己的ETL數(shù)據(jù)處理規(guī)范。

      高校ETL數(shù)據(jù)處理規(guī)范主要包括設(shè)計規(guī)范、開發(fā)規(guī)范及維護規(guī)范。其中設(shè)計規(guī)范包括數(shù)據(jù)源的規(guī)范化定義和表述,目標數(shù)據(jù)集的規(guī)范化定義和表述,數(shù)據(jù)抽取、轉(zhuǎn)換規(guī)則的定義,數(shù)據(jù)處理流程的規(guī)范化描述;ETL數(shù)據(jù)處理規(guī)范一般采用標準XML文檔來進行描述和約束。即每一項ETL數(shù)據(jù)處理工程(project)都由一份完整的XML文檔進行描述:XML文檔中會包含一個名為“Project ”的根元素,“Project”元素下包含“Extract”、“Transform”、“Load”和“Log”四個子元素,這四個元素標簽分別對應(yīng)于ETL project的數(shù)據(jù)抽取、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)加載和日志四個系統(tǒng)模塊。

      每個ETL數(shù)據(jù)處理工程的基本XML文檔格式如圖1所示。

      其中高校ETL數(shù)據(jù)處理規(guī)范的開發(fā)規(guī)范是指數(shù)據(jù)處理過程在開發(fā)過程中所遵循的章程和約束。開發(fā)規(guī)范包括命名規(guī)范、功能定義規(guī)范和結(jié)構(gòu)規(guī)范,由于ETL技術(shù)平臺的支撐,用戶在圖形界面下可視化搭建數(shù)據(jù)處理作業(yè),技術(shù)平臺能夠自動生成開發(fā)規(guī)范文檔,從而省去了大量工作。維護規(guī)范是指數(shù)據(jù)作業(yè)提交并執(zhí)行后,系統(tǒng)所產(chǎn)生的日志、報告以及其他相關(guān)技術(shù)文檔。數(shù)據(jù)作業(yè)的維護文檔也同樣由技術(shù)平臺自動生成。ETL數(shù)據(jù)處理過程的規(guī)范化,為數(shù)據(jù)處理作業(yè)代碼可讀、維護和可復(fù)用提供了必要保證。

      四、高校ETL數(shù)據(jù)處理信息平臺的建設(shè)

      ETL數(shù)據(jù)處理技術(shù)平臺能夠為高校用戶實現(xiàn)輕量級數(shù)據(jù)傳輸和數(shù)據(jù)交換,可以幫助校方將數(shù)據(jù)從一個系統(tǒng)按照一定的業(yè)務(wù)規(guī)則準確無誤地轉(zhuǎn)換到其他業(yè)務(wù)系統(tǒng)或報表中。數(shù)據(jù)處理技術(shù)平臺提供基于Web架構(gòu)的可視化數(shù)據(jù)操作頁面,允許用戶通過拖拽數(shù)據(jù)處理元件完成數(shù)據(jù)的抽取、轉(zhuǎn)換、清洗、加載等工作任務(wù);同時,嚴格的事務(wù)控制策略和數(shù)據(jù)工作流引擎能夠保證數(shù)據(jù)的安全性和可靠性。ETL數(shù)據(jù)技術(shù)處理平臺自身具有數(shù)據(jù)處理技術(shù)平臺的多層體系架構(gòu)的特性,如圖2所示。

      第一層是ETL數(shù)據(jù)處理組件庫。組件庫包括數(shù)據(jù)連接池組件、數(shù)據(jù)清洗規(guī)則庫組件、數(shù)據(jù)轉(zhuǎn)換規(guī)則庫組件及數(shù)據(jù)加載池組件。其中數(shù)據(jù)連接池和數(shù)據(jù)加載池組件能分別實現(xiàn)Access、CSV、Excel、Oracle 、MySQL等多種類數(shù)據(jù)庫、數(shù)據(jù)文件導(dǎo)入與導(dǎo)出;數(shù)據(jù)轉(zhuǎn)換組件能實現(xiàn)SQL解析、XSL轉(zhuǎn)換、值映射、排序等數(shù)據(jù)轉(zhuǎn)換操作,并允許用戶根據(jù)需求自定義擴充轉(zhuǎn)換規(guī)則;數(shù)據(jù)清洗組件可實現(xiàn)數(shù)據(jù)排序合并、記錄關(guān)聯(lián)、連接、分組、采樣等記錄集操作,也可實現(xiàn)字符串替換、校驗、補全拆分等數(shù)據(jù)字段級操作,并允許用戶根據(jù)需求自定義擴充數(shù)據(jù)清洗規(guī)則。

      第二層是ETL數(shù)據(jù)任務(wù)執(zhí)行引擎。該層根據(jù)用戶提交的數(shù)據(jù)處理作業(yè)進行解析并執(zhí)行;服務(wù)器根據(jù)數(shù)據(jù)作業(yè)任務(wù)量與當前可用資源自動均衡計算負載,保證多個數(shù)據(jù)作業(yè)能并發(fā)執(zhí)行。

      第三層是ETL數(shù)據(jù)作業(yè)編輯。該層提供計算機數(shù)據(jù)處理的可視化編輯與設(shè)計界面,用戶通過簡單拖拽操作就可把底層ETL數(shù)據(jù)處理組件裝配成完整的數(shù)據(jù)處理作業(yè)并保存,用戶無須掌握編程技術(shù)即可完成數(shù)據(jù)作業(yè)開發(fā)與維護。

      第四層是ETL 作業(yè)調(diào)度及監(jiān)控。ETL數(shù)據(jù)任務(wù)執(zhí)行引擎將并行過程中數(shù)據(jù)作業(yè)的執(zhí)行情況反饋至ETL作業(yè)調(diào)度及監(jiān)控層中,系統(tǒng)管理員可以根據(jù)實際需求對多處并發(fā)執(zhí)行的多個數(shù)據(jù)作業(yè)進行資源分配,也可以對執(zhí)行中的數(shù)據(jù)作業(yè)進行暫停、恢復(fù)和中斷操作。

      五、高校ETL用戶角色崗位分工

      高校ETL數(shù)據(jù)處理工作主要來自于高校數(shù)據(jù)報表、內(nèi)部業(yè)務(wù)部門的數(shù)據(jù)流轉(zhuǎn)及業(yè)務(wù)系統(tǒng)的數(shù)據(jù)集成。高校從事計算機數(shù)據(jù)處理工作的人員按類別可大致分為報表填報人員、業(yè)務(wù)部門的數(shù)據(jù)流傳處理人員、負責信息系統(tǒng)集成的校方技術(shù)人員及學(xué)校信息中心的平臺維護技術(shù)人員等。為了能夠優(yōu)化人力資源,避免重復(fù)性勞動,要在學(xué)校數(shù)據(jù)治理層面上對ETL數(shù)據(jù)處理用戶角色及崗位進行整合優(yōu)化,圖3是高校ETL數(shù)據(jù)處理人員角色責任分工矩陣。

      高校ETL數(shù)據(jù)處理具有跨部門、跨專業(yè)的工作特性,高校ETL數(shù)據(jù)處理工作人員角色責任分工矩陣的建立,有利于ETL數(shù)據(jù)處理工作的任務(wù)分解和責任界定;角色責任分工矩陣的創(chuàng)建,能夠幫助高校梳理ETL工作任務(wù)的性質(zhì)和特點,能夠更有效地分解工作任務(wù);高校各部門也可按照責任矩陣中的角色認領(lǐng)工作任務(wù),將工作落地實施;同時,高校也可按照ETL數(shù)據(jù)處理人員角色責任分工矩陣對責任部門設(shè)定可度量的績效考核目標,進行考核評價;通過對高校ETL用戶角色崗位的合理分工與整合,各單位在各個工作環(huán)節(jié)之間銜接得更加緊密、高效和順暢。

      六、結(jié)束語

      基于全??傮w數(shù)據(jù)治理設(shè)計框架的全局ETL數(shù)據(jù)整合方案,能夠?qū)⒁酝咝?nèi)部各部門分散的數(shù)據(jù)處理工作整合起來,將凌亂無序的數(shù)據(jù)處理技術(shù)方法通過ETL數(shù)據(jù)處理技術(shù)平臺統(tǒng)一起來;此外,ETL數(shù)據(jù)整合方案確定了數(shù)據(jù)處理從業(yè)人員的角色分工,讓全校數(shù)據(jù)處理工作人員都能人盡其職、人盡其能,充分挖掘調(diào)動智力資源,避免了人力浪費;基于校標的ETL數(shù)據(jù)處理技術(shù)規(guī)范保證了每一份處理作業(yè)的質(zhì)量和時效性。規(guī)范化標準化的數(shù)據(jù)處理作業(yè)具備可維護性、可移植性、可復(fù)用性,能夠大大減少基層數(shù)據(jù)處理人員的重復(fù)性勞動,能夠大幅提升高校的數(shù)據(jù)質(zhì)量和信息服務(wù)水平。

      參考文獻:

      [1]王卓昊,楊冬菊,徐晨陽.基于ISE算法的分布式ETL任務(wù)調(diào)度策略研究[J].計算機科學(xué),2019(12):1-7.

      [2]趙志.教育大數(shù)據(jù)統(tǒng)計分析平臺設(shè)計與研究[D]. 西安:西安理工大學(xué),2019.

      [3]王夢潔.基于ETL的數(shù)據(jù)集成平臺的設(shè)計與實現(xiàn)[D].西安:西安電子科技大學(xué),2019.

      [4]范江波.基于Oracle ESB建設(shè)校園服務(wù)體系的實踐與探索[J].中國教育信息化,2016(19):57-60.

      [5]潘彬.改進的ETL框架及其數(shù)據(jù)清洗方法研究[D].南充:西華大學(xué),2019.

      [6]周宇.基于模型轉(zhuǎn)換的ETL代碼生成方法研究及應(yīng)用[D].重慶:重慶郵電大學(xué),2018.

      [7]周春紅.ETL在BI項目中的設(shè)計與實現(xiàn)[D].上海:東華大學(xué),2016.

      [8]姚志鵬.數(shù)據(jù)抽取、轉(zhuǎn)換、加載描述規(guī)范的研究與應(yīng)用[D].青島:青島大學(xué),2013.

      (編輯:王天鵬)

      猜你喜歡
      數(shù)據(jù)治理數(shù)據(jù)處理
      認知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補與極大似然估計法*
      ILWT-EEMD數(shù)據(jù)處理的ELM滾動軸承故障診斷
      大數(shù)據(jù)治理模型與治理成熟度評估研究
      MATLAB在化學(xué)工程與工藝實驗數(shù)據(jù)處理中的應(yīng)用
      大數(shù)據(jù)時代城市治理:數(shù)據(jù)異化與數(shù)據(jù)治理
      Matlab在密立根油滴實驗數(shù)據(jù)處理中的應(yīng)用
      基于POS AV610與PPP的車輛導(dǎo)航數(shù)據(jù)處理
      依托陸態(tài)網(wǎng)的GNSS遠程數(shù)據(jù)處理軟件開發(fā)
      三明市| 全椒县| 松江区| 綦江县| 额尔古纳市| 都匀市| 将乐县| 巍山| 宜州市| 玉田县| 思南县| 遂平县| 威远县| 梓潼县| 双峰县| 成安县| 西乌珠穆沁旗| 浦东新区| 聂拉木县| 玛纳斯县| 平乐县| 平果县| 前郭尔| 仁寿县| 瑞金市| 察哈| 东海县| 琼中| 古丈县| 陇川县| 庄浪县| 长岭县| 同江市| 霍城县| 晋城| 泸溪县| 齐河县| 竹溪县| 吉首市| 通江县| 保山市|