• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      煤炭企業(yè)數(shù)據(jù)中心ETL智能化調(diào)度研究*

      2012-12-02 06:02:32王振宇陳紅星劉道園
      中國(guó)煤炭 2012年1期
      關(guān)鍵詞:觸發(fā)器數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)源

      王振宇 陳紅星 劉道園

      (煤炭科學(xué)研究總院,北京市朝陽(yáng)區(qū),100013)

      煤炭企業(yè)數(shù)據(jù)中心ETL智能化調(diào)度研究*

      王振宇 陳紅星 劉道園

      (煤炭科學(xué)研究總院,北京市朝陽(yáng)區(qū),100013)

      ETL(Extraction Transformation Loading)作為煤炭企業(yè)數(shù)據(jù)中心建設(shè)過(guò)程中的重要環(huán)節(jié),通常需要人為調(diào)度來(lái)實(shí)現(xiàn)數(shù)據(jù)的抽取、轉(zhuǎn)換、清洗以及裝載,數(shù)據(jù)挖掘的實(shí)時(shí)性和便利性存在著很大局限。本文對(duì)ETL調(diào)度過(guò)程進(jìn)行研究,提出了智能化調(diào)度策略,實(shí)現(xiàn)了數(shù)據(jù)調(diào)度無(wú)需人工干預(yù)即可按照預(yù)定規(guī)則執(zhí)行。經(jīng)過(guò)煤炭企業(yè)數(shù)字化礦山建設(shè)項(xiàng)目的應(yīng)用實(shí)例檢驗(yàn)后,證明了此方案的可行性。

      數(shù)據(jù)中心 數(shù)據(jù)挖掘 ETL 智能調(diào)度

      隨著國(guó)家對(duì)數(shù)字化礦山建設(shè)的有效推進(jìn)和煤炭企業(yè)的快速發(fā)展,國(guó)內(nèi)很多煤炭企業(yè)都建立了自己的數(shù)據(jù)中心以適應(yīng)各種生產(chǎn)數(shù)據(jù)、經(jīng)營(yíng)數(shù)據(jù)、管理數(shù)據(jù)的爆炸性增長(zhǎng)以及為管理層分析決策提供支持。其中數(shù)據(jù)倉(cāng)庫(kù)是數(shù)據(jù)中心建設(shè)過(guò)程的核心內(nèi)容,而ETL過(guò)程又是數(shù)據(jù)倉(cāng)庫(kù)過(guò)程中的關(guān)鍵一環(huán)。由于井下生產(chǎn)環(huán)境的復(fù)雜性,安全相關(guān)的監(jiān)控?cái)?shù)據(jù)隨時(shí)產(chǎn)生,而當(dāng)前的ETL工具大都需要人為觸發(fā)調(diào)度才能夠?qū)崿F(xiàn)數(shù)據(jù)抽取、轉(zhuǎn)換、裝載到數(shù)據(jù)倉(cāng)庫(kù)。在這種情況下,數(shù)據(jù)達(dá)到數(shù)據(jù)倉(cāng)庫(kù)的時(shí)間存在滯后性,具有很大的誤判率,為數(shù)據(jù)分析決策埋下安全隱患。因此,一種數(shù)據(jù)挖掘過(guò)程的智能化調(diào)度方案急需問(wèn)世。

      1 ETL在數(shù)據(jù)倉(cāng)庫(kù)中的重要性

      由于煤炭企業(yè)各地區(qū)各部門(mén)信息化發(fā)展程度的差異以及各部門(mén)的操作系統(tǒng)平臺(tái)、數(shù)據(jù)模式、數(shù)據(jù)庫(kù)類型等等的不同,導(dǎo)致了資源分散、各部門(mén)各自為政、互不通訊、互不兼容,形成了諸多信息孤島,致使整個(gè)煤炭企業(yè)管理部門(mén)的數(shù)據(jù)應(yīng)用水平不高,綜合分析能力較弱,難以為決策者提供綜合、高效、準(zhǔn)確的信息。企業(yè)生產(chǎn)經(jīng)營(yíng)活動(dòng)所產(chǎn)生的信息量逐漸增大,真正具有直接利用價(jià)值的數(shù)據(jù)卻很少,需要對(duì)大量的數(shù)據(jù)信息進(jìn)行更深層次地過(guò)濾與分折,以發(fā)現(xiàn)和挖掘內(nèi)在關(guān)聯(lián)、有利于提高企業(yè)競(jìng)爭(zhēng)力、為領(lǐng)導(dǎo)決策提供依據(jù)和用戶所需要的信息。這就是企業(yè)競(jìng)爭(zhēng)對(duì)數(shù)據(jù)中心建設(shè)的需要,而數(shù)據(jù)中心建立的首要問(wèn)題就是ETL過(guò)程:按照預(yù)先定義的規(guī)則,將分布在多處的數(shù)據(jù)源數(shù)據(jù)經(jīng)過(guò)清洗、過(guò)濾匯聚到規(guī)模龐大的數(shù)據(jù)倉(cāng)庫(kù)中。

      2 ETL體系架構(gòu)及功能描述

      2.1 體系架構(gòu)

      數(shù)據(jù)中心把數(shù)據(jù)源和目標(biāo)數(shù)據(jù)庫(kù)分開(kāi),系統(tǒng)從最左邊的數(shù)據(jù)源開(kāi)始抽取數(shù)據(jù),經(jīng)過(guò)清洗、轉(zhuǎn)換后傳輸裝載到右邊的目標(biāo)數(shù)據(jù)庫(kù)。數(shù)據(jù)中心整體框架示意圖如圖1所示。

      圖1 數(shù)據(jù)中心整體框架示意圖

      2.2 數(shù)據(jù)抽取

      在同一業(yè)務(wù)系統(tǒng)中可能會(huì)遇到多種數(shù)據(jù)源的情況,因此要對(duì)各種工具提供的數(shù)據(jù)源接口類型深入了解。比如,針對(duì)同一種數(shù)據(jù)庫(kù)使用原廠商自己的專用接口還是通用接口(JDBC/ODBC),數(shù)據(jù)抽取的效率將會(huì)有較大差別,這直接影響到在有限的時(shí)間內(nèi)能不能完成預(yù)訂的數(shù)據(jù)交換任務(wù)。考慮到數(shù)據(jù)交換的擴(kuò)展性和通用性,應(yīng)該盡可能地支持常用數(shù)據(jù)源對(duì)象。目前,煤炭系統(tǒng)數(shù)據(jù)中心常用的數(shù)據(jù)源對(duì)象(數(shù)據(jù)源類型)包括數(shù)據(jù)庫(kù)、數(shù)據(jù)文件和消息隊(duì)列3種。

      (1)數(shù)據(jù)庫(kù)。主要支持的數(shù)據(jù)庫(kù)包括Oracle、SQL Server、DB2、MySQL等主流數(shù)據(jù)庫(kù)。

      (2)數(shù)據(jù)文件。支持的文件類型包括有分隔符的TXT、Excel、CSV、XML等格式的文件。

      (3)消息隊(duì)列。由客戶端API傳來(lái)的數(shù)據(jù)或者是消息隊(duì)列傳來(lái)的數(shù)據(jù),以數(shù)據(jù)流的形式存儲(chǔ),經(jīng)過(guò)處理后的數(shù)據(jù)也可以以數(shù)據(jù)流的形式輸出或放到消息隊(duì)列中,由消息中間件作可靠的傳輸處理。

      2.3 數(shù)據(jù)轉(zhuǎn)換、清洗及裝載

      在煤炭企業(yè)內(nèi)部所用的業(yè)務(wù)系統(tǒng)中,由于對(duì)業(yè)務(wù)系統(tǒng)的研發(fā)一般都有一個(gè)較長(zhǎng)的時(shí)間周期,這就造成一種數(shù)據(jù)在業(yè)務(wù)系統(tǒng)中可能會(huì)存在多種不同的數(shù)據(jù)類型和存儲(chǔ)格式,造成了各個(gè)不同數(shù)據(jù)源之間的關(guān)鍵字不一致、度量單位不統(tǒng)一、字符編碼不一致、字段命名不一致、數(shù)據(jù)記錄的合并與拆分不一致、增量數(shù)據(jù)維護(hù)以及數(shù)據(jù)清洗規(guī)則不統(tǒng)一等問(wèn)題,甚至還有許多數(shù)據(jù)倉(cāng)庫(kù)中所要求的數(shù)據(jù)在業(yè)務(wù)系統(tǒng)中并不直接存在,而是需要根據(jù)某些算法公式或者某些計(jì)算公式對(duì)各部分?jǐn)?shù)據(jù)進(jìn)行運(yùn)算才能得到。因此,這就要求ETL必須對(duì)所抽取到的數(shù)據(jù)能夠進(jìn)行靈活的計(jì)算、合并、拆分、過(guò)濾、排序、映射、笛卡爾積等轉(zhuǎn)換操作。經(jīng)轉(zhuǎn)換后的數(shù)據(jù),可以直接裝載到目標(biāo)數(shù)據(jù)倉(cāng)庫(kù),也可以通過(guò)消息中間件以消息的方式傳輸?shù)竭h(yuǎn)程目標(biāo)。

      3 ETL智能化調(diào)度策略

      當(dāng)數(shù)據(jù)源中的數(shù)據(jù)發(fā)生變化時(shí),ETL智能化調(diào)度能夠?qū)⑿略龅臄?shù)據(jù)自動(dòng)傳到數(shù)據(jù)倉(cāng)庫(kù)內(nèi),無(wú)需人工觸發(fā)即可執(zhí)行ETL過(guò)程,這樣在減少勞動(dòng)力和降低企業(yè)成本的同時(shí),提高了企業(yè)生產(chǎn)運(yùn)營(yíng)效率。

      在煤炭生產(chǎn)現(xiàn)場(chǎng)突然監(jiān)測(cè)到威脅井下作業(yè)人員安全的數(shù)據(jù)后,為了在盡可能短的時(shí)間內(nèi)讓這些數(shù)據(jù)到達(dá)數(shù)據(jù)中心進(jìn)而為分析決策提供支持,就需要讓ETL過(guò)程能夠自動(dòng)觸發(fā)調(diào)度。具體策略為利用數(shù)據(jù)庫(kù)的觸發(fā)器機(jī)制完成自動(dòng)觸發(fā),通過(guò)觸發(fā)器建立存儲(chǔ)過(guò)程,再通過(guò)存儲(chǔ)過(guò)程調(diào)用ETL過(guò)程。一旦數(shù)據(jù)源中的數(shù)據(jù)有增量,數(shù)據(jù)庫(kù)會(huì)自動(dòng)觸發(fā)調(diào)度ETL實(shí)現(xiàn)增量抽取,從而實(shí)現(xiàn)數(shù)據(jù)實(shí)時(shí)到達(dá)數(shù)據(jù)倉(cāng)庫(kù)內(nèi)。然而,TXT、Excel、CSV以及XML等類型的數(shù)據(jù)源文件由于自身技術(shù)的限制,采用上述增量觸發(fā)的方式難度較大,但是可以采用定時(shí)執(zhí)行機(jī)制,即讓ETL經(jīng)過(guò)一定的時(shí)間間隔自動(dòng)執(zhí)行,為了不影響執(zhí)行效率,最短可以設(shè)定到1s。

      3.1 基于數(shù)據(jù)庫(kù)觸發(fā)器智能化調(diào)度

      觸發(fā)器實(shí)際上是一種特殊的存儲(chǔ)過(guò)程,當(dāng)某一個(gè)數(shù)據(jù)庫(kù)表的數(shù)據(jù)發(fā)生變化時(shí),它隱藏式地被觸發(fā)執(zhí)行,它比數(shù)據(jù)庫(kù)本身標(biāo)準(zhǔn)的功能有更精細(xì)和更復(fù)雜的數(shù)據(jù)控制能力。下面以O(shè)racle數(shù)據(jù)庫(kù)為例講解其觸發(fā)調(diào)度實(shí)現(xiàn)過(guò)程:首先準(zhǔn)備好ETL調(diào)度程序ETLRun.Class,在$ORACLE_HOME/bin目錄下有個(gè)LOADJAVA命令,使用此命令可將ETLRun.Class程序加載到Oracle數(shù)據(jù)庫(kù)中。進(jìn)入到Oracle數(shù)據(jù)庫(kù),在SQLPLUS命令行輸入create or replace procedure Modify(name varchar)as languagejava name'ETLRun.modifyjava.lang.String'執(zhí)行命令后系統(tǒng)會(huì)提示創(chuàng)建存儲(chǔ)過(guò)程成功。最后,在Oracle數(shù)據(jù)庫(kù)管理工具TOAD里直接針對(duì)某個(gè)表增加觸發(fā)器trigger,關(guān)鍵代碼如下:

      begin

      if:old.name='time'then

      Modify(:new.value);

      end if;

      end;至此,在Oracle的觸發(fā)器trigger里,一旦有數(shù)據(jù)插入就可以自動(dòng)調(diào)用ETL過(guò)程。

      3.2 多數(shù)據(jù)源基于定時(shí)機(jī)制的智能化調(diào)度

      這里的定時(shí)指的是根據(jù)預(yù)定的時(shí)間間隔大小循環(huán)執(zhí)行或者單次執(zhí)行,煤炭行業(yè)常用方式是循環(huán)執(zhí)行?;贘ava的循環(huán)執(zhí)行相對(duì)簡(jiǎn)單,只要采用schedule方法的另一個(gè)重載函數(shù)public void schedule(TimerTask task,long delay,long period)即可實(shí)現(xiàn),其中第1個(gè)參數(shù)task指要執(zhí)行的任務(wù)名稱,第2個(gè)參數(shù)delay指延遲時(shí)間,第3個(gè)參數(shù)就是時(shí)間間隔,它是個(gè)long型的毫秒數(shù),如果希望一個(gè)ETL任務(wù)執(zhí)行1次/min,第3個(gè)參數(shù)值就要賦值為60×1000。

      以上兩種智能化調(diào)度方式可以根據(jù)實(shí)際項(xiàng)目需要來(lái)進(jìn)行選擇,頻繁地觸發(fā)調(diào)度會(huì)使線程堆積,影響執(zhí)行效率,如果客戶對(duì)數(shù)據(jù)的實(shí)時(shí)性要求不高,或者數(shù)據(jù)源數(shù)據(jù)增量少且不頻繁,建議選擇數(shù)據(jù)庫(kù)觸發(fā)器方式;而如果用戶數(shù)據(jù)的增量較為頻繁且數(shù)據(jù)量又大,建議采用定時(shí)機(jī)制。

      4 應(yīng)用

      圖2 定時(shí)觸發(fā)調(diào)度配置窗口

      本文所研究的ETL智能化調(diào)度策略已經(jīng)在峰峰集團(tuán)梧桐莊礦數(shù)字化礦山建設(shè)中得以應(yīng)用,由于梧桐莊礦現(xiàn)有數(shù)據(jù)源使用的是SQL Server數(shù)據(jù)庫(kù),源數(shù)據(jù)為生產(chǎn)數(shù)據(jù),數(shù)據(jù)量大,實(shí)時(shí)性要求不高,因此選擇基于定時(shí)機(jī)制進(jìn)行智能化觸發(fā)調(diào)度,并以可視化配置的方式為用戶服務(wù)。首先按照預(yù)定規(guī)則對(duì)ETL過(guò)程進(jìn)行配置,然后根據(jù)實(shí)際需要設(shè)定執(zhí)行時(shí)間,如圖2所示,用戶一旦啟動(dòng)Job定時(shí)功能,ETL過(guò)程將按照預(yù)設(shè)時(shí)間循環(huán)執(zhí)行,滿足配置的智能化需求。

      5 結(jié)語(yǔ)

      目前,數(shù)據(jù)中心ETL的應(yīng)用已經(jīng)相當(dāng)廣泛,并向著集成化、智能化方向發(fā)展,越少的人工干預(yù)就越體現(xiàn)出其在同類產(chǎn)品中的優(yōu)越性。本文針對(duì)不同的數(shù)據(jù)源提出的兩種ETL調(diào)度方法解決了以往ETL過(guò)程調(diào)度的實(shí)時(shí)性問(wèn)題。然而,本文提出的方法由于數(shù)據(jù)源的千變?nèi)f化存在著局限性,探索一套通用的自動(dòng)ETL調(diào)度機(jī)制,使其更加實(shí)時(shí)、自動(dòng)、高效和智能仍是下一步研究的重點(diǎn)。

      [1] 楊學(xué)瑜,顧合英.數(shù)據(jù)挖掘在選煤中的應(yīng)用探討[J].中國(guó)煤炭,2004(4)

      [2] 楊毅,孫超.基于數(shù)據(jù)倉(cāng)庫(kù)的煤炭運(yùn)銷(xiāo)決策支持系統(tǒng)研究[J].中國(guó)煤炭,2009(2)

      [3] 葛斌,孟祥瑞,柏杏麗.煤炭企業(yè)ERP理論及應(yīng)用技術(shù)研究[J].中國(guó)煤炭,2004(7)

      [4] 王建偉.煤炭企業(yè)如何實(shí)施ERP系統(tǒng)[J].中國(guó)煤炭,2002(5)

      [5] 劉福國(guó).基于數(shù)據(jù)挖掘的鋼球磨煤機(jī)運(yùn)行特性建模和優(yōu)化[J].中國(guó)煤炭,2010(5)

      [6] John Poole等.公共倉(cāng)庫(kù)元模型數(shù)據(jù)倉(cāng)庫(kù)集成標(biāo)準(zhǔn)導(dǎo)論[M].北京:機(jī)械工業(yè)出版社,2004

      [7] 何雪利.數(shù)字化校園建設(shè)中ETL技術(shù)實(shí)現(xiàn)數(shù)據(jù)集成[J].計(jì)算機(jī)工程應(yīng)用技術(shù),2010(6)

      Research on ETL intelligent scheduling in data center of coal enterprises

      Wang Zhenyu,Chen Hongxing,Liu Daoyuan
      (China Coal Research Institute,Chaoyang,Beijing 100013,China)

      ETL(Extraction Transformation Loading),being an important link in the construction of Data Center,usually needs manual scheduling to achieve the data extraction,transformation,cleaning and loading.Thus it can be seen that there is a major limitation on the realtime performance and the convenience.Therefore,the scheduling process of ETL was studied,and the intelligent scheduling strategy was proposed,without manual intervention.That is to say,the ETL process can automatically perform according to predetermined rules.A datamation construction project of a coal enterprise proved the feasibility of this scheme.

      data center,data mining,ETL,intelligent scheduling

      TD76

      A

      國(guó)家科技支撐計(jì)劃課題——《煤礦安全高可靠性監(jiān)控系統(tǒng)關(guān)鍵技術(shù)研究——監(jiān)控系統(tǒng)數(shù)據(jù)可靠性和挖掘技術(shù)研究及示范》(2009BAK54B05)

      王振宇(1977-),男,北京人,高級(jí)工程師,主要從事煤炭企業(yè)信息化、數(shù)字化礦山、煤炭企業(yè)數(shù)據(jù)中心、信息化集成控制、管理信息系統(tǒng)方面的科研及應(yīng)用工作。

      (責(zé)任編輯 路 強(qiáng))

      猜你喜歡
      觸發(fā)器數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)源
      基于數(shù)據(jù)倉(cāng)庫(kù)的住房城鄉(xiāng)建設(shè)信息系統(tǒng)整合研究
      Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
      主從JK觸發(fā)器邏輯功能分析
      電子世界(2017年22期)2017-12-02 03:03:45
      基于不同網(wǎng)絡(luò)數(shù)據(jù)源的期刊評(píng)價(jià)研究
      使用觸發(fā)器,強(qiáng)化安全性
      分布式存儲(chǔ)系統(tǒng)在液晶面板制造數(shù)據(jù)倉(cāng)庫(kù)中的設(shè)計(jì)
      電子制作(2016年15期)2017-01-15 13:39:15
      探析電力系統(tǒng)調(diào)度中數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的應(yīng)用
      基于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)分析探索與實(shí)踐
      基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評(píng)價(jià)算法
      分布式異構(gòu)數(shù)據(jù)源標(biāo)準(zhǔn)化查詢?cè)O(shè)計(jì)與實(shí)現(xiàn)
      定结县| 奈曼旗| 上杭县| 泗洪县| 沿河| 云龙县| 嘉荫县| 平谷区| 西昌市| 澄江县| 阿图什市| 南澳县| 龙井市| 竹北市| 石台县| 潍坊市| 盐边县| 陆良县| 日喀则市| 白玉县| 二连浩特市| 武胜县| 延川县| 中江县| 正安县| 确山县| 益阳市| 石城县| 太原市| 洪雅县| 合川市| 彰化县| 调兵山市| 郧西县| 客服| 东光县| 沛县| 高唐县| 涟源市| 浏阳市| 吴堡县|