王可欣
摘要:在當(dāng)今“大數(shù)據(jù)”爆發(fā)時代,可用信息是現(xiàn)代企業(yè)的重要資源,是企業(yè)進行科學(xué)有效的管理和進行正確決策分析的基礎(chǔ),如何對數(shù)據(jù)進行處理也已經(jīng)成為每個企業(yè)在經(jīng)營過程中的重要環(huán)節(jié),使用計算機技術(shù)實現(xiàn)數(shù)據(jù)的自動化地調(diào)度更是成為了一種必然趨勢。現(xiàn)今,很多企業(yè)仍然沒有最大化地利用已存在的數(shù)據(jù)資源,況且對大量數(shù)據(jù)的重復(fù)、粗暴、簡陋的處理也.耗費了大量的人力物力,也耽誤了最佳的商業(yè)決策時機。所以,對數(shù)據(jù)進行有效地清洗及自動化固化可以極大地減少企業(yè)的人力及時間成本,為企業(yè)節(jié)省更多的成本。而對海量數(shù)據(jù)的處理就用到了數(shù)據(jù)倉庫技術(shù)——ETL(Extract-Transform-Load)。
關(guān)鍵詞:經(jīng)營分析;數(shù)據(jù)處理;Oracle;ETL;數(shù)據(jù)清洗,數(shù)據(jù)抽取;數(shù)據(jù)挖掘
中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2016)24-0256-02
1 ETL技術(shù)在電信數(shù)據(jù)運營中的應(yīng)用現(xiàn)狀
1.1背景介紹
近年來隨著“大數(shù)據(jù)”不斷地提出,對海量數(shù)據(jù)的處理也逐漸面臨巨大挑戰(zhàn)。而隨著中國電信市場份額的日益壯大以及競爭愈加激烈的信息市場,對數(shù)據(jù)的處理程度將成為重要的一環(huán)。
對于電信行業(yè)來說,存在著龐大的數(shù)據(jù)信息,而運營商想要在市場上站穩(wěn)腳步,就要建立以目標客戶為中心,適應(yīng)市場機制的運營計劃,那么就要必須及時地了解市場的動向,準確的做出戰(zhàn)略調(diào)整。這激烈的市場競爭要求電信業(yè)對客戶的需求,以及對隱藏的客戶都有著靈敏的感知度,而這所有的有效信息都來源于數(shù)據(jù)之中,所以如何讓對海量數(shù)據(jù)進行處理,對數(shù)據(jù)進行有有效、及時的處理成為了電信業(yè)企業(yè)競爭的一個核心。
1.2國內(nèi)外現(xiàn)狀分析
目前,國外的電信運營公司大部分也都已經(jīng)有了穩(wěn)定的框架模型,而且也在實際的運營中,在商業(yè)決策中都將數(shù)據(jù)挖掘提上議程,并且,在此基礎(chǔ)上,將數(shù)據(jù)挖掘提升為成自動化技術(shù),以指導(dǎo)公司運營戰(zhàn)略性決策的制定。而在于我國,ETL在電信中的運用已得到極大地重視,但是整體的發(fā)展起步較晚,還處于初級階段, 鑒于我國這一國情,我們的電信業(yè)經(jīng)營分析系統(tǒng)數(shù)據(jù)倉庫的構(gòu)建流程就不得不經(jīng)常變動隨時調(diào)整來適應(yīng)實際運營中的現(xiàn)實問題。通過ETL的構(gòu)建對大量數(shù)據(jù)的處理,從而節(jié)省人力物力,使運營商的運營成本得以大大減少,所以,如何建立好自己的經(jīng)營分析系統(tǒng)是每一個運營商和系統(tǒng)開發(fā)商都不得不面對的問題和挑戰(zhàn)。
1.3 ETL技術(shù)在電信運營分析中的應(yīng)用實例
中國電信集團公司**分公司對地下各地市每天都要將大量數(shù)據(jù)上傳至集團公司。
集團公司需要對對海量數(shù)據(jù)進行清洗,根據(jù)口徑整理所需字段,梳理出當(dāng)天的運營情況,將日數(shù)據(jù)清洗之后對大量數(shù)據(jù)還需要再次進行整合成月數(shù)據(jù)進行處理,并且需要根據(jù)這些數(shù)據(jù)制定電信集團**分公司的具體的運營計劃或方針,可是,在對數(shù)據(jù)的處理過程中或會發(fā)現(xiàn)存在大量的重復(fù)工冗余作,不但浪費了大量的人力,也會浪費不必要的時間,所以為了避免人力和時間的浪費,所以把以oracle來處理數(shù)據(jù)的腳本,以存儲過程固化,再運用ETL調(diào)度平臺對其進行任務(wù)配置,當(dāng)集團下分屬公司將數(shù)據(jù)定時提交上來之后,集團公司公司就可以運用ETL調(diào)度平臺對數(shù)據(jù)進行自動化的處理,節(jié)省人力物力。
2 ETL技術(shù)介紹
2.1 ETL技術(shù)的定義
ETL,是英文 Extract-Transform-Load 的縮寫,用來描述將數(shù)據(jù)從來源端經(jīng)過抽?。╡xtract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過程。ETL這個詞在數(shù)據(jù)倉庫方面用得比較多,但是,ETL的對象并不只是局限于數(shù)據(jù)倉庫一個。
ETL在構(gòu)建數(shù)據(jù)倉庫當(dāng)中是非常重要的,用戶要將數(shù)據(jù)加載至數(shù)據(jù)倉庫中,并且需要按照提前規(guī)劃好的模型數(shù)據(jù)倉庫,首先要將所需數(shù)據(jù)從數(shù)據(jù)源抽取出來,第二步再將抽取出來的數(shù)據(jù)進行清洗。
2.2 ETL工具應(yīng)用
ETL工具的典型代表有:Informatica、Datastage、OWB、微軟DTS、Beeload、Kettle、久其ETL等。
開源的工具有eclipse的etl插件:cloveretl。
數(shù)據(jù)集成:快速實現(xiàn)ETL。
ETL的質(zhì)量問題具體表現(xiàn)特性主要有:正確性;完整性;一致性;完備性;有效性;時效性;可獲取性等。
而有很多的原因會影響ETL的質(zhì)量從而導(dǎo)致問題出現(xiàn),由系統(tǒng)集成和歷史數(shù)據(jù)造成的原因主要包括:1)業(yè)務(wù)系統(tǒng)不同時期系統(tǒng)之間數(shù)據(jù)模型不一致;2)業(yè)務(wù)系統(tǒng)不同時期業(yè)務(wù)過程有變化;3)舊系統(tǒng)模塊在運營、人事、財務(wù)、辦公系統(tǒng)等相關(guān)信息的不一致;4)遺留系統(tǒng)和新業(yè)務(wù)、管理系統(tǒng)數(shù)據(jù)集成不完備帶來的不一致性。
ETL的實現(xiàn),第一步是要實現(xiàn)ETL轉(zhuǎn)換的過程。具體體現(xiàn)在以下幾個方面:1)空值的處理;2)規(guī)范化數(shù)據(jù)格式;3)拆分數(shù)據(jù);4)驗證數(shù)據(jù)正確性;5)數(shù)據(jù)替換;6)建立ETL過程的主外鍵約束。
2.3 ETL體系結(jié)構(gòu)
對于一個比較完善的ETL體系結(jié)構(gòu),一般都會含有以下幾個部分,這也是體現(xiàn)了ETL產(chǎn)品框架的組成的主要部分。
1)ETL設(shè)計;2)元數(shù)據(jù)管理;3)數(shù)據(jù)抽?。?)數(shù)據(jù)轉(zhuǎn)換;5)數(shù)據(jù)加載;6)數(shù)據(jù)傳輸進程;7)管理和操作平臺。
3 ETL模型介紹
3.1 ETL框架
在實際的ETL模型設(shè)計當(dāng)中要根據(jù)實際的環(huán)境和情況進行建模和框架設(shè)計。
在ETL設(shè)計過程中,一般需要先進行數(shù)據(jù)轉(zhuǎn)換、再進行數(shù)據(jù)抽取、最后進行數(shù)據(jù)加載,遵循這樣的原則再結(jié)合電信的具體業(yè)務(wù)情況將ETL流程結(jié)構(gòu)設(shè)計如下:
3.2 針對電信行業(yè)的ETL框架說明
各個不同業(yè)務(wù)平臺存放數(shù)據(jù)的服務(wù)器叫做FTP服務(wù)器。在該服務(wù)器上,運營商會將數(shù)據(jù)存放在其中一個服務(wù)器上,根據(jù)用戶權(quán)限開通下載服務(wù)器端口,對數(shù)據(jù)進行整理,擁有相應(yīng)的端口權(quán)限對平臺存放的數(shù)據(jù)進行獲取,或者運用跳板機進行獲取,這樣是為了保證數(shù)據(jù)信息的安全性。在電信行業(yè)中的ETL Automation機制分為:
1)對需要加載的接口文件進行抽取、轉(zhuǎn)換、審核;
2)對審核已經(jīng)通過的數(shù)據(jù)再進行分發(fā);
3)對已經(jīng)分發(fā)完成的接口文件進行裝載。
這些機制分別在服務(wù)器系統(tǒng)中加入,每一步作業(yè)的執(zhí)行都需要調(diào)用相關(guān)的腳本。在設(shè)計ETL框架時主要重點在處理各種元數(shù)據(jù)上,此外,一方面是用來解決模式?jīng)_突問題,另一方面則為客戶提供一套邏輯比較完善合理的流程,協(xié)助分析和逐步調(diào)整數(shù)據(jù)清洗過程,方便用戶在邏輯層設(shè)計數(shù)據(jù)處理流程,確定需要執(zhí)行的數(shù)據(jù)轉(zhuǎn)化步驟;運行時則在物理層實現(xiàn)設(shè)計時定制的規(guī)則,并對它們進行優(yōu)化。在整個的ETL流程中,第一步的數(shù)據(jù)抽取和第二步的數(shù)據(jù)轉(zhuǎn)換觸發(fā)工作是通過設(shè)定腳本或者相關(guān)程序在指定目錄下的掃描時間來進行的。
4 結(jié)束語
本文中提到的TEL監(jiān)控方法,是通過對相互連接的任務(wù)工作流流程節(jié)點的進行監(jiān)控,從而實現(xiàn)對人員的工作流程及數(shù)據(jù)量進行監(jiān)控。首先,通過實際的運營建模,然后再根據(jù)模型和實際的任務(wù)數(shù)據(jù)相結(jié)合而進行監(jiān)控,這樣的任務(wù)監(jiān)控方法可以根據(jù)運營商復(fù)雜多變的信息業(yè)務(wù)需求隨時做出靈活的調(diào)整,為高效管理的運營提供數(shù)據(jù)上的支持。但是,在實際的運營過程當(dāng)中,要對任務(wù)監(jiān)控管理,任務(wù)分配的問題其實歸根結(jié)底是一個優(yōu)化配置資源的問題,而怎樣才能使任務(wù)分配的整體效能達到最優(yōu),則取決于市場模型的分析,以及對工作流整體的設(shè)計和后續(xù)優(yōu)化。
參考文獻:
[1] Wf MC.Theworkflow reference model[R].[s.1.]:Wf MCTC00—1033 WorkflowManagement G31ition,1995:28-35.
[2] 郭道寧,舒華英.數(shù)據(jù)挖掘在電信運營市場決策支持中的應(yīng)用EJ].北京郵電大學(xué)學(xué)報:社會科學(xué)版,2004(2):15-16.
[3] 趙軍富,馬勝梅,劉玉平,等.基于Web Serviees的工作流系統(tǒng)管理監(jiān)控工具設(shè)計[J].內(nèi)蒙古科技大學(xué)學(xué)報,2008,27(3):256-259.
[4] MelnikS,Gubarev A,LongJ J,et 01.Dremel:interactiveanalysis of web·scaledatasets.Communications of the ACM,2011,54(6):1 14~123
[5] D.Margineantu,S.Bay,P.Chan.T.Lane.Data Mining Standards,Serviees and Platforms 2005.
Workshop Report.ACM SIGKDDDecember 2005,7(2):137.
[6] 王麗珍.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘原理應(yīng)用[M].2版.北京:科學(xué)出版社,2009.
[7] 丁康寶.數(shù)據(jù)庫實用教程[M].2版.北京:清華大學(xué)出版社,2003.