• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      ETL技術(shù)在電信數(shù)據(jù)運營中的應(yīng)用

      2016-11-14 02:29:48王可欣
      電腦知識與技術(shù) 2016年24期
      關(guān)鍵詞:數(shù)據(jù)處理數(shù)據(jù)挖掘

      王可欣

      摘要:在當(dāng)今“大數(shù)據(jù)”爆發(fā)時代,可用信息是現(xiàn)代企業(yè)的重要資源,是企業(yè)進行科學(xué)有效的管理和進行正確決策分析的基礎(chǔ),如何對數(shù)據(jù)進行處理也已經(jīng)成為每個企業(yè)在經(jīng)營過程中的重要環(huán)節(jié),使用計算機技術(shù)實現(xiàn)數(shù)據(jù)的自動化地調(diào)度更是成為了一種必然趨勢。現(xiàn)今,很多企業(yè)仍然沒有最大化地利用已存在的數(shù)據(jù)資源,況且對大量數(shù)據(jù)的重復(fù)、粗暴、簡陋的處理也.耗費了大量的人力物力,也耽誤了最佳的商業(yè)決策時機。所以,對數(shù)據(jù)進行有效地清洗及自動化固化可以極大地減少企業(yè)的人力及時間成本,為企業(yè)節(jié)省更多的成本。而對海量數(shù)據(jù)的處理就用到了數(shù)據(jù)倉庫技術(shù)——ETL(Extract-Transform-Load)。

      關(guān)鍵詞:經(jīng)營分析;數(shù)據(jù)處理;Oracle;ETL;數(shù)據(jù)清洗,數(shù)據(jù)抽取;數(shù)據(jù)挖掘

      中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2016)24-0256-02

      1 ETL技術(shù)在電信數(shù)據(jù)運營中的應(yīng)用現(xiàn)狀

      1.1背景介紹

      近年來隨著“大數(shù)據(jù)”不斷地提出,對海量數(shù)據(jù)的處理也逐漸面臨巨大挑戰(zhàn)。而隨著中國電信市場份額的日益壯大以及競爭愈加激烈的信息市場,對數(shù)據(jù)的處理程度將成為重要的一環(huán)。

      對于電信行業(yè)來說,存在著龐大的數(shù)據(jù)信息,而運營商想要在市場上站穩(wěn)腳步,就要建立以目標客戶為中心,適應(yīng)市場機制的運營計劃,那么就要必須及時地了解市場的動向,準確的做出戰(zhàn)略調(diào)整。這激烈的市場競爭要求電信業(yè)對客戶的需求,以及對隱藏的客戶都有著靈敏的感知度,而這所有的有效信息都來源于數(shù)據(jù)之中,所以如何讓對海量數(shù)據(jù)進行處理,對數(shù)據(jù)進行有有效、及時的處理成為了電信業(yè)企業(yè)競爭的一個核心。

      1.2國內(nèi)外現(xiàn)狀分析

      目前,國外的電信運營公司大部分也都已經(jīng)有了穩(wěn)定的框架模型,而且也在實際的運營中,在商業(yè)決策中都將數(shù)據(jù)挖掘提上議程,并且,在此基礎(chǔ)上,將數(shù)據(jù)挖掘提升為成自動化技術(shù),以指導(dǎo)公司運營戰(zhàn)略性決策的制定。而在于我國,ETL在電信中的運用已得到極大地重視,但是整體的發(fā)展起步較晚,還處于初級階段, 鑒于我國這一國情,我們的電信業(yè)經(jīng)營分析系統(tǒng)數(shù)據(jù)倉庫的構(gòu)建流程就不得不經(jīng)常變動隨時調(diào)整來適應(yīng)實際運營中的現(xiàn)實問題。通過ETL的構(gòu)建對大量數(shù)據(jù)的處理,從而節(jié)省人力物力,使運營商的運營成本得以大大減少,所以,如何建立好自己的經(jīng)營分析系統(tǒng)是每一個運營商和系統(tǒng)開發(fā)商都不得不面對的問題和挑戰(zhàn)。

      1.3 ETL技術(shù)在電信運營分析中的應(yīng)用實例

      中國電信集團公司**分公司對地下各地市每天都要將大量數(shù)據(jù)上傳至集團公司。

      集團公司需要對對海量數(shù)據(jù)進行清洗,根據(jù)口徑整理所需字段,梳理出當(dāng)天的運營情況,將日數(shù)據(jù)清洗之后對大量數(shù)據(jù)還需要再次進行整合成月數(shù)據(jù)進行處理,并且需要根據(jù)這些數(shù)據(jù)制定電信集團**分公司的具體的運營計劃或方針,可是,在對數(shù)據(jù)的處理過程中或會發(fā)現(xiàn)存在大量的重復(fù)工冗余作,不但浪費了大量的人力,也會浪費不必要的時間,所以為了避免人力和時間的浪費,所以把以oracle來處理數(shù)據(jù)的腳本,以存儲過程固化,再運用ETL調(diào)度平臺對其進行任務(wù)配置,當(dāng)集團下分屬公司將數(shù)據(jù)定時提交上來之后,集團公司公司就可以運用ETL調(diào)度平臺對數(shù)據(jù)進行自動化的處理,節(jié)省人力物力。

      2 ETL技術(shù)介紹

      2.1 ETL技術(shù)的定義

      ETL,是英文 Extract-Transform-Load 的縮寫,用來描述將數(shù)據(jù)從來源端經(jīng)過抽?。╡xtract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過程。ETL這個詞在數(shù)據(jù)倉庫方面用得比較多,但是,ETL的對象并不只是局限于數(shù)據(jù)倉庫一個。

      ETL在構(gòu)建數(shù)據(jù)倉庫當(dāng)中是非常重要的,用戶要將數(shù)據(jù)加載至數(shù)據(jù)倉庫中,并且需要按照提前規(guī)劃好的模型數(shù)據(jù)倉庫,首先要將所需數(shù)據(jù)從數(shù)據(jù)源抽取出來,第二步再將抽取出來的數(shù)據(jù)進行清洗。

      2.2 ETL工具應(yīng)用

      ETL工具的典型代表有:Informatica、Datastage、OWB、微軟DTS、Beeload、Kettle、久其ETL等。

      開源的工具有eclipse的etl插件:cloveretl。

      數(shù)據(jù)集成:快速實現(xiàn)ETL。

      ETL的質(zhì)量問題具體表現(xiàn)特性主要有:正確性;完整性;一致性;完備性;有效性;時效性;可獲取性等。

      而有很多的原因會影響ETL的質(zhì)量從而導(dǎo)致問題出現(xiàn),由系統(tǒng)集成和歷史數(shù)據(jù)造成的原因主要包括:1)業(yè)務(wù)系統(tǒng)不同時期系統(tǒng)之間數(shù)據(jù)模型不一致;2)業(yè)務(wù)系統(tǒng)不同時期業(yè)務(wù)過程有變化;3)舊系統(tǒng)模塊在運營、人事、財務(wù)、辦公系統(tǒng)等相關(guān)信息的不一致;4)遺留系統(tǒng)和新業(yè)務(wù)、管理系統(tǒng)數(shù)據(jù)集成不完備帶來的不一致性。

      ETL的實現(xiàn),第一步是要實現(xiàn)ETL轉(zhuǎn)換的過程。具體體現(xiàn)在以下幾個方面:1)空值的處理;2)規(guī)范化數(shù)據(jù)格式;3)拆分數(shù)據(jù);4)驗證數(shù)據(jù)正確性;5)數(shù)據(jù)替換;6)建立ETL過程的主外鍵約束。

      2.3 ETL體系結(jié)構(gòu)

      對于一個比較完善的ETL體系結(jié)構(gòu),一般都會含有以下幾個部分,這也是體現(xiàn)了ETL產(chǎn)品框架的組成的主要部分。

      1)ETL設(shè)計;2)元數(shù)據(jù)管理;3)數(shù)據(jù)抽?。?)數(shù)據(jù)轉(zhuǎn)換;5)數(shù)據(jù)加載;6)數(shù)據(jù)傳輸進程;7)管理和操作平臺。

      3 ETL模型介紹

      3.1 ETL框架

      在實際的ETL模型設(shè)計當(dāng)中要根據(jù)實際的環(huán)境和情況進行建模和框架設(shè)計。

      在ETL設(shè)計過程中,一般需要先進行數(shù)據(jù)轉(zhuǎn)換、再進行數(shù)據(jù)抽取、最后進行數(shù)據(jù)加載,遵循這樣的原則再結(jié)合電信的具體業(yè)務(wù)情況將ETL流程結(jié)構(gòu)設(shè)計如下:

      3.2 針對電信行業(yè)的ETL框架說明

      各個不同業(yè)務(wù)平臺存放數(shù)據(jù)的服務(wù)器叫做FTP服務(wù)器。在該服務(wù)器上,運營商會將數(shù)據(jù)存放在其中一個服務(wù)器上,根據(jù)用戶權(quán)限開通下載服務(wù)器端口,對數(shù)據(jù)進行整理,擁有相應(yīng)的端口權(quán)限對平臺存放的數(shù)據(jù)進行獲取,或者運用跳板機進行獲取,這樣是為了保證數(shù)據(jù)信息的安全性。在電信行業(yè)中的ETL Automation機制分為:

      1)對需要加載的接口文件進行抽取、轉(zhuǎn)換、審核;

      2)對審核已經(jīng)通過的數(shù)據(jù)再進行分發(fā);

      3)對已經(jīng)分發(fā)完成的接口文件進行裝載。

      這些機制分別在服務(wù)器系統(tǒng)中加入,每一步作業(yè)的執(zhí)行都需要調(diào)用相關(guān)的腳本。在設(shè)計ETL框架時主要重點在處理各種元數(shù)據(jù)上,此外,一方面是用來解決模式?jīng)_突問題,另一方面則為客戶提供一套邏輯比較完善合理的流程,協(xié)助分析和逐步調(diào)整數(shù)據(jù)清洗過程,方便用戶在邏輯層設(shè)計數(shù)據(jù)處理流程,確定需要執(zhí)行的數(shù)據(jù)轉(zhuǎn)化步驟;運行時則在物理層實現(xiàn)設(shè)計時定制的規(guī)則,并對它們進行優(yōu)化。在整個的ETL流程中,第一步的數(shù)據(jù)抽取和第二步的數(shù)據(jù)轉(zhuǎn)換觸發(fā)工作是通過設(shè)定腳本或者相關(guān)程序在指定目錄下的掃描時間來進行的。

      4 結(jié)束語

      本文中提到的TEL監(jiān)控方法,是通過對相互連接的任務(wù)工作流流程節(jié)點的進行監(jiān)控,從而實現(xiàn)對人員的工作流程及數(shù)據(jù)量進行監(jiān)控。首先,通過實際的運營建模,然后再根據(jù)模型和實際的任務(wù)數(shù)據(jù)相結(jié)合而進行監(jiān)控,這樣的任務(wù)監(jiān)控方法可以根據(jù)運營商復(fù)雜多變的信息業(yè)務(wù)需求隨時做出靈活的調(diào)整,為高效管理的運營提供數(shù)據(jù)上的支持。但是,在實際的運營過程當(dāng)中,要對任務(wù)監(jiān)控管理,任務(wù)分配的問題其實歸根結(jié)底是一個優(yōu)化配置資源的問題,而怎樣才能使任務(wù)分配的整體效能達到最優(yōu),則取決于市場模型的分析,以及對工作流整體的設(shè)計和后續(xù)優(yōu)化。

      參考文獻:

      [1] Wf MC.Theworkflow reference model[R].[s.1.]:Wf MCTC00—1033 WorkflowManagement G31ition,1995:28-35.

      [2] 郭道寧,舒華英.數(shù)據(jù)挖掘在電信運營市場決策支持中的應(yīng)用EJ].北京郵電大學(xué)學(xué)報:社會科學(xué)版,2004(2):15-16.

      [3] 趙軍富,馬勝梅,劉玉平,等.基于Web Serviees的工作流系統(tǒng)管理監(jiān)控工具設(shè)計[J].內(nèi)蒙古科技大學(xué)學(xué)報,2008,27(3):256-259.

      [4] MelnikS,Gubarev A,LongJ J,et 01.Dremel:interactiveanalysis of web·scaledatasets.Communications of the ACM,2011,54(6):1 14~123

      [5] D.Margineantu,S.Bay,P.Chan.T.Lane.Data Mining Standards,Serviees and Platforms 2005.

      Workshop Report.ACM SIGKDDDecember 2005,7(2):137.

      [6] 王麗珍.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘原理應(yīng)用[M].2版.北京:科學(xué)出版社,2009.

      [7] 丁康寶.數(shù)據(jù)庫實用教程[M].2版.北京:清華大學(xué)出版社,2003.

      猜你喜歡
      數(shù)據(jù)處理數(shù)據(jù)挖掘
      認知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補與極大似然估計法*
      ILWT-EEMD數(shù)據(jù)處理的ELM滾動軸承故障診斷
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      基于希爾伯特- 黃變換的去噪法在外測數(shù)據(jù)處理中的應(yīng)用
      基于GPGPU的離散數(shù)據(jù)挖掘研究
      基于POS AV610與PPP的車輛導(dǎo)航數(shù)據(jù)處理
      闵行区| 嘉祥县| 成武县| 观塘区| 盘山县| 曲沃县| 盱眙县| 黄冈市| 张家界市| 鹤壁市| 和顺县| 武鸣县| 土默特右旗| 康马县| 汉中市| 乌拉特后旗| 陆河县| 北碚区| 揭西县| 济源市| 汤原县| 金坛市| 普兰店市| 梅河口市| 东光县| 旬邑县| 仁怀市| 连城县| 裕民县| 奇台县| 崇左市| 浪卡子县| 东兴市| 凉城县| 霍城县| 南澳县| 阳山县| 民丰县| 开化县| 光泽县| 右玉县|