• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于增強(qiáng)ETL過程的大數(shù)據(jù)策略研究

      2015-01-06 18:47:44李蕓
      電腦知識與技術(shù) 2014年34期
      關(guān)鍵詞:大數(shù)據(jù)策略

      李蕓

      摘要:大數(shù)據(jù)不僅意味著大機(jī)遇,同樣帶來了大噪聲。因此,任何具有價(jià)值的大數(shù)據(jù)策略都必須給出濾除噪音,同時(shí)對真正相關(guān)的數(shù)據(jù)進(jìn)行有效且高效的處理和解決辦法。該文分析了大數(shù)據(jù)背景下企業(yè)的數(shù)據(jù)策略和現(xiàn)有IT解決方案中存在的問題,提出通過優(yōu)化ETL過程來增強(qiáng)早期數(shù)據(jù)整合的解決方案,以提高企業(yè)大數(shù)據(jù)策略的成本收益。

      關(guān)鍵詞:大數(shù)據(jù);策略;ETL

      中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2014)34-8081-02

      大數(shù)據(jù)時(shí)代來臨之初,許多企業(yè)、機(jī)構(gòu)還在思考如何加大軟硬件資源的投入以充分地利用移動(dòng)網(wǎng)絡(luò)、智能手機(jī)和云服務(wù)等擴(kuò)大自己的業(yè)務(wù)收益和影響力;而短短幾年過去,更多的是坐擁云服務(wù)商提供的技術(shù)和設(shè)施,卻陷入了數(shù)據(jù)謎團(tuán)。隨著智能手機(jī)、社交網(wǎng)絡(luò)等進(jìn)一步深入生活,科研數(shù)據(jù)、商業(yè)智能的全面應(yīng)用,數(shù)據(jù)海洋以人們完全無法控制的速度迎面而來。IDC(國際數(shù)據(jù)公司)預(yù)測,未來全球數(shù)據(jù)量將于2020年達(dá)到40ZB。獲取、分析和運(yùn)用指數(shù)級增長的龐大數(shù)據(jù),將催生創(chuàng)新,為各行各業(yè)提供新的發(fā)展機(jī)遇、實(shí)現(xiàn)價(jià)值,給人們?nèi)粘I顜矸椒矫婷娴母淖儭?/p>

      1 大數(shù)據(jù)資源化過程中的成本收益

      1.1 大數(shù)據(jù)資源轉(zhuǎn)化效率的決定因素

      大數(shù)據(jù)有四個(gè)顯著特征:1) 數(shù)據(jù)種類繁多(variety):數(shù)據(jù)類型包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù);2) 數(shù)據(jù)體量巨大(volume):PB級別是常態(tài)[1];3) 數(shù)據(jù)處理速度快(velocity):海量數(shù)據(jù)需要在有效時(shí)間內(nèi)處理完成;4) 價(jià)值密度低(value):需要從低價(jià)值的原始海量數(shù)據(jù)中進(jìn)行深度挖掘和計(jì)算,總結(jié)出具備高價(jià)值的數(shù)據(jù)[2]。然而大數(shù)據(jù)目前還有一個(gè)經(jīng)常被忽視的方面就是隨之而來的高代價(jià)。每每提到大數(shù)據(jù),更多的想到的是利用它增長利潤,指導(dǎo)決策。然而我們不得不面對的問題就是如何平衡為充分開發(fā)大數(shù)據(jù)資源而增長的成本規(guī)模與顯然希望提高的成本收率(cost-efficiency)[3]。隨著對大數(shù)據(jù)相關(guān)問題研究的深入以及相關(guān)技術(shù)的成熟,我們開始漸漸意識到大數(shù)據(jù)的價(jià)值不盡在它的“大”——數(shù)據(jù)的獲取、存儲、處理都不再是最令人棘手的,但如何真正掌控、透視,理解數(shù)據(jù),不為同樣體量巨大的噪音所耗,應(yīng)在大數(shù)據(jù)的研究和應(yīng)用中引起重視。首先識別出與業(yè)務(wù)最相關(guān)、有效的數(shù)據(jù)集才能真正決定大數(shù)據(jù)資源的轉(zhuǎn)化效率;并且這個(gè)轉(zhuǎn)化效率如果僅從其帶來的收益來看還不夠全面,必須將為了獲得大數(shù)據(jù)處理能力而增加的本地成本規(guī)模的投入考慮進(jìn)來。因此,對企業(yè)與機(jī)構(gòu)來說,大數(shù)據(jù)的轉(zhuǎn)化效率除了與增加的成本規(guī)模有關(guān),更與成本收益息息相關(guān)。

      1.2 提高成本收益應(yīng)解決的問題

      目前,云服務(wù)商提供的軟硬件產(chǎn)品非常成熟多樣,但客戶仍需配置相應(yīng)規(guī)模的本地軟硬件環(huán)境。那么,如果不能先對數(shù)據(jù)進(jìn)行有效的整合,而直接將獲取、存儲和處理直接全交由云服務(wù)來解決,那么巨大的吞吐量無疑將帶來高額的成本規(guī)模投入;同時(shí),云服務(wù)處理數(shù)據(jù)的時(shí)效性和有效程度必將不夠理想。當(dāng)前云計(jì)算更偏重海量存儲和計(jì)算,以及提供的云服務(wù)、運(yùn)行云應(yīng)用,缺乏盤活數(shù)據(jù)資產(chǎn)的能力。挖掘價(jià)值性信息和預(yù)測性分析,為國家、企業(yè)、個(gè)人提供決策方案和服務(wù),才應(yīng)是大數(shù)據(jù)核心議題,也應(yīng)是云計(jì)算的最終方向。因此,對數(shù)據(jù)的前期整合應(yīng)成為機(jī)構(gòu)、企業(yè)自身可控也應(yīng)該重點(diǎn)研究的數(shù)據(jù)策略組成部分,甚至是其數(shù)據(jù)策略是否成功的決定性步驟。這步工作要求將數(shù)據(jù)交由云服務(wù)商處理之前,應(yīng)由機(jī)構(gòu)和企業(yè)根據(jù)自身的專業(yè)性質(zhì)、行業(yè)背景、階段需求、人為經(jīng)驗(yàn)等進(jìn)行必要的數(shù)據(jù)整合,以迎合企業(yè)和機(jī)構(gòu)的信息需求,為其數(shù)據(jù)策略的導(dǎo)向、商業(yè)決策的制定提供方向標(biāo),提高成本收益,實(shí)現(xiàn)大數(shù)據(jù)的高效資源化,將大數(shù)據(jù)的魅力發(fā)揮至極。

      2 ETL的概念及作用

      2.1 ETL的概念及流程簡介

      ETL,是英文 Extract-Transform-Load 的縮寫,用來描述將數(shù)據(jù)從來源端經(jīng)過萃取(extract)、轉(zhuǎn)置(transform)、加載(load)至目的端的過程。它是隨著數(shù)據(jù)倉庫的產(chǎn)生而產(chǎn)生的。構(gòu)建數(shù)據(jù)倉庫最關(guān)鍵的工作就是將各業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)按主題進(jìn)行重新集成,而大數(shù)據(jù)來源廣泛,都存在平臺不同、數(shù)據(jù)源異構(gòu)等問題,這使數(shù)據(jù)集成非常復(fù)雜。ETL就是為了解決這類問題的形成的一種獨(dú)立的數(shù)據(jù)集成模式。隨著數(shù)據(jù)倉庫、聯(lián)機(jī)分析處理和數(shù)據(jù)挖掘等技術(shù)的發(fā)展,并且業(yè)務(wù)系統(tǒng)對數(shù)據(jù)集成的要求越來越高,數(shù)據(jù)ETL成為了當(dāng)前信息技術(shù)中活躍的研究領(lǐng)域之一。包含了3方面的內(nèi)容:1) “抽取”指的是將數(shù)據(jù)從各種原始的業(yè)務(wù)系統(tǒng)中讀取出來,這是所有工作的前提;2) “轉(zhuǎn)換”是指按照預(yù)先設(shè)計(jì)好的規(guī)則將抽取得數(shù)據(jù)進(jìn)行轉(zhuǎn)換,使本來異構(gòu)的數(shù)據(jù)格式能統(tǒng)一起來;3) “裝載”是將轉(zhuǎn)換完的數(shù)據(jù)按計(jì)劃導(dǎo)入到數(shù)據(jù)倉庫中。ETL 主要應(yīng)用在數(shù)據(jù)集成、數(shù)據(jù)倉庫和數(shù)據(jù)集市和多維數(shù)據(jù)分析中[3]。ETL過程是構(gòu)建數(shù)據(jù)倉庫的重要一環(huán),用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗,最終按照預(yù)先定義好的數(shù)據(jù)倉庫模型,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去。針對自身的核心業(yè)務(wù),利用數(shù)據(jù)倉庫系統(tǒng)可以對多年累積的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行加工和分析將有利于找出其中有用的信息,對決策形成強(qiáng)大有效的支撐。

      2.2 ETL在大數(shù)據(jù)資源化過程中提高成本收益的作用

      在ETL過程中,抽取屬于數(shù)據(jù)的輸入過程,解決的主要是異構(gòu)數(shù)據(jù)的統(tǒng)一問題;而數(shù)據(jù)的裝載可視為數(shù)據(jù)的輸出過程,主要完成從統(tǒng)一的數(shù)據(jù)存儲裝載到目標(biāo)數(shù)據(jù)倉庫中。而中間的轉(zhuǎn)換(包括清洗)主要是對數(shù)據(jù)質(zhì)量進(jìn)行優(yōu)化。該階段不僅可以對數(shù)據(jù)的冗余、缺失、錯(cuò)誤等問題進(jìn)行檢查和修正,更重要的是可以使用默認(rèn)的或用戶自定義的規(guī)則對數(shù)據(jù)中的某些字段進(jìn)行合并、轉(zhuǎn)換等操作,大大提高數(shù)據(jù)的正確性、一致性、完整性和可用性[4]。為了能更好地實(shí)現(xiàn)ETL,在實(shí)施ETL過程中應(yīng)注意以下幾點(diǎn):1) 如果條件允許,可利用數(shù)據(jù)中轉(zhuǎn)區(qū)對運(yùn)營數(shù)據(jù)進(jìn)行預(yù)處理,保證集成與加載的高效性;2) 如果ETL的過程是主動(dòng)“拉取”,而不是從內(nèi)部“推送”,其可控性將大為增強(qiáng);3) ETL之前應(yīng)制定流程化的配置管理和標(biāo)準(zhǔn)協(xié)議;4) 關(guān)鍵數(shù)據(jù)標(biāo)準(zhǔn)至關(guān)重要。只有在ETL過程中對數(shù)據(jù)進(jìn)行了有效的處理,才能保證數(shù)據(jù)質(zhì)量,從而更好地支持OLAP及數(shù)據(jù)挖掘。但在實(shí)際的項(xiàng)目中,正是由于常常在這個(gè)環(huán)節(jié)上沒有正確的估計(jì)ETL過程的重要,沒有認(rèn)真的考慮其與工具支撐有很大的關(guān)系。導(dǎo)致在后期的維護(hù)上,往往對人力和成本投入造成巨大損失。實(shí)時(shí)要求,是區(qū)別大數(shù)據(jù)應(yīng)用和傳統(tǒng)數(shù)據(jù)倉庫技術(shù)、BI技術(shù)的關(guān)鍵差別之一。對數(shù)據(jù)處理的有效性和實(shí)時(shí)性等要求在企業(yè)中任何一種數(shù)據(jù)的處理都是一種由業(yè)務(wù)定義和擁有的過程,因?yàn)樗鼈儞碛衅髽I(yè)數(shù)據(jù)的生命周期。當(dāng)談到非結(jié)構(gòu)化數(shù)據(jù)的處理,任何企業(yè)中只有可以擁有和定義這種非結(jié)構(gòu)化數(shù)據(jù)的規(guī)則的人才是業(yè)務(wù)用戶,這就是需要ETL的意義所在。根據(jù)調(diào)查,前些年在企業(yè)數(shù)據(jù)倉庫的建設(shè)過程中,只有60%的精力花費(fèi)在數(shù)據(jù)ETL的設(shè)計(jì)和實(shí)施上[5]。因此,做到真正提高成本收益,應(yīng)重視并深入研究ETL規(guī)則的設(shè)計(jì)和流程。

      3 結(jié)束語

      大數(shù)據(jù)在帶來商業(yè)契機(jī)的同時(shí),也為企業(yè)IT帶來新的挑戰(zhàn)。企業(yè)用戶需要從IT基礎(chǔ)架構(gòu)、智能分析軟件等方面全方位進(jìn)行考量,從效益上來看,過去隨業(yè)務(wù)增長而一味增加服務(wù)器的做法已經(jīng)成為用戶應(yīng)用中的一個(gè)痛點(diǎn)。確保企業(yè)大數(shù)據(jù)應(yīng)用成功的重要開端就是打造一個(gè)適合大數(shù)據(jù)整合的基礎(chǔ)架構(gòu)。增強(qiáng)及改進(jìn)現(xiàn)有的ETL過程可以實(shí)現(xiàn)當(dāng)前數(shù)據(jù)策略實(shí)踐過程中的困境。制定合身的數(shù)據(jù)轉(zhuǎn)化策略,通過增強(qiáng)數(shù)據(jù)集成的前期處理更快速有效地將數(shù)據(jù)轉(zhuǎn)化成資源,使大數(shù)據(jù)更快更好為政策導(dǎo)向、企業(yè)決策和科學(xué)研究服務(wù)。

      參考文獻(xiàn):

      [1] International Data Corporation and EMC.The 2011 Digital Universe Study: Extracting Value from Chaos[EB].[2012-11-10].

      [2] Big Data[J].Nature,2008,455(7209):1-136.

      [3] 白果,賈玉文.數(shù)據(jù)倉庫中ETL技術(shù)的研究與改進(jìn)[J].甘肅科技,2012,28(19):18-20.

      [4] 徐俊剛,裴瑩.數(shù)據(jù)ETL研究綜述[J].計(jì)算機(jī)科學(xué),2011,38(4):15-20.

      [5]Inmon W H.The data warehouse budget[J/OL].DM Review Magazine,2010.endprint

      猜你喜歡
      大數(shù)據(jù)策略
      基于“選—練—評”一體化的二輪復(fù)習(xí)策略
      求初相φ的常見策略
      例談未知角三角函數(shù)值的求解策略
      我說你做講策略
      高中數(shù)學(xué)復(fù)習(xí)的具體策略
      大數(shù)據(jù)環(huán)境下基于移動(dòng)客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
      新聞世界(2016年10期)2016-10-11 20:13:53
      基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
      科技視界(2016年20期)2016-09-29 10:53:22
      數(shù)據(jù)+輿情:南方報(bào)業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
      中國記者(2016年6期)2016-08-26 12:36:20
      Passage Four
      昌图县| 龙山县| 黄大仙区| 鄱阳县| 玉林市| 洛川县| 兴山县| 科尔| 闻喜县| 贵港市| 曲松县| 平利县| 台安县| 峡江县| 精河县| 崇州市| 固原市| 根河市| 台中市| 江陵县| 新兴县| 修文县| 陆川县| 原阳县| 醴陵市| 襄城县| 望城县| 温宿县| 阜新| 姜堰市| 天全县| 石泉县| 吕梁市| 德江县| 都昌县| 武冈市| 新野县| 青川县| 定陶县| 荥阳市| 博白县|