• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      非結(jié)構(gòu)化數(shù)據(jù)的ETL設(shè)計(jì)方法探討

      2014-04-29 08:27:15劉大滏趙盛
      科技創(chuàng)新與應(yīng)用 2014年14期

      劉大滏 趙盛

      摘 要:現(xiàn)代信息技術(shù)在行業(yè)中的應(yīng)用日益深入,而各系統(tǒng)在開發(fā)過程中因其自身的獨(dú)立性,在處理相關(guān)業(yè)務(wù)或?qū)崿F(xiàn)數(shù)據(jù)管理時(shí),多需要從異構(gòu)環(huán)境下來進(jìn)行整合。文章結(jié)合當(dāng)前流行的公共倉庫元模型以及ETL技術(shù)特點(diǎn),針對非結(jié)構(gòu)化數(shù)據(jù)的差異性,探討屬性提取和數(shù)據(jù)打包的有效方法,為實(shí)現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)的ETL設(shè)計(jì)奠定基礎(chǔ)。

      關(guān)鍵詞:非結(jié)構(gòu)化數(shù)據(jù);CWM元模型;ETL設(shè)計(jì)

      計(jì)算機(jī)技術(shù)、網(wǎng)絡(luò)通信技術(shù)在行業(yè)應(yīng)用的不斷深入,諸如各類ERP系統(tǒng)、CRM系統(tǒng)、SCM系統(tǒng)及其他商業(yè)應(yīng)用系統(tǒng)的開發(fā),由于各系統(tǒng)在開發(fā)過程中因其獨(dú)立性特點(diǎn),在優(yōu)化系統(tǒng)應(yīng)用、改善業(yè)務(wù)流程等過程中,不得不考慮在異構(gòu)環(huán)境下的數(shù)據(jù)資源共享問題。異構(gòu)環(huán)境下的數(shù)據(jù)格式及定義是不一致的,而對于相對封閉的應(yīng)用系統(tǒng)數(shù)據(jù)資源來說,如何更有效的提升數(shù)據(jù)資源的應(yīng)用效力,提高數(shù)據(jù)資源的共享水平,結(jié)合行業(yè)應(yīng)用差異和不同部門對數(shù)據(jù)的實(shí)際需求,從數(shù)據(jù)的整合需求上,建立起不同系統(tǒng)下數(shù)據(jù)倉庫的數(shù)據(jù)轉(zhuǎn)換技術(shù)即ETL技術(shù),就顯得尤為迫切。

      1 ETL技術(shù)概述

      ETL(Extract-Transform-Load )技術(shù)是數(shù)據(jù)抽?。‥xtract)、轉(zhuǎn)換(Transform)、裝載(Load)的過程。從其技術(shù)概述來看,Extract是對數(shù)據(jù)的抽取過程,其作用是從原始數(shù)據(jù)系統(tǒng)中讀取所需要的數(shù)據(jù),是實(shí)現(xiàn)數(shù)據(jù)轉(zhuǎn)換工作的前提;Transform是按照預(yù)先設(shè)計(jì)規(guī)則進(jìn)行相應(yīng)轉(zhuǎn)換的過程,其作用是基于異構(gòu)的數(shù)據(jù)資源實(shí)現(xiàn)對數(shù)據(jù)格式及定義的統(tǒng)一;Load是對數(shù)據(jù)倉庫進(jìn)行裝載的過程,其作用是對轉(zhuǎn)換后的數(shù)據(jù)重新導(dǎo)入到數(shù)據(jù)倉庫中,以實(shí)現(xiàn)對數(shù)據(jù)資源的有效整合。從國內(nèi)外ETL技術(shù)的發(fā)展與應(yīng)用來看,主要有IBM Data Stag、Informatics Power Center、Oracle 2 ODI,以及國內(nèi)開發(fā)的Bee Load等產(chǎn)品。在中高端應(yīng)用上以Data Stage和Power Center居多。ETL技術(shù)能夠?qū)崿F(xiàn)對異構(gòu)數(shù)據(jù)庫中相關(guān)數(shù)據(jù)的挖掘和統(tǒng)計(jì),并結(jié)合數(shù)學(xué)模型來實(shí)現(xiàn)對未來發(fā)展進(jìn)行可靠的預(yù)測分析,為行業(yè)決策支持系統(tǒng)提供有效的數(shù)據(jù)服務(wù)功能。

      2 ETL技術(shù)模型分析

      從主流的ETL技術(shù)應(yīng)用來看,多以元數(shù)據(jù)為基礎(chǔ),也就是說滿足CWM元數(shù)據(jù)標(biāo)準(zhǔn)的數(shù)據(jù)模式。CWM是Common Warehouse Meta-model的簡稱,由國際對象管理組織OMG制定的元數(shù)據(jù)模型標(biāo)準(zhǔn),其作用主要是為了能夠?qū)Ξ悩?gòu)環(huán)境下各數(shù)據(jù)倉庫中的元數(shù)據(jù)進(jìn)行交換和共享。其邏輯結(jié)構(gòu)圖如下所示:

      圖1 ETL技術(shù)邏輯示意圖

      在ETL系統(tǒng)中,借助于元數(shù)據(jù)采集工具來實(shí)現(xiàn)對源數(shù)據(jù)庫、主題數(shù)據(jù)庫,及相關(guān)數(shù)據(jù)抽取、轉(zhuǎn)換、裝載等操作,并依據(jù)CWM元模型標(biāo)準(zhǔn),存儲于元數(shù)據(jù)庫。其執(zhí)行過程是通過系統(tǒng)調(diào)度模塊來實(shí)現(xiàn)對相應(yīng)元數(shù)據(jù)的抽取與整合,其元數(shù)據(jù)主要包括三類:一是技術(shù)元數(shù)據(jù),如ETL技術(shù)對各類源數(shù)據(jù)庫中的數(shù)據(jù)類型、數(shù)據(jù)格式、數(shù)據(jù)序列名等進(jìn)行描述,并準(zhǔn)確獲得源數(shù)據(jù)庫與主題數(shù)庫之間的變化信息;二是操作元數(shù)據(jù),主要包括對業(yè)務(wù)用戶和數(shù)據(jù)操作有價(jià)值的元數(shù)據(jù),如數(shù)據(jù)質(zhì)量、更新計(jì)劃、訪問模式等;三是業(yè)務(wù)元數(shù)據(jù),主要包括對各業(yè)務(wù)用戶有用的信息,如數(shù)據(jù)的所有權(quán)及各類業(yè)務(wù)規(guī)則,數(shù)據(jù)裝載計(jì)劃等,其作用能夠?yàn)橛脩襞c數(shù)據(jù)倉庫提供訪問的橋梁。

      3 ETL數(shù)據(jù)分析及設(shè)計(jì)

      從CWM元數(shù)據(jù)模型對ETL系統(tǒng)的邏輯關(guān)系來看,這些元數(shù)據(jù)具有明確的格式特點(diǎn)、屬性及數(shù)據(jù)關(guān)系,可以通過使用二維表來進(jìn)行邏輯表達(dá)。而對于異構(gòu)環(huán)境下無法用二維邏輯表進(jìn)行表達(dá)的非結(jié)構(gòu)化數(shù)據(jù)來說,其相對零散的數(shù)據(jù)堆積,不僅存在大量數(shù)據(jù)冗余和無效信息,還難以用簡單的結(jié)構(gòu)化描述語言進(jìn)行準(zhǔn)確表達(dá)。也就是說,對于非結(jié)構(gòu)化數(shù)據(jù),如視頻數(shù)據(jù)、圖像數(shù)據(jù)、音頻數(shù)據(jù)等信息進(jìn)行管理和提取時(shí),迫切需要從ETL技術(shù)設(shè)計(jì)上來進(jìn)行優(yōu)化。在對CWM元數(shù)據(jù)結(jié)構(gòu)進(jìn)行分析后,ETL系統(tǒng)設(shè)計(jì)主要是對存儲在源數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換和加載,而對于非結(jié)構(gòu)化數(shù)據(jù)來說,其元數(shù)據(jù)屬于技術(shù)元數(shù)據(jù),只要處理好技術(shù)元數(shù)據(jù)中的非結(jié)構(gòu)化數(shù)據(jù)的轉(zhuǎn)換,使其便于使用CWM元數(shù)據(jù)驅(qū)動(dòng)ETL系統(tǒng)即可。因此,對于非結(jié)構(gòu)化數(shù)據(jù)系統(tǒng)中的操作元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù),依據(jù)常規(guī)的數(shù)據(jù)控制轉(zhuǎn)換模塊即可完成對源數(shù)據(jù)庫到主題數(shù)據(jù)庫的裝載。

      對于結(jié)構(gòu)化數(shù)據(jù)可以根據(jù)數(shù)據(jù)的屬性來建立元數(shù)據(jù),而對于非結(jié)構(gòu)化數(shù)據(jù),則需要從各種數(shù)據(jù)的隱藏屬性進(jìn)行分析,并使其能夠顯現(xiàn)出來。我們從非結(jié)構(gòu)化數(shù)據(jù)的自有屬性進(jìn)行觀察,主要有時(shí)間屬性、空間屬性、內(nèi)容屬性、格式屬性、來源屬性、獲取手段屬性及使用屬性等,通過對原有非結(jié)構(gòu)化數(shù)據(jù)文件進(jìn)行重新命名分類,如結(jié)合某應(yīng)用需要來建立新的文件名,即單位_科室_總類_分類_具體類型_日期.pdf,就可以很清晰的反映出某數(shù)據(jù)文件的來源、分類及時(shí)間等信息。Adobe公司的PDF數(shù)據(jù)壓縮包能夠?qū)崿F(xiàn)對數(shù)據(jù)壓縮和轉(zhuǎn)換的功能,既可以節(jié)省存儲空間,還能夠?qū)崿F(xiàn)對數(shù)據(jù)結(jié)構(gòu)的轉(zhuǎn)換。其組織結(jié)構(gòu)如下圖2所示:

      圖2 Adobe PDF 數(shù)據(jù)包組織結(jié)構(gòu)

      利用Adobe PDF數(shù)據(jù)包來實(shí)現(xiàn)對非結(jié)構(gòu)化數(shù)據(jù)庫的轉(zhuǎn)換,可以依照樹形結(jié)構(gòu)來進(jìn)行顯示,也可以對不同類型的數(shù)據(jù)文件進(jìn)行設(shè)計(jì),使其滿足對某一非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行單獨(dú)壓縮,也可以對多個(gè)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行全面壓縮,其摘要信息可以存放在info.xml文件。利用非結(jié)構(gòu)化數(shù)據(jù)的轉(zhuǎn)換方法,可以從其相關(guān)屬性中來判定數(shù)據(jù)的摘要及內(nèi)容,還可以利用工具軟件編制數(shù)據(jù)索引,便于日后對相關(guān)數(shù)據(jù)的快速檢索,從而實(shí)現(xiàn)了對非結(jié)構(gòu)化數(shù)據(jù)的CWM的ETL處理,滿足了非結(jié)構(gòu)化數(shù)據(jù)的整合和管理目標(biāo)。

      4 結(jié)束語

      文章通過對非結(jié)構(gòu)化數(shù)據(jù)源的PDF轉(zhuǎn)換壓縮的分析,為更好的挖掘非結(jié)構(gòu)化數(shù)據(jù)的隱藏屬性,提高對非結(jié)構(gòu)化數(shù)據(jù)源的準(zhǔn)確定位,并實(shí)現(xiàn)了對非結(jié)構(gòu)化數(shù)據(jù)的整合和管理,為滿足行業(yè)應(yīng)用提供了有效的解決方案。

      參考文獻(xiàn)

      [1]萬里鵬.非結(jié)構(gòu)化到結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換的研究與實(shí)現(xiàn)[D].西南交通大學(xué),2013.

      [2]周茂偉,鄧蘇,黃宏斌.基于元數(shù)據(jù)的ETL工具設(shè)計(jì)與實(shí)現(xiàn)[J].科學(xué)技術(shù)與工程,2006(21).

      [3]馬曉東.地理信息元數(shù)據(jù)的管理探討[J].測繪技術(shù)裝備,2009(02).

      [4]梁大鵬,李紅.基于數(shù)據(jù)倉庫技術(shù)的決策支持系統(tǒng)研究設(shè)計(jì)[J].商場現(xiàn)代化,2011(04).

      作者簡介:劉大滏(1976,12-),男,重慶,高級工程師。

      趙盛(1978,5-),男,陜西工程師。

      阳朔县| 洛宁县| 大竹县| 阿克苏市| 淮北市| 绥芬河市| 崇阳县| 高台县| 壤塘县| 彭州市| 德庆县| 望江县| 麻阳| 浪卡子县| 通渭县| 团风县| 道孚县| 金山区| 鄱阳县| 中卫市| 海林市| 茶陵县| 察隅县| 子洲县| 方山县| 杭锦后旗| 海林市| 瑞安市| 彭泽县| 中西区| 建湖县| 阿瓦提县| 盐池县| 安西县| 拉孜县| 蒲城县| 台湾省| 易门县| 鄱阳县| 三台县| 江西省|