何麗
摘 要:對于存數(shù)據(jù)倉庫中,將同一屬性數(shù)據(jù)實(shí)施連續(xù)存儲(chǔ),并結(jié)合運(yùn)用數(shù)據(jù)復(fù)用技術(shù),可以節(jié)約數(shù)據(jù)倉庫管理中的存儲(chǔ)空間,提高列存數(shù)據(jù)倉庫查詢效率,提高了數(shù)據(jù)倉庫應(yīng)用性能,增強(qiáng)列存數(shù)據(jù)倉庫復(fù)用的可行性。以下本篇淺析數(shù)據(jù)復(fù)用在存儲(chǔ)數(shù)據(jù)倉庫中的運(yùn)用。
關(guān)鍵字:數(shù)據(jù)倉庫;列存儲(chǔ)數(shù)據(jù)倉庫;數(shù)據(jù)復(fù)用
在存儲(chǔ)數(shù)據(jù)倉庫中,應(yīng)用數(shù)據(jù)復(fù)用手段,對改善當(dāng)前存儲(chǔ)數(shù)據(jù)倉庫性能有很好的推進(jìn)作用,可以采取數(shù)據(jù)復(fù)用方案發(fā)掘數(shù)據(jù)倉庫中可復(fù)用的列,并對可復(fù)用的數(shù)據(jù)列篩選、過濾,有效降低數(shù)據(jù)倉庫存儲(chǔ)中復(fù)用數(shù)據(jù)的復(fù)雜度,復(fù)用實(shí)現(xiàn)基于列存儲(chǔ)的數(shù)據(jù)存儲(chǔ),減少存儲(chǔ)量、節(jié)省數(shù)據(jù)裝載時(shí)間,提升數(shù)據(jù)倉庫性能。以下本文就對此做具體介紹。
1 數(shù)據(jù)倉庫及數(shù)據(jù)復(fù)用
1.1 數(shù)據(jù)倉庫
數(shù)據(jù)倉庫,可以是面向主題的,也可以是集成、非易失性,數(shù)據(jù)倉庫存儲(chǔ)的內(nèi)容,會(huì)隨時(shí)間不斷變化產(chǎn)生數(shù)據(jù)集合,以此來支持管理人員的策。數(shù)據(jù)倉庫中,多數(shù)采取主題信息分類加工方法,將倉庫中的數(shù)據(jù)信息集成起來,并確保集成數(shù)據(jù)的完整性與一致性【1】;同時(shí),在數(shù)據(jù)倉庫中,也負(fù)責(zé)實(shí)施數(shù)據(jù)抽取(Extract)、轉(zhuǎn)換(Transform)、裝載(Load)的一系列過程, 存儲(chǔ)數(shù)據(jù)倉庫中可以按照統(tǒng)一的規(guī)則,優(yōu)化數(shù)據(jù)倉庫存儲(chǔ)作用。
1.2 數(shù)據(jù)復(fù)用的定義
在計(jì)算機(jī)技術(shù)中,數(shù)據(jù)復(fù)用,就是能夠充分利用數(shù)據(jù)倉庫內(nèi)數(shù)據(jù)存在的重復(fù)關(guān)系,復(fù)用這些數(shù)據(jù)信息,從可以可以減少數(shù)據(jù)倉庫系統(tǒng)的存儲(chǔ)量,縮短數(shù)據(jù)倉庫響應(yīng)用戶的時(shí)間??梢葬槍?shù)據(jù)倉庫數(shù)據(jù)內(nèi)容,采取一系列存儲(chǔ)手段,將數(shù)據(jù)倉庫重復(fù)數(shù)據(jù)信息復(fù)用集合起來,提升數(shù)據(jù)倉庫數(shù)據(jù)利用率。
2 改進(jìn)當(dāng)前存儲(chǔ)數(shù)據(jù)倉庫的意義
在通常情況下的數(shù)據(jù)倉庫存儲(chǔ)中,多數(shù)采取采用行存儲(chǔ)的結(jié)構(gòu)模式,主要將每條數(shù)據(jù),以順序方式存儲(chǔ)在數(shù)據(jù)倉庫的物理介質(zhì)之中,然而此存儲(chǔ)方法中,會(huì)因?yàn)閿?shù)據(jù)集差異,導(dǎo)致數(shù)據(jù)倉庫數(shù)據(jù)重復(fù)率不高,不易于復(fù)用。故此,在存儲(chǔ)數(shù)據(jù)倉庫中,應(yīng)用數(shù)據(jù)復(fù)用技術(shù),采取有效復(fù)用手段,提升數(shù)據(jù)倉庫信息的復(fù)用率,改善數(shù)據(jù)倉庫數(shù)據(jù)查詢效率,分析數(shù)據(jù)中的海量數(shù)據(jù),避免在數(shù)據(jù)倉庫中發(fā)生內(nèi)存爭用,通過重用數(shù)據(jù)處理結(jié)果,有效滿足存儲(chǔ)數(shù)據(jù)倉庫性能的提升需求【2】。在存儲(chǔ)數(shù)據(jù)倉庫中,數(shù)據(jù)復(fù)用技術(shù)的應(yīng)用,采取數(shù)據(jù)復(fù)用方法,估計(jì)數(shù)據(jù)重用度、優(yōu)化數(shù)據(jù)額外緩沖調(diào)度策略,提升數(shù)據(jù)復(fù)用度,采取列存儲(chǔ)方法,將同一屬性的數(shù)據(jù)連續(xù)存儲(chǔ),提高數(shù)據(jù)倉庫應(yīng)用價(jià)值。
3 在數(shù)據(jù)倉庫中數(shù)據(jù)復(fù)用技術(shù)的運(yùn)用
3.1 數(shù)據(jù)倉庫中的基本定義
數(shù)據(jù)倉庫:D ={S1,S2,…,Sn},由一系列相互關(guān)聯(lián)的物理表構(gòu)成,其中S表示關(guān)系表,n表示關(guān)系的數(shù)量。
關(guān)系表:Si={Ai1,Ai2,…,Aim},其中m表示關(guān)系Si的目的度,Aij表示Si中第j個(gè)屬性
數(shù)據(jù)段:Segi={blki1,blki2,…,blkir}
目標(biāo)表:T={A′1,A′2,…,A′k},k表示T的目的度,數(shù)據(jù)復(fù)用對于T中的每一個(gè)屬性A′i,在D中尋找可復(fù)用數(shù)據(jù)并合理利用的過程
數(shù)據(jù)復(fù)用技術(shù)中,源屬性集:已有關(guān)系表中能夠被復(fù) 用 的 屬 性 集 合 記 為 源 屬 性 集Cols={Ai1,Ai2,…,Aij},集合中的每一項(xiàng)稱為源屬性目標(biāo)表Colt={A1,A2,…,Aj},其中Ai又稱為目標(biāo)屬性
3.2 數(shù)據(jù)復(fù)用中的列存儲(chǔ)技術(shù)
數(shù)據(jù)復(fù)用技術(shù),列存儲(chǔ)數(shù)據(jù)復(fù)用技術(shù),就是針對具有相同屬性,且相同、相近的列,列存儲(chǔ)中數(shù)據(jù)冗余度高,以此作為數(shù)據(jù)復(fù)用手段,應(yīng)用到數(shù)據(jù)倉庫的存儲(chǔ)之中,可以利用數(shù)據(jù)模式匹配的技術(shù),發(fā)掘數(shù)據(jù)倉庫中可復(fù)用的列,縮小復(fù)用數(shù)據(jù)復(fù)雜度。數(shù)據(jù)復(fù)用中針對某個(gè)列中的值進(jìn)行簡單查詢的速度非???,需要的內(nèi)部存儲(chǔ)資源最少。數(shù)據(jù)復(fù)用技術(shù),采取基于列存儲(chǔ)的數(shù)據(jù)復(fù)用實(shí)現(xiàn)策略,可以減少數(shù)據(jù)倉庫的存儲(chǔ)量,提升少數(shù)據(jù)倉庫查詢性能。數(shù)據(jù)復(fù)用技術(shù)應(yīng)用中,對于每個(gè)字段的數(shù)據(jù),都聚集存儲(chǔ)在數(shù)據(jù)倉庫中,在查詢數(shù)據(jù)時(shí)只需要通過幾個(gè)字段,就可以讀取數(shù)據(jù)倉庫中的數(shù)據(jù),更容易提升實(shí)際中數(shù)據(jù)倉庫的存儲(chǔ)空間量。
4 數(shù)據(jù)復(fù)用實(shí)現(xiàn)策略
4.1 列存儲(chǔ)
對于數(shù)據(jù)倉庫中,運(yùn)用數(shù)據(jù)復(fù)用技術(shù),在列存儲(chǔ)數(shù)據(jù)的策略之中,可以將數(shù)據(jù)倉庫中查詢處理的對象,定義為列的形式, 使其可以屬于一張表中的列屬,并位于用一個(gè)數(shù)據(jù)空間內(nèi)。然后再重組一行數(shù)據(jù)內(nèi)容, 并給每一列附加偽列 rowid , 結(jié)構(gòu)如< rowid, value >,且在每一列在中都有索引。
數(shù)據(jù)復(fù)用技術(shù),對于同空間內(nèi)的數(shù)據(jù)操作,可以由and 進(jìn)行連接。從而實(shí)現(xiàn)在存儲(chǔ)數(shù)據(jù)倉庫中對兩個(gè)操作以及兩個(gè)列之間的比較,并可以將其定義為同空間列連接【3】。并且對于此類串行連接的數(shù)據(jù)存儲(chǔ)復(fù)用技術(shù)中,對于一個(gè)連接操作對象,可以有兩個(gè)孩子實(shí)施操作, 使用一個(gè)操作結(jié)果連接條件,過濾另一個(gè)孩子的操作方法,實(shí)現(xiàn)串行連接的數(shù)據(jù)復(fù)用。
4.2 數(shù)據(jù)復(fù)用方法選擇
4.4 存儲(chǔ)數(shù)據(jù)倉庫評估
對于數(shù)據(jù)倉庫中,應(yīng)用基于列的數(shù)據(jù)復(fù)用技術(shù),不僅優(yōu)化SQL語句生成的語法樹,還可以優(yōu)化存儲(chǔ)數(shù)據(jù)查詢中的連接策略, 得到優(yōu)化查詢計(jì)劃,生成大量的候選查詢計(jì)劃, 為數(shù)據(jù)復(fù)用提供決策。動(dòng)態(tài)優(yōu)化算法執(zhí)行順序, 優(yōu)化查詢計(jì)劃,在存儲(chǔ)數(shù)據(jù)倉庫中,實(shí)際存儲(chǔ)量一記錄數(shù)X字段占用4個(gè)字節(jié),根據(jù)列存儲(chǔ)數(shù)據(jù)復(fù)用技術(shù),可復(fù)用列占用428,時(shí)節(jié)約288空間,提升數(shù)據(jù)倉庫數(shù)據(jù)復(fù)用的合理性,提升數(shù)據(jù)倉庫存儲(chǔ)空間。運(yùn)用復(fù)用數(shù)據(jù)技術(shù)的數(shù)據(jù)倉庫存儲(chǔ)中,有效排除數(shù)據(jù)倉庫存儲(chǔ)大量無法復(fù)用的數(shù)據(jù)列,減少實(shí)際中復(fù)用數(shù)據(jù)檢測的復(fù)雜度,有效利用數(shù)據(jù)之問的冗余,減少存儲(chǔ)量。
5 結(jié)論
綜上所述,對于存儲(chǔ)數(shù)據(jù)倉庫中,運(yùn)用數(shù)據(jù)復(fù)用技術(shù),采取有效的數(shù)據(jù)復(fù)用策略,不僅可以提升數(shù)據(jù)倉庫的存儲(chǔ)性能,還可以節(jié)省數(shù)據(jù)倉庫存儲(chǔ)空間。在存儲(chǔ)數(shù)據(jù)倉庫中,應(yīng)用基于列存儲(chǔ)的數(shù)據(jù)復(fù)用方法,有效集合相同屬性的數(shù)據(jù)對象,充分利用串行連接以及并行連接優(yōu)勢, 優(yōu)化列存儲(chǔ)的查詢策略,實(shí)現(xiàn)對相同數(shù)據(jù)的連續(xù)性存儲(chǔ),大大優(yōu)化數(shù)據(jù)倉庫信息復(fù)用效率,提升數(shù)據(jù)倉庫數(shù)據(jù)存儲(chǔ)容量,發(fā)揮實(shí)際運(yùn)用效益。
參考文獻(xiàn)
[1]陳建平.數(shù)據(jù)倉庫的管理與使用[J].長春郵電學(xué)院學(xué)報(bào),2012,07(18):41-42.
[2]陶再平,陳奇,俞瑞釗.數(shù)據(jù)倉庫在企業(yè)中應(yīng)用的研究[J]. 計(jì)算機(jī)工程,2011,14(12):76-77.
[3]唐宏,聶能,熊思民,趙明偉.數(shù)據(jù)倉庫實(shí)現(xiàn)技術(shù)[J]. 數(shù)字通信,2013,21(14):56-57.
[4]馬洪江.淺論數(shù)據(jù)倉庫在企業(yè)管理決策支持系統(tǒng)中的應(yīng)用[J]. 成都大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,06(34):45-46.