何志明 李顯峰 苗水清
摘 要:數(shù)據(jù)倉(cāng)庫(kù)是聯(lián)機(jī)數(shù)據(jù)分析及數(shù)據(jù)挖掘的基礎(chǔ),是一個(gè)熱門(mén)研究領(lǐng)域。本文主要紹了數(shù)據(jù)倉(cāng)庫(kù)的產(chǎn)生、定義和主要特點(diǎn)。并在本文結(jié)尾部分簡(jiǎn)單闡述了數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展趨勢(shì)。
關(guān)鍵詞:數(shù)據(jù)倉(cāng)庫(kù);數(shù)據(jù)分析;數(shù)據(jù)挖掘
DOI:10.16640/j.cnki.37-1222/t.2019.21.110
1 從數(shù)據(jù)庫(kù)到數(shù)據(jù)倉(cāng)庫(kù)
在1961年,世界上產(chǎn)生了第一個(gè)數(shù)據(jù)庫(kù)管理系統(tǒng)。隨后,數(shù)據(jù)庫(kù)開(kāi)始不停地往前發(fā)展。傳統(tǒng)的數(shù)據(jù)庫(kù)技術(shù)主要是用單一的數(shù)據(jù)進(jìn)行批處理、聯(lián)機(jī)事務(wù)處理(即我們常用說(shuō)的OLTP)、決策分析等各種數(shù)據(jù)處理工作。傳統(tǒng)數(shù)據(jù)庫(kù)系統(tǒng)的主要工作是企業(yè)的日常事務(wù)處理,例如查詢(xún)、增加、刪除、日志等。所以它難以滿(mǎn)足高層用戶(hù)對(duì)數(shù)據(jù)的統(tǒng)計(jì)分析需求,難以實(shí)現(xiàn)數(shù)據(jù)處理中的多樣化要求。因此,傳統(tǒng)數(shù)據(jù)庫(kù)就逐步分離成了操作型數(shù)據(jù)庫(kù)和分析型數(shù)據(jù)庫(kù)兩大類(lèi)。操作型數(shù)據(jù)庫(kù)也就是OLTP一般用于業(yè)務(wù)支撐:例如一個(gè)公司由于業(yè)務(wù)需要,會(huì)建立及使用一、兩個(gè)甚至多個(gè)數(shù)據(jù)庫(kù),這些數(shù)據(jù)庫(kù)的主要功能不一樣,它們可能分別保存著企業(yè)的日常數(shù)據(jù):比如銷(xiāo)售記錄、商品預(yù)訂情況、員工基本情況分析等;它們相互獨(dú)立,偶有聯(lián)系,不利于數(shù)據(jù)分析。而分析型數(shù)據(jù)庫(kù)的側(cè)重點(diǎn)則完全不一樣,它主要進(jìn)行歷史數(shù)據(jù)分析;分析型數(shù)據(jù)庫(kù)一般會(huì)將企業(yè)的日常操作數(shù)據(jù)單獨(dú)存儲(chǔ),然后有目的地選擇歷史數(shù)據(jù)對(duì)針對(duì)具體主題進(jìn)行分析。因?yàn)檫@兩類(lèi)數(shù)據(jù)庫(kù)主導(dǎo)功能的不同,就產(chǎn)生了很多細(xì)節(jié)上的差異。其主要差異如下表所示。
2 數(shù)據(jù)倉(cāng)庫(kù)概念
近年來(lái),隨著數(shù)據(jù)庫(kù)技術(shù)的廣泛應(yīng)用和迅猛發(fā)展,決策者需要對(duì)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行深層次的加工處理,然后形成一個(gè)綜合的,全面的、面向主題的環(huán)境,主要為決策支持提供服務(wù),從而催生了數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的誕生。
數(shù)據(jù)倉(cāng)庫(kù)是:英文名稱(chēng)為Data Warehouse(DW或DWH)。它是一個(gè)集成的、面向主題的、穩(wěn)定的、隨時(shí)間變化的數(shù)據(jù)的集合,以用于支持管理決策過(guò)程。
僅看數(shù)據(jù)倉(cāng)庫(kù)的概念,還是比較晦澀難理解的。但我們結(jié)合應(yīng)用實(shí)例,那么就比較好理解了,因?yàn)榇蠖嗉夹g(shù)都是為實(shí)際應(yīng)用服務(wù)的。我們就以超市的事務(wù)處理為例來(lái)看看數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)庫(kù)有什么不同。事務(wù)系統(tǒng)的數(shù)據(jù)平臺(tái)主要是數(shù)據(jù)庫(kù),主要記錄每位客戶(hù)在超市的每筆交易。這里,我們可以將超市的數(shù)據(jù)庫(kù)系統(tǒng)比作記賬系統(tǒng)。那么數(shù)據(jù)倉(cāng)庫(kù)是用來(lái)分析超市的交易數(shù)據(jù)的,它從超市的事務(wù)操作數(shù)據(jù)庫(kù)中獲取各種交易數(shù)據(jù),然后進(jìn)行匯總、加工、分析,并給超市管理層或是決策者提供決策依據(jù)。例如,統(tǒng)計(jì)分析超市一個(gè)月有多少交易量,什么時(shí)間交易量比較大,什么商品不但交易量大而且利潤(rùn)高。什么商品雖然交易量少,但利潤(rùn)高等等。當(dāng)交易量大、利潤(rùn)高,那么該超市就應(yīng)該考慮增加營(yíng)業(yè)面積了。
很明顯,超市的交易量比較大,而且涉及商品、顧客都比較廣,如果一個(gè)顧客購(gòu)買(mǎi)一件商品需要花費(fèi)幾分鐘的時(shí)間來(lái)交易,那么顧客是無(wú)法接受的,所以它要求系統(tǒng)應(yīng)該在極短的時(shí)間內(nèi)給予響應(yīng)。而超市的營(yíng)業(yè)分析,則不需要在幾分鐘內(nèi)完成,它需要對(duì)大量甚至是海量的交易數(shù)據(jù)進(jìn)行匯總、分析,所以會(huì)需要較長(zhǎng)的時(shí)間,但是只要它的數(shù)據(jù)分析結(jié)果是有效的,可用的,那么時(shí)間長(zhǎng)些,決策者也是可以接受的。因?yàn)闆Q策者更關(guān)注的是信息的匯總程度及其價(jià)值。
3 數(shù)據(jù)倉(cāng)庫(kù)主要特點(diǎn)
3.1 面向主題
傳統(tǒng)型數(shù)據(jù)庫(kù)的主要任務(wù)是數(shù)據(jù)處理,即事務(wù)操作。所以該數(shù)據(jù)庫(kù)一般是以事務(wù)相關(guān)性進(jìn)行存儲(chǔ),而不會(huì)按照主題進(jìn)行存儲(chǔ)數(shù)據(jù);數(shù)據(jù)倉(cāng)庫(kù)的主要任務(wù)是數(shù)據(jù)分析,故而主要按主題相關(guān)進(jìn)行存儲(chǔ)。所以數(shù)據(jù)倉(cāng)庫(kù)是面向主題的;操作型數(shù)據(jù)庫(kù)的數(shù)據(jù)組織方式事物處理任務(wù)。主題是指決策用戶(hù)在使用數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行決策時(shí)所關(guān)心方面。一般,一個(gè)主題通常與多個(gè)操作型數(shù)據(jù)庫(kù)相關(guān)。也就是是否面向主題是數(shù)據(jù)倉(cāng)庫(kù)和傳統(tǒng)操作型數(shù)據(jù)庫(kù)的本質(zhì)區(qū)別。
3.2 集成性
數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)大多數(shù)情況下,會(huì)從各企業(yè)原有的數(shù)據(jù)庫(kù)系統(tǒng)中進(jìn)行提取,但它并不是簡(jiǎn)單的拷貝原有數(shù)據(jù),而是提取出來(lái)后必須經(jīng)過(guò)抽取、篩選、清理、轉(zhuǎn)換、綜合等工作然后再進(jìn)行存儲(chǔ)、使用。
3.3 隨時(shí)間而變化
數(shù)據(jù)庫(kù)在保存數(shù)據(jù)時(shí),一般不強(qiáng)調(diào)數(shù)據(jù)的具體時(shí)間信息。而數(shù)據(jù)倉(cāng)庫(kù)則不一樣,數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)基本都要求標(biāo)注數(shù)據(jù)的時(shí)間特性,這主要是出于決策需要。比如,在決策過(guò)程中,時(shí)間屬性也是非常重要的。例如,同樣是統(tǒng)計(jì)購(gòu)買(mǎi)過(guò)某品牌汽車(chē)產(chǎn)品的顧客,A是最近三個(gè)月內(nèi)購(gòu)買(mǎi)的,B則是在幾年前購(gòu)買(mǎi)的,那么這個(gè)信息這對(duì)決策者意義是不一樣的。所以數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)是隨時(shí)間不斷變化的。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)不可更新主要是針對(duì)應(yīng)用操作來(lái)說(shuō)的,換句話(huà)說(shuō),數(shù)據(jù)倉(cāng)庫(kù)在進(jìn)行數(shù)據(jù)分析處理時(shí),一般不進(jìn)行數(shù)據(jù)更新。但并不是說(shuō),數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)都是永遠(yuǎn)不變的,永不更新的。只是,數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)一般更新時(shí)間間隔會(huì)比較長(zhǎng)一些。不如事物數(shù)據(jù)庫(kù)更新快。所以數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)是隨時(shí)間的變化而不斷變化的。
3.4 數(shù)據(jù)不易丟失
數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)主要反映的是數(shù)據(jù)的歷史性,并不是操作型數(shù)據(jù)庫(kù)的那種日常事務(wù)操作處理數(shù)據(jù)。所以,數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)基本不修改,或是極少修改,一般只是定期增加或是刪除數(shù)據(jù),以保證數(shù)據(jù)倉(cāng)庫(kù)的中數(shù)據(jù)的完整性及時(shí)效性,同時(shí)控制數(shù)據(jù)倉(cāng)庫(kù)的存儲(chǔ)規(guī)模。數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)基本都是綜合數(shù)據(jù),這些綜合數(shù)據(jù)中大多與跟時(shí)間相關(guān),所以要經(jīng)常按照時(shí)間段進(jìn)行綜合整理,或是間隔一定時(shí)間片就要進(jìn)行抽樣整理等。因此,數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是隨著時(shí)間的變化而不斷地進(jìn)行重新綜合整理的。
4 發(fā)展趨勢(shì)
隨著計(jì)算機(jī)技術(shù)的日益精進(jìn),特別是數(shù)據(jù)庫(kù)技術(shù)的發(fā)展以及應(yīng)用需求的增大,數(shù)據(jù)倉(cāng)庫(kù)也在發(fā)展。主要發(fā)展方向?yàn)椋?/p>
(1)并行化與可擴(kuò)展性:在這個(gè)追求速度與效率的時(shí)代,數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展也在向并行化方向發(fā)展,最明顯的就是在硬件上,采用多處理器提高并行處理能力。同時(shí),在研發(fā)時(shí),也考慮數(shù)據(jù)倉(cāng)庫(kù)的可擴(kuò)展性,以增強(qiáng)數(shù)據(jù)倉(cāng)庫(kù)的生存期。
(2)集中化:目前,數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目也是越來(lái)越大,很多決策、信息管理也都依賴(lài)于數(shù)據(jù)倉(cāng)庫(kù)。并且,隨著網(wǎng)絡(luò)技術(shù)的發(fā)展與廣泛應(yīng)用,數(shù)據(jù)倉(cāng)庫(kù)必將與網(wǎng)絡(luò)應(yīng)用進(jìn)行集成,即前臺(tái)是Web服務(wù)器及應(yīng)用,后臺(tái)則是數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)。
(3)通用數(shù)據(jù)庫(kù)倉(cāng)庫(kù):將來(lái)的數(shù)據(jù)倉(cāng)庫(kù)將向支持多媒體技術(shù)、支持結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)倉(cāng)庫(kù)發(fā)展,也將具有面向?qū)ο筇幚淼哪芰Α?/p>
(4)數(shù)據(jù)倉(cāng)庫(kù)打包應(yīng)用:數(shù)據(jù)倉(cāng)庫(kù)將集成一些實(shí)用工具及應(yīng)用,并將它們打包后推向用戶(hù)。
5 小結(jié)
在這個(gè)海量數(shù)據(jù)存在,數(shù)據(jù)過(guò)剩的時(shí)代,數(shù)據(jù)倉(cāng)庫(kù)顯示出了無(wú)與倫比的重要。因?yàn)?,它是?shù)據(jù)分析,數(shù)據(jù)挖掘的基礎(chǔ)及質(zhì)量保證。在國(guó)內(nèi),許多電商、互聯(lián)網(wǎng)公司,比如阿里、騰訊,其數(shù)據(jù)引擎、推薦引擎基本都是建立數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)上的。許多數(shù)據(jù)倉(cāng)庫(kù)人員認(rèn)為只要高質(zhì)量的數(shù)據(jù)倉(cāng)庫(kù)建立起來(lái)了,數(shù)據(jù)分析、數(shù)據(jù)挖掘以及其相關(guān)應(yīng)用才能得到保障,如果相關(guān)業(yè)務(wù)數(shù)據(jù)沒(méi)梳理好,那么各種臟、亂、差得數(shù)據(jù)不光會(huì)搞得人焦頭爛額,苦不堪言,而且以此作為基礎(chǔ)的挖掘、分析質(zhì)量也會(huì)大打折扣。
參考文獻(xiàn):
[1]郝雅萍.計(jì)算機(jī)數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建原理及發(fā)展趨勢(shì)[J].延邊教育學(xué)院學(xué)報(bào),2018,32(06):121-124.
[2]王定吉.探討移動(dòng)互聯(lián)網(wǎng) APP 數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用[J].建筑工程技術(shù)與設(shè)計(jì),2018(32):4101.
[3]陳宏.淺談數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)及應(yīng)用[J].科技廣場(chǎng),2011(09):90-93.
[4]李春葆.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘?qū)嵺`[M].電子工業(yè)出版社,2014.