陳明
摘要:大數(shù)據(jù)分析是大數(shù)據(jù)技術(shù)的主要應(yīng)用之一。文章介紹大數(shù)據(jù)分析的基本方法、類型、步驟、內(nèi)容和預(yù)測(cè)分析等。
關(guān)鍵詞:數(shù)據(jù)分析;預(yù)測(cè)分析;大數(shù)據(jù)分析
1.概述
數(shù)據(jù)分析是指收集、處理數(shù)據(jù)并獲取信息的過程。具體地說,數(shù)據(jù)分析是建立審計(jì)分析模型,對(duì)數(shù)據(jù)進(jìn)行核對(duì)、檢查、復(fù)算、判斷等操作,將被審計(jì)數(shù)據(jù)的現(xiàn)實(shí)狀態(tài)與理想狀態(tài)進(jìn)行比較,從而發(fā)現(xiàn)審計(jì)線索,搜集審計(jì)證據(jù)的過程。通過數(shù)據(jù)分析,我們可以將隱沒在雜亂無章的數(shù)據(jù)中的信息集中、萃取和提煉,進(jìn)而找出所研究對(duì)象的內(nèi)在規(guī)律。
數(shù)據(jù)分析有極廣泛的應(yīng)用范圍。在產(chǎn)品的整個(gè)生命周期內(nèi),數(shù)據(jù)分析過程是質(zhì)量管理體系的支持過程,包括從產(chǎn)品的市場(chǎng)調(diào)研到售后服務(wù)以及最終處置都需要適當(dāng)運(yùn)用數(shù)據(jù)分析,以提升有效性。如一個(gè)企業(yè)領(lǐng)導(dǎo)人通過市場(chǎng)調(diào)查,分析所得數(shù)據(jù)判定市場(chǎng)動(dòng)向,從而制訂合適的生產(chǎn)及銷售計(jì)劃。
2.數(shù)據(jù)分析的基本方法
數(shù)據(jù)分析的基本方法除了包括較簡(jiǎn)單數(shù)學(xué)運(yùn)算之外,還包含下述幾種常用方法。
2.1統(tǒng)計(jì)
統(tǒng)計(jì)有合計(jì)、總計(jì)之意,指對(duì)某一現(xiàn)象的有關(guān)數(shù)據(jù)進(jìn)行搜集、整理、計(jì)算、分析、解釋、表述等。在實(shí)際應(yīng)用中,統(tǒng)計(jì)含義一般包括統(tǒng)計(jì)工作、統(tǒng)計(jì)資料和統(tǒng)計(jì)科學(xué)。
(1)統(tǒng)計(jì)工作。統(tǒng)計(jì)工作指利用科學(xué)方法對(duì)相關(guān)數(shù)據(jù)進(jìn)行搜集、整理和分析并提供關(guān)于社會(huì)經(jīng)濟(jì)現(xiàn)象數(shù)量資料的工作的總稱,是統(tǒng)計(jì)的基礎(chǔ)。統(tǒng)計(jì)工作也稱統(tǒng)計(jì)實(shí)踐或統(tǒng)計(jì)活動(dòng)。現(xiàn)實(shí)生活中,統(tǒng)計(jì)工作作為一種認(rèn)識(shí)社會(huì)經(jīng)濟(jì)現(xiàn)象總體和自然現(xiàn)象總體的實(shí)踐過程,一般包括統(tǒng)計(jì)設(shè)計(jì)、統(tǒng)計(jì)調(diào)查、統(tǒng)計(jì)整理和統(tǒng)計(jì)分析4個(gè)環(huán)節(jié)。
(2)統(tǒng)計(jì)資料。統(tǒng)計(jì)資料又稱為統(tǒng)計(jì)信息,是反映一定社會(huì)經(jīng)濟(jì)現(xiàn)象總體或自然現(xiàn)象總體的特征或規(guī)律的數(shù)字資料、文字資料、圖表資料及其他相關(guān)資料的總稱。統(tǒng)計(jì)資料是通過統(tǒng)計(jì)工作獲得反映社會(huì)經(jīng)濟(jì)現(xiàn)象的數(shù)據(jù)資料的總稱,反映在統(tǒng)計(jì)表、統(tǒng)計(jì)圖、統(tǒng)計(jì)手冊(cè)、統(tǒng)計(jì)年鑒、統(tǒng)計(jì)資料匯編、統(tǒng)計(jì)分析報(bào)告和其他有關(guān)統(tǒng)計(jì)信息的載體中。統(tǒng)計(jì)資料也包括調(diào)查取得的原始資料和經(jīng)過整理、加工的次級(jí)資料。
(3)統(tǒng)計(jì)學(xué)。統(tǒng)計(jì)學(xué)是統(tǒng)計(jì)工作經(jīng)驗(yàn)的總結(jié)和理論概括,是系統(tǒng)化的知識(shí)體系,主要研究搜集、整理和分析統(tǒng)計(jì)資料的理論與方法。統(tǒng)計(jì)學(xué)利用概率論建立數(shù)學(xué)模型,收集所觀察系統(tǒng)的數(shù)據(jù),進(jìn)行量化分析與總結(jié),進(jìn)而推斷和預(yù)測(cè),為相關(guān)決策提供依據(jù)和參考。
統(tǒng)計(jì)分析的流程是確定分析目標(biāo),收集、整理和分析數(shù)據(jù),提出分析報(bào)告。
2.2快速傅里葉變換
1965年,Cooley和Tukey提出了計(jì)算離散傅里葉變換(DFT)的快速算法——快速傅氏變換(FFT)。FFT根據(jù)DFT的奇、偶、虛、實(shí)等特性,對(duì)離散傅立葉變換的算法進(jìn)行改進(jìn),將DFT的運(yùn)算量減少了幾個(gè)數(shù)量級(jí)。從此,數(shù)字信號(hào)處理這門新興學(xué)科也隨FFT的出現(xiàn)和發(fā)展而迅速發(fā)展。根據(jù)對(duì)序列分解與選取方法的不同而產(chǎn)生了FFT的多種算法,基本算法是基2DIT和基2DIF。FFT在離散傅里葉反變換、線性卷積和線性相關(guān)等方面也有重要應(yīng)用。
2.3平滑和濾波
平滑和濾波是低頻增強(qiáng)的空間域?yàn)V波技術(shù),其目的是模糊和消除噪音??臻g域的平滑和濾波一般采用簡(jiǎn)單平均法進(jìn)行,就是求鄰近像元點(diǎn)的平均亮度值。鄰域的大小與平滑的效果直接相關(guān),鄰域越大,平滑的效果越好,但鄰域過大,平滑會(huì)使邊緣信息損失增大,從而使輸出的圖像變得模糊,因此需合理選擇鄰域的大小。
2.4基線和峰值
基線是項(xiàng)目?jī)?chǔ)存庫中每個(gè)工件版本在特定時(shí)期的一個(gè)快照。它提供一個(gè)正式標(biāo)準(zhǔn),隨后的工作基于此標(biāo)準(zhǔn),只有經(jīng)過授權(quán)后才能變更這個(gè)標(biāo)準(zhǔn)。建立一個(gè)初始基線后,每次對(duì)其進(jìn)行的變更都將記錄為一個(gè)差值,直到建成下一個(gè)基線。
峰值功率就是最高能支持的功率。電源的峰值功率指電源短時(shí)問內(nèi)能達(dá)到的最大功率,通常僅能維持30s左右的時(shí)間。一般情況下電源峰值功率可以超過最大輸出功率50%左右,由于硬盤在啟動(dòng)狀態(tài)下所需要的能量遠(yuǎn)遠(yuǎn)大于其正常工作時(shí)的數(shù)值,因此系統(tǒng)經(jīng)常利用這一緩沖為硬盤提供啟動(dòng)所需的電流,啟動(dòng)到全速后就會(huì)恢復(fù)到正常水平。峰值功率沒有什么實(shí)際意義,因?yàn)殡娫匆话悴荒茉诜逯递敵鰰r(shí)穩(wěn)定工作。
2.5列表與作圖
(1)列表。將實(shí)驗(yàn)數(shù)據(jù)按一定規(guī)律用列表方式表達(dá)出來是記錄和處理實(shí)驗(yàn)數(shù)據(jù)最常用的方法。表格的設(shè)計(jì)要求對(duì)應(yīng)關(guān)系清楚,簡(jiǎn)單明了,有利于發(fā)現(xiàn)相關(guān)量之間的物理關(guān)系;此外還要求在表欄中注明物理量名稱、符號(hào)、數(shù)量級(jí)和單位等;根據(jù)需要還可以列出除原始數(shù)據(jù)以外的計(jì)算欄目和統(tǒng)計(jì)欄目等;最后還要求寫明表格名稱,主要測(cè)量?jī)x器的型號(hào)、量程和準(zhǔn)確度等級(jí),有關(guān)環(huán)境條件參數(shù)(如溫度、濕度)等。
(2)作圖。作圖可以顯式地表達(dá)物理量間的變化關(guān)系。從圖線上還可以簡(jiǎn)便求出實(shí)驗(yàn)需要的某些結(jié)果,如直線的斜率和截距值等,讀出沒有進(jìn)行觀測(cè)的對(duì)應(yīng)點(diǎn)(內(nèi)插法),或在一定條件下從圖線的延伸部分讀到測(cè)量范圍以外的對(duì)應(yīng)點(diǎn)(外推法)。此外,還可以把某些復(fù)雜的函數(shù)關(guān)系通過一定的變換用直線圖表示出來。
3.數(shù)據(jù)分析的類型
3.1探索性數(shù)據(jù)分析
探索性數(shù)據(jù)分析是指為了形成值得假設(shè)的檢驗(yàn)而對(duì)數(shù)據(jù)進(jìn)行分析的一種方法,是對(duì)傳統(tǒng)統(tǒng)汁學(xué)假設(shè)檢驗(yàn)手段的補(bǔ)充。探索性數(shù)據(jù)分析側(cè)重于在數(shù)據(jù)之中發(fā)現(xiàn)新的特征。
3.2定性數(shù)據(jù)分析
定性數(shù)據(jù)分析又稱為定性資料分析,是指定性研究照片、觀察結(jié)果等非數(shù)值型數(shù)據(jù)(或者說資料)的分析。
3.3離線數(shù)據(jù)分析
離線數(shù)據(jù)分析用于較復(fù)雜和耗時(shí)的數(shù)據(jù)分析和處理。由于大數(shù)據(jù)的數(shù)據(jù)量已經(jīng)遠(yuǎn)遠(yuǎn)超出單個(gè)計(jì)算機(jī)的存儲(chǔ)和處理能力,離線數(shù)據(jù)分析通常構(gòu)建在云計(jì)算平臺(tái)之上,如開源的Hadoop的HDFS文件系統(tǒng)和MapReduce運(yùn)算框架。Hadoop機(jī)群包含數(shù)百臺(tái)乃至數(shù)千臺(tái)服務(wù)器,存儲(chǔ)了數(shù)PB乃至數(shù)十PB的數(shù)據(jù),每天運(yùn)行著成千上萬的離線數(shù)據(jù)分析作業(yè),每個(gè)作業(yè)處理幾百M(fèi)B到幾百TB甚至更多的數(shù)據(jù),運(yùn)行時(shí)問為幾分鐘、幾個(gè)小時(shí)、幾天甚至更長(zhǎng)。endprint
3.4在線數(shù)據(jù)分析
在線數(shù)據(jù)分析(OLAP,也稱為聯(lián)機(jī)分析處理)用來處理用戶的在線請(qǐng)求,它對(duì)響應(yīng)時(shí)間的要求比較高(通常不超過若干秒)。與離線數(shù)據(jù)分析相比,在線數(shù)據(jù)分析能夠?qū)崟r(shí)處理用戶的請(qǐng)求,允許用戶隨時(shí)更改分析的約束和限制條件。盡管與離線數(shù)據(jù)分析相比,在線數(shù)據(jù)分析能夠處理的數(shù)據(jù)量要小得多,但隨著技術(shù)的發(fā)展,當(dāng)前的在線分析系統(tǒng)已經(jīng)能夠?qū)崟r(shí)地處理數(shù)千萬條甚至數(shù)億條記錄。傳統(tǒng)的在線數(shù)據(jù)分析系統(tǒng)構(gòu)建在以關(guān)系數(shù)據(jù)庫為核心的數(shù)據(jù)倉庫之上,而在線大數(shù)據(jù)分析系統(tǒng)構(gòu)建在云計(jì)算平臺(tái)的NoSQLm系統(tǒng)上。如果沒有大數(shù)據(jù)的在線分析和處理,則無法存儲(chǔ)和索引數(shù)量龐大的互聯(lián)網(wǎng)網(wǎng)頁,就不會(huì)有當(dāng)今的高效搜索引擎,也不會(huì)有構(gòu)建在大數(shù)據(jù)處理基礎(chǔ)上的微博、博客、社交網(wǎng)絡(luò)等的蓬勃發(fā)展。
4.數(shù)據(jù)分析步驟
最初的數(shù)據(jù)可能雜亂無章且無規(guī)律,要通過作圖、造表和各種形式的擬合來計(jì)算某些特征量,探索規(guī)律性的可能形式。這就需要研究用何種方式去尋找和揭示隱含在數(shù)據(jù)中的規(guī)律性。首先在探索性分析的基礎(chǔ)上提出幾種模型,再通過進(jìn)一步的分析從中選擇所需的模型。通常使用數(shù)理統(tǒng)計(jì)方法對(duì)所選定模型或估計(jì)的可靠程度和精確程度作出推斷,數(shù)據(jù)分析的具體步驟如下。
(1)識(shí)別信息需求。識(shí)別信息需求可以為收集數(shù)據(jù)、分析數(shù)據(jù)提供清晰的目標(biāo),是確保數(shù)據(jù)分析過程有效性的首要條件。
(2)收集數(shù)據(jù)。有目的的收集數(shù)據(jù)是確保數(shù)據(jù)分析過程有效的基礎(chǔ),需要對(duì)收集數(shù)據(jù)的內(nèi)容、渠道、方法進(jìn)行策劃,主要考慮:①將識(shí)別信息需求轉(zhuǎn)化為更具體的要求,如評(píng)價(jià)供方時(shí),需要收集的數(shù)據(jù)可能包括其過程能力、測(cè)量系統(tǒng)不確定性等相關(guān)數(shù)據(jù);②明確由誰在何時(shí)何處,通過何種渠道和方法收集數(shù)據(jù);③記錄表應(yīng)便于使用;④采取有效措施,防止數(shù)據(jù)丟失和虛假數(shù)據(jù)對(duì)系統(tǒng)的干擾。
(3)分析數(shù)據(jù)。分析數(shù)據(jù)是指將收集到的數(shù)據(jù)通過加工、整理和分析后,將其轉(zhuǎn)化為信息的過程。常用的分析數(shù)據(jù)方法有排列圖、因果圖、分層法、調(diào)查表、散布圖、直方圖、控制圖、關(guān)聯(lián)圖、系統(tǒng)圖、矩陣圖、KJ法、計(jì)劃評(píng)審技術(shù)、PDPC法、矩陣數(shù)據(jù)圖。
5.大數(shù)據(jù)分析基礎(chǔ)
大數(shù)據(jù)分析是指對(duì)規(guī)模巨大的數(shù)據(jù)進(jìn)行分析,在研究大量的數(shù)據(jù)的過程中尋找模式、相關(guān)性和其他有用的信息,可以幫助需求者更好地適應(yīng)變化,做出更明智的決策。
5.1可視化分析
大數(shù)據(jù)分析的使用者有大數(shù)據(jù)分析專家和普通用戶,他們對(duì)于大數(shù)據(jù)分析最基本的要求就是可視化分析,因?yàn)榭梢暬治瞿軌蛑庇^地呈現(xiàn)大數(shù)據(jù)特點(diǎn),讓數(shù)據(jù)自己說明,讓觀者看到結(jié)果。
5.2數(shù)據(jù)挖掘
大數(shù)據(jù)分析的理論核心就是數(shù)據(jù)挖掘。各種數(shù)據(jù)挖掘的算法基于不同的數(shù)據(jù)類型和格式能更加科學(xué)地呈現(xiàn)出數(shù)據(jù)本身的特點(diǎn),能更快速地處理大數(shù)據(jù)。如果采用一個(gè)算法需要花好幾年才能得出結(jié)論,那大數(shù)據(jù)的價(jià)值也就無從說起了。可視化是給人看的,數(shù)據(jù)挖掘是給機(jī)器看的。集群、分割、孤立點(diǎn)分析還有其他的算法可以使我們深入數(shù)據(jù)內(nèi)部去挖掘價(jià)值。這些算法不僅能夠處理大數(shù)據(jù)的數(shù)據(jù)量,也一定程度地滿足處理大數(shù)據(jù)的速度要求。
5.3預(yù)測(cè)性分析
預(yù)測(cè)性分析可以讓分析員根據(jù)可視化分析和數(shù)據(jù)挖掘的結(jié)果作出預(yù)測(cè)性判斷。
5.4語義引擎
由于非結(jié)構(gòu)化數(shù)據(jù)與異構(gòu)數(shù)據(jù)等的多樣性帶來了數(shù)據(jù)分析的新的挑戰(zhàn)與困難,需要一系列的工具去解析、提取、分析數(shù)據(jù)。語義引擎需要被設(shè)計(jì)成能夠從文檔中智能提取信息,使之能從大數(shù)據(jù)中挖掘出特點(diǎn),通過科學(xué)建模和輸入新的數(shù)據(jù),從而預(yù)測(cè)未來的數(shù)據(jù)。
5.5數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理
大數(shù)據(jù)分析離不開數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理,高質(zhì)量數(shù)據(jù)和有效的數(shù)據(jù)管理能夠保證分析結(jié)果的真實(shí)和有價(jià)值。
6.大數(shù)據(jù)預(yù)測(cè)分析
預(yù)測(cè)分析是大數(shù)據(jù)技術(shù)的核心應(yīng)用,如電子商務(wù)網(wǎng)站通過數(shù)據(jù)預(yù)測(cè)顧客是否會(huì)購(gòu)買推薦的產(chǎn)品,信貸公司通過數(shù)據(jù)預(yù)測(cè)借款人是否會(huì)違約,執(zhí)法部門用大數(shù)據(jù)預(yù)測(cè)特定地點(diǎn)發(fā)生犯罪的可能性,交通部門利用數(shù)據(jù)預(yù)測(cè)交通流量等。預(yù)測(cè)是人類本能的一部分,只有通過大數(shù)據(jù)分析才能獲取智能的、有價(jià)值的信息。越來越多的應(yīng)用涉及到大數(shù)據(jù),大數(shù)據(jù)的屬性描述了不斷增長(zhǎng)的存儲(chǔ)數(shù)據(jù)的復(fù)雜性。大數(shù)據(jù)預(yù)測(cè)分析突破了預(yù)測(cè)分析一直是象牙塔里統(tǒng)計(jì)學(xué)家和數(shù)據(jù)科學(xué)家的工作,隨著大數(shù)據(jù)的出現(xiàn),并整合到現(xiàn)有的BI、CRM、ERP和其他關(guān)鍵業(yè)務(wù)系統(tǒng),大數(shù)據(jù)預(yù)測(cè)分析將起到越來越重要的作用。
6.1大數(shù)據(jù)預(yù)測(cè)分析要素
大數(shù)據(jù)預(yù)測(cè)分析可幫助企業(yè)作出正確而果斷的業(yè)務(wù)決策,讓客戶更開心,同時(shí)避免災(zāi)難的發(fā)生,這是眾多數(shù)據(jù)分析者的終極夢(mèng)想,但是預(yù)測(cè)分析也是一個(gè)困難的任務(wù)。實(shí)施成功的預(yù)測(cè)分析有賴于以下要素。
(1)數(shù)據(jù)質(zhì)量。數(shù)據(jù)是預(yù)測(cè)分析的血液。數(shù)據(jù)通常來自內(nèi)部數(shù)據(jù),如客戶交易數(shù)據(jù)和生產(chǎn)數(shù)據(jù),但我們還需要補(bǔ)充外部數(shù)據(jù)源,如行業(yè)市場(chǎng)數(shù)據(jù)、社交網(wǎng)絡(luò)數(shù)據(jù)和其他統(tǒng)計(jì)數(shù)據(jù)。與流行的技術(shù)觀點(diǎn)不同,這些外部數(shù)據(jù)未必一定是大數(shù)據(jù)。數(shù)據(jù)中的變量是否有助于有效預(yù)測(cè)才是關(guān)鍵所在。總之,數(shù)據(jù)越多,相關(guān)度和質(zhì)量越高,找出原因和結(jié)果的可能性越大。
(2)數(shù)據(jù)科學(xué)家。數(shù)據(jù)科學(xué)家必須理解業(yè)務(wù)需求和業(yè)務(wù)目標(biāo),審視數(shù)據(jù),并圍繞業(yè)務(wù)日標(biāo)建立預(yù)測(cè)分析規(guī)則,如如何增加電子商務(wù)的銷售額、保持生產(chǎn)線的正常運(yùn)轉(zhuǎn)、防止庫存短缺等。數(shù)據(jù)科學(xué)家需要擁有數(shù)學(xué)、統(tǒng)計(jì)學(xué)等多個(gè)領(lǐng)域的知識(shí)。
(3)預(yù)測(cè)分析軟件。數(shù)據(jù)科學(xué)家必須借助預(yù)測(cè)分析軟件來評(píng)估分析模型和規(guī)則,預(yù)測(cè)分析軟件通過整合統(tǒng)計(jì)分析和機(jī)器學(xué)習(xí)算法發(fā)揮作用,,需要一些專門的大數(shù)據(jù)處理平臺(tái)(如Hadoop)或數(shù)據(jù)庫分析機(jī)(如Oracle Exadata)等來完成。
(4)運(yùn)營(yíng)軟件。找到了合適的預(yù)測(cè)規(guī)則并將其植入應(yīng)用,就能以某種方式產(chǎn)生代碼,預(yù)測(cè)規(guī)則也能通過業(yè)務(wù)規(guī)則管理系統(tǒng)和復(fù)雜事件處理平臺(tái)進(jìn)行優(yōu)化。endprint
6.2大數(shù)據(jù)預(yù)測(cè)分析相關(guān)問題
大數(shù)據(jù)預(yù)測(cè)分析應(yīng)用廣泛。大數(shù)據(jù)將組群分析和回歸分析等較常用的工具交到日常管理人員手中,然后可以使用非交易數(shù)據(jù)來作出戰(zhàn)略性的長(zhǎng)期的業(yè)務(wù)決定。客戶服務(wù)代表可以獨(dú)立決定一個(gè)問題客戶是否值得保留或者升級(jí),銷售人員可以基于人們對(duì)零售商在網(wǎng)站上的評(píng)價(jià)來調(diào)整零售商的產(chǎn)品量。大數(shù)據(jù)并不是要取代傳統(tǒng)BI工具,而是讓BI更有價(jià)值和更有利于業(yè)務(wù)發(fā)展。在顱測(cè)中,雖然具有相關(guān)性,并不存在因果關(guān)系。如果仔細(xì)地查看使用收集到的歷史交易數(shù)據(jù),就會(huì)發(fā)現(xiàn)最新定位活動(dòng)更傾向于參考來自大數(shù)據(jù)技術(shù)處理的結(jié)果。
1)分析社交媒體中的非結(jié)構(gòu)數(shù)據(jù)。
社交媒體中存在很大的商機(jī),需要結(jié)合大數(shù)據(jù)開源技術(shù)、摩爾定律、商品硬件、云計(jì)算以及捕捉和存儲(chǔ)大量非交易數(shù)據(jù)來實(shí)現(xiàn)預(yù)測(cè)目的。預(yù)測(cè)者將大數(shù)據(jù)中非結(jié)構(gòu)化數(shù)據(jù)(如視頻和電子郵件)、來自各種引擎獲得的信息(追蹤用戶對(duì)品牌的評(píng)價(jià))和現(xiàn)有結(jié)構(gòu)化客戶數(shù)據(jù)結(jié)合起來,通過博客和用戶論壇與地理數(shù)據(jù)相關(guān)聯(lián),運(yùn)用上述技術(shù)??梢垣@得強(qiáng)大的預(yù)測(cè)能力。
2)縮短大數(shù)據(jù)分析時(shí)間。
運(yùn)用大數(shù)據(jù)分析可以縮短預(yù)測(cè)時(shí)間,數(shù)據(jù)科學(xué)家過去需要用幾個(gè)月來建立查詢或模型來回答關(guān)于供應(yīng)鏈或生產(chǎn)計(jì)劃的業(yè)務(wù)問題,現(xiàn)在只需要幾個(gè)小時(shí)就可以完成,其原因是大數(shù)據(jù)技術(shù)可以自動(dòng)化建模與自動(dòng)執(zhí)行。
3)非結(jié)構(gòu)化數(shù)據(jù)與數(shù)據(jù)倉庫的數(shù)據(jù)不同。
僅用一種技術(shù)完成大數(shù)據(jù)預(yù)測(cè)分析比較困難,應(yīng)融合各種技術(shù)。傳統(tǒng)的數(shù)據(jù)倉庫系統(tǒng)是從關(guān)系型數(shù)據(jù)庫中獲取數(shù)據(jù),而今超過80%的數(shù)據(jù)是非結(jié)構(gòu)化數(shù)據(jù),無法轉(zhuǎn)化為關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)倉庫技術(shù)對(duì)非結(jié)構(gòu)化數(shù)據(jù)的處理無法滿足需求。所以,需要存儲(chǔ)管理人員更快地跟上技術(shù)發(fā)展,更新自己的技術(shù)和知識(shí)結(jié)構(gòu),提高對(duì)大數(shù)據(jù)的管理和分析能力,從非結(jié)構(gòu)化數(shù)據(jù)類型中抽取有價(jià)值的信息。
7.大數(shù)據(jù)分析的發(fā)展方向
新的數(shù)據(jù)分析范型是目標(biāo)導(dǎo)向,不關(guān)心數(shù)據(jù)的來源和格式,能夠無縫處理結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),將取代傳統(tǒng)的BI-ETL-EDW范型。新的數(shù)據(jù)分析范型能夠輸出有效結(jié)果,提供去黑箱化的預(yù)測(cè)分析服務(wù),可以面向更廣泛地普通員工快速部署分析應(yīng)用。Hadoop和NoSQL正在占領(lǐng)大數(shù)據(jù)的管理方式,R和Stata語言沖擊了傳統(tǒng)的黑箱式分析方法。R是一種自由軟件,是為統(tǒng)計(jì)計(jì)算和圖形顯示而設(shè)計(jì)的語言及環(huán)境,其特點(diǎn)是免費(fèi)且功能強(qiáng)大。Stata是一個(gè)用于分析和管理數(shù)據(jù)的功能強(qiáng)大的統(tǒng)計(jì)分析軟件。我們將從以下3個(gè)方面推動(dòng)大數(shù)據(jù)分析的發(fā)展。
1)數(shù)據(jù)管理。
Hadoop已成為企業(yè)管理大數(shù)據(jù)的基礎(chǔ)支撐平臺(tái)。隨著Greenplum Pivotal HD、HortonworksStinger和Cloudera的Impala的發(fā)布,Hadoop的技術(shù)創(chuàng)新速度正在加快,它在Hadoop HDFS之上提供實(shí)時(shí)、互動(dòng)的查詢服務(wù),將眾所周知的SQL查詢處理與具備指數(shù)級(jí)擴(kuò)展能力的HDFS存儲(chǔ)架構(gòu)整合到一起。
2)去黑箱化。
預(yù)測(cè)分析是管理者進(jìn)行數(shù)據(jù)化決策的關(guān)鍵。預(yù)測(cè)分析面臨的最大問題是黑箱化問題。隨著越來越多地憑借預(yù)測(cè)分析技術(shù)作出重大決策,預(yù)測(cè)分析技術(shù)需要去黑箱化,主要包括應(yīng)用的數(shù)據(jù)表示、對(duì)底層數(shù)學(xué)和算法解釋等。去黑箱化有利于管理者掌握數(shù)據(jù)分析工具,不但使管理者看到數(shù)據(jù)分析結(jié)果,還知道如何得到的分析結(jié)果和分析工具的設(shè)計(jì)原理等。
3)應(yīng)用普及。
即使實(shí)現(xiàn)了分析的去黑箱化,數(shù)據(jù)分析應(yīng)用在企業(yè)中的部署依然面臨能否發(fā)布可復(fù)用應(yīng)用、創(chuàng)建最佳實(shí)踐、組織范圍內(nèi)的橫向協(xié)作、無縫重組模型等問題,能否在最終用戶(員工)中應(yīng)用普及是數(shù)據(jù)分析成功的關(guān)鍵。
8.結(jié)語
大數(shù)據(jù)處理數(shù)據(jù)的基本理念是用全體代替抽樣,用效率代替絕對(duì)精確,用相關(guān)代替因果。通信、互聯(lián)網(wǎng)、金融等行業(yè)每天產(chǎn)生巨大的數(shù)據(jù)量,大數(shù)據(jù)分析已成為大數(shù)據(jù)技術(shù)最重要的應(yīng)用,它從大數(shù)據(jù)中提取、挖掘?qū)I(yè)務(wù)發(fā)展有價(jià)值的、潛在的知識(shí),找出趨勢(shì),為決策層提供有力依據(jù),對(duì)產(chǎn)品或服務(wù)發(fā)展方向起到積極作用,將有力推動(dòng)企業(yè)內(nèi)部的科學(xué)化、信息化管理。endprint