祁鵬年
(長(zhǎng)沙理工大學(xué)經(jīng)濟(jì)與管理學(xué)院,長(zhǎng)沙 410114)
多層次數(shù)據(jù)分析
祁鵬年
(長(zhǎng)沙理工大學(xué)經(jīng)濟(jì)與管理學(xué)院,長(zhǎng)沙 410114)
對(duì)于專(zhuān)業(yè)的數(shù)據(jù)分析而言,一定要有很強(qiáng)的針對(duì)性,什么樣的需求就要提供與之層次相匹配的分析結(jié)果。否則就會(huì)造成不必要的信息價(jià)值浪費(fèi),也會(huì)大大增加需求者獲取信息的成本。就如何有效實(shí)現(xiàn)多層次的數(shù)據(jù)分析,以理論實(shí)例相結(jié)合的方式,做相應(yīng)的探討。
大數(shù)據(jù);數(shù)據(jù)挖掘;數(shù)據(jù)分析;分布式數(shù)據(jù)庫(kù)
“In God We Trust;All Others Use Data”。在美國(guó)企業(yè)流傳這樣一句話(huà):除了毫無(wú)保留地信奉上帝,其他的一切均以數(shù)據(jù)說(shuō)話(huà)。這句話(huà)足以揭示數(shù)據(jù)的價(jià)值,數(shù)據(jù)將是未來(lái)世界的主宰。首先,多層次的數(shù)據(jù)分析正改變著企業(yè)做決策的模式。在海量的數(shù)據(jù)中通過(guò)不同維度的鉆取,可以得到不同價(jià)值的信息,這些信息以不同比例的價(jià)值使得企業(yè)高層做出更精準(zhǔn)的決策。其次,多層次的數(shù)據(jù)分析也改變著企業(yè)創(chuàng)造價(jià)值的方式,可以通過(guò)分析技術(shù),把分析應(yīng)用于每一個(gè)領(lǐng)域,甚至每一件事情,由分析結(jié)果可以把更多相關(guān)的領(lǐng)域疊加起來(lái)再分析,又將產(chǎn)生新的價(jià)值。所以,多層次數(shù)據(jù)分析正在為企業(yè)創(chuàng)造著前所未有的價(jià)值。最后,多層次的數(shù)據(jù)分析將直接改變企業(yè)對(duì)每一個(gè)客戶(hù)提供價(jià)值的方式。數(shù)據(jù)分析可以幫助企業(yè)發(fā)現(xiàn)每一個(gè)潛在的用戶(hù)群,針對(duì)不同的用戶(hù)提供不同的個(gè)性化服務(wù),無(wú)疑這將極大地提高營(yíng)銷(xiāo)效率。
1.1 數(shù)據(jù)采集
數(shù)據(jù)的采集是指利用傳感器、社交網(wǎng)絡(luò)以及移動(dòng)互聯(lián)網(wǎng)等方式獲得的各種類(lèi)型的結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化的海量數(shù)據(jù),這是一切數(shù)據(jù)分析的基礎(chǔ)。數(shù)據(jù)的采集需要解決分布式高速高可靠數(shù)據(jù)的采集、高速數(shù)據(jù)全映像等數(shù)據(jù)收集技術(shù)。還要設(shè)計(jì)質(zhì)量評(píng)估模型,開(kāi)發(fā)數(shù)據(jù)質(zhì)量技術(shù)。而數(shù)據(jù)采集一般分為大數(shù)據(jù)智能感知層:主要包括數(shù)據(jù)傳感體系、網(wǎng)絡(luò)通信體系、傳感適配體系、智能識(shí)別體系及軟硬件資源接入系統(tǒng),實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的智能化識(shí)別、定位、跟蹤、接入、傳輸、信號(hào)轉(zhuǎn)換、監(jiān)控、初步處理和管理等。
1.2 數(shù)據(jù)預(yù)處理
數(shù)據(jù)采集的過(guò)程本身就有會(huì)有很多數(shù)據(jù)庫(kù),但如果想達(dá)到有效分析海量數(shù)據(jù)的目的,就必將這些來(lái)自前端的數(shù)據(jù)導(dǎo)入到一個(gè)集中的大型分布式數(shù)據(jù)庫(kù),或者分布式存儲(chǔ)集群,而且在導(dǎo)入基礎(chǔ)上做一些簡(jiǎn)單的辨析、抽取、清洗等操作。①抽?。阂?yàn)槲覀兺ㄟ^(guò)各種途徑獲取的數(shù)據(jù)可能存在多種結(jié)構(gòu)和類(lèi)型,而數(shù)據(jù)抽取過(guò)程可以有效地將這些復(fù)雜的數(shù)據(jù)轉(zhuǎn)換為單一的結(jié)構(gòu)或者便于處理的類(lèi)型。以達(dá)到快速分析處理的目的。②清洗:對(duì)于海量數(shù)據(jù)而言,數(shù)據(jù)所處的價(jià)值層次不一樣,就必然存在由于價(jià)值低而導(dǎo)致開(kāi)發(fā)成本偏大的數(shù)據(jù),還有與數(shù)據(jù)分析毫無(wú)關(guān)系的數(shù)據(jù),而另一些數(shù)據(jù)則是完全錯(cuò)誤的干擾項(xiàng),所以對(duì)數(shù)據(jù)通過(guò)過(guò)濾“去噪”從而提取出有效數(shù)據(jù)是十分重要的步驟。
1.3 數(shù)據(jù)的存儲(chǔ)與管理
當(dāng)我們采集數(shù)據(jù)完成后,就需要將其存儲(chǔ)起來(lái)統(tǒng)一管理,主要途徑就是建立相應(yīng)的數(shù)據(jù)庫(kù),進(jìn)行統(tǒng)一管理和調(diào)用。在此基礎(chǔ)上,需要解決大數(shù)據(jù)的可存儲(chǔ)、可表示、可處理、可靠性及有效傳輸?shù)葞讉€(gè)關(guān)鍵問(wèn)題。還需開(kāi)發(fā)可靠的分布式文件系統(tǒng)(DFS)、能效優(yōu)化的存儲(chǔ)、計(jì)算融入存儲(chǔ)、數(shù)據(jù)的去冗余及高效低成本的大數(shù)據(jù)存儲(chǔ)技術(shù);以及分布式非關(guān)系型大數(shù)據(jù)管理與處理技術(shù)、異構(gòu)數(shù)據(jù)的數(shù)據(jù)融合技術(shù)、數(shù)據(jù)組織技術(shù)、研究大數(shù)據(jù)建模技術(shù)、索引、移動(dòng)、備份、復(fù)制、可視化技術(shù)。
1.4 數(shù)據(jù)的統(tǒng)計(jì)分析
一般情況下,統(tǒng)計(jì)與分析主要就是利用分布式數(shù)據(jù)庫(kù),或者分布式計(jì)算集群來(lái)對(duì)存儲(chǔ)于其內(nèi)的海量數(shù)據(jù)進(jìn)行普通的分析和分類(lèi)匯總等,以滿(mǎn)足大多數(shù)常見(jiàn)的分析需求,在這方面,一些實(shí)時(shí)性需求會(huì)用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲(chǔ)Infobright等,而一些批處理,或者基于半結(jié)構(gòu)化數(shù)據(jù)的需求可以使用Hadoop。統(tǒng)計(jì)與分析這部分的主要特點(diǎn)和挑戰(zhàn)是分析涉及的數(shù)據(jù)量大,其對(duì)系統(tǒng)資源,特別是I/O會(huì)有極大的占用。
1.5 數(shù)據(jù)分析與挖掘
所謂數(shù)據(jù)挖掘是指從數(shù)據(jù)庫(kù)中的大量不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,揭示出隱含的、先前未知的并有潛在價(jià)值的信息的過(guò)程。與前面統(tǒng)計(jì)和分析過(guò)程不同的是,數(shù)據(jù)挖掘一般不會(huì)有預(yù)先設(shè)計(jì)好的主題,主要是在現(xiàn)有數(shù)據(jù)上面進(jìn)行基于各種算法的計(jì)算,從而起到預(yù)測(cè)(Predict)的效果,從而實(shí)現(xiàn)一些高級(jí)別數(shù)據(jù)分析的需求。比較典型的算法有用于聚類(lèi)的K-means、用于統(tǒng)計(jì)學(xué)習(xí)的SVM和用于分類(lèi)的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過(guò)程的特點(diǎn)和挑戰(zhàn)主要是用于挖掘的算法很復(fù)雜,并且計(jì)算涉及的數(shù)據(jù)量和計(jì)算量都很大,常用數(shù)據(jù)挖掘算法都以單線(xiàn)程為主。
2.1 標(biāo)準(zhǔn)化報(bào)告(Standard Reports)
標(biāo)準(zhǔn)化報(bào)告作為數(shù)據(jù)分析的第一個(gè)層次,要求相對(duì)較低,主要是借助相應(yīng)的統(tǒng)計(jì)工具對(duì)數(shù)據(jù)進(jìn)行歸納總結(jié),得出包含主要參數(shù)指標(biāo)的標(biāo)準(zhǔn)化報(bào)告。類(lèi)似于一個(gè)銷(xiāo)售企業(yè)每月或者每季度的財(cái)務(wù)報(bào)表。
2.2 即席查詢(xún)(Ad Hoc Reports)
用戶(hù)可以通過(guò)自己的需求,靈活地選擇查詢(xún)條件,系統(tǒng)就能夠根據(jù)用戶(hù)的需求選擇生成相應(yīng)的統(tǒng)計(jì)報(bào)表。即席查詢(xún)與普通應(yīng)用查詢(xún)最大的不同是普通的應(yīng)用查詢(xún)是定制開(kāi)發(fā)的,而即席查詢(xún)所有的查詢(xún)條件都是用戶(hù)自己定義的。在面向高層的數(shù)據(jù)分析軟件中,用戶(hù)隨意添加想要查詢(xún)的指標(biāo)按鈕再加上相應(yīng)的限制條件,就可以立即生成可視化的統(tǒng)計(jì)結(jié)果,不僅一目了然,而且沒(méi)有任何操作難度。
2.3 多維分析(Query Drilldown)
多維分析是指對(duì)具有多個(gè)維度和指標(biāo)所組成的數(shù)據(jù)模型進(jìn)行的可視化分析手段的統(tǒng)稱(chēng),常用的分析方式包括:下鉆、上卷、切片(切塊)、旋轉(zhuǎn)等各種分析操作。以便剖析數(shù)據(jù),使分析者、決策者能從多個(gè)角度多個(gè)側(cè)面觀(guān)察數(shù)據(jù),從而深入了解包含在數(shù)據(jù)中的信息和內(nèi)涵。上卷是在數(shù)據(jù)立方體中執(zhí)行聚集操作,通過(guò)在維級(jí)別中上升或通過(guò)消除某個(gè)或某些維來(lái)觀(guān)察更概括的數(shù)據(jù)。上卷的另外一種情況是通過(guò)消除一個(gè)或者多個(gè)維來(lái)觀(guān)察更加概括的數(shù)據(jù)。下鉆是在維級(jí)別中下降或者通過(guò)引入某個(gè)或者某些維來(lái)更細(xì)致地觀(guān)察數(shù)據(jù)。切片是在給定的數(shù)據(jù)立方體一個(gè)維上進(jìn)行的選擇操作,切片的結(jié)果是得到了一個(gè)二維的平面數(shù)據(jù)(切塊是在給定的數(shù)據(jù)立方體的兩個(gè)或者多個(gè)維上進(jìn)行選擇操作,而切塊的結(jié)果是得到了一個(gè)子立方塊)。轉(zhuǎn)軸相對(duì)比較簡(jiǎn)單,就是改變維的方向。
2.4 儀表盤(pán)與模擬分析(Alerts)
儀表盤(pán)用于監(jiān)控一些關(guān)鍵指標(biāo)。模擬分析是由操作者動(dòng)態(tài)地加以調(diào)節(jié)的控件(如滑動(dòng)塊、可調(diào)旋鈕、選擇框等),來(lái)控制管理決策模型行為某些參數(shù)。當(dāng)操作者通過(guò)控制面板對(duì)模型中的參數(shù)值或變量值進(jìn)行調(diào)節(jié)時(shí),圖形中的曲線(xiàn)、柱形組或分析指標(biāo)等要素就會(huì)發(fā)生相應(yīng)的運(yùn)動(dòng),而這種運(yùn)動(dòng)正好反映了該參數(shù)的變化對(duì)模型行為的影響,如果這種變動(dòng)引起了模型中最優(yōu)解或其他關(guān)鍵數(shù)字的變化,能夠隨時(shí)將關(guān)于這種變化的結(jié)論正確地顯示出來(lái)。
2.5 統(tǒng)計(jì)分析(Statistically Analysis)
我們知道概率論是數(shù)理統(tǒng)計(jì)的基礎(chǔ),數(shù)理統(tǒng)計(jì)是在其基礎(chǔ)上研究隨機(jī)變量,并應(yīng)用概率論的知識(shí)做出合理的估計(jì)、推斷與預(yù)測(cè)。概率論中討論的各種分布在數(shù)理統(tǒng)計(jì)中作為統(tǒng)計(jì)模型來(lái)分析處理帶有隨機(jī)誤差的數(shù)據(jù)。典型的數(shù)理統(tǒng)計(jì)方法有參數(shù)估計(jì)、假設(shè)檢驗(yàn)和回歸分析。而統(tǒng)計(jì)分析主要是對(duì)用戶(hù)所關(guān)注的問(wèn)題進(jìn)行推斷、預(yù)測(cè)和控制的分析方法。具體可以分為以下三方面:
①描述統(tǒng)計(jì):主要是集中趨勢(shì)、離散程度、分布形狀等,統(tǒng)計(jì)圖(方圖、箱線(xiàn)圖、散點(diǎn)圖等);
②數(shù)據(jù)的分類(lèi)匯總;
③基礎(chǔ)統(tǒng)計(jì)分析:方差分析、時(shí)間序列分析、相關(guān)和回歸分析、(主成分)因子分析等統(tǒng)計(jì)分析方法。
2.6 預(yù)測(cè)(Forecasting)
在統(tǒng)計(jì)分析和數(shù)據(jù)挖掘領(lǐng)域,對(duì)未來(lái)的預(yù)測(cè)已經(jīng)有了很多數(shù)學(xué)模型以及解決具體問(wèn)題的相關(guān)算法。其核心思想便是從歷史數(shù)據(jù)中找出數(shù)據(jù)的發(fā)展模式,然后以這些模式為支點(diǎn),就可以對(duì)未來(lái)進(jìn)行預(yù)測(cè)。
2.7 預(yù)測(cè)模型(Predictive Modeling)
隨著數(shù)據(jù)分析學(xué)家對(duì)數(shù)據(jù)挖掘技術(shù)的不斷探索,出現(xiàn)了很多預(yù)測(cè)模型以及與之相對(duì)應(yīng)的算法,但是很難確定某個(gè)模型是最精確的,因?yàn)椴煌念I(lǐng)域,不同的條件,對(duì)應(yīng)的預(yù)測(cè)模型是不一樣的,所以沒(méi)有統(tǒng)一化的最優(yōu)模型,只存在有選擇性的最優(yōu)模型。下面介紹幾種典型的預(yù)測(cè)模型。
①回歸模型:回歸模型可以分為一元線(xiàn)性回歸模型和多元線(xiàn)性回歸模型。一元線(xiàn)性回歸模型可表示為yt=b0+b1xt+ut,該式表示變量yt和xt之間的真實(shí)關(guān)系。其中yt稱(chēng)作被解釋變量(或相依變量、因變量),xt稱(chēng)作解釋變量(或獨(dú)立變量、自變量),ut稱(chēng)作隨機(jī)誤差項(xiàng),b0稱(chēng)作常數(shù)項(xiàng)(截距項(xiàng)),b1稱(chēng)作回歸系數(shù)。b0+b1xt是非隨機(jī)部分,ut是隨機(jī)部分。而在很多情況下,回歸模型必包含兩個(gè)或更多自變量才能夠適應(yīng)地描述經(jīng)濟(jì)現(xiàn)象各相關(guān)量之間的聯(lián)系,這就是多元線(xiàn)性回歸模型需要解決的問(wèn)題,其一般形式為:Y=a+b1X1+b2X2+…+bmXm,式中X1、X2、…、Xm是這個(gè)多元回歸問(wèn)題的m個(gè)自變量,b1、b2、…、bm是回歸方程對(duì)應(yīng)于各自變量的系數(shù),又稱(chēng)偏回歸系數(shù)。
②貝葉斯網(wǎng)絡(luò):貝葉斯網(wǎng)絡(luò)是基于概率推理的數(shù)學(xué)模型,而概率推理是通過(guò)一些產(chǎn)量的信息來(lái)獲取其他概率信息的過(guò)程。貝葉斯網(wǎng)絡(luò)會(huì)建立一個(gè)有向無(wú)環(huán)圖和一個(gè)概率表集合,有向無(wú)環(huán)圖中的每一個(gè)節(jié)點(diǎn)便是一個(gè)隨機(jī)變量,而有向邊表示隨機(jī)變量間的條件依賴(lài),條件概率表中的每一個(gè)元素對(duì)應(yīng)有向無(wú)環(huán)圖中唯一的節(jié)點(diǎn),存儲(chǔ)此節(jié)點(diǎn)對(duì)其所有直接前驅(qū)節(jié)點(diǎn)的條件概率。貝葉斯網(wǎng)絡(luò)是為了解決不定性與不完整性問(wèn)題而提出的,在多個(gè)領(lǐng)域中獲得廣泛應(yīng)用。
③基于時(shí)間序列分析的指數(shù)平滑模型
在時(shí)間序列分析中指數(shù)平滑模型是最靈活和準(zhǔn)確的方法,在經(jīng)濟(jì)領(lǐng)域也被證明是最有效的預(yù)測(cè)模型。在不同的時(shí)間序列下,指數(shù)平滑模型可以分為簡(jiǎn)單指數(shù)平滑法、帶有趨勢(shì)調(diào)整的指數(shù)平滑法、帶有阻尼趨勢(shì)的指數(shù)平滑法、簡(jiǎn)單季節(jié)指數(shù)平滑法、帶有趨勢(shì)和季節(jié)調(diào)整的指數(shù)平滑法五種不復(fù)雜度的模型。
2.8 最優(yōu)化(Optimization)
因?yàn)閮?yōu)化問(wèn)題往往可以帶來(lái)巨額的收益,通過(guò)一系列可行的優(yōu)化,可以使收益得到顯著提高。所謂最優(yōu)化就是從有限或者無(wú)限種可行的方案中選取最優(yōu)的方案。如果可以通過(guò)簡(jiǎn)單的評(píng)判,就可以確定最優(yōu)方案那是最好的。但是事實(shí)不會(huì)那么簡(jiǎn)單,所以?xún)?yōu)化技術(shù)已經(jīng)發(fā)展出了一系列的理論來(lái)解決實(shí)際問(wèn)題。其常用的優(yōu)化技術(shù)為:
①線(xiàn)性規(guī)劃:當(dāng)目標(biāo)函數(shù)與約束函數(shù)都是線(xiàn)性函數(shù)時(shí),就是一個(gè)線(xiàn)性規(guī)劃問(wèn)題。而當(dāng)同時(shí)滿(mǎn)足約束函數(shù)和目標(biāo)函數(shù)時(shí),則可以認(rèn)為是最優(yōu)解。
②整數(shù)規(guī)劃:要求決策變量取整數(shù)值的數(shù)學(xué)規(guī)劃。
③多目標(biāo)規(guī)劃:指衡量一個(gè)決策優(yōu)劣的標(biāo)準(zhǔn)不止一個(gè),也就是有多目標(biāo)函數(shù)。
④動(dòng)態(tài)規(guī)劃:將一個(gè)復(fù)雜的問(wèn)題劃分為多個(gè)階段,逐段求解,最終求出全局最優(yōu)解。
表1是某產(chǎn)品某季度的銷(xiāo)售數(shù)據(jù),根據(jù)表中所給出的數(shù)據(jù)可以做出不同層次的分析。
①對(duì)于企業(yè)而言最重要的是利潤(rùn),所以管理者必須要從這張表中得到最關(guān)鍵也最容易得到的銷(xiāo)量和銷(xiāo)售額以及與其相關(guān)的一些數(shù)據(jù),通常是用最基本的數(shù)理統(tǒng)計(jì)結(jié)果來(lái)直觀(guān)地反映該企業(yè)在某個(gè)期間的盈利情況。
②其次,我們必須要做進(jìn)一步的分析。已經(jīng)對(duì)整體的情況有了一定的把握,所以就可以朝著不同的方向去挖掘一些有價(jià)值的信息,為企業(yè)高層做決策提供有力的依據(jù)。對(duì)產(chǎn)品銷(xiāo)售而言,客戶(hù)結(jié)構(gòu)能夠有效地反映客戶(hù)的地域分布,企業(yè)可以根據(jù)客戶(hù)的來(lái)源,在未開(kāi)辟客戶(hù)的地域去尋找新的目標(biāo)客戶(hù)群。而銷(xiāo)量結(jié)構(gòu)可以直觀(guān)地反映企業(yè)最大銷(xiāo)量來(lái)自哪個(gè)地區(qū),對(duì)銷(xiāo)量較小的地區(qū)可以加大宣傳力度或者增加銷(xiāo)售網(wǎng)點(diǎn)來(lái)保持各地區(qū)銷(xiāo)售均衡。還可以及時(shí)地調(diào)整銷(xiāo)售方式來(lái)擴(kuò)大市場(chǎng)份額,而對(duì)于銷(xiāo)量最小的地區(qū)考慮開(kāi)辟新的市場(chǎng)。
表1
③圖3統(tǒng)計(jì)了各地區(qū)的銷(xiāo)售總額和平均銷(xiāo)售額以及兩者的對(duì)比關(guān)系。由此可以得出地區(qū)平均購(gòu)買(mǎi)力大小,以及各地區(qū)總銷(xiāo)售額大小。借助圖表描述,管理者可以對(duì)企業(yè)在某段期間內(nèi)的銷(xiāo)售狀況有一個(gè)大概的把握,只有掌握了這些的信息,才能更細(xì)化地去研究具體的影響因素。
圖1
圖2
圖3
④一般以銷(xiāo)售為主的企業(yè)都需要對(duì)客戶(hù)的購(gòu)買(mǎi)力劃分等級(jí),對(duì)于經(jīng)常性大量購(gòu)買(mǎi)的客戶(hù)必須要以最優(yōu)惠的價(jià)格和最好的服務(wù)讓其滿(mǎn)意,以形成一個(gè)穩(wěn)定的大客戶(hù)群。而對(duì)于那些少量購(gòu)買(mǎi)的客戶(hù),也要制定出相應(yīng)合適的方案來(lái)留住客戶(hù)。所以,分析銷(xiāo)售額的分布情況,可以掌握客戶(hù)的購(gòu)買(mǎi)力度而且還能及時(shí)做一些留住大客戶(hù)的舉措。
R語(yǔ)言是一種自由軟件編程語(yǔ)言與操作環(huán)境,是一套完整的數(shù)據(jù)處理、計(jì)算和制圖軟件系統(tǒng),它是一種用來(lái)進(jìn)行數(shù)據(jù)探索、統(tǒng)計(jì)分析和作圖的解釋型語(yǔ)言。它可以提供一些集成的統(tǒng)計(jì)工具,但更大量的是它提供各種數(shù)學(xué)計(jì)算、統(tǒng)計(jì)計(jì)算的函數(shù),從而使使用者能靈活機(jī)動(dòng)地進(jìn)行數(shù)據(jù)分析,甚至創(chuàng)造出符合需要的新的統(tǒng)計(jì)計(jì)算方法。而在使用R語(yǔ)言進(jìn)行數(shù)據(jù)分析處理時(shí),當(dāng)我們遇到很大的原始數(shù)據(jù),但用來(lái)建模的數(shù)據(jù)較小,則可以先在數(shù)據(jù)庫(kù)中進(jìn)行整理,然后通過(guò)R與數(shù)據(jù)庫(kù)的接口提取數(shù)據(jù),數(shù)據(jù)庫(kù)適合存放和整理比較規(guī)整的數(shù)據(jù),和R中的數(shù)據(jù)框有良好的對(duì)應(yīng)關(guān)系,這也是R中絕大多數(shù)統(tǒng)計(jì)模型的標(biāo)準(zhǔn)數(shù)據(jù)結(jié)構(gòu)。數(shù)據(jù)庫(kù)中大部分的運(yùn)算都不需要消耗很大的內(nèi)存。
圖4
如今的社交平臺(tái)已經(jīng)做得相當(dāng)完善,我們可以隨時(shí)掌握朋友圈的一些動(dòng)態(tài),以及最近很熱的一些話(huà)題。下面我們以微博話(huà)題為例,用R語(yǔ)言實(shí)現(xiàn)相關(guān)的分析,并呈現(xiàn)出可視化的分析結(jié)果。
具體分析思路:
可以從新浪微博開(kāi)放平臺(tái):http://open.weibo.com中使用R函數(shù)抓取數(shù)據(jù)。獲取與“最新話(huà)題”相關(guān)的微博約10000條,對(duì)微博內(nèi)容進(jìn)行分詞,構(gòu)造詞頻矩陣,即每條微博是一個(gè)觀(guān)測(cè),語(yǔ)料庫(kù)中每個(gè)詞語(yǔ)出現(xiàn)的頻率是自變量,微博的主題為因變量,對(duì)因變量做回歸并進(jìn)行變量選擇,找到那些最能將因變量區(qū)分開(kāi)來(lái)的詞語(yǔ)。也可以通過(guò)訪(fǎng)問(wèn)http://s.weibo.com/weibo/<search_ content>&rd=MjAxN&page=<page_number>抓取微博的HTML文本,注意抓取網(wǎng)頁(yè)的頻率限制,利用XML軟件包解析HTML,獲取微博的文本內(nèi)容,利用rmmseg4j軟件包進(jìn)行中文分詞將數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫(kù),進(jìn)行簡(jiǎn)單的處理(大寫(xiě)轉(zhuǎn)小寫(xiě),刪去某些詞語(yǔ)),利用ff軟件包讀取數(shù)據(jù),并結(jié)合Matrix軟件包構(gòu)造稀疏詞頻矩陣,12147條微博,4711個(gè)詞語(yǔ),完整的詞頻矩陣大小為0.97G,稀疏化后僅占據(jù)3.6M,使用Lasso對(duì)回歸進(jìn)行變量選擇,核心算法用Rcpp軟件包和C++實(shí)現(xiàn),結(jié)果使用wordcloud軟件包進(jìn)行可視化展示如下:
圖5
多層次數(shù)據(jù)分析在管理上有十分重要的意義,因?yàn)樗a(chǎn)生的價(jià)值是完全建立在真實(shí)的數(shù)據(jù)層面,而對(duì)一個(gè)企業(yè)而言搜集數(shù)據(jù)模式的改進(jìn)是管理過(guò)程的完善,對(duì)企業(yè)符合時(shí)代潮流和規(guī)范管理過(guò)程是至關(guān)重要的。多層次數(shù)據(jù)分析能夠及時(shí)糾正企業(yè)錯(cuò)誤的決策,能夠?qū)M(jìn)度展開(kāi)實(shí)時(shí)跟蹤,還能了解成本管制情況和人員思想動(dòng)態(tài)等。
對(duì)于個(gè)人而言,數(shù)據(jù)分析可以幫助我們更好地去生活,消費(fèi)者可以通過(guò)分析結(jié)果去選擇物美價(jià)廉的商品。還可以用數(shù)學(xué)模型來(lái)分析電影的票房,來(lái)減少不必要的損失等。
總之,大數(shù)據(jù)時(shí)代多層次數(shù)據(jù)分析的價(jià)值是無(wú)可估量的,它可以囊括我們能想到方方面面以及我們現(xiàn)在還想不到的一些領(lǐng)域。也許,在不久的將來(lái)數(shù)據(jù)分析技術(shù)會(huì)變成一個(gè)獨(dú)立的學(xué)科,而掌握數(shù)據(jù)分析技術(shù)是以后社會(huì)中人才必備的技能。
[1] 彭鴻濤,聶磊.發(fā)現(xiàn)數(shù)據(jù)之美-數(shù)據(jù)分析原理與實(shí)踐[M].北京:電子工業(yè)出版社,2014:1~200
[2] 劉蘭娟等.《經(jīng)濟(jì)管理中的計(jì)算機(jī)應(yīng)用(第二版)》[M].北京:清華大學(xué)出版社,2013:1~300
Multilevel Data Analysis
QI Peng-nian
(School of Economics and Management,Changsha University of Science&Technology,Changsha 410114)
As for the analysis of professional data,it must be very strong pertinence,the results of the analysis provides with what kind of demand. Otherwise it causes unnecessary waste of information value,which will greatly increase the cost for information acquisition.Makes a corresponding discussion about how to realize the multi-level analysis data by combining with examples of the way of theory.
Big Data;Data Mining;Data Analysis;Policy Desicion and Distributed Database
1007-1423(2015)02-0045-06
10.3969/j.issn.1007-1423.2015.02.012
祁鵬年(1992-),青海海東人,本科,研究方向Web開(kāi)發(fā)、數(shù)據(jù)分析
2014-10-30
2014-12-24