孟雪井 李宏飛 楊亞飛
摘要:大數(shù)據(jù)時代,各種數(shù)據(jù)層出不窮,如何從海量數(shù)據(jù)中挖掘有效信息并加以利用,是各行各業(yè)面臨的重要問題。統(tǒng)計軟件在數(shù)據(jù)處理過程中起到至關(guān)重要的作用。結(jié)合大數(shù)據(jù)的數(shù)據(jù)特征,本文從數(shù)據(jù)處理的角度,介紹了常用軟件Excel、Eviews、SPSS、Stata、SAS、R及Python在數(shù)據(jù)整理與分析過程中各自的優(yōu)勢和不足,為數(shù)據(jù)分析工作者提供參考。
關(guān)鍵詞:大數(shù)據(jù);統(tǒng)計軟件;數(shù)據(jù)分析
中圖分類號:TP393.4 文獻(xiàn)識別碼:A 文章編號:1001-828X(2016)012-000-01
在大數(shù)據(jù)時代,每個人身邊都存在著海量、豐富可深入挖掘的數(shù)據(jù),人人生產(chǎn)數(shù)據(jù),時時產(chǎn)生數(shù)據(jù)。大數(shù)據(jù)一般分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),大體上,結(jié)構(gòu)化數(shù)據(jù)占10%、半結(jié)構(gòu)化數(shù)據(jù)占5%、非結(jié)構(gòu)化數(shù)據(jù)占85%,包括各種格式的辦公文本、圖片、報表、音頻、視頻等。對統(tǒng)計學(xué)習(xí)而言,最大的考驗是如何對這些海量的數(shù)據(jù)信息進(jìn)行充分的開發(fā),找出數(shù)據(jù)之間隱藏的規(guī)律與關(guān)系。
首先對于結(jié)構(gòu)化的數(shù)據(jù),一般基礎(chǔ)數(shù)據(jù)分析用Excel等統(tǒng)計軟件,既可滿足基礎(chǔ)要求;大數(shù)據(jù)分析用Eviews,SPSS,Stata,SAS,R,Python等,其中R和Python對于半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的挖掘和分析有很好的應(yīng)用。下面對各軟件在大數(shù)據(jù)分析中的特點進(jìn)行簡單介紹:
Excel電子表格是Microsoft公司推出的Office系列產(chǎn)品之一,是一個功能強(qiáng)大的電子表格軟件。特點是對表格的管理和統(tǒng)計圖制作功能強(qiáng)大,容易操作。Excel的數(shù)據(jù)分析插件XLSTAT,也能進(jìn)行數(shù)據(jù)統(tǒng)計分析,但不足的是運算速度慢,統(tǒng)計方法不全,因此Excel在大數(shù)據(jù)分析中存在一定的局限性,但適合一些基礎(chǔ)的數(shù)據(jù)處理。
Eviews是美國QMS公司研制的在Windows下專門從事數(shù)據(jù)分析、回歸分析和預(yù)測的工具。使用Eviews可以迅速地從數(shù)據(jù)中尋找出統(tǒng)計關(guān)系,并用得到的關(guān)系去預(yù)測數(shù)據(jù)的未來值。Eviews處理回歸方程是它的長處,能處理一般的回歸包括多元回歸問題。不過這個軟件的劣勢在于它的黑箱式的處理過程,出來的結(jié)果可能會不夠精確,有的人可能會為得到一些結(jié)論而偽造一些結(jié)果,可信度不是很高。在大數(shù)據(jù)分析中Eviews只適合時間序列數(shù)據(jù)的分析。
SPSS由美國斯坦福大學(xué)的三位研究生研制。SPSS系統(tǒng)特點是操作比較方便,統(tǒng)計方法比較齊全,繪制圖形、表格較有方便,輸出結(jié)果比較直觀。SPSS在橫截面數(shù)據(jù)的分析中有很大的優(yōu)勢,適合進(jìn)行從事社會學(xué)調(diào)查中的大數(shù)據(jù)分析處理。另外,值得一提的是,最新版的SPSS采用DAA(Distributed Analysis Architecture,分布式分析系統(tǒng)),全面適應(yīng)互聯(lián)網(wǎng),支持動態(tài)收集、分析數(shù)據(jù)和HTML格式報告,使SPSS更加適應(yīng)大數(shù)據(jù)的潮流。
Stata統(tǒng)計軟件由美國計算機(jī)資源中心(Computer Resource Center)1985年研制。特點是采用命令操作,程序容量較小,統(tǒng)計分析方法較齊全,計算結(jié)果的輸出形式簡潔,繪出的圖形精美。不足之處是數(shù)據(jù)的兼容性差,占內(nèi)存空間較大,數(shù)據(jù)管理功能需要加強(qiáng),這使得Stata在大數(shù)據(jù)分析中處于不利地位,但是相較于Eviews和SPSS,Stata在面板數(shù)據(jù)分析的優(yōu)勢是毋庸置疑的,Stata更加適合大數(shù)據(jù)中的面板數(shù)據(jù)分析。
SAS軟件在數(shù)據(jù)挖掘上具有優(yōu)勢,其板塊的獨特功能為大數(shù)據(jù)分析提供了利器。對于不熟悉計算機(jī)編程語言的統(tǒng)計學(xué)習(xí)者可使用SAS。SAS軟件的EM模塊及sas base擁有強(qiáng)大的數(shù)據(jù)處理功能。在SAS的EM模塊中,包含了數(shù)據(jù)處理、模型建立、簡單算法等豐富的數(shù)據(jù)處理功能。例如對獲取的數(shù)據(jù)可進(jìn)行再次抽樣,抽樣的方式是多種多樣的,有:隨機(jī)抽樣、等距抽樣、分層抽樣、從起始順序抽樣和分類抽樣等方式。而且抽樣的過程不需要程序運行,只需要建立流程圖即可。更加復(fù)雜的數(shù)據(jù)模型如生存分析、神經(jīng)網(wǎng)絡(luò)、SVM、決策樹、MBR等可以在數(shù)據(jù)建模中添加節(jié)點來進(jìn)行。在對數(shù)據(jù)進(jìn)行分析以后,SAS會導(dǎo)出程序記錄和最后結(jié)果。盡管SAS有眾多優(yōu)良特性,但其并非腳本語言,所以它在數(shù)據(jù)運行上占有CPU較高,特別在使用EM模塊時,花費的時間相對較長。
Python和R都是開源軟件,相較于上述軟件,在大數(shù)據(jù)分析中有著絕對的優(yōu)勢。Python的網(wǎng)絡(luò)爬蟲及R的RCurl包、Rweibo包等都可以進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)和文本挖掘,對非結(jié)構(gòu)性數(shù)據(jù)亦能進(jìn)行分析處理。眾多的R語言包使得其在數(shù)據(jù)可視化方面也有著很大的優(yōu)勢。Python和R各有其特點:
R的優(yōu)勢在于有包羅萬象的統(tǒng)計函數(shù)可以調(diào)用,特別是在時間序列分析方面(主要用在金融分析與趨勢預(yù)測)無論是經(jīng)典還是前沿的方法都有相應(yīng)的包直接使用;相比python在這方面貧乏不少。
Python的優(yōu)勢在于其膠水語言的特性,一些底層用C寫的算法封裝在python包里后性能非常高效(例如:Python的數(shù)據(jù)挖掘包Orange canve中的決策樹分析50萬用戶10秒出結(jié)果,用R幾個小時也出不來,8G內(nèi)存全部占滿)。
Python與R相比速度要快。Python可以直接處理上G的數(shù)據(jù);R不行,R分析數(shù)據(jù)時需要先通過數(shù)據(jù)庫把大數(shù)據(jù)轉(zhuǎn)化為小數(shù)據(jù)(通過groupby)才能交給R做分析,因此R不可能直接分析行為詳單,只能分析統(tǒng)計結(jié)果。因此,在大數(shù)據(jù)分析中,Python更適合對海量數(shù)據(jù)的處理,而R更適合對數(shù)據(jù)的統(tǒng)計分析。
目前,最流行的數(shù)據(jù)分析軟件是R。KDnuggets網(wǎng)站每年會做一些數(shù)據(jù)分析和數(shù)據(jù)挖掘軟件使用的專題問卷調(diào)查。據(jù)該網(wǎng)站2011年對570個數(shù)據(jù)挖掘和數(shù)據(jù)分析的工作者關(guān)于過去12個月數(shù)據(jù)挖掘和數(shù)據(jù)分析所使用的編程語言的調(diào)查顯示,R語言排名第一,所占比例近一半(45%)。免費是R流行開來的最大的一個因素,現(xiàn)在還有很多人使用SPSS或SAS,但大都用的是盜版軟件。R擁有出色的可視化圖形、豐富的統(tǒng)計方法及高效的更新速度,由一個龐大而活躍的全球性社區(qū)維護(hù),使用R的人分布在各個研究領(lǐng)域,任何做數(shù)據(jù)分析的工作者都應(yīng)該學(xué)會使用R。
參考文獻(xiàn):
[1]方匡南,朱建平,姜葉飛.R數(shù)據(jù)分析:方法與案例詳解[M].電子工業(yè)出版社,2015.
[2]維克托·邁爾·舍恩伯格,肯尼思·庫克耶著,盛楊燕,周濤譯.大數(shù)據(jù)時代:生活、工作與思維的大變革[M].浙江人民出版社.2013.
作者簡介:孟雪井(1985-),女,漢族,安徽淮北人,博士,講師,研究方向:金融統(tǒng)計。
課題:國家社科基金項目“大數(shù)據(jù)背景下金融統(tǒng)計方法研究”(14CTJ008)
基金資助:國家社會科學(xué)基金資助項目(14CTJ008);中國博士后科學(xué)基金第58批面上資助項目(2015M582317)。