鄭 磊
(河南煤礦安全監(jiān)察局,河南 鄭州 450003)
大數(shù)據(jù)思維與傳統(tǒng)統(tǒng)計(jì)思維方式的差異分析
鄭 磊
(河南煤礦安全監(jiān)察局,河南 鄭州 450003)
隨著信息技術(shù)的不斷發(fā)展,現(xiàn)階段網(wǎng)絡(luò)數(shù)據(jù)的信息量越來越龐大,大數(shù)據(jù)時(shí)代的到來對(duì)傳統(tǒng)領(lǐng)域造成了相當(dāng)大的沖擊作用,必定會(huì)產(chǎn)生一些相應(yīng)的變化.文章對(duì)大數(shù)據(jù)思維與傳統(tǒng)統(tǒng)計(jì)思維方式的差異進(jìn)行分析,以使傳統(tǒng)統(tǒng)計(jì)思維能夠盡快適應(yīng)大數(shù)據(jù)時(shí)代的變化,開闊視野,從多個(gè)角度解決問題,并使二者有機(jī)融合,推動(dòng)統(tǒng)計(jì)工作再上新臺(tái)階.
大數(shù)據(jù);統(tǒng)計(jì)思維;差異
當(dāng)今信息科技高速發(fā)展,大數(shù)據(jù)已經(jīng)成為一種新的生產(chǎn)力,驅(qū)動(dòng)傳統(tǒng)行業(yè)發(fā)生重大變革.由于大數(shù)據(jù)具有4V(Volume,Variety,Velocity和Veracity)特性[1],傳統(tǒng)統(tǒng)計(jì)思維方法已不能完全滿足時(shí)代需求,大數(shù)據(jù)思維方式亦應(yīng)運(yùn)而生.大數(shù)據(jù)思維與傳統(tǒng)統(tǒng)計(jì)思維類似,都是對(duì)現(xiàn)實(shí)世界的數(shù)據(jù)和現(xiàn)象進(jìn)行科學(xué)分析和判斷,從而揭示事物的內(nèi)在本質(zhì),判斷其發(fā)展變化規(guī)律.然而,由于這兩種思維方式各有其自身特點(diǎn),其研究重點(diǎn)和應(yīng)用領(lǐng)域也各自不同,所有我們就需要對(duì)這兩種思維方式進(jìn)行研究,從而開闊視野,從多個(gè)角度以多種方法解決問題.
總體性和樣本性,是大數(shù)據(jù)思維和傳統(tǒng)統(tǒng)計(jì)思維研究對(duì)象的根本區(qū)別.在傳統(tǒng)統(tǒng)計(jì)思維中,受傳統(tǒng)分析方法的限制,抽樣分析是最常用的統(tǒng)計(jì)方法,即按隨機(jī)性原則,從總體單位中隨機(jī)抽取部分單位作為樣本進(jìn)行統(tǒng)計(jì)分析,并以其結(jié)果推斷總體有關(guān)指標(biāo)的一種統(tǒng)計(jì)方法.實(shí)踐證明:抽樣分析精確性受抽樣隨機(jī)性影響較大,增加隨機(jī)性,精確度將大幅提高;增加樣本數(shù)量,精確度影響不大,因此樣本選擇的隨機(jī)性比樣本數(shù)量更為重要.用樣本數(shù)據(jù)去推斷全部樣本的情況,是傳統(tǒng)統(tǒng)計(jì)方法分析數(shù)據(jù)的常用方法,但在現(xiàn)實(shí)中,這種方法可能無法展示事物的全貌,其抽樣的代表性有存在偏差的可能,其推斷的結(jié)果需要驗(yàn)證.
在大數(shù)據(jù)背景下,所有海量數(shù)據(jù)都可以存儲(chǔ)在云存儲(chǔ)上,大數(shù)據(jù)思維不再采用傳統(tǒng)的隨機(jī)抽樣方式,而是采用"樣本即總體"的全數(shù)據(jù)思維方式,采用大數(shù)據(jù)特殊算法,利用云計(jì)算強(qiáng)大的計(jì)算能力,計(jì)算分析全部數(shù)據(jù),從而發(fā)現(xiàn)傳統(tǒng)統(tǒng)計(jì)方法無法揭示的細(xì)節(jié)信息,找出深藏在數(shù)據(jù)中不易被發(fā)現(xiàn)的秘密[2].
在傳統(tǒng)統(tǒng)計(jì)工作中,統(tǒng)計(jì)方法一般是基于事務(wù)間的相關(guān)性、先驗(yàn)信息,根據(jù)收集的統(tǒng)計(jì)樣本,采用傳統(tǒng)統(tǒng)計(jì)學(xué)的推斷方法進(jìn)行因果關(guān)系的推斷.而大數(shù)據(jù)是建立在總體數(shù)據(jù)之上,排除人為假設(shè),通過大數(shù)據(jù)算法,挖掘出數(shù)據(jù)深處的意義,發(fā)現(xiàn)深層次的因果關(guān)系,從而進(jìn)行科學(xué)的預(yù)測(cè)和判斷.傳統(tǒng)統(tǒng)計(jì)方法由于統(tǒng)計(jì)樣本的不完整性,或者某個(gè)統(tǒng)計(jì)樣本的錯(cuò)誤,可能將會(huì)導(dǎo)致統(tǒng)計(jì)結(jié)果發(fā)生嚴(yán)重偏離,而且后期仍需大量的工作進(jìn)行因果關(guān)系的驗(yàn)證和偏離值的修正.大數(shù)據(jù)思維方法并不需要了解事物的因果關(guān)系,而是立足于全部數(shù)據(jù),采用特殊算法,通過云計(jì)算強(qiáng)大的運(yùn)算能力去分析、歸納、比對(duì),從而發(fā)現(xiàn)以往傳統(tǒng)統(tǒng)計(jì)方法不能發(fā)現(xiàn)的內(nèi)部聯(lián)系和復(fù)雜現(xiàn)象.
傳統(tǒng)統(tǒng)計(jì)方法常用的獲取數(shù)據(jù)方式有:普查、抽樣調(diào)查和統(tǒng)計(jì)報(bào)表,其中抽樣調(diào)查是最常用的統(tǒng)計(jì)方法.統(tǒng)計(jì)人員通過設(shè)計(jì)調(diào)查表進(jìn)行數(shù)據(jù)收集,然后再進(jìn)行歸集整理、分析判斷.在抽樣調(diào)查之前,調(diào)查人員往往更加關(guān)心如何能更好地收集數(shù)據(jù),因此傳統(tǒng)數(shù)據(jù)收集有很強(qiáng)的針對(duì)性,抽樣調(diào)查的對(duì)象往往是特定對(duì)象,身份特征是可識(shí)別的.而大數(shù)據(jù)時(shí)代以實(shí)時(shí)產(chǎn)生的各種信息為主,既對(duì)信息的提供者和產(chǎn)生者無特別要求,也不為特定的目的而產(chǎn)生.大數(shù)據(jù)時(shí)代以云計(jì)算、物聯(lián)網(wǎng)和人工智能為背景,事物之間通過物聯(lián)網(wǎng)互聯(lián)互通,數(shù)據(jù)實(shí)時(shí)產(chǎn)生、定向匯集且可以被共享,這些數(shù)據(jù)可以分布于全球多個(gè)服務(wù)器上,且體量巨大,大數(shù)據(jù)思維模式即基于此類實(shí)時(shí)、多源數(shù)據(jù),通過特定算法對(duì)其進(jìn)行歸納分析,尋找并發(fā)現(xiàn)其內(nèi)在規(guī)律.例如,電子購物網(wǎng)站實(shí)時(shí)收集所有用戶的查詢記錄和采購記錄并進(jìn)行分析判斷,從而得知用戶喜好,當(dāng)用戶再次登錄購物網(wǎng)站時(shí),網(wǎng)站會(huì)自動(dòng)推送用戶喜好的商品類別,達(dá)到廣告精準(zhǔn)投放的目的,同時(shí)也提高了用戶體驗(yàn).
傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)具有樣本量小、針對(duì)性強(qiáng)、格式統(tǒng)一、信息量豐富、精確度高等性質(zhì).傳統(tǒng)統(tǒng)計(jì)思維模式下,統(tǒng)計(jì)人員對(duì)數(shù)據(jù)的準(zhǔn)確性要求較高,數(shù)據(jù)是由經(jīng)抽樣調(diào)查而獲得的局部數(shù)據(jù),數(shù)據(jù)量小,格式相對(duì)統(tǒng)一.因需要分析的數(shù)據(jù)少,所以必須保證數(shù)據(jù)的精確性才能避免可能出現(xiàn)的偏差.在收集樣本時(shí),或者在進(jìn)行統(tǒng)計(jì)分析時(shí),統(tǒng)計(jì)工作者都會(huì)采用一整套策略來保證樣本數(shù)據(jù)的精確性,減少錯(cuò)誤的發(fā)生.在統(tǒng)計(jì)結(jié)果出來以后,也會(huì)設(shè)計(jì)一整套方法來檢驗(yàn)統(tǒng)計(jì)結(jié)果的正確性.
而大數(shù)據(jù)則不同,主要有以下兩個(gè)方面特性:
(1)數(shù)據(jù)量大、精確度低,格式繁雜、錯(cuò)誤率高.大數(shù)據(jù)思維采用全數(shù)據(jù)處理方式,處理的樣本就是全部數(shù)據(jù),因此數(shù)據(jù)體量很大.這些海量數(shù)據(jù),不僅無針對(duì)性,而且垃圾信息、錯(cuò)誤信息很多,我們所處的真實(shí)世界恰恰是到處充斥著垃圾信息和錯(cuò)誤信息,這就是我們真實(shí)世界的體現(xiàn).大數(shù)據(jù)正是因?yàn)檫@種高度容錯(cuò)機(jī)制而大大提高了其預(yù)測(cè)結(jié)果的真實(shí)性和準(zhǔn)確性.
(2)半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化占主流.大數(shù)據(jù)是真實(shí)世界的反應(yīng),本質(zhì)上整個(gè)世界都是由信息構(gòu)成,它既包括如數(shù)據(jù)、文本、表格等結(jié)構(gòu)化數(shù)據(jù),還包括視頻、音頻、圖片、方位、通話記錄等半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)結(jié)構(gòu)混雜,內(nèi)容龐大、格式不一,是我們真實(shí)世界的映射,其中蘊(yùn)含著巨大的價(jià)值有待挖掘.
傳統(tǒng)統(tǒng)計(jì)思維的分析思路是,首先假設(shè)世界是如何運(yùn)行的,然后通過收集和分析樣本數(shù)據(jù)來驗(yàn)證這種假想.因此,傳統(tǒng)統(tǒng)計(jì)思維的分析思路是"假設(shè)-驗(yàn)證-決策".
在大數(shù)據(jù)背景下,人們不再受限制于傳統(tǒng)的思維模式和特定領(lǐng)域里隱含的固定思維,對(duì)事物的研究始于數(shù)據(jù),并可以發(fā)現(xiàn)以前不曾發(fā)現(xiàn)的聯(lián)系.大數(shù)據(jù)思維以數(shù)據(jù)清洗、挖掘及智能算法為主要研究方法,對(duì)數(shù)據(jù)進(jìn)行挖掘分析前既沒有預(yù)定目標(biāo),也沒有現(xiàn)成的理論模型,更無需預(yù)先假設(shè),而是通過特定的算法,對(duì)海量的數(shù)據(jù)進(jìn)行清洗、歸納、分析和比對(duì),從中找出內(nèi)在的特征和關(guān)系,從而發(fā)現(xiàn)隱藏其中的規(guī)律,供人們進(jìn)行判斷和決策.因此,大數(shù)據(jù)思維下的分析思路是"數(shù)據(jù)收集-數(shù)據(jù)分析-判斷決策"[3].
當(dāng)前的大數(shù)據(jù)時(shí)代,是社會(huì)發(fā)展到一定階段之后的必然產(chǎn)物,不以人的意志為轉(zhuǎn)移.統(tǒng)計(jì)工作者要積極主動(dòng)適應(yīng)時(shí)代發(fā)展,樹立大數(shù)據(jù)思維意識(shí),要有危機(jī)感、緊迫感,明確當(dāng)前工作和時(shí)代的差距,積極轉(zhuǎn)變工作思路,使自己的工作適應(yīng)時(shí)代需要.同時(shí),大數(shù)據(jù)意識(shí)的樹立還可以明確工作方向,增強(qiáng)部門凝聚力,有助于更好地了解統(tǒng)計(jì)工作的特性,更有效地完成統(tǒng)計(jì)工作.
大數(shù)據(jù)時(shí)代對(duì)統(tǒng)計(jì)工作提出了更高的要求,統(tǒng)計(jì)工作要發(fā)展進(jìn)步,首先就是要提高統(tǒng)計(jì)工作者的素質(zhì),加強(qiáng)人員的業(yè)務(wù)培訓(xùn)和交流.一方面培養(yǎng)他們對(duì)統(tǒng)計(jì)專業(yè)知識(shí)的進(jìn)一步掌握,另一方面要培養(yǎng)他們對(duì)新興科技的認(rèn)識(shí)和了解,特別是要加強(qiáng)對(duì)大數(shù)據(jù)相關(guān)知識(shí)的學(xué)習(xí)和培訓(xùn),使統(tǒng)計(jì)人員早日形成大數(shù)據(jù)思維方式.在招收統(tǒng)計(jì)人員時(shí),要提高門檻,系統(tǒng)培訓(xùn),合格以后才能轉(zhuǎn)入到實(shí)際工作中.在日常工作中,要間隔性地考核統(tǒng)計(jì)人員的業(yè)務(wù)能力,對(duì)于不合格的人員要再進(jìn)行培訓(xùn),優(yōu)秀的員工給予獎(jiǎng)勵(lì),鼓勵(lì)統(tǒng)計(jì)工作創(chuàng)新,積極將大數(shù)據(jù)技術(shù)應(yīng)用于統(tǒng)計(jì)工作中,以更高的標(biāo)準(zhǔn)、更快的工作效率做好統(tǒng)計(jì)工作[4].
大數(shù)據(jù)思維把人們從傳統(tǒng)的思維方式和價(jià)值觀中解放出來,在各行各業(yè)均有巨大的應(yīng)用價(jià)值.傳統(tǒng)統(tǒng)計(jì)學(xué)思維助推大數(shù)據(jù)科學(xué)發(fā)展,而大數(shù)據(jù)為傳統(tǒng)統(tǒng)計(jì)學(xué)科的發(fā)展提供了捷徑.了解大數(shù)據(jù)思維和傳統(tǒng)統(tǒng)計(jì)思維的差異,有助于我們運(yùn)用創(chuàng)新思維方式,使兩者取長補(bǔ)短,有機(jī)融合,推動(dòng)統(tǒng)計(jì)工作再上新臺(tái)階.
[1]鄭磊.大數(shù)據(jù)在煤礦安全管理中的應(yīng)用研究[J].無線互聯(lián)科技,2016(11):133-135.
[2]馮啟思.數(shù)據(jù)統(tǒng)治世界[M].北京:中國人民大學(xué)出版,2013.
[3]張弛援.大數(shù)據(jù)思維范疇探究[J].華中科技大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2015(2):120-125.
[4]崔青云.論統(tǒng)計(jì)思維及培養(yǎng)[J].山西煤炭管理干部學(xué)院學(xué)報(bào),2009(3):34-35.
Analysis on the difference between big data thinking and traditional statistical thinking mode
Zheng Lei
(Henan Administration of Coal Mine Safety, Zhengzhou 450003, China)
With the continuous development of the information technology, there is a growing number of information on the network data at this stage. The arrival of big data age has a big impact on traditional fields, where must arise some concerning changes. This paper analyzes the differences between big data thinking and traditional statistical thinking mode, in order to make traditional thinking soon adapt to the changes of the big data age, broaden the horizons, solve the problems from multi angles, and make an organic combination of big data thinking and traditional mode to promote our statistical work to a new level.
big data; statistical thinking; difference
鄭磊(1970- ),男,河南鄭州人,高級(jí)工程師,碩士;研究方向:煤礦安全監(jiān)察信息系統(tǒng)開發(fā),大數(shù)據(jù)應(yīng)用.