閆立紅
隨著多媒體互聯(lián)網(wǎng)技術(shù)的發(fā)展,大數(shù)據(jù)以其數(shù)據(jù)信息量大、傳遞速度快、結(jié)構(gòu)復(fù)雜吸引了社會(huì)各界的關(guān)注。另外近幾年大數(shù)據(jù)行業(yè)蓬勃興起,越來越多的企業(yè)開始意識(shí)到大數(shù)據(jù)對(duì)于商業(yè)活動(dòng)信息數(shù)據(jù)的重要性,越來越多的行業(yè)也開始注意大數(shù)據(jù)技術(shù)的引進(jìn),越來越多的人才也開始將目光投到大數(shù)據(jù)的身上,希望從中尋找最好的出路。大數(shù)據(jù)與不同學(xué)科的關(guān)聯(lián)發(fā)展正在不斷地研究發(fā)展過程中。本文筆者將從大數(shù)據(jù)與統(tǒng)計(jì)的角度進(jìn)行新思維的探討。
一、引言
統(tǒng)計(jì)學(xué)主要是通過對(duì)數(shù)據(jù)和信息的搜集、整理、分析、描述來達(dá)到推測甚至預(yù)測所測對(duì)象具體情況的學(xué)科。統(tǒng)計(jì)學(xué)再實(shí)際工作中應(yīng)用廣泛,其所包含的數(shù)據(jù)收集方法和統(tǒng)計(jì)分析方法再各行各業(yè)應(yīng)用廣泛。而大數(shù)據(jù)作為一種隨著互聯(lián)網(wǎng)和信息系統(tǒng)發(fā)展起來的新的信息處理分析方法其中也采用了一定的統(tǒng)計(jì)分析方法,但是很明顯目前的大數(shù)據(jù)還缺少更多更加專業(yè)的統(tǒng)計(jì)分析方法。另外通過大數(shù)據(jù)可以啟發(fā)統(tǒng)計(jì)工作,再統(tǒng)計(jì)工作中注入一定的創(chuàng)新思維,更有利于統(tǒng)計(jì)工作的推行。
二、統(tǒng)計(jì)思維的演變及其與大數(shù)據(jù)的關(guān)系
統(tǒng)計(jì)的第一步就是要進(jìn)行樣本數(shù)據(jù)的收集,原始的信息收集方法大多數(shù)至今仍應(yīng)用廣泛,即通過抽樣調(diào)查或普查等方法形成樣本數(shù)據(jù)庫。收集統(tǒng)計(jì)數(shù)據(jù)的方法事由收集數(shù)據(jù)的目的和要求確定的之后再按照嚴(yán)格的方法進(jìn)行數(shù)據(jù)的收集。而大數(shù)據(jù)的數(shù)據(jù)收集是直接從網(wǎng)絡(luò)上的數(shù)據(jù)庫中獲得的,數(shù)據(jù)庫內(nèi)的信息全面但缺少目的性,且大數(shù)據(jù)的來源難以追溯。另外大部分?jǐn)?shù)據(jù)的樣本結(jié)構(gòu)都是結(jié)構(gòu)型的,而大數(shù)據(jù)的類型大多是半結(jié)構(gòu)、非結(jié)構(gòu)和異構(gòu)型,這也造成了大數(shù)據(jù)的數(shù)據(jù)比較復(fù)雜無法進(jìn)行量化處理,在處理方法上需要進(jìn)行一定的改進(jìn)。
在數(shù)據(jù)收集之后就是數(shù)據(jù)的分析,以往的數(shù)據(jù)分析方法大多是采用了“定性——定量——再定性”的方法。通過定性來確定定量分析的方向,最后再通過定量分析的數(shù)據(jù),根據(jù)相關(guān)理論和經(jīng)驗(yàn)對(duì)被測對(duì)象進(jìn)行判斷。
在進(jìn)行關(guān)于假設(shè)的驗(yàn)證時(shí),在數(shù)據(jù)分析之后,就要開始驗(yàn)證該假設(shè)是否成立。按照“假設(shè)——驗(yàn)證”的思路來進(jìn)行,但是這種方法如果選擇指標(biāo)不當(dāng)很容易受到假設(shè)條件等的限制。而根據(jù)樣本數(shù)據(jù)特征推測總體特征的方法也是常見的一種根據(jù)數(shù)據(jù)分析判斷被測對(duì)象的一種方法。這種方法大多采用“分布理論——概率保證——總體推斷”的思路和邏輯,這種方法推斷評(píng)判的標(biāo)準(zhǔn)和樣本沒有關(guān)系,但是基本樣本的質(zhì)量直接影響著最終的判斷結(jié)果。
三、統(tǒng)計(jì)工作者面對(duì)大數(shù)據(jù)的應(yīng)對(duì)方法
首先統(tǒng)計(jì)工作者和研究者應(yīng)當(dāng)改變對(duì)不確定性的認(rèn)識(shí)。統(tǒng)計(jì)學(xué)最初出現(xiàn)就是為了研究一些實(shí)物發(fā)生的不確定性,大多數(shù)不確定性出現(xiàn)的原因都是由于個(gè)體間的差異造成的,這種差異普遍存在于自然和社會(huì)活動(dòng)中。而要想了解這種情況和分析不確定性就需要收集大量數(shù)據(jù)進(jìn)行分析,在這個(gè)過程中就容易出現(xiàn)很多不確定性,例如工作中常用的抽樣調(diào)查法的不確定性就發(fā)生在數(shù)據(jù)收集抽樣過程中以及構(gòu)建模型、推斷總體的過程中。大數(shù)據(jù)雖然也存在個(gè)體差異和不確定性,但是大數(shù)據(jù)的數(shù)據(jù)大多是全體性的,包含了所有的樣本,不確定性相對(duì)較小。
另外在大數(shù)據(jù)不斷發(fā)展的大趨勢下,統(tǒng)計(jì)工作者應(yīng)當(dāng)緊隨時(shí)代潮流,將自己的專業(yè)和大數(shù)據(jù)進(jìn)行結(jié)合。雖然目前的數(shù)據(jù)收集和和數(shù)據(jù)分析技術(shù)已經(jīng)比較成熟了,但是對(duì)于規(guī)模較大的樣本或者數(shù)據(jù)時(shí)處理起來還是有一定的難度的,這時(shí)候就需要現(xiàn)代化的信息技術(shù)進(jìn)行處理??梢酝ㄟ^大數(shù)據(jù)、云計(jì)算等技術(shù)的融合和協(xié)助來完成。在將大數(shù)據(jù)和傳統(tǒng)統(tǒng)計(jì)工作進(jìn)行融合時(shí)需要注意,大數(shù)據(jù)的信息處理方法難度較大,必須要根據(jù)數(shù)據(jù)特點(diǎn)從數(shù)據(jù)本身進(jìn)行切入。
相關(guān)工作者在面對(duì)大數(shù)據(jù)的潮流和沖擊時(shí)必須要提高自己的專業(yè)能力和創(chuàng)新意識(shí),接受大數(shù)據(jù)的挑戰(zhàn),學(xué)習(xí)掌握運(yùn)用大數(shù)據(jù)的能力,充分發(fā)揮自身的專業(yè)優(yōu)勢,提高核心競爭力。從數(shù)據(jù)收集和采樣抽樣開始進(jìn)行創(chuàng)新,在這樣的大數(shù)據(jù)背景下有些人認(rèn)為抽樣調(diào)查可以被取代,然而目前大數(shù)據(jù)還未普及到各行各業(yè),大數(shù)據(jù)僅僅能作為一種采樣和分析的工具,并不能提供各種的完全數(shù)據(jù)。充分利用現(xiàn)有的科學(xué)技術(shù)同時(shí)考慮采樣的成本和效率。在保證數(shù)據(jù)信息可靠性的同時(shí)充分考慮科學(xué)性和目的性,保證采樣能夠順利進(jìn)行。
四、分析數(shù)據(jù)方法的改進(jìn)和創(chuàng)新
在大數(shù)據(jù)時(shí)代,數(shù)據(jù)就是財(cái)富,全面完整的數(shù)據(jù)被收集起來,不僅僅具有初次采集所做的調(diào)查分析的價(jià)值,數(shù)據(jù)會(huì)在后面的社會(huì)活動(dòng)中被反復(fù)以不同的目的使用,其價(jià)值不斷增加,在日后的各種研究中將不斷產(chǎn)生新的價(jià)值,在這樣的背景下,數(shù)據(jù)就是財(cái)富,掌握了大數(shù)據(jù)就掌握了信息的主動(dòng)權(quán)。掌握了大量原始信息之后就是對(duì)于數(shù)據(jù)的分析整理。當(dāng)然目前在大數(shù)據(jù)的不斷發(fā)展階段,數(shù)據(jù)收集工作還在不斷進(jìn)行當(dāng)中,努力進(jìn)行數(shù)據(jù)庫的擴(kuò)充完善,才能保證后續(xù)數(shù)據(jù)整理分析的順利進(jìn)行。接下來我們要對(duì)于數(shù)據(jù)分析的方法創(chuàng)新的方向進(jìn)行一定分析。
首先,傳統(tǒng)統(tǒng)計(jì)分析的方法永遠(yuǎn)是數(shù)據(jù)分析的基礎(chǔ),大數(shù)據(jù)推進(jìn)的改進(jìn)和創(chuàng)新只是起到提高分析效率和精確度的作用。在此我們要提出幾個(gè)利用大數(shù)據(jù)思維和工具進(jìn)行的分析方法的改進(jìn)。首先就是在進(jìn)行分析時(shí)數(shù)據(jù)的重組,有的時(shí)候我們需要處理的數(shù)據(jù)比較復(fù)雜,單純一組數(shù)據(jù)并不能充分說明問題。此時(shí)我們可以進(jìn)行數(shù)據(jù)的重組,即將正在休眠的數(shù)據(jù)通過一個(gè)截然不同的新的數(shù)據(jù)組釋放出來,然后將他們進(jìn)行混合重組,這種混搭應(yīng)用的思想在當(dāng)今的互聯(lián)網(wǎng)時(shí)代并不少見。而混搭的方式更加大了數(shù)據(jù)分析的難度,此時(shí)我們必須要借助云計(jì)算等計(jì)算手段,另外還可以引入相關(guān)關(guān)系的方法進(jìn)行數(shù)據(jù)分析,即通過一個(gè)我們選定的關(guān)聯(lián)物來進(jìn)行分析,這種方法不容易受主觀意識(shí)和偏見的影響,同時(shí)還能提高數(shù)據(jù)分析的效率和準(zhǔn)確度。
五、結(jié)語
大數(shù)據(jù)的浪潮沖擊著各行各業(yè)的發(fā)展,是挑戰(zhàn)也是機(jī)遇,作為統(tǒng)計(jì)工作者或者研究者都應(yīng)該正視并重視大數(shù)據(jù)時(shí)代的到來,轉(zhuǎn)變自己的傳統(tǒng)觀念和思維定式,尤其是建立起在互聯(lián)網(wǎng)時(shí)代十分重要的因果關(guān)系和相關(guān)關(guān)系思路。在科技發(fā)展的今天,統(tǒng)計(jì)的精髓開始由它的分析方法逐漸轉(zhuǎn)變到思維上,使用新思維進(jìn)行數(shù)據(jù)的收集分析和處理,就能夠及時(shí)處理大數(shù)據(jù)中遇到的問題,利用大數(shù)據(jù)的優(yōu)勢。推進(jìn)大數(shù)據(jù)的發(fā)展,而不是在大數(shù)據(jù)的洪流中被淘汰。(作者單位:河北省塞罕壩機(jī)械林場)