賈亞軍
(山西省統(tǒng)計(jì)科學(xué)研究所,太原 030002)
統(tǒng)計(jì)學(xué)是以數(shù)據(jù)為基礎(chǔ)進(jìn)行的估計(jì)判斷。數(shù)據(jù)是嚴(yán)謹(jǐn)?shù)?、枯燥的,但也是客觀的、豐富的。數(shù)據(jù)是數(shù)字,但不只是數(shù)字。統(tǒng)計(jì)學(xué)還是一門關(guān)于數(shù)據(jù)的藝術(shù)。如何高效、準(zhǔn)確地分析所得數(shù)據(jù),并把它轉(zhuǎn)化成比數(shù)據(jù)本身更有用的知識才是統(tǒng)計(jì)學(xué)的目的。世間的一切,貌似雜亂卻又暗自遵循著某種規(guī)律,就像Pythagoras 學(xué)派形容的那樣,萬物皆是數(shù),“在理性的基礎(chǔ)上,所有的判斷都是統(tǒng)計(jì)學(xué)”。
樣本是相對于總體而言的,在進(jìn)行調(diào)查或觀測中,只是抽取了一部分作為樣本。隨機(jī)樣本,在統(tǒng)計(jì)學(xué)中更是一個舉足輕重的概念。樣本之于統(tǒng)計(jì)學(xué),如同利刃之于寶劍,羽翼之于蒼鷹。統(tǒng)計(jì)學(xué)的目的就是通過對少量數(shù)據(jù)的觀測、收集來印證盡可能多的發(fā)現(xiàn)。在人們獲取和儲存數(shù)據(jù)的能力都十分有限的年代,隨機(jī)采樣是一種捷徑,人們無須耗時耗力去觀測總體中所有的個體就可以通過樣本對總體有一個大概的估計(jì)。
大數(shù)據(jù),一個多維、復(fù)雜、多源而又高速變化的數(shù)據(jù)海洋。這是《大數(shù)據(jù)時代》的作者舍恩伯格先生給出的定義。他強(qiáng)調(diào),不能單純地把大數(shù)據(jù)理解為數(shù)據(jù)規(guī)模很大。大數(shù)據(jù)具有著名的4V 特點(diǎn),即海量規(guī)模(Volume)、多樣形式(Variety)、高速產(chǎn)生(Velocity)和巨大的潛在價(jià)值(Value)。事實(shí)上,不是只有“數(shù)字”才被稱為數(shù)據(jù)的。淘寶,大家一定都不陌生。確認(rèn)收貨之后,就可以對寶貝進(jìn)行評價(jià)了,包括描述相符、服務(wù)態(tài)度、發(fā)貨速度和物流服務(wù)4 個方面,在統(tǒng)計(jì)學(xué)中,就是4 個變量。Stanley Smith Stevens 在1946 年將變量分為4 類:無序分類變量、有序分類變量、定距變量和定比變量,即數(shù)據(jù)的4 種類型。淘寶評價(jià)中的星級就屬于有序分類變量。這四種維度的數(shù)據(jù),可以用于表達(dá)現(xiàn)實(shí)生活中的各類信息。
大數(shù)據(jù)給人們的生活、工作、思維方式帶來深刻的變革。有的人對這個時代抱著宗教般的崇拜和莫名的熱情;有的人則帶著某種不安,誠惶誠恐地去擁抱這個新時代。大數(shù)據(jù)時代,是技術(shù)、數(shù)據(jù)和思維三足鼎立的時代。技術(shù)是物質(zhì)基礎(chǔ),數(shù)據(jù)是資源,思維是關(guān)鍵。這里的思維,其實(shí)就是指數(shù)據(jù)思維。我們通常講的大數(shù)據(jù)思維,主要指以下幾種思維。
2.2.1 總體思維
傳統(tǒng)統(tǒng)計(jì)學(xué)原理是利用少量樣本窺探總體,這個總體總是事先明確的。但在大數(shù)據(jù)時代,人們開始放棄對總體的狂熱追求,側(cè)重于分析個體特征,通過對個體的觀測預(yù)測未來。在獲取數(shù)據(jù)和儲存數(shù)據(jù)的能力都不是很發(fā)達(dá)的年代,人們無法觀測總體,只能通過抽樣技術(shù)來抽取樣本,從而實(shí)現(xiàn)對總體情況的一個估計(jì),是一種間接的樣本分析法。而隨著大數(shù)據(jù)時代的來臨,獲取和儲存數(shù)據(jù)已經(jīng)不是問題,人們有能力獲取幾乎涵蓋總體的海量數(shù)據(jù),其中包括原來樣本中被遺漏的細(xì)節(jié),信息量足夠,誤差也大大降低。另外移動互聯(lián)網(wǎng)以及云計(jì)算的飛速發(fā)展也為數(shù)據(jù)的大量獲取和快速處理提供了便利,大數(shù)據(jù)也正是在時代發(fā)展中應(yīng)運(yùn)而生的。
2.2.2 容錯思維
與抽樣時代對數(shù)據(jù)“精確性”的狂熱追求不同,大數(shù)據(jù)思維強(qiáng)調(diào)的是數(shù)據(jù)的復(fù)雜性。這也有其客觀合理性。其一,在資源有限的情況下,人們無暇既追求量又苛求質(zhì),以前采用抽樣的分析方法,追求的是“以少博多”,所以要盡可能地確保獲得的信息是精確的,如果不這樣,就不可能起到“四兩撥千斤”的估計(jì)效果,分析出來的結(jié)論也會毫無價(jià)值,甚至?xí)鸬较喾葱Ч?,把決策者引向一條不歸路;其二,雖然在微觀上可能存在這樣或者那樣的誤差甚至錯誤的信息,但把大數(shù)據(jù)作為一個宏觀的、有機(jī)的整體來審視,卻又能提供有價(jià)值的信息。我們要的是一個大的框架,一個既模糊而又精確的趨勢的判斷?;蛟S大數(shù)據(jù)就應(yīng)該是海納百川的,只有包容適當(dāng)?shù)腻e誤才能取得更大的回報(bào)。
2.2.3 相關(guān)思維
小數(shù)據(jù)時代,人們執(zhí)著于關(guān)注事物的因果關(guān)系,通過樣本分析揭示其內(nèi)在機(jī)制。由于小數(shù)據(jù)本身存在缺陷,無法反映事物之間相關(guān)性,大數(shù)據(jù)的出現(xiàn),才讓人們更關(guān)注相關(guān)關(guān)系而非因果關(guān)系。事物之間總是有內(nèi)在聯(lián)系的,比如,A 總是伴隨著B的發(fā)生而發(fā)生,至于為什么會這樣,我們不用去在意。即大數(shù)據(jù)的核心要義是:通過觀測線性的或者非線性的相關(guān)關(guān)系,揭示事物之間隱蔽的、復(fù)雜的關(guān)系,利用這些洞見去捕捉現(xiàn)在和預(yù)測未來。大數(shù)據(jù)篤信:研究相關(guān)性遠(yuǎn)比研究因果關(guān)系更具價(jià)值,它會為人類認(rèn)識世界開辟全新視角。
在技術(shù)尚不發(fā)達(dá)的特殊時期,需要通過對少量數(shù)據(jù)的觀測,去估測總體情況。而在大數(shù)據(jù)時代,獲取和儲存數(shù)據(jù)已經(jīng)不是問題,人們有能力獲取幾乎涵蓋總體的海量數(shù)據(jù),能夠直接觀測總體。那么,是否真的如大數(shù)據(jù)的推崇者所言:樣本已經(jīng)過時,大數(shù)據(jù)才更接近事實(shí)?基于樣本統(tǒng)計(jì)、預(yù)測分析的傳統(tǒng)統(tǒng)計(jì)學(xué)是否還將處于主導(dǎo)地位?大數(shù)據(jù)是有益的補(bǔ)充,還是更替?我們該如何看待這些問題呢?
我們可以從科學(xué)研究的兩種方法來討論這個問題。研究的方法一般分為兩類,一類是問題導(dǎo)向性,另一類是方法導(dǎo)向性。我們通常將以問題為切入點(diǎn)進(jìn)行研究,在實(shí)踐中思考,在思考中研究,并最終取得成果的方法稱為問題導(dǎo)向性研究。這跟大數(shù)據(jù)處理問題的做法不謀而合:發(fā)現(xiàn)問題,之后向數(shù)據(jù)要答案。反之,就是方法定了,我們以倒推方式,拿著方法去套問題,在成型方法論的基礎(chǔ)上,探尋其潛能的研究稱為方法導(dǎo)向性研究。這就好比傳統(tǒng)統(tǒng)計(jì)學(xué)中的抽樣,統(tǒng)計(jì)學(xué)理論篤信隨機(jī)抽樣能夠反映總體。因此,抽樣分析在方法導(dǎo)向性研究中仍有用武之地。
無論信息技術(shù)發(fā)展到什么地步,大數(shù)據(jù)都無法覆蓋社會的全部,受法律、倫理,尤其是技術(shù)等因素的諸多影響,無論大數(shù)據(jù)如何龐大,也只是總體中的一個樣本。傳統(tǒng)的統(tǒng)計(jì)抽樣方法能夠用盡量少的數(shù)據(jù)和相對復(fù)雜的模型獲取有價(jià)值的信息。即便在大數(shù)據(jù)時代,這種方法成熟且優(yōu)勢明顯的統(tǒng)計(jì)方法仍然有其用武之地。事實(shí)證明,大數(shù)據(jù)分析和抽樣并不矛盾,尤其是在數(shù)據(jù)探索階段,比如,在ETL(Extract-Transform-Load)過程中,信息是未知的,需要將數(shù)據(jù)抽取出來,并將不同數(shù)據(jù)源的數(shù)據(jù)進(jìn)行轉(zhuǎn)換和整合,得出一致性的數(shù)據(jù),然后加載到數(shù)據(jù)倉庫中,是數(shù)據(jù)從源系統(tǒng)流入數(shù)據(jù)倉庫的通道。研究表明,在這個過程中使用抽樣進(jìn)行數(shù)據(jù)分析是一個有效的途徑。另一方面,大數(shù)據(jù)往往需要過度抽樣,導(dǎo)致數(shù)據(jù)無法高效處理,因此,從成本與效率的角度去衡量,只要不是失真的抽樣,樣本質(zhì)量能得到保證,那么繼續(xù)采取合理或適當(dāng)?shù)某闃右彩潜匾摹?/p>
在大數(shù)據(jù)時代,傳統(tǒng)的思維模式受到挑戰(zhàn)。這并不意味著這些基于傳統(tǒng)思維的數(shù)據(jù)分析方法會被迅速淘汰。相反,在這個嘗試新事物需要付出巨大成本和面臨巨大風(fēng)險(xiǎn)的變革時代,在未來很長一段時間,傳統(tǒng)的方法都還將繼續(xù)發(fā)揮很重要的作用。比如,統(tǒng)計(jì)學(xué)中的抽樣技術(shù)。雖然大數(shù)據(jù)思維強(qiáng)調(diào)完整的數(shù)據(jù)下的樣本即是總體,但大數(shù)據(jù)的總體和真正意義的總體并不一定能夠完全重合,事實(shí)上,在大多數(shù)情況下還存在相當(dāng)大程度的偏差。并且,有能力和財(cái)力獲取如此大規(guī)模數(shù)據(jù)的公司或者機(jī)構(gòu)畢竟是少數(shù),抽樣依舊是一個更符合經(jīng)濟(jì)學(xué)原理且普遍適用于各行各業(yè)的方法。
在大數(shù)據(jù)發(fā)展風(fēng)起云涌的時代,推銷大數(shù)據(jù)思想,并且反復(fù)強(qiáng)調(diào)數(shù)據(jù)分析的重要性,絕對是社會發(fā)展的正能量。但與此同時,我們也必須冷靜地看待大數(shù)據(jù)的一些潛在的缺陷和問題。這并不是懷疑大數(shù)據(jù)對新時代的貢獻(xiàn),而是說任何新生事物的發(fā)展都需要有一個過程,我們需要用辯證的方法去看待。大數(shù)據(jù)帶來了思維變革、商業(yè)變革和管理變革,對于統(tǒng)計(jì)工作者而言,這種變革不僅意味著豐富了統(tǒng)計(jì)研究的內(nèi)容、拓寬了統(tǒng)計(jì)研究的范圍、增強(qiáng)了統(tǒng)計(jì)學(xué)的生命力,還意味著統(tǒng)計(jì)學(xué)在這個時代中更需要變革、進(jìn)步,因?yàn)殡x開統(tǒng)計(jì)學(xué)思維的支持,難免會出現(xiàn)“大數(shù)據(jù),大偏差”的窘境,使人們陷入無窮無盡的數(shù)據(jù)海洋而看不到彼岸。
大數(shù)據(jù)帶來了靈感,帶來了創(chuàng)新。大數(shù)據(jù)是一種洞察力和決策力,引領(lǐng)著人們從一個混沌的時代走向一個澄明的時代,引領(lǐng)人們更清楚地認(rèn)識世界與自己,以及二者之間千絲萬縷的聯(lián)系。在統(tǒng)計(jì)學(xué)中也有一系列方法可以對數(shù)據(jù)進(jìn)行形象的闡述。使人們在面對大量數(shù)據(jù)茫然的時候,能夠迅速提煉出有用信息,以一種直接、感性的方式勾勒出隱藏在冷冰冰數(shù)據(jù)背后的內(nèi)涵。從辯證的角度來講,大數(shù)據(jù)與抽樣是同一問題的不同說法,不僅是樣本,還是總體。抽樣注重的是過程,大數(shù)據(jù)體現(xiàn)的是結(jié)果,二者相輔相成,并不矛盾。大數(shù)據(jù)的出現(xiàn),彌補(bǔ)了部分樣本難以體現(xiàn)規(guī)律的不足,顯著提升人們對社會及事物的認(rèn)知。