摘要:海量的數據已經滲透了每個人的生活,以數據為研究對象的統計學應該以科學的態(tài)度迎接大數據浪潮,并積極思考如何把握這重要的發(fā)展機會。本文首先闡明大數據與統計學的密切關系,再從大數據時代下的非結構化數據與結構化數據、相關關系與因果關系,這兩個方面思考大數據與統計學的協同發(fā)展。
關鍵詞:大數據時代;大數據;統計學;
隨著互聯網和信息相關行業(yè)的蓬勃發(fā)展,“大數據”已經被越來越多地被提及,大數據也已被資本瞄準,成為商業(yè)領域中的寵兒。數據在迅速膨脹,大數據的覆蓋面越來越廣,不論你是否愿意接受,這種趨勢將會持續(xù)下去。以數據為研究對象的統計學在大數據時代進入了新的發(fā)展階段,我們應思考如何將大數據與統計學相結合,努力創(chuàng)新、協同發(fā)展。
一、大數據與統計學
(一)大數據與統計學關系密切
簡單來說,我們可以分為兩個方面來理解大數據:若“大數據”作為形容詞,則描述的是大數據時代數據的特點;若“大數據”作為名詞,則體現的是數據科學研究的對象。對大數據的定義有非常多,不同領域不同專業(yè)對大數據的界定都會有些許不同。通俗地說:大數據是目前人類所有可抓取、可記錄、可存儲的信號集合。這個包含了一切信號的集合將非常非常之龐大、多樣、繁雜,并且還在不停地、迅速地增加?,F代互聯網和信息技術的飛速發(fā)展,使得人類開始有能力收集、儲存、分析、處理這些從前無能為力的數據,從中挖掘出有用的信息促進社會的發(fā)展。邁爾·舍恩伯格說:大數據發(fā)展的核心動力就是人類測量、記錄和分析世界的渴望。而統計學正好是收集、整理、分析、解釋數據并從數據中得出結論的科學。由此可見大數據與統計學關系密切,將大數據與統計學結合發(fā)展?jié)摿o窮。
(二)大數據時代下的非結構化數據與結構化數據需整合對接
統計研究可根據自身的目的收集總體數據或樣本數據,但如果總體太過龐大,以過去的技術方法來收集總體數據成本會很高,受于限制統計研究更多收集得是樣本數據。如今,人類已經開始能夠在合適的成本下獲得大數據,大數據的廣博給統計研究帶來了新的發(fā)展方向。我們需要著重研究的一個方向就是如何將結構化數據和非結構化數據對接。
大數據的核心是數據,統計學的研究對象也是數據,但是它們獲得的數據性質有所不同:大數據收集的多是半結構化和非結構化的數據,通俗地理解,先獲得數據,再整理結構(如聲音、圖片、視頻等信息);傳統統計學收集則主要是結構化數據,先定好結構,再根據目標結構收集數據(如數字、符號等信息)。拿非結構化數據和結構化數據來說:大數據時代使得我們有更多可以分析利用的數據,使得統計研究不僅可以在有更多的結構化數據的情形下進行;對于一些領域的研究工作還可以設法將非結構化數據和結構化的數據結合起來分析。如何實現非結構化數據與結構化數據的結合?首先,完善非結構化數據的整合,然后我們可以用結構化數據做數量說明,非結構化數據加強描述;或是提高數據處理技術,實現結構化數據與非結構化數據的互相轉化,選擇能更好說明問題的數據形式作為后續(xù)分析基礎。這都是值得再深入思考研究的新問題,而且這不僅僅是大數據和統計研究的事,同時需要計算機技術的一同創(chuàng)新發(fā)展。統計研究的范圍在大數據時代越來越大,能用數據說明的問題越來越多。
(三)大數據時代下的相關分析與因果分析發(fā)展并重
《大數據時代》一書中表示:大數據時代的一個顯著變化是:相關分析比因果分析更重要。我的看法是:大數據時代下,市場確實會對相關分析有著更強的關注度,但這并不意味著因果分析的重要性會有褪色。
統計學中既有相關分析,也有因果分析,要對它們有合理的了解,首先需要明確的是相關關系和因果關系之間的聯系,簡單說:有相關關系不一定有因果關系,有因果關系則一定有相關關系。大數據時代,相關關系變得比以前更加為人所關注的原因:一方面,在很多領域的應用里,相關分析比因果分析更簡單可行;另一方面,因為相關關系足以體現事物之間的一定聯系,在商業(yè)效益上更為經濟有效。因此在商業(yè)利潤的推動下,相關關系也會更加受到青睞。但是我們不能就此否定因果關系的重要性,因果關系是對數據更加深度地分析:相關關系讓我們知道了“是什么”,因果關系是讓我們知道了“為什么”。倘若只是在商業(yè)經濟上的利用和成本考慮,“是什么”在很多時候就以足夠;但如果是在科學研究領域,“知其然而不知其所以然”就遠遠不夠了。結合現實發(fā)展需要,可在分析確定相關關系后,根據情況研究因果關系,若能夠得出因果關系,那肯定是更具價值和意義的。探求“為什么”始終是人類探索世界的動力 ,因果分析是人類永恒的使命。
二、結語
大數據時代的到來幾乎對每個領域都有著不可忽視的影響。大數據與統計學關系密切,大數據的出現對統計學的意義是非凡的,我們應把握住大數據時代和統計學的可結合點。其一,完善非結構化數據的整合,深入研究如何實現非現結構化與結構化數據的對接,都需要我們思維上的創(chuàng)新、數據處理技術上的提高。其二,在注重相關分析的同時,不能丟掉對因果分析的研究,應合理并重,實現大數據的進一步利用,真正挖掘出數據的價值。對于以數據為研究對象的統計學科,大數據時代就是統計學變革創(chuàng)新的時代,統計研究工作人員也應把握機會思考創(chuàng)新,為統計學增添新的生命力。
參考文獻:
[1]朱建平,張悅涵.大數據時代對傳統統計學變革的思考[J].統計研究,2016(02):3-9.
[2]朱建平,章貴軍,劉曉葳.大數據時代下數據分析理念的辨析[J].統計研究,2014(02):10-19.
[3]Viktor Mayer-Sch-nberger,KennethCukier.盛楊燕等譯.大數據時代[M].杭州:浙江人民出版社,2013.
作者簡介:
張?zhí)焓妫?992- ),女,漢族,江西信豐人,碩士研究生,研究方向:統計理論與方法、數據分析方法與應用。