賈堯
摘要:大數(shù)據(jù)時代給很多行業(yè)帶來新的可能性,傳統(tǒng)的小數(shù)據(jù)研究慢慢不受重視。雖然大數(shù)據(jù)有諸多優(yōu)勢,但也無法取代抽樣調(diào)查和實驗研究等小數(shù)據(jù)研究在行業(yè)里所占據(jù)的地位。因此,本文通過對大數(shù)據(jù)、小數(shù)據(jù)概念和特點的分析,而后分析大數(shù)據(jù)與傳統(tǒng)意義上的小數(shù)據(jù)的異同。
關(guān)鍵詞:大數(shù)據(jù);小數(shù)據(jù);基本概念;異同比較;特點
1. 引言
大數(shù)據(jù)是用來指數(shù)據(jù)集太大或太復雜,而不是傳統(tǒng)的數(shù)據(jù)處理應用軟件充分處理有許多情況(行)的數(shù)據(jù)提供了更多的統(tǒng)計功率,而具有較高復雜性(更多屬性或列)的數(shù)據(jù)可能會導致更高的錯誤發(fā)現(xiàn)率.大數(shù)據(jù)挑戰(zhàn)包括捕獲數(shù)據(jù),數(shù)據(jù)存儲,數(shù)據(jù)分析搜索,共享,轉(zhuǎn)移,可視化,查詢,更新,信息隱私和數(shù)據(jù)源。小數(shù)據(jù)是“小”到足以讓人理解的數(shù)據(jù)。這是一個卷和格式的數(shù)據(jù),使它可以訪問,信息和行動。
2. 特點分析
(1)同質(zhì)性與異質(zhì)性
“小數(shù)據(jù)”的哲學基礎(chǔ)是同質(zhì)性,實踐方法是“還原論”,試圖通過發(fā)掘事物內(nèi)在統(tǒng)一性而達成共識。在事物同質(zhì)性假設的基礎(chǔ)上,“小數(shù)據(jù)”對事物進行抽象化提取,通過層層假設剝離事物的個性,并最終通過數(shù)學建模完成對事物的科學化認知。同質(zhì)性是我們認知世界的一個重要方式,“小數(shù)據(jù)”只是為人類提供了認識同質(zhì)性的工具,卻沒有提供洞察異質(zhì)性的工具;“大數(shù)據(jù)”既能洞察事物的同質(zhì)性,又能洞察事物的異質(zhì)性。
(2)結(jié)構(gòu)化與非結(jié)構(gòu)化
“小數(shù)據(jù)”是以“人力為主,機器為輔”的運行模式,在數(shù)據(jù)的采集、存儲、傳輸和處理中大量地依賴人力資源;“大數(shù)據(jù)”恰好相反,計算機等各類數(shù)據(jù)設備成為數(shù)據(jù)采集、存儲、傳輸和處理的主體,人力只在模型設計、參數(shù)設置、編輯矯正等環(huán)節(jié)發(fā)揮作用?!按髷?shù)據(jù)”能夠處理的數(shù)據(jù)來源更加廣泛,不僅包括結(jié)構(gòu)化數(shù)據(jù),而且包括只有機器方能處理的非結(jié)構(gòu)化數(shù)據(jù)。
(3)局部與整體
“小數(shù)據(jù)”建立的基礎(chǔ)是抽樣調(diào)查技術(shù),通過選擇具有“代表性”的局部樣本來洞察整體樣本。抽樣樣本的“代表性”的科學化問題是“小數(shù)據(jù)”的關(guān)鍵所在。圍繞著“代表性”的科學化問題,統(tǒng)計學不斷完善其抽樣技術(shù),推出了一系列數(shù)據(jù)抽樣和處理技術(shù)。“大數(shù)據(jù)”建立的基礎(chǔ)是全樣本調(diào)查技術(shù),不再用局部去“代表”整體,讓整體中的每個成員“代表”自己?!按髷?shù)據(jù)”克服了統(tǒng)計學的拘囿,不再糾結(jié)于局部樣本的“代表性”。在小數(shù)據(jù)時代,需要對參與人員進行嚴格的標準化處理,避免參與人員的主觀性影響調(diào)查結(jié)果,但是大數(shù)據(jù)的全樣本調(diào)查技術(shù),擺脫了參與人員的主觀性對抽樣所帶來的負面影響。
(4)靜態(tài)與動態(tài)
“小數(shù)據(jù)”是靜態(tài)性數(shù)據(jù),只是抽取了“時間軸”上的某個片段,再加上從數(shù)據(jù)采集、存儲、傳輸?shù)教幚砩系闹芷谛?,這使得“小數(shù)據(jù)”具有典型的延時性特征,不能實時反映事物發(fā)展的動態(tài)性?!靶?shù)據(jù)”為了克服靜態(tài)性的不足,采取了跟蹤調(diào)查、事前調(diào)查、事中調(diào)查、事后調(diào)查等補償性手段,但這些手段的周期性,使其依然難以反映實時性動態(tài)?!按髷?shù)據(jù)”是動態(tài)性數(shù)據(jù),通過移動互聯(lián)網(wǎng)技術(shù)、物聯(lián)網(wǎng)技術(shù)及人性交互技術(shù)等數(shù)據(jù)技術(shù)可以對調(diào)查對象全程追蹤,主動抓取實時數(shù)據(jù)。“大數(shù)據(jù)”能夠即時洞察事物發(fā)展的延續(xù)性和斷裂性,這克服了小數(shù)據(jù)“事后諸葛亮”的尷尬。
(5)描述性與預測性
“小數(shù)據(jù)”具有局部性、靜態(tài)性、單維性、非場景化和規(guī)模性等特征,在數(shù)據(jù)采集、存儲、傳輸和處理過程中,損耗了大量的細節(jié)數(shù)據(jù),只是對各類事物的高度抽象性概括,因此,“小數(shù)據(jù)”難以從全局把握事物的變動性,在使用方式上多被用來進行描述性研究,而解釋性和預測性卻相對不足?!按髷?shù)據(jù)”具有整體性、動態(tài)性、多維性、場景化和長尾性等特征,能夠?qū)κ挛锛捌渲苓叚h(huán)境進行空間性和歷時性洞察,“見微知著”,因此,“大數(shù)據(jù)”不僅在描述性上更優(yōu)于“小數(shù)據(jù)”,而且能夠在解釋性和預測性方面更準確。
3. 對比分析
首先,從數(shù)據(jù)的規(guī)?;蛄縼砜矗髷?shù)據(jù)體量巨大,規(guī)模已經(jīng)超出了在常規(guī)方法和時間內(nèi)搜集、利用、管理和處理數(shù)據(jù)的能力,體量是PB量級的。小數(shù)據(jù)相對來說小得多,傳統(tǒng)社會下生產(chǎn)的統(tǒng)計數(shù)據(jù)可以看作是小數(shù)據(jù)。
其次,從數(shù)據(jù)形態(tài)來看,傳統(tǒng)的數(shù)據(jù)通常是結(jié)構(gòu)化數(shù)據(jù),結(jié)構(gòu)化數(shù)據(jù)(行數(shù)據(jù))是指存儲在數(shù)據(jù)庫里的,大數(shù)據(jù)則是混合形態(tài)的數(shù)據(jù)。在大數(shù)據(jù)中,多數(shù)是非結(jié)構(gòu)化的數(shù)據(jù)。
第三,小數(shù)據(jù)是目標導向數(shù)據(jù),價值密度較高。小數(shù)據(jù)有非常明確的目的,有非常明確的價值。大數(shù)據(jù)則是記錄導向的,價值密度低,僅僅是為記錄數(shù)據(jù),并不是首先就有為了得到或解釋某個特定事件的具體目的。
第四,大數(shù)據(jù)即時產(chǎn)生,隨時可用。小數(shù)據(jù)生產(chǎn)的時間長,從測量到可用,需要相當長的時間;而大數(shù)據(jù)是即時產(chǎn)生的,大數(shù)據(jù)的獲取省略了抽樣設計環(huán)節(jié),基本不介入調(diào)查對象的行為,始終以觀察者的角色出現(xiàn),直接對整體進行分析。
第五,從數(shù)據(jù)占有情況來看,在傳統(tǒng)社會里的小數(shù)據(jù)擁有的主體是政府(包括政府統(tǒng)計部門和各專業(yè)部門)、企業(yè)、民間調(diào)查機構(gòu)、科研機構(gòu)等。而大數(shù)據(jù)則主要掌握在互聯(lián)網(wǎng)公司手中,目前我國國內(nèi)互聯(lián)網(wǎng)三巨頭BAT(百度、阿里、騰訊),數(shù)據(jù)私有化將成為一種趨勢。而對大數(shù)據(jù)的開發(fā)利用,也只有具有技術(shù)能力的網(wǎng)絡公司才能做到,通過網(wǎng)絡爬蟲在網(wǎng)絡上抓取數(shù)據(jù),然后經(jīng)過數(shù)據(jù)清洗,進行數(shù)據(jù)挖掘分析。不具備大數(shù)據(jù)挖掘利用能力的一般個人或者企業(yè)、機構(gòu),通過向這些公司付費后購買數(shù)據(jù)和服務,這就是我們?nèi)找媸煜さ脑朴嬎恪⒃破脚_、云服務;未來的地方政府或許將不得不向私營部門購買數(shù)據(jù)。
4. 結(jié)語
本文通過對大數(shù)據(jù)和小數(shù)據(jù)的概念分析和特點分析,發(fā)現(xiàn)大數(shù)據(jù)和小數(shù)據(jù)在不同的領(lǐng)域發(fā)揮著各自的優(yōu)勢,而后對兩者進行對比分析,發(fā)現(xiàn)大數(shù)據(jù)和小數(shù)據(jù)在數(shù)據(jù)規(guī)模、數(shù)據(jù)形態(tài)、目標導向、產(chǎn)生時間和占有數(shù)據(jù)情況上都有各自的特別。
參考文獻
[1]秦蕭,甄峰.大數(shù)據(jù)與小數(shù)據(jù)結(jié)合:信息時代城市研究方法探討[J].地理科學,2017, 37(03):321-330.
[2]唐文方.大數(shù)據(jù)與小數(shù)據(jù):社會科學研究方法的探討[J].中山大學學報(社會科學版),2015, 55(06):141-146.
[3]徐立軍.數(shù)據(jù)時代的未來? 大數(shù)據(jù)與小數(shù)據(jù)融合的價值與路徑[J].新聞與寫作,2015 (11):11-15.
[4]王浩. 大數(shù)據(jù)時代下的思維方式變革[D].東華大學,2015.
[5]郭新平,黃貽俊.淺析大數(shù)據(jù)時代的小數(shù)據(jù)[J].現(xiàn)代經(jīng)濟信息,2014(20):149.
[6]黃欣榮.大數(shù)據(jù)技術(shù)對科學方法論的革命[J].江南大學學報(人文社會科學版),2014,13 (02):28-33.
[7]王成文.數(shù)據(jù)力:“大數(shù)據(jù)”PK“小數(shù)據(jù)”[J].中國傳媒科技,2013(19):68-70.