• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      大數(shù)據(jù)背景下統(tǒng)計學(xué)相關(guān)概念解讀

      2018-01-27 20:15:46楊秀艷
      統(tǒng)計科學(xué)與實踐 2018年3期
      關(guān)鍵詞:因果關(guān)系誤差樣本

      □楊秀艷

      近年來,“大數(shù)據(jù)”已成為被廣泛熱議的詞匯,有關(guān)文獻層出不窮。就統(tǒng)計學(xué)而言,關(guān)注重點無疑是大數(shù)據(jù)分析方法的創(chuàng)新與發(fā)展。與此同時,人們也慢慢意識到“小數(shù)據(jù)”的重要性。然而什么是小數(shù)據(jù)?如何理解大數(shù)據(jù)背景下統(tǒng)計學(xué)的相關(guān)概念?本文就此談點粗淺的看法。

      大數(shù)據(jù)與小數(shù)據(jù)

      在大數(shù)據(jù)興起之前,數(shù)據(jù)幾乎沒有“大數(shù)據(jù)”和“小數(shù)據(jù)”之分。在大數(shù)據(jù)炒得如火如荼的時候,人們也開始關(guān)注“小數(shù)據(jù)”。例如,德波哈爾艾斯汀教授,記錄了其父親去世之前幾個月的行為數(shù)據(jù)——發(fā)郵件、去超市菜市場買菜等數(shù)據(jù),發(fā)現(xiàn)其頻率逐步下降。這些個人社會行為數(shù)據(jù)都暗示著德伯哈爾艾斯汀的父親生命特征正在逐漸衰落。然而醫(yī)院的體檢報告并未顯示出這一訊息。正因此,德伯哈爾艾斯汀意識到“小數(shù)據(jù)”的重要性,也是世界上第一個認識到“小數(shù)據(jù)”價值的人。

      關(guān)于什么是大數(shù)據(jù),討論的文章已經(jīng)很多,本文不再贅述。那什么是小數(shù)據(jù)呢?目前主要有以下兩種觀點:一種觀點認為小數(shù)據(jù)就是樣本數(shù)據(jù)。例如,王成文認為小數(shù)據(jù)是為回答特定問題、通過傳統(tǒng)抽樣調(diào)查方式獲得的數(shù)據(jù),即小數(shù)據(jù)是基于抽樣調(diào)查技術(shù)而建立的數(shù)據(jù)收集、存儲、傳輸、處理的安全系統(tǒng),認為抽樣調(diào)查是“小數(shù)據(jù)”的本質(zhì)特征。鄭宇認為小數(shù)據(jù)來源于實驗室,來自于被測試者(樣本)的調(diào)查。徐立軍認為數(shù)據(jù)體量窄小且通過傳統(tǒng)抽樣方式采集的數(shù)據(jù)就是小數(shù)據(jù)。按照這種理解,小數(shù)據(jù)就是體量小的數(shù)據(jù),或者說傳統(tǒng)數(shù)據(jù)即為小數(shù)據(jù)。另一種觀點則認為以人為本是小數(shù)據(jù)的核心,個體信息才是小數(shù)據(jù),例如德波哈爾艾斯汀教授所記錄的其父親的行為數(shù)據(jù)。于久賀認為“小數(shù)據(jù)”是指圍繞個人中心全方位的數(shù)據(jù),以及其配套的收集、分析、處理和對外交互的綜合系統(tǒng)。呂曉莉也相信“小數(shù)據(jù)”是圍繞不同個體的人而采集的相關(guān)興趣愛好、思想行為等數(shù)字特征化的數(shù)據(jù)。

      對于“小數(shù)據(jù)”的這兩種觀點,我們贊同后者。作為延伸,我們認為小數(shù)據(jù)不僅僅指來自于單個人的數(shù)據(jù),也可以是來自于單個物體的數(shù)據(jù)。只要能從微觀層面挖掘信息,一切事物都可以成為小數(shù)據(jù)研究的對象。大數(shù)據(jù)重相關(guān)關(guān)系的發(fā)現(xiàn),小數(shù)據(jù)則有利于發(fā)現(xiàn)因果關(guān)系,因為小數(shù)據(jù)是在海量數(shù)據(jù)下根據(jù)特定需要有針對地提供個性化服務(wù)或?qū)ふ乙蚬P(guān)系的依據(jù)。

      顯然,大數(shù)據(jù)與小數(shù)據(jù)之間存在著包含與被包含的關(guān)系。開展大數(shù)據(jù)分析必須從小數(shù)據(jù)著手,因為小數(shù)據(jù)是構(gòu)成大數(shù)據(jù)的基礎(chǔ),通過小數(shù)據(jù)研究可以更好地為大數(shù)據(jù)分析提供依據(jù)。完善的大數(shù)據(jù)是以真實完善的小數(shù)據(jù)為前提的,數(shù)據(jù)庫的建設(shè)必須在小數(shù)據(jù)上下工夫。

      樣本與總體

      舍恩伯格和庫克耶提出在大數(shù)據(jù)時代有三個重要的思維轉(zhuǎn)變:其一,不是隨機樣本,而是全體數(shù)據(jù);其二,不是精確性,而是混雜性;其三,不是因果關(guān)系,而是相關(guān)關(guān)系。第一個思維傳達的是“要全體不要抽樣”。大數(shù)據(jù)的“大”不僅僅是指量多,更是指量全。大數(shù)據(jù)的“大”應(yīng)含有三層含義:“全體”、“可擴充”“有待挖掘”。其中全體是指在一定條件下的全體數(shù)據(jù),且數(shù)據(jù)量必須達到一定規(guī)模。大數(shù)據(jù)區(qū)別于小數(shù)據(jù)的重要特征之一就是,快速動態(tài)變化性促使“大數(shù)據(jù)=全體數(shù)據(jù)”時,離不開一個前提,即“一定條件”。這個前提條件要視具體問題而定,正所謂具體問題具體分析。快速動態(tài)變化引起的可擴充性意味著研究者獲得的數(shù)據(jù)皆為“過時數(shù)據(jù)”,對動態(tài)總體而言,大數(shù)據(jù)仍屬于樣本,無非是大樣本與小樣本以及樣本數(shù)據(jù)類型有所差異。不少學(xué)者認為大數(shù)據(jù)的代表性強于樣本數(shù)據(jù),于是認為大數(shù)據(jù)優(yōu)于樣本數(shù)據(jù)。殊不知,大數(shù)據(jù)是計算機與互聯(lián)網(wǎng)相結(jié)合的產(chǎn)物,獲取渠道多為數(shù)字電視、網(wǎng)絡(luò)、社交論壇等數(shù)據(jù)平臺。活躍在眾多數(shù)據(jù)平臺的并不是所有的人而只是一部分人,若拋開數(shù)據(jù)背后的信息,研究結(jié)果往往有失偏頗??梢姡绻撾x一定的條件,大數(shù)據(jù)并不一定優(yōu)于小數(shù)據(jù)。

      很多人知道,2009年Nature雜志上刊登一種谷歌搜索日志進行流感監(jiān)測的方法。用美國居民在網(wǎng)絡(luò)平臺上搜索相關(guān)特殊疾病和相關(guān)藥物的信息記錄來即時預(yù)測美國疾控中心延遲發(fā)布的疑似流感比率占比。使用2003-2007年的數(shù)據(jù)作為訓(xùn)練集構(gòu)造模型來預(yù)測2008年的流感比例占比,其預(yù)測結(jié)果與之后美國疾控中心發(fā)布的數(shù)據(jù)高度吻合。然而在2009年,使用該模型時其預(yù)測結(jié)果顯示低估,在2009年的低估的基礎(chǔ)上繼續(xù)修改算法模型,修改后的模型在2013年則呈現(xiàn)高估。就研究對象而言,其選取的大數(shù)據(jù)也是樣本,且在之后的預(yù)測中,因樣本代表性不高,才導(dǎo)致預(yù)測結(jié)果低估或高估。當(dāng)然也并不是指該研究中若采用樣本數(shù)據(jù),其模型預(yù)測結(jié)果會優(yōu)于大數(shù)據(jù),用該案例只是說明大數(shù)據(jù)并不一定等同于總體數(shù)據(jù),大數(shù)據(jù)的代表性也不一定強于樣本數(shù)據(jù)。

      抽樣誤差與非抽樣誤差

      統(tǒng)計學(xué)作為一門學(xué)科存在的意義在于幫助人類去量度數(shù)據(jù)的不確定性,駕馭不確定性,從而確保人們在損失最小或風(fēng)險最小情況下做出最經(jīng)濟的決策。大數(shù)據(jù)與樣本數(shù)據(jù),對研究結(jié)果都會產(chǎn)生一定誤差,其中包括抽樣誤差和非抽樣誤差。從數(shù)據(jù)量來看,大數(shù)據(jù)量遠大于樣本數(shù)據(jù),這是不是意味著大數(shù)據(jù)的誤差就會遠小于小數(shù)據(jù)?答案自然是否定的。我們需要明確一點,誤差的來源與構(gòu)成十分復(fù)雜,絕非以數(shù)據(jù)量多少來衡量。就大數(shù)據(jù)而言,我們要考慮它有沒有抽樣誤差、如果有如何測度等問題。有人認為大數(shù)據(jù)沒有抽樣誤差,因為它是全體數(shù)據(jù);而我們則認為大數(shù)據(jù)只是動態(tài)數(shù)據(jù)總體中的一個樣本數(shù)據(jù),一定有誤差,但卻不一定是抽樣誤差,因為它不一定是隨機的。大數(shù)據(jù)是樣本數(shù)據(jù)但不一定是隨機樣本數(shù)據(jù)的理由有兩個:一是大數(shù)據(jù)的積累是有時間性的,伴隨時間性就具有一定的系統(tǒng)性;二是大數(shù)據(jù)本身不一定覆蓋了所有的研究對象,而這種不覆蓋往往也具有系統(tǒng)性。所以大數(shù)據(jù)的誤差測度之困難遠遠大于隨機樣本,因為隨機樣本的代表性是可以控制的。

      就非抽樣誤差而言,樣本數(shù)據(jù)比大數(shù)據(jù)更具有優(yōu)越性。非抽樣誤差主要是指人為在處理數(shù)據(jù)過程(收集、記錄、計算等)中帶來的誤差。樣本數(shù)據(jù)是有針對性獲得的數(shù)據(jù),在收集過程中已經(jīng)利用了人們的先驗信息過濾了絕大部分錯誤數(shù)據(jù),留下具有“發(fā)言權(quán)”的數(shù)據(jù),因此對非抽樣誤差具有比較好的控制。但大數(shù)據(jù)由于事先沒有設(shè)計、沒有標(biāo)準(zhǔn),來源復(fù)雜、結(jié)構(gòu)復(fù)雜,往往對小數(shù)據(jù)的真實性難以掌控,再加上對非結(jié)構(gòu)化數(shù)據(jù)解讀可能產(chǎn)生的歧義,使得非抽樣誤差、特別是登記性誤差產(chǎn)生的可能性更大,而且更加難以測度。

      所以在大數(shù)據(jù)分析中,如何控制并有效測度誤差是一個大問題。我們必須把大數(shù)據(jù)與小數(shù)據(jù)結(jié)合起來,在各個環(huán)節(jié)都要注意防控各種誤差,以便保證分析結(jié)果的可靠性和有效性。

      相關(guān)關(guān)系與因果關(guān)系

      大數(shù)據(jù)重相關(guān),小數(shù)據(jù)重因果,相關(guān)關(guān)系回答是什么,因果關(guān)系回答為什么。為此很多人提出在大數(shù)據(jù)時代用相關(guān)關(guān)系替代因果關(guān)系,不需打破砂鍋問到底,了解“是什么”即可。任何問題或現(xiàn)象都不是注定的內(nèi)在必然抑或偶然的巧合,而是許多具體機制的組合或聯(lián)系作用的結(jié)果。根本性地解決問題和全面闡釋現(xiàn)象不僅僅限于了解各現(xiàn)象要素之間的關(guān)系,還要了解導(dǎo)致問題和現(xiàn)象發(fā)生的深層結(jié)構(gòu)。換言之,解決問題或分析現(xiàn)象不應(yīng)該只停留在外在的關(guān)聯(lián)層面上,應(yīng)進一步挖掘其內(nèi)涵。知道“是什么”,不一定知道“為什么”,知道“為什么”,卻能知道“是什么”,即用因果關(guān)系解釋相關(guān)關(guān)系,而非相關(guān)關(guān)系解釋因果關(guān)系。當(dāng)然這并不是否認大數(shù)據(jù)提供的相關(guān)關(guān)系價值,在大數(shù)據(jù)時代,數(shù)據(jù)維度可以多到令我們咋舌。統(tǒng)計分析方法是建立在獨立同分布、變量個數(shù)小于樣本數(shù)(k<<n)等前提條件的基礎(chǔ)上,這就需要我們利用相關(guān)關(guān)系對解釋變量進行降維,由“大維度”變成“小維度”,由“大數(shù)據(jù)”變成“小數(shù)據(jù)”。實現(xiàn)大數(shù)據(jù)分析的第一個物理過程,數(shù)據(jù)由大變小,由厚變薄。此外需要注意的是偽相關(guān)問題,例如,如果某研究者參考啤酒與尿不濕的例子,去研究火鍋底料的銷售量和社會失蹤兒童數(shù)之間關(guān)系,并發(fā)現(xiàn)兩者之間有很強的相關(guān)系數(shù),于是得出結(jié)論說火鍋底料的銷售量會導(dǎo)致兒童失蹤案例發(fā)生,顯然這是一謬論。大數(shù)據(jù)下,數(shù)據(jù)量大(n增加)、變量維度廣(k增加),容易造成統(tǒng)計結(jié)果顯著,得出統(tǒng)計意義上的回歸系數(shù),但不代表兩者之間有因果關(guān)系,沒有因果關(guān)系的相關(guān)關(guān)系只是大數(shù)據(jù)對小數(shù)據(jù)的過度擬合。啤酒和尿不濕的銷售量有一定的相關(guān)性,是因為每次買尿不濕的老爸會順帶買瓶啤酒犒勞自己,其相關(guān)性有因可循,但我們不能說買火鍋底料的人會順帶拐賣兒童。是否是偽相關(guān),關(guān)鍵是看兩者之間是否有因果關(guān)系,相關(guān)關(guān)系和因果關(guān)系是相互依賴、相互促進,綜合利用兩者關(guān)系才能有效地進行統(tǒng)計分析,才能進行大數(shù)據(jù)分析的第二個過程,即化學(xué)過程——-價值提取。

      定性分析與定量分析

      定性分析和定量分析是統(tǒng)計學(xué)兩大核心分析法,相對小數(shù)據(jù),大數(shù)據(jù)更加側(cè)重于定量分析,筆者認為主要原因是數(shù)據(jù)背后看不見行為人,無法事先進行深層次的定性分析。就統(tǒng)計學(xué)而言,分析現(xiàn)實問題最終都將回歸到定性分析,定量分析只是更好地呈現(xiàn)數(shù)據(jù),以一種簡單明了的方式呈現(xiàn)數(shù)據(jù),抑或說定量分析的結(jié)果是數(shù)據(jù)的另一種表達形式,仍屬于數(shù)據(jù),屬于數(shù)據(jù)加工處理中最后一步加工后的產(chǎn)物,是數(shù)據(jù)的范疇。只有經(jīng)過進一步的定性分析才能稱之為信息。目前有一種現(xiàn)象值得關(guān)注:那就是追捧大數(shù)據(jù),讓更多的人熱衷于定量分析而忽視定性分析。朋友圈的點贊數(shù)就能代表人們對帖子的喜愛程度嗎?網(wǎng)絡(luò)上搜索感冒藥就能代表搜索人有感冒癥狀?網(wǎng)絡(luò)評論就能代表網(wǎng)民對事件的真實看法?點贊有可能是行為人的言行不一,搜感冒藥有可能是親戚朋友生病,同樣的言語評論各人理解不同,同一個“呵呵”,有人認為是真誠傻傻地笑,有人認為是不屑一顧地冷笑。數(shù)據(jù)分析脫離行為人就毫無意義。著名經(jīng)濟學(xué)家路德維?!ゑT·米塞斯曾提醒過:“就今日言,有很多人忙碌于資料之無益累積,以致對問題之說明與解決,喪失了其對特殊的經(jīng)濟意義的了解?!毙?shù)據(jù)提倡“以人為本”,強調(diào)人是一切數(shù)據(jù)存在的根本。將人納入分析中,能得到更加準(zhǔn)確的結(jié)論、深刻的見解。大數(shù)據(jù)側(cè)重的定量分析適合解決宏觀層面的問題,難以注重每個數(shù)據(jù)背后行為人的個體信息,小數(shù)據(jù)所含有的個體信息能更好地定性解讀微觀問題。宏觀與微觀結(jié)合,才能全方位無死角剖析問題。

      [1]Ginsberg J,Mohebbi M H,Patel R S,et al. Detecting influenza epidemics using search engine query data[J]. Nature,2009,457(7232):1012- 1014.

      [2]Marcus,Gary and Davis,Ernest. 2014. Eight(No,Nine!)Problems With Big Data. New York Time s.April 6.

      [3]胡雄偉,張寶林,李抵飛 .大數(shù)據(jù)研究與應(yīng)用綜述(下)[J].標(biāo)準(zhǔn)科學(xué),2013(第 11 期).

      [4]呂曉莉.大數(shù)據(jù)時代高校圖書館小數(shù)據(jù)的應(yīng)用價值與路徑[J].四川圖書館學(xué)報,2016,(第4期).

      [5]劉軍.大數(shù)據(jù)是原油不是汽油[J].決策與信息,2015(第 12 期).

      猜你喜歡
      因果關(guān)系誤差樣本
      玩忽職守型瀆職罪中嚴(yán)重不負責(zé)任與重大損害后果的因果關(guān)系
      用樣本估計總體復(fù)習(xí)點撥
      角接觸球軸承接觸角誤差控制
      哈爾濱軸承(2020年2期)2020-11-06 09:22:26
      Beidou, le système de navigation par satellite compatible et interopérable
      壓力容器制造誤差探究
      推動醫(yī)改的“直銷樣本”
      做完形填空題,需考慮的邏輯關(guān)系
      隨機微分方程的樣本Lyapunov二次型估計
      幫助犯因果關(guān)系芻議
      九十億分之一的“生死”誤差
      山東青年(2016年2期)2016-02-28 14:25:41
      五台县| 红安县| 定陶县| 绥滨县| 崇左市| 疏勒县| 定边县| 静乐县| 横山县| 东城区| 镇赉县| 连城县| 永定县| 铜鼓县| 汝阳县| 竹北市| 若羌县| 聂荣县| 黔西县| 衡东县| 绥滨县| 望谟县| 泽州县| 华阴市| 雅江县| 磐石市| 二手房| 马关县| 乌兰县| 东宁县| 黄陵县| 镇巴县| 鸡泽县| 长宁县| 柏乡县| 双柏县| 龙川县| 平谷区| 芜湖市| 龙陵县| 长治县|