• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      大數(shù)據(jù)時代的統(tǒng)計分析

      2018-05-07 06:52:04褚慧敏
      科技創(chuàng)新導(dǎo)報 2018年1期
      關(guān)鍵詞:相關(guān)統(tǒng)計分析總體

      褚慧敏

      摘 要:大數(shù)據(jù)對社會經(jīng)濟的各個方面產(chǎn)生的巨大影響,本文討論了大數(shù)據(jù)下的統(tǒng)計思維原理:總體代替抽樣可以改善取樣分析的準確性;用相關(guān)代替因果,在一定程度上對研究有量變引起質(zhì)變的作用;接受數(shù)據(jù)不準確和不完美,可以更好地模擬和了解世界?;谶@一原理,討論統(tǒng)計業(yè)務(wù),如數(shù)據(jù)搜集、數(shù)據(jù)處理和數(shù)據(jù)應(yīng)用所面臨的挑戰(zhàn)。

      關(guān)鍵詞:大數(shù)據(jù) 統(tǒng)計分析 總體 相關(guān) 近似

      中圖分類號:G64 文獻標識碼:A 文章編號:1674-098X(2018)01(a)-0166-03

      隨著物聯(lián)網(wǎng)、云計算、傳感器的快速發(fā)展,大數(shù)據(jù)已經(jīng)引起全球廣泛的關(guān)注[1]。企業(yè)的IT高管們已然開始意識到,如果沒有強大的分析系統(tǒng),大數(shù)據(jù)幾乎沒什么價值。所以,最關(guān)鍵的并非大數(shù)據(jù)本身,而是數(shù)據(jù)價值的獲取。如果企業(yè)管理者能夠從他們收集的數(shù)據(jù)中得到真實的信息,他們可以做出更好的決策,并提升企業(yè)乃至整個行業(yè)中的地位。

      小數(shù)據(jù)統(tǒng)計的最基本的思想就是抽樣方法,利用樣本的信息去估計總體信息以減少不必要的損失。其中最常見的應(yīng)用就是,在測量某家廠商生產(chǎn)電視的壽命時,不必每一臺都去測量,而是從中取出樣本測量,再利用樣本和總體的關(guān)系,得到總體的電視壽命的大概分布,再利用抽樣檢測,驗證其分布是否合理[2]。

      與小數(shù)據(jù)統(tǒng)計不同,大數(shù)據(jù)統(tǒng)計不用隨機抽樣調(diào)查,而采用全員數(shù)據(jù)參與的方法。當數(shù)據(jù)積累到一定程度之后,數(shù)據(jù)就會引發(fā)質(zhì)變。也就是說,樣本容量越大,收集的信息就越多,

      從而估計的精度就越高,但進行觀察所投入的費用、人力和處理時間就越長。抽樣方法,雖然節(jié)省了進行觀察所投入的費用、人力和處理時間,但由于收集的信息有限,影響了估計的準確性,在小數(shù)據(jù)時代,這是個統(tǒng)計兩難問題。而今天,在計算機處理能力日益增長,特別是互聯(lián)網(wǎng)(包括移動互聯(lián)網(wǎng))的發(fā)展、傳感技術(shù)的廣泛應(yīng)用,使得統(tǒng)計所需要的樣本的獲取變得輕而易舉,或者說大數(shù)據(jù)時代給統(tǒng)計科學(xué)帶來了新的生機。大數(shù)據(jù)價值獲取主要體現(xiàn)在以下幾個方面[2]。

      (1)可視化分析。

      數(shù)據(jù)可視化分析能夠客觀地、直觀地認知數(shù)據(jù),其基本原理是借助于圖形化技術(shù),直觀地傳達數(shù)據(jù)潛在的特征,從而實現(xiàn)對于相當稀疏而又復(fù)雜的數(shù)據(jù)集的深入洞察。讓數(shù)據(jù)分析人員更深入地觀察和分析,實現(xiàn)更好的用戶體驗。

      (2)數(shù)據(jù)價值挖掘。

      數(shù)據(jù)價值挖掘指從大量有噪聲的、不完全的、隨機的、模糊的數(shù)據(jù)中,提取隱藏在數(shù)據(jù)中的、有用的信息和知識的過程。挖掘的結(jié)果是數(shù)據(jù)分析報告的素材,挖掘的越深,數(shù)據(jù)故事講得就越精彩。數(shù)據(jù)價值挖掘是數(shù)據(jù)分析的基本任務(wù)。

      (3)預(yù)測。

      大數(shù)據(jù)分析最要的目標之一就是預(yù)測分析,其基本思想是根據(jù)客觀事物的已知信息,推測和評估估計事物在將來的某些特征和發(fā)展狀態(tài),從而減少對事物認知的不確定性,減少決策的盲目性。

      要實現(xiàn)大數(shù)據(jù)分析這些技術(shù),必須要樹立大數(shù)據(jù)時代的數(shù)據(jù)統(tǒng)計理念。

      1 大數(shù)據(jù)時代的數(shù)據(jù)統(tǒng)計理念

      1.1 總體取代抽樣

      在小數(shù)據(jù)時代,統(tǒng)計分析往往用盡可能少的樣本來證實總體的假設(shè),所以,一般采用隨機抽樣,隨機抽樣方法存在以下缺陷。

      (1)隨機性不容易保證;

      (2)泛化能力差;

      (3)忽略了細節(jié);

      (4)對奇異值敏感。

      隨著計算機技術(shù)、網(wǎng)絡(luò)技術(shù)、通信技術(shù)的發(fā)展,能很容易獲取來自傳感器、網(wǎng)站、視頻等數(shù)據(jù),計算機的處理能力越來越大。所以,在大數(shù)據(jù)時代,統(tǒng)計分析不是依靠少量的樣本抽樣數(shù)據(jù),而是依靠總體數(shù)據(jù)。如Google的流感趨勢預(yù)測是在分析了幾十億條互聯(lián)網(wǎng)社交數(shù)據(jù)而得出的結(jié)論。總體取代抽樣能夠提高微觀層面分析的準確性。

      “樣本=總體”是大數(shù)據(jù)時代數(shù)據(jù)統(tǒng)計的準則,這種巨大的調(diào)整,意味著統(tǒng)計重心需要轉(zhuǎn)移。

      如果說小數(shù)據(jù)時代的統(tǒng)計分析的重心在于如何獲取數(shù)據(jù),那么在大數(shù)據(jù)時代,則重心在于如何選擇有用數(shù)據(jù)[4]。

      數(shù)據(jù)多比數(shù)據(jù)少要好,更多數(shù)據(jù)比算法系統(tǒng)更優(yōu)化還要重要。

      1.2 相關(guān)關(guān)系取代因果關(guān)系

      相關(guān)關(guān)系應(yīng)該說是統(tǒng)計科學(xué)發(fā)展的基礎(chǔ),雖然有大量的理論是以邏輯推導(dǎo)得來的,但還是有相當一部分是先發(fā)現(xiàn)相關(guān)關(guān)系,再研究因果關(guān)系。

      針對傳統(tǒng)統(tǒng)計分析中的因果關(guān)系難以確定的缺陷,在大數(shù)據(jù)時代,更注重相關(guān)關(guān)系的發(fā)現(xiàn)。相關(guān)關(guān)系指我們在觀察研究對象X,Y時,如果發(fā)現(xiàn),X的變化總是與Y的變化同步,那我們就說X和Y是相關(guān)的。事實上,我們可以確定的所有關(guān)系都是相關(guān)關(guān)系,但我們無法得出因果性結(jié)論,相關(guān)關(guān)系應(yīng)該只與變量之間連動性的緊密程度有關(guān),而不應(yīng)受變量間形式的影響。相關(guān)關(guān)系具有“普遍性”,運用范圍之廣、重要性之大是我們不能忽略的。傳統(tǒng)的統(tǒng)計方法已經(jīng)無法滿足發(fā)現(xiàn)相關(guān)關(guān)系的業(yè)務(wù)需求,面臨巨大挑戰(zhàn)和機遇。

      從理論上講,相關(guān)關(guān)系是發(fā)現(xiàn)因果關(guān)系的基礎(chǔ),快速排除不必要的行為。特別在研究復(fù)雜系統(tǒng)時,采用相關(guān)關(guān)系分數(shù)線因果關(guān)系具有更高的效率。相關(guān)關(guān)系的研究是一種提高研究效率的方法,在一定程度上對研究有量變引起質(zhì)變的又積極作用。

      文獻[5]指出:“我們沒有必要非得知道現(xiàn)象背后的原因,而是要讓數(shù)據(jù)自己發(fā)聲,相關(guān)關(guān)系能夠幫助我們更好地了解這個世界。”建立在相關(guān)關(guān)系分析法上面的預(yù)測是大數(shù)據(jù)的核心。通過找到“關(guān)聯(lián)物”并監(jiān)控它,我們就能夠預(yù)測未來。

      1.3 近似取代精確

      精確的、規(guī)范化的、可以被傳統(tǒng)數(shù)據(jù)庫處理的數(shù)據(jù)只占全部數(shù)據(jù)的5%,必須接受不精確性才能處理另外的95%[6]。

      在大數(shù)據(jù)時代,近似性不是竭力避免,而是一種標準途徑[7]。在小數(shù)據(jù)時代,數(shù)據(jù)分析的目的就是防止發(fā)生錯誤,所以,在收集樣本時,數(shù)據(jù)分析師會用明智的策略來減少錯誤數(shù)據(jù),但實施規(guī)避錯誤發(fā)生的策略非常耗費。尤其是當我們收集的數(shù)據(jù)大到一定規(guī)模時,規(guī)避錯誤發(fā)生的策略就行不通了,不僅是因為處理成本加大,還因為在海量數(shù)據(jù)上保持數(shù)據(jù)的一致性不太現(xiàn)實。

      大數(shù)據(jù)時代要求我們重新看待數(shù)據(jù)精確性的內(nèi)涵。如果將小數(shù)據(jù)時代的思維模式運用于大數(shù)據(jù)上,就會錯過許多挖掘有價值數(shù)據(jù)的機會。

      執(zhí)迷于數(shù)據(jù)精確性是“小數(shù)據(jù)時代”的產(chǎn)物,因為在“小數(shù)據(jù)時代”,任何一個數(shù)據(jù)都對結(jié)果有影響,所以,只有保證數(shù)據(jù)的精確性,才不會導(dǎo)致分析結(jié)果出偏差。

      如今,我們掌握的數(shù)據(jù)庫越來越全面,不需要再擔(dān)心某個數(shù)據(jù)對總體分析的產(chǎn)生的不利影響。我們要做的就是要接受這些不精確的數(shù)據(jù),并從中受益,而不是以高昂的代價消除數(shù)據(jù)的不精確性。

      大數(shù)據(jù)讓我們接受數(shù)據(jù)的不精確和不完美,除了一開始會與我們的直覺相矛盾之外,隨著數(shù)據(jù)的增多,“近似”反而能夠更好地地理解世界。

      2 統(tǒng)計業(yè)務(wù)的變革

      一個新生事物的出現(xiàn)將必定導(dǎo)致傳統(tǒng)觀念和技術(shù)的革命。小數(shù)據(jù)時代統(tǒng)計學(xué)最得意的回歸預(yù)測方法面臨考驗[8]。

      大數(shù)據(jù)時代的數(shù)據(jù)統(tǒng)計的“總體、相關(guān)關(guān)系、近似”特征,增強了統(tǒng)計學(xué)的生命力,意味著統(tǒng)計業(yè)務(wù)將發(fā)生如下變革。

      2.1 數(shù)據(jù)搜集

      數(shù)據(jù)的搜集和存儲是大數(shù)據(jù)分析和數(shù)據(jù)利用的前提。如果沒有大量的數(shù)據(jù),再強大的分析能力也是“巧婦難為無米之炊”。在搜集和存儲數(shù)據(jù)方面,要有長遠的眼光,會分析的數(shù)據(jù)要搜集,不會分析的數(shù)據(jù)也要搜集。等到新的數(shù)據(jù)分析方式出來之后再開始搜集數(shù)據(jù)就已悔之晚矣。

      隨著傳感技術(shù)的發(fā)展,收集數(shù)據(jù)變得十分簡單而且成本超便宜。即使你僅僅在討論區(qū)留言、Twitter 或 FB 發(fā)表一段文字,它都會變成新的信息,成為大數(shù)據(jù)的一部份??梢哉f你的生活離不開這片無限巨網(wǎng),即使你不上網(wǎng),手上的付款裝置同樣有機會出賣你,讓你成為大數(shù)據(jù)提供者之一,所以,傳統(tǒng)的統(tǒng)計抽樣調(diào)查不再適用。

      2.2 數(shù)據(jù)處理

      提高對數(shù)據(jù)的分析能力是大數(shù)據(jù)價值體現(xiàn)的核心。再利用傳統(tǒng)的統(tǒng)計方法無法得到我們期望的結(jié)果,這就需要我們對統(tǒng)計方法進行創(chuàng)新與發(fā)展。大數(shù)據(jù)統(tǒng)計分析是以相關(guān)關(guān)系為基礎(chǔ)展開的,它不同于傳統(tǒng)的因果關(guān)系分析,因果關(guān)系分析基本是線性相關(guān)分析,而相關(guān)關(guān)系分析的不僅是線性相關(guān),更多的是非線性相關(guān)以及不明確函數(shù)形式的線性關(guān)系。

      2.3 數(shù)據(jù)使用

      讓數(shù)據(jù)說話,用數(shù)據(jù)提高數(shù)據(jù)的決策效率和決策質(zhì)量是大數(shù)據(jù)分析的最終目標。用戶一般情況下是不知道自己需要什么,但大數(shù)據(jù)知道。通過價值挖掘,數(shù)據(jù)會告訴管理者,用戶需要解決的問題是什么。讓數(shù)據(jù)說話就是寫出有分量、有價值、能輔助決策的數(shù)據(jù)分析報告,這樣的報告不是用數(shù)據(jù)證明你的結(jié)論,而是如何講清楚數(shù)據(jù)的故事。一般需要特別關(guān)注:(1)業(yè)務(wù)的改變,(2)異常數(shù)據(jù)。

      3 結(jié)語

      大數(shù)據(jù)不是基于人工設(shè)計的數(shù)據(jù),也不是借助傳統(tǒng)方法獲得的數(shù)據(jù),而是基于現(xiàn)代信息技術(shù)自動記錄、儲存和擴充的數(shù)據(jù)。通過對大數(shù)據(jù)特性分析找出大數(shù)據(jù)與統(tǒng)計學(xué)的聯(lián)系,進一步了解在大數(shù)據(jù)時代下,統(tǒng)計學(xué)所處的地位以及大數(shù)據(jù)時代下統(tǒng)計學(xué)的變化和發(fā)展。

      參考文獻

      [1] 大數(shù)據(jù)時代到來百度大規(guī)模機器學(xué)習(xí)算法受追捧.2014-03-21第48期百度技術(shù)沙龍,http://tech.huanqiu.com/Enterprise/ 2014-03/4921523.html.

      [2] 呂浩.數(shù)據(jù)統(tǒng)計與分析 http://wenku.baidu.com/link?url=cBurGBToX1gf5RKE0Ws38oaVQu8BD8Jk8ErqhQ3yrR1TV P6ERuh 4KJ1V2RaHUmhbESdYpyigCqzjNk64XvgevIf1uLzUcz-FCK7LYATn_m

      [3] 李國杰.大數(shù)據(jù)研究:未來科技及經(jīng)濟社會發(fā)展的重大戰(zhàn)略領(lǐng)域——大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考[J].中國科學(xué)院院刊,2013(6).

      [4] 邱東.大數(shù)據(jù)時代對統(tǒng)計學(xué)的挑戰(zhàn)[J]。統(tǒng)計研究,2014,31(1):16-24.

      [5] 維克托·邁爾·舍恩伯格,肯尼思·庫克耶.大數(shù)據(jù)時代——生活、工作與思維的大變革[M].杭州:浙江人民出版社,2013(中文版).

      [6] B. Zhu, L. Xu, D. Faries et al.. PMH83 Comparison of Total Health Care Costs Between Remitters and Non-Remitters for Schizophrenia Patients from a Prospective Longitudinal, Observational Study in the Presence of Missing Data[J]. Value in Health, 2012, 15(4):408-413.

      [7] 朱建平.大數(shù)據(jù)時代下數(shù)據(jù)分析理念的辨析[J].統(tǒng)計研究,2014,31(2):10-19.

      [8] Hang Yang, Simon Fong, Guangmin Sun et al.. A Very Fast Decision Tree Algorithm for Real-Time Data Mining of Imperfect Data Streams in a Distributed Wireless Sensor Network[J]. International Journal of Distributed Sensor Networks,2012,24(2):125-131.

      猜你喜歡
      相關(guān)統(tǒng)計分析總體
      用樣本估計總體復(fù)習(xí)點撥
      2020年秋糧收購總體進度快于上年
      外匯市場運行有望延續(xù)總體平穩(wěn)發(fā)展趨勢
      中國外匯(2019年6期)2019-07-13 05:44:06
      直擊高考中的用樣本估計總體
      電子商務(wù)的發(fā)展分析研究
      不同酸提取對維生素C測定結(jié)果的影響
      如何發(fā)揮新時期統(tǒng)計工作的作用之我見
      企業(yè)固定資產(chǎn)分析存在問題及對策分析
      自立人格對師范生教師職業(yè)成熟度影響的實證研究
      人間(2016年26期)2016-11-03 18:13:17
      以統(tǒng)計分析為基礎(chǔ)的房地產(chǎn)稅收優(yōu)化分析
      南澳县| 合山市| 垦利县| 翁源县| 十堰市| 日土县| 遵义县| 镇原县| 穆棱市| 锡林浩特市| 县级市| 西青区| 离岛区| 祥云县| 牟定县| 黑河市| 永吉县| 赣州市| 石棉县| 江永县| 辉南县| 马山县| 文成县| 怀来县| 娄烦县| 土默特左旗| 安阳县| 丰城市| 海林市| 临沧市| 瑞金市| 兰州市| 正宁县| 嘉善县| 思茅市| 溧水县| 连南| 德州市| 沙雅县| 兴文县| 措勤县|