• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      大數(shù)據(jù)時(shí)代下數(shù)據(jù)分析的主要變化

      2016-11-09 20:09:13王淵
      2016年30期
      關(guān)鍵詞:數(shù)據(jù)分析大數(shù)據(jù)時(shí)代大數(shù)據(jù)

      王淵

      摘 要:在分析大數(shù)據(jù)時(shí)代的背景下筆者對“大數(shù)據(jù)時(shí)代”做了個(gè)界定,并從數(shù)據(jù)分析出發(fā)界定了“大數(shù)據(jù)”的概念。同時(shí),根據(jù)大數(shù)據(jù)的特點(diǎn),從幾個(gè)方面剖析了大數(shù)據(jù)時(shí)代下數(shù)據(jù)分析的主要變化,明確了今后經(jīng)濟(jì)統(tǒng)計(jì)研究中需要注意的一些問題。

      關(guān)鍵詞:大數(shù)據(jù);大數(shù)據(jù)時(shí)代;數(shù)據(jù)分析;統(tǒng)計(jì)學(xué)

      一、引言

      隨著互聯(lián)網(wǎng)特別是移動互聯(lián)網(wǎng)的發(fā)展,信息化滲入到社會經(jīng)濟(jì)各方面、人們?nèi)粘I钪?。根?jù)相關(guān)資料的顯示,在1998年至2014年間,全球網(wǎng)民每月使用流量就增長了近萬倍。在2001年一年內(nèi),全網(wǎng)流量累計(jì)達(dá)到了1EB(1EB=TB),2004年需一個(gè)月,在2007年則是1周,而到了2013年僅用一天的時(shí)間。[1]據(jù)思科之前預(yù)測,到2016年全球?qū)a(chǎn)生高達(dá)1.3ZB(1ZB=TB),將這個(gè)數(shù)字形象化一點(diǎn)就是全球網(wǎng)絡(luò)每小時(shí)會傳輸超過3800萬張DVD所容納的數(shù)據(jù)量。大數(shù)據(jù)充斥著人類經(jīng)濟(jì)社會的許多角落。

      在《第三次浪潮》一書中,著名未來學(xué)家阿爾文·托夫勒(1980)將大數(shù)據(jù)形容為“第三次浪潮的華彩樂章”。近年來,社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)、云計(jì)算逐漸占據(jù)人類生活圈,使得數(shù)據(jù)的規(guī)模越來越大。麥肯錫在2011年5月發(fā)布的《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個(gè)前沿領(lǐng)域》報(bào)告中指出,“數(shù)據(jù)已經(jīng)滲透到每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,逐漸成為重要的生產(chǎn)因素;而人們對于海量數(shù)據(jù)的運(yùn)用將預(yù)示著新一波生產(chǎn)率增長和消費(fèi)者盈余浪潮的到來”,這也標(biāo)志著“大數(shù)據(jù)”時(shí)代的到來。

      朱建平、章貴軍等(2014)[2]認(rèn)為大數(shù)據(jù)時(shí)代是在互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等現(xiàn)代網(wǎng)絡(luò)渠道廣泛收集數(shù)據(jù)資源的基礎(chǔ)上建立起來的數(shù)據(jù)存儲、價(jià)值提煉、智能處理和展示的信息時(shí)代。其基本特征主要體現(xiàn)在社會性、廣泛性、公開性和動態(tài)性幾個(gè)方面。

      二、大數(shù)據(jù)概念的界定

      關(guān)于什么是大數(shù)據(jù)目前沒有統(tǒng)一的說法,不同態(tài)度和學(xué)科背景的定義者對其的理解不同。比較有代表性的定義主要有以下幾種。

      維基百科認(rèn)為,大數(shù)據(jù)是指在目前主流的軟件工具的支撐下,仍無法在合理的時(shí)間內(nèi)對規(guī)模巨大的資料進(jìn)行擷取、管理、處理、并整理,使之能幫助企業(yè)做出更積極的經(jīng)營決策的資訊[3]。

      “大數(shù)據(jù)”研究機(jī)構(gòu)Gartner給出的定義是:大數(shù)據(jù)是需要新的處理模式,使海量、高增長率和多樣化的信息資產(chǎn)可以擁有更強(qiáng)的決策力、洞察力和流程優(yōu)化能力①。

      大數(shù)據(jù)科學(xué)家John Rauser提出了一個(gè)簡單的定義,大數(shù)據(jù)指任何超過了一臺計(jì)算機(jī)處理能力的數(shù)據(jù)[4]。

      而對于麥肯錫全球研究所來說,大數(shù)據(jù)是指在規(guī)模上遠(yuǎn)遠(yuǎn)超出傳統(tǒng)數(shù)據(jù)庫承載能力的數(shù)據(jù)集合,海量的數(shù)據(jù)規(guī)模、多樣的數(shù)據(jù)類型、快速的數(shù)據(jù)流轉(zhuǎn)和低密度價(jià)值是其四大特征[5]。

      Gartner公司的Merv Adrian(2011)認(rèn)為,大數(shù)據(jù)超出了常用硬件環(huán)境和軟件工具在可接受的時(shí)間內(nèi)為其用戶收集、管理和處理數(shù)據(jù)的能力[6]。

      還有一些學(xué)者沒有給出大數(shù)據(jù)的具體定義,但概括了大數(shù)據(jù)的特點(diǎn)。從Dumbill(2012)采用IBM公司的“3V”特點(diǎn)②到IDC堅(jiān)持的“4V”特點(diǎn)③,再到劉念真(2013)給出的“5V”特點(diǎn)④[7],都是對大數(shù)據(jù)特點(diǎn)和定義的延展。

      大數(shù)據(jù)的定義之所以言人人殊,主要是由于大數(shù)據(jù)本身所涉及到的內(nèi)容“大”,大家可以從不同的角度理解它??偟膩碚f,大數(shù)據(jù)可以從廣義和狹義兩個(gè)層面來理解,狹義的是從數(shù)據(jù)的字面含義來看,是指數(shù)據(jù)所具有的規(guī)模和結(jié)構(gòu)形式;如果從廣義上來看的話,大數(shù)據(jù)除了字面的意義外,更是包含了數(shù)據(jù)處理的技術(shù)。

      大數(shù)據(jù)的核心是數(shù)據(jù),而數(shù)據(jù)是統(tǒng)計(jì)研究的對象,對數(shù)據(jù)進(jìn)行正確的統(tǒng)計(jì)分析是從大數(shù)據(jù)中尋找有價(jià)值信息的關(guān)鍵。因此,我們可以從統(tǒng)計(jì)學(xué)科的性質(zhì)來理解,大數(shù)據(jù)是指那些傳統(tǒng)數(shù)據(jù)處理系統(tǒng)無法承載,并跨越經(jīng)典統(tǒng)計(jì)思想研究范圍的復(fù)雜數(shù)據(jù)的集合。對于這一數(shù)據(jù)集合,為了達(dá)到商業(yè)價(jià)值和公共事業(yè)服務(wù)性的實(shí)現(xiàn),我們可以運(yùn)用新的統(tǒng)計(jì)思想分析管理,在現(xiàn)代計(jì)算機(jī)技術(shù)的媒介支撐下獲取所需的信息和知識。

      三、數(shù)據(jù)分析的主要變化

      (一)分析思路

      傳統(tǒng)的統(tǒng)計(jì)分析方法通常是“先假設(shè)后關(guān)系”,即先假設(shè)某種關(guān)系的存在,然后設(shè)定理論模型,再根據(jù)之前的假設(shè)計(jì)算變量之間的關(guān)系,這種思路一般只適用于處理小數(shù)據(jù)。而大數(shù)據(jù)時(shí)代的數(shù)據(jù)量和變量數(shù)目都很龐大,傳統(tǒng)的分析思路有些超脫實(shí)際。因此,大數(shù)據(jù)時(shí)代的分析常常是直接計(jì)算現(xiàn)象之間的相依性。

      傳統(tǒng)的統(tǒng)計(jì)分析過程是“定性-定量-再定性”,第一個(gè)定性是為定量分析找準(zhǔn)方向,主要靠經(jīng)驗(yàn)判斷,一般針對數(shù)據(jù)短缺的情況下比較重要?,F(xiàn)在大數(shù)據(jù)時(shí)代,可以直接通過數(shù)據(jù)分析做出判斷,所要做的是直接從“定量的回應(yīng)”中找出數(shù)量特征和數(shù)量關(guān)系,然后得出可以作為判斷或決策依據(jù)的結(jié)論。因此大數(shù)據(jù)時(shí)代統(tǒng)計(jì)分析的過程可以簡化為“定量-定性”[8]。

      在實(shí)證分析上,傳統(tǒng)思路通常是“假設(shè)-驗(yàn)證”,先根據(jù)最終的研究目的提出假設(shè)性意見,然后收集分析數(shù)據(jù),進(jìn)而驗(yàn)證假設(shè)的成立與否。這種實(shí)證分析容易受到數(shù)據(jù)的缺失、假設(shè)的局限性以及指標(biāo)選擇的不當(dāng)?shù)鹊挠绊?,得不到正確的結(jié)論。尤其是在假設(shè)本身的非科學(xué)性、非客觀性、非合理性的情況下,得出的結(jié)論更是毫無用處,甚至歪曲事實(shí)本身。在現(xiàn)在的大數(shù)據(jù)時(shí)代,可以從中尋找關(guān)系、發(fā)現(xiàn)規(guī)律而不受任何假設(shè)的限制,然后得出結(jié)論,分析的思路可以概括為“發(fā)現(xiàn)-總結(jié)”。

      (二)研究對象的變化

      首先,從數(shù)據(jù)來源上看,由于傳統(tǒng)經(jīng)濟(jì)學(xué)以及統(tǒng)計(jì)學(xué)研究中數(shù)據(jù)收集成本條件的限制,人們往往采用抽樣調(diào)查的方式,對抽取的少量樣本進(jìn)行分析研究,這種方法也一直延續(xù)到現(xiàn)在,可以說是統(tǒng)計(jì)學(xué)等研究領(lǐng)域的主流調(diào)研方式。樣本抽樣研究對抽取的樣本的質(zhì)量要求是非常高的,否則會對最終的研究結(jié)果產(chǎn)生巨大的影響。傳統(tǒng)的統(tǒng)計(jì)抽樣調(diào)查方法有一些不足:抽樣框不穩(wěn)定,隨機(jī)取樣困難;事先設(shè)定調(diào)查目的會限制調(diào)查的內(nèi)容和范圍;樣本量有限,抽樣結(jié)果經(jīng)不起細(xì)分;糾偏成本高,可塑性弱。而在大數(shù)據(jù)時(shí)代,更多的是將總體直接作為研究對象,摒棄了抽樣樣本的研究,傳統(tǒng)統(tǒng)計(jì)抽樣調(diào)查方法的不足可以在大數(shù)據(jù)時(shí)代得到改進(jìn)。

      其次,對于數(shù)據(jù)類型而言,傳統(tǒng)數(shù)據(jù)通常是結(jié)構(gòu)型的,即定量數(shù)據(jù)加上少量的定性數(shù)據(jù),格式化,有標(biāo)準(zhǔn),可通過常規(guī)的統(tǒng)計(jì)指標(biāo)和統(tǒng)計(jì)圖來表示。而大數(shù)據(jù)則注重非結(jié)構(gòu)性數(shù)據(jù)或者半結(jié)構(gòu)、異結(jié)構(gòu)數(shù)據(jù),多樣化、無標(biāo)準(zhǔn),很難通過傳統(tǒng)的統(tǒng)計(jì)指標(biāo)或統(tǒng)計(jì)圖表加以表現(xiàn)。

      (三)假設(shè)檢驗(yàn)的變化

      傳統(tǒng)的統(tǒng)計(jì)研究,通常是根據(jù)內(nèi)容提出假設(shè)意見,然后根據(jù)最初設(shè)定的理論模型來檢驗(yàn)驗(yàn)證假設(shè)的真實(shí)效用性。但對于大數(shù)據(jù)時(shí)代而言,信息資源充足,可以采用人工智能對數(shù)據(jù)信息進(jìn)行挖掘開發(fā),需要驗(yàn)證的假設(shè)比傳統(tǒng)經(jīng)濟(jì)學(xué)研究多出很多,不在一個(gè)數(shù)量級上。傳統(tǒng)的假設(shè)驗(yàn)證分析是無法滿足大數(shù)據(jù)時(shí)代的需求的[9]。

      (四)分析關(guān)系的變化

      預(yù)先假設(shè)事物之間的因果聯(lián)系,再設(shè)定理論模型驗(yàn)證預(yù)先的假設(shè),這是傳統(tǒng)統(tǒng)計(jì)分析工作的一般工作模式。在大數(shù)據(jù)時(shí)代,由于數(shù)據(jù)規(guī)模的龐大,數(shù)據(jù)結(jié)構(gòu)的復(fù)雜多樣等,使預(yù)設(shè)的因果關(guān)系會相對復(fù)雜很多,給分析工作帶來很大的不便。預(yù)示,大數(shù)據(jù)時(shí)代的數(shù)據(jù)分析便側(cè)重于關(guān)注事物之間的相關(guān)聯(lián)性,而非因果關(guān)系。

      在小數(shù)據(jù)時(shí)代,計(jì)算機(jī)存儲和計(jì)算能力不足,導(dǎo)致大部分相關(guān)分析限于線性關(guān)系。大數(shù)據(jù)時(shí)代,現(xiàn)象的關(guān)系相對更復(fù)雜,不僅可能是線性關(guān)系,更有可能是非線性關(guān)系。這種非線性關(guān)系除了可能是非線性的函數(shù)關(guān)系外,更一般的情況不清楚關(guān)系的具體形式,只知道現(xiàn)象之間的相依的程度。由于在大數(shù)據(jù)時(shí)代數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)關(guān)系錯(cuò)綜復(fù)雜,很難在變量間確定的函數(shù)形式并在此基礎(chǔ)上探討因果關(guān)系,因此大數(shù)據(jù)時(shí)代一般不做原因分析。

      (五)建模思想的變化

      傳統(tǒng)的統(tǒng)計(jì)往往采用模型來進(jìn)行研究,但是模型不是萬能的,各個(gè)模型并不是完全一樣,而是各有所長,同樣也有其自身的局限性。因此傳統(tǒng)的統(tǒng)計(jì)研究所得出的結(jié)論只能表示所用模型的結(jié)論,卻不具有普適性。如果用另一個(gè)模型,結(jié)論可能就會大相徑庭,研究結(jié)論是脆弱的。除此之外,在研究同一問題時(shí),即使開始設(shè)定的理論模型是一樣的,但不同的研究者在研究時(shí)所選擇的變量、方法等方面的不同,也會導(dǎo)致研究結(jié)論的不同。

      在借助分布式處理、人工智能和云計(jì)算等現(xiàn)代信息技術(shù)的大數(shù)據(jù)時(shí)代背景下,可以采用數(shù)以千計(jì)的模型來進(jìn)行研究。在2009年美國甲型H1N1流感爆發(fā)之際,谷歌公司對其進(jìn)行了大膽的預(yù)測,將上千萬條美國人的高頻檢索詞和疾控中心在2003~2008年中間的(季節(jié)性)流感時(shí)期進(jìn)行了大量比較,總共處理了將近5億的數(shù)字模型,其結(jié)果與官方數(shù)據(jù)相關(guān)性達(dá)到了97%,比官方時(shí)間省事半個(gè)月左右,為相關(guān)部門積極解決問題爭取了彌足珍貴的時(shí)間。

      四、小結(jié)

      大數(shù)據(jù)不僅可以理解為數(shù)據(jù)規(guī)模巨大、數(shù)據(jù)結(jié)構(gòu)復(fù)雜,還可以理解為處理大規(guī)模復(fù)雜數(shù)據(jù)的技術(shù)。通過上述數(shù)據(jù)分析的主要變化的剖析,在今后的經(jīng)濟(jì)統(tǒng)計(jì)研究中需要注意一些問題。對于統(tǒng)計(jì)研究過程,傳統(tǒng)的統(tǒng)計(jì)研究過程主要包括設(shè)定模型、收集數(shù)據(jù)、整理與分析和統(tǒng)計(jì)資料的積累、開發(fā)與應(yīng)用四個(gè)基本環(huán)節(jié)。大數(shù)據(jù)時(shí)代下僅包括數(shù)據(jù)整理與分析和數(shù)據(jù)的積累、開發(fā)與應(yīng)用兩個(gè)基本環(huán)節(jié)。對于統(tǒng)計(jì)研究方法,大數(shù)據(jù)的統(tǒng)計(jì)分析是以相關(guān)關(guān)系為基礎(chǔ)展開的,分析的不僅是線性相關(guān),更多的是非線性相關(guān)和不能明確函數(shù)形式的相關(guān)。對于統(tǒng)計(jì)研究目的,傳統(tǒng)統(tǒng)計(jì)研究的目的主要是探尋現(xiàn)象或變量之間相關(guān)關(guān)系、因果關(guān)系以及建立在相關(guān)關(guān)系或因果關(guān)系基礎(chǔ)上的預(yù)測分析。大數(shù)據(jù)時(shí)代統(tǒng)計(jì)研究的目的主要是現(xiàn)象間的相關(guān)關(guān)系以及建立在相關(guān)關(guān)系基礎(chǔ)上的預(yù)測分析。對于統(tǒng)計(jì)研究工作思想,傳統(tǒng)統(tǒng)計(jì)研究工作中,通常采用樣本數(shù)據(jù)和相對比較復(fù)雜的模型獲取信息,一般是事后檢驗(yàn);在大數(shù)據(jù)時(shí)代,樣本即總體,可以巧用簡單模型或者不用模型,可以較方便地進(jìn)行事先預(yù)測。

      (作者單位:蘭州財(cái)經(jīng)大學(xué)統(tǒng)計(jì)學(xué)院)

      注釋:

      ① http://baike.baidu.com/item/大數(shù)據(jù)/1356941

      ② “3V”特點(diǎn),即規(guī)模性(Volume)、多樣性(Variety)、實(shí)時(shí)性(Velocity)

      ③ “4V”特點(diǎn),在3V的基礎(chǔ)上增加了價(jià)值性(Value)

      ④ “5V”特點(diǎn),即規(guī)模性(Volume)、多樣性(Variety)、實(shí)時(shí)性(Velocity)、真實(shí)性(Veracity)和價(jià)值性(Value)

      參考文獻(xiàn):

      [1] 鄔賀銓.大數(shù)據(jù)時(shí)代的機(jī)遇與挑戰(zhàn)[J].求是,2013,04:47-49.

      [2] 朱建平,章貴軍,劉曉葳.大數(shù)據(jù)時(shí)代下數(shù)據(jù)分析理念的辨析[J].統(tǒng)計(jì)研究,2014,31(2):10-19.

      [3] http:/ /zh.wikipedia.org/wiki/:大數(shù)據(jù).維基百科,2012 -10 -5.6.

      [4] Mckinsey Global Institute,Big Data:The next frontier for innovation,Competition and productivity,2011 -5.

      [5] http:/ /www.networkworld.com/news/2012/051012 - big-data -259147.html.

      [6] http:/ / www.teradatamagazine.com/v11n01/Features/Big-Data/:Merv Adrian.Big Data[N/OL].Teradata Magazine.

      [7] http:/ /wenku.baidu.com/view/abfb3a1552d380eb62946d9d.html:劉念真.利用 Oracle 信息模型駕馭大數(shù)據(jù).

      [8] 李金昌.大數(shù)據(jù)與統(tǒng)計(jì)新思維[J].統(tǒng)計(jì)研究,2014,31(1):10-17.

      [9] 俞立平.大數(shù)據(jù)與大數(shù)據(jù)經(jīng)濟(jì)學(xué)[J].中國軟科學(xué),2013(7):177-183.

      猜你喜歡
      數(shù)據(jù)分析大數(shù)據(jù)時(shí)代大數(shù)據(jù)
      Excel電子表格在財(cái)務(wù)日常工作中的應(yīng)用
      淺析大數(shù)據(jù)時(shí)代背景下的市場營銷策略
      新常態(tài)下集團(tuán)公司內(nèi)部審計(jì)工作研究
      中國市場(2016年36期)2016-10-19 04:31:23
      淺析大數(shù)據(jù)時(shí)代對企業(yè)營銷模式的影響
      大數(shù)據(jù)時(shí)代下圖書館的服務(wù)創(chuàng)新與發(fā)展
      科技視界(2016年21期)2016-10-17 19:30:45
      大數(shù)據(jù)時(shí)代高校學(xué)生知識管理
      科技視界(2016年21期)2016-10-17 18:42:37
      從“數(shù)據(jù)新聞”看當(dāng)前互聯(lián)網(wǎng)新聞信息傳播生態(tài)
      今傳媒(2016年9期)2016-10-15 22:06:04
      基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
      科技視界(2016年20期)2016-09-29 10:53:22
      绍兴市| 南汇区| 扶风县| 招远市| 绥棱县| 宣汉县| 枣阳市| 青河县| 江山市| 靖州| 西峡县| 东乌| 耒阳市| 沧州市| 寿宁县| 荃湾区| 安吉县| 乐平市| 册亨县| 万荣县| 湘潭市| 茂名市| 沙雅县| 沽源县| 福安市| 凭祥市| 年辖:市辖区| 邵阳县| 万宁市| 阿合奇县| 武宁县| 诸暨市| 襄汾县| 永吉县| 汪清县| 邳州市| 广水市| 广东省| 北海市| 南乐县| 建瓯市|