• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      大數(shù)據(jù)背景下數(shù)據(jù)統(tǒng)計分析理念探討

      2019-02-19 23:32:54瑤/
      市場研究 2019年4期
      關(guān)鍵詞:樣本量結(jié)構(gòu)化時代

      魏 瑤/ 文

      數(shù)據(jù)是統(tǒng)計分析的基礎(chǔ),而隨著現(xiàn)代信息技術(shù)的快速發(fā)展,數(shù)據(jù)驅(qū)動的大數(shù)據(jù)時代,以及與大數(shù)據(jù)相關(guān)的數(shù)據(jù)分析理念也發(fā)生了新的變化。2012 年由國家統(tǒng)計局統(tǒng)計科學研究所召開的大數(shù)據(jù)應用座談會,將建立統(tǒng)計云架構(gòu)的現(xiàn)代數(shù)據(jù)統(tǒng)計研究目標作為未來重要新興戰(zhàn)略規(guī)劃。怎樣深刻理解大數(shù)據(jù)時代?怎樣依托統(tǒng)計科學來重新審視統(tǒng)計工作?大數(shù)據(jù)體現(xiàn)了數(shù)據(jù)科學研究對象的變革。當下,互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計算等網(wǎng)絡(luò)化數(shù)據(jù)呈現(xiàn)指數(shù)級增長趨勢,數(shù)據(jù)資料可謂是“秒新分異”。據(jù)相關(guān)機構(gòu)統(tǒng)計,互聯(lián)網(wǎng)一日所產(chǎn)生的全部數(shù)據(jù)可以刻滿1.68 億張DVD。哈佛大學教授加里·金提出“大數(shù)據(jù)引發(fā)的是一場數(shù)據(jù)革命,龐大的數(shù)據(jù)庫資源將成為各個領(lǐng)域量化進程的標志?!庇纱丝梢?,面對紛繁蕪雜的大數(shù)據(jù),如何從中提取有價值的知識,才是數(shù)據(jù)統(tǒng)計分析創(chuàng)造價值的關(guān)鍵所在。

      一、大數(shù)據(jù)概念及大數(shù)據(jù)時代數(shù)據(jù)統(tǒng)計的特征

      (一)認識大數(shù)據(jù)

      對于大數(shù)據(jù),眾說紛紜。字面意義中,其特征為大,而對于大,又是仁者見仁,智者見智。大數(shù)據(jù)是大數(shù)據(jù)時代的顯著特質(zhì),數(shù)據(jù)是引領(lǐng)社會、生活、商業(yè)、科技創(chuàng)新發(fā)展的動力。大數(shù)據(jù)時代下的數(shù)據(jù)本身,其結(jié)構(gòu)及內(nèi)容也發(fā)生了變化。狹義來講,大數(shù)據(jù)可以解釋為數(shù)據(jù)的結(jié)構(gòu)形式和規(guī)模獲得了多樣化發(fā)展;廣義來講,大數(shù)據(jù)除了數(shù)據(jù)結(jié)構(gòu)、規(guī)模外,還涵蓋數(shù)據(jù)分析處理的各類技術(shù)及方法。從數(shù)據(jù)維度來分析,橫向的大數(shù)據(jù),延伸為數(shù)據(jù)的規(guī)模,即海量數(shù)據(jù);縱向的大數(shù)據(jù),延伸為數(shù)據(jù)的結(jié)構(gòu)形式,如結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)等。在統(tǒng)計學領(lǐng)域,對大數(shù)據(jù)的定義,可以將之界定為超越傳統(tǒng)數(shù)據(jù)處理能力、超越傳統(tǒng)統(tǒng)計思想、無法用主流軟件工具或技術(shù)來進行復雜數(shù)據(jù)統(tǒng)計分析的數(shù)據(jù)集合??梢?,大數(shù)據(jù)在現(xiàn)有數(shù)據(jù)處理技術(shù)基礎(chǔ)上,還要融入網(wǎng)絡(luò)媒介,引入創(chuàng)新統(tǒng)計學方法來進行挖掘、提取、管理、分析隱藏于大數(shù)據(jù)中的有價值知識。

      (二)大數(shù)據(jù)的特征

      了解大數(shù)據(jù)及其時代屬性,對于大數(shù)據(jù),其特征表現(xiàn)在四個方面。一是大量性。大數(shù)據(jù)時代下的數(shù)據(jù),其數(shù)量規(guī)模是巨大的,尤其是在當下高速發(fā)展的網(wǎng)絡(luò)平臺,各類承載數(shù)據(jù)資料的網(wǎng)絡(luò)化工具、終端設(shè)備等的普及,數(shù)據(jù)資料來源的廣泛性,使得各類數(shù)據(jù)資料呈現(xiàn)指數(shù)級增長。二是多樣性。單就大數(shù)據(jù)的數(shù)據(jù)類型,其種類繁多。如文本類數(shù)據(jù),表現(xiàn)為結(jié)構(gòu)化特征;網(wǎng)絡(luò)化日志、音視頻、地理位置等半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)類型等。由于數(shù)據(jù)資料來源的廣泛性,數(shù)據(jù)的多樣性就必然存在。越來越多非結(jié)構(gòu)化數(shù)據(jù)資料的增長,需要我們優(yōu)化數(shù)據(jù)統(tǒng)計分析方法和技術(shù),從中提取有價值的數(shù)據(jù)知識。三是價值性。大數(shù)據(jù)時代下的數(shù)據(jù)統(tǒng)計分析,其價值也是巨大的。大數(shù)據(jù)不僅反映了社會、商業(yè)、生產(chǎn)、生活等方面信息,同樣這些有價值的信息可能會轉(zhuǎn)瞬即逝。通常,價值密度與數(shù)據(jù)規(guī)模成反比。以視頻數(shù)據(jù)為例,一小時的連續(xù)不間斷視頻,其有價值信息可能僅有一秒。由此,對于數(shù)據(jù)的接收、處理思想和方法,都需要轉(zhuǎn)變,從而更好地從大數(shù)據(jù)中提純有價值的數(shù)據(jù)信息。四是高速性。面對大數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)統(tǒng)計方法或工具,顯然是無法快速、高效處理大數(shù)據(jù)的,藉于大數(shù)據(jù)統(tǒng)計分析的時效性,需要我們能夠轉(zhuǎn)變統(tǒng)計分析理念,從海量數(shù)據(jù)統(tǒng)計分析中獲得高效統(tǒng)計目標。

      二、數(shù)據(jù)統(tǒng)計分析理念的三個轉(zhuǎn)變

      對于大數(shù)據(jù)時代下的數(shù)據(jù)統(tǒng)計分析理念,顯然傳統(tǒng)的分析思想是需要轉(zhuǎn)變的,如何轉(zhuǎn)變?從數(shù)據(jù)統(tǒng)計研究視角,需要從三個方面來轉(zhuǎn)變。

      (一)對抽樣調(diào)查理念的轉(zhuǎn)變

      在統(tǒng)計學領(lǐng)域,抽樣調(diào)查是進行數(shù)據(jù)統(tǒng)計分析、推斷,了解數(shù)據(jù)總體規(guī)律性的重要方法。但面對大數(shù)據(jù),顯然,抽樣調(diào)查的數(shù)據(jù)對象更加復雜、多樣,傳統(tǒng)的抽樣調(diào)查方法對大數(shù)據(jù)的數(shù)據(jù)收集、處理能力有限,抽樣調(diào)查中樣本的數(shù)量、質(zhì)量與總體大數(shù)據(jù)相比,顯得片面,無法真實反映總體數(shù)據(jù)規(guī)律性。也就是說,在大數(shù)據(jù)背景下,利用傳統(tǒng)的抽樣調(diào)查方法是行不通的。原因歸結(jié)為:一是傳統(tǒng)抽樣調(diào)查中,面對大數(shù)據(jù)中數(shù)據(jù)規(guī)??焖僭鲩L、數(shù)據(jù)結(jié)構(gòu)類型多樣,隨機取樣困難等問題。現(xiàn)代網(wǎng)絡(luò)技術(shù)環(huán)境下,對于信息數(shù)據(jù)的獲取途徑更多、更便捷,加之外出旅游、學習、更換工作崗位的次數(shù)增多,人口流動性加快,使得數(shù)據(jù)統(tǒng)計信息出現(xiàn)更多的不規(guī)律性。同樣,面對商業(yè)領(lǐng)域,各企業(yè)經(jīng)營狀況不穩(wěn)定,對市場機會的把握不力,導致企業(yè)經(jīng)營風險更大,從這些企業(yè)數(shù)據(jù)信息進行抽樣調(diào)查,無法真實反映企業(yè)實際狀況。二是事先設(shè)定的調(diào)查目標反而局限了調(diào)查范圍及內(nèi)容。通常,抽樣調(diào)查需要先確定目標,然后根據(jù)調(diào)查對象、調(diào)查經(jīng)費選擇適當?shù)恼{(diào)查樣本量。但對于大數(shù)據(jù)背景下的海量數(shù)據(jù),前期所設(shè)定的調(diào)查目標,不能全面反映總體要求,反而限制調(diào)查范圍。三是調(diào)查樣本量局限,抽樣結(jié)果經(jīng)不起細分。以傳統(tǒng)抽樣調(diào)查為例,在一定經(jīng)費條件下進行樣本量設(shè)定,如果進行細分內(nèi)容調(diào)查,則會因樣本量太少而不具備代表性;同樣,在隨機抽樣調(diào)查中,也經(jīng)不起細分,導致調(diào)查結(jié)果錯誤率增大。我們以某地企業(yè)抽樣調(diào)查為例,最初以服裝企業(yè)展開抽樣調(diào)查,之后,如果想具體了解小型服裝企業(yè)經(jīng)營狀況,可能在抽樣樣本中滿足該條件的企業(yè)很少甚至沒有?;氐酱髷?shù)據(jù)背景下的數(shù)據(jù)抽樣調(diào)查實際,這些規(guī)模、結(jié)構(gòu)繁復的數(shù)據(jù),更難以從樣本量中把握整體情況。四是糾偏成本高。在傳統(tǒng)抽樣統(tǒng)計調(diào)查中,抽樣框不穩(wěn)定情況多有發(fā)生,而一旦出現(xiàn)偏誤,調(diào)查結(jié)果與預計結(jié)構(gòu)相差巨大。面對大數(shù)據(jù)下瞬息萬變的數(shù)據(jù),糾偏調(diào)整統(tǒng)計調(diào)查方案,其成本更大。

      (二)對數(shù)據(jù)精確性要求的轉(zhuǎn)變

      統(tǒng)計工作的目標在于從數(shù)據(jù)分析中獲得完整性、精確性、可比性、一致性調(diào)查結(jié)果。這種要求,也是以往單一數(shù)據(jù)結(jié)構(gòu)下的數(shù)據(jù)分析結(jié)果。不過,面對大數(shù)據(jù)時代,數(shù)據(jù)來源的廣泛性、數(shù)據(jù)結(jié)構(gòu)的復雜性、數(shù)據(jù)處理技術(shù)的多樣性,使得“精確性”數(shù)據(jù)統(tǒng)計結(jié)果是難以獲得的。也就是說,在大數(shù)據(jù)統(tǒng)計調(diào)查分析中,盲目追求精確性統(tǒng)計結(jié)果是不可取的。傳統(tǒng)調(diào)查統(tǒng)計中,數(shù)據(jù)量有限,數(shù)據(jù)來源單一,從統(tǒng)計分析中可以獲得反映總體數(shù)據(jù)特征的精確信息。但對于大數(shù)據(jù)下,“不精確數(shù)據(jù)”并非無益,也是我們認識總體的重要參考數(shù)據(jù)。數(shù)據(jù)的“不精確性”,不會破壞數(shù)據(jù)的完整性,也有助于我們了解總體數(shù)據(jù)的真實狀況。如在“小數(shù)據(jù)”統(tǒng)計分析中,假設(shè)某人身高1.8 米,統(tǒng)計了兩次,得到一次1.8 米,一次1.6 米,則在精確性統(tǒng)計結(jié)果中會取平均值,即1.7 米;在大數(shù)據(jù)統(tǒng)計分析中,對于該身高可能測得10 萬次,其中有20 次為1.6 米,其余為1.8 米,則在統(tǒng)計結(jié)果中,就會將1.6 米的測量數(shù)據(jù)看作“異常值”予以剔除,但卻很可能認定該人身高為1.8 米,反而更接近真實情況。所以說,大數(shù)據(jù)時代下對總體信息的統(tǒng)計分析,樣本量的增加,反而更接近總體實際值?!安痪_性”是大數(shù)據(jù)時代下數(shù)據(jù)統(tǒng)計分析處理允許的,是偶然產(chǎn)生的,但在實際統(tǒng)計調(diào)查分析中,還要加強數(shù)據(jù)分析方法的優(yōu)化,降低“不精確性”。

      (三)對數(shù)據(jù)關(guān)系分析重點的轉(zhuǎn)變

      傳統(tǒng)的數(shù)據(jù)統(tǒng)計分析,往往假定事物間存在某種因果關(guān)系,并據(jù)此構(gòu)建統(tǒng)計模型,驗證假設(shè)。大數(shù)據(jù)時代下,數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)量的劇增,使得數(shù)據(jù)關(guān)系更趨復雜。因此,在大數(shù)據(jù)統(tǒng)計分析時,將不再關(guān)注“因果關(guān)系”,轉(zhuǎn)而關(guān)注事物間的關(guān)聯(lián)性。需要強調(diào)的是,在事物關(guān)聯(lián)關(guān)系分析中,需要注意三點:一是大數(shù)據(jù)統(tǒng)計分析思路不同于傳統(tǒng)統(tǒng)計方法。傳統(tǒng)統(tǒng)計分析,以假設(shè)關(guān)系為參照,探究變量間的相互關(guān)系,這是藉于“先假設(shè),后關(guān)系”的分析思路。相反,大數(shù)據(jù)統(tǒng)計分析,往往直接分析計算現(xiàn)象之間的相依性,即存在關(guān)聯(lián)又存在關(guān)系。二是大數(shù)據(jù)統(tǒng)計分析中的關(guān)系形式不同于傳統(tǒng)統(tǒng)計分析關(guān)系形式。在小數(shù)據(jù)時代,數(shù)據(jù)統(tǒng)計中的相關(guān)關(guān)系多為線性關(guān)系,而在大數(shù)據(jù)時代,相互關(guān)聯(lián)的信息現(xiàn)象多而復雜,其關(guān)系既可以是線性關(guān)系,也可以是非線性關(guān)系。如在一些半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)統(tǒng)計分析中,變量之間的關(guān)聯(lián)關(guān)系是無法直接進行表示的。三是大數(shù)據(jù)統(tǒng)計分析的關(guān)系目的不同于傳統(tǒng)數(shù)據(jù)統(tǒng)計變量之間的關(guān)聯(lián)關(guān)系。在傳統(tǒng)統(tǒng)計分析中,往往探求變量之間的親疏程度,了解其因果關(guān)系,并試圖構(gòu)建回歸方程對因變量進行預測。在大數(shù)據(jù)時代,數(shù)據(jù)統(tǒng)計分析的目的,主要體現(xiàn)在變量或現(xiàn)象之間的關(guān)聯(lián)性,實現(xiàn)由此及彼的關(guān)聯(lián)預測。也就是說,在大數(shù)據(jù)統(tǒng)計分析中,一般不做原因分析。同時,考慮到大數(shù)據(jù)之間價值密度低,流式數(shù)據(jù)變化快,變量間的關(guān)聯(lián)關(guān)系具有時效性特征。

      三、結(jié)語

      大數(shù)據(jù)時代下對統(tǒng)計數(shù)據(jù)分析理念的變革,為統(tǒng)計學理論、實踐帶來了發(fā)展契機。如依托現(xiàn)代云計算、大數(shù)據(jù)統(tǒng)計分析方法,來拓展數(shù)據(jù)統(tǒng)計研究的工作范疇,增強統(tǒng)計學的生命力。

      猜你喜歡
      樣本量結(jié)構(gòu)化時代
      醫(yī)學研究中樣本量的選擇
      促進知識結(jié)構(gòu)化的主題式復習初探
      結(jié)構(gòu)化面試方法在研究生復試中的應用
      計算機教育(2020年5期)2020-07-24 08:53:00
      航空裝備測試性試驗樣本量確定方法
      Sample Size Calculations for Comparing Groups with Binary Outcomes
      HANDS OFF THE WHEEL
      e時代
      足球周刊(2016年14期)2016-11-02 10:56:23
      e時代
      足球周刊(2016年15期)2016-11-02 10:55:36
      e時代
      足球周刊(2016年10期)2016-10-08 10:54:55
      基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
      計算機工程(2015年8期)2015-07-03 12:20:35
      土默特右旗| 蕉岭县| 平江县| 介休市| 兴隆县| 九龙县| 古丈县| 侯马市| 江山市| 邵武市| 界首市| 林甸县| 邓州市| 金沙县| 荥经县| 奉节县| 察哈| 昌黎县| 高密市| 桃源县| 通州市| 廉江市| 林口县| 岑溪市| 慈利县| 托里县| 台中县| 合阳县| 乌兰县| 锦屏县| 石河子市| 屏边| 浦北县| 太康县| 万荣县| 景东| 莫力| 汾西县| 南开区| 广东省| 新沂市|