• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      大數(shù)據(jù)下的統(tǒng)計思維變化

      2020-10-21 11:12丁潔
      科學導報·學術 2020年33期
      關鍵詞:總體不確定性樣本

      丁潔

      互聯(lián)網科技的發(fā)展使得數(shù)據(jù)量的急劇增加,在數(shù)據(jù)科技的大力發(fā)展下,人們所能儲存、處理的數(shù)據(jù)已經達到前所未有有的量級,并且以超過摩爾定律的速度迅猛增加。數(shù)據(jù)的作用也在人們的生產生活中產生極大的影響,改變了生產生活的方式,成為了一種新的生產資料,根據(jù)馬克思主義哲學的時代觀,我們可以知道一個新的時代——大數(shù)據(jù)時代正沖著我們呼嘯而來,它正在悄悄地改變著人們的行為與思維。

      一、大數(shù)據(jù)的概念

      與傳統(tǒng)意義上的數(shù)據(jù)相比,大數(shù)據(jù)的“大”與“數(shù)據(jù)”都有了新的含義,絕不僅僅是體量的問題,更重要的是數(shù)據(jù)的內涵問題。大數(shù)據(jù)不是基于人工設計、借助傳統(tǒng)方法而獲得的有限、固定、不連續(xù)、不可擴充的結構型數(shù)據(jù),而是基于現(xiàn)代信息技本與工具可以自動記錄、儲存和連續(xù)擴充的、大大超出傳統(tǒng)統(tǒng)計記錄與儲存能力的一切類型的數(shù)據(jù)。通俗地說,大數(shù)據(jù)就是一切可記錄信號的集合。

      如果說,傳統(tǒng)統(tǒng)計研究的數(shù)據(jù)是有意收集的結構化的樣本數(shù)據(jù),那么現(xiàn)在我們面對的數(shù)據(jù)則是一切可以記錄和存儲、源源不斷擴充、超大容量的各種類型的數(shù)據(jù)。樣本數(shù)據(jù)是按照特定研究目的、依據(jù)抽樣方案獲得的格式化的數(shù)據(jù),不僅數(shù)據(jù)量有限,而且如果過程偏離方案,數(shù)據(jù)就不能滿足要求?;蓸颖緮?shù)據(jù)所進行的分析,其空間十分有限——通常無法滿足多層次、多角度的需要,若遇到抽樣方案事先未曾考慮到的問題,數(shù)據(jù)的不可擴充性缺點就暴露無疑。而大數(shù)據(jù)是一切可以通過現(xiàn)代信息技術記錄和量化的數(shù)據(jù),不僅所蘊含的信息量巨大,而且不受各種框框的限制——任何種類的數(shù)據(jù)都來者不拒、也無法抵拒。不難發(fā)現(xiàn),大數(shù)據(jù)相比于樣本數(shù)據(jù)的最大優(yōu)點是,具有巨大的數(shù)據(jù)選擇空間,可以進行多維、多角度的數(shù)據(jù)分析。

      二、統(tǒng)計思維的變化

      統(tǒng)計學是關于數(shù)據(jù)的科學,即研究如何收集、整理和分析數(shù)據(jù)的科學。數(shù)據(jù)是依據(jù),是根本,是一個分析結果的靈魂,是統(tǒng)計方法生命力的根源所在,大數(shù)據(jù)時代的統(tǒng)計首先要適應兩個重大的思維轉變。

      (一)認識數(shù)據(jù)的思維要變化。

      首先,從來源上看,傳統(tǒng)的數(shù)據(jù)收集因為具有很強的針對性,因此數(shù)據(jù)的提供者大多是確定的,身份特征是可識別的,有的還可以進行事后核對。但大數(shù)據(jù)通常來源于物聯(lián)網,不是為了特定的數(shù)據(jù)收集目的而產生,而是人們一切可記錄的信號凸然,并且身份識別十分困難。從某種意義上講,大數(shù)據(jù)來源的微觀基礎是很難追溯的。

      其次,從類型上看,傳統(tǒng)數(shù)據(jù)基本上是結構型數(shù)據(jù),即定量數(shù)據(jù)加上少量專門設計的定性數(shù)據(jù),格式化、有標準,可以用常規(guī)的統(tǒng)計指標或統(tǒng)計圖表加以表現(xiàn)。但大數(shù)據(jù)很多的是非結構型數(shù)據(jù)、半結構型數(shù)據(jù)或異構數(shù)據(jù),包括了一切可記錄、可存儲的信號,多樣化、無標準、難以用傳統(tǒng)的統(tǒng)計指標或統(tǒng)計圖表加以表現(xiàn)。同時,不同的網絡信息系統(tǒng)有不同的數(shù)據(jù)識別方式,相互之間也沒用統(tǒng)一的數(shù)據(jù)分類標準。再者,現(xiàn)在有的數(shù)據(jù)庫是非關系型的數(shù)據(jù)庫,不需要預先設定記錄結構即可自動包容大量各種各樣的數(shù)據(jù)。

      (二)收集數(shù)據(jù)的思維要變化。

      由于大數(shù)據(jù)來源與種類的多樣性,以及數(shù)據(jù)增加的快速性,我們在享受數(shù)據(jù)的豐富性的同時也不得不面臨這樣一些困境;這樣一來,電子存儲能力能否跟得上數(shù)據(jù)增加的速度就成為首要的問題。如果讓數(shù)據(jù)庫自動更新就有可能失去一些寶貴的數(shù)據(jù)信息,而到了一定級別以后擴充存儲容量或對數(shù)據(jù)進行拷貝,其代價是十分巨大的,因此我們了得了對數(shù)據(jù)進行分類、篩選,有針對地刪除那些垃圾數(shù)據(jù)、不重要或次重要的數(shù)據(jù)。

      并不是任何數(shù)據(jù)都可以從現(xiàn)成的大數(shù)據(jù)中獲得,這里存在一個針對性、安全性和成本比較問題。因此,我們既要繼續(xù)采用傳統(tǒng)的方式方法去收集特定需要的數(shù)據(jù),又要善于利用現(xiàn)代網絡信息技術和各種數(shù)據(jù)源去收集一切相關的數(shù)據(jù),并善于從大數(shù)據(jù)中進行再過濾、再選擇。

      三、應對大數(shù)據(jù)的措施

      (一)需要改變總體、個體乃至樣本的定義方式。

      傳統(tǒng)的統(tǒng)計分析,是先有總體,再有數(shù)據(jù),即必須先確定總體范圍和個體單位,再收集個體數(shù)據(jù),分析總體。但對大數(shù)據(jù)來說,情況完全不同了,是先有數(shù)據(jù),再有總體。從某種意義上說,大數(shù)據(jù)的產生系統(tǒng)多數(shù)是非總體式的,即無事先定義的目標總體,只有與各個時點相對應的事后總體,原因就在于個體是不確定的,是變化著的,是無法事先編制名錄庫的,這與傳統(tǒng)的總體與個體有很大的不同。

      (二)需要改變對不確定性的認識。

      眾所周知,統(tǒng)計學是為了認識和研究事物的不確定性而產生的,因為無論是自然現(xiàn)象還是社會經濟現(xiàn)象,都時時處處充滿著因個體的差異性而引起的不確定性,因為在大多數(shù)情況下我們缺乏足夠的信息或缺乏足夠的知識去利用有效信息,而人們總是期望通過量化事物的不確定性去發(fā)現(xiàn)規(guī)律、揭示真相,認識不確定性背后的必然性。要研究不確定性就需要收集數(shù)據(jù),在只能進行抽樣觀測的情況下,這種不確定性就表現(xiàn)為如何獲得樣本、如何推斷總體和如何構建模型等方面。

      (三)需要建立新的數(shù)據(jù)梳理與分類方法。

      大數(shù)據(jù)的多樣性與混雜性,以及先有數(shù)據(jù)、后有總體的特點,原有的數(shù)據(jù)梳理與分類方法將受到諸多的限制。傳統(tǒng)的數(shù)據(jù)梳理與分類是按照預先設定的方案進行的,標志與指標的關系、分類標識與分組規(guī)則等都是結構化的,既是對有針對性地收集的數(shù)據(jù)的加工,也是統(tǒng)計分析的組成部分。但對于大數(shù)據(jù),由于新的網絡語言、新的信息內容、新的數(shù)據(jù)表現(xiàn)形式下斷出現(xiàn),使得會產生哪些種類的信息、有哪些可以利用的分類標識、不同標識之間是什么關系、類與類之間的識別度有多大、信息與個體之間的對應關系如何等,都無發(fā)事先加以嚴格設定或控制,住往需要事后進行補充或完善。

      (四)需要統(tǒng)計技術與云計算技術融合。

      盡管用于收集和分析數(shù)據(jù)的統(tǒng)計技術已相對成熟、自成體系,但其所能處理的數(shù)據(jù)量是有限的,面對不可同日而語的大數(shù)據(jù)、特別是其中大量的非結構化數(shù)據(jù)恐怕是難以勝任的。首失遇到的問題就是計算能力問題,這就要求我們在不斷創(chuàng)新與發(fā)展統(tǒng)計技術的同時,還要緊緊依靠現(xiàn)代信息技術、特別是云計算技術。借助云計算技求可以將網絡計算、分布式計算、并行計算、效用計算、網絡存儲、虛擬化、負載均衡等傳統(tǒng)計算機技術與現(xiàn)代網絡技術融合起來,把多個計算實體整合成一個具有強大計算能力的系統(tǒng)。

      猜你喜歡
      總體不確定性樣本
      憲法修改的重大意義總體要求和原則
      中國銀行業(yè)的未來:不確定性與希望并存
      直擊高考中的用樣本估計總體
      隨機微分方程的樣本Lyapunov二次型估計
      水下爆炸載荷作用下圓柱殼總體動態(tài)響應分析
      基于不確定性理論的樁板式擋墻施工風險評估
      廣義直覺模糊軟集的格結構
      基于支持向量機的測厚儀CS值電壓漂移故障判定及處理
      七年級數(shù)學下冊期末檢測題(B)
      坦克的組成和總體布置
      鹿泉市| 巫溪县| 长兴县| 遂宁市| 宜兰县| 徐水县| 墨竹工卡县| 龙泉市| 城口县| 仪征市| 太仆寺旗| 荣昌县| 綦江县| 涡阳县| 北京市| 西乌| 丰宁| 泌阳县| 台州市| 故城县| 洪江市| 和田县| 中阳县| 齐河县| 张家港市| 乌恰县| 湘西| 韶山市| 永安市| 宣武区| 图们市| 深州市| 正阳县| 罗平县| 横峰县| 汉源县| 嘉定区| 凤翔县| 宝清县| 三原县| 砚山县|