楊云渝
云南省公路局 云南昆明 650041
大數(shù)據(jù)時代統(tǒng)計工作面臨的問題及對策
楊云渝
云南省公路局 云南昆明 650041
“大數(shù)據(jù)”的本質(zhì)實際上是數(shù)據(jù)生產(chǎn)的社會化,其對統(tǒng)計工作的沖擊是重大的,不僅涉及到整個統(tǒng)計流程,更加對當(dāng)前的統(tǒng)計管理體制、機(jī)構(gòu)設(shè)置、數(shù)據(jù)價值等方面形成了挑戰(zhàn)。統(tǒng)計工作者必須正視這種變革,順應(yīng)這種潮流,本文就大數(shù)據(jù)時代統(tǒng)計工作面臨的的問題及其應(yīng)對策略進(jìn)行探討。
大數(shù)據(jù);統(tǒng)計工作;問題;對策
(一)統(tǒng)計工作的硬件環(huán)境問題。影響數(shù)據(jù)處理的因素,歸結(jié)起來主要有計算、存儲和網(wǎng)絡(luò)三大方面的因素。數(shù)據(jù)計算要依靠服務(wù)器來實現(xiàn),服務(wù)器整體表現(xiàn)出來的性能,是影響大數(shù)據(jù)處理的關(guān)鍵因素。大數(shù)據(jù)的“4V”特征使得統(tǒng)計數(shù)據(jù)在存儲、傳輸、分析、處理等方面均帶來本質(zhì)變化,隨著統(tǒng)計數(shù)據(jù)量的快速增長,統(tǒng)計部門現(xiàn)有的存儲容量和技術(shù)、網(wǎng)絡(luò)帶寬能力等面臨挑戰(zhàn)。
(二)統(tǒng)計工作的數(shù)據(jù)質(zhì)量問題。美國諺語云“除了上帝,任何人都必須用數(shù)據(jù)來說話”,數(shù)據(jù)質(zhì)量如何,決定了說話的分量。我們?nèi)匀蝗狈σ詳?shù)據(jù)為基礎(chǔ)的精確管理,有時甚至是刻意回避數(shù)據(jù)。隨著數(shù)據(jù)的公開細(xì)化程度不斷提高,由于部分民眾對統(tǒng)計指標(biāo)和數(shù)據(jù)理解不確切,加上數(shù)據(jù)采集流程欠完善、地方政府干擾統(tǒng)計數(shù)據(jù)等原因?qū)е虏糠纸y(tǒng)計數(shù)據(jù)質(zhì)量不高,國民對統(tǒng)計數(shù)據(jù)的公信度較低。
(三)統(tǒng)計工作的數(shù)據(jù)應(yīng)用問題。應(yīng)用數(shù)據(jù)并不是簡單的數(shù)據(jù)匯總或數(shù)據(jù)羅列,而是要按照科學(xué)方法挖掘數(shù)據(jù),對這些原始的數(shù)據(jù)進(jìn)行加工、整理和上升為重要的結(jié)論。統(tǒng)計部門既是數(shù)據(jù)的生產(chǎn)者,又是數(shù)據(jù)的消費(fèi)者,統(tǒng)計數(shù)據(jù)的應(yīng)用應(yīng)該貫穿政策倡議、決定、執(zhí)行、評估、復(fù)議的全過程,通過數(shù)據(jù)來指導(dǎo)行動,用數(shù)據(jù)提高政府的決策效率和決策質(zhì)量。
(四)統(tǒng)計工作的數(shù)據(jù)安全性問題。目前大部分統(tǒng)計原始數(shù)據(jù)由企業(yè)通過“一套表”聯(lián)網(wǎng)直報,在線對話活動頻繁;主要統(tǒng)計數(shù)據(jù)通過統(tǒng)計局域網(wǎng)直接公布更新;各種辦公軟件需要實名制操作,并捆綁固定IP或電腦物理信息?,F(xiàn)在黑客的組織能力、作案工具、作案手法及隱蔽程度非常之高,很容易通過對用戶數(shù)據(jù)的深度分析,了解個人用戶行為和習(xí)慣喜好等隱私,甚至企業(yè)用戶的商業(yè)機(jī)密等,數(shù)據(jù)安全性受到全面挑戰(zhàn)。
(一)改變對樣本的定義方式。大數(shù)據(jù)是先有數(shù)據(jù),再有總體。而不同網(wǎng)絡(luò)系統(tǒng)的相同符號也未必就是同一個個體,而且還經(jīng)常存在個體異位的情況,但對大數(shù)據(jù)的分析,仍然有一個總體口徑問題,依然需要識別個體身份。這就需要我們改變總體與個體的定義方式。與此對應(yīng),如果要從大數(shù)據(jù)庫中提取樣本數(shù)據(jù),那么樣本的定義方式也需要改變。當(dāng)然,考慮到大數(shù)據(jù)的流動變化性,任何時點(diǎn)的總體都可以被理解為一個截面樣本。
(二)改變對不確定性的認(rèn)識。對于大數(shù)據(jù),仍然存在著個體的差異性,大數(shù)據(jù)的不確定性就不再是樣本的獲取與總體的推斷,而是數(shù)據(jù)的來源、個體的識別、信息的量化、數(shù)據(jù)的分類、關(guān)聯(lián)物的選擇、節(jié)點(diǎn)的確定,以及結(jié)論的可能性判斷等方面??梢哉f,大數(shù)據(jù)的不確定性只來自于其來源的多樣性與混雜性,以及由于個體的可變性所引起的總體多變性,而不是同類個體之間的差異性——因為我們已經(jīng)掌握了一定條件下的完全信息。
(三)建立新的數(shù)據(jù)梳理與分類方法。對于大數(shù)據(jù),由于新的網(wǎng)絡(luò)語言、新的信息內(nèi)容、新的數(shù)據(jù)表現(xiàn)形式不斷出現(xiàn),使得會產(chǎn)生哪些種類的信息、有哪些可以利用的分類標(biāo)識、不同標(biāo)識之間是什么關(guān)系、類與類之間的識別度有多大、信息與個體之間的對應(yīng)關(guān)系如何等,都無法事先加以嚴(yán)格設(shè)定或控制,往往需要事后進(jìn)行補(bǔ)充或完善。面對超大量的數(shù)據(jù),我們只能從數(shù)據(jù)本身入手,從觀察數(shù)據(jù)分布特征入手。根據(jù)大數(shù)據(jù)的特點(diǎn),創(chuàng)新與發(fā)展數(shù)據(jù)的梳理與分類方法,是有效開展大數(shù)據(jù)分析的重要前提。
(四)強(qiáng)化結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的對接。出于針對性與安全性考慮,如何既能有針對性地收集所需的結(jié)構(gòu)化數(shù)據(jù),又能從大量非結(jié)構(gòu)化數(shù)據(jù)中挖掘出有價值的信息,使兩者相輔相成、有機(jī)結(jié)合,成了一個新的課題,值得探討的問題包括非結(jié)構(gòu)化數(shù)據(jù)如何結(jié)構(gòu)化或結(jié)構(gòu)化數(shù)據(jù)能否采用非結(jié)構(gòu)化的表現(xiàn)形式等。通過特定的方法,實現(xiàn)結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的轉(zhuǎn)化與對接是完全可能的。要實現(xiàn)這種對接,必須增強(qiáng)對各種類型數(shù)據(jù)進(jìn)行測度與描述的能力。如果說傳統(tǒng)的基于樣本數(shù)據(jù)的統(tǒng)計分析側(cè)重于推斷,那么基于大數(shù)據(jù)的統(tǒng)計分析需要更加關(guān)注描述。
(五)歸納推斷法與演繹推理法并用。歸納推斷法是最主要的統(tǒng)計研究方法,而歸納推斷的依據(jù)通常是樣本數(shù)據(jù)。大數(shù)據(jù)是一個信息寶庫,光重視一般特征的歸納與概括是不夠的,還需要分析研究子類信息乃至個體信息,以及某些特殊的、異常的信息,還需要通過已掌握的分布特征和相關(guān)知識與經(jīng)驗去推理分析其他更多、更具體的規(guī)律,去發(fā)現(xiàn)更深層次的關(guān)聯(lián)關(guān)系,去對某些結(jié)論做出判斷,這就需要運(yùn)用演繹推理法。只要?dú)w納法與演繹法結(jié)合得好,我們就既可以從大數(shù)據(jù)的偶然性中發(fā)現(xiàn)必然性,又可以利用全面數(shù)據(jù)的必然性去觀察、認(rèn)識、甚至利用偶然性。
(六)統(tǒng)計技術(shù)與云計算技術(shù)融合。面對大數(shù)據(jù)中大量的非結(jié)構(gòu)化數(shù)據(jù),要求我們在不斷創(chuàng)新與發(fā)展統(tǒng)計技術(shù)的同時,必須緊緊依靠現(xiàn)代信息技術(shù)、特別是云計算技術(shù)。借助云計算技術(shù)可以將網(wǎng)格計算、分布式計算、并行計算、效用計算、網(wǎng)絡(luò)存儲、虛擬化、負(fù)載均衡等傳統(tǒng)計算機(jī)技術(shù)與現(xiàn)代網(wǎng)絡(luò)技術(shù)融合起來,把多個計算實體整合成一個具有強(qiáng)大計算能力的系統(tǒng)。可見,統(tǒng)計技術(shù)與云計算技術(shù)的融合是一種優(yōu)勢互補(bǔ),只有這樣統(tǒng)計技術(shù)才能在大數(shù)據(jù)時代一展身手、有所作為,才能真正把統(tǒng)計思想在數(shù)據(jù)分析中得到體現(xiàn),實現(xiàn)統(tǒng)計分析研究的目的。
[1]李金昌.大數(shù)據(jù)與統(tǒng)計新思維[J].統(tǒng)計研究,2014-3.
[2]程鑫.大數(shù)據(jù)時代傳統(tǒng)相關(guān)分析的局限與拓展[J].統(tǒng)計與決策,2015-5.
楊云渝(1981-)女,云南石屏縣人,云南省公路局主任科員,中級統(tǒng)計師。