張海亮
(山西工程科技職業(yè)大學(xué) 計(jì)算機(jī)工程學(xué)院,山西 晉中 030619)
隨著大數(shù)據(jù)時代的到來,其數(shù)據(jù)量大、信息價值高、更新速度快等特點(diǎn)為統(tǒng)計(jì)工作拓寬了信息來源,帶來發(fā)展機(jī)遇,同時也提出了諸多挑戰(zhàn)。在大數(shù)據(jù)發(fā)展背景下,經(jīng)濟(jì)社會發(fā)展數(shù)字化改變了統(tǒng)計(jì)信息源的環(huán)境,促進(jìn)了統(tǒng)計(jì)工作的信息化與數(shù)字化;借助大數(shù)據(jù)技術(shù),統(tǒng)計(jì)工作的效率與質(zhì)量得到有效提升。從另一方面看,大數(shù)據(jù)環(huán)境下,“數(shù)出多源”“一數(shù)多源”等數(shù)據(jù)質(zhì)量問題,以及大數(shù)據(jù)統(tǒng)計(jì)模型建立與使用,在一定程度上也制約了統(tǒng)計(jì)大數(shù)據(jù)的有效應(yīng)用。如何解決數(shù)據(jù)數(shù)量與質(zhì)量之間的矛盾,如何在統(tǒng)計(jì)工作中充分發(fā)揮大數(shù)據(jù)優(yōu)勢,已成為各級統(tǒng)計(jì)部門亟須解決的緊迫課題。
在社會生產(chǎn)數(shù)字化建設(shè)和數(shù)字經(jīng)濟(jì)加速發(fā)展的背景下,“數(shù)據(jù)”已被普遍認(rèn)為是一種新型生產(chǎn)要素,在經(jīng)濟(jì)社會發(fā)展發(fā)揮著越來越重要的作用。數(shù)據(jù)的質(zhì)量決定著數(shù)據(jù)的價值,也從根本上影響著數(shù)字社會的形成。數(shù)據(jù)質(zhì)量,是指在業(yè)務(wù)環(huán)境下,數(shù)據(jù)符合數(shù)據(jù)消費(fèi)者的使用目的,能滿足業(yè)務(wù)場景具體需求的程度[1]。通俗地講,數(shù)據(jù)質(zhì)量是數(shù)據(jù)本身所具有的屬性滿足使用者需求的程度,一般包括真實(shí)性、準(zhǔn)確性、實(shí)時性、完整性和安全性等。在不同歷史時期,不同業(yè)務(wù)領(lǐng)域、不同用戶對數(shù)據(jù)質(zhì)量的要求不同,對數(shù)據(jù)質(zhì)量不同屬性的關(guān)注程度也存在差異性。
隨著信息技術(shù)發(fā)展和社會各行業(yè)數(shù)字化進(jìn)程的加速,數(shù)據(jù)統(tǒng)計(jì)應(yīng)用需求和場景也在不斷擴(kuò)大,統(tǒng)計(jì)數(shù)據(jù)的用途、使用范圍、應(yīng)用方式、統(tǒng)計(jì)指標(biāo)等也都在發(fā)生著深刻的變化。在不同時期,不同國家(或地區(qū))對統(tǒng)計(jì)數(shù)據(jù)質(zhì)量有不同的定義和要求。它是綜合性概念,可以從多個維度反映不同特征因素,包含準(zhǔn)確性、及時性、可用性、可獲得性、可比性等。統(tǒng)計(jì)數(shù)據(jù)的真實(shí)準(zhǔn)確是統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的核心,同時兼顧時效性、可比較性、適用性、保密安全等維度[2]。
由于統(tǒng)計(jì)數(shù)據(jù)質(zhì)量直接關(guān)系政府公信力與權(quán)威,且對治國理政決策有重大影響,世界各國越來越重視統(tǒng)計(jì)數(shù)據(jù)的質(zhì)量管理。在大數(shù)據(jù)背景下,統(tǒng)計(jì)數(shù)據(jù)的質(zhì)量除了一般定義下的數(shù)字質(zhì)量屬性外,圍繞應(yīng)用需求和客戶需求,在數(shù)據(jù)全面性、系統(tǒng)性等方面提出了更多更高的新要求。
統(tǒng)計(jì)數(shù)據(jù)質(zhì)量管理與經(jīng)濟(jì)社會發(fā)展、技術(shù)進(jìn)步、外部環(huán)境緊密關(guān)聯(lián),具有明顯的時代特征。在當(dāng)前大數(shù)據(jù)背景下,對統(tǒng)計(jì)數(shù)據(jù)質(zhì)量進(jìn)行深入研究,提出統(tǒng)計(jì)數(shù)據(jù)質(zhì)量管控策略對提高統(tǒng)計(jì)工作質(zhì)量和效率具有重要意義。
大數(shù)據(jù)概念從提出到應(yīng)用,經(jīng)過了一個快速發(fā)展的歷程。隨著應(yīng)用與發(fā)展的不斷深入,大數(shù)據(jù)所引起的變革已經(jīng)深刻影響到社會發(fā)展的各個領(lǐng)域。統(tǒng)計(jì)大數(shù)據(jù)在數(shù)據(jù)來源、數(shù)據(jù)類型、數(shù)據(jù)價值、存儲量、計(jì)算速度等方面與傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)有明顯的差異。21 世紀(jì)初,關(guān)于“大數(shù)據(jù)量”統(tǒng)計(jì)的研究和探討開始見諸期刊和報(bào)道,大數(shù)據(jù)開始逐步應(yīng)用在不同業(yè)務(wù)領(lǐng)域的統(tǒng)計(jì)工作中。
2013 年國家統(tǒng)計(jì)局全國統(tǒng)計(jì)工作會和務(wù)虛會中,明確提出要樹立大數(shù)據(jù)意識,加快大數(shù)據(jù)應(yīng)用步伐[3]。2013 年11 月,為積極推進(jìn)大數(shù)據(jù)在政府統(tǒng)計(jì)中的應(yīng)用,國家統(tǒng)計(jì)局與百度、阿里巴巴等多家企業(yè)簽訂了大數(shù)據(jù)戰(zhàn)略合作框架協(xié)議。同年,許小樂[4]針對“大數(shù)據(jù)”對政府統(tǒng)計(jì)工作的挑戰(zhàn)和影響進(jìn)行了研究。大數(shù)據(jù)在統(tǒng)計(jì)工作中實(shí)質(zhì)性的應(yīng)用開始不斷落地。
簡單來說,大數(shù)據(jù)在統(tǒng)計(jì)工作中的應(yīng)用可以概括為以下幾個方面:
在政府統(tǒng)計(jì)大數(shù)據(jù)平臺建設(shè)方面,國家層面統(tǒng)計(jì)大數(shù)據(jù)中心和網(wǎng)絡(luò)體系不斷完善,統(tǒng)計(jì)信息資源大數(shù)據(jù)穩(wěn)步發(fā)展。2013 年,南通市綜合數(shù)據(jù)管理平臺[5]一期工程建設(shè)完成,探索了部門信息歸集運(yùn)用新模式。北京、上海、重慶、山東、江蘇、甘肅、海南、河北等省(市)統(tǒng)計(jì)局均先后建設(shè)了大數(shù)據(jù)平臺,應(yīng)用大數(shù)據(jù)來提升政府統(tǒng)計(jì)數(shù)據(jù)質(zhì)量。大數(shù)據(jù)體系、大數(shù)據(jù)綜合平臺的建設(shè)和發(fā)展有效支撐了政府統(tǒng)計(jì)工作。
在政府政務(wù)工作中,基于大數(shù)據(jù)課時實(shí)現(xiàn)對國民經(jīng)濟(jì)運(yùn)行指標(biāo)統(tǒng)計(jì)和運(yùn)行狀況預(yù)測分析,提高宏觀經(jīng)濟(jì)運(yùn)行監(jiān)測的準(zhǔn)確性、實(shí)時性;以公安人口信息系統(tǒng)、人口和社會統(tǒng)計(jì)數(shù)據(jù)庫(人社數(shù)據(jù)庫)、互聯(lián)網(wǎng)數(shù)據(jù)等多口徑來源大數(shù)據(jù)能夠?qū)崿F(xiàn)更加精準(zhǔn)詳細(xì)的人口統(tǒng)計(jì)信息;在價格統(tǒng)計(jì)中,利用互聯(lián)網(wǎng)企業(yè)數(shù)據(jù)、電子商務(wù)交易數(shù)據(jù),以及超市、商場的商品結(jié)算信息等大數(shù)據(jù),可以實(shí)現(xiàn)價格指數(shù)更加及時、準(zhǔn)確的統(tǒng)計(jì),降低統(tǒng)計(jì)工作成本,增加價格指標(biāo)發(fā)布頻率和次數(shù)[6-8]。
此外,大數(shù)據(jù)在就業(yè)統(tǒng)計(jì)、失業(yè)預(yù)測、交通運(yùn)輸、公共衛(wèi)生[9]、商業(yè)零售服務(wù)、電商CPI 統(tǒng)計(jì)[10]、司法統(tǒng)計(jì)、金融統(tǒng)計(jì)[11-13]、證券行業(yè)預(yù)測、網(wǎng)絡(luò)社交統(tǒng)計(jì)、環(huán)境保護(hù)和氣象等其他專業(yè)統(tǒng)計(jì)中的也得到了廣泛應(yīng)用。
實(shí)踐表明,大數(shù)據(jù)應(yīng)用于統(tǒng)計(jì)工作在推動政務(wù)信息共享利用,提高統(tǒng)計(jì)數(shù)據(jù)質(zhì)量,提升統(tǒng)計(jì)效率,降低統(tǒng)計(jì)工作成本,增強(qiáng)常規(guī)統(tǒng)計(jì)時效性,豐富統(tǒng)計(jì)范圍,提升統(tǒng)計(jì)服務(wù)質(zhì)量等方面都發(fā)揮了非常積極的作用,取得了較好的效果。但是,應(yīng)用中也存在一些問題。
1.源頭數(shù)據(jù)質(zhì)量難以控制。在大數(shù)據(jù)統(tǒng)計(jì)中,統(tǒng)計(jì)數(shù)據(jù)一個主要來源是由調(diào)查對象自行填報(bào)通過聯(lián)網(wǎng)直報(bào)系統(tǒng)獲取,源頭數(shù)據(jù)質(zhì)量難以控制。此外,通過其他方式獲取的數(shù)據(jù)由于缺乏校驗(yàn)機(jī)制,數(shù)據(jù)在準(zhǔn)確性、完整性和一致性也難以保證。
2.數(shù)據(jù)缺乏標(biāo)準(zhǔn),獲取困難。在大數(shù)據(jù)背景下,為了增加數(shù)據(jù)的全面性,相關(guān)機(jī)構(gòu)和部門建立了各類數(shù)據(jù)中心,在采集、整合數(shù)據(jù)的過程中,不同來源的各類大數(shù)據(jù)由于沒有統(tǒng)一的數(shù)據(jù)格式、缺乏數(shù)據(jù)標(biāo)準(zhǔn)、技術(shù)標(biāo)準(zhǔn)和系統(tǒng)接口標(biāo)準(zhǔn),阻斷了數(shù)據(jù)采集、交換與共享的通道,增加了統(tǒng)計(jì)數(shù)據(jù)獲取難度,阻礙了大數(shù)據(jù)的有效共享和高效利用。
3.數(shù)據(jù)安全性保障不足。為不同領(lǐng)域和部門服務(wù)的統(tǒng)計(jì)資源庫由于受限于信息化基礎(chǔ)設(shè)施,統(tǒng)計(jì)數(shù)據(jù)資源存儲方式、數(shù)據(jù)庫管理系統(tǒng)在出現(xiàn)故障或異常時,往往引起數(shù)據(jù)丟失,造成損失;同時,統(tǒng)計(jì)大數(shù)據(jù)的綜合利用也給政府敏感數(shù)據(jù)、公民隱私信息等數(shù)據(jù)安全帶來隱患。此外,在互聯(lián)網(wǎng)、云計(jì)算等大數(shù)據(jù)應(yīng)用環(huán)境中,信息丟失、數(shù)據(jù)破壞也可能造成難以預(yù)估的不良影響。
大數(shù)據(jù)在統(tǒng)計(jì)中的應(yīng)用,給政府統(tǒng)計(jì)職能、統(tǒng)計(jì)手段、統(tǒng)計(jì)業(yè)務(wù)生產(chǎn)流程、統(tǒng)計(jì)工作相關(guān)機(jī)制體制和法規(guī)制度建設(shè)等提出了一定挑戰(zhàn)。
在數(shù)據(jù)采集、處理、存儲、應(yīng)用、展現(xiàn)直至消亡的生命周期中,數(shù)據(jù)處理、數(shù)據(jù)應(yīng)用、數(shù)據(jù)表現(xiàn)和數(shù)據(jù)管理等不同維度中各類因素和流程都可能影響數(shù)據(jù)質(zhì)量。特別是大數(shù)據(jù)背景下,數(shù)據(jù)全生命周期管理具體內(nèi)容發(fā)生了質(zhì)的變化,數(shù)據(jù)質(zhì)量影響因素及其影響貢獻(xiàn)率也隨之發(fā)生了變化。
統(tǒng)計(jì)大數(shù)據(jù)的質(zhì)量影響因素主要包括以下幾個方面:
圖1 統(tǒng)計(jì)大數(shù)據(jù)質(zhì)量影響因素
面對大數(shù)據(jù)環(huán)境,在統(tǒng)計(jì)數(shù)據(jù)采集中,數(shù)據(jù)源與采集方式包括人工統(tǒng)計(jì)報(bào)表導(dǎo)入、應(yīng)用系統(tǒng)數(shù)據(jù)交換、傳感器采集、網(wǎng)絡(luò)爬蟲抓取數(shù)據(jù)等。人工統(tǒng)計(jì)報(bào)表導(dǎo)入是相對能夠保證數(shù)據(jù)質(zhì)量的一種大數(shù)據(jù)采集方式,但是,其效率較低,同時,在報(bào)表導(dǎo)入過程中,由于原有表格規(guī)范性和導(dǎo)入系統(tǒng)程序接口兼容方面,可能會在數(shù)據(jù)導(dǎo)入過程中出現(xiàn)錯誤,特別是報(bào)表中的“空值”和“0 值”;傳感器采集在統(tǒng)計(jì)數(shù)據(jù)質(zhì)量檢驗(yàn)、特定對象跟蹤統(tǒng)計(jì)、動態(tài)交通流統(tǒng)計(jì)、國民經(jīng)濟(jì)核算經(jīng)濟(jì)流量和存量測算等方面取得了較好的應(yīng)用效果,傳感器本身采集的準(zhǔn)確性,以及數(shù)據(jù)的安全性是當(dāng)前傳感器數(shù)據(jù)采集的主要制約因素。
采集數(shù)據(jù)的時效性和質(zhì)量會由于數(shù)據(jù)采集方式、采集工具的多樣和采集技術(shù)的特點(diǎn)而受到一定程度影響。同時,由于數(shù)據(jù)來源更加廣泛和多源,數(shù)據(jù)間的矛盾性和差異性影響了大數(shù)據(jù)統(tǒng)計(jì)的效率。
大數(shù)據(jù)環(huán)境下采集的數(shù)據(jù)往往出現(xiàn)一數(shù)多源、多源互異等情況,因此,一般情況下,無論以何種方式,通過何種渠道采集而來的數(shù)據(jù),都無法直接應(yīng)用于大數(shù)據(jù)統(tǒng)計(jì)與分析,需要經(jīng)過一定的預(yù)處理來提高數(shù)據(jù)質(zhì)量,提高數(shù)據(jù)可用性。通過數(shù)據(jù)清洗,可以運(yùn)用技術(shù)手段和方法,按照一定的規(guī)則和策略,將采集數(shù)據(jù)中錯誤、重復(fù)或者遺漏的數(shù)據(jù)進(jìn)行規(guī)范化處理。對于數(shù)據(jù)格式不一致、字段數(shù)據(jù)匹配不正確等問題,則需要通過數(shù)據(jù)轉(zhuǎn)換來實(shí)現(xiàn)對數(shù)據(jù)質(zhì)量的管控。
數(shù)據(jù)清洗和數(shù)據(jù)轉(zhuǎn)換是最常見的預(yù)處理技術(shù),數(shù)據(jù)預(yù)處理的規(guī)則直接影響著數(shù)據(jù)質(zhì)量。
分布式存儲是當(dāng)前大數(shù)據(jù)主要的存儲技術(shù),與存儲介質(zhì)類型、數(shù)據(jù)的組織管理形式有直接關(guān)系。對應(yīng)于大數(shù)據(jù)的不同特征,應(yīng)側(cè)重的選用不同的存儲技術(shù)。不同的存儲技術(shù),存儲介質(zhì)對數(shù)據(jù)存儲與訪問的及時性、安全性和準(zhǔn)確性有影響。
用于統(tǒng)計(jì)大數(shù)據(jù)的分布式處理技術(shù)與統(tǒng)計(jì)大數(shù)據(jù)的數(shù)據(jù)類型、存儲形式相關(guān)?;贘ava 技術(shù)的Hadoop 體系架構(gòu)具有較強(qiáng)的批處理能力,適用于較大規(guī)模數(shù)據(jù)的批量化處理,但時效性較差,對超大規(guī)模數(shù)據(jù)難以實(shí)現(xiàn)集中快速處理。Storm 技術(shù)基于拓?fù)浣Y(jié)構(gòu)來實(shí)現(xiàn)數(shù)據(jù)流轉(zhuǎn)換,更適用于數(shù)據(jù)集群結(jié)構(gòu)的實(shí)時處理,具有更強(qiáng)的時效性和容錯性,但其處理穩(wěn)定性與靈活度不足。Spark 基于直接面向用戶的內(nèi)存式計(jì)算框架可以將數(shù)據(jù)流轉(zhuǎn)化為超低量秒級數(shù)據(jù)集實(shí)現(xiàn)數(shù)據(jù)自動收集與批量計(jì)算,但該技術(shù)對系統(tǒng)軟硬件有較高要求。
不同大數(shù)據(jù)處理計(jì)算框架模型適用于不同數(shù)據(jù)類型與數(shù)據(jù)規(guī)模,影響著大數(shù)據(jù)處理的質(zhì)量和效率。大數(shù)據(jù)分析過程中,數(shù)據(jù)的聚類與分類、數(shù)據(jù)關(guān)聯(lián)分析和數(shù)據(jù)深度學(xué)習(xí),影響著統(tǒng)計(jì)大數(shù)據(jù)的可用性、準(zhǔn)確性,決定著大數(shù)據(jù)的價值。
大數(shù)據(jù)的可視化展示是大數(shù)據(jù)前期處理與分析結(jié)果的輸出,能夠直觀向用戶呈現(xiàn)大數(shù)據(jù)統(tǒng)計(jì)分析的結(jié)果,并進(jìn)行交互處理。數(shù)據(jù)展示的方式、維度反映了大數(shù)據(jù)可用性、易于理解等質(zhì)量特性。
經(jīng)過數(shù)據(jù)預(yù)處理、數(shù)據(jù)處理與分析后的數(shù)據(jù),應(yīng)用于一定模型即可應(yīng)用于統(tǒng)計(jì)分析、戰(zhàn)略規(guī)劃和決策分析。大數(shù)據(jù)應(yīng)用是數(shù)據(jù)價值的體現(xiàn),直接反映了統(tǒng)計(jì)大數(shù)據(jù)從采集、預(yù)處理到輸出成果的可用性和準(zhǔn)確性。
除了上述技術(shù)層面外,在大數(shù)據(jù)背景下,相關(guān)管理制度、標(biāo)準(zhǔn)規(guī)范、統(tǒng)計(jì)人員隊(duì)伍等管理層面諸多因素也影響著統(tǒng)計(jì)數(shù)據(jù)質(zhì)量。
在社會經(jīng)濟(jì)數(shù)字化高速發(fā)展的進(jìn)程中,大數(shù)據(jù)應(yīng)用于統(tǒng)計(jì)工作是必然趨勢。有效控制和提高大數(shù)據(jù)質(zhì)量,將有力提升統(tǒng)計(jì)工作質(zhì)量與效率。提高統(tǒng)計(jì)大數(shù)據(jù)質(zhì)量可以從管理、技術(shù)等多個角度,針對其各影響因素進(jìn)行質(zhì)量控制。
大數(shù)據(jù)發(fā)展及其在統(tǒng)計(jì)領(lǐng)域的研究與應(yīng)用已證明其有效性與先進(jìn)性,大數(shù)據(jù)背景下傳統(tǒng)統(tǒng)計(jì)工作在面臨挑戰(zhàn)的同時也迎來了創(chuàng)新發(fā)展的新機(jī)遇。各級統(tǒng)計(jì)機(jī)構(gòu)和管理部門應(yīng)積極主動適應(yīng)新形勢,增強(qiáng)大數(shù)據(jù)應(yīng)用敏感性,克服大數(shù)據(jù)“恐懼癥”,順應(yīng)“信息資源”向“信息資產(chǎn)”的轉(zhuǎn)變,充分理解小樣本數(shù)據(jù)精準(zhǔn)統(tǒng)計(jì)與大數(shù)據(jù)高效分析的一致性,營造寬容的大數(shù)據(jù)統(tǒng)計(jì)研究應(yīng)用環(huán)境,重視大數(shù)據(jù)統(tǒng)計(jì)工作。
建立健全和完善大數(shù)據(jù)統(tǒng)計(jì)相關(guān)規(guī)范與制度,結(jié)合大數(shù)據(jù)統(tǒng)計(jì)工作應(yīng)用場景,制定修訂相關(guān)管理辦法和要求,保障大數(shù)據(jù)統(tǒng)計(jì)工作相關(guān)標(biāo)準(zhǔn)規(guī)范的協(xié)調(diào)性;完善統(tǒng)計(jì)業(yè)務(wù)分類與指標(biāo)設(shè)置,優(yōu)化統(tǒng)計(jì)工作流程,加強(qiáng)統(tǒng)計(jì)業(yè)務(wù)指導(dǎo)與培訓(xùn),準(zhǔn)確理解統(tǒng)計(jì)指標(biāo);通過加強(qiáng)事前、事中和事后監(jiān)督加強(qiáng)數(shù)據(jù)質(zhì)量檢查校驗(yàn),確保數(shù)出有源、數(shù)出有據(jù),提高源頭統(tǒng)計(jì)數(shù)據(jù)質(zhì)量。建立與大數(shù)據(jù)應(yīng)用相匹配的大數(shù)據(jù)采集標(biāo)準(zhǔn)體系、大數(shù)據(jù)采集經(jīng)費(fèi)保障體系和大數(shù)據(jù)技術(shù)支撐體系,規(guī)范統(tǒng)計(jì)工作中大數(shù)據(jù)應(yīng)用的方式、流程、技術(shù)路線,并建立跟蹤評價機(jī)制。
此外,為適應(yīng)大數(shù)據(jù)相關(guān)技術(shù)快速發(fā)展的特點(diǎn),政府統(tǒng)計(jì)管理部門應(yīng)在各綜合統(tǒng)計(jì)、專項(xiàng)統(tǒng)計(jì)中要進(jìn)一步加強(qiáng)大數(shù)據(jù)統(tǒng)計(jì)元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范的制定、發(fā)布、更新和采標(biāo)監(jiān)督,加大統(tǒng)計(jì)大數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范全流程管控力度,以數(shù)據(jù)規(guī)范性引領(lǐng)統(tǒng)計(jì)大數(shù)據(jù)質(zhì)量。
以“頂層設(shè)計(jì)”理念,充分調(diào)研挖掘統(tǒng)計(jì)部門大數(shù)據(jù)應(yīng)用需求,統(tǒng)籌規(guī)劃、集約高效建設(shè)統(tǒng)計(jì)大數(shù)據(jù)信息資源平臺。采用“1 中心N 節(jié)點(diǎn)”的總體架構(gòu),以云計(jì)算、大數(shù)據(jù)、5G、物聯(lián)網(wǎng)、“互聯(lián)網(wǎng)+”等技術(shù)為依托,“公有云+私有云”“政務(wù)網(wǎng)+專網(wǎng)+互聯(lián)網(wǎng)”連通跨行業(yè)、跨部門數(shù)據(jù)信息系統(tǒng),以“普查數(shù)據(jù)+專項(xiàng)調(diào)查數(shù)據(jù)+聯(lián)網(wǎng)直報(bào)系統(tǒng)”核心統(tǒng)計(jì)數(shù)據(jù)資源與第三方商業(yè)數(shù)據(jù)資源相結(jié)合,融合構(gòu)建統(tǒng)一的網(wǎng)絡(luò)管理、資源管理、安全管理、業(yè)務(wù)部署等系統(tǒng)管理功能,集約建設(shè)高性能高可用的計(jì)算、存儲、網(wǎng)絡(luò)、安全信息化基礎(chǔ)支撐體系和數(shù)據(jù)信息資源庫,支撐統(tǒng)計(jì)大數(shù)據(jù)的交換、共享和業(yè)務(wù)應(yīng)用。
統(tǒng)計(jì)大數(shù)據(jù)信息資源平臺是大數(shù)據(jù)應(yīng)用于統(tǒng)計(jì)工作的重要支撐,對提高數(shù)據(jù)采集的及時性、準(zhǔn)確性、高效性具有重要意義。統(tǒng)一的數(shù)據(jù)采集、共享交換平臺,合理規(guī)范了數(shù)據(jù)采集的范圍,有效避免了非權(quán)威、不完整、質(zhì)量差數(shù)據(jù)納入到統(tǒng)計(jì)數(shù)據(jù)源;基于統(tǒng)一元數(shù)據(jù)標(biāo)準(zhǔn)建立的數(shù)據(jù)質(zhì)量管控與評估系統(tǒng),將數(shù)字質(zhì)量管控貫穿于數(shù)據(jù)全生命周期,實(shí)現(xiàn)對“數(shù)出多源”“多源一數(shù)”“多源異構(gòu)”等數(shù)據(jù)進(jìn)行規(guī)范化轉(zhuǎn)換、清洗、質(zhì)量校驗(yàn)與預(yù)處理,從數(shù)據(jù)采集端實(shí)現(xiàn)對數(shù)據(jù)質(zhì)量的把控;采用云計(jì)算、云存儲、區(qū)塊鏈等技術(shù),能夠有效提升數(shù)據(jù)存儲與訪問的效率與安全性。
大數(shù)據(jù)的“4V”特性,一方面反映了其價值與作用,另一方面也為其開發(fā)利用提出了要求。面對統(tǒng)計(jì)大數(shù)據(jù)“海量”信息,充分了解大數(shù)據(jù)優(yōu)勢,借助大數(shù)據(jù)挖掘分析技術(shù)對統(tǒng)計(jì)大數(shù)據(jù)進(jìn)行整合,利用SAS 等多元化統(tǒng)計(jì)工具,從大量統(tǒng)計(jì)相關(guān)數(shù)據(jù)中獲取有價值的信息,面向用戶需求對傳統(tǒng)統(tǒng)計(jì)方法進(jìn)行補(bǔ)充與優(yōu)化,為統(tǒng)計(jì)工作提供堅(jiān)實(shí)基礎(chǔ)。
數(shù)據(jù)挖掘一般包括對大數(shù)據(jù)的清洗、轉(zhuǎn)換、集成應(yīng)用、挖掘分析、模式評價和最終的知識表達(dá)。在大數(shù)據(jù)統(tǒng)計(jì)中,應(yīng)根據(jù)數(shù)據(jù)資源構(gòu)成特點(diǎn)、統(tǒng)計(jì)業(yè)務(wù)模型等因素,選擇適宜的大數(shù)據(jù)處理技術(shù)進(jìn)行模型計(jì)算與數(shù)據(jù)挖掘,并結(jié)合統(tǒng)計(jì)業(yè)務(wù)需求定義不同深度、不同維度、不同粒度、不同發(fā)布頻次的數(shù)據(jù)輸出形式。
結(jié)合大數(shù)據(jù)信息資源平臺建設(shè)、大數(shù)據(jù)技術(shù)應(yīng)用要求,建立、完善和創(chuàng)新大數(shù)據(jù)背景下統(tǒng)計(jì)信息化建設(shè)、應(yīng)用和管理體制機(jī)制。目前,隨著數(shù)字政府的推進(jìn),各省政務(wù)信息化建設(shè)呈現(xiàn)出“云端集中”趨勢,隨著5G、人工智能、IOT、云邊端計(jì)算一體化等技術(shù)的推廣應(yīng)用,數(shù)據(jù)采集、處理與展示開始向智能化、便攜式、移動化方向發(fā)展,需要建立相應(yīng)的統(tǒng)計(jì)大數(shù)據(jù)信息資源平臺建設(shè)、運(yùn)維和管理體制機(jī)制。
此外,“互聯(lián)網(wǎng)+”新業(yè)態(tài)蓬勃發(fā)展,開源互聯(lián)網(wǎng)思維,以及眾創(chuàng)、眾包、眾扶、眾籌平臺,都為大數(shù)據(jù)統(tǒng)計(jì)工作與統(tǒng)計(jì)大數(shù)據(jù)應(yīng)用發(fā)展提供了良好的“生態(tài)圈”。統(tǒng)計(jì)大數(shù)據(jù)共享、大數(shù)據(jù)開發(fā)應(yīng)用、大數(shù)據(jù)統(tǒng)計(jì)產(chǎn)品等都為大數(shù)據(jù)背景下統(tǒng)計(jì)數(shù)據(jù)質(zhì)量管控打開了新的空間。
隨著大數(shù)據(jù)背景下統(tǒng)計(jì)信息化相關(guān)機(jī)制體制的建立健全,原有統(tǒng)計(jì)信息化人才的配置要求、崗位職能以及培養(yǎng)模式都應(yīng)隨著形勢適時調(diào)整。內(nèi)部培養(yǎng)與外部引進(jìn)相結(jié)合,加快培養(yǎng)適應(yīng)大數(shù)據(jù)發(fā)展需求,既精通統(tǒng)計(jì)業(yè)務(wù)又掌握信息技術(shù)的復(fù)合型人才,同步加大大數(shù)據(jù)、云計(jì)算等信息化領(lǐng)域?qū)I(yè)人才引進(jìn),打造高素質(zhì)的統(tǒng)計(jì)信息化專業(yè)人才隊(duì)伍。加大與互聯(lián)網(wǎng)企業(yè)、科研院所、高校、社會團(tuán)體等聯(lián)合構(gòu)建大數(shù)據(jù)統(tǒng)計(jì)創(chuàng)新平臺,在學(xué)術(shù)研究、技術(shù)合作、應(yīng)用交流中持續(xù)培養(yǎng)創(chuàng)新型人才。依據(jù)大數(shù)據(jù)、信息技術(shù)發(fā)展特點(diǎn),制定定期培養(yǎng)與動態(tài)考核相結(jié)合的人才考核評價體系,構(gòu)建學(xué)習(xí)型統(tǒng)計(jì)信息化人才隊(duì)伍。
統(tǒng)計(jì)工作通過對數(shù)據(jù)信息的收集、匯總、計(jì)算、分析來獲得或者反映事物的特征與規(guī)律,影響著國民經(jīng)濟(jì)的方方面面,對國計(jì)民生、社會發(fā)展都起著巨大的影響作用。伴隨著信息技術(shù)發(fā)展與社會數(shù)字化進(jìn)程,統(tǒng)計(jì)工作既得益于大數(shù)據(jù)而有了創(chuàng)新與發(fā)展,又受礙于大數(shù)據(jù)質(zhì)量問題而受到諸多挑戰(zhàn)與困難。在大數(shù)據(jù)背景下,提升統(tǒng)計(jì)數(shù)據(jù)質(zhì)量是一項(xiàng)復(fù)雜而艱巨系統(tǒng)工程,政府統(tǒng)計(jì)主管部門、各級統(tǒng)計(jì)機(jī)構(gòu)都應(yīng)該積極主動迎接大數(shù)據(jù)時代的到來,通過管理層面、技術(shù)層面多措并舉采取有效策略解決大數(shù)據(jù)統(tǒng)計(jì)數(shù)據(jù)質(zhì)量問題,推動統(tǒng)計(jì)事業(yè)高質(zhì)量發(fā)展和統(tǒng)計(jì)工作現(xiàn)代化服務(wù)。
當(dāng)然,在推動大數(shù)據(jù)統(tǒng)計(jì)應(yīng)用的同時,我們還需要與時俱進(jìn)加強(qiáng)數(shù)據(jù)安全、網(wǎng)絡(luò)與信息安全意識。在大數(shù)據(jù)背景下,網(wǎng)絡(luò)與信息安全將是統(tǒng)計(jì)工作未來無法回避的又一挑戰(zhàn)。