周靜 余浩然 謝誼 龔偉
2017年12月8日,習近平總書記在中共中央政治局第二次集體學習時強調(diào),要“實施國家大數(shù)據(jù)戰(zhàn)略加快建設數(shù)字中國”,領導干部要“善于獲取數(shù)據(jù)、分析數(shù)據(jù)、運用數(shù)據(jù)”。為給社會、政府提供更高效專業(yè)的咨詢服務,各級政府部門要審時度勢、精心謀劃、超前布局,主動深入了解大數(shù)據(jù)、發(fā)展大數(shù)據(jù),謀思變革,著手研究如何克服各種數(shù)據(jù)資源的差異性,使大數(shù)據(jù)和政府部門統(tǒng)計數(shù)據(jù)融合發(fā)展,建立以標準化數(shù)據(jù)庫為核心的、強大的統(tǒng)計數(shù)據(jù)庫信息智庫系統(tǒng),推進數(shù)據(jù)資源整合和開放共享。
一、大數(shù)據(jù)與政府部門統(tǒng)計工作融合的必要性
大數(shù)據(jù)不僅帶來了海量數(shù)據(jù),也開啟了人們利用數(shù)據(jù)的新模式,改變著人們的思維模式,更給傳統(tǒng)政府統(tǒng)計部門采集、管理、分析、應用和發(fā)布數(shù)據(jù)等各方面工作帶來前所未有的沖擊。
(一)經(jīng)濟社會發(fā)展的必然需求
大數(shù)據(jù)是信息技術發(fā)展的必然產(chǎn)物,其發(fā)展推動了數(shù)字經(jīng)濟的形成與繁榮,已經(jīng)成為數(shù)字經(jīng)濟發(fā)展的關鍵生產(chǎn)要素和社會基礎性戰(zhàn)略資源,也成為國際競爭的前沿地帶。[1]要建設“數(shù)字中國”,就要發(fā)展數(shù)字經(jīng)濟;要推動經(jīng)濟發(fā)展質(zhì)量變革、動力變革,就必須實施大數(shù)據(jù)發(fā)展戰(zhàn)略?,F(xiàn)在,不管國外還是國內(nèi),都把大數(shù)據(jù)應用的重點由市場轉(zhuǎn)向政府,而政府統(tǒng)計部門就是大數(shù)據(jù)在政府工作應用中尚未開墾的“良田”,大數(shù)據(jù)和政府統(tǒng)計數(shù)據(jù)深度融合的研究應用是經(jīng)濟社會發(fā)展的必然趨勢。
(二)政府科學決策的必然要求
大數(shù)據(jù)特征歸納為四個“V”:數(shù)量(Volume)巨大,種類(Variety)變化多,價值(Value)密度低,速度(Velocity)處理快,能對非結(jié)構數(shù)據(jù)進行海量計算和精準分析,干擾性小,有很強的應用價值,但在實踐中對決策指導性等深層次分析應用相對偏少。[2]政府統(tǒng)計主要采用聯(lián)網(wǎng)直報報表或者入戶調(diào)查等手段,對結(jié)構化數(shù)據(jù)的上報審核匯總清晰,程序嚴謹,但是對于非結(jié)構化數(shù)據(jù)的收集、存儲和分析處理能力非常有限。為了更全面、更快捷、更準確收集數(shù)據(jù),更深入分析各方面信息,深度挖掘大數(shù)據(jù)價值,形成平臺共用、數(shù)據(jù)融合、業(yè)務協(xié)同、上下聯(lián)動的“全數(shù)據(jù)”“一盤棋”系統(tǒng),利用大數(shù)據(jù)提升政府統(tǒng)計科學決策能力和現(xiàn)代化水平,大數(shù)據(jù)與政府統(tǒng)計數(shù)據(jù)的深度融合勢在必行。
(三)人民日益增長的美好生活需要
隨著數(shù)字經(jīng)濟的到來,手機、電腦、移動客戶端等逐漸成為人們?nèi)粘I缃?、生活學習工作中必不可少的一部分,如何更快捷、更準確、更豐富地獲取所需大數(shù)據(jù)信息已經(jīng)成為大眾需求。所以,大數(shù)據(jù)和政府統(tǒng)計數(shù)據(jù)的融合應用既是人民日益增長的美好生活需要,也是政府統(tǒng)計部門更好服務社會、提升服務水平的重要工作之一。
二、大數(shù)據(jù)與政府部門統(tǒng)計數(shù)據(jù)融合建庫的困難
(一)標準不統(tǒng)一
雖然大數(shù)據(jù)能大大地提升政府部門統(tǒng)計工作的信息化技術水平,但是要實現(xiàn)大數(shù)據(jù)和政府部門統(tǒng)計數(shù)據(jù)的融合還面臨著一些技術難點,其中最大難點就是多源異構數(shù)據(jù)整合方法的設計研究,即缺乏對標準、規(guī)范、高效和統(tǒng)一的數(shù)據(jù)交換標準和數(shù)據(jù)管理標準的體系研究。在以往數(shù)據(jù)庫系統(tǒng)建設中,不同組織、不同系統(tǒng)建立了種類繁多的元數(shù)據(jù)體系,統(tǒng)計調(diào)查元數(shù)據(jù)的術語不統(tǒng)一,建模方法不統(tǒng)一,導致在數(shù)據(jù)生產(chǎn)的各個流程階段里元數(shù)據(jù)可比性差。如何建立一套科學有效、穩(wěn)定易用、便于交換的元數(shù)據(jù)標準是目前數(shù)據(jù)融合的最大難題。
(二)政府部門高科技技術研發(fā)能力較弱
當前,我國互聯(lián)網(wǎng)領域的大數(shù)據(jù)應用市場化程度較高、發(fā)展較好,但行業(yè)應用廣度和深度明顯不足。雖然近兩年很多省市都成立了大數(shù)據(jù)局等相關機構,但技術力量薄弱。特別是在政府統(tǒng)計部門工作中的大數(shù)據(jù)應用還在研究探索階段,政府部門缺乏專門的大數(shù)據(jù)研究機構和人員,尤其是科技拔尖人才少,信息技術人員超負荷工作等,嚴重限制了高新技術科研水平,政府高新工作生態(tài)系統(tǒng)亟待形成和發(fā)展。
(三)數(shù)據(jù)隱私有一定安全隱患
“數(shù)據(jù)共享和數(shù)據(jù)隱私是成反比的,數(shù)據(jù)共享開放的需求越迫切,數(shù)據(jù)隱私安全問題就越突出。”[3]為全方位觀察、認知事物,最好的途徑就是對海量、高質(zhì)量數(shù)據(jù)資源進行分析和挖掘,而共享開放和數(shù)據(jù)跨域流通為信息建立了完整數(shù)據(jù)集??墒牵绻髷?shù)據(jù)是無序流通與共享,就可能存在隱私保護和數(shù)據(jù)安全方面的重大風險。
(四)大數(shù)據(jù)研究在政府部門工作中成果轉(zhuǎn)化力度較弱
由于人工智能、大數(shù)據(jù)、云計算和區(qū)塊鏈等新技術在政府統(tǒng)計工作中的研究還不成熟,推廣應用規(guī)模也非常有限,成果轉(zhuǎn)化不明顯。部分領導敢于把項目研究落到實處試點的勇氣不夠,敢于創(chuàng)新的勢頭不強,加上沒有配備專門的高新技術研發(fā)部門和實驗試點經(jīng)費等,導致大數(shù)據(jù)研究在政府工作中落地實施的不多,成果轉(zhuǎn)化較少。
三、大數(shù)據(jù)與政府部門統(tǒng)計數(shù)據(jù)融合建庫的對策建議
(一)建立大數(shù)據(jù)與政府部門統(tǒng)計數(shù)據(jù)統(tǒng)一的標準體系
通過研究,我們發(fā)現(xiàn)只要把數(shù)據(jù)庫分成多源異構資源裝載的數(shù)據(jù)湖、大數(shù)據(jù)資源管理、大數(shù)據(jù)應用三部分,完成多源、多結(jié)構數(shù)據(jù)采集交換平臺的設計,就能打破傳統(tǒng)數(shù)據(jù)倉庫無法包容多源數(shù)據(jù)的瓶頸,啃下多年的“硬骨頭”。換言之,在描述統(tǒng)計需求確認、設計、開發(fā)及任務部署、采集、審核上報和數(shù)據(jù)分析及匯總過程的同時,加大描述統(tǒng)計數(shù)據(jù)分析及匯總、數(shù)據(jù)發(fā)布和數(shù)據(jù)存檔過程,最后使用DDI標準來描述規(guī)范統(tǒng)計數(shù)據(jù)存檔評估,利用SDMX標準指導大數(shù)據(jù)源數(shù)據(jù)識別,一一對應將統(tǒng)計數(shù)據(jù)與大數(shù)據(jù)源數(shù)據(jù)融合,用DDI+SDMX標準最終實現(xiàn)統(tǒng)計數(shù)據(jù)和大數(shù)據(jù)源數(shù)據(jù)識別和交換標準的統(tǒng)一。具體步驟如下:
首先,將多元異構原始數(shù)據(jù)導出成csv數(shù)據(jù)文件,根據(jù)文件中每列內(nèi)容進入元數(shù)據(jù)編輯工具錄入DataFiles對象信息,使DataFiles中variable內(nèi)容和順序與csv文件的列內(nèi)容和順序?qū)?,達到使用DDI元數(shù)據(jù)描述統(tǒng)計數(shù)據(jù)的作用。
其次,將數(shù)據(jù)描述信息導出生成DDI元數(shù)據(jù)文件,將兩兩配對的csv數(shù)據(jù)文件和DDI元數(shù)據(jù)文件一起提交給數(shù)據(jù)倉庫,經(jīng)過解析識別完成數(shù)據(jù)入庫。以后增加的來自外部組織的數(shù)據(jù),只要符合DDI標準或SDMX標準也可以直接被解析識別,并將信息存儲到數(shù)據(jù)倉庫中。數(shù)據(jù)庫接收到csv數(shù)據(jù)文件和DDI元數(shù)據(jù)文件,將其中的數(shù)據(jù)和元數(shù)據(jù)解析并存儲。
再次,“通過DDI+SDMX把入庫后的csv、excel等數(shù)據(jù)統(tǒng)一為XML載體”,[4]因為XML有良好的易讀性、可擴展性與平臺無關性,還有標簽注解等功能,特別適合做數(shù)據(jù)研究載體。這些原始數(shù)據(jù)再按照需要形成Cube用于形成主題數(shù)據(jù)集市。
通過這樣一整套完整的標準規(guī)范,上可以對接系統(tǒng)業(yè)務各個階段,如數(shù)據(jù)交換、數(shù)據(jù)共享查詢、數(shù)據(jù)分析、數(shù)據(jù)發(fā)布、數(shù)據(jù)歸檔和輔助決策等,下可以對接信息技術和系統(tǒng)平臺,成為數(shù)據(jù)融合技術之間的傳輸紐帶和翻譯器。
(二)建設大數(shù)據(jù)與政府部門統(tǒng)計數(shù)據(jù)融合智庫
通過建立大數(shù)據(jù)與政府部門統(tǒng)計數(shù)據(jù)的標準體系,雖然解決了多元異構數(shù)據(jù)融合的難題,但是融合后數(shù)據(jù)的存儲和管理還需要通過建智庫完成。為了更快完成大量數(shù)據(jù)的離線計算、實時查詢分析、高時效性大規(guī)模并行計算的場景,采用大數(shù)據(jù)架構建立總數(shù)據(jù)庫,里面包括貼源層數(shù)據(jù)庫、標準層數(shù)據(jù)庫、資源庫和大數(shù)據(jù)應用庫,用于整合、存儲統(tǒng)計數(shù)據(jù)和大數(shù)據(jù)源數(shù)據(jù)。首先,按照DDI+SDMX標準將多源異構數(shù)據(jù)統(tǒng)一標準后,通過ETL工具或流式采集技術將政府部門數(shù)據(jù)和大數(shù)據(jù)等多源異構數(shù)據(jù)整合到貼源層數(shù)據(jù)庫中,再利用SDMX和DDI中的元數(shù)據(jù)標準,統(tǒng)一數(shù)據(jù)庫表結(jié)構命令規(guī)范,形成全量數(shù)據(jù)字典目錄,將貼源層數(shù)據(jù)進行標準化。然后,將標準化后的數(shù)據(jù)存儲在標準層數(shù)據(jù)庫中,完成政府部門統(tǒng)計數(shù)據(jù)和大數(shù)據(jù)融合后的數(shù)據(jù)入庫。
然后,按照通用統(tǒng)計業(yè)務模型GSBPM,利用ETL工具Kettle將標準層數(shù)據(jù)庫中的數(shù)據(jù)進行重新組合,融合形成資源庫。資源庫分為基礎庫、專題庫和主題庫,資源庫服務于現(xiàn)有業(yè)務系統(tǒng)。然后,根據(jù)數(shù)據(jù)應用要求,利用ETL工具Kettle將標準層數(shù)據(jù)庫或資源庫中的數(shù)據(jù)進行重新組合,融合形成應用庫。應用庫服務于決策支持、應用展示以及信息資源服務。資源庫和應用庫可利用MPP數(shù)據(jù)庫Clickhouse、Hive技術滿足在線數(shù)據(jù)實時計算以及離線數(shù)據(jù)批量計算等不同業(yè)務場景要求,成功構建政府部門統(tǒng)計數(shù)據(jù)和大數(shù)據(jù)融合統(tǒng)一的大數(shù)據(jù)架構。
(三)加大引進和培養(yǎng)高科技人才,增強高科技實力
按照《重慶市新型智慧城市建設方案(2019—2022)》精神,政府應著力構建高新工作生態(tài)系統(tǒng)。政府各部門應繼續(xù)加大高新技術的投入和扶持,引進和培養(yǎng)大數(shù)據(jù)等高科技人才,建立專家咨詢顧問機制,促進交流合作,突出重點亮點智能項目,助推“數(shù)字中國”“智慧重慶”。
(四)注意加強數(shù)據(jù)隱私安全保護
在研究大數(shù)據(jù)與政府部門統(tǒng)計數(shù)據(jù)融合時,必須要注意研究數(shù)據(jù)隱私保護的問題,要體系化、一致性全面考慮信息網(wǎng)絡安全管理工作,制訂專門的數(shù)據(jù)安全法、個人信息保護法[5]。2016年11月7日,全國人民代表大會常務委員會發(fā)布《中華人民共和國網(wǎng)絡安全法》;2019年5月28日,國家互聯(lián)網(wǎng)信息辦公室發(fā)布《數(shù)據(jù)安全管理辦法(征求意見稿)》,都明確了個人信息和重要數(shù)據(jù)的收集、處理、使用和安全監(jiān)督管理的相關標準和規(guī)范,保障網(wǎng)絡安全和公民法人的合法權益。美國在2020年1月1日發(fā)布《加利福尼亞消費者隱私法案》,該法案被稱為美國“最嚴厲、最全面的個人隱私保護法案”,大大提高了美國保護隱私的標準。這些法律法規(guī)在促進數(shù)據(jù)的合規(guī)使用、保障個人隱私和數(shù)據(jù)安全等方面都發(fā)揮了不可或缺的重要作用,未來還需與時俱進地完善。如何兼顧共享發(fā)展和隱私安全,平衡效率和風險,在保障安全的前提下加大對大數(shù)據(jù)價值的挖掘利用,是當前全世界在數(shù)據(jù)治理中面臨的共同課題。
(五)加強大數(shù)據(jù)研究成果在政府工作中的轉(zhuǎn)化應用
科學研究不能落地應用,就如“空中樓閣”,空有好看皮囊卻無法居住,失去了“樓閣”最基本的價值。只有爭取廣泛的支持與合作,加強交流溝通,才能讓更多有社會效益的項目研究技術落地,或者可以嘗試建立政府、企業(yè)等多方參與、市場化運作的投資融資運營機制,推進政府與社會資本合作,把研究成果從“空中”落到“地面”,促進大數(shù)據(jù)成果和政府工作深度融合,必將大幅度提升政府部門的服務質(zhì)量和水平,惠及民生福祉。
參考文獻:
[1]耿亞東.政府致力變革的技術基礎——大數(shù)據(jù)驅(qū)動下的政府治理變革研究述評[J].公共管理與政策評論,2020(04):87-96.
[2]余芳東.大數(shù)據(jù)在政府統(tǒng)計中的應用、瓶頸及融合路徑[J].調(diào)研世界,2018(11):03-09.
[3]謝磊.大數(shù)據(jù)時代政府統(tǒng)計工作面臨的問題及其策略研究[J].內(nèi)蒙古科技與經(jīng)濟,2020(03):12-14.
[4]耿晴,李兵,詹偉.面向時空信息數(shù)據(jù)的大數(shù)據(jù)平臺設計[J].地理空間信息,2017(10):35-39.
[5]陳鼎昌等.大數(shù)據(jù)背景下統(tǒng)計數(shù)據(jù)資源整合探索[J].統(tǒng)計科學與實踐,2018(10):52-55.
責任編輯:張 波