龐文迪 卜意磊
摘要:探索云計算技術(shù)在市場監(jiān)管領(lǐng)域的應(yīng)用,進一步加快市場監(jiān)督管理信息化建設(shè),利用“云計算”“大數(shù)據(jù)”實現(xiàn)數(shù)據(jù)與監(jiān)管的深度融合,可以打破機構(gòu)改革后原工商、質(zhì)監(jiān)、食藥監(jiān)、物價、知識產(chǎn)權(quán)等業(yè)務(wù)間的“信息孤島”狀態(tài),通過數(shù)據(jù)整合、關(guān)聯(lián)分析實現(xiàn)精準監(jiān)管、創(chuàng)新監(jiān)管,從而構(gòu)建從粗放到精準的市場監(jiān)管體系。本文通過案例分析云計算信息技術(shù)在市場監(jiān)管領(lǐng)域中的應(yīng)用,從數(shù)據(jù)采集、數(shù)據(jù)整合、數(shù)據(jù)處理、數(shù)據(jù)治理等方面進行了研究。
關(guān)鍵詞:云計算;市場監(jiān)管;數(shù)據(jù)采集;數(shù)據(jù)整合;數(shù)據(jù)中臺;實例分析
中圖分類號:TP3? ? ? 文獻標識碼:A
文章編號:1009-3044(2020)32-0244-03
1 概述
在現(xiàn)代化、信息化的監(jiān)管需求和新型網(wǎng)絡(luò)市場的發(fā)展要求下,基于云計算信息技術(shù)的“智慧市監(jiān)”是順應(yīng)當(dāng)前信息化浪潮以及應(yīng)對市場監(jiān)管新形勢、新挑戰(zhàn)而產(chǎn)生的一種新型監(jiān)管模式。
在市場監(jiān)管大數(shù)據(jù)模式下,由于大數(shù)據(jù)的諸多特性,使大數(shù)據(jù)監(jiān)管模式較傳統(tǒng)市場監(jiān)管有很多值得推廣借鑒的地方,一是通過數(shù)據(jù)共享平臺可以大幅削減“信息孤島”,使政府內(nèi)部縱向?qū)蛹?、橫向部門甚至跨區(qū)域、跨國界得以流暢協(xié)同,有利于在監(jiān)管中及時發(fā)現(xiàn)問題、解決問題;二是通過大數(shù)據(jù)的歸集、分析,能夠較為精準的刻畫出市場監(jiān)管領(lǐng)域的“主體畫像”“客體畫像”“行為畫像”等,為政府部門在制定監(jiān)管政策或采取監(jiān)管措施時可以精準化、個性化;三是基于政務(wù)數(shù)據(jù)的共享開放,可以改善過去信息不對稱的狀態(tài),大大增加政府的透明度,提高政府行政效率,有助于提高政府公信力。而云計算技術(shù),作為大數(shù)據(jù)模式開展驗證的必要手段,以儼然和大數(shù)據(jù)結(jié)合為一個整體,不可分離。
2 市場監(jiān)管大數(shù)據(jù)的采集整合及治理
2.1 數(shù)據(jù)采集
目前市場監(jiān)督管理局數(shù)據(jù)來源廣泛,包括原工商、食藥監(jiān)、質(zhì)監(jiān)、知識產(chǎn)權(quán)、物價等部門的數(shù)據(jù),由于數(shù)據(jù)來源廣泛,數(shù)據(jù)格式較為繁雜,數(shù)據(jù)標準不夠統(tǒng)一,技術(shù)體系存在難點,對互聯(lián)網(wǎng)數(shù)據(jù)整合利用的程度還有較大提高的余地?,F(xiàn)階段市場監(jiān)管領(lǐng)域的業(yè)務(wù)數(shù)據(jù)采集方面主要途徑有以下幾個方面。
1)市場監(jiān)管業(yè)務(wù)系統(tǒng)。全省目前使用同一套系統(tǒng),在省和地市進行兩級部署,實施時充分考慮與13個地級市,核心數(shù)據(jù)是主體登記注冊信息,是目前最主要的數(shù)據(jù)來源之一。各地市的系統(tǒng)數(shù)據(jù)會定時歸集到省局數(shù)據(jù)中心。2)企業(yè)網(wǎng)上填報數(shù)據(jù)。目前企業(yè)主體可以通過企業(yè)信用系統(tǒng)公示系統(tǒng)、政務(wù)服務(wù)網(wǎng)市場監(jiān)管旗艦店等填寫年報信息、即時信息等數(shù)據(jù),定時從政務(wù)外網(wǎng)歸集到省局數(shù)據(jù)中心。3)市場監(jiān)管信息平臺。主要指部署在電子政務(wù)外網(wǎng),省級部門共用的系統(tǒng)。各部門之間會使用和補充提供相關(guān)數(shù)據(jù),其中市場監(jiān)管局主要提供市場主體信息,同時定時從政務(wù)外網(wǎng)統(tǒng)一歸集到省局數(shù)據(jù)中心。4)互聯(lián)網(wǎng)數(shù)據(jù)。針對互聯(lián)網(wǎng)上存在的海量信息,基于人工智能和語義分析技術(shù),實現(xiàn)互聯(lián)網(wǎng)大數(shù)據(jù)采集和結(jié)構(gòu)化轉(zhuǎn)換?;ヂ?lián)網(wǎng)數(shù)據(jù)主要包括消費者網(wǎng)絡(luò)輿情、互聯(lián)網(wǎng)廣告、電商平臺網(wǎng)店及其經(jīng)營數(shù)據(jù)等,通過購買第三方服務(wù)的方式,可以獲得企業(yè)輿情、企業(yè)運營情況、電商商品評論等數(shù)據(jù),豐富市場監(jiān)管大數(shù)據(jù)分析。
為此,在保持傳統(tǒng)市場監(jiān)督管理局業(yè)務(wù)的數(shù)據(jù)采集途徑穩(wěn)定運行的前提下,項目利用互聯(lián)網(wǎng)建設(shè)大數(shù)據(jù)時代的數(shù)據(jù)采集新途徑,不斷豐富數(shù)據(jù)來源,逐步規(guī)范數(shù)據(jù)標準,是目前首要突破的關(guān)鍵問題。
2.2 數(shù)據(jù)整合
1)基于云計算平臺的網(wǎng)絡(luò)互連。建設(shè)互聯(lián)網(wǎng)合作伙伴數(shù)據(jù)標準,在公網(wǎng)設(shè)立數(shù)據(jù)采集服務(wù)器,通過網(wǎng)閘設(shè)備把互聯(lián)網(wǎng)合作伙伴的數(shù)據(jù)單向傳輸?shù)秸?wù)外網(wǎng)。建設(shè)提供多種主流數(shù)據(jù)采集接口,包括文本文件、Excel文件、數(shù)據(jù)庫、消息隊列、Webservice等接口,滿足互聯(lián)網(wǎng)合作伙伴數(shù)據(jù)上傳需要,如圖1所示。
2)數(shù)據(jù)便簽與分類。通過給業(yè)務(wù)數(shù)據(jù)打標簽的方式并結(jié)合行業(yè)主流分類方式,建立互聯(lián)網(wǎng)數(shù)據(jù)行業(yè)標準和市場監(jiān)督管理局標準,通過機器學(xué)習(xí)、語義分析、人工智能等大數(shù)據(jù)信息技術(shù),實現(xiàn)互聯(lián)網(wǎng)新增數(shù)據(jù)類型到國家市場監(jiān)督管理局標準的自動歸并,實現(xiàn)互聯(lián)網(wǎng)數(shù)據(jù)與市場監(jiān)督管理局內(nèi)部業(yè)務(wù)數(shù)據(jù)的整合。通過結(jié)合各部門行業(yè)標準,建立各部門標準到國家市場監(jiān)督管理局標準的映射對照關(guān)系,實現(xiàn)各部門市場監(jiān)管數(shù)據(jù)的整合。
2.3 數(shù)據(jù)治理
對于數(shù)據(jù)質(zhì)量的管控,可以從數(shù)據(jù)整合、數(shù)據(jù)預(yù)處理、資源入庫、資源監(jiān)控、資源利用等數(shù)據(jù)處理流程的各個環(huán)節(jié)入手,提升數(shù)據(jù)在市場監(jiān)督管理局分析決策等業(yè)務(wù)中的使用價值,發(fā)揮數(shù)據(jù)作為資產(chǎn)真正的作用。
從圖2看出,數(shù)據(jù)質(zhì)量面向的是整個業(yè)務(wù)流程,從業(yè)務(wù)庫到ETL再到數(shù)據(jù)倉庫都可以通過用戶自定義的數(shù)據(jù)質(zhì)量規(guī)則進行管控。校驗規(guī)則分為準確性、完整性和一致性三種,分別面向三種不同的校驗方案。業(yè)務(wù)庫和數(shù)據(jù)倉庫中的已有數(shù)據(jù)可以直接進行在線質(zhì)量規(guī)則校驗。ETL過程中,可以通過質(zhì)量規(guī)則定義提供的數(shù)據(jù)清洗服務(wù)進行數(shù)據(jù)的清洗。同時,兩個或者多個數(shù)據(jù)源之間可以進行數(shù)據(jù)比對。用戶可以通過選擇比對數(shù)據(jù)源,自定義比對規(guī)則,進行在線數(shù)據(jù)比對。比對的結(jié)果可以反映出不同庫的表與表之間的數(shù)據(jù)差異,進一步解決數(shù)據(jù)質(zhì)量問題。數(shù)據(jù)質(zhì)量校驗的方式分為全部校驗和抽樣校驗,執(zhí)行方式分為手動執(zhí)行和定時執(zhí)行。下面對各個環(huán)節(jié)細分詳述。
1)數(shù)據(jù)治理規(guī)則的制定。質(zhì)量規(guī)則分為兩部分:規(guī)則列表和對象列表。通過這兩部分可以正向和反向地進行數(shù)據(jù)質(zhì)量校驗。所謂的“正向”指的是先定義規(guī)則,在規(guī)則上選擇數(shù)據(jù)目錄與規(guī)則條件后,執(zhí)行檢測?!胺聪颉敝傅氖侵苯舆x中某個數(shù)據(jù)目錄,進行數(shù)據(jù)質(zhì)量校驗。定制的規(guī)則可以選擇建議處理方式(人工處理和定時處理),方便以后使用該規(guī)則進行質(zhì)量檢測時找到最佳的處理方式。2)自動化監(jiān)控數(shù)據(jù)流轉(zhuǎn)。通過以上的一系列數(shù)據(jù)識別、數(shù)據(jù)比對、數(shù)據(jù)檢測,系統(tǒng)可以自動定期生成個性化的數(shù)據(jù)質(zhì)量檢查報告,形象具體的描述數(shù)據(jù)質(zhì)量問題所在及處理情況,具體分為業(yè)務(wù)數(shù)據(jù)質(zhì)量報告和技術(shù)數(shù)據(jù)質(zhì)量報告。3)數(shù)據(jù)檢測及對比。數(shù)據(jù)檢測主要包括數(shù)據(jù)完整性檢測、數(shù)據(jù)一致性檢測、數(shù)據(jù)準確性檢測及數(shù)據(jù)及時性檢測四個方面內(nèi)容。而為了保證同步后的數(shù)據(jù)庫與源庫的一致性,需要建立一系列的比對規(guī)則,來檢驗數(shù)據(jù)是否一致,一般來說都是采用增量比對的方式,這種方式可以減少重復(fù)比對的工作量,對于一些比對可以直接進行修復(fù),有些比對可能需要通過發(fā)郵件進行通知方式告知用戶,手動進行數(shù)據(jù)的修復(fù)。4)數(shù)據(jù)質(zhì)量評級。針對數(shù)據(jù)集的缺失、元數(shù)據(jù)的不匹配、數(shù)據(jù)的不準確等數(shù)據(jù)質(zhì)量問題,數(shù)據(jù)管理平臺制定了客觀的評分規(guī)則,對每個數(shù)據(jù)目錄進行統(tǒng)一打分評級,并提供了完善的管理系統(tǒng)在線預(yù)覽數(shù)據(jù)質(zhì)量評分排名、有問題的數(shù)據(jù)、各項數(shù)據(jù)質(zhì)量問題的明細等。
3 云計算信息技術(shù)在市場監(jiān)管數(shù)據(jù)中心的應(yīng)用
數(shù)據(jù)中心基于主流的大數(shù)據(jù)處理和互聯(lián)網(wǎng)構(gòu)建技術(shù)進行搭建,這些技術(shù)是構(gòu)建PB級數(shù)據(jù)處理和百萬級用戶并發(fā)訪問的必要技術(shù)。數(shù)據(jù)中心技術(shù)體系架構(gòu)的開放體系如圖3,包括五個層次。
1)以Hadoop體系為主的大數(shù)據(jù)存儲體系,包括分布式文件系統(tǒng)和分布式列式數(shù)據(jù)庫,提供統(tǒng)一、安全、靈活、可擴展的存儲系統(tǒng)。內(nèi)存存儲技術(shù)也是存儲體系重要的組成部分,內(nèi)存存儲涉及分布式緩存、內(nèi)存數(shù)據(jù)庫等技術(shù)領(lǐng)域。2)在數(shù)據(jù)采集和數(shù)據(jù)交換體系,根據(jù)不同的數(shù)據(jù)類型、不同的源數(shù)據(jù)庫采用不同的工具,包括用于從結(jié)構(gòu)化數(shù)據(jù)到Hadoop采集的sqoop軟件,ETL工具軟件kettle,用于收集日志的flume工具等。3)數(shù)據(jù)處理技術(shù)體系,包括離線計算、流式計算、內(nèi)存計算、機器學(xué)習(xí)、搜索引擎等,分別應(yīng)對不同的使用場景。4)集群管控平臺,整個分布式集群需要統(tǒng)一進行管理,平臺技術(shù)生態(tài)體系中開發(fā)了統(tǒng)一的管控平臺,包括分布式任務(wù)調(diào)度系統(tǒng),資源管理系統(tǒng)、數(shù)據(jù)安全與訪問控制體系、服務(wù)監(jiān)控與管理系統(tǒng)。5)大數(shù)據(jù)處理管理體系與工具,用于數(shù)據(jù)的生命周期管理,包含從數(shù)據(jù)建模、元數(shù)據(jù)定義、數(shù)據(jù)關(guān)系、數(shù)據(jù)可視化、數(shù)據(jù)服務(wù)化等過程。
3.1 數(shù)據(jù)存儲
1)分布式文件系統(tǒng)。市場監(jiān)管大數(shù)據(jù)涉及圖像、音頻、視頻等大量非結(jié)構(gòu)化文件,并隨著應(yīng)用的發(fā)展不斷增長,需要通過分布式文件系統(tǒng)來存儲。通過采用Hadoop分布式文件系統(tǒng)(HDFS)存儲市場監(jiān)管領(lǐng)域相關(guān)的圖像、音頻、視頻等非結(jié)構(gòu)化文件,可以實現(xiàn)市場監(jiān)督管理局大數(shù)據(jù)相關(guān)圖像、音頻、視頻等非結(jié)構(gòu)化文件的海量高效可靠存儲,構(gòu)建HDFS的分布式集群。2)分布式數(shù)據(jù)庫。數(shù)據(jù)庫是平臺的價值核心,各類有價值數(shù)據(jù)都將存儲在數(shù)據(jù)庫中,高效、安全、可靠的數(shù)據(jù)庫是平臺穩(wěn)定運行的基礎(chǔ),當(dāng)今主流的大型互聯(lián)網(wǎng)大數(shù)據(jù)架構(gòu)模式中,一般會混合使用關(guān)系數(shù)據(jù)庫和NoSQL數(shù)據(jù),關(guān)系數(shù)據(jù)庫用于處理事務(wù)型的核心業(yè)務(wù),NoSQL數(shù)據(jù)庫用于處理海量低價值密度業(yè)務(wù)。分布式數(shù)據(jù)庫支撐服務(wù)將從關(guān)系數(shù)據(jù)庫集群和分布式NoSQL數(shù)據(jù)庫兩方面建設(shè)。3)分布式緩存。為了減少對存儲設(shè)備的頻繁讀取,提升高峰用戶的訪問效率,平臺提供統(tǒng)一的分布式緩存軟件,將變化較少但需要頻繁讀取的數(shù)據(jù)資源在數(shù)據(jù)庫與應(yīng)用之間增加高速緩存,可以有效降低數(shù)據(jù)訪問層的壓力,極大提升系統(tǒng)性能,同時也可以避免基于水平擴展架構(gòu)的服務(wù)器其中發(fā)生宕機時,通過分布式緩存能夠保證平臺的高可用性。
3.2 分布式計算
市場監(jiān)督管理局分析涉及來自多方面的各類數(shù)據(jù),包括市場監(jiān)督管理局內(nèi)部數(shù)據(jù)、其他政府部門數(shù)據(jù)、互聯(lián)網(wǎng)/移動互聯(lián)網(wǎng)數(shù)據(jù)等,這些數(shù)據(jù)種類繁多、關(guān)系復(fù)雜、數(shù)據(jù)量非常大,依靠傳統(tǒng)的數(shù)據(jù)查詢技術(shù)和分析手段很難滿足對旅游數(shù)據(jù)的計算分析需求,大數(shù)據(jù)支撐平臺需要提供面向海量數(shù)據(jù)的計算分析能力。1)非實時海量數(shù)據(jù)統(tǒng)計,主要用來生成市場監(jiān)督管理局匯總數(shù)據(jù),一般是按月/季度/年等周期市場監(jiān)督管理局數(shù)據(jù),對實時性要求不高。2)實時數(shù)據(jù)計算處理,是對實時獲取的數(shù)據(jù)進行計算處理并能夠?qū)崟r響應(yīng)結(jié)果,主要特點是要數(shù)據(jù)吞吐量大、數(shù)據(jù)處理時效性高。3)實時數(shù)據(jù)查詢,是根據(jù)用戶輸入的不同實時查詢出不同的響應(yīng),系統(tǒng)不限制查詢條件,用戶可以自定義各種條件組合。實時數(shù)據(jù)查詢使用戶能隨時面對市場監(jiān)督管理局大數(shù)據(jù),快速獲得想要的結(jié)果。4)深度數(shù)據(jù)挖掘利用,是指從海量數(shù)據(jù)中通過人工智能、機器學(xué)習(xí)、自然語言處理等相關(guān)技術(shù)發(fā)現(xiàn)隱藏于其中的有價值信息。
而針對上述四種場景分類,本文提出對應(yīng)的計算分析技術(shù)及方案:通過分布式批處理技術(shù)實現(xiàn)對海量數(shù)據(jù)的非實時計算;通過流式計算技術(shù)實現(xiàn)對實時數(shù)據(jù)的計算處理;通過海量數(shù)據(jù)交互式查詢技術(shù)實現(xiàn)對市場監(jiān)督管理局大數(shù)據(jù)的實時查詢;通過數(shù)據(jù)挖掘技術(shù)實現(xiàn)對市場監(jiān)督管理局大數(shù)據(jù)的深度挖掘利用。
基于云計算的大數(shù)據(jù)平臺通過整合市場監(jiān)督管理局內(nèi)部系統(tǒng)數(shù)據(jù)、市場監(jiān)督管理局相關(guān)部門數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)等廣泛數(shù)據(jù)資源,為市場監(jiān)督管理局分析、印證提供了必要支撐。通過對來自多方面的紛繁復(fù)雜的大數(shù)據(jù)進行分析挖掘,找出蘊藏其中的有價值的信息,為市場監(jiān)督管理局部門的總體分析、研判、指標評估提供依據(jù)。
4 結(jié)語
本文旨在以市場監(jiān)管領(lǐng)域為研究對象,探索云計算技術(shù)在市場監(jiān)管業(yè)務(wù)中的應(yīng)用,以期進一步加快市場監(jiān)督管理信息化建設(shè),提升現(xiàn)代化市場監(jiān)管能力。通過案例分析云計算存儲技術(shù)在市場監(jiān)管流程中的應(yīng)用,對當(dāng)前我國市場監(jiān)管中數(shù)據(jù)應(yīng)用存在的問題進行研究剖析,并從數(shù)據(jù)采集和整合、數(shù)據(jù)處理及質(zhì)控管理等方面進行了實例研究。
參考文獻:
[1] 褚福銀,張林,何坤鵬.基于hadoop平臺海量數(shù)據(jù)的快速查詢與實現(xiàn)[J].電腦知識與技術(shù),2016,12(21):3-5.
[2] 周小娟.一種輕量級大數(shù)據(jù)分析系統(tǒng)的實現(xiàn)[J].電子設(shè)計工程,2016,24(8):40-43.
[3] 張偉.醫(yī)療大數(shù)據(jù)平臺數(shù)據(jù)高并發(fā)方案設(shè)計與關(guān)鍵技術(shù)分析[J].信息技術(shù)與網(wǎng)絡(luò)安全,2018,37(4):18-22.
[4] 羅嘉龍,等.基于大數(shù)據(jù)分析技術(shù)的用戶行為分析平臺設(shè)計與實現(xiàn)[J].電腦知識與技術(shù),2019,15(35):54-56.
[5] 曾元武,等.大數(shù)據(jù)時代下地理信息公共平臺建設(shè)展望[J].測繪通報,2015(11):84-87,105.
【通聯(lián)編輯:張薇】