詹曉林 張笑宇 曾晶 宋昊陽 駱丹 張歡
摘要:在數(shù)字政府一體化建設(shè)的大背景之下,對于數(shù)據(jù)的采集、清洗提出了更高的要求。數(shù)據(jù)的預(yù)處理在整個政務(wù)數(shù)據(jù)處理的過程中尤為關(guān)鍵,不僅能夠為政策制定提供更加精確的支持,還有助于推動政務(wù)服務(wù)更加高效智能化。本文主要針對數(shù)據(jù)預(yù)處理中存在的核心問題,著重介紹了幾種在數(shù)據(jù)采集以及數(shù)據(jù)清洗中運用的方法,從而更好地應(yīng)對日益復(fù)雜的數(shù)字化治理挑戰(zhàn),實現(xiàn)政府?dāng)?shù)據(jù)管理的現(xiàn)代化轉(zhuǎn)型。
關(guān)鍵詞:數(shù)字政府一體化;數(shù)據(jù)預(yù)處理;數(shù)據(jù)采集;數(shù)據(jù)清洗
引言
在當(dāng)今數(shù)字化時代,隨著數(shù)字政府一體化建設(shè)進程的不斷深入,數(shù)據(jù)預(yù)處理的重要性愈發(fā)顯著。其中,數(shù)據(jù)采集作為獲取原始信息的過程,在數(shù)據(jù)生命周期中扮演著關(guān)鍵角色;數(shù)據(jù)清洗則起到了過濾器的作用,是篩選、消除、修改冗余和錯誤數(shù)據(jù)的重要步驟。本文將從數(shù)據(jù)采集和數(shù)據(jù)清洗兩方面出發(fā),深入探討在數(shù)字政府一體化建設(shè)中所使用的數(shù)據(jù)預(yù)處理技術(shù)。
1. 政務(wù)數(shù)據(jù)預(yù)處理中存在的痛點
當(dāng)前數(shù)字政府的建設(shè)相較以前已經(jīng)有了長足的進步和發(fā)展,隨著網(wǎng)絡(luò)的不斷發(fā)展和廣泛使用,數(shù)字政府平臺的使用率激增,數(shù)據(jù)從靜態(tài)的收集轉(zhuǎn)向?qū)崟r和動態(tài)的收集,從單向管理轉(zhuǎn)向雙向、有規(guī)律的更新和互動。然而,在數(shù)據(jù)預(yù)處理階段也存在資源整合困難的數(shù)據(jù)壁壘問題,例如,數(shù)據(jù)難以開放共享、數(shù)據(jù)利用率低等,導(dǎo)致了高價值的政務(wù)數(shù)據(jù)資源難以得到有效開發(fā)利用[1]。
2. 政務(wù)數(shù)據(jù)處理
政務(wù)數(shù)據(jù)從采集到最終使用的過程中涉及內(nèi)、外部數(shù)據(jù)收集、存儲、處理、共享、分發(fā)等多個環(huán)節(jié),如圖1所示。
數(shù)據(jù)預(yù)處理在整個流程中起著至關(guān)重要的作用,可以接入各類業(yè)務(wù)系統(tǒng)、子系統(tǒng)、外部管理系統(tǒng),以及終端感知的物聯(lián)網(wǎng)和互聯(lián)網(wǎng)。這個階段可以獲取所有需要被整合利用的數(shù)據(jù),并在早期階段進行數(shù)據(jù)清洗等基礎(chǔ)的數(shù)據(jù)處理,為后續(xù)的數(shù)據(jù)開發(fā)和使用帶來便利。
2.1 數(shù)據(jù)采集
政務(wù)數(shù)據(jù)采集過程存在分散、獨立、源端多樣性、跨網(wǎng)絡(luò)傳輸?shù)忍攸c,為此設(shè)計了多類型定制化的數(shù)據(jù)采集方法,為政務(wù)數(shù)據(jù)資源的采集、數(shù)據(jù)處理標(biāo)準(zhǔn)的規(guī)范、數(shù)據(jù)資源池的構(gòu)造提供了必要的支持。
2.1.1 數(shù)據(jù)采集:對于需要批量采集的數(shù)據(jù),根據(jù)數(shù)據(jù)來源的不同有兩種采集方式。
(1)數(shù)據(jù)庫采集:當(dāng)數(shù)據(jù)源為關(guān)系型數(shù)據(jù)庫,如常見的Oracle、MySQL等,或數(shù)據(jù)源和大數(shù)據(jù)中心在同一個網(wǎng)絡(luò)中時可以采用這種方式[2]。
(2)FTP文件傳輸:當(dāng)數(shù)據(jù)源為FTP服務(wù)器,對于非結(jié)構(gòu)化的文本、圖片等數(shù)據(jù),可以采用這種方式。
2.1.2 數(shù)據(jù)接入:對于需要實時接入的數(shù)據(jù),通過Flink、Spark-streaming等組件實現(xiàn)實時數(shù)據(jù)的匯集
諸如定位信息、視頻信息等需要實時傳輸?shù)臄?shù)據(jù),利用消息總線或SOCKET等技術(shù)來構(gòu)建前端的數(shù)據(jù)接收部分,將收集的數(shù)據(jù)處理轉(zhuǎn)化為統(tǒng)一格式的文件發(fā)送給平臺[3]。
2.1.3 網(wǎng)絡(luò)爬蟲:基于機器學(xué)習(xí)、自然語言處理等最新技術(shù)
綜合采用基于特征評分及啟發(fā)性規(guī)則的抽取技術(shù),實現(xiàn)網(wǎng)頁內(nèi)容采集的智能化和自動化,采集數(shù)據(jù)時不需要編寫腳本式或規(guī)則式的包裝器,只需要指定抽取字段即可自動剔除網(wǎng)頁噪聲,如廣告、導(dǎo)航條等干擾元素并提取有用信息,從而實現(xiàn)智能采集網(wǎng)頁內(nèi)容[4]。
2.1.4 在線填報:針對政務(wù)系統(tǒng)需要面向的業(yè)務(wù)存在大量的非規(guī)則性數(shù)據(jù)收集需求,通過在線填報系統(tǒng)快速定制填報頁面滿足數(shù)據(jù)采集需求
在線填報采用J2EE的B/S體系結(jié)構(gòu),支持所有主流部署環(huán)境和數(shù)據(jù)庫平臺。靈活的報表設(shè)計器、自動數(shù)據(jù)庫管理機制、報表制度自動調(diào)整等大量領(lǐng)先設(shè)計思想和技術(shù),確保了系統(tǒng)具有良好的業(yè)務(wù)適應(yīng)性和擴充性,不但可滿足用戶當(dāng)前的報表處理業(yè)務(wù)需要,更能滿足其不斷變化的報表應(yīng)用需求。
2.2 數(shù)據(jù)清洗
在實際的業(yè)務(wù)處理過程中,采集到的數(shù)據(jù)通常是臟數(shù)據(jù)。臟數(shù)據(jù)通常指的是存在以下幾種問題的數(shù)據(jù):
(1)數(shù)據(jù)缺失。通常是指屬性值為空的情況。
(2)數(shù)據(jù)噪聲。通常是指數(shù)據(jù)值不合理的情況。
(3)數(shù)據(jù)不一致。通常是指數(shù)據(jù)前后存在矛盾的情況。
(4)數(shù)據(jù)冗余。通常是指數(shù)據(jù)量或者屬性數(shù)目超出數(shù)據(jù)分析需要的情況。
(5)數(shù)據(jù)集不均衡。通常是指各個類別的數(shù)據(jù)量相差懸殊的情況。
(6)離群點/異常值。指的是采集到的數(shù)據(jù)中遠離數(shù)據(jù)集中區(qū)域的那部分?jǐn)?shù)據(jù)。
(7)數(shù)據(jù)重復(fù)。在采集中多次被采集,在數(shù)據(jù)集中多次出現(xiàn)的數(shù)據(jù)。
數(shù)據(jù)清洗的目的是從原始數(shù)據(jù)中去除不準(zhǔn)確、不完整、重復(fù)或不必要的數(shù)據(jù),確保數(shù)據(jù)的質(zhì)量以及準(zhǔn)確性。在數(shù)據(jù)的初步清洗過程中,常用的技術(shù)包括缺失值處理、異常值檢測和處理、數(shù)據(jù)類型轉(zhuǎn)換、規(guī)范化處理、數(shù)據(jù)一致性檢查、數(shù)據(jù)合并和去重處理、數(shù)據(jù)歸一化處理、數(shù)據(jù)驗證、時間序列數(shù)據(jù)清洗以及數(shù)據(jù)可視化處理[5]。在以往的數(shù)據(jù)流轉(zhuǎn)過程中,數(shù)據(jù)清洗占整個分析過程的50%~80%時間。對低質(zhì)量數(shù)據(jù)的清洗難度大,可以通過對低質(zhì)量數(shù)據(jù)進行采集過程中的清洗和預(yù)處理的方法來提升自動數(shù)據(jù)清洗能力,從而提升數(shù)據(jù)采集的質(zhì)量和效率,采用基于組件的可視化數(shù)據(jù)清洗流程,結(jié)合數(shù)據(jù)挖掘和機器學(xué)習(xí)等處理方法,實現(xiàn)高效、智能化的數(shù)據(jù)清洗預(yù)處理。
數(shù)據(jù)清洗可以根據(jù)各個變量的取值范圍和相互關(guān)系,對數(shù)據(jù)的合理性進行檢查,對超出正常范圍或邏輯上不合理的數(shù)據(jù)進行記錄,以便進行進一步的核實與糾正。對于在數(shù)據(jù)收集階段出現(xiàn)的無效數(shù)據(jù)以及缺失的數(shù)據(jù),運用估計、整列刪除、變量刪除等方式進行處理。根據(jù)數(shù)據(jù)的不同可以將數(shù)據(jù)清洗歸納出不同的方法[6]。
3. 數(shù)據(jù)處理技術(shù)在政務(wù)系統(tǒng)中的應(yīng)用
數(shù)據(jù)采集將結(jié)合運行日志的數(shù)據(jù)進行整體的分析和處理,實現(xiàn)各基層站點與平臺的技術(shù)對接,獲取所有資源的使用數(shù)據(jù)。在方式上可以采用調(diào)用各基層站點數(shù)據(jù)接口或者采用發(fā)布出數(shù)據(jù)收集接口的方式,由基層站點進行數(shù)據(jù)傳遞等方式進行數(shù)據(jù)的采集。
3.1 網(wǎng)絡(luò)爬蟲技術(shù)在政務(wù)輿情監(jiān)測系統(tǒng)中的應(yīng)用
網(wǎng)絡(luò)爬蟲技術(shù)能夠提供穩(wěn)定的數(shù)據(jù)抓取代理,能夠?qū)ヂ?lián)網(wǎng)海量信息進行自動抓取、自動分類、主題檢測、專業(yè)聚焦等處理,完成用戶對于網(wǎng)絡(luò)輿情監(jiān)測和新聞專題追蹤等信息需求。
將互聯(lián)網(wǎng)爬取的數(shù)據(jù)采集方法應(yīng)用到輿情預(yù)警系統(tǒng)中,用戶可以按需自主布控監(jiān)控預(yù)警的關(guān)鍵詞,系統(tǒng)爬取的信息命中預(yù)警關(guān)鍵詞后暫存到輿情監(jiān)測模塊中。例如,可以設(shè)置的爬取規(guī)則對網(wǎng)站進行數(shù)據(jù)爬取采集,如表1所示。
將不同來源的數(shù)據(jù)匯集到綜合數(shù)據(jù)平臺,對數(shù)據(jù)進行改造,依據(jù)預(yù)定的規(guī)則,將其轉(zhuǎn)化為可反復(fù)利用的信息資源服務(wù)。通過服務(wù)總線和消息組件支持多路徑消息的進入和出口,使得各種各樣的消息在總線上流動,實現(xiàn)在不同部門和機構(gòu)之間的信息共享,為平臺全方位、深入地分析和監(jiān)管數(shù)據(jù)提供便利,使其能夠?qū)崟r獲知運行狀態(tài)并做出智能應(yīng)對,為正確的輿論引導(dǎo)提供分析依據(jù)。
3.2 數(shù)據(jù)清洗轉(zhuǎn)換
3.2.1 數(shù)據(jù)清洗方案設(shè)計
由于數(shù)據(jù)的多源異構(gòu)性,導(dǎo)致出現(xiàn)數(shù)據(jù)質(zhì)量差、不可融合、不可用、不可聯(lián)等問題,必須制定一套完整的數(shù)據(jù)清洗轉(zhuǎn)換規(guī)范來處理臟數(shù)據(jù)[7]。將數(shù)據(jù)清洗轉(zhuǎn)換劃分為清洗重復(fù)數(shù)據(jù)、清洗缺失數(shù)據(jù)以及清洗不合理數(shù)據(jù)三類并且分別設(shè)計清洗方式。
3.2.1.1 清洗重復(fù)數(shù)據(jù)
主要目標(biāo)是避免數(shù)據(jù)的重復(fù)。如果一個數(shù)據(jù)表內(nèi)有多條記錄的每個字段的值完全一樣,或者這個數(shù)據(jù)表有主鍵或者唯一ID,但其中只有部分字段的值在兩條或以上的記錄中重復(fù),那么就需要用數(shù)據(jù)清洗方法來保證數(shù)據(jù)的獨特性。
3.2.1.2 清洗缺失數(shù)據(jù)
主要針對數(shù)據(jù)記錄中存在的缺失和空白值數(shù)據(jù)的處理。根據(jù)業(yè)務(wù)需求,檢測出的空字段將以填補、刪除、歸入問題庫等各種方式進行處理。
對于數(shù)據(jù)清洗中會出現(xiàn)的數(shù)據(jù)缺少問題,可以采用以下四種方法解決:
(1)數(shù)據(jù)刪除。對于缺失數(shù)據(jù)的記錄占比較小的情況,對記錄進行直接刪除。
(2)自動補全。數(shù)據(jù)中心具備數(shù)據(jù)補全功能,能夠?qū)?shù)據(jù)清洗后的數(shù)據(jù)進行數(shù)據(jù)補全工作,對存儲系統(tǒng)和數(shù)據(jù)庫上的海量、高頻率數(shù)據(jù)集進行數(shù)據(jù)校驗,去除非法數(shù)據(jù),實現(xiàn)對缺漏的數(shù)據(jù)進行自動補齊。由于生產(chǎn)庫本身就存在部分?jǐn)?shù)據(jù)字段屬性值的缺失,對于缺失的數(shù)據(jù)屬性,數(shù)據(jù)補全功能按照某些規(guī)則填充,比如公司辦公地址為空,默認使用工商注冊地址填充;家庭住址為空的話,默認按照身份證注冊地址填充,可以利用均值填充,也可以根據(jù)實際情況,根據(jù)過往的數(shù)據(jù)通過公式自動計算填補。例如,景區(qū)門店銷售額數(shù)據(jù)缺失,就可以參考過往景區(qū)的客流量數(shù)據(jù)根據(jù)公式進行計算[8]。
(3)手動填補。對于缺少的數(shù)據(jù)進行重新采集,或根據(jù)領(lǐng)域知識進行修補。
(4)關(guān)聯(lián)回填。兩個或兩個以上數(shù)據(jù)集之間通過某種信息建立關(guān)聯(lián)關(guān)系之后,根據(jù)實際業(yè)務(wù)的需要,可以對這兩個數(shù)據(jù)集中的數(shù)據(jù)進行相互補充。
3.2.1.3 清洗不合理數(shù)據(jù)
主要負責(zé)處理數(shù)據(jù)記錄中的不符合邏輯、違法數(shù)據(jù)。對于數(shù)據(jù)記錄中出現(xiàn)的不合理情況可采用以下兩種方式解決。
(1)數(shù)據(jù)命名轉(zhuǎn)換:通過比對標(biāo)準(zhǔn)數(shù)據(jù)元和實際數(shù)據(jù)表中的數(shù)據(jù)項,如果比對結(jié)果一致,則不需要轉(zhuǎn)換處理,如果比對結(jié)果不一致,要按照標(biāo)準(zhǔn)規(guī)定的命名進行轉(zhuǎn)換。
(2)標(biāo)準(zhǔn)地址轉(zhuǎn)換:對地址要素不完整、文字表達不一致的地址信息進行標(biāo)準(zhǔn)化處理。依托公安的標(biāo)準(zhǔn)化地址庫及互聯(lián)網(wǎng)公開的POI地址信息庫,形成相關(guān)的地址標(biāo)準(zhǔn)基礎(chǔ)庫,對采集的地址信息進行標(biāo)準(zhǔn)化處理。
數(shù)據(jù)清洗是一個反復(fù)迭代的過程,數(shù)據(jù)清洗中的產(chǎn)物包括標(biāo)準(zhǔn)化數(shù)據(jù)和問題數(shù)據(jù)。標(biāo)準(zhǔn)化數(shù)據(jù)為原始庫數(shù)據(jù)按照數(shù)據(jù)標(biāo)準(zhǔn)清洗、加工后的數(shù)據(jù);數(shù)據(jù)清洗、加工過程中產(chǎn)生的臟數(shù)據(jù)則作為問題數(shù)據(jù)暫時保留在資源庫中,便于溯源和提升數(shù)據(jù)質(zhì)量。
3.2.2 數(shù)據(jù)清洗技術(shù)在圖片數(shù)據(jù)中的應(yīng)用
可以將AI技術(shù)運用到圖片數(shù)據(jù)的清洗過程。對于采集到的圖片數(shù)據(jù)提供清洗功能,包括去除相似或重復(fù)圖片、去除小目標(biāo)圖片、去除過暗圖片、去除過爆圖片、去除模糊圖片等清洗功能[9]。支持自定義清洗策略參數(shù),支持創(chuàng)建清洗任務(wù)選擇“生成新版本”“覆蓋原有版本”,同時提供被清洗數(shù)據(jù)的列表以及清洗原因。
結(jié)語
在本文中,我們對于幾種數(shù)據(jù)采集和數(shù)據(jù)清洗方案以及其在數(shù)據(jù)處理中的關(guān)鍵作用進行了研究。
在數(shù)據(jù)采集方面,網(wǎng)絡(luò)爬蟲技術(shù)作為一種數(shù)據(jù)采集工具為大量獲取互聯(lián)網(wǎng)上的特定數(shù)據(jù)提供了有效手段。在未來,為適應(yīng)不斷擴張的互聯(lián)網(wǎng)以及網(wǎng)頁的多樣化,互聯(lián)網(wǎng)爬蟲技術(shù)在自適應(yīng)爬取算法以及與人工智能的結(jié)合方面存在廣闊的發(fā)展空間。
在數(shù)據(jù)清洗方面,根據(jù)臟數(shù)據(jù)的類型,分別設(shè)計有針對性的清洗方案,能夠有針對性地解決數(shù)據(jù)中存在的數(shù)據(jù)重復(fù)、缺失和不合理等問題。將AI識別技術(shù)運用到圖像數(shù)據(jù)的清洗中,能夠降低人工干預(yù)的成本并且提高效率,在未來的研究中,可以進一步探索數(shù)據(jù)清洗與機器學(xué)習(xí)和人工智能的結(jié)合,實現(xiàn)更高效率、更高準(zhǔn)確性、類型更加廣闊的數(shù)據(jù)清洗。
數(shù)據(jù)采集、數(shù)據(jù)清洗作為數(shù)據(jù)的預(yù)處理,在政務(wù)數(shù)據(jù)的處理流程中起著舉足輕重的作用。對數(shù)據(jù)的收集整合以及清理,可以消除在數(shù)據(jù)集中整合時遇到的分散、孤立、多源、跨部門和跨網(wǎng)傳輸?shù)入y題,從而為政務(wù)數(shù)據(jù)資源的整合、標(biāo)準(zhǔn)化處理以及數(shù)據(jù)資源池的建立提供依托。
參考文獻:
[1]國務(wù)院辦公廳.國務(wù)院辦公廳關(guān)于印發(fā)全國一體化政務(wù)大數(shù)據(jù)體系建設(shè)指南的通知(國辦函〔2022〕102號)[A/OL].(2022-10-28)[2023-8-20].https://www.gov.cn/zhengce/zhengceku/2022-10/28/content_5722322.htm?eqid=edc23cad00032216000000066465a1f0.
[2]晏立,閻蔚明,陶躍華,等.基于JDBC數(shù)據(jù)庫時間獲取方法[J].計算機系統(tǒng)應(yīng)用,2008,(12):139-141.
[3]郭棟,胡清,李國濤,等.基于Flink組件的流量鏈接分析方法及系統(tǒng):CN202210525481.2[P].2022-08-30.
[4]馮明遠.深度網(wǎng)絡(luò)信息爬取關(guān)鍵技術(shù)研究與實現(xiàn)[D].杭州:浙江大學(xué),2011.
[5]唐懿芳,鐘達夫,嚴(yán)小衛(wèi).基于聚類模式的數(shù)據(jù)清洗技術(shù)[J].計算機應(yīng)用,2004,(5):116-119.
[6]劉政宇.基于大數(shù)據(jù)的數(shù)據(jù)清洗技術(shù)及運用[J].數(shù)字技術(shù)與應(yīng)用,2019,37(4):92,94.
[7]杜少卿.基于關(guān)聯(lián)依賴的數(shù)據(jù)清洗方法研究[D].鄭州:鄭州輕工業(yè)大學(xué),2023.
[8]樊峰峰.大規(guī)模數(shù)據(jù)清洗關(guān)鍵技術(shù)研究[D].西安:西北工業(yè)大學(xué),2020.
[9]李政文,杜文菊,饒妮妮.基于不準(zhǔn)確圖像數(shù)據(jù)清洗的分類方法研究[J].信號處理,2022,38(7):1547-1554.
作者簡介:詹曉林,本科,高級工程師,研究方向:信息通信工程建設(shè)、智慧城市規(guī)劃、建設(shè)工程實施;張笑宇,本科,研究方向:智慧城市規(guī)劃咨詢設(shè)計、智慧校園信息化建設(shè);曾晶,碩士研究生,高級工程師,研究方向:管理咨詢、信息通信工程咨詢規(guī)劃設(shè)計、IT咨詢;宋昊陽,碩士研究生,工程師,研究方向:智慧城市、企業(yè)IT、物聯(lián)網(wǎng)咨詢規(guī)劃;駱丹,博士研究生,研究方向:自然語言處理、深度學(xué)習(xí)、技術(shù)產(chǎn)品研發(fā);張歡,博士研究生,研究方向:網(wǎng)絡(luò)安全技術(shù)規(guī)劃、數(shù)據(jù)安全、信息化咨詢規(guī)劃。