數(shù)字政府一體化建設(shè)中數(shù)據(jù)預(yù)處理技術(shù)的研究

2023-11-20 04:06:52詹曉林張笑宇曾晶宋昊陽駱丹張歡

互聯(lián)網(wǎng)周刊 2023年20期

關(guān)鍵詞：數(shù)據(jù)預(yù)處理數(shù)據(jù)采集

詹曉林張笑宇曾晶宋昊陽駱丹張歡

摘要：在數(shù)字政府一體化建設(shè)的大背景之下，對于數(shù)據(jù)的采集、清洗提出了更高的要求。數(shù)據(jù)的預(yù)處理在整個政務(wù)數(shù)據(jù)處理的過程中尤為關(guān)鍵，不僅能夠為政策制定提供更加精確的支持，還有助于推動政務(wù)服務(wù)更加高效智能化。本文主要針對數(shù)據(jù)預(yù)處理中存在的核心問題，著重介紹了幾種在數(shù)據(jù)采集以及數(shù)據(jù)清洗中運用的方法，從而更好地應(yīng)對日益復(fù)雜的數(shù)字化治理挑戰(zhàn)，實現(xiàn)政府?dāng)?shù)據(jù)管理的現(xiàn)代化轉(zhuǎn)型。

關(guān)鍵詞：數(shù)字政府一體化；數(shù)據(jù)預(yù)處理；數(shù)據(jù)采集；數(shù)據(jù)清洗

引言

在當(dāng)今數(shù)字化時代，隨著數(shù)字政府一體化建設(shè)進程的不斷深入，數(shù)據(jù)預(yù)處理的重要性愈發(fā)顯著。其中，數(shù)據(jù)采集作為獲取原始信息的過程，在數(shù)據(jù)生命周期中扮演著關(guān)鍵角色；數(shù)據(jù)清洗則起到了過濾器的作用，是篩選、消除、修改冗余和錯誤數(shù)據(jù)的重要步驟。本文將從數(shù)據(jù)采集和數(shù)據(jù)清洗兩方面出發(fā)，深入探討在數(shù)字政府一體化建設(shè)中所使用的數(shù)據(jù)預(yù)處理技術(shù)。

1. 政務(wù)數(shù)據(jù)預(yù)處理中存在的痛點

當(dāng)前數(shù)字政府的建設(shè)相較以前已經(jīng)有了長足的進步和發(fā)展，隨著網(wǎng)絡(luò)的不斷發(fā)展和廣泛使用，數(shù)字政府平臺的使用率激增，數(shù)據(jù)從靜態(tài)的收集轉(zhuǎn)向?qū)崟r和動態(tài)的收集，從單向管理轉(zhuǎn)向雙向、有規(guī)律的更新和互動。然而，在數(shù)據(jù)預(yù)處理階段也存在資源整合困難的數(shù)據(jù)壁壘問題，例如，數(shù)據(jù)難以開放共享、數(shù)據(jù)利用率低等，導(dǎo)致了高價值的政務(wù)數(shù)據(jù)資源難以得到有效開發(fā)利用[1]。

2. 政務(wù)數(shù)據(jù)處理

政務(wù)數(shù)據(jù)從采集到最終使用的過程中涉及內(nèi)、外部數(shù)據(jù)收集、存儲、處理、共享、分發(fā)等多個環(huán)節(jié)，如圖1所示。

數(shù)據(jù)預(yù)處理在整個流程中起著至關(guān)重要的作用，可以接入各類業(yè)務(wù)系統(tǒng)、子系統(tǒng)、外部管理系統(tǒng)，以及終端感知的物聯(lián)網(wǎng)和互聯(lián)網(wǎng)。這個階段可以獲取所有需要被整合利用的數(shù)據(jù)，并在早期階段進行數(shù)據(jù)清洗等基礎(chǔ)的數(shù)據(jù)處理，為后續(xù)的數(shù)據(jù)開發(fā)和使用帶來便利。

2.1 數(shù)據(jù)采集

政務(wù)數(shù)據(jù)采集過程存在分散、獨立、源端多樣性、跨網(wǎng)絡(luò)傳輸?shù)忍攸c，為此設(shè)計了多類型定制化的數(shù)據(jù)采集方法，為政務(wù)數(shù)據(jù)資源的采集、數(shù)據(jù)處理標(biāo)準(zhǔn)的規(guī)范、數(shù)據(jù)資源池的構(gòu)造提供了必要的支持。

2.1.1 數(shù)據(jù)采集：對于需要批量采集的數(shù)據(jù)，根據(jù)數(shù)據(jù)來源的不同有兩種采集方式。

（1）數(shù)據(jù)庫采集：當(dāng)數(shù)據(jù)源為關(guān)系型數(shù)據(jù)庫，如常見的Oracle、MySQL等，或數(shù)據(jù)源和大數(shù)據(jù)中心在同一個網(wǎng)絡(luò)中時可以采用這種方式[2]。

（2）FTP文件傳輸：當(dāng)數(shù)據(jù)源為FTP服務(wù)器，對于非結(jié)構(gòu)化的文本、圖片等數(shù)據(jù)，可以采用這種方式。

2.1.2 數(shù)據(jù)接入：對于需要實時接入的數(shù)據(jù)，通過Flink、Spark-streaming等組件實現(xiàn)實時數(shù)據(jù)的匯集

諸如定位信息、視頻信息等需要實時傳輸?shù)臄?shù)據(jù)，利用消息總線或SOCKET等技術(shù)來構(gòu)建前端的數(shù)據(jù)接收部分，將收集的數(shù)據(jù)處理轉(zhuǎn)化為統(tǒng)一格式的文件發(fā)送給平臺[3]。

2.1.3 網(wǎng)絡(luò)爬蟲：基于機器學(xué)習(xí)、自然語言處理等最新技術(shù)

綜合采用基于特征評分及啟發(fā)性規(guī)則的抽取技術(shù)，實現(xiàn)網(wǎng)頁內(nèi)容采集的智能化和自動化，采集數(shù)據(jù)時不需要編寫腳本式或規(guī)則式的包裝器，只需要指定抽取字段即可自動剔除網(wǎng)頁噪聲，如廣告、導(dǎo)航條等干擾元素并提取有用信息，從而實現(xiàn)智能采集網(wǎng)頁內(nèi)容[4]。

2.1.4 在線填報：針對政務(wù)系統(tǒng)需要面向的業(yè)務(wù)存在大量的非規(guī)則性數(shù)據(jù)收集需求，通過在線填報系統(tǒng)快速定制填報頁面滿足數(shù)據(jù)采集需求

在線填報采用J2EE的B/S體系結(jié)構(gòu)，支持所有主流部署環(huán)境和數(shù)據(jù)庫平臺。靈活的報表設(shè)計器、自動數(shù)據(jù)庫管理機制、報表制度自動調(diào)整等大量領(lǐng)先設(shè)計思想和技術(shù)，確保了系統(tǒng)具有良好的業(yè)務(wù)適應(yīng)性和擴充性，不但可滿足用戶當(dāng)前的報表處理業(yè)務(wù)需要，更能滿足其不斷變化的報表應(yīng)用需求。

2.2 數(shù)據(jù)清洗

在實際的業(yè)務(wù)處理過程中，采集到的數(shù)據(jù)通常是臟數(shù)據(jù)。臟數(shù)據(jù)通常指的是存在以下幾種問題的數(shù)據(jù)：

（1）數(shù)據(jù)缺失。通常是指屬性值為空的情況。

（2）數(shù)據(jù)噪聲。通常是指數(shù)據(jù)值不合理的情況。

（3）數(shù)據(jù)不一致。通常是指數(shù)據(jù)前后存在矛盾的情況。

（4）數(shù)據(jù)冗余。通常是指數(shù)據(jù)量或者屬性數(shù)目超出數(shù)據(jù)分析需要的情況。

（5）數(shù)據(jù)集不均衡。通常是指各個類別的數(shù)據(jù)量相差懸殊的情況。

（6）離群點/異常值。指的是采集到的數(shù)據(jù)中遠離數(shù)據(jù)集中區(qū)域的那部分?jǐn)?shù)據(jù)。

（7）數(shù)據(jù)重復(fù)。在采集中多次被采集，在數(shù)據(jù)集中多次出現(xiàn)的數(shù)據(jù)。

數(shù)據(jù)清洗的目的是從原始數(shù)據(jù)中去除不準(zhǔn)確、不完整、重復(fù)或不必要的數(shù)據(jù)，確保數(shù)據(jù)的質(zhì)量以及準(zhǔn)確性。在數(shù)據(jù)的初步清洗過程中，常用的技術(shù)包括缺失值處理、異常值檢測和處理、數(shù)據(jù)類型轉(zhuǎn)換、規(guī)范化處理、數(shù)據(jù)一致性檢查、數(shù)據(jù)合并和去重處理、數(shù)據(jù)歸一化處理、數(shù)據(jù)驗證、時間序列數(shù)據(jù)清洗以及數(shù)據(jù)可視化處理[5]。在以往的數(shù)據(jù)流轉(zhuǎn)過程中，數(shù)據(jù)清洗占整個分析過程的50%～80%時間。對低質(zhì)量數(shù)據(jù)的清洗難度大，可以通過對低質(zhì)量數(shù)據(jù)進行采集過程中的清洗和預(yù)處理的方法來提升自動數(shù)據(jù)清洗能力，從而提升數(shù)據(jù)采集的質(zhì)量和效率，采用基于組件的可視化數(shù)據(jù)清洗流程，結(jié)合數(shù)據(jù)挖掘和機器學(xué)習(xí)等處理方法，實現(xiàn)高效、智能化的數(shù)據(jù)清洗預(yù)處理。

數(shù)據(jù)清洗可以根據(jù)各個變量的取值范圍和相互關(guān)系，對數(shù)據(jù)的合理性進行檢查，對超出正常范圍或邏輯上不合理的數(shù)據(jù)進行記錄，以便進行進一步的核實與糾正。對于在數(shù)據(jù)收集階段出現(xiàn)的無效數(shù)據(jù)以及缺失的數(shù)據(jù)，運用估計、整列刪除、變量刪除等方式進行處理。根據(jù)數(shù)據(jù)的不同可以將數(shù)據(jù)清洗歸納出不同的方法[6]。

3. 數(shù)據(jù)處理技術(shù)在政務(wù)系統(tǒng)中的應(yīng)用

數(shù)據(jù)采集將結(jié)合運行日志的數(shù)據(jù)進行整體的分析和處理，實現(xiàn)各基層站點與平臺的技術(shù)對接，獲取所有資源的使用數(shù)據(jù)。在方式上可以采用調(diào)用各基層站點數(shù)據(jù)接口或者采用發(fā)布出數(shù)據(jù)收集接口的方式，由基層站點進行數(shù)據(jù)傳遞等方式進行數(shù)據(jù)的采集。

3.1 網(wǎng)絡(luò)爬蟲技術(shù)在政務(wù)輿情監(jiān)測系統(tǒng)中的應(yīng)用

網(wǎng)絡(luò)爬蟲技術(shù)能夠提供穩(wěn)定的數(shù)據(jù)抓取代理，能夠?qū)ヂ?lián)網(wǎng)海量信息進行自動抓取、自動分類、主題檢測、專業(yè)聚焦等處理，完成用戶對于網(wǎng)絡(luò)輿情監(jiān)測和新聞專題追蹤等信息需求。

將互聯(lián)網(wǎng)爬取的數(shù)據(jù)采集方法應(yīng)用到輿情預(yù)警系統(tǒng)中，用戶可以按需自主布控監(jiān)控預(yù)警的關(guān)鍵詞，系統(tǒng)爬取的信息命中預(yù)警關(guān)鍵詞后暫存到輿情監(jiān)測模塊中。例如，可以設(shè)置的爬取規(guī)則對網(wǎng)站進行數(shù)據(jù)爬取采集，如表1所示。

將不同來源的數(shù)據(jù)匯集到綜合數(shù)據(jù)平臺，對數(shù)據(jù)進行改造，依據(jù)預(yù)定的規(guī)則，將其轉(zhuǎn)化為可反復(fù)利用的信息資源服務(wù)。通過服務(wù)總線和消息組件支持多路徑消息的進入和出口，使得各種各樣的消息在總線上流動，實現(xiàn)在不同部門和機構(gòu)之間的信息共享，為平臺全方位、深入地分析和監(jiān)管數(shù)據(jù)提供便利，使其能夠?qū)崟r獲知運行狀態(tài)并做出智能應(yīng)對，為正確的輿論引導(dǎo)提供分析依據(jù)。

3.2 數(shù)據(jù)清洗轉(zhuǎn)換

3.2.1 數(shù)據(jù)清洗方案設(shè)計

由于數(shù)據(jù)的多源異構(gòu)性，導(dǎo)致出現(xiàn)數(shù)據(jù)質(zhì)量差、不可融合、不可用、不可聯(lián)等問題，必須制定一套完整的數(shù)據(jù)清洗轉(zhuǎn)換規(guī)范來處理臟數(shù)據(jù)[7]。將數(shù)據(jù)清洗轉(zhuǎn)換劃分為清洗重復(fù)數(shù)據(jù)、清洗缺失數(shù)據(jù)以及清洗不合理數(shù)據(jù)三類并且分別設(shè)計清洗方式。

3.2.1.1 清洗重復(fù)數(shù)據(jù)

主要目標(biāo)是避免數(shù)據(jù)的重復(fù)。如果一個數(shù)據(jù)表內(nèi)有多條記錄的每個字段的值完全一樣，或者這個數(shù)據(jù)表有主鍵或者唯一ID，但其中只有部分字段的值在兩條或以上的記錄中重復(fù)，那么就需要用數(shù)據(jù)清洗方法來保證數(shù)據(jù)的獨特性。

3.2.1.2 清洗缺失數(shù)據(jù)

主要針對數(shù)據(jù)記錄中存在的缺失和空白值數(shù)據(jù)的處理。根據(jù)業(yè)務(wù)需求，檢測出的空字段將以填補、刪除、歸入問題庫等各種方式進行處理。

對于數(shù)據(jù)清洗中會出現(xiàn)的數(shù)據(jù)缺少問題，可以采用以下四種方法解決：

（1）數(shù)據(jù)刪除。對于缺失數(shù)據(jù)的記錄占比較小的情況，對記錄進行直接刪除。

（2）自動補全。數(shù)據(jù)中心具備數(shù)據(jù)補全功能，能夠?qū)?shù)據(jù)清洗后的數(shù)據(jù)進行數(shù)據(jù)補全工作，對存儲系統(tǒng)和數(shù)據(jù)庫上的海量、高頻率數(shù)據(jù)集進行數(shù)據(jù)校驗，去除非法數(shù)據(jù)，實現(xiàn)對缺漏的數(shù)據(jù)進行自動補齊。由于生產(chǎn)庫本身就存在部分?jǐn)?shù)據(jù)字段屬性值的缺失，對于缺失的數(shù)據(jù)屬性，數(shù)據(jù)補全功能按照某些規(guī)則填充，比如公司辦公地址為空，默認使用工商注冊地址填充；家庭住址為空的話，默認按照身份證注冊地址填充，可以利用均值填充，也可以根據(jù)實際情況，根據(jù)過往的數(shù)據(jù)通過公式自動計算填補。例如，景區(qū)門店銷售額數(shù)據(jù)缺失，就可以參考過往景區(qū)的客流量數(shù)據(jù)根據(jù)公式進行計算[8]。

（3）手動填補。對于缺少的數(shù)據(jù)進行重新采集，或根據(jù)領(lǐng)域知識進行修補。

（4）關(guān)聯(lián)回填。兩個或兩個以上數(shù)據(jù)集之間通過某種信息建立關(guān)聯(lián)關(guān)系之后，根據(jù)實際業(yè)務(wù)的需要，可以對這兩個數(shù)據(jù)集中的數(shù)據(jù)進行相互補充。

3.2.1.3 清洗不合理數(shù)據(jù)

主要負責(zé)處理數(shù)據(jù)記錄中的不符合邏輯、違法數(shù)據(jù)。對于數(shù)據(jù)記錄中出現(xiàn)的不合理情況可采用以下兩種方式解決。

（1）數(shù)據(jù)命名轉(zhuǎn)換：通過比對標(biāo)準(zhǔn)數(shù)據(jù)元和實際數(shù)據(jù)表中的數(shù)據(jù)項，如果比對結(jié)果一致，則不需要轉(zhuǎn)換處理，如果比對結(jié)果不一致，要按照標(biāo)準(zhǔn)規(guī)定的命名進行轉(zhuǎn)換。

（2）標(biāo)準(zhǔn)地址轉(zhuǎn)換：對地址要素不完整、文字表達不一致的地址信息進行標(biāo)準(zhǔn)化處理。依托公安的標(biāo)準(zhǔn)化地址庫及互聯(lián)網(wǎng)公開的POI地址信息庫，形成相關(guān)的地址標(biāo)準(zhǔn)基礎(chǔ)庫，對采集的地址信息進行標(biāo)準(zhǔn)化處理。

數(shù)據(jù)清洗是一個反復(fù)迭代的過程，數(shù)據(jù)清洗中的產(chǎn)物包括標(biāo)準(zhǔn)化數(shù)據(jù)和問題數(shù)據(jù)。標(biāo)準(zhǔn)化數(shù)據(jù)為原始庫數(shù)據(jù)按照數(shù)據(jù)標(biāo)準(zhǔn)清洗、加工后的數(shù)據(jù)；數(shù)據(jù)清洗、加工過程中產(chǎn)生的臟數(shù)據(jù)則作為問題數(shù)據(jù)暫時保留在資源庫中，便于溯源和提升數(shù)據(jù)質(zhì)量。

3.2.2 數(shù)據(jù)清洗技術(shù)在圖片數(shù)據(jù)中的應(yīng)用

可以將AI技術(shù)運用到圖片數(shù)據(jù)的清洗過程。對于采集到的圖片數(shù)據(jù)提供清洗功能，包括去除相似或重復(fù)圖片、去除小目標(biāo)圖片、去除過暗圖片、去除過爆圖片、去除模糊圖片等清洗功能[9]。支持自定義清洗策略參數(shù)，支持創(chuàng)建清洗任務(wù)選擇“生成新版本”“覆蓋原有版本”，同時提供被清洗數(shù)據(jù)的列表以及清洗原因。

結(jié)語

在本文中，我們對于幾種數(shù)據(jù)采集和數(shù)據(jù)清洗方案以及其在數(shù)據(jù)處理中的關(guān)鍵作用進行了研究。

在數(shù)據(jù)采集方面，網(wǎng)絡(luò)爬蟲技術(shù)作為一種數(shù)據(jù)采集工具為大量獲取互聯(lián)網(wǎng)上的特定數(shù)據(jù)提供了有效手段。在未來，為適應(yīng)不斷擴張的互聯(lián)網(wǎng)以及網(wǎng)頁的多樣化，互聯(lián)網(wǎng)爬蟲技術(shù)在自適應(yīng)爬取算法以及與人工智能的結(jié)合方面存在廣闊的發(fā)展空間。

在數(shù)據(jù)清洗方面，根據(jù)臟數(shù)據(jù)的類型，分別設(shè)計有針對性的清洗方案，能夠有針對性地解決數(shù)據(jù)中存在的數(shù)據(jù)重復(fù)、缺失和不合理等問題。將AI識別技術(shù)運用到圖像數(shù)據(jù)的清洗中，能夠降低人工干預(yù)的成本并且提高效率，在未來的研究中，可以進一步探索數(shù)據(jù)清洗與機器學(xué)習(xí)和人工智能的結(jié)合，實現(xiàn)更高效率、更高準(zhǔn)確性、類型更加廣闊的數(shù)據(jù)清洗。

數(shù)據(jù)采集、數(shù)據(jù)清洗作為數(shù)據(jù)的預(yù)處理，在政務(wù)數(shù)據(jù)的處理流程中起著舉足輕重的作用。對數(shù)據(jù)的收集整合以及清理，可以消除在數(shù)據(jù)集中整合時遇到的分散、孤立、多源、跨部門和跨網(wǎng)傳輸?shù)入y題，從而為政務(wù)數(shù)據(jù)資源的整合、標(biāo)準(zhǔn)化處理以及數(shù)據(jù)資源池的建立提供依托。

參考文獻：

[1]國務(wù)院辦公廳.國務(wù)院辦公廳關(guān)于印發(fā)全國一體化政務(wù)大數(shù)據(jù)體系建設(shè)指南的通知（國辦函〔2022〕102號）[A/OL].（2022-10-28）[2023-8-20].https：//www.gov.cn/zhengce/zhengceku/2022-10/28/content_5722322.htm？eqid=edc23cad00032216000000066465a1f0.

[2]晏立，閻蔚明，陶躍華，等.基于JDBC數(shù)據(jù)庫時間獲取方法[J].計算機系統(tǒng)應(yīng)用，2008，（12）：139-141.

[3]郭棟，胡清，李國濤，等.基于Flink組件的流量鏈接分析方法及系統(tǒng)：CN202210525481.2[P].2022-08-30.

[4]馮明遠.深度網(wǎng)絡(luò)信息爬取關(guān)鍵技術(shù)研究與實現(xiàn)[D].杭州：浙江大學(xué)，2011.

[5]唐懿芳，鐘達夫，嚴(yán)小衛(wèi).基于聚類模式的數(shù)據(jù)清洗技術(shù)[J].計算機應(yīng)用，2004，（5）：116-119.

[6]劉政宇.基于大數(shù)據(jù)的數(shù)據(jù)清洗技術(shù)及運用[J].數(shù)字技術(shù)與應(yīng)用，2019，37（4）：92，94.

[7]杜少卿.基于關(guān)聯(lián)依賴的數(shù)據(jù)清洗方法研究[D].鄭州：鄭州輕工業(yè)大學(xué)，2023.

[8]樊峰峰.大規(guī)模數(shù)據(jù)清洗關(guān)鍵技術(shù)研究[D].西安：西北工業(yè)大學(xué)，2020.

[9]李政文，杜文菊，饒妮妮.基于不準(zhǔn)確圖像數(shù)據(jù)清洗的分類方法研究[J].信號處理，2022，38（7）：1547-1554.

作者簡介：詹曉林，本科，高級工程師，研究方向：信息通信工程建設(shè)、智慧城市規(guī)劃、建設(shè)工程實施；張笑宇，本科，研究方向：智慧城市規(guī)劃咨詢設(shè)計、智慧校園信息化建設(shè)；曾晶，碩士研究生，高級工程師，研究方向：管理咨詢、信息通信工程咨詢規(guī)劃設(shè)計、IT咨詢；宋昊陽，碩士研究生，工程師，研究方向：智慧城市、企業(yè)IT、物聯(lián)網(wǎng)咨詢規(guī)劃；駱丹，博士研究生，研究方向：自然語言處理、深度學(xué)習(xí)、技術(shù)產(chǎn)品研發(fā)；張歡，博士研究生，研究方向：網(wǎng)絡(luò)安全技術(shù)規(guī)劃、數(shù)據(jù)安全、信息化咨詢規(guī)劃。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

數(shù)字政府一體化建設(shè)中數(shù)據(jù)預(yù)處理技術(shù)的研究