徐彩云
摘要:數(shù)據(jù)質(zhì)量的保證是企業(yè)信息化管理發(fā)揮作用的重要前提。本文提出了一個數(shù)據(jù)質(zhì)量全程監(jiān)控流程,該流程包括數(shù)據(jù)的采集、檢查、報告、處理和總結(jié),增加了數(shù)據(jù)可信度,提高了企業(yè)決策質(zhì)量。
關(guān)鍵詞:數(shù)據(jù)質(zhì)量;全程監(jiān)控;數(shù)據(jù)處理
中圖分類號:TP311.52 文獻標(biāo)識碼:A 文章編號:1007-9416(2018)06-0069-02
1 引言
近年來隨著云計算、物聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)的出現(xiàn),數(shù)據(jù)信息時代已經(jīng)來臨。在信息大爆炸、商業(yè)競爭日益激烈的趨勢下,企業(yè)對以數(shù)據(jù)為基礎(chǔ)的信息化管理越來越重視。信息化管理可以實現(xiàn)對企業(yè)業(yè)務(wù)活動的監(jiān)測、分析和檢查,開展企業(yè)綜合績效、發(fā)展能力、競爭能力、風(fēng)險管控等方面的運營分析,并對企業(yè)經(jīng)營管理中存在的異常和問題進行警示并協(xié)調(diào)解決,是保障企業(yè)正常運行的有效手段。
數(shù)據(jù)是企業(yè)的信息化管理的靈魂。數(shù)據(jù)質(zhì)量問題已經(jīng)嚴(yán)重影響企業(yè)的成本控制、管理與跟蹤、數(shù)據(jù)安全以及服務(wù)質(zhì)量等方面。對企業(yè)數(shù)據(jù)質(zhì)量管控技術(shù)展開研究,提高數(shù)據(jù)質(zhì)量,促使企業(yè)信息化管理降低成本,提高企業(yè)決策質(zhì)量,在競爭中獲得優(yōu)勢。
2 數(shù)據(jù)質(zhì)量控制研究現(xiàn)狀
目前,國內(nèi)外在數(shù)據(jù)質(zhì)量控制方面的研究主要集中數(shù)據(jù)質(zhì)量框架與模型研究、數(shù)據(jù)質(zhì)量評估算法與模型研究方面。
2.1 數(shù)據(jù)質(zhì)量框架與模型研究
在國外,英屬哥倫比亞大學(xué)的ALARCOS研究團隊提出并設(shè)計了CALDE數(shù)據(jù)質(zhì)量模型,包括對數(shù)據(jù)成熟度劃分和定義,每個成熟度的質(zhì)量目標(biāo)以及成熟度的評估方法。2011年斯坦福大學(xué)推出了一款集數(shù)據(jù)清洗與重組的大數(shù)據(jù)清洗工具Data Wrangler。同年,谷歌也推出了一款需在Java環(huán)境下運行的大數(shù)據(jù)清洗工具Gooogle Refine。
在國內(nèi),復(fù)旦大學(xué)的周傲英教授提出了一個可以通過不同模塊來實現(xiàn)用戶定義的相關(guān)規(guī)則和數(shù)據(jù)清洗任務(wù)的可擴展數(shù)據(jù)清洗框架。鮑宏慶等提出了一個基于領(lǐng)域知識的數(shù)據(jù)清洗框架,該框架借助領(lǐng)域?qū)<液蛯<蚁到y(tǒng)引擎通過獲取數(shù)據(jù)和知識以及清洗規(guī)則,對整個數(shù)據(jù)集進行清洗。東南大學(xué)董逸生教授與其研究小組提出了一種新的基于規(guī)則描述的交互式數(shù)據(jù)清洗框架, 利用基于N-Gram的改進算法檢測拼寫錯誤,同時將在元數(shù)據(jù)庫中存放清洗規(guī)則,方便元數(shù)據(jù)的管理。
2.2 數(shù)據(jù)質(zhì)量評估算法與模型研究
在國外,R.Y.Wang等提出了AIM Quality數(shù)據(jù)產(chǎn)品質(zhì)量評估方法論,包括數(shù)據(jù)質(zhì)量評估模型、評估數(shù)據(jù)收集方法以及評價方法。WANG Hong-jian, XIONG Wei提出了一種將客觀評價和主觀評價相結(jié)合的數(shù)據(jù)質(zhì)量評估模型,解決了如何將客戶反饋信息納入數(shù)據(jù)質(zhì)量評估的問題。Zhang Weiwei等對多源異構(gòu)多模態(tài)數(shù)據(jù)的質(zhì)量進行了建模,提出了該類數(shù)據(jù)的綜合質(zhì)量評價方法。
在國內(nèi),武漢大學(xué)趙星、李石君等建立了面向互聯(lián)網(wǎng)平臺的統(tǒng)一數(shù)據(jù)模型和數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)模型,給出針對大數(shù)據(jù)全樣本數(shù)據(jù)分析的質(zhì)量標(biāo)準(zhǔn)度量和標(biāo)識方法。西安科技大學(xué)齊藝蘭從數(shù)據(jù)環(huán)境、數(shù)據(jù)管理、數(shù)據(jù)處理和數(shù)據(jù)固有質(zhì)量四個維度,建立了針對ERP系統(tǒng)數(shù)據(jù)的詳細的評價指標(biāo)體系。
3 數(shù)據(jù)質(zhì)量存在的問題
由于企業(yè)數(shù)據(jù)增長速度快,數(shù)據(jù)類型復(fù)雜,目前在數(shù)據(jù)質(zhì)量方面存在的問題主要有三個方面:(1)數(shù)據(jù)的多源性:同一數(shù)據(jù)可能來自多個數(shù)據(jù)源,由于角度不同可能產(chǎn)生理解偏差,導(dǎo)致數(shù)據(jù)質(zhì)量問題;(2)數(shù)據(jù)處理過程中技術(shù)環(huán)節(jié)的異常:數(shù)據(jù)在創(chuàng)建、獲取、傳輸、裝載、使用、回收等任一環(huán)節(jié)出現(xiàn)議程都會導(dǎo)致數(shù)據(jù)質(zhì)量問題;(3)數(shù)據(jù)處理流程設(shè)置不當(dāng):系統(tǒng)的建設(shè)容易忽視配套流程的制定和跟進。
從國內(nèi)外現(xiàn)在的研究來看,針對數(shù)據(jù)全程實時監(jiān)控的研究較少,主要集中在數(shù)據(jù)清洗、數(shù)據(jù)質(zhì)量評估、數(shù)據(jù)處理等方面。因此本文主要針對企業(yè)數(shù)據(jù)在創(chuàng)建、獲取、傳輸、使用、維護等階段出現(xiàn)的問題,制定數(shù)據(jù)質(zhì)量全程監(jiān)控方案。為實現(xiàn)對企業(yè)業(yè)務(wù)活動、運營狀況、經(jīng)營績效、財務(wù)等核心資源的在線實時監(jiān)控提供最有利的數(shù)據(jù)保障。
4 數(shù)據(jù)質(zhì)量全程監(jiān)控流程
數(shù)據(jù)質(zhì)量監(jiān)控流程主要包括五個環(huán)節(jié):采集、檢查、報告、處理和總結(jié)。整體流程框架如圖1所示。該流程涉及元數(shù)據(jù)庫、運行狀況信息庫、源數(shù)據(jù)狀況、ETL運行狀況、數(shù)據(jù)倉庫、數(shù)據(jù)集市運行狀況、數(shù)據(jù)質(zhì)量知識庫。
4.1 數(shù)據(jù)采集
數(shù)據(jù)信息質(zhì)量的采集點部署在如外部業(yè)務(wù)系統(tǒng)接口傳輸、ETL、數(shù)據(jù)倉庫處理、數(shù)據(jù)集市處理、應(yīng)用展示等過程,作為后續(xù)的數(shù)據(jù)質(zhì)量檢查環(huán)節(jié)的輸入。
4.2 元數(shù)據(jù)管理
以自動加載、批量導(dǎo)入/導(dǎo)出和模塊化導(dǎo)入/導(dǎo)出的方式對元數(shù)據(jù)進行操作并定期以自動或者人工的方式從企業(yè)運營系統(tǒng)中抽取元數(shù)據(jù),與元數(shù)據(jù)庫的對應(yīng)信息進行比較,保證元數(shù)據(jù)的同步更新。
4.3 數(shù)據(jù)質(zhì)量檢查
根據(jù)預(yù)先配置的規(guī)則、質(zhì)量檢查度量以及預(yù)先設(shè)定的時間范圍,對數(shù)據(jù)處理過程的檢查稽核,得出處理有問題的數(shù)據(jù)接口及其具體的處理環(huán)節(jié)。處理環(huán)節(jié)包括接口數(shù)據(jù)的抽取、傳輸、清洗轉(zhuǎn)換、裝載,集市數(shù)據(jù)匯總生成,應(yīng)用展現(xiàn)等。
對于有問題的數(shù)據(jù),進行數(shù)據(jù)溯源。從某一實體出發(fā),往回追溯其處理過程,直到追溯到數(shù)據(jù)輸入的源頭。對于不同類型的實體,其涉及的轉(zhuǎn)換過程可能有不同類型,除了數(shù)據(jù)接口實體由源系統(tǒng)提供,其它的數(shù)據(jù)實體都經(jīng)過了一個或多個不同類型的處理過程。數(shù)據(jù)追溯可以讓使用者根據(jù)需要了解不同的處理過程,每個處理過程具體做什么,需要什么樣的輸入,又產(chǎn)生了什么樣的輸出。
4.4 數(shù)據(jù)質(zhì)量報告
在此環(huán)節(jié)根據(jù)數(shù)據(jù)質(zhì)量檢查的結(jié)果,向數(shù)據(jù)質(zhì)量管理人員報告數(shù)據(jù)質(zhì)量情況。根據(jù)系統(tǒng)配置,生成不同類型的檢查或警示報告,并由檢查點將檢查報告存儲于運行狀況信息庫中。
4.5 數(shù)據(jù)質(zhì)量處理
在檢查過程中發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問題時,當(dāng)發(fā)現(xiàn)數(shù)據(jù)質(zhì)量異常時,系統(tǒng)進入處理環(huán)節(jié),通過問題分析,確定問題原因,生成解決方案,然后通過相應(yīng)途徑具體解決問題。
4.6 數(shù)據(jù)處理總結(jié)
當(dāng)問題處理環(huán)節(jié)結(jié)束后,數(shù)據(jù)質(zhì)量監(jiān)控模塊進入總結(jié)環(huán)節(jié),對問題處理的全過程進行記錄和總結(jié)。對處理環(huán)節(jié)問題處理的過程和結(jié)果進行評估;把問題的采集、檢查、報告、處理全過程信息進行整理,形成問題處理案例,存入數(shù)據(jù)質(zhì)量知識庫中,以便質(zhì)量管理工作的改進。
5 結(jié)語
在信息爆炸,企業(yè)越來越注重資源整合的背景下,如何提升企業(yè)數(shù)據(jù)質(zhì)量成為人們關(guān)注的問題。本文設(shè)計的數(shù)據(jù)質(zhì)量全程監(jiān)控流程實現(xiàn)了從底層源系統(tǒng)數(shù)據(jù)創(chuàng)建、數(shù)據(jù)獲取、數(shù)據(jù)傳輸、數(shù)據(jù)裝載、數(shù)據(jù)使用直至數(shù)據(jù)回收的全程監(jiān)控,提高了數(shù)據(jù)的可靠性。通過國內(nèi)外現(xiàn)有開展的深入研究,在未來階段,我們需要進一步對數(shù)據(jù)質(zhì)量的管理與控制進行探索,為企業(yè)信息化管理提供可靠的數(shù)據(jù)支撐,成分發(fā)揮數(shù)據(jù)資源的作用。
參考文獻
[1]Yair Wand,Richard Y Wang.Anchoring Data Quality Dimensions in Ontological Foundations[J].Communications of the ACM,1996:39(l):86-95.
[2]郭志懋,俞榮華,田增平,周傲英.一個可擴展的數(shù)據(jù)清洗系統(tǒng)[J].計算機工程,2003,(3):95-97.
[3]鮑洪慶,石冰,王石.一個基于領(lǐng)域知識的數(shù)據(jù)清洗框架[J].信息技術(shù)與信息化,2005,(05):100-102.
Abstract:The assurance of data quality is an important prerequisite for enterprise information management to play a role. This article presents a data quality monitoring process. This process includes data collection, inspection, reporting, processing and summing up. This process increases the credibility of data and improves the quality of enterprise decision.
Key words:data quality;whole course monitoring;data processing