黃俊超HUANG Jun-chao
(空軍勤務(wù)學(xué)院研究生大隊,徐州 221000)
管理信息系統(tǒng)是以人為核心因素,由計算機(jī)技術(shù)、設(shè)施及其他信息手段組成,并用于管理信息的系統(tǒng)[1],其運(yùn)行需要充足、全方位、高質(zhì)量的數(shù)據(jù)作為保障。然而,伴隨著管理信息系統(tǒng)的廣泛使用,所產(chǎn)生的數(shù)據(jù)愈來愈多,許多數(shù)據(jù)已經(jīng)超出了管理與控制的范圍?!皵?shù)據(jù)豐富,信息貧乏”問題時常發(fā)生,原因之一就是數(shù)據(jù)質(zhì)量差,導(dǎo)致數(shù)據(jù)不能有效地被運(yùn)用,進(jìn)而降低管理信息系統(tǒng)的效率,甚至造成嚴(yán)重決策失誤。
當(dāng)前對數(shù)據(jù)質(zhì)量的研究中,數(shù)據(jù)清洗、數(shù)據(jù)修復(fù)、數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)質(zhì)量控制等方面都取得了長足的進(jìn)展,然而許多學(xué)者都認(rèn)為數(shù)據(jù)質(zhì)量評價是基礎(chǔ),是對數(shù)據(jù)質(zhì)量現(xiàn)狀的準(zhǔn)確反映。近些年來數(shù)據(jù)質(zhì)量評價指標(biāo)體系、評價模型等方面的研究不斷增加。本文對管理信息系統(tǒng)數(shù)據(jù)質(zhì)量的定義與維度、數(shù)據(jù)質(zhì)量評價指標(biāo)、評價方法進(jìn)行全面梳理,以期能夠為管理信息系統(tǒng)數(shù)據(jù)質(zhì)量相關(guān)研究的學(xué)者提供一定的借鑒。
理清數(shù)據(jù)質(zhì)量的定義與維度是評價指標(biāo)體系的建立的基礎(chǔ)。數(shù)據(jù)質(zhì)量的研究起源于1980 年初,稍滯后于信息系統(tǒng)發(fā)展[2]。起初人們將數(shù)據(jù)質(zhì)量理解為數(shù)據(jù)準(zhǔn)確性,隨著信息技術(shù)的發(fā)展,準(zhǔn)確性這一概念已不足以清晰完整描述數(shù)據(jù)質(zhì)量。1999 年,Kuan-Tsae Huang 等人對數(shù)據(jù)質(zhì)量作了較簡單的定義:滿足用戶需求和期望的程度[3]。同樣的,盧本新[4]對數(shù)據(jù)倉庫中的數(shù)據(jù)質(zhì)量定義為能夠滿足客戶需求的數(shù)據(jù)占比。齊藝蘭[23]給出了ERP 系統(tǒng)的數(shù)據(jù)質(zhì)量定義:ERP 系統(tǒng)中的數(shù)據(jù)滿足最終需求的程度。
信息系統(tǒng)的使用者通過對數(shù)量大、種類多、屬性不同的數(shù)據(jù)進(jìn)行分析處理從而獲得信息,進(jìn)而用于輔助決策,因此在信息系統(tǒng)中,數(shù)據(jù)質(zhì)量的定義偏向于“滿足程度”的概念的同時更強(qiáng)調(diào)多維化。盡管因為數(shù)據(jù)質(zhì)量針對對象不同,不同對象要求不同,研究者們?nèi)詻]有對數(shù)據(jù)質(zhì)量有精準(zhǔn)的、恰當(dāng)?shù)亩x,但一般認(rèn)為,數(shù)據(jù)質(zhì)量通常分解為具體的數(shù)據(jù)質(zhì)量維度[5-6]。數(shù)據(jù)質(zhì)量維度為度量和管理數(shù)據(jù)的質(zhì)量提供了一種途徑和標(biāo)準(zhǔn)[7]。陳遠(yuǎn)[8]認(rèn)為對數(shù)據(jù)質(zhì)量定義的把握不應(yīng)僅僅局限于輸入端的正確與否,而是對信息系統(tǒng)在開發(fā)、使用過程中數(shù)據(jù)的正確性、準(zhǔn)確性、不矛盾性、一致性、完整性、集成性六個方面的描述。趙宇[9]通過對多篇文獻(xiàn)的整理認(rèn)為信息系統(tǒng)中的準(zhǔn)確性、時效性、完整性和一致性被滿足的程度是當(dāng)下學(xué)者對數(shù)據(jù)質(zhì)量定義較為一致的觀點。劉向民[10]認(rèn)為信息系統(tǒng)數(shù)據(jù)內(nèi)在質(zhì)量反映在數(shù)據(jù)真實性、數(shù)據(jù)完整性、數(shù)據(jù)精確性、數(shù)據(jù)時效性、數(shù)據(jù)可用性、數(shù)據(jù)可信性、數(shù)據(jù)邏輯一致性上。
綜上所述,目前對數(shù)據(jù)質(zhì)量定義主要是面向使用方的,強(qiáng)調(diào)“適合使用”的程度。管理信息系統(tǒng)中數(shù)據(jù)具有數(shù)據(jù)量大、時效性強(qiáng)、數(shù)據(jù)關(guān)系復(fù)雜、多源化、系統(tǒng)安全系數(shù)要求高的特點,數(shù)據(jù)的應(yīng)用又格外強(qiáng)調(diào)數(shù)據(jù)的準(zhǔn)確性、時效性、一致性、完整性和安全性。因此結(jié)合研究者們對據(jù)質(zhì)量定義以及管理信息系統(tǒng)的特點,可以給出如下定義:管理信息系統(tǒng)數(shù)據(jù)質(zhì)量是指數(shù)據(jù)在準(zhǔn)確性、時效性、一致性、完整性和安全性等各個維度中,數(shù)據(jù)實例能夠滿足最終需求的程度。
要想進(jìn)行評價首先要理清楚評價的方面,數(shù)據(jù)質(zhì)量評價指標(biāo)體系的建立遵循科學(xué)性原則、系統(tǒng)性原則、可擴(kuò)充性原則[11],并以數(shù)據(jù)質(zhì)量的定義與維度為基礎(chǔ),是進(jìn)行數(shù)據(jù)質(zhì)量評價并做出正確判斷的實踐依據(jù)。各個領(lǐng)域中由于評價目標(biāo)和評價方法各不相同,研究者所建立的評價指標(biāo)體系也不盡相同。表1 展示了21 世紀(jì)以來不同學(xué)者對于信息系統(tǒng)數(shù)據(jù)質(zhì)量評價指標(biāo)的界定。
表1 數(shù)據(jù)質(zhì)量評價指標(biāo)
通過對以往文獻(xiàn)研究發(fā)現(xiàn),數(shù)據(jù)質(zhì)量的評價指標(biāo)能夠進(jìn)行分類,可劃分為數(shù)據(jù)的基礎(chǔ)要求、數(shù)據(jù)內(nèi)容、效能作用三個維度。每個維度包含評價指標(biāo)如圖1 所示。
圖1 數(shù)據(jù)質(zhì)量評價指標(biāo)維度劃分
數(shù)據(jù)基礎(chǔ)要求維度中的評價指標(biāo)是指系統(tǒng)在設(shè)計之初對數(shù)據(jù)的精度、形式等進(jìn)行的約束,是最基礎(chǔ)、最廣泛使用的指標(biāo)。主要評價指標(biāo)有規(guī)范性、完整性、表達(dá)形式合理性等。規(guī)范性是指數(shù)據(jù)符合格式要求、值域約束等強(qiáng)制性標(biāo)準(zhǔn)的程度;完整性是字段數(shù)、記錄數(shù)等滿足要求的程度;表達(dá)形式合理性用于評價數(shù)據(jù)的各項特征、表達(dá)方式符合要求的程度。
數(shù)據(jù)內(nèi)容維度中的評價指標(biāo)是對現(xiàn)有數(shù)據(jù)本身具體內(nèi)容的評價。主要評價指標(biāo)有準(zhǔn)確性、正確性、真實性、邏輯一致性等。準(zhǔn)確性是指數(shù)據(jù)反映真實值的程度;正確性與準(zhǔn)確性概念有所區(qū)分,是指數(shù)據(jù)在所界定的范圍之內(nèi),有些數(shù)據(jù)雖然是準(zhǔn)確的,但并不一定能夠準(zhǔn)確反映現(xiàn)實情況;真實性為數(shù)據(jù)反映真實情況的程度;邏輯一致性指字段與表映射是否異常、同一字段上下文表述是否一致。
數(shù)據(jù)效能作用維度中的評價指標(biāo)是對已有數(shù)據(jù)能夠發(fā)揮作用的評價。由于數(shù)據(jù)質(zhì)量的定義是指數(shù)據(jù)實例能夠滿足最終需求的程度,所以該維度的評價指標(biāo)較多。主要評價指標(biāo)有時效性、可訪問性、可維護(hù)性、全面性、安全性等。時效性為數(shù)據(jù)在預(yù)期時間內(nèi)能夠被正確使用的程度;可訪問性是指數(shù)據(jù)可用的程度以及檢索速度的高低;可維護(hù)性為數(shù)據(jù)能夠按照管理者目標(biāo)進(jìn)行更新、修改的程度;全面性是指相對于數(shù)據(jù)總體或全體相關(guān)對象的數(shù)據(jù)覆蓋程度;安全性是指數(shù)據(jù)在使用維護(hù)過程中是否存在丟失、被盜的可能。
數(shù)據(jù)質(zhì)量評價方法是數(shù)據(jù)質(zhì)量評價的核心部分,合適的評價方法能夠快速、準(zhǔn)確反映出所存在的數(shù)據(jù)質(zhì)量問題,得出可靠的結(jié)果。國內(nèi)外關(guān)于數(shù)據(jù)質(zhì)量評價方法的研究層出不窮,通過整理歸納,可將常見的評價方法歸納為以下5 類。
第一類是國外較為典型的評價模型[23]。一是國際貨幣基金組織提出的數(shù)據(jù)質(zhì)量評價通用模型(DQAF)是對統(tǒng)計數(shù)據(jù)質(zhì)量進(jìn)行定性評價的一種方法,為數(shù)據(jù)質(zhì)量評價提供了一個通用的框架,囊括了數(shù)據(jù)質(zhì)量評價的絕大多數(shù)維度[24];二是麻省理工學(xué)院TDQM 項目組所研究的信息管理質(zhì)量評價(AIMQ)方法[25],提出了信息質(zhì)量評價以及差別分析判斷方法,并且能夠進(jìn)行數(shù)據(jù)質(zhì)量提升,實用性較強(qiáng)。
這類方法較為經(jīng)典,但僅適用于部分領(lǐng)域。DQAF 模型面向統(tǒng)計數(shù)據(jù),操作簡便,實用性強(qiáng),但尚未有國內(nèi)學(xué)者將其引進(jìn)應(yīng)用,AIMQ 強(qiáng)調(diào)將數(shù)據(jù)看作產(chǎn)品,更側(cè)重于管理方向。
第二類是傳統(tǒng)直接評價法,將現(xiàn)有數(shù)據(jù)與各項評價指標(biāo)進(jìn)行比對,運(yùn)用簡單數(shù)理統(tǒng)計計算來進(jìn)行,如簡單比率法、缺陷扣分法、加權(quán)平均法、最小或最大運(yùn)算方法。
劉偉[26]根據(jù)簡單比率法,基于質(zhì)量約束規(guī)則,構(gòu)建了對完整性、一致性、時效性、準(zhǔn)確性評價的元數(shù)據(jù)算法模型。荀挺[27]基于統(tǒng)計學(xué)原理,從多個角度提取數(shù)據(jù)質(zhì)量的評價指標(biāo)對數(shù)據(jù)質(zhì)量綜合分析與評價。王軍玲[15]依據(jù)數(shù)據(jù)質(zhì)量評價定量指標(biāo),給出了數(shù)據(jù)質(zhì)量缺陷等級,以逐層遞進(jìn)的方式,采用線性內(nèi)插法、算術(shù)平均法、加權(quán)平均法等算法,分別計算目標(biāo)數(shù)據(jù)集的一級、二級質(zhì)量指標(biāo),最終得到數(shù)據(jù)集整體質(zhì)量的評分。
這類方法以數(shù)據(jù)質(zhì)量問題作為切入點進(jìn)行評價,對質(zhì)量問題的反應(yīng)較為靈敏,并且易于量化,運(yùn)算簡易,并且加入加權(quán)統(tǒng)計的思想后,其使用起來更加靈活,所以應(yīng)用較為廣泛。但不足之處在于由于缺陷的定義本身具有模糊性,對缺陷與非缺陷之間的灰色地帶無法進(jìn)行準(zhǔn)確評價,并且這種剛性的量化方法會導(dǎo)致結(jié)果偏于嚴(yán)重化。同時,其對指標(biāo)體系的依賴性強(qiáng),若指標(biāo)體系存在缺陷,得出的評價結(jié)果將不盡人意。
第三類是不確定理論評價法。鑒于上述缺點,研究者們使用不確定性理論來進(jìn)行數(shù)據(jù)質(zhì)量的評價,主要包括粗糙集理論、模糊綜合評判法等。
宋俊典[28]提出了一種面向多維度數(shù)據(jù)質(zhì)量的模糊綜合評價方法,采用德爾菲法和層次分析法對各指標(biāo)賦予權(quán)重,確定隸屬度函數(shù)和特征向量,并進(jìn)行模糊轉(zhuǎn)換和模糊計算,最終根據(jù)最大隸屬度原則得到質(zhì)量評級。Davod[29]使用模糊AHP 方法評價數(shù)據(jù)質(zhì)量各個維度。胡小靜[30]對空間數(shù)據(jù)進(jìn)行評價,針對其不確定性的特點,提出了多層次模糊綜合評判的方法。
該類方法的基本思想是假定對事物的狀態(tài)以及狀態(tài)的變化方式缺少準(zhǔn)確的判斷[31],將評價指標(biāo)量化、客觀化。所以在面對不確定、復(fù)雜、綜合性強(qiáng)的問題時,該類方法具有較為明顯的優(yōu)勢。
第四類方法是組合模型評價方法。所有評價方法都有可能存在局限之處,采用具有互補(bǔ)性的方法建立組合模型來進(jìn)行數(shù)據(jù)質(zhì)量的評價,能夠彌補(bǔ)各種方法的缺陷,突出各類方法的優(yōu)點,使評價的結(jié)論更加精確可靠。
王帆飛[32]在確定質(zhì)量等級后,利用加權(quán)平均的缺陷扣分法得到數(shù)據(jù)的質(zhì)量得分,最后評價出數(shù)據(jù)集的質(zhì)量等級。莊廣新[33]提出了基于層次分析法與灰色聚類分析的道路交通流數(shù)據(jù)質(zhì)量評價方法,確定權(quán)重后,采用灰色系統(tǒng)理論白化權(quán)函數(shù)建立各指標(biāo)關(guān)聯(lián)度矩陣模型。楊棟樞[34]通過構(gòu)建基于熵權(quán)與層次分析法的電力企業(yè)運(yùn)營監(jiān)控中心數(shù)據(jù)質(zhì)量組合權(quán)重評價模型,并通過實際數(shù)據(jù)驗證了評價模型的有效性。
第五類是基于元數(shù)據(jù)的評價方法。元數(shù)據(jù)是包含數(shù)據(jù)基本信息的數(shù)據(jù),是對數(shù)據(jù)各個方面進(jìn)行最基本描述。元數(shù)據(jù)的應(yīng)用使得數(shù)據(jù)更易被查找、管理和使用,因此很多學(xué)者如劉偉[26]、李天陽[35]、黃剛[36]、張董強(qiáng)[37]都提出通過建立元數(shù)據(jù)模型進(jìn)行數(shù)據(jù)質(zhì)量的評價。
該類方法首先建立各評價指標(biāo)的數(shù)據(jù)質(zhì)量約束規(guī)則,再設(shè)計各個實體的約束規(guī)則元模型,然后建立評價算法元模型進(jìn)行評價,利用元數(shù)據(jù)的基本特性進(jìn)行數(shù)據(jù)質(zhì)量評價,體現(xiàn)了靈活性、通用性的特點。在使用中只需簡單維護(hù)元數(shù)據(jù),便可以實現(xiàn)任何數(shù)據(jù)庫及任意數(shù)據(jù)質(zhì)量評價約束的數(shù)據(jù)質(zhì)量評價。但在評價算法的選擇上較為簡單,劉偉提出了兩種評價算法,一種是簡單比對法,從數(shù)據(jù)質(zhì)量的幾類關(guān)鍵特性出發(fā),計算出每類關(guān)鍵特性的錯誤數(shù)據(jù)個數(shù),與數(shù)據(jù)總數(shù)的比值,最后得出問題發(fā)生率;另外一種就是屬性加權(quán)法,考慮到每個關(guān)鍵特性對于數(shù)據(jù)的重要性可能不同,為了區(qū)分不同關(guān)鍵特性所占的比重,使用加權(quán)算法進(jìn)行評價。上述學(xué)者在研究中普遍使用一些定性指標(biāo)進(jìn)行人工打分評價,在數(shù)據(jù)量大、數(shù)據(jù)關(guān)系復(fù)雜的情況下,人工打分評價可能導(dǎo)致評估結(jié)果不盡人意。
基于所掌握的相關(guān)文獻(xiàn),對管理信息系統(tǒng)數(shù)據(jù)質(zhì)量的研究進(jìn)展進(jìn)行梳理歸納。首先對數(shù)據(jù)質(zhì)量的定義與維度進(jìn)行梳理,其次從數(shù)據(jù)質(zhì)量評價指標(biāo)、評價方法兩個方面對管理信息系統(tǒng)數(shù)據(jù)質(zhì)量評價的研究內(nèi)容進(jìn)行整合。研究發(fā)現(xiàn),當(dāng)前針對管理信息系統(tǒng)數(shù)據(jù)質(zhì)量評價指標(biāo)、評價方法的研究取得了一定成果,但仍存在一定不足:①數(shù)據(jù)質(zhì)量的定義是研究數(shù)據(jù)質(zhì)量的基礎(chǔ),但當(dāng)前對于管理信息系統(tǒng)數(shù)據(jù)質(zhì)量的定義仍然較為模糊,不同學(xué)者有不同的看法,尤其是針對管理信息系統(tǒng)領(lǐng)域,還未有統(tǒng)一的標(biāo)準(zhǔn);②由于研究領(lǐng)域不同,對數(shù)據(jù)質(zhì)量評價指標(biāo)的認(rèn)識存在較大差異,不同評價指標(biāo)雖然字面不同,但意義差別并不大,且繁雜的評價指標(biāo)體系不利于進(jìn)一步的評價,可能會造成評價結(jié)果失真;③基于元數(shù)據(jù)能夠更加準(zhǔn)確、快速地進(jìn)行評價,但評價算法方面還較為單一,所評價的內(nèi)容層面較淺。
立足于現(xiàn)有研究的不足,今后的研究可側(cè)重于以下幾個方面:①深入分析各領(lǐng)域數(shù)據(jù)應(yīng)用現(xiàn)狀,進(jìn)一步理清管理信息系統(tǒng)數(shù)據(jù)質(zhì)量的定義與維度,為評價指標(biāo)體系建立打好基礎(chǔ);②完善數(shù)據(jù)質(zhì)量評價指標(biāo)體系。針對不同研究領(lǐng)域建立概括性強(qiáng)、簡潔明了、層次分明的評價指標(biāo)體系,避免評價指標(biāo)繁雜對評價結(jié)果的影響;③豐富基于元數(shù)據(jù)的數(shù)據(jù)質(zhì)量評價方法,可采用組合方法、深度學(xué)習(xí)等算法進(jìn)行評價,達(dá)到更準(zhǔn)確的評價效果。