許永平
(湖南交通工程學(xué)院 湖南省衡陽市 421001)
最近幾十年來,隨著信息化技術(shù)的普及,從總部到軍區(qū)、軍兵種乃至各基層部隊都先后建立了適合自身業(yè)務(wù)特點和需要的信息系統(tǒng),用于支撐各單位的主要業(yè)務(wù),為我軍的信息化建設(shè)夯實了基礎(chǔ)。伴隨著各類信息系統(tǒng)應(yīng)用的深入發(fā)展,各單位也推動了適應(yīng)各自信息系統(tǒng)需要的數(shù)據(jù)資源的建設(shè)。在這種情況下,數(shù)據(jù)資源的建設(shè)是零散的,不成體系的。但是,隨著信息化建設(shè)的不斷推進,人們越來越認識到數(shù)據(jù)資源的開發(fā)和利用已經(jīng)成為推動社會發(fā)展和進步的重要力量。數(shù)據(jù)資源的建設(shè)不應(yīng)成為信息系統(tǒng)建設(shè)的從屬,而應(yīng)該獨立于個別信息系統(tǒng)的建設(shè)從而進行整體的考慮。
當(dāng)前,數(shù)據(jù)總量呈指數(shù)式增長,造成數(shù)據(jù)管理愈發(fā)困難,而對于數(shù)據(jù)集成與共享的迫切需求不斷增強。而人們在需要應(yīng)用數(shù)據(jù)解決具體問題時,卻缺少有效的數(shù)據(jù)支撐,需要花費大量的人力和財力,采取各種手段去獲取、轉(zhuǎn)換和整合數(shù)據(jù)。因此數(shù)據(jù)資源建設(shè)已經(jīng)成為制約信息系統(tǒng)效能發(fā)揮的瓶頸[1]。在這種背景下,加快形成以信息系統(tǒng)為核心的體系能力,近年來我軍啟動了一系列數(shù)據(jù)工程建設(shè)項目[2-5],開始關(guān)注規(guī)范和支撐數(shù)據(jù)從產(chǎn)生、維護、服務(wù)、使用、存儲全過程的技術(shù)、建設(shè)和管理活動,面向體系能力,建立數(shù)據(jù)標(biāo)準(zhǔn),共享數(shù)據(jù)資源,重視建章立制,強化安全保密,不斷地深化數(shù)據(jù)建設(shè),進一步發(fā)展了具有我軍特色的數(shù)據(jù)工程基本理念。在軍事數(shù)據(jù)工程建設(shè)中,有一項重要的工作就是對所建設(shè)的數(shù)據(jù)資源的質(zhì)量進行評估。優(yōu)質(zhì)的數(shù)據(jù)資源是保證其上層應(yīng)用發(fā)揮效能的基礎(chǔ)。但是在軍事數(shù)據(jù)工程建設(shè)中,往往存在著建設(shè)單位多、層級多、數(shù)據(jù)種類多、數(shù)據(jù)量大、數(shù)據(jù)質(zhì)量參差不齊等特點,這就為其數(shù)據(jù)質(zhì)量的評估工作提出了挑戰(zhàn)。
具體來說,軍事數(shù)據(jù)工程中數(shù)據(jù)質(zhì)量的評估面臨著以下一些困難,傳統(tǒng)的評估方法無法適應(yīng)這種評估對象差異巨大的情況,這就對軍事數(shù)據(jù)工程中的數(shù)據(jù)質(zhì)量評估提出了嚴峻的挑戰(zhàn)。
(1)如上所述在軍事數(shù)據(jù)工程建設(shè)中,往往存在著建設(shè)單位多、層級多、數(shù)據(jù)種類多的特點,這就表示很難建立一個統(tǒng)一的數(shù)據(jù)質(zhì)量評估模型,并依據(jù)該模型對各單位的數(shù)據(jù)資源建設(shè)質(zhì)量進行評價;然而從數(shù)據(jù)工程組織實施的角度出發(fā),又需要對數(shù)據(jù)質(zhì)量進行有效的管控,因此數(shù)據(jù)質(zhì)量評估又成為不可或缺的環(huán)節(jié),且必須遵循一定的規(guī)范和標(biāo)準(zhǔn)。
(2)數(shù)據(jù)工程涉及的數(shù)據(jù)具有種類多且專業(yè)性很強的特點,這些數(shù)據(jù)所遵循的規(guī)律和所應(yīng)滿足的約束條件,一般來說只能被相關(guān)的專業(yè)技術(shù)人員所理解,因此在評估這些數(shù)據(jù)的質(zhì)量時,必須有相關(guān)專業(yè)技術(shù)人員的參與才能保證評估的可信度和有效性。
(3)數(shù)據(jù)工程所建設(shè)或者搜集的數(shù)據(jù)量將是海量的。在軍事數(shù)據(jù)工程建設(shè)中,由于一個數(shù)據(jù)集往往能匯集廣大區(qū)域范圍內(nèi)長時間跨度范圍內(nèi)的大量數(shù)據(jù)。這一特點使得由人工來對數(shù)據(jù)進行檢查和評估的做法變得基本不可行,必須要通過一種量化的以及自動化的機制來減輕評估人員的負擔(dān),使其將主要精力放在發(fā)現(xiàn)質(zhì)量問題、分析產(chǎn)生原因、給出解決方案等更適合發(fā)揮人類的主觀能動性的工作上來。
數(shù)據(jù)質(zhì)量評估的主旨是根據(jù)不同應(yīng)用場景對數(shù)據(jù)質(zhì)量的要求,將其轉(zhuǎn)化為一系列具有可測性的測度集,對數(shù)據(jù)質(zhì)量進行定性或者定量的測量,將測量結(jié)果與期望值(標(biāo)準(zhǔn)值)進行比較,從而確認數(shù)據(jù)質(zhì)量狀態(tài),檢查和驗證數(shù)據(jù)質(zhì)量控制活動[6]。
數(shù)據(jù)質(zhì)量評估元模型是對數(shù)據(jù)工程中數(shù)據(jù)質(zhì)量評估工作的抽象,建立數(shù)據(jù)質(zhì)量評估元模型的目的是為數(shù)據(jù)工程數(shù)據(jù)質(zhì)量評估體系的定義提供一個完整的框架。在元模型的語義下,數(shù)據(jù)質(zhì)量評估模型是通過數(shù)據(jù)質(zhì)量元數(shù)據(jù)進行描述的,數(shù)據(jù)質(zhì)量評估元數(shù)據(jù)是對數(shù)據(jù)質(zhì)量評估元模型結(jié)構(gòu)的描述,具體的數(shù)據(jù)質(zhì)量評估模型是對數(shù)據(jù)質(zhì)量評估元模型的實現(xiàn)。也就是說,數(shù)據(jù)質(zhì)量評估元模型的實例是各建設(shè)單位根據(jù)自身數(shù)據(jù)特點和需要建立的一組數(shù)據(jù)質(zhì)量評估模型。
一個數(shù)據(jù)工程建設(shè)單位的數(shù)據(jù)質(zhì)量評估體系由若干個數(shù)據(jù)質(zhì)量評估模型組成。每一個數(shù)據(jù)質(zhì)量評估模型是針對建設(shè)單位的某一個業(yè)務(wù)主題定義的質(zhì)量評估描述,它能夠滿足建設(shè)單位對某單一類型業(yè)務(wù)對于數(shù)據(jù)質(zhì)量評估的需要。各種不同主題的數(shù)據(jù)都應(yīng)該有不同的質(zhì)量評估模型,各種不同類型的數(shù)據(jù)(如文本數(shù)據(jù)、音頻數(shù)據(jù)、視頻數(shù)據(jù)等)也應(yīng)該有不同的質(zhì)量評估模型。
數(shù)據(jù)質(zhì)量評估元模型可以表示為一個九元組:
M=< D,S,I,R,W,A,E,V ,T>
(1)其中,D 表示被檢查的數(shù)據(jù)集。這里的數(shù)據(jù)可以是關(guān)系型得結(jié)構(gòu)化數(shù)據(jù),也可以是半結(jié)構(gòu)或者非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)集的粒度根據(jù)應(yīng)用的需要以及各專業(yè)數(shù)據(jù)類型的不同而具體確定。但是對于每一種具體數(shù)據(jù)而言,每次被查的數(shù)據(jù)集的粒度應(yīng)該是保持一致的。對于關(guān)系型數(shù)據(jù)庫來說,一個數(shù)據(jù)集通常相當(dāng)于一個表或者一個視圖。
(2)S 表示數(shù)據(jù)抽樣方法,指的是根據(jù)指定的采樣方法從數(shù)據(jù)集中獲取樣本數(shù)據(jù)進行數(shù)據(jù)質(zhì)量評估。根據(jù)數(shù)據(jù)集的大小以及具體需要可以采用不同的抽樣方法,如全部抽樣、部分抽樣、增量抽樣等。
(3)I 表示數(shù)據(jù)質(zhì)量指標(biāo)。Pipino 等人指出應(yīng)該從數(shù)據(jù)使用者的角度定義數(shù)據(jù)質(zhì)量[7]。研究表明,對于數(shù)據(jù)使用者而言,數(shù)據(jù)質(zhì)量是一個多指標(biāo)或者多維度的概念。數(shù)據(jù)質(zhì)量評估至少應(yīng)該包含可信性與可用性兩方面的基本評估指標(biāo),具體的指標(biāo)如:精確性、完整性、一致性、有效性、唯一性、時間性和穩(wěn)定性等[8]。在進行數(shù)據(jù)質(zhì)量評估時 ,需要根據(jù)具體的數(shù)據(jù)質(zhì)量需求對數(shù)據(jù)質(zhì)量評估指標(biāo)進行增添或相應(yīng)的取舍。評估指標(biāo)往往還需要不斷分解為若干層次的次級指標(biāo)。
(4)R 表示業(yè)務(wù)規(guī)則或者約束條件。在實際工作中,抽象的數(shù)據(jù)質(zhì)量指標(biāo)是難以直接、準(zhǔn)確、全面測量的。在數(shù)據(jù)質(zhì)量評估中,必須將其轉(zhuǎn)換為若干數(shù)據(jù)質(zhì)量測量元。所謂數(shù)據(jù)質(zhì)量測量元是指能夠反映數(shù)據(jù)質(zhì)量規(guī)格且具有可測性的單元。由一組特征性數(shù)據(jù)測量元所組成的測度集即可反映數(shù)據(jù)質(zhì)量某一方面的狀況,通過不同測度集的測定,則可匯集出數(shù)據(jù)質(zhì)量整體狀況以及歸一化的測度值。在實際工作中,往往將數(shù)據(jù)實例層或模式層的業(yè)務(wù)規(guī)則或者是約束條件作為數(shù)據(jù)質(zhì)量的測量元。
(5)W 表示賦予數(shù)據(jù)質(zhì)量指標(biāo)以及業(yè)務(wù)規(guī)則(約束條件)的權(quán)重值。根據(jù)采用的權(quán)重模型的不同,所賦予的權(quán)重值可能是概率值、模糊值或者模糊測度值等。不同的權(quán)重模型表示對于數(shù)據(jù)質(zhì)量指標(biāo)之間的關(guān)系的認識不同。采用常用的概率測度表示我們假設(shè)各個數(shù)據(jù)質(zhì)量指標(biāo)之間是獨立的,不存在相互影響的關(guān)系。而采用模糊測度[9]則表示各個數(shù)據(jù)質(zhì)量指標(biāo)之間可能存在相互影響關(guān)系。
(6)A 表示所采用的評估值聚合模型,指的是將數(shù)據(jù)質(zhì)量指標(biāo)值聚合為最終的數(shù)據(jù)質(zhì)量評估值的模型,以及將基于業(yè)務(wù)規(guī)則(約束條件)的檢查結(jié)果聚合為底層指標(biāo)的聚合模型。如加權(quán)和模型、加權(quán)積模型、模糊積分模型等。具體采用的聚合模型與上述權(quán)重模型是是有關(guān)聯(lián)的,比如采用模糊測度來表示指標(biāo)之間的關(guān)系,那么就只能采用模糊積分來計算最終的評估值,而不可能采用加權(quán)和或者加權(quán)積等模型。
(7)E 表示期望值,指的是數(shù)據(jù)工程建設(shè)單位對于業(yè)務(wù)規(guī)則[10](約束條件)滿足情況的期望值。該期望值的制定應(yīng)該考慮數(shù)據(jù)集具體面向的應(yīng)用,應(yīng)用不同對數(shù)據(jù)質(zhì)量的要求也是不一樣的。從數(shù)據(jù)應(yīng)該符合的業(yè)務(wù)規(guī)則(約束條件)出發(fā),制定針對每一條業(yè)務(wù)規(guī)則(約束條件)的期望值,然后根據(jù)采用的權(quán)重模型和聚合模型,就能夠得到每一個指標(biāo)和最終評估的期望值。
(8)V 表示每一次數(shù)據(jù)質(zhì)量評估活動中得到的數(shù)據(jù)集數(shù)據(jù)質(zhì)量的最終評估值。通過將V 與E 進行比較,能夠明確得出當(dāng)前數(shù)據(jù)質(zhì)量是否符合要求的結(jié)論,也是對前期數(shù)據(jù)質(zhì)量控制活動的驗證。
(9)T 表示時間維度,指的是數(shù)據(jù)質(zhì)量評估不是一個一次性的活動。針對具體數(shù)據(jù)集的特點,考慮其變化情況,必須制定數(shù)據(jù)質(zhì)量評估活動的策略,如定期評估、增量評估、按需評估等。根據(jù)不同時間點上數(shù)據(jù)質(zhì)量評估值的變化,啟動不同的響應(yīng)活動。
在軍事數(shù)據(jù)工程建設(shè)中,數(shù)據(jù)質(zhì)量評估元模型表達了數(shù)據(jù)質(zhì)量評估的整體框架和思路。每一個數(shù)據(jù)質(zhì)量評估模型是針對建設(shè)單位的某一個業(yè)務(wù)主題定義的質(zhì)量評估描述,它能夠滿足建設(shè)單位對某單一類型業(yè)務(wù)對于數(shù)據(jù)質(zhì)量評估的需要。而若干個數(shù)據(jù)質(zhì)量評估模型則可以構(gòu)成該建設(shè)單位的數(shù)據(jù)質(zhì)量評估體系。根據(jù)數(shù)據(jù)質(zhì)量評估元模型的定義及其組成元素之間的內(nèi)在關(guān)系,軍事數(shù)據(jù)工程的各建設(shè)單位在定義本單位、本領(lǐng)域或者本專業(yè)的數(shù)據(jù)質(zhì)量評估模型并在實際的評估工作中加以應(yīng)用時,可以按照以下步驟進行:
(1)針對本單位、本領(lǐng)域或者本專業(yè)的數(shù)據(jù)進行分析,將其劃分為不同的業(yè)務(wù)主題。針對不同的業(yè)務(wù)主題將分別建立其質(zhì)量評估模型。
(2)針對某一主題下的數(shù)據(jù)集或者一類數(shù)據(jù)集,明確其抽樣方法S,可以根據(jù)不同情況采用不同的抽樣方法,如全部抽樣、部分抽樣、增量抽樣等。在軍事數(shù)據(jù)工程建設(shè)中,由于一個數(shù)據(jù)集往往能匯集廣大區(qū)域范圍內(nèi)長時間跨度范圍內(nèi)的大量數(shù)據(jù)。因此,根據(jù)情況采用不同的抽樣方法以滿足具體的評估要求是很有必要的。
(3)根據(jù)某一主題下的數(shù)據(jù)集可能的應(yīng)用場景,開發(fā)數(shù)據(jù)集的質(zhì)量指標(biāo)體系,在選定頂層質(zhì)量維度后根據(jù)需要逐層詳細分解,得到最終的數(shù)據(jù)質(zhì)量評估指標(biāo)體系I 并確定其權(quán)重模型W。
(4)根據(jù)某一主題下的數(shù)據(jù)集的內(nèi)在特征,組織業(yè)務(wù)人員分析其應(yīng)滿足的業(yè)務(wù)規(guī)則或約束條件R 并給出具體的定義,將數(shù)據(jù)質(zhì)量指標(biāo)體系中的指標(biāo)轉(zhuǎn)化為具體可測的業(yè)務(wù)規(guī)則,明確其測量方法,并確定這些規(guī)則的權(quán)重W 以及期望值E。
(5)根據(jù)質(zhì)量指標(biāo)間的相互關(guān)系、業(yè)務(wù)規(guī)則之間的相互關(guān)系以及所采用的權(quán)重模型,選取合適的評估值聚合方法A,能夠?qū)⑨槍I(yè)務(wù)規(guī)則R 的測量值聚合為最終的評估值V。
(6)針對以上元素,組織相關(guān)專家進行評審,并根據(jù)專家評審意見進行修改完善。
(7)針對數(shù)據(jù)種類繁多、數(shù)據(jù)體量巨大、數(shù)據(jù)規(guī)則復(fù)雜的特點,需要開發(fā)專用的數(shù)據(jù)質(zhì)量評估工具,實現(xiàn)自動化的評估并能夠生成評估報告;對于一些特殊情況,也可以發(fā)揮專家的經(jīng)驗和智慧,采用人工評估的方式,或者是采用人工與自動相結(jié)合、定性與定量相結(jié)合的評估方式。
(8)根據(jù)不同的評估策略,如定期評估、增量評估、按需評估等,使用數(shù)據(jù)質(zhì)量評估工具進行評估,并將評估值V 與期望值E進行比較,對當(dāng)前數(shù)據(jù)質(zhì)量存在的問題進行分析。對于不同業(yè)務(wù)主題下的數(shù)據(jù)質(zhì)量也能夠根據(jù)其期望值和評估值進行橫向比較。
(9)通過長期的評估數(shù)據(jù)的積累,可以對評估結(jié)果包括最終結(jié)果以及中間結(jié)果等進行時間序列分析,建立該數(shù)據(jù)集的數(shù)據(jù)質(zhì)量檔案,并對其今后的數(shù)據(jù)質(zhì)量做出科學(xué)合理的預(yù)測。
(10)在依據(jù)已建立的數(shù)據(jù)質(zhì)量評估模型進行評估的過程中,也要注意對采樣方法、質(zhì)量指標(biāo)、業(yè)務(wù)規(guī)則、權(quán)重模型、聚合模型等要素的合理性進行不斷的檢查,并根據(jù)情況變化進行及時調(diào)整,保證數(shù)據(jù)質(zhì)量評估模型能夠正確反映被評估對象的本質(zhì)特征。
本文從軍事數(shù)據(jù)工程中數(shù)據(jù)集質(zhì)量評估的實際需求出發(fā),分析了數(shù)據(jù)工程中數(shù)據(jù)質(zhì)量評估的特點和面臨的挑戰(zhàn),通過對數(shù)據(jù)工程中數(shù)據(jù)質(zhì)量評估工作的抽象,提出了數(shù)據(jù)質(zhì)量評估元模型的概念,給出了該元模型的定義及其組成要素之間的邏輯關(guān)系,并針對其在軍事數(shù)據(jù)工程中數(shù)據(jù)質(zhì)量評估工作中的應(yīng)用給出了具體的意見和建議。它不僅適用于結(jié)構(gòu)化數(shù)據(jù)的評估,也適用于半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的評估,能夠有效適應(yīng)數(shù)據(jù)工程中各種不同的評估場景,輔助建設(shè)單位建成既符合數(shù)據(jù)工程總體要求同時又體現(xiàn)自身數(shù)據(jù)特點的具體評估模型,為各建設(shè)單位數(shù)據(jù)質(zhì)量控制工作提供有力支撐。