孫常鵬 張耀 于海濤 高靜 國(guó)網(wǎng)天津市電力公司信息通信公司
引言:在數(shù)據(jù)資產(chǎn)價(jià)值越發(fā)突出的今天,數(shù)據(jù)質(zhì)量問(wèn)題受到了格外地關(guān)注,尤其對(duì)于國(guó)家電網(wǎng)這個(gè)龐大的信息化企業(yè)來(lái)說(shuō),每天產(chǎn)生著大量的業(yè)務(wù)數(shù)據(jù),數(shù)據(jù)結(jié)果直接或間接的反應(yīng)了國(guó)家電網(wǎng)的運(yùn)行狀況,因此分析數(shù)據(jù)質(zhì)量影響因素并提高數(shù)據(jù)質(zhì)量自然而然成為公司的重要任務(wù)。此前,國(guó)網(wǎng)信通部關(guān)于開(kāi)展運(yùn)營(yíng)監(jiān)測(cè)(控)系統(tǒng)四期建設(shè)工作開(kāi)展并執(zhí)行以來(lái),各種數(shù)據(jù)質(zhì)量問(wèn)題開(kāi)始凸顯。數(shù)據(jù)質(zhì)量問(wèn)題可能會(huì)造成嚴(yán)重后果,例如,阻礙項(xiàng)目的進(jìn)度,滯后業(yè)務(wù)數(shù)據(jù)分析的時(shí)效,影響決策的方向等。基于這些可能發(fā)生的后果,使得對(duì)運(yùn)營(yíng)監(jiān)測(cè)數(shù)據(jù)質(zhì)量的研究更加迫切。本文通過(guò)研究60多項(xiàng)業(yè)務(wù)主題數(shù)據(jù)質(zhì)量情況,總結(jié)了一套自己的研究流程、數(shù)據(jù)質(zhì)量指標(biāo)衡量方法、數(shù)據(jù)質(zhì)量管理辦法;最終提出提升數(shù)據(jù)質(zhì)量的措施。
隨著信息技術(shù)和系統(tǒng)的不斷發(fā)展,電網(wǎng)企業(yè)已建立了很多計(jì)算機(jī)信息系統(tǒng),積累了大量的數(shù)據(jù)。為了使數(shù)據(jù)能夠有效地支持組織的日常運(yùn)作和決策,要求數(shù)據(jù)可靠無(wú)誤,能夠準(zhǔn)確地反映現(xiàn)實(shí)世界的狀況。數(shù)據(jù)是信息的載體,高質(zhì)量的數(shù)據(jù)是各種業(yè)務(wù)數(shù)據(jù)分析基本條件,如經(jīng)濟(jì)活動(dòng)分析、數(shù)據(jù)挖掘等能夠得到有意義結(jié)果的。人們常常抱怨所謂的“數(shù)據(jù)豐富,信息貧乏”,其中一個(gè)原因是缺乏有效的數(shù)據(jù)分析技術(shù),而另一個(gè)重要原因則是數(shù)據(jù)質(zhì)量不高,如數(shù)據(jù)殘缺不全、數(shù)據(jù)不一致、數(shù)據(jù)重復(fù)等,導(dǎo)致數(shù)據(jù)不能有效地被利用。數(shù)據(jù)質(zhì)量管理如同產(chǎn)品質(zhì)量管理一樣貫穿于數(shù)據(jù)生命周期的各個(gè)階段。數(shù)據(jù)質(zhì)量的研究由來(lái)已久,涉及到統(tǒng)計(jì)學(xué)、人工智能、數(shù)據(jù)庫(kù)等各個(gè)領(lǐng)域。
數(shù)據(jù)是組織最具價(jià)值的資產(chǎn)之一。企業(yè)的數(shù)據(jù)質(zhì)量與業(yè)務(wù)績(jī)效之間存在著直接聯(lián)系,高質(zhì)量的數(shù)據(jù)可以使公司保持競(jìng)爭(zhēng)力并在經(jīng)濟(jì)動(dòng)蕩時(shí)期立于不敗之地。有了普遍深入的數(shù)據(jù)質(zhì)量,企業(yè)在任何時(shí)候都可以信任滿足所有需求的所有數(shù)據(jù)。
數(shù)據(jù)質(zhì)量可能在圈外的人理解起來(lái)比較抽象,但舉例說(shuō)一個(gè)一支筆的產(chǎn)品質(zhì)量大家可能會(huì)理解起來(lái)比較容易,首先它有外觀、長(zhǎng)短、壽命、顏色、功能特性、價(jià)格等衡量標(biāo)準(zhǔn),筆的產(chǎn)品質(zhì)量高,會(huì)得到廣大消費(fèi)者的青睞。然而,在電網(wǎng)企業(yè)中,筆者認(rèn)為數(shù)據(jù)質(zhì)量就是衡量電力數(shù)據(jù)真實(shí)有序情況的一個(gè)標(biāo)準(zhǔn)和偏好。在電力數(shù)據(jù)中,總結(jié)出8個(gè)數(shù)據(jù)質(zhì)量指標(biāo),包括準(zhǔn)確性、完整性、一致性、時(shí)效性、唯一性、精確性、合理性、規(guī)范性,將在下文中詳細(xì)說(shuō)明。
根據(jù)國(guó)網(wǎng)開(kāi)展各個(gè)主體數(shù)據(jù)歸集與常態(tài)維護(hù)的工作內(nèi)容,總結(jié)出如下數(shù)據(jù)質(zhì)量研究流程:
在國(guó)網(wǎng)電力天津公司對(duì)業(yè)務(wù)數(shù)據(jù)獲取階段的工作其實(shí)一路并不是朝夕即能完成的事,但這為研究數(shù)據(jù)質(zhì)量摸清了前端的業(yè)務(wù)類型、信息系統(tǒng)、數(shù)據(jù)質(zhì)量管理的參與者、供給者。數(shù)據(jù)獲取的流程如下:
3.1.1 確定監(jiān)測(cè)業(yè)務(wù)主題
國(guó)網(wǎng)總部下發(fā)的文件中,確定了四類監(jiān)測(cè)內(nèi)容,核心資源、計(jì)劃與預(yù)算、關(guān)鍵流程、專題監(jiān)測(cè),包括60多項(xiàng)業(yè)務(wù)主題,例如,物資采購(gòu)管理、生產(chǎn)技改項(xiàng)目管理、生產(chǎn)大修項(xiàng)目管理、日常輸電運(yùn)檢管理、日常配電檢修管理、應(yīng)收款、存貨、供應(yīng)商、專題監(jiān)測(cè)-交費(fèi)渠道、電網(wǎng)運(yùn)營(yíng)、電網(wǎng)基建項(xiàng)目等。
3.1.2 確定數(shù)據(jù)需求字段
根據(jù)主題的監(jiān)測(cè)內(nèi)容,確定支撐的字段,并對(duì)每個(gè)主題的數(shù)據(jù)制作數(shù)據(jù)需求表,附上填表說(shuō)明。
3.1.3 按照需求字段獲取數(shù)據(jù)
根據(jù)數(shù)據(jù)需求表,運(yùn)監(jiān)中心、信通公司、業(yè)務(wù)部室協(xié)作將數(shù)據(jù)字段歸集,其中某些主題的數(shù)據(jù)需求字段需要在不同的系統(tǒng)中獲取,紐帶性字段信息是關(guān)鍵。例如供應(yīng)商主題中物資類涉及兩個(gè)系統(tǒng)的數(shù)據(jù),其中合同編號(hào)就是紐帶性字段是連接兩個(gè)不同系統(tǒng)的關(guān)鍵字段,同一行數(shù)據(jù)需要紐帶性字段匹配對(duì)應(yīng)。
按照數(shù)據(jù)質(zhì)量的評(píng)估指標(biāo),統(tǒng)計(jì)數(shù)據(jù)質(zhì)量情況,并以該字段數(shù)據(jù)質(zhì)量有問(wèn)題的條目數(shù)百分比形式作為統(tǒng)計(jì)結(jié)果。
根據(jù)數(shù)據(jù)情況總結(jié)出數(shù)據(jù)質(zhì)量指標(biāo)有8個(gè)。下面詳細(xì)說(shuō)明數(shù)據(jù)質(zhì)量指標(biāo),并根據(jù)實(shí)際電力數(shù)據(jù)內(nèi)容作出舉例。
1準(zhǔn)確性:數(shù)據(jù)準(zhǔn)確性是指數(shù)據(jù)準(zhǔn)確反映其所建模的“真是世界”實(shí)體的程度。通常,度量數(shù)據(jù)值與已確定的正確信息參照源的一致性可以度量準(zhǔn)確性,如:將數(shù)據(jù)值與來(lái)自數(shù)據(jù)庫(kù)或其他數(shù)據(jù)表的正確的數(shù)據(jù)集比較,根據(jù)動(dòng)態(tài)計(jì)算的數(shù)據(jù)進(jìn)行檢查,有時(shí)可能需要手工檢查數(shù)據(jù)值的準(zhǔn)確性。例如,物料庫(kù)存金額字段有0.1元的現(xiàn)象,需要根據(jù)元數(shù)據(jù)以及實(shí)際情況核查該數(shù)據(jù)的準(zhǔn)確性。
2完整性:完整性的要求之一是一個(gè)數(shù)據(jù)集的特定屬性都被賦予了數(shù)值。完整性的另一個(gè)要求,是一個(gè)數(shù)據(jù)集的全部行記錄都存在。例如,日常配電檢修業(yè)務(wù)中的線站名稱字段的列項(xiàng)統(tǒng)計(jì)有23%的空數(shù)據(jù)。
3一致性:一致性是指確保一個(gè)數(shù)據(jù)集的數(shù)值與另一個(gè)數(shù)據(jù)集的數(shù)值一致。一致性的概念相對(duì)寬泛,可以包括來(lái)自不同數(shù)據(jù)集的兩個(gè)數(shù)值不能有沖突,或者在預(yù)定義的一系列的約束條件內(nèi)定義一致性。例如,合同編號(hào)字段在經(jīng)發(fā)系統(tǒng)和ERP系統(tǒng)中都存在,但雙對(duì)應(yīng)的合同總金額要有一致性。
4時(shí)效性:數(shù)據(jù)時(shí)效性是指信息反映其所建模的當(dāng)前真實(shí)世界的程度。數(shù)據(jù)時(shí)效性度量了數(shù)據(jù)的“新鮮程度”以及在時(shí)間變化中的正確程度??梢愿鶕?jù)數(shù)據(jù)元素刷新的頻率度量數(shù)據(jù)的時(shí)效性,從而驗(yàn)證數(shù)據(jù)是最新的。數(shù)據(jù)時(shí)效性規(guī)則定義了一個(gè)數(shù)值在失效或需要更新之前已經(jīng)歷的“壽命”。例如數(shù)據(jù)最新統(tǒng)計(jì)周期是201705期,但數(shù)據(jù)只更新到201704期,那么數(shù)據(jù)顯然是延遲了。
5唯一性:唯一性主要體現(xiàn)在一個(gè)數(shù)據(jù)集中,沒(méi)有實(shí)體多余一次出現(xiàn)。滿足實(shí)體唯一性,說(shuō)明沒(méi)有實(shí)體出現(xiàn)多于一次,并且每個(gè)唯一實(shí)體有一個(gè)鍵值且該鍵值只指向該實(shí)體。許多組織都將 的可控的數(shù)據(jù)冗余作為更加可行的目標(biāo)。例如,對(duì)于不同的合同只能有不同的合同編號(hào),具有唯一性。
6精確性:精確性是指數(shù)據(jù)元素的詳細(xì)程度。數(shù)值型數(shù)據(jù)可以有若干精確數(shù)位。例如,對(duì)數(shù)據(jù)取整或截?cái)嗫赡軙?huì)產(chǎn)生精確度錯(cuò)誤。
7合理性:使用數(shù)據(jù)合理性考察與一些特定的運(yùn)營(yíng)場(chǎng)景相關(guān)的數(shù)據(jù)一致性。例如,運(yùn)檢數(shù)據(jù)中一條線路當(dāng)次巡視時(shí)間與上一次巡視時(shí)間不能超過(guò)90天。
8規(guī)范性:規(guī)范性用于度量哪些數(shù)據(jù)未按統(tǒng)一格式存儲(chǔ)。例如,物料庫(kù)存批號(hào)要求是文本格式,10個(gè)字節(jié)。
3.3.1 數(shù)據(jù)質(zhì)量管理方法
數(shù)據(jù)質(zhì)量管理的一種通用方法是戴明環(huán)質(zhì)量環(huán),如下圖所示:
戴明是對(duì)質(zhì)量管理的發(fā)展產(chǎn)生巨大影響的大師之一,他提出了被大家所知的“計(jì)劃-實(shí)施-監(jiān)控-行動(dòng)”用于解決問(wèn)題的模型,該模型對(duì)數(shù)據(jù)質(zhì)量管理同樣有效,當(dāng)已定義數(shù)據(jù)質(zhì)量水平協(xié)議,并將此模型應(yīng)用于數(shù)據(jù)質(zhì)量管理時(shí),它包括:
●制定數(shù)據(jù)質(zhì)量現(xiàn)狀評(píng)估計(jì)劃和識(shí)別數(shù)據(jù)質(zhì)量度量關(guān)鍵指標(biāo)。
●實(shí)施度量和提升數(shù)據(jù)質(zhì)量的流程。
●監(jiān)控和度量根據(jù)業(yè)務(wù)預(yù)期定義的數(shù)據(jù)質(zhì)量水平。
●執(zhí)行解決數(shù)據(jù)質(zhì)量問(wèn)題的行動(dòng)方案,以提升數(shù)據(jù)質(zhì)量從而更好地滿足業(yè)務(wù)預(yù)期。
3.3.2 數(shù)據(jù)質(zhì)量管理方法的實(shí)際應(yīng)用
筆者在此次大規(guī)模的監(jiān)測(cè)業(yè)務(wù)數(shù)據(jù)歸集的工作過(guò)程中,對(duì)數(shù)據(jù)質(zhì)量管理流程做了如下概括:
在計(jì)劃階段,數(shù)據(jù)質(zhì)量團(tuán)隊(duì)評(píng)估已知的數(shù)據(jù)問(wèn)題,包括確定問(wèn)題的代價(jià)和影響以及評(píng)估處理問(wèn)題的可選方案。
在實(shí)施階段,剖析數(shù)據(jù)并執(zhí)行檢查和監(jiān)控,識(shí)別出現(xiàn)的數(shù)據(jù)質(zhì)量問(wèn)題。在此階段,數(shù)據(jù)質(zhì)量團(tuán)隊(duì)可以修復(fù)引致數(shù)據(jù)錯(cuò)誤的流程中存在的缺陷,或者作為一種應(yīng)急辦法對(duì)下游錯(cuò)誤進(jìn)行校正。如果不能在錯(cuò)誤的源頭進(jìn)行校正,那么就在數(shù)據(jù)流中盡早校正該錯(cuò)誤。
在監(jiān)控階段,根據(jù)已定義的業(yè)務(wù)規(guī)則庫(kù)對(duì)數(shù)據(jù)質(zhì)量水平進(jìn)行動(dòng)態(tài)監(jiān)控。只要數(shù)據(jù)質(zhì)量滿足可接受度閾值,流程就是受控的,數(shù)據(jù)質(zhì)量水平就可滿足業(yè)務(wù)需求。然而,如果數(shù)據(jù)質(zhì)量下降到可接受度閾值之下,需要通知數(shù)據(jù)質(zhì)量管理員以便他們?cè)谙乱浑A段采取行動(dòng)。
在行動(dòng)階段,主要是處理并解決出現(xiàn)的數(shù)據(jù)質(zhì)量問(wèn)題。
3.3.3 數(shù)據(jù)質(zhì)量問(wèn)題的經(jīng)驗(yàn)總結(jié)
此次數(shù)據(jù)質(zhì)量管理工作,一方面結(jié)合計(jì)劃預(yù)算,建立了數(shù)據(jù)質(zhì)量規(guī)則庫(kù)、開(kāi)展動(dòng)態(tài)數(shù)據(jù)質(zhì)量監(jiān)測(cè)、異動(dòng)數(shù)據(jù)根因分析、形成數(shù)據(jù)質(zhì)量監(jiān)測(cè)報(bào)告;二方面結(jié)合指標(biāo)和明細(xì)數(shù)據(jù)、強(qiáng)化數(shù)據(jù)接入核查,完善了數(shù)據(jù)質(zhì)量通報(bào)及評(píng)價(jià)機(jī)制,為運(yùn)監(jiān)業(yè)務(wù)數(shù)據(jù)質(zhì)量提供支撐。
尤其在對(duì)產(chǎn)生數(shù)據(jù)質(zhì)量問(wèn)題的情況進(jìn)行全面業(yè)務(wù)調(diào)研,在電力各個(gè)信息系統(tǒng)中總結(jié)數(shù)據(jù)質(zhì)量問(wèn)題原因有6種;包括1、系統(tǒng)未設(shè)置原因;2、非必填字段原因;3、業(yè)務(wù)調(diào)整原因;4、實(shí)際異動(dòng)原因;5、鍵入錯(cuò)誤原因;6、流轉(zhuǎn)中發(fā)生變化的原因。
研究運(yùn)營(yíng)監(jiān)測(cè)數(shù)據(jù)質(zhì)量的最終目的是指導(dǎo)我司電力業(yè)務(wù)決策、提高企業(yè)的運(yùn)營(yíng)效率;故提升數(shù)據(jù)質(zhì)量為此打下了良好的基礎(chǔ)。提升數(shù)據(jù)質(zhì)量措施包括5種,
1、提升數(shù)據(jù)質(zhì)量意識(shí),這不僅意味著需確保組織中配備合適的人員了解數(shù)據(jù)質(zhì)量問(wèn)題的存在,而且對(duì)于獲得組織中利益相關(guān)者的必要支持至關(guān)重要,這將提升數(shù)據(jù)質(zhì)量項(xiàng)目成功的機(jī)會(huì)。
2、定義數(shù)據(jù)質(zhì)量指標(biāo),衡量數(shù)據(jù)質(zhì)量的指標(biāo)一般包括準(zhǔn)確性、完整性、一致性、時(shí)效性、唯一性、精確性、合理性、規(guī)范性。
3、建立數(shù)據(jù)質(zhì)量業(yè)務(wù)規(guī)則庫(kù),根據(jù)業(yè)務(wù)類別、業(yè)務(wù)主題、業(yè)務(wù)部門、系統(tǒng)、數(shù)據(jù)庫(kù)表、業(yè)務(wù)字段、具體規(guī)則約束值或條件等信息建立數(shù)據(jù)規(guī)則庫(kù)。
4、持續(xù)測(cè)量和監(jiān)控?cái)?shù)據(jù)質(zhì)量,對(duì)業(yè)務(wù)主題數(shù)據(jù)定期監(jiān)測(cè)。
5、建立數(shù)據(jù)質(zhì)量問(wèn)題管理績(jī)效機(jī)制,針對(duì)發(fā)生數(shù)據(jù)質(zhì)量問(wèn)題的數(shù)據(jù)產(chǎn)生部門建立績(jī)效管理機(jī)制,督促其完善系統(tǒng)設(shè)置、提高業(yè)務(wù)規(guī)范性、提高工作人員的數(shù)據(jù)質(zhì)量意識(shí)。
在整個(gè)數(shù)據(jù)生命周期中,原有的數(shù)據(jù)質(zhì)量問(wèn)題解決了,往往還會(huì)發(fā)現(xiàn)有新的質(zhì)量問(wèn)題,這主要表現(xiàn)為兩點(diǎn):其一是質(zhì)量問(wèn)題的某些“癥狀”會(huì)隨著另外一些“癥狀”的解決而顯現(xiàn);其二是隨著時(shí)間的推移和數(shù)據(jù)的演化,會(huì)有新的數(shù)據(jù)質(zhì)量問(wèn)題產(chǎn)生。因此,不能指望任何一種方法能夠畢其功于一役。
面對(duì)新的數(shù)據(jù)質(zhì)量問(wèn)題,需要我們徹底的掌握元數(shù)據(jù),并能夠再次做到全面的數(shù)據(jù)二次清洗,但面對(duì)國(guó)網(wǎng)電力企業(yè)來(lái)說(shuō),規(guī)模越大以上兩點(diǎn)越難以做到,如何實(shí)現(xiàn)大企業(yè)數(shù)據(jù)質(zhì)量的全面一次性改善的方法還有待被發(fā)現(xiàn)。
[1] DAMA International 著.DAMA數(shù)據(jù)管理知識(shí)體系指南.馬歡,劉晨等譯.北京.清華大學(xué)出版社.2016.
[2] 郭志懋,周傲英.數(shù)據(jù)質(zhì)量和數(shù)據(jù)清洗研究綜述[J].軟件學(xué)報(bào).2002 13(1 1):2076-2081.
[3] 韓京寧,徐麗臻,董逸生.數(shù)據(jù)質(zhì)量研究綜述.計(jì)算機(jī)科學(xué).2008 35(2)