梁文 劉夫新 崔夢(mèng)梟 楊棟樞
摘要:針對(duì)信息化產(chǎn)業(yè)的迅猛崛起,提高國網(wǎng)數(shù)據(jù)剩余價(jià)值最大化。根據(jù)數(shù)據(jù)質(zhì)量的特性提出數(shù)據(jù)資產(chǎn)理念,使用數(shù)據(jù)資產(chǎn)的數(shù)據(jù)質(zhì)量監(jiān)測(cè)技術(shù)和數(shù)據(jù)資產(chǎn)評(píng)估技術(shù),進(jìn)行量化數(shù)據(jù)質(zhì)量指標(biāo)。分析量化指標(biāo),構(gòu)建模型。實(shí)現(xiàn)集約、有序的數(shù)據(jù)共享,提升企業(yè)數(shù)據(jù)共享能力,優(yōu)化企業(yè)數(shù)據(jù)質(zhì)量,保障數(shù)據(jù)安全。
關(guān)鍵詞:數(shù)據(jù)質(zhì)量; 數(shù)據(jù)資產(chǎn); 數(shù)據(jù)質(zhì)量監(jiān)測(cè);量化指標(biāo);數(shù)據(jù)安全
中圖分類號(hào):TP181 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)30-0241-02
1 概述
電力行業(yè)作為國家基礎(chǔ)產(chǎn)業(yè)也緊跟時(shí)代步伐,國網(wǎng)大力推廣智能電網(wǎng)等相關(guān)科技項(xiàng)目。智能電網(wǎng)利用電力系統(tǒng)輔助人工管理,就會(huì)產(chǎn)生海量數(shù)據(jù)。海量數(shù)據(jù)的管理一直都是困擾企業(yè)化運(yùn)作的一個(gè)很大問題。從海量數(shù)據(jù)中提取有效信息,跟數(shù)據(jù)質(zhì)量息息相關(guān),數(shù)據(jù)質(zhì)量狀況很大程度上會(huì)影響到大數(shù)據(jù)分析的結(jié)果,可以使其產(chǎn)生偏離,誤導(dǎo)企業(yè)決策。
目前,國內(nèi)外雖然提出了數(shù)據(jù)資產(chǎn)的理念,但沒有具體的數(shù)據(jù)資產(chǎn)管理體系,所以未在實(shí)際中應(yīng)用。近年,國網(wǎng)企業(yè)間通力合作開展各種方式完善的數(shù)據(jù)資產(chǎn)管理體系為基礎(chǔ),實(shí)現(xiàn)集約、有序的數(shù)據(jù)共享,規(guī)范數(shù)據(jù)從產(chǎn)生到共享應(yīng)用的各個(gè)環(huán)節(jié),有效度量企業(yè)數(shù)據(jù)質(zhì)量,為大數(shù)據(jù)在企業(yè)中的應(yīng)用提供有力保障。
2 數(shù)據(jù)質(zhì)量現(xiàn)狀
國內(nèi)數(shù)據(jù)質(zhì)量管理研究大多才剛剛起步,大多數(shù)企業(yè)數(shù)據(jù)質(zhì)量管理還停留在具體操作層面,尚未形成完備的體系,未形成可操作的質(zhì)量標(biāo)準(zhǔn)。通過對(duì)電網(wǎng)企業(yè)數(shù)據(jù)質(zhì)量相關(guān)問題進(jìn)行研究,其數(shù)據(jù)質(zhì)量具有以下幾個(gè)特點(diǎn):
1)數(shù)據(jù)質(zhì)量對(duì)象可以用若干個(gè)質(zhì)量特性進(jìn)行描述。質(zhì)量屬性是數(shù)據(jù)屬性的擴(kuò)展,與數(shù)據(jù)屬性不同的是,質(zhì)量屬性描述了對(duì)象在數(shù)據(jù)質(zhì)量方面的約束。
2)數(shù)據(jù)質(zhì)量的元素是相對(duì)穩(wěn)定的。但許多系統(tǒng),包括一些專業(yè)領(lǐng)域都在試圖定義局部的數(shù)據(jù)質(zhì)量元素規(guī)范,以形成對(duì)數(shù)據(jù)質(zhì)量的定量或非定量的衡量標(biāo)準(zhǔn)。
3)數(shù)據(jù)質(zhì)量指標(biāo)計(jì)算是復(fù)雜的。簡(jiǎn)單的算法可以使一個(gè)約束表達(dá)式來描述,如關(guān)系數(shù)據(jù)庫中的約束定義已經(jīng)非常完善,但其他方面的算法則需要進(jìn)行更深入的研究。
3 關(guān)鍵技術(shù)
基于數(shù)據(jù)資產(chǎn)的數(shù)據(jù)質(zhì)量監(jiān)測(cè)跟傳統(tǒng)數(shù)據(jù)質(zhì)量模型息息相關(guān),數(shù)據(jù)管理體系的建立是一個(gè)不斷推進(jìn)的過程,需要進(jìn)行大量的方法研究和實(shí)踐工作。涉及以下幾個(gè)方面的技術(shù):
1)數(shù)據(jù)資產(chǎn)全景展示技術(shù):全景視圖是以企業(yè)數(shù)據(jù)標(biāo)準(zhǔn)為基礎(chǔ)、以各應(yīng)用系統(tǒng)數(shù)據(jù)為來源,依據(jù)企業(yè)業(yè)務(wù)規(guī)劃,梳理產(chǎn)生的企業(yè)數(shù)據(jù)資源的管理、業(yè)務(wù)、技術(shù)屬性信息,以及相應(yīng)的信息化描述和展現(xiàn)。
2)數(shù)據(jù)溯源建模技術(shù):利用IPO模型,對(duì)指標(biāo)的形成過程進(jìn)行逐步回溯,形成指標(biāo)的全局視圖,對(duì)每一個(gè)指標(biāo)的產(chǎn)生進(jìn)行溯源,掌握所有與之相關(guān)的最初始的人工輸入數(shù)據(jù)和自動(dòng)采集數(shù)據(jù)。
3)數(shù)據(jù)資產(chǎn)質(zhì)量監(jiān)測(cè)技術(shù):利用業(yè)務(wù)監(jiān)測(cè)、技術(shù)監(jiān)測(cè)兩周方式對(duì)數(shù)據(jù)資產(chǎn)溯源全過程節(jié)點(diǎn)進(jìn)行及時(shí)性、完整性、準(zhǔn)確性、實(shí)效性、一致性和關(guān)聯(lián)核查內(nèi)容等幾個(gè)方面進(jìn)行監(jiān)測(cè)。
4 數(shù)據(jù)質(zhì)量監(jiān)測(cè)指標(biāo)體系構(gòu)建
4.1指標(biāo)構(gòu)建理論依據(jù)
從整體角度對(duì)企業(yè)數(shù)據(jù)資源進(jìn)行的全方位、多層次、動(dòng)靜結(jié)合的描述,即構(gòu)建全景視圖,包括數(shù)據(jù)資源的產(chǎn)生、加工、流轉(zhuǎn)與使用關(guān)系,其核心是存儲(chǔ)數(shù)據(jù)屬性(S)和處理節(jié)點(diǎn)(P)。以回溯為手段,形成樹狀的數(shù)據(jù)溯源視圖,實(shí)現(xiàn)數(shù)據(jù)的形成過程可控。根據(jù)數(shù)據(jù)資產(chǎn)溯源圖從數(shù)據(jù)資產(chǎn)產(chǎn)生、加工、應(yīng)用全過程節(jié)點(diǎn)發(fā)現(xiàn)業(yè)務(wù)系統(tǒng)運(yùn)維管理中的薄弱環(huán)節(jié),推動(dòng)業(yè)務(wù)系統(tǒng)運(yùn)維管理水平的提升。
4.2數(shù)據(jù)質(zhì)量分析量化指標(biāo)
首先建立企業(yè)數(shù)據(jù)資產(chǎn)臺(tái)帳,其中包含數(shù)據(jù)資產(chǎn)臺(tái)帳登記管理、數(shù)據(jù)資產(chǎn)臺(tái)帳變更管理和數(shù)據(jù)資產(chǎn)臺(tái)帳停用管理。通過對(duì)數(shù)據(jù)資產(chǎn)完成率、數(shù)據(jù)資產(chǎn)價(jià)值、數(shù)據(jù)資產(chǎn)可信度等維度對(duì)數(shù)據(jù)質(zhì)量評(píng)估方法進(jìn)行分析,建立基于數(shù)據(jù)資產(chǎn)的數(shù)據(jù)質(zhì)量評(píng)估模型。
4.2.1 數(shù)據(jù)資產(chǎn)化完成率評(píng)估
數(shù)據(jù)資產(chǎn)化完成率是用于衡量數(shù)據(jù)資產(chǎn)臺(tái)賬屬性和溯源圖的完備程度,通過數(shù)據(jù)資產(chǎn)臺(tái)賬屬性和溯源節(jié)點(diǎn)的完成率加權(quán)綜合計(jì)算獲到。數(shù)據(jù)資產(chǎn)臺(tái)賬屬性的完成率是對(duì)各屬性通過分類、加權(quán)之后獲得;溯源完成率的計(jì)算通過對(duì)輸入節(jié)點(diǎn)、處理節(jié)點(diǎn)、傳輸節(jié)點(diǎn)和存儲(chǔ)節(jié)點(diǎn)四類節(jié)點(diǎn)完成率經(jīng)過節(jié)點(diǎn)完成率評(píng)估模型加權(quán)之后獲得。以下是各項(xiàng)指標(biāo)計(jì)算方式如表1。
4.2.2 確定應(yīng)用評(píng)估系數(shù)
數(shù)據(jù)資產(chǎn)應(yīng)用評(píng)估系數(shù)是采用AHP法構(gòu)建應(yīng)用指標(biāo)評(píng)價(jià)體系。層次分析模型是把復(fù)雜的問題分成若干個(gè)組成因素,并按支配關(guān)系分組形成層次結(jié)構(gòu)。分析各因素的關(guān)系,建立遞階層次結(jié)構(gòu)。計(jì)算合成權(quán)重,即全局權(quán)重。根據(jù)對(duì)數(shù)據(jù)資產(chǎn)價(jià)值應(yīng)用及評(píng)估因素的分析,采用AHP方法,得到如表2所示的指標(biāo)體系。
計(jì)算出各項(xiàng)應(yīng)用評(píng)估指標(biāo)權(quán)重之后,可以確定應(yīng)用評(píng)估系數(shù)的計(jì)算模型,如下:
應(yīng)用評(píng)估系數(shù)=∑(每一個(gè)應(yīng)用評(píng)估指標(biāo)權(quán)重*該指標(biāo)評(píng)估因素的評(píng)分值)
4.2.3 數(shù)據(jù)資產(chǎn)可信度評(píng)估
分析影響數(shù)據(jù)資產(chǎn)可信度的因素,通過數(shù)學(xué)模型確定各影響因素所占比重,再綜合各因素評(píng)估所得定量數(shù)據(jù),得到數(shù)據(jù)資產(chǎn)可信度的最終度量數(shù)據(jù)。
首先利用層次分析模型,可信度量化模型的重點(diǎn)是確定各層次、各影響要素在模型中所占的比重,可以通過層次分析法來完成。建立可信度量化模型,可信度量化以層次分析模型中確定的各評(píng)估項(xiàng)目所占比重以及各評(píng)估項(xiàng)目實(shí)際得分為基礎(chǔ),通過加權(quán)計(jì)算得到最終的可信度得分。
1)匯總對(duì)數(shù)據(jù)資產(chǎn)生可信度的所有初始數(shù)據(jù)錄入/采集點(diǎn),每一個(gè)輸入點(diǎn)根據(jù)輸入方式不同,歸類到三個(gè)大類中。各輸入點(diǎn)的來源可信度根據(jù)所屬類別運(yùn)用層次分析法得出。形成該數(shù)據(jù)資產(chǎn)的所有輸入點(diǎn)的來源可信度計(jì)算得出的平均值,即為該數(shù)據(jù)資產(chǎn)的來源可信度。
2)數(shù)據(jù)資產(chǎn)質(zhì)量受到技術(shù)、業(yè)務(wù)、管理三方面的影響,這三方面的影響因素全部納入到評(píng)估項(xiàng)目中。假設(shè)影響數(shù)據(jù)資產(chǎn)質(zhì)量的因素共有m條,評(píng)估項(xiàng)目以i(i=0…m)編號(hào),各評(píng)估項(xiàng)目所得分為,通過層次分析模型得到的各評(píng)估項(xiàng)目應(yīng)占比重為,則該數(shù)據(jù)資產(chǎn)在完成率部分的可信度得分為的總和。
5 研究成果
根據(jù)數(shù)據(jù)資產(chǎn)的數(shù)據(jù)質(zhì)量監(jiān)測(cè)研究,結(jié)合當(dāng)前較流行的數(shù)據(jù)與信息質(zhì)量管理理論,提出面向企業(yè)的數(shù)據(jù)質(zhì)量評(píng)估模型。定義企業(yè)級(jí)數(shù)據(jù)質(zhì)量溯源圖,完成數(shù)據(jù)質(zhì)量溯源節(jié)點(diǎn)的信息定義,基于公司信息系統(tǒng)數(shù)據(jù)質(zhì)量現(xiàn)狀,提出適用的企業(yè)級(jí)數(shù)據(jù)質(zhì)量評(píng)估分析方法,包含定義遵從、完整、準(zhǔn)確、有效、精度、無重復(fù)、冗余、可訪問、及時(shí)、明確、可用、適用等多種尺度。
6 總結(jié)
基于數(shù)據(jù)資產(chǎn)的數(shù)據(jù)質(zhì)量研究所形成基于數(shù)據(jù)資產(chǎn)的數(shù)據(jù)質(zhì)量評(píng)估分析方法、基于數(shù)據(jù)資產(chǎn)的數(shù)據(jù)質(zhì)量監(jiān)測(cè)方法、基于數(shù)據(jù)資產(chǎn)的數(shù)據(jù)質(zhì)量監(jiān)測(cè)工具,實(shí)現(xiàn)集約、有序的數(shù)據(jù)共享,規(guī)范數(shù)據(jù)從產(chǎn)生到共享應(yīng)用的各個(gè)環(huán)節(jié),提升企業(yè)數(shù)據(jù)質(zhì)量,保障數(shù)據(jù)安全,支撐大數(shù)據(jù)應(yīng)用建設(shè)。
參考文獻(xiàn):
[1]Pipino L,Lee Y,Wang R.Data quality assessment [J].Communications of the ACM,2002,45(4):211-2182.
[2]李謙,白曉明.供電企業(yè)數(shù)據(jù)資產(chǎn)管理與數(shù)據(jù)化運(yùn)營[J].華東電力,2014(3):487-490.
[3]盧二坡,黃炳藝.基于穩(wěn)健MM估計(jì)的統(tǒng)計(jì)數(shù)據(jù)質(zhì)量評(píng)估方法[J].統(tǒng)計(jì)研究,2010,27(12):16-22.
[4]黃心宇.數(shù)據(jù)質(zhì)量評(píng)價(jià)模型的建立與實(shí)現(xiàn)[J].商場(chǎng)現(xiàn)代化,2008(8):396-397.
[5]袁滿,張雪.一中基于規(guī)則的數(shù)據(jù)質(zhì)量評(píng)價(jià)模型[J].計(jì)算機(jī)技術(shù)與發(fā)展,2013,23(3):81-89.
[6]MCAFEE A,BRYNJOLFSSON E.Big data:the management revolution[J].Harvard Business Review,2012,90(10):60-68.
[7]劉軍,呂俊峰.大數(shù)據(jù)時(shí)代及數(shù)據(jù)挖掘的應(yīng)用[N].國家電網(wǎng)報(bào)2012-05-15(10).
[8]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2013,50(1):146-149.