繆新萍,吳漾,孔慶波,方俊霆
(1.貴州電網(wǎng)有限責(zé)任公司信息中心,貴州 貴陽(yáng) 550002;2.貴州電網(wǎng)有限責(zé)任公司,貴州 貴陽(yáng) 550002;3.御數(shù)坊(北京)科技咨詢有限公司,北京 100086)
在企業(yè)信息化環(huán)境中,錯(cuò)綜復(fù)雜的系統(tǒng)和數(shù)據(jù)關(guān)系增加了指標(biāo)溯源以及基于溯源關(guān)系開(kāi)展數(shù)據(jù)治理的難度。其中計(jì)算過(guò)程的正確與否以及計(jì)算數(shù)據(jù)元的質(zhì)量好壞將會(huì)直接關(guān)系到指標(biāo)計(jì)算結(jié)果的準(zhǔn)確性和可信度,進(jìn)而影響企業(yè)經(jīng)營(yíng)管理和決策。
貴州電網(wǎng)公司欲基于數(shù)據(jù)認(rèn)責(zé)管理模式,結(jié)合元數(shù)據(jù)管理的成果,開(kāi)展指標(biāo)溯源應(yīng)用的建設(shè)。然而,對(duì)于如何規(guī)范表達(dá)指標(biāo)溯源過(guò)程、完整記錄指標(biāo)溯源信息,缺乏模型依據(jù),制約了溯源應(yīng)用功能的設(shè)計(jì)和開(kāi)發(fā)。
本文通過(guò)對(duì)重要的溯源模型進(jìn)行研究,分析指標(biāo)計(jì)算過(guò)程,結(jié)合數(shù)據(jù)認(rèn)責(zé)管理場(chǎng)景,設(shè)計(jì)了指標(biāo)溯源的內(nèi)容模型和輕量化表達(dá)模型。
指標(biāo)溯源過(guò)程是與指標(biāo)計(jì)算相逆的過(guò)程,從位于頂端的指標(biāo)開(kāi)始,通過(guò)不斷地拆分參與指標(biāo)計(jì)算的每一個(gè)數(shù)據(jù)對(duì)象,向下追溯,直至找到源端所有的數(shù)據(jù)元,并得到由若干個(gè)指標(biāo)計(jì)算數(shù)據(jù)對(duì)象依計(jì)算關(guān)系所關(guān)聯(lián)形成的樹(shù)狀網(wǎng)絡(luò)溯源關(guān)系[1],如圖1所示。
圖1 指標(biāo)數(shù)據(jù)溯源示意圖Fig.1 Schematic diagram of index data provenance
每一個(gè)參與指標(biāo)計(jì)算的數(shù)據(jù)對(duì)象都包含了本身的數(shù)據(jù)值和附帶的元數(shù)據(jù)兩類(lèi)信息,而后者是進(jìn)行溯源的一類(lèi)主要信息[2]。這里將參與指標(biāo)計(jì)算的數(shù)據(jù)對(duì)象分為兩類(lèi):一類(lèi)是在業(yè)務(wù)活動(dòng)中直接產(chǎn)生和采集到的數(shù)據(jù)元,例如用戶用電表底數(shù);另一類(lèi)是在數(shù)據(jù)元的基礎(chǔ)上,經(jīng)統(tǒng)計(jì)或計(jì)算得到的派生數(shù)據(jù),例如小區(qū)用戶當(dāng)月用電量。這些數(shù)據(jù)元和派生數(shù)據(jù)可能來(lái)自企業(yè)信息化環(huán)境中不同的系統(tǒng),又各自經(jīng)歷過(guò)不同的創(chuàng)建、更新、復(fù)制/抽取、轉(zhuǎn)換、集成以及計(jì)算過(guò)程。
指標(biāo)數(shù)據(jù)溯源需要完整記錄指標(biāo)計(jì)算過(guò)程中的必要信息,特別是表征指標(biāo)相關(guān)屬性以及對(duì)于還原指標(biāo)計(jì)算過(guò)程相關(guān)狀態(tài)具有重要參考和指導(dǎo)意義的信息,例如7W模型在語(yǔ)義層級(jí)所定義的各類(lèi)溯源信息內(nèi)容,并在邏輯層級(jí)將這些溯源信息納入數(shù)據(jù)對(duì)象的元數(shù)據(jù)中進(jìn)行存儲(chǔ)和管理。
指標(biāo)數(shù)據(jù)溯源還需要能夠?qū)臄?shù)據(jù)元到指標(biāo)的整個(gè)計(jì)算加工過(guò)程中的關(guān)系信息進(jìn)行記錄,以厘清指標(biāo)數(shù)據(jù)的溯源關(guān)系脈絡(luò),便于查找其中存在的問(wèn)題。在對(duì)指標(biāo)數(shù)據(jù)溯源關(guān)系的表達(dá)方面,OPM以支持不同溯源技術(shù)間的互操作性為目標(biāo),抽象并定義了工件(artifact)、過(guò)程(process)、動(dòng)因(agent)等三個(gè)基本元素[3],并以有向無(wú)環(huán)圖來(lái)表示三個(gè)基本元素之間的5類(lèi)關(guān)聯(lián)關(guān)系??紤]到指標(biāo)數(shù)據(jù)溯源還需要借助信息化技術(shù)和手段實(shí)現(xiàn)溯源信息的存儲(chǔ)、處理和展現(xiàn)等功能,技術(shù)上需要以序列化方式對(duì)表達(dá)模型進(jìn)行映射和記錄,形成文本化的溯源數(shù)據(jù)塊。文獻(xiàn)[4]提出了一種基于PROV-Template的擴(kuò)展算法,支持以任何序列化格式的模板和綁定集合來(lái)生成溯源實(shí)例。
7W模型由于其發(fā)展和內(nèi)容擴(kuò)充已經(jīng)較為全面,可以作為設(shè)計(jì)指標(biāo)溯源內(nèi)容模型的一個(gè)良好基礎(chǔ)。但與早期主要關(guān)注where相比,如今what成為處于中心位置的溯源關(guān)鍵信息,記錄使數(shù)據(jù)發(fā)生改變的事件。而其他的六個(gè)元素則從不同的角度對(duì)事件加以補(bǔ)充說(shuō)明,例如事件是何時(shí)發(fā)生的?文獻(xiàn)[5]將溯源信息歸結(jié)為數(shù)據(jù)、可視化、交互、洞見(jiàn)、根因等五種類(lèi)型,而7W模型涉及了其中的數(shù)據(jù)、交互和根因三類(lèi),可視化和洞見(jiàn)兩類(lèi)信息在指標(biāo)數(shù)據(jù)溯源場(chǎng)景中并不具備。
通過(guò)使用7W模型來(lái)記錄指標(biāo)數(shù)據(jù)溯源實(shí)例的關(guān)鍵信息,分析其對(duì)于指標(biāo)溯源場(chǎng)景的適用性。例如,將“供電局市場(chǎng)營(yíng)銷(xiāo)部客戶專(zhuān)責(zé)張某于2020年8月14日14點(diǎn)35分28秒操作營(yíng)銷(xiāo)管理系統(tǒng)通過(guò)加總下屬各區(qū)縣供電局當(dāng)月實(shí)際售電量的方式統(tǒng)計(jì)了市8月份的售電量指標(biāo)”這一溯源事件以7W模型元素進(jìn)行映射和填充,可以得到如表1所列的結(jié)果。
表1 指標(biāo)溯源場(chǎng)景下7W模型元素填充實(shí)例
實(shí)例中的關(guān)鍵信息基本可以對(duì)應(yīng)填充到模型元素中。但7W模型在指標(biāo)溯源場(chǎng)景中存在精細(xì)度不足和信息缺失的問(wèn)題:
(1)××電網(wǎng)公司數(shù)據(jù)認(rèn)責(zé)機(jī)制規(guī)定數(shù)據(jù)項(xiàng)的責(zé)任認(rèn)定應(yīng)當(dāng)“認(rèn)責(zé)到崗”,并包含“組織-崗位-人員”的對(duì)應(yīng)信息,但7W模型的who元素并沒(méi)有對(duì)應(yīng)的細(xì)分子元素。因此會(huì)對(duì)后繼責(zé)任人的查找造成帶來(lái)不便。
(2)指標(biāo)的統(tǒng)計(jì)和計(jì)算通常會(huì)按照時(shí)間頻度以及空間維度進(jìn)行,但7W模型的how元素只是記錄較為籠統(tǒng)的算法。
(3)企業(yè)通常會(huì)通過(guò)分層、分級(jí)、分主題的方式構(gòu)建和管理指標(biāo)體系,以此明確指標(biāo)的組織應(yīng)用層級(jí)、對(duì)于經(jīng)營(yíng)管理的重要性級(jí)別以及與業(yè)務(wù)領(lǐng)域的相關(guān)性,但7W模型缺乏對(duì)這類(lèi)指標(biāo)屬性信息的表達(dá)元素。
(4)指標(biāo)溯源路徑上各數(shù)據(jù)項(xiàng)經(jīng)過(guò)計(jì)算統(tǒng)計(jì)所得到的中間結(jié)果對(duì)于判斷指標(biāo)的準(zhǔn)確性以及分析可能存在的問(wèn)題具有重要的參考價(jià)值,但7W模型缺乏相應(yīng)的表達(dá)元素。
基于以上問(wèn)題,對(duì)7W模型進(jìn)行適當(dāng)?shù)臄U(kuò)展:通過(guò)擴(kuò)展who和how元素的子元素解決前兩個(gè)問(wèn)題;通過(guò)擴(kuò)展index和result兩項(xiàng)基本元素解決后兩個(gè)問(wèn)題。擴(kuò)展后得到指標(biāo)溯源的內(nèi)容模型,如表2所列。
表2 基于7W模型的指標(biāo)溯源內(nèi)容模型Tab.2 Content model of index provenance based on 7W model
為了便于理解指標(biāo)數(shù)據(jù)溯源內(nèi)容模型各元素之間的關(guān)系,按照指標(biāo)數(shù)據(jù)的生命周期過(guò)程,從指標(biāo)的策劃、實(shí)施與結(jié)果等三個(gè)方面對(duì)模型元素進(jìn)行整理,如圖2所示。
圖2 指標(biāo)數(shù)據(jù)溯源內(nèi)容模型元素關(guān)系Fig.2 Element relationship of index data provenance content model
在指標(biāo)策劃階段,why元素參考index元素的規(guī)劃和規(guī)范提出指標(biāo)計(jì)算事件的目標(biāo)、原理與方法;在指標(biāo)計(jì)算的實(shí)施過(guò)程中,who、when、where和which元素圍繞how元素記錄了指標(biāo)數(shù)據(jù)計(jì)算事件的機(jī)構(gòu)人員、時(shí)間、地點(diǎn)和方法工具信息及具體執(zhí)行過(guò)程步驟信息;最終由result元素記錄指標(biāo)數(shù)據(jù)計(jì)算事件的結(jié)果信息。
指標(biāo)溯源表達(dá)模型需要指導(dǎo)和規(guī)范指標(biāo)溯源關(guān)系路徑的描述。而在從指標(biāo)到源端數(shù)據(jù)元的溯源過(guò)程中,不僅包括數(shù)據(jù)元的采集、錄入等生產(chǎn)過(guò)程,也包括數(shù)據(jù)的匯集、抽取、計(jì)算和統(tǒng)計(jì)等二次加工過(guò)程。OPM模型作為應(yīng)用較廣泛的一種溯源表達(dá)模型,其所定義的三種基本要素和五類(lèi)關(guān)聯(lián)關(guān)系為指標(biāo)數(shù)據(jù)溯源表達(dá)模型的設(shè)計(jì)提供很好的抽象基礎(chǔ)。
其中,三種基本要素用以指代溯源過(guò)程中的主要對(duì)象,包括指代觸發(fā)數(shù)據(jù)處理過(guò)程的agent,指代數(shù)據(jù)處理過(guò)程本身的process,以及指代數(shù)據(jù)處理過(guò)程輸入/輸出的artifact。在指標(biāo)的計(jì)算加工過(guò)程中,這三種要素依然可以很好地抽象和覆蓋相關(guān)對(duì)象。但為了更好地貼合指標(biāo)數(shù)據(jù)。溯源場(chǎng)景并便于理解,將名稱(chēng)分別調(diào)整為actor、calculation、artifact,分別指代指標(biāo)計(jì)算的執(zhí)行者、指標(biāo)的計(jì)算過(guò)程以及參與指標(biāo)計(jì)算的工件,即計(jì)算過(guò)程所需的輸入和輸出數(shù)據(jù)。在指標(biāo)數(shù)據(jù)溯源場(chǎng)景中,指標(biāo)計(jì)算過(guò)程將作為溯源關(guān)系的中心;執(zhí)行者根據(jù)現(xiàn)實(shí)情況又可細(xì)分為人類(lèi)執(zhí)行者(humanActor)和事物執(zhí)行者(thingActor)兩類(lèi);而工件作為計(jì)算過(guò)程的輸入/輸出又可細(xì)分為數(shù)據(jù)元(dataElement)和指標(biāo)(index)兩類(lèi)。詳細(xì)定義見(jiàn)表3所列。
表3 指標(biāo)數(shù)據(jù)溯源表達(dá)模型的元素類(lèi)定義Tab.3 Element class definition of index data provenance expression model
指標(biāo)數(shù)據(jù)溯源的表達(dá)模型的構(gòu)建將以執(zhí)行者、計(jì)算過(guò)程、工件三種元素作為節(jié)點(diǎn),節(jié)點(diǎn)之間以其相互作用關(guān)系作為邊進(jìn)行連接。參考OPM的五類(lèi)關(guān)系,指標(biāo)數(shù)據(jù)溯源場(chǎng)景中,三種元素之間主要存在四類(lèi)關(guān)系:計(jì)算過(guò)程與執(zhí)行者之間的被執(zhí)行關(guān)系performedBy;基于指標(biāo)計(jì)算的分級(jí)統(tǒng)計(jì)特征[6],可能自我遞歸逐級(jí)觸發(fā),計(jì)算過(guò)程之間的被觸發(fā)關(guān)系triggeredBy;工件與計(jì)算過(guò)程之間的輸入關(guān)系input;計(jì)算過(guò)程與工件之間的輸出關(guān)系output。此外,考慮到指標(biāo)計(jì)算加工過(guò)程中可能存在人類(lèi)執(zhí)行者對(duì)事物執(zhí)行者的操作,還定義了operatedBy關(guān)系,詳見(jiàn)表4所列。
表4 指標(biāo)數(shù)據(jù)溯源表達(dá)模型的元素關(guān)系定義Tab.4 Element relationship definition of index data provenance expression model
由此構(gòu)建起如圖3所示的一種輕量化的指標(biāo)數(shù)據(jù)溯源表達(dá)模型,在形式上給出了表述指標(biāo)數(shù)據(jù)溯源過(guò)程的范式,可以對(duì)一個(gè)指標(biāo)計(jì)算環(huán)節(jié)進(jìn)行完整表達(dá),并進(jìn)而繪制指標(biāo)溯源圖,為開(kāi)展指標(biāo)數(shù)據(jù)溯源工作和系統(tǒng)功能設(shè)計(jì)提供了理論指導(dǎo)。
圖3 輕量化的指標(biāo)數(shù)據(jù)溯源表達(dá)模型Fig.3 Expression model of lightweight index data provenance
圖4展示了基于上述表達(dá)模型進(jìn)行售電量指標(biāo)溯源所繪制的溯源圖示例。示例中,通過(guò)操作營(yíng)銷(xiāo)管理系統(tǒng)功能,調(diào)用區(qū)縣售電量合計(jì)算法,對(duì)南明區(qū)等各個(gè)區(qū)縣8月的售電量進(jìn)行計(jì)算,從而得到貴陽(yáng)市8月的售電量指標(biāo)。其中,各區(qū)縣的售電量數(shù)據(jù)是由區(qū)縣售電量合計(jì)算法調(diào)用用電戶電量計(jì)算算法,并以本次表示數(shù)、上次表示數(shù)等數(shù)據(jù)作為輸入計(jì)算得到。而本次表示數(shù)又是由李某通過(guò)操作營(yíng)銷(xiāo)管理系統(tǒng)功能而輸入的。由此清晰地展示出從地市級(jí)指標(biāo)到區(qū)縣級(jí)次級(jí)指標(biāo),再到數(shù)據(jù)元的完整溯源路徑。
圖4 售電量指標(biāo)溯源圖示例Fig.4 Example of provenance chart of electricity sales index
指標(biāo)溯源管理系統(tǒng)的設(shè)計(jì)過(guò)程中主要考慮以下幾方面:
(1)分布式環(huán)境:由于指標(biāo)數(shù)據(jù)溯源過(guò)程通常會(huì)跨越企業(yè)信息化環(huán)境中的多個(gè)系統(tǒng),特別是在電網(wǎng)企業(yè)推進(jìn)數(shù)字化轉(zhuǎn)型的當(dāng)下,這種多源與分布式的特點(diǎn)將更加突出[7]。
(2)數(shù)據(jù)安全:溯源信息本身的機(jī)密性、隱私性、不可篡改性、不可偽造性和不可否認(rèn)性是數(shù)據(jù)溯源應(yīng)用推廣的基本條件[8]。因此,區(qū)塊鏈等新技術(shù)的應(yīng)用將為以去中心化的架構(gòu)方式構(gòu)建安全、可靠的指標(biāo)數(shù)據(jù)溯源信息化實(shí)現(xiàn)提供新的思路和便利[9]。文獻(xiàn)[10-11]提出的一種基于區(qū)塊鏈的數(shù)據(jù)溯源系統(tǒng)設(shè)計(jì)中,溯源模型層作為一個(gè)獨(dú)立抽象層次。而上述的指標(biāo)數(shù)據(jù)溯源模型可以作為一種模型方案“插入”到該系統(tǒng)設(shè)計(jì)中,并運(yùn)用區(qū)塊鏈技術(shù)實(shí)現(xiàn)底層對(duì)指標(biāo)數(shù)據(jù)溯源信息的可信查詢[12]。
(3)數(shù)據(jù)表設(shè)計(jì):溯源模型中定義的元素邏輯對(duì)象以及相互關(guān)系需要根據(jù)當(dāng)前關(guān)系型數(shù)據(jù)庫(kù)系統(tǒng)的技術(shù)規(guī)約恰當(dāng)?shù)剡M(jìn)行物理數(shù)據(jù)表的設(shè)計(jì)[13],并平衡數(shù)據(jù)冗余與性能指標(biāo)。新型的圖數(shù)據(jù)庫(kù)也是一個(gè)較好的選擇。
(4)存儲(chǔ)優(yōu)化:由于溯源信息量巨大,合理的分類(lèi)、壓縮和按需存儲(chǔ)也是一個(gè)設(shè)計(jì)上不可回避的問(wèn)題[14]。
(5)可視化展現(xiàn):于上層采用可視化方式對(duì)溯源分析狀態(tài)進(jìn)行查詢和瀏覽,文獻(xiàn)[15]給出了一個(gè)參考方案。
在進(jìn)行指標(biāo)數(shù)據(jù)溯源管理系統(tǒng)(功能架構(gòu)如圖5的設(shè)計(jì)與實(shí)現(xiàn)時(shí),既考慮了上述技術(shù)方面的因素,同時(shí)也結(jié)合貴州電網(wǎng)公司所開(kāi)展的數(shù)據(jù)認(rèn)責(zé)和質(zhì)量治理提升等工作,將數(shù)據(jù)的責(zé)任和質(zhì)量信息在指標(biāo)溯源關(guān)系上進(jìn)行疊加,形成維度更加豐富、實(shí)用性更強(qiáng)的管理與應(yīng)用看板。
圖5 指標(biāo)溯源管理系統(tǒng)功能架構(gòu)Fig.5 Functional architecture of index provenance management system
系統(tǒng)功能采用組件化模式進(jìn)行設(shè)計(jì),以提供按需的靈活擴(kuò)展性,自下而上依次分為基礎(chǔ)組件、核心業(yè)務(wù)組件、展現(xiàn)交互組件等三個(gè)層次。
(1)基礎(chǔ)組件,主要提供通用化的、業(yè)務(wù)無(wú)關(guān)的基本能力,包括流程運(yùn)行、資源接入等常見(jiàn)功能組件,以及基于指標(biāo)數(shù)據(jù)溯源模型、數(shù)據(jù)認(rèn)責(zé)模型而開(kāi)發(fā)實(shí)現(xiàn)的核心功能邏輯、與區(qū)塊鏈平臺(tái)集成的服務(wù)調(diào)用接口。其中,溯源模型功能模塊實(shí)現(xiàn)基于溯源信息數(shù)據(jù)構(gòu)造和管理各類(lèi)元素對(duì)象,以及處理和分析元素對(duì)象之間的關(guān)聯(lián)關(guān)系,生成溯源圖;溯源數(shù)據(jù)序列化功能模塊實(shí)現(xiàn)對(duì)元素對(duì)象的序列化和反序列化處理;溯源數(shù)據(jù)持久化功能模塊實(shí)現(xiàn)綜合利用關(guān)系型數(shù)據(jù)庫(kù)和圖數(shù)據(jù)庫(kù)對(duì)溯源信息進(jìn)行存儲(chǔ)和管理。
(2)核心業(yè)務(wù)組件,主要提供指標(biāo)、數(shù)據(jù)認(rèn)責(zé)、數(shù)據(jù)質(zhì)量等業(yè)務(wù)對(duì)象的核心管理功能。
(3)展現(xiàn)交互組件,主要融合指標(biāo)的各類(lèi)信息數(shù)據(jù),實(shí)現(xiàn)面向指標(biāo)主人、業(yè)務(wù)管理人員、數(shù)據(jù)管理人員等不同使用者角色的綜合、可視化信息展現(xiàn)與應(yīng)用交互。如圖6。
圖6 指標(biāo)溯源管理系統(tǒng)功能界面Fig.6 Functional interface of index provenance management system
通過(guò)對(duì)7W模型進(jìn)行擴(kuò)展的方式,我們構(gòu)建了指標(biāo)數(shù)據(jù)溯源的內(nèi)容模型。同時(shí),以O(shè)PM模型為藍(lán)本,結(jié)合指標(biāo)數(shù)據(jù)溯源場(chǎng)景設(shè)計(jì)并提出了輕量化的指標(biāo)數(shù)據(jù)溯源表達(dá)模型。而后,結(jié)合貴州電網(wǎng)的數(shù)據(jù)管理實(shí)際設(shè)計(jì)并開(kāi)發(fā)了指標(biāo)數(shù)據(jù)溯源管理系統(tǒng),并配合貴州電網(wǎng)2020年的管理指標(biāo)實(shí)用化和數(shù)據(jù)認(rèn)責(zé)工作開(kāi)展了功能應(yīng)用,相關(guān)設(shè)計(jì)進(jìn)行適用性驗(yàn)證,并實(shí)現(xiàn)與數(shù)據(jù)資產(chǎn)管理、元數(shù)據(jù)等系統(tǒng)、工具的集成落地,為貴州電網(wǎng)加強(qiáng)指標(biāo)管理與實(shí)用化提供了有力的技術(shù)保障。
后繼,還需要在功能和應(yīng)用兩方面進(jìn)行完善和深化,包括:
(1)研究指標(biāo)數(shù)據(jù)溯源內(nèi)容模型與企業(yè)元數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行整合,將指標(biāo)數(shù)據(jù)溯源信息作為指標(biāo)數(shù)據(jù)的元數(shù)據(jù)納入統(tǒng)一的企業(yè)元數(shù)據(jù)管理體系,并完善公司元模型和元數(shù)據(jù)規(guī)范[16]。
(2)研究基于語(yǔ)義信息使用查詢語(yǔ)言[17]對(duì)指標(biāo)數(shù)據(jù)溯源信息進(jìn)行查詢?cè)L問(wèn)[18-21],并實(shí)現(xiàn)多維度的可視化展現(xiàn)。
(3)深入開(kāi)展基于指標(biāo)溯源關(guān)系的數(shù)據(jù)認(rèn)責(zé)管理,強(qiáng)化數(shù)據(jù)源頭對(duì)于指標(biāo)的保障,發(fā)揮指標(biāo)對(duì)于業(yè)務(wù)工作的牽引和指導(dǎo)作用。