基于貝葉斯網(wǎng)絡(luò)的業(yè)務(wù)系統(tǒng)數(shù)據(jù)質(zhì)量?jī)?yōu)化方法

2018-05-22 07:24:45王永才龐偉林范婷

微型電腦應(yīng)用 2018年5期

王永才，龐偉林，范婷

(佛山供電局信息中心，佛山 528000)

0 引言

隨著大數(shù)據(jù)時(shí)代的到來(lái)，大數(shù)據(jù)服務(wù)被廣泛運(yùn)用并對(duì)用戶(hù)生活質(zhì)量產(chǎn)生革命性的提升[1]，越來(lái)越多的業(yè)務(wù)系統(tǒng)被用來(lái)處理、加工數(shù)據(jù)。經(jīng)常地，這些業(yè)務(wù)系統(tǒng)中存在大量源自人工錄入的數(shù)據(jù)。業(yè)務(wù)系統(tǒng)用戶(hù)界面層的校驗(yàn)往往只能保證數(shù)據(jù)在人工錄入的過(guò)程中數(shù)據(jù)格式的正確性，數(shù)據(jù)在錄入過(guò)程中內(nèi)容的錯(cuò)誤往往是不能被自動(dòng)檢查出來(lái)的，這些數(shù)據(jù)錄入時(shí)的錯(cuò)誤嚴(yán)重的影響了數(shù)據(jù)的質(zhì)量[2]。在真實(shí)的業(yè)務(wù)系統(tǒng)中，由專(zhuān)人對(duì)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)質(zhì)量進(jìn)行及時(shí)的人工監(jiān)控，找出錯(cuò)誤字段并進(jìn)行修改，是一項(xiàng)費(fèi)時(shí)費(fèi)力的工作[3-8]。因此，本文研究并提出了一種基于貝葉斯網(wǎng)絡(luò)的業(yè)務(wù)系統(tǒng)數(shù)據(jù)質(zhì)量?jī)?yōu)化方法。其主要思想是：讓經(jīng)貝葉斯網(wǎng)絡(luò)訓(xùn)練好的關(guān)聯(lián)模型庫(kù)對(duì)業(yè)務(wù)系統(tǒng)中的相關(guān)數(shù)據(jù)進(jìn)行分析，自動(dòng)定位錯(cuò)誤的數(shù)據(jù)字段。

1 解決方案

1.1 主要流程

基于貝葉斯網(wǎng)絡(luò)[9、10]優(yōu)化業(yè)務(wù)系統(tǒng)數(shù)據(jù)質(zhì)量時(shí)生成關(guān)聯(lián)模型庫(kù)的主要過(guò)程，如圖1所示。

圖1 基于貝葉斯網(wǎng)絡(luò)優(yōu)化業(yè)務(wù)系統(tǒng)數(shù)據(jù)質(zhì)量時(shí)生成關(guān)聯(lián)模型庫(kù)的主要過(guò)程

(1) 對(duì)業(yè)務(wù)數(shù)據(jù)的內(nèi)容進(jìn)行特征提取，其中對(duì)于句子與段落使用基于依存句法分析的特征提取算法；(2) 分析業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)質(zhì)量分析結(jié)果和數(shù)據(jù)字段，構(gòu)建業(yè)務(wù)系統(tǒng)的狀態(tài)空間；在某些時(shí)間窗口下，對(duì)人工配置好的業(yè)務(wù)數(shù)據(jù)樣本的數(shù)據(jù)質(zhì)量分析結(jié)果和數(shù)據(jù)字段的數(shù)據(jù)進(jìn)行實(shí)時(shí)提取，并進(jìn)行統(tǒng)計(jì)分析；(3) 對(duì)業(yè)務(wù)數(shù)據(jù)的狀態(tài)空間進(jìn)行復(fù)雜度降維，使用第一步得到的數(shù)據(jù)將其劃分成數(shù)據(jù)字段關(guān)聯(lián)緊密的子空間；(4) 使用第一步得到的數(shù)據(jù)，利用樹(shù)擴(kuò)展樸素貝葉斯結(jié)構(gòu)對(duì)劃分得到的每個(gè)系統(tǒng)子空間建立關(guān)聯(lián)模型并將關(guān)聯(lián)模型保存到關(guān)聯(lián)模型庫(kù)中；

關(guān)聯(lián)模型庫(kù)在其建立好后也會(huì)發(fā)生改變，其改變的方法有兩種：(1) 跟蹤收集業(yè)務(wù)系統(tǒng)的歷史業(yè)務(wù)數(shù)據(jù)，每經(jīng)過(guò)一定的時(shí)間依據(jù)這些歷史數(shù)據(jù)對(duì)關(guān)聯(lián)模型庫(kù)按圖1的流程進(jìn)行重建；(2) 手動(dòng)輸入業(yè)務(wù)系統(tǒng)數(shù)據(jù)樣本并按圖1的流程重建關(guān)聯(lián)模型庫(kù)。

基于貝葉斯網(wǎng)絡(luò)的業(yè)務(wù)系統(tǒng)數(shù)據(jù)質(zhì)量?jī)?yōu)化的主要流程[11、12]，如圖2所示。

圖2 基于貝葉斯的業(yè)務(wù)系統(tǒng)數(shù)據(jù)質(zhì)量?jī)?yōu)化的主要流程

(1) 輸入一條業(yè)務(wù)數(shù)據(jù)；(2) 對(duì)業(yè)務(wù)數(shù)據(jù)的各個(gè)字段進(jìn)行特征提??；(3) 基于關(guān)聯(lián)模型庫(kù)對(duì)數(shù)據(jù)質(zhì)量進(jìn)行分類(lèi)；(4) 在數(shù)據(jù)質(zhì)量不達(dá)標(biāo)時(shí)，觸發(fā)問(wèn)題字段定位，并修改問(wèn)題字段。

1.2 業(yè)務(wù)數(shù)據(jù)的特征提取

業(yè)務(wù)系統(tǒng)中存在各種類(lèi)型的數(shù)據(jù)字段，有數(shù)字、日期、詞語(yǔ)、短語(yǔ)等結(jié)構(gòu)簡(jiǎn)單的字段，也有句子、段落等結(jié)構(gòu)復(fù)雜的字段。對(duì)于大多數(shù)的數(shù)據(jù)內(nèi)容，我們需要對(duì)其進(jìn)行特征提取后，再對(duì)提取后的特征進(jìn)行后續(xù)的計(jì)算。

1.2.1 對(duì)簡(jiǎn)單結(jié)構(gòu)數(shù)據(jù)內(nèi)容的特征提取

對(duì)于名稱(chēng)、時(shí)間、狀態(tài)等簡(jiǎn)單字段，我們可以直接將數(shù)據(jù)字段中的原始內(nèi)容作為其特征，或?qū)υ紨?shù)據(jù)內(nèi)容進(jìn)行簡(jiǎn)單的映射轉(zhuǎn)化后作為其特征。

1.2.2 對(duì)短語(yǔ)的特征提取

對(duì)于短語(yǔ)，我們提取其中的名詞、代詞、數(shù)詞等實(shí)體詞作為其特征。

1.2.3 對(duì)句子與段落的特征提取

對(duì)于內(nèi)容為句子或段落的復(fù)雜文字的數(shù)據(jù)字段，根據(jù)詞頻提取文本特征或者直接將所有詞語(yǔ)我們基于依存句法分析對(duì)其進(jìn)行文本特征的提取，依存句法分析能夠通過(guò)分析語(yǔ)句中不同成分之間的關(guān)系來(lái)揭示句法結(jié)構(gòu)。

語(yǔ)句是由核心詞、依存詞以及他們之間的關(guān)系組成的，句法關(guān)系類(lèi)型主要有：核心、主謂關(guān)系、獨(dú)立結(jié)構(gòu)、標(biāo)點(diǎn)、介賓關(guān)系、動(dòng)賓關(guān)系、間賓關(guān)系、前賓關(guān)系、定中關(guān)系、并列關(guān)系、兼語(yǔ)關(guān)系、狀中結(jié)構(gòu)、左附加關(guān)系、右附加關(guān)系、動(dòng)補(bǔ)結(jié)構(gòu)。

基于依存句法分析的特征提取，在對(duì)句子進(jìn)行依存句法分析的基礎(chǔ)上，刪除附加關(guān)系、標(biāo)點(diǎn)、狀中結(jié)構(gòu)、介賓關(guān)系后，根據(jù)詞匯和句法成分之間的關(guān)系進(jìn)行句型匹配，從而對(duì)文本特征進(jìn)行快速提取。

1.3 業(yè)務(wù)數(shù)據(jù)的分析和抽樣

我們先對(duì)業(yè)務(wù)系統(tǒng)中的業(yè)務(wù)數(shù)據(jù)進(jìn)行分析，以獲得業(yè)務(wù)系統(tǒng)的數(shù)據(jù)質(zhì)量分析結(jié)果集合和數(shù)據(jù)字段集合，構(gòu)建業(yè)務(wù)數(shù)據(jù)的狀態(tài)空間。

同時(shí)，在某些時(shí)間窗口下，對(duì)人工配置好的業(yè)務(wù)數(shù)據(jù)樣本的數(shù)據(jù)質(zhì)量分析結(jié)果和數(shù)據(jù)字段內(nèi)容的進(jìn)行實(shí)時(shí)提取。

我們對(duì)上述提取分析作如下的定義[13-15]：

Space={quality, field}表示業(yè)務(wù)數(shù)據(jù)的狀態(tài)空間，該狀態(tài)空間由業(yè)務(wù)系統(tǒng)的數(shù)據(jù)質(zhì)量分析結(jié)果quality和數(shù)據(jù)字段field構(gòu)成；

quality={σ1,σ2, …,σn}表示業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)質(zhì)量分析結(jié)果σ1,σ2, …,σn的集合；

field={θ1,θ2, …,θm}表示業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)字段θ1,θ2, …,θm的集合；

sample={Space1, Space2, …, Spacep}表示業(yè)務(wù)數(shù)據(jù)在p個(gè)不同的時(shí)間窗口下的狀態(tài)空間Space1, Space2, …, Spacep的集合；

1.4 數(shù)據(jù)質(zhì)量分類(lèi)

在對(duì)業(yè)務(wù)數(shù)據(jù)進(jìn)行分析與采樣后，基于樸素貝葉斯網(wǎng)絡(luò)的方法，使用人工配置好的業(yè)務(wù)數(shù)據(jù)訓(xùn)練樣本對(duì)分類(lèi)器進(jìn)行訓(xùn)練。貝葉斯網(wǎng)絡(luò)分類(lèi)器的輸入是業(yè)務(wù)數(shù)據(jù)各數(shù)據(jù)字段的特征，輸出是這條業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)質(zhì)量分析結(jié)果。

1.5 狀態(tài)空間劃分

當(dāng)接收到業(yè)務(wù)數(shù)據(jù)的狀態(tài)空間Space={quality, field}及相應(yīng)數(shù)據(jù)樣本后，假設(shè)數(shù)據(jù)質(zhì)量分析結(jié)果集合大小為n，數(shù)據(jù)字段集合大小為m。

1.5.1 引入狀態(tài)空間劃分的意義

如果直接建立m個(gè)數(shù)據(jù)字段與n個(gè)數(shù)據(jù)質(zhì)量分析結(jié)果之間的關(guān)聯(lián)模型會(huì)存在以下的問(wèn)題：(1) 業(yè)務(wù)數(shù)據(jù)中包含許多的數(shù)據(jù)字段，但不是每一個(gè)數(shù)據(jù)字段對(duì)每一個(gè)數(shù)據(jù)質(zhì)量分析結(jié)果都存在直接的影響。因此，在關(guān)聯(lián)模型中，并不是每個(gè)數(shù)據(jù)字段都應(yīng)該存在；(2) 若一個(gè)模型包含所有的數(shù)據(jù)字段，建模的時(shí)間復(fù)雜度及后續(xù)定位問(wèn)題字段的時(shí)間復(fù)雜度都會(huì)很大，定位問(wèn)題字段的準(zhǔn)確性也會(huì)受其影響；(3) 在數(shù)據(jù)字段數(shù)量m很大的情況下，許多數(shù)據(jù)字段的特征空間都很大，關(guān)聯(lián)模型的空間會(huì)呈指數(shù)級(jí)增長(zhǎng)。

為解決上述三個(gè)問(wèn)題，本文將業(yè)務(wù)數(shù)據(jù)狀態(tài)空間劃分成多個(gè)狀態(tài)子空間，使得每個(gè)子空間中的數(shù)據(jù)字段彼此有較強(qiáng)的關(guān)聯(lián)性，而不同子空間中的數(shù)據(jù)字段之間沒(méi)有關(guān)聯(lián)性或只有較小的關(guān)聯(lián)性。

1.5.2 狀態(tài)空間劃分算法

如下定義狀態(tài)子空間：

Sub_Space={η, Sub_field}，其中η∈{yes, no}，Sub_field?field。

由于本文考慮的是數(shù)據(jù)質(zhì)量是否達(dá)標(biāo)，因此本算法中狀態(tài)空間的劃分主要考慮對(duì)數(shù)據(jù)字段field進(jìn)行劃分。為了使每個(gè)子空間中的數(shù)據(jù)字段彼此有較強(qiáng)的關(guān)聯(lián)性，而不同子空間中的數(shù)據(jù)字段之間沒(méi)有關(guān)聯(lián)性或只有較小的關(guān)聯(lián)性。本文采用互信息熵測(cè)量不同數(shù)據(jù)字段間的依賴(lài)程度。

在已知變量Y的前提下，隨機(jī)變量X與Z之間的條件互信息熵定義，為式(1)。

(1)

X與Z之間的條件互信息越大，說(shuō)明在給定的觀(guān)測(cè)集Y條件下，X與Z之間的依賴(lài)性越大。

對(duì)系統(tǒng)狀態(tài)空間進(jìn)行子空間劃分的過(guò)程如下：

1.統(tǒng)計(jì)樣本數(shù)據(jù)sample={Space1, Space2, …, Spacep}，表示業(yè)務(wù)數(shù)據(jù)在p個(gè)不同的時(shí)間窗口下的狀態(tài)空間Space1, Space2, …, Spacep的集合，得出P(θi,η)，P(θi,η,θj),P(η)

2.由式(1)計(jì)算Z[i][j]=I(θi,θj|η)

3.找出Zij的最大值和最小值Zmax和Zmin

4.為了使每個(gè)子空間中的數(shù)據(jù)字段彼此有較強(qiáng)的關(guān)聯(lián)性，而不同子空間中的數(shù)據(jù)字段之間沒(méi)有關(guān)聯(lián)性或只有較小的關(guān)聯(lián)性。故對(duì)數(shù)據(jù)字段field={θ1,θ2, …,θm}采用中心聚類(lèi)算法K-Mediods進(jìn)行劃分，定義兩個(gè)參數(shù)之間的距離為式(2)。

(2)

公式5首先把Zij標(biāo)準(zhǔn)到[0,1]范圍內(nèi)，然后取余值得到距離函數(shù)。

5.利用中心聚類(lèi)算法K-Mediods對(duì)數(shù)據(jù)字段空間中的數(shù)據(jù)字段進(jìn)行聚類(lèi)：初始時(shí)隨機(jī)選擇k個(gè)數(shù)據(jù)字段作為中心點(diǎn)，每輪迭代過(guò)程中，將空間中其他的點(diǎn)與這k個(gè)中心點(diǎn)的距離大小進(jìn)行比較，將其與距離最小的中心點(diǎn)歸為一類(lèi)。然后更新每個(gè)聚類(lèi)的中心點(diǎn)，使得每類(lèi)中的平均距離最短。當(dāng)?shù)^(guò)一定的輪數(shù)或目標(biāo)函數(shù)J收斂時(shí)停止迭代。目標(biāo)函數(shù)J為

其中ej表示第j(1≦j≦k)個(gè)分類(lèi)中重新計(jì)算得到的中心點(diǎn)，總共有k個(gè)聚類(lèi)中心，Nj表示第j類(lèi)中點(diǎn)的個(gè)數(shù)，J表示所有分類(lèi)中每個(gè)點(diǎn)與中心點(diǎn)距離差的總和。為了控制每個(gè)子空間中數(shù)據(jù)字段的個(gè)數(shù)，將聚類(lèi)中心個(gè)數(shù)設(shè)置為k=m/l，其中m為數(shù)據(jù)字段的總個(gè)數(shù)，l是指每個(gè)子空間中數(shù)據(jù)字段的個(gè)數(shù)不能超過(guò)l。

6.劃分后的子空間為Sub_Spacei={η, Sub_fieldi}，其中Sub_fieldi是那些在中心聚類(lèi)算法K-Mediods中被分到同一個(gè)類(lèi)的數(shù)據(jù)字段。設(shè)其中心點(diǎn)為ei。若ei與η的互信息熵I(ei;η)小于閾值Influence，則將子空間Sub_Spacei丟棄。則最終得到的子空間為Sub_Space1, Sub_Space2, …, Sub_Spacek,其中k為最終子空間的總數(shù)。

1.6 基于貝葉斯網(wǎng)絡(luò)的關(guān)聯(lián)模型建立

對(duì)劃分好的子空間分別建立基于貝葉斯網(wǎng)絡(luò)的關(guān)聯(lián)模型，從而定位影響業(yè)務(wù)數(shù)據(jù)質(zhì)量的問(wèn)題字段。

1.6.1 貝葉斯網(wǎng)絡(luò)的定義及優(yōu)點(diǎn)

貝葉斯網(wǎng)絡(luò)是一種基于概率推理的有向無(wú)環(huán)圖，可以將變量之間的依賴(lài)關(guān)系表示成一個(gè)網(wǎng)絡(luò)結(jié)構(gòu)，適用于不確定知識(shí)的表達(dá)和推理。令U={x1,x2, …,xn}表示一組變量，貝葉斯網(wǎng)絡(luò)由兩部分組成：(1) 表示條件獨(dú)立性信息的網(wǎng)絡(luò)結(jié)構(gòu)，網(wǎng)絡(luò)結(jié)構(gòu)中每一個(gè)節(jié)點(diǎn)表示一個(gè)變量xi，節(jié)點(diǎn)之間的有向弧表示變量之間的依賴(lài)或者因果關(guān)系，有向邊的箭頭表示關(guān)系影響的方向性；(2) 一組概率分布表Bp={p(u|pa(u)) |u∈U}，其中pa(u)表示貝葉斯結(jié)構(gòu)變量u的父節(jié)點(diǎn)。每個(gè)節(jié)點(diǎn)附有與該變量相聯(lián)系的條件概率分布函數(shù)，表示了子節(jié)點(diǎn)與其父節(jié)點(diǎn)之間的關(guān)聯(lián)強(qiáng)度或者置信度，沒(méi)有父節(jié)點(diǎn)的話(huà)則為先驗(yàn)概率。

貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)具有如下的優(yōu)點(diǎn)：

1) 隨著業(yè)務(wù)系統(tǒng)的不斷運(yùn)行，收集到的數(shù)據(jù)樣本能用來(lái)修正貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)及更新其上的概率參數(shù)；

2) 專(zhuān)家知識(shí)和實(shí)踐經(jīng)驗(yàn)?zāi)苋谌氲截惾~斯網(wǎng)絡(luò)的先驗(yàn)知識(shí)中，使模型能更加準(zhǔn)確的描述問(wèn)題；

3) 貝葉斯網(wǎng)絡(luò)能從結(jié)果尋求原因，對(duì)問(wèn)題進(jìn)行診斷；

故本文采用貝葉斯網(wǎng)絡(luò)建立關(guān)聯(lián)模型。

1.6.2 關(guān)聯(lián)模型建立算法

關(guān)聯(lián)模型建立算法是對(duì)Friedman提出的TAN方法的擴(kuò)展，具體步驟如下：

1) 對(duì)2.2節(jié)的每一個(gè)狀態(tài)子空間Sub_Spacei={η, Sub_fieldi}，用公式4計(jì)算Sub_fieldi-{eh}中每對(duì)數(shù)據(jù)字段的條件互信息值Zij=I(θi,θj|η)；Zij已在2.2節(jié)中被計(jì)算出來(lái)。

2) 對(duì)Sub_fieldi中的變量建立完全無(wú)向圖，Zij作為節(jié)點(diǎn)θi和θj間的邊的權(quán)值。

3) 對(duì)上一步生成的完全無(wú)向圖求最大權(quán)生成樹(shù)，并根據(jù)端點(diǎn)的條件信息熵大小確定無(wú)向邊的方向，如下面公式所示，其中Ni表示與θi之間存在邊的參數(shù)個(gè)數(shù)，若Avgi>Avgj，則θi與θj之間的邊從θi指向θj

4) 添加eh到生成樹(shù)，并添加由eh到每個(gè)節(jié)點(diǎn)的有向邊，然后增加η結(jié)點(diǎn)，并添加η到每個(gè)節(jié)點(diǎn)的有向邊。

至此貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)已初步建立，但概率分布表還沒(méi)給出。對(duì)已輸入的業(yè)務(wù)數(shù)據(jù)樣本sample={Space1, Space2, …, Spacep}進(jìn)行統(tǒng)計(jì)，就可計(jì)算出子節(jié)點(diǎn)與其父節(jié)點(diǎn)之間的關(guān)聯(lián)強(qiáng)度P(θi|pa(θi))，對(duì)那些沒(méi)有父節(jié)點(diǎn)的節(jié)點(diǎn)，也可通過(guò)對(duì)已輸入的業(yè)務(wù)系統(tǒng)樣本進(jìn)行統(tǒng)計(jì)得出先驗(yàn)概率。

關(guān)聯(lián)模型已建立完成，將這些關(guān)聯(lián)模型放入關(guān)聯(lián)模型庫(kù)中等待實(shí)際使用。

1.7 問(wèn)題字段定位

使用貝葉斯網(wǎng)絡(luò)最大的好處是能夠從結(jié)果出發(fā)，找出原因，從而解決問(wèn)題。如圖2.1.2，在業(yè)務(wù)系統(tǒng)數(shù)據(jù)質(zhì)量不達(dá)標(biāo)時(shí)，即η=no，將此時(shí)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)字段的狀態(tài)發(fā)送給關(guān)聯(lián)模型庫(kù)，利用關(guān)聯(lián)模型庫(kù)對(duì)業(yè)務(wù)系統(tǒng)中的參數(shù)進(jìn)行診斷，得到對(duì)η=no影響最大的問(wèn)題字段Θ，并將這些參數(shù)發(fā)送給管理員，管理員調(diào)整這些參數(shù)從而使業(yè)務(wù)系統(tǒng)的數(shù)據(jù)質(zhì)量達(dá)標(biāo)。

1.7.1 問(wèn)題字段定位算法

由貝葉斯網(wǎng)絡(luò)的概率鏈公式，對(duì)每個(gè)子空間Sub_Spacei，均有式(3)。

(3)

當(dāng)業(yè)務(wù)系統(tǒng)數(shù)據(jù)質(zhì)量不達(dá)標(biāo)時(shí)，即式(4)

P(η=no|Sub_parameteri)>P(η=yes|Sub_parameteri)

(4)

由貝葉斯網(wǎng)絡(luò)推理公式

P(η=no|Sub_pari)P(Sub_pari)>P(η=yes|Sub_pari)P(Sub_pari)P(Sub_pari|η=no)P(η=no)>P(Sub_pari|η=yes)P(η=yes)

代入公式6

對(duì)于每個(gè)數(shù)據(jù)字段θj，當(dāng)P(θj|pa(θj),η=no比P(θj|pa(θj),η=yes越大時(shí)，則業(yè)務(wù)系統(tǒng)數(shù)據(jù)質(zhì)量不達(dá)標(biāo)的可能性越大，θj成為問(wèn)題字段的可能性也越大。

故令Score(θj)=P(θj|pa(θj),η=no)/P(θj|pa(θj),η=yes)，計(jì)算每個(gè)子空間Sub_Spacei中的每個(gè)數(shù)據(jù)字段θj的Score(θj)值，并選取Score(θj)最大的p個(gè)變量作為問(wèn)題字段Θ，輸出，修改問(wèn)題字段使數(shù)據(jù)質(zhì)量重新達(dá)標(biāo)。

2 實(shí)例驗(yàn)證

某電網(wǎng)營(yíng)銷(xiāo)管理系統(tǒng)，如圖3所示。

圖3 某電力企業(yè)實(shí)際系統(tǒng)的業(yè)務(wù)系統(tǒng)實(shí)例

指標(biāo)名稱(chēng)：購(gòu)電檔案=基礎(chǔ)信息=規(guī)范性=電廠(chǎng)輔助信息=投產(chǎn)時(shí)間-合規(guī)率

指標(biāo)要求：投產(chǎn)時(shí)間不得大于當(dāng)前系統(tǒng)時(shí)間

路徑：市場(chǎng)交易-查詢(xún)功能-電廠(chǎng)檔案查詢(xún)

在圖3的真實(shí)業(yè)務(wù)系統(tǒng)中，經(jīng)過(guò)對(duì)業(yè)務(wù)數(shù)據(jù)的內(nèi)容進(jìn)行特征提取、構(gòu)建業(yè)務(wù)系統(tǒng)的狀態(tài)空間、劃分子空間、建立關(guān)聯(lián)模型庫(kù)后，基于關(guān)聯(lián)模型庫(kù)對(duì)數(shù)據(jù)質(zhì)量進(jìn)行分類(lèi)，發(fā)現(xiàn)數(shù)據(jù)質(zhì)量不達(dá)標(biāo)，觸發(fā)問(wèn)題字段定位，最終定位至投產(chǎn)時(shí)間字段。

如圖3真實(shí)業(yè)務(wù) 中，“投產(chǎn)時(shí)間”這一指標(biāo)要求，傳統(tǒng)數(shù)據(jù)質(zhì)量校驗(yàn)方式，需要業(yè)務(wù)人員梳理，并且提出指標(biāo)規(guī)則：投產(chǎn)時(shí)間不得大于當(dāng)前系統(tǒng)時(shí)間，然后一一設(shè)定相應(yīng)的校驗(yàn)規(guī)則進(jìn)行篩選排查。

采用基于貝葉斯的業(yè)務(wù)系統(tǒng)數(shù)據(jù)質(zhì)量?jī)?yōu)化方法后，則無(wú)需業(yè)務(wù)人員人工一一梳理諸如這類(lèi)非業(yè)務(wù)規(guī)則的基本系統(tǒng)性數(shù)據(jù)的數(shù)據(jù)質(zhì)量規(guī)則。而是對(duì)已有業(yè)務(wù)數(shù)據(jù)的內(nèi)容進(jìn)行特征提取、構(gòu)建業(yè)務(wù)系統(tǒng)的狀態(tài)空間、劃分子空間、建立關(guān)聯(lián)模型庫(kù)后，基于關(guān)聯(lián)模型庫(kù)對(duì)數(shù)據(jù)質(zhì)量進(jìn)行分類(lèi)，發(fā)現(xiàn)數(shù)據(jù)質(zhì)量不達(dá)標(biāo)，觸發(fā)問(wèn)題字段定位，最終定位至投產(chǎn)時(shí)間字段，進(jìn)一步地可提示業(yè)務(wù)人員主動(dòng)發(fā)現(xiàn)該系統(tǒng)性數(shù)據(jù)質(zhì)量規(guī)則。

3 總結(jié)

本文介紹了一種基于貝葉斯網(wǎng)絡(luò)，對(duì)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)字段和數(shù)據(jù)質(zhì)量分析結(jié)果建立關(guān)聯(lián)模型，并在數(shù)據(jù)生產(chǎn)過(guò)程中通過(guò)關(guān)聯(lián)模型自動(dòng)確定影響數(shù)據(jù)質(zhì)量的問(wèn)題字段的方法。同時(shí)，本文將該方法實(shí)現(xiàn)成了具體的，可在實(shí)際業(yè)務(wù)系統(tǒng)中使用的模塊，通過(guò)實(shí)驗(yàn)，證明了本文的方法能有效并自動(dòng)的定位影響數(shù)據(jù)質(zhì)量的問(wèn)題字段，從而優(yōu)化業(yè)務(wù)系統(tǒng)的數(shù)據(jù)質(zhì)量。

(項(xiàng)目資助：電力數(shù)據(jù)持續(xù)數(shù)據(jù)質(zhì)量監(jiān)視與輔助改善系統(tǒng)研發(fā) GDKJXM20161895(030600KK52160021)

參考文獻(xiàn)

[1] 韓京宇，徐立臻，董逸生．?dāng)?shù)據(jù)質(zhì)量研究綜述[J]．計(jì)算機(jī)科學(xué)，2008(2)：1002-137X.

[2] 宗威，吳鋒．大數(shù)據(jù)時(shí)代下數(shù)據(jù)質(zhì)量的挑戰(zhàn)[J]．西安交通大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)，2013(5)：1008-245X.

[3] 王宏志．大數(shù)據(jù)質(zhì)量管理:問(wèn)題與研究進(jìn)展[J]．科技導(dǎo)報(bào)，2014(34)：1000-7857.

[4] 王永才，宋才華．中間件技術(shù)在數(shù)據(jù)交換中的應(yīng)用研究[J]．自動(dòng)化與儀器儀表，2015(11)：1001-9227.

[5] 劉珊珊．信息時(shí)代電力企業(yè)統(tǒng)計(jì)工作中的問(wèn)題與對(duì)策分析[J]．中國(guó)高新技術(shù)企業(yè)，2017(12)；1009-2374.

[6] 秦璇．電力統(tǒng)計(jì)數(shù)據(jù)的質(zhì)量評(píng)估及其異常檢測(cè)方法研究[J]．長(zhǎng)沙理工大學(xué)，2013.

[7] 馬亞南．電力系統(tǒng)異常數(shù)據(jù)的檢測(cè)辨識(shí)與修正探究[J]．中國(guó)電業(yè)(技術(shù)版)，2014(4)：1002-1140.

[8] 常飛．基于實(shí)時(shí)數(shù)據(jù)的動(dòng)態(tài)異常檢測(cè)方法研究[D]．天津理工大學(xué)，2013.

[9] 李碩豪，張軍．貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)綜述[J]．計(jì)算機(jī)應(yīng)用研究，2015(3)：1001-3695.

[10] 張劍飛．貝葉斯網(wǎng)絡(luò)學(xué)習(xí)方法和算法研究[D]．東北師范大學(xué)，2005.

[11] 李小琳．面向智能數(shù)據(jù)處理的貝葉斯網(wǎng)絡(luò)研究與應(yīng)用[D]．吉林大學(xué)，2005.

[12] 白濤，陳衛(wèi)華，谷鵬飛．基于貝葉斯網(wǎng)的核安全級(jí)軟件可靠性評(píng)估初探[J]．微型電腦應(yīng)用，2017(11)：1007-757X.

[13] 王科欣，王勝利．基于貝葉斯網(wǎng)絡(luò)技術(shù)的軟件缺陷預(yù)測(cè)與故障診斷[J]．微型電腦應(yīng)用，2009(11)：1007-757X.

[14] 馬德仲．基于貝葉斯網(wǎng)絡(luò)和多源信息構(gòu)建可靠性分析模型方法研究[D]．哈爾濱理工大學(xué)，2015.

[15] 韓志朋．基于大規(guī)模貝葉斯網(wǎng)絡(luò)的醫(yī)療質(zhì)量數(shù)據(jù)挖掘研究[D]．天津大學(xué)，2012.