王永才, 龐偉林, 范婷
(佛山供電局信息中心, 佛山 528000)
隨著大數(shù)據(jù)時(shí)代的到來(lái),大數(shù)據(jù)服務(wù)被廣泛運(yùn)用并對(duì)用戶(hù)生活質(zhì)量產(chǎn)生革命性的提升[1],越來(lái)越多的業(yè)務(wù)系統(tǒng)被用來(lái)處理、加工數(shù)據(jù)。經(jīng)常地,這些業(yè)務(wù)系統(tǒng)中存在大量源自人工錄入的數(shù)據(jù)。業(yè)務(wù)系統(tǒng)用戶(hù)界面層的校驗(yàn)往往只能保證數(shù)據(jù)在人工錄入的過(guò)程中數(shù)據(jù)格式的正確性,數(shù)據(jù)在錄入過(guò)程中內(nèi)容的錯(cuò)誤往往是不能被自動(dòng)檢查出來(lái)的,這些數(shù)據(jù)錄入時(shí)的錯(cuò)誤嚴(yán)重的影響了數(shù)據(jù)的質(zhì)量[2]。在真實(shí)的業(yè)務(wù)系統(tǒng)中,由專(zhuān)人對(duì)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)質(zhì)量進(jìn)行及時(shí)的人工監(jiān)控,找出錯(cuò)誤字段并進(jìn)行修改,是一項(xiàng)費(fèi)時(shí)費(fèi)力的工作[3-8]。因此,本文研究并提出了一種基于貝葉斯網(wǎng)絡(luò)的業(yè)務(wù)系統(tǒng)數(shù)據(jù)質(zhì)量?jī)?yōu)化方法。其主要思想是:讓經(jīng)貝葉斯網(wǎng)絡(luò)訓(xùn)練好的關(guān)聯(lián)模型庫(kù)對(duì)業(yè)務(wù)系統(tǒng)中的相關(guān)數(shù)據(jù)進(jìn)行分析,自動(dòng)定位錯(cuò)誤的數(shù)據(jù)字段。
基于貝葉斯網(wǎng)絡(luò)[9、10]優(yōu)化業(yè)務(wù)系統(tǒng)數(shù)據(jù)質(zhì)量時(shí)生成關(guān)聯(lián)模型庫(kù)的主要過(guò)程,如圖1所示。
圖1 基于貝葉斯網(wǎng)絡(luò)優(yōu)化業(yè)務(wù)系統(tǒng)數(shù)據(jù)質(zhì)量時(shí)生成關(guān)聯(lián)模型庫(kù)的主要過(guò)程
(1) 對(duì)業(yè)務(wù)數(shù)據(jù)的內(nèi)容進(jìn)行特征提取,其中對(duì)于句子與段落使用基于依存句法分析的特征提取算法;(2) 分析業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)質(zhì)量分析結(jié)果和數(shù)據(jù)字段,構(gòu)建業(yè)務(wù)系統(tǒng)的狀態(tài)空間;在某些時(shí)間窗口下,對(duì)人工配置好的業(yè)務(wù)數(shù)據(jù)樣本的數(shù)據(jù)質(zhì)量分析結(jié)果和數(shù)據(jù)字段的數(shù)據(jù)進(jìn)行實(shí)時(shí)提取,并進(jìn)行統(tǒng)計(jì)分析;(3) 對(duì)業(yè)務(wù)數(shù)據(jù)的狀態(tài)空間進(jìn)行復(fù)雜度降維,使用第一步得到的數(shù)據(jù)將其劃分成數(shù)據(jù)字段關(guān)聯(lián)緊密的子空間;(4) 使用第一步得到的數(shù)據(jù),利用樹(shù)擴(kuò)展樸素貝葉斯結(jié)構(gòu)對(duì)劃分得到的每個(gè)系統(tǒng)子空間建立關(guān)聯(lián)模型并將關(guān)聯(lián)模型保存到關(guān)聯(lián)模型庫(kù)中;
關(guān)聯(lián)模型庫(kù)在其建立好后也會(huì)發(fā)生改變,其改變的方法有兩種:(1) 跟蹤收集業(yè)務(wù)系統(tǒng)的歷史業(yè)務(wù)數(shù)據(jù),每經(jīng)過(guò)一定的時(shí)間依據(jù)這些歷史數(shù)據(jù)對(duì)關(guān)聯(lián)模型庫(kù)按圖1的流程進(jìn)行重建;(2) 手動(dòng)輸入業(yè)務(wù)系統(tǒng)數(shù)據(jù)樣本并按圖1的流程重建關(guān)聯(lián)模型庫(kù)。
基于貝葉斯網(wǎng)絡(luò)的業(yè)務(wù)系統(tǒng)數(shù)據(jù)質(zhì)量?jī)?yōu)化的主要流程[11、12],如圖2所示。
圖2 基于貝葉斯的業(yè)務(wù)系統(tǒng)數(shù)據(jù)質(zhì)量?jī)?yōu)化的主要流程
(1) 輸入一條業(yè)務(wù)數(shù)據(jù);(2) 對(duì)業(yè)務(wù)數(shù)據(jù)的各個(gè)字段進(jìn)行特征提??;(3) 基于關(guān)聯(lián)模型庫(kù)對(duì)數(shù)據(jù)質(zhì)量進(jìn)行分類(lèi);(4) 在數(shù)據(jù)質(zhì)量不達(dá)標(biāo)時(shí),觸發(fā)問(wèn)題字段定位,并修改問(wèn)題字段。
業(yè)務(wù)系統(tǒng)中存在各種類(lèi)型的數(shù)據(jù)字段,有數(shù)字、日期、詞語(yǔ)、短語(yǔ)等結(jié)構(gòu)簡(jiǎn)單的字段,也有句子、段落等結(jié)構(gòu)復(fù)雜的字段。對(duì)于大多數(shù)的數(shù)據(jù)內(nèi)容,我們需要對(duì)其進(jìn)行特征提取后,再對(duì)提取后的特征進(jìn)行后續(xù)的計(jì)算。
1.2.1 對(duì)簡(jiǎn)單結(jié)構(gòu)數(shù)據(jù)內(nèi)容的特征提取
對(duì)于名稱(chēng)、時(shí)間、狀態(tài)等簡(jiǎn)單字段,我們可以直接將數(shù)據(jù)字段中的原始內(nèi)容作為其特征,或?qū)υ紨?shù)據(jù)內(nèi)容進(jìn)行簡(jiǎn)單的映射轉(zhuǎn)化后作為其特征。
1.2.2 對(duì)短語(yǔ)的特征提取
對(duì)于短語(yǔ),我們提取其中的名詞、代詞、數(shù)詞等實(shí)體詞作為其特征。
1.2.3 對(duì)句子與段落的特征提取
對(duì)于內(nèi)容為句子或段落的復(fù)雜文字的數(shù)據(jù)字段,根據(jù)詞頻提取文本特征或者直接將所有詞語(yǔ)我們基于依存句法分析對(duì)其進(jìn)行文本特征的提取,依存句法分析能夠通過(guò)分析語(yǔ)句中不同成分之間的關(guān)系來(lái)揭示句法結(jié)構(gòu)。
語(yǔ)句是由核心詞、依存詞以及他們之間的關(guān)系組成的,句法關(guān)系類(lèi)型主要有:核心、主謂關(guān)系、獨(dú)立結(jié)構(gòu)、標(biāo)點(diǎn)、介賓關(guān)系、動(dòng)賓關(guān)系、間賓關(guān)系、前賓關(guān)系、定中關(guān)系、并列關(guān)系、兼語(yǔ)關(guān)系、狀中結(jié)構(gòu)、左附加關(guān)系、右附加關(guān)系、動(dòng)補(bǔ)結(jié)構(gòu)。
基于依存句法分析的特征提取,在對(duì)句子進(jìn)行依存句法分析的基礎(chǔ)上,刪除附加關(guān)系、標(biāo)點(diǎn)、狀中結(jié)構(gòu)、介賓關(guān)系后,根據(jù)詞匯和句法成分之間的關(guān)系進(jìn)行句型匹配,從而對(duì)文本特征進(jìn)行快速提取。
我們先對(duì)業(yè)務(wù)系統(tǒng)中的業(yè)務(wù)數(shù)據(jù)進(jìn)行分析,以獲得業(yè)務(wù)系統(tǒng)的數(shù)據(jù)質(zhì)量分析結(jié)果集合和數(shù)據(jù)字段集合,構(gòu)建業(yè)務(wù)數(shù)據(jù)的狀態(tài)空間。
同時(shí),在某些時(shí)間窗口下,對(duì)人工配置好的業(yè)務(wù)數(shù)據(jù)樣本的數(shù)據(jù)質(zhì)量分析結(jié)果和數(shù)據(jù)字段內(nèi)容的進(jìn)行實(shí)時(shí)提取。
我們對(duì)上述提取分析作如下的定義[13-15]:
Space={quality, field}表示業(yè)務(wù)數(shù)據(jù)的狀態(tài)空間,該狀態(tài)空間由業(yè)務(wù)系統(tǒng)的數(shù)據(jù)質(zhì)量分析結(jié)果quality和數(shù)據(jù)字段field構(gòu)成;
quality={σ1,σ2, …,σn}表示業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)質(zhì)量分析結(jié)果σ1,σ2, …,σn的集合;
field={θ1,θ2, …,θm}表示業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)字段θ1,θ2, …,θm的集合;
sample={Space1, Space2, …, Spacep}表示業(yè)務(wù)數(shù)據(jù)在p個(gè)不同的時(shí)間窗口下的狀態(tài)空間Space1, Space2, …, Spacep的集合;
在對(duì)業(yè)務(wù)數(shù)據(jù)進(jìn)行分析與采樣后,基于樸素貝葉斯網(wǎng)絡(luò)的方法,使用人工配置好的業(yè)務(wù)數(shù)據(jù)訓(xùn)練樣本對(duì)分類(lèi)器進(jìn)行訓(xùn)練。貝葉斯網(wǎng)絡(luò)分類(lèi)器的輸入是業(yè)務(wù)數(shù)據(jù)各數(shù)據(jù)字段的特征,輸出是這條業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)質(zhì)量分析結(jié)果。
當(dāng)接收到業(yè)務(wù)數(shù)據(jù)的狀態(tài)空間Space={quality, field}及相應(yīng)數(shù)據(jù)樣本后,假設(shè)數(shù)據(jù)質(zhì)量分析結(jié)果集合大小為n,數(shù)據(jù)字段集合大小為m。
1.5.1 引入狀態(tài)空間劃分的意義
如果直接建立m個(gè)數(shù)據(jù)字段與n個(gè)數(shù)據(jù)質(zhì)量分析結(jié)果之間的關(guān)聯(lián)模型會(huì)存在以下的問(wèn)題:(1) 業(yè)務(wù)數(shù)據(jù)中包含許多的數(shù)據(jù)字段,但不是每一個(gè)數(shù)據(jù)字段對(duì)每一個(gè)數(shù)據(jù)質(zhì)量分析結(jié)果都存在直接的影響。因此,在關(guān)聯(lián)模型中,并不是每個(gè)數(shù)據(jù)字段都應(yīng)該存在;(2) 若一個(gè)模型包含所有的數(shù)據(jù)字段,建模的時(shí)間復(fù)雜度及后續(xù)定位問(wèn)題字段的時(shí)間復(fù)雜度都會(huì)很大,定位問(wèn)題字段的準(zhǔn)確性也會(huì)受其影響;(3) 在數(shù)據(jù)字段數(shù)量m很大的情況下,許多數(shù)據(jù)字段的特征空間都很大,關(guān)聯(lián)模型的空間會(huì)呈指數(shù)級(jí)增長(zhǎng)。
為解決上述三個(gè)問(wèn)題,本文將業(yè)務(wù)數(shù)據(jù)狀態(tài)空間劃分成多個(gè)狀態(tài)子空間,使得每個(gè)子空間中的數(shù)據(jù)字段彼此有較強(qiáng)的關(guān)聯(lián)性,而不同子空間中的數(shù)據(jù)字段之間沒(méi)有關(guān)聯(lián)性或只有較小的關(guān)聯(lián)性。
1.5.2 狀態(tài)空間劃分算法
如下定義狀態(tài)子空間:
Sub_Space={η, Sub_field},其中η∈{yes, no},Sub_field?field。
由于本文考慮的是數(shù)據(jù)質(zhì)量是否達(dá)標(biāo),因此本算法中狀態(tài)空間的劃分主要考慮對(duì)數(shù)據(jù)字段field進(jìn)行劃分。為了使每個(gè)子空間中的數(shù)據(jù)字段彼此有較強(qiáng)的關(guān)聯(lián)性,而不同子空間中的數(shù)據(jù)字段之間沒(méi)有關(guān)聯(lián)性或只有較小的關(guān)聯(lián)性。本文采用互信息熵測(cè)量不同數(shù)據(jù)字段間的依賴(lài)程度。
在已知變量Y的前提下,隨機(jī)變量X與Z之間的條件互信息熵定義,為式(1)。
(1)
X與Z之間的條件互信息越大,說(shuō)明在給定的觀(guān)測(cè)集Y條件下,X與Z之間的依賴(lài)性越大。
對(duì)系統(tǒng)狀態(tài)空間進(jìn)行子空間劃分的過(guò)程如下:
1.統(tǒng)計(jì)樣本數(shù)據(jù)sample={Space1, Space2, …, Spacep},表示業(yè)務(wù)數(shù)據(jù)在p個(gè)不同的時(shí)間窗口下的狀態(tài)空間Space1, Space2, …, Spacep的集合,得出P(θi,η),P(θi,η,θj),P(η)
2.由式(1)計(jì)算Z[i][j]=I(θi,θj|η)
3.找出Zij的最大值和最小值Zmax和Zmin
4.為了使每個(gè)子空間中的數(shù)據(jù)字段彼此有較強(qiáng)的關(guān)聯(lián)性,而不同子空間中的數(shù)據(jù)字段之間沒(méi)有關(guān)聯(lián)性或只有較小的關(guān)聯(lián)性。故對(duì)數(shù)據(jù)字段field={θ1,θ2, …,θm}采用中心聚類(lèi)算法K-Mediods進(jìn)行劃分,定義兩個(gè)參數(shù)之間的距離為式(2)。
(2)
公式5首先把Zij標(biāo)準(zhǔn)到[0,1]范圍內(nèi),然后取余值得到距離函數(shù)。
5.利用中心聚類(lèi)算法K-Mediods對(duì)數(shù)據(jù)字段空間中的數(shù)據(jù)字段進(jìn)行聚類(lèi):初始時(shí)隨機(jī)選擇k個(gè)數(shù)據(jù)字段作為中心點(diǎn),每輪迭代過(guò)程中,將空間中其他的點(diǎn)與這k個(gè)中心點(diǎn)的距離大小進(jìn)行比較,將其與距離最小的中心點(diǎn)歸為一類(lèi)。然后更新每個(gè)聚類(lèi)的中心點(diǎn),使得每類(lèi)中的平均距離最短。當(dāng)?shù)^(guò)一定的輪數(shù)或目標(biāo)函數(shù)J收斂時(shí)停止迭代。目標(biāo)函數(shù)J為
其中ej表示第j(1≦j≦k)個(gè)分類(lèi)中重新計(jì)算得到的中心點(diǎn),總共有k個(gè)聚類(lèi)中心,Nj表示第j類(lèi)中點(diǎn)的個(gè)數(shù),J表示所有分類(lèi)中每個(gè)點(diǎn)與中心點(diǎn)距離差的總和。為了控制每個(gè)子空間中數(shù)據(jù)字段的個(gè)數(shù),將聚類(lèi)中心個(gè)數(shù)設(shè)置為k=m/l,其中m為數(shù)據(jù)字段的總個(gè)數(shù),l是指每個(gè)子空間中數(shù)據(jù)字段的個(gè)數(shù)不能超過(guò)l。
6.劃分后的子空間為Sub_Spacei={η, Sub_fieldi},其中Sub_fieldi是那些在中心聚類(lèi)算法K-Mediods中被分到同一個(gè)類(lèi)的數(shù)據(jù)字段。設(shè)其中心點(diǎn)為ei。若ei與η的互信息熵I(ei;η)小于閾值Influence,則將子空間Sub_Spacei丟棄。則最終得到的子空間為Sub_Space1, Sub_Space2, …, Sub_Spacek,其中k為最終子空間的總數(shù)。
對(duì)劃分好的子空間分別建立基于貝葉斯網(wǎng)絡(luò)的關(guān)聯(lián)模型,從而定位影響業(yè)務(wù)數(shù)據(jù)質(zhì)量的問(wèn)題字段。
1.6.1 貝葉斯網(wǎng)絡(luò)的定義及優(yōu)點(diǎn)
貝葉斯網(wǎng)絡(luò)是一種基于概率推理的有向無(wú)環(huán)圖,可以將變量之間的依賴(lài)關(guān)系表示成一個(gè)網(wǎng)絡(luò)結(jié)構(gòu),適用于不確定知識(shí)的表達(dá)和推理。令U={x1,x2, …,xn}表示一組變量,貝葉斯網(wǎng)絡(luò)由兩部分組成:(1) 表示條件獨(dú)立性信息的網(wǎng)絡(luò)結(jié)構(gòu),網(wǎng)絡(luò)結(jié)構(gòu)中每一個(gè)節(jié)點(diǎn)表示一個(gè)變量xi,節(jié)點(diǎn)之間的有向弧表示變量之間的依賴(lài)或者因果關(guān)系,有向邊的箭頭表示關(guān)系影響的方向性;(2) 一組概率分布表Bp={p(u|pa(u)) |u∈U},其中pa(u)表示貝葉斯結(jié)構(gòu)變量u的父節(jié)點(diǎn)。每個(gè)節(jié)點(diǎn)附有與該變量相聯(lián)系的條件概率分布函數(shù),表示了子節(jié)點(diǎn)與其父節(jié)點(diǎn)之間的關(guān)聯(lián)強(qiáng)度或者置信度,沒(méi)有父節(jié)點(diǎn)的話(huà)則為先驗(yàn)概率。
貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)具有如下的優(yōu)點(diǎn):
1) 隨著業(yè)務(wù)系統(tǒng)的不斷運(yùn)行,收集到的數(shù)據(jù)樣本能用來(lái)修正貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)及更新其上的概率參數(shù);
2) 專(zhuān)家知識(shí)和實(shí)踐經(jīng)驗(yàn)?zāi)苋谌氲截惾~斯網(wǎng)絡(luò)的先驗(yàn)知識(shí)中,使模型能更加準(zhǔn)確的描述問(wèn)題;
3) 貝葉斯網(wǎng)絡(luò)能從結(jié)果尋求原因,對(duì)問(wèn)題進(jìn)行診斷;
故本文采用貝葉斯網(wǎng)絡(luò)建立關(guān)聯(lián)模型。
1.6.2 關(guān)聯(lián)模型建立算法
關(guān)聯(lián)模型建立算法是對(duì)Friedman提出的TAN方法的擴(kuò)展,具體步驟如下:
1) 對(duì)2.2節(jié)的每一個(gè)狀態(tài)子空間Sub_Spacei={η, Sub_fieldi},用公式4計(jì)算Sub_fieldi-{eh}中每對(duì)數(shù)據(jù)字段的條件互信息值Zij=I(θi,θj|η);Zij已在2.2節(jié)中被計(jì)算出來(lái)。
2) 對(duì)Sub_fieldi中的變量建立完全無(wú)向圖,Zij作為節(jié)點(diǎn)θi和θj間的邊的權(quán)值。
3) 對(duì)上一步生成的完全無(wú)向圖求最大權(quán)生成樹(shù),并根據(jù)端點(diǎn)的條件信息熵大小確定無(wú)向邊的方向,如下面公式所示,其中Ni表示與θi之間存在邊的參數(shù)個(gè)數(shù),若Avgi>Avgj,則θi與θj之間的邊從θi指向θj
4) 添加eh到生成樹(shù),并添加由eh到每個(gè)節(jié)點(diǎn)的有向邊,然后增加η結(jié)點(diǎn),并添加η到每個(gè)節(jié)點(diǎn)的有向邊。
至此貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)已初步建立,但概率分布表還沒(méi)給出。對(duì)已輸入的業(yè)務(wù)數(shù)據(jù)樣本sample={Space1, Space2, …, Spacep}進(jìn)行統(tǒng)計(jì),就可計(jì)算出子節(jié)點(diǎn)與其父節(jié)點(diǎn)之間的關(guān)聯(lián)強(qiáng)度P(θi|pa(θi)),對(duì)那些沒(méi)有父節(jié)點(diǎn)的節(jié)點(diǎn),也可通過(guò)對(duì)已輸入的業(yè)務(wù)系統(tǒng)樣本進(jìn)行統(tǒng)計(jì)得出先驗(yàn)概率。
關(guān)聯(lián)模型已建立完成,將這些關(guān)聯(lián)模型放入關(guān)聯(lián)模型庫(kù)中等待實(shí)際使用。
使用貝葉斯網(wǎng)絡(luò)最大的好處是能夠從結(jié)果出發(fā),找出原因,從而解決問(wèn)題。如圖2.1.2,在業(yè)務(wù)系統(tǒng)數(shù)據(jù)質(zhì)量不達(dá)標(biāo)時(shí),即η=no,將此時(shí)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)字段的狀態(tài)發(fā)送給關(guān)聯(lián)模型庫(kù),利用關(guān)聯(lián)模型庫(kù)對(duì)業(yè)務(wù)系統(tǒng)中的參數(shù)進(jìn)行診斷,得到對(duì)η=no影響最大的問(wèn)題字段Θ,并將這些參數(shù)發(fā)送給管理員,管理員調(diào)整這些參數(shù)從而使業(yè)務(wù)系統(tǒng)的數(shù)據(jù)質(zhì)量達(dá)標(biāo)。
1.7.1 問(wèn)題字段定位算法
由貝葉斯網(wǎng)絡(luò)的概率鏈公式,對(duì)每個(gè)子空間Sub_Spacei,均有式(3)。
(3)
當(dāng)業(yè)務(wù)系統(tǒng)數(shù)據(jù)質(zhì)量不達(dá)標(biāo)時(shí),即式(4)
P(η=no|Sub_parameteri)>P(η=yes|Sub_parameteri)
(4)
由貝葉斯網(wǎng)絡(luò)推理公式
P(η=no|Sub_pari)P(Sub_pari)>P(η=yes|Sub_pari)P(Sub_pari)P(Sub_pari|η=no)P(η=no)>P(Sub_pari|η=yes)P(η=yes)
代入公式6
對(duì)于每個(gè)數(shù)據(jù)字段θj,當(dāng)P(θj|pa(θj),η=no比P(θj|pa(θj),η=yes越大時(shí),則業(yè)務(wù)系統(tǒng)數(shù)據(jù)質(zhì)量不達(dá)標(biāo)的可能性越大,θj成為問(wèn)題字段的可能性也越大。
故令Score(θj)=P(θj|pa(θj),η=no)/P(θj|pa(θj),η=yes),計(jì)算每個(gè)子空間Sub_Spacei中的每個(gè)數(shù)據(jù)字段θj的Score(θj)值,并選取Score(θj)最大的p個(gè)變量作為問(wèn)題字段Θ,輸出,修改問(wèn)題字段使數(shù)據(jù)質(zhì)量重新達(dá)標(biāo)。
某電網(wǎng)營(yíng)銷(xiāo)管理系統(tǒng),如圖3所示。
圖3 某電力企業(yè)實(shí)際系統(tǒng)的業(yè)務(wù)系統(tǒng)實(shí)例
指標(biāo)名稱(chēng):購(gòu)電檔案=基礎(chǔ)信息=規(guī)范性=電廠(chǎng)輔助信息=投產(chǎn)時(shí)間-合規(guī)率
指標(biāo)要求:投產(chǎn)時(shí)間不得大于當(dāng)前系統(tǒng)時(shí)間
路徑:市場(chǎng)交易-查詢(xún)功能-電廠(chǎng)檔案查詢(xún)
在圖3的真實(shí)業(yè)務(wù)系統(tǒng)中,經(jīng)過(guò)對(duì)業(yè)務(wù)數(shù)據(jù)的內(nèi)容進(jìn)行特征提取、構(gòu)建業(yè)務(wù)系統(tǒng)的狀態(tài)空間、劃分子空間、建立關(guān)聯(lián)模型庫(kù)后,基于關(guān)聯(lián)模型庫(kù)對(duì)數(shù)據(jù)質(zhì)量進(jìn)行分類(lèi),發(fā)現(xiàn)數(shù)據(jù)質(zhì)量不達(dá)標(biāo),觸發(fā)問(wèn)題字段定位,最終定位至投產(chǎn)時(shí)間字段。
如圖3真實(shí)業(yè)務(wù) 中,“投產(chǎn)時(shí)間”這一指標(biāo)要求,傳統(tǒng)數(shù)據(jù)質(zhì)量校驗(yàn)方式,需要業(yè)務(wù)人員梳理,并且提出指標(biāo)規(guī)則:投產(chǎn)時(shí)間不得大于當(dāng)前系統(tǒng)時(shí)間,然后一一設(shè)定相應(yīng)的校驗(yàn)規(guī)則進(jìn)行篩選排查。
采用基于貝葉斯的業(yè)務(wù)系統(tǒng)數(shù)據(jù)質(zhì)量?jī)?yōu)化方法后,則無(wú)需業(yè)務(wù)人員人工一一梳理諸如這類(lèi)非業(yè)務(wù)規(guī)則的基本系統(tǒng)性數(shù)據(jù)的數(shù)據(jù)質(zhì)量規(guī)則。而是對(duì)已有業(yè)務(wù)數(shù)據(jù)的內(nèi)容進(jìn)行特征提取、構(gòu)建業(yè)務(wù)系統(tǒng)的狀態(tài)空間、劃分子空間、建立關(guān)聯(lián)模型庫(kù)后,基于關(guān)聯(lián)模型庫(kù)對(duì)數(shù)據(jù)質(zhì)量進(jìn)行分類(lèi),發(fā)現(xiàn)數(shù)據(jù)質(zhì)量不達(dá)標(biāo),觸發(fā)問(wèn)題字段定位,最終定位至投產(chǎn)時(shí)間字段,進(jìn)一步地可提示業(yè)務(wù)人員主動(dòng)發(fā)現(xiàn)該系統(tǒng)性數(shù)據(jù)質(zhì)量規(guī)則。
本文介紹了一種基于貝葉斯網(wǎng)絡(luò),對(duì)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)字段和數(shù)據(jù)質(zhì)量分析結(jié)果建立關(guān)聯(lián)模型,并在數(shù)據(jù)生產(chǎn)過(guò)程中通過(guò)關(guān)聯(lián)模型自動(dòng)確定影響數(shù)據(jù)質(zhì)量的問(wèn)題字段的方法。同時(shí),本文將該方法實(shí)現(xiàn)成了具體的,可在實(shí)際業(yè)務(wù)系統(tǒng)中使用的模塊,通過(guò)實(shí)驗(yàn),證明了本文的方法能有效并自動(dòng)的定位影響數(shù)據(jù)質(zhì)量的問(wèn)題字段,從而優(yōu)化業(yè)務(wù)系統(tǒng)的數(shù)據(jù)質(zhì)量。
(項(xiàng)目資助:電力數(shù)據(jù)持續(xù)數(shù)據(jù)質(zhì)量監(jiān)視與輔助改善系統(tǒng)研發(fā) GDKJXM20161895(030600KK52160021)
參考文獻(xiàn)
[1] 韓京宇,徐立臻,董逸生.?dāng)?shù)據(jù)質(zhì)量研究綜述[J].計(jì)算機(jī)科學(xué),2008(2):1002-137X.
[2] 宗威,吳鋒.大數(shù)據(jù)時(shí)代下數(shù)據(jù)質(zhì)量的挑戰(zhàn)[J].西安交通大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2013(5):1008-245X.
[3] 王宏志.大數(shù)據(jù)質(zhì)量管理:問(wèn)題與研究進(jìn)展[J].科技導(dǎo)報(bào),2014(34):1000-7857.
[4] 王永才,宋才華.中間件技術(shù)在數(shù)據(jù)交換中的應(yīng)用研究[J].自動(dòng)化與儀器儀表,2015(11):1001-9227.
[5] 劉珊珊.信息時(shí)代電力企業(yè)統(tǒng)計(jì)工作中的問(wèn)題與對(duì)策分析[J].中國(guó)高新技術(shù)企業(yè),2017(12);1009-2374.
[6] 秦璇.電力統(tǒng)計(jì)數(shù)據(jù)的質(zhì)量評(píng)估及其異常檢測(cè)方法研究[J].長(zhǎng)沙理工大學(xué),2013.
[7] 馬亞南.電力系統(tǒng)異常數(shù)據(jù)的檢測(cè)辨識(shí)與修正探究[J].中國(guó)電業(yè)(技術(shù)版),2014(4):1002-1140.
[8] 常飛.基于實(shí)時(shí)數(shù)據(jù)的動(dòng)態(tài)異常檢測(cè)方法研究[D].天津理工大學(xué),2013.
[9] 李碩豪,張軍.貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)綜述[J].計(jì)算機(jī)應(yīng)用研究,2015(3):1001-3695.
[10] 張劍飛.貝葉斯網(wǎng)絡(luò)學(xué)習(xí)方法和算法研究[D].東北師范大學(xué),2005.
[11] 李小琳.面向智能數(shù)據(jù)處理的貝葉斯網(wǎng)絡(luò)研究與應(yīng)用[D].吉林大學(xué),2005.
[12] 白濤,陳衛(wèi)華,谷鵬飛.基于貝葉斯網(wǎng)的核安全級(jí)軟件可靠性評(píng)估初探[J].微型電腦應(yīng)用,2017(11):1007-757X.
[13] 王科欣,王勝利.基于貝葉斯網(wǎng)絡(luò)技術(shù)的軟件缺陷預(yù)測(cè)與故障診斷[J].微型電腦應(yīng)用,2009(11):1007-757X.
[14] 馬德仲.基于貝葉斯網(wǎng)絡(luò)和多源信息構(gòu)建可靠性分析模型方法研究[D].哈爾濱理工大學(xué),2015.
[15] 韓志朋.基于大規(guī)模貝葉斯網(wǎng)絡(luò)的醫(yī)療質(zhì)量數(shù)據(jù)挖掘研究[D].天津大學(xué),2012.