• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于貝葉斯網(wǎng)絡(luò)的業(yè)務(wù)系統(tǒng)數(shù)據(jù)質(zhì)量?jī)?yōu)化方法

      2018-05-22 07:24:45王永才龐偉林范婷
      微型電腦應(yīng)用 2018年5期
      關(guān)鍵詞:模型庫(kù)貝葉斯關(guān)聯(lián)

      王永才, 龐偉林, 范婷

      (佛山供電局信息中心, 佛山 528000)

      0 引言

      隨著大數(shù)據(jù)時(shí)代的到來(lái),大數(shù)據(jù)服務(wù)被廣泛運(yùn)用并對(duì)用戶(hù)生活質(zhì)量產(chǎn)生革命性的提升[1],越來(lái)越多的業(yè)務(wù)系統(tǒng)被用來(lái)處理、加工數(shù)據(jù)。經(jīng)常地,這些業(yè)務(wù)系統(tǒng)中存在大量源自人工錄入的數(shù)據(jù)。業(yè)務(wù)系統(tǒng)用戶(hù)界面層的校驗(yàn)往往只能保證數(shù)據(jù)在人工錄入的過(guò)程中數(shù)據(jù)格式的正確性,數(shù)據(jù)在錄入過(guò)程中內(nèi)容的錯(cuò)誤往往是不能被自動(dòng)檢查出來(lái)的,這些數(shù)據(jù)錄入時(shí)的錯(cuò)誤嚴(yán)重的影響了數(shù)據(jù)的質(zhì)量[2]。在真實(shí)的業(yè)務(wù)系統(tǒng)中,由專(zhuān)人對(duì)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)質(zhì)量進(jìn)行及時(shí)的人工監(jiān)控,找出錯(cuò)誤字段并進(jìn)行修改,是一項(xiàng)費(fèi)時(shí)費(fèi)力的工作[3-8]。因此,本文研究并提出了一種基于貝葉斯網(wǎng)絡(luò)的業(yè)務(wù)系統(tǒng)數(shù)據(jù)質(zhì)量?jī)?yōu)化方法。其主要思想是:讓經(jīng)貝葉斯網(wǎng)絡(luò)訓(xùn)練好的關(guān)聯(lián)模型庫(kù)對(duì)業(yè)務(wù)系統(tǒng)中的相關(guān)數(shù)據(jù)進(jìn)行分析,自動(dòng)定位錯(cuò)誤的數(shù)據(jù)字段。

      1 解決方案

      1.1 主要流程

      基于貝葉斯網(wǎng)絡(luò)[9、10]優(yōu)化業(yè)務(wù)系統(tǒng)數(shù)據(jù)質(zhì)量時(shí)生成關(guān)聯(lián)模型庫(kù)的主要過(guò)程,如圖1所示。

      圖1 基于貝葉斯網(wǎng)絡(luò)優(yōu)化業(yè)務(wù)系統(tǒng)數(shù)據(jù)質(zhì)量時(shí)生成關(guān)聯(lián)模型庫(kù)的主要過(guò)程

      (1) 對(duì)業(yè)務(wù)數(shù)據(jù)的內(nèi)容進(jìn)行特征提取,其中對(duì)于句子與段落使用基于依存句法分析的特征提取算法;(2) 分析業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)質(zhì)量分析結(jié)果和數(shù)據(jù)字段,構(gòu)建業(yè)務(wù)系統(tǒng)的狀態(tài)空間;在某些時(shí)間窗口下,對(duì)人工配置好的業(yè)務(wù)數(shù)據(jù)樣本的數(shù)據(jù)質(zhì)量分析結(jié)果和數(shù)據(jù)字段的數(shù)據(jù)進(jìn)行實(shí)時(shí)提取,并進(jìn)行統(tǒng)計(jì)分析;(3) 對(duì)業(yè)務(wù)數(shù)據(jù)的狀態(tài)空間進(jìn)行復(fù)雜度降維,使用第一步得到的數(shù)據(jù)將其劃分成數(shù)據(jù)字段關(guān)聯(lián)緊密的子空間;(4) 使用第一步得到的數(shù)據(jù),利用樹(shù)擴(kuò)展樸素貝葉斯結(jié)構(gòu)對(duì)劃分得到的每個(gè)系統(tǒng)子空間建立關(guān)聯(lián)模型并將關(guān)聯(lián)模型保存到關(guān)聯(lián)模型庫(kù)中;

      關(guān)聯(lián)模型庫(kù)在其建立好后也會(huì)發(fā)生改變,其改變的方法有兩種:(1) 跟蹤收集業(yè)務(wù)系統(tǒng)的歷史業(yè)務(wù)數(shù)據(jù),每經(jīng)過(guò)一定的時(shí)間依據(jù)這些歷史數(shù)據(jù)對(duì)關(guān)聯(lián)模型庫(kù)按圖1的流程進(jìn)行重建;(2) 手動(dòng)輸入業(yè)務(wù)系統(tǒng)數(shù)據(jù)樣本并按圖1的流程重建關(guān)聯(lián)模型庫(kù)。

      基于貝葉斯網(wǎng)絡(luò)的業(yè)務(wù)系統(tǒng)數(shù)據(jù)質(zhì)量?jī)?yōu)化的主要流程[11、12],如圖2所示。

      圖2 基于貝葉斯的業(yè)務(wù)系統(tǒng)數(shù)據(jù)質(zhì)量?jī)?yōu)化的主要流程

      (1) 輸入一條業(yè)務(wù)數(shù)據(jù);(2) 對(duì)業(yè)務(wù)數(shù)據(jù)的各個(gè)字段進(jìn)行特征提??;(3) 基于關(guān)聯(lián)模型庫(kù)對(duì)數(shù)據(jù)質(zhì)量進(jìn)行分類(lèi);(4) 在數(shù)據(jù)質(zhì)量不達(dá)標(biāo)時(shí),觸發(fā)問(wèn)題字段定位,并修改問(wèn)題字段。

      1.2 業(yè)務(wù)數(shù)據(jù)的特征提取

      業(yè)務(wù)系統(tǒng)中存在各種類(lèi)型的數(shù)據(jù)字段,有數(shù)字、日期、詞語(yǔ)、短語(yǔ)等結(jié)構(gòu)簡(jiǎn)單的字段,也有句子、段落等結(jié)構(gòu)復(fù)雜的字段。對(duì)于大多數(shù)的數(shù)據(jù)內(nèi)容,我們需要對(duì)其進(jìn)行特征提取后,再對(duì)提取后的特征進(jìn)行后續(xù)的計(jì)算。

      1.2.1 對(duì)簡(jiǎn)單結(jié)構(gòu)數(shù)據(jù)內(nèi)容的特征提取

      對(duì)于名稱(chēng)、時(shí)間、狀態(tài)等簡(jiǎn)單字段,我們可以直接將數(shù)據(jù)字段中的原始內(nèi)容作為其特征,或?qū)υ紨?shù)據(jù)內(nèi)容進(jìn)行簡(jiǎn)單的映射轉(zhuǎn)化后作為其特征。

      1.2.2 對(duì)短語(yǔ)的特征提取

      對(duì)于短語(yǔ),我們提取其中的名詞、代詞、數(shù)詞等實(shí)體詞作為其特征。

      1.2.3 對(duì)句子與段落的特征提取

      對(duì)于內(nèi)容為句子或段落的復(fù)雜文字的數(shù)據(jù)字段,根據(jù)詞頻提取文本特征或者直接將所有詞語(yǔ)我們基于依存句法分析對(duì)其進(jìn)行文本特征的提取,依存句法分析能夠通過(guò)分析語(yǔ)句中不同成分之間的關(guān)系來(lái)揭示句法結(jié)構(gòu)。

      語(yǔ)句是由核心詞、依存詞以及他們之間的關(guān)系組成的,句法關(guān)系類(lèi)型主要有:核心、主謂關(guān)系、獨(dú)立結(jié)構(gòu)、標(biāo)點(diǎn)、介賓關(guān)系、動(dòng)賓關(guān)系、間賓關(guān)系、前賓關(guān)系、定中關(guān)系、并列關(guān)系、兼語(yǔ)關(guān)系、狀中結(jié)構(gòu)、左附加關(guān)系、右附加關(guān)系、動(dòng)補(bǔ)結(jié)構(gòu)。

      基于依存句法分析的特征提取,在對(duì)句子進(jìn)行依存句法分析的基礎(chǔ)上,刪除附加關(guān)系、標(biāo)點(diǎn)、狀中結(jié)構(gòu)、介賓關(guān)系后,根據(jù)詞匯和句法成分之間的關(guān)系進(jìn)行句型匹配,從而對(duì)文本特征進(jìn)行快速提取。

      1.3 業(yè)務(wù)數(shù)據(jù)的分析和抽樣

      我們先對(duì)業(yè)務(wù)系統(tǒng)中的業(yè)務(wù)數(shù)據(jù)進(jìn)行分析,以獲得業(yè)務(wù)系統(tǒng)的數(shù)據(jù)質(zhì)量分析結(jié)果集合和數(shù)據(jù)字段集合,構(gòu)建業(yè)務(wù)數(shù)據(jù)的狀態(tài)空間。

      同時(shí),在某些時(shí)間窗口下,對(duì)人工配置好的業(yè)務(wù)數(shù)據(jù)樣本的數(shù)據(jù)質(zhì)量分析結(jié)果和數(shù)據(jù)字段內(nèi)容的進(jìn)行實(shí)時(shí)提取。

      我們對(duì)上述提取分析作如下的定義[13-15]:

      Space={quality, field}表示業(yè)務(wù)數(shù)據(jù)的狀態(tài)空間,該狀態(tài)空間由業(yè)務(wù)系統(tǒng)的數(shù)據(jù)質(zhì)量分析結(jié)果quality和數(shù)據(jù)字段field構(gòu)成;

      quality={σ1,σ2, …,σn}表示業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)質(zhì)量分析結(jié)果σ1,σ2, …,σn的集合;

      field={θ1,θ2, …,θm}表示業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)字段θ1,θ2, …,θm的集合;

      sample={Space1, Space2, …, Spacep}表示業(yè)務(wù)數(shù)據(jù)在p個(gè)不同的時(shí)間窗口下的狀態(tài)空間Space1, Space2, …, Spacep的集合;

      1.4 數(shù)據(jù)質(zhì)量分類(lèi)

      在對(duì)業(yè)務(wù)數(shù)據(jù)進(jìn)行分析與采樣后,基于樸素貝葉斯網(wǎng)絡(luò)的方法,使用人工配置好的業(yè)務(wù)數(shù)據(jù)訓(xùn)練樣本對(duì)分類(lèi)器進(jìn)行訓(xùn)練。貝葉斯網(wǎng)絡(luò)分類(lèi)器的輸入是業(yè)務(wù)數(shù)據(jù)各數(shù)據(jù)字段的特征,輸出是這條業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)質(zhì)量分析結(jié)果。

      1.5 狀態(tài)空間劃分

      當(dāng)接收到業(yè)務(wù)數(shù)據(jù)的狀態(tài)空間Space={quality, field}及相應(yīng)數(shù)據(jù)樣本后,假設(shè)數(shù)據(jù)質(zhì)量分析結(jié)果集合大小為n,數(shù)據(jù)字段集合大小為m。

      1.5.1 引入狀態(tài)空間劃分的意義

      如果直接建立m個(gè)數(shù)據(jù)字段與n個(gè)數(shù)據(jù)質(zhì)量分析結(jié)果之間的關(guān)聯(lián)模型會(huì)存在以下的問(wèn)題:(1) 業(yè)務(wù)數(shù)據(jù)中包含許多的數(shù)據(jù)字段,但不是每一個(gè)數(shù)據(jù)字段對(duì)每一個(gè)數(shù)據(jù)質(zhì)量分析結(jié)果都存在直接的影響。因此,在關(guān)聯(lián)模型中,并不是每個(gè)數(shù)據(jù)字段都應(yīng)該存在;(2) 若一個(gè)模型包含所有的數(shù)據(jù)字段,建模的時(shí)間復(fù)雜度及后續(xù)定位問(wèn)題字段的時(shí)間復(fù)雜度都會(huì)很大,定位問(wèn)題字段的準(zhǔn)確性也會(huì)受其影響;(3) 在數(shù)據(jù)字段數(shù)量m很大的情況下,許多數(shù)據(jù)字段的特征空間都很大,關(guān)聯(lián)模型的空間會(huì)呈指數(shù)級(jí)增長(zhǎng)。

      為解決上述三個(gè)問(wèn)題,本文將業(yè)務(wù)數(shù)據(jù)狀態(tài)空間劃分成多個(gè)狀態(tài)子空間,使得每個(gè)子空間中的數(shù)據(jù)字段彼此有較強(qiáng)的關(guān)聯(lián)性,而不同子空間中的數(shù)據(jù)字段之間沒(méi)有關(guān)聯(lián)性或只有較小的關(guān)聯(lián)性。

      1.5.2 狀態(tài)空間劃分算法

      如下定義狀態(tài)子空間:

      Sub_Space={η, Sub_field},其中η∈{yes, no},Sub_field?field。

      由于本文考慮的是數(shù)據(jù)質(zhì)量是否達(dá)標(biāo),因此本算法中狀態(tài)空間的劃分主要考慮對(duì)數(shù)據(jù)字段field進(jìn)行劃分。為了使每個(gè)子空間中的數(shù)據(jù)字段彼此有較強(qiáng)的關(guān)聯(lián)性,而不同子空間中的數(shù)據(jù)字段之間沒(méi)有關(guān)聯(lián)性或只有較小的關(guān)聯(lián)性。本文采用互信息熵測(cè)量不同數(shù)據(jù)字段間的依賴(lài)程度。

      在已知變量Y的前提下,隨機(jī)變量X與Z之間的條件互信息熵定義,為式(1)。

      (1)

      X與Z之間的條件互信息越大,說(shuō)明在給定的觀(guān)測(cè)集Y條件下,X與Z之間的依賴(lài)性越大。

      對(duì)系統(tǒng)狀態(tài)空間進(jìn)行子空間劃分的過(guò)程如下:

      1.統(tǒng)計(jì)樣本數(shù)據(jù)sample={Space1, Space2, …, Spacep},表示業(yè)務(wù)數(shù)據(jù)在p個(gè)不同的時(shí)間窗口下的狀態(tài)空間Space1, Space2, …, Spacep的集合,得出P(θi,η),P(θi,η,θj),P(η)

      2.由式(1)計(jì)算Z[i][j]=I(θi,θj|η)

      3.找出Zij的最大值和最小值Zmax和Zmin

      4.為了使每個(gè)子空間中的數(shù)據(jù)字段彼此有較強(qiáng)的關(guān)聯(lián)性,而不同子空間中的數(shù)據(jù)字段之間沒(méi)有關(guān)聯(lián)性或只有較小的關(guān)聯(lián)性。故對(duì)數(shù)據(jù)字段field={θ1,θ2, …,θm}采用中心聚類(lèi)算法K-Mediods進(jìn)行劃分,定義兩個(gè)參數(shù)之間的距離為式(2)。

      (2)

      公式5首先把Zij標(biāo)準(zhǔn)到[0,1]范圍內(nèi),然后取余值得到距離函數(shù)。

      5.利用中心聚類(lèi)算法K-Mediods對(duì)數(shù)據(jù)字段空間中的數(shù)據(jù)字段進(jìn)行聚類(lèi):初始時(shí)隨機(jī)選擇k個(gè)數(shù)據(jù)字段作為中心點(diǎn),每輪迭代過(guò)程中,將空間中其他的點(diǎn)與這k個(gè)中心點(diǎn)的距離大小進(jìn)行比較,將其與距離最小的中心點(diǎn)歸為一類(lèi)。然后更新每個(gè)聚類(lèi)的中心點(diǎn),使得每類(lèi)中的平均距離最短。當(dāng)?shù)^(guò)一定的輪數(shù)或目標(biāo)函數(shù)J收斂時(shí)停止迭代。目標(biāo)函數(shù)J為

      其中ej表示第j(1≦j≦k)個(gè)分類(lèi)中重新計(jì)算得到的中心點(diǎn),總共有k個(gè)聚類(lèi)中心,Nj表示第j類(lèi)中點(diǎn)的個(gè)數(shù),J表示所有分類(lèi)中每個(gè)點(diǎn)與中心點(diǎn)距離差的總和。為了控制每個(gè)子空間中數(shù)據(jù)字段的個(gè)數(shù),將聚類(lèi)中心個(gè)數(shù)設(shè)置為k=m/l,其中m為數(shù)據(jù)字段的總個(gè)數(shù),l是指每個(gè)子空間中數(shù)據(jù)字段的個(gè)數(shù)不能超過(guò)l。

      6.劃分后的子空間為Sub_Spacei={η, Sub_fieldi},其中Sub_fieldi是那些在中心聚類(lèi)算法K-Mediods中被分到同一個(gè)類(lèi)的數(shù)據(jù)字段。設(shè)其中心點(diǎn)為ei。若ei與η的互信息熵I(ei;η)小于閾值Influence,則將子空間Sub_Spacei丟棄。則最終得到的子空間為Sub_Space1, Sub_Space2, …, Sub_Spacek,其中k為最終子空間的總數(shù)。

      1.6 基于貝葉斯網(wǎng)絡(luò)的關(guān)聯(lián)模型建立

      對(duì)劃分好的子空間分別建立基于貝葉斯網(wǎng)絡(luò)的關(guān)聯(lián)模型,從而定位影響業(yè)務(wù)數(shù)據(jù)質(zhì)量的問(wèn)題字段。

      1.6.1 貝葉斯網(wǎng)絡(luò)的定義及優(yōu)點(diǎn)

      貝葉斯網(wǎng)絡(luò)是一種基于概率推理的有向無(wú)環(huán)圖,可以將變量之間的依賴(lài)關(guān)系表示成一個(gè)網(wǎng)絡(luò)結(jié)構(gòu),適用于不確定知識(shí)的表達(dá)和推理。令U={x1,x2, …,xn}表示一組變量,貝葉斯網(wǎng)絡(luò)由兩部分組成:(1) 表示條件獨(dú)立性信息的網(wǎng)絡(luò)結(jié)構(gòu),網(wǎng)絡(luò)結(jié)構(gòu)中每一個(gè)節(jié)點(diǎn)表示一個(gè)變量xi,節(jié)點(diǎn)之間的有向弧表示變量之間的依賴(lài)或者因果關(guān)系,有向邊的箭頭表示關(guān)系影響的方向性;(2) 一組概率分布表Bp={p(u|pa(u)) |u∈U},其中pa(u)表示貝葉斯結(jié)構(gòu)變量u的父節(jié)點(diǎn)。每個(gè)節(jié)點(diǎn)附有與該變量相聯(lián)系的條件概率分布函數(shù),表示了子節(jié)點(diǎn)與其父節(jié)點(diǎn)之間的關(guān)聯(lián)強(qiáng)度或者置信度,沒(méi)有父節(jié)點(diǎn)的話(huà)則為先驗(yàn)概率。

      貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)具有如下的優(yōu)點(diǎn):

      1) 隨著業(yè)務(wù)系統(tǒng)的不斷運(yùn)行,收集到的數(shù)據(jù)樣本能用來(lái)修正貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)及更新其上的概率參數(shù);

      2) 專(zhuān)家知識(shí)和實(shí)踐經(jīng)驗(yàn)?zāi)苋谌氲截惾~斯網(wǎng)絡(luò)的先驗(yàn)知識(shí)中,使模型能更加準(zhǔn)確的描述問(wèn)題;

      3) 貝葉斯網(wǎng)絡(luò)能從結(jié)果尋求原因,對(duì)問(wèn)題進(jìn)行診斷;

      故本文采用貝葉斯網(wǎng)絡(luò)建立關(guān)聯(lián)模型。

      1.6.2 關(guān)聯(lián)模型建立算法

      關(guān)聯(lián)模型建立算法是對(duì)Friedman提出的TAN方法的擴(kuò)展,具體步驟如下:

      1) 對(duì)2.2節(jié)的每一個(gè)狀態(tài)子空間Sub_Spacei={η, Sub_fieldi},用公式4計(jì)算Sub_fieldi-{eh}中每對(duì)數(shù)據(jù)字段的條件互信息值Zij=I(θi,θj|η);Zij已在2.2節(jié)中被計(jì)算出來(lái)。

      2) 對(duì)Sub_fieldi中的變量建立完全無(wú)向圖,Zij作為節(jié)點(diǎn)θi和θj間的邊的權(quán)值。

      3) 對(duì)上一步生成的完全無(wú)向圖求最大權(quán)生成樹(shù),并根據(jù)端點(diǎn)的條件信息熵大小確定無(wú)向邊的方向,如下面公式所示,其中Ni表示與θi之間存在邊的參數(shù)個(gè)數(shù),若Avgi>Avgj,則θi與θj之間的邊從θi指向θj

      4) 添加eh到生成樹(shù),并添加由eh到每個(gè)節(jié)點(diǎn)的有向邊,然后增加η結(jié)點(diǎn),并添加η到每個(gè)節(jié)點(diǎn)的有向邊。

      至此貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)已初步建立,但概率分布表還沒(méi)給出。對(duì)已輸入的業(yè)務(wù)數(shù)據(jù)樣本sample={Space1, Space2, …, Spacep}進(jìn)行統(tǒng)計(jì),就可計(jì)算出子節(jié)點(diǎn)與其父節(jié)點(diǎn)之間的關(guān)聯(lián)強(qiáng)度P(θi|pa(θi)),對(duì)那些沒(méi)有父節(jié)點(diǎn)的節(jié)點(diǎn),也可通過(guò)對(duì)已輸入的業(yè)務(wù)系統(tǒng)樣本進(jìn)行統(tǒng)計(jì)得出先驗(yàn)概率。

      關(guān)聯(lián)模型已建立完成,將這些關(guān)聯(lián)模型放入關(guān)聯(lián)模型庫(kù)中等待實(shí)際使用。

      1.7 問(wèn)題字段定位

      使用貝葉斯網(wǎng)絡(luò)最大的好處是能夠從結(jié)果出發(fā),找出原因,從而解決問(wèn)題。如圖2.1.2,在業(yè)務(wù)系統(tǒng)數(shù)據(jù)質(zhì)量不達(dá)標(biāo)時(shí),即η=no,將此時(shí)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)字段的狀態(tài)發(fā)送給關(guān)聯(lián)模型庫(kù),利用關(guān)聯(lián)模型庫(kù)對(duì)業(yè)務(wù)系統(tǒng)中的參數(shù)進(jìn)行診斷,得到對(duì)η=no影響最大的問(wèn)題字段Θ,并將這些參數(shù)發(fā)送給管理員,管理員調(diào)整這些參數(shù)從而使業(yè)務(wù)系統(tǒng)的數(shù)據(jù)質(zhì)量達(dá)標(biāo)。

      1.7.1 問(wèn)題字段定位算法

      由貝葉斯網(wǎng)絡(luò)的概率鏈公式,對(duì)每個(gè)子空間Sub_Spacei,均有式(3)。

      (3)

      當(dāng)業(yè)務(wù)系統(tǒng)數(shù)據(jù)質(zhì)量不達(dá)標(biāo)時(shí),即式(4)

      P(η=no|Sub_parameteri)>P(η=yes|Sub_parameteri)

      (4)

      由貝葉斯網(wǎng)絡(luò)推理公式

      P(η=no|Sub_pari)P(Sub_pari)>P(η=yes|Sub_pari)P(Sub_pari)P(Sub_pari|η=no)P(η=no)>P(Sub_pari|η=yes)P(η=yes)

      代入公式6

      對(duì)于每個(gè)數(shù)據(jù)字段θj,當(dāng)P(θj|pa(θj),η=no比P(θj|pa(θj),η=yes越大時(shí),則業(yè)務(wù)系統(tǒng)數(shù)據(jù)質(zhì)量不達(dá)標(biāo)的可能性越大,θj成為問(wèn)題字段的可能性也越大。

      故令Score(θj)=P(θj|pa(θj),η=no)/P(θj|pa(θj),η=yes),計(jì)算每個(gè)子空間Sub_Spacei中的每個(gè)數(shù)據(jù)字段θj的Score(θj)值,并選取Score(θj)最大的p個(gè)變量作為問(wèn)題字段Θ,輸出,修改問(wèn)題字段使數(shù)據(jù)質(zhì)量重新達(dá)標(biāo)。

      2 實(shí)例驗(yàn)證

      某電網(wǎng)營(yíng)銷(xiāo)管理系統(tǒng),如圖3所示。

      圖3 某電力企業(yè)實(shí)際系統(tǒng)的業(yè)務(wù)系統(tǒng)實(shí)例

      指標(biāo)名稱(chēng):購(gòu)電檔案=基礎(chǔ)信息=規(guī)范性=電廠(chǎng)輔助信息=投產(chǎn)時(shí)間-合規(guī)率

      指標(biāo)要求:投產(chǎn)時(shí)間不得大于當(dāng)前系統(tǒng)時(shí)間

      路徑:市場(chǎng)交易-查詢(xún)功能-電廠(chǎng)檔案查詢(xún)

      在圖3的真實(shí)業(yè)務(wù)系統(tǒng)中,經(jīng)過(guò)對(duì)業(yè)務(wù)數(shù)據(jù)的內(nèi)容進(jìn)行特征提取、構(gòu)建業(yè)務(wù)系統(tǒng)的狀態(tài)空間、劃分子空間、建立關(guān)聯(lián)模型庫(kù)后,基于關(guān)聯(lián)模型庫(kù)對(duì)數(shù)據(jù)質(zhì)量進(jìn)行分類(lèi),發(fā)現(xiàn)數(shù)據(jù)質(zhì)量不達(dá)標(biāo),觸發(fā)問(wèn)題字段定位,最終定位至投產(chǎn)時(shí)間字段。

      如圖3真實(shí)業(yè)務(wù) 中,“投產(chǎn)時(shí)間”這一指標(biāo)要求,傳統(tǒng)數(shù)據(jù)質(zhì)量校驗(yàn)方式,需要業(yè)務(wù)人員梳理,并且提出指標(biāo)規(guī)則:投產(chǎn)時(shí)間不得大于當(dāng)前系統(tǒng)時(shí)間,然后一一設(shè)定相應(yīng)的校驗(yàn)規(guī)則進(jìn)行篩選排查。

      采用基于貝葉斯的業(yè)務(wù)系統(tǒng)數(shù)據(jù)質(zhì)量?jī)?yōu)化方法后,則無(wú)需業(yè)務(wù)人員人工一一梳理諸如這類(lèi)非業(yè)務(wù)規(guī)則的基本系統(tǒng)性數(shù)據(jù)的數(shù)據(jù)質(zhì)量規(guī)則。而是對(duì)已有業(yè)務(wù)數(shù)據(jù)的內(nèi)容進(jìn)行特征提取、構(gòu)建業(yè)務(wù)系統(tǒng)的狀態(tài)空間、劃分子空間、建立關(guān)聯(lián)模型庫(kù)后,基于關(guān)聯(lián)模型庫(kù)對(duì)數(shù)據(jù)質(zhì)量進(jìn)行分類(lèi),發(fā)現(xiàn)數(shù)據(jù)質(zhì)量不達(dá)標(biāo),觸發(fā)問(wèn)題字段定位,最終定位至投產(chǎn)時(shí)間字段,進(jìn)一步地可提示業(yè)務(wù)人員主動(dòng)發(fā)現(xiàn)該系統(tǒng)性數(shù)據(jù)質(zhì)量規(guī)則。

      3 總結(jié)

      本文介紹了一種基于貝葉斯網(wǎng)絡(luò),對(duì)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)字段和數(shù)據(jù)質(zhì)量分析結(jié)果建立關(guān)聯(lián)模型,并在數(shù)據(jù)生產(chǎn)過(guò)程中通過(guò)關(guān)聯(lián)模型自動(dòng)確定影響數(shù)據(jù)質(zhì)量的問(wèn)題字段的方法。同時(shí),本文將該方法實(shí)現(xiàn)成了具體的,可在實(shí)際業(yè)務(wù)系統(tǒng)中使用的模塊,通過(guò)實(shí)驗(yàn),證明了本文的方法能有效并自動(dòng)的定位影響數(shù)據(jù)質(zhì)量的問(wèn)題字段,從而優(yōu)化業(yè)務(wù)系統(tǒng)的數(shù)據(jù)質(zhì)量。

      (項(xiàng)目資助:電力數(shù)據(jù)持續(xù)數(shù)據(jù)質(zhì)量監(jiān)視與輔助改善系統(tǒng)研發(fā) GDKJXM20161895(030600KK52160021)

      參考文獻(xiàn)

      [1] 韓京宇,徐立臻,董逸生.?dāng)?shù)據(jù)質(zhì)量研究綜述[J].計(jì)算機(jī)科學(xué),2008(2):1002-137X.

      [2] 宗威,吳鋒.大數(shù)據(jù)時(shí)代下數(shù)據(jù)質(zhì)量的挑戰(zhàn)[J].西安交通大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2013(5):1008-245X.

      [3] 王宏志.大數(shù)據(jù)質(zhì)量管理:問(wèn)題與研究進(jìn)展[J].科技導(dǎo)報(bào),2014(34):1000-7857.

      [4] 王永才,宋才華.中間件技術(shù)在數(shù)據(jù)交換中的應(yīng)用研究[J].自動(dòng)化與儀器儀表,2015(11):1001-9227.

      [5] 劉珊珊.信息時(shí)代電力企業(yè)統(tǒng)計(jì)工作中的問(wèn)題與對(duì)策分析[J].中國(guó)高新技術(shù)企業(yè),2017(12);1009-2374.

      [6] 秦璇.電力統(tǒng)計(jì)數(shù)據(jù)的質(zhì)量評(píng)估及其異常檢測(cè)方法研究[J].長(zhǎng)沙理工大學(xué),2013.

      [7] 馬亞南.電力系統(tǒng)異常數(shù)據(jù)的檢測(cè)辨識(shí)與修正探究[J].中國(guó)電業(yè)(技術(shù)版),2014(4):1002-1140.

      [8] 常飛.基于實(shí)時(shí)數(shù)據(jù)的動(dòng)態(tài)異常檢測(cè)方法研究[D].天津理工大學(xué),2013.

      [9] 李碩豪,張軍.貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)綜述[J].計(jì)算機(jī)應(yīng)用研究,2015(3):1001-3695.

      [10] 張劍飛.貝葉斯網(wǎng)絡(luò)學(xué)習(xí)方法和算法研究[D].東北師范大學(xué),2005.

      [11] 李小琳.面向智能數(shù)據(jù)處理的貝葉斯網(wǎng)絡(luò)研究與應(yīng)用[D].吉林大學(xué),2005.

      [12] 白濤,陳衛(wèi)華,谷鵬飛.基于貝葉斯網(wǎng)的核安全級(jí)軟件可靠性評(píng)估初探[J].微型電腦應(yīng)用,2017(11):1007-757X.

      [13] 王科欣,王勝利.基于貝葉斯網(wǎng)絡(luò)技術(shù)的軟件缺陷預(yù)測(cè)與故障診斷[J].微型電腦應(yīng)用,2009(11):1007-757X.

      [14] 馬德仲.基于貝葉斯網(wǎng)絡(luò)和多源信息構(gòu)建可靠性分析模型方法研究[D].哈爾濱理工大學(xué),2015.

      [15] 韓志朋.基于大規(guī)模貝葉斯網(wǎng)絡(luò)的醫(yī)療質(zhì)量數(shù)據(jù)挖掘研究[D].天津大學(xué),2012.

      猜你喜歡
      模型庫(kù)貝葉斯關(guān)聯(lián)
      “一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
      奇趣搭配
      貝葉斯公式及其應(yīng)用
      智趣
      讀者(2017年5期)2017-02-15 18:04:18
      基于貝葉斯估計(jì)的軌道占用識(shí)別方法
      一種基于貝葉斯壓縮感知的說(shuō)話(huà)人識(shí)別方法
      電子器件(2015年5期)2015-12-29 08:43:15
      基于模型庫(kù)系統(tǒng)的金融體系流動(dòng)性風(fēng)險(xiǎn)預(yù)警機(jī)制研究
      基于模型庫(kù)系統(tǒng)的金融體系流動(dòng)性風(fēng)險(xiǎn)預(yù)警機(jī)制研究
      基于模型庫(kù)的現(xiàn)代成本會(huì)計(jì)計(jì)量系統(tǒng)研究
      IIRCT下負(fù)二項(xiàng)分布參數(shù)多變點(diǎn)的貝葉斯估計(jì)
      长子县| 英吉沙县| 吉水县| 溧阳市| 九龙城区| 吉木萨尔县| 勐海县| 安岳县| 互助| 东台市| 上虞市| 沧源| 大同市| 会泽县| 肃北| 湖南省| 丹棱县| 澜沧| 屏东县| 栾川县| 同心县| 定日县| 东辽县| 来安县| 昭苏县| 麟游县| 乐至县| 丽江市| 兴仁县| 文昌市| 琼海市| 济阳县| 高安市| 淳安县| 南澳县| 彩票| 永宁县| 乌鲁木齐市| 呼伦贝尔市| 铁力市| 新安县|