• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      通用數(shù)據(jù)質(zhì)量評(píng)估模型及本體實(shí)現(xiàn)

      2018-06-08 01:43:03張曉冉
      關(guān)鍵詞:數(shù)據(jù)項(xiàng)本體約束

      張曉冉 袁 滿(mǎn)

      (東北石油大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院 黑龍江大慶 163318) (xiaoran9217@163.com)

      隨著信息技術(shù)的發(fā)展,數(shù)據(jù)作為企業(yè)的重要資產(chǎn),對(duì)生產(chǎn)經(jīng)營(yíng)、科學(xué)研究以及管理和決策等起著重要的作用.即使有良好設(shè)計(jì)和規(guī)劃的信息系統(tǒng)也不能保證存放數(shù)據(jù)的質(zhì)量都能滿(mǎn)足用戶(hù)的要求.用戶(hù)錄入錯(cuò)誤、企業(yè)合并以及企業(yè)環(huán)境隨著時(shí)間的推移而改變,這些都會(huì)影響所存放數(shù)據(jù)的質(zhì)量[1].數(shù)據(jù)質(zhì)量對(duì)于企業(yè)戰(zhàn)略決策至關(guān)重要,因此數(shù)據(jù)質(zhì)量的檢測(cè)與數(shù)據(jù)質(zhì)量的評(píng)估顯得越來(lái)越重要,對(duì)數(shù)據(jù)質(zhì)量評(píng)估模型的要求也更加迫切.

      數(shù)據(jù)質(zhì)量評(píng)估模型的研究由來(lái)已久,文獻(xiàn)[2]早期提出了基于屬性的數(shù)據(jù)質(zhì)量評(píng)估模型,但缺少定量的系統(tǒng)方法.文獻(xiàn)[3]在文獻(xiàn)[2]的基礎(chǔ)之上提出了數(shù)據(jù)質(zhì)量評(píng)估模型,并闡述了構(gòu)造方法和計(jì)算方法.隨后,Parssian等人[4]于2004年提出了一套實(shí)用的數(shù)據(jù)質(zhì)量評(píng)估方法,但其選擇性假設(shè)導(dǎo)致了后續(xù)推導(dǎo)出的數(shù)據(jù)質(zhì)量評(píng)估公式存在問(wèn)題,隨后Debabrata等人[5]建立了屬性值的概率分布,對(duì)評(píng)估方法進(jìn)行了修正,盡管完善了數(shù)據(jù)質(zhì)量評(píng)估模型,但仍然存在不同屬性正確率不同的問(wèn)題.文獻(xiàn)[6]在文獻(xiàn)[4-5]的數(shù)據(jù)質(zhì)量評(píng)估模型基礎(chǔ)上,根據(jù)“不正確、不完整、非成員”3種錯(cuò)誤類(lèi)型來(lái)研究數(shù)據(jù)質(zhì)量評(píng)估,提出了基于單一屬性分布的數(shù)據(jù)質(zhì)量評(píng)估模型.文獻(xiàn)[7]根據(jù)電網(wǎng)統(tǒng)計(jì)數(shù)據(jù)的基本特征,從正確性、完整性、唯一性等7個(gè)方面進(jìn)行質(zhì)量評(píng)估,在此基礎(chǔ)上構(gòu)建了一個(gè)基于云模型的統(tǒng)計(jì)數(shù)據(jù)質(zhì)量評(píng)估模型.文獻(xiàn)[8]建立了EM4ADOM評(píng)估模型,該模型從數(shù)據(jù)的可用性、安全性以及可用性和安全性的權(quán)衡3個(gè)方面綜合評(píng)估了匿名數(shù)據(jù)的質(zhì)量.文獻(xiàn)[9]提出了數(shù)據(jù)庫(kù)數(shù)據(jù)質(zhì)量評(píng)估模型,建立了一個(gè)數(shù)據(jù)質(zhì)量可視化分析系統(tǒng),但該模型是面向關(guān)系型數(shù)據(jù)的,對(duì)于非關(guān)系型數(shù)據(jù)沒(méi)有涉及.

      以上文獻(xiàn)中的評(píng)估模型均存在不同程度的不足:文獻(xiàn)[2]提出的評(píng)估模型缺少定量的系統(tǒng)方法;文獻(xiàn)[3]雖然在此基礎(chǔ)上補(bǔ)充了構(gòu)造方法和計(jì)算方法,并且在數(shù)據(jù)倉(cāng)庫(kù)源數(shù)據(jù)的質(zhì)量評(píng)估中得到成功應(yīng)用,但是仍缺少一定的通用性和擴(kuò)充性;文獻(xiàn)[6]雖然對(duì)文獻(xiàn)[4-5]進(jìn)行了改進(jìn),但是僅僅局限于單一屬性分布的數(shù)據(jù)質(zhì)量的評(píng)估,對(duì)于多屬性沒(méi)有涉及;文獻(xiàn)[7-8]都是針對(duì)某一領(lǐng)域的數(shù)據(jù)質(zhì)量問(wèn)題提出的評(píng)估模型,具有局限性;文獻(xiàn)[9]提出的數(shù)據(jù)質(zhì)量評(píng)估模型對(duì)于數(shù)據(jù)集中的數(shù)據(jù)類(lèi)型有限制.

      總的來(lái)看,筆者認(rèn)為當(dāng)前這些數(shù)據(jù)質(zhì)量評(píng)估模型在發(fā)展上呈現(xiàn)這樣一些特征:基本是從業(yè)務(wù)出發(fā)來(lái)構(gòu)建這些質(zhì)量模型,從不同的角度提出了多種多樣的數(shù)據(jù)質(zhì)量評(píng)估指標(biāo),這些指標(biāo)有相同之處,也有不同之處;它們的共性都是領(lǐng)域針對(duì)性強(qiáng),不具有通用性和擴(kuò)展性,除此之外,對(duì)評(píng)估的數(shù)據(jù)集來(lái)源多有限制.其實(shí),在進(jìn)行數(shù)據(jù)質(zhì)量研究與系統(tǒng)研發(fā)的過(guò)程中,完全可以撇開(kāi)不同行業(yè)的業(yè)務(wù),即忽略行業(yè)特點(diǎn),從數(shù)據(jù)質(zhì)量的實(shí)質(zhì)出發(fā),構(gòu)建一個(gè)通用的模型作為機(jī)構(gòu)進(jìn)行數(shù)據(jù)質(zhì)量研發(fā)的規(guī)范或標(biāo)準(zhǔn).這種通用的模型,不是指該模型對(duì)于不同的數(shù)據(jù)約束規(guī)則,數(shù)據(jù)集都適用,而是指任何數(shù)據(jù)約束規(guī)則,數(shù)據(jù)集都可以以此模型框架為基礎(chǔ),遵循該模型進(jìn)行擴(kuò)充,即模型框架通用,內(nèi)部的專(zhuān)業(yè)規(guī)則根據(jù)不同的專(zhuān)業(yè)需求進(jìn)行添加定制,數(shù)據(jù)集是評(píng)估時(shí)選擇的,通用模型以數(shù)據(jù)集為單位進(jìn)行評(píng)估,具體選取哪種數(shù)據(jù)集、依據(jù)什么規(guī)則評(píng)估,需要由企業(yè)依據(jù)通用模型進(jìn)行定制.

      目前,數(shù)據(jù)質(zhì)量面臨的難題和挑戰(zhàn)也是如何構(gòu)建這一通用的模型標(biāo)準(zhǔn).本體是對(duì)某一領(lǐng)域中公認(rèn)的概念知識(shí)的建模,本體模型和具體應(yīng)用是分開(kāi)的,因此本體適合解決數(shù)據(jù)質(zhì)量系統(tǒng)通用性評(píng)估的問(wèn)題,同時(shí)本體在語(yǔ)義上的表達(dá)能力,可以解決復(fù)雜約束規(guī)則的定義問(wèn)題.目前本體技術(shù)已被引入用來(lái)解決數(shù)據(jù)質(zhì)量問(wèn)題,文獻(xiàn)[10]實(shí)現(xiàn)了基于本體的數(shù)據(jù)清洗系統(tǒng)框架,解決了現(xiàn)有數(shù)據(jù)清洗研究中缺乏語(yǔ)義約束和不能支持自動(dòng)推理的問(wèn)題.因此采用本體技術(shù)是可行的.

      本文首先分析了數(shù)據(jù)質(zhì)量評(píng)估中涉及的相關(guān)要素,抽取并定義了一個(gè)通用的數(shù)據(jù)質(zhì)量評(píng)估數(shù)學(xué)模型,該模型是邏輯上的,具體的實(shí)現(xiàn)采用本體技術(shù),定義了從該通用的數(shù)據(jù)質(zhì)量評(píng)估數(shù)學(xué)模型到本體模型映射的轉(zhuǎn)換規(guī)則.考慮到目前,絕大多數(shù)機(jī)構(gòu)的數(shù)據(jù)存儲(chǔ)在關(guān)系數(shù)據(jù)庫(kù)中,所以以關(guān)系數(shù)據(jù)模型為例,依據(jù)所提出的數(shù)學(xué)模型和轉(zhuǎn)換規(guī)則實(shí)現(xiàn)了對(duì)數(shù)據(jù)質(zhì)量評(píng)估本體的抽取與構(gòu)建.最后,結(jié)合中國(guó)石油油田開(kāi)發(fā)數(shù)據(jù)進(jìn)行了原型系統(tǒng)的實(shí)現(xiàn),驗(yàn)證所提出模型的正確性、科學(xué)性、合理性以及可擴(kuò)充性等.

      1 數(shù)據(jù)質(zhì)量相關(guān)技術(shù)研究

      1.1 數(shù)據(jù)質(zhì)量概念

      數(shù)據(jù)質(zhì)量問(wèn)題及其研究由來(lái)已久,伴隨著信息技術(shù)發(fā)展而逐漸成為被廣泛關(guān)注的研究熱點(diǎn).目前對(duì)于數(shù)據(jù)質(zhì)量沒(méi)有一個(gè)明確的定義.文獻(xiàn)[11]認(rèn)為數(shù)據(jù)質(zhì)量是數(shù)據(jù)適合使用的程度(fit for use),這一定義被業(yè)界廣泛認(rèn)可.文獻(xiàn)[12]認(rèn)為數(shù)據(jù)質(zhì)量是數(shù)據(jù)滿(mǎn)足特定用戶(hù)期望的程度.國(guó)際標(biāo)準(zhǔn)化組織在ISO9000:2000《質(zhì)量管理體系基礎(chǔ)和術(shù)語(yǔ)》中將質(zhì)量定義成一組固有特性滿(mǎn)足要求的程度.

      1.2 數(shù)據(jù)質(zhì)量維度

      數(shù)據(jù)質(zhì)量維度為數(shù)據(jù)質(zhì)量的業(yè)務(wù)需求提供框架,對(duì)數(shù)據(jù)質(zhì)量維度進(jìn)行量化度量為數(shù)據(jù)質(zhì)量水平提供了實(shí)證.為了保持維度的有效性,維度的定義過(guò)程不能在管理的最后階段進(jìn)行,而是在數(shù)據(jù)質(zhì)量規(guī)劃設(shè)計(jì)的階段就要開(kāi)始[13].Wang等人[14]于1995年發(fā)表了一項(xiàng)關(guān)于數(shù)據(jù)質(zhì)量的調(diào)查,調(diào)查中提出用維度集來(lái)描述數(shù)據(jù)質(zhì)量.自此以后,其他學(xué)者也對(duì)質(zhì)量維度深入研究.Wand等人[15]基于信息系統(tǒng)模型提出了5個(gè)數(shù)據(jù)質(zhì)量維度:準(zhǔn)確性、完整性、一致性、及時(shí)性和可靠性[15].Strong等人[16]通過(guò)對(duì)數(shù)據(jù)質(zhì)量的179個(gè)特征進(jìn)行了深入調(diào)查,針對(duì)數(shù)據(jù)用戶(hù)需求,確定了15個(gè)常用質(zhì)量維度.Redeman[17]將數(shù)據(jù)質(zhì)量維度分為3類(lèi),分別是對(duì)應(yīng)的概念視圖數(shù)據(jù)、數(shù)據(jù)值和數(shù)據(jù)格式.文獻(xiàn)[18]提出了具體的數(shù)據(jù)質(zhì)量維度用來(lái)指導(dǎo)數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì).Bovee等人[19]將數(shù)據(jù)質(zhì)量定義成數(shù)據(jù)適合使用的程度,包括可訪(fǎng)問(wèn)性、可解釋性、相關(guān)性和可信度這4個(gè)維度.Naumann[20]為集成Web信息系統(tǒng)定義了4類(lèi)21個(gè)質(zhì)量維度.通過(guò)上述研究,正確性、完整性、一致性是被公認(rèn)的基本評(píng)價(jià)維度,定義如表1所示:

      Table 1 Data Quality Dimensions表1 數(shù)據(jù)質(zhì)量維度

      1.3 數(shù)據(jù)質(zhì)量約束規(guī)則

      為了進(jìn)一步的數(shù)據(jù)需求分析,采用約束規(guī)則的方式,對(duì)于每個(gè)維度進(jìn)行具體的量化分析,集中定義數(shù)據(jù)質(zhì)量維度包含的約束規(guī)則來(lái)驗(yàn)證數(shù)據(jù)來(lái)源系統(tǒng)質(zhì)量,確定數(shù)據(jù)的適用程度以此滿(mǎn)足業(yè)務(wù)需求.企業(yè)可以根據(jù)不同的質(zhì)量評(píng)估需求選取評(píng)估維度并制定相應(yīng)的約束規(guī)則.

      文獻(xiàn)[3]將數(shù)據(jù)質(zhì)量問(wèn)題分為模式層問(wèn)題和實(shí)例層問(wèn)題.模式層問(wèn)題主要是設(shè)計(jì)缺陷導(dǎo)致的,例如完整性約束、唯一性約束;實(shí)例層問(wèn)題主要是描述數(shù)據(jù)記錄方面的數(shù)據(jù)質(zhì)量問(wèn)題,例如數(shù)據(jù)缺失、數(shù)據(jù)重復(fù).文獻(xiàn)[25]又將數(shù)據(jù)質(zhì)量約束規(guī)則分為3類(lèi):數(shù)據(jù)項(xiàng)約束規(guī)則、跨列約束規(guī)則和交叉列約束規(guī)則.本文參照文獻(xiàn)[26],通過(guò)對(duì)數(shù)據(jù)質(zhì)量相關(guān)成果的研究和實(shí)際的需求將部分?jǐn)?shù)據(jù)質(zhì)量規(guī)則進(jìn)行定義并分類(lèi)如下,數(shù)據(jù)質(zhì)量維度與數(shù)據(jù)質(zhì)量約束規(guī)則及數(shù)據(jù)質(zhì)量問(wèn)題關(guān)系的映射如圖1所示.

      下面給出圖1中的8個(gè)約束規(guī)則的定義.

      Fig.1 Mapping between data quality dimensions and constraint rules and problems’ relation圖1 數(shù)據(jù)質(zhì)量維度與數(shù)據(jù)質(zhì)量約束規(guī)則及問(wèn)題關(guān)系映射圖

      定義1. 非空約束規(guī)則.數(shù)據(jù)項(xiàng)取值不能為空的約束.

      例如:在油田開(kāi)發(fā)領(lǐng)域,數(shù)據(jù)表DAA01中的數(shù)據(jù)項(xiàng)井號(hào)jh,它的取值不能為空值,即DAA01.jh≠null.

      定義2. 值域約束規(guī)則.數(shù)據(jù)項(xiàng)只能在規(guī)定的定義域內(nèi)取值.

      例如:在油田開(kāi)發(fā)領(lǐng)域,數(shù)據(jù)表DAA02中的數(shù)據(jù)項(xiàng)含水率hs,其值只能在[0,1]內(nèi)取,即hs∈[0,1].

      定義3. 邏輯依賴(lài)約束規(guī)則.在同一數(shù)據(jù)集中,一個(gè)數(shù)據(jù)項(xiàng)的值與另一個(gè)數(shù)據(jù)項(xiàng)的值滿(mǎn)足某種邏輯關(guān)系的約束.

      例如:在油田開(kāi)發(fā)領(lǐng)域,數(shù)據(jù)表DAA091中的數(shù)據(jù)項(xiàng)井段頂深jdds2的值必須小于數(shù)據(jù)項(xiàng)井段底深jdds1的值,即DAA091.jdds2

      定義4. 等值一致性約束規(guī)則.一個(gè)數(shù)據(jù)集中的數(shù)據(jù)項(xiàng)取值必須等于由另一個(gè)數(shù)據(jù)集中的一個(gè)或多個(gè)數(shù)據(jù)項(xiàng)的值按著指定算法計(jì)算得出值的約束.

      例如:在油田開(kāi)發(fā)領(lǐng)域,數(shù)據(jù)表DDA02中數(shù)據(jù)項(xiàng)四通高stg的值等于數(shù)據(jù)表DAA02中數(shù)據(jù)項(xiàng)套補(bǔ)距tbj的值減去DAA02中數(shù)據(jù)項(xiàng)油補(bǔ)距ybj值,即DAA02.stg=DAA02.tbj-DAA02.ybj.

      定義5. 存在一致性約束規(guī)則.是對(duì)數(shù)據(jù)集之間數(shù)據(jù)項(xiàng)數(shù)據(jù)存在關(guān)系進(jìn)行約束的規(guī)則,即一個(gè)數(shù)據(jù)集中的數(shù)據(jù)項(xiàng)必須在另一個(gè)數(shù)據(jù)集中的數(shù)據(jù)項(xiàng)上出現(xiàn).

      例如:在油田開(kāi)發(fā)領(lǐng)域,數(shù)據(jù)表DAA05中的數(shù)據(jù)項(xiàng)井號(hào)jh的取值與數(shù)據(jù)表CD_WELL_SOURCE中數(shù)據(jù)項(xiàng)井描述well_desc的值必須保持取值的一致性,即DAA05.jh=CD_WELL_SOURCE.well_dec.

      定義6. 邏輯一致性約束規(guī)則.是對(duì)數(shù)據(jù)集之間數(shù)據(jù)項(xiàng)數(shù)據(jù)滿(mǎn)足邏輯關(guān)系進(jìn)行的約束,即一個(gè)數(shù)據(jù)集中的數(shù)據(jù)項(xiàng)與另一個(gè)數(shù)據(jù)集中的數(shù)據(jù)項(xiàng)滿(mǎn)足某種邏輯關(guān)系.

      例如:在油田開(kāi)發(fā)領(lǐng)域,數(shù)據(jù)表DAA01中的數(shù)據(jù)項(xiàng)注水zs的值小于數(shù)據(jù)表DBA04中的數(shù)據(jù)項(xiàng)投產(chǎn)tc的值,即DAA01.zs

      定義7. 連續(xù)性約束規(guī)則.數(shù)據(jù)項(xiàng)的值必須保持取值連續(xù)性的約束.

      例如:在油田開(kāi)發(fā)領(lǐng)域,數(shù)據(jù)表DAA03中的數(shù)據(jù)項(xiàng)測(cè)點(diǎn)深度cdsd按主鍵分組,并且相鄰字段之間保持相同的間隔取值.

      定義8. 等值函數(shù)依賴(lài)約束規(guī)則.是對(duì)數(shù)據(jù)集內(nèi)部數(shù)據(jù)項(xiàng)上數(shù)據(jù)取值進(jìn)行約束的規(guī)則.在同一數(shù)據(jù)集中,數(shù)據(jù)項(xiàng)上的數(shù)據(jù)取值必須由其他數(shù)據(jù)項(xiàng)上的數(shù)據(jù)取值計(jì)算得出.

      例如:在油田開(kāi)發(fā)領(lǐng)域,數(shù)據(jù)表DAA02中的數(shù)據(jù)項(xiàng)壓井液密度yjymd的取值等于該表中的數(shù)據(jù)項(xiàng)固井液密度gjymd的值加1,即DAA02.yjymd=DAA02.gjymd+1.

      2 數(shù)據(jù)質(zhì)量評(píng)估數(shù)學(xué)模型及評(píng)估算法

      2.1 數(shù)據(jù)質(zhì)量評(píng)估數(shù)學(xué)模型定義

      通過(guò)第1節(jié)研究表明,數(shù)據(jù)質(zhì)量問(wèn)題是多方面多角度的,通過(guò)多維度指標(biāo)的共同作用反映數(shù)據(jù)質(zhì)量情況.在評(píng)估維度體系中,正確性、完整性、一致性和冗余性是被公認(rèn)的基本評(píng)價(jià)維度.

      我們撇開(kāi)領(lǐng)域業(yè)務(wù)自身的特點(diǎn),數(shù)據(jù)質(zhì)量模型是由被評(píng)估的數(shù)據(jù)集模式、維度集合、規(guī)則集合、評(píng)估實(shí)例集合、評(píng)估算法集合共同組成的復(fù)雜問(wèn)題,據(jù)此給出形式化定義:

      定義9. 數(shù)據(jù)質(zhì)量評(píng)估Assess.任何Assess都可以形式化為一個(gè)五元組,表示為

      Assess={S,D,R,I,A},

      其中,S為待評(píng)估的數(shù)據(jù)集模式;D為數(shù)據(jù)質(zhì)量維度(dimension)的集合;R為度包含規(guī)則(rule)的集合;I為評(píng)估數(shù)據(jù)實(shí)例(instance)的集合;A為數(shù)據(jù)質(zhì)量評(píng)估算法(algorithm)的集合.

      定義10. 待評(píng)估的數(shù)據(jù)集模式S.待評(píng)估的數(shù)據(jù)集的模式,可以是關(guān)系數(shù)據(jù)庫(kù)模式中的表或視圖,也可以是XML模式等.每個(gè)模式可以用實(shí)體、聯(lián)系進(jìn)行描述如下:

      S={entity,relation}.

      定義11. 實(shí)體(entity).客觀(guān)存在并且相互區(qū)別的事物稱(chēng)為實(shí)體.可以是具體事物,也可以是抽象概念.每個(gè)實(shí)體可以用名稱(chēng)、屬性、碼、域進(jìn)行描述如下:

      entity={ename,attribute,key,area}.

      定義12. 屬性(attribute).實(shí)體的某一特性為屬性,由屬性名、類(lèi)型、長(zhǎng)度組成,描述如下:

      attribute={attname,type,size}.

      定義13. 碼(key).唯一標(biāo)識(shí)實(shí)體的屬性集稱(chēng)為碼.

      定義14. 域(area).域是一組相同數(shù)據(jù)類(lèi)型的值的集合,屬性的取值范圍來(lái)自于域.這里的域可以通過(guò)設(shè)定屬性的類(lèi)型來(lái)限定,也可以是可枚舉的,例如area={a1,a2,…,an}.

      定義15. 聯(lián)系(relation).聯(lián)系包含實(shí)體內(nèi)部的聯(lián)系和實(shí)體之間的聯(lián)系.描述如下:

      relation={〈entity1,entity2〉,rname,rkind},

      其中,rname是聯(lián)系的名稱(chēng);rkind指聯(lián)系的類(lèi)型,即實(shí)體內(nèi)部的聯(lián)系和實(shí)體之間的聯(lián)系.

      定義16. 維度集合D.包含多個(gè)評(píng)估維度的集合,描述如下:

      D={dimi|define(dimi),1

      其中,define(dimi)是對(duì)評(píng)估維度dimi的定義.

      定義17. 規(guī)則集合R.每個(gè)評(píng)估維度所包含規(guī)則的集合,描述如下:

      R={〈dimi,rulej〉|define(rulej),
      1≤i≤p,1≤j≤q},

      其中,define(rulej)是對(duì)某一評(píng)估維度包含的約束規(guī)則的定義.每個(gè)維度包含多個(gè)約束規(guī)則.

      定義18. 評(píng)估數(shù)據(jù)實(shí)例集合I.由評(píng)估實(shí)例記錄構(gòu)成的集合,描述如下:

      I={insi|define(insi),1≤i≤n},

      其中define(insi)是對(duì)評(píng)估實(shí)例的定義.

      定義19. 評(píng)估算法集合A.由評(píng)估算法構(gòu)成的集合,描述如下:

      A={algi|define(algi),1≤i≤n},

      其中,define(algi)是對(duì)評(píng)估算法的定義.

      2.2 數(shù)據(jù)質(zhì)量評(píng)估流程算法

      企業(yè)進(jìn)行數(shù)據(jù)質(zhì)量評(píng)估主要經(jīng)過(guò)4個(gè)步驟:確定評(píng)估數(shù)據(jù)集模式S;遍歷維度集選定評(píng)估維度D;遍歷規(guī)則集R,在實(shí)例集I上對(duì)規(guī)則進(jìn)行檢查;將違反這些規(guī)則的記錄存儲(chǔ)在errordata中.最后通過(guò)數(shù)據(jù)質(zhì)量評(píng)估算法集A,計(jì)算各維度指標(biāo)的質(zhì)量.數(shù)據(jù)質(zhì)量評(píng)估流程算法的偽代碼如算法1所示.

      算法1. 數(shù)據(jù)質(zhì)量評(píng)估流程算法.

      輸入:D,R,I,A;

      輸出:errordata.

      ① if (D=null‖R=null‖I=null)

      ② 返回空值;

      ③ end if

      ④ for 每一行D

      for 每一行R

      if (存在規(guī)則)

      ⑤ 在實(shí)例集I上對(duì)規(guī)則進(jìn)行檢查,將違反規(guī)則的記錄存入errordata;

      ⑥ else

      ⑦ 返回空值;

      ⑧ end if

      ⑨ end for

      ⑩ end for

      2.3 數(shù)據(jù)質(zhì)量評(píng)估算法

      數(shù)據(jù)質(zhì)量評(píng)估算法用于數(shù)據(jù)質(zhì)量評(píng)估維度的計(jì)算,是數(shù)據(jù)質(zhì)量評(píng)估的基本單位.本文以作者研發(fā)的《SYT7005-2014數(shù)據(jù)質(zhì)量控制與評(píng)估原則》——石油天然氣行業(yè)標(biāo)準(zhǔn),作為依據(jù)給出數(shù)據(jù)質(zhì)量評(píng)估算法,本文以準(zhǔn)確性評(píng)估算法為例,具體的數(shù)據(jù)質(zhì)量評(píng)估指標(biāo)概念如下:

      1) 問(wèn)題分類(lèi)數(shù).在對(duì)一個(gè)數(shù)據(jù)集進(jìn)行質(zhì)量評(píng)估時(shí),出現(xiàn)違反數(shù)據(jù)質(zhì)量元素中約束規(guī)則種類(lèi)的數(shù)量,記作Sq.

      2) 問(wèn)題記錄數(shù).在對(duì)一個(gè)數(shù)據(jù)集進(jìn)行質(zhì)量評(píng)估時(shí),存在違反數(shù)據(jù)質(zhì)量元素中約束規(guī)則的記錄個(gè)數(shù),同一條記錄出現(xiàn)多個(gè)違反約束規(guī)則的不重復(fù)計(jì)算,記作Rq.

      3) 問(wèn)題數(shù)據(jù)數(shù).在對(duì)一個(gè)數(shù)據(jù)集進(jìn)行質(zhì)量評(píng)估時(shí),存在違反數(shù)據(jù)質(zhì)量元素中約束規(guī)則的記錄個(gè)數(shù),同一條記錄出現(xiàn)多個(gè)違反約束規(guī)則的重復(fù)計(jì)算,記作Dq.

      4) 問(wèn)題數(shù)據(jù)項(xiàng)個(gè)數(shù).在對(duì)一個(gè)數(shù)據(jù)集進(jìn)行質(zhì)量評(píng)估時(shí),出現(xiàn)違反數(shù)據(jù)質(zhì)量元素中約束規(guī)則的數(shù)據(jù)項(xiàng)個(gè)數(shù),一個(gè)屬性違反多個(gè)約束規(guī)則不重復(fù)計(jì)算,記作Cq.

      5) 缺少數(shù)據(jù)項(xiàng)個(gè)數(shù).一個(gè)數(shù)據(jù)集元數(shù)據(jù)定義數(shù)據(jù)項(xiàng)個(gè)數(shù)與實(shí)際數(shù)據(jù)項(xiàng)個(gè)數(shù)的差,記作Cs.

      準(zhǔn)確性的評(píng)估包括:?jiǎn)栴}分類(lèi)數(shù)Sq、問(wèn)題記錄數(shù)Rq、問(wèn)題數(shù)據(jù)數(shù)Dq、問(wèn)題數(shù)據(jù)項(xiàng)個(gè)數(shù)Cq、缺少數(shù)據(jù)項(xiàng)個(gè)數(shù)Cs.

      設(shè)Cr為數(shù)據(jù)集的記錄數(shù),Cqd為元數(shù)據(jù)定義數(shù)據(jù)項(xiàng)個(gè)數(shù),數(shù)據(jù)準(zhǔn)確性為

      其他評(píng)估維度算法詳見(jiàn)文獻(xiàn)[27].

      3 通用數(shù)據(jù)質(zhì)量評(píng)估本體構(gòu)建

      3.1 本體基本概念

      本體最早源于哲學(xué)范疇,隨著信息技術(shù)的發(fā)展被賦予了新的意義.Gruber[27]給出了業(yè)界廣泛接受的本體定義,即“本體是概念模型的明確的規(guī)范化說(shuō)明”.本體描述了實(shí)體之間概念的聯(lián)系,本體的目標(biāo)是將某個(gè)具體領(lǐng)域的概念整合起來(lái),確定該領(lǐng)域公認(rèn)詞匯,對(duì)詞匯和詞匯之間的關(guān)系給出形式化、規(guī)范化的定義.目前對(duì)于本體構(gòu)建沒(méi)有一個(gè)明確的規(guī)范和標(biāo)準(zhǔn),1995年Gruber提出的5條準(zhǔn)則被廣泛接受:明確性和客觀(guān)性、完全性、一致性、最大單調(diào)可擴(kuò)展性、最小承諾和最小編碼偏好.國(guó)外幾種重要的本體構(gòu)建方法有IDEF5、骨架法、企業(yè)建模法、METHONTOLOGY、循環(huán)獲取法、5步循環(huán)法等.2002年,文獻(xiàn)[28]中提到Stojanovic等人通過(guò)考察給出了一組從關(guān)系模型到本體的映射規(guī)則,基于這些規(guī)則能夠直接得到一個(gè)候選本體,然后可以進(jìn)一步對(duì)該候選本體進(jìn)行評(píng)價(jià)和精煉,生成最終的本體.本文依照映射規(guī)則思想,在對(duì)本體技術(shù)進(jìn)行充分研究的基礎(chǔ)之上,從上述的質(zhì)量評(píng)估數(shù)學(xué)模型出發(fā),提出了從數(shù)學(xué)模型向本體模型轉(zhuǎn)換的映射規(guī)則,抽取概念及其關(guān)系構(gòu)建數(shù)據(jù)質(zhì)量評(píng)估的知識(shí)本體.

      3.2 數(shù)據(jù)模型向本體模型轉(zhuǎn)換的映射規(guī)則

      本文將通用數(shù)據(jù)質(zhì)量模型形式化為五元組Assess=〈S,D,R,I,A〉,其中S為模式集,D為維度集,R為規(guī)則集,I為實(shí)例集,A為算法集.文獻(xiàn)[29]將本體形式化為五元組O=〈C,R,F,A,I〉,其中C為類(lèi),R為關(guān)系,F(xiàn)為函數(shù),A為公理,I為實(shí)例.由此可見(jiàn),從數(shù)據(jù)質(zhì)量通用模型到本體模式的轉(zhuǎn)換主要包含:模式集到本體的映射;維度集到本體類(lèi)的映射;規(guī)則集到本體屬性及公理函數(shù)的映射;實(shí)例集到本體類(lèi)的實(shí)例及屬性的實(shí)例的映射;算法集到本體類(lèi)的映射.映射規(guī)則定義如下:

      1) 模式集S的映射

      模式集是指需要進(jìn)行評(píng)估的數(shù)據(jù)集的模式的集合.例如關(guān)系數(shù)庫(kù)模式,XMlSchema等.文獻(xiàn)[30]對(duì)已有的模式映射技術(shù)進(jìn)行了比較全面的綜述.數(shù)據(jù)模式到本體的映射主要是模式和本體中對(duì)應(yīng)元素的映射,通過(guò)人工參與及映射策略消除語(yǔ)法層次上的差異.模式集的映射包含實(shí)體映射和聯(lián)系映射.

      ① 實(shí)體(entity)的映射

      定義20. 實(shí)體(entity)的映射.實(shí)體可以是具體事物,也可以是抽象概念,通常映射成以實(shí)體名命名的本體類(lèi),映射過(guò)程為

      ?entityi∈S→Cename,

      其中,Cename表示以實(shí)體名命名的本體類(lèi).

      ② 屬性(attribute)的映射

      定義21. 屬性(attribute)的映射.實(shí)體屬性映射成以屬性名命名的本體類(lèi),映射過(guò)程為

      ?attributei∈S→Cattname.

      ③ 碼(key)的映射

      定義22. 碼(key)的映射.碼用來(lái)唯一標(biāo)識(shí)屬性.映射成本體中的函數(shù),映射過(guò)程為

      ?keyi∈S→restriction((DataProperty,
      minCardinary=1),FunctionalProperty).

      ④ 聯(lián)系(relation)的映射

      定義23. 聯(lián)系(relation)的映射.聯(lián)系包含實(shí)體內(nèi)部的聯(lián)系和實(shí)體之間的聯(lián)系.通常映射成一對(duì)互逆的對(duì)象屬性.映射過(guò)程為

      ?relationi∈S→ObjectProperty
      (Domain:Centity1,Rang:Centity2).

      其中,Centity1表示以entity1名字命名的本體類(lèi),Centity2表示以entity2名字命名的本體類(lèi).

      2) 維度集D的映射

      定義24. 維度集D的映射.維度集是指評(píng)估維度的集合,通常映射成本體中的類(lèi),映射過(guò)程為

      ?dimi∈D→Cdim,

      其中,Cdim表示以維度名字命名的本體類(lèi).

      3) 規(guī)則集R的映射

      規(guī)則集中包含的是與評(píng)估維度相對(duì)應(yīng)的規(guī)則.對(duì)于選定評(píng)估維度的數(shù)據(jù)集,制定評(píng)估維度對(duì)應(yīng)的評(píng)估規(guī)則.在規(guī)則集中,規(guī)則分為數(shù)據(jù)項(xiàng)約束規(guī)則、同記錄跨列約束規(guī)則和交叉列約束規(guī)則.有些限定規(guī)則可直接用OWL約束來(lái)實(shí)現(xiàn),映射成本體公理或函數(shù).

      ① 數(shù)據(jù)項(xiàng)約束規(guī)則的映射

      定義25. 數(shù)據(jù)項(xiàng)約束規(guī)則的映射.規(guī)則限定的是實(shí)體屬性本身,規(guī)則映射成數(shù)據(jù)屬性,映射過(guò)程為

      ?rulei∈DataItem→DataProperty
      (Domain:Ccol,Rang:xsd:typeof(col(rulei))),

      其中,Ccol指的是規(guī)則限定的屬性映射成的本體類(lèi),typeof(col(rulei))指的是規(guī)則限定的屬性類(lèi)型.

      ② 同記錄跨列約束規(guī)則的映射

      定義26. 同記錄跨列約束規(guī)則的映射.規(guī)則限定的是同一實(shí)體的屬性,屬性間是關(guān)聯(lián)關(guān)系的,規(guī)則映射成一對(duì)互逆的對(duì)象屬性,映射過(guò)程為

      ?rulei∈CrossColumn→ObjectProperty
      (Domain:Ccol,Rang:Crelate),

      其中,Ccol指的是規(guī)則限定的屬性映射成的本體類(lèi),Crelate指的是被規(guī)則限定的屬性的關(guān)聯(lián)屬性映射成的本體類(lèi).由于限定屬性和關(guān)聯(lián)屬性在同一實(shí)體中,因此Ccol和Crelate相等.

      ③ 交叉列約束規(guī)則的映射

      定義27. 交叉列約束規(guī)則的映射.規(guī)則限定的是不同實(shí)體之間的屬性,屬性間是關(guān)聯(lián)關(guān)系的,規(guī)則映射成一對(duì)互逆的對(duì)象屬性,映射過(guò)程為

      ?rulei∈CrossEntity→ObjectProperty
      (Domain:Ccol,Rang:Crelate),

      其中,Ccol指的是規(guī)則限定的屬性映射成的本體類(lèi),Crelate指的是被規(guī)則限定的屬性的關(guān)聯(lián)屬性映射成的本體類(lèi).

      4) 實(shí)例集I的映射

      定義28. 實(shí)例集I的映射.實(shí)例集是指數(shù)據(jù)集記錄實(shí)例的集合,映射成本體類(lèi)的實(shí)例或本體屬性實(shí)例,映射過(guò)程為

      ?insi∈I→(Class)∨(Property).

      5) 評(píng)估算法集A

      定義29. 算法集的映射.是數(shù)據(jù)質(zhì)量評(píng)估算法的集合,映射成以算法名稱(chēng)命名的本體類(lèi),映射過(guò)程為

      ?algi∈A→Calg.

      3.3 數(shù)據(jù)模型向本體模型轉(zhuǎn)換的映射算法

      通過(guò)映射規(guī)則構(gòu)建通用數(shù)據(jù)質(zhì)量本體,1)遍歷數(shù)據(jù)集模式,將實(shí)體映射成以實(shí)體名為概念的本體類(lèi),實(shí)體屬性映射成以屬性名為概念的本體類(lèi),將實(shí)體的關(guān)系映射成本體中的對(duì)象屬性;2)遍歷評(píng)估維度集中的所有維度,創(chuàng)建以維度名為概念的本體類(lèi),遍歷維度集下對(duì)應(yīng)的規(guī)則集合,判斷規(guī)則是數(shù)據(jù)項(xiàng)約束規(guī)則還是同記錄跨列約束規(guī)則或交叉列約束規(guī)則,按照Rule的映射規(guī)則創(chuàng)建本體的對(duì)象屬性或數(shù)據(jù)屬性;3)遍歷實(shí)例集合,創(chuàng)建相應(yīng)的本體實(shí)例;4)遍歷算法集,創(chuàng)建以算法名為概念的本體類(lèi).數(shù)據(jù)模型映射成OWL本體有5個(gè)步驟:

      步驟1. 遍歷數(shù)據(jù)集模式S.①確定是否存在實(shí)體,若存在,按照定義20映射成本體類(lèi);②確定是否存在聯(lián)系,若存在,按照定義23映射成對(duì)象屬性.

      步驟2. 遍歷維度集D.確定是否存在維度,若存在,按照定義24映射成本體類(lèi).

      步驟3. 遍歷規(guī)則集R.①確定是否存在數(shù)據(jù)項(xiàng)約束規(guī)則,若存在,按照定義25映射成本體類(lèi);②確定是否存在同記錄跨列約束規(guī)則,若存在,按照定義26映射成對(duì)象屬性;③確定是否存在交叉列約束規(guī)則,若存在,按照定義27映射成對(duì)象屬性.

      步驟4. 遍歷實(shí)例集I.確定是否存在實(shí)例,若存在,按照定義28映射成本體類(lèi).

      步驟5. 遍歷算法集A.確定是否存在算法,若存在,按照定義29映射成本體類(lèi).

      3.4 數(shù)據(jù)質(zhì)量評(píng)估本體構(gòu)建實(shí)現(xiàn)

      本文基于數(shù)據(jù)質(zhì)量模型及映射規(guī)則算法,考慮到多數(shù)數(shù)據(jù)存儲(chǔ)在關(guān)系數(shù)據(jù)庫(kù)中,因此以中國(guó)石油油田開(kāi)發(fā)數(shù)據(jù)為背景進(jìn)行數(shù)據(jù)質(zhì)量評(píng)估本體的構(gòu)建,以此驗(yàn)證模型和映射算法是可行的、通用的,按著3.2節(jié)給出的轉(zhuǎn)換規(guī)則與算法,構(gòu)建過(guò)程如下:

      1) 模式集S的映射

      ① 實(shí)體(entity)的映射.關(guān)系數(shù)據(jù)庫(kù)模式中的實(shí)體是多張關(guān)系表,按照定義20將其映射成本體中的AssessedTable類(lèi).

      ② 屬性(attribute)的映射.關(guān)系模式的屬性是字段,按照定義21將其映射成本體中的Assessed-Column類(lèi).

      ③ 碼(key)的映射.關(guān)系數(shù)據(jù)庫(kù)模式中的碼是關(guān)系表中的主鍵,按照定義22將其映射成本體函數(shù).

      ④ 聯(lián)系(relation)的映射.關(guān)系模式中,表和字段之間存在聯(lián)系.按照定義23將其映射成本體中一對(duì)互逆的對(duì)象屬性hascolumn和iscolumnof.

      2) 維度集D的映射

      企業(yè)數(shù)據(jù)質(zhì)量關(guān)系數(shù)據(jù)庫(kù)評(píng)估維度表中包含4類(lèi)評(píng)估維度,分別是準(zhǔn)確性、完整性、一致性和冗余性.

      ① 維度概念的映射.按照定義24,映射成4個(gè)維度的本體類(lèi).

      ② 維度關(guān)系的映射.每個(gè)維度包含多個(gè)約束規(guī)則,因此將維度與規(guī)則的關(guān)系映射成本體中的一對(duì)互逆的對(duì)象屬性,hasrule和isruleof.

      3) 規(guī)則集R的映射

      企業(yè)數(shù)據(jù)質(zhì)量關(guān)系數(shù)據(jù)庫(kù)中包含8類(lèi)數(shù)據(jù)質(zhì)量約束規(guī)則,分別是非空約束、值域約束、邏輯依賴(lài)約束、等值一致性依賴(lài)約束、存在一致性依賴(lài)約束、邏輯一致性依賴(lài)約束、等值函數(shù)依賴(lài)約束、連續(xù)性約束規(guī)則.定義已在3.2節(jié)介紹,按照映射規(guī)則分別映射為

      ① 非空約束.按照定義25的映規(guī)則,將非空約束規(guī)則通過(guò)必要屬性(RequiredProperty)數(shù)據(jù)屬性來(lái)表達(dá).具體表達(dá)如表2所示:

      Table 2 Data Property for Not Null Rule表2 非空約束規(guī)則對(duì)應(yīng)的數(shù)據(jù)屬性

      ② 值域約束.按照定義25將值域約束映射成本體中的數(shù)據(jù)屬性Min_Value和Max_Value.具體表達(dá)如表3所示:

      Table 3 Data Property for Rang Domain Rule表3 值域約束規(guī)則

      ③ 邏輯依賴(lài)約束.按照定義26將邏輯依賴(lài)約束映射成為對(duì)象屬性GreaterThan和LessThan,具體表達(dá)如表4所示:

      Table 4 Object Property for Logic Depend Rule表4 邏輯依賴(lài)約束規(guī)則對(duì)應(yīng)的對(duì)象屬性

      ④ 等值一致性約束.按照定義27將等值一致性依賴(lài)約束規(guī)則映射成為對(duì)象屬性ReferenceEquals,具體表達(dá)如表5所示:

      ⑤ 存在一致性約束.按照定義27將該規(guī)則映射成本體的對(duì)象屬性Exist,具體表達(dá)如表6所示:

      Table 6 Object Property for Exist Consistency表6 存在一致性約束規(guī)則對(duì)應(yīng)的對(duì)象屬性

      ⑥ 邏輯一致性約束.按照定義27將該規(guī)則映射成本體中的對(duì)象屬性ReferenceGreaterThan,ReferenceLessThan,具體表達(dá)如表7所示:

      Table 7 Object Property for Logic Consistency表7 邏輯一致性約束規(guī)則對(duì)應(yīng)的對(duì)象屬性

      ⑦ 等值函數(shù)依賴(lài)約束.與等值一致性約束規(guī)則不同的是,等值函數(shù)依賴(lài)規(guī)則限定的同一數(shù)據(jù)集字段間的等值關(guān)聯(lián)關(guān)系,因此按照定義27將規(guī)則映射成本體中的對(duì)象屬性Equals.具體表如表8所示:

      Table 8 Object Property for Equi-dependency表8 等值函數(shù)依賴(lài)約束規(guī)則對(duì)應(yīng)的對(duì)象屬性

      ⑧ 連續(xù)性約束.連續(xù)性約束規(guī)則限定的是字段本身在某一分組內(nèi)的數(shù)據(jù)按一定步長(zhǎng)連續(xù),因此按照定義25將規(guī)則映射成本體中的數(shù)據(jù)屬性Step和Groupby,具體表達(dá)如表9所示:

      Table 9 Data Property for Continuity表9 連續(xù)性約束規(guī)則對(duì)應(yīng)的數(shù)據(jù)屬性

      4) 實(shí)例集I的映射

      以評(píng)估單井小層數(shù)據(jù)表DAA05為例,DAA05包含字段SYDS,YLSYDS,YLSYHD.需將該表和字段以實(shí)例的方式添加到本體中.

      5) 算法集A的映射

      企業(yè)數(shù)據(jù)質(zhì)量關(guān)系數(shù)據(jù)庫(kù)中包含4類(lèi)評(píng)估算法,分別是準(zhǔn)確性評(píng)估算法、完整性評(píng)估算法、一致性評(píng)估算法和冗余性評(píng)估算法,按照定義29映射成4個(gè)本體類(lèi),OWL本體描述語(yǔ)言定義如下:

      根據(jù)上述的數(shù)據(jù)質(zhì)量評(píng)估通用數(shù)學(xué)模型以及數(shù)學(xué)模型到本體的映射規(guī)則,對(duì)企業(yè)關(guān)系數(shù)據(jù)庫(kù)進(jìn)行抽象和分析,構(gòu)建了通用的數(shù)據(jù)質(zhì)量評(píng)估本體模型.如圖2所示:

      Fig.2 Data quality assessment ontology concept diagram圖2 數(shù)據(jù)質(zhì)量評(píng)估本體概念關(guān)系圖

      3.5 數(shù)據(jù)質(zhì)量本體評(píng)估實(shí)現(xiàn)

      按照3.2節(jié)介紹的不同規(guī)則在本體中的映射方法,使用本體建模工具Protégé構(gòu)建了數(shù)據(jù)質(zhì)量本體,并生成了數(shù)據(jù)質(zhì)量本體的OWL文件.數(shù)據(jù)質(zhì)量本體的概念層次結(jié)構(gòu)如圖3所示.數(shù)據(jù)質(zhì)量評(píng)估的實(shí)現(xiàn)需要利用Jena技術(shù)并借助eclipse對(duì)OWL文件進(jìn)行解析.解析的主要內(nèi)容是對(duì)數(shù)據(jù)質(zhì)量本體類(lèi)的解析、屬性的解析以及實(shí)例的解析.通過(guò)解析出規(guī)則的屬性,調(diào)用評(píng)估算法,實(shí)現(xiàn)對(duì)規(guī)則的評(píng)估.

      Fig.3 Data quality assessment ontology concept hierarchy diagram圖3 數(shù)據(jù)質(zhì)量評(píng)估本體概念層次結(jié)構(gòu)關(guān)系圖

      通過(guò)Jena對(duì)本體進(jìn)行解析后,可以通過(guò)選取規(guī)則對(duì)字段進(jìn)行評(píng)估,本文主要以企業(yè)數(shù)據(jù)質(zhì)量關(guān)系數(shù)據(jù)庫(kù)中包含的8類(lèi)數(shù)據(jù)質(zhì)量約束規(guī)則為例,分別是非空約束、值域約束、邏輯依賴(lài)約束、等值一致性依賴(lài)約束、存在一致性約束、邏輯一致性約束、等值函數(shù)依賴(lài)約束、連續(xù)性約束規(guī)則.具體的評(píng)估實(shí)現(xiàn)如下:

      1) 非空約束.通過(guò)解析非空字段,發(fā)現(xiàn)存在RequiredProperty數(shù)據(jù)屬性,即在相應(yīng)數(shù)據(jù)庫(kù)中查詢(xún)出對(duì)應(yīng)的為空字段.

      2) 值域約束.解析出本體中評(píng)估字段的數(shù)據(jù)屬性Min_Value和Max_Value的值,查詢(xún)數(shù)據(jù)不在Min_Value和Max_Value范圍內(nèi)的記錄.

      3) 邏輯依賴(lài)約束.解析出本體中評(píng)估字段是否存在LessThan和GreaterThan的關(guān)系,檢驗(yàn)存在該關(guān)系的字段取值是否滿(mǎn)足邏輯關(guān)系.

      4) 等值一致性依賴(lài)約束.解析出本體中評(píng)估字段是否存在ReferenceEquals關(guān)系,檢驗(yàn)存在該關(guān)系的字段取值是否滿(mǎn)足等值關(guān)系.

      5) 存在一致性約束.解析出本體中評(píng)估字段是否存在Exist關(guān)系,檢驗(yàn)存在該關(guān)系的字段是否在另一個(gè)字段中出現(xiàn).

      6) 邏輯一致性約束.解析出本體中評(píng)估字段是否存在ReferenceGreaterThan或者ReferenceLessThan關(guān)系,檢驗(yàn)存在該關(guān)系的字段取值是否滿(mǎn)足邏輯關(guān)系.

      7) 等值函數(shù)依賴(lài)約束.解析出本體中評(píng)估字段是否存在Equals關(guān)系,檢驗(yàn)存在該關(guān)系的字段取值是否滿(mǎn)足等值關(guān)系.

      8) 連續(xù)性約束.解析出Step_length和Groupby屬性的值,檢驗(yàn)評(píng)估字段屬性值是否滿(mǎn)足連續(xù)性.

      企業(yè)可以根據(jù)不同的專(zhuān)業(yè)需求按照本體映射規(guī)則對(duì)規(guī)則進(jìn)行添加定制,同時(shí)相應(yīng)地對(duì)評(píng)估規(guī)則的算法進(jìn)行同步擴(kuò)充,以保障對(duì)該規(guī)則的評(píng)估.

      4 數(shù)據(jù)質(zhì)量評(píng)估本體應(yīng)用效果分析

      4.1 數(shù)據(jù)質(zhì)量評(píng)估本體應(yīng)用背景

      20世紀(jì)90年代初期,隨著關(guān)系型數(shù)據(jù)庫(kù)技術(shù)的發(fā)展,石油工業(yè)開(kāi)始了油田勘探開(kāi)發(fā)數(shù)據(jù)庫(kù)的規(guī)劃設(shè)計(jì)工作,經(jīng)過(guò)幾十年的建設(shè)已經(jīng)初具規(guī)模.在各個(gè)油田數(shù)據(jù)中心數(shù)據(jù)庫(kù)建設(shè)不斷發(fā)展和完善的過(guò)程中,油田相關(guān)部門(mén)也逐漸建立起多種類(lèi)型的數(shù)據(jù)庫(kù)來(lái)處理日漸增多的數(shù)據(jù),如何保障進(jìn)入油田數(shù)據(jù)庫(kù)數(shù)據(jù)的質(zhì)量是石油工業(yè)需要解決的重要問(wèn)題.A2(油田生產(chǎn)注入與產(chǎn)出數(shù)據(jù))、A5(油田地面工程及采油數(shù)據(jù))數(shù)據(jù)庫(kù)利用完整性約束來(lái)限制數(shù)據(jù)的插入等操作,依然不能保證進(jìn)入數(shù)據(jù)庫(kù)的數(shù)據(jù)完全符合業(yè)務(wù)需求,因此目前油田開(kāi)發(fā)數(shù)據(jù)庫(kù)中仍然有很多數(shù)據(jù)質(zhì)量問(wèn)題存在,如數(shù)據(jù)不正確、數(shù)據(jù)殘缺、數(shù)據(jù)重復(fù)等.

      本文以石油領(lǐng)域的質(zhì)量管控為應(yīng)用背景,結(jié)合油田開(kāi)發(fā)數(shù)據(jù)開(kāi)發(fā)了基于數(shù)據(jù)質(zhì)量本體的石油領(lǐng)域數(shù)據(jù)質(zhì)量評(píng)估系統(tǒng),對(duì)數(shù)據(jù)質(zhì)量本體模型的有效性和技術(shù)可行性進(jìn)行驗(yàn)證.油田開(kāi)發(fā)數(shù)據(jù)種類(lèi)繁多,因此,本文以開(kāi)發(fā)數(shù)據(jù)庫(kù)中存在質(zhì)量問(wèn)題較多的基礎(chǔ)信息表DDA02、鉆井地質(zhì)信息表DAA02、井斜數(shù)據(jù)表DAA03和單井小層數(shù)據(jù)表DAA05為例,針對(duì)4個(gè)維度,選取其中具有代表性的約束規(guī)則進(jìn)行評(píng)估,將評(píng)估結(jié)果與數(shù)據(jù)庫(kù)實(shí)際情況進(jìn)行比對(duì),驗(yàn)證本文構(gòu)建的數(shù)據(jù)質(zhì)量評(píng)估正確性.表的字段約束規(guī)則如表10所示:

      Table 10 Constraint Rules表10 約束規(guī)則

      4.2 評(píng)估實(shí)驗(yàn)結(jié)果比對(duì)

      首先將評(píng)估表以本體實(shí)例添加到數(shù)據(jù)質(zhì)量評(píng)估本體中,再將字段約束規(guī)則以數(shù)據(jù)屬性或?qū)ο髮傩苑绞教砑拥奖倔w.通過(guò)解析數(shù)據(jù)質(zhì)量本體的類(lèi)以及規(guī)則字段屬性,分別進(jìn)行值域約束、邏輯依賴(lài)約束、連續(xù)性約束和存在一致性約束的評(píng)估,Oracle數(shù)據(jù)庫(kù)系統(tǒng)的檢索與本體模型評(píng)估結(jié)果對(duì)比如表11和圖4所示.

      上述的評(píng)估結(jié)果均與數(shù)據(jù)庫(kù)中存在的數(shù)據(jù)質(zhì)量問(wèn)題的實(shí)際情況相一致,由此可見(jiàn),本文構(gòu)建的評(píng)估本體能夠準(zhǔn)確描述約束規(guī)則,且評(píng)估結(jié)果與實(shí)際數(shù)據(jù)庫(kù)相符合,該數(shù)據(jù)質(zhì)量評(píng)估本體結(jié)構(gòu)合理,有利于數(shù)據(jù)質(zhì)量領(lǐng)域的知識(shí)共享,是可行有效的.

      Table 11 Query Contrast表11 評(píng)估結(jié)果對(duì)比表

      Fig.4 Query contrast diagram圖4 查詢(xún)對(duì)比圖

      5 總 結(jié)

      本文提出了一個(gè)數(shù)據(jù)質(zhì)量評(píng)估數(shù)學(xué)模型,設(shè)計(jì)了一個(gè)從數(shù)據(jù)質(zhì)量評(píng)估數(shù)學(xué)模型到本體模型映射的轉(zhuǎn)換規(guī)則,以企業(yè)數(shù)據(jù)質(zhì)量關(guān)系數(shù)據(jù)庫(kù)為例進(jìn)行了實(shí)驗(yàn),參照模型和規(guī)則實(shí)現(xiàn)了數(shù)據(jù)質(zhì)量評(píng)估本體抽取,構(gòu)建了通用的數(shù)據(jù)質(zhì)量評(píng)估本體模型.企業(yè)可以根據(jù)不同的專(zhuān)業(yè)需求按照通用模型對(duì)內(nèi)部業(yè)務(wù)規(guī)則進(jìn)行添加定制,擴(kuò)充評(píng)估指標(biāo)以及評(píng)估算法,選取不同來(lái)源、不同格式的數(shù)據(jù)集進(jìn)行評(píng)估,這一模型已在油田開(kāi)發(fā)領(lǐng)域數(shù)據(jù)的質(zhì)量評(píng)估中得到了應(yīng)用,評(píng)估結(jié)果與實(shí)際一致,驗(yàn)證了該模型的有效性.下一步的工作重點(diǎn)是對(duì)規(guī)則和映射方法進(jìn)行改進(jìn)和優(yōu)化,完善本體結(jié)構(gòu),實(shí)現(xiàn)本體的自動(dòng)構(gòu)建,并結(jié)合專(zhuān)業(yè)數(shù)據(jù)應(yīng)用中出現(xiàn)的各種質(zhì)量規(guī)則,利用本體的推理技術(shù)進(jìn)一步實(shí)現(xiàn)對(duì)潛在數(shù)據(jù)質(zhì)量相關(guān)問(wèn)題的推理研究.

      [1]Guo Zhimao, Zhou Aoying. A survey of research on data quality and data cleaning[J]. Journal of Software, 2002, 13(11): 2076-2082 (in Chinese)(郭志懋, 周傲英. 數(shù)據(jù)質(zhì)量和數(shù)據(jù)清洗研究綜述[J]. 軟件學(xué)報(bào), 2002, 13(11): 2076-2082)

      [2]Wang R Y, Reddy M P, Kon H B. Toward quality data: An attribute-base approach[J]. Decision Support System, 1995, 13(34): 349-372

      [3]Yang Qingyun, Zhao Peiying, Yang Dongqing, et al. Research on data quality assessment methodology[J]. Computer Engineering and Applications, 2004, 40(9): 3-4 (in Chinese)(楊青云, 趙培英, 楊冬青, 等. 數(shù)據(jù)質(zhì)量評(píng)估方法研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2004, 40(9): 3-4)

      [4]Parssian A, Sarkar S, Jacob V. Assessing data quality for information products: Impact of selection, projection, and cartesian product[J]. Management Science, 2004, 50(7): 967-982

      [5]Debabrata D, Subodha K. Reassessing data quality for information products[J]. Management Science, 2010, 56(12): 2316-2322

      [6]Xu Min, Xu Yong. A data quality assessment model based on single attribute[J]. Statistics and Decision, 2013, 33(11): 4-8 (in Chinese)(徐敏, 徐勇. 基于單一屬性分布的數(shù)據(jù)質(zhì)量評(píng)估模型[J]. 統(tǒng)計(jì)與決策, 2013, 33(11): 4-8)

      [7]Yan Hongwen, Chen Peng. Research on quality asssessment of power grid statistical data based on cloud model[J]. Computer Applications and Software, 2014, 34(12): 100-103 (in Chinese)(顏宏文, 陳鵬. 基于云模型的電網(wǎng)統(tǒng)計(jì)數(shù)據(jù)質(zhì)量評(píng)估方法研究[J]. 計(jì)算機(jī)應(yīng)用與軟件, 2014, 34(12): 100-103)

      [8]Chen Jianming, Han Jianmin. Evaluation model for quality ofk-anonymity data oriented to microaggregation[J]. Application Research of Computers, 2010, 27(6): 2344-2347 (in Chinese)(陳建明, 韓建民. 面向微聚集技術(shù)的k-匿名數(shù)據(jù)質(zhì)量評(píng)估模型[J]. 計(jì)算機(jī)應(yīng)用研究, 2010, 27(6): 2344-2347)

      [9]Teng Dongxing, Zeng Zhirong, Yang Haiyan, et al. Visual quality analysis method for relational data[J]. Journal of Software, 2013, 24(4): 810-824 (in Chinese)(滕東興, 曾志榮, 楊海燕, 等. 一種面向關(guān)系型數(shù)據(jù)的可視質(zhì)量分析方法[J]. 軟件學(xué)報(bào), 2013, 24(4): 810-814)

      [10]Zhang Lianchao. Research on ontology-based data cleaning system framework[D]. Nanjing: Nanjing University of Aeronautics and Astronautics, 2008 (in Chinese)(張聯(lián)超. 基于本體的數(shù)據(jù)清洗系統(tǒng)框架研究[D]. 南京: 南京航空航天大學(xué), 2008)

      [11]Huang K T, Lee Y W, Wang R Y. Quality Information and Knowledge[M]. Upper Saddle River, NJ: Prentice Hall, 1998: 99-136

      [12]Kahn B K, Strong D M. Product and service performance model for information quality: An update[C]Proc of the 3rd Int Conf on Information Quality. Cambridge, MA: MIT Press, 1998: 102-115

      [13]DAMD. DAMA Data Management Knowledge System Guide[M]. Translated by Ma Huan. 1st ed. Beijing: Tsinghua University Press, 2012 (in Chinese)(DAMD. DAMA數(shù)據(jù)管理知識(shí)體系指南[M]. 馬歡, 譯. 1版. 北京: 清華大學(xué)出版社, 2012)

      [14]Wang R Y, Storey V C, Firth C P. A framework for analysis of data quality research[J]. IEEE Trans Knowledge and Data Engineering, 1995, 7(4): 623-640

      [15]Wand Y, Wang R Y. Anchoring data quality dimensions in ontological foundations[J]. Communications of the ACM, 1996, 39(11): 86-95

      [16]Wang R Y, Strong D M. Beyond accuracy: What data quality means to data consumers[J]. Journal of Management Information Systems, 1996, 12(4): 5-33

      [17]Redeman T C. Data Quality for the Information Age[M]. London: Artech House, 1997: 130-137

      [18]Jarke M, Jeusfeld M A, Quix C, et al. Architecture and quality in data warehouses: An extended repository Approach[J]. Informayion Systems, 1999, 24(3): 229-253

      [19]Bovee M, Srivastava R P, Mak B. A conceptual framework and belief-function approach to assessing overall information quality[J]. International Journal of Intelligent System, 2010, 18(1): 51-74

      [20]Naumann F. Quality-driven query answering for integrated information systems[G]LNCS 2262: Proc of the 7th Int Conf on Cooperative Information Systems. Berlin: Springer, 2002: 103-124

      [21]Batini C, Cappiello C, Francalanci C, et al. Methodologies for data quality assessment and improvement[J]. ACM Computing Surveys, 2009, 41(3): 1-52

      [22]McGilvray D. Executing Data Quality Projects: Ten Steps to Quality Data and Trusted Information[M]. San Francisco, CA: Morgan Kaufmann, 2008: 62-73

      [23]Jarke M, Lenzerini M, Vassiliou Y, et al. Fundamentals of data warehouses[J]. IEEE Software, 2001, 18(5): 92-95

      [24]Liu Liping, Chi L N. Evolutional data quality: A theory specific view[C]Proc of the 7th Int Conf on Information Quality. Cambridge, MA: MIT Press, 2002: 292-304

      [25]Loshin D. The Practitioner’s Guide to Data Quality Improvement[M]. San Francisco, CA: Morgan Kaufmann, 2010

      [26]Yuan Man, Zhang Xue. A data quality assessment model based on rules[J]. Computer Technology and Development, 2013, 23(3): 81-84 (in Chinese)(袁滿(mǎn), 張雪. 一種基于規(guī)則的數(shù)據(jù)質(zhì)量評(píng)價(jià)模型[J]. 計(jì)算機(jī)技術(shù)與發(fā)展, 2013, 23(3): 81-84

      [27]Gruber T R. A translation approach to portable ontology specifications[J]. Knowledge Acquisition, 1993, 5(2): 199-220

      [28]Du Xiaoyong, Li Man, Wang Shan. A survey on ontology learning research[J]. Journal of Software, 2006, 17(9): 1837-1847 (in Chinese)(杜小勇, 李曼, 王珊. 本體學(xué)習(xí)研究綜述[J]. 軟件學(xué)報(bào), 2006, 17(9): 1837-1847)

      [29]Zhai Baorong. Study on extraction and storage of OWL ontology based on relational database[D]. Changsha: National University of Defense Technology, 2011(翟保榮. 基于關(guān)系數(shù)據(jù)庫(kù)的OWL本體的提取與存儲(chǔ)研究[D]. 長(zhǎng)沙: 國(guó)防科學(xué)技術(shù)大學(xué), 2011)

      [30]Rahm E, Bernstein P A. A survey of approaches to automatic schema matching[J]. VLDB Journal, 2001, 10(4): 334-350

      ZhangXiaoran, born in 1992. Master candidate. Her main research interests include data quality and information integration.

      YuanMan, born in 1965. PhD. Professor. His main research interests include information and data science, data quality, knowledge organization and application, and integration technology.

      猜你喜歡
      數(shù)據(jù)項(xiàng)本體約束
      Abstracts and Key Words
      “碳中和”約束下的路徑選擇
      對(duì)姜夔自度曲音樂(lè)本體的現(xiàn)代解讀
      約束離散KP方程族的完全Virasoro對(duì)稱(chēng)
      一種多功能抽簽選擇器軟件系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
      甘肅科技(2020年19期)2020-03-11 09:42:42
      非完整數(shù)據(jù)庫(kù)Skyline-join查詢(xún)*
      基于Python的Asterix Cat 021數(shù)據(jù)格式解析分析與實(shí)現(xiàn)
      《我應(yīng)該感到自豪才對(duì)》的本體性教學(xué)內(nèi)容及啟示
      適當(dāng)放手能讓孩子更好地自我約束
      人生十六七(2015年6期)2015-02-28 13:08:38
      Care about the virtue moral education
      卷宗(2013年6期)2013-10-21 21:07:52
      岐山县| 浦北县| 定安县| 宝鸡市| 饶平县| 盐边县| 土默特右旗| 应用必备| 德清县| 察雅县| 大余县| 榆中县| 朝阳市| 甘肃省| 宜都市| 定州市| 高陵县| 威海市| 阿合奇县| 罗山县| 华亭县| 昌乐县| 崇义县| 昭通市| 库车县| 司法| 广昌县| 威海市| 江华| 麻栗坡县| 夏河县| 满城县| 宜昌市| 潞城市| 武冈市| 雅江县| 承德县| 镶黄旗| 浦江县| 津南区| 治多县|