• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      領(lǐng)域數(shù)據(jù)質(zhì)量知識建模方法研究

      2023-03-29 07:38:34袁滿杜楊楊
      現(xiàn)代情報(bào) 2023年4期
      關(guān)鍵詞:數(shù)據(jù)質(zhì)量

      袁滿 杜楊楊

      關(guān)鍵詞: 數(shù)據(jù)質(zhì)量; DQV; 元模型; 質(zhì)量模型; 建模方法

      DOI:10.3969 / j.issn.1008-0821.2023.04.008

      〔中圖分類號〕TP391 〔文獻(xiàn)標(biāo)識碼〕A 〔文章編號〕1008-0821 (2023) 04-0077-11

      隨著萬維網(wǎng)資源的開放與互聯(lián), 鏈接開放數(shù)據(jù)(Linked Open Data, LOD)作為數(shù)據(jù)共享與互聯(lián)的一種方式[1] , 其“質(zhì)量” 問題也逐漸顯露出來。例如, DBpedia 以LOD 的形式發(fā)布在Web 上[2] , 由于它從半結(jié)構(gòu)化、非結(jié)構(gòu)化等數(shù)據(jù)源中提取數(shù)據(jù), 因此存在語義沖突、表示錯(cuò)誤以及信息不完整等質(zhì)量問題; 其次, LOD 數(shù)據(jù)集存在一些資源沒有標(biāo)識數(shù)據(jù)來源信息導(dǎo)致可信性低或者用戶無訪問權(quán)限等, 從而間接導(dǎo)致數(shù)據(jù)集質(zhì)量較差。數(shù)據(jù)質(zhì)量是確保數(shù)據(jù)能夠進(jìn)行業(yè)務(wù)組織以及決策實(shí)施的重要前提[3] , 因此, 數(shù)據(jù)的質(zhì)量問題也成為工業(yè)界和學(xué)術(shù)界重點(diǎn)關(guān)注的對象。

      數(shù)據(jù)質(zhì)量的研究已有30 年之久, 質(zhì)量模型能夠?yàn)閿?shù)據(jù)管理者提供規(guī)范化術(shù)語并且輔助用戶決策。因此, 國際標(biāo)準(zhǔn)化組織[4](International Organi?zation for Standardization, ISO)認(rèn)識到了數(shù)據(jù)質(zhì)量模型的必要性, 并提出ISO/ IEC 25012 標(biāo)準(zhǔn)[5] 數(shù)據(jù)質(zhì)量模型。該標(biāo)準(zhǔn)提出的數(shù)據(jù)質(zhì)量模型按照固有的和系統(tǒng)相關(guān)的觀點(diǎn)概述了15 種通用的質(zhì)量特征。然而, ISO 數(shù)據(jù)質(zhì)量模型被認(rèn)為過于通用, 沒有考慮到LOD 特有的互連性。Zaveri A 等[6] 則系統(tǒng)回顧了鏈接數(shù)據(jù)質(zhì)量的評估方法, 為鏈接數(shù)據(jù)質(zhì)量提供了18 個(gè)質(zhì)量維度以及69 個(gè)質(zhì)量指標(biāo)。這項(xiàng)調(diào)研擴(kuò)展了5 個(gè)鏈接數(shù)據(jù)特有的質(zhì)量維度[6] , 并對數(shù)據(jù)質(zhì)量常用術(shù)語進(jìn)行統(tǒng)一形式化表述, Zaveri A 等團(tuán)隊(duì)的這項(xiàng)工作為后續(xù)的研究提供了重要的參考價(jià)值。Chen H 等[7] 指出, Zaveri A 等所提供的綜合框架中一些質(zhì)量指標(biāo)是不必要的。因此, 在Zaveri A 等研究的基礎(chǔ)上提出了基于知識圖譜質(zhì)量需求適用程度的質(zhì)量評估框架, 要求該框架中的質(zhì)量評估維度應(yīng)該與知識圖譜所在應(yīng)用層的質(zhì)量需求相關(guān)聯(lián)。隨著數(shù)據(jù)質(zhì)量的深入研究, Wand Y 等[8] 指出, 數(shù)據(jù)質(zhì)量維度目前還沒有達(dá)到普遍的共識, 亟需開發(fā)一種層次評估框架并建議依據(jù)本體的嚴(yán)格規(guī)范性來統(tǒng)一術(shù)語。目前基于本體的質(zhì)量模型也各不相同, 其中, Fürber C[9] 提出基于本體的語義數(shù)據(jù)質(zhì)量管理( Semantic Data Quality Management Framework,SDQM)框架, 該框架解決了當(dāng)前數(shù)據(jù)質(zhì)量問題類型以及數(shù)據(jù)質(zhì)量需求(也稱數(shù)據(jù)質(zhì)量規(guī)則)的表述并定義了66 個(gè)類和56 個(gè)最常見質(zhì)量問題的屬性。2016 年, W3C 推出數(shù)據(jù)質(zhì)量(DQV)詞表[10] , 劉洋等[11] 基于DQV 模型分析得出知識圖譜22 個(gè)質(zhì)量需求并映射為13 個(gè)質(zhì)量維度, 其核心質(zhì)量模型依據(jù)DQV 規(guī)范構(gòu)建了知識圖譜質(zhì)量本體, 并實(shí)現(xiàn)對知識圖譜質(zhì)量評估以及質(zhì)量標(biāo)準(zhǔn)化的任務(wù)。

      綜上所述, 當(dāng)前的質(zhì)量模型既存在共性又具有差異。對于數(shù)據(jù)質(zhì)量領(lǐng)域?qū)<以谀P偷幕ゲ僮餍陨洗嬖诓蛔悖?非領(lǐng)域?qū)<以谀P蜆?gòu)建上則存在一定的困難。針對這些問題, 本文提出一套標(biāo)準(zhǔn)的、適用的以及可互操作的質(zhì)量模型建模方法, 從而系統(tǒng)地幫助數(shù)據(jù)持有者構(gòu)建或選擇“Fitness for Purposes”的質(zhì)量模型。本文采用溯源法, 首先對DQV 元模型以及其他4 個(gè)質(zhì)量模型進(jìn)行梳理和總結(jié), 提煉出質(zhì)量模型必要的核心要素, 并組織為數(shù)據(jù)質(zhì)量概念模型; 其次, 采用GQM(Goal Question Metric)的思想[12] , 提出一套質(zhì)量模型建模方法。以該方法為指導(dǎo)方針, 依次進(jìn)行概念建模、詞表映射、模型構(gòu)建。該方法以自底向上的方式從數(shù)據(jù)質(zhì)量問題抽象到質(zhì)量核心要素并組織為通用的數(shù)據(jù)質(zhì)量概念模型; 再由概念模型向DQV 元模型進(jìn)行映射以此來幫助用戶如何應(yīng)用現(xiàn)有的頂層質(zhì)量模型解決互操作性差的問題, 最終構(gòu)建一個(gè)符合用戶需求的質(zhì)量模型。對于數(shù)據(jù)持有者來說, 基于該方法構(gòu)建的質(zhì)量模型具有層次清晰以及語義關(guān)系明確的優(yōu)勢, 使質(zhì)量評估過程更加透明。對于數(shù)據(jù)資源來說, 該方法有助于數(shù)據(jù)質(zhì)量管理的標(biāo)準(zhǔn)化進(jìn)而促進(jìn)數(shù)據(jù)生態(tài)環(huán)境的良好發(fā)展。

      1相關(guān)理論研究

      數(shù)據(jù)在人工智能發(fā)展的過程中一直扮演著重要角色, 不可避免的是“數(shù)據(jù)質(zhì)量” 仍然為一項(xiàng)巨大挑戰(zhàn)。當(dāng)前數(shù)據(jù)質(zhì)量沒有一個(gè)統(tǒng)一的概念界定, 但數(shù)據(jù)質(zhì)量通常與數(shù)據(jù)的使用有著緊密聯(lián)系。ISO/ IEC25012 標(biāo)準(zhǔn)將數(shù)據(jù)質(zhì)量[5] 定義為“在特定條件下使用時(shí), 數(shù)據(jù)的特征滿足規(guī)定和隱含需求的程度”;W3C 最佳實(shí)踐組[13] 認(rèn)為, 數(shù)據(jù)適合其在操作、決策和計(jì)劃中的預(yù)期用途時(shí), 這些數(shù)據(jù)是高質(zhì)量的。因此, 數(shù)據(jù)持有者與特定任務(wù)之間的需求可以作為確定數(shù)據(jù)質(zhì)量的基準(zhǔn)。GB/ T 36344-2018[14] 標(biāo)準(zhǔn)指出“數(shù)據(jù)質(zhì)量” 在指定條件下使用時(shí), 數(shù)據(jù)的特性滿足明確的和隱含的要求的程度。

      綜上所述, 數(shù)據(jù)質(zhì)量的內(nèi)涵與“Fitness for Use”主觀評價(jià)是高度一致的, 即數(shù)據(jù)滿足質(zhì)量需求的程度。數(shù)據(jù)質(zhì)量外延又分為質(zhì)量評估、問題發(fā)現(xiàn)以及質(zhì)量改進(jìn)3 個(gè)任務(wù)[15] , 即以判定數(shù)據(jù)適用程度、識別數(shù)據(jù)質(zhì)量問題以及提高數(shù)據(jù)質(zhì)量的數(shù)據(jù)質(zhì)量管理過程而開展的。

      1.1數(shù)據(jù)質(zhì)量術(shù)語規(guī)范

      由于不同學(xué)者給定的數(shù)據(jù)質(zhì)量術(shù)語存在差異,因此, 本文首先對術(shù)語進(jìn)行標(biāo)準(zhǔn)化。通過溯源法對DQV 以及其他質(zhì)量模型進(jìn)行梳理, 總結(jié)了如下幾個(gè)數(shù)據(jù)質(zhì)量核心要素。

      1.2數(shù)據(jù)質(zhì)量概念模型

      本文使用溯源法對當(dāng)前現(xiàn)有的數(shù)據(jù)質(zhì)量模型(DQM、daQ、QMO、DQV[5,9,10,17-19] 等)進(jìn)行梳理,提煉出質(zhì)量模型中共有的質(zhì)量要素: 質(zhì)量維度、質(zhì)量指標(biāo)、質(zhì)量度量、度量方法、質(zhì)量類別, 并通過1.1 節(jié)對數(shù)據(jù)質(zhì)量術(shù)語進(jìn)行統(tǒng)一規(guī)范化。從知識組織[20] 的視角來看, 質(zhì)量要素作為一種細(xì)粒度的知識單元, 它們之間存在豐富的信息結(jié)構(gòu)和語義關(guān)聯(lián),可將其組織為如圖1 所示的數(shù)據(jù)質(zhì)量概念模型。

      1.3最佳實(shí)踐原則

      2017 年, DWBP 工作組提出35 條最佳實(shí)踐[13]原則, 依照這些原則來構(gòu)建或維護(hù)不同的數(shù)據(jù)資源可獲得如表1 所示的有益啟示。其中涵蓋了數(shù)據(jù)質(zhì)量、數(shù)據(jù)來源、元數(shù)據(jù)等不同方面, 最大程度上促進(jìn)數(shù)據(jù)資源的規(guī)范性與共享性。

      基于本體的質(zhì)量模型也是一種數(shù)據(jù)資源, 因此, 當(dāng)數(shù)據(jù)使用者針對其特定任務(wù)進(jìn)行質(zhì)量模型建模時(shí), 建議其優(yōu)先參照這35條最佳實(shí)踐原則。DQV詞表參照了最佳實(shí)踐15、16(詳細(xì)內(nèi)容可參考[13]),從而促進(jìn)資源的重用和互操作。一方面,DQV遵循最小本體原則(最佳實(shí)踐15), 其在知識組織的過程中選定了適用范圍的知識粒度, DQV的設(shè)計(jì)不是涵蓋實(shí)例化的質(zhì)量問題、質(zhì)量維度以及指標(biāo)等, 而是為數(shù)據(jù)持有者提供一致的組織方式,從而促進(jìn)其他用戶的可用性以及可擴(kuò)展性; 另一方面, DQV 充分考慮到對現(xiàn)有詞表的重用(最佳實(shí)踐16), 例如dqv:Dimension 是skos:Concept 的子概念、dqv:Dimension 等價(jià)于daq:Dimension 等。使用現(xiàn)有詞表同樣促進(jìn)了其他用戶的可用性, 從而提高數(shù)據(jù)資源的互操作性, 減少數(shù)據(jù)資源冗余, 避免數(shù)據(jù)資源存在語義歧義和沖突。

      2數(shù)據(jù)質(zhì)量模型研究

      質(zhì)量模型是通過一組已定義的質(zhì)量特征、質(zhì)量子特征、質(zhì)量度量, 以及通過這些特征和度量之間的關(guān)系來定義的[5] , 在某種程度上規(guī)范了質(zhì)量相關(guān)信息。目前, 質(zhì)量模型共分為兩類: 一類是基于框架的質(zhì)量模型[21] ; 另一類是基于本體的質(zhì)量模型。質(zhì)量模型旨在為質(zhì)量評估過程提供一致的術(shù)語, 促進(jìn)不同的系統(tǒng)間實(shí)現(xiàn)互操作以及提高可讀性。

      2.1基于框架的質(zhì)量模型

      基于框架的質(zhì)量模型由質(zhì)量要素以及質(zhì)量要素間的關(guān)系組成, 這類模型以層次結(jié)構(gòu)對數(shù)據(jù)質(zhì)量知識進(jìn)行組織。2008年, 國際標(biāo)準(zhǔn)化組織提出ISO/IEC 25012標(biāo)準(zhǔn)[5] ,該標(biāo)準(zhǔn)下的質(zhì)量模型將質(zhì)量屬性分為15 個(gè)質(zhì)量特征(即質(zhì)量維度), 并將質(zhì)量維度分為兩個(gè)類別——固有的和系統(tǒng)依賴的。圖2為該質(zhì)量模型的層次結(jié)構(gòu), 固有類別與數(shù)據(jù)本身屬性相關(guān); 系統(tǒng)依賴類別指在特定條件下使用數(shù)據(jù)時(shí),其滿足需求的程度。

      該質(zhì)量模型是通用的數(shù)據(jù)質(zhì)量模型, 對于鏈接開放數(shù)據(jù)的一些特性是不滿足的, 例如, 鏈接數(shù)據(jù)須用唯一的URI 來命名資源(表征維度類別), 該質(zhì)量特征可映射為dqv:Availability 維度以及dqv:Uniqueness 維度。2016 年, Zaveri A 等的團(tuán)隊(duì)[6] 在ISO 25012 模型的基礎(chǔ)上進(jìn)行擴(kuò)展和補(bǔ)充, 其框架確立了4 個(gè)質(zhì)量類別18 個(gè)質(zhì)量維度以及69 個(gè)質(zhì)量指標(biāo)。該項(xiàng)調(diào)研為后續(xù)的研究提供了重要參考價(jià)值。2019 年, Chen H 等[7] 提出“Fitness for Pur?pose” 的質(zhì)量框架, 旨在依據(jù)數(shù)據(jù)集在應(yīng)用層的需求來確立評估的質(zhì)量維度/ 指標(biāo), 簡化了模型的規(guī)模避免工作內(nèi)容的冗余。

      2.2基于本體的質(zhì)量模型

      基于本體的質(zhì)量模型是將數(shù)據(jù)質(zhì)量知識用本體的嚴(yán)格規(guī)范性來統(tǒng)一術(shù)語[8],相比于基于框架的形式, 本體對層次劃分更加清晰、語義關(guān)系更加明確以及模型易于擴(kuò)展和重用。當(dāng)前, 基于本體的質(zhì)量模型有DQV、DQM、DaQ 等, 下面將從模型的適用范圍、模型的規(guī)模, 以及模型的重用率進(jìn)行對比分析。

      2.2.1DQM 本體

      2011 年, Fürber C 團(tuán)隊(duì)[9] 提出數(shù)據(jù)質(zhì)量管理(Data Quality Management Vocabulary, DQM)詞表質(zhì)量模型, 其核心概念是dqm:DataRequirement 并且依賴于dqm:Task的實(shí)例, 旨在使用DQM 詞表定義的dqm:DataRequirement 進(jìn)行數(shù)據(jù)質(zhì)量評分并自動創(chuàng)建質(zhì)量報(bào)告。目前DQM 詞表規(guī)模較大, 具有68 個(gè)類、46 個(gè)對象屬性和54個(gè)數(shù)據(jù)類型屬性。DQM 詞表具有可擴(kuò)展性, 用戶可通過Wiki 界面自定義新的類和屬性等。由于該質(zhì)量模型為早期任務(wù)并且當(dāng)前已不再維護(hù), 不推薦優(yōu)先考慮重用該詞表。

      2.2.2QMO&EVAL本體

      2015 年, Radulovic F 發(fā)布了質(zhì)量模型本體[17](Quality Model Ontology, QMO)與評估結(jié)果本體[18](Evaluation Result Ontology, EVAL), 它們是基于ISO 25010 和ISO 15939 系列標(biāo)準(zhǔn)開發(fā)的輕量級通用本體。QMO 側(cè)重于建模質(zhì)量特征以及質(zhì)量度量,EVAL 側(cè)重于獲取在產(chǎn)品、服務(wù)或行動評估中獲得的價(jià)值知識, 兩個(gè)本體則需要相互協(xié)作完成完整的質(zhì)量評估任務(wù)。相比于DQV元模型, 二者在知識粒度上過于輕量級, 這可能導(dǎo)致用戶在開發(fā)新的類和關(guān)系時(shí)違背互操作性原則; 相比于其他質(zhì)量模型, 二者嚴(yán)格遵循了W3C提倡的表述模型。推薦用戶優(yōu)先選定通用建模語言, 不推薦用戶優(yōu)先考慮重用這兩個(gè)詞表。

      2.2.3 daQ本體

      2014年,Debattista J 等[19] 開發(fā)了數(shù)據(jù)集質(zhì)量(Dataset? Quality Ontology, daQ)本體, 其采用自下而上的方法系統(tǒng)地將質(zhì)量要素以及質(zhì)量要素間的關(guān)系以層次結(jié)構(gòu)組織為元數(shù)據(jù)概念模型。daQ 是一個(gè)輕量級、可擴(kuò)展的通用質(zhì)量模型, 其開發(fā)的意義是為數(shù)據(jù)持有者提供一個(gè)核心模型, 并在該模型的基礎(chǔ)上開發(fā)適合適用的質(zhì)量模型, daQ 的設(shè)計(jì)遵循了可重用性和互操作性的原則。圖3 為daQ 的概念模型,其中核心類有daq:Metric、daq:Dimension、daq:Cat?egory 等。

      2.3DQV 數(shù)據(jù)質(zhì)量詞表

      2016年, W3C-DWBP 推出[13] 數(shù)據(jù)質(zhì)量(DataQuality Vocabulary, DQV)詞表, 首先, 相比于daQ本體DQV 的一些類和屬性做了簡化處理。例如,dqv:Metric、dqv:Dimensional 等作為抽象類概念并未對其進(jìn)行值的約束, 數(shù)據(jù)持有者可根據(jù)業(yè)務(wù)定義值域從而在使用上更加靈活; 其次, DQV 擴(kuò)展了dqv:QualityMetadata、qv:QualityPolicy 等描述數(shù)據(jù)集質(zhì)量信息元數(shù)據(jù), 從而幫助數(shù)據(jù)持有者快速選定適用的數(shù)據(jù)資源。DQV 在設(shè)計(jì)原則上是嚴(yán)格遵守最佳實(shí)踐最小化本體原則的; 最后, DQV 還重用了W3C 標(biāo)準(zhǔn)詞表——DCAT、PROV、SKOS、RDFData Cube、OA 等。不同領(lǐng)域的標(biāo)準(zhǔn)詞表將DQV劃分為6 個(gè)組件, 分別為質(zhì)量維度和類別、質(zhì)量度量、質(zhì)量注釋、質(zhì)量來源、(元)數(shù)據(jù)標(biāo)準(zhǔn)以及質(zhì)量政策, 如圖4所示。

      DQV 作為數(shù)據(jù)質(zhì)量領(lǐng)域標(biāo)準(zhǔn)的、通用的、頂層的質(zhì)量元模型, 已成為構(gòu)建高質(zhì)量、易擴(kuò)展、可互操作的質(zhì)量模型的基準(zhǔn)。Zaveri A 等提出的鏈接數(shù)據(jù)質(zhì)量(Linked Data Quality Model, LDQM)框架[6] ,并在以DQV 為質(zhì)量元模型將框架中的質(zhì)量維度、質(zhì)量指標(biāo)、質(zhì)量類別等向dqv:Category、dqv:Di?mension、dqv:Metric 等進(jìn)行映射和描述, 該框架還重用了SKOS 詞表提供的語義關(guān)系(skos:related、skos:exactMatch 等)建立概念間的關(guān)聯(lián)關(guān)系。2021年, 劉洋等[11] 基于DQV 質(zhì)量模型構(gòu)建了知識圖譜質(zhì)量(Knowledge Graph Quality Vocabulary, KGQV)本體, 結(jié)合知識圖譜的特性擴(kuò)展了兩個(gè)抽象類和5個(gè)屬性并完成知識圖譜質(zhì)量評估任務(wù)。

      DQV 詞表不僅可以作為質(zhì)量評估的預(yù)定義模型, W3C 還建議適用DQV 提供的質(zhì)量政策、質(zhì)量注釋、質(zhì)量元數(shù)據(jù)組件作為數(shù)據(jù)集的元數(shù)據(jù), 幫助數(shù)據(jù)持有者從描述元數(shù)據(jù)中獲取關(guān)鍵的質(zhì)量信息,從而快速選定適用的數(shù)據(jù)資源。

      2.4質(zhì)量元數(shù)據(jù)

      上述質(zhì)量模型都對數(shù)據(jù)質(zhì)量知識進(jìn)行組織和建模, 但它們建模視角各不相同。DQM 從實(shí)際質(zhì)量問題出發(fā)確立了68 個(gè)類和100 個(gè)屬性, 相比于DQV元模型不具有通用性和可擴(kuò)展性。QMO 與EVAL遵循了W3C 推薦的標(biāo)準(zhǔn)語言, 但QMO 與EVAL 涵蓋的質(zhì)量知識過于輕量會間接導(dǎo)致“信息孤島”等問題。針對DQM 和QMO 等模型的不足, Debat?tista J 等團(tuán)隊(duì)[22] 基于daQ 本體開發(fā)了Luzzu 質(zhì)量評估工具, 并基于daQ 本體開發(fā)了Luzzu 質(zhì)量指標(biāo)(Luzzu Quality Metric Language, LQML)語言而非官方語言。daQ 模型在設(shè)計(jì)靈感上為DQV 提供了良好的基礎(chǔ), 但其在知識交換層面上存在不足。綜合來看, DQV 模型涵蓋了上述模型的優(yōu)點(diǎn)并且彌補(bǔ)了上述模型的不足。

      在DCAT 2.0版本[23]明確提出增加質(zhì)量元數(shù)據(jù), 并推薦優(yōu)先使用DQV 中的dqv:Metric、dqv:Dimension、dqv:hasqualitymeasurement 的類和屬性。DQV 在設(shè)計(jì)上遵循了最佳實(shí)踐15、16, 因此DQV具有很強(qiáng)的可擴(kuò)展性、靈活性以及互操作性和易于理解。依照賈君枝[24] 給定的資源重用方式, 質(zhì)量模型的資源描述也可分為3 層, 分別為元數(shù)據(jù)層、模式層以及實(shí)例層。如圖5 所示, 推薦用戶優(yōu)先選定DQV 元模型作為元數(shù)據(jù)層、模式層的元數(shù)據(jù)最終實(shí)例化為“Fitness for Use”的質(zhì)量模型。

      3質(zhì)量模型建模方法研究

      在以往的研究中, 僅為數(shù)據(jù)持有者提供可參考的質(zhì)量模型, 而并未向數(shù)據(jù)持有者提供一套詳細(xì)的、完整的質(zhì)量建模方法, 從而導(dǎo)致質(zhì)量模型在使用的過程中存在一定的阻力。因此, 本文結(jié)合目標(biāo)—問題—度量法(Goal Question Metric Approach, GQM)的思想[25] 并以W3C 最佳實(shí)踐為指導(dǎo), 提出一個(gè)三階段六步驟的質(zhì)量模型建模方法。

      本文的建模靈感來自Maryland 大學(xué)的VictorBa?sili 開發(fā)的GQM[12] 層次模型, 如圖6 所示。GQM 模型的基本思想是從一組目標(biāo)(Goals)定義開始, 目標(biāo)的描述須包含評估對象、質(zhì)量要素、視角等。其中評估對象可以為數(shù)據(jù)集、三元組集、鏈接集等; 視角可以為用戶視角或業(yè)務(wù)需求視角等; 質(zhì)量要素為上述2.1節(jié)提到的質(zhì)量維度、質(zhì)量類別、質(zhì)量度量等。將目標(biāo)細(xì)化為幾個(gè)問題(Questions), 每個(gè)問題(Questions)量化為多個(gè)質(zhì)量指標(biāo)(Metrics), 依據(jù)指標(biāo)計(jì)算數(shù)據(jù)來解決問題進(jìn)而達(dá)成確立的目標(biāo)。遵循GQM 思想能夠?yàn)樘囟ǖ臉I(yè)務(wù)需求提供細(xì)化方案, 從而更容易達(dá)成確立的目標(biāo)。

      在以往的研究中, Wang Y R等和Zaveri A等分別系統(tǒng)地提供了各自的質(zhì)量建模方案。Wang Y R等結(jié)合數(shù)據(jù)工程的思想[26] 提出一套質(zhì)量建模方法并為數(shù)據(jù)質(zhì)量管理定義了相關(guān)術(shù)語。具體步驟如下,第一步從實(shí)際業(yè)務(wù)出發(fā)確定數(shù)據(jù)質(zhì)量問題; 第二步根據(jù)數(shù)據(jù)質(zhì)量問題確立在實(shí)際應(yīng)用場景下的主觀的/客觀的質(zhì)量維度; 第三步將質(zhì)量維度量化為可度量的質(zhì)量指標(biāo); 第四步構(gòu)建質(zhì)量模型。Wang Y R等提出的模型考慮了根據(jù)特定需求來指定質(zhì)量模型,但卻忽略了模型的術(shù)語標(biāo)準(zhǔn)化。RulaA等則結(jié)合數(shù)據(jù)質(zhì)量管理[27]的思想確立了需求分析、質(zhì)量評估以及質(zhì)量改進(jìn)3個(gè)階段。其中, 質(zhì)量評估階段細(xì)化為質(zhì)量問題識別、統(tǒng)計(jì)和分析、高級分析3個(gè)步驟, 即對數(shù)據(jù)集的質(zhì)量問題進(jìn)行識別, 再確立質(zhì)量維度和質(zhì)量指標(biāo)再進(jìn)行評估。這兩種建模方法都沒有給定依據(jù)的標(biāo)準(zhǔn)以及構(gòu)建模型的建模語言, 從而存在不標(biāo)準(zhǔn)以及互操作性差等問題。因此, 本文為解決上述問題提出一個(gè)三階段六步驟的質(zhì)量模型(Three-stage Six-step Methodology for Quality Model?ing, TS_MQM)建模方法。根據(jù)第1 章、第2 章的初步研究, 實(shí)現(xiàn)了術(shù)語標(biāo)準(zhǔn)化的過程。W3C 提供的DQV 數(shù)據(jù)質(zhì)量頂層本體為互操作性提供了良好的前提。最后以GQM 思想為指導(dǎo), 可以根據(jù)用戶的特定需求來構(gòu)建適用的質(zhì)量模型。

      表2 為TS_MQM 建模方法的詳細(xì)內(nèi)容, 概念建模階段共有4個(gè)步驟, 分為需求分析、目標(biāo)分析、指標(biāo)分析以及度量方案。需求分析從數(shù)據(jù)實(shí)際業(yè)務(wù)出發(fā), 識別其質(zhì)量問題并向質(zhì)量維度/ 指標(biāo)進(jìn)行抽象目標(biāo)分析, 定義目標(biāo)以及子目標(biāo)。例如, 目標(biāo)的質(zhì)量要素為“固有質(zhì)量” 類別, 可將目標(biāo)再細(xì)化為“語義準(zhǔn)確性” “一致性” 等子目標(biāo); 指標(biāo)分析, 根據(jù)上一步驟確立的問題細(xì)化為可度量的指標(biāo), 此過程也稱為定量過程; 度量方案, 根據(jù)上一步驟確立的質(zhì)量指標(biāo)指定度量方法并得到度量結(jié)果。

      詞表映射階段是將概念建模中的質(zhì)量維度/ 類別、質(zhì)量指標(biāo)以及度量方法等向DQV 質(zhì)量組件進(jìn)行映射, 可視為DQV 元模型實(shí)例化的過程。模型構(gòu)建是將確立的概念模型構(gòu)建為人機(jī)可讀的本體形式, 建議數(shù)據(jù)持有者在構(gòu)建本體時(shí)遵循W3C 最佳實(shí)踐原則。例如, 優(yōu)先考慮重用DQV 詞表以及DQV 重用的詞表。

      4基于DQV 的質(zhì)量建模用例

      鏈接數(shù)據(jù)是語義Web 中常見的數(shù)據(jù)模型, 其同樣存在質(zhì)量問題。以鏈接數(shù)據(jù)的語義準(zhǔn)確性維度為例來驗(yàn)證該方法論的可行性。例1 描述的三元組中Triple1 與Triple3 存在語義不準(zhǔn)確的質(zhì)量問題。根據(jù)常識可知ex:Italy 的首都并非ex:Milan; 并且Triple3 將ex:Italy 劃分為ex:Place, 則用ex:Coun?try 的實(shí)例來表述更符合真實(shí)狀態(tài)。

      例1:三元組集

      4.1語義準(zhǔn)確性概念建模

      語義準(zhǔn)確性定義為數(shù)據(jù)值表示一個(gè)對象正確狀態(tài)的程度, 根據(jù)例1 存在不準(zhǔn)確的注釋和虛假的注釋的語義不準(zhǔn)確的質(zhì)量問題, 可判定其違背了語義準(zhǔn)確性維度/ 固有質(zhì)量類別。語義準(zhǔn)確性概念建模的具體步驟如表3 所示, 由自底向上的方法完成概念建模階段。

      固有質(zhì)量類別下包含語義準(zhǔn)確性維度, 語義準(zhǔn)確性維度通過定量的4 個(gè)質(zhì)量指標(biāo)進(jìn)行度量并得到相應(yīng)的度量結(jié)果。

      4.2語義準(zhǔn)確性詞表映射

      針對固有質(zhì)量類別、語義準(zhǔn)確性維度、質(zhì)量指標(biāo)等概念分別對應(yīng)DQV 中的dqv:Category、dqv:Dimension、dqv:Metric組件, 類間的關(guān)系由dqv:inCategory、dqv:computedOn 等屬性進(jìn)行關(guān)聯(lián)。如表4所示, 詳細(xì)描述了語義準(zhǔn)確性的對象缺失比率(dqv:missObjectRate)指標(biāo), 并用W3C 推薦的語言來表述該質(zhì)量模型。

      4.3語義準(zhǔn)確性模型構(gòu)建

      質(zhì)量模型最終要以人機(jī)可讀的本體形式進(jìn)行質(zhì)量評估、質(zhì)量信息描述等任務(wù), 本文選用Protégé工具對質(zhì)量模型本體進(jìn)行構(gòu)建。圖9 為語義準(zhǔn)確性(dqv:semanticAccuracy)維度的質(zhì)量模型構(gòu)建的可視化過程。其中包含以下的內(nèi)容: dqv:Category、dqv: Dimension、dqv: Metric、qb: Observation 是DQV 元模型提供的組件; dqv:semanticAccuracy存在于(dqv:inCategory)固有類別下(dqv:intrinsicDi?mensions)、dqv:semanticAccuracy 下包含(dqv:in?Dimensuon)對象丟失率指標(biāo)(dqv:missObjectRate)、dqv:missObjectRate 可度量為(dqv:isMeasurement?Of)統(tǒng)計(jì)對象丟失率的方法(missObjectFunction)。

      5總結(jié)與展望

      本文圍繞如何構(gòu)建一套標(biāo)準(zhǔn)的、一致的以及適用的數(shù)據(jù)質(zhì)量知識表示模型為核心, 采用溯源法對其開展研究。首先, 筆者在文獻(xiàn)調(diào)研和對比分析以往的質(zhì)量模型的基礎(chǔ)上, 提出并構(gòu)建了數(shù)據(jù)質(zhì)量知識概念模型; 其次, 筆者將W3C 推薦的DQV 詞表作為數(shù)據(jù)質(zhì)量頂層本體并開展詞表映射(數(shù)據(jù)質(zhì)量知識概念模型向數(shù)據(jù)質(zhì)量頂層本體進(jìn)行映射)以及模型構(gòu)建的研究; 最后, 以GQM 思想為指導(dǎo)提出一個(gè)三階段六步驟的質(zhì)量建模方法, 即概念建模、詞表映射以及模型構(gòu)建的3 個(gè)階段。該方法可根據(jù)用戶業(yè)務(wù)的特定需求自底向上地構(gòu)建標(biāo)準(zhǔn)的、一致的以及適用的質(zhì)量模型。為了驗(yàn)證該方法的可行性, 本文以“語義準(zhǔn)確性” 為例構(gòu)建了相應(yīng)的質(zhì)量本體。結(jié)果表明, 該方法可以用來解決領(lǐng)域數(shù)據(jù)質(zhì)量知識表示模型的構(gòu)建, 并且以該方法構(gòu)建的質(zhì)量模型具有良好的擴(kuò)展性和互操作性。本文的下一步工作是收集動態(tài)性語義質(zhì)量的問題并確立其質(zhì)量維度、質(zhì)量指標(biāo)以及度量方法等核心要素, 以本文提出的建模方法進(jìn)一步細(xì)化和擴(kuò)建適合特定領(lǐng)域的語義質(zhì)量模型。

      猜你喜歡
      數(shù)據(jù)質(zhì)量
      電子商務(wù)平臺數(shù)據(jù)質(zhì)量控制系統(tǒng)及仿真模型分析
      基于大數(shù)據(jù)背景下提高供電局?jǐn)?shù)據(jù)質(zhì)量對策分析
      強(qiáng)化統(tǒng)計(jì)執(zhí)法提高數(shù)據(jù)質(zhì)量
      淺析統(tǒng)計(jì)數(shù)據(jù)質(zhì)量
      中國市場(2016年40期)2016-11-28 04:58:19
      金融統(tǒng)計(jì)數(shù)據(jù)質(zhì)量管理的國際借鑒與中國實(shí)踐
      淺談統(tǒng)計(jì)數(shù)據(jù)質(zhì)量控制
      提高政府統(tǒng)計(jì)數(shù)據(jù)質(zhì)量,增強(qiáng)政府公信力
      企業(yè)統(tǒng)計(jì)工作之我見
      統(tǒng)計(jì)學(xué)在質(zhì)量管理中的應(yīng)用研究
      商(2016年13期)2016-05-20 09:28:35
      關(guān)于突發(fā)環(huán)境事件應(yīng)急監(jiān)測的問題分析及措施
      丰都县| 康马县| 陵川县| 九龙坡区| 绥滨县| 遂川县| 河北区| 绥芬河市| 汝南县| 普格县| 和顺县| 宁陵县| 平江县| 漳浦县| 天长市| 宾阳县| 炉霍县| 新宁县| 菏泽市| 琼结县| 开鲁县| 崇信县| 日照市| 垦利县| 本溪市| 台南市| 宜宾市| 桓台县| 鞍山市| 韶关市| 福鼎市| 奇台县| 兴宁市| 乌拉特后旗| 肇东市| 尼玛县| 安仁县| 儋州市| 耿马| 丰县| 达州市|