• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種基于本體語(yǔ)義驅(qū)動(dòng)的開(kāi)放生物醫(yī)學(xué)數(shù)據(jù)集成方法

      2017-12-11 09:31:42劉玉文
      關(guān)鍵詞:生物醫(yī)學(xué)實(shí)例本體

      王 凱,劉玉文,2

      (1.蚌埠醫(yī)學(xué)院 衛(wèi)生管理系,安徽 蚌埠 233030;2.中國(guó)科學(xué)技術(shù)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,安徽 合肥 230027)

      一種基于本體語(yǔ)義驅(qū)動(dòng)的開(kāi)放生物醫(yī)學(xué)數(shù)據(jù)集成方法

      王 凱1,劉玉文1,2

      (1.蚌埠醫(yī)學(xué)院 衛(wèi)生管理系,安徽 蚌埠 233030;2.中國(guó)科學(xué)技術(shù)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,安徽 合肥 230027)

      生物醫(yī)學(xué)研究通常需要結(jié)合大量異構(gòu)數(shù)據(jù),數(shù)據(jù)間的語(yǔ)義鴻溝限制了生物醫(yī)學(xué)領(lǐng)域知識(shí)大規(guī)模融合與開(kāi)發(fā)。語(yǔ)義Web使用機(jī)器可讀的數(shù)據(jù)格式,為數(shù)據(jù)語(yǔ)義集成提供了可行的技術(shù)支持。本文提出了一種面向語(yǔ)義Web的開(kāi)放式異構(gòu)生物醫(yī)學(xué)數(shù)據(jù)語(yǔ)義轉(zhuǎn)換和集成方法,建立基于XML(Extensible Markup Language)數(shù)據(jù)實(shí)體與語(yǔ)義本體概念關(guān)系之間的映射關(guān)系集,包含不同類(lèi)型的映射關(guān)系以及復(fù)雜數(shù)據(jù)變換模式,自動(dòng)生成具備語(yǔ)義邏輯關(guān)系一致的映射數(shù)據(jù)集,實(shí)現(xiàn)多個(gè)異構(gòu)數(shù)據(jù)源數(shù)據(jù)之間的互聯(lián)與集成。試驗(yàn)結(jié)果表明,基于本體語(yǔ)義驅(qū)動(dòng)的開(kāi)放生物醫(yī)學(xué)數(shù)據(jù)集成方法可以進(jìn)一步提高計(jì)算機(jī)的異構(gòu)數(shù)據(jù)理解能力,證明轉(zhuǎn)換和集成異構(gòu)生物醫(yī)學(xué)數(shù)據(jù)信息是切實(shí)可行的。

      語(yǔ)義本體;生物醫(yī)學(xué)數(shù)據(jù);映射;轉(zhuǎn)換與集成

      生物醫(yī)學(xué)數(shù)據(jù)的異構(gòu)性和分散性使得數(shù)據(jù)的檢索和管理異常困難,主要存在領(lǐng)域數(shù)據(jù)資源的信息難以挖掘、異構(gòu)數(shù)據(jù)類(lèi)型和字段無(wú)法語(yǔ)義解釋以及資源訪問(wèn)和查詢(xún)錯(cuò)誤率較高等問(wèn)題。生物醫(yī)學(xué)數(shù)據(jù)集成的目的是將重要的生物學(xué)數(shù)據(jù)最終能夠應(yīng)用到臨床診斷活動(dòng)中,并為診療工作提供必要的決策支持。因此,迫切需要找到能夠識(shí)別異構(gòu)數(shù)據(jù)資源的集成方法,消除語(yǔ)義鴻溝。目前使用較為廣泛的數(shù)據(jù)語(yǔ)義轉(zhuǎn)換方法是面向數(shù)據(jù)倉(cāng)庫(kù)以及聯(lián)機(jī)分析處理(Online analytical processing ,OLAP)的XML數(shù)據(jù)和關(guān)系數(shù)據(jù)庫(kù)處理。文獻(xiàn)[1]提出了一種將XML元素轉(zhuǎn)換成RDF(Resource Description Frame)語(yǔ)句的方法,實(shí)現(xiàn)數(shù)據(jù)格式的語(yǔ)義變化,但該方法無(wú)法實(shí)現(xiàn)XML的屬性關(guān)系映射。文獻(xiàn)[2]以XSD( XML Schemas Definition )和owl(Ontology Web Language)之間的映射關(guān)系為基礎(chǔ),通過(guò)應(yīng)用相同的規(guī)則,構(gòu)建RDF與 XML實(shí)例之間的關(guān)系映射。文獻(xiàn)[3]提出基于XPath的數(shù)據(jù)轉(zhuǎn)換機(jī)制,將XML格式數(shù)據(jù)轉(zhuǎn)換成RDF格式。在關(guān)系數(shù)據(jù)庫(kù)轉(zhuǎn)換方面,W3C (World Wide Web)提出關(guān)系數(shù)據(jù)庫(kù)到RDF的規(guī)范化變換圖,改變數(shù)據(jù)格式。上述轉(zhuǎn)換方法,由于沒(méi)有考慮到數(shù)據(jù)的潛在語(yǔ)義信息,缺乏對(duì)數(shù)據(jù)核心語(yǔ)義信息的保留,導(dǎo)致轉(zhuǎn)換后的數(shù)據(jù)語(yǔ)義信息流失率較高。

      本文提出一種面向異構(gòu)數(shù)據(jù)源的開(kāi)放生物醫(yī)學(xué)數(shù)據(jù)集成方法。通過(guò)與關(guān)系數(shù)據(jù)庫(kù)、XML文檔以及電子病歷等數(shù)據(jù)載體的協(xié)同操作,產(chǎn)生基于領(lǐng)域本體的數(shù)據(jù)描述集,實(shí)現(xiàn)數(shù)據(jù)轉(zhuǎn)換。數(shù)據(jù)集成過(guò)程由領(lǐng)域語(yǔ)義驅(qū)動(dòng),通過(guò)定義數(shù)據(jù)模式與本體間的映射,獲取滿足邏輯一致性的數(shù)據(jù)信息。結(jié)合動(dòng)態(tài)集成機(jī)制采用多源數(shù)據(jù)集,創(chuàng)建原始數(shù)據(jù)語(yǔ)義庫(kù),用于合并包含在不同資源中的同一實(shí)體數(shù)據(jù)。本文的目標(biāo)是轉(zhuǎn)換和集成異構(gòu)生物醫(yī)學(xué)數(shù)據(jù);構(gòu)建面向領(lǐng)域知識(shí)驅(qū)動(dòng)的映射規(guī)則。

      1 生物醫(yī)學(xué)數(shù)據(jù)集的半自動(dòng)化建模方法

      圖1是單個(gè)輸入數(shù)據(jù)資源的數(shù)據(jù)集成與轉(zhuǎn)換框架。使用XML和關(guān)系數(shù)據(jù)庫(kù)作為輸入數(shù)據(jù)模型,通過(guò)定義基于數(shù)據(jù)輸入約束規(guī)則和OWL本體之間的映射關(guān)系,建立統(tǒng)一的標(biāo)識(shí)規(guī)則,確定屬性與本體類(lèi)的實(shí)例,該規(guī)則允許合并同一類(lèi)的不同個(gè)體。此外,利用數(shù)據(jù)檢測(cè)技術(shù)以及自動(dòng)推理技術(shù),檢查OWL本體的一致性,避免創(chuàng)建邏輯不一致的內(nèi)容。通常情況下,該方法可以擴(kuò)展到任何包含實(shí)體、屬性和關(guān)系的輸入數(shù)據(jù)模型,輸出RDF或OWL格式數(shù)據(jù)實(shí)例,如圖1所示。

      圖1 數(shù)據(jù)集成與轉(zhuǎn)換框架

      2.1生物醫(yī)學(xué)數(shù)據(jù)表示

      病人電子健康記錄存儲(chǔ)了病人在醫(yī)療診斷和健康保健等過(guò)程中的大量有效信息。相關(guān)專(zhuān)家研究解決了電子病歷的標(biāo)準(zhǔn)化和規(guī)范化問(wèn)題,采用雙建模層次構(gòu)建信息模型,用于信息表示和規(guī)范化說(shuō)明,制定了基于雙模型架構(gòu)的openEHR[4]以及ISO EN13606[5]等標(biāo)準(zhǔn)格式。標(biāo)準(zhǔn)格式結(jié)構(gòu)的電子病歷提供了通用化的信息表示模型,規(guī)范了數(shù)據(jù)的表達(dá)形式,有利于統(tǒng)一化信息的語(yǔ)義標(biāo)準(zhǔn)。電子病歷數(shù)據(jù)的提取通常表示為一組XML文件,其內(nèi)容應(yīng)滿足規(guī)定的約束條件??缯Z(yǔ)義數(shù)據(jù)融合需要將數(shù)據(jù)轉(zhuǎn)換成具有語(yǔ)義識(shí)別能力的語(yǔ)義格式。XML技術(shù)和關(guān)系數(shù)據(jù)庫(kù)提供了定義數(shù)據(jù)集結(jié)構(gòu)的基本模式和結(jié)構(gòu)框架。本文基于XML schemas和關(guān)系數(shù)據(jù)模式定義數(shù)據(jù)的通用語(yǔ)義處理方法。

      開(kāi)放數(shù)據(jù)集中的數(shù)據(jù)在數(shù)據(jù)粒度、數(shù)值范圍、規(guī)模以及來(lái)源等方面存在巨大差異,同時(shí)伴隨著信息動(dòng)態(tài)增長(zhǎng),數(shù)據(jù)差異呈現(xiàn)動(dòng)態(tài)變化。萬(wàn)維網(wǎng)聯(lián)盟開(kāi)發(fā)了一系列用于數(shù)據(jù)交換的語(yǔ)義Web標(biāo)準(zhǔn)(如RDF),用于語(yǔ)義表示的形式化工具(如OWL本體語(yǔ)言),數(shù)據(jù)查詢(xún)結(jié)構(gòu)(如SPARQL)以及用于存儲(chǔ)數(shù)據(jù)的語(yǔ)義機(jī)制(如RDF的存儲(chǔ)架構(gòu)triplestores)。自動(dòng)描述邏輯推理機(jī)(如Hermit或 Pellet)可用于檢查語(yǔ)義Web數(shù)據(jù)的一致性以及語(yǔ)義信息推理。開(kāi)放數(shù)據(jù)集[6](Open data set)是基于語(yǔ)義Web數(shù)據(jù)標(biāo)準(zhǔn)下的語(yǔ)義信息存儲(chǔ)、發(fā)布和共享的語(yǔ)義格式數(shù)據(jù)共享集合。開(kāi)放數(shù)據(jù)集應(yīng)滿足四個(gè)基本要求:(1)基于URI的實(shí)體命名規(guī)則;(2)基于HTTP URI的數(shù)據(jù)查詢(xún)格式;(3)面向語(yǔ)義Web標(biāo)準(zhǔn)的數(shù)據(jù)檢索形式(如RDF和SPARQL);(4)面向數(shù)據(jù)發(fā)現(xiàn)的URIs鏈接。

      2.2數(shù)據(jù)轉(zhuǎn)換及映射規(guī)則

      數(shù)據(jù)轉(zhuǎn)換規(guī)則的核心是如何確定輸入數(shù)據(jù)集的內(nèi)容轉(zhuǎn)化為語(yǔ)義格式,主要涉及兩個(gè)方面:(1)輸入數(shù)據(jù)是否按語(yǔ)義模式轉(zhuǎn)化為語(yǔ)義格式;(2)輸出數(shù)據(jù)集是否存在數(shù)據(jù)冗余。本節(jié)定義了兩種主要類(lèi)型的規(guī)則,即映射規(guī)則和同一性規(guī)則。

      映射規(guī)則的定義將用圖2所示的例子說(shuō)明。該例采用基于orthoxml的標(biāo)準(zhǔn)化輸入模式(圖2左上)表示同源基因信息,同源領(lǐng)域知識(shí)模型用本體表示(圖2右上)。用方框表示輸入數(shù)據(jù)模式的實(shí)體,用@表示屬性,用箭頭表示關(guān)系。本體中的類(lèi)使用圓角框表示,數(shù)據(jù)的屬性使用實(shí)心箭頭鏈接。利用映射規(guī)則建立實(shí)體、屬性與本體類(lèi)之間的語(yǔ)義關(guān)系以及數(shù)值類(lèi)型屬性和對(duì)象之間的語(yǔ)義關(guān)系。類(lèi)和對(duì)象的屬性通過(guò)虛線相連,表示從xml架構(gòu)到本體的映射。本體包含一系列的前綴,其中 ro表示關(guān)系本體,ncbi表示NCBI 分類(lèi),cdao表示數(shù)據(jù)對(duì)比分析本體以及sio表示語(yǔ)義集成本體。

      本方法需要轉(zhuǎn)換實(shí)體、屬性和關(guān)系,映射規(guī)則允許實(shí)現(xiàn)三個(gè)層次的一致性。為此,定義了三種基本映射規(guī)則:

      實(shí)體映射規(guī)則。它是指將輸入實(shí)體映射到OWL本體中的類(lèi)。允許在OWL本體中創(chuàng)建個(gè)體實(shí)例。若S表示標(biāo)準(zhǔn)輸入模式實(shí)體,T表示目標(biāo)本體的類(lèi),則實(shí)體映射函數(shù)entity_rule(S,T)表示對(duì)任何實(shí)例 ,存在一個(gè)符合一致性約束的個(gè)體t與之對(duì)應(yīng)。如圖2中的實(shí)體映射規(guī)則實(shí)現(xiàn)基于XML架構(gòu)的元素基因和本體中的基因類(lèi)的映射鏈接。實(shí)體映射規(guī)則允許使用條件語(yǔ)句,進(jìn)行補(bǔ)充定義,只將某些滿足特定屬性值的實(shí)例進(jìn)行轉(zhuǎn)換。若A1是與S相關(guān)聯(lián)的屬性, C1在A1條件下的布爾變量,則entity_rule(S,T,C1)表示對(duì)任何實(shí)例 ,總存在C1不為假的條件下的一致性約束的個(gè)體t∈T。

      圖2 OrthoXML與本體實(shí)例映射關(guān)系圖

      屬性映射規(guī)則。它是指將實(shí)體中的屬性映射到OWL本體類(lèi)中的數(shù)值型屬性。允許在本體中指定數(shù)值型屬性的數(shù)值。設(shè)S是輸入模式的一個(gè)實(shí)體,T是一個(gè)本體類(lèi),屬性A1、A2是與S和T分別關(guān)聯(lián)的數(shù)值型屬性,則該映射函數(shù)attribute_rule((S,A1),(T,A2))表示對(duì)實(shí)體S中任何與A1相關(guān)聯(lián)的實(shí)例,通過(guò)映射,總能在本體的類(lèi)T中找到與數(shù)值型屬性A2相關(guān)聯(lián)的一致性個(gè)體T,且A1和A2具有相同的屬性值。如圖2中的屬性映射規(guī)則表示OrthoXML中元基因?qū)傩詉d與本體基因類(lèi)中數(shù)值型屬性Identifier映射鏈接。

      關(guān)系映射規(guī)則。它是指將兩個(gè)實(shí)體的關(guān)聯(lián)關(guān)系映射到OWL本體中兩個(gè)類(lèi)之間的對(duì)象屬性關(guān)系。若實(shí)體S1和S2通過(guò)關(guān)系R1相關(guān)聯(lián),本體類(lèi)T1和T2通過(guò)對(duì)象屬性R2相關(guān)聯(lián),則該映射函數(shù)relation_rule((S1,R1,S2),(T1,R2,T2))是對(duì)任意給定的S1、S2的關(guān)聯(lián)關(guān)系R1,實(shí)體映射函數(shù)entity_rule(S1,T1)和entity_rule(S2,T2),均存在一個(gè)對(duì)象屬性R2,使得類(lèi)T1、T2分別與其構(gòu)成關(guān)聯(lián)關(guān)系。如圖2中的關(guān)系映射規(guī)則將XML模式中的物種與基因之間的層次關(guān)系映射到本體中的對(duì)象屬性關(guān)系in_taxon RO。

      2.3同一性規(guī)則判別

      同一性規(guī)則定義的對(duì)象是數(shù)據(jù)類(lèi)型屬性以及對(duì)象屬性,在本體中實(shí)現(xiàn)對(duì)個(gè)體的區(qū)分。目的是為了防止重復(fù)內(nèi)容的創(chuàng)建以及支持面向多數(shù)據(jù)源的數(shù)據(jù)整合。同一性規(guī)則能夠區(qū)別不同的URI實(shí)體。

      若IR是數(shù)據(jù)類(lèi)型屬性集或本體類(lèi)C的對(duì)象屬性集, identity_rule(C,IR)表示在C中的所有實(shí)例與IR中的元素具有相同的值。利用數(shù)值型屬性identifier以及對(duì)象屬性定義如下同一性規(guī)則,其含義解釋如下:通過(guò)對(duì)象屬性ro:in_taxon, Gene類(lèi)的實(shí)例(見(jiàn)表1)與NCBI:organisms類(lèi)的實(shí)例具有相同的數(shù)值,即表示同一個(gè)元素。轉(zhuǎn)化具體執(zhí)行過(guò)程如下:

      (1)檢索和執(zhí)行基本實(shí)體規(guī)則。為本體中的所有類(lèi)生成一組新的實(shí)例集I。

      (2)每一個(gè)轉(zhuǎn)換模態(tài)組代表了一組新添加的實(shí)例集,需要添加到I上,通過(guò)檢查他們的定義,區(qū)別每組模態(tài)信息。

      (3)對(duì)于集合的每個(gè)實(shí)例,執(zhí)行如下過(guò)程:模式內(nèi)剩余的其他說(shuō)明語(yǔ)句也將被執(zhí)行以添加附加語(yǔ)義內(nèi)容;檢索和執(zhí)行基本屬性規(guī)則,對(duì)實(shí)例的數(shù)值型屬性賦值以及將對(duì)象屬性實(shí)例化;檢查同一性規(guī)則,如果實(shí)例是唯一的,則將其添加到輸出數(shù)據(jù)集;否則,將其合并或鏈接到一個(gè)等效的元素上。

      表1 蛋白質(zhì)的模式化定義

      2.4數(shù)據(jù)集成

      面向異構(gòu)資源的數(shù)據(jù)集成模型以相同的OWL本體作為數(shù)據(jù)驅(qū)動(dòng),采用上述數(shù)據(jù)轉(zhuǎn)換規(guī)則處理不同來(lái)源的異構(gòu)數(shù)據(jù)。集成核心內(nèi)容是將XML模式數(shù)據(jù)映射到OWL本體,OWL本體可能包含一系列相關(guān)聯(lián)的本體轉(zhuǎn)換模態(tài),以支持集成過(guò)程。使用數(shù)據(jù)集成模型有利于重用不同資源的轉(zhuǎn)換規(guī)則,降低輸入數(shù)據(jù)的結(jié)構(gòu)異質(zhì)性。表2顯示了使用的OWL本體中定義蛋白質(zhì)的模式用例,這種模式不僅降低用戶在構(gòu)建數(shù)據(jù)模型時(shí)對(duì)本體結(jié)構(gòu)認(rèn)知所產(chǎn)生的數(shù)據(jù)偏差,而且只需做少量修改就能實(shí)現(xiàn)以不同方式存儲(chǔ)關(guān)系蛋白CDS轉(zhuǎn)錄數(shù)據(jù),而不需要提前在輸入模式時(shí)加以定義。表2顯示了在處理與直接蛋白質(zhì)轉(zhuǎn)錄沒(méi)有關(guān)系的數(shù)據(jù)資源時(shí),如何從變量 protein中設(shè)置參數(shù)變量 cds。

      表2 蛋白質(zhì)的修正模式化定義(不含CDs)

      通過(guò)對(duì)每個(gè)輸入資源進(jìn)行數(shù)據(jù)變換來(lái)實(shí)現(xiàn)數(shù)據(jù)集成,利用映射規(guī)則生成OWL本體,并且在轉(zhuǎn)換過(guò)程中應(yīng)用同一性規(guī)則限制數(shù)據(jù)冗余,同時(shí)合并數(shù)據(jù)實(shí)例,確定來(lái)自不同數(shù)據(jù)源的實(shí)例是否對(duì)應(yīng)于同一個(gè)實(shí)例域,合并具有相同URI的數(shù)據(jù)實(shí)例。

      數(shù)據(jù)集成模型所處理的核心內(nèi)容描述如下:

      ◆命名沖突:不同的輸入模式數(shù)據(jù)可能使用不同的術(shù)語(yǔ)表達(dá)相同的數(shù)據(jù)元素(即實(shí)體、屬性與關(guān)系)[7]。從不同的XML資源到OWL本體的映射解決了輸出本體中通用詞匯的集成問(wèn)題。

      ◆數(shù)據(jù)冗余:多個(gè)數(shù)據(jù)輸入資源實(shí)例可能描述同一個(gè)實(shí)體域,并被映射到OWL本體的同一類(lèi)中[8]。同一性規(guī)則能夠檢測(cè)上述冗余情況,通過(guò)實(shí)體合并或鏈接到相應(yīng)的OWL數(shù)據(jù),以減少數(shù)據(jù)規(guī)模。

      ◆數(shù)據(jù)不一致:數(shù)據(jù)缺失會(huì)引起數(shù)據(jù)的不一致問(wèn)題。對(duì)于給定的實(shí)體,相比于OWL本體,XML數(shù)據(jù)模式可能存儲(chǔ)較少的屬性和關(guān)系信息。在數(shù)據(jù)映射時(shí),XML數(shù)據(jù)可能只對(duì)部分OWL本體實(shí)例產(chǎn)生語(yǔ)義關(guān)系,會(huì)導(dǎo)致數(shù)據(jù)部分缺失,帶來(lái)OWL知識(shí)庫(kù)的不一致。本模型采取的處理方法是:當(dāng)檢測(cè)到這種情況時(shí),將不轉(zhuǎn)換相應(yīng)的源數(shù)據(jù),從而防止不一致的發(fā)生。為降低該方法所帶來(lái)的數(shù)據(jù)信息缺失量,將未參與映射的剩余本體實(shí)例數(shù)據(jù)添加到映射結(jié)果集。

      ◆資源之間的差異:由于不同的數(shù)據(jù)資源可能生成同一個(gè)OWL實(shí)例,其共同的屬性或關(guān)系數(shù)值可能不同。這可能是在使用同一性規(guī)則時(shí),未將來(lái)自不同資源的信息實(shí)體區(qū)別標(biāo)注,導(dǎo)致屬性間存在假性關(guān)聯(lián)。在這種情況下,增加關(guān)系映射后驗(yàn)條件判斷,若該實(shí)體的存在會(huì)引起知識(shí)庫(kù)的不一致性,則它們被認(rèn)為是不同的個(gè)體,分別生成各自的本體實(shí)例。

      3 實(shí)驗(yàn)設(shè)計(jì)

      在本節(jié)中,首先將描述實(shí)現(xiàn)轉(zhuǎn)換方法的整體實(shí)驗(yàn)設(shè)計(jì)。其次將介紹如何將該模型用于不同的生物醫(yī)學(xué)場(chǎng)景。

      3.1實(shí)驗(yàn)用例

      通過(guò)從生物醫(yī)學(xué)領(lǐng)域選取典型數(shù)據(jù)電子病歷,分析本模型所提出的方法在數(shù)據(jù)映射、轉(zhuǎn)換以及集成等環(huán)節(jié)的數(shù)據(jù)整合效果。

      電子病歷數(shù)據(jù)涉及醫(yī)療系統(tǒng)的數(shù)字化信息,本實(shí)驗(yàn)用例選取超過(guò)2000名結(jié)直腸癌患者的電子病歷數(shù)據(jù),采用去隱私化技術(shù)隱去敏感字段,將數(shù)據(jù)轉(zhuǎn)化成XML語(yǔ)義格式。使用自動(dòng)推理方法確定每個(gè)病人的風(fēng)險(xiǎn)水平。采用領(lǐng)域本體技術(shù)將XML轉(zhuǎn)換成openEHR格式數(shù)據(jù),其中組織病理學(xué)報(bào)告的模式化定義如表3所示。這一模式定義了基于領(lǐng)域本體的組織病理報(bào)告數(shù)據(jù)類(lèi),包含一個(gè)結(jié)果集(hasfinding)記錄、發(fā)現(xiàn)腺瘤總數(shù)以及腺瘤的大小。

      表3 組織病理學(xué)報(bào)告的模式化定義

      3.2設(shè)計(jì)內(nèi)容

      通過(guò)MySQL數(shù)據(jù)庫(kù),將XML Schema和ADL作為輸入數(shù)據(jù)模式。輸出數(shù)據(jù)集使用OWL或RDF格式,用戶可以定義輸入模式以及OWL本體之間的映射關(guān)系集。為此,在其他轉(zhuǎn)換過(guò)程中允許創(chuàng)建映射上載和重用。一旦映射被定義,可以順序執(zhí)行,從而產(chǎn)生相應(yīng)的RDF或OWL格式的數(shù)據(jù)內(nèi)容。應(yīng)用映射規(guī)則的數(shù)據(jù)源生成的語(yǔ)義內(nèi)容,通過(guò)一致性規(guī)則約束保證不產(chǎn)生多余的數(shù)據(jù)信息;通過(guò)自動(dòng)推理模塊,以確保轉(zhuǎn)化的內(nèi)容具有邏輯一致性。采用OWLAPI[9]和Jena API來(lái)處理和生成的RDF和OWL數(shù)據(jù),使用Hermit推理機(jī)[10]作為語(yǔ)義數(shù)據(jù)推理工具。

      圖3顯示了映射接口的核心部分,包含三個(gè)主要部分。左側(cè)使用分層關(guān)系表示數(shù)據(jù)輸入模式。右側(cè)對(duì)應(yīng)OWL本體。圖的下部是一個(gè)文本框,包含定義的映射規(guī)則,如第三行定義了從實(shí)體molecule類(lèi)的coorddimension屬性到本體Molecule類(lèi)的數(shù)據(jù)類(lèi)型屬性coord_dimension的映射關(guān)系。

      圖4是將XML輸入模式的實(shí)體映射到轉(zhuǎn)換模式的定義系統(tǒng)截圖。圖的左邊是輸入模式openEHR原型,被映射到以本體形式表示的轉(zhuǎn)換模式組織病理學(xué)報(bào)告中。圖中可以看到,該映射與原型模式的各變量的特定元素產(chǎn)生關(guān)聯(lián)關(guān)系。

      圖3 映射接口關(guān)系圖

      4 總結(jié)與分析

      本模型相比較于rdb-owl的手工定義映射模型,不會(huì)受限于關(guān)聯(lián)格式輸入數(shù)據(jù),且處理復(fù)雜的本體或異構(gòu)源數(shù)據(jù)的集成能力較強(qiáng)。比較于Karma的半自動(dòng)database-ontology數(shù)據(jù)集成模型,對(duì)先前映射過(guò)程的知識(shí)基礎(chǔ)依賴(lài)度較小,適合處理規(guī)模較大的領(lǐng)域知識(shí)集。以數(shù)據(jù)倉(cāng)庫(kù)為導(dǎo)向的集成方法,集成數(shù)據(jù)語(yǔ)義鏈接功能,通過(guò)定義數(shù)據(jù)轉(zhuǎn)換規(guī)則與映射規(guī)則,允許定義外部數(shù)據(jù)集。與bio-rdf模型所不同的是,本模型的語(yǔ)料庫(kù)包含來(lái)自多個(gè)數(shù)據(jù)源的數(shù)據(jù),語(yǔ)義信息更加豐富,集成后的數(shù)據(jù)信息可操作性較強(qiáng)。將減少關(guān)系數(shù)據(jù)或XML數(shù)據(jù)源的約束條件,只需要定義映射的主要規(guī)則,通過(guò)數(shù)據(jù)語(yǔ)義轉(zhuǎn)換,實(shí)現(xiàn)半自動(dòng)化數(shù)據(jù)集成,并通過(guò)同一性規(guī)則檢查,降低數(shù)據(jù)冗余度,提高映射集數(shù)據(jù)質(zhì)量與可靠性。

      圖4 XML輸入模式的實(shí)體映射到轉(zhuǎn)換模式的定義系統(tǒng)截圖

      生物醫(yī)學(xué)數(shù)據(jù)集的開(kāi)放性以及語(yǔ)義格式的可用性,將有利于生物醫(yī)學(xué)數(shù)據(jù)的互操作。本文提出了一種基于本體的異構(gòu)數(shù)據(jù)源轉(zhuǎn)換與集成模型。較其他方法有以下改進(jìn):采用基于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)轉(zhuǎn)換方法。首先,面向語(yǔ)義Web的生物醫(yī)學(xué)數(shù)據(jù)需要開(kāi)發(fā)程序具備兼容bio rdf或EBI的RDF平臺(tái)的數(shù)據(jù)接口,數(shù)據(jù)語(yǔ)義倉(cāng)庫(kù)能夠滿足語(yǔ)義資源池的基本條件,即包含LOD的可用性資源DF和OWL。其次,在生成OWL知識(shí)庫(kù)的同時(shí),需要使用OWL DL的推理機(jī)制,實(shí)現(xiàn)數(shù)據(jù)的一致性處理以及降低數(shù)據(jù)冗余度,使獲得的數(shù)據(jù)集鏈接能夠使用較小的系統(tǒng)開(kāi)銷(xiāo),完成外部資源的數(shù)據(jù)融合。第三,為解決OBDA方法不便于應(yīng)用于本體與XML模式映射的問(wèn)題,使用數(shù)據(jù)語(yǔ)義倉(cāng)庫(kù)能夠豐富的數(shù)據(jù)語(yǔ)義表示,提高數(shù)據(jù)映射的邏輯準(zhǔn)確性。

      [1] Galperin M Y, Rigden D J, Fernández-Suárez XM. Nucleic Acids Research Database Issue and Molecular Biology Database Collection[J]. Nucleic Acids Res, 2015:112-120.

      [2] Tapuria A, Kalra D, Kobayashi S. Contribution of Clinical Archetypes, and the Challenges, towards Achieving Semantic Interoperability for EHRs[J]. Healthcare Informatics Research, 2013, 19: 286-293.

      [3] Jupp S, Malone J, Bolleman J, et al. The EBI RDF platform: linked open data for the life sciences[J].Bioinformatics, 2014, 30:1338-1345.

      [4] Wang Y, Tao J, et al. Information retrieval and data mining based on open network knowledge[J].Journal of Computer Research and Development, 2014, 52: 456-474.

      [5] Evangelista A T, Hassanien A E .Dimensionality reduction of medical big data using neural-fuzzy classifier[J].Soft Computer, 2014, 19: 1115-1122.

      [6] Abello A, Romero O, Bach Pedersen T, Berlanga R, Nebot V, Aramburu MJ, Simitsis A. Using Semantic Web technologies for exploratory OLAP: a survey[J]. IEEE Transactions on Knowledge and Data Engineering, 2015(2): 571-585.

      [7] 李勇,張志剛.基于本體語(yǔ)義檢索技術(shù)研究[J].計(jì)算機(jī)工程與科學(xué),2015(4): 17-19.

      [8] 劉宇鵬,李生,趙鐵軍.基于WordNet 詞義消歧的系統(tǒng)融合[J].自動(dòng)化學(xué)報(bào),2014(11): 1575-1580.

      [10] Martínez-Costa C, Schulz S. Ontology content patterns as bridge for the semantic representation of clinical information[J]. Applied clinical informatics, 2014: 660-668.

      (責(zé)任編輯:熊文濤)

      AnIntegrationMethodofOpenBiomedicalDrivenbyDataSemanticOntology

      Wang Kai1, Liu Yuwen1,2

      (1.DepartmentofHealthManagement,BengbuMedicalCollege,Bengbu,Anhui233030,China;2.SchoolofComputerScienceandTechnology,UniversityofScienceandTechnologyofChina,Hefei,Anhui230027,China)

      Biomedical research usually requires a large number of heterogeneous data. The semantic gap between data limits the large-scale integration and development of biomedical knowledge. Semantic Web provides a feasible technical support for data semantic integration using the machine-readable data format. This paper presents a method for Semantic Web oriented open semantic heterogeneous biomedical data conversion and integration. In this approach, the mapping relationship between XML data entity and the concept of ontology based semantic set is established to obtain the mapping relationship between different types and complicated data transformation model. The semantic logical relation mapping data consistent set is automatic generated automatically to achieve interoperability between data from heterogeneous data sources and integration. Experimental results show that the integrated method of open biomedical data ontology driven by the heterogeneous data for computer to further improve the understanding. It is verified to be feasible for the transformation and integration of heterogeneous biomedical data.

      semantic ontology; biomedical data; mapping; transformation and integration

      TP391

      A

      2095-4824(2017)06-0078-07

      2017-02-25

      安徽省高校自然科學(xué)一般項(xiàng)目(KJ2015B023by);蚌埠醫(yī)學(xué)院自然科學(xué)重點(diǎn)項(xiàng)目(Byky1411ZD)

      王 凱(1985- ),男,安徽蚌埠人,蚌埠醫(yī)學(xué)院衛(wèi)生管理系講師,碩士。

      劉玉文(1982- ),男,安徽鳳陽(yáng)人,蚌埠醫(yī)學(xué)院衛(wèi)生管理系講師,中國(guó)科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院訪問(wèn)學(xué)者,碩士。

      猜你喜歡
      生物醫(yī)學(xué)實(shí)例本體
      Abstracts and Key Words
      芻議“生物醫(yī)學(xué)作為文化”的研究進(jìn)路——兼論《作為文化的生物醫(yī)學(xué)》
      靈長(zhǎng)類(lèi)生物醫(yī)學(xué)前沿探索中的倫理思考
      對(duì)姜夔自度曲音樂(lè)本體的現(xiàn)代解讀
      國(guó)外生物醫(yī)學(xué)文獻(xiàn)獲取的技術(shù)工具:述評(píng)與啟示
      LED光源在生物醫(yī)學(xué)中的應(yīng)用分析
      《我應(yīng)該感到自豪才對(duì)》的本體性教學(xué)內(nèi)容及啟示
      完形填空Ⅱ
      完形填空Ⅰ
      Care about the virtue moral education
      卷宗(2013年6期)2013-10-21 21:07:52
      兰溪市| 通城县| 盈江县| 恭城| 隆化县| 鸡泽县| 施甸县| 来安县| 府谷县| 宁化县| 东辽县| 和平县| 丹巴县| 南郑县| 张家港市| 雷州市| 开阳县| 英超| 长海县| 松滋市| 潢川县| 九江市| 临桂县| 临沂市| 睢宁县| 南城县| 瑞金市| 封开县| 泰来县| 勃利县| 开原市| 东山县| 绩溪县| 沁水县| 清原| 伊宁市| 陇南市| 小金县| 嘉禾县| 安新县| 定西市|