宮法明, 崔 佳
(中國石油大學(華東) 計算機與通信工程學院, 青島 266580)
隨著全球信息化的推進, 石油領域進入了信息爆炸的時代. 大量來源不同的石油數(shù)據(jù)缺乏統(tǒng)一的表達方式及語義描述, 給數(shù)據(jù)分析帶來了極大的困難. 實現(xiàn)數(shù)據(jù)重用和信息共享成為石油行業(yè)的巨大挑戰(zhàn)[1].
數(shù)據(jù)融合可以把把不同來源、不同角度的數(shù)據(jù)結合在一起, 并且為用戶提供統(tǒng)一的數(shù)據(jù)接口[2]. 本體通常用來表示領域知識, 解決數(shù)據(jù)融合過程中的語義異構問題. 因此, 本文提出了一種新型的數(shù)據(jù)融合框架,能夠實現(xiàn)不同來源石油數(shù)據(jù)的融合問題. 為解決上述問題, 本文提出了一種新型的數(shù)據(jù)融合框架, 能夠實現(xiàn)多源數(shù)據(jù)語義上的融合. 該框架是在一個兩層本體結構的基礎上實現(xiàn)的. 如圖1所示, 框架分為 4 層: 源數(shù)據(jù)層、本體層、融合層和用戶層. 源數(shù)據(jù)層包含來自不同數(shù)據(jù)源的數(shù)據(jù), 本體層是能夠實現(xiàn)數(shù)據(jù)語義融合的兩層本體結構, 融合層提供了一些沖突數(shù)據(jù)的融合規(guī)則, 用戶層則將融合結果展示給用戶.
本文提出了一個四級信息融合框架來解決石油領域的信息融合問題. 文章以下部分的組織結構如下: 第一部分介紹了基于本體的融合模型的研究現(xiàn)狀; 第二部分提出了本體的語義模型定義及本體間的映射關系;第三部分介紹了基于本體的融合規(guī)則; 第四部分通過實驗證明了該融合框架的可行性; 第五部分對全文進行了總結.
圖1 四層融合框架圖
本體通過領域中的概念及概念之間的關系來表示領域知識[3]. 鑒于本體較強的語義表達和語義推理的能力, 很多研究人員利用本體來解決語義異構問題.
一般來說, 運用本體的方式有三種模式: 單本體模式、多本體模式和混合模式[4]. 單本體模式是通過一個全局本體提供的詞匯表表示語義. 這種模式是簡單地把所有信息源都和一個全局本體建立起映射關系. 由Arens提出的SIMS模型[5]就是運用了單本體的方法.但是單本體模式只適用于所有信息源都是從同一角度描述的情況. 多本體模式突破了這種限制, 每個信息源都有相應的本體與之對應. OBSERVER模型[6]就是一種基于多本體模式的模型, 通過不同的本體來表示不同數(shù)據(jù)源的語義, 但是本體之間關系定義困難, 而且在需要添加信息源的時候, 需要添加所有舊本體與新添加的本體之間的映射關系. 為了解決上述兩種模式的缺點, Cheng[7]和 Wache 等[8]提出了混合模式, 在多本體的基礎上構建了一個全局共享詞典, 將不同的本體通過共享詞典聯(lián)系起來. 混合模式的優(yōu)勢在于當需要添加新的信息源的時候, 本體與共享詞典之間的映射不需要改動. Visser[9]提出了可以用一個全局本體來代替全局共享詞典. 本文提出的模型就是基于混合模式的融合模型.
許多研究人員都在以上三種模式的基礎上進行了研究. 趙春江等人[3]提出了一種混合本體結構, 實現(xiàn)了自上而下的融合. 徐賜軍等[10]提出了一個基于本體和元數(shù)據(jù)庫的知識融合模型. Boury-Brisset[11]利用本體化方法, 實現(xiàn)了高級別的信息融合, 并將其應用在軍事規(guī)劃領域. 謝能付[12]也在農業(yè)領域做了借助本體進行農業(yè)信息融合的相關研究, 并且提出了一個針對Web信息的只是融合框架[13]. 易善楨等人提出了一種用于數(shù)據(jù)融合估計的目標地理實體模型和基于圖形的本體方法[14]. 王遠等人[1]利用全局本體實現(xiàn)了飛機故障數(shù)據(jù)融合, 對多源數(shù)據(jù)進行了統(tǒng)一具體的描述. Pai等人[15]用本體的語義網(wǎng)技術融合軍事信息并解決軍事中的態(tài)勢感知問題. 李曉麗等人[16]提出了一個JDL模型能夠實現(xiàn)一級和二級信息的融合.
本文基于混合模式提出了一種石油領域的融合模型, 能夠解決石油信息的語義異構問題, 實現(xiàn)信息融合.
基于混合模式, 我們采用一個兩層本體的結構: 全局領域本體和局部本體.
局部本體對應的數(shù)據(jù)源有不同的存儲模式, 例如,關系數(shù)據(jù)庫, RDF和結構化、非結構化的數(shù)據(jù)文件等.局部本體可以實現(xiàn)信息源內部的語義異構問題, 但是不同的局部本體之間仍然可能存在語義異構. 因此, 需要全局本體來解決上述問題.
全局本體是對領域整體的全局語義定義, 能夠為數(shù)據(jù)融合提供公共的語義描述[17].
本體是對知識的概念化描述, 包含一系列的領域概念和概念間的關系. 石油領域本體可以定義為其中表示本體名表示概念集表示關系集. 則本體中的對象可以定義為一個四元組
局部本體通常是由不同的人員建立的, 因此語義異構很難避免. 建立全局本體與局部本體之間的映射關系就是為了找出本體間的語義聯(lián)系.
2.2.1 本體間的映射
本體映射的定義如下:
在本文中我們只考慮一對一的映射關系. 映射關系如圖2所示.
圖2 本體元素映射圖
為了計算元素間的相似度關系, 我們依據(jù)Ehrig等人[18]對相似度度量的定義提出了一個相似度函數(shù)定義如下:
2.2.2 基于本體元素的相似度算法
本體映射的關鍵就是不同的局部本體元素間相似度的計算. 本體元素的相似度可以分成四部分: 概念相似度、關系相似度、屬性相似度和實例相似度.
如果有且只有一個父集為空, 那么相似度為0, 其他情況也用重疊率來計算.
如果父集相似度和自己相似度都為0, 那么關系相似度為0; 如果只有一個為0, 那么關系相似度用不為零的那 如果兩個都不為0, 分別給父集相似度添加了兩個權重一般來說,
元素屬性可以被分為四種: 整數(shù)、浮點數(shù)、字符和日期. 我們用一個相似度矩陣[20]來計算各種數(shù)據(jù)類型之間的相似度, 如表1所示.
表1 相似度矩陣
如果不同本體中描述同一個實例的屬性值不同,那么就會反饋給用戶不一致的結果. 為了解決這個問題Motro等人[21]提出了5條解決方法.
(1) 混合結果. 將所有的結果以集合的形勢反饋給用戶.
(2) 排序結果. 就是在混合結果的基礎上, 按照用戶的需求進行排序.
(3) 更優(yōu)結果. 取排序結果中靠前的一個或者幾個結果反饋給用戶.
(4) 隨機結果. 從混合結果集合中隨機選取一個.
(5) 融合結果. 將結果集中的所有結果融合成一個.
顯然, 融合結果更符合用戶的需要. 基于此, 我們提出了一些融合規(guī)則, 關鍵的融合規(guī)則定義如下.
數(shù)優(yōu)先規(guī)則認為出現(xiàn)次數(shù)多的那個結果可信度大.
閉區(qū)間規(guī)則只適用于屬性值為數(shù)字類型的情況.
圖3 局部本體中的“油井”元素
根據(jù)本文提出的框架, 我們開發(fā)了一個石油信息融合系統(tǒng), 并對兩個局部本體和一個全局本體進行了實驗. 兩個局部本體中關于其中關于油井的描述如圖3所示, 全局本體中的描述如圖4所示.
由圖可見, “Oiler”和“OilWell”都表示“油井”, 但是它們在本體中的呈現(xiàn)形式是不同的, 或者說這兩個本體是從不同的角度來描述的“油井”. 運用提出的相似度算法和融合規(guī)則, 可以對這兩個本體進行融合, 融合之后的結果如圖5所示.
圖4 全局本體中的“油井”元素
圖5 融合結果圖
由實驗可以看出, 本文提出的雙層本體結構及相似度算法和融合規(guī)則能夠較精確地實現(xiàn)石油領域的數(shù)據(jù)融合問題.
隨著石油行業(yè)的發(fā)展, 石油領域的數(shù)據(jù)越來越復雜, 數(shù)據(jù)融合技術可以更好地分析并使用這些數(shù)據(jù). 本文提出了一個基于本體的數(shù)據(jù)融合框架, 能夠解決多源數(shù)據(jù)的語義異構問題. 本文的融合框架是在石油領域本體的基礎上提出的, 但是至今石油領域還沒有建立起一個權威的本體. 自動化地構建石油領域的本體將是今后的研究重點.