陳渠++凌衛(wèi)青++王堅(jiān)
摘要:數(shù)據(jù)是一種參與企業(yè)經(jīng)濟(jì)活動(dòng)的經(jīng)濟(jì)資源,是企業(yè)無(wú)形、有價(jià)值的核心資產(chǎn)。但是企業(yè)高層管理人員并未充分利用這些資產(chǎn),原因在于數(shù)據(jù)缺乏準(zhǔn)確性、一致性、相關(guān)性。該文將本體應(yīng)用于企業(yè)運(yùn)營(yíng)數(shù)據(jù)治理中,通過(guò)構(gòu)建企業(yè)領(lǐng)域本體模型,來(lái)對(duì)企業(yè)信息資源進(jìn)行統(tǒng)一的語(yǔ)義描述,并建立資源間的語(yǔ)義相關(guān)性,最后將信息系統(tǒng)產(chǎn)生的實(shí)例數(shù)據(jù)與本體模型進(jìn)行映射,生成RDF數(shù)據(jù),從而實(shí)現(xiàn)對(duì)企業(yè)運(yùn)營(yíng)數(shù)據(jù)的治理。該文主要以企業(yè)領(lǐng)域本體中的物料為例進(jìn)行實(shí)現(xiàn)與展示。
關(guān)鍵詞:數(shù)據(jù)治理;本體模型;RDF數(shù)據(jù)
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2017)03-0001-03
Enterprise Information Integration Based on Ontology
CHEN Qu, LING Wei-qing, WANG Jian
(CIMS Research Center, Tongji University, Shanghai 201804, China)
Abstract: Data is a kind of economic resources to participate in economic activities of enterprises, is the enterprise of intangible and valuable core assets. However, senior management did not make the best use of these assets because of the lack of accuracy, consistency, and relevance of the data. In this paper, the ontology is applied to enterprise operation data management, and the enterprise domain ontology model is constructed to describe the enterprise information resource semantically and establish semantic relevance among resources. Finally, the instance data generated by the information system is carried on with the ontology model Mapping, generate RDF data, in order to achieve business data management. In this paper, the enterprise domain ontology in the material as an example to achieve and display.
Key words: Data Governance; ontology model; RDF data
目前,隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,我國(guó)大中型企業(yè)的信息化程度也逐步提高,企業(yè)開始廣泛使用各種管理信息系統(tǒng),使企業(yè)積累了大量的信息資源,然而由于各個(gè)信息系統(tǒng)缺乏對(duì)領(lǐng)域信息的統(tǒng)一規(guī)劃和頂層設(shè)計(jì),信息資源的數(shù)據(jù)類型具有多樣性。同時(shí)各個(gè)信息系統(tǒng)產(chǎn)生的數(shù)據(jù)存在準(zhǔn)確性、一致性、相關(guān)性等問(wèn)題,這些因素已經(jīng)成為企業(yè)在信息化與業(yè)務(wù)深度融合過(guò)程中的關(guān)鍵制約因素。本文將使用本體技術(shù)對(duì)企業(yè)運(yùn)營(yíng)數(shù)據(jù)進(jìn)行治理。本體的目標(biāo)是捕獲相關(guān)領(lǐng)域的知識(shí),提供對(duì)該領(lǐng)域知識(shí)的共同理解,確定該領(lǐng)域內(nèi)共同認(rèn)可的概念,并從不同層次的形式化模式上給出這些概念和概念間關(guān)系的明確定義。文中把本體理論引入企業(yè)建模領(lǐng)域,構(gòu)建企業(yè)領(lǐng)域本體,從而有效解決數(shù)據(jù)的準(zhǔn)確性、一致性、相關(guān)性等問(wèn)題,實(shí)現(xiàn)對(duì)企業(yè)運(yùn)營(yíng)數(shù)據(jù)治理。
1 本體論
本體是共享概念模型的明確的形式化規(guī)范說(shuō)明,能夠澄清領(lǐng)域知識(shí)的結(jié)構(gòu),獲得統(tǒng)一的術(shù)語(yǔ)和概念,使數(shù)據(jù)通過(guò)本體語(yǔ)言上升為知識(shí),并使知識(shí)的共享成為可能。隨著本體研究的發(fā)展,本體已逐漸應(yīng)用于企業(yè)建模領(lǐng)域中,來(lái)對(duì)企業(yè)信息資源進(jìn)行數(shù)據(jù)治理。目前,較為著名的研究有英國(guó)愛丁堡大學(xué)的Enterprise項(xiàng)目,加拿大多倫多大學(xué)的TOVE本體論等。另外,由于本體作為重要的知識(shí)組織系統(tǒng),在知識(shí)管理、信息服務(wù)、人工智能等方面發(fā)揮著重要作用。
1.1 本體的定義
本體一詞來(lái)源于哲學(xué),在哲學(xué)中是對(duì)存在本質(zhì)的研究。但是,目前本體成為計(jì)算機(jī)科學(xué)領(lǐng)域引進(jìn)的許多單詞之一,并且被賦予了一個(gè)與原始含義截然不同的具體技術(shù)含義。本體以從概念的角度描述客觀領(lǐng)域世界為目的,目前已發(fā)展為六元組的形式:Ontology={C,AC,R,AR,H,X},其中C表示本體的有關(guān)概念集,是領(lǐng)域中的重要概念;表示基于各概念的屬性集;R表示概念間的關(guān)聯(lián)關(guān)系集合;表示各關(guān)聯(lián)關(guān)系的屬性集;H表示基于概念集C的層級(jí)關(guān)系,表示父類與子類關(guān)系;X表示公理集,其中的每一公理表示基于概念屬性間、關(guān)聯(lián)關(guān)系屬性間和概念對(duì)象間的約束。
1.2 本體描述語(yǔ)言
RDFS是一種基本的本體語(yǔ)言,是一種詞匯表描述語(yǔ)言,用來(lái)描述RDF資源的類和屬性,以及類層次和屬性層次的泛化語(yǔ)義以及屬性定義域和值域的定義。OWL(Web Ontology Language)是W3C推薦的本體描述語(yǔ)言,作為RDFS的擴(kuò)展,是一種描述屬性和類的更豐富的詞匯描述語(yǔ)言,例如類之間的關(guān)聯(lián)關(guān)系(比如不相交性)、基數(shù)(比如恰好等于1)、相等、更豐富的屬性類型定義等
1.3 本體構(gòu)建方法
本體開發(fā)方法很多,目前具有代表性的本體構(gòu)建方法包括骨架法 、TOVE法、IDEF5法、斯坦福七步法、五步循環(huán)、METHONTOLOGY法、KACTUS法、SENSUS法和循環(huán)獲取法。骨架法、TOVE法和IDEF5法是用于描述和獲取企業(yè)本體的方法,它們主要區(qū)別在于:骨架法是基于流程導(dǎo)向的構(gòu)建方法,它只提供開發(fā)本體的指導(dǎo)方針;TOVE法是專用于構(gòu)建關(guān)于企業(yè)建模過(guò)程中的知識(shí)本體;而IDEF5法可通過(guò)提供圖表語(yǔ)言和細(xì)化說(shuō)明來(lái)構(gòu)建企業(yè)領(lǐng)域的本體。METHONTOLOGY法、KACTUS法、SENSUS法和斯坦福七步法,主要用于構(gòu)建領(lǐng)域知識(shí)本體,它們不同之處是:METHONTOLOGY法是專用于構(gòu)建化學(xué)知識(shí)本體;KACTUS法主要是對(duì)已有本體的提煉、擴(kuò)展,主要用于解決知識(shí)復(fù)用的問(wèn)題;SENSUS法遵循自上而下的層級(jí)結(jié)構(gòu),可操作性較強(qiáng);斯坦福七步法是基于本體構(gòu)建工具Protégé的本體構(gòu)建方法,目前應(yīng)用廣泛。本文主要參考斯坦福七步法來(lái)構(gòu)建本體模型,七步法構(gòu)建流程如圖1所示。
2 關(guān)鍵技術(shù)研究
2.1 資源的統(tǒng)一語(yǔ)義描述
為了實(shí)現(xiàn)對(duì)資源的統(tǒng)一語(yǔ)義描述能力,本文采用RDF數(shù)據(jù)模型。RDF數(shù)據(jù)模型的基本構(gòu)造為陳述,表述了一個(gè)主體-屬性-客體的三元組。OWL是構(gòu)建在RDF之上的本體語(yǔ)言,用于對(duì)資源及資源之間關(guān)系的精確語(yǔ)義描述,從而對(duì)數(shù)據(jù)資源實(shí)現(xiàn)語(yǔ)義的描述框架、數(shù)據(jù)的語(yǔ)義、數(shù)據(jù)之間關(guān)系的表達(dá)。
2.2 本體模型的構(gòu)建
圖2 本體模型構(gòu)建流程
由于關(guān)系型數(shù)據(jù)庫(kù)的概念模型都基于現(xiàn)實(shí)世界的實(shí)體、屬性及其關(guān)系而構(gòu)建,因而可以根據(jù)關(guān)系數(shù)據(jù)庫(kù)中數(shù)據(jù)字典信息以及關(guān)系模型來(lái)提取語(yǔ)義實(shí)體。語(yǔ)義實(shí)體提取及實(shí)體相關(guān)性建立的主要實(shí)現(xiàn)策略為根據(jù)關(guān)系型數(shù)據(jù)庫(kù)的數(shù)據(jù)字典信息和關(guān)系模型,獲得領(lǐng)域關(guān)系數(shù)據(jù)庫(kù)的模式信息,并從中抽取出候選的語(yǔ)義實(shí)體,再將抽取出的各種語(yǔ)義實(shí)體進(jìn)行過(guò)濾和篩選,在過(guò)濾和篩選過(guò)程中需多次對(duì)已有的語(yǔ)義實(shí)體進(jìn)行比較;語(yǔ)義實(shí)體篩選完畢后,最后根據(jù)企業(yè)領(lǐng)域知識(shí)對(duì)語(yǔ)義實(shí)體進(jìn)行一致性檢測(cè),并建立實(shí)體間的關(guān)聯(lián)關(guān)系,通過(guò)操作流程如圖2所示。
2.3 本體模型與實(shí)例數(shù)據(jù)的映射
為了實(shí)現(xiàn)實(shí)例數(shù)據(jù)的語(yǔ)義、實(shí)例數(shù)據(jù)之間關(guān)系的表達(dá),需要對(duì)本體模型與實(shí)例數(shù)據(jù)進(jìn)行映射,即將實(shí)例數(shù)據(jù)綁定到本體模型,形成RDF數(shù)據(jù)。D2R是其中一個(gè)非常流行的工具,它的作用是一個(gè)將關(guān)系型數(shù)據(jù)庫(kù)發(fā)布為RDF數(shù)據(jù)。使用D2RQ Mapping 語(yǔ)言手動(dòng)編制映射文件,調(diào)用D2RQ Engine將本體模型與關(guān)系型數(shù)據(jù)庫(kù)中實(shí)例數(shù)據(jù)進(jìn)行映射,生成RDF數(shù)據(jù),操作流程如圖3所示。
圖3 本體模型與實(shí)例數(shù)據(jù)映射流程
在以上的操作流程中,關(guān)鍵步驟是映射文件編制。D2RQ Mapping 語(yǔ)言通過(guò)核心要素ClassMap、PropertyBridge 及Property,來(lái)將本體模型中的類,屬性,與數(shù)據(jù)表中的表名,列名進(jìn)行映射。本體模型與關(guān)系模型的映射關(guān)系如表1所示。
表1 本體模型與關(guān)系模型的映射關(guān)系
[概念映射\&數(shù)據(jù)映射\&Ontology Model RDBMS\&Ontology Model RDBMS\&類\&實(shí)體\&主體,客體\&表\&數(shù)據(jù)屬性\&實(shí)體屬性\&謂詞-文本值\&列-元組\&對(duì)象屬性\&實(shí)體關(guān)系\&謂詞-客體\&關(guān)系名-表\&]
3 企業(yè)本體實(shí)現(xiàn)與展示
圖4 企業(yè)領(lǐng)域本體模型元實(shí)體
通過(guò)采用第二章節(jié)描述的語(yǔ)義實(shí)體提取及語(yǔ)義相關(guān)性建立技術(shù),可以初步得到企業(yè)領(lǐng)域本體模型,該模型表達(dá)了企業(yè)領(lǐng)域中包含的實(shí)體及其相互關(guān)系,可通過(guò)開發(fā)工具Protégé 4.1來(lái)編輯實(shí)現(xiàn)企業(yè)領(lǐng)域本體模型的構(gòu)建。在Protégé4.1本體開發(fā)環(huán)境下,依據(jù)企業(yè)領(lǐng)域本體模型中的元實(shí)體來(lái)定義相應(yīng)的元類,其他子實(shí)體通過(guò)繼承、擴(kuò)展元實(shí)體,以其子類形式展示,如圖4所示。
在領(lǐng)域本體中,我們將企業(yè)中的運(yùn)營(yíng)數(shù)據(jù)分為實(shí)體類與信息類,實(shí)體類下的子類有人員、資金、組織、設(shè)備、產(chǎn)品、物料、能源、環(huán)境、信息載體,信息類下的子類有人員信息、資金信息、組織信息、設(shè)備信息、產(chǎn)品信息、物料信息、能源信息、環(huán)境信息、信息載體信息,信息類是用來(lái)描述實(shí)體類的。下面以物料類展開,如圖5所示,可以看到物料類與企業(yè)中的哪些實(shí)體類和信息類有關(guān)聯(lián)。
圖5 物料類關(guān)聯(lián)圖
對(duì)信息類下的物料信息類的子類物料描述信息類進(jìn)行展開,可通過(guò)圖6查看物料描述信息類的數(shù)據(jù)屬性,有物料號(hào),語(yǔ)言代碼,物料描述。
圖6 物料描述信息類的數(shù)據(jù)屬性
通過(guò)采用本體模型與實(shí)例數(shù)據(jù)的映射技術(shù),將本體模型與實(shí)例數(shù)據(jù)進(jìn)行綁定,生成RDF數(shù)據(jù)。通過(guò)Protégé4.1查看RDF數(shù)據(jù),如圖7所示,可以看到物料信息類的數(shù)據(jù)屬性所綁定的實(shí)例數(shù)據(jù)。
圖7 物料描述信息類的實(shí)例數(shù)據(jù)
4 結(jié)束語(yǔ)
本文探討了企業(yè)領(lǐng)域本體的構(gòu)建方法和技術(shù)實(shí)現(xiàn),利用企業(yè)領(lǐng)域本體對(duì)企業(yè)的信息資源進(jìn)行統(tǒng)一規(guī)劃,對(duì)建立關(guān)聯(lián)的數(shù)據(jù)提供統(tǒng)一風(fēng)格的數(shù)據(jù)展現(xiàn)能力,對(duì)企業(yè)運(yùn)營(yíng)數(shù)據(jù)進(jìn)行治理,有效解決企業(yè)運(yùn)營(yíng)數(shù)據(jù)的準(zhǔn)確性、一致性、相關(guān)性等問(wèn)題,促進(jìn)企業(yè)的信息化與業(yè)務(wù)深度融合。由于企業(yè)領(lǐng)域涵蓋范圍廣,本文中構(gòu)建的本體模型還需進(jìn)一步細(xì)化和改進(jìn)。另外,目前本體建立還沒(méi)有形成一種工程性的活動(dòng),建立本體時(shí)缺乏本體建模標(biāo)準(zhǔn)、指導(dǎo)原則和可操作性的方法來(lái)影響本體的重用、共享和互操作。這些都還需要不斷進(jìn)行實(shí)踐和探索。
參考文獻(xiàn):
[1] 王向前, 張寶隆, 李慧宗. 本體研究綜述[J]. 情報(bào)雜志, 2016(6): 163-170.
[2] The Enterprise Ontology[EB/OL]. [2016-03-20]. http://www.aiai.ed.ac.uk/project/enterprise/.
[3] 李曉輝, 李志祥, 李江. 基于本體的信息集成研究[J]. 河北省科學(xué)院學(xué)報(bào), 2011(3): 38-42.
[4] 白海燕, 梁冰. 利用D2R實(shí)現(xiàn)關(guān)系數(shù)據(jù)庫(kù)與關(guān)聯(lián)數(shù)據(jù)的語(yǔ)義模式映射[J]. 現(xiàn)代圖書情報(bào)技術(shù), 2011(Z1): 1-7.
[5] Bizer C.D2R MAP- A Database to RDF Mapping Language[EB/OL].[2011-06-12].http://www.wiwiss.fu-berlin.de/suhl/bizer/d2rmap/www2003-D2R-Map.pdf.
[6] 唐曉波, 田杰, 望俊成. 基于語(yǔ)義網(wǎng)技術(shù)的企業(yè)信息資源整合研究[J]. 情報(bào)理論與實(shí)踐, 2012(10): 42-46.
[7] 黃煙波, 張紅宇, 李建華, 等. 本體映射方法研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2005(18):27-29,33.
[8] 向陽(yáng), 王敏, 馬強(qiáng). 基于Jena的本體構(gòu)建方法研究[J]. 計(jì)算機(jī)工程, 2007(14):59-61.