基于本體片段模糊相似度的異構(gòu)本體合并

2013-11-09 08:06:28錢(qián)鵬飛

上海電機(jī)學(xué)院學(xué)報(bào) 2013年6期

關(guān)鍵詞：復(fù)雜度實(shí)例本體

錢(qián)鵬飛

(上海寶信軟件股份有限公司，上海 201203)

基于本體片段模糊相似度的異構(gòu)本體合并

錢(qián)鵬飛

(上海寶信軟件股份有限公司，上海 201203)

提出一種基于本體片段模糊相似度的異構(gòu)本體合并方法研究。復(fù)雜的異構(gòu)本體模型可被分割成多個(gè)本體片段，且這些片段均具有獨(dú)立語(yǔ)義，使本體合并轉(zhuǎn)換成本體片段之間的合并；提出基于概念或關(guān)系的兩種本體片段模糊化相似度計(jì)算方法，并進(jìn)一步討論一種基于本體片段模糊相似度的異構(gòu)本體合并的算法。該算法解決相似度計(jì)算過(guò)程中出現(xiàn)的模糊特性過(guò)早裁決的問(wèn)題，從而文本信息可與結(jié)構(gòu)信息共同分析以提高本體片段間的合并效果。最后通過(guò)應(yīng)用實(shí)例和相關(guān)復(fù)雜性分析比較，全面評(píng)估該基于本體片段模糊相似度的異構(gòu)本體合并的算法。

本體合并; 本體片段; 模糊相似度; 本體概念

在各種本體映射及本體合并方法中[1-5]，往往通過(guò)本體概念或本體關(guān)系間的語(yǔ)義相似度來(lái)進(jìn)行本體模型的匹配；而具有若干個(gè)概念和關(guān)系組成的本體片段一般比單個(gè)本體概念包含了更復(fù)雜的語(yǔ)義特征信息。能否通過(guò)本體片段間的語(yǔ)義特征匹配來(lái)完成本體間的匹配和合并，本文提出了基于本體片段的異構(gòu)本體合并研究。按照文獻(xiàn)[6]中所涉及的本體定義元模型(Ontology Definition Meta-Model, ODM)及對(duì)應(yīng)的對(duì)象約束語(yǔ)言(Object Constraint Language, OCL)的擴(kuò)展將異構(gòu)本體模型分割成多個(gè)本體片段,即片段內(nèi)本體元素高度相關(guān)，從而本體之間的合并就轉(zhuǎn)換成本體片段間的合并;然后，通過(guò)本體片段間的相似度計(jì)算，在目標(biāo)本體模型的多個(gè)已分割片段中，定位與待合并本體片段最匹配的片段，而后進(jìn)行2個(gè)本體片段間細(xì)節(jié)層面的合并，以完成本體合并。考慮到本體片段語(yǔ)義緊密程度較高，本體片段間的細(xì)節(jié)層面合并就相對(duì)容易，如何通過(guò)本體片段間相似度的計(jì)算以完成相似本體片段間的定位，成為本文討論的重點(diǎn)。

本體片段包含多個(gè)本體概念和關(guān)系，具有更復(fù)雜的語(yǔ)義特征信息，因此可基于不同本體片段特征分別計(jì)算相似度，然后按照一定的權(quán)重將這些相似度復(fù)合。本文采用模糊化的相似度計(jì)算方法[7]解決了本體概念相似度計(jì)算過(guò)程中存在的特征信息系統(tǒng)偏好、過(guò)早裁決模糊特征等現(xiàn)象。與本體概念間的匹配相類(lèi)似，本體片段間相似度的計(jì)算和表示仍采用模糊化相似度的表示方法，可針對(duì)本體片段的不同語(yǔ)義特征信息進(jìn)行多種類(lèi)型的模糊相似度計(jì)算和表示。

本文研究成果已應(yīng)用于上海寶信軟件股份有限公司職能產(chǎn)品人力資源模塊的整體框架設(shè)計(jì)中。通過(guò)組織機(jī)構(gòu)本體片段的半自動(dòng)化合并，較好地支撐了大型集團(tuán)型企業(yè)中頻繁出現(xiàn)的組織機(jī)構(gòu)的劃轉(zhuǎn)、合并、映射及匹配等問(wèn)題。

1 本體片段模糊相似度計(jì)算

本體片段中的特征信息主要包括: ① 本體實(shí)例及本體概念；② 本體模型內(nèi)概念間關(guān)系,如概念間繼承、概念間包含屬性、概念間參數(shù)依賴(lài)等。基于這兩種本體片段特征信息，提出了基于概念的本體片段模糊相似度計(jì)算、基于關(guān)系的本體片段模糊相似度計(jì)算，并在此基礎(chǔ)上研究了一種基于本體片段模糊相似度的異構(gòu)本體合并的算法。

1.1面向本體概念及實(shí)例的片段模糊相似度計(jì)算

面向本體片段的語(yǔ)義概念及實(shí)例特征信息，本文提出了基于復(fù)合概念的片段模糊相似度算法。復(fù)合概念即將本體片段看作虛擬的單個(gè)本體概念，所涉及實(shí)例均為該復(fù)合概念的實(shí)例，從而通過(guò)本體片段間復(fù)合概念的模糊相似度計(jì)算，即得到面向復(fù)合概念的本體片段間模糊相似度。在復(fù)合概念構(gòu)造過(guò)程中，并非本體片段中所有實(shí)例和概念均具有相等地位，其原因是概念上、下文語(yǔ)義關(guān)系、概念實(shí)例的數(shù)量及重要性都相差較大，需要從待選的概念和實(shí)例中，選取具有較強(qiáng)上、下文語(yǔ)義代表性的實(shí)例及概念，構(gòu)造復(fù)合概念。本文結(jié)合片段，OM1=(c1，c2，…，cm)(i=1，2，…，m)，其中，ci為任一概念，m為概念個(gè)數(shù)，完成了復(fù)合概念的構(gòu)建。

步驟1以與對(duì)應(yīng)本體片段語(yǔ)義關(guān)聯(lián)程度為依據(jù)，確定本體片段中參與復(fù)合概念構(gòu)造各本體概念的權(quán)重。若某個(gè)概念與該本體片段語(yǔ)義相關(guān)度非常高，則給予“十分重要”評(píng)級(jí)；若某個(gè)概念屬很不重要概念，則給予“十分不重要”評(píng)級(jí)。因此，對(duì)于片段OM1獲得模糊評(píng)級(jí)權(quán)重W1=(w1，w2，…，wm)(i=1,2,…,m)，w∈(十分不重要，較不重要，普通，較重要，十分重要)，對(duì)應(yīng)的三角模糊權(quán)重TW1=(tw1，tw2…,twm)(i=1,2,…,m)，tw=(l,k,r)為三角模糊數(shù)，其中，l、k、r分別為三角模糊數(shù)tw的左邊界、中值與右邊界，且0≤l≤k≤r≤1。

步驟3若要從待計(jì)算片段中選取N個(gè)分別隸屬于概念(c1,c2，…，cm)的實(shí)例，且同一概念中多個(gè)實(shí)例的選取采用隨機(jī)的方法，從而每個(gè)概念中選擇的實(shí)例數(shù)量可表示為(rw1·N,rw2·N,…,rwm·N)。針對(duì)m個(gè)概念的名稱(chēng)信息，有復(fù)合概念的名稱(chēng)向量Nv=(n1,n2，…，nm)，而實(shí)例向量Instυ=(Ins1,Ins2,…，Insm)，其中，第i個(gè)概念的實(shí)例向量Insi=(e1,e2，…，erwi·N)，1≤i≤m,e為概念ci的實(shí)例。目前，復(fù)合概念間的相似度計(jì)算僅考慮名稱(chēng)和實(shí)例?；贗nstv特征的模糊相似度和基于Nv特征的模糊相似度，分別可以根據(jù)實(shí)例向量、名稱(chēng)向量得到，均服從區(qū)間型模糊分布[8]。分別按照Nv和Instv進(jìn)行區(qū)間型的模糊相似度計(jì)算，然后歸一化為三角模糊相似度，再按照預(yù)先設(shè)置的權(quán)重WN和WInst進(jìn)行加權(quán)復(fù)合，即可得到采用三角模糊相似度表示的基于復(fù)合概念的本體片段間模糊相似度。其過(guò)程如圖1所示。

圖1 復(fù)合概念本體片段模糊相似度Fig.1 Composite concept ontology slice fuzzy similarity

1.2面向本體關(guān)系的片段模糊相似度計(jì)算

假定本體形式化公式O=(C,A,T,D,X)，其中，C、A、T、D、X分別表示概念、屬性、分類(lèi)關(guān)系、依賴(lài)關(guān)系和公理規(guī)則5個(gè)本體元素；而片段中概念間的關(guān)系類(lèi)型包括:概念間繼承(T)、概念間對(duì)象包含屬性(OA)、概念間參數(shù)依賴(lài)(D)等。面向本體關(guān)系的片段相似度計(jì)算可依據(jù)本體片段間相類(lèi)似的本體概念間關(guān)系的數(shù)量進(jìn)行計(jì)算。

判斷2個(gè)概念關(guān)系是否相類(lèi)似的順序如下: ① 判斷2個(gè)概念關(guān)系類(lèi)型是否相同；② 檢查2個(gè)概念關(guān)系的對(duì)應(yīng)概念是否相類(lèi)似。本文結(jié)合本體片段OM1=(c11,c12,…，c1m,r11,r12,…，r1p),i∈(1,2,…，m)，k∈(1,2,…,p)(設(shè)OM1擁有m個(gè)概念，p個(gè)關(guān)系)和OM2=(c21,c22,…,c2n,r21,r22,…,r2q),j∈(1,2,…,n),d∈(1,2,…,q)(設(shè)OM2擁有n個(gè)概念、q個(gè)關(guān)系)，來(lái)說(shuō)明本體片段間面向概念關(guān)系的模糊相似度計(jì)算步驟。

步驟1相似概念對(duì)的識(shí)別尋找，其不同于相似度計(jì)算。前者按照相關(guān)標(biāo)準(zhǔn)(如相似度非模糊化值超過(guò)某個(gè)閾值)，識(shí)別出本體片段間的相似概念對(duì)；而相似度計(jì)算還需在前者基礎(chǔ)上計(jì)算出概念對(duì)的具體相似度。相似概念對(duì)的識(shí)別過(guò)程如下(假定m≤n):

Void SearchingSimConPair(OM1,OM2, SimConPair[][2])

{SimConPair[][2];

∥本體片段OM1和OM2之間的相似概念對(duì);

For(i=1;ilt;=m;i++)

∥片段OM1中有m個(gè)概念，i∈(1,2,…,m);

{S[n];

For(j=1;jlt;=n;j++)

∥片段OM2中有n個(gè)概念，j∈(1,2,…,n);

S[j]=Sim(c1i?c2i);

∥次一級(jí)的概念對(duì)相似度計(jì)算，僅僅考慮實(shí)例和名稱(chēng)信息;

if(max(S[n])gt;Δ)

∥找到了相似概念對(duì)，即某個(gè)相似度值超過(guò)了閾值Δ;

{SimConPair[i][1]=OM1·c1i;

∥取相似度最大的概念對(duì)，為本次匹配找到的概念對(duì);

SimConPair[i][2]=S[j]=max(S[n])|OM1·c2j);

∥c1j,c2j為S[n]中的n個(gè)相似度中取得最大值的對(duì)應(yīng)概念

}else{

SimConPair[i][1]=SimConPair[i][2]=NULL; ∥當(dāng)前概念無(wú)相似概念對(duì);

} ∥End of else

} ∥循環(huán)結(jié)束

}∥SearchingSimConPair ∥算法結(jié)束

然后需要找出片段OM1、OM2間概念對(duì)相似度的數(shù)值(非模糊化值)超過(guò)閾值Δ的本體概念對(duì)。

步驟2若要判定兩關(guān)系是否相似，先要獲得相似概念對(duì)，然后結(jié)合關(guān)系類(lèi)型綜合判斷。本文結(jié)合關(guān)系類(lèi)型及本體片段間的相似概念對(duì)，計(jì)算兩個(gè)本體片段間相似關(guān)系的個(gè)數(shù)，計(jì)算過(guò)程如下(設(shè)p≤q)：

Void SearchingSimRelationPair(OM1,OM2, SimConPair[][2],SimRelPair)

{SimRelPair;

∥本體片段OM1和OM2之間的相似關(guān)系對(duì);

For(k=1;klt;=p;k++)

∥片段OM1中有p個(gè)關(guān)系;k∈(1，2，…，p)

{For(d=1;dlt;=q;d++)

∥片段OM2中有q個(gè)關(guān)系;d∈(1，2，…，q)

{if(OM1·r1k·type=OM2·r2d·type)

∥兩個(gè)關(guān)系類(lèi)型相同;

if((SimConPair.IS_Find(OM1·r1k·c1,OM2·r2d·c1)==True and SimConPair.IS_Find(OM1·r1k·c2,OM2)·r2d·c2)==True) or

(SimConPair.IS_Find(OM1·r1k·c1,OM2·r2d·c2)==True and SimConPair.IS_Find(OM1·r1k·c2,OM2·r2d·c1)==True)

)

{

∥兩個(gè)關(guān)系相關(guān)概念互相匹配;

SimRelPair.Push(OM1·r1k,OM2·r2d);

break;

∥確定相似的關(guān)系對(duì);

∥本算法認(rèn)為，在尋找相似關(guān)系對(duì)的過(guò)程中，每個(gè)關(guān)系只能使用一次;

}∥end of if

} }∥end of for

}∥End of SearchingSimRelationPair ()

計(jì)算中,隸屬于不同本體片段的兩個(gè)關(guān)系相似的判斷條件包括: ① 類(lèi)型相同；② 關(guān)系對(duì)應(yīng)兩概念也能互相相似。該計(jì)算主要是尋找出片段OM1和OM2間類(lèi)似關(guān)系對(duì)，算法完成后，相似關(guān)系對(duì)保存入隊(duì)列SimRelPair中。

步驟3根據(jù)本體片段OM1和OM2間類(lèi)似關(guān)系對(duì)數(shù)量g，運(yùn)用結(jié)構(gòu)型模糊相似度表示方法來(lái)表示片段間面向本體關(guān)系的模糊相似度。如Simrelation=g=SimRelPair.count,其中g(shù)為正整數(shù)，且0≤g≤min(p,q)。采用模糊化的相似度計(jì)算方法中的相關(guān)公式，可將面向關(guān)系的本體片段間模糊相似度歸一化為三角模糊數(shù)表示。

2 面向本體片段間模糊相似度的本體合并算法

面向本體片段間模糊相似度的異構(gòu)本體合并[9-11]，將需要合并的某個(gè)本體模型中所有片段作為目標(biāo)片段，另一本體的所有片段作為并入片段(一般較復(fù)雜本體模型作為目標(biāo)本體，另一本體作為并入本體)，然后本體合并過(guò)程就演化為并入本片片段與目標(biāo)片段間持續(xù)進(jìn)行相似度求解，并進(jìn)行本體片段創(chuàng)建、添加以及合并的過(guò)程。

本文提出一種面向本體片段間模糊相似度的異構(gòu)本體合并算法，包括本體片段間在概念及關(guān)系的細(xì)節(jié)層面上合并的計(jì)算方法。

2.1本體合并計(jì)算方法

本體模型可由五元組(C、A、T、D、X)來(lái)表示，本體為這些元素組成的集合，本體片段為該集合中部分具有緊密語(yǔ)義的元素構(gòu)成的子集，本文將其命名為本體模型中的元素集合(Ontology Element Set, OESet)。一系列具有相同特性的OESet，可構(gòu)成OESetGroup， OESetGroup中的OESet 均必須滿足OESetGroup所對(duì)應(yīng)的集合定義規(guī)則(GroupDefinitionRule)[12]。對(duì)于本體模型內(nèi)部片段的結(jié)構(gòu)特征，本體定義元模型[13]可對(duì)其進(jìn)行約束描述。

本文通過(guò)本體O1=(OESet11,OESet12,…,OESet1m)，i∈(1,2,…,m)與O2=(OESet21,OESet22,…,OESet2n)j∈(1,2,…,n)之間的合并，介紹該本體合并算法。

假定n≥m，以較復(fù)雜本體O1中的m個(gè)本體片段作為目標(biāo)片段，而本體O2中的n個(gè)片段作為并入片段，合并后生成本體O3。合并步驟如圖2所示。

圖2 本體合并核心算法流程圖Fig.2 Core algorithmic flow of the ontology merging

步驟1構(gòu)建不包括本體片段的空本體模型O3。

步驟2若O2=NULL，轉(zhuǎn)步驟5；否則，繼續(xù)步驟3。

步驟3從O2中任意選取某個(gè)片段OESet2j，將該片段OESet2j,與本體O1中的所有可能與之匹配的片段(OESet11,OESet12,…,OESet1n)，i∈(1,2,…,m)分別進(jìn)行本體片段模糊相似度的計(jì)算。若存在模糊相似度大于預(yù)定閾值Δ，說(shuō)明本體O2中有片段與O1片段匹配，則定位本體片段對(duì){OESet1k|Max(Sim(OESet1i,OESet2j)),OESet2j}，j=1,2,…,n,其中OESet1k為在本體O1所有片段中，與OESet2j相似度取得最大值的本體片段，即OESet2j與本體O1中第k個(gè)本體片段取得最大相似度。包括并入片段OESet2j和目標(biāo)片段OESet1k，繼續(xù)步驟4；否則，將OESet2j添加到O3，返回步驟2。

步驟4根據(jù)已定位的本體片段對(duì){OESet1k,OESet2j}，計(jì)算本體片段間所有本體概念對(duì)的相似度，獲得映射概念對(duì)(Con_Pair)={…,c1p∶c2p,…}。從OESet2i中刪除出現(xiàn)在(Con_Pair)中并屬于的O2的概念。再對(duì)OESet2j進(jìn)行基本規(guī)則校驗(yàn)(主要考查本體片段中被剔除概念占比)，若通過(guò)校驗(yàn)，證明OESet1i與OESet2j語(yǔ)義關(guān)聯(lián)性不大，則拋棄對(duì)OESet2j的修改，回復(fù)到未修改狀態(tài)，并同時(shí)在系統(tǒng)中標(biāo)記該兩個(gè)片段無(wú)法發(fā)生合并，返回步驟2；若未通過(guò)校驗(yàn)，則片段對(duì){OESet1k,OESet2j}進(jìn)行細(xì)節(jié)上的合并即執(zhí)行本體片段合并算法，包括概念和結(jié)構(gòu)關(guān)系的合并。合并后得到的新片段OESet3i添加到O3，并從O1中去掉OESet1k，O2中去掉OESet2j，返回步驟2。

步驟5將O1中余下本體片段添加到O3中，結(jié)束本體合并的過(guò)程，得到合并結(jié)果本體O3。

2.2本體片段合并計(jì)算方法

本文算法主要考慮本體片段間在概念和關(guān)系等細(xì)節(jié)層面上的合并。

2.2.1 基于概念細(xì)節(jié)的本體片段合并僅需將并入片段中剩余概念直接合并到目標(biāo)片段[14-15]，其原因是已將并入片段中與目標(biāo)片段中概念相類(lèi)似的概念剔除。

2.2.2 基于“關(guān)系”細(xì)節(jié)的合并本體片段中的關(guān)系可分為概念間繼承關(guān)系、概念間包含屬性關(guān)系、概念間參數(shù)依賴(lài)關(guān)系等。雖然概念間不同種類(lèi)關(guān)系可并存，如本體片段中，2個(gè)概念間同時(shí)存在參數(shù)依賴(lài)關(guān)系，包含屬性關(guān)系，但系統(tǒng)在沖突檢測(cè)中僅考慮相同類(lèi)型關(guān)系間的沖突，不同類(lèi)型的關(guān)系則認(rèn)為是不同種類(lèi)的關(guān)系。如，若某并入片段中對(duì)應(yīng)的關(guān)系類(lèi)型為包含屬性關(guān)系Own，而在目標(biāo)本體片段中兩概念間關(guān)系為繼承Inherit關(guān)系，就會(huì)發(fā)生沖突。沖突產(chǎn)生后，可進(jìn)行人工指定，也可采用某些策略自動(dòng)解決該沖突。

針對(duì)并入片段的某關(guān)系對(duì)應(yīng)的2個(gè)概念均能在目標(biāo)片段中找到與之匹配的概念，且這2個(gè)概念不相鄰，則直接加入該關(guān)系(或僅有一個(gè)能在目標(biāo)片段中找到匹配概念，也直接加入該關(guān)系)；若在目標(biāo)片段中不能找到任何一個(gè)概念與該2個(gè)概念相似，則丟棄該關(guān)系；若在目標(biāo)片段中確定找到2個(gè)相鄰概念與這2個(gè)概念相類(lèi)似，且2個(gè)關(guān)系類(lèi)型相同，則2個(gè)關(guān)系合并為一個(gè)關(guān)系。

3 應(yīng)用實(shí)例與分析

3.1本體定義元模型及組定義規(guī)則

多個(gè)本體模型將會(huì)具有某些公共特征，本體定義元模型即是對(duì)這些公共特征的統(tǒng)一抽象描述。本體定義元模型中的所有元素可被分為兩類(lèi): 本體相關(guān)元素和定義規(guī)則相關(guān)元素。通過(guò)相應(yīng)的定義規(guī)則相關(guān)元素(如組定義規(guī)則、本體設(shè)計(jì)模式等)，即可對(duì)該元模型所描述的各類(lèi)本體模型進(jìn)行基于結(jié)構(gòu)及約束關(guān)系的形式化校驗(yàn)和表示，從而使得異構(gòu)本體模型按照語(yǔ)義分割成為可能。本體定義元模型的初步UML靜態(tài)類(lèi)如圖3所示。

圖3 本體定義元模型Fig.3 Ontology definition meta-model

圖3中，組定義規(guī)則(GroupDefinitionRule)是用來(lái)定義這些公共特征的約束規(guī)則。如基于OCL的簡(jiǎn)單組定義規(guī)則定義特定的OESetGroup，該簡(jiǎn)單規(guī)則如下：

GroupDefinitionRuleA:

Context Group1OESet

inv: elements→forAll(e|e.size()=2 and e.element.type=Entity)

該組定義規(guī)則表明Group1中的每個(gè)OESet有且僅有2個(gè)元素，元素類(lèi)型為Entity。

將這些規(guī)則應(yīng)用到本體模型中，即可半自動(dòng)化地識(shí)別出相應(yīng)的本體片段(先應(yīng)用組定義規(guī)則，后人工調(diào)整)。另外，在面向?qū)ο蟮能浖_(kāi)發(fā)領(lǐng)域中，領(lǐng)域模型中一些公共的經(jīng)常使用的模塊被定義為設(shè)計(jì)模式。同理，在本體模型中經(jīng)常使用的特殊模塊結(jié)構(gòu)也可被定義為本體設(shè)計(jì)模式。因此，本體設(shè)計(jì)模式(OntologicalDesignPattern)就成為本體定義元模型中的組定義規(guī)則重要相關(guān)元素。本體設(shè)計(jì)模式可以被分類(lèi)為全局模式和局部模式，相關(guān)詳細(xì)細(xì)節(jié)請(qǐng)參見(jiàn)文獻(xiàn)[16]。

3.2實(shí)例與分析

出于業(yè)務(wù)需要，本體模型A和B(見(jiàn)圖4)需進(jìn)行合并，以完成本體A和本體B所對(duì)應(yīng)不同組織機(jī)構(gòu)的劃轉(zhuǎn)和合并。

圖4 本體模型A和本體模型BFig.4 Ontology models A and B

針對(duì)圖4中的本體模型A和B，應(yīng)用組定義規(guī)則GroupDefinitionRule1和GroupDefinitionRule 2。

(1) GroupDefinitionRule1。判斷某OESet是否服從“Inheritance”模式。

context ODP::Inheritance():Boolean

post: result=self.RelationSet.elements→forAll(p|Relation::ObjectAttribute(p)==FALSE)and self.RelationSet.elements.exist(p|Relation::ChildTaxonomy(p)==TRUE or Relation::ParentTaxonomy(p)==TRUE)

(2) GroupDefinitionRule2。判斷某OESet是否服從“Composite”模式。

context ODP::Composite():Boolean

post: result=self.RelationSet.elements -gt;forAll(p|Relation::ChildTaxonomy(p)==FALSE and Relation::ParentTaxonomy(p)==FALSE)and self.RelationSet.elements.exist(p|Relation:: ObjectAttribute(p)==TRUE)

根據(jù)本體概念和關(guān)系的上下文相關(guān)語(yǔ)義，本體模型A可被劃分為3個(gè)OESet。其中，C、A、T、D、X分別表示本體的5個(gè)元素，即概念、屬性、分類(lèi)關(guān)系、依賴(lài)、公理規(guī)則。

A: OESet1={C(員工),C(技術(shù)型員工),C(管理型員工),T(員工_技術(shù)型員工),T(員工_管理型員工),D(技術(shù)型員工_管理型員工)}(近似服從GroupDefinitionRule1)。

A: OESet2={C(事業(yè)部),C(公司),A(公司_事業(yè)部),A(事業(yè)部_領(lǐng)導(dǎo)),A(事業(yè)部_員工)}(服從GroupDefinitionRule2)。

A: OESet3={C(領(lǐng)導(dǎo)),C(行政型領(lǐng)導(dǎo)),C(技術(shù)型領(lǐng)導(dǎo)),C(生產(chǎn)型領(lǐng)導(dǎo)),T(領(lǐng)導(dǎo)_行政型領(lǐng)導(dǎo)),T(領(lǐng)導(dǎo)_技術(shù)型領(lǐng)導(dǎo)),T(領(lǐng)導(dǎo)_生產(chǎn)型領(lǐng)導(dǎo))}(服從GroupDefinitionRule1)。

相對(duì)應(yīng)地本體模型B也被劃分為3個(gè)OESet。

B: OESet1={C(職員),C(技術(shù)型職員),C(職能型職員),C(研究型職員),C(操作型職員),T(職員_技術(shù)型職員),T(職員_職能型職員),T(職員_研究型職員),T(職員_操作型職員)}(服從GroupDefinitionRule1)。

B: OESet2={C(部門(mén)),C(公司),A(公司_部門(mén)),A(部門(mén)_職員)}(服從GroupDefinitionRule2)。

B: OESet3={C(集團(tuán)公司),C(制造型集團(tuán)公司),C(金融型集團(tuán)公司),C(服務(wù)型集團(tuán)公司),C(貿(mào)易型集團(tuán)公司),T(集團(tuán)公司_制造型集團(tuán)公司),T(集團(tuán)公司_金融型集團(tuán)公司),T(集團(tuán)公司_服務(wù)型集團(tuán)公司),T(集團(tuán)公司_貿(mào)易型集團(tuán)公司),A(集團(tuán)公司_公司)}(近似服從GroupDefinitionRule1)。

將本體模型A中的3個(gè)OESet作為合并目標(biāo)片段，本體模型B中的3個(gè)OESet作為并入片段。通過(guò)(B: OESet1)與目標(biāo)片段中的3個(gè)片段間的模糊相似度求解，得出(B: OESet1)與(A: OESet1,A: OESet2,A: OESet3)3個(gè)片段的相似度分別是{(0.42,0.51,0.55),(0.01,0.02,0.04),(0.08,0.12,0.18)}。系統(tǒng)確定相似片段對(duì){A: OESet1,B: OESet1}，進(jìn)行概念對(duì)相似度計(jì)算，同時(shí)從(B:OESet1)中剔除與(A: OESet1)相似的概念后，經(jīng)過(guò)規(guī)則校驗(yàn)發(fā)現(xiàn)(B: OESet1)已不是完整的片段，故對(duì){A: OESet1,B: OESet1}進(jìn)行細(xì)節(jié)層面上的合并。得到如圖5的合并片段，圖中斜體部分即為兩片段間的相似匹配概念對(duì)。

圖5 A: OESet1與B: OESet1合并后的新片段Fig.5 Merging module of A: OESet1 and B: OESet1

同時(shí)，分別對(duì)(B: OESet2)與(B: OESet3)進(jìn)行類(lèi)似操作，獲得新合并片段。其中(B: OESet3)與(A: OESet3)雖具有一定類(lèi)似性，但由于兩者之間沒(méi)有類(lèi)似概念，則它們就不需要進(jìn)行細(xì)節(jié)層面上的合并，因此，這兩個(gè)本體片段均被直接添加到新本體模型中，形成擁有4個(gè)片段的合并后本體模型，如圖6所示。

圖6 本體模型A和B合并后的新本體模型Fig.6 Merged ontology model of ontology models A and B

上述應(yīng)用實(shí)例的相似度計(jì)算結(jié)果如表1所示，其中黑斜體的三角模糊相似度說(shuō)明兩本體片段已定位為相似的本體片段對(duì)，而兩片段間能否進(jìn)行細(xì)節(jié)層面上合并，仍然需要進(jìn)一步計(jì)算。

表1 本體片段模糊相似度計(jì)算結(jié)果

3.3時(shí)間復(fù)雜度分析

考慮到本體模型按照語(yǔ)義相關(guān)性存在多種分割方法，不同的分割方法將產(chǎn)生不同的本體合并算法效率，故本節(jié)針對(duì)本體合并方法中的算法時(shí)間復(fù)雜度進(jìn)行進(jìn)一步分析。為了簡(jiǎn)化問(wèn)題，在時(shí)間復(fù)雜度分析中將本體概念和概念之間關(guān)系兩種元素同等對(duì)待。假設(shè)：

(1) 本體模型A，擁有U個(gè)本體概念或關(guān)系，且本體模型A可被分割為K個(gè)本體片段，每個(gè)本體片段平均擁有P個(gè)概念或關(guān)系，且U=KP；

(2) 本體模型B，擁有V個(gè)本體概念或關(guān)系，且本體模型B可被分割為H個(gè)本體片段，每個(gè)本體片段平均擁有Q個(gè)概念或關(guān)系，且V=HQ。

先考慮一般情況下該本體方法的算法時(shí)間復(fù)雜度。該方法可分為3個(gè)步驟。

(1) 本體分割。采用相關(guān)組定義規(guī)則進(jìn)行本體分割，其相應(yīng)的算法時(shí)間復(fù)雜度與本體中的元素(概念或關(guān)系)個(gè)數(shù)相關(guān)，本體模型A和B分割的算法時(shí)間復(fù)雜度，可表示為X(U)和X(V)。

(2) 本體片段相似度計(jì)算及兩兩定位。由于本體模型A擁有K個(gè)本體片段，本體模型B擁有H個(gè)本體片段，故進(jìn)行兩者兩兩匹配的相似度計(jì)算的時(shí)間復(fù)雜度為X(KH)。

(3) 本體片段內(nèi)部合并。由于本體模型A的本體片段平均擁有P個(gè)概念或關(guān)系，本體模型B平均擁有Q個(gè)概念或關(guān)系，故單個(gè)本體片段對(duì)通過(guò)兩兩相似匹配進(jìn)行合并的時(shí)間復(fù)雜度為X(PQ)。

綜合(1)～(3)，該算法的時(shí)間復(fù)雜度為

X(t)=X(U)+X(V)+X(KH)+X(PQ)

本文考慮3種特殊情況。

(1) 本體模型被分割成一個(gè)模型(即未被分割)，K=1,P=U;H=1,Q=V，此種情況下，本體模型A和B之間的概念和關(guān)系分別進(jìn)行兩兩匹配，其算法時(shí)間復(fù)雜度為

X(t1)=X(U)+X(V)+X(KH)+X(PQ)=

X(U)+X(V)+X(1)+X(UV)≈

X(UV)

(2) 本體模型被完全細(xì)分成單個(gè)概念或關(guān)系(即被完全分割)，K=U,P=1;H=V,Q=1。此情況下，本體模型A的M個(gè)片段與和本體模型B的V個(gè)片段分別進(jìn)行兩兩匹配，其算法時(shí)間復(fù)雜度為

X(t2)=X(U)+X(V)+X(KH)+X(PQ)=

X(U)+X(V)+X(UV)+X(1)≈

X(UV)

(3) 特殊情況，即

K=P=U/2，H=Q=V/2

此時(shí)，時(shí)間復(fù)雜度為

X(ts)=X(U)+X(V)+X(KH)+X(PQ)=

X(U)+X(V)+X(UV)/2≈X(UV)/2

故得到

X(ts)≈X(t1)/2=X(t2)/2

根據(jù)上述分析不難得出，當(dāng)K≈U/2，且H≈V/2 時(shí)，采用該方法進(jìn)行本體合并能比采用傳統(tǒng)方法降低近50%的算法時(shí)間復(fù)雜度，但由于K與H的取值一般與本體的上、下文語(yǔ)義相關(guān)，故在本體分割過(guò)程中需盡可能的將K與H的取值設(shè)置為U/2和V/2。

4 結(jié) 語(yǔ)

本文提出一種基于本體片段模糊相似度的異構(gòu)本體合并方法，將先按照相關(guān)規(guī)則分割成多個(gè)本體片段，這些片段均具有獨(dú)立語(yǔ)義(即片段內(nèi)本體元素高度相關(guān))，從而本體之間合并就轉(zhuǎn)換成本體片段間的合并；然后，通過(guò)本體片段間的相似度計(jì)算，在目標(biāo)本體模型的多個(gè)已分割片段中，定位與待合并本體片段最匹配的片段，再進(jìn)行兩個(gè)本體片段間細(xì)節(jié)層面的合并，以完成本體合并。

本文提出了基于概念或關(guān)系的兩種本體片段模糊化相似度計(jì)算方法，并在此基礎(chǔ)上進(jìn)一步討論一種基于本體片段模糊相似度的異構(gòu)本體合并的算法，該算法解決傳統(tǒng)本體概念相似度計(jì)算過(guò)程中出現(xiàn)的模糊推理特性過(guò)早判斷的問(wèn)題，因此結(jié)構(gòu)信息可與文本信息協(xié)同并行分析以提高片段間的合并效果。

[1] Kotis K,Vouros G A,Stergiou K.Towards automatic merging of domain ontologies: The HCONE-merge approach[J].Journal of Web Semantics,2006,4: 60-79.

[2] Taylor J M,Poliakov D,Mazlack L J.Domain-specific ontology merging for the sem antic web[C]∥2005 Annual Meeting of the North American Fuzzy Information Processing Society.Michigan: IEEE,2005: 418-423.

[3] Richardson B,Mazlack L J.Approximate ontology merging for the semantic web[C]∥Fuzzy Information.Baff Canana:IEEE,2004,2: 641-646.

[4] Qian Pengfei,Wang Yinglin,Zhang Shensheng.Combining instance selection amp; rough set theory in ontology mapping[J].High Technology Letters,2008,14(3): 258-265.

[5] 劉溪涓.數(shù)字化產(chǎn)品設(shè)計(jì)中多形態(tài)知識(shí)集成[J].上海電機(jī)學(xué)院學(xué)報(bào),2010,13(3) : 130-135.

[6] Qian Pengfei,Wang Yinglin,Zhang Shensheng.Ontology mapping approach based on set amp; relation theory and OCL[J].Journal of Harbin Institute of Technology: New Series,2009,16(4): 498-504.

[7] Qian Pengfei,Wang Yinglin,Zhang Shensheng.Configurable ontology mapping based on multi-feature[J].Journal of Harbin Institute of Technology: New Series,2009,16 (6):781-788.

[8] Zobel C W,Rees L P,Rakes T R.Automated merging of conflicting knowledge bases,using a consistent,majority-rule approach with knowledge-form maintenance[J].Computers amp; Operations Research,2005,32(7): 1809-1829.

[9] Kim J M,Shin H,Kim H J.Schema and constraints-based matching and merging of topic maps[J].Information Processing amp; Management,2007,43: 930-945.

[10] Lee C S,Kao Y F,Kuo Y H.Automated ontology construction for unstructured text documents[J].Data amp; Knowledge Engineering,2007,60(3): 547-566.

[11] Lambrix P,Tan H.SAMBO-A system for aligning and merging biomedical ontologies[J].Web Semantics: Science,Services and Agents on the World Wide Web,2006,4(3): 196-206.

[12] Qian Pengfei,Zhang Shensheng.Ontology mapping approach based on OCL[C]∥Fronties of WWW Research and Development-APWeb,2006.Berlin:[s.n.],2006: 1022-1033.

[13] Qian Pengfei,Wang Yinglin,Zhang Shensheng.Combining ODM and OCL in ontology verification[J].Journal of Harbin Institute of Technology: New Series,2009,16(5): 723-729.

[14] Paul E,Nicolaas J.Bottom-up construction of ontologies[J].IEEE Transactions on Knowledge and Data Engineering,1998,10(4): 513-526.

[15] Wang Yinglin .Method of automatic ontology mapping through machine learning and logic mining [J].High Technology Letters,2004,10(4): 29-34.

[16] Qian Pengfei,Wang Yinglin,Zhang Shensheng.Ontology matching approach based on triangle fuzzy expression[C]∥Challenges in Information Technology Management.Singapore: World Scientific,2008: 17-30.

Heterogeneous Ontology Merging Based on Ontology Slice Fuzzy Similarity

QIANPengfei

(Shanghai Baosight Software Co., Ltd., Shanghai 201203, China)

This paper presents a novel heterogeneous ontology merging approach based on the fuzzy similarity between ontology slices.The ontology model to be merged is divided into many slices having independent semantic meaning, and the merging between ontology models can be transferred to the merging between ontology slices.Two kinds of fuzzy similarity algorithms between ontology slices are proposed based on the concept and relation of ontology, and a heterogeneous ontology merging approach based on fuzzy similarity between ontology slices is discussed.It restrains possibility of making decision to fuzzy characteristic too early in the process of similarity calculation.The structural information can be synchronously analyzed and computed together with text information to improve the effect of merging between ontology slices.The proposed approach is evaluated by an ontology merging application example and related analyses and comparisons.

ontology merging; ontology slice; fuzzy similarity; ontology concept

2095-0020(2013)06 -0365-10

TP 18

2003-06-27

錢(qián)鵬飛(1978-)，男，高級(jí)工程師，博士，主要研究方向?yàn)楸倔w技術(shù)及知識(shí)管理，

E-mail: qianpengfei@baosight.com

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

基于本體片段模糊相似度的異構(gòu)本體合并

1 本體片段模糊相似度計(jì)算

2 面向本體片段間模糊相似度的本體合并算法

3 應(yīng)用實(shí)例與分析

4 結(jié) 語(yǔ)