基于實(shí)例相似度的概念語義挖掘方法

2014-06-07 05:53:21徐博藝

計(jì)算機(jī)工程 2014年10期

關(guān)鍵詞：實(shí)例本體修正

游妍,徐博藝,謝誠

(1.上海交通大學(xué)安泰經(jīng)濟(jì)與管理學(xué)院,上海200030;2.上海交通大學(xué)軟件學(xué)院,上海200240)

基于實(shí)例相似度的概念語義挖掘方法

游妍1,徐博藝1,謝誠2

(1.上海交通大學(xué)安泰經(jīng)濟(jì)與管理學(xué)院,上海200030;2.上海交通大學(xué)軟件學(xué)院,上海200240)

本體在知識表達(dá)、共享、重用以及語義查詢中具有重要作用,但在本體融合過程中存在概念層融合難的問題。為此,提出一種挖掘本體概念語義的方法。該方法從實(shí)例數(shù)據(jù)出發(fā),以實(shí)例相似度矩陣為基礎(chǔ),在實(shí)例層和概念層交替進(jìn)行概念語義挖掘,將挖掘結(jié)果通過屬性語義反饋到實(shí)例層,并對其進(jìn)行修正和補(bǔ)充。利用OAEI2012提供的測試本體進(jìn)行實(shí)驗(yàn),結(jié)果顯示查全率與查準(zhǔn)率均得到提高,證明了該方法的可行性和有效性。

實(shí)例相似度;實(shí)例匹配;概念語義;屬性語義;本體融合;語義網(wǎng)

1 概述

語義網(wǎng)的興起引起了人們對于本體的興趣。本體在數(shù)據(jù)集成領(lǐng)域有重要的意義,促進(jìn)了知識的表達(dá)、共享和重用,同時也促進(jìn)了從語法到語義這一查詢模式的轉(zhuǎn)變。本體由實(shí)例數(shù)據(jù)和概念數(shù)據(jù)組成,概念是抽象的描述性的,實(shí)例是現(xiàn)實(shí)世界客觀存在的。發(fā)現(xiàn)在現(xiàn)實(shí)世界中表示同一事物的對象的過程為實(shí)例匹配[1],建立不同本體概念之間的聯(lián)系的過程為本體融合,是機(jī)制匹配的一種形式[2]。

目前,本體融合的方法主要有4種[3]:(1)基于通用本體,例如,OAEI2012的WikiMatch系統(tǒng)應(yīng)用關(guān)聯(lián)規(guī)則,將源本體和目標(biāo)本體都關(guān)聯(lián)到維基百科[4];(2)基于術(shù)語和自然語言處理技術(shù);(3)基于結(jié)構(gòu)相似度,文獻(xiàn)[5]將結(jié)構(gòu)分為內(nèi)部結(jié)構(gòu)(如屬性、屬性類型)和外部關(guān)系結(jié)構(gòu),一般與其他方法結(jié)合應(yīng)用;(4)基于實(shí)例匹配,文獻(xiàn)[6]提出一種基于已經(jīng)存在的實(shí)例連接,度量約束類的實(shí)例集重疊程度,來挖掘值約束類的語義關(guān)系,進(jìn)一步找到本體中的概念覆蓋的方法。但通用本體無法解決領(lǐng)域術(shù)語與概念的匹配問題;基于自然語言處理技術(shù)的方法依賴于本體中概念的命名,與概念的實(shí)際含義無關(guān);結(jié)構(gòu)相似度的相關(guān)方法對本體結(jié)構(gòu)的完善度要求較高,且前三類方法的實(shí)質(zhì)是對本體中的描述性信息進(jìn)行二次加工,脫離了數(shù)據(jù)的事實(shí)基礎(chǔ)。而基于實(shí)例的方法,不考慮本體原有的結(jié)構(gòu),充分地利用實(shí)例集,從本體生成角度進(jìn)行融合,只適用于已經(jīng)擁有大量實(shí)例數(shù)據(jù)而概念相對較少的本體。因此,本文選取基于實(shí)例匹配的方法,融合有實(shí)例的本體。

實(shí)例匹配的方法主要有:(1)基于圖的入度和出度的實(shí)例匹配方法[7];(2)基于OWL語義,如owl: sameas語義、函數(shù)性/逆函數(shù)性、基數(shù)等的實(shí)例匹配方法[8];(3)基于屬性的實(shí)例匹配方法,SLINT系統(tǒng)通過有分辨力的屬性-值對匹配實(shí)例[9]。此外,在文獻(xiàn)[10]提出的Simrank算法中,如果2個對象連接的對象相似,則認(rèn)為這兩個對象也相似。文獻(xiàn)[11]算法也是SimRank的一種拓展?；趫D的方法只考慮了圖中邊的數(shù)量,而忽略了邊的含義;OWL語義直接有效,但只存在于OWL本體中,且這幾種語義占本體所有語義的比例較小;基于屬性的方法一般比較公共屬性的重疊度,能很好地利用屬性集,但關(guān)鍵屬性的識別是一個難點(diǎn)。

本文結(jié)合SimRank算法與屬性語義進(jìn)行實(shí)例層的匹配,計(jì)算不同數(shù)據(jù)源之間實(shí)例的相似度,利用相似的實(shí)例發(fā)現(xiàn)其所屬概念的語義關(guān)系,達(dá)到本體融合的效果。

2 基于實(shí)例相似度的概念語義挖掘

2.1 概念語義挖掘過程

基于實(shí)例相似度挖掘概念語義的過程如圖1所示。

圖1 基于實(shí)例相似度的概念語義挖掘過程

圖1 中包含3個主要的模塊:

(1)實(shí)例相似度計(jì)算模塊:初次輸入為包含實(shí)例的源本體和目標(biāo)本體,輸出為m×n的實(shí)例相似度矩陣。收到屬性語義挖掘模塊的反饋后,輸入為屬性的相關(guān)度,輸出為調(diào)整的實(shí)例相似度矩陣。

(2)概念語義挖掘模塊:輸入為實(shí)例相似度矩陣,輸出為源本體概念和目標(biāo)本體概念之間可能存在的語義,如same_as,subclass_of,disjoint等,以及語義成立的可信度。

(3)屬性語義挖掘模塊:輸入為概念語義及可信度,輸出為屬性語義,即屬性相關(guān)度。

2.2 實(shí)例相似度

實(shí)例相似度計(jì)算的輸入是分別來自源本體和目標(biāo)本體的實(shí)例集,輸出為實(shí)例對的相似度矩陣。對于任意的實(shí)例,通過屬性連接到屬性值,這樣的描述在RDF中稱為一個三元組＜s,p,o＞,＜s,p,o＞∈U×U×U∪L,其中,U為URI集合;L為文本集合。實(shí)例的完整描述由多個三元組構(gòu)成,2個實(shí)例的描述相似則意味著實(shí)例相似,因此,在比較實(shí)例時,比較它們的屬性值是一個合理的方法。

屬性值可以是文本(L)或URI(U),若屬性值為URI,稱這個URI代表的實(shí)例為原實(shí)例的鄰居實(shí)例?；赟imRank的思想[8],不僅鄰居實(shí)例可以描述原實(shí)例,鄰居的鄰居實(shí)例也能對原實(shí)例的描述做出貢獻(xiàn),本文給出實(shí)例相似度計(jì)算公式,如式(1)所示。

其中,C為0～1之間的衰減常數(shù);pi為實(shí)例的第i個屬性;pvi為pi對應(yīng)的屬性值;a或b可能沒有任何屬性和屬性值,即pv(a)或pv(b)可能為空集,此時S(a,b)=0。

2.3 概念語義關(guān)系挖掘

實(shí)例相似度矩陣為源本體和目標(biāo)本體在實(shí)例層建立了映射,要將這種映射轉(zhuǎn)移到概念層才能實(shí)現(xiàn)在異構(gòu)機(jī)制下的本體互操作。

從實(shí)例層映射中發(fā)現(xiàn)概念語義的過程如圖2所示。其中,C1,C2分別來自源本體O1和目標(biāo)本體O2;I1,I2分別為C1,C2的實(shí)例集;在O2中與I1的實(shí)例連接的實(shí)例集稱為I1在O2中的映射集Map(I1)。根據(jù)映射集與目標(biāo)實(shí)例集的重疊情況來度量概念語義。

圖2 從實(shí)例映射中發(fā)現(xiàn)概念語義的過程

定義參數(shù)p,q為度量指標(biāo),p,q的計(jì)算公式如下:

若p=1,則C1?C2;若q=1,則C2?C1。

實(shí)例之間的映射通過相似值產(chǎn)生,相似值是小于1大于閾值的數(shù),并不能斷定連接的實(shí)例指的是同一事物,因此,在這些映射基礎(chǔ)上挖掘的概念語義也不是完全可信的。給出概念語義可信度的定義為:I1中實(shí)例與Map(I1)∩I2中實(shí)例的所有映射對應(yīng)的相似值的平均值,如下式所示:

表1為p,q取不同的值時,C1,C2的語義對應(yīng)關(guān)系,在實(shí)際計(jì)算中,將取值適當(dāng)放寬,大于0.9則可以等同于1,小于0.1等同于0。

表1 概念語義與p,q值的對應(yīng)關(guān)系

2.4 屬性語義比對

若2個屬性的定義域(Domain)和值域(Range)相似,則這2個屬性很可能是相似的,且相似度與其定義域和值域語義相似的可信度相關(guān),如圖3所示。用rel(p1,p2)表示屬性p1,p2的相關(guān)度,即屬性語義的相似度:

圖3 從概念語義挖掘?qū)傩哉Z義的過程

將式(1)在a,b∈U,a≠b時的情況修正為:

3 實(shí)驗(yàn)與結(jié)果分析

3.1 數(shù)據(jù)來源

本文選取OAEI2012提供的Benchmark測試庫中的書目本體(http://oaei.ontologymatching.org/ 2012/benchmarks/index.html)進(jìn)行實(shí)驗(yàn)。將本體101作為源本體,本體202作為目標(biāo)本體。本體101是完整的參考本體,而本體202則是將本體101中的概念、實(shí)例名字和備注等用亂碼替代而得到的。2個本體均包含55個實(shí)例和36個概念,其中,包含實(shí)例的概念有10個,由1 332條三元組組成。

3.2 實(shí)驗(yàn)結(jié)果

根據(jù)2.2節(jié)中的算法,本文比較對象型屬性值和文本屬性值的相似度來衡量2個實(shí)例的相似度,通過迭代計(jì)算最終得到一個相似度矩陣,如圖4所示。相似值在0～1之間,值越高,代表對應(yīng)的2個實(shí)例越相似。本文設(shè)置閾值為0.85,實(shí)例之間相似值大于0.85,則認(rèn)為有效相似,小于0.85則認(rèn)為沒有意義。

圖4 實(shí)例相似度矩陣中的部分?jǐn)?shù)據(jù)

基于該相似度矩陣,利用2.3節(jié)中的算法查找概念語義關(guān)系,結(jié)果如表2所示。

找到概念語義關(guān)系后,能反推出本體屬性之間存在的一些關(guān)系,找出相似的屬性對。如(journal, sxqsnbvsq,0.89),(event,zadzjadns,0.88),(articles, YuEma,0.89),(title,dznbaln,0.89)等,括號中的數(shù)值代表屬性相似的程度。返回實(shí)例相似度矩陣中,對這些屬性所對應(yīng)的實(shí)例相似值進(jìn)行修正。由表3可見,修正后的相似度加強(qiáng)了源概念和目標(biāo)概念之間的聯(lián)系,重復(fù)概念語義挖掘的過程,可以得出源概念I(lǐng)nbook與目標(biāo)概念 vccfsq語義相等,源概念I(lǐng)nproceeding與目標(biāo)概念deqdxcsqcsq語義相等。由屬性修正后補(bǔ)充新增的概念語義如表4所示。

表2 概念語義關(guān)系部分挖掘結(jié)果

表3 實(shí)例相似值修正前后的對比

表4 屬性修正后新增的概念語義

3.3 實(shí)驗(yàn)結(jié)果評估

對實(shí)驗(yàn)結(jié)果用查全率(P)和查準(zhǔn)率(R)評估。查全率是查詢結(jié)果中正確的關(guān)系數(shù)與發(fā)現(xiàn)的關(guān)系數(shù)的比值;查準(zhǔn)率是查詢結(jié)果中正確的關(guān)系數(shù)與實(shí)際存在的關(guān)系數(shù)。用F1值來平衡查全率與查準(zhǔn)率:

在測試本體101和本體202中,每個本體有36個概念,其中只有10個概念包含實(shí)例數(shù)據(jù),其余26個概念均未包含實(shí)例,即實(shí)例集是空集。但由于本文方法是以實(shí)例數(shù)據(jù)為基礎(chǔ)的,本體中不包含實(shí)例的概念是干擾性的數(shù)據(jù),不在本文方法評估的范圍內(nèi)。因此在表5中,將評估結(jié)果分為2行,分別是以包含實(shí)例的概念為基數(shù)的結(jié)果和以所有概念(包含實(shí)例與未包含實(shí)例的)為基數(shù)的結(jié)果。

在實(shí)驗(yàn)中,利用屬性語義對相似度矩陣進(jìn)行了一次反饋修正,就達(dá)到了3項(xiàng)指標(biāo)均為1的效果,因此,表5中對每項(xiàng)指標(biāo)也分成了2欄記錄,修正前的數(shù)值為挖掘流程進(jìn)行了初次實(shí)例相似度計(jì)算和概念語義挖掘后的結(jié)果,修正后的數(shù)值則是在修正前的基礎(chǔ)上,進(jìn)行了屬性語義挖掘、修正相似度矩陣、補(bǔ)充概念語義后的結(jié)果。針對本體202的概念語義挖掘?qū)嶒?yàn)結(jié)果評估如表5所示,從中可見,當(dāng)將本體中的所有概念作為基數(shù)時,修正前 3項(xiàng)指標(biāo)均為8/36=0.22,修正后3項(xiàng)指標(biāo)為10/36=0.28。當(dāng)將本體中有實(shí)例的概念作為基數(shù)時,修正前各項(xiàng)指標(biāo)均為8/10=0.8,修正后找全了所有的概念語義,各項(xiàng)指標(biāo)為1。

表5 概念語義挖掘?qū)嶒?yàn)結(jié)果評估

由實(shí)驗(yàn)結(jié)果可以看出,屬性對于概念語義的修正作用較為顯著,本文方法對于以實(shí)例數(shù)據(jù)為基礎(chǔ)的本體來說是可行有效的。

3.4 與相關(guān)方法的比較

以實(shí)例為基礎(chǔ)的本體融合方法,已有類似研究工作:Zhishi是一個實(shí)例匹配系統(tǒng),利用標(biāo)簽進(jìn)行pre-match,然后進(jìn)行復(fù)雜的語義挖掘[12];ObjectCoref是一個利用屬性-值對迭代自訓(xùn)練的實(shí)例匹配系統(tǒng),挖掘頻繁屬性組合來調(diào)整訓(xùn)練過程[13];SBUEI是一個在實(shí)例層和機(jī)制層交替匹配的本體融合系統(tǒng),將實(shí)例5步以內(nèi)的鄰居實(shí)例組成該實(shí)例的關(guān)聯(lián)網(wǎng),計(jì)算關(guān)聯(lián)網(wǎng)的相似度來匹配實(shí)例,并認(rèn)為相似網(wǎng)中的實(shí)例所屬概念也相似[14]。

本文從融合機(jī)制、實(shí)例匹配依據(jù)、適用場合、數(shù)據(jù)集大小4個維度將本文方法與Zhishi,ObjectCoref和SBUEI方法進(jìn)行比較,如表6所示。

表6 本文方法與Zhishi,ObjectCoref,SBUEI方法的比較

在融合機(jī)制上,本文方法與SBUEI方法較為相似,均在實(shí)例層與概念層交替,但本文實(shí)例層接受概念層的反饋,且考慮屬性語義的修正作用。在實(shí)例匹配時,本文方法綜合了文本、鄰居實(shí)例、屬性對實(shí)例的描述,適用于一般的含實(shí)例的本體。

4 結(jié)束語

本體由于其在數(shù)據(jù)集成、查詢優(yōu)化等領(lǐng)域的重要意義成為當(dāng)前研究的熱點(diǎn),而本體融合是本體互操作性實(shí)現(xiàn)的一個難點(diǎn)。本文提出的方法是一種基于實(shí)例的概念語義挖掘方法,在客觀數(shù)據(jù)中挖掘本體概念層的聯(lián)系,最大限度地提取了實(shí)例數(shù)據(jù)中的信息,完成了本體機(jī)制匹配,可實(shí)現(xiàn)知識共享和本體互操作。該方法將屬性值對的相似度傳遞到實(shí)例對上,通過迭代計(jì)算得到穩(wěn)定的實(shí)例相似度矩陣,建立本體實(shí)例層的關(guān)聯(lián),而概念語義則是這種關(guān)聯(lián)在機(jī)制層的表現(xiàn),進(jìn)一步挖掘?qū)傩缘恼Z義,修正實(shí)例相似度矩陣,優(yōu)化概念語義挖掘的結(jié)果。

本文方法在OAEI2012的測試數(shù)據(jù)集上有較好的查詢效果,但其基礎(chǔ)是實(shí)例數(shù)據(jù),并不適用于沒有實(shí)例數(shù)據(jù)或?qū)嵗龜?shù)據(jù)較少的本體,這也是以所有概念為基數(shù)時指標(biāo)不高的原因。此外,由于在實(shí)例相似度計(jì)算部分時間復(fù)雜度和空間消耗較高,本文方法對于大規(guī)模的本體適應(yīng)性不強(qiáng)。下一步工作是研究如何將本文方法應(yīng)用到大規(guī)模的本體中。

[1] Halpin H,Hayes P J,McCusker J P,et al.When owl: Sameas Isn’t the Same:An Analysis of Identity in Linked Data[C]//Proc.of ISWC’10.Berlin,Germany: Springer-Verlag,2010:305-320.

[2] Rahm E,Bernstein P A.A Survey of Approaches to Automatic Schema Matching[J].The VLDB Journal, 2001,10(4):334-350.

[3] 孫海霞,錢慶,成穎.基于本體的語義相似度計(jì)算方法研究綜述[J].現(xiàn)代圖書情報(bào)技術(shù),2010,26(1): 51-56.

[4] Hertling S,Paulheim H.WikiMatch——Using Wikipedia for Ontology Matching[C]//Proc.of 2012 International Workshop on Ontology Matching.Boston,USA:[s.n.], 2012:37-38.

[5] Euzenat J,Euzenat J,Shvaiko P.Ontology Matching [M].Berlin,Germany:Springer-Verlag,2007.

[6] Parundekar R,Knoblock C A,Ambite J L.Discovering Concept Coverings in Ontologies of Linked Data Sources [C]//Proc.of ISWC’12.Berlin,Germany:Springer-Verlag,2012.

[7] Rowe M.Interlinking Distributed Social Graphs[C]// Proc.of LDOW’09.Heidelberg,Germany:Springer-Verlag,2009:461-475.

[8] Hogan A,Polleres A,Umbrich J,et al.Some Entities are More Equal than Others:Statistical Methods to Consolidate Linked Data[C]//Proc.of the 4th International Workshop on New Forms of Reasoning for the Semantic Web:Scalable and Dynamic.Heraklion, Greece:[s.n.],2010:44-58.

[9] Nguyen K,Ichise R,Le B.SLINT:A Schemaindependent Linked Data Interlinking System[C]// Proc.of 2012 International Workshop on Ontology Matching.Boston,USA:[s.n.],2012:1-12.

[10] Jeh G,Widom J.SimRank:A Measure of Structuralcontext Similarity[C]//Proc.of the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.Edmonton,Canada:ACM Press,2002: 538-543.

[11] 宋亞楠,仲茜,鐘遠(yuǎn).基于多屬性的本體實(shí)例匹配算法[J].計(jì)算機(jī)工程,2011,37(13):63-65.

[12] Niu Xin,Rong Shu,Zhang Yunlong,et al.Zhishi.Links Results for OAEI 2011[C]//Proc.of 2011 International Workshop onOntologyMatching.Bonn,Germany: [s.n.],2011:220-227.

[13] Hu Wei,Chen Jianfeng,Qu Yuzhong.A Self-training ApproachforResolvingObjectConferenceonthe Semantic Web[C]//Proc.of the 20th International Conference on World Wide Web.[S.l.]:ACM Press, 2011:87-96.

[14] Taheri A,Shamsfard M.SBUEI:Results for OAEI 2012 [C]//Proc.of 2012 International Workshop on Ontology Matching.Boston,USA:[s.n.],2012:189-196.

編輯金胡考

Concept Semantic Mining Method Based on Instance Similarity

YOU Yan1,XU Bo-yi1,XIE Cheng2
(1.Antai College of Economic and Management,Shanghai Jiaotong University,Shanghai 200030,China;
2.School of Software,Shanghai Jiaotong University,Shanghai 200240,China)

Ontology plays an important role in knowledge expression,sharing,reuse and semantic query,but in the process of ontology integration,it is difficult to fuse the concept layer.Aiming at this paper,this paper proposes a method to find concept semantic for ontology.Based on the instance similarity metric extract from instance data,it alternates between instance level and schema level to get concept semantic,mines the property semantic,and then turns instance level to amend similarity metric and complement concept semantic on schema level.This paper tests this method with test ontologies provided by OAEI2012,and the result shows that the precise and recall ratio are increased,which proves the feasibility and effectiveness of the method

instance similarity;instance matching;concept semantic;property semantic;ontology fusion;semantic Web

1000-3428(2014)10-0219-05

TP18

10.3969/j.issn.1000-3428.2014.10.041

國家自然科學(xué)基金資助項(xiàng)目“診療本體自動構(gòu)建方法與過程驅(qū)動的本體進(jìn)化機(jī)制研究”(71171132);上海市自然科學(xué)基金資助項(xiàng)目“面向自演化軟件服務(wù)的本體生成及進(jìn)化研究”(13ZR1419800)。

游妍(1991-),女,碩士研究生,主研方向:本體論,數(shù)據(jù)集成;徐博藝,副教授;謝誠,博士研究生。

2013-11-11

2013-12-10E-mail:yancyyou@sjtu.edu.cn

中文引用格式:游妍,徐博藝,謝誠.基于實(shí)例相似度的概念語義挖掘方法[J].計(jì)算機(jī)工程,2014,40(10):219-223.

英文引用格式:You Yan,Xu Boyi,Xie Cheng.Concept Semantic Mining Method Based on Instance Similarity[J]. Computer Engineering,2014,40(10):219-223.