張子振
(安徽財經(jīng)大學 信息工程學院,安徽 蚌埠 233041)
本體評價方法研究
張子振
(安徽財經(jīng)大學 信息工程學院,安徽 蚌埠 233041)
鑒于本體可以提供特定領域的概念及其關系,進而獲取領域知識,本體在知識管理、信息檢索以及語義Web等領域的應用越來越廣泛.解決本體評價問題亦顯得日益重要.本文根據(jù)要評價本體的類型和目的的不同,對多種常用本體評價的方法進行了對比分析.
本體;本體評價;評價方法
本體是對知識進行概念化說明的重要結構,并且對于同一部分知識,我們通常構建多個本體對其進行概念化說明.所以,如果本體在語義網(wǎng)或者其他語義應用領域廣泛的被應用時,本體評價就成了一個必須解決的重要問題.
根據(jù)要評價的本體類型和目的的不同,總的來說,多數(shù)本體評價方法屬于以下范疇:(1)通過與“黃金標準”比較的方式評價本體[1];(2)在應用中使用本體并對結果進行評價的方式評價本體[2];(3)與覆蓋本體領域的文集進行比較的方式評價本體[3];(4)通過人工評價本體滿足預定義標準、準則、需求等的程度評價本體[4].本體是一個相當復雜的結構,經(jīng)常是對本體的各個層次分別進行評價而不是將其作為一個整體直接評價.這對更好的自動評價而不是完全人工評價更有利.所以除了上述評價方法之外,我們可以基于如下的評價等級對本體評價方法進行分組:詞匯、句法層;層次;其他語義關系;上下文環(huán)境和應用層;句法層;結構、體系和設計.本文針對這些評價等級,對分層本體評價方法進行了分析,最后提出了本體評價領域的下一步工作.
一種可用于詞匯層本體評價的方法的例子是由MAEDCHE和STAAB提出的.兩詞匯間的相似度利用Leven shtein距離測量,通過[0,1]間的數(shù)字規(guī)格化分數(shù).兩個詞匯集的詞匯匹配測量定義為,從第一個詞匯集中取出每一個詞在第二個詞匯集中查找與該詞最接近的詞,并標上分值,最后計算第一個詞匯集的平均值.要評價的本體中的詞匯組成第一個詞匯集,這些詞匯與由“黃金標準”組成的詞匯集進行比較.所謂“黃金標準”可以是另一個本體,也可以是從文集或領域專家統(tǒng)計出來的詞匯.
本體的詞匯內容也可以通過概念的精確度和回調來評價.本文中精確度指的是在本體中用到的作為標識的詞匯這些詞匯在“黃金標準”中也出現(xiàn)了,這些詞匯占本體中詞匯總量的百分比.回調指的是“黃金標準”中的詞匯,這些詞匯在也在本體中作為標識出現(xiàn)了,這些詞匯占“黃金標準”詞匯總量的百分比.一種獲得更好匹配標準的方法是從Word-NET或其他相似資源中為詞匯實體增加同義詞,然后測試這兩個含有同義詞的集合而不是測試原集合.
文獻[3]給出了一個數(shù)據(jù)驅動的方法去評價本體和文集間結構的匹配度.(1)給定一個領域的文集,基于期望模型的聚類算法可以自動的給出隱藏主題的概率混合模型,所以可以將每個文檔模型化.(2)本體中的每個概念用一系列術語表示,屬于包括概念名稱和同義詞.(3)從聚類中獲得的概率模型可以測量概念與主題的匹配程度,這些主題是利用聚類算法中識別出來的.(4)如果每個概念都在一定程度上與主題相匹配,我們就獲得了對本體結構層的評價技術.因此主題相關的概念應在本體中具有較近的相關性.這也顯示出本體的結構與隱藏主題的結構有較好的同盟關系.但此方法用來評價關系時的一個缺點是它很難將關系的意思考慮在內.
給定“黃金標準”也可以基于對準確度和回調的測量評價本體的關系層,此黃金標準可能由人提供也可能是一個統(tǒng)計術語列表.這種評價方法被SPYNS用來評價自動抽取的詞匯集,如從自然語言中抽取出的三元組(術語1、規(guī)則、術語2).但黃金標準的準備是一件很費人力的工作.
文獻[5]討論了本體評價中一點不同之處.他們指出一些哲學概念能夠幫助我們更好的理解本題中經(jīng)常出現(xiàn)的不同類型語義關系的種類(能夠幫助我們更好的理解關系類型所屬的種類),并發(fā)現(xiàn)本體結構中可能出現(xiàn)的問題(如is-a關系經(jīng)常被用來描述某些類的元層次特點,或被用來代替了部分關系,或被用來顯示多意義的術語).這個方法的底層需要人類專家的干預,這些專家需要熟悉上面所提到的哲學概念,這些專家需要用適當?shù)脑獢?shù)據(jù)標簽對本體概念進行注釋,這樣就可以自動地對錯誤的關系類型進行核對了.
文獻[1]提出了對兩個本體關系層進行比較的測量方法.雖然這個方法有缺點,但它的優(yōu)點是一旦給定黃金標準兩個本體間的比較是完全自動的.術語C的語義在層次中表示為他的上位概念和下位概念的集合.給定兩個層次H 1和H 2,術語t可以描述H 1層的C 1和H 2層的C 2.我們對以下兩個集合進行計算,在H 2層上從C 1的角度對概念進行描述的術語集,和在H 1層上從C 2的角度對概念描述的術語集.兩個集合的交際可以被用來測量術語t在兩個層次上規(guī)則的相似度.將兩個層次上所有術語進行平均,這可以測量H 1和H 2層的相似性.
有時本體是一個本體集的一部分,它會引用該本體集的其他本體(一個本體使用另一個本體中聲明的概念或類),如web或本體庫.這時本體所處的環(huán)境能夠利用多種方式對本體進行評價.如Swoogle搜索引擎使用交叉引用(利用語義網(wǎng)文檔定義的圖和在行為方式上計算每個本體與Page Rank相似性的分值的交叉).
評價用的環(huán)境可有專家提供,如文獻[6]提出使用元數(shù)據(jù)能夠增強本體例如它的設計方針,它將如何被用戶使用,同樣本體的使用者提供“同行評論”.一個合適的搜索引擎將在元數(shù)據(jù)上進行查詢,并幫助使用者決定在若干本體中挑選一個合適本體.
本體將被用于某些類型的應用或任務.應用的輸出,或本體在任務中的表現(xiàn)的好壞部分的依賴于所使用的本體.所以好的本體是一個可以幫助應用獲得好結果的本體.本體可以被應用到任務中根據(jù)結果去評價.這種方法的最好好處是直觀.
基于應用的評價方法也有若干缺點:(1)我們可以看到本體在特定應用中的好壞,但對觀察進行歸納是很難得.(2)本體僅是應用的一個小組件,它的作用可能是非常小或非直接.(3)只能將不同本體放到相同的應用中去比較.
本體也可以通過與所評價本體相關領域的數(shù)據(jù)進行比較得到評價結果.PATEL給出如何確定本體是否與特定主題相關,和將本體分類到主題目錄:從本體中抽取原文數(shù)據(jù),然后將其做為文本分類模型的輸入(使用標準的機器學習算法進行訓練).
文獻[1]從文檔集中使用潛在的語義分析抽取出了領域相關的術語集.領域中的術語和本體中出現(xiàn)的術語的交集可以測量本體和文集間的匹配程度.
在本體合并實際信息的時候,文檔也應當被當作是外部世界的事實,并且評價要檢查這些文檔是否也能夠從本體中得到.文檔也是現(xiàn)實世界的事實,本體是用來表示現(xiàn)實世界事實的工具,因此評價應當也檢查本體是否也包含這些描述事實的文檔.
另一個從眾多本體中選擇好本體的(或初選可行本體)評價方法是多標準方法,該方法將評價問題看成是制定決策的問題(選用何標準、本體如何根據(jù)標準打分).我們可以基于多標準和屬性幫助我們評價本體;本體針對每一個標準進行評價并給出分值.然后根據(jù)權重將每個標準的分值進行加權平均.相似的策略已在其他環(huán)境中被用來挑選候選人了.本方法的缺點是需要大量的專家的參與.實際上這種方法是將評價問題轉化成如何針對美國標準去評價本體了(將大的評價問題轉化成了若干小的評價問題).本方法的好處是第二部分表中所列的所有層次的標準可以聯(lián)合起來評價本體.
文獻[7]提出了這種類型的評價方法,它使用了十個標準:合法性(語法錯誤的頻率)、豐富性(本體的形式化語言中多少語法特征可用)、注釋(本題中的術語是Word NET中的術語)、一致性(本體中多少概念是一致的)、無二義性(本題中的術語在Word NET中語義唯一)、全面、精確性(本題中錯誤聲明的比例)、適當(對用戶來說聲明的語法是可讀的)、權威性(有多少本體引用了該本體)、歷史(該本體被訪問了多少次)
文獻[8]提出了另一系列標準他用到了更多的評價手冊.文獻[9]則提出了更多的含有117條標準.
在本體支持計算和語義網(wǎng)方面本體評價仍存在著這樣一個問題.對于本體評價來說沒有一個最好的或首選的方法;最合適評價方法的選擇依賴于評價的目的,本體所應用的任務,我們想要評價本體哪方面的內容.此領域下一步的工作應當關注于本體的自動評價,這是健康發(fā)展自動本體處理技術的必要前提,本體自動處理技術包括本體學習、本體仲裁、本體匹配等.
〔1〕MAEDCHE,A.,STAAB,S.,Measuring similarity between ontologies.Proc.CIKM 2002.LNAI vol.2473.
〔2〕PORZEL,R.,MALAKA,R.,A task-based approach for ontology evaluation.ECAI 2004 Workshop Ont.Learning and Population.
〔3〕BREWSTER,C.et al.Data driven ontology evaluation.Proceedings of Int.Conf.on Language Resources and Evaluation,Lisbon,2004.
〔4〕LOZANO-TELLO,A.,GóMEZ-PéREZ,A.,Ontometric:A method to choose the appropriate ontology.J.Datab.Mgmt.,15(2):1–18(2004).
〔5〕GUARINO,N.,WELTY,C.,Evaluating ontological decisions with OntoClean.Comm.of the ACM,45(2):61–65,February 2002.
〔6〕SUPEKAR,K.A peer-review approach for ontology evaluation.Proc.8th Intl.Protégé Conference,Madrid,Spain,July 18–21,2005.
〔7〕BURTON-JONES,A.,et al.,A semiotic metrics suite for assessing the quality of ontologies.Data and Knowledge Engineering(2004).
〔8〕FOX,M.S.,et al.,An organization ontology for enterprise modelling.In:M.Prietula et al.,Simulating organizations,MIT Press,1998.
〔9〕LOZANO-TELLO,A.,GóMEZ-PéREZ,A.,Ontometric:A method to choose the appropriate ontology.J.Datab.Mgmt.,15(2):1–18(2004).
TP 399
A
1673-260X(2010)12-0027-02