劉 俊 李 華 侯漢清 徐煥良
摘要 敘詞表已有的參照系統(tǒng)及幾種圖形顯示形式在網(wǎng)絡(luò)環(huán)境中顯然不能動(dòng)態(tài)地?全面地顯示詞間關(guān)系,不便于瀏覽和檢索?在分析本體編輯工具Protégé實(shí)現(xiàn)敘詞表可視化的必要性基礎(chǔ)上,以《漢語主題詞表》為例,利用Protégé的可視化插件TGVizTab,進(jìn)行敘詞表等同關(guān)系?等級關(guān)系和相關(guān)關(guān)系的可視化實(shí)驗(yàn),并討論了整部關(guān)系和例舉關(guān)系的可視化?
關(guān)鍵詞 本體編輯工具 Protégé 敘詞表可視化 信息可視化オ
敘詞表是信息表示工作過程中廣泛采用的文獻(xiàn)主題標(biāo)引和檢索工具?它對自然語言進(jìn)行詞量?詞類?詞形?詞義及詞間關(guān)系的全面控制?可視化就是把數(shù)據(jù)信息和知識(shí)轉(zhuǎn)化為圖形?圖像等比較直觀的視覺形式的過程[1]?對敘詞表的詞間關(guān)系進(jìn)行可視化,能夠幫助用戶更直觀地感知詞間關(guān)系[2],明確敘詞的涵義,更快速地檢索和選擇所需語詞?
詞間關(guān)系是指敘詞之間內(nèi)在的語義聯(lián)系,包括等同關(guān)系?等級關(guān)系和相關(guān)關(guān)系?紙制敘詞表的編制通常采用三種詞間關(guān)系控制方法:①編制范疇索引和詞族索引;②建立參照系統(tǒng);③圖形顯示?前兩種方法只能線性顯示詞間關(guān)系,而第三種方法借助圖形的直觀優(yōu)勢,更有助于把握詞間關(guān)系?本文嘗試以《漢語主題詞表》為例,用本體編輯工具Protégé的可視化插件TGVizTab實(shí)現(xiàn)敘詞表的可視化,全面?形象?動(dòng)態(tài)地顯示敘詞表的各種詞間關(guān)系?オ
1 敘詞關(guān)系的圖形顯示
圖形顯示[3]是將敘詞間關(guān)系以二維圖形式加以顯示,亦稱詞族圖,或稱敘詞關(guān)系圖;包括同心圓圖?箭頭圖?樹形結(jié)構(gòu)圖?方框圖等顯示形式?
1.1 同心圓圖
族首詞位于同心圓的圓心位置,族中詞根據(jù)級別不同分布于半徑不同的同心圓上?也就是說,專指度越大的下位詞,距離圓心越遠(yuǎn)?直接上下位詞之間由單向箭頭相連,從上位詞指向下位詞?與族中詞(同心圓上的某個(gè)敘詞)相關(guān)的敘詞列于同心圓之外,兩者之間用直線相連?典型的有1963年由武裝部隊(duì)技術(shù)和情報(bào)中心編制的TDCK環(huán)形展示敘詞表[4],圖1是以族首詞“出版物”為中心展開繪制的TDCK環(huán)形圖?
1.2 箭頭圖
由多條橫線和豎線相交成一個(gè)坐標(biāo)圖?族首詞位于坐標(biāo)圖的中間位置,族中詞根據(jù)級別不同分布于不同坐標(biāo)點(diǎn)上?也就是說,專指度越大的下位詞,距離中心詞(族首詞)越遠(yuǎn)?與同心圓圖一樣,直接上下位詞之間由單向箭頭相連,從上位詞指向下位詞?與族中詞(坐標(biāo)圖上的某個(gè)敘詞)相關(guān)的敘詞列于坐標(biāo)圖之外,兩者之間用虛線相連?圖2就是以族首詞“攝影機(jī)”為中心展開繪制的箭頭圖?
1.3 樹形結(jié)構(gòu)圖
詞族中的等級關(guān)系用樹狀結(jié)構(gòu)加以展開?族首詞位于樹形結(jié)構(gòu)圖的頂端位置,族中詞根據(jù)等級關(guān)系一層層展開:一級下位詞處于族首詞位置之下的第一層,以此類推,最后一級的下位詞處于結(jié)構(gòu)圖的末端?
1.4 方框圖
由多個(gè)方框組成的方框圖?一個(gè)詞族列于一個(gè)方框之內(nèi)?族首詞居中位于框內(nèi)第一行,并用下劃線加以標(biāo)識(shí)?族中詞按照等級關(guān)系用空格縮進(jìn)形式進(jìn)行全顯示?每一頁集中顯示具有相關(guān)關(guān)系的幾個(gè)詞族方框,并共同置于一個(gè)大方框中,不同詞族方框中有相關(guān)關(guān)系的族中詞之間用直線或折線相連?該頁顯示不下的相關(guān)關(guān)系,只用縮略形式表示:相關(guān)敘詞列于大方框外,加以數(shù)字標(biāo)識(shí)來源,分別置于一個(gè)個(gè)小方框內(nèi),并與族中詞用直線相連?
“一畫頂千言”,經(jīng)圖形顯示的敘詞關(guān)系直觀?形象?清楚,便于用戶對某個(gè)敘詞的等級關(guān)系和相關(guān)關(guān)系有一個(gè)全面的了解?但是手工繪制詞族圖復(fù)雜又費(fèi)時(shí),而且這類詞族圖只是靜態(tài)圖,由于頁面限制往往一頁只能顯示一個(gè)或幾個(gè)詞族,不利于瀏覽和檢索?所以,敘詞表采用詞族圖的寥若晨星,難以推廣?
相比較之下,在電子和網(wǎng)絡(luò)環(huán)境下,圖形顯示更能發(fā)揮有效作用,因?yàn)榻柚溄蛹夹g(shù),用戶就能直接瀏覽選定詞語的詳細(xì)內(nèi)容或圖示?網(wǎng)絡(luò)上常用的受控詞表的顯示方式有[6]:路徑等級顯示?按分類體系或字母順序顯示?超鏈接導(dǎo)航(為所有與款目詞有關(guān)的詞建立鏈接)?
隨著信息可視化技術(shù)的發(fā)展,一些商業(yè)產(chǎn)品能夠生成概念圖[7],例如本體編輯工具可以對各類敘詞進(jìn)行編輯,自動(dòng)生成敘詞關(guān)系圖?這在一定程度上解決了手工繪制詞族圖的繁瑣,突破手工繪制的局限性,具有良好的友好性?動(dòng)態(tài)性和可檢索性?也就是說,用戶通過瀏覽敘詞表敘詞關(guān)系圖,對所感興趣的領(lǐng)域有一個(gè)感性認(rèn)識(shí),可以從一個(gè)敘詞到另一個(gè)相關(guān)敘詞進(jìn)行選擇,從而確定標(biāo)引和檢索所要采用的敘詞,有助于信息表示和檢索過程中的找詞選詞?
2 本體編輯工具Protégé的可視化功能
Protégé[8] 是由斯坦福大學(xué)醫(yī)學(xué)院的醫(yī)學(xué)情報(bào)學(xué)研究組(Stanford Medical Informatics)開發(fā)研制?Protégé[9] 是一個(gè)免費(fèi)的開源平臺(tái),為不斷增長的用戶群提供一套適用工具,用以構(gòu)建領(lǐng)域本體和基于知識(shí)的本體應(yīng)用?Protégé 具有一套豐富的知識(shí)構(gòu)建框架和方法,能以各種表示格式創(chuàng)建圖形顯示和管理本體?Protégé構(gòu)建的本體描述了某個(gè)特定領(lǐng)域中重要的概念和聯(lián)系;不僅為該領(lǐng)域提供一部詞匯表,也為詞表中的詞語含義提供了一種計(jì)算機(jī)可操作的規(guī)范?Protégé 構(gòu)建本體時(shí),用類(Classes)來劃分客觀世界或某個(gè)領(lǐng)域,允許在最底層類別(最小類)之下添加實(shí)例(Instances),通過定義屬性(Properties)將相關(guān)的類和實(shí)例聯(lián)系起來,采用各種結(jié)構(gòu)圖形來顯示類或?qū)嵗g的各種關(guān)系?目前Protégé 提供了幾個(gè)插件來實(shí)現(xiàn)可視化功能,例如TGVizTab 采用的是網(wǎng)狀圖結(jié)構(gòu)(圖3),將類?實(shí)例?屬性節(jié)點(diǎn)與節(jié)點(diǎn)相連,形成一張動(dòng)態(tài)的語義相關(guān)網(wǎng)絡(luò)?
TGVizTab 使用TouchGraph 技術(shù)可視化顯示本體,具體的功能有:①圖形顯示類或?qū)嵗年P(guān)系;②網(wǎng)狀圖顯示維度控制;③改變圖形顏色;④不同顏色表示不同屬性;⑤隱藏/顯示單個(gè)屬性和結(jié)點(diǎn);⑥幾何級和雙曲線型的縮放;⑦旋轉(zhuǎn)圖形;⑧結(jié)點(diǎn)檢索;⑨保存/下載圖形和設(shè)置?
3 敘詞表可視化的實(shí)現(xiàn)
Protégé 可作為可視化軟件嘗試顯示敘詞表的詞間關(guān)系?《漢語主題詞表》(以下簡稱《漢表》)提供了三種詞間關(guān)系(表1),筆者從《漢表》自然科學(xué)增訂本中部分選取與信息領(lǐng)域相關(guān)的幾個(gè)詞族及相關(guān)關(guān)系(表2),在Protégé3.1.1 中編輯后,用TGVizTab插件進(jìn)行圖形顯示?
3.1 等級關(guān)系的可視化
Protégé系統(tǒng)提供了一個(gè)基本大類owl:Thing ,在此類之下,允許用戶自定義各大類,再一級級細(xì)分出小類,最后一級小類之下可以添加具體實(shí)例?由于筆者選取的都是抽象名詞(表2),沒有實(shí)例名詞,因而在Protégé 中編輯敘詞表時(shí),一個(gè)敘詞就作為一個(gè)類?這樣類的等級關(guān)系就反映著敘詞間的等級關(guān)系?
首先,在owl:Thing總類之下建立兩個(gè)大類:正式敘詞和非正式敘詞?在大類“正式敘詞”之下,按照每個(gè)詞族的等級關(guān)系建立起一級級下位類?在圖形顯示界面,鼠標(biāo)置于某個(gè)敘詞,系統(tǒng)就會(huì)自動(dòng)顯示其周圍敘詞與該詞之間的關(guān)系?super 和sub 是由系統(tǒng)默認(rèn)的等級關(guān)系屬性:super 指向上位詞,sub 指向下位詞?如圖4所示,“計(jì)算機(jī)管理”有一個(gè)上位類“正式敘詞”,說明它是個(gè)族首詞;有五個(gè)下位類?位于敘詞右上角的數(shù)字表示未顯示出的詞間關(guān)系的數(shù)量?
3.2 等同關(guān)系的可視化
Protégé提供兩種類型屬性:對象屬性(Object Property)和數(shù)據(jù)屬性(Datatype Property)?對象屬性表示類或?qū)嵗g的關(guān)系,有翻轉(zhuǎn)屬性?傳遞屬性?對稱屬性和函數(shù)屬性四種類型?數(shù)據(jù)屬性反映的是某類實(shí)例的自身屬性,例如圖書的數(shù)據(jù)屬性有開本?頁碼等?不難看出,在表現(xiàn)敘詞間等同關(guān)系和相關(guān)關(guān)系時(shí),需要定義對象屬性?只要在屬性編輯頁面中選定一種對象屬性,再添加該屬性的定義域和值域,就可將存在此類關(guān)系的類或?qū)嵗?lián)系起來?
《漢表》在處理同義詞時(shí),通常指定其中一個(gè)常用的詞語為正式敘詞,其余詞均為非正式敘詞,表示方法為“正式敘詞 D 非正式敘詞,非正式敘詞 Y 正式敘詞”?根據(jù)D和Y的互逆關(guān)系,在Protégé屬性界面中新建兩個(gè)對象屬性D和Y,并定義Y是D的翻轉(zhuǎn)屬性?只要類1用屬性D聯(lián)系到類2,系統(tǒng)就自動(dòng)地從類2用屬性Y聯(lián)系到類1?如果在屬性D下建立子屬性D1,系統(tǒng)就會(huì)自動(dòng)在屬性Y下建立一個(gè)子屬性,作為Y1的翻轉(zhuǎn)屬性,名為inverse_of_D1,用戶可以根據(jù)習(xí)慣重命名?
首先,將某個(gè)或幾個(gè)非正式敘詞作為下位類列于大類“非正式敘詞”之下?在屬性D下建立子屬性D1,并令系統(tǒng)在屬性Y下生成子屬性inverse_of_D1后,將其重命名為Y1?選中屬性D1,在定義域添加正式敘詞,在值域添加某個(gè)或某些非正式敘詞?第二組的等同關(guān)系需要建立子屬性D2,以后各組等同關(guān)系均在屬性D下依次建立子屬性?因?yàn)閷ο髮傩缘亩x域與值域中各值之間并未建立起相對應(yīng)的關(guān)系?如果所有等同關(guān)系都在屬性D和Y中添加,就會(huì)造成關(guān)系的擴(kuò)張和混亂?本文中具體的對象屬性設(shè)置如表3所示?
例如:
敘詞關(guān)系對象屬性
數(shù)據(jù)管理 D信息管理, 資料管理D1
文件系統(tǒng) D文件結(jié)構(gòu)D2
顯示結(jié)果如圖5所示,數(shù)據(jù)管理?信息管理和資料管理,文件系統(tǒng)和文件結(jié)構(gòu)之間分別用直線建立聯(lián)系?
3.3 相關(guān)關(guān)系的可視化——C
相關(guān)關(guān)系C是一種特殊的翻轉(zhuǎn)屬性,是一種自逆關(guān)系?筆者新建一種對象屬性SA (See Also)(表3)作為屬性C的翻轉(zhuǎn)屬性,這樣敘詞1若與敘詞2相關(guān),可以從敘詞1用屬性C聯(lián)系到敘詞2,相應(yīng)地?cái)⒃~2用屬性SA反向聯(lián)系到敘詞1? 在此基礎(chǔ)上,與等同關(guān)系可視化操作一樣,為每一組相關(guān)關(guān)系建立一對翻轉(zhuǎn)子屬性,并相應(yīng)定義每個(gè)子屬性的定義域和值域,即添加有相關(guān)關(guān)系的兩類或多個(gè)類?
3.4 交叉類的可視化
在《漢表》中存在許多交叉類,或稱為多重等級關(guān)系,即一個(gè)下位敘詞同時(shí)擁有多個(gè)上位類?例如下位詞“操作系統(tǒng)”擁有兩個(gè)上位類,分別為“程序系統(tǒng)”和“計(jì)算機(jī)系統(tǒng)”?由于Protégé 假設(shè)各類之間沒有交叉,不允許類名重復(fù),建立的全是不交叉類,所以筆者沿用《漢表》的屬分關(guān)系代碼,另外建立一對翻轉(zhuǎn)屬性,命其為S和F,代表交叉等級關(guān)系(表3),特意表示此類交叉現(xiàn)象?表示交叉類“操作系統(tǒng)”時(shí),先在“計(jì)算機(jī)系統(tǒng)”之下按照常規(guī)方法建立子類“操作系統(tǒng)”,然后在“操作系統(tǒng)”和“程序系統(tǒng)”之間用屬性S和F相連,表示為操作系統(tǒng) S 程序系統(tǒng)?程序系統(tǒng) F 操作系統(tǒng)?如圖7所示,super和 S 分別指向“操作系統(tǒng)”的兩個(gè)上位類?
4 自定義詞間關(guān)系
在《漢表》中,等級關(guān)系只包括屬種關(guān)系,整部關(guān)系和例舉關(guān)系并未得到揭示?可以利用protégé的屬性設(shè)置功能自定義一對翻轉(zhuǎn)屬性BTP和NTP來揭示整體-部分關(guān)系,還可以通過在類下設(shè)置實(shí)例來揭示例舉關(guān)系(BTI和NTI)?BTP和NTP[11]是ANSI/NISO Z39.19-2005標(biāo)準(zhǔn)中建議使用的,BTP 是Broader Term (partitive) 的縮寫,NTP 是Narrower Term (partitive) 的縮寫?其中BTP 指向包括各組成部分的整體,NTP 指向構(gòu)成整體的組成部分?例如,數(shù)據(jù)庫是信息系統(tǒng)的一個(gè)重要組成部分,可以表示為:數(shù)據(jù)庫 BTP 信息系統(tǒng),信息系統(tǒng) NTP 數(shù)據(jù)庫?如圖8所示,屬性NTP 將信息系統(tǒng)(整體)和數(shù)據(jù)庫(部分)聯(lián)系起來,顯示出兩者的整部關(guān)系?由于protégé可以在最底層的類下添加實(shí)例,因而很容易實(shí)現(xiàn)例舉關(guān)系的可視化,不再贅述?
5 評價(jià)
從以上可視化的實(shí)踐來看,Protégé 是一種可行的敘詞關(guān)系可視化工具:不僅能夠圖形顯示和自定義詞間關(guān)系,還可以用不同顏色代表不同屬性(即顯示圖中不同顏色的直線代表不同類型的關(guān)系),也可以對某個(gè)局部進(jìn)行任意縮放,選擇關(guān)系網(wǎng)狀圖顯示的深度和復(fù)雜度;根據(jù)顯示要求顯示或隱藏某個(gè)結(jié)點(diǎn)?不僅可以瀏覽網(wǎng)狀圖,還可以直接通過結(jié)點(diǎn)檢索查找某個(gè)敘詞?利用可視化技術(shù),敘詞表無論在電子或是網(wǎng)絡(luò)環(huán)境下都能以友好姿態(tài)面向大眾,不再是限于信息機(jī)構(gòu)的專業(yè)工具,這樣能夠最大限度發(fā)揮敘詞表的作用?
總的來說,Protégé 基本上能夠滿足動(dòng)態(tài)?全面地實(shí)現(xiàn)敘詞表可視化的需求?但是作為本體編輯工具,Protégé畢竟不是專門的敘詞表可視化工具,因而在使用上出現(xiàn)以下兩個(gè)問題:①對于類,對象屬性不提供復(fù)用,其定義域和值域中的值并未建立一一對應(yīng)關(guān)系,需要建立子屬性加以區(qū)分;②Protégé 設(shè)置的各級類不允許重復(fù),也就是說,全部是不交叉類,其建立的等級關(guān)系就不能體現(xiàn)交叉類這一常見現(xiàn)象,需要增加對象屬性來補(bǔ)充揭示?在可視化顯示效果方面,雖然TGVizTab能夠提供圖形縮放功能,但是只能簡單提供節(jié)點(diǎn)間連線的縮放,節(jié)點(diǎn)大小并不相應(yīng)地按照比例縮放而是始終保持不變?當(dāng)放大到一定程度,圖形結(jié)構(gòu)就過于疏松;當(dāng)縮小到一定比例,圖形就相當(dāng)擁擠?以上所提到的問題還有待改進(jìn)?至于實(shí)現(xiàn)敘詞表的可視化,是采用現(xiàn)有的可視化工具,還是開發(fā)專用的可視化工具,也需要進(jìn)一步探討和實(shí)踐?
參考文獻(xiàn)
1 韓麗影,劉偉.信息可視化——知識(shí)服務(wù)網(wǎng)站的新形象.情報(bào)理論與實(shí)踐,2005(6):636-639
2 王子熙,馬蕾.《漢語主題詞表》詞間關(guān)系的可視化.四川圖書館學(xué)報(bào),2006(2):26-29
3 馬張華,侯漢清.文獻(xiàn)分類法主題導(dǎo)論.北京圖書館出版社,1999:148-149
4 同3:150
5 同3:152
6 The National Information Standards Organization. Z39.19-2005 guidelines for the construction, format, and management of monolingual controlled vocabularies, Bethesda, Maryland, U.S.A:NISO Press, 2005:73-74
7 同4:79-81
8 李景.本體理論在文獻(xiàn)檢索系統(tǒng)中的應(yīng)用研究.北京圖書館出版社,2005:169-173
9 What is Protégé?[2007-01-20]. http://protege.stanford.edu/overview/
10 TGVizTab: A touchgraph visualization tab for protégé2000.[2007-01-20]. http://eprints.ecs.soton.ac.uk/8326/01/Alani-VIKE-camera-ready.pdf
11 同6:49お
作者單位:南京農(nóng)業(yè)大學(xué)信息管理系,南京,210095
收稿日期:2007年3月23日
Experiment of The Visualization of Relationship Among the Descriptors in the Thesaurus
Liu Jun Li Hua Hou Hanqing Xu Huanliang
Abstract: This paper analyses the necessity of visualization of thesaurus by dint of the ontology editor Protégé. Taking Chinese Thesaurus for example, relationship among the descriptors is graphically and semantically visualized by the visualization plug-in of Protégé. At the end, an evaluation is given.
Keywords: Ontology Editor; Protégé; Thesaurus Visualization; Information Visualization