韓 潔 (德州學院圖書館 山東 德州 253023)
本體是一種可以在語義和知識層次上描述信息系統(tǒng)的概念模型建模工具。本體建模完全可以以傳統(tǒng)的知識組織體系為基礎,利用已有的知識成果,吸取其中的概念、詞匯,將傳統(tǒng)知識轉化為新型的知識組織體系?!吨袊诸愔黝}詞表》是圖書情報領域依據(jù)國際標準制定的一個術語控制工具,它選詞多、范圍廣,很適合建立大型的本體。本文以《中國分類主題詞表》為母體,以OWL(Web Ontology Language,網(wǎng)絡本體語言)對《中國分類主題詞表》轉換本體進行形象化描述,構建基于OWL的知識組織體系。
OWL是W3C(World Wide Web Consortium,萬維網(wǎng)聯(lián)盟)開發(fā)的一種網(wǎng)絡本體語言,用來對本體進行語義描述,是W3C推薦的語義互聯(lián)網(wǎng)中本體描述語言的標準。OWL語言具有優(yōu)良的定義語法和語義、高效率的推理支持、充分的表達能力和表達的方便性[1],可以將設計知識術語間的語義信息與關系精準地表達出來。
OWL約束公理是對概念所包含的各種約束和限制條件進行詳盡的描述,是OWL類公理的核心部分。OWL約束公理可分為基數(shù)約束和值約束兩種?;鶖?shù)約束包括以下3種:①owl:minCardinality:指被約束屬性的取值范圍最少應取owl:minCardinality所指定的數(shù)目的不同值。用符號“≥”表示。②owl:maxCardinality:指被約束屬性的取值范圍內最多能取owl:maxCardinality所指定的數(shù)目的不同值。用符號“≤”表示。③owl:cardinality:指認定被約束屬性的取值基數(shù),可以使用一組取值一致的owl:minCardinality和owl:maxCardinality來取代。用符號“=”表示。值約束包括以下3種:①owl:allValuesFrom: 用符號表示,相當于邏輯中的全稱量詞。每一個有指定屬性的類別實例,其屬性的值必須是由owl:allValuesFrom從句指定的類的實例。取值可以為空。②owl:hasValue:用符號“ ”表示。被約束屬性的取值范圍內至少有一個是owl:hasValue所規(guī)定的值或者與所規(guī)定的值語義相當。取值不能為空。③owl:someValuesFrom:用符表示,相當于邏輯中的存在量詞。約束屬性的取值范圍內至少有一個是owl:someValuesFrom所規(guī)定的類別的實例。取值不可為空。
《中國分類主題詞表》的本體建構應依照兩條標準:一是以詞語為中心類(Class),以類號為類的屬性(Property)值,以便與敘詞表和自然語言系統(tǒng)實現(xiàn)互操作,這是本體或語義網(wǎng)的關鍵目標,這樣做的好處是可以在語義環(huán)境中實現(xiàn)多個敘詞表、分類表的語義集成[2];二是以《中國分類主題詞表》主表的詞語間關系作為本體處理的重點,以同一、等級等詞語間關系作為本體處理的基本關系,這樣做的好處是方便與一般語言關系的處理方法保持統(tǒng)一。
建立一個“中國分類主題詞表本體”,這個本體把《中國分類主題詞表》的一級類(基本大類)根據(jù)情況設為Top Class (最高類)、Group Class (類組,即幾個并列概念共有一個類號,如《中國分類主題詞表》的G類)、Double Scheme Class (雙表類,即用雙表列類的大類,如《中國分類主題詞表》的法律類);二、三級類根據(jù)情況分別設置Subject Class (學科類,指可以成為“XX學”或分支學科的類)或Main Class (主類,指非學科性的知識部門);三級以下類采用Concept Class(概念類,即概念及其體系類目)。類間關系描述采用rdfs:subClassOf、owl:equivalentClass、owl:unionOf、owl:intersectionOf等OWL語句進行描述[3]。本文采用的方案如表1所示。
表1 《中國分類主題詞表》主表的類框架及其OWL描述
表2 《中國分類主題詞表》附表的類型及類本體關系
《中國分類主題詞表》附表 (Appendix Scheme)應作為一般的概念表進行處理,即地區(qū)、民族和時代都要以語詞為中心,再用值域號碼作為其復分屬性值。也就是說,我們可以采用一般的時代、國家作為本體的類別,然后用OWL 的定義域(Domain)定義該類應該在哪個附表內,用值域( Range)定義該大類的復分號。例如,英國的復分號是“565”,據(jù)上述分析可知其定義域是“CLC;WorldDistrictList”,其值域是“CLC-WorldDistrict SchemeCode; 565”。 當主表與附表聯(lián)合起來使用時,我們可以將此看作是主表概念和附表概念的交叉組配,用<owl:intersectionOf>語句進行兩概念的組配和類號組合[4]。其基本結構見表 2。
《中國分類主題詞表》的類間關系主要有等級關系、并列關系、同一關系和相關關系。
3.1.1 等級關系的OWL描述
《中國分類主題詞表》中類目之間的等級關系在本體中表現(xiàn)為“父類—子類”關系,用“A rdfs:subClassOf B”表示。OWL描述如下:
3.1.2 并列關系的OWL描述
3.1.3 同一關系的OWL描述
《中國分類主題詞表》中類目之間的同一關系在本體中表現(xiàn)為交替關系,用“hasAlternativeClass”表示。OWL描述如下:
3.1.4 相關關系的OWL描述
《中國分類主題詞表》中類目之間的相關關系在本體中表現(xiàn)為交叉關系,用“owl:intersectionOf”表示。OWL描述如下:
《中國分類主題詞表》附表主要包括總論復分表、世界地區(qū)表、中國地區(qū)表、國際時代表、中國時代表、世界種族與民族表、中國民族表、通用時間和地點表等。筆者以世界地區(qū)表中上位類“南美洲”、下位類“巴西”為例,描述類目關系如下:
本文選用Proté gé 3.2來構建《中國分類主題詞表》中旅游領域本體。
旅游要求有服務提供機構進行支撐。流程類服務包括訂票服務、租車服務、訂旅館服務和導游服務4個子類。根據(jù)服務流程規(guī)定,網(wǎng)絡上應有旅游公司、旅館和交通運輸公司的信息。根據(jù)所選擇交通工具的差異,交通運輸公司應有子類:航空公司、火車站點、出租車公司和公交公司等。而旅館按星級可劃為:普通旅店和星級賓館(包括一至五星級)。人作為旅游中信息交互的主體,在服務流程中主要包括導游和游客。因此,旅游領域本體應有自然人及其子類導游和游客。根據(jù)旅游服務,交通工具主要有:飛機、火車、出租車、公交車。景區(qū)主要分為自然景觀和人文景觀。其中,天象景觀、水文景觀和地文景觀屬于自然景觀;而文物古跡、革命活動地、民風民俗、宗教建筑等歸類于人文景觀。地點包括出發(fā)地和目的地,按地區(qū)行政區(qū)劃包括國家、省、城市(見下頁表3)。
人通過姓名、年齡、電話、E-mail等屬性進行描述,同樣的,服務機構也具有相應屬性,并也可通過單位名、單位地址、電話、E-mail等屬性進行描述。導游引導游客,即游客被導游引導,故用“引導”、“被引導”關聯(lián)導游和游客,“引導”與“被引導”為互逆關系,因此設定“引導”的Facets為InverseOf,“被引導”的Facets也為InverseOf[5],其部分OWL描述如下:
表3 旅游領域類本體層次結構表
[1]Petrinja E.A Provenance Data Management System for Improving the Product Modeling Process[J].Automation in Construction,2006(4):485-497.
[2]中國科學技術信息研究所.國內外詞系統(tǒng)發(fā)展情況調研報告[R].北京:中國科學技術信息研究所,2007:5-6.
[3]段榮婷.基于簡約知識組織系統(tǒng)的《中國檔案主題詞表》語義網(wǎng)絡化應用研究[J].現(xiàn)代圖書情報技術,2010(10):33-42.
[4]Assem M, Menken M R, Shreiber G,et al.A Method for Converting Thesauri to RDF / OWL[EB/OL].[2013-02-01].http://link.springer.com/chapter/10.1007/978-3-540-30475-3_3#page-1.
[5]陳彥萍.基于OWL的旅游領域本體的構建[J].西安郵電學院學報,2011(1):78-82.