曾新紅
(深圳大學(xué)圖書館NKOS研究室,深圳 518060)
傳統(tǒng)受控詞表的SKOS描述規(guī)范及應(yīng)用指南*
曾新紅
(深圳大學(xué)圖書館NKOS研究室,深圳 518060)
依據(jù)我國(guó)情報(bào)檢索語言的權(quán)威理論和構(gòu)建標(biāo)準(zhǔn),參考中國(guó)分類主題詞表、漢語主題詞表、中圖法、軍用電子分類表的編制說明或規(guī)范,以及已有的國(guó)內(nèi)外研究成果,以SKOS標(biāo)準(zhǔn)文本的定義為準(zhǔn)繩,將情報(bào)檢索語言的理論和構(gòu)建規(guī)范與SKOS的建模規(guī)范對(duì)應(yīng)起來,從易于共享和實(shí)現(xiàn)的角度,對(duì)中文敘詞表及分類法中各項(xiàng)語義元素的SKOS描述進(jìn)行了具體的規(guī)定或建議,并通過示例介紹了該規(guī)范的具體應(yīng)用方法。
受控詞表;分類法;敘詞表;形式化表示;語義描述;SKOS;CNKOS;知識(shí)組織系統(tǒng)
國(guó)家數(shù)字圖書館工程“知識(shí)組織標(biāo)準(zhǔn)規(guī)范”項(xiàng)目(項(xiàng)目編號(hào)D009,合同編號(hào)GC-HD090453)的總目標(biāo)是設(shè)計(jì)中文NKOS的建設(shè)規(guī)范和共享共建平臺(tái),作為國(guó)內(nèi)NKOS建設(shè)的指導(dǎo)規(guī)范和NKOS資源,提高國(guó)家圖書館應(yīng)用NKOS的水平,推動(dòng)國(guó)內(nèi)NKOS的發(fā)展和應(yīng)用。筆者承擔(dān)了其中的1.2子項(xiàng),即“基于傳統(tǒng)知識(shí)組織系統(tǒng)的中文NKOS構(gòu)建規(guī)范”,所提交的三份報(bào)告:受控表語義描述規(guī)范(D009-3)[1]、“中國(guó)分類主題詞表”語義描述規(guī)范及應(yīng)用指南(D009-4)[2]以及受控表語義描述規(guī)范之調(diào)研報(bào)告(D009-8)[3],與其他7份報(bào)告一起,共同組成了“國(guó)家圖書館知識(shí)組織標(biāo)準(zhǔn)規(guī)范”[4]。完整的“受控表語義描述規(guī)范”請(qǐng)見國(guó)家圖書館出版社近期出版的“網(wǎng)絡(luò)環(huán)境下的知識(shí)組織規(guī)范和應(yīng)用指南”一書第二篇[5],或登錄“http://nkos.lib.szu.edu.cn/2011/08/ cnkos/”下載更新版“通用CNKOS語義描述規(guī)范”,供機(jī)器使用的RDF Schema版本的URI為:http://nkos. lib.szu.edu.cn/2011/12/ckos/。
“受控表語義描述規(guī)范”(CNKOS)實(shí)際包含兩個(gè)版本:純SKOS版和CNKOS擴(kuò)展版。CNKOS擴(kuò)展版的主要內(nèi)容已在文獻(xiàn)[6]中進(jìn)行了介紹。鑒于目前國(guó)內(nèi)受控詞表的語義描述研究和實(shí)踐重點(diǎn)還在SKOS描述階段,并且因?yàn)槔斫馍系牟煌a(chǎn)生了一些不同的具體描述方法,為了方便本規(guī)范的使用者更準(zhǔn)確地把握SKOS在中文受控詞表語義描述中的使用方法,本文將專門介紹純SKOS版,包括在其設(shè)計(jì)過程中的具體考量、具體的描述示例以及使用中需要注意的問題。
簡(jiǎn)單知識(shí)組織系統(tǒng)SKOS[7,8]及其在國(guó)內(nèi)外的一般研究現(xiàn)狀在文獻(xiàn)[6]中已作了詳細(xì)介紹,本文不再贅述。簡(jiǎn)言之,對(duì)于中文敘詞表(主題詞表)而言,國(guó)外已有研究可以直接借鑒,其特殊性主要在于拼音、英譯名、族首詞、附表等的描述以及URI的確定。筆者對(duì)已有的國(guó)內(nèi)外相關(guān)研究進(jìn)行了比較深入的分析,結(jié)論是:應(yīng)用SKOS詞匯描述敘詞表(或主題標(biāo)題表)的敘詞概念(或標(biāo)目概念)、首選語言標(biāo)簽、可選語言標(biāo)簽、上位/下位/相關(guān)詞、注釋等的轉(zhuǎn)換方案比較一致,可以直接利用。但現(xiàn)有研究對(duì)于拼音、英譯名、主題詞對(duì)應(yīng)的分類號(hào)、附表、專類概念的進(jìn)一步區(qū)分、組配概念、分面及Node label、組配概念的分面組成、等級(jí)和相關(guān)關(guān)系的進(jìn)一步細(xì)化等的語義化描述,由于SKOS的“簡(jiǎn)單”定位以及研究者的不同理解,要么沒有涉及,要么做了一些展望或不盡相同的建議,沒有直接可利用的成功經(jīng)驗(yàn)。
與敘詞表(或主題標(biāo)題表)相比,國(guó)內(nèi)外對(duì)分類法的語義描述研究要薄弱得多。SKOS主要是針對(duì)敘詞表標(biāo)準(zhǔn)的,分類法中與敘詞表相似的共性部分,可以采用SKOS來進(jìn)行描述。但分類法中有大量不同于敘詞表的特性,與這部分的描述相關(guān)的研究非常稀少。
筆者依據(jù)我國(guó)情報(bào)檢索語言的權(quán)威理論[9]和構(gòu)建標(biāo)準(zhǔn)[10,11],參考中國(guó)分類主題詞表[12]、漢語主題詞表、中圖法[13]、軍用電子分類表[14]的編制說明或規(guī)范,以及已有的國(guó)內(nèi)外研究成果,以SKOS標(biāo)準(zhǔn)文本的定義為準(zhǔn)繩,將情報(bào)檢索語言的理論和構(gòu)建規(guī)范與SKOS的建模規(guī)范對(duì)應(yīng)起來,找到它們之間的契合點(diǎn),對(duì)中文敘詞表及分類法中各項(xiàng)語義元素的SKOS描述進(jìn)行了具體的規(guī)定或建議。
3.1 命名域和詞匯表
純SKOS版中所采用的SKOS/RDF/RDFS/OWL詞匯使用其原有的命名域及其縮寫,詳見表1。
表1 命名域URI 縮寫
純SKOS版原則上包含SKOS Core的所有詞匯,規(guī)范中列出了其中在傳統(tǒng)中文KOS語義描述中可能會(huì)經(jīng)常使用的詞匯。詳見CNKOS規(guī)范全文[1,5]中的表2。規(guī)范中還包含了這些SKOS詞匯的說明及定義的中譯文,并對(duì)某些比較抽象的定義在其后用“()”添加了自然語言注釋。
3.2 CNKOS純SKOS版的使用方法
CNKOS參考了W3C發(fā)布的SKOS Reference 20090818[7]的目錄結(jié)構(gòu),引用了SKOS Core的核心內(nèi)容(譯為中文)。為便于使用者閱讀理解,CNKOS在引言部分給出了詳細(xì)的閱讀說明,包括形式化定義、URI引用和構(gòu)成建議、描述示例的格式說明等。另外,在D009-8受控表語義描述之調(diào)研報(bào)告[3]中,給出了詳細(xì)的參考資料要點(diǎn),說明采用SKOS詞匯或擴(kuò)展CNKOS詞匯進(jìn)行描述的參考依據(jù),并對(duì)語義Web建模語言(RDF/RDFS/OWL)的基礎(chǔ)知識(shí)進(jìn)行了介紹,以利于快速了解語義Web的基本原則、建模的意義、建模語言的種類和基本結(jié)構(gòu)及它們的作用,以及該領(lǐng)域常用術(shù)語的含義,并站在語義Web的大背景下來看待SKOS的作用以及對(duì)SKOS進(jìn)行的擴(kuò)展。
該版本適用于國(guó)內(nèi)傳統(tǒng)的敘詞表(主題詞表)和分類法的SKOS描述,也可應(yīng)用于中文規(guī)范文檔和其他KOS類型的SKOS描述。
4.1 受控詞表整體的描述
作為整體的中文KOS,如中文敘詞表(主題詞表)、分類法等國(guó)內(nèi)受控詞表,可以視為一個(gè)概念體系(concept scheme),用skos:ConceptScheme及其相應(yīng)的屬性進(jìn)行描述。
根據(jù)SKOS的定義,一個(gè)SKOS概念體系可以被看作是一個(gè)或多個(gè)SKOS概念(concept)的集合(aggregation)。這些概念之間的語義關(guān)系(鏈接)也可以被看作是一個(gè)概念體系的一部分(此句僅為建議而非約束)。一個(gè)獨(dú)立的SKOS概念體系大致對(duì)應(yīng)于一個(gè)獨(dú)立的敘詞表、分類法、主題標(biāo)題表或其他知識(shí)組織系統(tǒng)。
當(dāng)一個(gè)CNKOS文件(RDF/XML序列格式)中含有多個(gè)概念體系時(shí),概念與概念體系之間的關(guān)系可以用skos:inScheme來描述。從利于實(shí)現(xiàn)的角度,本規(guī)范建議盡量不要將兩個(gè)以上獨(dú)立的概念體系放在一個(gè)CNKOS文件中進(jìn)行描述,尤其當(dāng)它們規(guī)模龐大或分別屬于不同的NKOS類型時(shí)。除非這些概念體系不可分割,如將分類法的附表也描述為概念體系,參見4.2節(jié)。
概念體系與其包含的頂級(jí)概念之間的關(guān)系可用skos:topConceptOf或skos:hasTopConcept來描述。這兩個(gè)屬性是互逆的,建議可選擇其中之一(如skos: hasTopConcept)進(jìn)行描述。需要注意的是,用skos: topConceptOf或skos:hasTopConcept描述的是概念體系與其包含的頂級(jí)概念之間的關(guān)系。這與傳統(tǒng)中文敘詞表敘詞款目中的族首詞關(guān)系在語義上有所不同。敘詞款目中的族首詞表達(dá)的是敘詞與其所屬詞族的頂級(jí)概念之間的關(guān)系,即SKOS概念與SKOS概念之間的關(guān)系,而非SKOS概念體系與SKOS概念之間的關(guān)系,SKOS未提供相應(yīng)的描述詞匯。如需聲明敘詞款目中的族首詞關(guān)系,可采用擴(kuò)展的ckos:TopConcept進(jìn)行描述[5,6]。
如例1中將中圖法(CLC)描述為一個(gè)概念體系,并描述了它與其一級(jí)大類(頂級(jí)概念)的關(guān)系。
注:RDF/XML格式的SKOS描述代碼可登錄CLC Linked Data服務(wù)[15]檢索下載。
例2中將漢語主題詞表(CT)描述為一個(gè)概念體系,并描述了它與其頂級(jí)概念(詞族的族首詞)的關(guān)系。
注:RDF/XML格式的SKOS描述代碼可登錄CCT1 Linked Data服務(wù)[16]檢索下載。
4.2 附表的描述
采用CNKOS擴(kuò)展版時(shí)敘詞表中的附表(特種概念集合)可以直接處理為skos:Concept的子類。當(dāng)選擇用純SKOS版本描述敘詞表時(shí),因只能采用skos:Concept來描述所有的敘詞概念,如想保留某些特種概念的特殊性,可采用skos:ConceptScheme來描述這些附表或特種概念集合(利于獨(dú)立使用和共享)。這樣在需要時(shí)可以根據(jù)指定的skos:ConceptScheme的URI來識(shí)別其所包含的特種概念,也可再轉(zhuǎn)換為相應(yīng)的子概念類型。
對(duì)于分類法中不能獨(dú)立使用的附表(通用復(fù)分表,專類復(fù)分表,被仿分類目范圍),有以下三個(gè)備選方案:
?skos:Collection
適于表示簡(jiǎn)單的、無等級(jí)關(guān)系和注釋的附表。對(duì)于有等級(jí)關(guān)系和注釋的復(fù)雜附表,建議可以采用以下兩種表示方式:一是采用嵌套的skos:Collection表示;二是只列出附表中的一級(jí)概念,需要時(shí)再由支持系統(tǒng)推出所有下位概念和注釋等。
需要注意的是,分類法不同附表中同一類號(hào)可能代表不同的類目,如中圖法“二、世界地區(qū)表”中的“1世界”和“三、中國(guó)地區(qū)表”中的“1 北京市”,類號(hào)都是“1”。根據(jù)SKOS的定義,skos:Collection與其成員之間的關(guān)系用skos:member屬性表示,這個(gè)屬性的rdfs: domain是skos:Collection,rdfs:range是skos:Concept或skos:Collection。也就是說,如果用skos:Collection來描述分類法中的附表,那么這些附表中的類目概念也是同一概念體系中的概念。而SKOS認(rèn)為,按照常規(guī)同一概念體系中的兩個(gè)不同的概念不應(yīng)擁有同一個(gè)符號(hào)(notation),否則就不可能用這個(gè)符號(hào)來唯一地指引一個(gè)概念。因此,如果用skos:Collection來表示分類法中的附表,可能會(huì)違反SKOS中一個(gè)符號(hào)唯一表示一個(gè)概念的約定。
?skos:ConceptScheme
將附表視為獨(dú)立的概念體系,可描述任意復(fù)雜度的附表,并解決不同附表中同一類號(hào)代表不同類目的問題。但對(duì)于不能獨(dú)立使用的、專用于某個(gè)類目的專類復(fù)分表(仿分表),將其描述為獨(dú)立的概念體系有些勉強(qiáng)。
此方案不違背SKOS對(duì)概念體系的定義,即“一個(gè)SKOS概念體系可以被看作是一個(gè)或多個(gè)SKOS概念的集合”,但不太符合“一個(gè)獨(dú)立的SKOS概念體系大致對(duì)應(yīng)于一個(gè)獨(dú)立的敘詞表、分類法、主題標(biāo)題表或其他知識(shí)組織系統(tǒng)”這句約定。并且,如果分類法整體與其附表都采用skos:ConceptScheme進(jìn)行描述,它們之間就形成了一種并列關(guān)系,原有的包含和隸屬關(guān)系語義會(huì)丟失。
?ckos:Auxiliary
擴(kuò)展的skos:ConceptScheme的子類,可用于表示所有附屬于某一獨(dú)立概念體系的、不能獨(dú)立使用的子概念體系(如《中圖法》中的附表)。
本規(guī)范建議:可用skos:Collection表示簡(jiǎn)單的、無等級(jí)關(guān)系和注釋的、類號(hào)與主表類號(hào)及其他采用skos: Collection表示的附表類號(hào)不重復(fù)的附表;用skos: ConceptScheme描述相對(duì)獨(dú)立的通用復(fù)分表;用ckos: Auxiliary描述其他類號(hào)重復(fù)又無法獨(dú)立使用(即必須與主表特定類目聯(lián)合使用才有意義)的附表(如中圖法中的專類復(fù)分表)。當(dāng)采用純SKOS版時(shí),只能選用前兩種方案。
如例3中將中圖法(CLC)中的“二、世界地區(qū)表”描述為一個(gè)獨(dú)立的概念體系,并描述了它與其一級(jí)大類(頂級(jí)概念)的關(guān)系,以及附表中的類目概念。
4.3 概念及概念標(biāo)簽的描述
4.3.1 概念的描述
中文敘詞表中的敘詞(我國(guó)多稱為正式主題詞)是取自自然語言并經(jīng)過規(guī)范化處理的、以基本概念為基礎(chǔ)的表達(dá)文獻(xiàn)主題的詞或詞組[9]。
傳統(tǒng)分類法中的類目是一個(gè)個(gè)表達(dá)文獻(xiàn)、信息內(nèi)容的概念。每個(gè)類目都代表具有某種共同屬性的文獻(xiàn)、信息集合。分類法的每一個(gè)類目都是一個(gè)特定的主題概念(或主題概念集合)。類目的含義在一個(gè)由上位概念、同位概念、下位概念、相關(guān)概念和類目注釋構(gòu)成的語義空間中進(jìn)行限定。類目應(yīng)當(dāng)是穩(wěn)定的[9]。
在SKOS標(biāo)準(zhǔn)中,SKOS概念(SKOS concept)是一種觀念(idea)或想法(notion),一個(gè)思想(thought)單位。因此,敘詞表中的敘詞和分類法中的類目都可以視為SKOS概念,描述為skos:Concept的實(shí)例。
作為RDF資源的SKOS概念必須用URI來表示。當(dāng)描述后的CNKOS用作Linked Data目的時(shí),一般用完整URI來表示概念;當(dāng)描述后的CNKOS用作交換格式、一個(gè)CNKOS文件只包含一個(gè)概念體系、且所有的概念都擁有同樣的base URI(基準(zhǔn)URI)時(shí),可以采用相對(duì)的URI來表示概念。
若敘詞概念本身或類目概念中的類號(hào)(或類名)發(fā)生變化,且概念的內(nèi)涵或外延發(fā)生了變化,則URI也應(yīng)該變,此時(shí)不應(yīng)視為URI不穩(wěn)定??梢酝ㄟ^自動(dòng)生成歷史注釋(skos:historyNote)和擴(kuò)展一個(gè)映射屬性(skos:relatedMatch的子屬性ckos:previousMatch)鏈接前URI來解決[5,6]。
SKOS本身沒有為skos:Concept定義子類,當(dāng)采用純SKOS詞匯進(jìn)行描述時(shí),敘詞表或分類法中的特種概念也只能用skos:Concept來描述,其特殊性會(huì)丟失。如想保留,可采用上一節(jié)中建議的方式進(jìn)行描述。
描述示例見例1至例3,其三元組格式形如“<概念URI> rdf:type skos:Concept.”。
例 3 <2WorldRegionTable> rdf:type skos:ConceptScheme; skos:prefLabel "二、世界地區(qū)表"; skos:hasTopConcept <1 世界>, <2 中國(guó)>, ……, <7 美洲>. <1 世界> rdf:type skos: Concept;skos:notation "1" ; skos:inScheme <2WorldRegionTable>.……
4.3.2 概念的語言標(biāo)簽的描述
SKOS將概念(或其他資源)的語言形式視為語言標(biāo)簽,即一個(gè)UNICODE字符串。可用skos:prefLabel和skos:altLabel分別描述概念的首選標(biāo)簽和可選標(biāo)簽。對(duì)于敘詞表而言,概念的首選標(biāo)簽就是敘詞本身,其拼音、英譯名和入口詞(非敘詞)都可以描述為相應(yīng)語種的skos:altLabel值;對(duì)于分類法而言,概念的首選標(biāo)簽是類名,而類名的拼音及其他語種類名可以描述為相應(yīng)語種的skos:altLabel值。對(duì)于容易寫錯(cuò)的敘詞或類名,其錯(cuò)誤形式可以用skos:hiddenLabel進(jìn)行描述,以起到一定的入口作用。
例4展示了中圖法(CLC)中類目概念的語言標(biāo)簽(類名)的描述方法。
例 4 rdf:type skos:Concept; skos:prefLabel "哲學(xué)、宗教".
例5展示了軍用電子分類表中類目概念的不同語種類名的描述方法。
例 5 < K1541 后勤訓(xùn)練> rdf:type skos:Concept; skos:prefLabel "后勤訓(xùn)練"; skos:altLabel "hou qin xun lian" @zh-pinyin; skos:altLabel " Logistical training" @en.
例6展示了漢語主題詞表(CT)中敘詞概念的不同語種語言標(biāo)簽(首選標(biāo)簽,入口詞,首選標(biāo)簽的漢語拼音,首選標(biāo)簽的英譯名)的描述方法。
例 6 <宗教> rdf:type skos:Concept; skos:prefLabel "宗教"; skos:altLabel "zong jiao" @zh-pinyin; skos:altLabel "Religion" @en.
建議不描述入口詞的拼音,否則將無法分辨若干拼音形式的語言標(biāo)簽與中文形式的語言標(biāo)簽之間的對(duì)應(yīng)關(guān)系。唯一的語種為漢語拼音的skos:altLabel值默認(rèn)對(duì)應(yīng)skos:prefLabel中的中文語種標(biāo)簽。
出于對(duì)類名敘詞化發(fā)展趨勢(shì)(如軍用電子分類表中類名的描述需求)以及支持系統(tǒng)實(shí)現(xiàn)便利方面的考慮,本規(guī)范對(duì)敘詞概念和類目概念的語言標(biāo)簽采用了統(tǒng)一的描述方式。但嚴(yán)格來講,一個(gè)類目的完整顯示應(yīng)該是類號(hào)+類名,即skos:notation+空格+skos: prefLable,它們的完整出現(xiàn)才代表一個(gè)唯一的類目。一般情況下,單獨(dú)的類名不能代表一個(gè)類目。因此,需要通過dc:type(詞表類型,參見文獻(xiàn)[5]第一篇表1-7-1)來區(qū)分不同的KOS類型,以使支持系統(tǒng)可以選擇不同的顯示方案(對(duì)于不同的KOS類型,同樣的類和屬性在顯示時(shí)的語言標(biāo)簽也可能不同)。
4.4 概念的標(biāo)記符號(hào)的描述
在分類法中,類號(hào)是類目的標(biāo)記符號(hào)或代號(hào),它用號(hào)碼表示類目的含義,決定類目在分類體系中的排列位置,表達(dá)類目之間的關(guān)系。在分類法主表中,類號(hào)具有唯一性,即一個(gè)類號(hào)只能代表一個(gè)類目。附表(復(fù)分表,仿分表)中的類號(hào)需與主表類號(hào)組配使用,不能獨(dú)立使用。同一分類法所包含的不同附表中的類號(hào)可能重復(fù),即同一個(gè)類號(hào)在不同附表中代表不同的類目。
SKOS規(guī)定,標(biāo)記符號(hào)(notation)是一個(gè)字符串(如“T58.5”或“303.4833”),用于唯一地標(biāo)識(shí)一個(gè)給定的概念體系范圍內(nèi)的一個(gè)概念。一個(gè)概念可以有0個(gè)、1個(gè)或多個(gè)標(biāo)記符號(hào)(來自同一個(gè)或不同的符號(hào)系統(tǒng))。但來自同一個(gè)概念體系中的兩個(gè)概念不能擁有相同的標(biāo)記符號(hào),否則將不可能用這個(gè)標(biāo)記符號(hào)唯一地指向一個(gè)概念(即,標(biāo)記符號(hào)將有多義性)。
顯然,分類法主表中的類號(hào)可以用skos:notation來描述。如果將附表中的類目視為與主表類目同屬于一個(gè)概念體系,那么不同附表中的重復(fù)類號(hào)將會(huì)違反SKOS的“標(biāo)記符號(hào)唯一地標(biāo)識(shí)一個(gè)給定的概念體系范圍內(nèi)的一個(gè)概念”的原則。因此,在不同附表中的類目概念存在類號(hào)重復(fù)的情況時(shí),需要將附表視為獨(dú)立的概念體系(如準(zhǔn)備獨(dú)立使用的通用復(fù)分表)或子概念體系(如不能獨(dú)立使用的通用復(fù)分表、專類復(fù)分表和仿分表,采用CNKOS擴(kuò)展版時(shí)可用)。此時(shí),用skos:notation來描述附表中的類號(hào)將不再違反SKOS的原則。
敘詞表中敘詞概念對(duì)應(yīng)的分類號(hào)或范疇號(hào),本身并不是敘詞概念的唯一標(biāo)記符號(hào),而是與某一分類體系中的類目概念的對(duì)應(yīng)關(guān)系,如中圖法類號(hào)對(duì)應(yīng)的是中圖法中的相應(yīng)類目,范疇號(hào)對(duì)應(yīng)的是敘詞表本身帶有的分類索引(范疇表)中的類目。而且,在敘詞表中,同一個(gè)分類號(hào)或范疇號(hào)一般對(duì)應(yīng)于多個(gè)敘詞概念,并不具有唯一性。因此,本規(guī)范建議:敘詞表中敘詞概念對(duì)應(yīng)的分類號(hào)或范疇號(hào),不用skos:notation來描述,而采用SKOS的映射屬性進(jìn)行描述。此時(shí),對(duì)應(yīng)的分類法或分類索引(范疇表)應(yīng)描述為獨(dú)立的概念體系。同時(shí),可以采用國(guó)際上已有的分類號(hào)元數(shù)據(jù)來描述一些常用的分類號(hào),如DC Terms的UDC、LCC、DDC元數(shù)據(jù)。
例7中用skos:notation描述了CLC主表中的類目的類號(hào)。
例 7 rdf:type skos:Concept; skos:prefLabel "哲學(xué)、宗教"; skos:notation "B".
例8展示了CLC中附表(通用復(fù)分表 “二、世界地區(qū)表” )中類目的類號(hào)的描述方法(參見例3)。
注:采用純SKOS版時(shí),上例中的ckos:LocationConcept應(yīng)替換為skos:Concept。
規(guī)范代碼表,即每個(gè)術(shù)語(概念)都擁有唯一規(guī)范代碼的術(shù)語列表,也可以仿照分類法的類目描述方式進(jìn)行描述:每一條規(guī)范記錄視為一個(gè)SKOS概念(類似于類目概念),用skos:Concept表示;規(guī)范代碼類似于類號(hào),用skos:notation表示;相對(duì)應(yīng)的術(shù)語類似于類名,用skos:prefLabel表示。
目前國(guó)內(nèi)外元數(shù)據(jù)標(biāo)準(zhǔn)中還沒有中圖法分類號(hào)等國(guó)內(nèi)常用分類號(hào)的元數(shù)據(jù)元素,建議相關(guān)部門在制定或引進(jìn)元數(shù)據(jù)標(biāo)準(zhǔn)(如DC Terms)時(shí),增加CLC等國(guó)內(nèi)常用分類號(hào)的元數(shù)據(jù)元素,使它們能夠像UDC、LCC、DDC那樣,廣泛參與國(guó)際間交流。OntoThesaurus中為國(guó)內(nèi)常用的兩種分類號(hào)定義了相應(yīng)的屬性:ont:CLC和ont:LCCAS[17],如有需要也可以使用。
4.5 概念間語義關(guān)系的描述
中文敘詞表中敘詞概念之間的語義關(guān)系包括屬(S,即上位詞)、分(F,即下位詞)、族(Z,即族首詞)、參(C,即相關(guān)詞)關(guān)系。用代關(guān)系在SKOS中被處理為敘詞概念與兩個(gè)語言標(biāo)簽之間的關(guān)系,詳見第4.3節(jié)。在敘詞表中,敘詞概念之間的等級(jí)關(guān)系(即屬、分關(guān)系)是經(jīng)過嚴(yán)格控制的,一般具有傳遞性。但在敘詞款目中,一般只包含直接上下位關(guān)系詞。
傳統(tǒng)分類法(體系分類法)中類目概念之間的語義關(guān)系主要包括上位類、下位類和相關(guān)類關(guān)系。交替類目與正式類目之間的關(guān)系可視為類目概念之間的一種等同關(guān)系(需擴(kuò)展SKOS進(jìn)行描述,參見文獻(xiàn)[5][6])。在分類法中,同位類也是一種比較重要的類目間關(guān)系,指與某一類目具有同一個(gè)上位類的其他類目,它們能夠通過上(下)位類關(guān)系推理得出,可以不作明確的描述聲明。
分類法中類目概念的含義在一個(gè)由上位概念、同位概念、下位概念、相關(guān)概念和類目注釋構(gòu)成的語義空間中進(jìn)行限定。分類法中的類目注釋種類繁多,其中隱含了大量的語義關(guān)系,包括相關(guān)關(guān)系,CNKOS擴(kuò)展版擴(kuò)展了一些關(guān)系屬性可將其明確揭示出來,參見文獻(xiàn)[5][6]。
SKOS的語義關(guān)系(semantic relation)是SKOS概念之間的鏈接(link),這種鏈接是兩個(gè)被鏈接概念的含義中固有的。SKOS區(qū)分兩種基本的語義關(guān)系種類:等級(jí)(hierarchical)和相關(guān)(associative)。兩個(gè)概念之間的等級(jí)鏈接指明一個(gè)概念(broader)在某一方面比另一個(gè)概念(narrower)更全面(或概括、廣義,general)。兩個(gè)概念之間的相關(guān)鏈接指明兩個(gè)概念是內(nèi)在“相關(guān)的”(related),但其中一個(gè)并不比另一個(gè)更全面。
SKOS用skos:broader和skos:narrower來聲明兩個(gè)SKOS概念之間的直接等級(jí)鏈接。三元組“ skos: broader ”斷言:這個(gè)三元組的客體,是三元組的主體的上位概念。類似地,三元組“
按照常規(guī),skos:broader和skos:narrower只用來聲明兩個(gè)SKOS概念之間直接的等級(jí)鏈接。這給了應(yīng)用程序一種方便而可靠的方式來訪問任意一個(gè)給定概念的直接上位或下位鏈接。這兩個(gè)屬性沒有被聲明為傳遞屬性。
一些應(yīng)用程序需要使用概念之間的直接和間接等級(jí)鏈接,例如通過查詢擴(kuò)展提高搜索的查全率(recall)。為此目的,SKOS提供了屬性skos: broaderTransitive和skos:narrowerTransitive。三元組“ skos:broaderTransitive ”表示了一個(gè)直接或間接的等級(jí)鏈接,其中是的一個(gè)上位“祖先”(ancestor)。類似地,三元組“
但按照SKOS的規(guī)定,skos:broaderTransitive和skos:narrowerTransitive不用來進(jìn)行聲明(斷言)。這兩個(gè)屬性用來推理等級(jí)鏈接的傳遞閉包(transitive closure),該傳遞閉包可以用來訪問概念之間的直接或間接等級(jí)鏈接。
屬性skos:related用來聲明兩個(gè)SKOS概念之間的相關(guān)鏈接,它是對(duì)稱屬性。
中文敘詞表和分類法中的等級(jí)關(guān)系和相關(guān)關(guān)系顯然可以采用以上SKOS的語義關(guān)系屬性進(jìn)行描述。
在傳統(tǒng)的中文敘詞表(主題詞表)中,敘詞的族首詞指的是敘詞概念與其所屬詞族等級(jí)的頂級(jí)概念之間的關(guān)系,即應(yīng)描述為兩個(gè)SKOS概念之間的關(guān)系。SKOS中的skos:hasTopConcept和skos:topConceptOf屬性揭示的是概念體系與其包含的頂級(jí)概念之間的關(guān)系(參見4.1節(jié)),因此如果用SKOS的這兩個(gè)屬性來描述敘詞表中的族首詞關(guān)系,語義上會(huì)有所改變。CNKOS規(guī)范提供兩種選擇:一是不明確聲明敘詞款目中敘詞概念的族首詞關(guān)系,需要時(shí)通過上下位關(guān)系屬性推理得出;二是使用擴(kuò)展的owl:ObjectProperty的實(shí)例ckos:topConcept來描述傳統(tǒng)敘詞表敘詞款目中的族首詞關(guān)系,以方便從任一敘詞出發(fā)直接獲取其族首詞。這個(gè)擴(kuò)展屬性可與skos:hasTopConcept和skos: topConceptOf同時(shí)使用,表達(dá)相應(yīng)的語義。鑒于查看某一敘詞款目時(shí)需要經(jīng)常通過族首詞顯示整個(gè)詞族等級(jí),使用第二種方案,即明確揭示敘詞概念與其族首詞之間的關(guān)系,可以大大減少推理的負(fù)擔(dān)。采用純SKOS版時(shí)則只能選用第一種方案。
例9展示了CLC中類目概念的上位類的描述方法。
例 9 rdf:type skos:Concept; skos:prefLabel "哲學(xué)、宗教".
例10展示了《中國(guó)分類主題詞表》的主題詞表部分(CCT_CT)中敘詞概念的語義關(guān)系的描述方法。
例 10 <馬克思主義哲學(xué)> rdf:type skos:Concept; skos:broader <馬克思主義三個(gè)組成部分>, <哲學(xué)>; skos:narrower <辯證唯物主義>, <歷史唯物主義>, <唯物辯證法>; ckos:topConcept <馬克思主義三個(gè)組成部分>, <哲學(xué)>; (采用純SKOS版時(shí)略)skos:related <辯證邏輯>, <自然辯證法>.
未來需要的進(jìn)一步擴(kuò)展及思考:如果要支持ISO 25964-1中擴(kuò)展的種屬(generic)、實(shí)例(instance)和部分-整體(part-whole)這三種子等級(jí)關(guān)系的語義描述,則需要擴(kuò)展新的子屬性。請(qǐng)參見OntoThesaurus的相應(yīng)定義[17,18]。
CNKOS規(guī)范是基于SKOS的擴(kuò)展版本,因此盡量選擇使用SKOS的原有定義。SKOS中定義的以上四種等級(jí)關(guān)系屬性對(duì)于現(xiàn)有的傳統(tǒng)中文KOS中的語義關(guān)系描述是基本適用的。有擴(kuò)展描述需求的高受控詞表宜采用OntoThesaurus進(jìn)行描述。
4.6 注釋的描述
中文敘詞表中的注釋一般分為含義注釋、用法注釋和歷史注釋,注釋種類相對(duì)較少,表現(xiàn)形式也比較統(tǒng)一,一般可以找到對(duì)應(yīng)的SKOS注釋屬性進(jìn)行描述。ISO25964-1[19]中的note種類與SKOS的注釋屬性種類基本對(duì)應(yīng)。
傳統(tǒng)分類法中的注釋雖然一般分為含義范圍注釋、使用說明注釋和沿革注釋,與敘詞表中的注釋類型基本對(duì)應(yīng),但實(shí)際上可細(xì)分的注釋種類很多,表現(xiàn)形式各異,而且還隱含了很多類目與類目之間、類目與附表之間、類目與主題之間的鏈接關(guān)系。這些注釋對(duì)類目的正確使用至關(guān)重要,是類目概念款目中不可缺少的組成部分。如果只采用SKOS現(xiàn)有的注釋屬性進(jìn)行描述,有些注釋在語義上會(huì)有所缺失,而且隱含的語義關(guān)系也只能供人閱讀,機(jī)器無法理解。因此,CNKOS規(guī)范建議進(jìn)行一些必要的擴(kuò)展,以明確揭示不同注釋的語義和隱含的鏈接關(guān)系[5,6]。
對(duì)于對(duì)注釋沒有細(xì)分要求(即對(duì)各種注釋的處理無區(qū)別,只顯示給人看)的KOS,如中文敘詞表,建議選用skos:note(一般注釋)、skos:definition(定義注釋)、skos:scopeNote(含義范圍注釋)、skos: historyNote(歷史注釋)這幾個(gè)屬性描述相應(yīng)的注釋類型。其中最常用的是skos:scopeNote。
對(duì)于對(duì)注釋有細(xì)分要求的KOS(即需要支持系統(tǒng)對(duì)不同的注釋類型區(qū)別對(duì)待,如CLC,軍用電子分類表等),則建議根據(jù)需要選用skos:note及其相應(yīng)子屬性,甚至擴(kuò)展skos:note(或其子屬性)的子屬性進(jìn)行描述。
當(dāng)采用純SKOS版時(shí),只能選用SKOS已有的注釋屬性描述分類法中的注釋,具體對(duì)應(yīng)關(guān)系請(qǐng)參見CNKOS規(guī)范[5]中的表3。
例11展示了CLC中類目注釋的描述方法。
例 11 rdf:type skos:Concept; skos:prefLabel "哲學(xué)、宗教"; skos:scopeNote "總論哲學(xué)及兼論哲學(xué)與宗教的著作入此。", "宗教入B9。", "專門科學(xué)的哲學(xué)理論入有關(guān)各類。例:教育哲學(xué)入G40-02;歷史哲學(xué)入K01。"; skos:note "依總論復(fù)分表分,-0理論與方法論所屬類目入B0。".
4.7 不同概念體系中概念之間映射關(guān)系的描述
SKOS采用映射屬性(mapping property)來聲明不同概念體系中SKOS概念之間的映射(對(duì)齊)鏈接,這些鏈接是被鏈接概念的含義中內(nèi)在固有的。
SKOS的映射屬性包括skos:mappingRelation及其子屬性:skos:closeMatch(包含子屬性skos: exactMatch)、skos:broadMatch、skos:narrowMatch和skos:relatedMatch。
屬性skos:broadMatch和skos:narrowMatch用來聲明兩個(gè)概念之間的一個(gè)等級(jí)映射鏈接。屬性skos: relatedMatch則用來聲明兩個(gè)概念之間的一個(gè)相關(guān)映射鏈接。
屬性skos:closeMatch用來鏈接兩個(gè)足夠相似的概念,它們可以在某些信息檢索應(yīng)用程序中交換使用。為了避免當(dāng)組合跨越兩個(gè)以上概念體系的映射時(shí)出現(xiàn)“復(fù)合錯(cuò)誤”(compound errors)的可能性,skos: closeMatch沒有被聲明為是一個(gè)傳遞屬性。
屬性skos:exactMatch用來鏈接兩個(gè)概念,表明了一種高度的信心:這兩個(gè)概念可以在很大范圍的信息檢索應(yīng)用程序之間交換使用。它是一個(gè)傳遞屬性,而且是skos:closeMatch的子屬性。
在國(guó)內(nèi)的受控詞表中,不同分類法的類目概念之間,不同敘詞表的敘詞(正式主題詞)概念之間,以及分類法的類目概念與敘詞表的敘詞概念之間,都存在概念含義中固有的映射關(guān)系。我們可以采用以上所述的SKOS的映射屬性對(duì)它們進(jìn)行描述。具體使用哪一個(gè)屬性需要根據(jù)具體情況而定。
例如,在中國(guó)分類主題詞表(CCT)中,類目與主題詞之間的對(duì)應(yīng)關(guān)系分為三種類型:(1)直接對(duì)應(yīng);(2)間接對(duì)應(yīng);(3)非主要類目對(duì)應(yīng)。
第一種類型是直接的對(duì)應(yīng),建議統(tǒng)一使用skos: closeMatch來描述。如果選用skos:exactMatch,需要人工進(jìn)一步確認(rèn)其可交換使用的程度,因?yàn)榧词诡惷c主題詞字面上完全一致,類目的涵蓋范圍也未必和主題詞完全相同(類目的含義是在一個(gè)由上位概念、同位概念、下位概念、相關(guān)概念和類目注釋構(gòu)成的語義空間中進(jìn)行限定的)。
第二種類型是一種間接的對(duì)應(yīng),可能是除skos: closeMatch(和skos:exactMatch)之外的任何一種映射關(guān)系(skos:broadMatch、skos:narrowMatch和skos:relatedMatch)。如果要統(tǒng)一描述,現(xiàn)有的SKOS映射屬性似乎沒有完全適用的。若統(tǒng)一使用skos:mappingRelation來描述這種間接對(duì)應(yīng)關(guān)系,又體現(xiàn)不出主次對(duì)應(yīng)關(guān)系的區(qū)別。CNKOS規(guī)范建議,擴(kuò)展一個(gè)與skos:closeMatch對(duì)應(yīng)的映射屬性ckos: nonCloseMatch,它是skos:mappingRelation的子屬性,用于描述skos:closeMatch(和skos:exactMatch)之外的所有關(guān)系[5,6]。
第三種類型是用豎線標(biāo)識(shí)的與非主要類目對(duì)應(yīng)的主題詞,建議選用skos:relatedMatch進(jìn)行描述。
CCT_CT(主題詞—分類號(hào)對(duì)應(yīng)表)將主題詞對(duì)應(yīng)的分類號(hào)區(qū)分為等同對(duì)應(yīng)類號(hào)、主要類號(hào)、次要類號(hào)、交替等同對(duì)應(yīng)類號(hào)、交替類號(hào)。其中主、次、交替是從類號(hào)的使用角度進(jìn)行區(qū)分的,主要類號(hào)用作排架類號(hào),次要類號(hào)不用于排架,但可用于檢索,交替類號(hào)則作為專業(yè)機(jī)構(gòu)的一種選擇。一個(gè)類號(hào)可以同時(shí)是等同對(duì)應(yīng)類號(hào)和主類號(hào)。因此建議第一步仍按直接(skos: closeMatch)、間接(ckos:nonCloseMatch)和非主要類目對(duì)應(yīng)(skos:relatedMatch)的方式對(duì)它們分別進(jìn)行描述,以便與上述類目-主題詞對(duì)應(yīng)關(guān)系的描述雙向統(tǒng)一。例如:等同對(duì)應(yīng)類號(hào)、交替等同對(duì)應(yīng)類號(hào)、主要類號(hào)(直接對(duì)應(yīng))和交替類號(hào)(直接對(duì)應(yīng))均用skos:closeMatch描述,間接對(duì)應(yīng)的主要類號(hào)和交替類號(hào)用ckos:nonCloseMatch描述,次要類號(hào)用skos:relatedMatch描述。映射的類目概念是否是交替類目,在該類目概念本身的描述中會(huì)進(jìn)行聲明。
當(dāng)采用純SKOS版時(shí),上面所說的間接對(duì)應(yīng)需明確區(qū)分skos:broadMatch、skos:narrowMatch和skos: relatedMatch,或暫時(shí)先采用skos:mappingRelation統(tǒng)一描述,之后再逐步細(xì)化描述。
因篇幅所限,本文不能提供示例的SKOS詳細(xì)代碼。深圳大學(xué)圖書館NKOS研究室已經(jīng)實(shí)現(xiàn)了OTCSS Linked Data服務(wù),目前提供CCT一版全部數(shù)據(jù)[16,20]和CLC四版全部數(shù)據(jù)[15]的Linked Data服務(wù),可在線檢索下載所需敘詞概念和類目概念的SKOS和CNKOS格式語義描述代碼(可選擇RDF/XML、N-Triples和JSON格式)。歡迎使用并多提寶貴意見。
本規(guī)范保留了SKOS Core的完整數(shù)據(jù)模型,因此對(duì)于SKOS適用的主題標(biāo)題表、分類表、民間分類表和其他類似的受控詞表同樣適用。比分類法和敘詞表結(jié)構(gòu)更簡(jiǎn)單的中文規(guī)范檔、術(shù)語列表(規(guī)范代碼表)等類型,也可以簡(jiǎn)化使用本規(guī)范進(jìn)行描述。
中文知識(shí)組織系統(tǒng)形式化語義描述標(biāo)準(zhǔn)體系擬包含純SKO S版、C N KO S擴(kuò)展版、高受控OntoThesaurus版及OWL應(yīng)用規(guī)范四個(gè)部分。敬請(qǐng)關(guān)注本系列論文的后續(xù)部分以及深圳大學(xué)圖書館NKOS研究室網(wǎng)站(http://nkos.lib.szu.edu.cn)。本研究室致力于中文NKOS的公益性研究和服務(wù),希望與各方有識(shí)之士建立良好的合作關(guān)系,共同推進(jìn)我國(guó)NKOS研究的發(fā)展。
[1]曾新紅.受控表語義描述規(guī)范(D009-3)[R].國(guó)家圖書館,2011.
[2]曾新紅,王軍.“中國(guó)分類主題詞表”語義描述規(guī)范及應(yīng)用指南(D009-4)[R].國(guó)家圖書館,2011.
[3]曾新紅.受控表語義描述規(guī)范之調(diào)研報(bào)告(D009-8)[R].國(guó)家圖書館,2011.
[4]王軍,曾新紅,歐石燕.國(guó)家圖書館知識(shí)組織標(biāo)準(zhǔn)規(guī)范[R].國(guó)家圖書館,2011.
[5]王軍,卜書慶.網(wǎng)絡(luò)環(huán)境下的知識(shí)組織規(guī)范和應(yīng)用指南[M].國(guó)家圖書館出版社,2012.
[6]曾新紅.中文知識(shí)組織系統(tǒng)形式化語義描述標(biāo)準(zhǔn)體系研究(一):擴(kuò)展SKO S實(shí)現(xiàn)傳統(tǒng)受控詞表全描述[J].中國(guó)圖書館學(xué)報(bào),2012(3):57-68.
[7]W3C. SKOS Simple Knowledge Organization System Reference: W3C Recommendation 18 August 2009 [EB/ OL]. [2010-02-23]. http://www.w3.org/TR/2009/REC-skosreference-20090818/.
[8]W3C. SKOS Simple Knowledge Organization System Primer: W3C Working Group Note 18 August 2009 [EB/OL]. [2010-02-23]. http://www.w3.org/TR/2009/NOTE-skosprimer-20090818/.
[9]戴維民.信息組織[M].2版.北京:高等教育出版社,2009.
[10]中華人民共和國(guó)國(guó)家標(biāo)準(zhǔn). GB 13190-91,漢語敘詞表編制規(guī)則[S].國(guó)家技術(shù)監(jiān)督局,1991.
[11]中華人民共和國(guó)國(guó)家標(biāo)準(zhǔn). GB/T 3860-2008,文獻(xiàn)主題標(biāo)引規(guī)則(報(bào)批稿)[S].國(guó)家質(zhì)量技術(shù)監(jiān)督檢驗(yàn)檢疫總局.
[12]國(guó)家圖書館《中國(guó)圖書館分類法》編輯委員會(huì).中國(guó)分類主題詞表:第二版[M].北京圖書館出版社,2005.
[13]中國(guó)圖書館分類法編輯委員會(huì).中國(guó)圖書館分類法[M].4版.北京圖書館出版社,1999.
[14]中華人民共和國(guó)國(guó)家軍用標(biāo)準(zhǔn). GJB6793- 2009,軍用電子分類表編制規(guī)則[M].中國(guó)人民解放軍總裝備部.
[15]深圳大學(xué)圖書館NKOS研究室. CLC Linked Data服務(wù)[EB/OL]. [2012-12-25]. http://nkos.lib.szu.edu.cn/CCT_CLC_V4.0.
[16]深圳大學(xué)圖書館NKOS研究室. CCT1 Linked Data服務(wù)[EB/OL]. [2011-01-16]. http://nkos.lib.szu.edu.cn/CCT_CT_V1.0.
[17]曾新紅.中文敘詞表本體OntoThesaurus詞匯表[EB/OL]. [2010-11-11]. http://nkos.lib.szu.edu.cn/2010/10/ont/.
[18]曾新紅.中文敘詞表本體的形式化表示與SKOS的比較研究:以及對(duì)建立中文知識(shí)組織系統(tǒng)形式化表示標(biāo)準(zhǔn)體系的建議[J].中國(guó)圖書館學(xué)報(bào),2010(2):99-106.
[19]ISO. ISO/CD 25964-1, Information and documentation -- Thesauriand interoperability with other vocabularies -- Part 1: Thesauri for information retrieval [S]. ISO, 2008.
[20]黃華軍,曾新紅,林偉明.OTCSS關(guān)聯(lián)數(shù)據(jù)服務(wù)的研究與實(shí)現(xiàn)[J].現(xiàn)代圖書情報(bào)技術(shù),2012(7/8):40-47.
SKOS Specializations and Guides for Chinese Controlled Vocabularies
ZENG XinHong
(NKOS Research Of fi ce, Shenzhen University Library, Shenzhen 518060, China)
Based on the authoritative theory and building standards for information retrieval languages (such as thesauri and Classi fi cation Schemes) in China, and the preparation instructions for Chinese Classi fi cation Thesaurus, Chinese Thesaurus, Chinese Library Classi fi cation, and the Guidelines for establishment of military electronic classi fi cation schemes, as well as the existing research at home and abroad, the SKOS speci fi cations for Chinese Controlled Vocabularies are studied and formulated with the SKOS standards as the criterion, from the point of view of the easy sharing and implementation. The application guides are also given with examples.
Controlled vocabulary; Classi fi cation scheme; Thesaurus; Formal representation; Semantic description; SKOS; CNKOS; KOS
G254; TP18
10.3772/j.issn.1673—2286.2014.04.002
曾新紅,女,1968年生,碩士,深圳大學(xué)圖書館NKOS研究室研究館員。E-mail: zengxh@szu.edu.cn。
2014-04-04)
*本研究得到國(guó)家數(shù)字圖書館工程項(xiàng)目“知識(shí)組織標(biāo)準(zhǔn)規(guī)范”(編號(hào):D009)、廣東省哲學(xué)社會(huì)科學(xué)“十一五”規(guī)劃項(xiàng)目“中文知識(shí)組織系統(tǒng)形式化語義描述標(biāo)準(zhǔn)體系研究”(編號(hào):GD10CTS02)和國(guó)家社會(huì)科學(xué)基金項(xiàng)目“中文知識(shí)組織系統(tǒng)形式化語義描述標(biāo)準(zhǔn)體系研究”(編號(hào):12BTQ045)的資助。