趙 捷 (中國(guó)科學(xué)技術(shù)信息研究所 北京 100080)
司 莉 周李梅 柴 源 鄧伊婷 (武漢大學(xué)信息管理學(xué)院 湖北 武漢 430072)
敘詞表作為信息組織的核心工具,是一種由術(shù)語(yǔ)與術(shù)語(yǔ)之間的各種關(guān)系組成的語(yǔ)義詞典。敘詞表自產(chǎn)生以來(lái),主要用于文獻(xiàn)信息的主題標(biāo)引與檢索,并提高了文獻(xiàn)檢索的查準(zhǔn)率和查全率?,F(xiàn)在敘詞表已經(jīng)成為成熟的語(yǔ)義工具。在新的環(huán)境下,敘詞表的編制方法由手工轉(zhuǎn)為機(jī)器輔助,網(wǎng)絡(luò)敘詞表也應(yīng)運(yùn)而生;敘詞表被用于網(wǎng)絡(luò)數(shù)據(jù)庫(kù)和搜索引擎的現(xiàn)象已較為普遍。當(dāng)前,國(guó)外有關(guān)敘詞表的編制與應(yīng)用的研究成果頗豐,對(duì)我國(guó)的相關(guān)研究具有借鑒意義。
筆者調(diào)查了網(wǎng)上免費(fèi)信息資源網(wǎng)站Taxonomy Warehouse[1]和國(guó)外一些收錄敘詞表的網(wǎng)站[2-3],共搜集了254部以英文為主的敘詞表。筆者統(tǒng)計(jì)并分析了其語(yǔ)種、編制單位、詞表結(jié)構(gòu)、學(xué)科分布、載體類(lèi)型等基本信息,以提供國(guó)外以英文為主的敘詞表的概況,供業(yè)界同行參考。
根據(jù)包含的敘詞的總數(shù)量可將敘詞表分為3種規(guī)模[4]:大型敘詞表(敘詞總量在10 000個(gè)及以上)、中型敘詞表(敘詞總量在1 000~10 000個(gè)之間)和小型敘詞表(敘詞總量在1 000個(gè)及以下)。在所調(diào)查的敘詞表中,大型敘詞表共62部,占總量的24.4%;中型敘詞表共119部,占總量的46.9%;小型敘詞表共73部,占總量的28.7%。
依據(jù)《中華人民共和國(guó)學(xué)科分類(lèi)與代碼國(guó)家標(biāo)準(zhǔn)》(GB/T 13745-92)的相關(guān)規(guī)定,并參考侯漢清對(duì)網(wǎng)絡(luò)敘詞表的調(diào)查結(jié)果(即將被調(diào)查的敘詞表分為理工農(nóng)醫(yī)類(lèi)、人文社科類(lèi)[4]),統(tǒng)計(jì)得出:這254部敘詞表中,理工農(nóng)醫(yī)類(lèi)敘詞表共126部,占總量的49.6%;人文社科類(lèi)敘詞表共128部,占總量的50.4%。侯漢清調(diào)查了國(guó)內(nèi)130部詞表[4],發(fā)現(xiàn)社會(huì)科學(xué)類(lèi)占23.85%,自然科學(xué)類(lèi)占58.46%,綜合科學(xué)類(lèi)占17.69%??梢钥闯?,國(guó)內(nèi)自然科學(xué)類(lèi)敘詞表所占比例較大,而國(guó)外理工農(nóng)醫(yī)類(lèi)敘詞表與人文社科類(lèi)敘詞表比例相近。
通過(guò)本次調(diào)查發(fā)現(xiàn):學(xué)科范圍較小的敘詞表中的敘詞量偏小,但一些復(fù)雜科學(xué)(如地球科學(xué)和生物科學(xué))除外,如《Gale地球科學(xué)敘詞表》(Gale Earth Sciences Thesaurus)、《水產(chǎn)科學(xué)與漁業(yè)敘詞表》(Aquatic Sciences and Fisheries Thesaurus)的敘詞數(shù)量達(dá)百萬(wàn)之多。
在所調(diào)查的敘詞表中,英文單一語(yǔ)種敘詞表共209部,德文單一語(yǔ)種敘詞表僅1部,即德國(guó)哥根廷州立大學(xué)圖書(shū)館編制的《哥廷根在線(xiàn)分類(lèi)》(Goettinger Online-Klassifikation),其余44部為雙語(yǔ)或多語(yǔ)種敘詞表(其中43部有英文版本)。單一語(yǔ)種敘詞表占總數(shù)的82.7%,雙語(yǔ)或多語(yǔ)種敘詞表占總數(shù)的17.3%。除單一語(yǔ)種敘詞表外,其他敘詞表的語(yǔ)種從兩種到十幾種不等,其中,擁有語(yǔ)種較多的敘詞表有《多語(yǔ)言地質(zhì)敘詞表》(Multilingual Thesaurus of Geosciences)與《職業(yè)培訓(xùn)多語(yǔ)言敘詞表》(Multilingual Thesaurus of Vocational Training),擁有英、法、德等7種語(yǔ)言;《歐洲財(cái)政瀏覽器敘詞表》(European Treasury Browser Thesaurus)擁有荷蘭、英、法、意大利等13種歐洲國(guó)家語(yǔ)言;《亞洲蔬菜敘詞表》(Asian Vegetables Thesaurus)擁有中、英、日、泰、德等16種語(yǔ)言;《綜合多語(yǔ)言環(huán)境敘詞表》(General Multilingual Environmental Thesaurus)則擁有挪威、希臘、捷克、葡萄牙、芬蘭、法語(yǔ)等18種語(yǔ)言。
由于英語(yǔ)被作為全球的通用語(yǔ)言,并且本次調(diào)查主要以歐美國(guó)家的敘詞表為主,因此,大多數(shù)敘詞表在擁有本國(guó)語(yǔ)言版本的基礎(chǔ)上同時(shí)編制了相應(yīng)的英文版,如由德國(guó)的FIZ技術(shù)公司 (Fachinformationszentrum Technik)編制的《工程管理詞庫(kù)》(Thesaurus Technik und Management),在德文版的基礎(chǔ)上編有英文版。此外,由機(jī)構(gòu)編制的敘詞表一般均以英文版為主。例如,歐美國(guó)家的Gale公司、NASA(National Aeronautics and Space Administration,美國(guó)國(guó)家航空航天局)、English Heritage、大英博物館等機(jī)構(gòu)編制的敘詞表僅有英文版本;由聯(lián)合國(guó)相關(guān)機(jī)構(gòu)編制的《水產(chǎn)科學(xué)與漁業(yè)敘詞表》、《ENVOC多語(yǔ)種環(huán)境術(shù)語(yǔ)敘詞表》(ENVOC Multilingual Thesaurus of Environmental Terms)和《國(guó)際難民術(shù)語(yǔ)詞庫(kù)》(International Thesaurus of Refugee Terminology)等敘詞表,在英文版的基礎(chǔ)上,根據(jù)實(shí)際需要編制了相應(yīng)語(yǔ)種的版本。
表1 敘詞表載體類(lèi)型調(diào)查統(tǒng)計(jì)表
敘詞表的載體經(jīng)歷了從印刷版到電子版再到網(wǎng)絡(luò)版的過(guò)程。當(dāng)今,以網(wǎng)絡(luò)為載體的敘詞表已成為主流。一部分?jǐn)⒃~表在紙質(zhì)版的基礎(chǔ)上開(kāi)發(fā)了網(wǎng)絡(luò)版,另一部分?jǐn)⒃~表直接以電子版或網(wǎng)絡(luò)版發(fā)行(具體數(shù)據(jù)見(jiàn)表1)。
在所調(diào)查的254部敘詞表中,僅有印刷版的敘詞表共11部。既有印刷版、也有其他版的敘詞表有107部。例如,劍橋科學(xué)文摘(Cambridge Science Abstract, 簡(jiǎn)稱(chēng)CSA)編制的《冶金術(shù)語(yǔ)敘詞表》(Thesaurus of Metallurgical Terms)以印刷版為主,而《國(guó)際原子能信息系統(tǒng)敘詞表》(International Nuclear Information System Thesaurus)在印刷版的基礎(chǔ)上制作了PDF版。
以提供查詢(xún)功能的公共網(wǎng)站為載體的敘詞表有66部,包括《人文社科類(lèi)電子敘詞表》(Humanities and Social Science Electronic Thesaurus,簡(jiǎn)稱(chēng)HASSET)、英國(guó)遺產(chǎn)委員會(huì)(English Heritage Commission)編制的《NMR貨船敘詞表》(National Monuments Record Cargo Thesaurus,簡(jiǎn)稱(chēng)NMR 貨船敘詞表),等等。
此外,WAND公司編制的3部敘詞表及《教育、技能和兒童服務(wù)敘詞表》(Education, Skills and Children's Services Thesaurus)為單一、特定的電子版。Gale公司的69部敘詞表均為CSV/TXT、HTML、XML格式。部分?jǐn)⒃~表還有RDF/SKOS(資源描述框架/簡(jiǎn)單知識(shí)組織系統(tǒng))、RDF/OWL(資源描述框架/網(wǎng)絡(luò)本體語(yǔ)言)、Word和Excel格式。由此可看出,受調(diào)查敘詞表的出版方式大多為HTML、XML和CSV/TXT。這一現(xiàn)象反映了敘詞表發(fā)展的網(wǎng)絡(luò)化趨勢(shì)。大部分編制敘詞表的機(jī)構(gòu)充分利用計(jì)算機(jī)等技術(shù),構(gòu)建利于檢索的敘詞表,并對(duì)敘詞表進(jìn)行全方位的改造和升級(jí),在進(jìn)行網(wǎng)絡(luò)化轉(zhuǎn)變的同時(shí),注重?cái)⒃~表的界面設(shè)計(jì)。
對(duì)所調(diào)查敘詞表的編制機(jī)構(gòu)進(jìn)行分類(lèi)統(tǒng)計(jì),可將敘詞表的編制機(jī)構(gòu)分為聯(lián)合國(guó)等國(guó)際機(jī)構(gòu)、政府機(jī)構(gòu)、公司、學(xué)術(shù)團(tuán)體、圖書(shū)館、大學(xué)、個(gè)人、其他等類(lèi)型。每種機(jī)構(gòu)編制的敘詞表數(shù)量如圖1所示。
所調(diào)查的敘詞表中,由個(gè)人編制的為5部,由大學(xué)編制的為15部,以圖書(shū)館為單位編制的有19部,由聯(lián)合國(guó)等國(guó)際機(jī)構(gòu)編制的共19部,由學(xué)術(shù)團(tuán)體編制的有29部,由政府機(jī)構(gòu)編制的有54部,由公司編制的有100部。敘詞表最初產(chǎn)生于圖書(shū)情報(bào)領(lǐng)域,編制方法為將自然語(yǔ)言轉(zhuǎn)化為受控語(yǔ)言。而現(xiàn)在的敘詞表的編制不再限于圖書(shū)館等信息機(jī)構(gòu),商業(yè)性機(jī)構(gòu)所占比重較大。在所有被調(diào)查的敘詞表中,有100部是由商業(yè)機(jī)構(gòu)編制的,這類(lèi)敘詞表占總數(shù)的39.4%,其中Gale公司編有69部敘詞表。屬于政府機(jī)構(gòu)編制的有54部敘詞表(占總數(shù)的21.3%),英國(guó)遺產(chǎn)委員會(huì)(English Heritage Commission)編有8部敘詞表,為政府機(jī)構(gòu)中編制敘詞表數(shù)量最多的機(jī)構(gòu)。聯(lián)合國(guó)等國(guó)際性機(jī)構(gòu),如國(guó)際天文協(xié)會(huì)(International Astronomical Union)、國(guó)際勞動(dòng)組織(International Labour Organization)、國(guó)際原子能機(jī)構(gòu)(International Atomic Energy Agency)和國(guó)際能源機(jī)構(gòu)(International Energy Agency)等也編制了與自身性質(zhì)相適應(yīng)的敘詞表,這類(lèi)敘詞表共有19部,占總量的7.5%。將敘詞表嵌入到各種商業(yè)性機(jī)構(gòu)或政府機(jī)構(gòu)的檢索系統(tǒng)中,導(dǎo)致其編制機(jī)構(gòu)的范圍擴(kuò)大,這是敘詞表編制在網(wǎng)絡(luò)環(huán)境下的重要特征。
多國(guó)聯(lián)合編制的敘詞表共有87部。美國(guó)獨(dú)立編制了80部敘詞表。并且美國(guó)還與其他國(guó)家合作編制敘詞表,如Gale公司是由美國(guó)牽頭的,其編制的69部敘詞表則屬于多國(guó)聯(lián)合編制,涉及天文、農(nóng)業(yè)、生物、化學(xué)、通信、計(jì)算機(jī)等各種學(xué)科。由此可看出,美國(guó)在編制敘詞表領(lǐng)域處于牢固的領(lǐng)軍地位。在所調(diào)查的國(guó)家或地區(qū)中,除美國(guó)外,其它國(guó)家按所編制的敘詞表數(shù)量由高到低的順序?yàn)橛?guó)、澳大利亞、除英國(guó)之外的歐洲地區(qū)、加拿大,其編制敘詞表的數(shù)量分別是31部、21部、20部、10部。
敘詞表的結(jié)構(gòu)分為宏觀結(jié)構(gòu)和微觀結(jié)構(gòu),本文主要分析其微觀結(jié)構(gòu)。敘詞表的微觀結(jié)構(gòu)體現(xiàn)在詞間關(guān)系上。敘詞表中的詞間關(guān)系分為等級(jí)關(guān)系(Hierarchical relationship)、等同關(guān)系(Equivalence relationship)和相關(guān)關(guān)系(Associative relationship)。等級(jí)關(guān)系為顯示術(shù)語(yǔ)的上位概念和下位概念;等同關(guān)系為連接了術(shù)語(yǔ)的同義詞;相關(guān)關(guān)系為建立與術(shù)語(yǔ)相關(guān)的參照,結(jié)構(gòu)較為松散。被調(diào)查的敘詞表的等級(jí)結(jié)構(gòu)從2級(jí)到12級(jí)不等,其中《酒類(lèi)和其他藥物敘詞表》(Alcohol and Other Drug Thesaurus,簡(jiǎn)稱(chēng)AOD)有12級(jí)。在所調(diào)查的敘詞表中,同時(shí)擁有等級(jí)關(guān)系、等同關(guān)系和相關(guān)關(guān)系的敘詞表共有215部,占到總量的84.6%。極少數(shù)敘詞表的詞間關(guān)系簡(jiǎn)單,其主要為敘詞數(shù)量較少、非學(xué)術(shù)性的敘詞表。例如,《亞洲蔬菜敘詞表》僅以字順形式列出敘詞,詞間關(guān)系極為簡(jiǎn)化,沒(méi)有等級(jí)關(guān)系、相關(guān)關(guān)系或等同關(guān)系。
另外,網(wǎng)絡(luò)環(huán)境下的敘詞表顯示方式更加立體。傳統(tǒng)敘詞表以字順?lè)绞脚帕袛⒃~,以“用”、“代”、“屬”、“分”、“參”等表示敘詞之間的關(guān)系,用戶(hù)查閱不便。在所調(diào)查的敘詞表中,相當(dāng)一部分?jǐn)⒃~表中敘詞的上位詞、下位詞和相關(guān)詞都可通過(guò)超鏈接點(diǎn)擊查看,如《國(guó)際職業(yè)安全與健康信息中心敘詞表》(Occupational Safety and Health Thesaurus, 簡(jiǎn)稱(chēng)CIS)、《加拿大無(wú)線(xiàn)電視和通訊委員會(huì)敘詞表》(Canadian Radio-television and Telecommunications Commission Thesaurus,簡(jiǎn)稱(chēng)CRTC)、《弗羅里達(dá)環(huán)境網(wǎng)絡(luò)敘詞表》(Florida Environments Online Thesaurus)。
部分網(wǎng)絡(luò)敘詞表面向大眾生活和商業(yè)貿(mào)易,如《廚師敘詞表》(Cook's Thesaurus)收納了有關(guān)廚房用品的敘詞,《亞洲蔬菜敘詞表》是為了亞洲蔬菜的出口,供外貿(mào)商查詢(xún)、檢索使用。這類(lèi)敘詞表不僅沒(méi)有復(fù)雜的查詢(xún)方式,且附有圖片,能夠?yàn)橛脩?hù)提供直觀的瀏覽方式??梢?jiàn),敘詞表的應(yīng)用領(lǐng)域更加廣泛。
另外,當(dāng)前個(gè)人編制的敘詞表成為敘詞表家族中的新成員。其主要源自于特定領(lǐng)域的學(xué)者或從事某項(xiàng)事業(yè)多年的人員自身的經(jīng)驗(yàn)總結(jié)。在所調(diào)查的敘詞表中,由個(gè)人編制的5部分別為《廚師敘詞表》、《藥草敘詞表》(Thesaurus for the Herb)、《寄生蟲(chóng)學(xué)敘詞表》(Thesaurus of Parasitology)、《液晶研究與應(yīng)用敘詞表》(Thesaurus for Liquid Crystal Research and Applications)和《哈利波特?cái)⒃~表》(Harry Potter Thesaurus)。個(gè)人編制敘詞表能夠?qū)€(gè)人的隱性知識(shí)顯性表示,并促進(jìn)個(gè)人知識(shí)的社會(huì)化。
網(wǎng)絡(luò)環(huán)境下,敘詞表的應(yīng)用不再局限于傳統(tǒng)領(lǐng)域。聯(lián)機(jī)敘詞表是獨(dú)立于檢索系統(tǒng)而存在的網(wǎng)絡(luò)信息檢索工具,可同時(shí)供聯(lián)機(jī)編目人員和網(wǎng)絡(luò)信息用戶(hù)使用;網(wǎng)絡(luò)數(shù)據(jù)庫(kù)和搜索引擎也相繼使用敘詞表進(jìn)行詞匯控制和瀏覽檢索;此外,敘詞表也被應(yīng)用于本體構(gòu)建等領(lǐng)域,充分發(fā)揮其受控詞表的優(yōu)勢(shì)。
當(dāng)前,本體是圖書(shū)情報(bào)領(lǐng)域的研究熱點(diǎn)。本體重在概念及其關(guān)系的體現(xiàn),它在術(shù)語(yǔ)表中定義了一系列有關(guān)對(duì)象和關(guān)系的類(lèi),其內(nèi)在的關(guān)系規(guī)則在表達(dá)不同詞匯之間的等同、從屬和相關(guān)關(guān)系的同時(shí),也提供一種推理的機(jī)制。而敘詞表提供的術(shù)語(yǔ)詞匯列表及參照系統(tǒng)顯示出的詞間關(guān)系能夠?yàn)闃?gòu)建本體提供一定的基礎(chǔ)。因此,應(yīng)充分利用敘詞表進(jìn)行本體的構(gòu)建,將敘詞表轉(zhuǎn)化為本體等在網(wǎng)絡(luò)時(shí)代知識(shí)組織系統(tǒng)中發(fā)揮作用。聯(lián)合國(guó)糧農(nóng)組織的AOS(Agricultural Ontology Service)項(xiàng)目以糧農(nóng)敘詞表AGROVOC為原型,構(gòu)建了農(nóng)業(yè)本體服務(wù),促進(jìn)了聯(lián)合國(guó)糧農(nóng)組織網(wǎng)站的電子資源信息檢索[5-6]。有學(xué)者比較了《國(guó)家農(nóng)業(yè)圖書(shū)館敘詞表》(National Agriculture Library Thesaurus)和一個(gè)“農(nóng)作物-昆蟲(chóng)(crop-pest)”本體在國(guó)家農(nóng)業(yè)圖書(shū)館中的檢索效果,得出本體可以為領(lǐng)域知識(shí)提供更好的描述和基于知識(shí)描述的更深層次的邏輯推理,進(jìn)而提高檢索質(zhì)量[7]。
知識(shí)分類(lèi)表是由等級(jí)結(jié)構(gòu)和主題詞兩個(gè)基本元素組成、具有多種用途的一種知識(shí)組織工具。它的主要功能是將資源對(duì)象類(lèi)聚到一個(gè)特定的知識(shí)等級(jí)。知識(shí)分類(lèi)表可用于自動(dòng)分類(lèi)、鏈接資源、提供瀏覽等,也可用于優(yōu)化檢索提問(wèn)和檢索結(jié)果。利用敘詞表分類(lèi)法構(gòu)建知識(shí)分類(lèi)表由來(lái)已久,如美國(guó)醫(yī)學(xué)協(xié)會(huì)(American Medical Association,簡(jiǎn)稱(chēng)AMA)利用MeSH(Medical Subject Headings,醫(yī)學(xué)主題詞表)建立了一個(gè)醫(yī)學(xué)知識(shí)分類(lèi)表,該表在美國(guó)醫(yī)學(xué)協(xié)會(huì)網(wǎng)站上的應(yīng)用促進(jìn)了其網(wǎng)絡(luò)期刊文獻(xiàn)的獲?。籗aeed和Chaudhry兩位學(xué)者用DDC(Dewey Decimal Classification,杜威十進(jìn)分類(lèi)法)和IEEE(Institute of Electrical and Electronics Engineers,美國(guó)電氣和電子工程師協(xié)會(huì))網(wǎng)頁(yè)敘詞表建立了知識(shí)分類(lèi)表[8];王紅忠等用DDC和3個(gè)敘詞表建立了機(jī)構(gòu)知識(shí)分類(lèi)表,這3個(gè)敘詞表分別為美國(guó)社會(huì)信息科學(xué)與技術(shù)敘詞表(American Society for Information Science and Technology,簡(jiǎn)稱(chēng) ASIST&T)、圖書(shū)館與信息科學(xué)文摘詞表(Library and Information Science Abstracts, 簡(jiǎn)稱(chēng)LISA)及科教資源信息中心(Educational Resources Information Center, 簡(jiǎn)稱(chēng)ERIC)[9]。在構(gòu)建知識(shí)分類(lèi)表的過(guò)程中,敘詞表的范疇索引可以用來(lái)構(gòu)建知識(shí)分類(lèi)表的上位類(lèi)目,其詞間等級(jí)關(guān)系可以用來(lái)確定下位類(lèi)目,其詞間等同關(guān)系可以建立子目的代替關(guān)系,敘詞則可以提供子目的候選詞。
敘詞表在知識(shí)組織方面的優(yōu)勢(shì)以及近年來(lái)網(wǎng)絡(luò)敘詞表的不斷發(fā)展,使得一些主題信息網(wǎng)關(guān)紛紛利用敘詞表對(duì)Web頁(yè)面和站點(diǎn)進(jìn)行標(biāo)引及檢索。例如,藝術(shù)、設(shè)計(jì)、建筑和媒介信息網(wǎng)關(guān)應(yīng)用《Getty藝術(shù)和建筑敘詞表》(Art and Architecture Thesaurus,簡(jiǎn)稱(chēng)AAT)進(jìn)行標(biāo)引,社會(huì)科學(xué)信息網(wǎng)關(guān)應(yīng)用《人文社會(huì)科學(xué)電子敘詞表》(Humanities and Social Science Electronic Thesaurus,簡(jiǎn)稱(chēng)HASSET)進(jìn)行標(biāo)引。敘詞表在網(wǎng)絡(luò)信息組織中的應(yīng)用也體現(xiàn)為嵌入到數(shù)據(jù)庫(kù)檢索系統(tǒng)中,如ETOH數(shù)據(jù)庫(kù)(The Alcohol and Alcohol Problems Science Database)應(yīng)用《酒類(lèi)和其他藥物敘詞表》(Alcohol and Other Drug Thesaurus,簡(jiǎn)稱(chēng)AOD),使用戶(hù)可以直接選擇AOD敘詞表的敘詞進(jìn)行檢索。在提高專(zhuān)題性或?qū)W術(shù)性網(wǎng)絡(luò)資源搜索引擎的查準(zhǔn)率與查全率時(shí),應(yīng)充分認(rèn)識(shí)到敘詞表的重要作用。
隨著擁有不同文化和語(yǔ)言背景的群體對(duì)各種信息需求量的增加,支持多語(yǔ)種的檢索工具變得越來(lái)越重要,多語(yǔ)言化成為敘詞表編制和發(fā)展的一種趨勢(shì)。敘詞表并非在編制之初就擁有多種語(yǔ)言版本,而是隨著信息組織的需要,通過(guò)翻譯原敘詞表的方式添加新的版本。如所調(diào)查的敘詞表中,《綜合多語(yǔ)言環(huán)境敘詞表》在1998年發(fā)布之初,只擁有荷蘭、芬蘭、法、德、意大利、挪威、葡萄牙、西班牙、丹麥和希臘語(yǔ)10種語(yǔ)言[10],截至2011年則發(fā)展至18種語(yǔ)言?!兜厍蚩茖W(xué)多語(yǔ)言敘詞表》(Multilingual Thesaurus of Geoscience)的編制委員會(huì)IUGS/COGEOINFO(International Union of Geological sciences/Commission on Management and Application of Geoscience Infomation,國(guó)際地質(zhì)科學(xué)聯(lián)合會(huì)/國(guó)際地學(xué)信息管理與應(yīng)用委員會(huì))宣稱(chēng),其目標(biāo)之一就是將該敘詞表翻譯為多種語(yǔ)言版本,目前該敘詞表已有7種語(yǔ)言版本[11]。
被調(diào)查的敘詞表在學(xué)科范圍、詞表結(jié)構(gòu)和敘詞的選取等方面都存在著一定的差異,這些差異不利于資源的標(biāo)引與共享,因此,需要實(shí)現(xiàn)不同敘詞表之間的兼容和互操作。在這方面的研究已取得了一些成果,如許多國(guó)家已將MeSH譯為本國(guó)語(yǔ)言,目前MeSH有法、德、俄、西班牙等多種語(yǔ)言的譯本,可建立跨語(yǔ)言的醫(yī)學(xué)檢索系統(tǒng)。另外,不同類(lèi)型的數(shù)據(jù)庫(kù)使用的情報(bào)檢索語(yǔ)言也不同,成為了用戶(hù)在檢索某一課題時(shí)的障礙。因此,情報(bào)檢索語(yǔ)言之間也必須實(shí)現(xiàn)兼容和互換,使一個(gè)檢索式適用于多個(gè)系統(tǒng)。如工程索引(Engineering Index,簡(jiǎn)稱(chēng)EI)分類(lèi)主題一體化詞表的應(yīng)用在實(shí)質(zhì)上實(shí)現(xiàn)了分類(lèi)語(yǔ)言和主題語(yǔ)言的兼容與互換,體現(xiàn)了分類(lèi)、主題一體化的發(fā)展趨勢(shì)。
敘詞表須使用戶(hù)易于理解,通過(guò)提供定義、范圍注釋或簡(jiǎn)介段落提高用戶(hù)檢索的查準(zhǔn)率與查全率。紙質(zhì)版敘詞表的詞間關(guān)系顯示和術(shù)語(yǔ)標(biāo)注都不足以幫助用戶(hù)理解。網(wǎng)絡(luò)環(huán)境下,敘詞表的編制和應(yīng)用可以采用相應(yīng)的技術(shù)實(shí)現(xiàn)可視化,從而提高用戶(hù)瀏覽和檢索的便利性。例如,由斯坦福大學(xué)醫(yī)學(xué)院的醫(yī)學(xué)情報(bào)學(xué)研究組開(kāi)發(fā)的Protégé工具,可以用于實(shí)現(xiàn)詞間關(guān)系可視化?!犊梢暬瘮⒃~表》(Visual Thesaurus)應(yīng)用輻射圖顯示相關(guān)詞匯并可以點(diǎn)擊查詢(xún)?cè)~義。
在圖3中,連線(xiàn)顯示詞與詞之間的聯(lián)系。鼠標(biāo)放置在結(jié)點(diǎn),則出現(xiàn)方框顯示該結(jié)點(diǎn)下詞的解釋和相關(guān)例句。《可視化敘詞表》并非是用于信息標(biāo)引和檢索的敘詞表,而是以學(xué)習(xí)工具的形式出現(xiàn),但這種可視化的應(yīng)用為敘詞表的未來(lái)發(fā)展提供了方向。
分面敘詞表是Aitchison等人于1969年提出的概念,表示將分面分類(lèi)法和敘詞表相結(jié)合。他指出,分面在當(dāng)前的背景下表示一組基本的分類(lèi)及類(lèi)與類(lèi)之間依據(jù)一定規(guī)則的結(jié)合。每一個(gè)基本分類(lèi)本身可能是一個(gè)類(lèi)層次結(jié)構(gòu)①,且絕大多數(shù)情況下不同的分面是相互排斥的,因此可以將不同分面中單個(gè)概念結(jié)合用以查詢(xún)或形成檢索式[12]。與傳統(tǒng)敘詞表相比,分面敘詞表引入了一個(gè)相當(dāng)于傳統(tǒng)敘詞表的范疇表和詞族表功能的分面分類(lèi)表,從而更系統(tǒng)、更明確、更完整地顯示了敘詞表中敘詞間的關(guān)系。被調(diào)查的敘詞表中,大部分含有等級(jí)關(guān)系的敘詞表的編制沒(méi)有嚴(yán)格的分面分析過(guò)程,且等級(jí)結(jié)構(gòu)不能組合,因此為非分面敘詞表。一小部分?jǐn)⒃~表是分面敘詞表,如《酒類(lèi)和其他藥物敘詞表》、《美國(guó)醫(yī)學(xué)主題詞表》、《Getty藝術(shù)和建筑敘詞表》、《UNESCO敘詞表》、《國(guó)際難民術(shù)語(yǔ)詞庫(kù)》,等等[12]。建立分面敘詞表既可以用于先組式系統(tǒng)②,也可以用于后組式系統(tǒng)③,從而提高信息檢索系統(tǒng)的查詢(xún)和瀏覽功能。
隨著新技術(shù)的出現(xiàn),國(guó)外對(duì)傳統(tǒng)敘詞表的改進(jìn)、創(chuàng)新和應(yīng)用不斷加深。敘詞表的編制機(jī)構(gòu)多樣化、數(shù)量的增長(zhǎng)、語(yǔ)種的增加等,顯示了其作為成熟的語(yǔ)義工具依然在不斷地發(fā)展;敘詞表在本體構(gòu)建、知識(shí)分類(lèi)表構(gòu)建、網(wǎng)絡(luò)信息組織優(yōu)化等方面的應(yīng)用,推動(dòng)著其研究的深化。新環(huán)境下,敘詞表對(duì)當(dāng)前的信息組織、知識(shí)組織有重大意義。國(guó)內(nèi)在敘詞表理論及應(yīng)用研究方面與國(guó)外存在著較大的差距。因此,加強(qiáng)敘詞表的理論研究和應(yīng)用研究勢(shì)在必行。
注 釋?zhuān)?/p>
①類(lèi)層次結(jié)構(gòu)是由相互有關(guān)聯(lián)的若干個(gè)類(lèi)以一定的關(guān)系構(gòu)成的。一個(gè)類(lèi)層次結(jié)構(gòu)有兩種組成成分:類(lèi)和類(lèi)之間的關(guān)系。
②第一代 OPAC被稱(chēng)為“詞組索引或先組式系統(tǒng)”。
③第二代OPAC被稱(chēng)為“關(guān)鍵詞或后組式系統(tǒng)”。這類(lèi)系統(tǒng)采納布爾、截?cái)?、限定(按年代、語(yǔ)種) 等檢索技術(shù),而且能夠按關(guān)鍵詞作后組式檢索。
[1]Taxonomy Warehouse[EB/OL].[2011-03-15].http://www.taxonomywarehouse.com/.
[2]Thesaurus.com[EB/OL].[2011-03-15].http://thesaurus.com/Roget-Alpha-Index.html.
[3]Visualthesaurus[EB/OL].[2011-03-15].http://www.visualthesaurus.com/.
[4]侯漢清.網(wǎng)絡(luò)時(shí)代的情報(bào)檢索語(yǔ)言:進(jìn)展及熱點(diǎn)[EB/OL].[2011-03-15].http://wenku.baidu.com/view/b42aed6eb84ae45c3b358c3b.html.
[5]Eriksen L.From Thesaurus to Ontology: From AGROVOC to the Agricultural Ontology Service (AOS)[J].Synopsis, 2003 (1): 17-20.
[6]聯(lián)合國(guó)糧農(nóng)組織AOS項(xiàng)目[EB/OL].[2011-03-15].http://www.fao.org/fishery/topic/18046/en.
[7]Soonho K, Howard W B.A practical Comparison Between Thesaurus and Ontology Techniques as a Basis for Search Improvement[J].Journal of Agricultural & Food Information,2006 (4) :23-42.
[8]Saeed H, Chaudhry A S.Using Dewey Decimal Classification Scheme(DDC) for Building Taxonomies for Knowledge Organization[J].Journal of Documentation,2002 (5):575-583.
[9]Wang Zhonghong, Chaudhry A S, Christopher S G K.Using Classification Schemes and Thesauri to Build an Organizational Taxonomy for Organizing Content and Aiding Navigation[J].Journal of Documentation, 2008 (6): 842-876.
[10]General Multilingual Environmental Thesaurus [EB/OL].[2011-03-15].http://uta.iia.cnr.it/GEMET.htm.
[11]Multilingual Thesaurus of Geoscience[EB/OL].[2011-03-15].http://www.cgi-iugs.org/docs/Multilingual_thesaurus_of_geoscience.pdf.
[12]Tudhope D, Binding C.Faceted Thesauri[J].Axiomathes, 2008 (18):211-222.