• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      分類主題一體化詞表的國內(nèi)研究進展述評

      2020-08-27 13:35:16姜冠蘭張敏
      數(shù)字圖書館論壇 2020年8期
      關(guān)鍵詞:詞表主題詞表標引

      姜冠蘭 張敏

      (西南大學(xué)計算機與信息科學(xué)學(xué)院,重慶 400715)

      網(wǎng)絡(luò)信息資源日益豐富,單獨使用分類法或主題法已經(jīng)不能滿足信息資源組織與利用需求,理想的模式是使用分類主題一體化語言進行集成化組織與揭示[1]。分類主題一體化詞表(以下簡稱“一體化詞表”)是分類主題一體化的具體體現(xiàn),國外情報機構(gòu)自20世紀60年代就開始了一體化詞表的研究。1969年英國情報學(xué)家艾奇遜·瓊編制了《分面敘詞表》,被認為是世界上第一部分類主題一體化詞表,1980年侯漢清[2]對其進行了介紹和論證。1983年《常規(guī)武器工業(yè)分面敘詞表》的成功編制,是我國一體化詞表的最早嘗試。1994年出版的《中國分類主題詞表》(以下簡稱《中分表》),是我國第一部大型綜合性的分類主題一體化詞表。2009年中國科學(xué)技術(shù)信息研究所牽頭組織了《漢語主題詞表》(以下簡稱《漢表》)的重新編制,現(xiàn)已完成《漢語主題詞表(工程技術(shù)卷)》和《漢語主題詞表(自然科學(xué)卷)》的出版,在詞表規(guī)模、等同率、詞間關(guān)系方面有了較大提升,推動了一體化詞表的創(chuàng)新發(fā)展。

      分類主題一體化詞表有機融合了分類表和主題詞表,可以同時滿足分類標引與檢索、主題標引與檢索等需要,能充分發(fā)揮原有的分類法和主題法的長處,彌補各自的缺點。網(wǎng)絡(luò)環(huán)境下,分類主題一體化語言依然是情報組織與檢索中不可或缺的工具,因其詞匯控制的規(guī)范性、概念的豐富性、邏輯的嚴密性,一體化詞表仍然在不同領(lǐng)域得到廣泛應(yīng)用。本研究對我國一體化詞表的構(gòu)成模式、實現(xiàn)方法、應(yīng)用方式等進行了系統(tǒng)梳理,希望對當(dāng)前理論研究及實踐應(yīng)用提供參考。

      1 分類主題一體化詞表的構(gòu)成模式

      按照對分類類目與主題詞的映射、兼容、集成等控制手段的不同,常見一體化詞表的構(gòu)成模式主要有如下3種(見表1)。

      (1)分面敘詞表。通常包括分面分類表和字順敘詞表兩部分,每個敘詞均同時出現(xiàn)在分類表和敘詞表中,用分類號將兩部分連接,使類目和敘詞對應(yīng)。通過對分類表和敘詞表進行統(tǒng)一的詞形、詞義和詞間關(guān)系控制,來實現(xiàn)二者的兼容,是最典型的一體化詞表。典型代表如《農(nóng)業(yè)科學(xué)敘詞表》(以下簡稱《農(nóng)表》)。

      (2)分類法-敘詞表對照索引(或稱分類主題映射詞表)?!吨蟹直怼肪褪谴祟愒~表的代表。通常包括分類號-主題詞對應(yīng)表、主題詞-分類號對應(yīng)表兩部分內(nèi)容。每個分類號下列出對應(yīng)的主題詞或主題詞串,通過分類類目實現(xiàn)主題詞的聚類、分類和瀏覽;每個主題詞下列出對應(yīng)的分類號,利用主題詞對類目作進一步地注釋與說明[3]。

      (3)集成詞表。將若干敘詞表與分類表融合匯編而成的一種詞表,通常以某一部分類法或敘詞表為主,列出與分類號或敘詞相對應(yīng)的其他分類法或敘詞表中的分類號或敘詞,以實現(xiàn)分類語言與主題語言的兼容與互換。如重新編制的《漢表》就是一個包含分類、主題和概念等不同語義級別詞匯和概念數(shù)據(jù)庫的集成知識組織系統(tǒng)[4],以《中國圖書資料分類法》為基礎(chǔ)組織敘詞表的分類顯示體系,將敘詞表和分類表有機結(jié)合。

      表1 常見分類主題一體化模式及代表性詞表

      2 分類主題一體化詞表的實現(xiàn)方法

      通過對分類表和敘詞表各自的術(shù)語、參照、標識和索引實施統(tǒng)一的控制,可以實現(xiàn)二者的有機融合。在數(shù)字時代到來之前,主要是人工編制完成;隨著計算機技術(shù)的發(fā)展,分類法與主題法的自動轉(zhuǎn)換成為可能,詞表的編制開始輔以計算機技術(shù)實現(xiàn)。針對分類語言和主題語言的兼容互換,目前主要實現(xiàn)方法有直接映射、自動映射和集成法[5]。

      (1)直接映射。需要人為主觀判定類目、詞匯之間的關(guān)系,建立不同詞表中詞匯間或詞匯與分類號之間的對應(yīng)聯(lián)系,準確率較高,但是過多依賴于專家?!吨蟹直怼肪褪遣捎弥苯佑成涞姆椒?,實現(xiàn)《中國圖書館分類法》類目與《漢表》主題詞的對應(yīng),主要依靠手工對應(yīng)表標引完成。

      (2)自動映射。這是利用計算機對相同的元數(shù)據(jù)或編目記錄中,來源于不同詞表的語詞和分類號的共現(xiàn)頻次進行統(tǒng)計,計算語詞與分類號的相似度值,從而建立語詞與分類號的映射。自動映射需要足夠多的標引數(shù)據(jù),并且同一文獻需要用不同分類法和敘詞表進行標注,對訓(xùn)練數(shù)據(jù)的要求較高。自動映射方法主要是為實現(xiàn)詞表擴充與更新的自動化,使其跟上學(xué)科或資源的快速發(fā)展變化。

      (3)集成法。實質(zhì)上是將某一特定主題領(lǐng)域的多部敘詞表或分類法進行融合,在各來源詞表的基礎(chǔ)上建立包含所有術(shù)語及相關(guān)參照的集成詞表,通過識別等價詞及準等價詞建立詞匯轉(zhuǎn)換系統(tǒng),實現(xiàn)分類表與敘詞表的兼容轉(zhuǎn)換。如中醫(yī)藥一體化語言系統(tǒng)(TCMLS)采用集成法,將各種主題詞表、分類表、工具書中相關(guān)詞匯集成,建立了與UMLS功能相似的中醫(yī)藥學(xué)及相關(guān)學(xué)科的一體化語言系統(tǒng)平臺。

      直接映射準確率高,但是過于依賴專家,耗費大量人力;相比直接映射,自動映射的效率更高,但存在準確率低等局限;集成法能較好地保留原有知識體系的邏輯內(nèi)容,但是工作量較大,在具體的實踐活動中,往往會采用多種方法相互配合。如《漢表》在重新編制過程中,就結(jié)合語義計算、共現(xiàn)聚類等計算機技術(shù)輔助領(lǐng)域?qū)<掖_立詞間關(guān)系,最終構(gòu)建了一個集成知識組織體系[6]。

      3 分類主題一體化詞表的應(yīng)用研究

      現(xiàn)有研究中,除了綜合領(lǐng)域之外,分類主題一體化的研究成果主要集中在醫(yī)學(xué)和農(nóng)業(yè)等專業(yè)領(lǐng)域。在醫(yī)學(xué)領(lǐng)域,利用TCMLS實現(xiàn)醫(yī)學(xué)文本語義關(guān)系的發(fā)現(xiàn)、構(gòu)建中藥概念數(shù)據(jù)模型等;在農(nóng)業(yè)領(lǐng)域,基于《農(nóng)表》開展了大量研究,如構(gòu)建農(nóng)業(yè)領(lǐng)域本體、實現(xiàn)農(nóng)業(yè)科技關(guān)聯(lián)數(shù)據(jù)的構(gòu)建和發(fā)布、構(gòu)建農(nóng)業(yè)知識服務(wù)平臺等。一體化詞表的應(yīng)用促進了網(wǎng)絡(luò)環(huán)境下信息資源組織及服務(wù)的展開。除了醫(yī)學(xué)和農(nóng)業(yè)專業(yè)領(lǐng)域之外,其他領(lǐng)域?qū)W者也開始嘗試引入分類主題一體化模式,如國防軍事[3,7]、電子政務(wù)[8-9]等領(lǐng)域??傮w而言,一體化詞表主要應(yīng)用于標引與檢索、詞表互操作、本體構(gòu)建、關(guān)聯(lián)數(shù)據(jù)發(fā)布、知識發(fā)現(xiàn)等多個方面。

      3.1 標引與檢索

      分類主題一體化是提高檢索效率的保證,用戶可以通過分類或主題的方式進行瀏覽或檢索,并隨意切換檢索方式,還可以通過分類與主題的相互限定改變檢索范圍。如在數(shù)字圖書館中,將《中分表》與OPAC鏈接,能夠?qū)崿F(xiàn)網(wǎng)絡(luò)聯(lián)機檢索目錄的功能,可以為用戶提供學(xué)科分類導(dǎo)航和概念檢索服務(wù)[10]?!稘h語主題詞表(工程技術(shù)卷)》和《漢語主題詞表(自然科學(xué)卷)》則通過《漢表》服務(wù)系統(tǒng)提供相關(guān)服務(wù)[11],實現(xiàn)不同顆粒度的智能查詢和檢索功能,既可以從分類層級類目入手批量獲取文獻信息,也可以通過主題概念進行縮檢與擴檢,還可以從主題和學(xué)科角度對文檔進行聚類分析。胡昌平等[12]、陳果等[13]還通過對主題詞表的分面化改造實現(xiàn)科技文獻檢索效果的提升,以及網(wǎng)絡(luò)社區(qū)分面導(dǎo)航系統(tǒng)原型的構(gòu)建。

      利用分類主題一體化也可以同時完成文獻信息的主題標引和分類標引,一次標引能同時獲得主題和分類標引的結(jié)果,提升標引的規(guī)范性和準確性,也能提高標引工作效率。在圖書館中,當(dāng)電子化和網(wǎng)絡(luò)化的一體化詞表與編目系統(tǒng)對接之后,信息查找更為便利,縮檢、擴檢的難度降低,能實現(xiàn)分類主題一體化標引與編目系統(tǒng)的無縫鏈接,提高編目效率。

      在網(wǎng)絡(luò)環(huán)境下,手工標引不能完全滿足用戶需求,人們開始探索利用計算技術(shù)進行自動標引,選擇自動標引的知識庫也要同時兼顧主題標引和分類標引的需要,因此一體化詞表也為自動標引提供了有利條件。卜書慶[14]構(gòu)建了基于《中分表》知識組織系統(tǒng)的自動標引服務(wù)系統(tǒng),可以支持數(shù)字資源的自動標引與自動分類,以《中分表》為基礎(chǔ),不僅可以簡化標引程序,還能進行分類標引與主題標引的相互對照與檢驗。類似的,在《漢表》服務(wù)系統(tǒng)中,輸入需要標引的文獻標題和摘要之后,可以輸出代表性高的優(yōu)選詞作為標引詞,并同時賦予文獻合適的分類號。

      針對一體化詞表的自動構(gòu)建和改造,王軍[15]以《中分表》為基礎(chǔ),提出從已標引的結(jié)構(gòu)化語料庫中提取專業(yè)領(lǐng)域詞匯自動豐富現(xiàn)有詞表的思路和方法,基于該方法,通過發(fā)現(xiàn)反映文獻主題的關(guān)鍵詞,并將其映射到規(guī)范的主題詞上,能夠?qū)崿F(xiàn)自動標引和編目。何琳等[16]將標引經(jīng)驗和機器學(xué)習(xí)相結(jié)合,對《中分表》進行了基于自動標引的改造,測試結(jié)果表明,改造后的《中分表》在標引深度和專指度方面都有所提高。

      3.2 詞表互操作

      信息資源在結(jié)構(gòu)、領(lǐng)域、語言等方面的差異,導(dǎo)致了不同知識組織系統(tǒng)的異構(gòu)性,為解決由異構(gòu)系統(tǒng)帶來的資源共享不便的問題,檢索語言之間的兼容互換研究成為知識組織研究重點討論的問題,通過對詞表進行互操作研究則可以滿足用戶對信息資源進行跨庫、跨領(lǐng)域、跨語言檢索的需求。分類主題一體化詞表本質(zhì)上就是由分類語言和主題語言通過映射兼容形成的知識組織系統(tǒng),基于一體化詞表本身的集成特點,進一步對一體化詞表開展互操作研究能使構(gòu)成的知識組織系統(tǒng)功能更加全面。

      針對不同檢索語言之間的互操作,劉華梅等[17]以《中分表》為核心體系構(gòu)建了教育集成詞庫,利用同現(xiàn)映射、相似度計算等方法,實現(xiàn)了多部分類法、敘詞表和《中分表》的兼容。在不同語種詞表間的互操作方面,部分學(xué)者研究了《農(nóng)表》與AGROVOC敘詞表的映射,并提出了跨語言搜索引擎的設(shè)計方案[18-19];鮮國建[20]建立了《農(nóng)表》與幾大涉農(nóng)知識組織系統(tǒng)映射互聯(lián)的描述框架,包括AGROVOC、NALT、LCSH和EUROVOC敘詞表,但還未進行互操作具體實踐;常春等[21]等按照國際通用的標準規(guī)范,建立了《漢語主題詞表(工程技術(shù)卷)》到英文超級科技詞表間的映射關(guān)系,促進了中英文跨語言、跨庫檢索的研究和實施。在此基礎(chǔ)上,鄧盼盼等[22-23]等從不同角度探討了中英文敘詞表概念映射關(guān)系及方法。

      一體化詞表能為構(gòu)建本體等知識組織系統(tǒng)提供語義來源等術(shù)語服務(wù)[17]。隨著語義網(wǎng)的發(fā)展,OWL、SKOS、Web Service等技術(shù)被引入術(shù)語服務(wù)研究,曾新紅等[24]以《中分表》《社會科學(xué)檢索詞表》等為例,構(gòu)建了中文敘詞表本體共建共享系統(tǒng)(OTCSS),提供面向應(yīng)用程序的Web Service術(shù)語服務(wù),實現(xiàn)了術(shù)語的瀏覽、標引與檢索。范煒等[25]以經(jīng)過SKOS表征的《中分表》主題詞表數(shù)據(jù)為基礎(chǔ),構(gòu)建了面向用戶和機器的術(shù)語服務(wù)原型系統(tǒng),可支持關(guān)鍵詞檢索和可視化服務(wù)。此外,《漢表》服務(wù)系統(tǒng)以網(wǎng)頁服務(wù)和接口調(diào)用的方式,提供術(shù)語檢索和瀏覽。

      從現(xiàn)有研究來看,將一體化詞表與其他詞表進行互操作的項目并不多,且多是相同領(lǐng)域詞表的互操作,對于跨領(lǐng)域知識融合等問題的研究還較為缺乏。針對一體化詞表提供的術(shù)語服務(wù),主要是提供術(shù)語的檢索與瀏覽功能,信息檢索之外的更多應(yīng)用還需擴展。

      3.3 本體構(gòu)建

      本體規(guī)范度高、語義豐富,可以提高異構(gòu)系統(tǒng)之間的互操作性,能夠較好地滿足新網(wǎng)絡(luò)環(huán)境下信息組織需求,有助于知識共享。本體與分類表和主題詞表有相一致的特性,構(gòu)建本體的方式之一就是將傳統(tǒng)的分類法、主題詞表等知識組織體系中的相關(guān)概念改造成本體。一體化詞表同時提供了知識的等級體系和主題概念的語義關(guān)聯(lián),為本體的構(gòu)建提供了便利條件。利用一體化詞表構(gòu)建本體時,本體概念可以直接復(fù)用詞表已有的選詞,并且可以根據(jù)詞表中的各類關(guān)系獲得概念關(guān)系,直接參照詞表中的參照關(guān)系、分類號以及限義詞以確立概念屬性[26]。

      在相關(guān)研究中,由于《中分表》能在各學(xué)科領(lǐng)域中廣泛使用,且能夠統(tǒng)一描述各學(xué)科領(lǐng)域內(nèi)的知識,因此較多研究選擇《中分表》作為知識源。目前一體化詞表用于本體構(gòu)建大致包括完全復(fù)用型和語義輔助型兩種方式[26]。完全復(fù)用型是指在構(gòu)建本體時完全以詞表中的主題詞、分類類目詞作為術(shù)語集,通過對一體化詞表的完全復(fù)用,學(xué)者們構(gòu)建了不同的領(lǐng)域本體,如民樂本體、圖書情報本體、旅游本體、教育領(lǐng)域本體等。語義輔助型是指構(gòu)建本體時詞表不再用作術(shù)語集的全部來源,而是開始逐漸加入主題詞以外的自然語言,如標簽。張云中等[26]將《中分表》和大眾分類法進行融合,復(fù)用《中分表》的語義關(guān)系、分類主題詞作為構(gòu)建本體的語義關(guān)系和術(shù)語集,再結(jié)合標簽語義關(guān)系和高頻標簽輔助構(gòu)建了一個散文領(lǐng)域本體,可以對網(wǎng)絡(luò)資源進行深入的揭示,也可以確保本體構(gòu)建所用術(shù)語集的新穎性。

      3.4 關(guān)聯(lián)數(shù)據(jù)發(fā)布

      一體化詞表具有豐富的概念及語義關(guān)系,能夠有效地對信息資源進行組織和利用,提高信息獲取效率。但是作為傳統(tǒng)知識組織系統(tǒng),一體化詞表是相對封閉和孤立的系統(tǒng),目前還沒有提供便捷獲取和利用的途徑,缺乏與外部網(wǎng)絡(luò)應(yīng)用進行開放鏈接的能力,妨礙了其在網(wǎng)絡(luò)資源索引和檢索方面的應(yīng)用能力[25]。關(guān)聯(lián)數(shù)據(jù)的出現(xiàn)為其指出了一個新的發(fā)展方向。關(guān)聯(lián)數(shù)據(jù)主張在不同數(shù)據(jù)間建立聯(lián)系,將孤立的資源關(guān)聯(lián)起來,因此,可以將關(guān)聯(lián)數(shù)據(jù)的理念和技術(shù)方法與一體化詞表結(jié)合。

      在關(guān)聯(lián)化的一體化詞表相關(guān)研究中,將一體化詞表直接應(yīng)用于信息資源關(guān)聯(lián)數(shù)據(jù)化的現(xiàn)有研究還較為少見,在這類研究中,一體化詞表主要作用是構(gòu)建關(guān)聯(lián)數(shù)據(jù)的基本語義關(guān)系模型,為其他關(guān)聯(lián)數(shù)據(jù)提供語義結(jié)構(gòu)和關(guān)系描述框架。如鮮國建[20]基于《農(nóng)表》等知識組織體系,建立適用于描述多類型信息資源的多維語義關(guān)聯(lián)框架模型,為多維農(nóng)業(yè)科技語義關(guān)聯(lián)數(shù)據(jù)的構(gòu)建和發(fā)布提供基礎(chǔ)。任瑞娟等[27]依托《中分表》敘詞及詞間關(guān)系建立關(guān)系型本體庫,實現(xiàn)了學(xué)位論文、書目信息等多類型學(xué)術(shù)資源的語義化組織與關(guān)聯(lián)化發(fā)布。

      較多研究探討了一體化詞表本身的關(guān)聯(lián)數(shù)據(jù)化實現(xiàn)。要實現(xiàn)一體化詞表的關(guān)聯(lián)化,首先要實現(xiàn)詞表的規(guī)范化描述,SKOS是形式化描述的首選方法。SKOS簡潔、通用、易擴展,提供的語義關(guān)系比RDF更加精確,不像OWL那樣苛求較復(fù)雜的邏輯?!吨蟹直怼分黝}詞表部分、《農(nóng)表》均已進行了基于SKOS的語義轉(zhuǎn)換實踐。針對《中分表》一體化結(jié)構(gòu)的描述也有學(xué)者提出了解決方案,如曾新紅[28]提出將《中分表》當(dāng)成兩個獨立的概念體系進行描述,然后進行映射集成。

      在發(fā)布方式上,目前已經(jīng)有許多工具支持關(guān)聯(lián)數(shù)據(jù)的轉(zhuǎn)換發(fā)布,如D2R Server、Virtuoso universal server、Triplify等,鮮國建等[29]和蔡穎[30]基于Virtuoso,分別實現(xiàn)了《農(nóng)表》以及《中分表》關(guān)聯(lián)數(shù)據(jù)發(fā)布系統(tǒng)的構(gòu)建,Virtuoso可以將RDF儲存到關(guān)系型數(shù)據(jù)庫中,還支持SPARQL語法查詢。關(guān)聯(lián)數(shù)據(jù)集著眼于機器處理的便利,用戶理解上還存在一定難度,因此可視化十分必要。Relfinder、Graphviz、RDFGravity、Gruff等都是常見的關(guān)聯(lián)數(shù)據(jù)可視化工具。如范煒等[25]結(jié)合Graphviz和Protovis類庫實現(xiàn)了《中分表》主題詞部分的關(guān)聯(lián)數(shù)據(jù)可視化,能更直觀地展示相關(guān)數(shù)據(jù),增強用戶對數(shù)據(jù)的理解。

      基于SKOS的關(guān)聯(lián)數(shù)據(jù)發(fā)布能夠較好地表達概念之間的關(guān)系,但是對復(fù)雜等級體系的概念關(guān)系表達不夠充分。曾新紅[28]構(gòu)建了中文知識組織系統(tǒng)形式化語義描述標準體系,包括通用CNKOS語義描述規(guī)范、高受控詞表的OntoThesaurus描述規(guī)范以及領(lǐng)域本體的OWL描述規(guī)范三部分。其中通用CNKOS語義描述規(guī)范對現(xiàn)有SKOS詞匯無法細致描述的語義元素進行了擴展,如受控詞表中組配概念及特種概念,分類法中交替類目、類目注釋的具體類型及其隱含語義、類號范圍等問題的處理;在此基礎(chǔ)上發(fā)布了《中分表》的關(guān)聯(lián)數(shù)據(jù)服務(wù)[31],但目前該服務(wù)還未提供到其他詞表的關(guān)聯(lián),可視化等功能也還在建設(shè)中。

      3.5 知識發(fā)現(xiàn)

      隨著信息資源的爆炸式增長,用戶的需求也從信息檢索轉(zhuǎn)向知識的有效獲取。知識發(fā)現(xiàn)是從以各種形式表示的信息中,發(fā)現(xiàn)知識之間內(nèi)在的聯(lián)系,為用戶提供更好的服務(wù)。從現(xiàn)有的概念關(guān)聯(lián)體系中,直接獲取概念術(shù)語的半監(jiān)督知識發(fā)現(xiàn)技術(shù)具有良好的效果[32]。一體化詞表將分類法中的層級關(guān)系與主題詞表中的概念關(guān)系有機結(jié)合,能夠為知識發(fā)現(xiàn)提供以概念為中心的同義詞匯聚、概念及實體識別、基于范疇類目及等級體系的概念分類組織等信息,有助于優(yōu)化知識發(fā)現(xiàn)服務(wù)[33]。

      劉愛琴等[34]以《中分表》為受控詞表,設(shè)計了面向非相關(guān)文獻的知識關(guān)聯(lián)發(fā)現(xiàn)系統(tǒng),依據(jù)主題詞的等級結(jié)構(gòu)以及語義關(guān)聯(lián)或相似程度,構(gòu)造文獻的隸屬和相關(guān)結(jié)構(gòu),最后計算文獻之間知識關(guān)聯(lián)程度。趙瑞雪等[35]綜合運用《農(nóng)表》及其他詞表建立索引,構(gòu)建了基于元數(shù)據(jù)搜索的統(tǒng)一發(fā)現(xiàn)服務(wù),能夠?qū)崿F(xiàn)一站式檢索、多維分面、學(xué)科導(dǎo)航及語義拓展功能。

      隨著社會網(wǎng)絡(luò)的發(fā)展,大量的網(wǎng)絡(luò)社區(qū)也成為用戶獲取知識和解決問題的重要途徑,用戶在網(wǎng)絡(luò)社區(qū)的交流內(nèi)容通過一定的挖掘和組織后,能實現(xiàn)更深層次的知識服務(wù)。陳果[32]以心血管領(lǐng)域為對象進行實驗,構(gòu)建了基于《中文醫(yī)學(xué)主題詞表》和基于百科的結(jié)構(gòu)化概念關(guān)聯(lián)體系,在丁香園心血管論壇中引入領(lǐng)域概念關(guān)聯(lián)體系,從概念間的細粒度關(guān)聯(lián)角度對用戶發(fā)帖內(nèi)容建立相關(guān)關(guān)系,以實現(xiàn)知識關(guān)聯(lián)發(fā)現(xiàn)。

      4 研究結(jié)論及展望

      隨著一體化詞表的應(yīng)用不斷拓展和延伸,從傳統(tǒng)環(huán)境下最基本的標引與檢索、詞表的互操作研究,發(fā)展到語義網(wǎng)環(huán)境下的本體構(gòu)建和關(guān)聯(lián)數(shù)據(jù)發(fā)布,并為知識關(guān)聯(lián)提供概念支撐;從文獻信息組織擴展到網(wǎng)絡(luò)信息組織,并在不同的領(lǐng)域得到應(yīng)用。其中,《中分表》《農(nóng)表》的數(shù)字化建設(shè)領(lǐng)先于其他詞表,為一體化詞表的多方面應(yīng)用奠定了較好基礎(chǔ)。未來還可以從以下方面實現(xiàn)理論與應(yīng)用擴展。

      (1)推動主題詞表的分面化改造。國內(nèi)對于分類主題一體化的研究主要集中在醫(yī)學(xué)、農(nóng)業(yè)領(lǐng)域,其他專業(yè)領(lǐng)域較少涉及。分面敘詞表是兼容性最好的分類主題一體化模式,將分面分類體系引入不同領(lǐng)域的主題詞表,可以彌補主題詞表缺乏內(nèi)在邏輯性和分類體系的缺陷。另外,概念屬性的分面分析是本體的重要特征,因此在本體構(gòu)建中分面敘詞表也能得到良好的應(yīng)用。有研究調(diào)查了我國目前已編制出版的140多部主題詞表,這些主題詞表涉及多個學(xué)科領(lǐng)域,但現(xiàn)有詞表對新的信息和技術(shù)環(huán)境的不適應(yīng),使得其中70%都已處于休眠狀態(tài),沒有得到利用與維護[36]。因此,加強主題詞表的分面化改造,是實現(xiàn)各類信息資源分類主題一體化的切實可行方案,可以進一步擴展分類主題一體化的應(yīng)用領(lǐng)域。

      (2)深化一體化詞表的關(guān)聯(lián)化研究。語義網(wǎng)絡(luò)環(huán)境中,一體化詞表要發(fā)揮語義組織與檢索、知識發(fā)現(xiàn)等功能,實現(xiàn)詞表的機器可理解、可操作、可執(zhí)行是基本的前提和保障[37]。因此,如何將一體化詞表加工成形式化的、四星甚至五星的開放關(guān)聯(lián)數(shù)據(jù)是必須解決的關(guān)鍵問題。國內(nèi)學(xué)者積極探索一體化詞表的關(guān)聯(lián)數(shù)據(jù)發(fā)布格式,如SKOS模型化。但許多研究聚焦于一體化詞表中主題詞表部分,對分類法部分重視不足,這也一定程度上導(dǎo)致了一體化詞表集成特性發(fā)揮的作用有限。部分學(xué)者曾對此提出進一步的轉(zhuǎn)換解決方案,如Zeng等[38]曾提出將OWL和SKOS結(jié)合,借助OWL的形式化邏輯解決類號組配與復(fù)分推理等問題,但是這些方案還未在實踐中得到驗證。此外,還需要對一體化詞表與其他詞表之間的關(guān)聯(lián)匹配進行深入探索,關(guān)聯(lián)數(shù)據(jù)五星標準要求就是不同RDF數(shù)據(jù)集之間構(gòu)建關(guān)聯(lián),因此還需探索不同詞表之間的語義映射方法,如引入帶有機器學(xué)習(xí)的新AI或許可以提高不同詞表間的語義互操作性[39]。

      (3)加強一體化詞表的集成化、可視化研究,提升信息服務(wù)質(zhì)量。在詞表的集成研究中,由于不同詞表的語義、層次結(jié)構(gòu),甚至是語言、文化的差異較大,導(dǎo)致詞表的集成和映射任務(wù)較為困難。鄧仲華等[40]曾提出多語種詞表的映射和擴展方案,可以為一體化詞表解決跨語言信息檢索的問題提供參考。還有學(xué)者指出利用本體和語義框架開發(fā)的敘詞表集成工具,可以解決敘詞表的層次結(jié)構(gòu)模糊的問題,如VISTA工具旨在通過可視化詞匯層次結(jié)構(gòu)來幫助用戶對兩個術(shù)語之間的賦值進行智能處理[41]。

      用戶需求的滿足和使用的便利是詞表研究的最終目的,知識可視化和圖譜表示越來越受到歡迎,如何將這些源于其他實踐領(lǐng)域,但能夠提高用戶體驗的知識表示形式加以整合,也是一體化詞表需要考慮的。引入人工智能、機器學(xué)習(xí)、自然語言處理等領(lǐng)域的技術(shù),探索構(gòu)建知識圖譜的方法,通過一體化詞表本身的層級和概念關(guān)系,可以滿足部分推理需求,并且可以基于知識圖譜構(gòu)建自動問答系統(tǒng),為用戶查找問題并提高檢索質(zhì)量提供幫助[42]。

      探索一體化詞表實現(xiàn)方法與技術(shù)創(chuàng)新,從概念形成、概念類目映射到規(guī)范描述,均需圖書情報機構(gòu)與專業(yè)機構(gòu)、知識組織體系建設(shè)機構(gòu)與應(yīng)用機構(gòu)等相關(guān)群體密切協(xié)作,提高信息資源共享程度,從而實現(xiàn)協(xié)同攻關(guān)。中國科學(xué)技術(shù)信息研究所提出的國家敘詞庫系統(tǒng)發(fā)展戰(zhàn)略[43],倡導(dǎo)加強全國性科研協(xié)作機制,對推動我國分類主題一體化詞表的發(fā)展具有重要意義。

      猜你喜歡
      詞表主題詞表標引
      《〈漢語主題詞表〉構(gòu)建研究》
      《〈漢語主題詞表〉構(gòu)建研究》
      A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會項目名稱漢英對照詞表
      英語世界(2021年13期)2021-01-12 05:47:51
      《〈漢語主題詞表〉構(gòu)建研究》
      《〈漢語主題詞表〉構(gòu)建研究》
      檔案主題標引與分類標引的比較分析
      本刊對來稿中關(guān)鍵詞標引的要求
      敘詞表與其他詞表的互操作標準
      本刊對來稿中關(guān)鍵詞標引的要求
      本刊對來稿中關(guān)鍵詞標引的要求
      香格里拉县| 安塞县| 华坪县| 收藏| 呈贡县| 台州市| 平远县| 嘉禾县| 灵川县| 扶绥县| 泰兴市| 武邑县| 绥德县| 本溪市| 陇西县| 调兵山市| 清新县| 佳木斯市| 卢龙县| 威宁| 山东| 思茅市| 新兴县| 宜都市| 喀什市| 土默特左旗| 宁晋县| 秦皇岛市| 浮山县| 保山市| 常宁市| 义马市| 汉源县| 克什克腾旗| 隆回县| 藁城市| 永城市| 蓬安县| 茂名市| 老河口市| 稷山县|