• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      敘詞表集成化體系及應用推進研究

      2022-05-19 06:58:34曾建勛
      情報學報 2022年4期
      關鍵詞:詞表集成化術語

      陳 瑞,曾建勛

      (1. 武漢大學信息管理學院,武漢 430072;2. 中國科學技術信息研究所,北京 100038)

      1 引 言

      敘詞表作為一類重要的知識組織工具,在文獻信息檢索方面發(fā)揮著重要作用。國內(nèi)外根據(jù)情報檢索需求和應用陸續(xù)編制了大量的敘詞表,為用戶高效地獲取信息資源提供了便利,但是這些敘詞表資源很多未及時開發(fā)維護被束之高閣,只有很少的敘詞表相對活躍,整體應用情況不很理想。當下學科發(fā)展日新月異,知識更新迅速,科學研究的關聯(lián)度、交叉度進一步加深,對于文獻情報服務,靜態(tài)的單個敘詞表資源很難滿足涉及多學科、多主題的網(wǎng)絡信息環(huán)境應用需求。科技術語資源的規(guī)范化和集成化對于網(wǎng)絡信息資源的組織與利用十分重要[1],敘詞表資源的集成與應用有助于帶動現(xiàn)有資源的更新維護,優(yōu)化知識組織體系,促進敘詞表資源規(guī)?;瘧肹2]。本文借鑒國內(nèi)外詞表集成理論和實踐,構(gòu)建面向不同領域、多元學科交叉融合的敘詞表集成化體系,旨在利用集成方式推動不同術語資源的規(guī)范化、形式化描述,不斷擴充、更新語義知識庫,拓展敘詞表應用范圍和應用模式,推動敘詞表資源的可持續(xù)發(fā)展。

      2 敘詞表集成化應用的迫切性

      2.1 敘詞表資源及其應用現(xiàn)狀

      1959 年,美國編制第一部敘詞表,之后迅速發(fā)展。國際上敘詞表已超過2000 部,并廣泛應用于各個領域,一些主流詞表,如MeSH(Medical Subject Headings)建立了持續(xù)的更新機制[3]。1971 年出版的《航空科技資料主題表》是我國編制的第一部敘詞表,1980 年我國第一部大型綜合詞表《漢語主題詞表》正式出版,此后各專業(yè)情報機構(gòu)紛紛根據(jù)需要編制一系列專業(yè)敘詞表,逐步確立了我國敘詞表編制的方法和標準[4]。以往敘詞表的編制主要是以人工為主,耗費了大量人力和時間,且更新修訂困難,已有的150 多部中文敘詞表中,僅有39%的詞表有過修訂,且修訂時間的間隔平均為10 年,修訂時間落后于相應科技的發(fā)展,而僅有9%的詞表比較活躍[5]。敘詞表的生命在于不斷地使用、維護與更新,眾多敘詞表的存在狀態(tài)及應用情況不佳,越得不到應用就會越缺乏修訂維護,導致概念過時、概念間關系簡單,久而久之不被使用。

      敘詞表傳統(tǒng)的應用環(huán)境主要是圖書情報領域,未拓展到社會更加廣闊的知識利用環(huán)境中[6],主要原因表現(xiàn)在以下方面:①傳統(tǒng)的敘詞表資源面向?qū)I(yè)的標引人員,對于一般用戶熟練使用有較高的要求;②眾多敘詞表資源分散在不同機構(gòu),并且缺少面向網(wǎng)絡的信息服務系統(tǒng),未開放對外應用接口,一般用戶沒有了解敘詞表資源的機會以及獲取敘詞表資源的渠道;③傳統(tǒng)敘詞表主要由人工構(gòu)建,知識結(jié)構(gòu)簡單,難以被計算機直接自動利用,嚴重制約網(wǎng)絡環(huán)境下敘詞表的應用;④敘詞表資源未能與具體應用需求和應用環(huán)境相結(jié)合[7],缺乏在敘詞表資源基礎上的二次開發(fā),很難直接應用到具體實踐中。

      總體來說,當前的眾多敘詞表資源落后于相應的科學研究,缺少應用,缺乏修訂維護,這與日新月異的學科發(fā)展和知識更新現(xiàn)狀不匹配。同時,各領域、各學科的詞表資源分散在不同數(shù)據(jù)庫或不同的機構(gòu),各表之間缺乏互操作機制,缺乏統(tǒng)一的、規(guī)范化的資源描述,難以發(fā)揮整體協(xié)同作用,不具備大數(shù)據(jù)環(huán)境下計算機大規(guī)模資源處理的應用條件。隨著數(shù)字出版產(chǎn)業(yè)不斷發(fā)展,大數(shù)據(jù)、云計算、人工智能技術在各領域的應用都離不開基礎資源的組織和處理,敘詞表資源作為底層規(guī)范化的語義工具,應超越傳統(tǒng)的標引檢索,融入整個文本信息處理和知識組織過程之中[8],廣泛應用于搜索引擎、數(shù)字出版、數(shù)據(jù)挖掘和知識發(fā)現(xiàn)等各領域。敘詞表資源需要不斷完善內(nèi)在結(jié)構(gòu)和外在功能,逐漸由數(shù)字化向規(guī)模大型化、概念語義化、編制智能化和服務及應用多樣化的方向發(fā)展[9],發(fā)揮其更加廣泛的作用。

      2.2 敘詞表集成化應用的必要性

      國外許多機構(gòu)進行了詞表集成實踐,具有代表性的集成項目有:英國高層敘詞表項目HILT(High-Level Thesaurus),采用映射方式集成67 部國際重要的敘詞表和分類表進行網(wǎng)絡信息服務[10];德國 KoMoHe (Kompetenzzentrum Modellbildung und Heterogenittsbehandlung)項目,對11 個學科的25 種受控詞表進行集成,實現(xiàn)了多個信息系統(tǒng)之間的分布式檢索[11];美國國立醫(yī)學圖書館組織建設UMLS(Unified Medical Language System)項目,通過概念融合方式整合了上百部生物醫(yī)學領域的術語資源,定義了54 種語義關系[12-13],構(gòu)建了大型知識組織工具,并已將其應用到生物醫(yī)學專業(yè)數(shù)據(jù)庫的自動標引、智能化檢索、專業(yè)詞表的編制以及相關領域的語義關聯(lián)和知識發(fā)現(xiàn)中。國內(nèi)參照UMLS 的體系框架和構(gòu)建流程開展了一系列集成項目,包括CUMLS (Chinese Unified Medical Language System)中文一體化語言系統(tǒng)、TCMLS(Traditional Chinese Medicine Language System) 中醫(yī)藥一體化語言系統(tǒng) 、 STKOS (Science Technology Knowledge Organi‐zation System) 英文超級科技詞表等[14-15]。這些項目通過集成方式,整合多部敘詞表資源及其他術語資源,定義多種語義關系并開發(fā)面向具體應用的服務系統(tǒng),推動敘詞表資源的應用。

      敘詞表的集成創(chuàng)建具有重要意義,主要體現(xiàn)在以下三個方面。

      (1)敘詞表的集成有助于盤活各種“閑置”的術語資源,通過集成方式進行各領域概念及概念關系的增、刪、改,帶動敘詞表資源的更新和維護,進而帶動各敘詞表的發(fā)展??梢岳米詣踊夹g集成新概念、新術語,及時反映學科知識的動態(tài)變化。傳統(tǒng)的知識組織結(jié)構(gòu)對于等級、相關關系的描述過于寬泛和模糊,而利用集成方式融合當下語義網(wǎng)、本體資源的新型語義描述方式,對現(xiàn)有的術語資源進行深層次的語義關系細化,則有助于機器使用敘詞表資源進行知識推理。

      (2)各領域的敘詞表資源進行集成,有助于擴展資源主題范圍,整合多來源、多語種、多學科、多類型的術語資源,實現(xiàn)更大范圍主題概念的覆蓋和語義關聯(lián),體現(xiàn)大型詞表的學科集成優(yōu)勢。單獨使用某一領域的敘詞表難以較好地組織和揭示網(wǎng)絡信息資源,利用集成方式對各領域的敘詞表、分類表、名錄、詞典、本體等不同類型的知識體系整合,可以擴充敘詞表的概念資源,同時,協(xié)同使用多種知識組織體系促進對信息資源的關聯(lián)和共享。

      (3)通過集成方法建設規(guī)模化的術語資源、結(jié)構(gòu)化的概念描述、豐富的語義關系、不同層次的語義資源和服務,將術語資源、語義工具和應用模式融為一體,有助于數(shù)據(jù)大規(guī)模應用取得成效。集成化的詞表資源和服務體系可以為自然語言的處理提供大規(guī)模基礎資源,為信息加工提供自動切詞、自動標引、自動分類、信息抽取等功能,為知識挖掘和知識發(fā)現(xiàn)提供概念實體識別、語義識別、自動分類、智能推理等語義信息,起到術語規(guī)范和知識關聯(lián)等作用。

      3 敘詞表集成化體系框架

      圍繞規(guī)范化概念和語義關系表達,敘詞表的集成化試圖將各主題領域的敘詞表資源及各類術語資源進行歸并融合,構(gòu)建一個語義關系豐富、明確的新型集成化詞表,并創(chuàng)新集成資源的應用和服務模式。敘詞表的集成化體系建設是一項系統(tǒng)工程,涉及不同語種、不同結(jié)構(gòu)、不同領域術語資源的互操作及應用,需要從集成的標準、方法、過程、系統(tǒng)、應用出發(fā),構(gòu)建完備的集成化體系框架(如圖1 所示),標準規(guī)范體系對整個集成過程進行規(guī)范控制,是集成化過程的基礎;詞表集成化支撐體系輔助集成化過程的網(wǎng)絡化和自動化,是集成化過程的工具;詞表集成化概念體系明確集成后的詞表結(jié)構(gòu),是集成化的目標;自下而上的集成化過程包括多來源術語集成和語義組織與集成,生成集成化詞表;在此基礎上,提供面向用戶、面向機器的系統(tǒng)服務與應用,全面深化和拓展敘詞表資源的服務功能和應用機制。

      圖1 集成化體系框架

      3.1 標準規(guī)范體系

      1)數(shù)據(jù)加工規(guī)范

      在整個集成操作過程中,從數(shù)據(jù)資源的采集、存儲、篩選、描述到語義集成,都需要制定相應的操作規(guī)范和規(guī)則,以保證集成資源從形式到內(nèi)容的加工質(zhì)量。數(shù)據(jù)加工規(guī)范需要調(diào)研多來源術語資源的結(jié)構(gòu)特征,明確詞匯資源采集的原則、數(shù)據(jù)表達規(guī)范、數(shù)據(jù)存儲格式,制定映射規(guī)則、關系校驗規(guī)則等,為整個集成操作的數(shù)據(jù)加工提供相應的標準與規(guī)范。

      2)元數(shù)據(jù)統(tǒng)一描述

      不同來源的術語資源,在總體結(jié)構(gòu)、概念范圍、語義表示、存儲格式等方面均有差異,元數(shù)據(jù)描述各有區(qū)別。結(jié)構(gòu)和描述的差異性為敘詞表的集成服務帶來障礙,因此,有必要設計統(tǒng)一的元數(shù)據(jù)框架,用統(tǒng)一的標記語言進行形式化描述。依據(jù)元數(shù)據(jù)設計標準,充分考慮元數(shù)據(jù)的準確性、全面性和擴展性,借鑒重用比較成熟和大眾認可的概念構(gòu)詞描述形式,提煉出具體可行的元數(shù)據(jù)方案,以便保證多來源概念的統(tǒng)一管理。這些元數(shù)據(jù)標準和描述規(guī)范,一方面可以為不同知識組織系統(tǒng)之間集成融合提供支撐,另一方面可以為后續(xù)的服務應用奠定基礎,實現(xiàn)集成資源的網(wǎng)絡共建共享。

      構(gòu)建敘詞表統(tǒng)一規(guī)范的元數(shù)據(jù)框架,既需要客觀、真實地描述詞匯的來源信息和描述信息,又要充分地揭示詞匯與概念、概念與概念間的關系。元數(shù)據(jù)描述是分層的,主要分為來源描述元數(shù)據(jù)、宏觀結(jié)構(gòu)元數(shù)據(jù)、詞匯概念元數(shù)據(jù)、語義關系元數(shù)據(jù)以及映射關系元數(shù)據(jù),具體的層次框架如表1 所示。敘詞表以概念為核心,概念通過詞匯表達,對每一個來源表、詞匯及概念分配唯一的ID,便于查找和識別。來源描述元數(shù)據(jù)對來源概念、來源表(即原始詞表)進行基本描述,提供來源表各項信息。宏觀結(jié)構(gòu)元數(shù)據(jù)包括主表與附表、主表與學科分類表間的關聯(lián)關系描述。詞匯概念元數(shù)據(jù)及語義關系元數(shù)據(jù)是描述的核心,詞形層面描述詞匯的名稱、拼音、英文或拉丁文、縮略語等非語義信息,詞義層面描述概念的定義、分類、概念間的關系;當前概念之間的關系主要包含等同關系、等級關系和相關關系,需按學科特征和語義類型進行拓展。集成化過程需要建立原始詞表與集成概念間映射關系、集成概念與附表術語間映射關系;除等同、上下位、相關映射類型外,可根據(jù)具體語義關系進行映射類型的細分。按照元數(shù)據(jù)框架選擇合適的形式化描述語言進行集成數(shù)據(jù)的描述與存儲。當下語義Web 技術的發(fā)展為詞表形式化描述提供了堅實基礎,單純使用一種描述機制容易丟失部分語義信息,可以采用SKOS (Simple Knowledge Organiza‐tion System)語義描述框架[16]、RDF Schema 描述機制[17]、DC(Dublin Core)元數(shù)據(jù)等多種描述方式,互相擴展補充進行敘詞表宏觀結(jié)構(gòu)和微觀詞匯概念的形式化表示[18]。

      表1 元數(shù)據(jù)層次框架

      3)敘詞表編制、互操作標準

      敘詞表資源的集成需要遵循敘詞表編制標準,依據(jù)敘詞表質(zhì)量標準規(guī)范體系和詞表間互操作標準確定集成化詞表的概念體系結(jié)構(gòu),滿足敘詞表現(xiàn)行的一系列國際標準《信息與文獻——敘詞表及與其他詞表的互操作》(Information and documentation—Thesauri and interoperability with other vocabularies;ISO 25964)和國家標準《信息與文獻敘詞表及與其他詞表的互操作》(GB/T 13190),以及語義關系細化的本體化知識描述機制。具體到學科領域,術語表達方式存在差異,需要在遵循統(tǒng)一標準的前提下,按照學科特點制定具體的編制規(guī)則,并在集成過程中不斷調(diào)整完善。

      3.2 詞表集成化支撐體系

      敘詞表集成需要滿足不同術語來源下各學科領域?qū)I(yè)人員的協(xié)同操作問題,有必要設計一套先進的、適用于敘詞表融合集成的操作平臺,為集成過程的自動化、集成化詞表的動態(tài)編制和維護提供強有力的支撐。該平臺依托互聯(lián)網(wǎng)技術,支持多用戶、分布式、可視化地協(xié)同完成集成化操作[19],包括開放式多來源數(shù)據(jù)的導入,集成化詞表的構(gòu)建、審核、質(zhì)量控制與管理、發(fā)布等一系列工作流程所需的各種功能模塊,平臺建設需要突出以下三方面的要求。

      (1)協(xié)同操作機制。敘詞表集成化涉及各學科主題領域和專業(yè)人員,集成詞匯量眾多、語義關系復雜,需要通過分布并發(fā)式機制,實現(xiàn)集成化詞表的協(xié)同編制。平臺應充分考慮橫向多人同時分工協(xié)作與縱向不同過程協(xié)作的使用特點,以滿足多人、多地、隨時處理的需求,促進集成過程的實時溝通和協(xié)調(diào)。橫向協(xié)同應按不同的學科領域,以整表、詞族、概念等不同粒度建立權限分配操作管理機制,實現(xiàn)數(shù)據(jù)協(xié)同共享與沖突規(guī)避機制,保證集成融合過程的有序性;縱向協(xié)同需對詞表集成化全過程進行科學合理設計,包括任務指派、下發(fā)、編輯、提交、審核、監(jiān)督、發(fā)布、更新,以及該過程中的數(shù)據(jù)自動核驗、人工干預等,實現(xiàn)集成融合的規(guī)范性。

      (2)智能化輔助技術。融合集成工作平臺為集成化過程提供智能化輔助,最大限度地減輕集成過程中的人工工作量,加快集成化詞表的構(gòu)建速度。積極探索概念的自動映射和自動歸并,語義關系的自動合并和語義關系沖突的自動糾錯,采用詞匯相關分析、文獻數(shù)據(jù)分析、語義關系挖掘、學科新詞發(fā)現(xiàn)、新術語評估等自動化處理技術,為集成工作人員提供語義關系推薦、學科分類推薦、新術語推薦等智能服務,提高集成化詞表的編制效率。伴隨著來源詞表的持續(xù)更新,集成化詞表需保持同步更新,借助自動化技術及時識別來源詞表的變更術語、及時整合科學文獻的新術語,實現(xiàn)詞表擴充和更新的動態(tài)發(fā)展[20],使詞表維護速度跟上學科的發(fā)展變化。

      (3)可視化技術。結(jié)合中文集成化詞表的特點和用戶使用習慣,將多種可視化技術應用于詞表表示和知識組織的可視化、信息處理與操作的可視化、檢索過程和結(jié)果的可視化三個方面。采用點、線、平面圖、三維圖、數(shù)據(jù)表等方式從不同維度、不同層級全面、直觀、動態(tài)地展示詞匯概念及各種概念間的關系;集成化詞表支持多種語義關系的定義,設計一個敘詞表可視化過程,盡可能準確合理地展示出概念間豐富的語義關系,詞間關系一目了然,幫助用戶進一步明確概念的內(nèi)涵,啟發(fā)用戶發(fā)現(xiàn)一些新的潛在信息并進行快速檢索和調(diào)整。同時,利用可視化技術優(yōu)化平臺人機交互邏輯,簡化平臺操作復雜度,設計改進工作流,強化用戶體驗和反饋,輔助用戶分析、決策和管理,使集成化過程更加順暢。

      3.3 詞表集成化概念體系

      敘詞表集成化建設旨在繼承現(xiàn)有規(guī)范術語資源的經(jīng)驗和成果,融合新的概念和關系,實現(xiàn)不同類型的知識組織體系之間的關聯(lián)整合,構(gòu)建詞表集成化概念體系,生成集成化詞表。集成化詞表并非傳統(tǒng)意義上的敘詞表,以概念和概念語義網(wǎng)絡描述為核心,借助新的語義描述機制對語義關系的含義和類型進行拓展細分,采用特定的結(jié)構(gòu)將各學科領域的敘詞表和相關術語資源組織匯編在一起,以獲得更好的應用性能。借鑒本體的描述機制,集成化詞表的體系結(jié)構(gòu)如圖2 所示,主題概念繼承頂層概念的語義類型,將不同來源的多個詞匯、術語進行合并融合,每個概念歸入一個學科分類下;同時,保留來源詞表的詞義、概念和關系,建立多個來源表的概念與主題概念之間的映射關系,保障概念可以還原到原始的術語表中,將多來源知識組織體系有序地組織在一起;獨立的概念體系支持隨時添加新的概念和語義關系,從而對概念體系進行擴充。

      圖2 集成化詞表的體系結(jié)構(gòu)

      頂層概念體系為所有集成的主題概念提供語義架構(gòu)和分面框架,定義類體系、類屬性和類關系,具體步驟:①構(gòu)建概念類,并從敘詞表的術語等級出發(fā)構(gòu)建層級類;②確定概念屬性和屬性值類型,明確概念下語義類型。頂層概念體系不可能覆蓋所有的語義范圍,具體構(gòu)建過程需要面向通用領域和專業(yè)領域,確定體系規(guī)模,優(yōu)先采用語義明確、應用較廣的語義關系類型。從實用角度出發(fā),認真梳理、充分借用已有的專業(yè)領域知識組織體系的結(jié)構(gòu)與關系,同時,結(jié)合當下學科發(fā)展和應用需求,最終確定概念范圍的深度與廣度,進行合理的細化和描述。學科分類是涵蓋全學科的統(tǒng)一分類體系,確定術語資源的主要學科歸屬,亦方便為各來源概念提供統(tǒng)一的導航服務,輔助實現(xiàn)多來源概念的語義集成。對于學科分類體系的建設,參考《中國圖書館分類法》《中華人民共和國國家標準學科分類與代碼》(GB/T 13745-2009)及各專業(yè)分類體系,充分考慮學科交叉特征、類目層級深度,面向多個學科統(tǒng)一構(gòu)建。

      主表包括各學科領域的主題概念、術語、屬性和關系,主題概念包含同義詞、縮略語、注釋、分類號、英文、拉丁文、來源信息、詞頻信息等描述屬性,概念語義關系以“屬”“分”“參”進行細分。隨著敘詞表的不斷使用及網(wǎng)絡技術的發(fā)展,各領域敘詞表的結(jié)構(gòu)與功能也在不斷發(fā)展和完善,對語義關系的描述更加靈活多樣[21]。眾多學科領域?qū)Φ燃夑P系及相關關系的語義類型和語義關系進行明確定義和細化,如等級關系又可細化分為屬種關系、整體-部分關系、類-實例關系等;相關關系表示兩個概念之間存在關聯(lián),又可細分為物理上相關、空間上相關、功能上相關、位置上相關和概念上相關等;特殊領域需要結(jié)合學科領域特點從多方位對語義關系拓展細分,提供更加明確的、更符合用戶使用習慣的語義關系,如對于疾病的描述,可從病因、診斷、治療等角度具體化語義關系。附表可以豐富集成化詞表的術語資源,將一些名錄資源獨立于主表而存在,在不影響主表概念結(jié)構(gòu)的情況下集成更多的術語資源,建立這些術語概念與主題概念間的映射關系。

      4 敘詞表集成化過程和方法

      眾多詞匯資源先經(jīng)過采集加工建立詞匯集成庫,再進行概念層面的語義組織與集成,具體的語義集成化過程和方法如圖3 所示。針對各來源概念進行概念映射,映射主要是在不同概念體系中找到最相關的概念和參考信息。在映射的基礎上進行概念的融合集成,即集成化詞表的概念建設及概念語義關系重塑,在這個過程中需要將新詞匯、新語義關系的發(fā)現(xiàn)融合到概念體系中。融合集成過程可能會導致語義關系的邏輯問題,因此,需要進行關系一致性檢驗。整個集成過程離不開語義分析工具和人工專家的輔助,最終生成統(tǒng)一結(jié)構(gòu)的集成化詞表。

      圖3 語義集成化過程和方法

      4.1 多來源術語集成

      在集成內(nèi)容上,為了有效擴展敘詞表的應用領域和應用范圍,集成的詞匯來源主要包括國家編制的綜合性詞表和各學科領域的敘詞表、分類表等規(guī)范化知識組織體系的一系列主題概念、概念關系和屬性描述,包括各類術語資源等更廣泛的詞匯概念,如詞典、名詞名錄、網(wǎng)絡百科、各類數(shù)據(jù)庫術語資源等大量專有名稱術語和專業(yè)科技術語。同時,集成系統(tǒng)的構(gòu)建需要注重學科性和時效性,將學科的新進展和新術語及時集成到應用系統(tǒng)中。新術語的來源主要依賴兩類:一類是針對海量文獻信息資源進行數(shù)據(jù)挖掘,提取高頻概念術語;另一類則充分考慮當下用戶的需求,及時獲取用戶檢索高頻關鍵詞、用戶推薦詞等。

      這些資源數(shù)量龐大,依據(jù)數(shù)據(jù)加工規(guī)范對數(shù)據(jù)進行清洗過濾,按照統(tǒng)一的元數(shù)據(jù)框架對術語資源規(guī)范化描述,綜合評估詞匯的詞性規(guī)范性、語義明確性、學科專業(yè)性及使用情況,篩選建立詞匯集成庫。詞匯集成庫為集成化詞表的構(gòu)建提供數(shù)據(jù)來源和數(shù)據(jù)屬性參考,全面、高效地收集相關術語和術語信息(來源信息、詞頻信息、分類信息、使用信息等),保障來源詞匯的全面性和準確性。同時,詞匯集成庫包含眾多集成化詞表所沒有的術語資源作為集成化詞表的拓展和延伸,有效關聯(lián)更多的概念和詞匯,可以有效地幫助提高集成化此表資源與用戶語言的匹配效率[22]。

      4.2 概念映射

      不同來源的術語概念在集成時,首先需要進行概念間的映射并建立映射文件,為后續(xù)的概念融合集成提供參考。映射主要是建立多來源概念間的對應關系,找到等同映射、等級映射、相關映射關系??梢詮脑~匯層、結(jié)構(gòu)層和語料層三個方面實現(xiàn)概念映射[23],按照這三個層次對應的映射方法歸納為基于詞形的映射方法、基于結(jié)構(gòu)的映射方法和基于語料的映射方法[24]。

      (1)基于詞形的映射方法。主要是基于詞匯的詞形進行匹配。對于單個詞匯,詞形相同即代表完全相似,否則判定為不相似;為了提高相似度,可以充分考慮漢語詞匯的構(gòu)詞特征,借鑒基于詞素的相似度計算方法,針對多字的詞匯進行詞素的切分,通過考慮詞素匹配個數(shù)與在詞匯中的位置進行映射關系發(fā)現(xiàn)?;谠~形相似度獲得的映射關系,可能只是詞形相似,并非概念上的等同,需要進一步分析判斷。

      (2)基于結(jié)構(gòu)的映射方法。充分考慮敘詞表本身規(guī)范的結(jié)構(gòu)形式,將詞表用代、屬、分、參各項結(jié)構(gòu)內(nèi)容作為主題詞映射的背景和語境,可以提高匹配效率。比較成熟的方法是構(gòu)建詞匯語義向量空間,充分考慮結(jié)構(gòu)語義信息,進行類目概念相似度的計算,最終依據(jù)匹配相似度大小和匹配類型拓展語義映射關系。

      (3)基于語料的映射方法。主要是依靠外部資源挖掘類目之間的關系。根據(jù)語料資源的不同采用不同的映射方法,可以采用同義詞典(如WordNet、HowNet、同義詞林等語義詞典)有效改進基于詞性的相似度計算方法,但是通用同義詞典包含專業(yè)領域同義詞的規(guī)模往往較小,可以根據(jù)應用需求構(gòu)建具體的同義詞庫。可以充分利用標引文獻資源,基于大規(guī)模語料庫統(tǒng)計方法進行映射,利用共現(xiàn)頻次關系,為概念間關系提供有益線索。

      不同的概念映射方法具有各自的特點和應用場景,有的相互之間存在互補關系,在具體的集成映射實踐中,并不只是單一使用一種映射方法,需要有機地組合使用。映射作為語義集成的關鍵環(huán)節(jié)和重要方法,需要保障映射質(zhì)量,減少融合邏輯問題。映射之初,必須建立明確適用的映射規(guī)則,對映射的通用規(guī)則、等同映射規(guī)則、等級映射規(guī)則、相關映射規(guī)則、組配映射規(guī)則規(guī)范化[25],討論映射的語義類型及映射的順序問題,優(yōu)先建立哪些映射類型,建立映射關系后是否還拓展其他的映射類型,映射過程是否可以繼承和傳遞等,在映射過程中要充分考慮詞匯各項語義信息和語境信息,從不同角度的匹配來提高映射效率,保障映射概念的準確性。

      4.3 概念建設

      在統(tǒng)一的集成規(guī)范體系下,確定集成化詞表的概念范圍,進行概念和術語的篩選。多來源的概念詞匯難免存在交叉和重復的問題,需要對概念進行選擇和合并。對于概念的選擇,結(jié)合學科背景和實際應用需求進行調(diào)整,需要充分考慮概念的專業(yè)應用深度和廣度、概念的專指度,保障概念規(guī)范且含義清晰。在選擇概念的過程中,可以利用概念名稱、使用頻次和領域?qū)<彝扑]法,以及文獻標題、摘要或關鍵詞部位和用戶檢索詞的調(diào)查分析,有效地反映當前發(fā)展趨勢和用戶應用需求,專家推薦可以保障概念的專指性和準確性,將各專業(yè)領域經(jīng)常使用的、能夠準確表達科學概念的優(yōu)先詞匯選定,對于一些詞頻低的概念,可根據(jù)具體應用情況進行選擇。在確定優(yōu)選概念的基礎上,利用映射信息進行概念屬性的合并,將表達概念的同義詞、注釋、縮略語、譯稱、學科分類號等屬性信息進行查重、合并。依照概念的學科專業(yè)、內(nèi)涵信息為每個概念分配一個或多個學科分類號,從多角度揭示概念的科學屬性,選擇與概念表達最為接近的類號,確保多個分類號之間不構(gòu)成上下級關系。同時,給每個概念進行形式分類,將一個概念歸入一個語義類型,并繼承該語義類型的屬性,為后續(xù)語義關系的梳理提供規(guī)范和參考。

      當前學科的交叉日益顯著,對于交叉概念的歸屬,應綜合考慮概念在相關概念體系領域的應用深度和廣度,放入某一概念體系下并建立概念間的參照關系。對于有歧義的概念,需要保障“一詞一義”,考慮是否可以改用其他詞匯,可以利用概念的屬性信息明確概念的內(nèi)涵和應用領域,借助頂層概念的標簽對有歧義的概念進行限定,通過添加注釋對詞義不夠清晰的概念進行說明。對于融合過程中的一些復合概念,可以進行概念的分拆和合并,參照方面型關系構(gòu)建主題概念及方面概念間的關系,進而從不同角度拓展語義關系。

      4.4 語義關系重塑

      豐富、明確而規(guī)范的概念間關系是集成化詞表的重要特征,是發(fā)揮其重要作用的基礎和條件保障。通過建立的等級映射、相關映射關系對概念的語義關系進行發(fā)現(xiàn)和細化,實現(xiàn)語義關系的重塑。以優(yōu)選概念為核心建立邏輯合理、脈絡清晰的語義關系,一方面,是對現(xiàn)有規(guī)范詞表概念關系的繼承和合并,現(xiàn)有的眾多詞表資源包含豐富且可靠的概念關系,需要依據(jù)專業(yè)領域?qū)W科進展,圍繞優(yōu)選概念的等級映射、相關映射關系剔除不合理和過時的語義關系,梳理可靠的上下位等級關系和細化不同方面的相關關系;另一方面,利用大規(guī)模語義計算技術將新的語義關系集成進來,考慮利用文獻詞匯共現(xiàn)關系發(fā)現(xiàn)、用戶檢索信息共現(xiàn)發(fā)現(xiàn)、專家和用戶推薦方式、詞匯上下文語境分析方法,并結(jié)合字面相似度計算、關聯(lián)規(guī)則算法發(fā)現(xiàn)新的語義關系及跨學科的術語間關系,將這些關系進行明確的形式化的表示。

      在概念融合過程中,隨著概念的合并和關聯(lián),概念體系的復雜度增加,不恰當?shù)母拍顨w并容易導致概念語義模糊、產(chǎn)生歧義、語義關系沖突等各種邏輯問題。融合過程需要通過對概念關系邏輯的整理,提煉關系邏輯推導規(guī)則和判定規(guī)則,消除因融合導致的概念關系沖突。概念融合中常出現(xiàn)的邏輯問題有三種:關系沖突、關系循環(huán)和關系冗余[2,26]。關系沖突是指兩個概念之間同時存在等級關系和相關關系;關系循環(huán)是指出現(xiàn)互為等級關系的概念相互串接后形成收尾相接的環(huán);關系冗余是指兩個概念之間的等級關系可以通過其他關系推導得出,不需要直接構(gòu)建。關系校驗過程中,也存在部分概念之間的關系沒有邏輯錯誤,但由于來源表對概念劃分的分面角度、顆粒度的差異導致語義關系交叉,需要對這些邏輯問題進行一致性處理。這些邏輯問題涉及多個專業(yè)領域,需要借助計算機檢查發(fā)現(xiàn)問題,支持語義關系的可視化瀏覽,組織領域?qū)<乙灰淮_認,人工糾正和處理。處理過程必須充分考慮概念集的使用目的、概念顆粒度的粗細,依據(jù)一定的處理規(guī)則和流程取舍優(yōu)化具體的概念間關系,先進行邏輯錯誤的糾正,再考慮關系的優(yōu)化,先進行一個詞族內(nèi)檢查和解決,再拓展到多個詞族間進行處理,防止對某些語義關系的增刪改產(chǎn)生新的邏輯問題,進而保證整個集成過程有條不紊。

      5 敘詞表集成化應用的推進策略

      傳統(tǒng)的敘詞表資源在文獻資源的組織和檢索中發(fā)揮了重要作用,但其資源分散、語義體系相對簡單、應用場景單一,嚴重制約敘詞表資源在大數(shù)據(jù)環(huán)境下的應用。敘詞表集成化體系需要適應應用環(huán)境的變化,充分發(fā)揮集成資源在信息智能化處理中的作用,拓展新的應用模式。應用模式主要分為前臺服務模式和后臺應用模式:前臺服務模式主要是通過敘詞表集成服務平臺和微服務架構(gòu)平臺為用戶提供良好的使用體驗和服務方式;后臺應用模式則需要整合整體概念資源,優(yōu)化集成資源的組織、呈現(xiàn)和利用方式,提高集成化詞表的知識服務效率,兩者相輔相成,共同推進敘詞表的集成化應用。

      5.1 以動態(tài)更新維護機制提升敘詞表集成化的可持續(xù)發(fā)展

      很多詞表資源存在著數(shù)據(jù)應用更新不及時或者沒有更新的問題,實現(xiàn)集成化詞表的可持續(xù)發(fā)展,最重要的是保證集成數(shù)據(jù)的動態(tài)維護,在應用中促進不斷更新。集成系統(tǒng)是一個動態(tài)變化的體系,舊的術語不斷發(fā)展,新的術語不斷出現(xiàn),需要建立專門的網(wǎng)站和維護人員進行在線管理,從數(shù)據(jù)來源、數(shù)據(jù)更新和數(shù)據(jù)應用三方面構(gòu)建定期動態(tài)維護機制。將文獻語料資源新出現(xiàn)的重要術語概念及語義關系及時增補到集成化詞表中,滿足概念和語義關系及時、全面、準確三方面要求;重視用戶參與在線更新維護,提供實時在線反饋機制,適當吸納用戶的意見和反饋;并結(jié)合應用效果對詞表進行調(diào)整和優(yōu)化,在應用中采集更新需求,并基于應用檢驗更新內(nèi)容。集成化詞表的構(gòu)建和完善是一個長期反復的過程,需要吸引各界社會力量參與進來,強調(diào)利用詞表的同時反哺詞表的更新,編用相互支撐形成良性循環(huán),以保障集成化詞表的可持續(xù)發(fā)展。

      5.2 以互操作接口形成敘詞表集成化的開放服務優(yōu)勢

      在開放環(huán)境下,集成系統(tǒng)資源如何得到高效利用,必須構(gòu)建完備的互操作共享機制。集成系統(tǒng)通過術語服務與關聯(lián)數(shù)據(jù)服務將詞表資源進行整合和聯(lián)系,制定一定的共享約束條件,構(gòu)建集成資源互操作共享機制。利用術語服務,進行詞表術語資源的規(guī)范和控制,實現(xiàn)機器可讀、可理解以及更方便的數(shù)據(jù)交換與共享,支持對詞表整體資源、術語及語義關系層面的元數(shù)據(jù)瀏覽、檢索、應用的各種Web 服務,促進分布異構(gòu)資源的檢索與發(fā)現(xiàn),通過API 支持機器對詞表及其內(nèi)容的訪問和調(diào)用等。開發(fā)關聯(lián)數(shù)據(jù)服務,利用關聯(lián)數(shù)據(jù)一系列技術將集成數(shù)據(jù)進行鏈接結(jié)構(gòu)化表示,構(gòu)建計算機可理解的語義數(shù)據(jù)網(wǎng)絡,通過關聯(lián)數(shù)據(jù)服務與網(wǎng)絡中其他語義資源進行有效鏈接,在此之上構(gòu)建更加智能化的應用。集成化詞表資源的術語服務不再是孤立地存在于特定的檢索系統(tǒng)中,而是作為一種關聯(lián)數(shù)據(jù)類型融入開放關聯(lián)的結(jié)構(gòu)化語義網(wǎng)絡中,通過資源共享機制有效降低整合分布式異構(gòu)數(shù)據(jù)源的復雜性,提高資源的利用率,通過關聯(lián)推動集成化詞表資源與其他資源形成共享服務優(yōu)勢,有效推進相關知識的發(fā)現(xiàn),實現(xiàn)數(shù)據(jù)融合和語義服務。

      5.3 以合作開發(fā)機制拓展敘詞表集成化的應用場景

      集成化詞表涉及的領域非常廣泛,可應用的領域也非常廣,突破圖書情報領域應用范圍,拓展應用到電子政務環(huán)境、電子商務環(huán)境、大型企業(yè)知識管理、醫(yī)學、教育等專門的行業(yè)或領域之中,建立集成化詞表與相應的應用業(yè)務相結(jié)合的應用模式,考慮嵌入特定的應用系統(tǒng)平臺中對特定應用場景提供詞匯支持,支持具體業(yè)務的知識組織與利用。集成化詞表資源統(tǒng)一的形式化描述可提供信息自動化處理的基礎數(shù)據(jù),可以考慮與具體的行業(yè)機構(gòu)進行合作開發(fā)和利用,在集成化詞表現(xiàn)有資源的基礎上,深度開發(fā)面向具體應用環(huán)境的專用詞表以滿足特殊需求,共享開發(fā)成果。集成化詞表可以選擇合適的平臺、網(wǎng)站、系統(tǒng)等運營平臺,推進引進平臺、網(wǎng)站、系統(tǒng)中對集成化詞表的嵌入式利用模塊,進而普及拓展集成化詞表在更大范圍的應用,充分發(fā)揮集成化詞表的社會價值和經(jīng)濟價值。

      5.4 以敘詞表服務平臺深化敘詞表集成化的社會影響力

      集成化詞表需要基于專門的網(wǎng)站或平臺,作為其對外服務的直接門戶,提供術語層、概念層、語義層和工具層不同層次的知識服務。用戶通過平臺可以進行查詢、瀏覽、檢索、下載及編輯操作,免費檢索詞表中的概念,查詢術語信息,獲取同義詞、上下位詞、相關詞等語義相關的概念,了解各來源詞表的基本信息和歷史版本,根據(jù)自身需求對各詞表進行選擇和瀏覽。同時,平臺結(jié)合當下熱門技術,提供個性化服務,如為用戶提供術語概念的可視化展示、主題圖服務及敘詞表向本體轉(zhuǎn)化提供基礎服務等,方便用戶理解和使用。平臺也可適當?shù)膶⒓苫~表部分內(nèi)容免費授權給提供公共服務的社會機構(gòu),通過在線服務和免費的詞表應用,不斷提升集成化詞表的社會認知度,使集成化詞表在更廣泛的范圍內(nèi)被大眾所認知。

      5.5 以微服務架構(gòu)延伸敘詞表集成化的服務功能

      微服務是將傳統(tǒng)的單體服務拆分為多個不同的、實現(xiàn)某個具體功能的單一服務,然后,通過遠程服務調(diào)用實現(xiàn)各個服務的使用,多個服務共同組成一個完整的系統(tǒng),該服務架構(gòu)最大的特點是構(gòu)建高度模塊化、可擴展、可定制的個性化應用平臺。圍繞集成化詞表資源開發(fā)詞表一體化微服務應用平臺,在詞表業(yè)務基礎上開展最小單元應用服務,不斷延伸集成系統(tǒng)的服務功能。利用微服務平臺主要提供機器可讀的詞表整體資源服務以及機器可調(diào)用的語義開發(fā)工具服務。詞表集成系統(tǒng)開發(fā)術語映射輔助、自動標引、知識挖掘、學科發(fā)展分析預測等語義應用工具,通過API 應用開放接口,將集成系統(tǒng)的術語服務、文本分析、主題分析、自動標引、學科分類等各項業(yè)務通過網(wǎng)絡對外發(fā)布開放,更好地推動大數(shù)據(jù)環(huán)境下敘詞表資源在中文自然語言處理、人工智能技術的應用。同時,微服務應用平臺允許其他信息系統(tǒng)、門戶網(wǎng)站接入,通過鏈接和調(diào)用到各應用系統(tǒng)本地,擴展其資源服務能力,最大限度地提高資源使用的便捷性,這樣將大大提高集成化詞表利用效率。

      5.6 以版權管理機制推動敘詞表集成化的共建共享

      敘詞表集成化涉及多渠道詞表資源的采集與整合以及集成之后詞表資源的開放共享,需要明確開發(fā)和應用各主體間的權利和義務,建立數(shù)字版權管理機制和相應授權機制,實現(xiàn)參與主體數(shù)據(jù)價值釋放和融合發(fā)展,進而推動集成化詞表資源更大限度地共建共享。探索建立基于詞表集成共享聯(lián)盟的版權合作機制,增加數(shù)據(jù)許可使用條款,即集成化詞表資源的編制者、發(fā)布者、使用者之間就數(shù)據(jù)使用中的義務、許可使用范圍、具體使用方式、非授權使用限制等方面達成開放共享協(xié)議,明確責任分配,在應用過程中保障各方的利益。同時,逐步細化建立可兼容多類型和多層次的靈活授權機制,面向不同的應用需求提供以學科、整表、詞族、概念、功能等不同粒度的權限分配和分級服務模式,在知識產(chǎn)權框架下推進集成化詞表開放應用。對于編研機構(gòu)及其他公益性社會應用,需按照開放許可協(xié)議,在標注來源的前提下發(fā)布、利用;對于公司或企業(yè)以及其他的產(chǎn)業(yè)化應用,根據(jù)服務層次和應用效果可以適當收取費用,推動集成化詞表資源的傳播和發(fā)展。

      總體來說,敘詞表集成系統(tǒng)有很大的應用空間,但是當前圍繞集成化詞表資源的應用工具和產(chǎn)品還不夠成熟,社會應用場景還有待開發(fā),有必要提升集成資源的可獲得性和可用性、開發(fā)嵌入式語義工具、探索集成化詞表的社會應用渠道和版權管理機制,有效改善集成化詞表的獲取環(huán)境,支持更大范圍地利用敘詞表資源進行知識描述和知識發(fā)現(xiàn)。

      6 結(jié) 語

      本文針對敘詞表資源缺乏修訂、更新緩慢、自動化程度低、落后于學科發(fā)展的現(xiàn)狀,提出構(gòu)建面向不同領域、多元學科交叉融合的敘詞表集成化體系。整個集成化體系通過標準規(guī)范體系、詞表集成化支撐體系、詞表集成化概念體系建設,利用多來源概念映射、融合方法形成集成化詞表。在保留既有語義的同時,拓展和豐富詞表內(nèi)涵和關系,為大規(guī)模、開放式、合作式敘詞表創(chuàng)新應用服務提供有力推進支撐,實現(xiàn)敘詞表資源的高效、有序、可持續(xù)發(fā)展。敘詞表的集成建設借助計算機技術概念量不斷擴大,語義關系更加復雜和細化,詞表的應用逐漸從以人工為主轉(zhuǎn)換到以機器為主,從文獻檢索領域擴展到自然語言處理和知識計算服務等領域。在未來,提高集成過程自動化及智能化水平,強化敘詞表在大數(shù)據(jù)環(huán)境下的創(chuàng)新應用和服務,構(gòu)建敘詞表的應用生態(tài)機制,仍然需要進一步研究和探索。

      猜你喜歡
      詞表集成化術語
      A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會項目名稱漢英對照詞表
      英語世界(2021年13期)2021-01-12 05:47:51
      博格華納向集成化轉(zhuǎn)型
      汽車觀察(2018年9期)2018-10-23 05:46:36
      基于電子商務的計算機軟件系統(tǒng)集成化維護思路探索
      電子制作(2017年22期)2017-02-02 07:10:43
      敘詞表與其他詞表的互操作標準
      集成化供應鏈項目轉(zhuǎn)變藥學管理模式
      大型國際活動報道的集成化呈現(xiàn)
      中國記者(2014年3期)2014-05-14 06:53:14
      國外敘詞表的應用與發(fā)展趨勢探討*
      圖書館建設(2012年3期)2012-10-23 05:16:30
      有感于幾個術語的定名與應用
      從術語學基本模型的演變看術語學的發(fā)展趨勢
      常用聯(lián)綿詞表
      對聯(lián)(2011年20期)2011-09-19 06:24:36
      北川| 通山县| 平度市| 定州市| 洛扎县| 顺平县| 崇明县| 长葛市| 江川县| 新河县| 会同县| 靖边县| 若尔盖县| 伊吾县| 奉新县| 永清县| 澎湖县| 灯塔市| 长武县| 浦江县| 陕西省| 嘉荫县| 日土县| 青浦区| 澜沧| 延寿县| 永城市| 米林县| 固阳县| 鱼台县| 巴楚县| 祁门县| 汤阴县| 海南省| 岗巴县| 莎车县| 嘉义县| 扬中市| 睢宁县| 东港市| 赤峰市|