• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      面向外文科技文獻的科技知識組織體系建設(shè)與應(yīng)用*

      2020-08-03 09:33:48孫坦鮮國建黃永文劉崢
      數(shù)字圖書館論壇 2020年7期
      關(guān)鍵詞:詞表術(shù)語本體

      孫坦 鮮國建 黃永文 劉崢

      (1. 中國農(nóng)業(yè)科學院農(nóng)業(yè)信息研究所,北京 100181;2. 農(nóng)業(yè)農(nóng)村部農(nóng)業(yè)大數(shù)據(jù)重點實驗室,北京 100081;3. 中國科學院文獻情報中心,北京 100190)

      在當今互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計算等技術(shù)不斷發(fā)展的環(huán)境下,各類應(yīng)用層出不窮,因此產(chǎn)生了海量的數(shù)據(jù)資源。面對海量信息,如何從傳統(tǒng)圖書館基于文獻的知識組織方法向適應(yīng)計算機海量信息處理的基于概念單元或知識單元方向發(fā)展,如何從資源鏈接的整合向提供深入知識內(nèi)容的整合,成為信息服務(wù)商或信息服務(wù)機構(gòu)需要解決的關(guān)鍵問題。近年來,西方發(fā)達國家、組織、企業(yè)(如歐盟、美國國立醫(yī)學圖書館、聯(lián)合國糧食及農(nóng)業(yè)組織等)紛紛開展知識組織開放應(yīng)用的研發(fā)項目,來推動信息基礎(chǔ)平臺建設(shè)的創(chuàng)新性實踐和技術(shù)改善。如美國國立醫(yī)學圖書館建設(shè)了統(tǒng)一醫(yī)學語言系統(tǒng)(Unified Medical Language System,UMLS)[1];谷歌收購了語義搜索公司Metaweb,利用其主打產(chǎn)品Freebase——大規(guī)模的開放結(jié)構(gòu)化信息數(shù)據(jù)庫,推出基于知識圖譜的語義知識發(fā)現(xiàn)服務(wù)[2]。

      面向建設(shè)創(chuàng)新型國家對外文科技文獻的戰(zhàn)略需求,亟需突破一系列外文科技文獻信息組織與利用“卡脖子”技術(shù),建設(shè)我國具有自主知識產(chǎn)權(quán)的大規(guī)模、高質(zhì)量科技知識組織體系,開展支撐科技知識組織系統(tǒng)構(gòu)建及其深度應(yīng)用的方法、技術(shù)、系統(tǒng)工具和應(yīng)用示范研究,為整體推進國家外文科技文獻自主安全戰(zhàn)略保障和科技信息公共服務(wù)事業(yè)向知識化、智能化轉(zhuǎn)型提供基礎(chǔ)。因此在“十二五”期間,NSTL牽頭組織實施了國家科技支撐計劃“面向外文科技文獻信息的知識組織體系建設(shè)和示范應(yīng)用”項目(以下簡稱“項目”),來構(gòu)建我國面向外文科技文獻的知識組織體系,以支持語義層面上的信息揭示、組織和發(fā)現(xiàn),提供科技知識組織體系和共性關(guān)鍵技術(shù)支撐。

      1 建設(shè)目標及實現(xiàn)思路

      構(gòu)建“面向外文科技文獻的知識組織體系”,開展應(yīng)用示范的總目標是在“十二五”期間基本建成適應(yīng)計算機應(yīng)用的,以面向外文科技文獻信息組織為主要目標的科技知識組織體系,為我國海量外文科技文獻信息的組織和利用提供支撐,實現(xiàn)國家科技文獻信息戰(zhàn)略資源的有效組織、深度揭示和知識關(guān)聯(lián),提供知識檢索服務(wù),有力促進我國科技文獻信息機構(gòu)知識服務(wù)能力的整體提升。項目采用國際先進的知識組織技術(shù)和方法,借鑒國內(nèi)外知識組織系統(tǒng)建設(shè)成果與應(yīng)用經(jīng)驗,構(gòu)建面向計算機應(yīng)用的科技知識組織體系(Scientific& Technological Knowledge Organization Systems,STKOS),推進基于國家科技文獻信息戰(zhàn)略資源的知識發(fā)現(xiàn)、知識挖掘和知識計算應(yīng)用示范。項目總體實現(xiàn)思路如圖1所示。

      圖1 項目總體實現(xiàn)思路

      項目主要從以下5個方面開展深入研究和探索。

      (1)建設(shè)涵蓋理、工、農(nóng)、醫(yī)4個學科領(lǐng)域面向外文科技文獻的知識組織體系。融合術(shù)語表、敘詞表、用戶檢索詞、作者關(guān)鍵詞等各種知識組織素材,經(jīng)過原型化處理、詞形規(guī)范、語義聚類、術(shù)語優(yōu)選、術(shù)語合并等,建成以科技術(shù)語為基本單元,以概念為核心,以來源詞表的原有關(guān)系為依托,通過概念與來源詞表術(shù)語進行語義關(guān)系的詞網(wǎng)絡(luò),并在此基礎(chǔ)上根據(jù)本體生命周期模型和不同的本體建設(shè)場景構(gòu)建領(lǐng)域本體和科研本體。面向外文科技文獻的超級科技詞表和本體建設(shè)技術(shù)路線如圖2和圖3所示。

      (2)開發(fā)科技知識組織體系協(xié)同工作系統(tǒng),構(gòu)建集素材、超級科技詞表(包括基礎(chǔ)詞庫、規(guī)范概念和范疇體系3個子層面)和本體構(gòu)建與管理為一體的多層次、跨領(lǐng)域的知識組織系統(tǒng)協(xié)同工作系統(tǒng),以及能夠進行形式規(guī)范、語義規(guī)范,并支持術(shù)語、概念和科研對象主動發(fā)現(xiàn)的輔助建設(shè)工具。針對STKOS內(nèi)容建設(shè)的復(fù)雜性,重點解決資源一體化存儲、管理、共享與利用問題,實現(xiàn)多來源多類型的術(shù)語、詞表、本體等統(tǒng)一集成管理,提供貫穿全過程的規(guī)范控制和質(zhì)量檢測手段,建立多重審校機制,建立科技知識組織體系的可持續(xù)發(fā)展機制。保證用戶無障礙地協(xié)同構(gòu)建知識,并對科技知識組織體系進行維護更新、測評和升級。STKOS協(xié)同工作系統(tǒng)技術(shù)框架如圖4所示。

      圖2 面向外文科技文獻的超級科技詞表技術(shù)路線

      圖3 面向外文科技文獻的本體建設(shè)技術(shù)路線

      圖4 STKOS協(xié)同工作系統(tǒng)技術(shù)框架

      (3)建設(shè)跨領(lǐng)域、跨地域的科技知識組織體系共享服務(wù)平臺和研制開放服務(wù)引擎,重點解決術(shù)語探索、查詢推理、大規(guī)模語義存儲、知識組織體系相關(guān)工具集成等問題,實現(xiàn)多個STKOS版本的發(fā)布、管理和應(yīng)用支持,提供STKOS概念與術(shù)語檢索、STKOS概念與術(shù)語瀏覽、特定領(lǐng)域的知識組織片段的定制功能,支持本體發(fā)布、本體可視化檢索、文本標注、本體管理等。為了更清晰直觀地揭示STKOS豐富的語義關(guān)系,設(shè)計與實現(xiàn)多維可視化分析功能,并為用戶提供STKOS系統(tǒng)服務(wù)的統(tǒng)一認證服務(wù)。支持面向全國科技信息服務(wù)機構(gòu)的開放應(yīng)用服務(wù),使科技知識組織體系成為支撐國內(nèi)各類信息機構(gòu)和科研機構(gòu)開展知識服務(wù)的信息基礎(chǔ)設(shè)施。STKOS共享服務(wù)平臺技術(shù)框架如圖5所示。

      圖5 STKOS共享服務(wù)平臺技術(shù)框架

      (4)研發(fā)基于科技知識組織體系的海量文獻信息自動處理和智能檢索技術(shù),對海量科技文獻信息資源中的知識點(如科技術(shù)語、內(nèi)容主題和相關(guān)科研對象等)進行自動標注,通過計算提取知識對象之間的關(guān)系,實現(xiàn)對科技文獻信息資源的結(jié)構(gòu)化深度整序和潛在語義關(guān)系挖掘,建立科技文獻信息的知識關(guān)聯(lián)網(wǎng)絡(luò),實現(xiàn)國家科技文獻戰(zhàn)略資源的有效組織、深度揭示和知識化關(guān)聯(lián)。建立新型的索引機制、建立檢索結(jié)果的交互式立體性揭示機制、建立海量科技文獻知識導航和分面分析機制等,實現(xiàn)語義檢索、知識導航、檢索結(jié)果的知識化關(guān)聯(lián)、檢索結(jié)果的多維化聚類、雙語查詢、個性化知識定制等功能,將科技文獻的檢索過程變成一個基于語義檢索、能夠支持智能檢索推理的知識發(fā)現(xiàn)過程,提升我國科技信息資源整體的知識化組織程度,使國家科技文獻信息資源得到充分揭示和利用?;诤A课墨I信息自動處理及智能檢索技術(shù)框架如圖6所示。

      圖6 基于海量文獻信息自動處理及智能檢索技術(shù)框架

      (5)依托STKOS和NSTL資源體系,發(fā)揮STKOS超級科技詞表、領(lǐng)域本體以及科研本體在知識組織、知識關(guān)聯(lián)、語義推理、知識挖掘等方面優(yōu)勢,開展科技監(jiān)測、領(lǐng)域知識結(jié)構(gòu)及其演化分析、領(lǐng)域?qū)W術(shù)關(guān)系網(wǎng)絡(luò)分析、領(lǐng)域科研信息環(huán)境構(gòu)建和科技信息資源的關(guān)聯(lián)數(shù)據(jù)服務(wù)等深層次知識服務(wù)應(yīng)用研究與建設(shè),并面向不同專業(yè)領(lǐng)域進行應(yīng)用示范?;赟TKOS的知識服務(wù)應(yīng)用技術(shù)框架如圖7所示。

      圖7 基于STKOS的知識服務(wù)應(yīng)用技術(shù)框架

      2 建設(shè)成果及應(yīng)用

      知識組織體系是大數(shù)據(jù)智能環(huán)境下開發(fā)利用科技信息不可或缺的基礎(chǔ)設(shè)施,項目面向國家創(chuàng)新驅(qū)動發(fā)展戰(zhàn)略對外文科技文獻信息的迫切需求,圍繞高效組織和有效利用海量外文科技文獻信息的科學問題與現(xiàn)實挑戰(zhàn),以知識組織體系建設(shè)與應(yīng)用示范為主線開展了系統(tǒng)深入的科學研究、技術(shù)攻關(guān)與應(yīng)用示范,形成了一系列的成果,并進行了應(yīng)用示范和推廣,取得了顯著的成果。研究成果在工業(yè)和信息化部、國家新聞出版廣電總局、華為、中國科學院、北京理工大學、中國民生銀行等機構(gòu)得到轉(zhuǎn)化。面向北京市多家高新技術(shù)企業(yè)、國家級科研院校、信息服務(wù)機構(gòu)及重點醫(yī)院等開展了應(yīng)用推廣,顯著改善了應(yīng)用單位獲取科技信息與知識服務(wù)的相關(guān)平臺的功能。

      2.1 率先建成我國首個具有自主知識產(chǎn)權(quán)的大型外文科技知識組織體系

      目前,國際上著名的詞表有美國醫(yī)學主題詞表(MeSH)[3]、美國農(nóng)業(yè)圖書館敘詞表(NALT)[4]和聯(lián)合國糧食及農(nóng)業(yè)組織多語種農(nóng)業(yè)敘詞表AGROVOC[5]等,大部分詞表都聚焦到一定的專業(yè)領(lǐng)域,收錄的術(shù)語、概念和語義關(guān)系的領(lǐng)域和規(guī)模在幾萬或幾十萬個不等,即使是覆蓋各領(lǐng)域的綜合性詞表,如美國國會圖書館標題表(LCSH)[6],詞表規(guī)模也不足9萬個。而在詞表映射方面,AGROVOC與NALT等十多個詞表初步建立了語義映射,不同詞表間的映射結(jié)果數(shù)據(jù)最多在2萬條。項目構(gòu)建的STKOS詞表,在繼承、整合、映射等基礎(chǔ)上,建立的目前覆蓋領(lǐng)域最廣、規(guī)模領(lǐng)先的大型超級外文科技詞表體系,填補了我國大型外文知識組織體系的空白。

      (1)在超級科技詞表建設(shè)方面,首先建立了術(shù)語遴選加工、概念歸并提煉、關(guān)系梳理的知識組織體系建設(shè)標準規(guī)范,如知識組織體系素材遴選標準、超級詞表元數(shù)據(jù)標準、概念遴選規(guī)范、規(guī)范概念名稱和范疇類名漢譯名生成規(guī)則、敘詞表的本體化流程和規(guī)范、知識內(nèi)容表示標準、數(shù)據(jù)交換模型等;形成了從術(shù)語、概念到超級科技詞表,再到本體的外文科技文獻處理方法;提出術(shù)語細粒度映射的方法,解決了知識體系映射過程中概念大規(guī)模計算的難題。

      遵循上述系列標準規(guī)范,基于國際上975部來源詞表中的1438萬個來源科技術(shù)語,以及千萬級外文科技文獻作者關(guān)鍵詞和用戶檢索關(guān)鍵詞,采用詞形還原、詞義傳導、顆粒度控制相結(jié)合的概念歸并原則,對來源術(shù)語、科技概念和概念的同義表達、優(yōu)選詞、范疇類別、釋義、中文譯名等進行遴選、多重審校和計算機輔助質(zhì)量控制,建成涵蓋理、工、農(nóng)、醫(yī)四大領(lǐng)域,擁有609萬個基礎(chǔ)術(shù)語和61萬個概念的外文超級科技詞表1部,其中包含理學領(lǐng)域科技概念24萬條、工學領(lǐng)域20萬條、醫(yī)學領(lǐng)域27萬條、農(nóng)學領(lǐng)域8萬條(各領(lǐng)域之間有交叉)。建成的超級科技詞表,為大規(guī)模的語義知識計算、大數(shù)據(jù)智能應(yīng)用提供了基礎(chǔ)語義知識庫,具有較為廣泛的應(yīng)用前景。

      (2)在本體知識庫建設(shè)方面,研發(fā)了一套根據(jù)情景設(shè)計和構(gòu)建網(wǎng)絡(luò)化本體的方法和工具,構(gòu)建輕量型本體,實現(xiàn)超級科技詞表及其他知識組織體系的本體化表示。采用從零創(chuàng)建、非本體資源重用、本體資源重用相結(jié)合的3種本體構(gòu)建場景,構(gòu)建了10個工具集,包括本體生命周期規(guī)劃、非本體資源轉(zhuǎn)化、本體搜索與獲取、本體實例擴充、本體評估及推理、本體裁切、本體映射、本體合并、本體豐富、本體可視化,以支持本體的構(gòu)建和應(yīng)用。面向“十二五”國家科技重大專項的需求,分別以植物多樣性、可再生與可替代能源技術(shù)、水稻、呼吸系統(tǒng)腫瘤為研究對象,建成4個面向領(lǐng)域應(yīng)用的本體網(wǎng)絡(luò)和1個科研本體知識庫,包含理、工、農(nóng)、醫(yī)四大領(lǐng)域的科研人員、科研活動、科研機構(gòu)、科研項目、科研成果等65萬個實例。

      (3)在詞表映射研究與實踐方面,研究了漢英詞表概念映射方法,制定了映射規(guī)則,開發(fā)了面向多單位協(xié)同工作的詞表映射加工平臺,將《漢語主題詞表》(工程技術(shù)版)的約20萬個專業(yè)概念與英文超級科技詞表的工程技術(shù)類規(guī)范概念,按照國際通用的標準規(guī)范進行了映射,探索了中英文詞表映射技術(shù)路線和研究方法,并基于映射成果對《漢語主題詞表》進行了完善與擴展。

      2.2 研發(fā)多層次知識組織體系協(xié)同構(gòu)建與管理工作平臺

      知識組織體系協(xié)同構(gòu)建與管理工作平臺是在網(wǎng)絡(luò)環(huán)境下對多領(lǐng)域、多類型知識組織體系協(xié)同構(gòu)建與集成管理的一種新的探索,實現(xiàn)了對素材、超級科技詞表(包括基礎(chǔ)詞庫、概念和范疇體系3個層面)和本體的協(xié)同構(gòu)建與統(tǒng)一管理,功能靈活、完善,可為國內(nèi)外科技信息服務(wù)行業(yè)科技知識組織系統(tǒng)和相關(guān)工具研制提供共性技術(shù)支撐,在世界范圍內(nèi)處于先進水平,具有較好的推廣應(yīng)用前景。

      (1)攻克了海量、多源、異構(gòu)知識組織體系在形式、語義互操作和多領(lǐng)域多機構(gòu)分布式協(xié)同構(gòu)建中的難題,解決了海量多來源知識組織體系統(tǒng)一描述與存儲問題。分別以詞表和術(shù)語為中心設(shè)計統(tǒng)一元數(shù)據(jù)框架、數(shù)據(jù)描述模型和物理存儲格式,研發(fā)可交互式元數(shù)據(jù)適配器組件,實現(xiàn)異構(gòu)詞表術(shù)語、優(yōu)選術(shù)語、層級關(guān)系、相關(guān)關(guān)系和釋義元數(shù)據(jù)的同構(gòu)化表示與存儲,支撐了理、工、農(nóng)、醫(yī)四大領(lǐng)域975部來源詞表、1438萬科技術(shù)語統(tǒng)一描述與存儲。

      (2)研究提出了一套可交互的適用于多部知識組織體系同時進行概念整合的同義語義互操作方法。針對因多源異構(gòu)詞表概念粒度不一致導致傳統(tǒng)同義歸并結(jié)果語義粒度不可控的問題,建立了同義詞歸并與概念優(yōu)先術(shù)語推薦的方法。其中,以詞表角色為基礎(chǔ),綜合相似度計算、同義傳導和處理規(guī)則的知識組織體系術(shù)語同義關(guān)系發(fā)現(xiàn)方法,歸并準確率高達93.1%,歸全率達92.5%;基于詞表等級、術(shù)語類型、術(shù)語表達形式等語言特征,提出整合概念優(yōu)選術(shù)語計算機自動推薦方法,準確率超過99.0%。

      (3)構(gòu)建了包含形式、邏輯和語義3個層面的知識組織體系構(gòu)建質(zhì)量控制體系。其中,形式控制指詞形規(guī)范性、重復(fù)性、一致性、完整性等,邏輯控制指詞表內(nèi)部關(guān)系一致性與不同知識單元層次之間的一致性,語義控制包括概念粒度、語義分類和歧義性控制。在服務(wù)模式方面,提供形式和邏輯一致性異常檢測、評估服務(wù),并通過質(zhì)檢報表、實時對話框、異常數(shù)據(jù)過濾面板等方式與用戶交互,實現(xiàn)超級科技詞表內(nèi)容質(zhì)量控制目標。

      (4)建立了一套適用于多領(lǐng)域、多用戶協(xié)同構(gòu)建知識組織體系的協(xié)同管理技術(shù)體系。在RBAC(Rolebased Access Control)模型基礎(chǔ)上改進實現(xiàn)了規(guī)范概念協(xié)同工作平臺中權(quán)限的靈活配置以及任務(wù)的自動分發(fā)流轉(zhuǎn),建立了一套靈活的權(quán)限和任務(wù)管理機制,使用戶在其權(quán)限及任務(wù)范圍內(nèi)對來源詞表、科技術(shù)語、概念及其關(guān)系和屬性等不同知識單元進行定向編輯和審核操作。建立了資源沖突控制機制,有效避免多人協(xié)同工作時的資源沖突問題,尤其是多人同時對同一數(shù)據(jù)發(fā)出編輯(如合并和拆分某個概念)請求時可能產(chǎn)生的沖突。

      與Term Tree[7]、MultiTes Pro[8]、WebChoir[9]、Poolparty[10]、Protégé[11]等現(xiàn)有主流知識組織體系編制工具定位于單個詞表或本體編制相比,本成果定位于為詞表語義互操作,支撐多來源異構(gòu)詞表在語義內(nèi)容層面的概念整合,進而更好地支撐架構(gòu)在其之上的各類應(yīng)用系統(tǒng)軟件實現(xiàn)內(nèi)容互聯(lián)互通。同時,在技術(shù)方面突破了海量數(shù)據(jù)處理、異構(gòu)術(shù)語互操作、網(wǎng)絡(luò)協(xié)同等新型知識組織體系構(gòu)建模式支持不足方面的限制。

      2.3 率先構(gòu)建基于科技知識組織體系的開放共享服務(wù)平臺

      自主研發(fā)的科技知識組織體系開放共享服務(wù)平臺,面向全國科技信息服務(wù)機構(gòu)提供知識組織體系數(shù)據(jù)服務(wù),支持用戶根據(jù)自身應(yīng)用需要,進行定制、下載和嵌入科技知識組織體系,大力提升了我國科技信息服務(wù)機構(gòu)的知識組織、內(nèi)容揭示、知識發(fā)現(xiàn)和知識服務(wù)等能力,對促進全國范圍內(nèi)的科技知識組織體系建設(shè)、服務(wù)模式與方法創(chuàng)新發(fā)揮了重要作用。

      (1)構(gòu)建了基于STKOS的知識查詢和推理引擎,創(chuàng)新性集成應(yīng)用大規(guī)模詞表語義表示、語義轉(zhuǎn)換、語義存儲、多維可視化呈現(xiàn)等關(guān)鍵技術(shù),將知識組織體系轉(zhuǎn)化開放的動態(tài)數(shù)據(jù)服務(wù),并提供標準化的檢索查詢和語義推理接口,支持第三方系統(tǒng)對STKOS的深度開發(fā)和集成利用。

      (2)實現(xiàn)了概念與術(shù)語檢索、概念與術(shù)語瀏覽、內(nèi)容的多版本揭示、集成嵌入第三方知識組織體系,以及機構(gòu)用戶、個人用戶的定制等服務(wù)功能。提供第三方知識組織體系的上載、嵌入和集成功能,支持數(shù)據(jù)導入、發(fā)布、存檔多項管理功能,支持用戶權(quán)限管理,提供了STKOS瀏覽、審核、對比顯示等工具,方便用戶管理知識組織體系。

      (3)構(gòu)建了基于OSGI的插件型STKOS相關(guān)工具集成服務(wù)系統(tǒng),創(chuàng)新性提出將一些重要知識組織工具封裝為可控、可管理的插件,并集成到系統(tǒng)之中,形成知識組織工具插件庫,用戶可以根據(jù)需要組配工作流,完成某項知識組織體系建設(shè)的需要,提升了本成果的共享度。

      2.4 研制具有國際先進性的語義標注、知識計算分析工具和智能問答系統(tǒng)

      (1)開發(fā)了國內(nèi)首個從語法、語義到領(lǐng)域知識的多層次標注平臺。通過結(jié)構(gòu)化和非結(jié)構(gòu)化計算,為概念體系建設(shè)和領(lǐng)域知識庫建設(shè)提供自動化方法和工具支持。設(shè)計并實現(xiàn)了國內(nèi)首個科技領(lǐng)域大規(guī)模語義計算的組件架構(gòu)和體系結(jié)構(gòu)框架,為同時處理大規(guī)模非結(jié)構(gòu)化資源和結(jié)構(gòu)化語義資源提供一個通用的平臺,集成滿足接口標準的詞匯、概念層面的結(jié)構(gòu)化計算、句子、篇章層面的語義角色標注、語義深層次標注等組件,形成較為完整的面向大規(guī)??萍嘉墨I真實文本的語義計算工具包。

      (2)提出了專業(yè)領(lǐng)域語義詞典和詞義標注語料庫的互動構(gòu)建方法。在基于STKOS和語義詞典對語料庫進行詞義標注的基礎(chǔ)上,依據(jù)詞語在語料庫中的命中結(jié)果進一步修改、擴充和調(diào)整語義詞典的相關(guān)信息,實現(xiàn)了語義詞典和詞義標注語料庫構(gòu)建的迭代完善,最終達到語義詞典和詞義標注語料庫的同步優(yōu)化。

      (3)通過知識與數(shù)據(jù)驅(qū)動結(jié)合的語義計算方法,綜合應(yīng)用詞、句、篇章的語義標注語料庫及統(tǒng)計學習模型,建立了快速構(gòu)建領(lǐng)域知識圖譜的技術(shù)方法體系。該項成果在山西醫(yī)學期刊社、山東中醫(yī)藥大學等機構(gòu)的領(lǐng)域知識庫構(gòu)建中均得到應(yīng)用推廣。

      (4)研發(fā)了基于語義標注和計算分析技術(shù)的問答系統(tǒng),集成并優(yōu)化了知識抽取、結(jié)構(gòu)識別、文本檢索、問答匹配、語義去噪等關(guān)鍵技術(shù)。在知識抽取方面提出“基于先驗知識的關(guān)鍵詞抽取方法”,取得了優(yōu)于同類方法的F1@5、F1@10值;還提出“Rel-TNG”和“Type-TNG”方法,比國內(nèi)外同類型方法具有更高的穩(wěn)定性;在問答匹配中提出“一種基于注意力機制的BiGRU問答匹配算法”,性能提升0.18%;在結(jié)構(gòu)識別中提出的“基于章節(jié)標題的識別”方法,在F值上相較于通用方法和Parscit方法,提升幅度分別為3.22%和3.65%。

      2.5 實現(xiàn)語義知識標引、智能檢索和個性化服務(wù)等工程化應(yīng)用關(guān)鍵技術(shù)突破

      開發(fā)了基于科技知識組織體系和海量文獻的信息自動處理系統(tǒng),提供包括語義檢索和個性化知識服務(wù)功能的智能檢索系統(tǒng),具備了面向全國用戶提供技術(shù)和系統(tǒng)支撐服務(wù)的能力。

      (1)以STKOS為基礎(chǔ),融合詞頻統(tǒng)計、句法分析、語法分析等多種技術(shù)方法,實現(xiàn)了大規(guī)??鐚W科的海量外文科技文獻的自動標引,有效地促進了NSTL文獻信息資源的揭示和利用,是國內(nèi)外首次開展大規(guī)模、跨學科的科技文獻信息工程化落地應(yīng)用。實現(xiàn)了文獻揭示內(nèi)容從單純的文本向細粒度知識單元的轉(zhuǎn)變,綜合應(yīng)用STKOS、領(lǐng)域本體和科研本體,研究突破了從海量科技文獻中自動識別與抽取多類型知識對象和知識關(guān)系計算的關(guān)鍵技術(shù),有效解決傳統(tǒng)知識揭示的單一性問題,有效提高知識發(fā)現(xiàn)的準確率。

      (2)突破了大規(guī)模知識對象組織和管理的技術(shù)方法,實現(xiàn)了海量知識對象的有機組織和存儲,使其形成可供語義挖掘的知識網(wǎng)絡(luò)。該網(wǎng)絡(luò)既是知識服務(wù)和智能檢索的支撐平臺,又可以通過智能接口提供基于任意知識節(jié)點的檢索和關(guān)聯(lián)發(fā)布。以知識數(shù)據(jù)為樞紐實現(xiàn)了知識組織系統(tǒng)與科技文獻實例的集成與相互連接映射,將語義知識模型與實例數(shù)據(jù)相分離,構(gòu)建了相互分離、支持整合、動態(tài)協(xié)同的管理維護機制。

      (3)基于科技知識組織體系構(gòu)建了新型的智能檢索平臺,實現(xiàn)了STKOS的工程化應(yīng)用。該智能檢索機制有別于傳統(tǒng)純文本檢索,通過集成內(nèi)容對象挖掘、共現(xiàn)分析、相關(guān)關(guān)系計算、影響力指標計算等技術(shù)方法,進行了更深入的語義揭示與發(fā)掘,為用戶提供了語義相關(guān)性更強的檢索結(jié)果,解決了單純依靠關(guān)鍵詞匹配造成的語義歧義、語義不完整等缺陷;依托知識組織體系,突破了以往全文檢索簡單排序的局限,對檢索結(jié)果進行多維度的分析展示,讓用戶能夠更加全面、高效地鑒別檢索結(jié)果中的知識內(nèi)容;通過交互式啟發(fā),讓系統(tǒng)能夠更準確地了解用戶的檢索意圖,提供更符合用戶真實需求的檢索結(jié)果。

      2.6 創(chuàng)建基于多場景智能知識服務(wù)關(guān)鍵技術(shù)方法和知識服務(wù)新模式

      (1)在科技信息監(jiān)測方面,利用STKOS優(yōu)化改進了監(jiān)測模型,以可視化形式向用戶展示檢索結(jié)果,包括熱點主題、突發(fā)主題、概念隨時間的變化趨勢等,提供藥物、疾病、基因等不同類型概念的熱點、突發(fā)指數(shù),有利于提高研究人員判斷、識別、追蹤領(lǐng)域內(nèi)研究熱點和突發(fā)內(nèi)容的能力,降低獲取科研知識的成本,提高科研工作的效率。

      (2)知識結(jié)構(gòu)和知識演化分析方面,完成了知識結(jié)構(gòu)與知識演化可視化功能模塊的研發(fā)和分析系統(tǒng)研發(fā),以水稻領(lǐng)域為例開展了知識結(jié)構(gòu)與知識演化分析應(yīng)用示范。

      (3)基于文獻知識網(wǎng)絡(luò)的領(lǐng)域?qū)W術(shù)關(guān)系方面,建立了多種學術(shù)關(guān)系網(wǎng)絡(luò),深度揭示了領(lǐng)域研究進展、活躍研究方向、主題變化趨勢、科研主體的合作等。開展了科研主體分析、國際合作與科研交流的結(jié)構(gòu)分析、社團識別及結(jié)構(gòu)分析,以及科學影響傳播關(guān)系揭示分析、社團演化的探測和文獻追蹤、重要科研主體學術(shù)關(guān)系網(wǎng)絡(luò)的演化追蹤分析研究。

      (4)領(lǐng)域科研信息環(huán)境建設(shè)方面,基于構(gòu)建的科研本體主體類與屬性關(guān)系,開發(fā)了領(lǐng)域科研信息環(huán)境支撐技術(shù)平臺,實現(xiàn)了面向特定領(lǐng)域快速搭建科研信息環(huán)境,建立了水稻領(lǐng)域科研信息環(huán)境應(yīng)用示范系統(tǒng)。

      (5)科技信息資源關(guān)聯(lián)數(shù)據(jù)服務(wù)應(yīng)用示范方面,完成了水稻領(lǐng)域的期刊論文、專利文獻與水稻專家、水稻產(chǎn)品信息等的知識關(guān)聯(lián)網(wǎng)絡(luò)構(gòu)建、存儲、組織、集成和發(fā)布。完成了關(guān)聯(lián)數(shù)據(jù)構(gòu)建及服務(wù)的相關(guān)工具開發(fā)及服務(wù)平臺的構(gòu)建,實現(xiàn)了科技資源關(guān)聯(lián)數(shù)據(jù)檢索與獲取、基于關(guān)聯(lián)數(shù)據(jù)的資源擴展服務(wù),支持語義查詢、動態(tài)分面、多維瀏覽等服務(wù)。

      綜上所述,與國內(nèi)外同類知識服務(wù)技術(shù)方法相比,項目創(chuàng)新性地融合應(yīng)用了科技詞表和領(lǐng)域本體等語義知識,優(yōu)化了領(lǐng)域科技信息監(jiān)測、領(lǐng)域知識結(jié)構(gòu)和知識演化分析、領(lǐng)域科研信息環(huán)境等知識服務(wù)關(guān)鍵技術(shù)方法,利用概念層級關(guān)系、屬性關(guān)系將離散的、碎片化事實信息實現(xiàn)知識化組織、關(guān)聯(lián)和匯聚,為領(lǐng)域?qū)W術(shù)關(guān)系網(wǎng)絡(luò)和知識演化的揭示分析探索了新路徑,提高了各類知識挖掘算法模型分析結(jié)果的科學性和客觀性,面向腫瘤、水稻、植物多樣性等多個學科領(lǐng)域進行了應(yīng)用示范,有效提高了我國科技信息機構(gòu)在領(lǐng)域知識發(fā)現(xiàn)、戰(zhàn)略情報研究和決策支持等方面的知識服務(wù)能力和智能化水平。

      3 結(jié)語與展望

      科技文獻信息是提升科技創(chuàng)新能力的支撐和保障,而知識組織體系是大數(shù)據(jù)智能環(huán)境下開發(fā)利用科技信息不可或缺的基礎(chǔ)設(shè)施。項目在研究大規(guī)??萍贾R組織體系構(gòu)建及協(xié)同管理、開放共享與智能知識服務(wù)平臺等方面取得了集成性創(chuàng)新成果,這些成果以公益共享的方式提供給國內(nèi)其他文獻信息機構(gòu)使用,為科技信息服務(wù)業(yè)提供了堅實的語義知識庫支撐,有力提升我國基于語義層面的信息處理、知識組織和知識服務(wù)的能力,提高我國科技文獻知識組織內(nèi)容建設(shè)效率,以及各類科技信息資源利用率和內(nèi)容揭示程度,有效降低了我國科技文獻知識組織體系內(nèi)容的構(gòu)建、管理和維護成本。項目成果具有借鑒示范作用和較廣泛的推廣應(yīng)用前景。

      為適應(yīng)國家科技創(chuàng)新主戰(zhàn)場和重大戰(zhàn)略的迫切需求,鞏固“十二五”科技支撐計劃項目研究成果,同時圍繞NSTL下一代國家科技創(chuàng)新開放知識服務(wù)建設(shè)目標,NSTL將進一步開展STKOS超級科技詞表內(nèi)容建設(shè)與共享技術(shù)研究,研究基于文本挖掘與知識計算的知識組織體系自動構(gòu)建、多源異構(gòu)科技文獻大數(shù)據(jù)知識表示與深度融合、基于STKOS的知識發(fā)現(xiàn)與深度挖掘分析等關(guān)鍵技術(shù),引入人工智能技術(shù)手段,提升大數(shù)據(jù)驅(qū)動的知識化服務(wù)。

      (1)在現(xiàn)有英文超級科技詞表的基礎(chǔ)上,完善STKOS超級科技詞表內(nèi)容體系。以概念為單位,進一步審定同義關(guān)系、中英文詞形規(guī)范、概念學科歸類,同時增加《中國圖書館分類法》和《杜威十進分類法》的類目類號。開展入口詞(同義詞)的翻譯,以及基于文獻關(guān)鍵詞和用戶檢索詞進行新詞發(fā)現(xiàn)與擴充。

      (2)面向海量結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化文本數(shù)據(jù),探索機器學習、認知計算、文本挖掘等大數(shù)據(jù)及人工智能技術(shù)在新詞發(fā)現(xiàn)、語義關(guān)系發(fā)現(xiàn)與規(guī)范等詞表自動構(gòu)建中的應(yīng)用。建立用戶檢索日志采集和分析研究機制,為STKOS建設(shè)提供一線用戶需求及素材。

      (3)深化基于STKOS的文本主題概念標引、分類研究,開展特定領(lǐng)域的語義標注和索引示范系統(tǒng)建設(shè),開展文本所涉領(lǐng)域?qū)嶓w、科研實體、概念關(guān)系、科研關(guān)系、圖表內(nèi)容等語義內(nèi)容特征揭示技術(shù)研究。

      (4)基于STKOS詞表、科研本體等開展自然語言理解、中英雙語檢索、科研實體檢索、語義關(guān)聯(lián)搜索、語義知識關(guān)聯(lián)、檢索結(jié)果智能過濾、排序優(yōu)化等語義智能搜索關(guān)鍵技術(shù)研究,進一步深化STKOS應(yīng)用。

      (5)研究分析大數(shù)據(jù)智能環(huán)境下知識服務(wù)的需求,開展下一代開放知識服務(wù)平臺體系架構(gòu)和技術(shù)路線研究與設(shè)計,集成并優(yōu)化深度學習、認知計算等人工智能技術(shù),基于STKOS、知識圖譜等高質(zhì)量知識組織體系,構(gòu)建面向公眾的開放知識服務(wù)平臺。

      猜你喜歡
      詞表術(shù)語本體
      Abstracts and Key Words
      哲學分析(2023年4期)2023-12-21 05:30:27
      A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會項目名稱漢英對照詞表
      英語世界(2021年13期)2021-01-12 05:47:51
      對姜夔自度曲音樂本體的現(xiàn)代解讀
      中國音樂學(2020年4期)2020-12-25 02:58:06
      敘詞表與其他詞表的互操作標準
      《我應(yīng)該感到自豪才對》的本體性教學內(nèi)容及啟示
      文學教育(2016年27期)2016-02-28 02:35:15
      Care about the virtue moral education
      卷宗(2013年6期)2013-10-21 21:07:52
      國外敘詞表的應(yīng)用與發(fā)展趨勢探討*
      有感于幾個術(shù)語的定名與應(yīng)用
      從術(shù)語學基本模型的演變看術(shù)語學的發(fā)展趨勢
      常用聯(lián)綿詞表
      對聯(lián)(2011年20期)2011-09-19 06:24:36
      北京市| 渑池县| 盐城市| 嘉善县| 南宫市| 临潭县| 曲水县| 秭归县| 漳浦县| 堆龙德庆县| 恩平市| 南和县| 松原市| 通辽市| 西安市| 冕宁县| 汉川市| 平原县| 宜宾市| 临桂县| 汉源县| 澎湖县| 安多县| 东莞市| 宜宾市| 太保市| 云安县| 新河县| 察隅县| 灵璧县| 汨罗市| 福建省| 棋牌| 星座| 巴青县| 南丹县| 福鼎市| 信丰县| 乌拉特后旗| 柯坪县| 日照市|