• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      NSTL資源的深度組織和揭示:從資源描述到語義描述*

      2020-02-24 02:53:00劉崢孫坦張建勇
      數字圖書館論壇 2020年7期
      關鍵詞:本體文獻科技

      劉崢 孫坦 張建勇

      (1. 中國科學院文獻情報中心,北京 100190;2. 中國農業(yè)科學院,北京 100081)

      科技文獻信息是科技知識的重要載體,知識組織是對其深度組織和揭示,將無序或分散的特定知識,根據一定的原則與方法,使之有序、集中、定位,以方便知識的提供、利用和傳播。知識組織的內容包括知識描述和元數據、知識組織過程和知識組織體系。知識組織是圖書館和信息科學的核心能力,也是圖書館、檔案館、博物館等信息服務機構的一項基礎性工作。

      NSTL作為國家科技文獻信息戰(zhàn)略保障服務系統(tǒng)和國家科技文獻信息資源的服務基地,一直將知識組織工作作為一項重要的任務。在不同時期,根據NSTL的建設任務,在知識組織建設不同方面開展了長期卓有成效的工作。本文通過回顧不同時期知識組織建設的內容與重點,總結了知識組織發(fā)展變化,以厘清未來方向。

      1 NSTL知識組織的發(fā)展階段

      NSTL的知識組織發(fā)展歷程可以分為兩個階段。①基礎建設階段(2000—2009年)。以科技文獻資源的記錄描述為主,主要開展元數據標準規(guī)范研究,以科技部科技基礎性工作專項基金重大項目“數字圖書館標準規(guī)范建設”為代表。②穩(wěn)步發(fā)展階段(2010年至今)。以科技文獻資源內容揭示、語義互操作應用為主,主要開展知識組織體系的建設,并對科技文獻的深度加工索引,以“十三五”國家科技支撐計劃“外文超級科技文獻的知識組織體系建設”項目為代表。

      1.1 基礎建設階段

      NSTL為實現(xiàn)我國外文文獻資源保障的戰(zhàn)略安全,突破我國文獻資源保障體系布局仿照蘇聯(lián)模式按行業(yè)、系統(tǒng)建設的瓶頸,打破管理體制部門分割、共建共享困難,避免印本資源的重復建設,實現(xiàn)全國性普惠服務。在資源建設上,按照“統(tǒng)一規(guī)劃、統(tǒng)籌協(xié)調、增量調控、盤活存量”的原則,收藏和開發(fā)理、工、農、醫(yī)各學科領域的科技文獻資源,構建基于印本文獻的國家科技文獻戰(zhàn)略保障系統(tǒng)。為適應數字環(huán)境新形勢,以國家授權為主要采購方式、以回溯數據庫建設為重點、以長期擁有利用為前提,加強網絡版的數字資源建設[1]。在資源服務上,以文獻傳遞服務為根本,在2005年開通NSTL網絡服務,形成集中外文科技期刊、會議錄、學位論文、科技報告、專利、標準和計量規(guī)程于一體的服務系統(tǒng);并自主開發(fā)了國際科學引文服務系統(tǒng),免費服務全國。

      在這個階段,NSTL知識組織工作的重點是資源描述,通過研究和制訂一系列資源描述的標準規(guī)范,實現(xiàn)對NSTL科技文獻的描述,形成一套規(guī)范化、科學化的管理流程,研發(fā)和建設了文獻綜合管理系統(tǒng)、聯(lián)合編目系統(tǒng)、數據聯(lián)合加工系統(tǒng)、網絡服務系統(tǒng)、回溯數據庫服務系統(tǒng)、引文服務系統(tǒng)[2]。

      以虹橋系統(tǒng)和NSTL聯(lián)機聯(lián)合編目標準規(guī)范為起點,對NSTL訂購文獻資源(如期刊、會議文獻等),以MARC21機讀目錄格式為基礎進行書目數據的規(guī)范化和標準化。開展文獻信息加工和制訂《NSTL文獻資源加工規(guī)范》,對文獻資源的期刊目次、文摘和引文進行規(guī)范,充分考慮元數據創(chuàng)建者、管理者和使用者各方的多層次需求,參考DC元數據的組織體系,結合資源對象特征,以XML作為交換格式。文獻綜合管理系統(tǒng)提供持續(xù)更新西文期刊、會議文獻備選數據庫和定量評價指標體系,備選文獻數據庫元數據既含有國家層面保障情況和學科分布分析,又含有國際科技文獻供給狀況等動態(tài)指標數據。據此,NSTL的資源描述,在品種上實現(xiàn)對西文科技期刊、西文會議文獻、日俄科技期刊、外文科技報告、中文學位論文、西文學位論文、西文文集匯編、計量檢定規(guī)程、國內外標準等的揭示;在內容深度上實現(xiàn)從聯(lián)合目錄到期刊目次、從文摘加工到引文加工的描述和揭示。

      2002年10月,NSTL倡導啟動了科技部科技基礎性工作專項基金重大項目“我國數字圖書館標準規(guī)范建設”。由NSTL成員單位中國科學技術信息研究所、中國科學院文獻情報中心聯(lián)合中國國家圖書館共同發(fā)起,17個參加單位針對數字圖書館系統(tǒng)的數字資源建設與服務,制定了我國數字圖書館建設標準規(guī)范發(fā)展戰(zhàn)略與標準規(guī)范框架和數字圖書館核心標準規(guī)范體系,開展了數字圖書館元數據加工標準、各類專門元數據標準、檢索服務標準、服務登記標準、唯一標識符等技術標準和規(guī)范的研究,建立了數字圖書館標準規(guī)范建設開放應用機制,促進了我國數字圖書館的可持續(xù)發(fā)展[3]。先后研制發(fā)布了89個標準規(guī)范,為全國數字圖書館建設奠定了基礎。

      1.2 穩(wěn)步發(fā)展階段

      2010年,NSTL初步建成一個面向全國、外文科技文獻最多、功能先進、在國內外享有廣泛聲譽、國內最大的科技文獻信息戰(zhàn)略保障服務系統(tǒng),但數字出版、開放獲取、來自學術信息服務市場的競爭等一系列信息環(huán)境的變化,又給NSTL帶來新的機遇和挑戰(zhàn)。數字文獻成為用戶首選使用的資源,網絡搜索引擎和信息門戶成為用戶文獻獲取的主流渠道,企業(yè)用戶所需要的不再是簡單的文獻,而是可靠、具體、可被直接利用的信息[4]。在這樣的背景下,NSTL在資源建設上,鞏固外文紙本科技期刊和會議錄的國家基礎保障,積極推進數字科技文獻保障,從文獻保障為主積極向知識服務基礎支撐保障轉型;在服務上,增強知識組織能力,提升國家科技文獻平臺的系統(tǒng)服務能力,擴大國家平臺資源的普惠服務能力,從文獻傳遞服務為主向資源發(fā)現(xiàn)服務、分析評價服務轉型[5]。

      在此階段,NSTL知識組織重點是資源內容深度揭示和整合,主要體現(xiàn)在開展的研究和工作兩個方面。制訂NSTL統(tǒng)一文獻元數據標準,解決了NSTL從采購、加工、發(fā)布到服務的數字化業(yè)務流程上各子系統(tǒng)使用的元數據不盡相同,難以實現(xiàn)資源的深度挖掘問題。形成能夠支持多種數據的統(tǒng)一描述和一致的數據描述體系,推進科技文獻信息深度組織和揭示,為NSTL數據集成融合、數據分析和數據挖掘,以及為不同應用服務系統(tǒng)間的互操作打下數據基礎,從而給科技決策和知識服務提供支撐[6]。

      2011年,NSTL負責組織實施了科技部“十二五”科技支撐項目“面向外文科技文獻信息的知識組織體系建設與應用示范”(STKOS),建成了以面向外文科技文獻信息組織為主要應用目標的數字化科技知識組織體系。STKOS為我國海量外文科技文獻信息的組織和利用提供支撐,有助于實現(xiàn)國家科技文獻信息戰(zhàn)略資源的有效組織、深度揭示和知識關聯(lián),提供知識檢索服務,推進基于國家科技文獻信息戰(zhàn)略資源的知識發(fā)現(xiàn)、知識挖掘和知識計算應用示范,整體提升我國科技文獻信息機構的知識服務能力[7]。

      面向外文科技文獻的知識組織體系建設涵蓋知識組織體系內容建設,加工協(xié)作平臺建設,開放服務平臺建設,自動處理、智能檢索的應用,知識服務的應用示范和關鍵技術研究6個部分內容。STKOS建成了一個涵蓋理工農醫(yī)的科技術語倉儲系統(tǒng),包括素材庫、基礎詞庫、范疇到本體4個部分。素材庫收集了來自975部詞表的1438萬個術語;基礎詞庫從201部高質量科技詞表中遴選232萬個術語,形成了61.5萬個概念;范疇體系共含1.2萬個類目名稱,規(guī)定概念所屬的學科;本體庫包括4個領域本體和1個科研本體。

      2 NSTL知識組織的發(fā)展變化

      20年來,計算機網絡技術飛速發(fā)展,互聯(lián)網、移動互聯(lián)網到大數據和人工智能,使科研信息環(huán)境發(fā)生深刻變革,出版模式從訂購為主的商業(yè)模式向訂購、開放獲取等多種模式共存轉變,圖書館服務從印本文獻服務模式向數字化服務保障模式轉變。為適應這些發(fā)展和變革,NSTL知識組織的研究和建設也隨之發(fā)生了相應的變化:在知識描述和揭示上,揭示的內容從聯(lián)合目錄到期刊目錄、從文摘加工到引文加工,揭示的深度從資源品種的描述發(fā)展到知識內容、實體結構關系的揭示;在知識組織方法和使用工具上,從單一的學科分類到詞表、本體,組織維度從二維的表結構到多維的圖結構;在使用范圍上,從獨立單個系統(tǒng)的知識描述到多系統(tǒng)使用元數據的統(tǒng)一,從NSTL各服務系統(tǒng)的知識描述和索引“各自為政”到統(tǒng)一規(guī)范。

      2.1 知識內容描述從記錄到實體結構

      NSTL作為國家科技文獻信息戰(zhàn)略保障服務系統(tǒng),形成了從采購、加工、發(fā)布到服務的數字化業(yè)務流程。為實現(xiàn)科技信息資源業(yè)務流程的數字化操作,NSTL根據不同業(yè)務需求,先后制訂了多種科技文獻描述采集加工標準規(guī)范,其中包括聯(lián)合編目系統(tǒng)參考新版《MARC21機讀目錄格式》,制訂了各種文獻類型的書目記錄標準;加工系統(tǒng)為了文摘和引文數據的加工,參考DC元數據的組織體系,結合資源對象特征,制訂了《NSTL文獻資源加工規(guī)范》;針對開放資源服務任務,根據不同文獻類型(如開放會議、開放課件),制訂了相應的元數據標準[8]。

      一系列NSTL科技文獻描述采集加工標準規(guī)范的制訂,保證了NSTL不同服務系統(tǒng)所需文獻信息的準確性、完備性。但這些資源內容的標準規(guī)范,都依托各自系統(tǒng),以單條文獻記錄為基礎,如同一系列的會議文獻,因出版方式不同,NSTL業(yè)務流程會根據訂購和開放獲取采用不同的處理流程、文獻描述標準進行加工。以單條文獻記錄為基本單元的處理方式,造成記錄中的數據元素與記錄的高度綁定;記錄中的單個數據元素,也難以成為一個獨立的實體,相互關聯(lián)和跨系統(tǒng)重用、重組。

      為了實現(xiàn)數據的靈活使用,NSTL通過聯(lián)合目錄系統(tǒng)元數據、NSTL統(tǒng)一文獻元數據標準的制訂,將以記錄條目為基礎的數據結構轉變?yōu)橐詫嶓w為基礎的數據結構。這兩個標準采用了模塊化設計的思路,用元素集來表示實體,注重實體關系的揭示。NSTL聯(lián)合目錄系統(tǒng)元數據設計,根據科技期刊、會議文獻、科技叢書、文集匯編、工具書、科技報告、學位論文、科技專著8種類型,每種類型的元數據由一個元數據框架支撐,元數據中包含多個元素集,也包含元素集之間的關系。每種類型文獻元數據的元素集包含其描述信息元素集(一般包括編碼標識元素、外部特征元素、內容特征元素)、館藏信息元素集和管理信息元素集。同時根據每種文獻類型的特點形成具有該文獻類型特色的元素集,如科技期刊的“歷史變革元素集”、科技叢書的“叢編信息元素集”等[9]。NSTL統(tǒng)一文獻元數據標準制訂設計進一步綜合對各類型文獻進行研究和分析,形成了12個元素集(包括來源元素集、論文元素集、全文元素集、引文元素集、圖表元素集、附加資源元素集、Agent元素集、主題元素集、基金元素集、會議元素集、獲取管理元素集和操作信息元素集),以及5種元素集之間的關系(組成關系、相關關系、規(guī)范關系、沿革關系、引用關系)。

      從文獻外部特征的描述到數據實體關系揭示的轉變,可方便將人類閱讀轉變?yōu)橹C器理解、機器可執(zhí)行。將記錄條目作為計算處理單元,進一步細化到以元素集為實體的計算處理單元,使得數據的分析、重組的能力加強,為NSTL向知識服務基礎設施平臺發(fā)展,未來在整個互聯(lián)網上方便地交換、發(fā)布和共享奠定數據結構基礎。

      2.2 知識組織體系從科技術語到本體

      科技文獻元數據的描述完成了從文獻書目、期刊目次、文章題錄、文摘、引文和全文等不同層次的基本數據結構與關系的揭示,而對于文獻內容中知識對象的描述、揭示、分析、計算和挖掘,以及知識關聯(lián)、推理和發(fā)現(xiàn),則依賴科技知識組織體系的構建。

      NSTL在基礎建設階段,采用《中國圖書館分類法》進行學科分類,主要提供期刊或書目為單元的瀏覽導航和檢索服務;而隨著NSTL擁有科技文獻數量的增加,知識服務深度擴展,NSTL通過組織實施“面向外文科技文獻信息的知識組織體系建設與應用示范”項目,構建了STKOS知識組織體系,實現(xiàn)了從科技術語、概念、范疇到本體的多層級知識組織能力。

      STKOS知識組織體系包括超級科技詞表和本體兩部分。超級科技詞表通過統(tǒng)一結構對多源異構的來源知識組織體系中的科學術語進行同義歸并,形成以概念為單位的同義詞群,關聯(lián)不同來源知識組織體系的術語;通過范疇對概念進行所屬學科分類,形成從科技術語、概念到范疇的三級詞網絡。超級詞表為實現(xiàn)科技文獻信息自動標注、智能檢索、知識導航,以及后續(xù)本體的發(fā)展奠定了基礎。借助STKOS知識組織體系,NSTL文獻發(fā)現(xiàn)系統(tǒng)從基于“查詢請求與文獻特征的簡單匹配來獲取查詢結果”,升級為“對文獻資源進行語義標注,建立基于概念的文獻索引,同時對用戶檢索條件分析準確的信息需求”,從而改善檢索效果與增強用戶體驗[10]。

      STKOS知識組織體系中的本體建設,是通過研究形成適合科技文獻知識內容組織的本體網絡方法論和構建相應的工具集,開展示范應用來帶動整個知識語義發(fā)現(xiàn)、關聯(lián)和推理。STKOS本體的方法,是根據本體建設的目標場景和本體的生命周期,確定本體建設需要路徑和活動,并根據本體活動來構建相應的工具集以支持本體網絡建設;在科技文獻知識內容的發(fā)現(xiàn)和揭示上,設計了將通用的科研本體與領域本體相結合形成本體網絡的方法。通用的科研本體是一種揭示科研活動各參與方的實體和實體間關系的本體模型,旨在分析科研活動參與方的相互關系、合作關系,支持對科研產出效果的評價分析,主要的實體對象包括科研人員(作者)、論文、文獻(期刊或會議論文集)、圖書、基金、科研機構;領域本體根據研究領域、研究對象以及需求目標來揭示領域中實體對象之間的關系。在基于STKOS的知識服務應用示范系統(tǒng)建設上,在植物多樣性、可再生能源、水稻、呼吸系統(tǒng)腫瘤4個學科領域創(chuàng)建了領域本體,通過領域本體和科研本體對科技文獻中的知識對象、知識對象之間的關系進行識別和標注,構成了一個可供分析和挖掘的知識庫系統(tǒng),從而實現(xiàn)學科領域科技監(jiān)測、學術關系網絡、知識結構與知識演化等應用分析。

      STKOS知識組織體系構建,實現(xiàn)了從科技術語到本體的多層級的數據內容架構,為語義檢索、知識對象分析、計算和服務積累了方法、數據、工具,為構建知識服務的支撐體系奠定了數據內容基礎。

      2.3 系統(tǒng)應用從封閉孤立到融合統(tǒng)一

      NSTL作為國家科技文獻信息戰(zhàn)略保障服務系統(tǒng),適應國家科技創(chuàng)新、數字信息環(huán)境和科技信息需求的變革,不斷拓展科技文獻信息服務的范圍和方式。從自建的聯(lián)機聯(lián)合編目數據、國際科技引文服務到開放獲取資源,從訂購的外文現(xiàn)刊數據庫、外文回溯期刊全文庫到擬南芥數據庫,這些資源服務系統(tǒng)都是作為獨立系統(tǒng)來設計和建設的,采用的元數據標準和知識組織體系也有所差異。因此,形成了NSTL內部數據孤島和用戶使用的不便,乃至困惑。

      為解決系統(tǒng)間的這一問題,NSTL從數據結構和數據內容揭示兩個角度實現(xiàn)了內部數據的規(guī)范,減少系統(tǒng)間數據傳遞損失,增強系統(tǒng)間的協(xié)同能力。一方面,NSTL制訂了《NSTL統(tǒng)一文獻元數據標準》,該標準適用于NSTL通過購買、交換、贈予等方式獲取的所有科技類資源,NSTL加工系統(tǒng)采用此標準進行數據加工處理,NSTL文獻服務系統(tǒng)通過元數據映射進行數據結構轉換,以支持NSTL文獻發(fā)現(xiàn)系統(tǒng)的數據挖掘、分析評估功能實現(xiàn);另一方面,搭建了NSTL數據管理和計算平臺,匯聚NSTL數據書目元數據、全文數據、引文數據、規(guī)范數據文檔、STKOS知識組織體系數據,并在此平臺統(tǒng)一采用STKOS知識組織體系對所有科技類文獻資源進行加工標引,實現(xiàn)了內容標引范圍和細節(jié)的標準化控制,并應用于NSTL資源發(fā)現(xiàn)系統(tǒng)建設和其他服務系統(tǒng)。

      在NSTL與第三方信息服務機構間,為使各類信息服務機構的用戶能夠像使用本機構的服務系統(tǒng)一樣利用NSTL資源和服務,將NSTL資源嵌入用戶主體本身的信息環(huán)境中,并與這些用戶所屬機構提供的全文下載、原文傳遞、參考咨詢等服務和過程無縫連接,構建了“面向信息機構的嵌入式NSTL資源集成服務系統(tǒng)”[11]。

      3 NSTL知識組織建設的展望

      通過20年的發(fā)展,NSTL已經累積海量的科技文獻信息資源,研制了適用NSTL訂購、采集和交換的所有科技文獻資源的元數據標準,初步構建了從科學術語、科學概念、分類范疇到本體的多層次的知識組織體系。但面對中美貿易戰(zhàn)、保護主義、單邊主義的外部環(huán)境壓力,5G、物聯(lián)網(IoT)、大數據、云服務和人工智能等科技創(chuàng)新發(fā)展,現(xiàn)有的知識組織建設工作,尚不能夠產出形成支撐大數據環(huán)境、智能應用和知識服務的數據架構和基礎設施,需要加快步伐,提速發(fā)展。

      3.1 加強數據治理融合,建設開放關聯(lián)的科技文獻大數據網絡

      NSTL要在前期建設的基礎上,對內部數據進行拉通,形成NSTL數據網絡。NSTL擁有大量的科技文獻書目元數據和全文元數據記錄,加快書目記錄轉化為數據的過程,對文獻元數據中實體結構進行抽取、轉換和融合,形成實體數據及關系;進一步消除NSTL系統(tǒng)間的數據孤島,加強數據融合治理,提升數據質量,如與NSTL已建成的名稱規(guī)范控制文檔、期刊規(guī)范文檔、會議規(guī)范文檔融合,與NSTL用戶基本數據(姓名、單位、學科等)、NSTL文獻傳遞數據、NSTL使用數據(檢索、瀏覽數據)、NSTL國際引文數據庫的引文數據相結合。

      將NSTL科技文獻數據以開放關聯(lián)數據的形式發(fā)布,致力于生成語義鏈接、機器可讀的數據,從“在互聯(lián)網上”轉成為“在互聯(lián)網中”,從只能通過NSTL系統(tǒng)訪問到開放第三方、搜索引擎直接利用,嵌入到數字化科研環(huán)境。NSTL數據與外部開放的科技數據結合使用,如網上開放知識圖譜,包括清華大學Aminer知識圖譜、微軟學術圖譜(Microsoft Academic Graph,MAG)等。微軟利用機器學習、語義推理和知識發(fā)現(xiàn)方面的能力,創(chuàng)建每周更新的MAG,涵蓋資助者、研究項目、會議、機構和出版物等實體類型及實體間關系[12];與逐步開放的科研管理機構、科研資助機構、科研機構的科技數據相關聯(lián),如科技部、國家自然科學基金委的項目數據、政策、科研儀器設備數據、科學數據等,形成國家科技大數據。

      數據治理、提升數據質量、數據的融合和關聯(lián),無論是在NSTL內部服務系統(tǒng)之間,還是NSTL與外部第三方系統(tǒng),都有著重要的意義,既能充分發(fā)揮大數據的優(yōu)勢,獲取多維度的信息,發(fā)現(xiàn)信息中相關性“互信息”和實現(xiàn)交叉驗證;也能實現(xiàn)科技大數據的共建共享,避免重復建設,發(fā)揮NSTL在大數據環(huán)境下作為國家科技文獻保障體系的重要使命。

      3.2 注重STKOS的應用推廣,提升知識組織的服務能力

      STKOS知識組織系統(tǒng)整合理工農醫(yī)領域常用的知名知識組織體系,如數學分類表、工程敘詞表、航空航天敘詞表、醫(yī)學敘詞表、國際糧農組織多語種農業(yè)主題詞表等,建成了一個覆蓋理工農醫(yī)全領域的科技術語倉儲系統(tǒng)。該系統(tǒng)可提供不少于61.5萬個概念的中英文優(yōu)選表達、232萬個術語英文表達形式以及概念在不同知識組織體系中的關系。而且,STKOS還開發(fā)了處理術語原型化的工具、使用STKOS術語進行文本抽取工具、分類表敘詞表轉換本體工具、本體裁切和合并工具等工具集以促進定制應用。

      STKOS知識組織系統(tǒng)作為我國具有獨立知識產權的語義知識庫,對于文本處理以提取概念、關系和知識,促進術語之間的映射,開發(fā)信息檢索系統(tǒng),從STKOS知識組織系統(tǒng)中提取特定術語,創(chuàng)建和維護本地的術語,開發(fā)術語服務,研究術語或本體,都有著重要的作用;并可支持科技信息資源,如文獻、科學數據、人才數據、產業(yè)事實數據等多種信息,從出版、存儲管理、應用的深層次揭示和處理。

      持續(xù)建設STKOS知識組織系統(tǒng),加大對科技領域基礎術語的累積,除了從新出版審校的詞典、主題詞表收集外,還需要從科技文獻題名和文摘數據中進行抽取,可采用包括句法模式、聚類方法、基于機器可讀詞典的方法以及詞嵌入方法;可參考微軟亞洲研究院利用基于句法模式的迭代學習算法,從Web文本中提取詞對,進而構建了數百萬個細粒度的概念及其關系的語義網絡Probase的方法[13];更要結合NSTL科技文獻揭示和利用的需要,把科技文獻中的科技術語共現(xiàn)頻次作為科技術語之間關系的一部分,來擴展科技概念的關系。

      將STKOS知識組織系統(tǒng)作為NSTL的一項數據服務,將其從服務于NSTL資源發(fā)現(xiàn)系統(tǒng)的內部系統(tǒng)和工具,變成NSTL提供的一項公益服務,用來支持科研人員、研究團隊、研究機構,并以授權許可的形式免費使用。立足用戶立場,以用戶使用場景對現(xiàn)有數據和工具進行適配及改造,來發(fā)展最佳實踐,推進STKOS數據使用。在現(xiàn)有STKOS知識組織系統(tǒng)的基礎上,建立持續(xù)運營和維護機制,融入STKOS數據工作流程中。

      3.3 深入挖掘數據的語義關系,奠定智能知識發(fā)現(xiàn)的基礎

      在系統(tǒng)中搜索可用知識源尋找到可用的知識,是知識發(fā)現(xiàn)的基本要求,但知識發(fā)現(xiàn)遠不止于此。根據Google基于知識圖譜的知識發(fā)現(xiàn)總結,知識發(fā)現(xiàn)可以抽象為3種類型。①實體中新關系。如發(fā)現(xiàn)藥品的新的副作用,作為收購目標或銷售對象的潛在新興公司,用于關系預測、關系發(fā)現(xiàn)、關系排名。②領域中新的潛在重要實體。如顯示技術中的新材料、特定投資領域的新投資者,用于實體發(fā)現(xiàn)、實體推薦、實體排名。③更改現(xiàn)有實體的重要性。主要是關系、屬性或指標的變化,如投資者股權的變更、銷售者對特定產品/服務投訴量的減少,用于趨勢分析、分布分析、異常檢測[14]。知識圖譜以結構化的形式描述客觀世界中概念、實體及其之間的關系,將互聯(lián)網信息內容表達成更接近人類認知世界的形式,從而使計算機具備類腦推理能力,主要用于支持自然語言理解、語義搜索、智能問答等。

      STKOS知識組織系統(tǒng)現(xiàn)已用于支持NSTL文獻發(fā)現(xiàn)系統(tǒng)進行文檔索引和用戶檢索用語的處理,有效提升了知識發(fā)現(xiàn)的查全率和檢準率。NSTL還應在STKOS本體建設的基礎上進一步發(fā)展,深入挖掘科技文獻數據中的語義關系,發(fā)展基于科技文獻的知識圖譜,提升NSTL下一代知識服務系統(tǒng)的服務能力。知識圖譜深度語義關系的建設主要分為兩個方面:一是通過對文獻資源元數據的結構化數據的轉換、治理和融匯,與外部數據關聯(lián),能夠形成基于通用科研本體的知識圖譜,這部分的難點在于人名消歧,識別出哪些同名作者的論文屬于同一個人;二是對于學術研究領域或科研任務的知識圖譜,要通過對文獻資源元數據的非結構化數據進行模型構建、實體識別、抽取和關系構建,領域本體構建在數據模型和實例數據構建的難度高于通用科研本體創(chuàng)建。其中最困難的領域本體的建模,要面向應用,采用以點帶面的方式,注重復用已有的本體,并與國家重點研發(fā)領域、NSTL下一代服務系統(tǒng)相結合,逐步擴展領域知識圖譜的范圍。

      總而言之,為了支撐大數據環(huán)境和智能應用,需要多層次多角度來開展知識組織的建設和研究工作。在數據層面,要持續(xù)進行理工農醫(yī)領域的科技術語和科技概念的累積,并在數據治理的基礎上建成大規(guī)??蒲斜倔w和領域本體為基礎的知識圖譜;在服務層面,要建設NSTL數據管理和數據計算平臺,以支持NSTL系統(tǒng)和第三系統(tǒng)的不同應用服務對知識圖譜、科學術語詞庫的調用;在技術層面,要繼續(xù)加大機器學習、自然語言處理的核心技術應用,以提升知識組織數據處理的效率和準確性;在應用層面,要圍繞提升檢索、瀏覽、個性化定制、推薦和總結的語義應用能力,來發(fā)展最佳實踐,為我國科技信息服務提供示范,起到引領帶頭作用。

      猜你喜歡
      本體文獻科技
      Abstracts and Key Words
      哲學分析(2023年4期)2023-12-21 05:30:27
      Hostile takeovers in China and Japan
      速讀·下旬(2021年11期)2021-10-12 01:10:43
      對姜夔自度曲音樂本體的現(xiàn)代解讀
      中國音樂學(2020年4期)2020-12-25 02:58:06
      Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
      大東方(2019年12期)2019-10-20 13:12:49
      科技助我來看云
      The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
      科技在線
      The Role and Significant of Professional Ethics in Accounting and Auditing
      商情(2017年1期)2017-03-22 16:56:36
      科技在線
      《我應該感到自豪才對》的本體性教學內容及啟示
      文學教育(2016年27期)2016-02-28 02:35:15
      金阳县| 紫金县| 麻阳| 杭锦旗| 公主岭市| 海宁市| 南昌县| 务川| 九龙城区| 哈尔滨市| 临高县| 宝山区| 临武县| 中阳县| 郸城县| 黄大仙区| 宁强县| 永嘉县| 靖江市| 垣曲县| 新竹县| 永安市| 静乐县| 巴南区| 赤城县| 凤凰县| 抚松县| 台湾省| 阿勒泰市| 辽源市| 兴化市| 噶尔县| 蒲城县| 布拖县| 巴彦淖尔市| 宣汉县| 浦江县| 云霄县| 阳信县| 中山市| 萍乡市|