• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      自動標(biāo)引在研究院知識資源自建數(shù)據(jù)庫中的研究與應(yīng)用

      2022-10-18 01:53:04向彩霞毛瑞琪趙曉媛北京航天長征科技信息研究所
      航天工業(yè)管理 2022年9期
      關(guān)鍵詞:標(biāo)引字段研究院

      向彩霞、毛瑞琪、趙曉媛 /北京航天長征科技信息研究所

      黃正軒 /正大夫國際管理顧問(北京)有限公司

      王愛武 /中國運(yùn)載火箭技術(shù)研究院

      “十四五”期間,世界格局更趨復(fù)雜,航天發(fā)展作為戰(zhàn)略博弈的關(guān)鍵砝碼和經(jīng)濟(jì)增長的重要引擎,得到了世界各國的廣泛重視。隨著未來對航天產(chǎn)業(yè)持續(xù)加大投入,相應(yīng)的知識資源也隨之增加,如何充分發(fā)揮知識資源的最大效能服務(wù)科研,是中國運(yùn)載火箭技術(shù)研究院

      圖書館工作人員一直潛心研究和實(shí)踐的重大課題,將有效的知識資源加以記錄、整理、傳承下來,建成研究院特色數(shù)據(jù)庫。其中,最為關(guān)鍵的技術(shù)之一就是知識資源標(biāo)引。筆者從知識資源的標(biāo)引技術(shù)入手,結(jié)合知識資源管理工作,研究該項(xiàng)技術(shù)在研究院內(nèi)部知識資源自建數(shù)據(jù)庫中的研究與運(yùn)用。以豐富航天一院知識資源管理,搭建內(nèi)部知識資源管理的信息平臺,促進(jìn)科研生產(chǎn)模式轉(zhuǎn)型和高質(zhì)量發(fā)展。

      一、知識資源標(biāo)引定義及發(fā)展優(yōu)勢

      1.定義

      知識資源標(biāo)引是對文獻(xiàn)所涉及的主要內(nèi)容進(jìn)行分析、選擇和描述,轉(zhuǎn)換成文獻(xiàn)特征標(biāo)識的過程,文獻(xiàn)特征標(biāo)識是對文獻(xiàn)進(jìn)行再次組織排列的重要標(biāo)記。其目的是將標(biāo)引結(jié)果用于檢索,通過檢索將大量有用的信息提供給用戶使用,服務(wù)于項(xiàng)目和科研。標(biāo)引的質(zhì)量和效率直接影響知識資源處理的質(zhì)量和進(jìn)度、數(shù)據(jù)庫建設(shè)的規(guī)模,直接關(guān)系到檢索時的查準(zhǔn)率和查全率。隨著全球化、信息化進(jìn)程的加速,知識標(biāo)引已廣泛應(yīng)用于所有文獻(xiàn)、文檔、網(wǎng)頁信息等各類型信息,標(biāo)引技術(shù)的發(fā)展已經(jīng)成為知識資源建設(shè)的重要標(biāo)志。

      2.知識資源標(biāo)引技術(shù)發(fā)展優(yōu)勢

      知識資源標(biāo)引技術(shù)經(jīng)歷了從完全人工標(biāo)引向自動標(biāo)引的轉(zhuǎn)變。人工標(biāo)引又稱手工標(biāo)引,是將文獻(xiàn)主題分析和分析結(jié)果轉(zhuǎn)換成檢索標(biāo)識的工作全部由標(biāo)引人員完成的文獻(xiàn)標(biāo)引模式。自動標(biāo)引是利用計(jì)算機(jī)自動給能表達(dá)文本信息內(nèi)容的主題詞或關(guān)鍵詞的過程。自動標(biāo)引技術(shù)按標(biāo)引詞的出處,可劃為自動抽詞標(biāo)引與自動賦詞標(biāo)引兩大類。自動抽詞標(biāo)引,由計(jì)算機(jī)系統(tǒng)自動抽取標(biāo)引詞,保證是文本中的詞和短語,可以代表文本信息的主題內(nèi)容。自動賦詞標(biāo)引是指從知識資源中查找受控詞表中的控制詞,選取能表示知識資源主題內(nèi)容的特定詞語的過程。目前,自動標(biāo)引的研究主要集中于自動抽詞標(biāo)引,而關(guān)鍵詞自動提取是自動抽詞中的一種識別片段或詞匯的自動化技術(shù)。

      相比于人工標(biāo)引,自動標(biāo)引技術(shù)的優(yōu)勢主要體現(xiàn)在處理速度高速、處理能力強(qiáng)大、穩(wěn)定性卓越、成本低廉。目前,自動標(biāo)引發(fā)展成為知識資源主要的標(biāo)引技術(shù)手段。中文自動標(biāo)引的方法有很多種,各種標(biāo)引方法各有優(yōu)勢又存在一定的局限性。筆者根據(jù)實(shí)現(xiàn)手段,主要從選詞標(biāo)引、全文標(biāo)引和關(guān)鍵詞標(biāo)引3 種標(biāo)引方式進(jìn)行論述。

      二、 工作與實(shí)踐

      研究院圖書館至今已經(jīng)歷60 余年的建設(shè)與發(fā)展,是一座擁有導(dǎo)彈航天專業(yè)特色的科技圖書館,多年以來,通過開展資源服務(wù)、科技查新、專題檢索和文獻(xiàn)研究,積累了豐富的工作經(jīng)驗(yàn),為型號研制、科研生產(chǎn)、重大事項(xiàng)決策等工作提供了有效的服務(wù)與保障。其形成了大量的具有專業(yè)特色的內(nèi)部紙質(zhì)文件、內(nèi)部業(yè)務(wù)知識、圖紙、檔案、科技成果、標(biāo)準(zhǔn)、知識產(chǎn)權(quán)、多媒體資料、情報(bào)等內(nèi)部資源信息以及外購的知網(wǎng)、萬方、外文數(shù)據(jù)庫等外部資源信息。但是資源信息管理分散、開發(fā)利用不足、共享渠道不暢,形成了資源的信息孤島,需要建立一套完整的數(shù)據(jù)管理系統(tǒng)平臺進(jìn)行資源的統(tǒng)一管理和利用,實(shí)現(xiàn)信息統(tǒng)一的查詢、獲取,助力研究院管理決策、科技創(chuàng)新和成果轉(zhuǎn)化管理,保障現(xiàn)有資源高水平、大規(guī)模創(chuàng)造與有效轉(zhuǎn)化運(yùn)用,促進(jìn)自主研發(fā)和創(chuàng)新驅(qū)動高質(zhì)量發(fā)展。

      研究院知識資源自建庫項(xiàng)目從2019 年開始策劃、調(diào)研準(zhǔn)備,歷時3 年,通過知識資源標(biāo)引數(shù)據(jù)平臺,完成27 個特色專題數(shù)據(jù)庫搭建,部署完成試應(yīng)用,順利通過項(xiàng)目驗(yàn)收進(jìn)入推廣應(yīng)用階段。該平臺的實(shí)施落地是研究院知識資源自動標(biāo)引技術(shù)的實(shí)踐應(yīng)用和技術(shù)創(chuàng)新,也是研究院內(nèi)部知識資源庫建設(shè)和推廣的重要里程碑,標(biāo)志著研究院圖書館在知識資源建設(shè)方面的能力提升和技術(shù)進(jìn)步。

      1.知識標(biāo)引數(shù)據(jù)平臺

      圖書館于2000 年開始建設(shè)數(shù)字圖書館,2002年在內(nèi)網(wǎng)向全院用戶開放,其數(shù)據(jù)庫資源主要依賴于外部數(shù)據(jù)庫采集。經(jīng)過20 年的建設(shè)與發(fā)展,設(shè)有圖書館借閱、中國知網(wǎng)期刊、萬方博碩論文、外文數(shù)據(jù)庫、外文電子書、超星電子書、國家科技圖書、外文博碩論文、航天科技信息系統(tǒng)等九大數(shù)據(jù)庫。

      目前,本地?cái)?shù)字文獻(xiàn)資源總量近87T,非本地資源60T,分別占比59%和41%,年用戶點(diǎn)擊量近千萬次。隨著自媒體技術(shù)的發(fā)展,為進(jìn)一步提升研究院數(shù)字圖書館文獻(xiàn)服務(wù)能力,2019 年底,圖書館完成了掌上數(shù)字圖書館APP 的設(shè)計(jì)開發(fā)。2020年初上線,為全院讀者提供文獻(xiàn)資源服務(wù),內(nèi)容包括館藏資源、中國知網(wǎng)、萬方數(shù)據(jù)、外文題錄、軍事書目、精品文化、特色資源等模塊。讀者可以利用碎片時間,充分發(fā)揮智能手機(jī)的互聯(lián)網(wǎng)優(yōu)勢提高工作和學(xué)習(xí)效率。

      基于用戶平臺的知識資源建設(shè)與發(fā)展,以及海量的沒有實(shí)現(xiàn)集中收集、標(biāo)引和提供檢索利用的內(nèi)部有效知識資源現(xiàn)狀,研究院圖書館需要利用自動標(biāo)引技術(shù)將以上資源進(jìn)行整合建庫,開發(fā)并提供檢索應(yīng)用。為此,經(jīng)過多方調(diào)研對比,圖書館與中國知網(wǎng)合作引入“STM 中文智能信息處理平臺”,搭建研究院知識資源底層數(shù)據(jù)基礎(chǔ)。

      2.用戶知識資源檢索行為分析

      基于中國知網(wǎng)知識資源總庫的用戶管理系統(tǒng)進(jìn)行后臺統(tǒng)計(jì)分析,隨機(jī)抽取研究院院屬各單位2021 年間用戶檢索數(shù)據(jù)進(jìn)行用戶檢索行為分析,通過用戶的檢索項(xiàng)確定知識資源的標(biāo)引項(xiàng),具體數(shù)據(jù)如圖1 所示。

      圖1 各類檢索方式占比

      用戶采取的檢索方式包括題名檢索、作者檢索、關(guān)鍵詞檢索、機(jī)構(gòu)檢索、摘要檢索、全文檢索及主題檢索7 種,檢索內(nèi)容基本包含了基礎(chǔ)的標(biāo)引字段,大部分字段只需從知識資源內(nèi)直接提取。通過對比檢索方式,用戶采取主題檢索與全文檢索的方式,分別占比50%以及26%,用戶往往采取直觀的檢索方式進(jìn)行知識資源的搜索,以快速獲取所需的知識資源,為自動標(biāo)引的項(xiàng)目實(shí)施提供了支持。

      3.知識資源自動化標(biāo)引方法研究

      為了實(shí)現(xiàn)知識資源自動化高效標(biāo)引,最大程度減少人為操作,使知識資源及時發(fā)布并得到有效利用,需配合相關(guān)計(jì)算機(jī)輔助系統(tǒng)進(jìn)行操作。自動標(biāo)引一般針對關(guān)鍵詞或主題進(jìn)行標(biāo)引,通過從知識資源中提取出一組能最大程度上概括其內(nèi)容特征、可作為用戶檢索入口的關(guān)鍵性信息,用該組信息對知識資源進(jìn)行標(biāo)引,使用戶通過輸入關(guān)鍵信息檢索到該文檔的簡要信息。清華同方有限公司開發(fā)的“STM 中文智能信息處理平臺”可實(shí)現(xiàn)以上目標(biāo),配合“KBase 全文數(shù)據(jù)庫管理系統(tǒng)”“TPI信息資源建設(shè)與管理系統(tǒng)”,實(shí)現(xiàn)數(shù)據(jù)庫建設(shè)、資源上傳及發(fā)布、資源標(biāo)引及使用一系列知識管理功能。

      通過建立數(shù)據(jù)庫的方式,確定標(biāo)引字段并上傳數(shù)字知識資源,通過“STM 中文智能信息處理平臺”中的字符識別技術(shù),利用各種模式識別算法分析文字形態(tài)特征,判斷文字的標(biāo)準(zhǔn)編碼;按通用格式存儲為計(jì)算機(jī)的文本文件,實(shí)現(xiàn)讓計(jì)算機(jī)認(rèn)字、文字自動輸入的過程。該技術(shù)已達(dá)到中文識別實(shí)用化成熟程度,準(zhǔn)確性高。

      基于用戶行為分析、知網(wǎng)平臺功能情況,從選詞標(biāo)引、全文標(biāo)引和關(guān)鍵詞標(biāo)引3 種標(biāo)引方式對該平臺對知識資源自建庫自動標(biāo)引工作需求的全覆蓋進(jìn)行探索。

      一是選詞標(biāo)引方式。基于“STM 中文智能信息處理平臺”,對可以直接引用知識資源的內(nèi)容作為標(biāo)引內(nèi)容的題名字段、作者字段、機(jī)構(gòu)字段、時間字段、摘要字段。通過平臺的“選擇取詞”“畫框取詞”等方式,利用字符識別技術(shù)(OCR)對適量文字及段落文字進(jìn)行識別認(rèn)字并完成標(biāo)引內(nèi)容的自動化填充,相較于人工輸入標(biāo)引內(nèi)容,選詞標(biāo)引更加高效。

      二是全文標(biāo)引方式。全文標(biāo)引若采用人工標(biāo)引的方式,其難度難以想象,尤其是對于長篇的知識資源或文字信息不可采集的情況。全文標(biāo)引唯一作用于全文檢索,該檢索方式始于20 世紀(jì)90 年代,最顯著的特點(diǎn)是提供對海量數(shù)據(jù)的管理與快速查詢,“文海撈針”是對全文檢索的形象描述。全文檢索的內(nèi)含主要體現(xiàn)為待檢索的源數(shù)據(jù)、檢索對象是全文,使用的檢索方式為針對全文匹配,檢索結(jié)果是全文信息,需要將知識資源內(nèi)所有文字內(nèi)容設(shè)置為標(biāo)引字段。通過ORC 字符識別技術(shù),全文標(biāo)引的難題迎刃而解。

      三是關(guān)鍵詞類標(biāo)引方式。一般而言,知識資源中的關(guān)鍵詞是文獻(xiàn)核心內(nèi)容的濃縮與提煉,關(guān)鍵詞的標(biāo)引對檢索質(zhì)量有至關(guān)重要的作用。從用戶的檢索習(xí)慣看,通過關(guān)鍵詞檢索的用戶僅有1%。導(dǎo)致這一現(xiàn)象的問題在于關(guān)鍵詞檢索必須確保檢索詞與關(guān)鍵詞之間的準(zhǔn)確性,知識資源自帶關(guān)鍵詞由資源作者提供,數(shù)量較少,出現(xiàn)偏差會導(dǎo)致檢索反饋。為此,如何豐富關(guān)鍵詞一直是標(biāo)引工作急需解決的問題,如通過人工標(biāo)引的方式再次提取知識資源關(guān)鍵詞將大幅增加標(biāo)引的難度,實(shí)現(xiàn)關(guān)鍵詞自動化標(biāo)引。

      關(guān)鍵詞作為整篇知識資源的核心,一般在整篇文獻(xiàn)中的出現(xiàn)頻率占有很大比重,重復(fù)次數(shù)越高則越可能是知識資源的關(guān)鍵詞。為此,詞頻分析方法也成為了最常用的關(guān)鍵詞提取方式之一。如采取有效的技術(shù)手段將知識資源進(jìn)行詞頻統(tǒng)計(jì)的話,則可以有效地將知識資源中出現(xiàn)頻率最多的詞語進(jìn)行提取并篩選成為新關(guān)鍵詞?!癝TM 中文智能信息處理平臺”可有效解決這一問題。通過“STM 中文智能信息處理平臺”的自然語言處理引擎與智能文本挖掘引擎,充分利用中國知網(wǎng)海量語料資源以及全學(xué)科概念關(guān)系詞典,有效實(shí)現(xiàn)歧義切分和詞語辨識,實(shí)現(xiàn)“關(guān)鍵詞自動標(biāo)引”功能。該功能可規(guī)定關(guān)鍵詞提取的數(shù)量、標(biāo)引源、關(guān)鍵詞輸出字段,最終實(shí)現(xiàn)基于詞頻的關(guān)鍵詞自動標(biāo)引。

      4.知識資源自動化標(biāo)引流程

      一是知識資源數(shù)據(jù)庫的建立。利用“TPI 信息資源建設(shè)與管理系統(tǒng)”,根據(jù)知識資源類型建立相應(yīng)數(shù)據(jù)庫,用于對知識資源進(jìn)行整體分類。數(shù)據(jù)庫建立可依據(jù)知識資源類型或知識資源專業(yè)或?qū)n}進(jìn)行個性化建設(shè)。

      二是標(biāo)引字段的選取。數(shù)據(jù)庫建立過程中,需選取通用于該數(shù)據(jù)庫的標(biāo)引字段,標(biāo)引字段的選取可依據(jù)知識資源類型列舉的字段,也可自行編制標(biāo)引字段的名稱、規(guī)定字段長度、設(shè)置是否必填。

      三是標(biāo)引文本的導(dǎo)入。數(shù)據(jù)庫建立完畢后,向數(shù)據(jù)庫內(nèi)導(dǎo)入待標(biāo)引文獻(xiàn)文本,文獻(xiàn)文本格式為PDF。

      四是基本標(biāo)引字段的標(biāo)引。數(shù)據(jù)庫建立完畢導(dǎo)入待標(biāo)引知識資源后,通過“STM 中文智能信息處理平臺”對知識資源進(jìn)行標(biāo)引,待標(biāo)引字段為建立數(shù)據(jù)庫過程中所選取的標(biāo)引字段。選擇待標(biāo)引字段后,利用系統(tǒng)自帶的取詞功能,在知識資源文本內(nèi)進(jìn)行選取,通過ORC 識別后轉(zhuǎn)化為文字編碼并自動完成字段值填充。

      五是關(guān)鍵詞類字段的標(biāo)引。關(guān)鍵詞自動提取需要利用“QBE 數(shù)據(jù)查詢工具”,此工具可實(shí)現(xiàn)對同一數(shù)據(jù)庫下的所有知識資源同時進(jìn)行關(guān)鍵詞自動提取。提取前可配置關(guān)鍵詞的提取數(shù)量、多個標(biāo)引源以及輸出結(jié)果的標(biāo)引字段,系統(tǒng)將根據(jù)系統(tǒng)詞表對選取的標(biāo)引源進(jìn)行處理,提取關(guān)鍵詞并反饋填充至相應(yīng)的標(biāo)引字段。

      六是人工校驗(yàn)。完成所有標(biāo)引字段的標(biāo)引工作后,工作人員通過“STM 中文智能信息處理平臺”查看關(guān)鍵詞自動提取后的結(jié)果,對標(biāo)引結(jié)果進(jìn)行審核與修訂,確保所有標(biāo)引字段完成無誤后保存,完成標(biāo)引工作。

      二、 實(shí)踐效果及后續(xù)思路

      經(jīng)過該項(xiàng)目實(shí)施,基本實(shí)現(xiàn)了研究院自有特色數(shù)據(jù)庫建設(shè)從無到有的里程碑變化,開啟了圖書館知識資源自建庫時代?;趫D書館自主開發(fā)和收集的知識資源和同方、知網(wǎng)的“TPI 信息資源建設(shè)與管理系統(tǒng)”進(jìn)行知識資源導(dǎo)入、標(biāo)引及發(fā)布。

      1.實(shí)現(xiàn)了知識資源數(shù)據(jù)庫集中管理

      基于研究院航天運(yùn)輸總體技術(shù)論文集、研究院新型動力技術(shù)及應(yīng)用論文集、研究院仿真與虛擬實(shí)驗(yàn)技術(shù)論文集、高空風(fēng)修正資訊、新智能技術(shù)發(fā)展資訊、國內(nèi)外航天政策資訊、伺服資訊等,進(jìn)行數(shù)據(jù)庫建設(shè)、數(shù)據(jù)標(biāo)引以及歸類發(fā)布。通過“KBase全文數(shù)據(jù)庫管理系統(tǒng)”建立“航天運(yùn)輸總體技術(shù)”“新型動力技術(shù)及應(yīng)用”“仿真與虛擬實(shí)驗(yàn)技術(shù)”、高空風(fēng)修正資訊、新智能技術(shù)發(fā)展資訊、國內(nèi)外航天政策資訊等數(shù)據(jù)庫。建庫完畢后,依據(jù)標(biāo)引字段選取內(nèi)容,結(jié)合知識資源實(shí)際設(shè)置數(shù)據(jù)庫標(biāo)引字段。該項(xiàng)目一期共建設(shè)27 個數(shù)據(jù)庫,所選取的標(biāo)引字段取自于已有知識資源類型模板內(nèi)的字段,選取過程中可對字段屬性進(jìn)行編輯,更改字段名稱、字段長度以及是否空項(xiàng)或必備。

      標(biāo)引字段選取完畢后,即可向數(shù)據(jù)庫內(nèi)添加知識資源,開展標(biāo)引工作。除此之外,數(shù)據(jù)庫管理支持分類導(dǎo)航功能,可對單一數(shù)據(jù)庫進(jìn)行知識資源分類,如依據(jù)研究院航天運(yùn)輸總體技術(shù)專業(yè)組會議集自有分類,新建“發(fā)展戰(zhàn)略”及“關(guān)鍵技術(shù)”兩類導(dǎo)航。

      2.完成知識資源標(biāo)引,將技術(shù)研究轉(zhuǎn)化為項(xiàng)目實(shí)踐

      完成數(shù)據(jù)庫建設(shè)及知識資源導(dǎo)入后即可通過“STM 中文智能信息處理平臺”逐一對知識資源進(jìn)行標(biāo)引。文本區(qū)顯示所需標(biāo)引的知識資源文本,編目區(qū)展示知識資源所在的數(shù)據(jù)庫設(shè)置的所有標(biāo)引字段,選擇相應(yīng)標(biāo)引字段后可于文本區(qū)內(nèi)選詞或框詞進(jìn)行填充,填充內(nèi)容在標(biāo)引數(shù)據(jù)區(qū)展示并可進(jìn)行二次編輯。

      相較于傳統(tǒng)的手工標(biāo)引,使用“STM 中文智能信息處理平臺”能夠有效實(shí)現(xiàn)標(biāo)引過程與標(biāo)引結(jié)果輸出的一體化。標(biāo)引過程中,提取知識資源原文的標(biāo)引數(shù)據(jù)標(biāo)引操作簡單,無需進(jìn)行二次核對,在標(biāo)引速度和文字處理效率上有顯著提升。

      除提取來源于知識資源內(nèi)的標(biāo)引內(nèi)容外,為實(shí)現(xiàn)知識資源檢索的全面性,還需對特定的標(biāo)引字段進(jìn)行補(bǔ)充,其中關(guān)鍵詞標(biāo)引字段可采取自動化標(biāo)引操作。關(guān)鍵詞擴(kuò)充是利用“QBE 數(shù)據(jù)查詢工具”執(zhí)行,可對單個數(shù)據(jù)庫內(nèi)的所有知識資源進(jìn)行批量操作,通過設(shè)置關(guān)鍵詞提取個數(shù),選取需操作的數(shù)據(jù)庫表,選擇關(guān)鍵詞的提取位置,提取關(guān)鍵詞輸出字段位置,最終獲取由系統(tǒng)根據(jù)詞表所獲取的關(guān)鍵詞,將反饋至對應(yīng)的標(biāo)引字段下。一般而言選擇提取的關(guān)鍵詞數(shù)量越多,提取的準(zhǔn)確性越差,且與知識資源自帶關(guān)鍵有重疊的情況時,需再次通過“STM 中文智能信息處理平臺”進(jìn)行二次篩選。

      主題檢索通過設(shè)置主題標(biāo)引字段可實(shí)現(xiàn)用戶的前端檢索操作,為達(dá)到標(biāo)引的快速簡便化,主題標(biāo)引暫采用“題名+摘要+關(guān)鍵詞”的標(biāo)引方式,即主題標(biāo)引的內(nèi)容涵蓋題名、摘要、關(guān)鍵詞的標(biāo)引內(nèi)容。

      該項(xiàng)目實(shí)施可以將組織內(nèi)部大量長期存儲的有效的知識資源進(jìn)行標(biāo)引,發(fā)布提供使用,大大提高了內(nèi)部知識資源的利用效率,也有利于知識資源的延續(xù)和傳承,特別是專題數(shù)據(jù)庫的建成,可有效服務(wù)于組織內(nèi)部各項(xiàng)目建設(shè)。

      3.實(shí)現(xiàn)知識資源發(fā)布,為科技工作者提供自有資源統(tǒng)一檢索的平臺

      實(shí)現(xiàn)對所發(fā)布的數(shù)據(jù)庫的集中展示;對一個或多個數(shù)據(jù)庫內(nèi)知識資源進(jìn)行檢索;合并多個數(shù)據(jù)庫形成專題展示。這些功能可基于后臺管理進(jìn)行個性化配置,配置內(nèi)容包括數(shù)據(jù)庫發(fā)布,使“TPI信息資源建設(shè)與管理系統(tǒng)”關(guān)聯(lián)數(shù)據(jù)庫;發(fā)布設(shè)置,配置單個數(shù)據(jù)庫的檢索字段、概覽字段、細(xì)覽字段等;跨庫檢索設(shè)置,使多個數(shù)據(jù)庫進(jìn)行統(tǒng)一檢索。

      目前該項(xiàng)目建設(shè)僅涉及數(shù)據(jù)庫的建設(shè),由于經(jīng)費(fèi)及建設(shè)周期等原因,內(nèi)外部知識資源跨庫檢索功能的建設(shè)將依托其它項(xiàng)目逐步實(shí)現(xiàn)。

      4.后續(xù)思路

      研究院圖書館利用TPI 建庫向?qū)?chuàng)建數(shù)據(jù)庫,開展知識資源標(biāo)引,明確標(biāo)引字段項(xiàng)目,著重研究關(guān)鍵詞標(biāo)引方法,嚴(yán)格關(guān)鍵詞選詞規(guī)范與校驗(yàn),以便用戶能高效檢索所需的知識資源,該項(xiàng)目實(shí)施在各專業(yè)領(lǐng)域具有很好的應(yīng)用場景。但是,知識資源標(biāo)引工作是一個長期繁瑣的工程,目前該系統(tǒng)自帶的概念詞典還無法完全滿足關(guān)鍵詞提取的準(zhǔn)確性,只有通過不斷對知識資源進(jìn)行數(shù)據(jù)分析及機(jī)器學(xué)習(xí),逐漸形成研究院自建庫專業(yè)詞表,才能持續(xù)不斷推進(jìn)此項(xiàng)工作長遠(yuǎn)發(fā)展?;诖?,該項(xiàng)目第一階段實(shí)施之后,不斷提升用戶對自動標(biāo)引和機(jī)器學(xué)習(xí)的認(rèn)識,并不斷積累和完善豐富研究院自有專業(yè)數(shù)據(jù)庫,依然是圖書館未來為之不懈努力的目標(biāo)。

      猜你喜歡
      標(biāo)引字段研究院
      圖書館中文圖書編目外包數(shù)據(jù)質(zhì)量控制分析
      北京食品科學(xué)研究院
      肉類研究(2022年5期)2022-06-16 05:53:24
      工程技術(shù)研究院簡介
      從心所欲不逾矩——為中國戲曲研究院成立70周年作
      戲曲研究(2021年3期)2021-06-05 07:06:46
      不是我!是他搗亂!
      檔案主題標(biāo)引與分類標(biāo)引的比較分析
      本刊對來稿中關(guān)鍵詞標(biāo)引的要求
      本刊對來稿中關(guān)鍵詞標(biāo)引的要求
      CNMARC304字段和314字段責(zé)任附注方式解析
      無正題名文獻(xiàn)著錄方法評述
      平果县| 海原县| 涞源县| 景东| 富平县| 海晏县| 十堰市| 玛纳斯县| 通州市| 仁化县| 克什克腾旗| 庄河市| 甘泉县| 南充市| 黎平县| 大余县| 洛隆县| 保亭| 思南县| 仁怀市| 荣成市| 准格尔旗| 甘洛县| 丹寨县| 益阳市| 晋州市| 张北县| 秭归县| 龙州县| 丹凤县| 平昌县| 达孜县| 葵青区| 焉耆| 阿图什市| 洛阳市| 蒙自县| 松溪县| 封开县| 武平县| 宜宾市|