摘要:文章對(duì)領(lǐng)域主題詞表構(gòu)建技術(shù)及專業(yè)詞庫生成方法進(jìn)行了調(diào)研,在現(xiàn)有查新報(bào)告中人工專家學(xué)術(shù)關(guān)鍵詞整理基礎(chǔ)上,提出了構(gòu)建嵌入科技創(chuàng)新流程的科技查新領(lǐng)域主題詞輔助系統(tǒng),借助該系統(tǒng),實(shí)現(xiàn)查新關(guān)鍵詞語義匹配及自動(dòng)擴(kuò)展、相關(guān)文獻(xiàn)潛在主題挖掘以及檢索詞智能抽取功能,以期更好地開展科技查新服務(wù),提高查新效率與智能化水平。
關(guān)鍵詞:科技查新;查新助手;輔助系統(tǒng);領(lǐng)域主題詞;詞表構(gòu)建技術(shù)
中圖分類號(hào):G252.62;G258.6 文獻(xiàn)標(biāo)志碼:A文獻(xiàn)標(biāo)志碼
0 引言
隨著ChatGPT的興起以及大語言模型在圖書館的智能化應(yīng)用,科技查新工作面臨著前所未有的挑戰(zhàn)。在過去,科技查新工作完全依賴于查新員的經(jīng)驗(yàn)以及專家的專業(yè)知識(shí),查新員在各個(gè)數(shù)據(jù)庫系統(tǒng)中檢索文獻(xiàn),經(jīng)過專家輔助做出對(duì)比分析結(jié)論。近年來,查新輔助系統(tǒng)的陸續(xù)出現(xiàn)開啟了查新報(bào)告撰寫與查新流程自動(dòng)化管理的未來,查新工作逐漸信息化、智能化,效率不斷提升。
查新輔助系統(tǒng)是一種基于人工智能技術(shù)的創(chuàng)新工具,可以是翻譯助手、關(guān)鍵詞助手、去重助手,理論上講,未來的查新助手可以做到能夠通過分析大量的文獻(xiàn)和數(shù)據(jù),快速準(zhǔn)確地判斷某項(xiàng)科技成果是否具有新穎性和創(chuàng)新性。然而,盡管查新輔助系統(tǒng)的出現(xiàn)給科技查新工作帶來了巨大的機(jī)遇,也帶來了一些挑戰(zhàn),對(duì)于高度依賴經(jīng)驗(yàn)與專業(yè)知識(shí)的檢索詞抽取與檢索策略構(gòu)建部分,沒有一定數(shù)量的專家詞庫與敘詞表技術(shù),無法真正實(shí)現(xiàn)查新檢索詞的自動(dòng)化構(gòu)建,也就無法平衡檢索結(jié)果的查全率與查準(zhǔn)率,影響項(xiàng)目的新穎性鑒定。針對(duì)上述問題,本文以東北大學(xué)科技查新輔助系統(tǒng)為實(shí)例,嵌入科技創(chuàng)新流程,開發(fā)了基于領(lǐng)域主題詞表的查新輔助系統(tǒng),從而提高查新效率,使查新工作向?qū)I(yè)化、智能化方向發(fā)展。
1 研究現(xiàn)狀
科技查新經(jīng)歷了從傳統(tǒng)手工查新階段到計(jì)算機(jī)輔助查新、網(wǎng)絡(luò)化查新、智能化查新、個(gè)性化查新,到現(xiàn)如今協(xié)同化查新階段,各種輔助查新系統(tǒng)應(yīng)運(yùn)而生。
2000年以后,科技查新項(xiàng)目管理系統(tǒng)開始集成MS Word,如甘肅省科學(xué)技術(shù)情報(bào)研究所科技查新合同自動(dòng)生成模塊[1]、東北大學(xué)科技查新格式自動(dòng)化輔助系統(tǒng)等;2005年以后,各查新站開始搭建基于Web的查新工作環(huán)境,將查新員在工作當(dāng)中經(jīng)常使用的查新工具集成到系統(tǒng)中,如北京大學(xué)圖書館查新信息管理系統(tǒng)[2]、清華大學(xué)科技查新系統(tǒng)[3];2015年以后,隨著人工智能技術(shù)的發(fā)展,科技查新輔助系統(tǒng)開始引入智能檢索、自然語言處理、知識(shí)圖譜等技術(shù),實(shí)現(xiàn)對(duì)海量信息的智能分析和挖掘,如基于J2EE和JADE的科技查新可視化分析系統(tǒng)[4]、基于Lucene的科研查新系統(tǒng)[5]、基于Solr的科技成果查新系統(tǒng)[6],通過構(gòu)建領(lǐng)域庫輔助檢索系統(tǒng)對(duì)以往查新項(xiàng)目進(jìn)行智能檢索,匹配檢索近義詞;近年來,查新用戶覆蓋范圍越來越廣,查新業(yè)務(wù)量逐年遞增,科技查新輔助系統(tǒng)開始提供個(gè)性化的查新服務(wù),以提高查新員的工作效率,如哈爾濱工業(yè)大學(xué)中文查新智能去重系統(tǒng)[7]、清華大學(xué)檢索數(shù)據(jù)去重、近義詞檢索庫等查新助手,以及解決異構(gòu)數(shù)據(jù)庫數(shù)據(jù)集成和“一站式”訪問問題的科技查新輔助檢索資源發(fā)現(xiàn)系統(tǒng)[8-9];2020年以后,隨著大語言模型在圖書館咨詢服務(wù)中的應(yīng)用,科技查新進(jìn)入人機(jī)協(xié)作階段,如基于主題模型的查新輔助分析系統(tǒng)[10]、問答系統(tǒng)、委托書分析系統(tǒng)、文獻(xiàn)比對(duì)系統(tǒng)等科技查新輔助系統(tǒng)群[11]。
2 科技查新中的領(lǐng)域主題詞表研究現(xiàn)狀
2.1 詞表
狹義的詞表(受控詞表,如敘詞表等)一般稱為主題詞表;廣義的詞表(包括分類法、敘詞表、語義網(wǎng)絡(luò)和本體等類型)是包含了上下位關(guān)系與相關(guān)關(guān)系的敘詞表。
2.2 領(lǐng)域主題詞表
主題詞有多種表現(xiàn)形式,最常見的有敘詞與關(guān)鍵詞,前者為受控語言,后者為自然語言。因?yàn)閿?shù)據(jù)庫知識(shí)組織多采用自然語言與受控語言結(jié)合的方式,因此在科技查新工作中,多采用“關(guān)鍵詞法+敘詞法”來提高某一主題領(lǐng)域文獻(xiàn)的查全率。但由于關(guān)鍵詞法為自然語言,自然語言在檢索式中的表達(dá)沒有統(tǒng)一的規(guī)范,須要查新員在對(duì)查新課題了解的基礎(chǔ)上,盡量擴(kuò)展同義詞、近義詞與相關(guān)詞以及全稱、簡(jiǎn)稱、縮寫與代碼,以避免漏檢與誤檢,同時(shí)消除與課題不相關(guān)的歧義詞與噪聲詞。因此,為了提高查新效率,各大查新機(jī)構(gòu)紛紛開展了領(lǐng)域主題詞表的研究,并設(shè)計(jì)出基于主題模型的查新輔助分析系統(tǒng),輔助查新員進(jìn)行文獻(xiàn)檢索與對(duì)比分析。
2.3 領(lǐng)域主題詞表發(fā)展趨勢(shì)
領(lǐng)域主題詞表的互操作研究(包括跨語言、多類型、多領(lǐng)域等異構(gòu)詞表間的互操作)一直是國(guó)內(nèi)外的研究熱點(diǎn)。
國(guó)內(nèi)主題詞表經(jīng)歷了領(lǐng)域化、與自然語言結(jié)合、本體化、可視化、異構(gòu)主題詞表關(guān)聯(lián)整合與多語言映射與互操作等階段。在主題詞表領(lǐng)域化階段,中國(guó)科學(xué)技術(shù)信息研究所利用開放語料庫,構(gòu)建檔案領(lǐng)域詞表自動(dòng)化輔助系統(tǒng)[12],賈冰[13]構(gòu)建了石墨烯領(lǐng)域的專用語料庫,李艷超等[14]構(gòu)建了醫(yī)學(xué)學(xué)科領(lǐng)域的檢索詞庫。近年來,主題詞表在領(lǐng)域化基礎(chǔ)上,逐漸向本體化發(fā)展,王汀等[15]利用領(lǐng)域主題詞表與網(wǎng)絡(luò)百科知識(shí)庫相融合的方式,構(gòu)建了大規(guī)模中國(guó)電子政務(wù)領(lǐng)域本體;張磊[16]以《農(nóng)業(yè)科學(xué)敘詞表》和農(nóng)業(yè)領(lǐng)域文獻(xiàn)為基礎(chǔ)進(jìn)行了農(nóng)業(yè)領(lǐng)域本體半自動(dòng)構(gòu)建。在領(lǐng)域詞表可視化方面;王丹[17]基于領(lǐng)域信息源、文本關(guān)鍵詞以及主題詞表提取農(nóng)業(yè)機(jī)械領(lǐng)域本體核心概念并進(jìn)行可視化展示;謝澤宇等[18]利用國(guó)際淡水爭(zhēng)端分面分類詞表結(jié)合圖數(shù)據(jù)庫實(shí)現(xiàn)對(duì)分面本體知識(shí)的存儲(chǔ)以及可視化。在異構(gòu)主題詞表多語言映射互操作方面,石澤順等[19]利用SKOS模型對(duì)LISTA圖情學(xué)科敘詞屬性進(jìn)行映射,實(shí)現(xiàn)了圖情學(xué)科知識(shí)概念的中英文瀏覽、查詢和檢索;劉華梅等[20]以教育類數(shù)據(jù)為例,以《中分表》為核心,實(shí)現(xiàn)分類法、主題法之間互操作與智能信息檢索。
國(guó)外領(lǐng)域主題詞表包括術(shù)語表、敘詞表、主題詞表、分類表等,因敘詞表本身代表某領(lǐng)域知識(shí)體系和結(jié)構(gòu),所以也被廣泛用于國(guó)內(nèi)外科技查新中,以明確檢索關(guān)鍵詞、精確檢索結(jié)果。國(guó)外主要學(xué)科領(lǐng)域已形成相對(duì)權(quán)威的敘詞表,1800多部自然科學(xué)領(lǐng)域的知識(shí)組織體系全領(lǐng)域覆蓋,包括敘詞表447部、術(shù)語表和專業(yè)詞典1200多部、分類表78部[21],并且已經(jīng)在本體與知識(shí)圖譜構(gòu)建、詞典術(shù)語映射等方面有較為深入的研究。如工程領(lǐng)域的IEEE Thesaurus、Pubmed系統(tǒng)中的MeSH醫(yī)學(xué)主題詞表、美國(guó)化學(xué)文摘社的CA General Subject Headings、EBSCO的自然及社會(huì)學(xué)科Academic Search Premier Subject Terms、Business Thesaurus、Library Information Science & Technology Thesaurus等。
3 領(lǐng)域主題詞表構(gòu)建技術(shù)及應(yīng)用實(shí)例
3.1 傳統(tǒng)領(lǐng)域主題詞表構(gòu)建技術(shù)
傳統(tǒng)主題詞表(又稱敘詞表)最早作為檢索工具在圖書館興起,其制定多半依賴領(lǐng)域?qū)<遥绻樾聠T選取檢索詞與文獻(xiàn)標(biāo)引主題詞不一致,就會(huì)造成漏檢。于是計(jì)算機(jī)與圖書情報(bào)相關(guān)領(lǐng)域研究人員開始研究領(lǐng)域詞表的自動(dòng)構(gòu)建技術(shù)。國(guó)外研究學(xué)者早在20世紀(jì)70年代就已經(jīng)開始研究主題詞表的自動(dòng)構(gòu)建技術(shù)[22];隨著互聯(lián)網(wǎng)的興起,20世紀(jì)90年代開始,領(lǐng)域主題詞表的研究成為熱點(diǎn),如生物蠕蟲領(lǐng)域的主題詞表的自動(dòng)構(gòu)建[23]。2000年以后,隨著Web2.0技術(shù)的發(fā)展,基于自然語言處理(NLP)的敘詞表自動(dòng)構(gòu)建方法與基于Web挖掘的敘詞表構(gòu)建方法走進(jìn)圖情領(lǐng)域,NLP技術(shù)解決了圖情領(lǐng)域分詞、詞性標(biāo)注等自動(dòng)化處理問題,雖然有良好的文獻(xiàn)保障,但在語義關(guān)聯(lián)構(gòu)建方面較欠缺。
國(guó)內(nèi)領(lǐng)域主題詞表構(gòu)建技術(shù)起步較晚,但隨著人工智能技術(shù)的發(fā)展,以概念空間方法、共現(xiàn)分析方法、貝葉斯網(wǎng)絡(luò)方法為代表的詞表自動(dòng)構(gòu)建技術(shù)在科技查新服務(wù)中得到應(yīng)用,尤其是在術(shù)語自動(dòng)抽取與識(shí)別方面,如王培霞等[24]利用科技查新過程中檢出的實(shí)時(shí)相關(guān)語料作為領(lǐng)域知識(shí)來源,通過關(guān)鍵詞抽取、領(lǐng)域特征擴(kuò)展相結(jié)合的遞進(jìn)式迭代方法智能抽取科技查新某領(lǐng)域檢索詞。隨著大數(shù)據(jù)技術(shù)在圖書館的成熟應(yīng)用,基于主題模型(LDA)的查新輔助分析系統(tǒng)出現(xiàn)[10,25],是領(lǐng)域主題詞表在科技查新工作中應(yīng)用得最為普遍的模式。但無論是以詞頻共現(xiàn)分析法為代表的統(tǒng)計(jì)分詞方法,還是融合了查新員與用戶檢索策略的文本挖掘分析方法,都無法全面、動(dòng)態(tài)地展示詞間關(guān)系,對(duì)于查新員而言,無法通過傳統(tǒng)領(lǐng)域主題詞表直觀掌握領(lǐng)域主題上下位概念。
3.2 新興領(lǐng)域主題詞表構(gòu)建技術(shù)
隨著語義網(wǎng)、本體、關(guān)聯(lián)數(shù)據(jù)、可視化等知識(shí)組織技術(shù)的發(fā)展,領(lǐng)域主題詞表克服了深層語義關(guān)系匱乏、詞間關(guān)系不夠完善的問題。在敘詞表的語義化描述方面,SKOS作為一種傳統(tǒng)知識(shí)組織系統(tǒng)向關(guān)聯(lián)化數(shù)據(jù)發(fā)展的描述機(jī)制,解決了分布式領(lǐng)域主題詞表的互操作檢索問題,如王曉光等[26]采用SKOS模型進(jìn)行敘詞表的語義描述,構(gòu)建了敦煌壁畫敘詞表并進(jìn)行關(guān)聯(lián)數(shù)據(jù)發(fā)布。在敘詞表的領(lǐng)域本體自動(dòng)構(gòu)建技術(shù)方面,敘詞表逐步以關(guān)聯(lián)數(shù)據(jù)的形式發(fā)展為網(wǎng)絡(luò)敘詞表,實(shí)現(xiàn)基于專題或領(lǐng)域的語義檢索,如王汀等[15]提出了一種領(lǐng)域主題詞表與網(wǎng)絡(luò)百科知識(shí)庫相融合的兩階段領(lǐng)域本體自動(dòng)化構(gòu)建方案。在詞表的互操作與可視化技術(shù)方面,王曉光等[26]運(yùn)用深度學(xué)習(xí)工具將詞條進(jìn)行向量形式轉(zhuǎn)化,構(gòu)建了醫(yī)學(xué)詞表間的語義映射;喬波[27]采用BERT預(yù)訓(xùn)練的農(nóng)業(yè)實(shí)體關(guān)系聯(lián)合抽取模型BERT-BILSTM-LSTM建立了農(nóng)業(yè)知識(shí)圖譜可視化應(yīng)用系統(tǒng);陳歡歡[28]利用Jambalaya插件將圖書情報(bào)領(lǐng)域本體進(jìn)行可視化展示。
3.3 領(lǐng)域主題詞表應(yīng)用場(chǎng)景
隨著領(lǐng)域主題詞表逐漸網(wǎng)絡(luò)化、語義化與可視化,其在圖書館各項(xiàng)業(yè)務(wù)中均有應(yīng)用,包括書目數(shù)據(jù)關(guān)聯(lián)發(fā)布、特色文獻(xiàn)信息資源組織與檢索、術(shù)語服務(wù)、數(shù)字人文項(xiàng)目、數(shù)字資源信息共享建設(shè)、公共文化服務(wù)等。余凡[29]以測(cè)繪學(xué)敘詞表和文獻(xiàn)為例構(gòu)建了測(cè)繪學(xué)領(lǐng)域本體,對(duì)館藏資源深度聚合進(jìn)行了實(shí)證研究;周軍根等[30]在《海洋主題詞表》基礎(chǔ)上構(gòu)建了海洋領(lǐng)域本體,促進(jìn)信息共享;丁晟春等[31]利用OWL構(gòu)建了基于航天敘詞表的領(lǐng)域本體;金晶等[32]利用Protg本體開發(fā)工具構(gòu)建了基于主題詞表的政務(wù)領(lǐng)域本體;陳京蓮等[33]利用敘詞表構(gòu)建了領(lǐng)域本體,并應(yīng)用于宋代廬陵文化名人研究數(shù)據(jù)庫;王曉雪等[34]采用規(guī)則方法、K-means、KNN等構(gòu)建了公共文化領(lǐng)域詞表,形成術(shù)語詞典。
綜上所述,領(lǐng)域主題詞表無論是以傳統(tǒng)自然語言處理為代表的構(gòu)建技術(shù)還是以本體技術(shù)為代表的新興構(gòu)建技術(shù),都可以解決圖書館實(shí)際uVT0hH0bhU4isONb3Nep/DApBMolL5jQv25inMG+fss=業(yè)務(wù)中關(guān)于文獻(xiàn)資源深度揭示、語義檢索等實(shí)際問題。近年來領(lǐng)域主題詞表在向網(wǎng)絡(luò)化、語義化與可視化方向發(fā)展的過程中,也不斷有新技術(shù)加入,未來可能結(jié)合大語言模型ChatGPT,構(gòu)建端到端的對(duì)話系統(tǒng)。
4 基于領(lǐng)域主題詞表的科技查新輔助系統(tǒng)設(shè)計(jì)
4.1 嵌入創(chuàng)新流程的查新輔助系統(tǒng)
系統(tǒng)主要依靠以往查新報(bào)告構(gòu)建的動(dòng)態(tài)語料庫實(shí)現(xiàn)查新領(lǐng)域近義詞查詢功能和結(jié)果的可視化展示:(1)在課題委托初期,針對(duì)查新點(diǎn)修改與完善部分,構(gòu)建基于詞表的重點(diǎn)學(xué)科領(lǐng)域本體語義檢索功能,進(jìn)行基于控制科學(xué)與工程、冶金、材料、礦業(yè)工程等學(xué)科領(lǐng)域詞表的本體構(gòu)建實(shí)驗(yàn),不斷修正創(chuàng)新點(diǎn);(2)在檢索策略制定過程中,實(shí)現(xiàn)查新報(bào)告檢索詞智能抽取功能,用戶可以將委托單中的文本轉(zhuǎn)換成查新檢索詞,降低溝通成本,提高檢索效率;(3)在報(bào)告撰寫期間,實(shí)現(xiàn)查新密切相關(guān)文獻(xiàn)潛在主題挖掘功能,為撰寫查新結(jié)論提供參考。
4.2 基于領(lǐng)域主題詞表的科技查新輔助系統(tǒng)功能架構(gòu)
系統(tǒng)可以實(shí)現(xiàn)3個(gè)功能,分別為查新領(lǐng)域關(guān)聯(lián)詞系統(tǒng)、相關(guān)文獻(xiàn)潛在主題挖掘系統(tǒng)與檢索詞智能抽取系統(tǒng)(見圖1)。在查新領(lǐng)域關(guān)聯(lián)詞系統(tǒng)方面,以重點(diǎn)學(xué)科領(lǐng)域主題范圍科技查新報(bào)告、查新數(shù)據(jù)庫為主要數(shù)據(jù)源獲取術(shù)語,抽取相關(guān)主題領(lǐng)域查新概念,融入本體思想與可視化顯示技術(shù),采用自動(dòng)分詞工具進(jìn)行分詞,借助人工進(jìn)行半自動(dòng)詞性還原,構(gòu)建查新領(lǐng)域主題詞語料庫,開展面向用戶的科技查新近義詞庫構(gòu)建實(shí)驗(yàn)研究,實(shí)現(xiàn)查新近義詞檢索功能。在查新主題輔助分析系統(tǒng)方面,利用LDA、共詞等模型對(duì)查新員導(dǎo)出的文獻(xiàn)進(jìn)行主題挖掘,識(shí)別潛在主題,生成詞向量空間,對(duì)比委托課題的研究?jī)?nèi)容,輔助撰寫對(duì)比分析結(jié)論。在檢索詞智能抽取系統(tǒng)方面,利用TextRank算法抽取查新委托單中的術(shù)語、產(chǎn)品等概念,包括項(xiàng)目名稱、科學(xué)技術(shù)要點(diǎn)與查新點(diǎn),采用詞云的形式展現(xiàn)。
4.3 系統(tǒng)設(shè)計(jì)及實(shí)現(xiàn)
系統(tǒng)采用Python語言與JavaScript語言,在數(shù)據(jù)存儲(chǔ)方面采用MySQL數(shù)據(jù)庫。關(guān)鍵詞提取功能主要使用Python語言,利用正則表達(dá)式,將關(guān)鍵詞提取出來并保存到SQLite數(shù)據(jù)庫中,將輸入、詞匯抽取、構(gòu)建語料庫以及目標(biāo)查新詞的展示功能整合起來,平臺(tái)提供輸入界面,用戶輸入有效的科技查新技術(shù)性詞匯,系統(tǒng)在完成語料庫構(gòu)建的基礎(chǔ)上,最終將輸出目標(biāo)查新詞的相關(guān)信息以可視化的形式返回給用戶,即根據(jù)需求通過圖界面展示出來,同時(shí)根據(jù)用戶需求提供學(xué)術(shù)關(guān)鍵詞與網(wǎng)絡(luò)主題詞兩種或多種顯示方式。檢索詞抽取采用TextRank算法,潛在主題挖掘采用LDA模型,查詢系統(tǒng)采用B\S架構(gòu)、前后端分離的系統(tǒng)設(shè)計(jì),前端使用Vue框架以及Element Plus組件實(shí)現(xiàn),后端接口采用Nodejs以及Express實(shí)現(xiàn)。
5 結(jié)語
隨著高校學(xué)科服務(wù)逐漸轉(zhuǎn)向智慧化與智能化,科技查新作為工科高校圖書館學(xué)科服務(wù)的核心業(yè)務(wù),應(yīng)與時(shí)俱進(jìn)、加速發(fā)展。嵌入科技創(chuàng)新流程的查新輔助系統(tǒng)在傳統(tǒng)的人工構(gòu)建檢索策略、篩選文獻(xiàn)、撰寫分析結(jié)論的基礎(chǔ)上,構(gòu)建控制科學(xué)與工程、冶金、材料、礦業(yè)工程等學(xué)科領(lǐng)域主題詞表,采用人機(jī)結(jié)合的方式,融入查新點(diǎn)構(gòu)建、領(lǐng)域關(guān)鍵詞檢索、潛在主題挖掘的科技創(chuàng)新流程。該系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn),可提高科技查新服務(wù)效率,使圖書館學(xué)科服務(wù)在智慧服務(wù)背景下有可持續(xù)的發(fā)展。
參考文獻(xiàn)
[1]王權(quán),張纓,楊生舉,等.科技查新項(xiàng)目管理系統(tǒng)中嵌入Word的若干問題研究[J].甘肅科技,2006(11):73-74.
[2]盧振波,梁南燕,張春紅.論查新信息的規(guī)范管理:北京大學(xué)圖書館案例分析[J].現(xiàn)代情報(bào),2005(3):125-126.
[3]李鳳俠,戰(zhàn)玉華,趙軍平,等.清華大學(xué)科技查新系統(tǒng)的開發(fā)與實(shí)踐[J].大學(xué)圖書館學(xué)報(bào),2014(2):33-38.
[4]沈鏞.基于J2EE和JADE的科技查新可視化分析系統(tǒng)架構(gòu)研究[J].情報(bào)探索,2016(12):91-95.
[5]焦洋,王純,韓靜茹.基于Lucene的科研查新系統(tǒng)構(gòu)建[J].計(jì)算機(jī)技術(shù)與發(fā)展,2018(5):193-196,200.
[6]溫慧明,宮曉輝.基于Solr的科技成果查新系統(tǒng)的構(gòu)建研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2014(6):67-70.
[7]李雪婷,李莘,王曉丹.基于JAVA的圖書館中文查新智能去重系統(tǒng)的研究與實(shí)現(xiàn)[J].圖書館學(xué)研究,2013(17):56-58.
[8]陸文燕.基于中間件的科技查新輔助檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].蘇州:蘇州大學(xué),2011.
[9]王菁,王曉丹,田永梅,等.資源發(fā)現(xiàn)系統(tǒng)在科技查新工作中的應(yīng)用實(shí)踐[J].高校圖書館工作,2015(3):62-66.
[10]馬林山,郭磊.基于主題模型(LDA)的查新輔助分析系統(tǒng)設(shè)計(jì)研究[J].現(xiàn)代情報(bào),2018(2):111-115.
[11]范午攸.科技查新語義角色標(biāo)注及其在報(bào)告自動(dòng)生成系統(tǒng)中的應(yīng)用[J].圖書館學(xué)研究,2020(9):60-64,79.
[12]張昱,于薇.檔案領(lǐng)域詞表自動(dòng)化輔助構(gòu)建及知識(shí)組織應(yīng)用探析[J].數(shù)字圖書館論壇,2018(6):67-72.
[13]賈冰.專用語料庫在科技查新工作中的應(yīng)用[J].河南圖書館學(xué)刊,2018(3):109-111.
[14]李艷超,王艷,金新建.面向醫(yī)學(xué)學(xué)科領(lǐng)域的檢索詞庫構(gòu)建[J].醫(yī)學(xué)信息學(xué)雜志,2017(5):80-84.
[15]王汀,冀付軍.基于主題詞表與百科知識(shí)相融合的領(lǐng)域本體自動(dòng)構(gòu)建研究[J].情報(bào)學(xué)報(bào),2017(7):723-733.
[16]張磊.基于敘詞表和文獻(xiàn)數(shù)據(jù)庫的農(nóng)業(yè)領(lǐng)域本體構(gòu)建方法研究[D].北京:中國(guó)農(nóng)業(yè)科學(xué)院,2011.
[17]王丹.面向知識(shí)服務(wù)的農(nóng)業(yè)機(jī)械領(lǐng)域本體構(gòu)建研究[D].鎮(zhèn)江:江蘇大學(xué),2020.
[18]謝澤宇,施國(guó)良,楊漢鈺,等.國(guó)際淡水爭(zhēng)端領(lǐng)域分面本體構(gòu)建與應(yīng)用[J].情報(bào)雜志,2018(11):192-196.
[19]石澤順,肖明.基于網(wǎng)絡(luò)敘詞表的圖情學(xué)科SKOS構(gòu)建與可視化研究[J].情報(bào)學(xué)報(bào),2018(3):274-284.
[20]劉華梅,侯漢清.基于受控詞表互操作的集成詞庫構(gòu)建研究[J].中國(guó)圖書館學(xué)報(bào),2010(3):67-72.
[21]宋文,張士男.支持語義發(fā)現(xiàn)的集成知識(shí)組織體系研究[J].圖書情報(bào)導(dǎo)刊,2022(7):20-28.
[22]曾文,王惠臨.跨語言主題詞表自動(dòng)構(gòu)建技術(shù)研究[J].圖書情報(bào)工作,2011(4):106-109.
[23]CHEN H,NG T D,MARTINEZ J,et al. JA concept space approach to addressing the vocabulary problem in scientific information retrieval: an experiment on the worm community system[J].Journal of the American Society for Information Science,1997(48):17-31.
[24]王培霞,余海,陳力,等.科技查新中檢索詞智能抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].現(xiàn)代圖書情報(bào)技術(shù),2016(11):82-93.
[25]李美凝,張芹,張秀美.基于LDA主題模型的高??萍疾樾路?wù)新方法探索[J].圖書館雜志,2020(10):45-52,62.
[26]王曉光,侯西龍,程航航,等.敦煌壁畫敘詞表構(gòu)建與關(guān)聯(lián)數(shù)據(jù)發(fā)布[J].中國(guó)圖書館學(xué)報(bào),2020(4):69-84.
[27]喬波.基于農(nóng)業(yè)敘詞表的知識(shí)圖譜構(gòu)建技術(shù)研究[D].長(zhǎng)沙:湖南農(nóng)業(yè)大學(xué),2019.
[28]陳歡歡.圖書情報(bào)學(xué)領(lǐng)域本體的構(gòu)建研究[J].圖書館學(xué)研究,2011(21):11-16,26.
[29]余凡.領(lǐng)域本體構(gòu)建方法及實(shí)證研究:以測(cè)繪學(xué)領(lǐng)域?yàn)槔跠].武漢:武漢大學(xué),2018.
[30]周軍根,劉柏嵩.基于敘詞表的海洋領(lǐng)域本體構(gòu)建研究[J].寧波大學(xué)學(xué)報(bào)(理工版),2012(1):108-112.
[31]丁晟春,傅柱.基于航天敘詞表的領(lǐng)域本體半自動(dòng)化構(gòu)建研究[J].情報(bào)理論與實(shí)踐,2011(11):113-116.
[32]金晶,宋敏霞,徐晨琛,等.基于主題詞表的政務(wù)領(lǐng)域本體構(gòu)建[J].圖書情報(bào)工作,2010(8):16-20.
[33]陳京蓮,羅紅.基于敘詞表領(lǐng)域本體構(gòu)建在地方文獻(xiàn)數(shù)據(jù)庫中的應(yīng)用:以“宋代廬陵文化名人研究數(shù)據(jù)庫”為例[J].圖書館理論與實(shí)踐,2013(6):42-45.
[34]王曉雪,化柏林.基于多源數(shù)據(jù)融合的公共文化領(lǐng)域詞表構(gòu)建研究[J].圖書館雜志,2022(10):25-34,96.
Novelty retrieval auxiliary system embedded in scientific and technological innovation
process: development and practice of thesaurus in sci-tech novelty retrieval
field in Northeastern University Library
Abstract: This paper investigates the technology of constructing domain thesaurus and the method of generating specialized thesaurus. Based on the arrangement of academic keywords by artificial experts in existing novelty retrieval reports, it is proposed to construct an auxiliary system of subject words in sci-tech novelty retrieval domain embedded in sci-tech innovation process. With the help of this system, the functions of semantic matching and automatic expansion of novelty retrieval keywords, mining potential topics of related documents and intelligent extraction of search words can be realized, so as to better carry out sci-tech novelty retrieval services and improve novelty retrieval efficiency and intelligent level.
Key words: sci-tech novelty retrieval; novelty search assistant; auxiliary system; domain subject words; thesaurus construction technology