• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      面向科技文獻(xiàn)的國內(nèi)外知識挖掘研究熱點(diǎn)與展望

      2024-01-02 14:14:58孫盟盟奚洋洋
      河北科技圖苑 2023年5期
      關(guān)鍵詞:文獻(xiàn)計(jì)量

      孫盟盟 奚洋洋

      ★基金項(xiàng)目:本文系河北省社會科學(xué)發(fā)展研究課題“數(shù)字人文視域下高校圖書館特藏資源建設(shè)與服務(wù)策略研究”(20230303047)的研究成果。

      摘要:以WOS核心合集與CNKI數(shù)據(jù)庫作為數(shù)據(jù)來源,運(yùn)用文獻(xiàn)計(jì)量和內(nèi)容分析方法,借助Citespace、VOSviewer對國內(nèi)外關(guān)于科技文獻(xiàn)的知識挖掘研究情況進(jìn)行系統(tǒng)梳理。通過對發(fā)文趨勢、作者共現(xiàn)、機(jī)構(gòu)共現(xiàn)和關(guān)鍵詞共現(xiàn)進(jìn)行分析,揭示該領(lǐng)域的熱點(diǎn)主題與發(fā)展趨勢。研究發(fā)現(xiàn)關(guān)于科技文獻(xiàn)知識挖掘的熱點(diǎn)主題集中于面向科技創(chuàng)新的知識挖掘、知識產(chǎn)權(quán)與主題演化分析、細(xì)粒度知識抽取及知識關(guān)聯(lián)挖掘等方面。提出未來需要探索多樣化的知識挖掘方法,以更好地開發(fā)科技文獻(xiàn)價值的相關(guān)建議。

      關(guān)鍵詞:科技文獻(xiàn);知識挖掘;主題演化;文獻(xiàn)計(jì)量

      中圖分類號:G353.1??? 文獻(xiàn)標(biāo)識碼:A

      DOI:10.13897/j.cnki.hbkjty.2023.0078

      隨著科學(xué)技術(shù)的迅猛發(fā)展,知識更新迭代的周期不斷縮短??萍嘉墨I(xiàn)作為科學(xué)技術(shù)研究活動的成果記錄,每年的總體產(chǎn)出持續(xù)增長。據(jù)中國科學(xué)技術(shù)信息研究所發(fā)布的《2022年中國科技論文統(tǒng)計(jì)報告》顯示,我國在國際頂尖期刊中的論文數(shù)量繼續(xù)保持在世界第二位[1]。與此同時,根據(jù)WIPO公布的數(shù)據(jù),我國專利申請量已連續(xù)多年位居世界第一??萍嘉墨I(xiàn)作為表達(dá)科學(xué)機(jī)理、闡述研究思路以及展示科技成果的重要載體,其中蘊(yùn)含了豐富的知識,是科技創(chuàng)新活動中最重要的資源。因此,近年來諸多研究開始探索如何采用大數(shù)據(jù)技術(shù)深入挖掘、集成和利用海量的科技文獻(xiàn)資源,促進(jìn)知識發(fā)現(xiàn)、知識增值。而知識挖掘主要采用知識抽取、知識識別、知識發(fā)現(xiàn)、分類、聚類等技術(shù)方法,從龐大數(shù)據(jù)資源中自動發(fā)現(xiàn)隱藏的知識和信息,曾廣泛應(yīng)用于智能搜索、深度問答、社交網(wǎng)絡(luò)以及一些垂直行業(yè)。在此背景下,本文擬對國內(nèi)外關(guān)于科技文獻(xiàn)資源的知識挖掘理論、方法、技術(shù)等相關(guān)研究進(jìn)行進(jìn)一步梳理和總結(jié),以期為后續(xù)研究提供參考和借鑒。

      1? 數(shù)據(jù)來源與研究方法

      本研究選擇Web of Science核心合集數(shù)據(jù)庫作為外文文獻(xiàn)數(shù)據(jù)來源,從中國知網(wǎng)平臺獲取中文文獻(xiàn)。直接以“科技文獻(xiàn)知識挖掘”為主題進(jìn)行檢索,返回的結(jié)果較少,需要調(diào)整檢索策略進(jìn)行擴(kuò)檢??紤]到科技文獻(xiàn)的類型主要為科技論文、專利、科技報告,因此構(gòu)造中文檢索式為:((主題=科技文獻(xiàn)) OR (主題=科技論文) OR (主題=專利) OR (主題=科技報告) ) AND ((主題=挖掘) OR (主題=識別) OR (主題=抽?。?OR (主題=發(fā)現(xiàn)) OR (主題=分類) OR (主題=聚類)) AND (主題=知識),限定文獻(xiàn)類型為期刊論文。外文檢索式為(TS=(scientific paper) OR TS=(patent) OR TS=(scientific Report)) AND (TS=(mining)OR TS=(identify)OR TS=(extract)OR TS=(classify) OR TS=(cluster)) AND (TS=(knowledge)),限定文獻(xiàn)類型為Article,時間范圍不做設(shè)定,檢索時間為2023年5月31日。根據(jù)上述檢索策略,清除會議報道、資訊簡介、書評等,共獲得中文文獻(xiàn)1 121篇,外文文獻(xiàn)9 160篇。

      在研究方法上,本文采用文獻(xiàn)計(jì)量和圖譜可視化的方式對國內(nèi)外關(guān)于科技文獻(xiàn)知識挖掘的相關(guān)論文進(jìn)行分析。其中,針對發(fā)文趨勢、作者共現(xiàn)、機(jī)構(gòu)共現(xiàn)的分析通過Citespace進(jìn)行梳理;在分析熱點(diǎn)研究主題及應(yīng)用時,借助VOSviewer可視化工具進(jìn)行,對數(shù)據(jù)進(jìn)行布局,調(diào)整標(biāo)簽、節(jié)點(diǎn),最后根據(jù)圖譜總結(jié)歸納相關(guān)主題。

      2? 國內(nèi)外發(fā)文趨勢分析

      2.1? 年度發(fā)文量分析

      發(fā)文量的年度變化趨勢是衡量某一研究領(lǐng)域發(fā)展態(tài)勢的關(guān)鍵指標(biāo)[2]。關(guān)于科技文獻(xiàn)知識挖掘研究的國內(nèi)外論文發(fā)文時間如圖1所示,從圖1可看出國際上的相關(guān)研究最早可追溯到1994年前后,國內(nèi)大概始于2000年。早期研究主要以科技文獻(xiàn)資源的發(fā)現(xiàn)為主,國內(nèi)外年度產(chǎn)出整體呈穩(wěn)定增長態(tài)勢。2006年,我國召開全國科學(xué)技術(shù)大會,相關(guān)研究逐漸增多。從國際整體發(fā)文趨勢來看,2016年成為文獻(xiàn)激增的拐點(diǎn),大數(shù)據(jù)、人工智能技術(shù)的飛速發(fā)展,為科技文獻(xiàn)的知識挖掘提供了方法和技術(shù)支撐。2023年文獻(xiàn)量因未完整統(tǒng)計(jì)不作參考。可以預(yù)見,知識挖掘在未來很長一段時間內(nèi)都會是知識組織、知識服務(wù)等領(lǐng)域的研究重點(diǎn)。

      2.2? 研究作者及主要發(fā)文機(jī)構(gòu)分析

      2.2.1? 研究作者及共現(xiàn)分析

      普賴斯定律[2]可預(yù)測研究主題的核心作者群體,公式為:m≈0.749(Nmax )1/2,發(fā)文數(shù)超過m的作者即為核心作者,Nmax是最高產(chǎn)作者的發(fā)文數(shù)。根據(jù)檢索數(shù)據(jù),國內(nèi)發(fā)表文獻(xiàn)量排名前十的作者見表1,其中,黃魯成、蔡虹、許海云均發(fā)文11篇,計(jì)算可知滿足發(fā)文量超過 3 篇的核心作者共59位,累計(jì)發(fā)文194篇,約占全部發(fā)文的17.3%;國外發(fā)表文獻(xiàn)量排名前十的作者見表2,其中,Yoon Janghyeok發(fā)文18篇,計(jì)算可知滿足發(fā)文量超過4篇的核心作者共482位,累計(jì)發(fā)文1 958篇,約占全部發(fā)文的21.4%??傮w來看,國內(nèi)外均未形成核心作者群體。

      基于中國知網(wǎng)文獻(xiàn)數(shù)據(jù),使用Citespace設(shè)定時間節(jié)點(diǎn)為“2000年1月至2023年5月”,時間切片為“1年”,節(jié)點(diǎn)類型選擇“author”,生成國內(nèi)20多年科技文獻(xiàn)知識挖掘研究領(lǐng)域的作者合作網(wǎng)絡(luò)圖譜(圖2):節(jié)點(diǎn)數(shù)量N=198,連線數(shù)E=77,網(wǎng)絡(luò)密度D=0.0039,可見該研究領(lǐng)域的作者合作較少且分散;外文文獻(xiàn)數(shù)據(jù)分析保持其他參數(shù)及默認(rèn)值不變,設(shè)定時間節(jié)點(diǎn)為“1994年1月至2023年5月”,生成國外近30年相關(guān)研究領(lǐng)域的作者合作網(wǎng)絡(luò)圖譜(圖3):節(jié)點(diǎn)數(shù)量N=272,連線數(shù)E=387,網(wǎng)絡(luò)密度D=0.0105,該研究領(lǐng)域的國際學(xué)者已形成一定合作團(tuán)隊(duì),但仍有一部分研究者是獨(dú)立發(fā)表。

      2.2.2? 發(fā)文機(jī)構(gòu)及共現(xiàn)分析

      從發(fā)文機(jī)構(gòu)的文獻(xiàn)數(shù)量來看,國內(nèi)發(fā)文量排在前五位的機(jī)構(gòu)分別是中國科學(xué)院大學(xué)(43篇)、中國科學(xué)技術(shù)信息研究所(38篇)、大連理工大學(xué)(36篇)、北京工業(yè)大學(xué)(29篇)和中國科學(xué)院文獻(xiàn)情報中心(25篇),基本集中于北京地區(qū);國外發(fā)文量排在前五位的機(jī)構(gòu)分別為加州大學(xué)(197篇)、法國研究型大學(xué)聯(lián)盟(173篇)、倫敦大學(xué)(159篇)、法國國家科學(xué)研究中心(131篇)、哈佛大學(xué)(109篇),基本為歐美大學(xué)。

      對科技文獻(xiàn)知識挖掘研究進(jìn)行機(jī)構(gòu)共現(xiàn)網(wǎng)絡(luò)分析,保持其他參數(shù)不變,節(jié)點(diǎn)類型選擇“Institution”,國內(nèi)作者合作網(wǎng)絡(luò)圖譜如圖4所示(閾值設(shè)定為5),國外作者合作網(wǎng)絡(luò)圖譜如圖5所示(閾值設(shè)定為50)。從圖4可知,國內(nèi)發(fā)文機(jī)構(gòu)仍以獨(dú)立發(fā)文居多,機(jī)構(gòu)合作以中國科學(xué)技術(shù)信息研究所、中國科學(xué)院文獻(xiàn)情報中心為中心的合作網(wǎng)絡(luò)較為凸顯,區(qū)域內(nèi)合作僅凸顯出武漢地區(qū)的小范圍合作網(wǎng)絡(luò);從圖5中可看出,國外發(fā)文機(jī)構(gòu)間的合作較為普遍,以加州大學(xué)、倫敦大學(xué)、哈佛大學(xué)等形成的合作集群較為突出,形成了一定的研究合力。加州大學(xué)是多個研究機(jī)構(gòu)的連接紐帶。

      3? 科技文獻(xiàn)知識挖掘研究主題分析

      研究借助VOSviewer工具對論文關(guān)鍵詞進(jìn)行分析,構(gòu)建文獻(xiàn)共詞網(wǎng)絡(luò),洞悉該領(lǐng)域的熱點(diǎn)主題以及各主題之間的關(guān)系。具體實(shí)現(xiàn)過程為:中文分析所有文獻(xiàn);外文因數(shù)量較多,僅選取SSCI和SCI來源期刊的論文作為樣本數(shù)據(jù)。關(guān)鍵詞頻次設(shè)定為5,生成中文論文關(guān)鍵詞共現(xiàn)圖譜(圖6)和外文論文關(guān)鍵詞共現(xiàn)圖譜(圖7)。其中,元素的顏色代表所屬聚類,可看出國內(nèi)關(guān)于科技文獻(xiàn)知識挖掘研究的共同關(guān)注點(diǎn)集中于知識產(chǎn)權(quán)、專利、知識圖譜、科技文獻(xiàn)、數(shù)據(jù)挖掘、專利信息等;國外關(guān)注點(diǎn)集中于創(chuàng)新、專利、文獻(xiàn)計(jì)量學(xué)、系統(tǒng)評價、文本分析、氣候變化、藥用植物等。國內(nèi)外共同點(diǎn)在于:研究對象集中于知識產(chǎn)權(quán)、專利和科技論文,研究主題主要涉及科技文獻(xiàn)的技術(shù)創(chuàng)新、知識抽取、知識關(guān)聯(lián)、知識發(fā)現(xiàn)、分類與聚類、主題分析與演化等,采用方法主要包括文獻(xiàn)計(jì)量分析、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、內(nèi)容分析、社會網(wǎng)絡(luò)分析等。同時,可以看出國際上對科技文獻(xiàn)的知識挖掘已逐漸深入到細(xì)分學(xué)科領(lǐng)域,如醫(yī)學(xué)、生態(tài)學(xué)、藥理學(xué)等。

      根據(jù)圖譜揭示的研究概況,并對樣本文獻(xiàn)進(jìn)行內(nèi)容分析,可發(fā)現(xiàn)國內(nèi)外相關(guān)研究主題主要集中于科技創(chuàng)新的知識挖掘、知識產(chǎn)權(quán)與主題演化分析、基于機(jī)器學(xué)習(xí)的細(xì)粒度知識抽取、知識關(guān)聯(lián)挖掘與知識網(wǎng)絡(luò)構(gòu)建、科技文獻(xiàn)的分類與聚類五個方面。

      3.1? 面向科技創(chuàng)新的知識挖掘

      從圖6、7可看出,相關(guān)研究中“創(chuàng)新”這一關(guān)鍵詞出現(xiàn)頻率較高。從根本上而言,科學(xué)研究及對科研成果的知識挖掘都是為了促進(jìn)科技創(chuàng)新。因此,國內(nèi)外學(xué)者開展了較多支持科技創(chuàng)新的知識挖掘研究,具體包括對科技文獻(xiàn)中創(chuàng)新點(diǎn)的挖掘、技術(shù)創(chuàng)新識別、基于內(nèi)容的創(chuàng)新性測度等。針對創(chuàng)新點(diǎn)的挖掘,張楠等

      [3]以石墨烯領(lǐng)域的論文和專利為研究樣本,采用LDA2Vec主題模型和Kmeans聚類算法進(jìn)行了硬科技創(chuàng)新候選技術(shù)主題挖掘。R.K.Amplayo等[4]以arXiv中一定時間范圍內(nèi)的科技論文作為數(shù)據(jù)集,構(gòu)建了基于作者、關(guān)鍵詞、主題詞等實(shí)體的引用圖譜,當(dāng)新的論文被添加時,圖譜的變化會體現(xiàn)出該論文的創(chuàng)新點(diǎn),將其輸入自動編碼器神經(jīng)網(wǎng)絡(luò)中能實(shí)現(xiàn)創(chuàng)新檢測。針對創(chuàng)新技術(shù)的識別,周瀟等[5]以語音識別領(lǐng)域的專利文本數(shù)據(jù)為例,通過Word2Vec構(gòu)建領(lǐng)域技術(shù)主題的詞向量語義網(wǎng)絡(luò),并利用CFDP算法識別出潛在創(chuàng)新要素及組合方式。王金鳳等[6]構(gòu)建基于文本挖掘、機(jī)器學(xué)習(xí)算法及多維空間專利地圖的技術(shù)創(chuàng)新路徑識別模型。針對基于內(nèi)容的創(chuàng)新性測度,S.Shibayama等

      [7-8]依據(jù)論文所引參考文獻(xiàn)的篇名之間的語義距離、S.Uddin等綜合關(guān)鍵詞數(shù)量、長度以及新詞比例等指標(biāo)測度科技文獻(xiàn)的創(chuàng)新性。

      3.2? 知識產(chǎn)權(quán)與主題演化分析

      專利是科技文獻(xiàn)中應(yīng)用性極強(qiáng)的一部分,如何有效開展專利挖掘、執(zhí)行專利布局是知識產(chǎn)權(quán)戰(zhàn)略的重要一環(huán)。在專利挖掘領(lǐng)域,關(guān)鍵技術(shù)與主題演化分析作為科技文獻(xiàn)知識挖掘的一個重要研究方向,能夠幫助企業(yè)更好地開展專利布局,抓住市場機(jī)會[9]。因此,國內(nèi)外學(xué)者在該方面做出了諸多探索。如,A.Momeni[10]提出了一種基于專利發(fā)展路徑、k-core分析的主題建模方法,以識別光伏產(chǎn)業(yè)中有潛力產(chǎn)生決定性影響的技術(shù)。許學(xué)國等[11]基于機(jī)器學(xué)習(xí)和經(jīng)驗(yàn)?zāi)B(tài)分解方法,識別出了新能源汽車領(lǐng)域的20項(xiàng)核心技術(shù)。近年來,深度學(xué)習(xí)技術(shù)為科技文獻(xiàn)知識挖掘提供了更加智能的手段,楊辰等[12]利用Doc2vec模型結(jié)合基于密度的離群值檢測算法、黃魯成等[13]利用TF-IDF及ABOD異常點(diǎn)檢測方法識別出了具有潛在技術(shù)機(jī)會的異常專利。除了專利以外,同樣也有基于科技論文數(shù)據(jù)進(jìn)行關(guān)鍵技術(shù)識別的研究[14-15]。同時,也有學(xué)者將多種方法結(jié)合起來用于技術(shù)主題的演化分析,如綜合使用主題建模與社會網(wǎng)絡(luò)分析法識別基因編輯的核心主題、突出主題和新興主題,并預(yù)測基因編輯技術(shù)的未來發(fā)展趨勢[16];或通過Leiden算法識別技術(shù)主題,采用專利引文網(wǎng)絡(luò)分析發(fā)現(xiàn)決定性技術(shù)的主題演化趨勢[17]。

      3.3? 基于機(jī)器學(xué)習(xí)的細(xì)粒度知識抽取

      隨著自然語言處理技術(shù)的發(fā)展,對科技文獻(xiàn)的知識挖掘逐漸深入到細(xì)粒度的知識元,從章節(jié)、段落、句子到短語,實(shí)現(xiàn)了對科技文獻(xiàn)中的術(shù)語、技術(shù)要素、關(guān)系的抽取以及結(jié)構(gòu)功能的識別。采用方法主要有基于統(tǒng)計(jì)的、基于規(guī)則的及基于機(jī)器學(xué)習(xí)的方法,抽取對象既有科技論文也有專利文獻(xiàn)。如,S.Kaewphan等

      [18]利用深度學(xué)習(xí)模型CNN-BiLSTM-CRF,從生物醫(yī)學(xué)領(lǐng)域的科技論文中抽取分子、細(xì)胞和組織等實(shí)體。趙丹寧等[19-20]利用基于規(guī)則的方法從藥物代謝動力學(xué)文獻(xiàn)摘要中抽取了實(shí)驗(yàn)、藥物、給藥方式、藥物代謝力學(xué)參數(shù)等實(shí)驗(yàn)數(shù)據(jù),并采用LSTM、Attention機(jī)制等深度學(xué)習(xí)模型,自動抽取了非結(jié)構(gòu)式摘要中的“目的”“方法”“結(jié)果”三種結(jié)構(gòu)要素。Pang N等

      [21]提出了一種基于BERT-CRF模型的化學(xué)實(shí)體和關(guān)系抽取方法,從科技文獻(xiàn)中抽取了化合物、溶液、方法、反應(yīng)、化學(xué)鍵、PKA、PKA-VALUE 7類實(shí)體以及化學(xué)鍵能數(shù)據(jù)鏈。D.Zhao等[22]結(jié)合表征學(xué)習(xí)和多頭注意力機(jī)制,以生物醫(yī)學(xué)領(lǐng)域科技文獻(xiàn)為分析對象,實(shí)現(xiàn)了跨句子多元關(guān)系抽取。同時,也有較多研究探索了科技文獻(xiàn)結(jié)構(gòu)功能識別的方法,以滿足科研人員對科技文獻(xiàn)中部分特定知識的檢索,幫助他們快速獲取精細(xì)的知識點(diǎn)。比如,A.Varga A等[23]提出了一種用于篇章結(jié)構(gòu)識別的zoneLDA 模型。馬曉慧等[24]利用CNN、LSTM、BERT等深度學(xué)習(xí)模型,分別從句子、段落、章節(jié)內(nèi)容等層次對科技論文進(jìn)行了結(jié)構(gòu)功能識別。

      3.4? 知識關(guān)聯(lián)挖掘與知識網(wǎng)絡(luò)構(gòu)建

      知識關(guān)聯(lián)挖掘與知識網(wǎng)絡(luò)構(gòu)建常被用于發(fā)現(xiàn)科技文獻(xiàn)資源或內(nèi)部知識之間的潛在關(guān)聯(lián),在此基礎(chǔ)上進(jìn)行預(yù)測與知識推理,挖掘隱性知識。比如,范馨月等

      [25]以PubMed論文集為研究對象,采用文本挖掘方法,構(gòu)建了“藥物—副作用”的共現(xiàn)矩陣,進(jìn)而發(fā)現(xiàn)兩者之間的潛在關(guān)系。賈麗燕等[26]利用關(guān)聯(lián)規(guī)則分析方法,通過對醫(yī)療文獻(xiàn)的數(shù)據(jù)挖掘,發(fā)現(xiàn)了糖尿病視網(wǎng)膜病變的用藥規(guī)律。同時,也有研究從科技文獻(xiàn)資源縱向挖掘角度建立知識網(wǎng)絡(luò),根據(jù)知識網(wǎng)絡(luò)節(jié)點(diǎn)間錯綜復(fù)雜的關(guān)系進(jìn)一步發(fā)現(xiàn)核心的或隱含的知識點(diǎn)。如,王凱等[27]將文獻(xiàn)正文表示成一個以句子為節(jié)點(diǎn),句子間關(guān)聯(lián)為邊的文本關(guān)系網(wǎng)絡(luò),采用社會網(wǎng)絡(luò)分析方法挖掘出重要章節(jié)中的核心句。近年來,知識圖譜被廣泛用于科技文獻(xiàn)的知識組織與知識關(guān)聯(lián)中,以實(shí)現(xiàn)語義搜索、智能問答等知識服務(wù)。李星原等[28]以癲癇領(lǐng)域的相關(guān)論文作為數(shù)據(jù)集,構(gòu)建了多模態(tài)的知識圖譜,直觀地呈現(xiàn)了該領(lǐng)域醫(yī)療實(shí)體之間的關(guān)聯(lián)。A.Rossanez等[29]提出了一種基于規(guī)則的半自動方法,從一組生物醫(yī)學(xué)論文的摘要中識別生物醫(yī)學(xué)命名實(shí)體和關(guān)系,生成知識圖譜,并將其鏈接到生物醫(yī)學(xué)領(lǐng)域的本體中。鐘將等[30]以人工智能、大數(shù)據(jù)等領(lǐng)域的最新科技論文為語料集,從中提取知識三元組(涵蓋處理任務(wù)、處理方法、處理對象以及性能指標(biāo)4類實(shí)體以及包含、應(yīng)用、對比和同指4種關(guān)系),構(gòu)建了計(jì)算機(jī)領(lǐng)域知識圖譜。

      3.5? 科技文獻(xiàn)的分類與聚類

      科技文獻(xiàn)的分類和聚類是建立在對文本主題、內(nèi)容或?qū)傩赃M(jìn)行特征表示、特征選擇的基礎(chǔ)上實(shí)現(xiàn),進(jìn)而發(fā)現(xiàn)同類文獻(xiàn)之間潛在的相似模式??萍嘉墨I(xiàn)的分類對資源的檢索、篩選和推薦都有重要意義,而對科技文獻(xiàn)資源的聚類分析則被廣泛用于技術(shù)熱點(diǎn)的挖掘、價值評估等各個方面。分類和聚類一般基于文本內(nèi)容或主題,采用機(jī)器學(xué)習(xí)方法實(shí)現(xiàn)。肖悅珺等[31]以新能源汽車領(lǐng)域的專利文本作為實(shí)驗(yàn)數(shù)據(jù),利用BERT模型提取句子和重要專有名詞的特征表示向量,并根據(jù)文本特征結(jié)合專有名詞及其上下文語句信息對專利文本進(jìn)行分類。宮小翠等[32]提出了基于 Labeled LDA 主題模型的醫(yī)學(xué)文獻(xiàn)自動分類法。白思萌等[33]采用文本級超圖和交叉注意力機(jī)制捕捉科技文獻(xiàn)的組織結(jié)構(gòu)及語義語法信息,對生物醫(yī)學(xué)領(lǐng)域的文本進(jìn)行分類。J.Yun[34]根據(jù)科技文獻(xiàn)的共引網(wǎng)絡(luò)與共被引網(wǎng)絡(luò)的結(jié)構(gòu)信息進(jìn)行了文獻(xiàn)聚類。馬建紅等[35]采用信息實(shí)體語義增強(qiáng)表示(ERNIE)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)相結(jié)合的深度學(xué)習(xí)模型,提出了一種基于功效特征的跨領(lǐng)域?qū)@垲惖姆椒?。李玉等?6]通過DBSCAN聚類改進(jìn)了隨機(jī)森林算法,并將其用于專利的價值評估中。李俊州等[37]利用K-medoids聚類算法提出了一種針對科技文獻(xiàn)文本特征選擇的方法,實(shí)現(xiàn)文本內(nèi)容的特征降維。

      4? 結(jié)論與展望

      本研究借助Citespace、VOSviewer對科技文獻(xiàn)知識挖掘領(lǐng)域的發(fā)展現(xiàn)狀、熱點(diǎn)研究主題等進(jìn)行系統(tǒng)梳理和總結(jié),根據(jù)分析結(jié)果,主要提出以下建議:

      (1)整體來看,現(xiàn)階段正是科技文獻(xiàn)知識挖掘研究的白熱化時期,國內(nèi)外都應(yīng)加強(qiáng)多學(xué)科、多領(lǐng)域、跨區(qū)域間的合作交流,逐漸形成一批用于知識發(fā)現(xiàn)、知識檢索、知識推薦等領(lǐng)域的成熟技術(shù)與產(chǎn)品。

      (2)語義網(wǎng)、關(guān)聯(lián)數(shù)據(jù)、知識圖譜的發(fā)展,從語義層面為科技文獻(xiàn)的知識挖掘、組織、關(guān)聯(lián)提供了極大的技術(shù)支撐,但文獻(xiàn)內(nèi)容知識元間的聯(lián)系揭示仍然受自然語言處理、信息抽取、知識圖譜等技術(shù)和算法的限制,如自然語言處理技術(shù)中的文本匹配算法、情感分析算法等仍存在一定的誤差[38],復(fù)雜的非結(jié)構(gòu)化數(shù)據(jù)的信息抽取技術(shù)還需要依賴于大量的數(shù)據(jù)訓(xùn)練[39]等,需加強(qiáng)對新技術(shù)的關(guān)注及在人力、物力、財(cái)力方面的投入,推動數(shù)據(jù)處理、模型優(yōu)化和訓(xùn)練等研究的開展、普及與應(yīng)用。

      (3)機(jī)器學(xué)習(xí)與深度學(xué)習(xí)技術(shù)使得科技文獻(xiàn)的知識挖掘更加智能化,為科技文獻(xiàn)深度聚類研究提供了更多思路??萍嘉墨I(xiàn)的分類與聚類分析主要是建立在處理文本數(shù)據(jù)的基礎(chǔ)上,而對復(fù)雜的圖像、時序類數(shù)據(jù)的探索不足,可考慮利用深度神經(jīng)網(wǎng)絡(luò)等人工智能技術(shù)來提高聚類效果,發(fā)展到更多領(lǐng)域,更好地改變?nèi)藗兊纳a(chǎn)生活。

      研究發(fā)現(xiàn)當(dāng)前的科技文獻(xiàn)知識挖掘方法及其應(yīng)用仍處于初級探索階段,還存在較多亟待解決的問題,例如,如何開展跨領(lǐng)域的知識挖掘,如何提高知識挖掘方法的可移植性與準(zhǔn)確性等,未來還需要進(jìn)行更深入的研究。

      參考文獻(xiàn)

      [1]中國科學(xué)技術(shù)信息研究所.2022年中國科技論文統(tǒng)計(jì)報告發(fā)布

      [EB/OL].[2023-03-08].https://www.istic.ac.cn/html/1/284/338/1292211314138981529.html.

      [2]顧海,奉子嵐,吳迪,等.我國遠(yuǎn)程醫(yī)療研究現(xiàn)狀及趨勢——基于CiteSpace的文獻(xiàn)量化分析[J].信息資源管理學(xué)報,2020,10(4):119-129.

      [3]張楠,趙輝.基于論文—專利的石墨烯領(lǐng)域硬科技創(chuàng)新技術(shù)主題識別研究[J].高技術(shù)通訊,2021,31(8):892-900.

      [4]Amplayo R K , Hong S L , Song M . Network-based Approach to detect novelty of scholarly literature[J]. Information sciences, 2017(422):542-557.

      [5]周瀟,許銀彪,史益.基于深度學(xué)習(xí)與語義挖掘的技術(shù)創(chuàng)新組合識別與追蹤[J].圖書情報工作,2022,66(10):33-44.

      [6]王金鳳,徐正強(qiáng),馮立杰,等.基于多維空間專利地圖及可拓學(xué)的技術(shù)創(chuàng)新路徑識別與評價[J].科技管理研究,2022,42(8):8-17.

      [7]Shibayama S, Yin D, Matsumoto K.Measuring novelty in science with word Embedding[J].PLoS ONE, 2021,16(7):e0254034.

      [8]Uddin S, Khan A. The impact of author-selected keywords on citation counts[J].Journal of Informetrics, 2016, 10(4):1166-1177.

      [9]賈軍,魏潔云.新興產(chǎn)業(yè)核心技術(shù)早期識別方法與應(yīng)用研究[J].科學(xué)學(xué)研究,2018,36(7): 1206-1214.

      [10]MOMENI A, ROST K. Identification and monitoring of possible disruptive technologies by patent-development paths and topic modeling[J].Technological Forecasting and Social Change, 2016, 104:16-29.

      [11]許學(xué)國,桂美增.基于機(jī)器學(xué)習(xí)的新能源汽車核心技術(shù)識別及布局研究[J].科技管理研究,2021,41(9):96-106.

      [12]楊辰,王楚涵,陶琬瑩,等.基于專利的技術(shù)機(jī)會識別:深度學(xué)習(xí)領(lǐng)域的案例分析[J].科技管理研究,2021,41(12):172-176.

      [13]黃魯成,李曉宇,李晉.基于專利的ABOD-RFM技術(shù)機(jī)會識別方法研究[J].情報理論與實(shí)踐,2020,43(9):144-149.

      [14]Jia W, Xie Y, Zhao Y, et al. Research on Disruptive Technology Recognition of Chinas Electronic Information and Communication Industry Based on Patent Influence[J].Journal of Global

      Information Management,

      2021, 29(2):148-165.

      [15]Dotsika F, Watkins A. Identifying Potentially Disruptive Trends by Means of Keyword Network Analysis[J].Technological Forecasting Social Change, 2017(119): 114-127.

      [16]翟東升,金苑苑,徐碩,等.基于語義特征的潛在標(biāo)準(zhǔn)必要專利識別研究[J].科研管理,2022,43(3):183-191.

      [17]吳潔,桂亮,劉鵬.基于圖卷積網(wǎng)絡(luò)的高質(zhì)量專利自動識別方案研究[J].情報雜志,2022,41(1):88-95,124.

      [18]Liu J, Wei J, Liu Y. Technology Forecasting based on Topic Analysis and Social Network Analysis: A Case Study Focusing on Gene Editing Patents[J].JOURNAL OF SCIENTIFIC & INDUSTRIAL RESEARCH, 2021, 80(5):428-437.

      [19]李乾瑞,郭俊芳,黃穎,等.基于突變——融合視角的顛覆性技術(shù)主題演化研究[J].科學(xué)學(xué)研究,2021,39(12):

      2129-2139.

      [20]Kaewphan S, Hakala K, Miekka N, et al. Wide-scope Biomedical Named Entity Recognition and Normalization with CRFs,F(xiàn)uzzy Matching and Character Level Modeling[J]. Database:The Journal of Biological Databases and Curation, 2018(2018):1-10.

      [21]趙丹寧,牟冬梅,斯琴.研究型科技文獻(xiàn)的實(shí)驗(yàn)數(shù)據(jù)自動抽取研究——以藥物代謝動力學(xué)文獻(xiàn)為例[J].圖書館建設(shè),2017(12):33-38.

      [22]趙丹寧,牟冬梅,白森.基于深度學(xué)習(xí)的科技文獻(xiàn)摘要結(jié)構(gòu)要素自動抽取方法研究[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2021,5(7):70-80.

      [23]Pang N , Qian L , Lyu W , et al. Transfer Learning for Scientific Data Chain Extraction in Small Chemical Corpus with BERT-CRF Model: arXiv, 10.48550/arXiv.1905.05615[P]. 2019.

      [24]Zhao D , Wang J , Zhang Y , et al. Incorporating representation learning and multihead attention to improve biomedical cross-sentence n-ary relation extraction[J]. BMC Bioinformatics, 2020, 21(1):312.

      [25]Varga A , Preotiuc-Pietro D , Ciravegna F. Unsupervised document zone identification using probabilistic graphical models[C]// Eight International Conference on Language Resources & Evaluation. 2012:1610-1617.

      [26]馬曉慧,趙文娟,劉忠寶.基于深度學(xué)習(xí)的多學(xué)科多層次學(xué)術(shù)論文結(jié)構(gòu)功能識別方法比較研究[J].情報科學(xué),2021,39(8):94-102.

      [27]范馨月,崔雷.基于文本挖掘的藥物副作用知識發(fā)現(xiàn)研究[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2018,2(3):79-86.

      [28]賈麗燕,來保勇,趙楠琦,等.基于文獻(xiàn)數(shù)據(jù)挖掘的糖尿病視網(wǎng)膜病變中藥用藥關(guān)聯(lián)規(guī)則分析[J].中國中醫(yī)眼科雜志,2019,29(1):25-30.

      [29]王凱,孫濟(jì)慶,李楠.面向?qū)W術(shù)文獻(xiàn)的知識挖掘方法研究[J].現(xiàn)代情報,2017,37(5):47-51,110.

      [30]李星原,汪鵬,申牧,等.癲癇病相關(guān)論文多模態(tài)知識圖譜的構(gòu)建初探[J].北京郵電大學(xué)學(xué)報,2022,45(4):19-24.

      [31]RossanezA,Reis J D,Torres R,et al.KGen:a knowledge graph generator from biomedical scientific literature[J].BMC Medical Informatics and Decision Making, 2020, 20(S1):1-24.

      [32]鐘將,尹紅,張劍.基于學(xué)術(shù)知識圖譜的輔助創(chuàng)新技術(shù)研究[J].計(jì)算機(jī)科學(xué),2022,49(5): 194-199.

      [33]肖悅珺,李紅蓮,張樂,等.特征融合的中文專利文本分類方法研究[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2022,6(4):49-59.

      [34]宮小翠,安新穎,單連慧.基于Labeled LDA主題模型的醫(yī)學(xué)文獻(xiàn)自動分類法[J].中華醫(yī)學(xué)圖書情報雜志,2018,27(10):53-58.

      [35]白思萌,牛振東,何慧,等.基于超圖注意力網(wǎng)絡(luò)的生物醫(yī)學(xué)文本分類方法[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2022,6(11):13-24.

      [36]Yun J ,Ahn S , Lee J Y . Return to basics: Clustering of scientific literature using structural information[J]. Journal of Informetrics, 2020,14(4):101099.

      [37]馬建紅,曹文斌,劉元剛,等.基于功效特征的專利聚類方法[J].計(jì)算機(jī)應(yīng)用,2021,41(5): 1361-1366.

      [38]李玉,王利,周志平,等.基于DBSCAN聚類改進(jìn)隨機(jī)森林算法的專利價值評估方法[J].科學(xué)技術(shù)與工程,2020,20(14):5673-5679.

      [39]李俊州,武瑩.基于改進(jìn)K-medoids算法的科技文獻(xiàn)特征選擇方法[J].華中師范大學(xué)學(xué)報(自然科學(xué)版),2015,49(4):541-545.

      [40]孫靜含,任靜.計(jì)算機(jī)文本分析算法發(fā)展綜述[J].電子技術(shù)應(yīng)用,2023,49(3):42-47.

      [41]楊洋,關(guān)毅,李雪,等.中文醫(yī)學(xué)細(xì)粒度知識表示體系與標(biāo)注語料庫構(gòu)建[J].中文信息學(xué)報,2023,37(6):52-66.

      作者簡介:

      孫盟盟(1990),女,碩士,河北大學(xué)圖書館館員。研究方向:信息素養(yǎng)、文獻(xiàn)分析。

      奚洋洋(1990),女,碩士,河北大學(xué)圖書館館員。研究方向:信息服務(wù)、數(shù)據(jù)可視化。

      (收稿日期:2023-07-17? 責(zé)任編輯:孫? 煒)

      Research Hot spots and Prospects of Knowledge Mining for Scientific and

      Technological Literature at Home and Abroad

      —Quantitative Analysis Based on WOS Core Collection and CNKI Database

      Sun Meng-meng? Xi Yang-yang

      Abstract:Taking the WOS core collection and CNKI database as data sources, using bibliometric and content analysis methods,with the help of Citespace and VOSviewer, knowledge mining research on scientific and technological literature at home and abroad is systematically sorted out. By analyzing the publication trend and the co-occurrence of authors, institutions and keywords, this paper reveals the hot topics and development trends in this field. It is found that the hot topics about knowledge mining of scientific and technological literature are concentrated in the aspects of knowledge mining for scientific and technological innovation, intellectual property and topic evolution analysis, fine-grained knowledge extraction and knowledge association mining. Some suggestions are put forward that diversified knowledge mining methods should be explored in the future to better exploit the value of scientific and technological literature.

      Keywords:Scientific Literature; Knowledge Mining; Theme Evolution; Bibliometrics

      猜你喜歡
      文獻(xiàn)計(jì)量
      基于文獻(xiàn)計(jì)量的MOOC課程文獻(xiàn)綜述
      基于文獻(xiàn)計(jì)量分析的國內(nèi)農(nóng)業(yè)生態(tài)補(bǔ)償研究態(tài)勢
      基于CNKI的國內(nèi)檔案學(xué)博碩士學(xué)位論文研究
      檔案管理(2017年1期)2017-01-17 19:11:16
      基于文獻(xiàn)計(jì)量的數(shù)據(jù)素養(yǎng)及其教育領(lǐng)域研究態(tài)勢分析
      國內(nèi)電子商務(wù)學(xué)術(shù)研究進(jìn)展分析
      我國醫(yī)學(xué)數(shù)字圖書館研究的文獻(xiàn)計(jì)量分析
      國內(nèi)外智庫研究態(tài)勢知識圖譜對比分析
      國內(nèi)外政府信息公開研究的脈絡(luò)、流派與趨勢
      基于文獻(xiàn)計(jì)量分析我國生物科學(xué)素養(yǎng)研究狀況(2001~2016年)
      高校通識選修課的研究綜述
      永昌县| 红桥区| 雷山县| 娱乐| 五峰| 阜新市| 梅河口市| 新乡市| 鹤壁市| 古田县| 宁阳县| 扎兰屯市| 泰安市| 台安县| 鄂托克旗| 大足县| 建始县| 清原| 达尔| 怀柔区| 泸水县| 曲沃县| 长葛市| 恭城| 汕头市| 黎城县| 炉霍县| 泰顺县| 全州县| 昭觉县| 城固县| 和田县| 库车县| 沙田区| 青浦区| 黄大仙区| 惠来县| 石景山区| 安吉县| 淮安市| 洪雅县|