• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      科技論文引用對象和引文功能的聯(lián)合自動(dòng)識別方法研究

      2022-06-06 19:56:30唐曉波彭映寒
      現(xiàn)代情報(bào) 2022年6期
      關(guān)鍵詞:三元組自動(dòng)識別類別

      唐曉波 彭映寒

      摘 要:[目的/意義]國家強(qiáng)調(diào)重視科技成果的質(zhì)量,科技成果的質(zhì)量體現(xiàn)了科技成果的學(xué)術(shù)價(jià)值和貢獻(xiàn)??萍颊撐氖强萍汲晒闹匾d體之一?;谖谋菊Z義分析識別科技論文的引用對象和引文功能,對于科技論文的學(xué)術(shù)貢獻(xiàn)和價(jià)值的評價(jià)具有重要的作用。[方法/過程]本文利用文本數(shù)據(jù)挖掘技術(shù)提出基于BERT-BiGRU-CRF的科技論文引用對象和引文功能的聯(lián)合自動(dòng)識別方法模型。首先從知網(wǎng)數(shù)據(jù)庫獲取科技論文全文本,利用正則匹配引用標(biāo)記的方式獲取科技論文引文內(nèi)容;其次借鑒已有研究確定科技論文引用對象和引文功能標(biāo)注方法,實(shí)現(xiàn)科技論文引文內(nèi)容的人工標(biāo)注;然后在預(yù)訓(xùn)練語言模型BERT的基礎(chǔ)上結(jié)合BiGRU與CRF構(gòu)建科技論文引文內(nèi)容的序列標(biāo)注模型,實(shí)現(xiàn)科技論文引用對象和引文功能的聯(lián)合自動(dòng)識別,將識別結(jié)果利用三元組進(jìn)行表達(dá);最后采用圖情領(lǐng)域5本高質(zhì)量期刊2021年上半年的科技論文文本數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。[結(jié)果/結(jié)論]實(shí)驗(yàn)結(jié)果表明,本文提出的方法模型在引用對象、引文功能和兩者聯(lián)合自動(dòng)識別上的F1值分別為71.78%、68.33%、64.23%,均優(yōu)于對比模型,初步驗(yàn)證了本文模型對于科技論文引用對象和引文功能自動(dòng)識別的有效性。

      關(guān)鍵詞:科技論文;價(jià)值評價(jià);引用對象;引文功能;聯(lián)合自動(dòng)識別;BERT-BiGRU-CRF

      DOI:10.3969/j.issn.1008-0821.2022.06.004

      〔中圖分類號〕G250.2 〔文獻(xiàn)標(biāo)識碼〕A 〔文章編號〕1008-0821(2022)06-0038-11

      Abstract:[Purpose/Significance]The state attaches importance to the quality of scientific and technological achievements,which reflects the academic value and contribution of scientific and technological achievements.Scientific papers are one of the important carriers of scientific and technological achievements.Identifying citation objects and citation functions of scientific papers based on text semantic analysis plays an important role in the evaluation of academic contribution and value of scientific papers.[Method/Process]Using text data mining technology,this paper proposed a joint automatic recognition method model of citation object and citation function of scientific papers based on Bert-BiGRU-CRF.Firstly,the full text of scientific papers was obtained from HowNet database,and the citation content of scientific papers was obtained by regular matching citation markers;Secondly,using the existing research to determine the citation object and citation function annotation method of scientific papers,the manual annotation of citation content of scientific papers could be realized;Then,based on the pre training language model Bert,combined with BiGRU and CRF,the sequence annotation model of citation content of scientific papers was constructed to realize the joint automatic recognition of citation objects and citation functions of scientific papers,and the recognition results were expressed by triples;Finally,the experiment was carried out with the text data of scientific and technological papers in five high-quality journals in the field of graphics and information in the first half of 2021.[Results/Conclusion]The experimental results show that the F1 values of the method model proposed in this paper are 71.78%,68.33% and 64.23% respectively,which are better than the comparison model,and preliminarily verify the effectiveness of this model for the automatic recognition of citation objects and citation functions of scientific and technological papers.901E1773-29E0-4DE9-B2FF-E1280F48292C

      Key words:scientific papers;value evaluation;citation object and its relationship;joint automatic identification;BERT-BiGRU-CRF

      近年來,國家提出“克服唯論文、唯職稱、唯學(xué)歷、唯獎(jiǎng)項(xiàng)傾向”、破除“SCI至上”,強(qiáng)調(diào)科技成果的質(zhì)量??萍颊撐氖菍W(xué)者在實(shí)驗(yàn)研究或理論研究基礎(chǔ)上,分析、概括和闡明研究存在的現(xiàn)象或出現(xiàn)的問題,結(jié)合學(xué)者自身觀點(diǎn)對研究進(jìn)一步總結(jié)和創(chuàng)新,最后根據(jù)各個(gè)科技期刊的要求進(jìn)行撰寫和表達(dá)[1],是科技成果的重要載體之一??萍颊撐牡膶W(xué)術(shù)貢獻(xiàn)和價(jià)值體現(xiàn)了科技成果的質(zhì)量,對其評價(jià)成為重要的研究問題。引文分析一直是科技論文學(xué)術(shù)價(jià)值的重要評價(jià)方法[2]。傳統(tǒng)的引文分析方法沒有明確引文被引用的具體內(nèi)容和功能,無法從語義層面揭示科技論文的引用行為??萍颊撐脑谝梦墨I(xiàn)時(shí)提及引文中的具體內(nèi)容對象稱為引用對象[3],被引文獻(xiàn)在施引文獻(xiàn)中的作用和功能稱為引文功能[4]??萍颊撐闹胁煌悇e的引用對象和引文功能的識別能夠進(jìn)一步明確科技論文的引用行為,揭示引用關(guān)系的實(shí)質(zhì),為科技論文的學(xué)術(shù)貢獻(xiàn)和價(jià)值評價(jià)提供重要維度。隨著文本挖掘、深度學(xué)習(xí)等技術(shù)的發(fā)展,深入科技論文文本識別不同類別的引用對象和引文功能成為可能。

      國內(nèi)外學(xué)者對于科技論文引用對象、引用對象類別以及引文功能三者的研究已有一些成果。對科技論文引用對象的研究主要有人工識別和自動(dòng)識別,如陸偉等[4]、Qazvinian V等[5]對論文引文內(nèi)容中的引用對象和引文功能進(jìn)行人工標(biāo)注,驗(yàn)證了文中提出的引文內(nèi)容標(biāo)注框架的可行性。章成志等采用不同機(jī)器學(xué)習(xí)模型,按不同粒度切分被引文本,對科技論文引用對象進(jìn)行自動(dòng)識別[6];Ma S T等在基于上下文的引文推薦方法中,介紹了通過識別引文文本和被引論文內(nèi)容中最相關(guān)的部分實(shí)現(xiàn)引文推薦的方法[7];Khalid A等[8]利用引文上下文主題來表示科技論文的引用對象,但實(shí)驗(yàn)結(jié)果表明,存在部分引文上下文主題無法準(zhǔn)確反映引用對象的不足;馬娜等[9]嘗試將引用對象的識別轉(zhuǎn)化為序列標(biāo)注問題,利用深度學(xué)習(xí)模型對引文內(nèi)容中的術(shù)語型引用對象做自動(dòng)識別,模型F1值為60.18%,但引用對象類別劃分粒度較粗,且只面向術(shù)語型引用對象進(jìn)行識別研究。對引用對象類別的研究主要有不同學(xué)者提出的分類框架。對引文功能的研究主要有不同學(xué)者提出的分類框架和分類方法模型,如陳穎芳等[10]提出了引文功能分類框架并進(jìn)行人工標(biāo)注,探討科學(xué)知識的發(fā)展演進(jìn)規(guī)律;尹莉等[11]在建立分類框架后利用機(jī)器學(xué)習(xí)模型對引文的功能和極性進(jìn)行分類;Bakhti K等[12]針對6個(gè)類別的引文功能提出了一種半注釋標(biāo)注方法,提高了引文功能的分類性能。目前較少有深入文本語義對科技論文引用對象做自動(dòng)分類識別的研究;大多數(shù)現(xiàn)有研究僅面向科技論文引用對象和引文功能的其中一個(gè)問題進(jìn)行研究,較少將兩者結(jié)合起來進(jìn)行研究,無法全面揭示文獻(xiàn)間引用關(guān)系的實(shí)質(zhì)。

      本文提出基于BERT-BiGRU-CRF的科技論文引用對象和引文功能的聯(lián)合自動(dòng)識別方法模型。首先,從知網(wǎng)數(shù)據(jù)庫獲取科技論文全文本,利用正則匹配引用標(biāo)記的方式獲取科技論文引文內(nèi)容;其次,借鑒已有研究確定引用對象和引文功能的標(biāo)注方法,對科技論文引文內(nèi)容進(jìn)行人工標(biāo)注;然后,利用BERT-BiGRU-CRF模型對科技論文文本進(jìn)行序列標(biāo)注,實(shí)現(xiàn)了引用對象和引文功能的聯(lián)合自動(dòng)識別;最后,將識別結(jié)果用3個(gè)三元組進(jìn)行表達(dá)。識別結(jié)果的三元組實(shí)際上是引文內(nèi)容的知識表示,可以作為科技評價(jià)知識庫的一個(gè)重要組成部分。本文提出的方法模型深入科技論文文本語義,利用文本挖掘、深度學(xué)習(xí)方法將引用對象和引文功能的自動(dòng)識別任務(wù)轉(zhuǎn)換為序列標(biāo)注問題,將自動(dòng)抽取結(jié)果表達(dá)為三元組,更好地揭示了科技論文的引用行為和文獻(xiàn)間的引用關(guān)系,為科技論文學(xué)術(shù)價(jià)值的評價(jià)提供了一定的參考意義。

      1 相關(guān)研究

      1.1 科技論文引用對象和引文功能的分類

      科技論文是科研創(chuàng)新成果的重要載體之一,是最主要的科學(xué)技術(shù)信息傳播和交流手段/工具??萍颊撐囊脤ο笫鞘┮墨I(xiàn)引用被引文獻(xiàn)的具體內(nèi)容,常以名詞或名詞術(shù)語的形式表示,是引文內(nèi)容的概括性表達(dá),解釋了施引文獻(xiàn)引用被引文獻(xiàn)的“什么”;科技論文引文功能是被引文獻(xiàn)在施引文獻(xiàn)中的具體作用,解釋了施引文獻(xiàn)為什么引用被引文獻(xiàn)[4]。

      本文科技論文引用對象的識別是指科技論文引用對象及其類別的識別??萍颊撐囊脤ο蟮姆诸愂强萍颊撐囊脤ο箢悇e識別的基礎(chǔ)?,F(xiàn)有研究對于科技論文引用對象的分類有很多成果。Garzone M等[13]將引用對象劃分為“材料、設(shè)備、工具”“公式”“方法、程序”等5個(gè)類別;張春博等[14]對一篇社會(huì)科學(xué)領(lǐng)域被撤銷的論文進(jìn)行解構(gòu),將引用對象劃分為“概念、理論、方法、工具”等5個(gè)類別;Radoulov R[15]將引用對象分為“背景、歷史工作、概念、方法、數(shù)據(jù)”等9個(gè)類別;張夢瑩等[16]將引用對象劃分“定義、方法、理論、工具”等10個(gè)類別;陸偉等[4]將引用對象的類別劃分為“概念、方法、理論、工具”等11種。在已有研究中,部分引用對象的類別劃分粒度較粗,識別出的內(nèi)容難以突出其意義和作用;部分引用對象的類別劃分粒度較細(xì),人工識別過程的難度加大,識別結(jié)果的準(zhǔn)確性降低。本文借鑒陸偉提出的11個(gè)類別的引用對象分類方案,考慮自動(dòng)識別的準(zhǔn)確度,將“方法、模型、算法”統(tǒng)一歸為“方法”,最終將科技論文引用對象的分類方案確定為“概念、方法、理論、工具、應(yīng)用、數(shù)據(jù)、公式、結(jié)果和未提及”9個(gè)類別。

      科技論文引文功能的分類是科技論文引文功能識別的基礎(chǔ)。已有研究對于引文功能的分類有很多成果。陸偉等提出了一個(gè)較小粒度的引文功能分類方法,將引文功能劃分為“基于、啟發(fā)、使用”等15類[4];尹莉等[11]將引文功能分為“使用、比較、批判、背景”4個(gè)大類,并分別對不同類別的功能進(jìn)行詳細(xì)解釋;Bakhti K等[12]將引文功能劃分為“基于、有用的、承認(rèn)已有工作、比較、批判”等6類;Jurgens D等[17]選擇自然語言處理領(lǐng)域的52篇文章進(jìn)行標(biāo)注,將引文功能分為“背景、使用、比較或?qū)Ρ?、?dòng)機(jī)、擴(kuò)展、未來展望”6個(gè)類別;Dong C等[18]將引文功能劃分為“背景、基本概念、技術(shù)基礎(chǔ)、比較”4類。已有引文功能分類體系在類別和數(shù)目上差別較大,本文在比較了這些分類體系后,認(rèn)為尹莉的分類體系區(qū)分度較強(qiáng),陸偉的分類體系更全面,但粒度較小,不易于自動(dòng)識別。本文結(jié)合兩位學(xué)者的分類方案,認(rèn)為陸偉提出的“基于”功能和“啟發(fā)、使用、拓展”3個(gè)功能有重疊?!霸敿?xì)引用、肯定”功能含義比較籠統(tǒng),“啟發(fā)、使用、拓展”也包含了這兩個(gè)功能?!跋嗨啤惫δ芸梢园谒幸墓δ苤?,不具有區(qū)分度?!跋嚓P(guān)研究、簡單引用、相關(guān)工作之間比較、歷史背景”這幾個(gè)功能可以被尹莉提出的“背景”這一引文功能所概括。因此,本文將科技論文引文功能分類方案確定“啟發(fā)、使用、拓展、比較、背景、批判、未來工作”7個(gè)類別。901E1773-29E0-4DE9-B2FF-E1280F48292C

      1.2 基于序列標(biāo)注模型的實(shí)體關(guān)系聯(lián)合自動(dòng)識別方法

      科技論文引用對象是可以概括性表達(dá)引文內(nèi)容的實(shí)體,科技論文引文功能反映的是施引文獻(xiàn)與引用對象的關(guān)系??萍颊撐囊脤ο蠛鸵墓δ艿淖詣?dòng)識別可以借鑒實(shí)體關(guān)系自動(dòng)識別的思路。已有多數(shù)實(shí)體關(guān)系識別的研究將實(shí)體和關(guān)系分開識別,存在忽略子任務(wù)模塊之間的關(guān)聯(lián)性及前一個(gè)子任務(wù)的錯(cuò)誤順延到下一個(gè)子任務(wù)等問題。聯(lián)合識別是將實(shí)體和關(guān)系同時(shí)識別,這種方式避免了分開識別存在的問題[19]。本文借鑒實(shí)體關(guān)系聯(lián)合識別的方式來進(jìn)行科技論文引用對象和引文功能的聯(lián)合識別。

      序列標(biāo)注方法用于實(shí)體關(guān)系聯(lián)合識別的思路由Zheng S等[20]于2017年提出,目前已有很多學(xué)者運(yùn)用這種方法進(jìn)行研究,并取得了不錯(cuò)的成果。如Liu X Y等[21]將序列標(biāo)注方法用于醫(yī)學(xué)領(lǐng)域文本,實(shí)現(xiàn)了實(shí)體和關(guān)系的聯(lián)合抽取;王仁武等[22]將序列標(biāo)注方法用于抽取在線評論文本中的實(shí)體及其屬性關(guān)系,實(shí)驗(yàn)證明,相較于傳統(tǒng)的基于規(guī)則或一般的機(jī)器學(xué)習(xí)方法,該方法具有更大優(yōu)勢;馬建紅等[19]提出了聯(lián)合抽取模型,對化學(xué)領(lǐng)域的資源實(shí)體及關(guān)系進(jìn)行聯(lián)合抽取;王一釩等[23]將古漢語的實(shí)體關(guān)系的識別轉(zhuǎn)換為序列標(biāo)注問題,并取得了較好的效果;唐曉波等[24]將利用序列標(biāo)注模型對金融文本中的實(shí)體及其關(guān)系進(jìn)行聯(lián)合抽取。

      本文采用序列標(biāo)注的方法實(shí)現(xiàn)科技論文引用對象和引文功能的聯(lián)合自動(dòng)識別。科技論文引用對象和引文功能的識別依賴科技論文文本的語義信息,本文考慮結(jié)合深度學(xué)習(xí)方法,采用BERT-BiGRU-CRF序列標(biāo)注模型,利用BERT模型的深層語義分析能力、BiGRU對于上下文語境的理解能力以及CRF的全局優(yōu)化處理能力,對科技論文的引用對象和引文功能做聯(lián)合自動(dòng)識別研究。

      2 科技論文引用對象和引文功能的聯(lián)合自動(dòng)識別方法模型

      本文提出的科技論文引用對象和引文功能的聯(lián)合自動(dòng)識別方法模型包括4個(gè)部分,分別是科技論文引文內(nèi)容的獲取、科技論文引文內(nèi)容的序列標(biāo)注、基于BERT-BiGRU-CRF模型的引用對象和引文功能的聯(lián)合自動(dòng)識別以及引用對象和引文功能識別結(jié)果三元組表示。模型如圖1所示。

      2.1 科技論文引文內(nèi)容的獲取

      科技論文引文內(nèi)容的獲取包括以下步驟:

      1)科技論文全文本的采集及清洗。從知網(wǎng)數(shù)據(jù)庫下載科技論文全文的PDF文件,利用Python語言將論文全文PDF轉(zhuǎn)化為TXT格式的文本,保留引用標(biāo)記“[]”,剔除少數(shù)文本內(nèi)容不全的論文文本。

      2)科技論文引文內(nèi)容的獲取。引文內(nèi)容是指文獻(xiàn)正文中的引文句及其上下文[25],其中引文句是指引用標(biāo)記所在句。本文借鑒李卓等[25]和周好等[26]的做法,將引文上下文確定為引文句的前兩句和后兩句,5個(gè)句子共同組成科技論文的引文內(nèi)容,幫助識別科技論文的引用對象和引文功能。本文采用句號將科技論文文本切分為句子,利用正則匹配引用標(biāo)記的方法獲得科技論文引文句及其上下文,實(shí)現(xiàn)科技論文引文內(nèi)容的獲取。

      2.2 科技論文引文內(nèi)容的序列標(biāo)注

      本文在已有研究基礎(chǔ)上確定科技論文引文內(nèi)容的標(biāo)注方法。人工標(biāo)注時(shí)首先通過引文句判斷句中的引用對象和引文功能,如果能夠準(zhǔn)確判斷,則對引文句這一句話進(jìn)行標(biāo)注;如果通過引文句無法準(zhǔn)確判斷,則進(jìn)一步查找引文句的上下句,直到找到能夠準(zhǔn)確識別引文句中的引用對象和引文功能的句子,并對這些句子進(jìn)行人工標(biāo)注。句中的每一個(gè)字都賦予一個(gè)標(biāo)簽,標(biāo)注示例如圖2所示。

      2.2.1 引用對象和引文功能的標(biāo)注

      1)引用對象的標(biāo)注

      本文引用對象的標(biāo)注是指引用對象名稱和引用對象類別的標(biāo)注。在前文確定的9個(gè)類別的引用對象中,本文實(shí)驗(yàn)部分將考慮選擇概念、理論、方法、工具這4類被學(xué)者納入分類框架最多的引用對象進(jìn)行方法模型的驗(yàn)證,借鑒陸偉和已有研究對這4類引用對象的定義,確定4類引用對象的標(biāo)注方法。引用對象的標(biāo)注描述(部分)如表1所示。

      2)引文功能的標(biāo)注

      在前文確定的7個(gè)類別引文功能中,本文實(shí)驗(yàn)部分將考慮選擇“使用”“背景”和“批判”這3類最具區(qū)分度且被學(xué)者納入分類框架最多的功能進(jìn)行本文方法模型的驗(yàn)證,借鑒陸偉和尹莉?qū)@3類引文功能的定義,確定3類引文功能的標(biāo)注方法。引文功能的標(biāo)注描述(部分)如表2所示。

      2.2.2 標(biāo)簽類型

      本文提出的標(biāo)簽包含3部分,依次是引用對象邊界、引用對象類別和引文功能。對于引用對象邊界標(biāo)簽,本文采用“BIO”標(biāo)簽對引文內(nèi)容進(jìn)行字粒度的標(biāo)注,其中,B表示引用對象的頭部,I表示引用對象的中部或尾部,O則表示該句中其他部分。

      引用對象類別標(biāo)簽由本文預(yù)先定義的類別來確定,由每種類別英文單詞的前3位大寫字母作為對應(yīng)標(biāo)簽。引文功能標(biāo)簽由數(shù)字“1”“2”和“3”表示,其中數(shù)字“1”表示引文功能是“使用”,數(shù)字“2”表示引文功能是“背景”,數(shù)字“3”表示引文功能是“批判”。部分引用對象和引文功能的標(biāo)簽類型如表3所示。

      2.3 基于BERT-BiGRU-CRF模型的引用對象和引文功能的聯(lián)合自動(dòng)識別

      本文的科技論文引用對象和引文功能聯(lián)合識別是指將科技論文引用對象和引文功能同時(shí)進(jìn)行識別,解決了將兩者分開識別存在的錯(cuò)誤在任務(wù)間傳遞,無法更全面揭示文獻(xiàn)間引用關(guān)系實(shí)質(zhì)[4]等不足。本文采用BERT-BiGRU-CRF模型,將科技論文引用對象和引文功能的聯(lián)合自動(dòng)識別問題轉(zhuǎn)化為序列標(biāo)注問題,模型的結(jié)構(gòu)如圖3所示。整個(gè)模型依次由BERT層、BiGRU層和CRF層3部分組成。句子首先輸入BERT預(yù)訓(xùn)練語言模型層獲得科技論文引文內(nèi)容每個(gè)字基于上下文計(jì)算的向量表示,然后使用BiGRU提取前后上下文時(shí)序特征,得到科技論文引文內(nèi)容每個(gè)字對于各引用對象和引文功能標(biāo)簽的非歸一化概率分布,最后運(yùn)用CRF層考慮相鄰標(biāo)簽間依賴關(guān)系的優(yōu)勢,獲得全局最優(yōu)的標(biāo)記序列[30]。901E1773-29E0-4DE9-B2FF-E1280F48292C

      2.3.1 BERT詞向量層

      BERT(Bidirectional Encoder Representations from Transformers)是一個(gè)語言表示模型,由Devlin J等[31]在2018年提出。相較于傳統(tǒng)的語言模型,BERT模型使用了雙向Transformer結(jié)構(gòu),在預(yù)訓(xùn)練階段還使用了遮蔽語言模型(Masked Language Model,MLM)以及下一句預(yù)測(Next Sentence Prediction,NSP)兩個(gè)任務(wù)進(jìn)行聯(lián)合訓(xùn)練。

      Transformer的本質(zhì)是一個(gè)Encoder-Decoder模型[32],Transformer中的編碼單元主要由自注意力模塊和前饋神經(jīng)網(wǎng)絡(luò)模塊構(gòu)成,其中注意力模塊是編碼單元中最重要的結(jié)構(gòu),該模塊的核心目標(biāo)是從眾多信息中選擇出對當(dāng)前任務(wù)目標(biāo)更關(guān)鍵的信息。BERT使用的雙向Transformer結(jié)構(gòu)可以更好地融合上下文信息。預(yù)訓(xùn)練階段的遮蔽語言模型任務(wù)是指隨機(jī)抹去一句話中15%的詞,要求模型根據(jù)剩余詞匯預(yù)測被抹去的部分;下一句預(yù)測任務(wù)的實(shí)質(zhì)是一個(gè)二分類問題,在實(shí)際預(yù)訓(xùn)練過程中判斷兩個(gè)句子是否是連續(xù)的。兩個(gè)任務(wù)的聯(lián)合訓(xùn)練使模型輸出的每個(gè)字的向量表示都盡可能全面、準(zhǔn)確地刻畫輸入文本的整體信息,適用于本文的任務(wù)。

      2.3.2 BiGRU層

      門控循環(huán)網(wǎng)絡(luò)(Gated Recurrent Unit Networks,GRU)在2014年由Cho K等[33]提出,是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)。循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的遞歸結(jié)構(gòu)對于本文需結(jié)合文本語義識別實(shí)體關(guān)系的任務(wù)十分有效。但RNN模型在對長序列進(jìn)行學(xué)習(xí)時(shí)會(huì)出現(xiàn)梯度消失(Gradient Vanishing)和梯度爆炸(Gradient Explosion)現(xiàn)象[34],無法掌握長時(shí)間跨度的非線性關(guān)系。在普通RNN的基礎(chǔ)上,GRU有效解決了長期記憶和反向傳播中的梯度等問題。相較于RNN的另一個(gè)變體LSTM(Long Short-Term Memory Network),GRU以更簡化的門控單元達(dá)到和LSTM相當(dāng)?shù)墓δ?,簡化了?xùn)練的成本,提升了訓(xùn)練速度。

      BiGRU(Bidirectional Gated Recurrent Unit Networks)是由兩個(gè)單向、方向相反GRU組成的雙向門控循環(huán)網(wǎng)絡(luò),可以分別處理正序和逆序的語言序列,再將處理結(jié)果進(jìn)行合并[35],綜合考慮了上下文語義??萍颊撐囊脤ο蠛鸵墓δ艿淖R別依賴于引用對象所在引文句及其上下文的語義信息,而BiGRU模型能夠兼顧文本的上下文語義,避免了單向結(jié)構(gòu)會(huì)造成的信息缺失的問題,適用于本文的研究。

      2.3.3 CRF層

      CRF(Conditional Random Field)是自然語言處理的基礎(chǔ)模型,其作為無向圖模型下的一種馬爾可夫網(wǎng)絡(luò),在通過自定義特征模板的同時(shí),通過實(shí)體左右兩邊的邊界特征以及內(nèi)外部多重信息等,采用豐富特征集的辦法來提高識別精準(zhǔn)度,從整體上考慮句子前后的標(biāo)簽信息。在文本詞向量經(jīng)過BiGRU層后,BiGRU層對標(biāo)簽間的依賴關(guān)系的欠缺考慮可能會(huì)導(dǎo)致實(shí)體標(biāo)簽的混淆。例如,實(shí)體邊界標(biāo)簽“I”本應(yīng)當(dāng)出現(xiàn)在“B”之后,但預(yù)測的標(biāo)簽結(jié)果出現(xiàn)“I”標(biāo)簽在“B”標(biāo)簽之前的情況;或在同一個(gè)實(shí)體中,每個(gè)字的類別標(biāo)簽、引文功能標(biāo)簽應(yīng)當(dāng)是一致的,但預(yù)測的標(biāo)簽結(jié)果出現(xiàn)不一致的情況。此時(shí)模型中的CRF層結(jié)合句子前后的標(biāo)簽特征,對以上可能出現(xiàn)的情況進(jìn)行規(guī)避,對整體標(biāo)簽進(jìn)行全局優(yōu)化處理,最終輸出每個(gè)字對應(yīng)的最優(yōu)標(biāo)簽。

      2.4 引用對象和引文功能識別結(jié)果的三元組表示

      本文將模型正確識別出的科技論文引用對象和引文功能表示為3個(gè)三元組,包含引文功能三元組,引用對象文獻(xiàn)三元組和引用對象類別三元組。3個(gè)三元組共同表達(dá)科技論文引用行為,揭示引用關(guān)系實(shí)質(zhì)。引文功能三元組表示為(施引文獻(xiàn),引文功能,被引文獻(xiàn)),表達(dá)了施引文獻(xiàn)和被引文獻(xiàn)間的引用關(guān)系;引用對象文獻(xiàn)三元組表示為(引用對象,Part-of,被引文獻(xiàn)),表達(dá)了引用對象和被引文獻(xiàn)間的包含關(guān)系;引用對象類別三元組表示為(引用對象,ISA,引用對象類別),表達(dá)了引用對象的類別屬性。

      引用對象和引文功能的正確識別須同時(shí)包含3個(gè)條件:首先,引用對象的實(shí)體標(biāo)簽完整且實(shí)體邊界標(biāo)簽符合“B”為頭部“I”為非頭部;其次,同一個(gè)引用對象每個(gè)字的引用對象類別標(biāo)簽都相同且正確;最后,同一個(gè)引用對象每個(gè)字對應(yīng)的引文功能標(biāo)簽都相同且正確。本文的引用對象和引文功能三元組的表示思路如下:

      1)通過引用對象實(shí)體邊界標(biāo)簽獲取每個(gè)引文句中模型自動(dòng)識別的引用對象,判斷引用對象類別和引文功能是否均標(biāo)注正確。

      2)保留正確標(biāo)注的引用對象實(shí)體,將引用對象和引文功能標(biāo)簽拆分為實(shí)體邊界、引用對象類別和引文功能3個(gè)部分,根據(jù)前文確定的標(biāo)簽得到引用對象名稱、引用對象類別和引文功能。

      3)根據(jù)前文確定的引用對象和引文功能的三元組表示方法,得到引用對象和引文功能三元組。

      3 實(shí)驗(yàn)與結(jié)果分析

      3.1 數(shù)據(jù)采集與處理

      本文選取《FMS管理科學(xué)高質(zhì)量期刊推薦列表》中5本中文圖情領(lǐng)域期刊作為數(shù)據(jù)來源,分別是《中國圖書館學(xué)報(bào)》《情報(bào)學(xué)報(bào)》《圖書情報(bào)工作》《圖書情報(bào)知識》以及《數(shù)據(jù)分析與知識發(fā)現(xiàn)》。從知網(wǎng)數(shù)據(jù)庫下載5本期刊2021年上半年發(fā)表的PDF格式的論文全文190篇,共包含參考文獻(xiàn)6 832篇;利用Python將期刊論文全文PDF轉(zhuǎn)換為TXT格式;利用正則表達(dá)式匹配引用標(biāo)記的方法,獲得科技論文的引文內(nèi)容6 852條。本文隨機(jī)選取了1 145條引文內(nèi)容進(jìn)行人工標(biāo)注,構(gòu)建實(shí)驗(yàn)數(shù)據(jù)集。平均每條引文內(nèi)容83.75字,其中915條引文內(nèi)容作為訓(xùn)練集,230條引文內(nèi)容作為測試集。實(shí)驗(yàn)樣本標(biāo)簽分布如表4所示。901E1773-29E0-4DE9-B2FF-E1280F48292C

      本文由兩名具有領(lǐng)域知識的專業(yè)人員結(jié)合引文內(nèi)容對科技論文中的引用對象和引文功能進(jìn)行標(biāo)注,初步篩查后去掉了樣本數(shù)量過少的CON-3、THE-3標(biāo)簽,最終保留21個(gè)標(biāo)簽。為驗(yàn)證人工標(biāo)注結(jié)果的一致性,本文隨機(jī)選取300條標(biāo)注數(shù)據(jù)進(jìn)行Kappa系數(shù)[36]的一致性檢驗(yàn)。Kappa系數(shù)的計(jì)算方法如式(1)。

      K=P(A)-P(E)1-P(E)(1)

      其中P(A)表示標(biāo)注結(jié)果一致性的實(shí)際值,P(E)表示標(biāo)注結(jié)果一致性的期望值。本文計(jì)算得到兩位標(biāo)注者標(biāo)注結(jié)果的Kappa值為0.821。根據(jù)Carletta J[37]給出的一致性參考指標(biāo),本文的人工標(biāo)注結(jié)果十分可靠。對于不一致的標(biāo)注結(jié)果,由兩名標(biāo)注人員探討后確定最終的標(biāo)注方式。

      3.2 實(shí)驗(yàn)過程

      本文使用BERT-BiGRU-CRF序列標(biāo)注模型驗(yàn)證引用對象和引文功能自動(dòng)識別方法的有效性。隨機(jī)選取實(shí)驗(yàn)樣本數(shù)據(jù)的80%作為模型的訓(xùn)練集,20%作為模型的測試集,并從訓(xùn)練集中隨機(jī)選取10%作為驗(yàn)證集用于模型超參數(shù)的調(diào)整。BERT-BiGRU-CRF模型采用了Google提供的BERT-Base、Chinese版本,模型訓(xùn)練階段選取的主要超參數(shù)(部分)如表5所示。

      此外,本文采用了BiGRU-CRF和BERT-BiLSTM-CRF模型與本文提出的序列標(biāo)注模型進(jìn)行對比。BiGRU-CRF模型由BiGRU層和CRF層組成。BERT-BiLSTM-CRF模型由BERT層、BiLSTM層和CRF層3部分組成。BiGRU、CRF和BERT原理如前文所述。雙向長短時(shí)記憶網(wǎng)絡(luò)BiLSTM(Bidirectional LSTM)由前向和后向長短時(shí)記憶網(wǎng)絡(luò)LSTM組成。LSTM是循環(huán)神經(jīng)網(wǎng)絡(luò)的一種變體,與RNN相比,其在隱藏層的神經(jīng)元中加入特別設(shè)計(jì)的記憶單元,對輸入值進(jìn)行遺忘、更新和保存后輸出,有效解決RNN在訓(xùn)練中由于序列過長而產(chǎn)生的梯度彌散和梯度消失問題[38]。BiGRU-CRF模型用以對比BERT預(yù)訓(xùn)練語言模型在本文任務(wù)中的效果。BERT-BiLSTM-CRF模型用以對比循環(huán)神經(jīng)網(wǎng)絡(luò)變體的效果。

      3.3 實(shí)驗(yàn)結(jié)果與分析

      本文使用分類問題中常用評價(jià)指標(biāo):精確率(Precision)、召回率(Recall)、F1值(F1-score)對本文的模型訓(xùn)練結(jié)果進(jìn)行評價(jià)。精確率是指預(yù)測為正的樣本中實(shí)際為正的占比;召回率是指實(shí)際為正的樣本中被預(yù)測為正的占比;F1值是調(diào)和平均數(shù),綜合指標(biāo)P與R。3個(gè)指標(biāo)的計(jì)算方法見式(2)~(4)。

      P=TPTP+FP×100%(2)

      R=TPTP+FN×100%(3)

      F1=2PRP+R×100%(4)

      其中,TP是指預(yù)測為正,實(shí)際為正;FP是指預(yù)測為正,實(shí)際為負(fù);FN是指預(yù)測為負(fù),實(shí)際為正;TN是指預(yù)測為負(fù),實(shí)際為負(fù)。

      實(shí)驗(yàn)使用測試集對本文提出的模型以及對比模型進(jìn)行試驗(yàn),引用對象、引文功能、引用對象和引文功能聯(lián)合識別在不同模型下的精確率、召回率、F1值如表6所示;引用對象和引文功能聯(lián)合識別正確三元組(示例)如表7所示;引用對象和引文功能聯(lián)合識別錯(cuò)誤三元組(示例)如表8所示。

      引用對象和引文功能聯(lián)合識別正確是指3個(gè)部分的標(biāo)簽均識別正確的情況,即引用對象名稱、引用對象類別和引文功能均識別正確。而模型訓(xùn)練結(jié)果可能出現(xiàn)引用對象和引文功能中的其中一個(gè)識別正確,而另一個(gè)識別錯(cuò)誤的情況,例如引用對象名稱和引用對象類別識別正確,但引文功能識別錯(cuò)誤。本文將這種情況視為引文功能識別錯(cuò)誤,但引用對象識別正確。

      表6的訓(xùn)練結(jié)果表明,本文使用的方法模型在引用對象和引文功能的識別中取得了較好的效果,引用對象、引文功能、引用對象和引文功能聯(lián)合識別的F1值分別為71.78%、68.33%、64.23%。對比本文模型與BiGRU-CRF模型,引用對象、引文功能、引用對象和引文功能聯(lián)合識別的F1值分別提升了22.90%、20.89%、23.33%,相較于傳統(tǒng)的字向量表示方法,BERT模型對于本文的任務(wù)更有優(yōu)勢;對比本文模型與BERT-BiLSTM-CRF模型,本文模型在同等條件下以更簡單的結(jié)構(gòu)達(dá)到了更好的識別效果。

      對比引用對象和引文功能的聯(lián)合識別與分開識別結(jié)果,聯(lián)合識別結(jié)果略低于兩者分開識別結(jié)果,但在本文模型和對比模型中,引用對象和引文功能聯(lián)合識別與兩者分開識別得到的F1值相差均不超過8%。本文模型的聯(lián)合識別任務(wù)能更高效地達(dá)到與分開識別任務(wù)差別不大的結(jié)果。實(shí)驗(yàn)結(jié)果初步驗(yàn)證了本文模型對于引用對象和引文功能聯(lián)合自動(dòng)識別的有效性。

      表8呈現(xiàn)了模型聯(lián)合識別錯(cuò)誤的示例。句1中是引用對象類別識別錯(cuò)誤,模型將“扎根理論”這一方法識別為理論;句2中是引用對象名稱識別錯(cuò)誤,模型將句中“可視化方法”這一非引用對象的方法實(shí)體錯(cuò)誤地識別為引用對象;句3中是引文功能識別錯(cuò)誤,模型將引文功能由“背景”錯(cuò)誤識別為“使用”。針對本文模型識別錯(cuò)誤的情況,在后續(xù)研究中可以進(jìn)一步擴(kuò)充模型的訓(xùn)練樣本,讓模型更好地對不同語義下的引文句進(jìn)行引用對象及其功能的自動(dòng)識別。

      4 結(jié) 語

      本文提出了科技論文引用對象和引文功能的序列標(biāo)注及聯(lián)合自動(dòng)識別方法模型,將科技論文引用對象和引文功能識別轉(zhuǎn)化為序列標(biāo)注的問題,利用BERT-BiGRU-CRF模型實(shí)現(xiàn)引用對象和引文功能的自動(dòng)識別,最終得到引用對象和引文功能三元組,基于深層文本語義分析,解決了傳統(tǒng)引文分析方法的不足,為科技論文學(xué)術(shù)價(jià)值的評價(jià)提供了參考意義。

      本文的創(chuàng)新點(diǎn)在于:①提出了新的科技論文文本序列標(biāo)注方法,將科技論文引用對象和引文功能的識別問題轉(zhuǎn)換為序列標(biāo)注問題;②利用BERT-BiGRU-CRF模型,基于深層文本語義實(shí)現(xiàn)了科技論文引用對象和引文功能的聯(lián)合自動(dòng)識別。實(shí)驗(yàn)結(jié)果驗(yàn)證了本文方法模型的有效性。901E1773-29E0-4DE9-B2FF-E1280F48292C

      本文的研究依然存在著局限和不足。圖情領(lǐng)域期刊論文引用對象中的方法較多,理論較少,標(biāo)簽樣本中引用對象類型的不平衡影響了本模型的自動(dòng)識別效果。在未來的研究中可以選擇更多的學(xué)科領(lǐng)域,增加并且平衡標(biāo)簽樣本,使模型達(dá)到更好的識別效果。

      參考文獻(xiàn)

      [1]李潤竹.科技論文類型與影響力的相關(guān)性研究[D].濟(jì)南:山東師范大學(xué),2021.

      [2]姜霖,張麒麟.基于引文細(xì)粒度情感量化的學(xué)術(shù)評價(jià)研究[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2020,4(6):129-138.

      [3]馬娜,張智雄,于改紅.科技論文引用對象研究綜述[J].圖書情報(bào)工作,2019,63(23):139-145.

      [4]陸偉,孟睿,劉興幫.面向引用關(guān)系的引文內(nèi)容標(biāo)注框架研究[J].中國圖書館學(xué)報(bào),2014,40(6):93-104.

      [5]Qazvinian V,Radev D R.Scientific Paper Summarization Using Citation Summary Networks[C]//Proceedings of the 22nd International Conference on Computational Linguistics.Manchester:Association for Computational Linguistics,2008:689-696.

      [6]章成志,徐津,馬舒天.學(xué)術(shù)文本被引片段的自動(dòng)識別研究[J].情報(bào)理論與實(shí)踐,2019,42(9):139-145.

      [7]Ma S T,Zhang C Z,Liu X Z.A Review of Citation Recommendation:From Textual Content to Enriched Context[J].Scientometrics,2020,122(3):1445-1472.

      [8]Khalid A,Khan F A,Imran M,et al.Reference Terms Identification of Cited Articles as Topics from Citation Contexts[J].Computers & Electrical Engineering,2019,74:569-580.

      [9]馬娜,張智雄,吳朋民.基于特征融合的術(shù)語型引用對象自動(dòng)識別方法研究[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2020,4(1):89-98.

      [10]陳穎芳,馬曉雷.基于引用內(nèi)容與功能分析的科學(xué)知識發(fā)展演進(jìn)規(guī)律研究[J].情報(bào)雜志,2020,39(3):71-80.

      [11]尹莉,郭璐,李旭芬.基于引用功能和引用極性的一個(gè)引用分類模型研究[J].情報(bào)雜志,2018,37(7):139-145.

      [12]Bakhti K,Niu Z D,Nyamawe A S.Semi-Automatic Annotation for Citation Function Classification[C]//2018 International Conference on Control,Artificial Intelligence,Robotics & Optimization(ICCAIRO),2018:43-47.

      [13]Garzone M,Mercer R E.Towards an Automated Citation Classifier[C]//Advances in Artificial Intelligence.Berlin:Lecturenotes in Computer Science,2000:337-346.

      [14]張春博,丁堃,王賢文,等.全文引文分析視角下的造假論文學(xué)術(shù)影響研究[J].科學(xué)學(xué)研究,2021,39(4):577-586.

      [15]Radoulov R.Exploring Automatic Citation Classification[D].Waterloo:University of Waterloo,2008.

      [16]張夢瑩,盧超,鄭茹佳,等.用于引文內(nèi)容分析的標(biāo)準(zhǔn)化數(shù)據(jù)集構(gòu)建[J].圖書館論壇,2016,36(8):48-53.

      [17]Jurgens D,Kumar S,Hoover R,et al.Measuring the Evolution of a Scientific Field through Citation Frames[J].Transactions of the Association for Computational Linguistics,2018,6:391-406.

      [18]Dong C,Schfer U.Ensemble-style Self-training on Citation Classification[J].International Joint Conference on Natural Language Processing,2011:623-631.

      [19]馬建紅,魏字默,陳亞萌.基于信息融合標(biāo)注的實(shí)體及關(guān)系聯(lián)合抽取方法[J].計(jì)算機(jī)應(yīng)用與軟件,2021,38(7):159-166.

      [20]Zheng S,Wang F,Bao H,et al.Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme[C]//Proceedings of the 55th Annual Meeting of the ACL.Stroudsburg,PA:ACL,2017:1227-1236.901E1773-29E0-4DE9-B2FF-E1280F48292C

      [21]Liu X Y,Liu Y,Wu H Y,et al.A Tag Based Joint Extraction Model for Chinese Medical Text[J].Computational Biology and Chemistry,2021,93:107508.

      [22]王仁武,孟現(xiàn)茹,孔琦.實(shí)體—屬性抽取的GRU+CRF方法[J].現(xiàn)代情報(bào),2018,38(10):57-64.

      [23]王一釩,李博,史話,等.古漢語實(shí)體關(guān)系聯(lián)合抽取的標(biāo)注方法[J/OL].數(shù)據(jù)分析與知識發(fā)現(xiàn):1-18[2021-08-19].

      [24]唐曉波,劉志源.金融領(lǐng)域文本序列標(biāo)注與實(shí)體關(guān)系聯(lián)合抽取研究[J].情報(bào)科學(xué),2021,39(5):3-11.

      [25]李卓,趙夢圓,柳嘉昊,等.基于引文內(nèi)容的圖書被引動(dòng)機(jī)研究[J].圖書與情報(bào),2019,(3):96-104.

      [26]周好,王東波,黃水清.古籍引書上下文自動(dòng)識別研究——以注疏文獻(xiàn)為例[J/OL].情報(bào)理論與實(shí)踐:1-10[2021-08-19].

      [27]趙洪,王芳.理論術(shù)語抽取的深度學(xué)習(xí)模型及自訓(xùn)練算法研究[J].情報(bào)學(xué)報(bào),2018,37(9):923-938.

      [28]章成志,張穎怡.基于學(xué)術(shù)論文全文的研究方法實(shí)體自動(dòng)識別研究[J].情報(bào)學(xué)報(bào),2020,39(6):589-600.

      [29]劉昆雄,秦順,孔鵬,等.國內(nèi)外高校圖書館科研數(shù)據(jù)管理工具應(yīng)用現(xiàn)狀調(diào)查——以部分“雙一流”和世界一流大學(xué)圖書館為例[J].新世紀(jì)圖書館,2019,(6):67-72.

      [30]吳俊,程垚,郝瀚,等.基于BERT嵌入BiLSTM-CRF模型的中文專業(yè)術(shù)語抽取研究[J].情報(bào)學(xué)報(bào),2020,39(4):409-418

      [31]Devlin J,Chang M W,Lee K,et al.Bert:Pre-training of Deep Bidirectional Transform-ers for Language Understanding[J].arXiv Preprint arXiv:1810.04805,2018.

      [32]Vaswani A,Shazeer N,Parmar N,et al.Attention is All You Need[C]//Advances in Neural Information Processing Systems,2017:5998-6008.

      [33]Cho K,Merrinboer B,Gülehre ,et al.Learning Phrase Representations Using RNN Encoder-decoder for Statistical Machine Translation[J].arXiv Preprint arXiv:1406.1078,2014.

      [34]張堯.激活函數(shù)導(dǎo)向的RNN算法優(yōu)化[D].杭州:浙江大學(xué),2017.

      [35]Schuster M,Paliwal K K.Bidirectional Recurrent Neural Networks[J].IEEE Transactions on Signal Processing,1997,45(11):2673-2681.

      [36]Warrens M J.Chance-Corrected Measures for 2×2 Tables That Coincide with Weighted Kappa[J].The British Journal of Mathematical and Statistical Psychology,2011,64 (2):355-365.

      [37]Carletta J.Assessing Agreement on Classification Tasks:The Kappa Statistic[J].Computational Linguistics,1996,22(2):249-254.

      [38]Sundermeyer M,Schlüter R,Ney H.LSTM Neural Networks for Language Modeling[C]//Proceedings of the 13th Annual Conference of the International Speech Communication Association,Portland,USA,2012:601-608.

      (責(zé)任編輯:陳 媛)901E1773-29E0-4DE9-B2FF-E1280F48292C

      猜你喜歡
      三元組自動(dòng)識別類別
      基于語義增強(qiáng)雙編碼器的方面情感三元組提取
      軟件工程(2024年12期)2024-12-28 00:00:00
      基于帶噪聲數(shù)據(jù)集的強(qiáng)魯棒性隱含三元組質(zhì)檢算法*
      關(guān)于余撓三元組的periodic-模
      自動(dòng)識別系統(tǒng)
      特別健康(2018年3期)2018-07-04 00:40:18
      金屬垃圾自動(dòng)識別回收箱
      基于IEC61850的配網(wǎng)終端自動(dòng)識別技術(shù)
      電測與儀表(2016年6期)2016-04-11 12:06:38
      服務(wù)類別
      新校長(2016年8期)2016-01-10 06:43:59
      論類別股東會(huì)
      商事法論集(2014年1期)2014-06-27 01:20:42
      蘭姆凹陷穩(wěn)頻工作點(diǎn)自動(dòng)識別技術(shù)
      中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
      墨江| 镇宁| 汉寿县| 乌兰浩特市| 乌拉特中旗| 张家界市| 米易县| 阳曲县| 香格里拉县| 内丘县| 沾益县| 绥芬河市| 汕尾市| 准格尔旗| 台江县| 措美县| 缙云县| 梅河口市| 广德县| 鹤壁市| 锦州市| 阿克陶县| 北流市| 吉木乃县| 莱芜市| 隆尧县| 本溪| 依兰县| 皋兰县| 滨州市| 九龙城区| 天水市| 白水县| 长岛县| 黄梅县| 梁山县| 绥芬河市| 莎车县| 新兴县| 桂林市| 泸定县|