• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于深度學(xué)習(xí)與統(tǒng)計(jì)信息的領(lǐng)域術(shù)語(yǔ)抽取方法研究

      2022-05-05 08:53:08李貞貞鐘永恒王輝劉佳孫源
      關(guān)鍵詞:術(shù)語(yǔ)語(yǔ)料校正

      李貞貞,鐘永恒,王輝,劉佳,孫源

      1.中國(guó)科學(xué)院武漢文獻(xiàn)情報(bào)中心,湖北 武漢 430071

      2.科技大數(shù)據(jù)湖北省重點(diǎn)實(shí)驗(yàn)室,湖北 武漢 430071

      引 言

      隨著人工智能技術(shù)與各種領(lǐng)域的深度融合,領(lǐng)域應(yīng)用技術(shù)得到了快速的發(fā)展與變革,新型術(shù)語(yǔ)不斷涌現(xiàn)。領(lǐng)域術(shù)語(yǔ)是特定學(xué)科領(lǐng)域中表示概念的指稱,由詞或詞組構(gòu)成,是知識(shí)組織的基本構(gòu)成單元,代表著一個(gè)學(xué)科領(lǐng)域的核心知識(shí)與研究方向[1]。在全球產(chǎn)業(yè)轉(zhuǎn)型升級(jí)發(fā)展的背景下,對(duì)新興術(shù)語(yǔ)與技術(shù)的把握至關(guān)重要,可以有效幫助研究人員準(zhǔn)確地識(shí)別領(lǐng)域核心技術(shù)、揭示領(lǐng)域知識(shí)結(jié)構(gòu)、預(yù)見領(lǐng)域技術(shù)發(fā)展方向[2]。

      術(shù)語(yǔ)自動(dòng)抽?。ˋutomatic Term Extraction,ATE)是指從文本中自動(dòng)識(shí)別出具有代表性的專業(yè)詞匯,是自然語(yǔ)言處理中一項(xiàng)不可或缺的重要研究任務(wù),廣泛應(yīng)用于信息檢索、文本分類、句法分析、本體構(gòu)建、機(jī)器翻譯、自動(dòng)問答系統(tǒng)等多個(gè)領(lǐng)域[3]。隨著科學(xué)技術(shù)發(fā)展進(jìn)程的加速,對(duì)專業(yè)領(lǐng)域術(shù)語(yǔ)抽取的需求不斷更新,為動(dòng)態(tài)響應(yīng)需求的變化,及時(shí)掌握專業(yè)領(lǐng)域的發(fā)展動(dòng)態(tài),傳統(tǒng)的領(lǐng)域術(shù)語(yǔ)收集方法已遠(yuǎn)遠(yuǎn)不能滿足現(xiàn)代需求,領(lǐng)域術(shù)語(yǔ)抽取技術(shù)的創(chuàng)新型研究變得亟不可待[4]。

      專利文獻(xiàn)是一種特殊的科技文獻(xiàn),是基礎(chǔ)性、戰(zhàn)略性的信息資源,是個(gè)人、企業(yè)、國(guó)家創(chuàng)新的重要標(biāo)志。國(guó)內(nèi)外專家學(xué)者通過對(duì)專利文獻(xiàn)內(nèi)容的挖掘,分析專利文獻(xiàn)特點(diǎn),獲取隱含其中的專利技術(shù)主題、專利關(guān)鍵技術(shù)、專利技術(shù)功效等知識(shí),從而了解技術(shù)領(lǐng)域的發(fā)展趨勢(shì)和研究熱點(diǎn)[5]。因此,本文選取專利文獻(xiàn)作為原始數(shù)據(jù)集,構(gòu)建領(lǐng)域術(shù)語(yǔ)抽取的基礎(chǔ)語(yǔ)料庫(kù),重點(diǎn)研究中文專利術(shù)語(yǔ)自動(dòng)抽取方法。

      深度學(xué)習(xí)(Deep Learning,DL)最早由Hinton等人于2006年提出,是一種深層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),近年來在術(shù)語(yǔ)識(shí)別任務(wù)中表現(xiàn)出了良好的性能[6]。相較于傳統(tǒng)的基于規(guī)則、統(tǒng)計(jì)和機(jī)器學(xué)習(xí)的方法,基于深度學(xué)習(xí)的術(shù)語(yǔ)識(shí)別方法降低了人為的參與度,減少了領(lǐng)域知識(shí)的依賴性,有效利用了文本自身的語(yǔ)義信息,實(shí)現(xiàn)了端對(duì)端的識(shí)別模式。因此,文本利用深度學(xué)習(xí)方法研究目標(biāo)領(lǐng)域的術(shù)語(yǔ)自動(dòng)抽取問題,并結(jié)合外部知識(shí)庫(kù)與統(tǒng)計(jì)模型度量抽取到的術(shù)語(yǔ),進(jìn)一步約束多詞匯術(shù)語(yǔ)的構(gòu)成,為領(lǐng)域術(shù)語(yǔ)的自動(dòng)抽取方法提供新思路。

      1 相關(guān)研究

      領(lǐng)域術(shù)語(yǔ)抽取是從文本中抽取出規(guī)定的實(shí)體,其本質(zhì)是命名實(shí)體識(shí)別任務(wù),而本文的命名實(shí)體是領(lǐng)域的術(shù)語(yǔ)詞。術(shù)語(yǔ)標(biāo)示著專業(yè)領(lǐng)域的重點(diǎn)知識(shí)與概念,是全面、準(zhǔn)確了解一個(gè)專業(yè)領(lǐng)域的基石[7]。

      國(guó)內(nèi)外學(xué)者在術(shù)語(yǔ)抽取技術(shù)上進(jìn)行了大量的研究工作,傳統(tǒng)的識(shí)別方法主要包括基于規(guī)則的方法、基于統(tǒng)計(jì)的方法以及基于機(jī)器學(xué)習(xí)的方法。基于規(guī)則的方法是根據(jù)領(lǐng)域?qū)<翌A(yù)先編制完成的詞性及詞法規(guī)則模板來抽取術(shù)語(yǔ),這種方法完全依賴于規(guī)則的制定和模板的質(zhì)量,需要較強(qiáng)的語(yǔ)法知識(shí)和領(lǐng)域背景知識(shí),泛化能力差,且規(guī)則復(fù)雜時(shí)可能發(fā)生沖突和錯(cuò)誤[8]?;诮y(tǒng)計(jì)的方法利用詞匯的詞頻、TFIDF、卡方檢驗(yàn)、對(duì)數(shù)似然檢驗(yàn)、左右熵、互信息等統(tǒng)計(jì)特征實(shí)現(xiàn)術(shù)語(yǔ)的抽取,這種方法僅依賴術(shù)語(yǔ)內(nèi)部聚合性,難以排除低頻詞和高頻詞的干擾[9]?;跈C(jī)器學(xué)習(xí)的方法將術(shù)語(yǔ)抽取問題轉(zhuǎn)化為文本分類或序列標(biāo)注問題,在已標(biāo)注的大規(guī)模語(yǔ)料上訓(xùn)練模型,然后使用訓(xùn)練完成的模型對(duì)未標(biāo)注的語(yǔ)料進(jìn)行預(yù)測(cè)。其中,利用條件隨機(jī)場(chǎng)(Conditional random field,CRF)[10-11]、支持向量機(jī)(Support vector machine,SVM)[12-13]等模型進(jìn)行術(shù)語(yǔ)識(shí)別成果較多。這種方法避免了制定復(fù)雜規(guī)則,通用性強(qiáng),但需要大量標(biāo)注語(yǔ)料進(jìn)行學(xué)習(xí)。通常,這三種方法獨(dú)立使用時(shí)無法得到良好的效果,因此常采用多種方法融合來抽取術(shù)語(yǔ),主要包括結(jié)合語(yǔ)法規(guī)則和統(tǒng)計(jì)信息[14]、結(jié)合機(jī)器學(xué)習(xí)算法[15]以及基于術(shù)語(yǔ)部件的方法[16]。大量研究成果表明,采用多種方法相結(jié)合的方法能發(fā)揮各自的優(yōu)勢(shì),有效提升術(shù)語(yǔ)識(shí)別的效果。

      近年來,隨著深度學(xué)習(xí)技術(shù)的興起,以雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)為主的深度學(xué)習(xí)模型在術(shù)語(yǔ)識(shí)別任務(wù)中得到廣泛的應(yīng)用。趙東玥等[17]使用Word2Vec得到詞向量表示作為模型輸入,采用BiLSTM-CRF模型抽取計(jì)算機(jī)技術(shù)領(lǐng)域術(shù)語(yǔ)。肖連杰等[18]通過BERT 訓(xùn)練獲取字向量,將字向量作為輸入,采用BiLSTM-CRF 模型輸出最優(yōu)序列標(biāo)簽,從安全情報(bào)主題中文文獻(xiàn)中抽取術(shù)語(yǔ)。Greenberg N[19]等提出從部分重疊實(shí)體集合的多個(gè)數(shù)據(jù)集中訓(xùn)練CRF,采用BiLSTM-CRF 模型提取生物醫(yī)學(xué)命名實(shí)體。隨后,基于BiLSTM 模型的改進(jìn)方法應(yīng)運(yùn)而生。Wei H[20]、Ling L[21]、馬建紅[22]等提出基于注意力機(jī)制的BiLSTM-CRF 模型,利用注意力機(jī)制來改進(jìn)BiLSTM 獲取文檔全局信息,并與CRF 層相結(jié)合,分別在生物醫(yī)學(xué)命名實(shí)體識(shí)別、藥物名稱識(shí)別和新能源汽車領(lǐng)域術(shù)語(yǔ)識(shí)別取得了較好的效果。劉宇飛等[23]提出單詞嵌入采用GloVe 開源向量,引入深度遷移學(xué)習(xí)思想,運(yùn)用BiLSTM-CRF 模型實(shí)現(xiàn)跨領(lǐng)域遷移,有效識(shí)別術(shù)語(yǔ)并過濾高頻非術(shù)語(yǔ)詞串,通過Word2Vec-Kmeans 聚類對(duì)識(shí)別術(shù)語(yǔ)劃分技術(shù)類別,從數(shù)控領(lǐng)域?qū)@墨I(xiàn)中抽取術(shù)語(yǔ)。此外,結(jié)合語(yǔ)言特性或統(tǒng)計(jì)規(guī)則被證實(shí)也能有效提升BiLSTM 模型的性能。馮鸞鸞等[24]選取詞性、依存句法和大寫3個(gè)語(yǔ)言學(xué)特征,與字符表示(字詞表示)、詞向量串聯(lián)共同組成詞表示作為輸入,采用BiLSTM-CRF 模型抽取術(shù)語(yǔ),從國(guó)防科技領(lǐng)域語(yǔ)料中抽取術(shù)語(yǔ)。趙洪等[25]融入Word2Vec 特征、POS 特征和ENT 特征構(gòu)建BiLSTM-CRF 術(shù)語(yǔ)識(shí)別模型,并采用自訓(xùn)練算法對(duì)未標(biāo)記數(shù)據(jù)進(jìn)行弱監(jiān)督學(xué)習(xí),通過不斷迭代維基百科中文語(yǔ)料、期刊論文和學(xué)位論文語(yǔ)料從中抽取得到理論術(shù)語(yǔ)。

      為提高領(lǐng)域術(shù)語(yǔ)抽取的精準(zhǔn)度,本文以目標(biāo)領(lǐng)域中文專利文獻(xiàn)為基礎(chǔ)語(yǔ)料,提出一種基于深度學(xué)習(xí)與統(tǒng)計(jì)信息相結(jié)合的領(lǐng)域術(shù)語(yǔ)自動(dòng)抽取方法。首先基于BERT 預(yù)訓(xùn)練語(yǔ)言模型得到目標(biāo)領(lǐng)域?qū)@谋镜淖址蛄勘硎荆缓罄肂iLSTM 結(jié)合CRF 構(gòu)建深度學(xué)習(xí)模型,充分利用上下文語(yǔ)義信息識(shí)別術(shù)語(yǔ),最后使用左右熵和互信息等復(fù)合統(tǒng)計(jì)量判定候選術(shù)語(yǔ)的內(nèi)部關(guān)聯(lián)強(qiáng)度,并結(jié)合領(lǐng)域知識(shí)庫(kù)對(duì)候選術(shù)語(yǔ)進(jìn)行校正,以實(shí)現(xiàn)領(lǐng)域術(shù)語(yǔ)的精確抽取。

      2 領(lǐng)域術(shù)語(yǔ)抽取模型構(gòu)建

      2.1 流程框架

      針對(duì)領(lǐng)域術(shù)語(yǔ)自動(dòng)抽取問題,本文提出一種基于深度學(xué)習(xí)模型與統(tǒng)計(jì)方法相結(jié)合的領(lǐng)域術(shù)語(yǔ)抽取方法,分為文本向量化、術(shù)語(yǔ)識(shí)別模型和術(shù)語(yǔ)校正模型三個(gè)部分。文本向量化是利用BERT 預(yù)訓(xùn)練語(yǔ)言模型對(duì)原始語(yǔ)料進(jìn)行訓(xùn)練,獲取文本中字符的向量表示;術(shù)語(yǔ)識(shí)別模型是利用BiLSTM 模型從輸入層向量中提取上下文全局信息,CRF 模型優(yōu)化輸出序列標(biāo)簽,得到最優(yōu)的領(lǐng)域術(shù)語(yǔ);術(shù)語(yǔ)校正模型是利用統(tǒng)計(jì)方法結(jié)合領(lǐng)域知識(shí)庫(kù)來進(jìn)行復(fù)合結(jié)構(gòu)術(shù)語(yǔ)的判定。具體識(shí)別流程如圖1所示。

      圖1 領(lǐng)域術(shù)語(yǔ)抽取流程Fig.1 Domain term extraction process

      2.2 BERT 預(yù)訓(xùn)練語(yǔ)言模型

      領(lǐng)域術(shù)語(yǔ)抽取的第一步是利用語(yǔ)言模型對(duì)文本進(jìn)行向量化表征,本文采用BERT 模型對(duì)原始語(yǔ)料進(jìn)行文本特征提取與向量化表示。BERT 是一種大規(guī)模的預(yù)訓(xùn)練方法,它采用雙向Transformer 作為編碼器進(jìn)行文本特征抽取及訓(xùn)練,使得每個(gè)字能夠融合左右兩邊的信息。不同于Word2Vec、Glove 等詞向量表示的方法,該模型采用注意力機(jī)制對(duì)文本進(jìn)行建模,挖掘輸入輸出之間的關(guān)系,不僅獲取了文本豐富的語(yǔ)法、語(yǔ)義特征,而且解決了不同語(yǔ)境中詞語(yǔ)的多義性問題,有效實(shí)現(xiàn)了文本的動(dòng)態(tài)向量表示。BERT 預(yù)訓(xùn)練語(yǔ)言模型如圖2所示。

      圖2 BERT 模型結(jié)構(gòu)Fig.2 Bert model structure

      在BERT 模型中,輸入層中的每個(gè)字符都能得到對(duì)應(yīng)的三個(gè)向量:詞向量、位置向量和文本向量,包含了不同層次的語(yǔ)義信息。三個(gè)向量的總和經(jīng)過Transformer 編碼單元提取上下文特征,并采用“Masked 語(yǔ)言模型”和“Next 句子預(yù)測(cè)”兩個(gè)無監(jiān)督預(yù)訓(xùn)練任務(wù),捕捉詞級(jí)別和句子級(jí)別的表示,最終得到每個(gè)輸入對(duì)應(yīng)的向量表征。

      2.3 BiLSTM-CRF 術(shù)語(yǔ)識(shí)別模型

      本文將領(lǐng)域術(shù)語(yǔ)識(shí)別問題轉(zhuǎn)化為序列標(biāo)注問題,將基于BERT 獲取的專利文本字向量傳送給BiLSTM-CRF 模型進(jìn)行訓(xùn)練,得到最優(yōu)標(biāo)簽序列。BERT-BiLSTM-CRF 模型整體架構(gòu)如圖3所示。

      圖3 BERT-BiLSTM-CRF 模型整體架構(gòu)Fig.3 Overall architecture of BERT-BiLSTM-CRF model

      2.3.1 基于BiLSTM 的特征提取

      循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)能對(duì)輸入序列的信息進(jìn)行動(dòng)態(tài)捕捉,并且能夠記憶保存歷史信息,一度受到熱烈的追捧,但在算法實(shí)現(xiàn)中隨著輸入文本序列間隔的增大,容易產(chǎn)生梯度彌散和梯度消失問題[26]。由Hochreiter 等提出的長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)在RNN 的基礎(chǔ)上引入了記憶單元和門限機(jī)制,構(gòu)成記憶存儲(chǔ)塊,實(shí)現(xiàn)了對(duì)長(zhǎng)距離信息的有效利用,并解決了梯度消失問題,非常適合用于對(duì)時(shí)序數(shù)據(jù)的建模[27]。

      假定每個(gè)記憶單元在t 時(shí)刻的輸入為tx ,LSTM模型隱藏層的計(jì)算公式如下:

      式中,it、ft、ot分別表示t 時(shí)刻的輸入門、遺忘門、輸出門向量,W 為連接兩層的權(quán)重矩陣,c 為記憶單元的狀態(tài),b 為偏置向量,σ 為sigmoid 激活函數(shù)。

      LSTM 模型是單向網(wǎng)絡(luò)結(jié)構(gòu),只能獲取前向的文本特征,無法利用文本的后向文本信息。BiLSTM是由前向LSTM 與后向LSTM 組合而成,即對(duì)每個(gè)句子分別計(jì)算前向LSTM 和后向LSTM 兩種向量表示,然后通過向量拼接得到最終的BiLSTM 向量表示。這種雙向獲取文本特征信息的方式可以更好的捕捉雙向的語(yǔ)義依賴,為模型的學(xué)習(xí)提供了更為全面的語(yǔ)義共現(xiàn)信息,有助于提升命名實(shí)體識(shí)別的性能。

      2.3.2 基于CRF 的序列預(yù)測(cè)

      CRF是由Lafferty提出的一種判別式無向圖模型,它可以通過訓(xùn)練自動(dòng)學(xué)習(xí)到句子的約束條件,來進(jìn)行句子級(jí)的序列標(biāo)注,通過考慮相鄰標(biāo)簽的關(guān)系得到全局最優(yōu)的標(biāo)記序列[28]。為了確保輸出標(biāo)簽的準(zhǔn)確性,通常將CRF 作為輸出層來得到全局最優(yōu)解。

      假定x ={x1,···,xt-1,xt,···,xn}為輸入的觀測(cè)序列,y ={y1,···,yt-1,yt,···,yn}為輸出的標(biāo)注序列,標(biāo)注序列的概率值公式如下:

      式中,An(yt-1,yt,x,t )為相鄰輸出標(biāo)簽的概率轉(zhuǎn)移函數(shù), αn為其權(quán)重;Pm(yt,x,t)為當(dāng)前觀測(cè)狀態(tài)下的轉(zhuǎn)移特征函數(shù),βm為其權(quán)重。Z (x)為歸一化因子,計(jì)算公式如下:

      CRF 模型采用Viterbi 算法避免了“B B”、“I B”、“B S”等明顯錯(cuò)誤的標(biāo)簽序列,有效約束了“B I”標(biāo)簽序列,從而得到合理有效的輸出序列。

      2.4 術(shù)語(yǔ)校正模型

      領(lǐng)域術(shù)語(yǔ)存在較多的復(fù)合結(jié)構(gòu)詞,即由兩個(gè)及兩個(gè)以上的詞語(yǔ)組合而成的詞匯。觀察術(shù)語(yǔ)結(jié)果集發(fā)現(xiàn),存在將復(fù)合結(jié)構(gòu)的術(shù)語(yǔ)拆分成多個(gè)術(shù)語(yǔ)的情況,如“冷卻結(jié)晶”識(shí)別為“冷卻”、“結(jié)晶”兩個(gè)術(shù)語(yǔ)。為解決復(fù)合結(jié)構(gòu)術(shù)語(yǔ)的識(shí)別問題,文本采用統(tǒng)計(jì)與領(lǐng)域知識(shí)庫(kù)相結(jié)合的方法對(duì)識(shí)別結(jié)果進(jìn)行校正。

      根據(jù)信息熵理論,如果一個(gè)字符串是一個(gè)完整詞匯,那么其內(nèi)部字符間的相互關(guān)聯(lián)應(yīng)較為緊密,點(diǎn)互信息(Pointwise-Mutual Information)可以較好的反應(yīng)一個(gè)字符串的內(nèi)部結(jié)合緊密度[29]。給定候選術(shù)語(yǔ)m和n,其組合字符串t的點(diǎn)互信息計(jì)算公式如下:

      式中,P(m)和P(n)分別為候選術(shù)語(yǔ)m和n在文本中出現(xiàn)的概率,P(m,n)為字符串t在文本中出現(xiàn)的概率。PMI(m,n)值越大,表明m和n的相關(guān)度越高,字符串t越有可能是一個(gè)完整的詞匯。

      在信息論中,左信息熵和右信息熵常用來衡量一個(gè)字符串的自由度[30]。對(duì)于字符串t,設(shè)其左邊鄰接字符是l,右邊鄰接字符是r,其左右信息熵的計(jì)算公式如下所示:

      式中,EL(t)、ER(t)分別為字符串t的左、右信息熵,表示文本中字符l出現(xiàn)在t左側(cè)的條件概率,表示文本中字符r出現(xiàn)在t右側(cè)的條件概率。EL(t)和ER(t)的值越大,則t左右兩側(cè)連接的字符串越不固定,字符串t是獨(dú)立詞匯的可能性越大。

      綜合考慮候選術(shù)語(yǔ)的互信息和左右熵,得到字符串t的最終得分如下:

      本文設(shè)計(jì)的基于統(tǒng)計(jì)方法和領(lǐng)域知識(shí)庫(kù)的術(shù)語(yǔ)校正流程如圖4所示,具體步驟描述如下。

      圖4 領(lǐng)域術(shù)語(yǔ)校正流程Fig.4 Domain term correction process

      step1.遍歷候選術(shù)語(yǔ)集合,若候選術(shù)語(yǔ)存在領(lǐng)域知識(shí)庫(kù)中,則直接判定為術(shù)語(yǔ)。

      step2.將候選術(shù)語(yǔ)集合進(jìn)行兩兩組合,若組合后的詞匯存在領(lǐng)域知識(shí)庫(kù)中,則直接判定為術(shù)語(yǔ);若不存在則檢測(cè)是否存在專利文本中,若存在專利文本中,則根據(jù)公式(8)-(11)計(jì)算組合詞匯的綜合得分,得分超過閾值的判定為術(shù)語(yǔ),得分未超過且出現(xiàn)頻次大于5 的詞匯加入候選列表集合中。

      step3.將候選列表集合中的候選術(shù)語(yǔ)循環(huán)進(jìn)行step2 的操作,直到達(dá)到詞長(zhǎng)的限定,得到最終領(lǐng)域術(shù)語(yǔ)集合。

      3 實(shí)驗(yàn)

      3.1 實(shí)驗(yàn)數(shù)據(jù)

      本文選取“鹽湖提鋰”領(lǐng)域作為研究對(duì)象,從中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專利信息服務(wù)平臺(tái)上獲取該領(lǐng)域中文專利文獻(xiàn)數(shù)據(jù)集。設(shè)置檢索年限為2000年至2020年,共檢索到1,139 條專利,經(jīng)過人工篩選剔除無效專利,最終得到“鹽湖提鋰”領(lǐng)域?qū)@麛?shù)據(jù)982 條,選取專利的標(biāo)題和摘要作為原始語(yǔ)料。

      為有效減少人工標(biāo)注語(yǔ)料的工作量,本文收集“鹽湖提鋰”領(lǐng)域中文期刊文獻(xiàn)和標(biāo)準(zhǔn)的關(guān)鍵詞構(gòu)建領(lǐng)域知識(shí)庫(kù),設(shè)計(jì)程序?qū)φZ(yǔ)料進(jìn)行預(yù)標(biāo)注,結(jié)合人工方式對(duì)預(yù)標(biāo)注結(jié)果進(jìn)行審核與校對(duì),并補(bǔ)充缺失的標(biāo)注。從中國(guó)知網(wǎng)檢索到“鹽湖提鋰”領(lǐng)域中文期刊文獻(xiàn)1 316 篇、標(biāo)準(zhǔn)182 篇,提取關(guān)鍵詞字段進(jìn)行合并與去重,整理得到“鹽湖提鋰”領(lǐng)域知識(shí)庫(kù),共包含詞匯4 014 個(gè)。

      采用{B,I,O,S}標(biāo)注法在模型訓(xùn)練前對(duì)數(shù)據(jù)集進(jìn)行標(biāo)注,明確界定術(shù)語(yǔ)的邊界。其中,B(beginning)為領(lǐng)域術(shù)語(yǔ)實(shí)體的首字,I(inside)為領(lǐng)域術(shù)語(yǔ)實(shí)體的非首字,O(outside)為非領(lǐng)域術(shù)語(yǔ)的字符,S(single)為單字符領(lǐng)域術(shù)語(yǔ)。表1展示了鹽湖提鋰領(lǐng)域術(shù)語(yǔ)標(biāo)注示例,為進(jìn)行對(duì)比同時(shí)給出了單字符與單詞匯的標(biāo)注文本,字符串之間使用空格分割,字符串與標(biāo)注結(jié)果使用“/”符號(hào)分割,表1中文本包含的術(shù)語(yǔ)有“鹽湖鹵水”、“高純氯化鎂”、“氯化鎂”。

      表1 術(shù)語(yǔ)標(biāo)注示例Table 1 Example of term annotation

      3.2 實(shí)驗(yàn)設(shè)置

      實(shí)驗(yàn)采用Python3.7 編程語(yǔ)言和TensorFlow1.15深度學(xué)習(xí)框架編寫實(shí)驗(yàn)代碼,構(gòu)建BERT-BiLSTMCRF 深度學(xué)習(xí)模型和術(shù)語(yǔ)校正模型。使用Bert-base-Chinese 預(yù)訓(xùn)練語(yǔ)言模型得到語(yǔ)料的字符向量表征。BiLSTM 模型設(shè)置參數(shù)為:詞向量維度300、隱藏層維度300、batch_size64、學(xué)習(xí)率0.001、epoch 次數(shù)50、dropout 比例0.5、梯度裁剪5、優(yōu)化器為Adam算法。在詞向量作為模型輸入的對(duì)比實(shí)驗(yàn)中,選用hanNLP 工具包對(duì)原始語(yǔ)料進(jìn)行分詞。

      本文采用五折交叉驗(yàn)證方法(5-foldcrossvalidation)將語(yǔ)料按照4:1 隨機(jī)劃分為5 份,依次選取4 份作為訓(xùn)練集進(jìn)行模型的訓(xùn)練,剩余的1 份作為測(cè)試集進(jìn)行模型驗(yàn)證,將五次實(shí)驗(yàn)結(jié)果的平均數(shù)作為最終實(shí)驗(yàn)結(jié)果。對(duì)術(shù)語(yǔ)識(shí)別結(jié)果采用準(zhǔn)確率(Precison,P)、召回率(Recall,R)和F1 值(F1-Score,F(xiàn)1)三個(gè)評(píng)價(jià)指標(biāo)來度量模型有效性,計(jì)算公式如下:

      3.3 實(shí)驗(yàn)結(jié)果分析

      為檢驗(yàn)本文模型對(duì)于鹽湖領(lǐng)域術(shù)語(yǔ)的識(shí)別效果,采用多種模型進(jìn)行實(shí)驗(yàn)對(duì)比,分別為:傳統(tǒng)的CRF 模型、單向的LSTM 模型、雙向的LSTM 模型、BiLSTM 結(jié)合CRF 模型、基于Word2Vec 詞向量表示的BiLSTM-CRF 模型、基于BERT 預(yù)訓(xùn)練的BiLSTM-CRF 模型,以及本文提出的BERT-BiLSTMCRF 結(jié)合校正模型。分別使用七種模型,采用五折交叉驗(yàn)證方法,將每種模型結(jié)果的均值作為最終結(jié)果,得到實(shí)驗(yàn)結(jié)果如表2所示。

      表2 術(shù)語(yǔ)識(shí)別實(shí)驗(yàn)結(jié)果Table 2 Experimental results of term recognition

      根據(jù)表2可知,BERT-BiLSTM-CRF 深度學(xué)習(xí)模型結(jié)合校正模塊的實(shí)驗(yàn)性能最佳,準(zhǔn)確率達(dá)到81.01%、召回率達(dá)到80.48%、F1 值達(dá)到82.1%。

      (1)模型對(duì)比分析

      比較CRF、LSTM 和BiLSTM 三個(gè)模型的實(shí)驗(yàn)結(jié)果,深度學(xué)習(xí)模型LSTM 比傳統(tǒng)的CRF 機(jī)器學(xué)習(xí)方法準(zhǔn)確率提升了7.71%,而雙向LSTM 比單向LSTM 模型準(zhǔn)確率提升了3.26%,表明BiLSTM 模型具有更加優(yōu)異的術(shù)語(yǔ)抽取能力。

      比較BiLSTM 和BiLSTM-CRF 的實(shí)驗(yàn)結(jié)果,將CRF 模型作為輸出層比softmax 準(zhǔn)確率提升了2.81%,表明CRF 使得模型的抽取性能得到了進(jìn)一步的提升。

      比較BiLSTM-CRF 和Word2Vec-BiLSTM-CRF的實(shí)驗(yàn)結(jié)果,采用字符級(jí)的嵌入向量比采用Word2-Vec 詞語(yǔ)級(jí)的嵌入向量作為輸入F1 值提升了4.93%,較大的差距表明了詞向量的加入明顯降低了模型的術(shù)語(yǔ)抽取能力,導(dǎo)致這一結(jié)果的原因一方面是采用分詞工具進(jìn)行文本切分時(shí),可能存在術(shù)語(yǔ)邊界切分錯(cuò)誤的問題,如“分解分離法制取氯化鉀”中的“分解分離法”切分為“分解”、“分離”、“法制”;另一方面訓(xùn)練集中的術(shù)語(yǔ)稀疏性會(huì)引發(fā)神經(jīng)網(wǎng)絡(luò)模型的過擬合問題,使得模型預(yù)測(cè)能力欠佳。

      比較BiLSTM-CRF、BERT-BiLSTM-CRF和BiLSTM-CRF+校正的實(shí)驗(yàn)結(jié)果,采用BERT 模型得到字符向量作為BiLSTM-CRF 的輸入正確率提升了8.82%,而對(duì)BERT-BiLSTM-CRF 模型抽取到的術(shù)語(yǔ)進(jìn)行校正,抽取結(jié)果的準(zhǔn)確率提升了3.68%,表明BERT 模型能夠捕獲豐富的語(yǔ)言特征,使得抽取效果得到飛躍提升,采用基于統(tǒng)計(jì)方法和領(lǐng)域知識(shí)庫(kù)的校正模型深入考慮了詞語(yǔ)本身與其相鄰詞語(yǔ)的相關(guān)性,能夠在無需人工參與的情況下有效提升模型的識(shí)別效果。

      綜上所述,基于BERT 模型的字符級(jí)嵌入向量作為BiLSTM-CRF 模型的輸入在“鹽湖提鋰”領(lǐng)域術(shù)語(yǔ)識(shí)別任務(wù)中表現(xiàn)較好,而校正模型進(jìn)一步提升了實(shí)驗(yàn)效果。

      (2)抽取結(jié)果分析

      實(shí)驗(yàn)驗(yàn)證了BERT-BiLSTM-CRF 深度學(xué)習(xí)方法結(jié)合校正模型能有效抽取“鹽湖提鋰”領(lǐng)域術(shù)語(yǔ),對(duì)識(shí)別出的術(shù)語(yǔ)進(jìn)行詞頻統(tǒng)計(jì),得到各術(shù)語(yǔ)長(zhǎng)度在語(yǔ)料中出現(xiàn)頻次排名前十的“鹽湖提鋰”領(lǐng)域術(shù)語(yǔ)如表3所示。

      表3 術(shù)語(yǔ)詞頻示例Table 3 Examples of terms frequency

      根據(jù)表3可以看出,鹽湖提鋰專利文本中出現(xiàn)頻次排名前十的術(shù)語(yǔ)分別為“鹵水”、“鋰”、“分離”、“離子”、“蒸發(fā)”、“鹽湖鹵水”、“溶液”、“萃取”、“提取”和“氯化鉀”。

      為精準(zhǔn)了解術(shù)語(yǔ)抽取效果,對(duì)比各模型抽取的術(shù)語(yǔ)示例如表4所示。示例中專利原文如下:

      表4 模型抽取術(shù)語(yǔ)示例Table 4 Examples of model extracting terms

      本發(fā)明公開一種氯化鉀的堆密度的測(cè)定方法,其中所述氯化鉀的堆密度的測(cè)定方法包括從堆濾的氯化鉀中選取多個(gè)氯化鉀樣品;測(cè)定多個(gè)所述氯化鉀樣品的堆密度;計(jì)算多個(gè)所述氯化鉀樣品的堆密度的平均值,得到所述氯化鉀的堆密度;測(cè)定所述氯化鉀樣品的堆密度時(shí),將所述氯化鉀樣品加入到飽和鹵水中進(jìn)行混合,根據(jù)所述氯化鉀的質(zhì)量、所述飽和鹵水的體積變化,計(jì)算得到所述氯化鉀樣品的堆密度。

      觀察“鹽湖提鋰”領(lǐng)域術(shù)語(yǔ)抽取結(jié)果,對(duì)比標(biāo)注結(jié)果進(jìn)行深入分析,總結(jié)抽取結(jié)果不正確的原因如下;

      ①將術(shù)語(yǔ)識(shí)別為非術(shù)語(yǔ),如“堆密度”、“堆濾”等,此類術(shù)語(yǔ)在訓(xùn)練語(yǔ)料中出現(xiàn)頻次較低,模型難以識(shí)別出;

      ②術(shù)語(yǔ)未識(shí)別完整,如將“測(cè)定方法”識(shí)別為“測(cè)定”,此類術(shù)語(yǔ)中未識(shí)別出的字符串多為通用詞,即各個(gè)領(lǐng)域文檔中均勻出現(xiàn)的詞,模型難以將其作為領(lǐng)域術(shù)語(yǔ)識(shí)別出;

      ③將非術(shù)語(yǔ)識(shí)別為術(shù)語(yǔ),如“鹽酸生成”、“鹽湖水值”等,此類詞匯中多包含術(shù)語(yǔ)子串即“鹽酸”和“鹽湖”,模型未能準(zhǔn)確確定術(shù)語(yǔ)的邊界;

      ④將相鄰的術(shù)語(yǔ)進(jìn)行了錯(cuò)誤的合并,如抽取出術(shù)語(yǔ)“苦鹵提取硝酸鉀”,正確術(shù)語(yǔ)應(yīng)為“苦鹵”和“硝酸鉀”,此類錯(cuò)誤的原因是在進(jìn)行多詞匯術(shù)語(yǔ)校正過程中,該字符串在復(fù)合結(jié)構(gòu)術(shù)語(yǔ)計(jì)算中綜合得分較高,校正模型將其自動(dòng)劃分為領(lǐng)域術(shù)語(yǔ)。

      4 結(jié)語(yǔ)

      本文研究了一種結(jié)合深度學(xué)習(xí)模型和統(tǒng)計(jì)信息的領(lǐng)域術(shù)語(yǔ)自動(dòng)抽取方法,以目標(biāo)領(lǐng)域中文專利文本為原始語(yǔ)料,將BERT 模型學(xué)習(xí)到的字符級(jí)嵌入向量作為輸入,采用BiLSTM-CRF 深度學(xué)習(xí)模型識(shí)別得到最優(yōu)術(shù)語(yǔ)標(biāo)簽序列,然后利用點(diǎn)互信息和左右熵等文本統(tǒng)計(jì)特征計(jì)算復(fù)合術(shù)語(yǔ)的綜合得分,并結(jié)合領(lǐng)域知識(shí)庫(kù)構(gòu)建術(shù)語(yǔ)校正模型對(duì)抽取結(jié)果進(jìn)行校正。該模型無需制定領(lǐng)域術(shù)語(yǔ)的語(yǔ)法規(guī)則,解決了現(xiàn)有方法中對(duì)人工的過度依賴問題,更具有實(shí)用性。本文在“鹽湖提鋰”領(lǐng)域進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,采用BERT-BiLSTM-CRF 模型能有效識(shí)別出專利文本中的術(shù)語(yǔ),而基于統(tǒng)計(jì)特征的校正方法能夠有效獲取復(fù)合結(jié)構(gòu)的術(shù)語(yǔ),進(jìn)一步提升了領(lǐng)域術(shù)語(yǔ)抽取的精度。未來將繼續(xù)探索新的深度學(xué)習(xí)術(shù)語(yǔ)抽取模型,提升識(shí)別效果;同時(shí)考慮模型的泛化能力,面向不同的領(lǐng)域,結(jié)合更加多源的語(yǔ)料進(jìn)行實(shí)驗(yàn),使得模型具有更強(qiáng)的可移植性和通用性。

      利益沖突聲明

      所有作者聲明不存在利益沖突關(guān)系。

      猜你喜歡
      術(shù)語(yǔ)語(yǔ)料校正
      劉光第《南旋記》校正
      一類具有校正隔離率隨機(jī)SIQS模型的絕滅性與分布
      機(jī)內(nèi)校正
      基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
      華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
      《苗防備覽》中的湘西語(yǔ)料
      國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類型與收集方法
      一種基于eNode B的主動(dòng)式頻偏校正算法
      有感于幾個(gè)術(shù)語(yǔ)的定名與應(yīng)用
      從術(shù)語(yǔ)學(xué)基本模型的演變看術(shù)語(yǔ)學(xué)的發(fā)展趨勢(shì)
      西吉县| 山丹县| 鄂托克旗| 襄垣县| 辉县市| 南召县| 古丈县| 汉中市| 永胜县| 绥阳县| 惠东县| 崇义县| 绥阳县| 正阳县| 安乡县| 清苑县| 林芝县| 高密市| 静海县| 崇州市| 万载县| 裕民县| 叙永县| 大竹县| 长海县| 临泽县| 武川县| 遵义市| 玉环县| 长汀县| 峨边| 金沙县| 修水县| 崇文区| 洛阳市| 玉树县| 中阳县| 安义县| 元谋县| 北碚区| 巨野县|