賈 猛,王裴巖,張桂平,蔡?hào)|風(fēng)
(沈陽航空航天大學(xué) 人機(jī)智能研究中心,遼寧 沈陽 110136)
命名實(shí)體識(shí)別(Named Entity Recognition,NER)的主要任務(wù)是識(shí)別出文本中的人名、地名等專有名稱和有意義的時(shí)間、日期等數(shù)量短語并加以歸類[1],是機(jī)器翻譯、信息檢索、知識(shí)圖譜等應(yīng)用的核心組件之一。面向工藝文本的命名實(shí)體是對(duì)產(chǎn)品制造中所遵照或是產(chǎn)生的工藝標(biāo)準(zhǔn)、工藝大綱、工藝規(guī)范、指導(dǎo)書等文本中蘊(yùn)含的工程圖紙、參考標(biāo)準(zhǔn)、結(jié)構(gòu)特征、零件和零件號(hào)、零部件屬性和屬性值等進(jìn)行識(shí)別,對(duì)于工藝知識(shí)庫構(gòu)建[2-3]與工藝自動(dòng)生成[4-5]等具有重要作用。
近年來,深度學(xué)習(xí)模型被廣泛用于通用領(lǐng)域NER任務(wù)中,并表現(xiàn)出優(yōu)越的性能。此類方法將命名實(shí)體識(shí)別轉(zhuǎn)化為序列標(biāo)注問題,基于RNN[6]、LSTM[7]或GRU[8]網(wǎng)絡(luò),預(yù)測(cè)每個(gè)字在實(shí)體中的構(gòu)成成分。如文獻(xiàn)[9]首先將LSTM應(yīng)用于命名實(shí)體識(shí)別任務(wù),取得了不錯(cuò)的識(shí)別效果。文獻(xiàn)[10]首次將BiLSTM-CRF模型應(yīng)用于NLP序列標(biāo)注的命名實(shí)體識(shí)別數(shù)據(jù)集上,實(shí)驗(yàn)結(jié)果表明,BiLSTM-CRF模型相較于LSTM獲得了更好的結(jié)果。文獻(xiàn)[11]將BiLSTM與CNN進(jìn)行結(jié)合,用于命名實(shí)體識(shí)別,取得了不錯(cuò)的識(shí)別效果。文獻(xiàn)[12]提出了基于BiLSTM和基于Stack-LSTM兩種神經(jīng)網(wǎng)絡(luò)模型,在四種語言上均獲得了很好的識(shí)別效果。最近,針對(duì)中文的命名實(shí)體識(shí)別,文獻(xiàn)[13]提出了一種融合字詞的BiLSTM模型,在《人民日?qǐng)?bào)》和MSRA語料上均取得不錯(cuò)的識(shí)別效果。文獻(xiàn)[14]提出了一種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Lattice LSTM,將潛在詞信息融入到基于字符的LSTM-CRF中,在中文NER中,取得了目前最佳的效果。上述通用領(lǐng)域模型中均未引入外部知識(shí),文獻(xiàn)[15]研究并證明了外部知識(shí)對(duì)于命名實(shí)體識(shí)別的重要性。文獻(xiàn)[16]從維基百科語料中獲得地名詞典,并將其作為特征加入到BiLSTM-CRF模型中訓(xùn)練,在兩種不同的語言中獲得了命名實(shí)體識(shí)別性能的提升。該方法將詞典作為外部知識(shí)加入到模型中,未考慮規(guī)則這類外部知識(shí),但在專業(yè)領(lǐng)域中,語料中大都含有大量的句型和構(gòu)詞規(guī)則,如何將這類規(guī)則和詞典相結(jié)合提升實(shí)體識(shí)別效果是一個(gè)難點(diǎn)。
相較于通用領(lǐng)域,專業(yè)領(lǐng)域中命名實(shí)體的識(shí)別需要以該領(lǐng)域的知識(shí)為依據(jù),并兼顧其語言規(guī)律特性,使得專業(yè)領(lǐng)域的命名實(shí)體識(shí)別具有一定的難度[15]。在化學(xué)領(lǐng)域,文獻(xiàn)[17]針對(duì)化學(xué)資源文本的語言規(guī)律及特點(diǎn),建立BiLSTM-CRF模型對(duì)命名實(shí)體進(jìn)行初步識(shí)別,并使用基于詞典與規(guī)則相結(jié)合的方法對(duì)識(shí)別結(jié)果進(jìn)行校正;在軍事領(lǐng)域,文獻(xiàn)[18]針對(duì)軍事文本的語法特點(diǎn)建立特征集合,基于CRF對(duì)軍事命名實(shí)體進(jìn)行識(shí)別,并依次使用基于詞典的方法和基于規(guī)則的方法對(duì)識(shí)別結(jié)果進(jìn)行校正;在小語種識(shí)別領(lǐng)域,文獻(xiàn)[19]針對(duì)維吾爾語命名實(shí)體識(shí)別中存在的語義信息欠缺及數(shù)據(jù)稀疏等問題,基于BiLSTM進(jìn)行初始識(shí)別,并將維吾爾語單語知識(shí)引入后處理校正模塊。上述方法都關(guān)注在深度學(xué)習(xí)模型識(shí)別后,使用領(lǐng)域知識(shí)規(guī)則對(duì)個(gè)別實(shí)體結(jié)果進(jìn)行修正,但并沒有利用這部分知識(shí)在提高此部分實(shí)體識(shí)別效果的同時(shí)幫助其他實(shí)體的識(shí)別。其原因在于,“校正”方法只能對(duì)具有詞典或規(guī)則的實(shí)體在模型識(shí)別后對(duì)識(shí)別結(jié)果進(jìn)行校正,而對(duì)于沒有詞典或規(guī)則的實(shí)體,“校正”方法并不能在模型識(shí)別后通過后處理校正來提升該部分實(shí)體的識(shí)別效果,也就是識(shí)別模型與詞典及規(guī)則相脫離,詞典及規(guī)則指導(dǎo)信息沒有利用于模型的訓(xùn)練與預(yù)測(cè)過程。
針對(duì)以上問題,本文面向工藝文本提出了一種融入領(lǐng)域知識(shí)的神經(jīng)網(wǎng)絡(luò)命名實(shí)體識(shí)別方法。該方法利用領(lǐng)域詞典與規(guī)則預(yù)識(shí)別出部分實(shí)體作為預(yù)識(shí)別實(shí)體特征,提出一種神經(jīng)網(wǎng)絡(luò)模型CNN-BiLSTM-CRF,通過CNN網(wǎng)絡(luò)利用預(yù)識(shí)別實(shí)體整體特征指導(dǎo)字序列標(biāo)注模型的訓(xùn)練與預(yù)測(cè)。實(shí)驗(yàn)表明,本方法不但能夠提高詞典及規(guī)則覆蓋的實(shí)體識(shí)別效果,還能夠提高其他類實(shí)體的識(shí)別效果,優(yōu)于其他參與比較的方法,實(shí)體識(shí)別的F1值從90.99%提升到93.03%。
本文的組織結(jié)構(gòu)如下: 第1節(jié)闡述工藝文本的實(shí)體識(shí)別;第2節(jié)闡述CNN-BiLSTM-CRF網(wǎng)絡(luò)結(jié)構(gòu);第3節(jié)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析,驗(yàn)證了所提方法的識(shí)別效果;第4節(jié)作出結(jié)論。
本文在工藝文本中識(shí)別的實(shí)體涉及12大類(表1),這些實(shí)體表現(xiàn)出了如下特點(diǎn)。首先,因?yàn)槟愁惥幪?hào)或包含編號(hào)的實(shí)體比重很大,由于編號(hào)具有規(guī)則,所以能使用規(guī)則識(shí)別出此類實(shí)體。但由于同一套編號(hào)規(guī)則能夠適用于不同類實(shí)體,也造成了歧義。例如,零件號(hào)與工程圖紙?zhí)柧幪?hào)規(guī)則完全一致,又如,參考標(biāo)準(zhǔn)、工藝規(guī)范、方法圖等編號(hào)規(guī)則有重疊。這就需要在使用規(guī)則識(shí)別的同時(shí),使用上下文信息進(jìn)一步消除歧義或修正規(guī)則識(shí)別結(jié)果。其次,常用標(biāo)準(zhǔn)件如“螺釘”與“軸承”等及結(jié)構(gòu)特征如“孔”“凸臺(tái)”等能夠使用詞典識(shí)別。但還存在“下防撞燈電源盒”等無法基于詞典識(shí)別的實(shí)體。再者,工藝文本中的實(shí)體存在嵌套現(xiàn)象,如“鉚釘孔”結(jié)構(gòu)特征實(shí)體中嵌套有“鉚釘”零件實(shí)體。這些特點(diǎn)就需要在使用深度學(xué)習(xí)模型識(shí)別實(shí)體的同時(shí)融入規(guī)則或詞典信息,幫助模型訓(xùn)練及預(yù)測(cè)。
表1 工藝文本數(shù)據(jù)表
本文提出了一種基于CNN-BiLSTM-CRF的神經(jīng)網(wǎng)絡(luò)模型,并將領(lǐng)域知識(shí)融入其中,用于工藝文本的命名實(shí)體識(shí)別。該模型將實(shí)體識(shí)別視為字序列標(biāo)注問題,模型的輸入為字序列,輸出為字序列所對(duì)應(yīng)的實(shí)體標(biāo)記。首先將輸入的字序列信息處理為字特征向量和實(shí)體預(yù)識(shí)別特征向量,然后分別通過CNN網(wǎng)絡(luò)提取深層次局部字符級(jí)特征信息并將輸出向量進(jìn)行拼接,最后將拼接后的向量輸入到BiLSTM-CRF網(wǎng)絡(luò)中。基于BiLSTM,該模型能夠有效利用工藝文本序列數(shù)據(jù)的上下文輸入特征;基于CRF,該模型能夠考慮輸出標(biāo)簽之間的依賴性,輸出最優(yōu)標(biāo)簽序列。模型結(jié)構(gòu)如圖1所示,該模型由五部分組成: Input層、Embedding層、CNN層、BiLSTM層和CRF層。
圖1 CNN-BiLSTM-CRF命名實(shí)體識(shí)別模型
2.1.1 字特征
現(xiàn)有的命名實(shí)體識(shí)別有基于字[7]、基于詞[10]以及字詞聯(lián)合[13]的三種輸入方式。由于基于詞的輸入方式受分詞結(jié)果的影響,并且沒有專門的工藝文本分詞工具,因此本文選用基于字特征輸入的方式。將工藝文本數(shù)據(jù)按字進(jìn)行切分,并統(tǒng)計(jì)每個(gè)字的出現(xiàn)次數(shù),按從高到低進(jìn)行排序。同時(shí)需要向字表中加入未登錄字
2.1.2 實(shí)體預(yù)識(shí)別特征
實(shí)體預(yù)識(shí)別特征由基于詞典的預(yù)識(shí)別特征和基于規(guī)則的預(yù)識(shí)別特征構(gòu)成?;谠~典的預(yù)識(shí)別是對(duì)零件和結(jié)構(gòu)特征兩種實(shí)體的預(yù)識(shí)別,基于規(guī)則的預(yù)識(shí)別是對(duì)工程圖紙?zhí)?、零件?hào)、參考標(biāo)準(zhǔn)號(hào)、方法圖和工藝規(guī)范五種實(shí)體的預(yù)識(shí)別。將上述預(yù)識(shí)別結(jié)果進(jìn)行組合,為基于詞典及規(guī)則的實(shí)體預(yù)識(shí)別特征,并將輸入字序列對(duì)應(yīng)的預(yù)識(shí)別實(shí)體標(biāo)注結(jié)果轉(zhuǎn)化為獨(dú)熱向量的形式表示。
2.1.2.1 基于詞典的預(yù)識(shí)別
由于工藝文本中零件實(shí)體和結(jié)構(gòu)特征實(shí)體存在嵌套交叉現(xiàn)象,如“高鎖螺栓孔”,該實(shí)體為結(jié)構(gòu)特征實(shí)體,但里面嵌套著“高鎖螺栓”零件實(shí)體。為了提高該部分實(shí)體的識(shí)別效果,本文通過人工收集建立零件和結(jié)構(gòu)特征命名實(shí)體庫即詞典,零件和結(jié)構(gòu)特征詞典大小為1 384,如“沉頭螺栓”“自鎖螺母”“導(dǎo)孔”等。依據(jù)該詞典對(duì)輸入字序列進(jìn)行逆向最大匹配[20]并對(duì)結(jié)果做初始標(biāo)注,如“沉頭螺栓”標(biāo)注結(jié)果為“B-LJ I-LJ I-LJ E-LJ”,將標(biāo)注結(jié)果作為基于詞典的預(yù)識(shí)別實(shí)體特征。
2.1.2.2 基于規(guī)則的預(yù)識(shí)別
經(jīng)過人工分析發(fā)現(xiàn),工藝文本中部分實(shí)體的上下文構(gòu)成和構(gòu)詞本身存在一定的規(guī)律。本文通過分析這部分實(shí)體上下文和實(shí)體本身的用詞特點(diǎn),人工總結(jié)出一些啟發(fā)式的句型和構(gòu)詞規(guī)則,制定出規(guī)則模板,依據(jù)該模板對(duì)輸入字序列進(jìn)行規(guī)則匹配并對(duì)結(jié)果做初始標(biāo)注,將標(biāo)注結(jié)果作為基于規(guī)則的預(yù)識(shí)別實(shí)體特征。句型規(guī)則示例如表2第1行所示,“按534GD601要求進(jìn)行制孔”匹配規(guī)則“按BZ要求進(jìn)行制孔”后,得到實(shí)體預(yù)標(biāo)注序列“O B-BZ I-BZ I-BZ I-BZ I-BZ I-BZ I-BZ E-BZ O O O O O O”。觸發(fā)詞規(guī)則示例如表2第2行所示,“定位NAS578-5B”匹配規(guī)則“定位LJH”后,得到實(shí)體預(yù)標(biāo)注序列“O O B-LJH I-LJH I-LJH I-LJH I-LJH I-LJH I-LJH I-LJH E-LJH”。構(gòu)詞規(guī)則示例如表2第3行所示,“GYGF036-078”匹配規(guī)則“GYGF數(shù)字串-數(shù)字串”后,得到實(shí)體預(yù)標(biāo)注序列“B-GYGF I-GYGF I-GYGF I-GYGF I-GYGF I-GYGF I-GYGF I-GYGF I-GYGF I-GYGF E-GYGF”。下面介紹詳細(xì)的規(guī)則模板說明。
表2 規(guī)則說明
(1)句型規(guī)則
工藝文本中頻繁使用大量固定的句型,如“按照?qǐng)D紙……制……與……的導(dǎo)孔”、“根據(jù)……對(duì)……的調(diào)整檢查”、“按……及參考……定位……并鉆定位孔”等。其中,工程圖紙?zhí)?、參考?biāo)準(zhǔn)號(hào)和零件號(hào)實(shí)體經(jīng)常嵌套在上述結(jié)構(gòu)中,并且零件后面一般緊跟其對(duì)應(yīng)的零件號(hào),此類句型歸納總結(jié)為25條。因此可通過對(duì)固定句型的識(shí)別來判定工藝文本命名實(shí)體中的工程圖紙?zhí)?、零件?hào)和參考標(biāo)準(zhǔn)號(hào)實(shí)體。
(2)觸發(fā)詞規(guī)則
在句型規(guī)則中,經(jīng)常包含一類固定的詞,這些詞的出現(xiàn)預(yù)示著工程圖紙?zhí)?、零件?hào)和參考標(biāo)準(zhǔn)號(hào)實(shí)體的出現(xiàn),將這些詞稱為觸發(fā)詞,如“按照BAPS151-001手工安裝ZCB4023V3CR8粘接支架”,在上述例子中,參考標(biāo)準(zhǔn)號(hào)和零件號(hào)實(shí)體出現(xiàn)在“按照”和“安裝”觸發(fā)詞之后。除上述觸發(fā)詞之外,還有“定位”“鉆制”“拆除”等,此類觸發(fā)詞歸納總結(jié)為19個(gè),在一定程度上標(biāo)識(shí)著實(shí)體類別和邊界。因此,本文建立了完備的觸發(fā)詞知識(shí)庫來判定工藝文本命名實(shí)體中的工程圖紙?zhí)?、零件?hào)和參考標(biāo)準(zhǔn)實(shí)體。
(3)構(gòu)詞規(guī)則
工藝文本中實(shí)體的內(nèi)部構(gòu)成存在一定的規(guī)律,如工藝規(guī)范實(shí)體“GYGF036-078”,是由“GYGF”作為開始字符,其后緊跟一個(gè)由數(shù)字和字母構(gòu)成的字符串。有類似構(gòu)詞規(guī)律的實(shí)體還有方法圖和參考標(biāo)準(zhǔn)實(shí)體。因此通過該構(gòu)詞規(guī)則來判定工藝文本命名實(shí)體中的工藝規(guī)范、方法圖和參考標(biāo)準(zhǔn)實(shí)體。
文本向量化有兩種表示方法: 獨(dú)熱表示和分布式表示[21]。分布式向量能夠從大規(guī)模的語料中學(xué)習(xí)到單詞間的語義相關(guān)性,并且可有效降低維度,本文采用分布式的向量表示。分布式表示使用Word2Vec[22]預(yù)訓(xùn)練模型,Word2Vec有兩種實(shí)現(xiàn)模型: Skip-gram和CBOW。文獻(xiàn)[23]對(duì)兩種模型進(jìn)行了比較,當(dāng)語料規(guī)模在百兆級(jí)別時(shí),CBOW模型表現(xiàn)更好。結(jié)合本文所用的語料,選用CBOW模型。
CNN是有效提取句子局部特征信息的方法[24]。本文中預(yù)識(shí)別的實(shí)體特征形成了指導(dǎo)標(biāo)注的局部特征,利用CNN提取該局部特征信息。圖2是本文所用的CNN模型結(jié)構(gòu)。對(duì)于每個(gè)輸入,使用一個(gè)卷積層和一個(gè)池化層從每個(gè)輸入特征向量中提取一個(gè)新的特征向量。在字符經(jīng)過Embedding層輸入卷積層之前,先經(jīng)過一個(gè)Dropout[25]層。輸入特征向量包括基于字的特征向量和實(shí)體預(yù)識(shí)別特征向量。
圖2 CNN提取字符級(jí)特征
2.4.1 LSTM網(wǎng)絡(luò)
LSTM是在RNN的基礎(chǔ)上改進(jìn)而來的一個(gè)模型,t時(shí)刻,給定輸入xt,LSTM的記憶單元結(jié)構(gòu)的內(nèi)部實(shí)現(xiàn)如式(1)所示。
(1)
其中,W表示連接兩層的權(quán)重矩陣(如Wxi表示輸入層到隱藏層的輸入門的權(quán)重矩陣),b表示偏置向量(如bi表示隱藏層的輸入門的偏置向量),c表示記憶單元的狀態(tài),σ()和tanh()表示兩種不同的神經(jīng)元激活函數(shù),i,f和o分別表示輸入門、遺忘門和輸出門。
2.4.2 BiLSTM網(wǎng)絡(luò)
圖3 BiLSTM模型結(jié)構(gòu)
CRF模型是Lafferty等[27]提出的一種判別式概率無向圖學(xué)習(xí)模型。工藝文本命名實(shí)體識(shí)別任務(wù)的標(biāo)簽之間并不獨(dú)立,具有較強(qiáng)的依賴關(guān)系,如文本中所識(shí)別零件實(shí)體LJ和工程圖紙實(shí)體TZ,通常B表示開始的字,I表示中間的字,E表示最后的字,O表示非實(shí)體,B-LJ標(biāo)簽后面可能是I-LJ標(biāo)簽和E-LJ標(biāo)簽,但不可能是I-TZ標(biāo)簽。由于CRF能考慮相鄰標(biāo)簽之間的關(guān)系,所以本文使用CRF對(duì)標(biāo)簽序列進(jìn)行建模,而不是獨(dú)立地對(duì)每個(gè)標(biāo)簽進(jìn)行解碼。
在這里,定義輸入句子X、輸出標(biāo)簽序列y的分值s(X,y),如式(2)所示。
(2)
其中,A是轉(zhuǎn)移矩陣,表示將所有狀態(tài)一步轉(zhuǎn)移的概率;P是BiLSTM輸出的矩陣,Pi,j是假設(shè)從第i個(gè)字到第j個(gè)字作為一個(gè)命名實(shí)體的得分。
為了最大化正確標(biāo)簽序列的概率,解碼搜索條件概率最大的標(biāo)簽序列y*,如式(3)所示。
(3)
其中,YX表示y所有可能的標(biāo)簽序列。
本實(shí)驗(yàn)以某型飛機(jī)裝配所遵照的工藝文本作為數(shù)據(jù)集,該工藝文本數(shù)據(jù)來源于工藝標(biāo)準(zhǔn)、工藝大綱、工藝規(guī)范和指導(dǎo)書中的操作說明語句,共10 350條,經(jīng)過人工標(biāo)注后為實(shí)驗(yàn)語料。該數(shù)據(jù)集中包含命名實(shí)體99 704個(gè),實(shí)體類型如表1所示,平均句長(zhǎng)為194個(gè)字,數(shù)據(jù)標(biāo)注方式采用BIEO形式的標(biāo)注方式。本文實(shí)驗(yàn)均在十折交叉驗(yàn)證下進(jìn)行,并且取十次結(jié)果的平均值作為對(duì)算法精度的估計(jì)。
本文主要通過準(zhǔn)確率P(Precision)、召回率R(Recall)和F1值這三個(gè)指標(biāo)來對(duì)工藝文本的實(shí)體識(shí)別結(jié)果進(jìn)行評(píng)測(cè)。具體如式(4)~式(6)所示。
本文采用基于batch的梯度下降優(yōu)化超參數(shù),其中批次大小為64,使用Adam優(yōu)化器,并設(shè)置學(xué)習(xí)率為0.001;為了防止過擬合問題,設(shè)置Dropout參數(shù)為0.2;LSTM前向傳播和反向傳播的隱層節(jié)點(diǎn)數(shù)為200。CNN層設(shè)置卷積核大小為2,卷積核個(gè)數(shù)為200,卷積層數(shù)為1,采用ReLU()激活函數(shù)。具體模型最佳訓(xùn)練參數(shù)設(shè)置如表3所示。Embedding層使用Word2Vec的CBOW模型生成的向量,各參數(shù)取表4中的值時(shí),模型的綜合實(shí)驗(yàn)效果達(dá)到最佳。
表3 最佳訓(xùn)練參數(shù)設(shè)置
表4 CBOW模型參數(shù)表
為了驗(yàn)證融入基于領(lǐng)域詞典及規(guī)則預(yù)識(shí)別特征的有效性,本文設(shè)計(jì)了8組對(duì)比實(shí)驗(yàn),如表5所示。模型均使用2.2節(jié)所提到的CBOW模型在中文維基百科語料上訓(xùn)練而成的100維的字向量。模型1~5的輸入向量是基于字特征的向量,未加入額外特征;模型6使用的輸入向量是基于字特征的向量,未加入額外特征,在模型識(shí)別后使用詞典及規(guī)則進(jìn)行校正;模型7中的Pre_dic表示的是在基于字特征輸入的基礎(chǔ)上,加入額外基于詞典的預(yù)識(shí)別實(shí)體特征向量作為模型輸入;模型8中的Pre_dic_reg表示的是在基于字特征輸入的基礎(chǔ)上,加入額外基于詞典及規(guī)則的預(yù)識(shí)別實(shí)體特征向量作為模型輸入。
表5 8種模型對(duì)比實(shí)驗(yàn)結(jié)果
對(duì)表5中的實(shí)驗(yàn)結(jié)果進(jìn)行分析發(fā)現(xiàn),模型1~5在基于字特征輸入的對(duì)比實(shí)驗(yàn)中,模型5識(shí)別效果最好,準(zhǔn)確率、召回率和F1值可達(dá)到88.59%、93.82%和90.99%。模型5和模型2相比,增加了CNN,其中模型5采用了模型2的BiLSTM-CRF層結(jié)構(gòu),準(zhǔn)確率、召回率和F1值分別提高了0.08%、3.37%和1.52%,說明加入CNN用于提取工藝文本輸入字向量中存在的局部信息是有效的;模型5和模型4相比,將模型4的BiGRU使用BiLSTM代替,準(zhǔn)確率、召回率和F1值分別提高了0.24%、2.59%和1.29%,說明BiLSTM相較于BiGRU在本實(shí)驗(yàn)數(shù)據(jù)上表現(xiàn)出了更好的識(shí)別效果;模型6、7和8均采用了模型5的CNN-BiLSTM-CRF層結(jié)構(gòu)。模型6和模型5相比,在模型5的基礎(chǔ)上加入后處理“校正”,準(zhǔn)確率、召回率和F1值分別提高了1.11%、0.69%和1%,說明在模型識(shí)別后使用詞典及規(guī)則對(duì)部分實(shí)體校正后,該部分實(shí)體識(shí)別效果的提升使得整體的結(jié)果有了一定的提升;模型8和模型7相比,輸入特征由字特征加基于詞典的預(yù)識(shí)別特征變?yōu)樽痔卣骷踊谠~典及規(guī)則的預(yù)識(shí)別實(shí)體特征,準(zhǔn)確率、召回率和F1值分別提高了1.1%、1.56%和1.25%,原因在于,基于詞典的預(yù)識(shí)別只是對(duì)零件和結(jié)構(gòu)特征兩類實(shí)體做預(yù)識(shí)別,而基于詞典及規(guī)則的預(yù)識(shí)別是在上述兩類實(shí)體的基礎(chǔ)上又增加了對(duì)零件號(hào)、工程圖紙、參考標(biāo)準(zhǔn)、工藝規(guī)范和方法圖五類實(shí)體的預(yù)識(shí)別,實(shí)體覆蓋范圍更廣,向量中所隱含的特征信息更加豐富,使得模型表現(xiàn)更好;從模型8和模型6的對(duì)比實(shí)驗(yàn)結(jié)果可以看出,相較于使用詞典及規(guī)則在模型識(shí)別后面校正的方法,將基于詞典及規(guī)則的預(yù)識(shí)別實(shí)體特征加入到模型中效果更好,準(zhǔn)確率、召回率和F1值分別提高了1.25%、0.85%和1.04%,究其原因,主要在于“校正”方法僅能用后處理的方法修正具有詞典與規(guī)則的那部分實(shí)體的識(shí)別效果,不能幫助其他類實(shí)體的識(shí)別,而所提出的方法不但能夠提高具有詞典和規(guī)則的實(shí)體識(shí)別效果,還能幫助其他類實(shí)體的識(shí)別,該方法使得識(shí)別模型與詞典及規(guī)則相結(jié)合,詞典及規(guī)則指導(dǎo)信息更好地利用于模型的訓(xùn)練與預(yù)測(cè)過程,使模型整體的泛化能力更強(qiáng),獲得了更好的識(shí)別效果。
由2.1節(jié)可知,在工藝文本待識(shí)別的12種實(shí)體中,參考標(biāo)準(zhǔn)、結(jié)構(gòu)特征、零件、零件號(hào)、工程圖紙、工藝規(guī)范和方法圖七種實(shí)體能用詞典或規(guī)則的方法預(yù)識(shí)別出,識(shí)別結(jié)果如表6所示。
表6 詞典及規(guī)則覆蓋度
通過分析表6可知,工藝規(guī)范和方法圖實(shí)體準(zhǔn)確率和召回率都比較高,原因在于這兩類實(shí)體規(guī)則較為明顯,通過人工能很好地總結(jié)出構(gòu)詞規(guī)律。對(duì)于零件號(hào)、參考標(biāo)準(zhǔn)和工程圖紙這三類實(shí)體,召回率較低,準(zhǔn)確率較高,原因在于這三類實(shí)體的構(gòu)詞形式較多,只能從中總結(jié)出相對(duì)較為普遍的構(gòu)詞規(guī)律。對(duì)于零件和結(jié)構(gòu)特征實(shí)體,召回率較高,準(zhǔn)確率較低,主要在于零件和結(jié)構(gòu)特征實(shí)體存在嵌套交叉現(xiàn)象,在基于詞典進(jìn)行逆向最大匹配的過程中會(huì)將兩類實(shí)體混淆。
為進(jìn)一步驗(yàn)證加入基于詞典及規(guī)則預(yù)識(shí)別特征的有效性,對(duì)于工藝文本中的各類實(shí)體,選取表5中模型5、模型6和模型8三種模型做對(duì)比,其中,模型5是基于字特征輸入中識(shí)別效果最好的模型,模型6是在模型5后使用詞典及規(guī)則校正的方法,模型8是在模型5基礎(chǔ)上加入額外的基于詞典及規(guī)則的預(yù)識(shí)別實(shí)體特征。對(duì)于具有詞典及規(guī)則的各類實(shí)體,模型對(duì)比結(jié)果如表7所示,對(duì)于無詞典及規(guī)則的各類實(shí)體,模型對(duì)比結(jié)果如表8所示。
表7 具有詞典及規(guī)則的各類實(shí)體識(shí)別結(jié)果 (單位: F1/%)
表8 無詞典及規(guī)則的各類實(shí)體識(shí)別結(jié)果 (單位: F1/%)
通過分析表7可知,有詞典及規(guī)則的各類實(shí)體在加入額外基于詞典及規(guī)則預(yù)識(shí)別特征后,每類實(shí)體的F1值均有一定的提升,并且高于在模型識(shí)別后使用詞典及規(guī)則校正的方法,說明這類實(shí)體在詞典及規(guī)則信息特征的指導(dǎo)下,模型發(fā)揮出了更好的效果。從表8可以看出,“校正”方法僅能用后處理的方法修正具有詞典與規(guī)則的那部分實(shí)體的識(shí)別效果,無法對(duì)無詞典及規(guī)則類實(shí)體在模型識(shí)別后使用詞典及規(guī)則進(jìn)行校正,因此模型5和模型6在該類實(shí)體上識(shí)別效果一樣,而本文方法不但能夠提高具有詞典和規(guī)則的實(shí)體識(shí)別效果,對(duì)于無詞典及規(guī)則的每類實(shí)體的F1值也均有提高,主要原因在于向量的分布中隱含了額外的詞典及規(guī)則指導(dǎo)信息,經(jīng)過CNN-BiLSTM-CRF模型的抽象,可以更好地學(xué)習(xí)出來。也進(jìn)一步說明了加入CNN和基于詞典及規(guī)則的預(yù)識(shí)別實(shí)體特征后,在提高模型整體識(shí)別效果的同時(shí),對(duì)于每一類實(shí)體均有提升,驗(yàn)證了本文方法的有效性。
現(xiàn)有的專業(yè)領(lǐng)域命名實(shí)體識(shí)別研究大都關(guān)注在深度學(xué)習(xí)模型識(shí)別后,使用領(lǐng)域詞典及知識(shí)規(guī)則對(duì)個(gè)別實(shí)體結(jié)果進(jìn)行校正,但并沒有利用這部分領(lǐng)域詞典及知識(shí)規(guī)則在提高此部分實(shí)體識(shí)別效果的同時(shí)幫助其他實(shí)體的識(shí)別。其根本原因在于,識(shí)別模型與領(lǐng)域詞典及知識(shí)規(guī)則相脫離,詞典及規(guī)則指導(dǎo)信息沒有利用于模型的訓(xùn)練與預(yù)測(cè)過程。針對(duì)該問題,本文提出建立基于CNN-BiLSTM-CRF的神經(jīng)網(wǎng)絡(luò)模型用于工藝文本命名實(shí)體的識(shí)別,引入基于領(lǐng)域詞典及規(guī)則的預(yù)識(shí)別實(shí)體特征,將其用來指導(dǎo)模型的訓(xùn)練與識(shí)別,實(shí)驗(yàn)表明,本方法可有效提高工藝文本命名實(shí)體識(shí)別的性能。同時(shí)本文提出使用特征提取器CNN,抽取工藝文本輸入特征向量中存在的局部字符級(jí)信息,進(jìn)一步提高了系統(tǒng)的性能。
未來工作中,我們將考慮模型在基于字輸入的基礎(chǔ)上融入詞或者句子信息,期許能在模型隱層中提取出更多特征信息,獲得更好的識(shí)別性能。