張召武,徐 彬,高克寧,王同慶,張喬喬
(東北大學(xué) 計算機(jī)科學(xué)工程學(xué)院,遼寧 沈陽 110179)
中文命名實體識別(Chinese named entity recognition)是中文自然語言處理中的一項基本任務(wù)。通常,將中文命名實體識別看作是一種序列標(biāo)注任務(wù),對實體的邊界和類別標(biāo)簽進(jìn)行預(yù)測。在教育領(lǐng)域中,相關(guān)實體主要是知識點實體和法則實體。隨著近些年來自然語言處理技術(shù)的不斷發(fā)展,在教育領(lǐng)域中使用自然語言處理技術(shù)得到人們的重視,例如,將命名實體識別應(yīng)用到諸如機(jī)器自動提問和智能問答等相關(guān)任務(wù)中。
隨著近些年來互聯(lián)網(wǎng)技術(shù)的高速發(fā)展,數(shù)據(jù)出現(xiàn)爆炸式的增長,從數(shù)據(jù)中抽取有用的信息是非常有必要的,而作為信息抽取的重要環(huán)節(jié),命名實體識別的發(fā)展在最開始是通過人工制定一些規(guī)則和設(shè)置對應(yīng)的詞典[1]進(jìn)行,需要大量的人力物力,并且模型適用的范圍較小,不能夠應(yīng)用到不同的領(lǐng)域中?;趥鹘y(tǒng)的機(jī)器學(xué)習(xí)的方法(如條件隨機(jī)場CRF[2]、支持向量機(jī)SVM[3]和隱馬爾可夫HMM[4]等)進(jìn)行命名實體識別需要對不同的領(lǐng)域進(jìn)行不同的特征工程,相對繁瑣,模型缺乏一定的泛化能力。深度學(xué)習(xí)的方法不需要手動地設(shè)置規(guī)則和提取特征,并且在性能上遠(yuǎn)遠(yuǎn)優(yōu)于傳統(tǒng)的命名實體識別方法,特別是針對序列標(biāo)注任務(wù)的RNN網(wǎng)絡(luò)在近些年來得到廣泛關(guān)注。Hammerton[5]使用LSTM網(wǎng)絡(luò)來進(jìn)行命名實體識別,取得了很好的效果,Lample[6]等使用LSTM-CRF將神經(jīng)網(wǎng)絡(luò)與條件隨機(jī)場結(jié)合起來,在命名實體識別上取得了顯著的性能提升,Huang[7]等發(fā)現(xiàn)使用BiLSTM-CRF模型來進(jìn)行命名實體識別能夠有效結(jié)合上下文的信息,在這一方面要優(yōu)于LSTM-CRF網(wǎng)絡(luò),并且在性能上也優(yōu)于LSTM-CRF網(wǎng)絡(luò)。Collobert[8]等使用CNN代替LSTM的CNN-CRF模型也取得了不錯的效果,同時相較于LSTM,CNN網(wǎng)絡(luò)有著更快的模型訓(xùn)練速度。
對于教育領(lǐng)域的命名實體識別來說,能夠采用上述模型,但是效果較差,并且中文不同于英文,對于英文來說有著明確的單詞分隔符號和一些詞組的固定搭配,而中文不僅沒有明確的分隔符號,并且中文的詞也不是固定的,同時教育領(lǐng)域的命名實體識別要求對實體邊界的識別要十分精確。中文進(jìn)行分詞還會帶來OOV(中文溢出詞)問題,Chen[9]等的研究發(fā)現(xiàn)分詞的好壞會直接影響命名實體識別的最終效果。He和Wang[10]等人發(fā)現(xiàn),對于中文采用基于字符的方法可以避免分詞上的錯誤,Chen[11]和Yang[12]等使用字符和雙字符進(jìn)行結(jié)合,使單純的基于詞的中文命名實體識別方法在性能上有著一定的提升。但是單純的基于字的方法會損失掉大量的詞匯信息。Huang[13]等采用了外部詞匯信息,將詞匯特征加入到基于字的模型中。Zhang和Yang[14]等提出了字詞融合的Lattice LSTM模型,加入了外部詞典,充分地使用詞信息,在中文命名實體識別上取得了巨大的性能提升,但是由于網(wǎng)絡(luò)結(jié)構(gòu)的特殊,Batch size只能設(shè)為1,不能夠并行地進(jìn)行訓(xùn)練,所以模型的訓(xùn)練速度非常慢。Zhu[15]等提出了一個不依賴于外部詞典的帶有局部注意力層的基于字符的卷積神經(jīng)網(wǎng)絡(luò)和一個具有全局注意力層的GRU網(wǎng)絡(luò)組成的模型,用來捕捉相鄰字符和句子的上下文信息,該模型不依賴任何外部資源,性能上也要優(yōu)于Lattice LSTM網(wǎng)絡(luò)。
對于教育領(lǐng)域命名實體識別來說,融合字詞信息是非常重要的,但是Lattice LSTM網(wǎng)絡(luò)設(shè)計得十分復(fù)雜。而且由于網(wǎng)絡(luò)結(jié)構(gòu)限制無法進(jìn)行并行訓(xùn)練,如果一個字符同時與多個詞對應(yīng)還會產(chǎn)生沖突,難以得到正確的標(biāo)簽。對于以上問題,Gui[16]等提出了帶有Rethinking機(jī)制的CNN網(wǎng)絡(luò)進(jìn)行中文命名實體識別,解決模型訓(xùn)練速度慢和詞沖突的問題。Sui[17]等提出了字符級的協(xié)作圖網(wǎng)絡(luò)LGN,分為編碼層、構(gòu)圖層、融合層和解碼層,通過各個節(jié)點的相連結(jié)構(gòu)來實現(xiàn)局部語義信息的融合,增加一個全局節(jié)點實現(xiàn)全局信息的融合,不斷地遞歸融合其傳入節(jié)點和全局節(jié)點,實現(xiàn)節(jié)點信息更新,從多角度全方位地融合詞信息。中文命名實體識別另一個關(guān)鍵點在于詞向量的表示上,改進(jìn)輸入層的向量特征對于基于深度學(xué)習(xí)的方法是至關(guān)重要的?,F(xiàn)有的預(yù)訓(xùn)練模型如BERT[18]對一些自然語言處理任務(wù)也有顯著的性能提升。但是對于教育領(lǐng)域的命名實體識別來說,要想融合字和詞信息,需要設(shè)計一種全新的向量表示層,Ma和Peng[19]等提出了一種SoftLexicon的分詞方法,用來對輸入的文本進(jìn)行分詞,并且能夠融合字詞信息,取得了較好的結(jié)果。
對于教育領(lǐng)域的命名實體識別,傳統(tǒng)方法效果差,并且費時費力,所以本文采取主流的深度學(xué)習(xí)模型,將模型分為向量表示層、序列建模層和標(biāo)簽層。
向量表示層將每個字與詞的相關(guān)信息和位置信息融合起來,我們使用了和Lattice LSTM相同的中文詞典和中文字符,在Word2Vec[20]上進(jìn)行訓(xùn)練,得到對應(yīng)的詞向量,將字在句中的位置進(jìn)行歸一化處理,得到對應(yīng)的位置向量表示,將字和字對應(yīng)的詞的詞向量還有字的位置向量進(jìn)行拼接得到一個新的向量表示作為序列建模層的輸入。我們的模型SVR-BiGRU-CRF主要分為三個部分: SVR(Simple Vector Representation)在向量表示層對字、詞和位置信息進(jìn)行融合,在不改變網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)之上更好地將字、詞和位置信息進(jìn)行融合。BiGRU作為序列建模層,BiGRU相對于BiLSTM結(jié)構(gòu)上更簡單,由三個門合并成兩個門,并且減少了相應(yīng)的矩陣參數(shù),計算量比BiLSTM降低,加快了模型訓(xùn)練速度。通過向量表示層和序列建模層得到特征信息,采用CRF層來判別標(biāo)簽是否符合規(guī)則,從而得到合理的標(biāo)簽標(biāo)注。
我們使用的教育數(shù)據(jù)集(Edu)來源于諸如百度百科、百度文庫、維基百科等包含學(xué)科知識點的語句,收集了中學(xué)數(shù)學(xué)相關(guān)領(lǐng)域的知識點語句,對知識點語句中的實體進(jìn)行標(biāo)注。
本文的主要貢獻(xiàn)可以概括為以下兩方面:
(1) 在向量表示層上對字、詞的信息和字的位置信息進(jìn)行融合,無須改變網(wǎng)絡(luò)結(jié)構(gòu),避免了網(wǎng)絡(luò)結(jié)構(gòu)變化帶來的計算復(fù)雜度的增加,使得計算效率更高。
(2) 使用傳統(tǒng)的BiGRU和BiLSTM代替Lattice LSTM作為網(wǎng)絡(luò)層來處理文本的向量表示,降低序列建模層復(fù)雜程度,提升模型的訓(xùn)練速度。
本文提出的模型由三個部分組成,分別是向量表示層、序列建模層和標(biāo)簽層。向量表示層將字詞信息和位置信息相融合,得到對應(yīng)的向量表示;序列建模層為BiGRU,標(biāo)簽層使用CRF得到最終的輸出,圖1為模型結(jié)構(gòu)。
圖1 模型結(jié)構(gòu)
本文使用的數(shù)據(jù)集為Resume和教育數(shù)據(jù)集(Edu),訓(xùn)練集的標(biāo)注有BMES(四位序列標(biāo)注法)和BIO(三位序列標(biāo)注法)兩種形式,對于Resume數(shù)據(jù)集是BMES標(biāo)注形式;對于教育數(shù)據(jù)集(Edu),是BIO標(biāo)注形式。同時對向量表示層做了兩種設(shè)計,一種是針對BIO標(biāo)注的數(shù)據(jù)集,另外一種是針對BMES標(biāo)注的數(shù)據(jù)集,并且為了證明該模型的泛化能力,在兩個數(shù)據(jù)集上進(jìn)行了實驗。
向量表示層將輸入語句中的字、詞和位置信息進(jìn)行融合,從而避免單純地使用字作為輸入,不僅能充分地使用文本中的詞信息,也能避免基于詞的方法需要進(jìn)行分詞所帶來的OOV問題,最大程度上將輸入語句中的信息輸入到序列建模層中。同時將位置信息融入向量表示層中,能更好地界定實體的邊界。
向量表示層對字、詞和位置信息的融合,能夠有效識別實體的邊界和實體類型,對于字詞信息的融合, Lattice LSTM模型通過改變LSTM網(wǎng)絡(luò)的架構(gòu),將詞信息融入模型中,但是網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜帶來了訓(xùn)練速度變慢的問題。本文從詞向量表示層入手,對字、詞和位置信息進(jìn)行融合,避免構(gòu)造復(fù)雜的網(wǎng)絡(luò),實現(xiàn)一種通用的字、詞和位置信息融合的方法,提升模型的訓(xùn)練速度和準(zhǔn)確率,本文提出的方案如下。
2.2.1 字向量表示
輸入的句子S是由多個字符{c1,c2,c3,…,cn}等組成的序列,對于每個字符ci,我們可以通過預(yù)訓(xùn)練的字向量得到對應(yīng)的向量表示,如式(1)所示。
(1)
(2)
2.2.2 詞向量表示
該部分考慮到由于中文分詞帶來的OOV錯誤和數(shù)據(jù)集的兩種標(biāo)注方式,對于BMES標(biāo)注和BIO標(biāo)注使用兩種詞向量獲取方式,對于輸入到詞向量表示層的句子S={c1,c2,…,cn},為盡可能匹配到句子中所有出現(xiàn)的詞,使用了通過Word2Vec得到的預(yù)訓(xùn)練的詞向量文件,并根據(jù)Peng[19]等提出的SoftLexicon方法采用詞標(biāo)注的類別對得到的詞進(jìn)行分類,類別中未存在的詞我們使用None表示,分詞方法如圖2所示。
圖2 SoftLexicon分詞方法
在獲取詞信息的同時,還統(tǒng)計該字位于句中的位置信息,位置信息的pi,如式(3)所示。
(3)
通過字在詞中的不同位置對詞進(jìn)行分類,由于存在兩種標(biāo)注方式,下面分別給出這兩種形式的分詞方式,如式(4)、式(5)所示。
2.2.3 字詞向量和位置信息融合
通過上面兩部分可以得到輸入文本的字向量、詞向量和字的位置信息??紤]到每個字對應(yīng)的詞集合中各類別中的詞數(shù)量的不同,我們需要對各個類別中出現(xiàn)的詞集合進(jìn)行一下處理,得到對應(yīng)的類別向量。
對于詞集合的處理,我們使用加權(quán)融合的方式。對于每個詞在所給數(shù)據(jù)集中出現(xiàn)的頻率和對應(yīng)詞所在類別中詞的數(shù)量在整個詞集合中所占的比重對詞向量進(jìn)行加權(quán)融合,將每個類別下的多個詞的詞向量通過加權(quán)融合的方式最終得到對應(yīng)類別的向量,加權(quán)融合如式(6)和式(7)所示。
式(6)用來統(tǒng)計該詞位于的類別中包含的詞的個數(shù)在整個詞集合中所占的比重,Cs中“s”代表對應(yīng)的類別,將對應(yīng)類別中的詞的數(shù)量相加除以詞集合中所有詞的數(shù)量得到對應(yīng)的類別權(quán)重,分別給出了BIO標(biāo)注和BMES標(biāo)注公式。
(6)
對于詞集合中的每個類別中的詞向量進(jìn)行融合,我們考慮到該類別中詞在數(shù)據(jù)集中出現(xiàn)的頻率作為融合詞向量的權(quán)重,統(tǒng)計詞w在數(shù)據(jù)集中出現(xiàn)的次數(shù)得到頻率權(quán)重O(w),如式(7)所示。
(7)
通過上面兩部分得到了詞集合對應(yīng)類別權(quán)重和詞的權(quán)重,將該類別中每個詞與其對應(yīng)的頻率權(quán)重O(w)相乘,得到每個詞的向量表示,然后對應(yīng)類別中詞的詞向量相加,再乘以類別權(quán)重Cs,最終得到對應(yīng)類別的加權(quán)向量表示,如式(8)所示,這里給出了兩種標(biāo)注方式的計算方法。
(8)
通過上面三部分,將輸入語句中的字信息、詞信息和位置信息進(jìn)行拼接,得到該字符的最終向量表示,如式(9)所示。該方法考慮了詞出現(xiàn)的頻率,詞對應(yīng)類別在詞集合中所占的比重,對同類別下的詞向量進(jìn)行融合,得到該類別對應(yīng)的向量表示。這樣就能夠在不改變網(wǎng)絡(luò)結(jié)構(gòu)的情況下,對字、詞和位置信息進(jìn)行融合,最大化地利用輸入語句中給出的信息。
(9)
序列建模層使用BiGRU網(wǎng)絡(luò),相較于基線模型Lattice LSTM對LSTM網(wǎng)絡(luò)進(jìn)行更改,BiGRU并不需要修改網(wǎng)絡(luò)。Lattice LSTM網(wǎng)絡(luò)通過對LSTM網(wǎng)絡(luò)進(jìn)行修改增加了cw單元來處理詞信息,更改了LSTM網(wǎng)絡(luò)的結(jié)構(gòu),Lattice LSTM網(wǎng)絡(luò)結(jié)構(gòu)如圖(3)所示。
圖3 Lattice LSTM網(wǎng)絡(luò)結(jié)構(gòu)
(10)
(11)
相對于復(fù)雜的Lattice LSTM需要改變網(wǎng)絡(luò)結(jié)構(gòu)來引入詞信息,在本模型中,GRU并不需要進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)上的修改,因為在向量表示層就將字、詞和位置信息進(jìn)行結(jié)合,GRU只需處理向量表示層輸入的信息,就能夠?qū)⒃~信息融入到網(wǎng)絡(luò)中,GRU網(wǎng)絡(luò)的定義如式(12)所示。
(12)
(13)
(14)
本實驗使用了兩個中文命名實體識別數(shù)據(jù)集,其中Resume數(shù)據(jù)集[14]是BMES標(biāo)注,教育數(shù)據(jù)集(Edu)是BIO標(biāo)注,使用兩種標(biāo)注數(shù)據(jù)集能夠驗證模型的泛化能力。數(shù)據(jù)集的具體信息如表1所示。
表1 數(shù)據(jù)集信息
3.2.1 參數(shù)設(shè)置
本文中使用了和Lattice LSTM相同的詞典ctb.50d.vec,該預(yù)訓(xùn)練詞向量使用Word2Vec模型進(jìn)行訓(xùn)練,包含5 700個單字詞、129 000個雙字詞和278 000個三字詞和一些其他字詞,字向量使用的是也是與Lattice LSTM相同的預(yù)訓(xùn)練字向量Giga-Word,該預(yù)訓(xùn)練字向量也使用word2vec模型進(jìn)行訓(xùn)練,ctb.50d.vec和Giga-Word都是50維向量。
模型使用單層的BiGRU作為序列建模層,初始學(xué)習(xí)率learning rate設(shè)置為0.015,學(xué)習(xí)率衰減learning rate decay設(shè)置為0.05,梯度裁剪clip設(shè)置為5.0,dropout設(shè)置為0.5,batch size設(shè)置為1,迭代次數(shù)設(shè)置為100,詳細(xì)信息如表2所示。
表2 超參數(shù)設(shè)置
3.2.2 評價指標(biāo)
實驗中使用的數(shù)據(jù)集被劃分為訓(xùn)練集、驗證集和測試集。使用精確率P(Precision)、召回率R(Recall)和F1值(F1Score)作為模型的評價指標(biāo)。
3.3.1 Resume數(shù)據(jù)集實驗結(jié)果與分析
Resume數(shù)據(jù)集包含國家(CONT)、教育機(jī)構(gòu)(EDU)、地點(LOC)、人名(PER)、機(jī)構(gòu)(ORG)、職業(yè)(PRO)、種族(RACE)和職業(yè)(TITLE)八種類別,采用BMES標(biāo)注。在該部分將本文的模型與基線模型Lattice LSTM進(jìn)行對比,Lattice LSTM提出了一種詞格結(jié)構(gòu),將詞信息融入網(wǎng)絡(luò)中,避免分詞對模型性能帶來的影響,但是Lattice LSTM對網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了修改,導(dǎo)致模型的訓(xùn)練速度變慢,但是相比較于基于字符和基于詞的模型,Lattice LSTM在性能上得到了提升。Resume數(shù)據(jù)集中文命名實體識別實驗結(jié)果如表3所示。
表3 Resume數(shù)據(jù)集實驗結(jié)果
通過對基于字符的BiLSTM-CRF和基于詞的BiLSTM-CRF進(jìn)行對比。我們發(fā)現(xiàn),采用基于詞的中文命名實體識別模型在性能上要優(yōu)于基于字的模型,說明融入詞信息對于中文命名實體識別是十分重要的。Bert-BiLSTM-CRF模型在性能上要優(yōu)于基線模型Lattice LSTM,考慮到Resume數(shù)據(jù)集較小,包含的句子和實體相對較少,Lattice LSTM模型依賴外部詞典的原因,在性能上出現(xiàn)差距是正常的。在Resume數(shù)據(jù)集的實驗中Peng[19]等提出的SoftLexicon(LSTM)在召回率和F1值上達(dá)到了最優(yōu),而本文提出的模型在準(zhǔn)確率上達(dá)到了最優(yōu),說明采用SoftLexicon方法對輸入的文本進(jìn)行分詞處理,可以更好地將詞信息融合到向量表示層中。
3.3.2 教育數(shù)據(jù)集實驗結(jié)果與分析
教育數(shù)據(jù)集(Edu)包含知識點實體(KNOW)實體、法則實體(PRIN)和非實體(O),采用的是BIO標(biāo)注的方式。在這一部分我們使用了BERT-BiLSTM-CRF、SVR-BiLSTM-CRF、SVR-BiGRU-CRF、SoftLexicon(LSTM)和基線模型進(jìn)行實驗,教育數(shù)據(jù)集(Edu)中文命名實體識別實驗結(jié)果如表4所示。
表4 教育數(shù)據(jù)集實驗結(jié)果
實驗結(jié)果顯示: 在教育數(shù)據(jù)集上,本文提出的模型SVR-BiGRU-CRF在召回率和F1值上取得了最優(yōu)結(jié)果,在準(zhǔn)確率上低于SVR-BiLSTM-CRF。同時,該數(shù)據(jù)集是通過BIO進(jìn)行標(biāo)注的,不同于Resume數(shù)據(jù)集BMES的標(biāo)注方式。BIO分別代表詞的開頭、詞的中間部分和非實體部分。并且本文提出的模型在三個評價指標(biāo)上得到了最優(yōu)結(jié)果,本文考慮到教育領(lǐng)域的實體對實體邊界的識別要求十分精確,采用本文提出的方法能夠?qū)ψ?、詞和位置信息進(jìn)行融合,相比于其他的方法,能夠更好地區(qū)分實體邊界,取得較好的效果。
實驗部分采用了兩個數(shù)據(jù)集,本文提出的模型在這兩個數(shù)據(jù)集上均能取得較好的結(jié)果,并且本文提出的模型在教育領(lǐng)域數(shù)據(jù)集上取得了最優(yōu)的F1值,表明模型是有效的。本文模型在兩個不同標(biāo)注的數(shù)據(jù)集上也取得了較好的結(jié)果,證明了模型具有一定的泛化能力。
本節(jié)為了驗證模型的有效性,我們分別在兩個數(shù)據(jù)集上進(jìn)行對比實驗,主要是對模型的訓(xùn)練速度、不同的序列建模層和向量層的融合方式對模型產(chǎn)生的影響進(jìn)行對比實驗。
3.4.1 模型訓(xùn)練速度對比實驗
該部分我們以基線模型Lattice LSTM的訓(xùn)練速度作為標(biāo)準(zhǔn),分別對Bert-BiLSTM-CRF、SVR-BiGRU-CRF和SVR-BiLSTM-CRF三個模型進(jìn)行對比,因為基線模型Lattice LSTM網(wǎng)絡(luò)結(jié)構(gòu)的原因,我們對以上三個模型的batch size均設(shè)為1,模型訓(xùn)練速度對比如圖4所示。
圖4 訓(xùn)練速度對比
以基線模型Lattice LSTM模型訓(xùn)練時間作為基準(zhǔn),分別在兩個數(shù)據(jù)集上進(jìn)行模型訓(xùn)練,BERT-BiLSTM-CRF在兩個數(shù)據(jù)集上的訓(xùn)練速度是基線模型的3倍左右。本文模型的訓(xùn)練速度是基線模型的4倍左右。并且使用BiGRU作為序列建模層比使用BiLSTM作為序列建模層在訓(xùn)練速度上有一定的提升。
3.4.2 序列建模層對比實驗
在這里我們對BiGRU和BiLSTM作為序列建模層進(jìn)行實驗,通過上面的模型訓(xùn)練速度的對比實驗我們能夠看出,BiGRU相比于BiLSTM有著更快的模型訓(xùn)練速度。在這一部分,我們對兩種不同的序列建模層的實驗效果進(jìn)行對比,實驗結(jié)果如表5所示。
表5 序列建模層對比結(jié)果
通過該對比實驗得知,兩者在性能上并無太大的差距,使用BiGRU不僅能夠加快模型的訓(xùn)練速度,同時模型的性能也不會有較大的損失。
3.4.3 融合方式對比實驗
在向量表示層中,基于SoftLexicon分詞方法得到字對應(yīng)的詞集合。針對這一部分字詞向量的融合,本文給出了加權(quán)融合的方式,為證明該方法的有效性,在這里我們對使用加權(quán)融合的和直接進(jìn)行相加融合的Resume數(shù)據(jù)集和Edu數(shù)據(jù)集進(jìn)行對比實驗,實驗結(jié)果如表6所示。
表6 融合方式對比結(jié)果
通過對比實驗我們發(fā)現(xiàn)使用加權(quán)融合的方式在準(zhǔn)確率、召回率和F1值上都要優(yōu)于直接相加融合的方式,這也表明本文提出的字、詞和位置信息融合的方法是有效的,在兩種不同標(biāo)注方式的數(shù)據(jù)集上都能夠取得最優(yōu)的性能。
在本文的工作中,我們提出了一種針對教育領(lǐng)域中文命名實體識別的方法,并通過將字、詞和位置信息融合。該方法能夠?qū)⑽谋据斎氲男畔⒆畲笙薅鹊厝谌胂蛄勘硎緦又?,豐富了特征信息;能夠有效地將字信息、詞信息和位置信息進(jìn)行融合;能夠很好地解決教育領(lǐng)域數(shù)據(jù)對實體邊界識別的問題。使用BiGRU作為序列建模層替代Lattice LSTM,能夠加快模型的訓(xùn)練速度。對不同標(biāo)注方式的兩個數(shù)據(jù)集進(jìn)行實驗,驗證了模型的泛化能力。實驗結(jié)果表明,本文提出的模型在訓(xùn)練速度和性能上都取得了一定的提升,優(yōu)于基線模型,在教育數(shù)據(jù)集上取得了較好的結(jié)果。