張俊飛 畢志升 王靜 吳小玲
摘? ?要:為在不依賴特征工程的情況下提高中文領(lǐng)域命名實體識別性能,構(gòu)建了BLSTM-CRF神經(jīng)網(wǎng)絡(luò)模型。首先利用CBOW模型對1998年1月至6月人民日報語料進(jìn)行負(fù)采樣遞歸訓(xùn)練,生成低維度稠密字向量表,以供查詢需要;然后基于Boson命名實體語料,查詢字向量表形成字向量,并利用Jieba分詞獲取語料中字的信息特征向量;最后組合字向量和字信息特征向量,輸入到BLSTM-CRF深層神經(jīng)網(wǎng)絡(luò)中。實驗結(jié)果證明,該模型面向中文領(lǐng)域命名實體能夠較好的進(jìn)行識別,F(xiàn)1值達(dá)到91.86%。
關(guān)鍵詞:BLSTM-CRF;CBOW;Boson;命名實體識別
中圖分類號:X853? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識碼:A
Abstract:The BLSTM-CRF neural network model is built to improve the performance of Chinese domain named entity recognition in the absence of feature engineering.First,the CBOW model was used to carry out recursion training of negative sampling on the corpus of People's Daily from January to June in 1998 to generate a low-dimensional dense word vector table for the query needs;then,based on Boson entity corpus,the word vector was formed by querying the word vector table,and the information feature vector of the words in the corpus was obtained by using the Jieba participle;finally,the combined word vector and word information feature vector are input into BLSTM-CRF deep neural network.Experimental results show that the model can be well identified for the Chinese domain named entities,and the F1 value is up to 91.86%.
Key words:BLSTM-CRF;CBOW;Boson;named entity recognition
命名實體識別是自然語言處理中的一項基礎(chǔ)任務(wù),旨在從文本中識別命名實體如人名、地名和組織機構(gòu)名等。命名實體識別是信息提取[1]、問答系統(tǒng)[2]、句法分析[3]、機器翻譯[4]等應(yīng)用領(lǐng)域的重要基礎(chǔ),其研究具有重要意義。早期學(xué)者利用命名實體識別規(guī)則或機器學(xué)習(xí)方法實現(xiàn)對中文命名實體識別。張小衡等[5]利用相應(yīng)的規(guī)則實現(xiàn)對中國內(nèi)地、香港、臺灣高校名稱的識別;程志剛[6]提出了采用基于規(guī)則和條件隨機場相結(jié)合的中文命名實體識別研究方案對人民日報的語料進(jìn)行人名、地名、機構(gòu)名的識別。馮艷紅等[7]基于詞向量和條件隨機場在漁業(yè)領(lǐng)域語料和Sogou CA語料上進(jìn)行了領(lǐng)域術(shù)語識別,F(xiàn)值達(dá)到0.9643。近年來,隨著人工智能技術(shù)的發(fā)展,相比基于規(guī)則和機器學(xué)習(xí)的命名實體識別方法,基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法因不依賴特征工程而備受關(guān)注。LSTM-CRF模型是當(dāng)前命名實體識別比較流行的組合,最早由Collobert[8]提出,隨后國內(nèi)外學(xué)者對LSTM-CRF模型展開了深入研究。Huang[9]把BLSTM-CRF模型應(yīng)用于序列標(biāo)注;買買提阿依甫[10]通過CNN提取維吾爾單詞的字符特征結(jié)合單詞詞性和詞向量,應(yīng)用BLSTM-CRF模型實現(xiàn)維吾爾命名實體識別,F(xiàn)1值達(dá)到91.89%;Dong[11]利用字的偏旁部首特性結(jié)合LSTM-CRF模型實現(xiàn)命名實體識別。
從當(dāng)前研究可以看出,深度學(xué)習(xí)的命名實體識別不使用特征工程;在神經(jīng)網(wǎng)絡(luò)輸入層盡量豐富輸入數(shù)據(jù)信息,以提高識別準(zhǔn)確率?;?998年1月-6月人民日報語料和Boson命名實體識別語料,本文提出一種基于BLSTM-CRF的神經(jīng)網(wǎng)絡(luò)模型,首先利用Word2Vec訓(xùn)練人民日報語料,輸出字向量數(shù)據(jù),以供Boson語料查詢,形成Boson語料字向量;然后通過對Boson命名實體語料進(jìn)行Jieba分詞,獲得字的信息特征向量;最后組合字向量和字信息特征向量輸入到BLSTM-CRF模型中進(jìn)行訓(xùn)練,從而得到面向中文領(lǐng)域命名實體識別模型。
1? ?框架整體設(shè)計
圖1為本文提出的BLSTM-CRF模型框架。本模型共有三部分組成:輸入層、BLSTM模塊、線性CRF模塊。輸入層輸入信息包括:字向量和字的信息特征向量。字向量通過查找預(yù)先利用Word2Vec訓(xùn)練好的字向量表得到;字的信息特征向量,需要對輸入句子分詞處理,然后進(jìn)行標(biāo)注獲得。字向量和字信息特征向量組合喂入BLSTM模塊中,輸出各種標(biāo)記序列組合,再進(jìn)行線性CRF處理,得到一個最優(yōu)的標(biāo)記序列。
1.1? ?字向量
將文本應(yīng)用于深度學(xué)習(xí)網(wǎng)絡(luò)中,首先需要對輸入數(shù)據(jù)進(jìn)行向量化表示。文本向量化表示有兩種:One-Hot方式和分布式方式[12]。One-Hot方式實現(xiàn)字符0和1表示的長向量,向量的長度是語料詞典的大小。One-Hot表示容易遭受向量維數(shù)災(zāi)難,數(shù)據(jù)非常稀疏(大部分為0值),沒有考慮字符間的語義和語法關(guān)系。分布式表示將字符從One-Hot表示向量映射為低維、稠密實數(shù)向量,且考慮了字符間的上下文信息環(huán)境,克服了One-Hot存在的缺陷。Mikolov等人[13]提出CBOW(Continuous Bag-of-
Word)和Skip-gram(Continuous Skip-gram)兩個分布式表示模型。CBOW在訓(xùn)練效率上高于Skip-gram,[14]故本研究中采用CBOW模型來訓(xùn)練字的分布式特征。
CBOW模型包含三層:輸入層、投影層、輸出層,其模型框架如圖2所示。以語料中“大江截流展宏圖”語句為例,輸入層為字符“流”的上下文,其中 wt-e,wt-e+1,…,wt-e-1,wt+e表示“流”上下文“長江截展宏圖”對應(yīng)的各個字的One-Hot向量表示,窗口大小c為3;投影層將6個輸入層向量求和(或求均值、直接拼接);輸出層是被One-Hot編碼的輸出字“流"。其目標(biāo)函數(shù)為:p(wt|wt,wt-e+1,…,wt-e-1,wt+e),在上下文環(huán)境下求得wt的概率最大化。通過對目標(biāo)函數(shù)的訓(xùn)練,獲得每個字的k維向量。k值越大訓(xùn)練成本越高,模型效果越好,本研究k為150。
本研究以1998年1月-6月人民日報為字向量訓(xùn)練語料,使用Python Gensim工具構(gòu)建Word2Vec的CBOW模型、輸出層使用負(fù)采樣降低訓(xùn)練復(fù)雜度,提高訓(xùn)練效率,最終生成了字向量Vec.txt文件。
1.2? ?Boson命名實體語料處理
Boson命名實體采用UTF-8編碼進(jìn)行標(biāo)注,每行為一個段落標(biāo)注,共包括2000段落。所有的實體標(biāo)注格式為:{{實體類型:實體文本}}。Boson語料中數(shù)據(jù)如:{{product_name:浙江在線杭州}}{{time:4月25日}}訊(記者{{person_name: 施宇翔}} 通訊員 {{person_name:方英}})。Boson標(biāo)注的實體類別如下表1所示。
Boson命名實體語料首先采用BIEO標(biāo)記(B表示詞開頭,I表示詞中間,E表示詞結(jié)尾,O表示其他)方法進(jìn)行處理,按照標(biāo)點符號分成短句,每個短句為一行。標(biāo)記結(jié)果如:
浙/B_product_name江/I_product_name在/I_product_name線 /I_product_name杭/I_product_name州/E_product_name 4/B_time月/I_time 2/I_time 5/I_time日/E_time訊/O(/O記/O者/O施/B_person_name宇/I_person_name翔/E_person_name通/O訊/O員/O方/B_person_name英/E_person_name)。
然后,給每個字(char)和標(biāo)簽(tag)分配一個id,并將char_to_id,id_to_char,tag_to_id,id_to_tag的關(guān)系數(shù)據(jù)存在Boson.pkl中,以供本設(shè)計模型調(diào)用。
本文設(shè)計命名實體識別模型,其輸入層數(shù)據(jù)不僅僅包含字向量還有字的特征向量。以“浙江在線杭州…訊”為例,首先查找Vec.txt獲取字向量表示,同時采用Jieba分詞加載外部詞典Boson.dic(針對Boson語料設(shè)計的詞典)實現(xiàn)對Boson語料分詞處理,獲取其信息特征[1,2,2,2,2,3,…,0](1表示詞的開始,2表示詞中間位置,3表示詞結(jié)束位置,0表示單個詞)。在使用字信息特征向量之前,先對其進(jìn)行Min-Max Normalization歸一化處理。
1.3? ?BLSTM模塊
長短時記憶網(wǎng)絡(luò)(LSTM)[15]是一種循環(huán)網(wǎng)絡(luò)(RNN)模型的變種,通過引入一個記憶單元解決了RNN訓(xùn)練過程中的長距離依賴問題。記憶單元由記憶細(xì)胞、輸入門、遺忘門和輸出門組成,其中記憶細(xì)胞存儲和更新歷史信息,門結(jié)構(gòu)利用sigmoid函數(shù)決定信息的保留程度。
(1)實驗1和實驗2對比分析
實驗1和實驗2對比分析可知,本文提出的識別框架模型識別效果F1值有2.77%的提升,這說明輸出端采用線性CRF比softmax更能判斷正確的標(biāo)注序列。softmax層的輸出是相互獨立的,只考慮輸出概率越大越好,沒有計算輸出標(biāo)簽之間的語法關(guān)系;線性CRF不僅考慮了輸出概率的大小,還通過轉(zhuǎn)移矩陣衡量了輸出標(biāo)簽之間的轉(zhuǎn)移分?jǐn)?shù),保證了標(biāo)簽之間的正確的語法關(guān)系。
(2)實驗1和實驗3對比分析
實驗1和實驗3對比分析可知,本文提出的識別框架模型識別效果F1值有2.06%的提升。本文提出的識別框架輸入層的輸入數(shù)據(jù)包括字向量和字的信息特征向量。字的信息特征向量的加入,豐富了輸入信息,使得模型對領(lǐng)域命名實體的識別更加有效。
綜上,在Boson領(lǐng)域語料命名實體識別任務(wù)上,本文提出的通過Jieba分詞獲取字的信息特征來補充字向量信息,以及BLSTM和CRF模型的融合,都是有效提高領(lǐng)域命名實體識別的途徑。
3? ?結(jié)? ?論
文本針對Boson命名實體語料,提出了獲取字的信息特征補充字向量信息,進(jìn)而構(gòu)建BLSTM-CRF神經(jīng)網(wǎng)絡(luò)模型,在Boson語料上取得了很好的識別效果。針對中文命名實體領(lǐng)域識別體現(xiàn)在如下兩點:①采用Word2Vec方法,利用CBOW模型產(chǎn)生的Vec.txt具有特殊性。不同的訓(xùn)練語料可能產(chǎn)生不同的字向量數(shù)據(jù),字向量維度和包含的字都可能不同。②利用Jieba分詞獲取的字信息特征具有獨特性。針對Boson語料設(shè)計了外部分詞詞典Boson.dic,對Boson中的專屬詞語分詞準(zhǔn)確,增強了字的信息特征的有效性。提出的基于Boson中文領(lǐng)域命名實體識別框架針對專屬領(lǐng)域的,通過選擇字向量訓(xùn)練語料、設(shè)計該領(lǐng)域的專屬詞語分詞詞典,更加準(zhǔn)確的識別命名實體。
參考文獻(xiàn)
[1]? ? 田家源,楊東華,王宏志. 面向互聯(lián)網(wǎng)資源的醫(yī)學(xué)命名實體識別研究[J]. 計算機科學(xué)與探索,2018,12(06):898—907.
[2]? ? 于根,李曉戈,劉睿,等. 基于信息抽取技術(shù)的問答系統(tǒng)[J]. 計算機工程與設(shè)計,2017,38(04):1051—1055.
[3]? ? 楊錦鋒,于秋濱,關(guān)毅,等. 電子病歷命名實體識別和實體關(guān)系抽取研究綜述[J].自動化學(xué)報,2014,40(08):1537—1562.
[4]? ? 張磊,楊雅婷,米成剛,等. 維吾爾語數(shù)詞類命名實體的識別與翻譯[J]. 計算機應(yīng)用與軟件,2015,32(08):64—67+109.
[5]? ? 張小衡,王玲玲. 中文機構(gòu)名稱的識別與分析[J]. 中文信息學(xué)報,1997(04):22—33.
[6]? ? 程志剛. 基于規(guī)則和條件隨機場的中文命名實體識別方法研究[D]. 武漢:華中師范大學(xué),2015.
[7]? ? 馮艷紅,于紅,孫庚,等. 基于詞向量和條件隨機場的領(lǐng)域術(shù)語識別方法[J].計算機應(yīng)用,2016,36(11):3146—3151.
[8]? ? COLLOBERT R,WESTON J,BOTTOU L,et al. Natural language processing (almost) from scratch[J]. Journal of Machine Learning Research,2011,12(8): 2493—2537.
[9]? ?HUANG Z,XU W,YU K. Bidirectional LSTM-CRF models for sequence tagging[J]. arXiv preprint arXiv:1508.01991,2015.
[10]? 買買提阿依甫,吾守爾·斯拉木,帕麗旦·木合塔爾,等. 基于BiLSTM-CNN-CRF模型的維吾爾文命名實體識別[J].計算機工程,2018,44(08):230—236.
[11]? DONG C,ZHANG J,ZONG C,et al. Character-based LSTM-CRF with radical-level features for chinese named entity recognition[C]//International Conference on Computer Processing of Oriental Languages. Springer International Publishing,2016: 239—250.
[12]? 溫瀟. 分布式表示與組合模型在中文自然語言處理中的應(yīng)用[D]. 南京:東南大學(xué),2016.
[13]? MIKOLOV T,SUTSKEVER I,CHEN K,et al. Distributed representations of words and phrases and their compo-sitionality[J]. Advances in Neural Information Processing Systems,2013:3111—3119.
[14]? 孫娟娟,于紅,馮艷紅,等.基于深度學(xué)習(xí)的漁業(yè)領(lǐng)域命名實體識別[J].大連海洋大學(xué)學(xué)報,2018,33(02):265—269.
[15]? HOCHREITER S,SCHMIDHUBER J. Long Short-term memory[J]. Neural Computation,1997,9(8):1735—1780.
[16]? 李麗雙,郭元凱. 基于CNN-BLSTM-CRF模型的生物醫(yī)學(xué)命名實體識別[J]. 中文信息學(xué)報,2018,32(01):116—122.
[17]? SRIVASTAVA N,HINTON G,KRIZHEVSKY A,et al. Dropout: a simple way to prevent neural networks from overfitting[J]. The Journal of Machine Learning Research,2014,15(1): 1929—1958.