楊啟萌 禹 龍 田生偉 艾山 吾買爾
指代(Anaphora)作為一種常見的語言現象,廣泛存在于自然語言的表達之中.它對語言的簡化表達、主題的突出性描述和語言表達連貫性起著重要的作用.對指代成分準確無歧義的消解有助于機器分析和語篇理解[1].在語言學中,指代詞稱為照應語(Anaphor),用于指向另一個語言單位,被指代詞稱為先行語(Antecedent),用于被指向的語言單位,指代消解(Anaphora Resolution)就是確定照應語所指代的先行語的過程[2].維吾爾語人稱代詞指代消解是研究人稱代詞與句中名詞和名詞性短語的指代關系,圖1 給出維吾爾語人稱代詞指代消解例句.
圖1 維吾爾語人稱代詞指代消解例句Fig.1 The example of Uyghur personal pronoun anaphora resolution
如果一個人稱代詞存在指代關系,那么它與相關文本中的一個或多個提及的名詞或名詞性短語關聯(lián).本句中“(吾斯英)”和“(他)”存在指代關系,“(布葛熱汗)”和“(他)”不存在指代關系.
近年來,隨著深度學習技術在語音識別、計算機視覺、圖像識別等領域的重大突破,學者們嘗試將深度學習模型應用于自然語言處理任務中.例如Kim使用卷積神經網絡(Convolutional neural network,CNN)進行句子建模,解決情感分類任務[3],Irsoy等使用循環(huán)神經網絡(Recurrent neural network,RNN)進行意見分析[4],Tai 等使用長短時記憶網絡(Long short term memory network,LSTM)解決情感分類問題[5],這些基于深度學習的方法在自然語言處理任務中取得了比以往研究更好的分類效果.
指代消解作為自然語言處理一個重要子任務,深度學習模型在指代消解中得到廣泛的研究.這些研究關注照應語和候選先行語的語義信息,應用大量的神經網絡模型進行候選先行語預測[6?8].目前的研究主要針對中文和英文等具有充足語料庫的語種,對維吾爾語等小語種的研究不夠深入,針對小語種的研究無論是語料標注還是實體識別都需要掌握多級語法知識、語義知識,甚至相應語言領域知識,在當前自然語言處理的研究階段,要獲取和學習研究中所需知識仍比較困難.人稱代詞指代消解作為指代消解任務更細粒度的一個分支,不僅依賴照應語和候選先行語特征信息,還要關注距離特征和上下文語境信息.例如句子:
(因為吾斯英是當代的大學者之一,所以布葛熱汗尊敬他)
我們普遍認為與照應語距離越近的候選先行語存在指代關系概率越大,根據候選先行語“(吾斯英)”、“(學者)”和“(布葛熱汗)”,很難推斷“(吾斯英)”是否為照應語“(他)”正確的先行語,在這種情況下,研究者會錯誤地判斷“(布葛熱汗)”為“(他)”的先行語,因為文本中“(布葛熱汗)”與“(他)”距離更近.但是,候選先行語“(吾斯英)”才是照應語“(他)”正確的先行語.所以,人稱代詞指代消解應該充分考慮候選先行語距離特征和更深層次的語境信息.
針對以上問題,本文提出基于多注意力機制的深度學習模型應用于維吾爾語人稱代詞指代消解任務.注意力機制最早應用于視覺圖像領域,目的是在神經網絡訓練過程中將注意力集中到圖像的特定部分.Mnih 等首次提出在RNN 模型上使用注意力機制進行圖像分類[9],驗證了注意力機制在圖像處理領域的有效性.隨后Bahdanau 等將注意力機制應用于機器翻譯任務[10],模型取得了顯著的效果并使注意力機制成功應用于自然語言處理領域.隨著研究不斷深入,Yin 等提出基于注意力機制的卷積神經網絡進行句子建模[11],Wang 等使用基于注意力機制的LSTM 解決細粒度的情感分析問題[12],這些方法的提出驗證了注意力機制結合深度學習模型的有效性.
本文結合三種注意力機制來構造CMAIR 模型:1)詞向量注意力機制:突出照應語和候選先行語的重要程度,2)距離注意力機制:有效表達不同詞語對消解結果的貢獻度,3)詞性注意力機制:是句中詞和詞性的關聯(lián).同時,本文結合IndRNN 構造語境特征,并將這4 種特征作為模型的輸入,可以從多個層面學習詞語級和句子級特征信息,提高指代消解性能.
本文提出的CMAIR 模型使用3 種注意力機制和語境特征構建模型,使模型關注多種特征信息.最后,將CMAIR 模型在維吾爾語數據集進行實驗,實驗結果表明,本方法取得了比以往研究更好的分類效果.本文的主要貢獻有5 方面:
1)提出一種結合語境的多注意力獨立循環(huán)網絡(CMAIR)應用在維吾爾語人稱代詞指代消解任務中,實驗取得了當前研究最好效果;
2)本文首次考慮結合語境的深度學習模型,學習詞序關聯(lián)和依賴關系,結合語境信息增強了特征表達力;
3)本文提出的詞向量、詞性、距離注意力機制能從三方面獲取更深層次的特征信息,彌補了單注意力機制僅關注內容層面信息的不足;
4)CMAIR 模型結構簡單,具有很強的魯棒性和泛化能力,無需額外的句法分析和語義依存分析相關知識;
5)提出一種距離識別算法,能準確計算待消解對距離,識別不同詞在句中重要程度,使CMAIR 可以充分利用距離信息.
指代消解作為自然語言處理重要子任務,是細粒度的文本分類任務,更加關注照應語和候選先行語深層次語義特征,一直以來都得到眾多學者的研究和關注.Soon 等首次給出利用機器學習的方法進行指代消解基本步驟,其思想是把指代消解任務看作二分類問題,從已標注好的語料庫中提取語料的各類詞法、語法、語義特征作為消解框架的輸入并利用分類器完成指代消解任務[13];Ng 等對Soon 等研究進行了改進,抽取53 個特征,指代消解的效果有顯著地改善[14];Yang 等提出將特征方法和聚類相結合,模型消解性能有較大的提高[15];這些方法通過傳統(tǒng)的機器學習構造文本語法、句法等特征,能充分利用文本內容層面特征,有效進行指代關系識別.此外,指代消解在多種語言已得到廣泛的研究.
近年來,隨著深度學習在自然語言處理領域的廣泛應用,許多研究者也利用深度學習方法解決指代消解任務.Chen 等針對此問題提出一種深度神經網絡模型,在他們的工作中,照應語和候選先行語用前饋神經網絡編碼[16].Clark 等嘗試對指代消解的一種神經網絡Mention Rank 模型的啟發(fā)式損失函數中的超參數利用強化學習方式進行優(yōu)化,提出一種獎勵衡量機制,跟其他方式相比結果突出[17].Iida等提出一種句內主題指代關系并利用多列卷積神經網絡(Multi-column CNN)來預測指代關系,在多個基準測試中取得了很好的結果[8].Yin 等建立一個深度記憶網絡獲取零代詞和先行語語義關聯(lián)信息[18].這些方法使用深度學習技術來解決指代消解問題,可以在不需要依存樹、句法關系的情況下通過深度神經網絡更好地學習文本的深層次特征信息,取得了比傳統(tǒng)機器學習方法更好的分類效果.
針對維吾爾語指代消解問題,目前已有學者進行研究.李敏等提出一種基于棧式自編碼深度學習的算法進行維吾爾語名詞短語指代消解[19].田生偉等挖掘維吾爾語隱含的上下文語義層面特征,提出利用BiLSTM 的深度學習機制進行基于深層語義信息的維吾爾語人稱代詞指代消解,維吾爾語人稱代詞指代消解的F 值達到76.86%,證明了該方法的有效性[20].李冬白等通過堆疊多層RBM 網絡和一層BP 網絡構建DBN 深度網絡學習模型,經過維吾爾語語料庫測試,F 值達到83.81%,該方法能有效提升維吾爾語人稱代詞指代消解性能,推動了維吾爾語指代消解的研究[21].
本文提出的CMAIR 模型與現有技術的主要區(qū)別在于多注意力機制和IndRNN 的應用,我們將指代消解作為多注意力機制和IndRNN 環(huán)境下關注詞語重要程度和學習文本深層次語境特征的過程.在IndRNN 模型的幫助下,CMAIR 模型學習以順序的方式對候選先行語進行分類,從而做出全局最優(yōu)的決策.
獨立循環(huán)神經網絡(IndRNN)是由Li 等提出的一種新型網絡結構,不僅可以解決傳統(tǒng)RNN 所存在的梯度消失和梯度爆炸問題,還學習長期依賴關系;此外,借助ReLU 等非飽和激活函數,訓練之后IndRNN 更具魯棒性,并且通過堆疊多層IndRNN還可以構建比現有RNN 更深的網絡[22].實驗結果表明,與傳統(tǒng)的CNN 和LSTM 相比,使用IndRNN可以在各種任務中取得更好的結果.IndRNN 基本結構如圖2 所示.
圖2 IndRNN 結構圖Fig.2 The structure diagram of IndRNN
其中weight 和Recurrent+ReLU 表示每一時間步對輸入的處理步驟,ReLU 是激活函數,為了加速訓練,每層之后插入了批標準化(Batch normalization,BN),通過堆疊這種基礎架構,可以建立一個深度IndRNN 網絡.其用公式可以表示為:
其中循環(huán)權重μ是一個向量,⊙表示Hadamard積(對應元素相乘).同一圖層中的每個神經元都與其他神經元不相連,通過疊加兩層或更多層的IndRNN,可以將神經元連接.對于第n個神經元,隱藏層hn,t可以通過以下公式得到:
其中wn和un分別表示第n行的輸入權重和當前權重,每個神經元只接收當前狀態(tài)隱藏層和輸入信息.IndRNN 中的每個神經元都有獨立的時空特征,隨著參數被共享,RNN 被視為多層感知器.與傳統(tǒng)的RNN 不同,IndRNN 將隨時間獨立地聚合空間模式.
由于權重層用來處理輸入,可以將其自然地擴展到其他多個圖層中加深處理過程.IndRNN 結構簡單,也可以很容易地添加到不同的網絡結構中.
對于分詞后長度為n的句子,保留句中名詞、名詞短語和人稱代詞,去除其他詞語,得到s={w1,w2,···,wi,···,ai,···,wn},其中wi為第i個分詞,ai為人稱代詞.分別把s中詞語逐個向前匹配得到待消解對,例如ai逐個向前匹配得到{aiwi?1,aiwi?2,aiwi?3,···,aiw1,},本文的任務是針對ai確定其正確對應的先行語,完成維吾爾語指代消解,例如句子:
(因為吾斯英是當代的大學者之一,所以布葛熱汗尊敬他)
本文通過三種注意力機制充分利用文本語義信息,輸入CNN 進行卷積核池化操作提取文本局部特征,并結合IndRNN 挖掘深層次語境信息從而有效完成指代消解任務.如圖3 所示,CMAIR 模型主要由5 部分組成:
圖3 多注意力機制IndRNN 模型框架圖Fig.3 IndRNN model framework with multiple attention mechanisms
1)注意力矩陣輸入層:存儲三種注意力機制的注意力特征向量信息.
2)CNN 層:將3 種注意力特征向量和handcrafted 特征向量合并為輸入特征矩陣,依次進行卷積和池化操作,為了使網絡模型結構簡單化,本文選用一層卷積的方式進行輸入數據提取局部特征,并使用最大池化進一步降低數據計算復雜度,CNN 層可以保留文本豐富的重要局部特征.
3)IndRNN 層:將長度為n的句子s={w1,w2,w3,···,wi,···,wn}的詞向量依次輸入IndRNN 中,其中wi為第i個分詞,IndRNN 可以學習文本長期依賴關系,挖掘更深層次語境特征,用于后續(xù)的處理過程.
4)全連接層:用于結合模型中CNN 層提取的局部特征和IndRNN 提取的語境特征,形成輸入特征向量的綜合表示,并作為輸出層的輸入.
5)輸出層:本文選用Softmax分類器進行分類,從而確定照應語和候選先行語指代關系.分類結果中,對于一個照應語Anaphor和n個候選先行語Antecedent,Antecedentk(k=1,2,···,n)為照應語Anaphor正確對應的先行語.
為了更好地識別候選先行語和人稱代詞指代關系,本文使用3 種注意力機制使模型從不同層面關注實體重要信息,并加入IndRNN 學習文本長期依賴關系,挖掘文本語境信息,獲取語境特征,結合3種注意力機制作為模型的輸入,并在全連接層加入語境特征能有效減少模型復雜度提高指代消解性能.
如表1 所示,對于長度為n的句子s={w1,w2,w3,···,wi,···,wn},其中wi為第i個分詞,分別對wi標注句中成分,并將每個詞語映射為k維向量,對于句子s依次按時序把wi輸入IndRNN 學習詞語長期依賴關系并獲取語境特征,取指代鏈中候選先行語和照應語兩兩匹配形成待消解對,再從詞典提取待消解對中候選先行語和照應語詞向量、詞性向量和距離向量構建3 種注意力機制.
表1 詞語句中成分標注Table 1 Component labeling of words in sentences
1)詞向量注意力機制:提取待消解對中候選先行語、照應語詞向量,并分別與其他詞向量矩陣做運算操作得到詞向量注意力特征矩陣,這是待消解對中對于文本內容層面的注意力.
2)詞性注意力機制:是詞和詞性關聯(lián)的屬性,是對詞向量注意力的進一步補充,可以讓模型從另一方面關注待消解對,從而學到更多隱藏信息.
3)距離注意力機制:該方法是融合待消解對中候選先行語與照應語間隔詞語詞向量的方式作為待消解對距離表示.結合其他兩種注意力機制可以充分表述句中每個詞語的重要程度.
4)語境特征:是句子級的特征表達和注意力機制的補充,可以學習句中詞連續(xù)性和長期依賴關系.
融合3 種注意力機制作為模型的輸入,可以從不同角度關注待消解對特征信息,在全連接層加入語境特征可以更準確表達待消解對關系,并減小網絡復雜度,從而可以有效識別指代關系,提高指代消解性能.
注意力機制是使模型在訓練過程中高度關注特定信息,以達到更好的分類效果.對于人稱代詞指代消解任務,文本內容層面信息最為重要,多方面關注分析照應語和候選先行語語義信息可提高指代消解性能.
本文提出詞向量注意力機制用于維吾爾語人稱代詞指代消解任務.對于完整句子s={w1,w2,w3,···,wi,···,wn},wi為第i個分詞,提取詞典中wi詞向量矩陣,再根據式(3)、(4)和其他詞向量矩陣做運算操作獲取詞向量注意力特征矩陣CT.
其中vvvi為分詞wi詞向量,Zt?1為分詞wi在上一時刻t ?1 的上下文信息,fATT為softmax打分函數,矩陣CT表示每一個詞語的重要程度(即概率),注意力特征矩陣CT可以改寫成下式:
其中α為可調參數,表示每一個詞重要程度.利用得到的注意力特征矩陣和wi詞向量矩陣運算即可得到模型輸入矩陣:
其中⊕表示拼接操作,本文采用注意力特征矩陣和原詞向量簡單拼接操作構建模型輸入矩陣.
照應語和候選先行語內容層面分析是指代消解的關鍵,對于候選先行語和照應語在詞典中出現頻率較低的情況下僅使用詞向量注意力機制會降低指代消解準確率.針對此問題提出一種基于詞性注意力機制用于彌補僅關注文本內容層面信息的不足.
針對句子s={w1,w2,w3,···,wi,···,wn},本文對句中每個分詞詞性進行重新標注,標注結果如表2 所示.
表2 詞性標注Table 2 Part of speech tagger
標注結果是標注詞語和詞性的組合,是標注詞語和詞性的關聯(lián),對于長度為n的句子,可以將標注結果表示為式(7)的形式,其中wi是第i個詞,ci是詞性,⊕為拼接操作.
對于候選先行語是名詞短語情況,由于名詞短語包含多個詞語,處理方式和以上不同.針對這種情況,本文提取名詞短語中所有詞語的詞向量注意力矩陣,并按照式(8)的方式獲取名詞短語詞性注意力特征矩陣:
α是名詞短語重要程度,可以手動設置也可以在模型訓練過程中自動學習.
和詞向量處理方式一樣,提取所有句中標注結果映射為詞性向量矩陣RK×V,其中K為詞典大小,V為每一個詞性標注結果映射的詞向量維度,即為詞性注意力矩陣.指代消解對中提取候選先行語和照應語詞性注意力矩陣并按照式(3)、(4)獲取詞性特征注意力矩陣.
先行語和照應語的距離隱藏著重要信息,對提高指代消解性能起著關鍵作用.本文提出兩種距離計算方式,第一種方式為對于候選先行語wi和照應語wn提取所有間隔詞語wi+1,n?1,提取方式如圖4所示,并從詞典提取W中所有詞向量并通過算法1中式(9)運算作為wi與wn距離表示,其中α為每個詞的重要程度.
圖4 距離計算方式舉例Fig.4 Example of distance calculation
第二種方式為直接計算待消解對詞語間隔個數并映射為K維詞向量并結合詞向量、詞性注意力特征矩陣和語境特征作為模型的輸入,本文使用算法1計算不同情況下待消解對距離表示.
我們普遍認為待消解對中候選先行語和照應語距離越近存在指代關系的概率越大.對于圖4 中的例子,我們認為“(他)”和“(布葛熱汗)”存在指代關系的概率大于“(吾斯英)”,因為“(布葛熱汗)”在句中距離“(他)”最近,但是“(吾斯英)”才是“(他)”正確的先行語.針對此問題,本文提出一種距離識別算法用來準確識別待消解對中候選先行語和照應語的距離.其計算過程如算法1 所示.
算法1.距離識別算法.
輸入.長度為n的句子s
輸出.所有指代消解對距離L
步驟1.將照應語的位置的值置為0,所有候選先行語的位置置為n,n為句子的長度;
步驟2.定義工作指針p從照應語的位置向前掃描;
步驟3.若掃描對象是詞語wi(非候選先行語),則將wi加入集合L,若掃描對象是標點符號,加入集合L,執(zhí)行步驟4 繼續(xù)掃描;
步驟4.若掃描對象是候選先行語,按照式φ1計算距離,其中l(wèi)en(L)為集合L的長度,fATT為詞典中詞語Li的詞向量,α為L中每一個詞語Li的重要程度,num(punc)為集合L中包含標點符號的數量;
步驟5.將集合L置空并執(zhí)行步驟2 繼續(xù)掃描,若照應語和句中所有候選先行語匹配完成,停止掃描.
句子級的特征隱藏著重要信息,對指代消解性能的提升有重要的作用.本文從句子層面關注文本深層次信息獲取語境特征.對于長度為n的句子s={w1,w2,w3,···,wi,···,wn},把每一個分詞wi映射為k維向量wi∈RK作為獨立循環(huán)神經網絡的輸入,相比于傳統(tǒng)的RNN 和LSTM 網絡IndRNN 可以保留長期記憶,處理長序列,訓練得到的模型具有魯棒性,在處理長序列依賴問題方面的性能優(yōu)于傳統(tǒng)的RNN 和LSTM 模型.
針對維吾爾語人稱代詞指代消解,本文結合維吾爾語語言現象和語法特征,如表3 所示選擇7 個hand-crafted 特征用于消解任務.
表3 hand-crafted 特征Table 3 The feature of hand-crafted
卷積神經網絡可以提取文本局部特征,獲取輸入向量更多的隱藏信息,從而更好地識別指代關系.卷積層可以利用多卷積核獲取輸入結構化特征,卷積操作得到特征向量圖:
上式中x為3 種注意力特征矩陣,w為對應權重矩陣,b為偏置項.對于有m個卷積核的卷積操作其得到的特征圖表示如下:
池化操作可以進一步處理特征圖,保留重要特征,減少模型復雜度.對于有n個窗口的池化層下采樣后的結果表示如下:
模型采用sigmoid激活函數,如式(13)所示,其中z為卷積層或池化層的輸出.
本文中池化層和IndRNN 層的輸出作為全連接層的輸入,并使用softmax分類器得到分類結果,CNN和IndRNN 的特征合并與分類如式(14)、(15)所示.
其中Wa為全連接層權重矩陣,Ac為合并特征矩陣,本文使用反向傳播進行模型訓練并使用最小化交叉熵來優(yōu)化模型,交叉熵函數為:
其中,N為輸入樣本數,y(i)為第i個樣本實際類別,則為模型預測類別.
將本文提出的方法在維吾爾語數據集上進行實驗,解決維吾爾語人稱代詞指代消解任務.通過在不同神經網絡進行對比實驗,證明了CMAIR 模型的有效性.在實驗過程中,本文使用Word2Vec的Skip-Gram 算法訓練生成詞典[23].每一個詞對應詞向量維度為150 維.在詞典處理中使用均勻分布U(?0.01,0.01)的方式隨機初始化詞典中未登陸詞,并采用去停用詞的方式進行詞典優(yōu)化,提高詞向量搜索效率.由于維吾爾語語法特征無需對其進行分詞操作,詞性信息在數據集中進行標注.對于名詞短語本文采用標注關鍵詞的方式,例如名詞短語(當代大學者之一),其中(學者)為短語關鍵詞,在提取詞向量時給予關鍵詞較大的權重,并采用短語中每一個詞向量累加求均值的方式表示名詞短語詞向量矩陣和詞性向量矩陣.
目前,中文和英文指代消解任務已經非常成熟,標注語料完善.維吾爾語作為小語種,指代消解相關研究正在起步階段,還未見有標注數據集相關報道.因此,本文針對維吾爾語人稱代詞指代消解任務進行了數據采集和標注.
本文數據集均摘自新華網維吾爾文頻道和天山網,篩選出含有人稱代詞相關數據,在維吾爾語專家的指導下完成語料標注工作.在本次實驗中,采用427 篇標注語料.共包含數據實例44 571 條,其中存在指代關系的正例為11 831 條,不存在指代關系的負例為32 740 條.
本文使用3 種注意力機制結合語境特征完成實驗.實驗中注意力特征向量經CNN 提取更高層次語義特征,詞序列輸入IndRNN 獲取語境特征,再由Softmax分類器得到最終分類結果.實驗結果顯示,在表4 所示參數設置時,分類效果最佳.本文采用隨機初始化參數并使用梯度下降最小化目標函數[24].另外,應用Dropout 在CNN 和IndRNN 的輸出層以減少模型參數,加速模型訓練和防止過擬合[25].
表4 實驗參數設置Table 4 Hyper parameters of experiment
為了衡量指代消解結果的質量,本文選用準確率(P)、召回率(R)、F 值(F)三種重要指標評測指代消解實驗結果,準確率為正確消解的個數與實際消解個數的比率,反應模型的準確程度,召回率是正確消解的對象數與應消解對象數的比率,反應模型的完備性,F 值是準確率和召回率的調和平均值,計算方式為F=2×P ×R/(P+R).
為了驗證CMAIR 模型的有效性,本文將模型實驗結果與以往學者的研究結果做比較.實驗結果如表5 所示,從表中可以看出,本文提出的CMAIR模型取得了最好的分類效果(F 值為86.86%),其中相比于田生偉等實驗結果,F 值提高10%,相比于李冬白等的實驗結果F 值提高3.61%,說明該方法能有效提高維吾爾語人稱代詞指代消解性能,證明了CMAIR 模型的有效性.
表5 與以往研究對比(%)Table 5 Compared with previous studies (%)
為了研究和對比指代消解在不同模型和CMAIR 在不同情況下的性能,提出如下3 種對比實驗:1)3 種注意力機制的有效性;2)詞向量和詞性向量維度對CMAIR 性能影響;3)hand-crafted特征與語境特征對CMAIR 性能影響.
將本文提出的3 種注意力機制使用以下模型在相同的數據集上進行實驗:
1)CNN:基本的卷積神經網絡結構,輸入為hand-crafted 特征;
2)ATT-CNN-1:單注意力的卷積神經網絡結構,將詞向量注意力特征矩陣與hand-crafted 特征作為模型輸入,形成單注意力機制;
3)ATT-CNN-2:兩種注意力的卷積神經網絡結構,輸入為詞向量注意力特征矩陣、詞性注意力特征矩陣和hand-crafted 特征;
4)ATT-CNN-3:多注意力機制的卷積神經網絡模型,輸入為3 種注意力特征矩陣與hand-crafted特征;
本文將提出的4 組實驗在維吾爾語數據集上進行對比,分析維吾爾語人稱代詞指代消解性能.表6給出4 組實驗在不同模型下的實驗結果.
從表6 結果可以看出,本文提出的3 種注意力機制在維吾爾語數據集上實驗都取得了不錯的分類結果.其中ATT-CNN-3 在維吾爾語人稱代詞指代消解任務中性能達到最優(yōu).分析結果可知,加入詞向量注意力機制的ATT-CNN-1 比只加入handcrafted 特征的CNN 模型F 值提升3.97%,這說明普通的CNN 沒有針對待消解對提取更多的特征信息,所以無法準確識別照應語和候選先行語指代關系.證明了詞向量注意力特征矩陣含有豐富的語義信息,可以準確表達上下文關系,在模型訓練過程中突出待消解對詞語重要性,從而提高指代消解性能.
表6 不同模型消解性能對比(%)Table 6 Comparison of different model anaphora resolution performance (%)
加入詞向量、詞性注意力機制的ATT-CNN-2相比于單注意力機制的ATT-CNN-1 模型F 值提高1.77%,這說明加入詞性注意力特征能在模型訓練過程中高度關注照應語和候選先行語詞和詞性關聯(lián)信息,彌補了僅依賴文本內容信息的不足,從而提高指代消解性能,這也說明了詞性注意力機制在維吾爾語人稱代詞指代消解的有效性.
對比ATT-CNN-3 和其他三種模型實驗結果可以看出,加入3 種注意力機制的ATT-CNN-3 模型的三類評測指標都達到最優(yōu),相比于CNN、ATT-CNN-1 和ATT-CNN-2,其F 值分別提高6.46%、2.49% 和0.72%,說明加入多注意力機制的模型能從不同層面關注待消解對信息,從而能更好地識別指代關系,驗證了多注意力機制在維吾爾語人稱代詞指代消解任務中的有效性.
為了進一步對比本文提出的CMAIR 模型在維吾爾語人稱代詞指代消解任務中的分類效果,訓練不同維度詞向量分析詞向量維度對分類結果影響.分別使用10 維、50 維、100 維、150 維和200 維訓練生成詞向量矩陣和詞性向量矩陣,實驗結果如圖5所示.
使用不同維度詞向量和詞性向量構造三種注意力特征并在CMAIR 模型進行5 倍交叉驗證實驗,從圖5 結果可以看出,在向量維度為0 時,即模型中不使用注意力機制,其F 值最低,加入10 維向量后分類效果有小幅度提升,可以看出低維度向量不能充分表達文本語義信息,使模型在訓練過程中沒有學習待消解對高維特征.在加入50 維向量構建注意力特征作為模型輸入時,模型性能有大幅度提升,可以說明高維向量可以表達文本深層次語義信息,提高模型學習能力.當向量維度在50 到150 時,模型F 值仍有提升,但提升效果不是很顯著,并在150 維時達到最優(yōu).當向量維度達到200 維時,分類效果有所下降,這說明當向量維度達到一定閾值時,會產生不能充分表達待消解對信息和過擬合現象,導致分類結果產生波動.合理的選用向量維度對分類結果有重要的影響,所以本文選取150 維作為詞向量和詞性向量的維度.
圖5 不同維度詞向量分類F-score 比較Fig.5 Comparison of different dimension word vector classification F-score
hand-crafted 作為指代消解分類重要信息,對分類結果起著重要作用,本文在以往研究的基礎上添加了語境特征,為了探究hand-crafted 和語境特征的有效性,分別移除hand-crafted 和語境特征實驗,實驗結果如表7 所示,從表中可以看出,去除hand-crafted,僅包含注意力特征和語境特征的情況下(Vattention+Vcontext)其F 值相比于CMAIR 模型降低了5.55%,本文選用的hand-crafted 是結合維吾爾語語言現象和語法特征提出的反應待消解對在規(guī)則和知識方面的表示與聯(lián)系.
表7 不同特征類型對指代消解性能影響(%)Table 7 The effect of different feature types on the anaphora resolution (%)
分析實驗結果可知,去除hand-crafted 的指代消解性能明顯下降,證明了hand-crafted 的引入對提高指代消解性能起著關鍵作用.分析表7 中去除語境特征的實驗結果Vhand-crafted+Vattention可以看出相比于去除hand-crafted 的實驗F 值提升了2.09%,這是由于相比于hand-crafted 特征,語境特征含有豐富的上下文語境信息,能在模型訓練過程中學習詞序關系和詞依賴關系,是句子連續(xù)分布式向量表示,另外,IndRNN 可以保留長期記憶,處理長序列,對模型性能提升有關鍵性作用.相比于CMAIR 實驗結果,去除語境特征的F 值降低3.46%,這說明多注意力機制雖能從不同層面關注文本特征,但缺少文本連續(xù)性的表述,輸入詞序列的連續(xù)性和依賴性也對模型性能的提升有較大的作用.本文通過引入hand-crafted 信息充分體現了維吾爾語語言和語法特征,語境特征的引入能關注句子級的特征信息,確認了待消解對中照應語和候選先行語的聯(lián)系,從而取得了更好的分類效果.
在維吾爾語人稱代詞指代消解任務中,如今大部分的研究都是結合hand-crafted 和深度學習的方式進行,這種方式僅依賴原始輸入特征,不能突出每個詞在句中的重要程度和關注詞語多層面特征.本文基于注意力機制和語境特征的研究,提出一種多注意力機制的維吾爾語人稱代詞指代消解方法,該模型結合3 種注意力機制,從待消解對中候選先行語和照應語不同層面分析語義信息.同時,提出一種距離識別算法,能有效識別待消解對距離,使模型能充分學習距離信息.此外,本文在以往的研究基礎上加入語境特征,用于輸入詞序列并學習句中每一個詞的詞序關聯(lián)和依賴關系.實驗結果表明,加入多注意力機制和語境特征的CMAIR 模型能顯著提升維吾爾語人稱代詞指代消解性能.
致謝
感謝王縣縣、王歡歡、牛苗、祁青山等同學在本文提供幫忙和支持,在此謹向他們致以誠摯的謝意.