秦 越,禹 龍,田生偉,馮冠軍,吐爾根·依布拉音,艾斯卡爾·艾木都拉,趙建國
(1. 新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046; 2. 新疆大學(xué) 網(wǎng)絡(luò)中心,新疆 烏魯木齊 830046;3. 新疆大學(xué) 軟件學(xué)院,新疆 烏魯木齊 830008; 4. 新疆大學(xué) 人文學(xué)院 新疆 烏魯木齊 830046)
指代(anaphora)是常見的自然語言現(xiàn)象,它是指在語篇中用一個指代詞回指前文出現(xiàn)過的某一語言單位。在維吾爾語語篇中,能夠通過上下文語境判斷出的部分經(jīng)常被省略,被省略的部分在語句中承擔相應(yīng)的句法成分,且指代前文中出現(xiàn)過的某一語言單位,這一現(xiàn)象稱為零指代。被省略的部分稱為零指代項,被指代的語言單位稱為先行語(antecedent)。如例句所示,其中“φ”代表零代詞出現(xiàn)的位置(維吾爾語書寫習(xí)慣為從右向左)。
例:
(譯: 這時候克斯買提喬魯克從路那邊走過來了,[φ]手上拿著一個有五角星的帽子和軍綠色的水壺。)
近年來,隨著機器學(xué)習(xí)的深入研究,基于機器學(xué)習(xí)方法在零指代消解研究中得到運用。Zhao等[2]首先提出一個完整的關(guān)于機器學(xué)習(xí)的中文零指代消解方法,并提出適用于中文零指代消解任務(wù)的特征集。Kong等[3]設(shè)計了完整的中文零指代消解框架,并采用基于樹核函數(shù)的方法完成對零元素消解子任務(wù)。Chen等[4]提出一個端到端中文零指代消解平臺,并提取一系列更有效的句法和上下文特征。Chen等[5]采用深度神經(jīng)網(wǎng)絡(luò)思想,有監(jiān)督地學(xué)習(xí)高層特征并完成中文零指代消解任務(wù)。Ryu Iida等[6]提出使用多列卷積神經(jīng)網(wǎng)絡(luò)進行日語零指代消解。由前人工作可知,基于機器學(xué)習(xí)的零指代消解能夠有效提高性能,而深度學(xué)習(xí)機制則能夠?qū)W習(xí)文本中高層特征和深層語義信息。
目前,零指代消解研究主要集中在中文等大語種,對同樣出現(xiàn)缺省現(xiàn)象的維吾爾語等少數(shù)民族語言研究不夠深入。針對此問題,本文探索維吾爾語中缺省零代詞的消解問題,將富含上下文語義信息和句法信息的詞嵌入表示(word embedding)向量作為候選先行語和缺省零代詞的語義特征表達,并依據(jù)維吾爾語語言特點,提取針對本任務(wù)的14項hand-crafted特征,融合上述兩類特征作為棧式降噪自編碼(Stacked Denoising Autoencoder)的輸入,采用無監(jiān)督學(xué)習(xí)機制預(yù)訓(xùn)練網(wǎng)絡(luò)參數(shù),并使用有監(jiān)督的微調(diào)反向調(diào)優(yōu),從而學(xué)習(xí)文本中的深層語義信息和隱含內(nèi)部聯(lián)系。此外,SDAE對原始數(shù)據(jù)加噪,使其能夠從含噪數(shù)據(jù)中學(xué)習(xí)到更具魯棒性的特征表達,有助于維吾爾語零指代消解性能的提升。
鑒于深度學(xué)習(xí)在計算機視覺及語音識別等領(lǐng)域取得重大突破,學(xué)者們試圖在自然語言處理研究中運用深度學(xué)習(xí)技術(shù)。語言中蘊含豐富的語義信息和隱藏的語境表達,深度學(xué)習(xí)機制通過多層神經(jīng)網(wǎng)絡(luò)的逐層學(xué)習(xí),能夠?qū)?fù)雜的特征映射為抽象的高層語義特征,其強大的無監(jiān)督學(xué)習(xí)方式及特征提取能力解決了眾多自然語言處理問題。其中,李陽輝等[7]采用降噪自編碼器的深度學(xué)習(xí)算法實現(xiàn)文本信息的情感分析;張開旭等[8]使用自動編碼器無監(jiān)督地學(xué)習(xí)語料中詞匯的分布信息,完成分詞、詞性標注任務(wù);劉勘等[9]提出采用深度噪聲稀疏自動編碼器提取文本中的本質(zhì)特征并且在短文本聚類研究中取得良好效果。
維吾爾語語篇中包含豐富的語義,但也存在非必要的信息影響零指代消解性能,為了使包含“雜質(zhì)”的數(shù)據(jù)復(fù)現(xiàn)原始信息,需要對噪聲與冗余語義具備良好的魯棒性,因此本文采用基于深度學(xué)習(xí)機制的棧式降噪自編碼進行維吾爾語零指代消解。通過對原始數(shù)據(jù)加入一定比例的噪聲,增強自動編碼器的特征表達并使模型具備較強的去噪能力,經(jīng)過多層特征提取及多次迭代,使模型學(xué)習(xí)到更具魯棒性和有效性的深層語義特征,完成維吾爾語零指代消解任務(wù)。
基于SDAE維吾爾語零指代消解流程如圖1所示。首先對待消解的零指代項φ與其候選先行語進行配對,表述為<候選先行語,φ>的形式(為方便表達,該內(nèi)容將在2.2節(jié)中描述),將配對完成的零指代對進行特征抽取,本文把維吾爾語零指代消解特征分為兩部分: word embedding特征與hand-crafted特征;其次對訓(xùn)練實例和測試實例進行抽取,并將訓(xùn)練實例送入模型中,經(jīng)加噪處理后學(xué)習(xí)得到更具魯棒性的深層語義特征,然后將測試實例送入訓(xùn)練調(diào)優(yōu)完備的模型中進行測試,最后使用softmax分類器判斷每個零指代對<候選先行語,φ>是否存在指代關(guān)系,最終完成維吾爾語零指代消解任務(wù)。
圖1 基于SDAE的維吾爾語零指代消解流程
與圖像不同的是,文本中不包含形如像素點這樣可直接利用的特征信息,然而語篇中蘊含豐富的語義、語法及句法等信息,準確的特征抽取有利于深度學(xué)習(xí)模型進一步挖掘高層面語義特征,本文將維吾爾語零指代消解特征集分為兩部分: word embedding特征和hand-crafted特征。其中,word embedding特征用于表述零指代項φ及其候選先行語的語義特征,此外,另抽取14項hand-crafted特征用于描述維吾爾語零指代現(xiàn)象,刻畫零指代項φ與其候選先行語之間的聯(lián)系。
2.1.1 word embedding特征
本文引入富含上下文語義信息及句法信息的word embedding[10]表述缺省零指代項φ及其候選先行語的語義層面特征。將候選先行語的word embedding作為候選先行語的語義特征;然而零指代項為缺省項,語篇中不包含零指代項的詞嵌入表示,因此本文使用零指代項前一個詞匯的word embedding及后一個詞匯的word embedding來表示零指代項φ的上下文語義特征。若零指代項為語句的句首,即零指代項無前一個詞匯,則用相同維度的0向量,表示零指代項的前一個詞匯。
基于神經(jīng)網(wǎng)絡(luò)思想的詞嵌入表示通過大規(guī)模語料庫無監(jiān)督地學(xué)習(xí),將詞匯進行語義的分布式表示,每個詞匯由低維、稠密、連續(xù)的實值特征向量替代原先的one-hot稀疏向量,表示了詞匯間的語法特征及語義相似性,因此本文引入詞嵌入表示作為維吾爾語零指代消解特征類型之一。
2.1.2 hand-crafted特征
hand-crafted特征用于表示零指代項φ及候選先行語間的聯(lián)系,凸顯了零指代方面的知識表示,并依據(jù)維吾爾語語言特性刻畫零指代現(xiàn)象,根據(jù)維吾爾語零指代消解研究,提取針對本任務(wù)的hand-crafted特征如下:
(1) 候選先行語是否為代詞(CandiPron.)
(2) 候選先行語是否為包含領(lǐng)屬性人稱詞尾的名詞短語(CandiPossession)
(3) 候選先行語是否為包含賓格標志的名詞短語(CandiObject)
(4) 候選先行語是否存在嵌套(CandiNest)
該屬性取值FCandiNest={0,1}。若候選先行語嵌套于其他名詞短語內(nèi),特征值取1,否則取0。
(5) 候選先行語的語義角色是否為施事者(CandiArg0)
該屬性取值FCandiArg0={0,1}。若候選先行語的語義角色為施事者,特征值取1,否則取0。
(6) 候選先行語的語義角色是否為受事者(CandiArg1)
該屬性取值FCandiArg1={0,1}。若候選先行語的語義角色為受事者,特征值取1,否則取0。
(7) 候選先行語是否在可被消解的名詞短語集合{Obj-Zero}中(CandiInSet)
該屬性取值FCandiInSet={0,1}。若候選先行語在可被消解的名詞短語集合{Obj-Zero}中,特征值取1,否則取0。
(8) 候選先行語是否存在句法關(guān)系中的主謂關(guān)系(CandiSBV)
該屬性取值FCandiSBV={0,1}。若候選先行語存在句法關(guān)系中的主謂關(guān)系,特征值取1,否則取0。
(9) 候選先行語是否存在句法關(guān)系中的動賓關(guān)系(CandiVOB)
該屬性取值FCandiVOB={0,1}。若候選先行語存在句法關(guān)系中的動賓關(guān)系,特征值取1,否則取0。
(10) 候選先行語是否存在語義關(guān)系中的施事關(guān)系(CandiAgt)
該屬性取值FCandiAgt={0,1}。若候選先行語存在語義關(guān)系中的施事關(guān)系,特征值取1,否則取0。
(11) 候選先行語是否存在語義關(guān)系中的受事關(guān)系(CandiPat)
該屬性取值FCandiPat={0,1}。若候選先行語存在語義關(guān)系中的受事關(guān)系,特征值取1,否則取0。
(12) 零指代項φ是否出現(xiàn)在語句的開頭(ZeroBegin)
該屬性取值FZeroBegin={0,1}。若零指代項φ出現(xiàn)在語句的開頭,特征值取1,否則取0。
(13) 零指代項φ是否在語句中的主語或賓語位置(ZeroPosition)
該屬性取值FZeroPosition={0,1}。若零指代項φ在語句中的主語或賓語位置,特征值取1,否則取0。
(14) 零指代項φ與候選先行語間的距離(BothDistance)
距離特征指的是零指代項φ與候選先行語之間語句編號的空間距離[11]。若空間距離越遠,零指代項φ與候選先行語發(fā)生指代關(guān)系的可能性越小,定義特征值f(d)=0.1×d,0≤d<4,對空間距離逆向取值。
設(shè)空間距離為d,因在構(gòu)建訓(xùn)練/測試樣例時,已配對的<候選先行語,φ>僅考慮4句之內(nèi),所以定義d取值為0≤d<4。
將零指代項φ與它之前出現(xiàn)過的名詞短語依次配對,并根據(jù)2.1節(jié)的特征描述生成訓(xùn)練實例和測試實例。
生成訓(xùn)練實例時,指代鏈信息已知。對識別出的零指代項φ,查找其是否位于某條指代鏈中,若不在,則視為非待消解項,不必為其尋找先行語,進行下一個零指代項φ的查找;若在某條指代鏈中,則為零指代項φ尋找合適的先行語。經(jīng)維吾爾語語料統(tǒng)計,選取與φ距離為四句之內(nèi)的名詞短語NP0,NP1,…,NPn為候選先行語,依次配對。如圖2所示,若存在NPi(0為正例;φ與NPi+1,…,NPn配對的名詞短語對
圖2 維吾爾語零指代對配對
生成測試實例與生成訓(xùn)練實例過程類似,但指代鏈信息未知。對識別出的零指代項φ選取與其四句之內(nèi)的名詞短語,配對為<候選先行語,φ>對,將測試實例交由模型判斷,若模型判斷該實例為正例,則<候選先行語,φ>存在指代關(guān)系;若判斷為負例,則<候選先行語,φ>不存在指代關(guān)系。
表1為引言中的例句依據(jù)2.1節(jié)抽取特征生成的訓(xùn)練/測試樣例。
表1 維吾爾語零指代消解訓(xùn)練樣例和測試樣例
2.3.1 自動編碼器
自動編碼器(autoencoder,AE)為無監(jiān)督學(xué)習(xí)網(wǎng)絡(luò),AE由編碼器和解碼器組成,包括輸入層、隱藏層和輸出層。AE嘗試學(xué)習(xí)形如hw,b(x)≈x的函數(shù),使得輸出hw,b(x)無限接近于輸入x,從而將輸入信號從目標中重構(gòu)出來,盡可能完整地保留原有特征信息。
(1) AE編碼階段: 編碼器將n維輸入向量x∈Rn通過編碼函數(shù)fθ(x)映射到y(tǒng),如式(1)所示。
y=fθ(x)=s(Wx+b)
(1)
其中θ={W,b}為編碼參數(shù),s為sigmoid(.)激活函數(shù)。
(2) AE解碼階段: 解碼器將y反向變換,得到對原始輸入x的重構(gòu)表示z,y與z滿足式(2)。
z=gθ′(y)=s(W′y+b′)
(2)
其中θ′={W′,b′}為解碼參數(shù)。最后通過不斷地調(diào)整θ和θ′的值,得到最小化重構(gòu)誤差J,重構(gòu)誤差如式(3)所示。
(3)
其中D為訓(xùn)練樣本集合,L為重構(gòu)誤差函數(shù),本文選擇交叉熵誤差函數(shù),如式(4)所示。
(4)
2.3.2 降噪自動編碼器
維吾爾語文本中包含豐富的語義信息,同樣也存在干擾語義影響零指代消解性能信息,因此對模型學(xué)習(xí)出的特征提出更高的要求,訓(xùn)練得到的模型必須具備較強的魯棒性。為了使AE具備魯棒性的特征表達,Vincent[12]提出降噪自編碼神經(jīng)網(wǎng)絡(luò)(denoising autoencoder,DAE),DAE與AE類似,也需要編碼與解碼過程來重構(gòu)數(shù)據(jù),同屬于無監(jiān)督學(xué)習(xí)。但不同的是,DAE在AE的基礎(chǔ)上,對原始輸入數(shù)據(jù)加入一定比例的噪聲污染,經(jīng)過編碼與解碼階段后,最終映射還原出更具魯棒性的特征信息,提高了基本AE對輸入數(shù)據(jù)的泛化能力。
設(shè)原始輸入數(shù)據(jù)為X,DAE通過一個隨機映射變換X~qD(X′|X),對原始輸入數(shù)據(jù)X進行“破壞”,進而得到一個含有噪聲污染的數(shù)據(jù)X′,其中D為數(shù)據(jù)集,則DAE的編碼器輸出如式(5)所示。
Y′=fθ(X)=s(WX′+b)
(5)
接著通過解碼器將Y′反向變換,得到對原始輸入數(shù)據(jù)X的重構(gòu)表示Z,Y′與Z滿足式(6)。
Z=gθ′(Y′)=s(W′Y′+b′)
(6)
2.3.3 維吾爾語零指代消解的SDAE模型
深度神經(jīng)網(wǎng)絡(luò)經(jīng)過多層非線性表達能夠?qū)W習(xí)出更有效的特征,而SDAE由多個DAE疊加,對每個DAE加入一定比例的噪聲ρ能夠?qū)W習(xí)更強健的特征表達?;诰S吾爾語零指代消解的SDAE,由多層DAE與一層softmax分類器構(gòu)成,其結(jié)構(gòu)如圖3所示。其中,DAE數(shù)目作為模型的一個重要參數(shù),將在3.2.1節(jié)實驗部分討論如何確定。將多層DAE學(xué)習(xí)到的特征作為softmax分類器的輸入,若<候選先行語,φ>存在指代關(guān)系,標簽為1;若不存在指代關(guān)系,則標簽為0。由分類器判斷<候選先行語,φ>是否存在指代關(guān)系,從而完成零指代消解任務(wù)。
SDAE的學(xué)習(xí)分為無監(jiān)督逐層貪婪的預(yù)訓(xùn)練與有監(jiān)督的微調(diào)。當模型在逐層預(yù)訓(xùn)練過程時,訓(xùn)練每一層DAE的輸入數(shù)據(jù)為加入一定比例噪聲ρ的數(shù)據(jù)信息,在微調(diào)過程中使用未加噪聲的原始數(shù)據(jù)對整個SDAE網(wǎng)絡(luò)進行微調(diào),圖3體現(xiàn)了預(yù)訓(xùn)練過程與反向微調(diào)過程。
模型學(xué)習(xí)的具體過程如下:
(1) 無監(jiān)督的預(yù)訓(xùn)練(pre-training)
Step1將無標簽的零指代消解訓(xùn)練數(shù)據(jù)加入一定比例的噪聲ρ,生成樣本數(shù)據(jù)X'作為第一個DAE的輸入,利用DAE的重構(gòu)方式,訓(xùn)練得到隱藏層1的權(quán)重參數(shù)θ1,同時計算出隱藏層1的輸出Y1;
圖3 SDAE模型結(jié)構(gòu)及預(yù)訓(xùn)練、微調(diào)過程
Step3用同樣的方法將上一層的輸出數(shù)據(jù)加入相同比例的噪聲ρ,作為第n個DAE的輸入,訓(xùn)練得到隱藏層n的權(quán)重參數(shù)θn,并計算出隱藏層n的輸出Yn;
Step4將Step3隱藏層的輸出作為softmax分類器的輸入,使用零指代消解標簽訓(xùn)練得到softmax分類器的參數(shù)θn+1;
Step5將Step1~Step4逐層訓(xùn)練得到的網(wǎng)絡(luò)參數(shù)θ1,θ2,…,θn,θn+1作為網(wǎng)絡(luò)的初始參數(shù),完成模型預(yù)訓(xùn)練。
(2) 有監(jiān)督的微調(diào)(fine-tuning)
微調(diào)是采用少量標簽數(shù)據(jù)進行有監(jiān)督訓(xùn)練,與此同時對全局網(wǎng)絡(luò)訓(xùn)練中的誤差進行優(yōu)化,微調(diào)的作用是對整個SDAE+softmax網(wǎng)絡(luò)的權(quán)重進行調(diào)優(yōu),使模型具備更精準的特征提取和學(xué)習(xí)能力。
Step1使用帶標簽的維吾爾語零指代消解訓(xùn)練數(shù)據(jù)作為輸入數(shù)據(jù),對SDAE+softmax進行全局訓(xùn)練,計算整個網(wǎng)絡(luò)的損失函數(shù),以及對每個參數(shù)的偏導(dǎo)函數(shù);
Step2如圖4所示,采用誤差反向傳播算法并運用隨機梯度下降法對網(wǎng)絡(luò)權(quán)值進行優(yōu)化,將這些參數(shù)作為SDAE+softmax整個網(wǎng)絡(luò)的最優(yōu)參數(shù)。
圖4 誤差反向傳播算法流程圖
本文針對維吾爾語零指代現(xiàn)象,對語料進行篩選及標注,實驗語料以人民網(wǎng)、天山網(wǎng)、昆侖網(wǎng)及論壇、博客等維吾爾語版網(wǎng)頁為來源,利用網(wǎng)絡(luò)爬蟲或人工下載頁面,對頁面內(nèi)容進行去噪處理,最終獲得實驗所需的原始文本。為確保語料的普遍性,語料內(nèi)容涵蓋了新聞、人物、科普等。語料采取人工標注方式,在實驗組維吾爾語語言學(xué)專家的指導(dǎo)下,將語料標注完畢并用XML文件存儲。實驗測評方式采用準確率P、召回率R和F值考察零指代性能,其中,P指正確消解的實體占實際消解的實體的百分比;R指正確消解的實體占消解系統(tǒng)應(yīng)消解實體的百分比;F值為準確率和召回率的綜合評價指標,即:F=2×R×P/(R+P)。
實驗選擇并標注維吾爾語語料179篇,包含維吾爾語語句900余句,配對完成的零指代對<候選先行語,φ>共3 286對,其中,存在指代關(guān)系的零指代對<候選先行語,φ>1 038對,不存在指代關(guān)系的零指代對<候選先行語,φ>2 248對,為避免實驗不確定性,確保數(shù)據(jù)隨機性,本文實驗均采取五折交叉驗證法進行,將80%的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),其余20%的數(shù)據(jù)作為測試數(shù)據(jù)。
為了從不同角度考察維吾爾語零指代消解的性能,本文設(shè)計了以下五組實驗: ①SDAE不同隱藏層層數(shù)對性能的影響; ②SDAE的噪聲比對性能的影響; ③不同維度的詞嵌入表示對性能的影響;④word embedding特征與hand-crafted特征對性能的影響; ⑤維吾爾語零指代消解模型SDAE與棧式降噪自編碼、淺層機器學(xué)習(xí)的支持向量機(support vector machine,SVM)和人工神經(jīng)網(wǎng)絡(luò)(artificial neural networks,ANN)性能對比。
此外,本文對原有實驗語料進行擴充,額外從大型維吾爾語網(wǎng)站獲取共約7 000余篇題材豐富的生語料,進行去重、去噪處理后,使用Mikolov[13]提出的Word2Vec工具,選擇Skip-gram模型作為訓(xùn)練框架,訓(xùn)練k維(k=10,50,100,150)的word embedding向量。
在實驗過程中,先選擇維度為50的詞向量作為word embedding特征;SDAE的噪聲系數(shù)取值為[0,1],先折中選擇噪聲系數(shù)為0.5,在后續(xù)實驗考察中將確定它們的最優(yōu)值。經(jīng)過反復(fù)嘗試網(wǎng)絡(luò)模型的不同參數(shù)組合,確定了基于本實驗數(shù)據(jù)量下的最優(yōu)參數(shù),如表2所示。
表2 模型最優(yōu)參數(shù)
續(xù)表
3.2.1 SDAE不同層數(shù)對性能的影響
一般來說,模型中若包含更多的網(wǎng)絡(luò)層,則能學(xué)習(xí)到更本質(zhì)的數(shù)據(jù)表達與更抽象的特征,然而網(wǎng)絡(luò)層數(shù)過多,會增加網(wǎng)絡(luò)訓(xùn)練成本與計算難度,導(dǎo)致模型過擬合。SDAE的層數(shù)作為重要參數(shù)之一,本節(jié)采用DAEi(i為DAE的個數(shù))表示SDAE隱藏層層數(shù),實驗結(jié)果如表3所示。
表3 不同隱藏層層數(shù)的零指代消解性能
由表3可知,反映P和R整體性能的F值隨著隱藏層層數(shù)的增加而增加,在隱藏層層數(shù)為4時達到最優(yōu),為56.784%,在隱藏層層數(shù)為5時F值回落,說明本文中維吾爾語零指代消解的性能在第四層為最佳。隨著SDAE隱藏層層數(shù)的增加,F(xiàn)值逐漸提高,這是由于深度學(xué)習(xí)機制通過多層映射單元提取主要的結(jié)構(gòu)信息,能夠挖掘文本中隱含的深層語義信息,然而在第五層F值并未提升,說明基于本研究的SDAE深度為4已足夠,SDAE通過堆疊多層DAE,達到學(xué)習(xí)數(shù)據(jù)中有價值特征的目的,最終提升零指代消解性能。所以“深度模型”是手段,“特征學(xué)習(xí)”是目的[14]。因此在本文中確定SDAE的層數(shù)為4。
3.2.2 SDAE的噪聲比對性能的影響
在SDAE的學(xué)習(xí)過程中,為了能夠從原始文本中挖掘到更具魯棒性的特征,對每層DAE的輸入數(shù)據(jù)均添加一定比例的人工噪聲。為了探索噪聲比對零指代消解性能的影響,本節(jié)將噪聲比取值[0.2,0.95]進行實驗,實驗結(jié)果如圖5所示。
圖5 不同噪聲比的零指代消解性能
由圖5可知,隨著噪聲比的增加,反映P和R整體性能的F值先呈上升趨勢,在噪聲比為0.45時達到最優(yōu),F(xiàn)值達到57.711%,表明在該噪聲比下,模型學(xué)習(xí)數(shù)據(jù)中魯棒性深層語義特征的能力為最優(yōu);隨后F值呈下降趨勢,說明過大的噪聲比使數(shù)據(jù)受損嚴重,導(dǎo)致模型學(xué)習(xí)能力降低,從而造成零指代消解性能下降。因此在本文中確定SDAE的最優(yōu)噪聲比為0.45。
3.2.3 不同維度的詞嵌入表示對性能的影響
詞嵌入表示維度是生成word embedding向量的參數(shù)之一,本節(jié)分別采用詞向量的維度為10維、100維、150維的word embedding向量,用以考察不同維度下的word embedding特征對零指代消解性能的影響,實驗結(jié)果如表4所示。
表4 不同維度的word embedding特征對零指代消解性能的影響
由表4可知,F(xiàn)值隨著維度的增加先上升,在50維時達到最優(yōu),然而維度達到100維時的F值較50維時有回落;150維與100維相比,F(xiàn)值也并未顯著增加。F值先上升,這是因為50維較10維包含更為豐富的語義信息和上下文特征,使得模型能夠挖掘更多的有用信息;F值接著下降,這是因為100維和150維的維度較大,生成訓(xùn)練實例的維度也相應(yīng)較大,增加了模型的訓(xùn)練難度,產(chǎn)生過擬合,使模型對數(shù)據(jù)的泛化能力降低,因此在本任務(wù)中50維的詞嵌入表示已足夠滿足需求。
3.2.4 word embedding特征和hand-crafted特征對性能的影響
word embedding特征表述了零指代項與候選先行語語義層面的表達,而hand-crafted特征則表述了零指代研究層面的知識表示,為了探索word embedding特征與hand-crafted特征對性能的影響,本節(jié)分別將word embedding特征與hand-crafted特征作為模型輸入,與包含全部兩類特征做輸入的模型作對比,實驗結(jié)果如表5所示。
表5 Fword embedding與Fhand-crafted對性能的影響
由表5可知,僅用word embedding特征與僅用hand-crafted特征條件下,與包含全部兩類特征的F值相比,分別降低6.211%與8.374%。驗證了本文將word embedding特征與hand-crafted特征融合,將二者共同作為維吾爾語零指代消解任務(wù)特征的有效性與可行性。在僅用word embedding特征的情況下,雖包含豐富的語義與句法信息,然而缺少了零指代消解研究方面的知識表示;在僅用hand-crafted特征的情況下,雖刻畫了維吾爾語零指代現(xiàn)象,但缺乏語義層面的聯(lián)系,因此將word embedding特征與hand-crafted特征結(jié)合,相輔相成,用以解決零指代消解問題。
3.2.5 SDAE與其他模型性能對比
為驗證本文方法的有效性,將SDAE模型與傳統(tǒng)棧式自編碼SAE、淺層機器學(xué)習(xí)SVM、ANN的性能做對比,其中,SAE與SDAE的網(wǎng)絡(luò)結(jié)構(gòu)與模型參數(shù)相同;SVM采用RBF核函數(shù),γ=1;ANN采用三層隱層網(wǎng)絡(luò)結(jié)構(gòu),節(jié)點數(shù)為55,迭代次數(shù)為100,批尺寸為30。實驗結(jié)果如表6所示。
表6 SDAE與其他模型性能對比
由表6可知: SDAE的F值與SAE相比,提高了4.450%,且SDAE與淺層機器學(xué)習(xí)SVM與ANN相比,F(xiàn)值均有明顯提升;而基于深度網(wǎng)絡(luò)結(jié)構(gòu)的SAE與SVM和ANN相比,其F值也具有顯著優(yōu)勢。SDAE優(yōu)于SAE,這是由于SDAE在學(xué)習(xí)過程中向輸入數(shù)據(jù)加入一定比例的噪聲,使得SDAE的多層結(jié)構(gòu)能學(xué)習(xí)到更具魯棒性的深層語義特征,完美重構(gòu)了原始數(shù)據(jù)的表達,所以其性能與傳統(tǒng)SAE相比具有優(yōu)勢。而兩種深度網(wǎng)絡(luò)結(jié)構(gòu)的SDAE與SAE的性能,均優(yōu)于淺層機器學(xué)習(xí)的SVM和ANN,這是由于基于深度學(xué)習(xí)思想的模型具備挖掘隱藏信息能力,經(jīng)過無監(jiān)督的層層學(xué)習(xí),能夠自主抽取文本信息中的顯著特征,有挖掘維吾爾語語篇中的深層語義信息的優(yōu)勢。
零指代消解研究有助于自然語言處理的發(fā)展,然而現(xiàn)有研究主要針對漢語等大語種,且缺乏對深層語義的探索,針對此問題,本文依據(jù)維吾爾語零指代現(xiàn)象,提出采用深度學(xué)習(xí)機制的SDAE解決維吾爾語零指代消解任務(wù)。結(jié)合維吾爾語語言特色及零指代特點,提出將蘊含上下文語義信息和句法信息的word embedding特征與刻畫維吾爾語零指代知識表示的hand-crafted特征融合,將這兩類特征共同作為SDAE的輸入,挖掘更深層且具備魯棒性的語義特征進而完成維吾爾語零指代消解任務(wù)。此外,本文還從SDAE隱藏層層數(shù)對性能的影響及word embedding特征與hand-crafted特征對性能的影響等方面對維吾爾語零指代消解研究進行了探索。與傳統(tǒng)SAE、淺層機器學(xué)習(xí)SVM和ANN相比,SDAE均體現(xiàn)出其優(yōu)勢,驗證了本方法在維吾爾語零指代消解任務(wù)中的有效性與可行性。
[1] 帕提古力·麥麥提. 基于向心理論的維吾爾語語篇回指研究[D]. 北京: 中央民族大學(xué)博士學(xué)位論文, 2010.
[2] Zhao S, Ng H T. Identification and resolution of Chinese zero pronouns: A machine learning approach[C]//Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and ComputationalNatural Language Learning,2007: 541-550.
[3] Kong F, Zhou G. A tree kernel-based unified framework for Chinese zero Anaphora Resolution.[C]//Conference on Empirical Methods in Natural Language Processing(EMNLP),2010: 882-891.
[4] Chen C, Ng V.Chinese zero pronoun resolution: Some recent advances[C]//Conference on Empirical Methods in Natural Language Processing(EMNLP),2013: 1360-1365
[5] Chen C, Ng V. Chinese zero pronoun resolution with deep neural Networks[C]//Proceedings of the Meeting of the Association for Computational Linguistics(ACL),2016: 778-788.
[6] Iida R, Torisawa K, Oh J H, et al. Intra-sentential subject zero anaphora resolution using multi-column convolutional neural network[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing(EMNLP),2016: 1244-1254.
[7] 李陽輝, 謝明, 易陽. 基于深度學(xué)習(xí)的社交網(wǎng)絡(luò)平臺細粒度情感分析[J]. 計算機應(yīng)用研究, 2017, 34(3): 743-747.
[8] 張開旭, 周昌樂. 基于自動編碼器的中文詞匯特征無監(jiān)督學(xué)習(xí)[J]. 中文信息學(xué)報, 2013, 27(5): 1-7.
[9] 劉勘, 袁蘊英. 基于自動編碼器的短文本特征提取及聚類研究[J]. 北京大學(xué)學(xué)報(自然科學(xué)版), 2015, 51(2): 282-288.
[10] Bengio Y, Ducharme R, Jean, et al. A neural probabilistic language model[J]. Journal of Machine Learning Research, 2003, 3(6): 1137-1155.
[11] 楊勇, 李艷翠, 周國棟,等. 指代消解中距離特征的研究[J]. 中文信息學(xué)報, 2008, 22(5): 39-44.
[12] Vincent P, Larochelle H, Bengio Y, et al. Extracting and composing robust features with denoising autoencoder [C]//Proceedings of the 25th International Conference on Machine Learning. New York: ACM, 2008: 1096-1103.
[13] Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their compositionality[J]. Advances in Neural Information Processing Systems, 2013(26): 3111-3119.
[14] 余凱, 賈磊, 陳雨強,等. 深度學(xué)習(xí)的昨天、今天和明天[J]. 計算機研究與發(fā)展, 2013, 50(9): 1799-1804.