冶忠林,趙海興,張 科,朱 宇
(1. 陜西師范大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,陜西 西安 710062;2. 青海師范大學(xué) 計(jì)算機(jī)學(xué)院,青海 西寧 810008;3. 青海師范大學(xué) 藏文信息處理與機(jī)器翻譯省級重點(diǎn)實(shí)驗(yàn)室,青海 西寧 810008;4. 青海師范大學(xué) 藏文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,青海 西寧 810008)
詞表示學(xué)習(xí)將詞語與上下文詞語之間的關(guān)聯(lián)關(guān)系映射到低維度的向量空間中。其中最主流的分布式詞表示算法為基于淺層神經(jīng)網(wǎng)絡(luò)的Word2Vec[1-2]算法,在該算法中,基于負(fù)采樣優(yōu)化的Skip-Gram模型簡稱為SGNS。由于其更加有效和快速擬合,因此比其他的神經(jīng)網(wǎng)絡(luò)方法(如NNLM, RNN, LSTM)[3]更加受到關(guān)注。此外,還有一些傳統(tǒng)的詞表示學(xué)習(xí)算法,例如,通過word-context構(gòu)建的共現(xiàn)矩陣(SPPMI)方法或矩陣分解(SVD,LSI)方法[4]。
Levy在文獻(xiàn)[5]中提出在類比數(shù)據(jù)集(MSR和Google )上SGNS效果優(yōu)于使用SVD分解PPMI矩陣,但是在相似度評估數(shù)據(jù)集(本文使用相同的數(shù)據(jù)集)上,SVD分解PPMI矩陣的效果優(yōu)于SGNS。SGNS實(shí)質(zhì)也是矩陣分解,因此,SGNS性能優(yōu)于SVD分解PPMI矩陣的主要原因是SGNS使用了一個淺層的神經(jīng)網(wǎng)絡(luò)不斷地調(diào)整和優(yōu)化表示向量之間的距離關(guān)系,同時在優(yōu)化過程中使用大量的超參數(shù)也能提升性能。另外,SGNS隱含地分解一個加權(quán)矩陣,該過程類似于在類比任務(wù)中給語義相近的詞語賦予更相近的詞表示。Levy等認(rèn)為構(gòu)建類似于點(diǎn)互信息矩陣(PMI)的word-context加權(quán)矩陣也許能夠提升詞表示性能。在文獻(xiàn)[6-7]中,Hamilton等建議當(dāng)訓(xùn)練精確的詞表示時,SVD方法應(yīng)該為首選,而非SGNS。隨后,Levy在文獻(xiàn)[8]中證明了SGNS為隱含的分解添加了負(fù)采樣的 Shifted PPMI矩陣(SPPMI)。
目前,傳統(tǒng)的詞表示方法研究逐漸被基于神經(jīng)網(wǎng)絡(luò)的方法所替代,主要是因?yàn)閭鹘y(tǒng)的方法構(gòu)建word-context關(guān)系耗時,且不能準(zhǔn)確地反映相互之間的關(guān)聯(lián)關(guān)系。而對詞向量地改進(jìn)也主要是基于神經(jīng)網(wǎng)絡(luò)的方法,例如,傾向于主題共性的TWE算法[9]、利用句法分析優(yōu)化的DEPS算法[10]、基于多原型的詞嵌入Huang算法等[11]?;谏窠?jīng)網(wǎng)絡(luò)的方法雖然高效,但仍存在不足。例如,(1)在固定上下文窗口中,語義完全相反的詞語共享相同的上下文; (2)如果語料較為稀疏,則罕見詞或詞頻較小的詞難以得到充分地訓(xùn)練。
本文通過分析神經(jīng)網(wǎng)絡(luò)方法與傳統(tǒng)方法之間的相關(guān)性,提出用傳統(tǒng)方法訓(xùn)練詞表示,也能使得其性能達(dá)到甚至超過基于神經(jīng)網(wǎng)絡(luò)的方法。為了實(shí)現(xiàn)該目標(biāo),本文在訓(xùn)練傳統(tǒng)詞表示模型時融入詞語的句法和語義信息,因?yàn)楝F(xiàn)有的詞表示學(xué)習(xí)算法很少把語義信息納入考量,且在基于統(tǒng)計(jì)或詞共現(xiàn)的傳統(tǒng)詞表示學(xué)習(xí)模型中更是丟失了語義因子。本文將維基百科中的詞語描述信息和其他在線詞典中的例句作為詞語的內(nèi)在語義信息,進(jìn)而構(gòu)建屬性特征文本和屬性特征矩陣,從而利用詞語文本特征彌補(bǔ)罕見詞訓(xùn)練不充分的問題。本文又將整個語料中的詞語與其上下文的結(jié)構(gòu)關(guān)聯(lián)作為詞語的外在結(jié)構(gòu)信息,進(jìn)而構(gòu)建了詞語的上下文特征文本和上下文特征矩陣。同時進(jìn)一步對上下文特征文本進(jìn)行分布平滑處理,即在上下文特征文本中刪除重復(fù)的詞語,使得某些頻繁出現(xiàn)的上下文被采樣的概率小于它們本身出現(xiàn)頻率所指示的概率。為了從上下文特征矩陣和屬性特征矩陣中均學(xué)習(xí)到有價值的內(nèi)容,本文首次引入了高效的誘導(dǎo)矩陣補(bǔ)全算法到詞表示學(xué)習(xí)任務(wù)中,該算法在分解上下文特征矩陣的同時從屬性特征矩陣中學(xué)習(xí)特征因子,最終使得學(xué)習(xí)到的詞表示同時含有兩個矩陣因子。本文的貢獻(xiàn)在于引入了基于矩陣誘導(dǎo)補(bǔ)全的詞表示聯(lián)合學(xué)習(xí)框架,并解決了基于神經(jīng)網(wǎng)絡(luò)的詞表示所存在的兩個缺陷,使得最終學(xué)習(xí)得到的詞表示同時蘊(yùn)含結(jié)構(gòu)共性和語義共性。
2013年,Mikolov等提出了Word2Vec詞表示學(xué)習(xí)算法[1-2],其由Skip-Gram模型和CBOW模型構(gòu)成,同時提供了分層 Softmax和負(fù)采樣(Negative Sampling) 兩種優(yōu)化方法。Hierarchical Softmax基于詞頻構(gòu)建了一個完整的huffman樹,該優(yōu)化方法的缺點(diǎn)是訓(xùn)練非常耗時。負(fù)采樣是噪聲對比評估[12]的一類簡化算法,該算法通常被用來改善詞表示學(xué)習(xí)的訓(xùn)練效率。
通常,Skip-Gram模型與負(fù)采樣優(yōu)化方法的結(jié)合簡稱為SGNS算法。
2014年Levy和Glodbery等[8]證明了基于神經(jīng)網(wǎng)絡(luò)的SGNS模型等同于隱式地分解Shifted PPMI(SPPMI)矩陣,該矩陣定義為SPPMI(w,c)=max(PMI(w,c)-logk,0),其中,PMI(w,c)=logP(w,c)/(P(w)P(c))。 Church和Hanks[13]將PMI引入到語言模型,并定義PMI(w,c)=log(#(w,c)·|D|)/(#(w)#(c)),|D|為語料中的詞語數(shù)量。隨后其被廣泛地應(yīng)用于詞相似度衡量任務(wù)中[14-15]。由于PMI的向量維度非常高,且會出現(xiàn)負(fù)無窮值,因此,在實(shí)際應(yīng)用中一般采用PPMI矩陣替代PMI矩陣,即PPMI(w,c)=max(PMI(w,c),0)。
在基于神經(jīng)網(wǎng)絡(luò)的SGNS模型中,k表示負(fù)采樣個數(shù),在SPPMI中同樣定義了k來選取不同的負(fù)采樣大小。在SGNS中,負(fù)采樣值k取值越大,表明訓(xùn)練時參與的詞語就越多,參數(shù)的估計(jì)則更加準(zhǔn)確。另外,k值也影響了SGNS隱式分解PMI矩陣的偏移,即k通過logk來轉(zhuǎn)移PMI的值。
1.2.1 屬性特征矩陣構(gòu)建
屬性特征矩陣是每個詞語的描述(或定義)文本構(gòu)成的特征矩陣。詞語作為語言模型的最小語義單元,除了與上下文詞具有交互性之外,還含有豐富的描述文本,該類描述文本被認(rèn)為是詞語的內(nèi)在屬性信息。如果在語言模型中,充分地考量詞語的屬性信息,可有效提升詞表示的性能。詞語的屬性特征矩陣構(gòu)建可抽象為以下三個步驟:(1)描述(或定義)文本爬取;(2)屬性文本特征預(yù)處理;(3)屬性特征矩陣構(gòu)建。
(1)描述(或定義)文本爬取詞語的描述性文本主要來自于維基百科的詞語描述段落。該內(nèi)容范圍從標(biāo)記“”到標(biāo)記“
(2)屬性文本特征預(yù)處理當(dāng)從描述性或者解釋性的文本中獲取了詞語的屬性信息之后,需要對這些文本進(jìn)行清洗和整理操作。首先本文刪除了爬取文本中的HTML標(biāo)簽信息。由于英文停用詞[注]https://blog.csdn.net/shijiebei2009/article/details/39696523在英文文本中出現(xiàn)率很高,但又僅起到結(jié)構(gòu)連接的作用。因此,本文隨后刪除了文本中的891個停用詞。最后得到的文本為詞語的屬性文本特征,即刪除標(biāo)簽與停用詞后的文本。
(3)屬性特征矩陣構(gòu)建: 本文基于刪除停用詞后的文本構(gòu)建了文本特征詞典并統(tǒng)計(jì)了對應(yīng)的詞頻。以所有的相似度測試集中的詞語(去重后)為行表頭,以文本特征詞典為列表頭,以屬性文本特征為約束條件,如果文本特征詞典中的詞語出現(xiàn)于屬性文本特征中,則設(shè)置特征矩陣中對應(yīng)位置為1,否則設(shè)置為0,循環(huán)設(shè)置直到最后一個相似度詞語為止。
在基于神經(jīng)網(wǎng)絡(luò)的詞表示學(xué)習(xí)中,假如意義完全相反的詞語作為當(dāng)前詞語的上下文詞語,則通過神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練得到的詞表示中,這兩個詞語在向量空間中具有了更相近的空間距離。但是,按照語言模型的認(rèn)知習(xí)慣,意義相反的詞語應(yīng)該在向量空間中具有較遠(yuǎn)的空間距離。本文通過構(gòu)建詞語的屬性特征矩陣,使得同義詞在屬性特征上具有更多的關(guān)聯(lián)性,從而誘導(dǎo)詞表示模型賦予同義詞更相近的詞表示向量。對于反義詞,詞表示學(xué)習(xí)模型無法從屬性特征矩陣中學(xué)習(xí)到共享特征,因此會被賦予更遠(yuǎn)的詞表示向量。因此,本文使用的特征矩陣可解決基于神經(jīng)網(wǎng)絡(luò)詞表示學(xué)習(xí)模型屬性所具有的第一個不足。
1.2.2 上下文特征矩陣構(gòu)建
對于上下文語料庫,本文同樣使用了維基百科語料庫,不同于詞語特征矩陣構(gòu)建,此環(huán)節(jié)本文下載了最新的全部維基語料。本節(jié)任務(wù)主要由兩個步驟完成,即上下文特征文本預(yù)處理和上下文特征矩陣構(gòu)建。
(1)上下文特征文本預(yù)處理該過程可被歸納為以下步驟:(a) 從維基百科網(wǎng)頁中抽取文本信息,刪除HTML標(biāo)簽; (b) 將所有單詞的大寫轉(zhuǎn)換為小寫,將文本中的數(shù)字轉(zhuǎn)化為“NUMBER”;(c) 將語料按逗號、問號、感嘆號等斷句符號分割為行。每一行存儲一條語句;(d) 檢查每條語句是否包含了詞典中的詞語,如果包含則保留該句子,否則刪除該句子。最后,本文整理得到的上下文特征文本中有3 770 834條句子。
(2)上下文特征矩陣構(gòu)建該過程可被歸納為以下步驟:(a) 設(shè)置上下文窗口大小,按照上下文窗口獲取當(dāng)前詞w的上下文詞語C={c-2,c-1,w,c1,c2},并對C中的詞語做去重處理,最終得到由當(dāng)前詞和上下文詞組成的文檔Dwc。 在英文文本中,以空格作為詞語之間的分割符;(b) 基于Dwc計(jì)算當(dāng)前詞w出現(xiàn)的次數(shù)#(w)和上下文詞c出現(xiàn)的次數(shù)#(c),以及w和c在同一窗口中出現(xiàn)的次數(shù)#(w,c);(c) 設(shè)置負(fù)采樣k值,并根據(jù)公式SPPMI(w,c)=max(PMI(w,c)-logk,0)構(gòu)建出上下文特征矩陣SPPMI。
在步驟(2)中,對上下文做去重處理主要是為了上下文分布平滑的考量,使得某些頻繁出現(xiàn)的上下文被采樣的概率小于它們本身出現(xiàn)頻率所指示的概率。SGNS模型在訓(xùn)練詞表示的過程中,為了加快模型擬合的速度,會將上下文中詞語出現(xiàn)頻率小于閾值的上下文詞語刪除,因此,罕見詞由于詞頻小導(dǎo)致無法得到充分地訓(xùn)練。本文通過構(gòu)建上下文特征矩陣,可有效的保留罕見詞在整個語料中的上下文特征。因此,本文使用的上下文特征矩陣可有效地解決基于神經(jīng)網(wǎng)絡(luò)詞表示學(xué)習(xí)的第二個不足。
1.2.3 基于屬性特征矩陣和上下文特征矩陣的聯(lián)合詞表示學(xué)習(xí)
1.2.1和1.2.2小節(jié)討論了如何獲得詞語的屬性特征矩陣以及上下文特征矩陣,也已知Levy和Goldberg等[8]證明了基于淺層神經(jīng)網(wǎng)絡(luò)的SGNS等同于分解SPPMI矩陣。文獻(xiàn)[6-7]認(rèn)為使用SVD的矩陣分解方法應(yīng)該為詞表示學(xué)習(xí)的首選。
如何將兩個矩陣聯(lián)合學(xué)習(xí),最簡單的方法是分別分解兩個矩陣之后,將得到的表示向量拼接。在推薦系統(tǒng)中,協(xié)同矩陣分解方法也可以解決該問題。2014年,Natarajan和Dhillon[16]提出了一類新的矩陣補(bǔ)全算法解決基因—疾病的關(guān)聯(lián)性預(yù)測,即該誘導(dǎo)矩陣補(bǔ)全算法使用了已知的基因特征矩陣X∈d1×m和疾病特征矩陣Y∈d2×n去分解基因—疾病特征矩陣,分解得到的表示向量能夠用于衡量不同基因之間的關(guān)聯(lián)性。該誘導(dǎo)矩陣補(bǔ)全算法的目標(biāo)函數(shù)可定義為式(1)所示。
式(1)的目標(biāo)是分解基因—疾病矩陣M∈m×n,得到兩個目標(biāo)矩陣W∈k×d1和H∈k×d2,使得M≈XTWTHY。 最終使用WTH作為每個基因的表示向量。該思想可以被借鑒到本文中,用于解決詞語屬性特征矩陣和上下文特征矩陣的聯(lián)合學(xué)習(xí)問題。本文中,設(shè)置矩陣X∈d1×m為單位矩陣E∈m×m,屬性特征矩陣為T∈d×n。 因此,通過計(jì)算W∈k×m和H∈k×d,本文的目標(biāo)函數(shù)是最小化,如式(2)所示。
式(2)可被簡寫為如式(3)所示。
本文使用WTH作為每個詞語的d維表示向量。式(3)在分解上下文特征矩陣M∈m×m的過程中從輔助矩陣T∈d×n中學(xué)習(xí)潛在因子,從而提升了詞表示學(xué)習(xí)的性能。如果輔助矩陣T∈d×n的性能較差,則最終的WTH的性能也會受到影響,因此,構(gòu)建性能優(yōu)異的文本特征矩陣T∈d×n至關(guān)重要。據(jù)我們所知,本文是首次將誘導(dǎo)矩陣補(bǔ)全的思想引入到詞表示聯(lián)合學(xué)習(xí)模型中,從而提出了一種新的基于矩陣分解的詞表示聯(lián)合學(xué)習(xí)框架,該框架有別于將屬性文本約束函數(shù)作為詞表示學(xué)習(xí)目標(biāo)函數(shù)的約束項(xiàng),使用隨機(jī)梯度算法得到每個參數(shù)的更新表達(dá)式。矩陣分解具有較強(qiáng)的靈活性,可定制任意類型的輔助矩陣優(yōu)化目標(biāo)矩陣的分解過程,同時又能解決基于神經(jīng)網(wǎng)絡(luò)詞表示學(xué)習(xí)中存在的兩個不足,因此本文提出的DEWE算法是一種新穎的基于矩陣分解思想的詞表示聯(lián)合學(xué)習(xí)算法。
本文使用了與文獻(xiàn)[10]相同的六個相似度數(shù)據(jù)集評估本文提出的算法,即 MEN[17]、Rare Words[18]、M.Turk[19]、SimLex[20]、WordSim353[21](被拆分為WordSim Similarity和WordSim Relatedness 兩個數(shù)據(jù)集) 。六個相似度數(shù)據(jù)集的詞語全部放到一個文件中,構(gòu)建一個相似度詞典,并對該詞典進(jìn)行去重處理。另外,相似度詞典中部分詞語不在維基語料中出現(xiàn),這些不出現(xiàn)的詞語共有118個,其中100個為名詞所有格形式,比如city’s,nation’s,world’s等。我們在詞典中刪除了這118個詞語。最終得到詞典中的詞語共有 5 987個。
本文提出的算法可調(diào)的參數(shù)有兩個:負(fù)采樣k和窗口大小。負(fù)采樣k取值越大,采樣的詞語越多,結(jié)果越準(zhǔn)確,但是設(shè)置k過大,也會引入噪聲導(dǎo)致準(zhǔn)確率降低。在下文中設(shè)置k為1,在2.4節(jié)中單獨(dú)討論不同的k對結(jié)果的影響。窗口大小采用Word2Vec一樣的默認(rèn)設(shè)置設(shè)為5,即當(dāng)前詞語前后各取兩個詞語。本文使用SGNS[8]、Glove[22]、Huang[11]、DEPS[10]、CBOW[8]等5個基于神經(jīng)網(wǎng)絡(luò)的詞表示方法作為基本對比算法。為了分析DEWE詞表示性能的提升因素,又和SPPMI、SPPMI(SVD)、Text(SVD)、SPPMI(SVD)+Text(SVD)等方法做了對比實(shí)驗(yàn)。本實(shí)驗(yàn)中使用的向量長度均為100。
基于2.2節(jié)中的設(shè)置,本文使用了2.1節(jié)介紹的六個數(shù)據(jù)集評估了本文提出的DEWE算法。DEWE算法分別設(shè)置向量維度為50、100、200三類。具體結(jié)果如表1所示。
表1 詞表示學(xué)習(xí)算法性能分析
通過表1可知,本文提出的DEWE算法在表示向量長度為50、100、200的設(shè)置下均能獲得較好的性能。SGNS和CBOW是Word2Vec的兩種模型,所以其性能差距不明顯。Glove和Huang的詞表示性能低于SGNS。原始的SPPMI矩陣的性能比使用SVD分解SPPMI矩陣性能略高1%左右。文本特征矩陣使用SVD降維后獲得的性能最低,與使用SVD分解的SPPMI矩陣拼接后性能獲得提升,但其組合性能仍低于SVD分解SPPMI的性能。本文提出的DEWE方法實(shí)質(zhì)上是將SPPMI特征矩陣和Text特征矩陣進(jìn)行聯(lián)合學(xué)習(xí),實(shí)驗(yàn)結(jié)果表明,DEWE在六個數(shù)據(jù)集上性能均優(yōu)于SPPMI和Text詞表示性能。另外,在向量長度為50的設(shè)置下,DEWE相較于文本特征,性能最大可提升29.5%,相較于SPPMI,性能最大可提升7.4%。DEWE相較于SGNS,在六個數(shù)據(jù)集上性能的提升為3.4%、19.1%、9.4%、1.7%、1.8%、0.4%。因此,本文提出的聯(lián)合學(xué)習(xí)模型是有效的。
在本節(jié)兩實(shí)驗(yàn)中,設(shè)置向量維度為100。首先在屬性特征文本中過濾掉詞頻小于閾值的詞語,然后使用剩余的詞語構(gòu)建屬性特征矩陣,進(jìn)而分析詞語數(shù)量對文本特征矩陣Text的性能影響。在表2中,統(tǒng)計(jì)了詞頻大于閾值的詞語的數(shù)量。表3中,分析了詞頻對Text性能的影響。
表2 屬性特征文本中詞語數(shù)量統(tǒng)計(jì)
表3 屬性文本特征中詞頻對文本特征矩陣的性能影響分析
在本文算法中,k為負(fù)采樣個數(shù),取值越大則參與運(yùn)算的詞語越多,參數(shù)估算也越好。另外,k控制著SGNS隱式分解PMI的偏移量。本文在構(gòu)建SPPMI矩陣時設(shè)置不同的負(fù)采樣k值,從而分析負(fù)采樣數(shù)對上下文特征矩陣性能的影響。具體結(jié)果如表4所示。從表4可以發(fā)現(xiàn),隨著k取值越大,SPPMI矩陣的性能也得到緩慢提升。
表4 負(fù)采樣對上下文特征矩陣性能影響分析
為探究生成的詞表示向量是否具有明顯的聚類現(xiàn)象,本文隨機(jī)選取1 000個節(jié)點(diǎn),同時使用SGNS和Glove算法與本文提出的DEWE算法進(jìn)行可視化對比??梢暬木垲惉F(xiàn)象可被認(rèn)為是可視化算法將具有同類屬性的詞嵌入聚類在一起??梢暬Y(jié)果如圖1所示。
圖 1 詞表示向量可視化
由可視化結(jié)果可知,SGNS和SPPMI(SVD)算法生成的詞表示在2維空間中未表現(xiàn)出聚類現(xiàn)象,Glove算法生成的詞表示在一定程度上表現(xiàn)出了聚類的趨勢。本文提出的DEWE算法生成的詞表示展現(xiàn)出了一種曲線分布趨勢,該趨勢可被認(rèn)為是一種分段的聚類現(xiàn)象,由于DEWE同時考慮了詞語的上下文結(jié)構(gòu)和屬性文本特征,而屬性文本特征又在無上下文關(guān)系的詞語之間建立了隱含的文本相似關(guān)聯(lián),該類關(guān)聯(lián)性可以增強(qiáng)弱結(jié)構(gòu)關(guān)聯(lián)詞語之間的關(guān)聯(lián)性。因此,DEWE會呈現(xiàn)出連續(xù)曲線分布。該實(shí)驗(yàn)充分表明了詞語的內(nèi)在屬性文本(語義文本)可以使得關(guān)聯(lián)詞的詞表示在向量表示空間中具有更近的距離,使得無上下文結(jié)構(gòu)關(guān)聯(lián)的詞語通過語義關(guān)聯(lián)促進(jìn)其在向量表示空間中的距離,最終的結(jié)果是詞表示在2維可視化中呈現(xiàn)出曲線分布趨勢。
在本節(jié)實(shí)驗(yàn)中,通過設(shè)置目標(biāo)詞語為“China”和“Beijing”,本文返回了相似度詞典中與目標(biāo)詞的余弦相似度最相近的5個詞語(并非返回整個訓(xùn)練語料中最相近的詞)。在前面的詞語有較大的相似度,靠后的詞語有較小的相似度。具體結(jié)果如表5所示。
表5 最相關(guān)詞案例分析
通過表5可見,SGNS僅考慮了詞語的上下文結(jié)構(gòu)關(guān)聯(lián),因此返回的詞語僅僅是出現(xiàn)在上下文窗口中頻率最高的詞語。GloVe考慮了詞語的全局特征信息,DEPS將Word2Vec的輸入改為句法結(jié)構(gòu)信息。而本文提出的DEWE算法通過詞語的描述和解釋內(nèi)容提升詞語的表示學(xué)習(xí)能力。不同的算法通過構(gòu)建詞語不同的特征從而訓(xùn)練出了相異的詞語表示。表5給出的目標(biāo)詞語“China”與“Beijing”均為地址屬性詞語。不同的算法返回了不同的國家名稱和城市名稱。DEWE在返回“China”的最相關(guān)詞中有“Beijing”和“Shanghai”,在返回“Beijing”的最相關(guān)詞中有“China”,而“Chinese”是“China”和“Beijing”的共同最相關(guān)詞語。因?yàn)?,在Wikipedia中,描述“China”和“Beijing”時均會提到“Beijing”是“China”的首都,且“China”的官方語言是“Chinese”。因此,基于Wikipedia描述文本訓(xùn)練得到的詞表示中會出現(xiàn)表5中DEWE算法所呈現(xiàn)出的詞表示效果。另外,同一種算法,在不同的語料上訓(xùn)練,得到的詞表示向量也盡不相同。
本文提出了一種新的詞表示學(xué)習(xí)算法DEWE,該算法將詞語的內(nèi)在語義信息和外在結(jié)構(gòu)信息進(jìn)行聯(lián)合學(xué)習(xí),從而使得學(xué)習(xí)得到的詞表示具有結(jié)構(gòu)相關(guān)性和語義相似性。為了實(shí)現(xiàn)該目標(biāo),本文構(gòu)建了詞語的屬性特征矩陣和上下文特征矩陣,并引入了高效的誘導(dǎo)矩陣補(bǔ)全算法對屬性特征矩陣和上下文特征矩陣進(jìn)行聯(lián)合矩陣分解。而誘導(dǎo)矩陣補(bǔ)全算法是首次被引入到詞表示學(xué)習(xí)中,從而形成了基于矩陣分解形式的詞表示學(xué)習(xí)框架,該框架能夠從輔助矩陣中學(xué)習(xí)有價值的特征輔助分解目標(biāo)矩陣。因此,本文提出的DEWE算法最終分解得到的矩陣因子既含有上下文特征矩陣中的影響因子又含有屬性特征矩陣中的影響因子。實(shí)驗(yàn)結(jié)果表明,本文提出的DEWE算法性能優(yōu)于單純地分解上下文特征矩陣和屬性特征矩陣,也優(yōu)于本文中使用的對比算法,例如,GloVe、SGNS、CBOW、DEPS等。另外,DEWE在Rare Words和M.Turk數(shù)據(jù)集上性能的提升是最明顯的。在未來的研究中,我們將繼續(xù)研究如何把詞語的詞性標(biāo)記和情感色彩融入到詞表示學(xué)習(xí)模型中。