蔣亞芳,嚴(yán) 馨,李思遠(yuǎn),徐廣義,周 楓
1.昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,昆明 650504
2.云南南天電子信息產(chǎn)業(yè)股份有限公司,昆明 650051
在自然語言處理領(lǐng)域,目前構(gòu)建單語詞向量模型的方法已經(jīng)較為成熟,對(duì)于跨語言詞向量模型的構(gòu)建也取得了一些進(jìn)展。如何將單語之間的詞向量轉(zhuǎn)換進(jìn)而形成跨語言詞向量是該模型構(gòu)建過程中的一個(gè)重要因素。
雙語詞向量構(gòu)建一般是兩類方式:第一是基于第三方中間語言構(gòu)建雙語詞向量,借助某種流行語言(一般采用英語)當(dāng)作中間語言,利用當(dāng)前源語言-中間語言-目標(biāo)語言來實(shí)現(xiàn)源語言-目標(biāo)語言的雙語詞向量[1]。例如Tanaka等[2]指出使用英語當(dāng)作第三方中間語言,實(shí)現(xiàn)日文-法文雙語詞向量構(gòu)建,具體思想為當(dāng)使用第三方語言來構(gòu)造雙語詞向量時(shí),根據(jù)計(jì)算雙語詞典中詞義匹配相似度,通過中間語言為橋梁得到的一個(gè)新的源語言詞到目標(biāo)語言詞的雙語詞典,進(jìn)而對(duì)雙語詞典中的詞分別進(jìn)行詞向量訓(xùn)練得到雙語詞向量。與之相似的,Bond等[3]采用日文-英文雙語詞向量以及英文-馬來西亞文雙語詞向量使用英語作為中間語言實(shí)現(xiàn)日文-馬來西亞文雙語詞向量,Bond 提出的方法主要是在Tanaka 的基礎(chǔ)上對(duì)中間語言匹配的規(guī)范化方面進(jìn)行了優(yōu)化;基于第三方中間語言構(gòu)建雙語詞向量中較為典型的思想方法是由Ruder[4]提出,該方法通過機(jī)器翻譯實(shí)現(xiàn)雙語詞向量的構(gòu)建,且不需要實(shí)際翻譯樣本,將其樣本投影到一個(gè)子空間中,最終訓(xùn)練學(xué)習(xí)一個(gè)共享的嵌入空間,該模型適用于訓(xùn)練所有種類的詞向量。
另一類方式為借助源語言以及目標(biāo)語言的平行語料庫,根據(jù)詞語之間的語義和上下文信息提取意義接近的詞語實(shí)現(xiàn)雙語詞向量表征[5-8]。Klementiev等[9]研究學(xué)者率先關(guān)注跨語言詞向量問題,將跨語言詞向量構(gòu)建視為一個(gè)多任務(wù)學(xué)習(xí)問題,通過平行句對(duì)的共現(xiàn)統(tǒng)計(jì)使多任務(wù)之間產(chǎn)生相關(guān)性,實(shí)現(xiàn)跨語言詞向量的構(gòu)建。Mikolov 等[10]采用單語各自訓(xùn)練,然后直接進(jìn)行轉(zhuǎn)換的方式構(gòu)建雙語詞向量模型。根據(jù)詞語語義間的關(guān)聯(lián)性對(duì)平行文本進(jìn)行線性轉(zhuǎn)換,源語言的詞向量可以直接轉(zhuǎn)換為目標(biāo)語言的詞向量,但是該研究在模型訓(xùn)練中需要使用資源豐富的雙語詞典或雙語平行文本資源。Faruqui等[11]提出了一種利用典型相關(guān)性分析的方法,獲取雙語詞向量。但是該模型在構(gòu)建初始需要在大量的雙語平行語料庫中去尋找互譯或者對(duì)齊的雙語詞匯,然而對(duì)于柬-漢雙語而言,雙語平行語料資源極為缺乏,因此采用該類模型將會(huì)面臨這個(gè)關(guān)鍵問題。
典型相關(guān)分析CCA 算法在自然語言處理中也應(yīng)用廣泛,尤其在機(jī)器翻譯中得到很好的實(shí)用效果。Haghighi 等[12]使用CCA 在兩種不同語言的單詞之間繪制翻譯詞匯,僅僅使用的是單語語料庫。Paramveer等[13]提出了一種新的基于CCA的多視角學(xué)習(xí)方法LR-MVL,通過相關(guān)的詞向量來構(gòu)建單語詞表示,這些詞向量捕獲了詞義的各個(gè)方面以及詞的不同類型的分布概況。Li等[14]提出一種基于KCCA(Kernel Canonical Correlation Analysis)的機(jī)器學(xué)習(xí)算法,利用了非線性相關(guān)映射將該算法應(yīng)用于日英跨語言信息檢索和文檔分類,取得了較好的效果,但是該方法計(jì)算復(fù)雜度比較高,不適用于大型數(shù)據(jù)集,因此,本文使用CCA 算法得出雙語詞向量,它能很好地衡量漢柬詞匯之間的語義相關(guān)性,減少了計(jì)算的復(fù)雜度。
當(dāng)前現(xiàn)有的跨語言詞向量模型研究中,以第三方語言為中間語言進(jìn)行研究的方法只考慮到多種語言詞語之間的對(duì)應(yīng)關(guān)系,而忽略了詞語本身的上下文語義關(guān)系以及多種語言詞語間的相關(guān)關(guān)系;在根據(jù)詞語之間的語義和上下文信息提取意義接近的詞語實(shí)現(xiàn)雙語詞向量模型構(gòu)建方法中,雖然更多地考慮到了詞語之間的相關(guān)信息,但在模型構(gòu)建初始需要使用到大量的平行文本或豐富的雙語詞典互譯語料,然而目前柬漢雙語平行資源稀缺,且獲取難度較大,因此該類方法只適用于使用人數(shù)較多、平行文本資源豐富的語種,不適用于平行語料稀缺的柬埔寨語語言處理工作中。
本文將以上兩種方法相結(jié)合,并在Faruqui 等[11]提出的經(jīng)典跨語言詞向量模型上針對(duì)柬埔寨語語料稀缺的問題做出進(jìn)一步改進(jìn),加入中間語言作為橋梁,以英語作為中間語言,利用漢英以及柬英的語料資源豐富性,將其和現(xiàn)有的跨語言詞向量模型相結(jié)合,可以更好地解決小語種語言平行語料缺乏的問題。因此本文對(duì)文獻(xiàn)[11]中提出的雙語詞向量模型進(jìn)行改進(jìn)后得到了以英語作為中間語言基于多重典型相關(guān)分析算法的柬漢雙語詞向量模型構(gòu)建方法。該方法對(duì)詞語之間的相關(guān)關(guān)聯(lián)有了更深的考慮,同時(shí)通過加入第三方中間語言英語以及部分實(shí)驗(yàn)室構(gòu)建的柬漢雙語電子詞典在一定程度上解決了柬漢平行文本資源不足的問題。
在基于多重典型相關(guān)分析算法(CCA)且以英語作為橋梁語言的雙語詞向量模型構(gòu)建方法中,以大量英、柬、漢三語單語語料為基礎(chǔ)進(jìn)行訓(xùn)練,得到三種語言的單語詞向量,其次將英語、漢語詞向量投影至英漢向量空間(該向量空間為第三方向量空間,投影后該向量空間中只包含英語詞向量以及漢語詞向量),將英語、柬語詞向量投影至英柬特征向量空間(該向量空間為一個(gè)新的第三方向量空間,投影后該向量空間中只包含英語詞向量以及柬語詞向量),根據(jù)CCA算法分別得到英-漢、英-柬雙語詞向量;然后以英語作為中間詞并結(jié)合部分實(shí)驗(yàn)室構(gòu)建的柬漢雙語電子詞典將上一步得到的英-柬、英-漢雙語詞向量投影至第三方同一向量空間中(該向量空間依然是一個(gè)全新的第三方向量空間,投影后該向量空間中包含英語詞向量、漢語詞向量以及柬語詞向量),再次根據(jù)CCA 算法得到柬語和漢語在新向量空間中的投影轉(zhuǎn)換矩陣;最后得到柬漢雙語詞向量。
典型相關(guān)分析的實(shí)質(zhì)就是在兩組隨機(jī)變量中選取若干個(gè)有代表性的綜合指標(biāo)(變量的線性組合),用這些指標(biāo)的相關(guān)關(guān)系來表示原來的兩組變量的相關(guān)關(guān)系[15-17]。這在兩組變量的相關(guān)性分析中,可以起到合理的簡化變量的作用。CCA 使用的方法是將多維的X和Y都用線性變換為一維的X′和Y′,然后再使用相關(guān)系數(shù)來看X′和Y′的相關(guān)性。將數(shù)據(jù)從多維變到一位,也可以理解為CCA是在進(jìn)行降維,將高維數(shù)據(jù)降到一維,然后再用相關(guān)系數(shù)進(jìn)行相關(guān)性的分析。
給定兩組變量X和Y,X為n1×m的樣本矩陣,Y為n2×m的樣本矩陣。其中m為樣本個(gè)數(shù),而n1,n2分別為X和Y的特征維度。對(duì)于X矩陣,將其投影到一維,對(duì)應(yīng)的投影向量為a,對(duì)于Y矩陣,將其投影到一維,對(duì)應(yīng)的投影向量為b,這樣X,Y投影后得到的一維向量分別為X',Y',且:
CCA算法的優(yōu)化目標(biāo)是最大化ρ(X′Y′),得到對(duì)應(yīng)的投影向量a,b,即:
式中,C為協(xié)方差,D為方差。
通過對(duì)上式求解得到投影矩陣X′,Y′,但會(huì)獲得若干個(gè)結(jié)果,即有若干個(gè)特征向量。事實(shí)上,存在min(m,n)種結(jié)果,但對(duì)應(yīng)最大的相關(guān)系數(shù)有一組相應(yīng)的a和b。所以在應(yīng)用中只取最大的相關(guān)系數(shù),由此便可獲得所要求的兩組變量的相關(guān)系數(shù)。
由于可直接獲得的柬漢雙語語料資源稀缺,導(dǎo)致通過以大量雙語平行文本為基礎(chǔ)的詞向量構(gòu)建模型所獲得的詞向量效果其實(shí)是不佳的,但由于漢英以及柬英語料資源豐富,所以在這里提出了以英語作為中間語言的基于典型相關(guān)分析雙語詞向量構(gòu)建模型,能夠解決現(xiàn)有的語料缺乏問題,同時(shí)利用典型相關(guān)分析算法將三種語言有效地聯(lián)系在一起,使得到的雙語詞向量更有效,同時(shí)該模型不僅適用于雙語,也能擴(kuò)展到多語任務(wù)中。因此本文提出的以英語作為中間語言的基于多重典型相關(guān)分析雙語詞向量構(gòu)建模型能夠?qū)色@取到的柬漢語料進(jìn)行向量化。本文的框架圖如圖1所示。
圖1 雙語詞向量模型流程圖
圖1 的主要步驟如下:首先應(yīng)用現(xiàn)有的成熟技術(shù)Word2vec 對(duì)英、柬、漢三種單語語料進(jìn)行詞向量訓(xùn)練,得到三種語料對(duì)應(yīng)的單語詞向量;其次將柬、英詞向量投影至柬英向量空間,將漢、英詞向量投影至漢英向量空間,根據(jù)CCA 算法分別得到各自的投影轉(zhuǎn)換矩陣后計(jì)算得到對(duì)應(yīng)雙語詞向量;然后以英語作為中間詞并結(jié)合部分實(shí)驗(yàn)室構(gòu)建的柬漢雙語電子詞典將上一步得到的英-柬、英-漢雙語詞向量投影至第三方同一向量空間中,再次根據(jù)CCA 算法得到柬語和漢語在新向量空間中的投影轉(zhuǎn)換矩陣,最后計(jì)算得到柬英漢多語詞向量,多語詞向量中包含有柬漢雙語詞向量。該模型主要可分為三個(gè)步驟進(jìn)行,具體過程如下:
收集相同領(lǐng)域柬語、英語、漢語單語語料,對(duì)收集到的三種語言的單語語料進(jìn)行分詞處理,并將三種單語語料通過Word2vec進(jìn)行詞向量訓(xùn)練,分別獲得柬語、英語以及漢語的詞向量。
將柬語和英語詞向量投影至英柬特征向量空間中,對(duì)應(yīng)得到英語詞向量和柬語詞向量在該向量空間中的投影轉(zhuǎn)換矩陣及英柬雙語詞向量;將漢語和英語詞向量投影至英漢向量空間,對(duì)應(yīng)得到英語詞向量和漢語詞向量在該向量空間中的投影轉(zhuǎn)換矩陣及柬漢雙語詞向量。英-漢雙語詞向量模型結(jié)構(gòu)如圖2所示。
圖2 英-漢雙語詞向量模型
由于所收集到的單語語料規(guī)模不同,因此經(jīng)過第一步后得到的英語、漢語、柬語詞向量規(guī)模大小并不相同,將其分別記為Σ、Ω以及Φ,Σ為英語詞向量集,Ω為漢語詞向量集,Φ為柬語詞向量集;且Σ∈Rd1×n1,Ω∈Rd1×n2,Φ∈Rd1×n3,其中d1為三種語言詞向量集矩陣的行數(shù),表示詞向量的維度,三種語言詞向量的維度相同;n1,n2,n3分別為英語、漢語、柬語詞向量集矩陣的列數(shù),n1表示英語詞匯集單詞的數(shù)量,n2表示漢語詞匯集單詞的數(shù)量,n3表示柬語詞匯集單詞的數(shù)量,由于初始單語語料規(guī)模的不同,因此在Ω中可能不存在Σ中每個(gè)詞的對(duì)應(yīng)翻譯詞,同理,在Φ中可能也不存在Σ中每個(gè)詞的對(duì)應(yīng)翻譯詞,因此首先令Σ′?Σ,Ω′?Ω,根據(jù)英漢雙語詞典使英語詞向量空間Σ′中的每一個(gè)英語詞都能在漢語詞向量空間Ω′中找到具有互譯關(guān)系的中文詞,令x和y分別為Σ′和Ω′中的互為翻譯詞的詞向量,并將x和y投影到英漢特征向量空間后得到投影詞向量x'和y'分別為:
其中,v和w是Σ′和Ω′的投影向量。
將英語詞向量x和與其詞義對(duì)應(yīng)的漢語詞向量y映射至英漢特征向量空間后,根據(jù)CCA 算法對(duì)含有x'和y'之間的相關(guān)關(guān)系進(jìn)行計(jì)算:
其中,ρ(x',y')為相關(guān)系數(shù),cov[x',y']為x'和y'的協(xié)方差,Var[x']和Var[y']分別為x'和y'的方差。
CCA 算法將映射至該向量空間的英語和漢語詞向量之間的相關(guān)系數(shù)ρ最大化,并輸出投影向量v和w,表示為:
得到Σ'和Ω'的投影向量v和w的表示之后,根據(jù)以上方法獲取英語詞向量Σ與漢語詞向量Ω兩種語言的全部詞匯詞向量映射至漢英同一向量空間后所得到的英語、漢語投影轉(zhuǎn)換矩陣分別為V、W,以及對(duì)應(yīng)雙語詞向量,表示為:
其中,V∈Rd×d,W∈Rd×d,Σ?、Ω?為具有相關(guān)關(guān)系的英漢雙語詞向量。d的取值為投影轉(zhuǎn)換矩陣V與W的秩中的較小值,由于根據(jù)相關(guān)性投影向量所得到d取值較大,因此僅通過對(duì)前d1個(gè)相關(guān)維度進(jìn)行原始單詞詞向量的投影進(jìn)行工作,且令d=d1,d1的可設(shè)置范圍值100~300。
同理,令Σ″?Σ,Φ′?Φ,根據(jù)柬英雙語詞典使英語詞向量空間Σ″中的每一個(gè)英語詞都能在柬語詞向量空間Φ′中找到具有互譯關(guān)系的柬語詞,與以上過程類似,得到Σ″和Φ′的投影向量P、Z以及對(duì)應(yīng)英柬雙語詞向量,表示為:
其中,P∈Rd×d,Z∈Rd×d,Σ??、Φ?為具有相關(guān)關(guān)系的英柬雙語詞向量。
通過上一步的工作可以獲取英漢、英柬雙語詞向量,所獲得英漢雙語詞向量個(gè)數(shù)為n4,n4=n1+n2,英柬雙語詞向量個(gè)數(shù)為n5,n5=n1+n3;分別構(gòu)建包含英漢雙語詞向量的向量集Γ以及包含英柬雙語詞向量的向量集Π,令Γ′?Γ,Π′?Π,Γ'與Π'分別為向量集Γ和Π的子集,Γ'與Π'中存在相同的英語詞所對(duì)應(yīng)的詞向量,數(shù)量為n1,此外Γ'中還包含部分實(shí)驗(yàn)室構(gòu)建的柬漢雙語電子詞典中漢語詞的詞向量,數(shù)量為n6;Π'中還包含部分實(shí)驗(yàn)室構(gòu)建的柬漢雙語電子詞典中柬語詞的詞向量,數(shù)量為n6;Γ'與Π'中相同英語詞之間具有互譯關(guān)系,部分由實(shí)驗(yàn)室構(gòu)建的柬漢雙語電子詞典中的柬漢詞對(duì)同樣具有互譯關(guān)系,因此向量集Γ'與向量集Π'中的詞向量所代表的詞之間滿足互譯對(duì)應(yīng)關(guān)系;?!蔙d×n4,Π∈Rd×n5;d為向量集的行數(shù),表示詞向量的維度,n4、n5分別為向量集Γ和向量集Π的列數(shù)。然后再次根據(jù)CCA 算法將Γ和Π映射至第三方同一向量空間中,該過程的模型如圖3所示。
在第三方向量空間中得到Γ和Π投影轉(zhuǎn)換矩陣M和N,根據(jù)進(jìn)一步計(jì)算得到包含柬英漢三種語言的多語詞向量,表示為:
其中,M∈Rd×d,N∈Rd×d,Γ*、Π*為具有相關(guān)關(guān)系的多語詞向量。
圖3 柬、英、漢多語言詞向量模型
本文所采用的實(shí)驗(yàn)語料為柬漢英三種語言單語語料,其中主要來源為分別從柬語語言網(wǎng)站、漢語語言網(wǎng)站、英語語言網(wǎng)站中爬取獲得,例如從中國新聞網(wǎng)(https://www.chinanews.com/)、中國日?qǐng)?bào)網(wǎng)(http://www.chinadaily.com.cn/)、柬埔寨日?qǐng)?bào)網(wǎng)(http://www.cambodiadailykhmer.com/)等網(wǎng)站進(jìn)行爬取得到三種語言的新聞?wù)Z料,并根據(jù)新聞主題的不同,將爬取到的語料進(jìn)行標(biāo)記分類,獲得三種語言的語料;此外實(shí)驗(yàn)所使用的語料中還包括一些網(wǎng)絡(luò)上可以直接下載得到的中文語料庫以及漢語語料庫。目前,通過以上方法獲取到的三種語言的單語語料庫覆蓋了經(jīng)濟(jì)、政治、旅游、體育等多個(gè)領(lǐng)域,包含1 016 455個(gè)英文單詞、927 496個(gè)漢語詞以及752 895 個(gè)柬語詞,本文中所使用的英漢詞典為郭世英[18]編著的現(xiàn)代英漢詞典(https://www.xiaobd.net/t/4162315/),收錄了42 000 詞條;所使用的英柬詞典為SBBIC英柬詞典,包含27 500詞條。
本文中所介紹的雙語詞向量模型以典型相關(guān)分析算法為核心,根據(jù)不同語言的詞向量之間的相關(guān)關(guān)系進(jìn)行分析計(jì)算,實(shí)現(xiàn)雙語詞向量的構(gòu)建。因此使用斯皮爾曼等級(jí)相關(guān)系數(shù)來評(píng)測通過本文所提出雙語詞向量模型得到的雙語詞向量所對(duì)應(yīng)的雙語詞之間的相關(guān)度與人工標(biāo)注詞對(duì)之間相關(guān)度的一致程度。
斯皮爾曼等級(jí)相關(guān)系數(shù)由Spearman根據(jù)積差相關(guān)的概念推導(dǎo)而來,是積差相關(guān)的特殊形式。它是一個(gè)非參數(shù)性質(zhì)的秩統(tǒng)計(jì)參數(shù),用來衡量兩個(gè)變量之間關(guān)聯(lián)關(guān)系的大小。斯皮爾曼等級(jí)相關(guān)系數(shù)用ρ表示,可由下式計(jì)算得到:
其中,n代表等級(jí)個(gè)數(shù),即測試集中包含的詞語對(duì)的數(shù)量。d代表二列成對(duì)變量的等級(jí)差數(shù),di表示第i個(gè)元素的等級(jí)差,即所使用模型對(duì)第i個(gè)詞語對(duì)的相關(guān)度評(píng)價(jià)結(jié)果和人工標(biāo)注結(jié)果在各自的排序列表中排序位置的差。
在自然語言處理任務(wù)中,WS-353 測試集常被用來訓(xùn)練和測試計(jì)算機(jī)實(shí)現(xiàn)的語義相關(guān)度算法。其包含兩個(gè)英文數(shù)據(jù)集,第一組數(shù)據(jù)集包含13個(gè)主題共153個(gè)詞語對(duì)和由13 個(gè)評(píng)價(jià)者對(duì)詞語對(duì)做出的相似度的評(píng)價(jià);第二組數(shù)據(jù)集包含16個(gè)主題共200個(gè)詞語對(duì)和由16個(gè)評(píng)價(jià)者對(duì)詞語對(duì)做出的相似度的評(píng)價(jià),并給出一個(gè)0~10 的評(píng)分,0 表示兩個(gè)詞語完全不相關(guān),10 表示兩個(gè)詞語很相關(guān)或者是同義詞。本文根據(jù)需求把WS-353測試集進(jìn)行人工翻譯,構(gòu)建了英-漢測試集Ten-ch,英-柬測試集Ten-kh,漢-柬測試集Tch-kh。并且用這三個(gè)測試集分別對(duì)本文所改進(jìn)的模型與Faruqui等[11]所提出的多語言典型相關(guān)分析模型進(jìn)行測試,作為對(duì)比實(shí)驗(yàn)。
在本節(jié)實(shí)驗(yàn)中,設(shè)置詞向量維度d為200 進(jìn)行計(jì)算。通過Word2vec工具包對(duì)三種語言語料進(jìn)行單語詞向量訓(xùn)練,分別得到52 947 個(gè)英語單語詞向量、44 805個(gè)漢語單語詞向量以及39 054 個(gè)柬語單語詞向量。以文獻(xiàn)[8]中多語言典型相關(guān)分析模型作為baseline,將單語詞向量分別放入多語言典型相關(guān)分析模型和本章所提出模型中進(jìn)行訓(xùn)練,得到雙語詞向量,并將通過多語言典型相關(guān)分析模型訓(xùn)練得到的英-漢、英-柬、漢-柬雙語詞向量所表示的詞對(duì)與英-漢測試集Ten-ch、英-柬測試集Ten-kh、漢-柬測試集Tch-kh進(jìn)行分析比較;而后將通過本章模型訓(xùn)練得到的多語詞向量所表示的詞對(duì)與英-漢測試集Ten-ch、英-柬測試集Ten-kh、漢-柬測試集Tch-kh進(jìn)行分析比較,得到詞對(duì)之間的相關(guān)系數(shù),將本章所提模型的實(shí)驗(yàn)結(jié)果與基準(zhǔn)實(shí)驗(yàn)的結(jié)果進(jìn)行對(duì)比分析。CCA 算法通過Matlab 工具實(shí)現(xiàn),斯皮爾曼相關(guān)系數(shù)越大,所測試的模型得到的雙語詞向量對(duì)應(yīng)的雙語詞對(duì)相關(guān)度越高,實(shí)驗(yàn)結(jié)果如表1所示。
表1 測試集在不同模型上的訓(xùn)練結(jié)果
由表1中可以看出,與多語言典型相關(guān)分析模型相對(duì)比,本文在其模型基礎(chǔ)上針對(duì)柬漢雙語語料稀缺問題進(jìn)行改進(jìn)之后,提出了以英語為中間語言的基于多重CCA 算法的雙語詞向量構(gòu)建模型,通過該模型得到的英漢雙語詞向量所對(duì)應(yīng)的雙語詞對(duì)在語義相關(guān)度方面與原模型雖有差距但相差甚微,但在英-柬以及漢-柬雙語詞向量所對(duì)應(yīng)的雙語詞對(duì)語義相關(guān)度方面有較為明顯的提升,分別提升了6.2 個(gè)百分點(diǎn)以及5.5 個(gè)百分點(diǎn)。實(shí)驗(yàn)結(jié)果表明,經(jīng)過改進(jìn)之后的多重CCA 算法模型在針對(duì)包含柬語詞向量的任務(wù)處理中效果優(yōu)于原模型。
本文介紹了一種以英語為中間語言基于多重CCA算法的雙語詞向量模型,該模型改進(jìn)了當(dāng)前大多數(shù)模型針對(duì)柬語等小語種語言獲取雙語詞向量質(zhì)量較低、需要大量平行初始語料進(jìn)行訓(xùn)練的缺點(diǎn)。首先對(duì)典型相關(guān)分析算法做出簡單闡述,然后介紹本文所提出模型的改進(jìn)方法及模型構(gòu)建過程,最后與Faruqui 所提出的多語言關(guān)聯(lián)模型進(jìn)行對(duì)比實(shí)驗(yàn),分別用多個(gè)測試集對(duì)模型所獲取雙語詞向量進(jìn)行測試,選擇斯皮爾曼相關(guān)系統(tǒng)作為評(píng)價(jià)標(biāo)注對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析。實(shí)驗(yàn)結(jié)果表明本文提出的模型對(duì)于含有柬語的雙語詞向量在語義相關(guān)度方面有較為明顯的提升。下一步的工作,對(duì)于雙語詞向量模型的構(gòu)建方法中,以英語作為橋梁語言連接漢語與柬語,存在一詞多義的情況,即一個(gè)英文單詞包含多個(gè)詞義,例如英文單詞bank,包含銀行與河岸兩個(gè)詞義,然而該單詞訓(xùn)練得到的詞向量卻只有一個(gè)表征,可能會(huì)出現(xiàn)其中一個(gè)詞義對(duì)應(yīng)相關(guān)中文詞向量,另一個(gè)詞義對(duì)應(yīng)相關(guān)柬文單詞詞向量的情況,這樣會(huì)將兩個(gè)并不相關(guān)的漢語詞與柬語詞匯聯(lián)系在一起,從而影響到雙語詞向量的質(zhì)量,由于使用的初始語料為可比語料,具有相關(guān)主題性,因此該情況出現(xiàn)的可能性已經(jīng)大大減小,但依然會(huì)存在一小部分,因此需要對(duì)此做出進(jìn)一步改進(jìn),例如加入雙語詞典等方法。