柳路芳,李 波,陳 鵬,周凌寒,王 兵
(1.華中師范大學(xué)計(jì)算機(jī)學(xué)院,湖北 武漢 430079;2.北京吉威時(shí)代軟件股份有限公司,北京100043)
隨著世界經(jīng)濟(jì)一體化的持續(xù)推進(jìn),不同國(guó)家和地區(qū)的人們交流日趨頻繁,跨語(yǔ)言交流中的語(yǔ)言不通問(wèn)題亟待解決,而傳統(tǒng)的語(yǔ)言學(xué)習(xí)、翻譯方式越來(lái)越不能適應(yīng)當(dāng)今快節(jié)奏的生活。在這樣的背景下,利用計(jì)算機(jī)技術(shù)來(lái)進(jìn)行跨語(yǔ)言自然語(yǔ)言的自動(dòng)處理研究變得愈發(fā)重要和有價(jià)值。在跨語(yǔ)言自然語(yǔ)言處理應(yīng)用中,雙語(yǔ)詞典是一項(xiàng)基本資源,具有極其重要的作用。傳統(tǒng)的人工方法或基于平行語(yǔ)料庫(kù)構(gòu)建雙語(yǔ)詞典的方法開(kāi)銷較大,且構(gòu)建的雙語(yǔ)詞典在時(shí)效性和完整性方面不甚理想。近年來(lái),使用計(jì)算機(jī)技術(shù)自動(dòng)提取雙語(yǔ)詞典得到了許多研究人員的關(guān)注[1]。
一般而言,雙語(yǔ)詞典提取方法按照所使用的語(yǔ)料庫(kù)類型進(jìn)行劃分,可以分為以下兩類:
第一類為基于平行語(yǔ)料庫(kù)的方法。該方法將平行語(yǔ)料庫(kù)作為語(yǔ)料資源,利用平行語(yǔ)料庫(kù)中的文檔對(duì)齊信息來(lái)進(jìn)行雙語(yǔ)詞典提取[2],平行語(yǔ)料庫(kù)有高質(zhì)量的互譯信息,故在構(gòu)建雙語(yǔ)詞典的過(guò)程中具有較好的提取效果。但平行語(yǔ)料庫(kù)存在構(gòu)建困難的不足,目前平行語(yǔ)料庫(kù)僅存在于少數(shù)語(yǔ)種和領(lǐng)域中,嚴(yán)重影響了該方法的推廣使用[3]。
第二類為基于可比語(yǔ)料庫(kù)的方法。可比語(yǔ)料庫(kù)中含有大量交叉卻又非嚴(yán)格互譯的信息,這些互譯詞語(yǔ)基本出現(xiàn)在語(yǔ)義相近但語(yǔ)言不同的上下文環(huán)境中,這也是該抽取方法的基礎(chǔ)[4,5]??杀日Z(yǔ)料庫(kù)易于獲取,覆蓋范圍廣泛,相較于基于平行語(yǔ)料庫(kù)的方法,在互聯(lián)網(wǎng)技術(shù)不斷發(fā)展的今天,具有更大的發(fā)展空間。
現(xiàn)階段,基于可比語(yǔ)料庫(kù)的雙語(yǔ)詞典抽取相關(guān)研究還不夠成熟,抽取算法的性能還不能滿足實(shí)際應(yīng)用的需求,且大部分研究都集中在特定領(lǐng)域的相關(guān)專業(yè)術(shù)語(yǔ)的抽取。因此,近來(lái)有許多學(xué)者對(duì)其進(jìn)行優(yōu)化改進(jìn),尤其是最近神經(jīng)網(wǎng)絡(luò)算法被應(yīng)用在機(jī)器學(xué)習(xí)等相關(guān)領(lǐng)域并取得了非常好的效果,其在自然語(yǔ)言處理領(lǐng)域應(yīng)用的代表性成果之一——詞向量[6],逐步被廣泛應(yīng)用在語(yǔ)義擴(kuò)展和情感分析等領(lǐng)域中,在單語(yǔ)種環(huán)境中可以對(duì)兩個(gè)詞語(yǔ)的詞向量直接計(jì)算相似度且兼顧平滑功能。鑒于此,本文提出了一種基于詞向量與可比語(yǔ)料庫(kù)的雙語(yǔ)詞典抽取方法,在一定程度上提升了雙語(yǔ)詞典的提取準(zhǔn)確率。
Rapp等人[7]研究表明,在單語(yǔ)種文本中一個(gè)單詞盡管會(huì)出現(xiàn)在不同的文本中,但是與之共同出現(xiàn)的單詞集合是大體相同的,也就是說(shuō)詞語(yǔ)之間的相關(guān)關(guān)系具有穩(wěn)定性,后來(lái),有其他研究者將這種相關(guān)性擴(kuò)展到了多種語(yǔ)言中。因此,對(duì)于可比語(yǔ)料庫(kù)中單詞之間的相關(guān)性,本文做出以下假設(shè):
(2)單詞之間的相關(guān)性具有對(duì)稱性。即單詞w1和單詞w2的相關(guān)度與單詞w2和單詞w1的相關(guān)度相同。
目前,基于可比語(yǔ)料庫(kù)的雙語(yǔ)詞典抽取算法主要有以下幾種:
(1)Tanaka等人[8]提出的基于中間語(yǔ)言的算法。Tanaka等人提出了一種利用中間語(yǔ)言從可比語(yǔ)料庫(kù)中進(jìn)行雙語(yǔ)詞典提取的方法,其主要思想是通過(guò)一種相對(duì)通用的語(yǔ)言如英語(yǔ)等作為中間語(yǔ)言,然后利用這種中間語(yǔ)言的詞表將源語(yǔ)言的單詞轉(zhuǎn)換為中間語(yǔ)言,再將轉(zhuǎn)換后的單詞轉(zhuǎn)換到目標(biāo)語(yǔ)言,最終完成雙語(yǔ)詞典的提取。然而,這種方法是基于單個(gè)單詞的,其抽取效果受中間語(yǔ)言的詞表的影響較大,在實(shí)際應(yīng)用中,單個(gè)的單詞常常不能表達(dá)一個(gè)比較完整的含義,而是需要與其他單詞結(jié)合起來(lái)才能表達(dá)一個(gè)完整的含義,不同的單詞組合則表達(dá)不同的含義。因此,這種基于單詞表的抽取算法的抽取效果不甚理想。
(2)Rapp等人[9]提出的基于詞語(yǔ)關(guān)系矩陣的算法。基于2.1節(jié)的假設(shè),在單語(yǔ)環(huán)境中,單詞與單詞之間存在一定的相關(guān)性,因此可以通過(guò)先確定源語(yǔ)言語(yǔ)料中的單詞與種子詞典中源語(yǔ)言單詞之間的相關(guān)性以及目標(biāo)語(yǔ)言語(yǔ)料庫(kù)中的單詞與種子詞典中目標(biāo)語(yǔ)言單詞之間的相關(guān)性來(lái)間接確定源語(yǔ)言與目標(biāo)語(yǔ)言之間的相關(guān)性?;诖?,Rapp等人提出了基于詞語(yǔ)關(guān)系矩陣的方法從可比語(yǔ)料庫(kù)中提取雙語(yǔ)詞典,其基本思想是通過(guò)構(gòu)建源語(yǔ)言和目標(biāo)語(yǔ)言的單詞共現(xiàn)矩陣,然后通過(guò)計(jì)算矩陣的相似度來(lái)得出源語(yǔ)言和目標(biāo)語(yǔ)言的相似度。
(3)Fung等人[10]提出的基于上下文空間模型的算法。Fung等人在上述Rapp等人的思想的基礎(chǔ)上通過(guò)向量空間模型完成了雙語(yǔ)詞典抽取工作。其基本思想是首先為兩種語(yǔ)言語(yǔ)料庫(kù)中的所有單詞構(gòu)建上下文向量,向量中包含了與該詞共同出現(xiàn)的單詞信息并且這里的上下文窗口大小不是固定的,它根據(jù)單詞出現(xiàn)的次數(shù)的不同而變化;然后根據(jù)一些已知的互譯詞對(duì)完成源語(yǔ)言向量到目標(biāo)語(yǔ)言向量的映射;接著在目標(biāo)語(yǔ)言向量空間中將轉(zhuǎn)換后的向量與目標(biāo)語(yǔ)言中所有單詞的向量計(jì)算相似度并排序;最終根據(jù)排序結(jié)果獲取候選翻譯,從而獲得雙語(yǔ)詞典。由于向量空間模型的原理較為簡(jiǎn)單,因此許多研究者利用已知的多語(yǔ)種互譯詞對(duì)以及高可比性的語(yǔ)料等外部資源對(duì)該模型進(jìn)行了一系列的優(yōu)化和改進(jìn),并將其應(yīng)用于各種特定的自然語(yǔ)言處理任務(wù)中。
(4)Mikolov等人[11]提出的基于詞向量的算法。Mikolov等人于2013年提出了一種將單詞進(jìn)行向量化表示的方式,具體做法是利用神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型以及Google海量的語(yǔ)料庫(kù)將單詞訓(xùn)練成為一個(gè)低維的實(shí)數(shù)向量。同時(shí),他利用這種方式將兩種語(yǔ)言的語(yǔ)料庫(kù)中的單詞分別表示成詞向量,從而構(gòu)成了源語(yǔ)言和目標(biāo)語(yǔ)言向量空間,并證明了兩個(gè)向量空間之間存在線性關(guān)系?;诖耍ㄟ^(guò)訓(xùn)練一個(gè)線性轉(zhuǎn)換矩陣實(shí)現(xiàn)了從源語(yǔ)言向量空間到目標(biāo)語(yǔ)言向量空間的轉(zhuǎn)換,最后計(jì)算詞向量之間的相似度通過(guò)相似度排名來(lái)完成雙語(yǔ)詞典的提取工作。實(shí)驗(yàn)表明,與其他抽取算法相比,其抽取準(zhǔn)確率有了較大幅度的提升。
根據(jù)2.1節(jié)所描述的基本假設(shè),我們將單詞之間的相關(guān)性作為區(qū)分單詞的重要特征,提出了一種基于詞向量利用詞語(yǔ)間關(guān)系進(jìn)行可比語(yǔ)料庫(kù)中雙語(yǔ)詞典抽取的方法。其基本思路是:
(1)將源語(yǔ)言和目標(biāo)語(yǔ)言語(yǔ)料庫(kù)中的詞語(yǔ)訓(xùn)練成詞向量;
(2)將(1)中轉(zhuǎn)換后得到的詞向量結(jié)合已知的種子詞典構(gòu)建詞間關(guān)系矩陣,從而使源語(yǔ)言與目標(biāo)語(yǔ)言關(guān)聯(lián)起來(lái);
(3)計(jì)算(2)中源語(yǔ)言單詞與目標(biāo)語(yǔ)言單詞之間的詞間關(guān)系向量的相似度,獲得兩種語(yǔ)言中兩個(gè)單詞之間互譯程度的量化結(jié)果;
(4)對(duì)相似度進(jìn)行排序,選取相似度最大的前N個(gè)單詞作為源語(yǔ)言中該單詞的翻譯候選集合。
算法具體流程如圖1所示。
Figure 1 Bilingual lexicon extraction based on words’ correlation 圖1 基于詞間關(guān)系的雙語(yǔ)詞典抽取
如圖1所示,該抽取算法的具體步驟如下:
(1)從通用雙語(yǔ)詞典中抽取種子詞。設(shè)種子詞對(duì)的數(shù)量為n,則形成的種子集合表示為{wsi,wti},i∈{1,2,…,n},ws為源語(yǔ)言單詞,wt為ws在目標(biāo)語(yǔ)言中對(duì)應(yīng)的翻譯,i為單詞ws在種子詞典中的索引。
(2)通過(guò)已構(gòu)建的源語(yǔ)言詞向量構(gòu)建源語(yǔ)言語(yǔ)料中每個(gè)單詞與種子詞典中源語(yǔ)言單詞的相關(guān)度。設(shè)種子詞典中的單詞對(duì)數(shù)目為k,源語(yǔ)言語(yǔ)料庫(kù)中單詞的詞向量為n維,則種子詞典中源語(yǔ)言單詞集合可表示為{ws1,ws2,…,wsk},其對(duì)應(yīng)的詞向量表示為{vs1,vs2,…,vsk},vsi∈Rm,i∈{1,2,…,k}。對(duì)于源語(yǔ)言語(yǔ)料庫(kù)中的某一個(gè)測(cè)試單詞wsx及其對(duì)應(yīng)的詞向量表示vsx(vsx∈Rm),其與種子詞語(yǔ)集合中的每個(gè)詞語(yǔ)相關(guān)度量化表示如下:
M(vsx,vsi)=∑1 j∈{1,2,…,k} (1) 其中,vsi∈{vs1,vs2,…,vsk},vsxj和vsij分別表示詞向量vsx和vsi的第j維分量。 假設(shè)上述計(jì)算完成后得到的未知單詞wsx與種子詞語(yǔ)集合的相關(guān)度向量用vms表示,其中vms第j維分量的值即表示其與源語(yǔ)言種子詞語(yǔ)集合中下標(biāo)索引值為j的源語(yǔ)言詞語(yǔ)的相關(guān)度值,且vms∈Rk。 (3)通過(guò)已構(gòu)建的目標(biāo)語(yǔ)言詞向量構(gòu)建目標(biāo)語(yǔ)言語(yǔ)料中每個(gè)單詞與種子詞典中目標(biāo)語(yǔ)單詞的相關(guān)度。設(shè)與源語(yǔ)言使用相同的種子詞典,且目標(biāo)語(yǔ)言語(yǔ)料庫(kù)中單詞的詞向量為m維,則種子詞典中源語(yǔ)言單詞集合可表示為{wt1,wt2,…,wtk},其對(duì)應(yīng)的詞向量表示為{vt1,vt2,…,vtk},vti∈Rn,i∈{1,2,…,k}。對(duì)于目標(biāo)語(yǔ)言語(yǔ)料庫(kù)中的某一個(gè)未知單詞wtx及其對(duì)應(yīng)的詞向量vtx(vtx∈Rn),其與種子詞語(yǔ)集合中的每個(gè)詞語(yǔ)相關(guān)度量化表示與源語(yǔ)言相同。 同樣假設(shè)計(jì)算后得到的未知詞語(yǔ)wtx與種子詞語(yǔ)集合的相關(guān)度向量用vmt表示,其中第j維分量的值即表示其與目標(biāo)語(yǔ)言種子詞語(yǔ)集合中下標(biāo)索引值為j的目標(biāo)語(yǔ)言詞語(yǔ)的相關(guān)度值,且vmt∈Rk。最終將目標(biāo)語(yǔ)言語(yǔ)料庫(kù)中的每個(gè)單詞都計(jì)算過(guò)后即可形成目標(biāo)語(yǔ)言詞間關(guān)系矩陣。 (4)根據(jù)(3)中得到的目標(biāo)語(yǔ)言詞間關(guān)系矩陣,計(jì)算源語(yǔ)言詞間關(guān)系向量vms與目標(biāo)語(yǔ)言詞間關(guān)系向量vmt的相似度。根據(jù)其相似度的大小來(lái)判斷二者之間是否為互譯關(guān)系,相似度越大,其被視為互為翻譯的可能性越大。本文采用了夾角余弦公式計(jì)算兩個(gè)向量之間的相似度,其計(jì)算公式如下: (2) 其中,vmsi是指源語(yǔ)言單詞在第i維上的分量,vmti是指目標(biāo)語(yǔ)言單詞在第i維上的分量,m是指該源語(yǔ)言單詞與目標(biāo)語(yǔ)言單詞都有分量的維數(shù),n指源語(yǔ)言單詞有分量的維數(shù)。 《資治通鑒》選取史料固然嚴(yán)謹(jǐn),但也存在瑕疵。如何決定材料與記錄的真實(shí)可靠,往往不可依據(jù)權(quán)威,而要看材料是否原始。如果有幾種相關(guān)紀(jì)錄,可以通過(guò)對(duì)照比勘看出問(wèn)題。對(duì)于非正史材料,應(yīng)該謹(jǐn)慎地考察,沒(méi)有實(shí)據(jù),不如用既有材料。唐史史料基本可以追索淵源,不必臆斷。在有確實(shí)可依的史料時(shí),我們依據(jù)最初記錄,這是比較可靠的。 (5)對(duì)上述得到的相似度進(jìn)行排序,選取前N個(gè)詞語(yǔ)作為源語(yǔ)言單詞wsx的候選翻譯集合,最終完成雙語(yǔ)詞典的提取。 我們的實(shí)驗(yàn)選擇英文和法文兩個(gè)語(yǔ)種,并將英文作為源語(yǔ)言,法文作為目標(biāo)語(yǔ)言。考慮到語(yǔ)料收集的難度,我們使用跨語(yǔ)言信息檢索論壇(http://www.clef-campaign.org)上的相關(guān)信息作為實(shí)驗(yàn)語(yǔ)料,語(yǔ)料庫(kù)的具體規(guī)模如表1所示。 此外,訓(xùn)練詞典也是本文實(shí)驗(yàn)中的一項(xiàng)重要資源,本文實(shí)驗(yàn)中使用的詞典來(lái)源于Google翻譯[12],具體介紹如表2所示。 Table 1 Experimental corpus Table 2 Training dictionary size 本文實(shí)驗(yàn)首先需要對(duì)語(yǔ)料庫(kù)進(jìn)行預(yù)處理。其中主要的預(yù)處理工作包括: (1)去除文本中無(wú)用的特殊符號(hào); (2)根據(jù)指定停用詞詞表去除文本中停用詞; (3)因?yàn)楸緦?shí)驗(yàn)只采用語(yǔ)料庫(kù)中特定詞性的單詞,因此需要對(duì)源語(yǔ)言和目標(biāo)語(yǔ)言語(yǔ)料庫(kù)中的所有詞語(yǔ)做詞根還原以及詞性標(biāo)注工作; 然后,需要對(duì)語(yǔ)料庫(kù)中的詞語(yǔ)構(gòu)建詞向量。本文首先將語(yǔ)料庫(kù)以句子為單位進(jìn)行切分整合,然后利用Mikolov等人[13]提出的Word2vec工具分別對(duì)兩種語(yǔ)言的詞語(yǔ)構(gòu)建詞向量。此外,為了得到更佳的詞向量訓(xùn)練效果,在構(gòu)建詞向量時(shí),我們將源語(yǔ)言的詞向量空間和目標(biāo)語(yǔ)言詞向量空間設(shè)定不同的維度值,最終訓(xùn)練完成后得到兩種語(yǔ)言中詞語(yǔ)的詞向量。 最后,通過(guò)計(jì)算兩個(gè)向量之間的相似度,來(lái)得到對(duì)應(yīng)的兩個(gè)單詞之間的相關(guān)性程度。計(jì)算兩個(gè)K維向量空間中的詞向量vs和vt的相似度,在許多實(shí)際應(yīng)用中常常采用余弦?jiàn)A角公式,假設(shè)使用vsi和vti表示詞向量vs和vt在第i維的分量,則其計(jì)算公式可以表示為: (3) 同時(shí),本文將傳統(tǒng)的向量空間模型VSM(Vector Space Model)與基于詞向量的詞間關(guān)系模型WVR(Word Vector Relation)進(jìn)行對(duì)比實(shí)驗(yàn)。首先將兩種模型的整體抽取效果進(jìn)行了對(duì)比,然后分析了上下文窗口大小、詞典大小、詞頻等因素對(duì)兩種模型最終抽取準(zhǔn)確率的影響。 我們用P@N(前N個(gè)候選翻譯的準(zhǔn)確率)作為評(píng)價(jià)指標(biāo),其計(jì)算公式如下: (4) 其中,RT為抽取結(jié)果中源語(yǔ)言單詞的數(shù)目,即在實(shí)驗(yàn)中表示的是測(cè)試詞典的大小;T(wi)是指抽取算法在單詞wi上的抽取結(jié)果;d(wi)表示單詞wi在詞典中的翻譯集合?!琒‖是指集合S是否為空,為空則其值為0,否則其值為1。 首先,本文實(shí)驗(yàn)對(duì)比了VSM和WVR兩種模型的整體抽取效果,實(shí)驗(yàn)過(guò)程中我們使用默認(rèn)參數(shù)(即上下文窗口取10,詞頻為全部詞語(yǔ)),其實(shí)驗(yàn)結(jié)果如圖2所示。 Figure 2 Extract results of VSM model and WVR model圖2 VSM模型和WVR模型的抽取結(jié)果 如圖2所示,當(dāng)使用默認(rèn)參數(shù)時(shí),在不同N值下,WVR模型的準(zhǔn)確率相較于VSM模型均有一定的提升,如WVR的P@1約為7.5%,較VSM(3.1%)有著極大的優(yōu)勢(shì)。在實(shí)際應(yīng)用中,P@1的性能越好越有利于后續(xù)任務(wù)的推進(jìn),也就具有更高的實(shí)際應(yīng)用意義。 除了整體準(zhǔn)確率的比較,我們通過(guò)對(duì)以往相關(guān)文獻(xiàn)的梳理和總結(jié),發(fā)現(xiàn)上下文窗口大小、種子詞典、詞頻等因素都會(huì)對(duì)抽取結(jié)果產(chǎn)生一定的影響。因此,下面將對(duì)這幾個(gè)因素逐一進(jìn)行分析。 首先,對(duì)于上下文窗口而言,其主要影響的是單詞的表達(dá)形式及其有效性。比如在VSM模型中,窗口選擇太小會(huì)影響單詞的上下文環(huán)境,其上下文向量不能完整表達(dá)該單詞的語(yǔ)義特征;窗口選擇太大又會(huì)出現(xiàn)語(yǔ)義冗余,引入太多噪音產(chǎn)生了語(yǔ)義干擾;而對(duì)于WVR模型,窗口的大小不同會(huì)影響詞向量的表達(dá)形式,進(jìn)而影響詞語(yǔ)之間的相關(guān)性的量化。因此,將上下文窗口的大小作為變量,其他參數(shù)設(shè)為默認(rèn)參數(shù)(即N取20,詞頻為全部詞頻),則上下文窗口對(duì)VSM和WVR兩種模型最終抽取準(zhǔn)確率的影響如圖3所示。 Figure 3 Effect of window size on the result of the extraction圖3 窗口大小對(duì)抽取結(jié)果的影響 如圖3所示,上下文窗口對(duì)詞典抽取的準(zhǔn)確率具有較大的影響。在初始階段,VSM和WVR模型的準(zhǔn)確率均隨著窗口的增大呈現(xiàn)增大的趨勢(shì);當(dāng)窗口大小達(dá)到10之后,WVR的準(zhǔn)確率在最優(yōu)值附近波動(dòng),趨于穩(wěn)定狀態(tài);而VSM的準(zhǔn)確率反而有所下降。造成這種情況的原因可能是VSM的窗口過(guò)大引入了過(guò)多無(wú)用信息,從而影響抽取的準(zhǔn)確率,而WVR中窗口大到一定程度后對(duì)其詞向量的表達(dá)影響變小。 其次,種子詞典是從源語(yǔ)言到目標(biāo)語(yǔ)言轉(zhuǎn)換的中間橋梁,其大小對(duì)抽取的準(zhǔn)確率也有著不容忽視的影響。實(shí)驗(yàn)中將種子詞典按比例進(jìn)行劃分,其中0.1代表種子詞典的1/10,1.0則代表整個(gè)種子詞典。實(shí)驗(yàn)結(jié)果如圖4所示。從圖4中可以看出,隨著詞典的增大,兩種模型的準(zhǔn)確率有著不同程度的提升,在種子詞典達(dá)到原始種子詞典的30%(大約3 000)時(shí),WVR的抽取效果達(dá)到最優(yōu)值并趨于穩(wěn)定狀態(tài),并且其最優(yōu)值明顯高于VSM的。由此可見(jiàn),相較于VSM模型,WVR的抽取效果受種子詞典的影響更小,并且用一個(gè)較小的種子詞典便可完成跨語(yǔ)言空間的轉(zhuǎn)換,從而取得較好的抽取效果。 Figure 4 Effects of seed dictionary size圖4 種子詞典大小對(duì)抽取結(jié)果的影響 最后,為了評(píng)估詞頻對(duì)抽取效果的影響,本文將測(cè)試單詞按照詞頻大小分為高頻詞、中頻詞和低頻詞三個(gè)詞段。假設(shè)wTF表示詞頻,則具體劃分標(biāo)準(zhǔn)為: 如圖5所示,在低頻詞段VSM的抽取效果略好于WVR,但隨著詞頻的增大,WVR的抽取效果明顯比VSM更好,尤其在高頻詞段,WVR的抽取效果有顯著的提升,同時(shí)也表明WVR方法更適合運(yùn)用于高頻詞的雙語(yǔ)詞典的抽取。 Figure 5 Effects of word frequency圖5 詞頻對(duì)抽取結(jié)果的影響 本文提出了一種基于可比語(yǔ)料庫(kù)與詞向量的雙語(yǔ)詞典抽取方法,該方法首先利用Word2vec工具從可比語(yǔ)料庫(kù)中構(gòu)建詞向量,然后以種子詞典為中間橋梁,構(gòu)建詞間關(guān)系矩陣,從而評(píng)估不同語(yǔ)種之間單詞的相關(guān)性,最終獲取雙語(yǔ)詞典。同時(shí),本文將傳統(tǒng)的向量空間模型作為參考,進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)表明,相較于基本模型,該算法的整體抽取效果在一定范圍內(nèi)有著較為顯著的提升。同時(shí),還通過(guò)實(shí)驗(yàn)分析了上下文窗口大小、種子詞典大小和詞頻對(duì)抽取效果的影響,我們發(fā)現(xiàn),上下文窗口大小在一定程度上對(duì)兩種模型都有較大的影響,當(dāng)窗口達(dá)到一定值時(shí),詞間關(guān)系模型的準(zhǔn)確率達(dá)到一個(gè)最優(yōu)值并趨于穩(wěn)定狀態(tài);對(duì)于較高詞頻的單詞,詞間關(guān)系模型的抽取準(zhǔn)確率明顯高于基本模型;而種子詞典對(duì)兩種模型的影響也是不同的,當(dāng)詞典較小時(shí),詞間關(guān)系模型就可以完成跨語(yǔ)言空間的轉(zhuǎn)換,從而獲取雙語(yǔ)詞典,其抽取效果明顯好于基本模型。雖然本文提出的模型在準(zhǔn)確率上有顯著的提升,但實(shí)驗(yàn)過(guò)程中也發(fā)現(xiàn)了一些不足之處,如語(yǔ)料庫(kù)中無(wú)用信息過(guò)多等。因此,下一步研究方向?qū)⒓性谌绾潍@取具有高可比度的語(yǔ)料庫(kù)上,以進(jìn)一步提高雙語(yǔ)詞典的抽取效果。 [1] Miangah T M.Automatic term extraction for cross-language information retrieval using a bilingual parallel corpus[C]∥Proc of the 6th International Conference on Informatics and Systems Special Track on Natural Language Processing,2008:81-84. [2] Veskis K. Generation of bilingual lexicons from a parallel corpus[J].Eesti Rakenduslingvistika Uhingu Aastaraamat,2007(3):355-372. [3] Sun Le. Automatic extraction of bilingual term lexicon from parallel corpora[J].Journal of Chinese Information Processing,2000,14(6):33-39.(in Chinese) [4] Tamura A, Watanabe T,Sumita E.Bilingual lexicon extraction from comparable corpora using label propagation[C]∥Proc of Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning,2012:24-36. [5] Fung P, Mckeown K.Finding terminology translations from non-parallel corpora[C]∥Proc of Annual Workshop on Very Large Corpora,1997:192-202. [6] Turian J, Ratinov L,Bengio Y.Word representations:A simple and general method for semi-supervised learning[C]∥Proc of the 48th Annual Meeting of the Association for Computational Linguistics,2010:384-394. [7] Rapp R. Identifying word translations in non-parallel texts[C]∥Proc of the 33rd Annual Meeting on Association for Computational Linguistics,1995:320-322. [8] Tanaka K,Umemura K.Construction of a bilingual dictionary intermediated by a third language[C]∥Proc of the 15th Conference on Computational Linguistics,1994:297-303. [9] Rapp R.Automatic identification of word translations from unrelated English and German corpora[C]∥Proc of the 37th Annual Meeting of the Association for Computational Linguistics on Computational Linguistics,1999:519-526. [10] Fung P.Compiling bilingual lexicon entries from a non-parallel English-Chinese corpus[C]∥Proc of the 3rd Workshop on Very Large Corpora,2010:173-183. [11] Mikolov T, Le Q V,Sutskever I.Exploiting similarities among languages for machine translation[J].arXiv preprint arXiv,2013:1309-4168. [12] http://translate.google.cn/. [13] Mikolov T.Word2vec project[EB/OL].[2014-11-10].https://code.google.com/p/ word2vec/. 附中文參考文獻(xiàn): [3] 孫樂(lè).平行語(yǔ)料庫(kù)中雙語(yǔ)術(shù)語(yǔ)詞典的自動(dòng)抽取[J].中文信息學(xué)報(bào),2000,14(6):33-39.4 實(shí)驗(yàn)與結(jié)果分析
4.1 實(shí)驗(yàn)數(shù)據(jù)與設(shè)計(jì)
4.2 實(shí)驗(yàn)結(jié)果與分析
5 結(jié)束語(yǔ)