馬建軍 田思琪
關(guān)鍵詞:語義缺?。粰C(jī)器翻譯;世界知識
1引言
自然語言中存在無數(shù)被我們省略的背景知識,即存在語義缺省現(xiàn)象。語義缺省是一種特殊的省略現(xiàn)象,在形式上表現(xiàn)為語義空位。人類使用的大部分句子中都存在語義缺省,缺省的內(nèi)容就是人們熟知的世界知識。世界知識是在語言研究中,幫助讀者或聽眾解釋單詞和句子含義的非語言信息,也被稱為語言外知識。機(jī)器若要完全理解人類語言表達(dá)背后的意思,就必須以某種方式“發(fā)現(xiàn)”人們在語言交流中假定和省略的一切。
研究者一直以來從不同角度研究機(jī)器翻譯質(zhì)量和語義缺省。有學(xué)者聚焦機(jī)器訓(xùn)練語料的數(shù)量對機(jī)器翻譯質(zhì)量的影響,也有學(xué)者從翻譯者的角度立足語用推理、語境分析等試圖通過譯后分析提高翻譯質(zhì)量,更有大量學(xué)者關(guān)注語義缺省的現(xiàn)象,分析語義缺省特別是文化上的語義缺省對譯員的影響,但幾乎沒有文章研究語義缺省現(xiàn)象對機(jī)器翻譯的影響。
因此,本文選擇語義缺省較多的新聞標(biāo)題作為研究語料,以Jaszczolt的缺省語義學(xué)理論為指導(dǎo),研究語義缺省現(xiàn)象對機(jī)器翻譯質(zhì)量的影響。研究進(jìn)一步完善語義缺省框架;選擇百度翻譯作為機(jī)器翻譯系統(tǒng),比較加入世界知識前后的英文標(biāo)題的機(jī)器翻譯結(jié)果來分析語義缺省對機(jī)器翻譯的影響:提出補(bǔ)充世界知識的方法,從而進(jìn)一步提高機(jī)器翻譯質(zhì)量。
本研究旨在解決以下三個問題:(1)英語新聞標(biāo)題中都存在哪些語義缺省?(2)語義缺省是否影響機(jī)器翻譯質(zhì)量?如果有影響,如何影響?(3)如何補(bǔ)充世界知識改善機(jī)器翻譯質(zhì)量?
2語義缺省理論框架
Jaszczolt把語義缺省區(qū)分為認(rèn)知缺省和社會文化缺省兩種基本類型。認(rèn)知缺省的信息是同一語言社團(tuán)共享知識的默認(rèn)值,當(dāng)跨語言社團(tuán)成員對同一概念的意義可能產(chǎn)生認(rèn)知變異日寸,原文的缺省值需要在譯語中轉(zhuǎn)化為必要值。社會文化缺省是說話人在與其意向受眾交流時對雙方共有的相關(guān)文化背景知識的省略,但被隱去的語用值又可能是異域受體的期待信息。本文結(jié)合新聞?wù)Z料以及Saba列舉的語義缺省的例子,在Jaszczolt的缺省語義學(xué)基礎(chǔ)上,根據(jù)引起語義缺省的因素,對認(rèn)知缺省和社會文化缺省進(jìn)一步分類。認(rèn)知缺省從詞匯和句法兩個層面分析引起缺省的因素,而社會文化缺省則從詞匯和修辭兩個層面分析。對每一個層面都概括了引起語義缺省的主要因素,具體分類如圖1所示。
詞匯層面引起語義缺省的主要因素是多義詞:句法層面的主要因素包括隱藏關(guān)系和回指:而修辭層面的主要因素包括隱喻和轉(zhuǎn)喻[2]。各缺省因素具體定義如下。
多義詞:當(dāng)一個詞或句子有一個以上的意義視為多義詞,主要是因?yàn)榫渥又械耐粋€詞有幾種不同的意義或理解而引起的。
隱藏關(guān)系:指隱藏的句法關(guān)系,包括并列、主謂、修飾和介詞短語附著等關(guān)系。并列關(guān)系指的是由連詞and或or等將兩個或兩個以上句子成分(如短語或小句)連接起來,這些句子成分在語法地位上沒有主次之分。
回指:一般情況下,如果同一個項(xiàng)目連續(xù)多次出現(xiàn),就用同一個代詞而不重復(fù)用同一個名詞來指代它。代詞一般代表名詞短語,但也可以代表動詞短語、整個句子或段落[3]。
暗喻:表示一種物體或概念的詞以及短語代替另一種物體或概念,以暗示它們之間的相似性或類比性。
轉(zhuǎn)喻:指一個事物或概念是由與該事物或概念密切相關(guān)的事物的名稱來指代。
3研究設(shè)計(jì)
3.1研究語料
考慮到新聞標(biāo)題簡潔生動的特點(diǎn),本文從《中國日報(bào)》中文版和英文版中選取平行語料。從2020年9月19日~ 2022年4月6日共有1067條雙語新聞標(biāo)題,選擇英文標(biāo)題做翻譯語料,其中中文標(biāo)題作為參考來衡量機(jī)器翻譯的質(zhì)量。隨后,在清洗語料的過程中,刪除非平行語料新聞83條,不含缺省的新聞484條,最終得到含語義缺省的新聞標(biāo)題對500條,缺省比例47%,如表1所列。新聞內(nèi)容主要涵蓋經(jīng)濟(jì)、政治等話題。
3.2數(shù)據(jù)分析
結(jié)合語義缺省理論框架(圖1)對語料中的語義缺省現(xiàn)象進(jìn)行詳細(xì)分類[4]。為了盡量減少任意性的風(fēng)險(xiǎn)并保證結(jié)果的可靠性,項(xiàng)目組邀請了研究人員以外的第二位語料標(biāo)注者對語料進(jìn)行二次劃分,針對不一致的語料標(biāo)注進(jìn)行充分討論,最終得出相關(guān)分類結(jié)果。
之后,選擇目前國內(nèi)使用率較高的百度翻譯作為機(jī)器翻譯系統(tǒng),實(shí)驗(yàn)方法是將英文標(biāo)題原語(記為ST1)放人百度翻譯中得到第一版中文譯文(記為TT1),再將缺省的世界知識補(bǔ)充進(jìn)原句中,將補(bǔ)充好世界知識的英文語料(記為ST2)再次放入機(jī)器翻譯中,得到第二版中文譯文(記為TT2),將加入世界知識前后的兩版機(jī)器翻譯結(jié)果與《中國日報(bào)》(雙語)中給出的中文標(biāo)題(記為REF)進(jìn)行對比,總結(jié)語料中世界知識的出現(xiàn)是否會影響機(jī)器翻譯質(zhì)量。語料統(tǒng)計(jì)結(jié)果使用SPSS 25.0中文版進(jìn)行獨(dú)立T檢驗(yàn)[5]。
4結(jié)果和討論
4.1新聞標(biāo)題中的語義缺省類型
《中國日報(bào)》英文新聞標(biāo)題中的語義缺省類型如表2所列。表2表明,語義缺省現(xiàn)象涵蓋各種類型。其中,認(rèn)知缺省現(xiàn)象占比57%,而社會文化缺省占比43%。這說明認(rèn)知缺省和社會文化缺省在新聞標(biāo)題的缺省中具有同等研究地位,不可忽視[6]。
從影響缺省的因素來看,多義詞導(dǎo)致的缺省是最多的,共占比63%,其中多義詞導(dǎo)致的認(rèn)知缺省占比26%,其導(dǎo)致的社會文化缺省占比37%。研究表明,多義詞導(dǎo)致認(rèn)知缺省主要是由于絕大多數(shù)詞匯,尤其是名詞和動詞,都具有不止一個常用義項(xiàng),而社會文化缺省中的多義詞主要在于新詞和社會機(jī)構(gòu)縮略語。
其次是隱藏關(guān)系,占比23%。表3進(jìn)一步分析了各種隱藏關(guān)系,其中主謂關(guān)系比例最高,占隱藏關(guān)系中的62%,其次是修飾關(guān)系,占比34%,而并列關(guān)系和介詞短語附著占比很低,各占比1%和3%。研究表明,為了以最少的篇幅傳遞最多的信息,新聞標(biāo)題多用介詞和數(shù)詞,選擇省略部分動詞或者名詞,因此隱藏了主謂關(guān)系或修飾關(guān)系。比如,例1隱藏了并列關(guān)系,該句前后兩部分是并列關(guān)系,“and”被省略[7]。例1(并列關(guān)系):Young people spend so long staring atscreens(and) half may need glasses in 30 (2021-10-18)
占比較少的是回指、轉(zhuǎn)喻和隱喻,其中回指和轉(zhuǎn)喻分別占比7%和5%,而隱喻是最少的,僅占比1%。其主要原因是受限于新聞標(biāo)題的體裁。回指較少是由于新聞標(biāo)題內(nèi)容精煉,一句話中需要反復(fù)提及同一個詞語的情況鮮少出現(xiàn):而隱喻和轉(zhuǎn)喻作為修辭手法,雖然生活中隨處可見,但是新聞標(biāo)題講求高效客觀傳達(dá)信息,因此語料中也并不多見。比如,例2中“it”指前文描述的“藝術(shù)家攜款逃跑的現(xiàn)象”,而不是“money”。例2(回指):Danish artist takes museum'smoney and runs,
calls it(this phenomenon)
art( 2021-09-29)
4.2缺省世界知識對機(jī)器翻譯質(zhì)量的影響
通過比較加入世界知識前后譯文的質(zhì)量,可以分析語義缺省現(xiàn)象對機(jī)器翻譯質(zhì)量的影響。表4說明了加人世界知識前后譯文的翻譯正確率,TTI指的是ST1(缺省世界知識)的譯文,TT2則是ST2(補(bǔ)充世界知識)的譯文。統(tǒng)計(jì)結(jié)果顯示,兩版譯文有顯著差異(p=0.0009<0.05),表明補(bǔ)充世界知識和機(jī)器翻譯正確率之間的關(guān)系有統(tǒng)計(jì)學(xué)意義,即各類缺省中世界知識的補(bǔ)充都能提升機(jī)器翻譯質(zhì)量[8]。
表5詳細(xì)分析了補(bǔ)充世界知識對機(jī)器翻譯結(jié)果的影響情況,總體來看,通過補(bǔ)充世界知識,各類別機(jī)器翻譯錯誤情況都有所改觀,并且不存在加入世界知識后翻譯由正確變?yōu)殄e誤的情況。其中,42. 6%的語料在補(bǔ)充世界知識后機(jī)器翻譯結(jié)果從錯誤變成正確,說明這些語義缺省現(xiàn)象是影響機(jī)器翻譯質(zhì)量的主要原因:52.2%的語料在加人世界知識前后翻譯結(jié)果均正確,說明某些語義缺省現(xiàn)象并沒有影響機(jī)器翻譯結(jié)果:而仍有5.2%的語料在加人世界知識后翻譯結(jié)果仍然錯誤,說明影響機(jī)器翻譯的因素較為復(fù)雜,語義缺省可能不是唯一的影響因素。
4.3機(jī)器翻譯中對世界知識補(bǔ)充的建議
由于多義詞中的縮略語和回指導(dǎo)致的缺省,主謂關(guān)系中因果關(guān)系的缺省,修飾關(guān)系中數(shù)字后名詞的缺省和并列關(guān)系中中英文缺省習(xí)慣一致,同樣不需要額外補(bǔ)充世界知識也能得到準(zhǔn)確翻譯[9-10]。
另外,在需要補(bǔ)充的各類缺省情況中,本文將從補(bǔ)充世界知識的難度的角度進(jìn)行分類建議。對于機(jī)器來說,可以通過添加功能詞或者上下文實(shí)詞的搭配完成世界知識的補(bǔ)充。多義詞中的轉(zhuǎn)義詞特別是名詞可以通過添加上下義的名詞進(jìn)行補(bǔ)充,從而明確詞義。而多義詞的其他情況、隱藏關(guān)系中主謂關(guān)系、修飾關(guān)系和介詞短語附著關(guān)系以及隱喻,由于補(bǔ)充的世界知識多為動詞名詞等實(shí)詞,需要總結(jié)推理才能得出結(jié)果,人工補(bǔ)充尚且有歧義,對于機(jī)器而言難度就更大。并且,多義詞引起的缺省占比最大,存在補(bǔ)充世界知識后機(jī)器翻譯的結(jié)果依然錯誤的情況。
5結(jié)束語
本文基于Jaszczolt對語義缺省的分類理論,結(jié)合基礎(chǔ)語法和Saba博士對于世界知識的舉例,進(jìn)一步完善了語義缺省的框架,并針對英語新聞標(biāo)題中的語義缺省以及世界知識的補(bǔ)充進(jìn)行了討論。本文發(fā)現(xiàn),在各類缺省中,多義詞對機(jī)器翻譯的影響最為明顯,相比之下,其他類別的缺省基本都可以通過加入相應(yīng)世界知識得到正確的翻譯。
對于機(jī)器翻譯由于缺省導(dǎo)致的多義詞現(xiàn)象,應(yīng)加入范疇類或搭配類世界知識使含義顯性化:而對于句法中隱藏關(guān)系的缺省現(xiàn)象、介詞短語附著和回指,則應(yīng)添加動詞分詞形式或不定式將隱藏的關(guān)系展現(xiàn)出來:修辭層面的轉(zhuǎn)喻和隱喻則應(yīng)結(jié)合語境添加相應(yīng)的名詞或者動詞分詞形式。還有一部分缺省,如并列,由于中英文缺省習(xí)慣一致,所以即使句子中存在缺省現(xiàn)象,也不影響機(jī)器翻譯結(jié)果。絕大多數(shù)機(jī)器翻譯不通順的句子在加人世界知識后都可以變得更加流暢通順,這是因?yàn)槭澜缰R將相關(guān)詞匯更為明顯地連接了起來,使得原本隱藏在句子下的關(guān)系變得清晰透明。
計(jì)算機(jī)應(yīng)用文摘·觸控2023年1期