歷史文化文本翻譯記憶庫(kù)建設(shè)研究
——浙江文化走出去之良渚文化綜論英譯為例

2021-11-12 09:30:54祝曉東

散文百家 2021年6期

王璟祝曉東

浙江外國(guó)語學(xué)院；寧波城市職業(yè)技術(shù)學(xué)院

鑒于良渚文化之于中華文明的重要性，中國(guó)政府正式推薦“良渚古城遺址”作為2019年世界文化遺產(chǎn)申報(bào)項(xiàng)目，并在同年7月6日正式成功通過立項(xiàng)。這意味著良渚文化在世界的影響會(huì)越來越大，浙江省文化廳的浙江文化工程項(xiàng)目專門重點(diǎn)規(guī)劃了一系列良渚文化叢書的外譯計(jì)劃，原著《神巫的世界:良渚文化綜論》是該系列叢書中最具特色的代表之一，本書從考古案例回顧了良渚文化發(fā)現(xiàn)與研究的歷史，同時(shí)通過對(duì)玉器反映的精神內(nèi)涵解讀巫術(shù)在當(dāng)時(shí)社會(huì)的巨大影響力。隨著浙江文化走向世界活動(dòng)的不斷開展，越來越多的良渚文化相關(guān)作品需要向世界宣傳，翻譯質(zhì)量上也會(huì)有更高要求。

一、研究目標(biāo)

在當(dāng)前大數(shù)據(jù)人工智能時(shí)代，大量信息化技術(shù)手段已經(jīng)開始應(yīng)用到翻譯領(lǐng)域。其中最具有代表性的是機(jī)器翻譯和計(jì)算機(jī)記憶翻譯技術(shù)。翻譯記憶工具可以讓譯者循環(huán)利用以前的譯文來提高翻譯工作效率和保證翻譯的一致性。然而，如果對(duì)一個(gè)翻譯項(xiàng)目是由若干名各自獨(dú)立的譯者共同合作完成，記憶翻譯工具也不能完全保證翻譯的一致性（不同的譯者使用各種的本地翻譯記憶庫(kù)），這些譯者使用的翻譯記憶庫(kù)，可能會(huì)被不定時(shí)地更新或擴(kuò)充，不能保證數(shù)據(jù)的一致性。本研究的目標(biāo)之一是以一個(gè)具體項(xiàng)目為例，介紹翻譯記憶庫(kù)和語料庫(kù)的建設(shè)過程；另一目標(biāo)是討論一種以集成管理的模式對(duì)記憶庫(kù)進(jìn)行管理的系統(tǒng)，該系統(tǒng)可以使每個(gè)用戶都使用同步一致的實(shí)時(shí)更新的翻譯記憶庫(kù)數(shù)據(jù)。

二、翻譯質(zhì)量的控制

1.當(dāng)前面臨的問題。

翻譯質(zhì)量問題通常是關(guān)于翻譯的準(zhǔn)確性和一致性的問題。質(zhì)量問題可以細(xì)分為三種：翻譯錯(cuò)誤、疏忽錯(cuò)誤和翻譯一致性錯(cuò)誤。翻譯錯(cuò)誤往往是由于譯者缺乏相關(guān)歷史背景知識(shí)造成的。翻譯疏忽錯(cuò)誤通常發(fā)生在語法、拼寫、格式等處，尤其是數(shù)字、天數(shù)、月數(shù)、年數(shù)、日期、錢數(shù)量等等。有時(shí)還會(huì)出現(xiàn)漏譯某段文本，這屬于另外一種疏忽錯(cuò)誤（可以借助常用的雙語對(duì)齊軟件進(jìn)行檢查）。歷史文化作品中翻譯的不一致性也是一種比較常見的錯(cuò)誤。對(duì)于歷史事件的解釋一定要嚴(yán)謹(jǐn)，同樣的意思應(yīng)該用相同的詞來表達(dá)和描述。當(dāng)同一系列作品包含一個(gè)歷史事件時(shí)，對(duì)該歷史事件的描述是通過一部作品內(nèi)部以及多部作品之間的方式錯(cuò)綜復(fù)雜地聯(lián)系在一起。要正確認(rèn)識(shí)和翻譯每一條語句，考慮一部作品和系列叢書的相關(guān)性，確保翻譯的一致性。不一致必然會(huì)妨礙讀者對(duì)內(nèi)容的正確理解。一致性問題同時(shí)也會(huì)影響翻譯工作的效率。譯者參照以前的譯文時(shí)，從許多不同的相關(guān)翻譯中選擇最佳的翻譯是非常困難和費(fèi)時(shí)的。

2.翻譯記憶技術(shù)。

在互聯(lián)網(wǎng)+時(shí)代，各種信息化技術(shù)逐漸應(yīng)用到翻譯過程中，其中最有代表性的技術(shù)就是機(jī)器翻譯和翻譯記憶技術(shù)。翻譯記憶與機(jī)器翻譯經(jīng)常被混為一談，但是這是兩種不同的技術(shù)。機(jī)器翻譯是一種計(jì)算機(jī)完成的自動(dòng)翻譯，是一種正在不斷發(fā)展的技術(shù)，譯文質(zhì)量方面還有許多需要改進(jìn)之處。在大多數(shù)情況下，應(yīng)用機(jī)器翻譯出來的文本需要進(jìn)行人工譯后編輯，全面自動(dòng)化和高質(zhì)量的機(jī)器翻譯還沒有達(dá)到廣泛應(yīng)用的程度。

翻譯記憶技術(shù)的核心是一個(gè)由源語言文本和目標(biāo)語言文本組成的數(shù)據(jù)庫(kù).數(shù)據(jù)以許多條語言對(duì)（源語言-對(duì)應(yīng)目標(biāo)語譯文）的形式組成，這些文本數(shù)據(jù)都是來自于以往翻譯過的文本資源。翻譯記憶庫(kù)是通過將源語言文本和目標(biāo)語言文本分割成片段(通常是句子)來創(chuàng)建的。源語言片段和對(duì)應(yīng)的目標(biāo)語言片段組成一對(duì)一的語句對(duì)存儲(chǔ)在數(shù)據(jù)庫(kù)中。數(shù)據(jù)以TMX3格式（一種開放的針對(duì)翻譯記憶數(shù)據(jù)的XML標(biāo)準(zhǔn)）或其他格式存儲(chǔ)。如新的源語言片段與過去翻譯過的語言片段相同或類似度較高（可以設(shè)定閾值），此時(shí)計(jì)算機(jī)輔助翻譯工具將從數(shù)據(jù)庫(kù)中檢索出對(duì)應(yīng)的目標(biāo)語片段提供給譯者參考和選用。

3.建立翻譯記憶庫(kù)實(shí)例。

下面以《神巫的世界：良渚文化綜論》英譯過程中建設(shè)翻譯記憶庫(kù)和雙語平行語料庫(kù)為例，描述建立翻譯記憶庫(kù)的核心工作過程。通常翻譯記憶庫(kù)可以被視為一種簡(jiǎn)單和初級(jí)的雙語平行語料庫(kù)，本項(xiàng)目在進(jìn)行過程中與漢學(xué)專家（母語為目標(biāo)語的）合作，盡可能獲得恰當(dāng)、正確的譯文，生成準(zhǔn)確的翻譯記憶庫(kù)和術(shù)語庫(kù)，再對(duì)翻譯記憶庫(kù)進(jìn)行深加工，建設(shè)高質(zhì)量的小型良渚文化雙語平行語料庫(kù)。

傳統(tǒng)的雙語平行語料庫(kù)的建設(shè)往往是針對(duì)某一主題，收集篩選譯本、雙語語料對(duì)齊，建立雙語平行語料庫(kù)。翻譯實(shí)踐時(shí)，將已對(duì)齊的語料庫(kù)直接導(dǎo)入翻譯記憶庫(kù)，即可輔助翻譯。而本研究的工作與之不同，首先在翻譯過程中制作高質(zhì)量的目標(biāo)語譯文，生成翻譯記憶庫(kù)（即初級(jí)雙語平行語料庫(kù)），根據(jù)該初級(jí)雙語平行語料庫(kù)可以再進(jìn)一步進(jìn)行深加工，進(jìn)行分詞、分句、分段和標(biāo)注等深加工，最后生成具有更多用途的雙語平行語料庫(kù)。

(1)第三階段，翻譯、生成翻譯記憶庫(kù)。翻譯記憶庫(kù)建設(shè)是從無到有，規(guī)模逐漸增長(zhǎng)的過程。在這一階段的翻譯過程中，會(huì)不斷遇到新的源語言文本，產(chǎn)生新的目標(biāo)語譯文，這些語言對(duì)將同步存入翻譯記憶庫(kù)，如果遇到重復(fù)原語言或者需要修改譯文的情況，新的譯文將覆蓋原記憶庫(kù)里的數(shù)據(jù)。整個(gè)更新過程由軟件自動(dòng)完成。完成了所有雙語語言對(duì)的對(duì)齊，確保沒有出現(xiàn)漏譯，翻譯記憶庫(kù)生成工作便基本完成。

(2)第四階段，對(duì)翻譯記憶庫(kù)進(jìn)行標(biāo)注，生成雙語平行語料庫(kù)。利用工具軟件配合人工對(duì)詞性進(jìn)行標(biāo)注，由于目前還沒有對(duì)句子進(jìn)行標(biāo)注的成熟軟件，句法標(biāo)注基本上還是由人工完成。完成語料標(biāo)注后，雙語平行語料庫(kù)進(jìn)入測(cè)試和評(píng)估，這一系列工作完成后，基礎(chǔ)良渚歷史文化雙語平行語料庫(kù)的建設(shè)基本完成。

后續(xù)研究主要包括該語料庫(kù)的維護(hù)和語料庫(kù)的層次多樣化提升和應(yīng)用工作。

三、集中式翻譯記憶系統(tǒng)關(guān)鍵環(huán)節(jié)

1.系統(tǒng)基本目標(biāo)。

集中式管理方式的翻譯記憶庫(kù)系統(tǒng)，可以通過互聯(lián)網(wǎng)免費(fèi)提供翻譯記憶數(shù)據(jù)，所有譯員都可以訪問系統(tǒng)中的數(shù)據(jù)庫(kù)，并且能夠下載CSV或TMX格式的翻譯記憶數(shù)據(jù)，利用翻譯記憶工具輔助翻譯，該系統(tǒng)還應(yīng)該具有較強(qiáng)的搜索功能和參考功能。

2.數(shù)據(jù)庫(kù)的數(shù)據(jù)類型。

在數(shù)據(jù)庫(kù)中，每條記錄由源語言片段、對(duì)應(yīng)的目標(biāo)語言譯文片段和其他元信息(如標(biāo)題、文章編號(hào)等)組成。數(shù)據(jù)庫(kù)由S=M+N個(gè)記錄組成，其中M代表的是語言對(duì)（源語言-目標(biāo)語）片段數(shù)量，N代表的是源語言片段數(shù)量，其中M>N，意味著對(duì)于相同的源語言片段可能有幾種不同的翻譯目標(biāo)語片段與之對(duì)應(yīng)，不同的語境對(duì)應(yīng)不同的譯文表達(dá)形式。

3.集中式翻譯記憶數(shù)據(jù)庫(kù)的升級(jí)。

任何數(shù)據(jù)都具有時(shí)效性，隨著時(shí)間推移，會(huì)有新的文獻(xiàn)數(shù)據(jù)要添加到數(shù)據(jù)庫(kù)中或?qū)?shù)據(jù)庫(kù)進(jìn)行修改，因此集中翻譯記憶每間隔一段時(shí)間都要進(jìn)行更新升級(jí)。為了編輯集中記憶數(shù)據(jù)庫(kù)中的語句片段，就需要編輯相對(duì)應(yīng)的XML文件。隨著翻譯過程的進(jìn)展，需要添加新的語言對(duì)數(shù)據(jù)到集中翻譯記憶庫(kù)，或添加新的附加基礎(chǔ)數(shù)據(jù)，源語言片段和目標(biāo)語言片段對(duì)應(yīng)的XML文件必須要拷貝到指定的目錄，以供譯者檢索和下載。更新集中記憶庫(kù)的所有工作，從技術(shù)角度來看，就是對(duì)其數(shù)據(jù)進(jìn)行更新，確保用戶同步使用最新的數(shù)據(jù)。用戶可以將翻譯記憶數(shù)據(jù)下載保存為CSV格式或TMX格式，主流翻譯記憶工具軟件都可以使用這些格式的文件。當(dāng)修改或擴(kuò)展數(shù)據(jù)庫(kù)內(nèi)容時(shí)，這些更改將立即反映在可供下載對(duì)應(yīng)的目錄下，所有用戶都可以定期從系統(tǒng)進(jìn)行下載，獲得最新的翻譯記憶數(shù)據(jù)庫(kù)數(shù)據(jù)。各個(gè)用戶定期向數(shù)據(jù)庫(kù)管理人員提交本地翻譯記憶庫(kù)更新內(nèi)容，由管理員進(jìn)行審核和更新集中記憶庫(kù)供譯員共享，具體更新周期可以根據(jù)時(shí)間各個(gè)譯員提交數(shù)據(jù)更新數(shù)量的情況而確定。

4.系統(tǒng)的搜索功能。

用戶能夠直接通過瀏覽器搜索集中翻譯記憶庫(kù)中的內(nèi)容。系統(tǒng)允許翻譯記憶庫(kù)中的數(shù)據(jù)被下載，供翻譯記憶軟件使用，例如SDLTrados等軟件。然而不是所有的譯員正好都有翻譯記憶工具軟件或懂得如何使用這些軟件。而且，使用翻譯記憶工具搜索相似句子，需要建立項(xiàng)目，打開文件進(jìn)行翻譯，設(shè)置語言對(duì)，選擇和導(dǎo)入翻譯記憶數(shù)據(jù)庫(kù)等工作，這一系列操作會(huì)很耽誤時(shí)間。系統(tǒng)需要具有能夠?yàn)樗械挠脩籼峁┖?jiǎn)捷、快速和直接的搜索集中翻譯記憶庫(kù)的功能。這意味著用戶可以不借助任何工具，僅僅依靠互聯(lián)網(wǎng)就可以直接使用集中翻譯記憶庫(kù)。集中翻譯記憶數(shù)據(jù)庫(kù)系統(tǒng)必須提供三種搜索方式：句子、關(guān)鍵詞和規(guī)則表達(dá)式，其中按句子搜索是最常用且和最有效的方法。按句子搜索模式工作時(shí)，系統(tǒng)按用戶提供的搜索語言片段進(jìn)行搜索，最終提供一個(gè)模糊搜索結(jié)果的列表清單（所有高于設(shè)定的相似度閾值的語言片段），每個(gè)選項(xiàng)包括源語言片段和目標(biāo)語言片段，供用戶選擇使用。搜索結(jié)果界面中包括用戶給出的關(guān)鍵搜索片段、搜索到的（源語言片段-目標(biāo)語言片段）語句對(duì)、相關(guān)參考信息（數(shù)據(jù)出處和來源）以及關(guān)鍵搜索片段與結(jié)果的相似度估計(jì)等。

關(guān)鍵搜索語句片段與翻譯記憶數(shù)據(jù)庫(kù)中語言片段的相似度估計(jì)值通常是根據(jù)字符編輯距離進(jìn)行計(jì)算的，統(tǒng)計(jì)最小編輯距離。所謂編輯距離是指從一個(gè)字符串轉(zhuǎn)變成為另外一個(gè)字符串所需要進(jìn)行的編輯次數(shù)（插入、刪除和替換）。字符串編輯距離是當(dāng)前估計(jì)字符串相似度的主流算法之一。在按關(guān)鍵字進(jìn)行搜索時(shí)，系統(tǒng)將顯示源段列表，其中包含與相應(yīng)目標(biāo)段配對(duì)的指定關(guān)鍵字。還可以對(duì)系統(tǒng)提供其他對(duì)集中翻譯記憶庫(kù)檢索的方式，用戶還可以通過正則表達(dá)式搜索以指定要檢索的源文本的模式匹配等。

四、總結(jié)和展望

翻譯的一致性問題一直備受翻譯界的關(guān)注，尤其是對(duì)于術(shù)語準(zhǔn)確性和一致性要求很高的學(xué)術(shù)文章。本文討論了利用翻譯記憶數(shù)據(jù)庫(kù)系統(tǒng)有效解決歷史文化文本翻譯中的不一致性問題。并且列舉了實(shí)例，描述了翻譯記憶庫(kù)建立的一般過程。集中式翻譯記憶數(shù)據(jù)庫(kù)是一種新型的、可以幫助多人合作項(xiàng)目的、解決一致性問題的技術(shù)。以集中管理模式進(jìn)行數(shù)據(jù)管理，翻譯記憶數(shù)據(jù)庫(kù)可以被所有翻譯人員共享。歷史文化文獻(xiàn)通常都是按照某種格式起草的，句子的重復(fù)率很高，計(jì)算機(jī)輔助翻譯在這個(gè)領(lǐng)域有廣闊的應(yīng)用前景。

歷史文化文本翻譯記憶庫(kù)建設(shè)研究——浙江文化走出去之良渚文化綜論英譯為例

一、研究目標(biāo)

二、翻譯質(zhì)量的控制