丁皓
摘 要 計(jì)算機(jī)輔助翻譯的核心——翻譯記憶的積累造就了語(yǔ)料庫(kù)。語(yǔ)料庫(kù)的大小決定了計(jì)算機(jī)輔助翻譯軟件的效能。因此,語(yǔ)料庫(kù)建設(shè)是CAT用戶必做的一門功課。在語(yǔ)料庫(kù)的建設(shè)中,會(huì)遇到句庫(kù)切分、重復(fù)、雜質(zhì)等問(wèn)題。對(duì)此大規(guī)模處理的最快捷的手段莫過(guò)于軟件。文章提出的一種軟件處理方法,能較好地解決并處理語(yǔ)料庫(kù)建設(shè)中遇到的絕大部分問(wèn)題。
關(guān)鍵詞 句庫(kù) 拆分 重復(fù) 雜質(zhì) 刪除
中圖分類號(hào):H059 文獻(xiàn)標(biāo)識(shí)碼:A DOI:10.16400/j.cnki.kjdkx.2016.08.026
Abstract The core of Computer Aided Translation - the accumulation of translation memory makes the corpus. The size of corpus determines the efficiency of computer aided translation software. Therefore, the construction of the corpus is a subject that CAT users must do. In the construction of corpus, sentence segmentation, will encounter problems such as repetition, impurity. The most efficient way to deal with this large scale is software. A software processing method is proposed in this paper, which can solve and deal with the problems encountered in the construction of the corpus.
Key words explosive; split; repeat; impurity; delete
0 引言
“累積大量的英漢雙語(yǔ)語(yǔ)料并建立語(yǔ)料庫(kù),對(duì)于計(jì)算機(jī)輔助翻譯的幫助日益擴(kuò)大”。①而“語(yǔ)料庫(kù),尤其是雙語(yǔ)平行語(yǔ)料庫(kù),在翻譯實(shí)踐方面的應(yīng)用潛力也十分巨大”。②為此,文章旨在研究主要用于計(jì)算機(jī)輔助翻譯(CAT)的語(yǔ)料庫(kù)建設(shè)中遇到的一些問(wèn)題的解決辦法。在CAT行業(yè),一般把這種翻譯語(yǔ)料庫(kù)(即翻譯記憶庫(kù))簡(jiǎn)稱為“句庫(kù)”。所以本文下面也簡(jiǎn)稱為“句庫(kù)”。
為建設(shè)大型句庫(kù),需通過(guò)各種途徑,采用各種方法收集或制作句庫(kù)。但是,“經(jīng)過(guò)語(yǔ)料采集程序所收集的各類語(yǔ)料、尤其是通過(guò)網(wǎng)絡(luò)下載、掃描識(shí)別等方法獲得的文本大多會(huì)存在各種不合規(guī)范的符號(hào)或格式,這些不規(guī)范的符號(hào)格式會(huì)導(dǎo)致語(yǔ)料標(biāo)注錯(cuò)誤,為了避免這一問(wèn)題,在做好原始文件備份工作后,就需要對(duì)語(yǔ)料進(jìn)行清潔整理”。③更麻煩的是,即使是質(zhì)量好的句庫(kù),也可能會(huì)與自己已有的句庫(kù)重復(fù)。對(duì)于上萬(wàn)句對(duì)的句庫(kù)來(lái)說(shuō),要處理這些問(wèn)題靠手工操作是很難完成的,更不用說(shuō)幾十萬(wàn)甚至上百萬(wàn)句對(duì)的語(yǔ)料庫(kù)了。這就要求我們對(duì)句庫(kù)的質(zhì)量缺陷和重復(fù)問(wèn)題進(jìn)行研究,并針對(duì)這些問(wèn)題提出簡(jiǎn)便易行的解決辦法。
1 語(yǔ)料庫(kù)建設(shè)中存在的問(wèn)題
1.1 重復(fù)問(wèn)題
對(duì)于搜集來(lái)的句庫(kù),首要問(wèn)題是重復(fù)。也就是說(shuō),新來(lái)的句庫(kù)與自己已有的句庫(kù)可能有重復(fù)。如果一個(gè)CAT用戶只有幾百萬(wàn)句對(duì)以下的句庫(kù)時(shí),句庫(kù)的重復(fù)與否是無(wú)關(guān)緊要的,因?yàn)殡娔X的運(yùn)行速度不會(huì)受這點(diǎn)重復(fù)句庫(kù)多占電腦內(nèi)存的影響。但是當(dāng)句庫(kù)擁有量超過(guò)幾千萬(wàn)句對(duì)時(shí),電腦的內(nèi)存就會(huì)變得極其寶貴,電腦的運(yùn)行速度將會(huì)受到極大的影響,甚至造成電腦或CAT軟件不能運(yùn)行。這就要求對(duì)自己的每個(gè)句庫(kù)都檢測(cè)并刪除重復(fù)的句對(duì),以最大限度地利用電腦內(nèi)存空間并提高CAT的運(yùn)行速度。
如果句庫(kù)擁有量在幾十萬(wàn)句對(duì)以下,這個(gè)問(wèn)題是不難解決的。如現(xiàn)在有些CAT有去重功能。我們只要把自己原有的句庫(kù)導(dǎo)入CAT,再把新來(lái)的句庫(kù)導(dǎo)入,兩者合并起來(lái)后,CAT軟件就能自動(dòng)把重復(fù)的句對(duì)刪除。但是當(dāng)句庫(kù)太大時(shí),就超過(guò)了CAT軟件的容量,其重復(fù)問(wèn)題就無(wú)法處理了。而且現(xiàn)在一般的CAT軟件只能合并不能拆分還會(huì)導(dǎo)致這樣一種結(jié)果——不同專業(yè)的句庫(kù)合并后原來(lái)句庫(kù)的專業(yè)分類狀態(tài)會(huì)被破壞。
上述問(wèn)題對(duì)我們提出了一個(gè)要求——需要有一種“去重”手段,這種手段既能快速大批量地刪除重復(fù)的句對(duì),又能保持新句庫(kù)的原有專業(yè)分類狀態(tài)。對(duì)于這樣的要求,目前一般的CAT軟件仍無(wú)法做到。
1.2 切分問(wèn)題
句庫(kù)的切分也稱拆分。目前一般的CAT軟件只有合并功能,沒(méi)有切分功能。拿Trados來(lái)說(shuō),它的單個(gè)句庫(kù)容量比一般的CAT要大。但它導(dǎo)入句庫(kù)合并后卻不能切分,這對(duì)于需要按專業(yè)分類的句庫(kù)來(lái)說(shuō)就不能滿足需要了。而且單個(gè)句庫(kù)太大時(shí)會(huì)影響電腦的運(yùn)行速度,也就影響了翻譯速度。更令人頭痛的是,有些來(lái)自Trados的單個(gè)句庫(kù)可能多達(dá)幾百萬(wàn)句對(duì),而一般的CAT軟件沒(méi)有這么大的容量。如雪人軟件單個(gè)句庫(kù)的容量只有一百幾十萬(wàn)句對(duì),大于這個(gè)容量就無(wú)法導(dǎo)入,因而就無(wú)法把來(lái)自Trados的TMX格式的句庫(kù)導(dǎo)入并轉(zhuǎn)換成雪人的STM格式,這樣雪人就無(wú)法使用這個(gè)句庫(kù)。這就要求有種辦法來(lái)按需求切分句庫(kù),特別是切分大型句庫(kù)。對(duì)此,目前一般的CAT軟件也做不到。
1.3 雜質(zhì)問(wèn)題
為了加快句庫(kù)的制作速度,大型句庫(kù)往往是借助軟件自動(dòng)生成的。但是“某些軟件不能識(shí)別其他編碼格式的文本,對(duì)一些特殊格式標(biāo)識(shí)符號(hào)在讀取中會(huì)出現(xiàn)亂碼”。④此外,“制作雙語(yǔ)對(duì)應(yīng)語(yǔ)料庫(kù),較為高效的方式是利用Trados的WinAlign工具自動(dòng)對(duì)齊句對(duì),其優(yōu)點(diǎn)是速度快,準(zhǔn)確率較高,優(yōu)于雙語(yǔ)語(yǔ)料庫(kù)檢索軟件ParaConc內(nèi)置的句對(duì)工具;其缺點(diǎn)是對(duì)中文的支持不夠完美,有時(shí)會(huì)出現(xiàn)亂碼”。⑤而且,在句庫(kù)制作、文件轉(zhuǎn)換及不同CAT軟件之間的交換過(guò)程中,由于格式不同及其他種種原因,句庫(kù)中也會(huì)產(chǎn)生各種各樣的亂碼和其他非詞語(yǔ)性的東西,甚至還會(huì)產(chǎn)生原文或譯文空白的句對(duì)。對(duì)于這些亂碼、非詞語(yǔ)性的東西及原文或譯文空白的句對(duì),本文下面統(tǒng)稱為雜質(zhì)。這些雜質(zhì)的存在影響了句庫(kù)的質(zhì)量,并且會(huì)影響翻譯時(shí)語(yǔ)料查找速度和精確度,因此需要?jiǎng)h除。這種刪除功能現(xiàn)在一般的CAT軟件是沒(méi)有的。
2語(yǔ)料庫(kù)建設(shè)中問(wèn)題的解決辦法
綜上所述,在句庫(kù)建設(shè)中我們會(huì)面臨三大問(wèn)題——重復(fù)、切分、雜質(zhì)。而雜質(zhì)又可歸納并分類為:(1)有原文無(wú)譯文;(2)有譯文無(wú)原文;(3)譯文錯(cuò)誤;(4)譯文與原文錯(cuò)亂,即對(duì)齊錯(cuò)誤;(5)其他各類雜質(zhì)。
上述這些問(wèn)題,對(duì)于一個(gè)只有幾百或者幾千句對(duì)以下的小型句庫(kù)來(lái)說(shuō),是可以人工修正的。但是對(duì)于幾萬(wàn)或幾十萬(wàn)句對(duì)以上的句庫(kù)來(lái)說(shuō),人工修整需要花費(fèi)極大的人力和極長(zhǎng)的時(shí)間,所以實(shí)際上是不可行的。為此,需要專門研究出一個(gè)簡(jiǎn)便易行的辦法來(lái)解決這些問(wèn)題。
由于目前的人工智能水平還無(wú)法判斷譯文的錯(cuò)誤或者譯文的好壞,所以對(duì)于第三大問(wèn)題中的譯文錯(cuò)誤和對(duì)齊錯(cuò)誤,軟件是很難解決的;而譯文對(duì)齊錯(cuò)誤就性質(zhì)上來(lái)說(shuō)與譯文錯(cuò)誤是一樣的,因此軟件也無(wú)法識(shí)別。所以這兩個(gè)問(wèn)題目前需要人工檢查處理。但是,“建設(shè)語(yǔ)料庫(kù)是一件比較繁瑣的事情,光靠人力是不能滿足需求的,隨著現(xiàn)代科技的快速發(fā)展,強(qiáng)大的軟件支持將為我國(guó)語(yǔ)料的建設(shè)提供極大的便利”。⑥筆者經(jīng)過(guò)長(zhǎng)期的實(shí)踐和研究發(fā)現(xiàn),上述三大問(wèn)題中的前面二大問(wèn)題及第三大問(wèn)題中除了譯文錯(cuò)誤和對(duì)齊錯(cuò)誤外,其他問(wèn)題基本都可以用軟件解決。為此,筆者與軟件設(shè)計(jì)人員合作,設(shè)計(jì)開(kāi)發(fā)出了一個(gè)句庫(kù)處理軟件,其性能簡(jiǎn)介如下:
2.1 軟件分類
由于是與軟件設(shè)計(jì)人員合作,其將軟件分試用版和正式版二種。試用版的功能有較多限制;且試用期過(guò)后軟件會(huì)自動(dòng)禁止使用。正式版各項(xiàng)功能齊全,處理速度比試用版要快得多。
由于目前幾乎所有的CAT軟件都備有TMX格式,且“TMX(翻譯記憶交換標(biāo)準(zhǔn),Translation Memory Exchange)是一種不依賴任何軟件廠商的公開(kāi)的翻譯記憶數(shù)據(jù)庫(kù)格式規(guī)范……創(chuàng)建TMX標(biāo)準(zhǔn),目的是為了讓譯者可以更容易地在不同的工具之間交換數(shù)據(jù)”,⑦因此,本軟件選擇TMX格式作為本軟件的運(yùn)行格式。對(duì)于其它格式的句庫(kù),可以用CAT軟件轉(zhuǎn)換成TMX格式后再導(dǎo)入本軟件運(yùn)行。
2.2 軟件容量
由于軟件的工作效果極度依賴內(nèi)存,因此,軟件使用當(dāng)時(shí)電腦的剩余內(nèi)存決定了當(dāng)時(shí)可以處理的最大句庫(kù)尺寸。據(jù)測(cè)試,對(duì)于試用版,電腦剩余內(nèi)存3.6GB時(shí),軟件可處理的文件大小上限約為600MB。對(duì)于正式版,只要電腦放得下,軟件的容量無(wú)限。
2.3 軟件適用的語(yǔ)種
此軟件可適用于中英、中西、中俄、中日、中法、中德、英俄、西日等各種語(yǔ)言。以中英為例,該軟件能夠處理英譯中或者中譯英的句庫(kù)。但因目前市場(chǎng)上流行的絕大多數(shù)句庫(kù)均為中英,且都采用英譯中模式互相交換,所以英譯中模式為該軟件的最常用句庫(kù)處理模式。
2.4 軟件運(yùn)行速度
軟件切分和刪除雜質(zhì)時(shí)的運(yùn)行速度很快,基本上以秒計(jì),能夠滿足快速操作的要求。對(duì)于檢測(cè)和刪除重復(fù),試用版的運(yùn)行速度比較緩慢,且受句庫(kù)大小的影響較大;而正式版的速度受句庫(kù)容量大小的影響很小,無(wú)論是小型還是大型句庫(kù),都能高速運(yùn)行;可見(jiàn)正式版的功能遠(yuǎn)比試用版強(qiáng)大。
3 結(jié)論
句庫(kù)經(jīng)過(guò)以上“拆分”、“去重”和“刪除雜質(zhì)”三大方法處理后,質(zhì)量可以得到較大的提升。此外,軟件還有將句庫(kù)中的漢字繁體轉(zhuǎn)換成簡(jiǎn)體及Excel格式轉(zhuǎn)換等處理功能,可以滿足多用途的需要。但是另一方面,限于目前的人工智能水平,句庫(kù)中的錯(cuò)譯、對(duì)齊錯(cuò)亂、譯文不完整等缺陷問(wèn)題,尚未解決,需要作進(jìn)一步的研究和探索。
注釋
① 張倩.計(jì)算機(jī)輔助翻譯的應(yīng)用[J].雞西大學(xué)學(xué)報(bào),2012(6):74.
② 李毅鵬.從雙語(yǔ)平行語(yǔ)料庫(kù)到翻譯記憶庫(kù)[J].雞西大學(xué)學(xué)報(bào),2012(12):63.
③ 董愛(ài)華.專門用途語(yǔ)料庫(kù)的建設(shè)、應(yīng)用、問(wèn)題與發(fā)展趨勢(shì)[J].北京印刷學(xué)院學(xué)報(bào),2013(10):60.
④ 楊惠中.語(yǔ)料庫(kù)語(yǔ)言學(xué)導(dǎo)論[M].上海外語(yǔ)教育出版社,2002:77.
⑤ 余軍.新型電子商務(wù)雙語(yǔ)語(yǔ)料庫(kù)研制與應(yīng)用[J].長(zhǎng)江大學(xué)學(xué)報(bào),2013.36(8):83.
⑥ 蔡星,段超,朱易.國(guó)內(nèi)平行語(yǔ)料庫(kù)建設(shè)的問(wèn)題分析[J].山西煤炭管理干部學(xué)院學(xué)報(bào),2013(11):114.
⑦ 徐彬.翻譯新視野——計(jì)算機(jī)翻譯研究[M].山東教育出版社,2010(5):36.