□丁皓
(浙江警察學(xué)院,浙江杭州 310053)
警務(wù)翻譯平行語料庫的設(shè)計(jì)和構(gòu)建
□丁皓
(浙江警察學(xué)院,浙江杭州 310053)
以語料庫為基礎(chǔ)的計(jì)算機(jī)輔助翻譯(CAT)模式是提高涉外警務(wù)翻譯能力的一個(gè)有效手段,而CAT的前提是警務(wù)翻譯語料庫建設(shè)。警務(wù)翻譯平行語料庫的設(shè)計(jì)和構(gòu)建,可以從分析警務(wù)專業(yè)用語涉及的范圍入手。警務(wù)翻譯平行語料庫的設(shè)計(jì)應(yīng)包含語料庫二個(gè)架構(gòu)層次和四個(gè)警務(wù)翻譯語料庫子庫結(jié)構(gòu);警務(wù)翻譯語料庫的構(gòu)建,要做好語料的搜集和處理,優(yōu)化雙語對(duì)齊和進(jìn)行語料的“噪音”處理,解決“降噪、切分、去重”這三大難題,還需要解決語料庫標(biāo)注等問題。
警務(wù)翻譯語料庫;設(shè)計(jì);構(gòu)建;雙語對(duì)齊;語料噪音;語料標(biāo)注
隨著涉外警務(wù)活動(dòng)的日益增多和國際警務(wù)合作的進(jìn)一步深化,警務(wù)翻譯已經(jīng)呈現(xiàn)出任務(wù)越來越重、翻譯速度要求越來越高的趨勢(shì)。為順應(yīng)這一新形勢(shì),計(jì)算機(jī)輔助翻譯(CAT),以其翻譯質(zhì)量高,翻譯速度比純?nèi)斯た斓膬?yōu)點(diǎn),越來越多地被專業(yè)譯員所采用。CAT的核心是翻譯記憶?!胺g記憶庫則是計(jì)算機(jī)輔助翻譯系統(tǒng)的核心和翻譯工作站的主要部分,從廣義來講,它屬于一種‘簡(jiǎn)單’的雙語平行語料庫”。[1]翻譯記憶庫通過積累和加工則成為翻譯平行語料庫。有了語料庫,CAT才能起到翻譯輔助的作用。語料庫越大,翻譯輔助的作用也就越大。但是據(jù)截至2014年有關(guān)方面的資料顯示,“國內(nèi)在警務(wù)英語語料庫建設(shè)方面仍處于空白階段”。[2]筆者迄今為止已經(jīng)制作和搜集到一些警務(wù)語料庫,但在數(shù)量和質(zhì)量方面仍不能滿足警務(wù)翻譯的需求。為了更好、更快地完成日益繁重的警務(wù)翻譯任務(wù),筆者認(rèn)為有必要進(jìn)行警務(wù)專業(yè)翻譯平行語料庫的建設(shè),為此提出設(shè)計(jì)和構(gòu)建方案。
(一)語料庫的層次設(shè)計(jì)?!罢Z料庫的總體設(shè)計(jì)或研制方案,是決定今后語料庫研究和應(yīng)用的關(guān)鍵。語料庫如何選材,如何架構(gòu),往往決定了語料庫的后續(xù)發(fā)展,甚至決定了能獲取什么樣的研究成果”。[3]警務(wù)翻譯語料庫架構(gòu)設(shè)計(jì)的第一步是確定語料庫應(yīng)該包含哪些語料,即圈定語料庫應(yīng)該涵蓋的專業(yè)范圍。
就警務(wù)專業(yè)用語范圍來說,其涉及的范圍是很大的。筆者現(xiàn)舉經(jīng)歷過的二個(gè)警務(wù)翻譯實(shí)例:
1.證件防偽技術(shù)資料(英譯漢)。The printing plate with graphics and words repel water but ab?sorb ink.However,the printing plate without graph?ics and words repel ink but absorb water.The ink on the printing plate was transferred to the rubber sheetfirst;thenundertheactionoftheprinting pressure,the ink on the rubber sheet was trans?ferred to the substrate.印版有圖文的位置排斥水,吸收油墨;印版無圖案的位置排斥油墨,吸收水。印版上的油墨先轉(zhuǎn)移到橡皮布上,在印刷壓力的作用下,橡皮布上的油墨再轉(zhuǎn)移到承印物上。
2.介紹浙江警察學(xué)院(漢譯英)?!敖蠎涀顟浭呛贾荨?,在浩瀚的錢塘江南岸,矗立著一所歷史悠久而又充滿生機(jī)的高等學(xué)府——浙江警察學(xué)院。As the saying goes,"while missing the southland,I miss Hangzhou most of all";by the bank of Qian?tang River,there stands the Zhejiang Police Col?lege with vitality and a long history.
上述譯例1中,涉及的是印刷技術(shù)專業(yè);譯例2中涉及的是文學(xué)或旅游專業(yè)。對(duì)于這種“非警務(wù)專業(yè)”的語料,我們應(yīng)該怎樣處理?也許從“純警務(wù)”專業(yè)的角度來看,似乎可以將這些語料排除在外。但是,從圓滿完成警務(wù)工作任務(wù)的角度來說,如果碰到一個(gè)金融犯罪案件,我們是否可以說,金融不屬于警務(wù)專業(yè)范圍,而不處理這個(gè)案件呢?如果在翻譯一篇警務(wù)文書時(shí),里面有一句旅游方面的句子,我們是不是可以說,這不屬于警務(wù)專業(yè),因而可以略過不譯呢?答案顯然是否定的。如此說來,警務(wù)翻譯語料庫也應(yīng)該包括這些領(lǐng)域的內(nèi)容。但是如果一切與警務(wù)工作可能相關(guān)的內(nèi)容都需要包含在警務(wù)翻譯語料庫范圍內(nèi)的話,其語料庫幾乎可以包羅萬象,顯然也不宜稱之為“警務(wù)語料庫”了。
要解決這個(gè)問題,首先要明確我們的目的是什么,因?yàn)椤罢Z料庫的總體設(shè)計(jì)是與建庫目的密切相關(guān)的”。[4]警務(wù)語料庫的目的是為了滿足警務(wù)翻譯的需要,警務(wù)文件和資料可能涉及的專業(yè)五花八門,范圍極為廣泛,因此,服務(wù)于警務(wù)翻譯的語料庫專業(yè)范圍也應(yīng)該是越大越好。至于專業(yè)范圍太大的語料庫能否稱之為警務(wù)語料庫,這是一個(gè)“目的”和“名稱”的矛盾問題。在這對(duì)矛盾中,“目的”是第一位的,必須得到滿足,“名稱”是第二位的,可以在滿足“目的”的前提下予以解決。也就是說,以警務(wù)翻譯為“目的”的語料庫設(shè)計(jì)應(yīng)該遵循“目的”優(yōu)先并兼顧“名稱”的原則。
根據(jù)這一原則,可以把語料庫分為二個(gè)架構(gòu)層次:第一層次是警務(wù)專業(yè)翻譯平行語料庫,其語料內(nèi)容基本限于警務(wù)專業(yè)。它的翻譯服務(wù)效能單一而有限,能在一定程度上滿足警務(wù)翻譯的需要,但不能完全滿足警務(wù)文書或資料中帶有非警務(wù)成份的翻譯需要。第二層次是超大型綜合翻譯平行語料庫,其語料內(nèi)容應(yīng)該包括一切專業(yè),應(yīng)能滿足警務(wù)翻譯和其他各類專業(yè)翻譯的需要。
上述第二層次的語料庫因超出了警務(wù)語料庫的構(gòu)建范圍,且屬于警務(wù)語料庫的后繼建設(shè)范疇,因此本文不作討論。本文接下來著重討論第一層次警務(wù)語料庫的結(jié)構(gòu)設(shè)計(jì)問題。
(二)語料庫的結(jié)構(gòu)設(shè)計(jì)。語料庫的結(jié)構(gòu)設(shè)計(jì)要先明確語料庫應(yīng)該包含哪些內(nèi)容,弄清楚警務(wù)英語的范圍有多大?!叭绻f通用警務(wù)英語是公安高校警務(wù)英語教學(xué)的基礎(chǔ),那么,從內(nèi)容、形式和文體角度上看,更具有難度的專業(yè)警務(wù)英語則是公安高校警務(wù)英語高級(jí)階段教學(xué)的目標(biāo),而學(xué)術(shù)英語是警務(wù)英語教學(xué)更高階段的目標(biāo)”。[5]通用警務(wù)英語應(yīng)該包括如警務(wù)英語900句等的基本工作用語。而對(duì)于警務(wù)專業(yè)英語來說,其內(nèi)容應(yīng)該涵蓋警務(wù)工作的各個(gè)領(lǐng)域及警務(wù)各分支專業(yè)。我國的公安警務(wù)分支專業(yè)主要有治安、刑偵、出入境、邊防管理、禁毒、戶政、消防、交通管理、網(wǎng)絡(luò)安全、物證鑒定、涉外警務(wù)、經(jīng)濟(jì)犯罪偵查、法醫(yī)等。而每個(gè)分支專業(yè)又設(shè)置有許多課程,如網(wǎng)絡(luò)安全與執(zhí)法專業(yè)的課程主要有:公安技術(shù)、法學(xué)、計(jì)算機(jī)科學(xué)與技術(shù)、網(wǎng)絡(luò)空間安全、計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)、政治理論、大學(xué)英語、高等數(shù)學(xué)、信息安全技術(shù)、微機(jī)原理及應(yīng)用、操作系統(tǒng)原理、網(wǎng)絡(luò)安全監(jiān)察管理、網(wǎng)絡(luò)犯罪偵查、計(jì)算機(jī)取證技術(shù)、數(shù)據(jù)恢復(fù)技術(shù)等。警務(wù)英語除了應(yīng)該包括這些專業(yè)的全部用語外,還需要包括這些領(lǐng)域更深入的學(xué)術(shù)用語。
由此可見,警務(wù)專業(yè)涵蓋的領(lǐng)域非常之大。為了滿足警務(wù)翻譯中可能遇到的各種語料查詢需求,警務(wù)專業(yè)翻譯平行語料庫的內(nèi)容似乎應(yīng)該包括上述警務(wù)各個(gè)分支專業(yè)的一切課程內(nèi)容及各警務(wù)分支領(lǐng)域及相關(guān)領(lǐng)域的一切口頭和書面工作用語。但這樣做恐怕會(huì)遠(yuǎn)遠(yuǎn)超出警務(wù)專業(yè)的范圍。如對(duì)法醫(yī)專業(yè)來說,構(gòu)建一個(gè)醫(yī)學(xué)語料庫也是需要的。但果真如此的話,警務(wù)語料的內(nèi)涵實(shí)在太大了。由于語料庫設(shè)計(jì)方案中還有第二層次的超大型綜合翻譯平行語料庫的后續(xù)構(gòu)建計(jì)劃,里面應(yīng)該包括醫(yī)學(xué)等各相關(guān)語料庫,所以,在警務(wù)專業(yè)翻譯平行語料庫中,就不對(duì)其專業(yè)內(nèi)涵作過大的擴(kuò)展,其內(nèi)容僅限于警務(wù)專業(yè)及與其關(guān)系比較密切的相關(guān)專業(yè)。若在翻譯中碰到其他相關(guān)專業(yè)的語言現(xiàn)象,可以到超大型語料庫中去查找?;谶@一設(shè)計(jì)思想,擬對(duì)警務(wù)專業(yè)翻譯平行語料庫的結(jié)構(gòu)作如下設(shè)計(jì)。
警務(wù)翻譯語料庫含四個(gè)子庫,具體結(jié)構(gòu)如下:
1.警務(wù)綜合語料庫。其內(nèi)容包括:治安、刑偵、出入境、邊防管理、禁毒、戶政、消防、交通管理、物證鑒定等各分支專業(yè),以基本滿足警務(wù)各分支專業(yè)工作的翻譯需要。
2.法律語料庫。其內(nèi)容包括:中國大陸及港(澳)臺(tái)地區(qū)法律法規(guī)、歐美等國家法律、國際公約和協(xié)議等,以滿足與法律有關(guān)的警務(wù)工作的翻譯需要。
3.政治與國際關(guān)系語料庫。其內(nèi)容包括:聯(lián)合國文件、政府文件、領(lǐng)導(dǎo)人講話、外交和時(shí)政等,以滿足涉外警務(wù)、國際警務(wù)合作及與政務(wù)有關(guān)的警務(wù)工作的翻譯需要。
4.信息技術(shù)語料庫。其內(nèi)容包括:電腦和網(wǎng)絡(luò)等信息技術(shù),以滿足網(wǎng)絡(luò)安全工作的警務(wù)翻譯需要。
此結(jié)構(gòu)方案與前面的層次方案一起形成了一套較完整的語料庫設(shè)計(jì)方案。
(一)語料的搜集和處理。對(duì)于語料庫的構(gòu)建,其最基本的方法是語料庫制作法,可分為翻譯記憶庫保存法和雙語對(duì)齊法。
翻譯記憶庫保存法,即將自己用CAT軟件翻譯好的雙語對(duì)照文本保存為記憶庫。不同的CAT軟件有不同的保存操作法。使用CAT軟件的譯員應(yīng)該都會(huì)保存翻譯記憶庫,所以本文不再贅述。
雙語對(duì)齊法,即把搜集來的雙語語料進(jìn)行對(duì)齊處理后做成雙語平行語料庫。語料搜集除了上網(wǎng)搜索雙語語料之外,還需要與其他語料庫建設(shè)大戶和翻譯團(tuán)隊(duì)建立合作交流關(guān)系,共同分享,彼此交換雙語語料。警務(wù)語料搜集來后,需要先進(jìn)行處理,即整理和加工?!罢Z料的整理和加工包括四個(gè)步聚:原始語料的校對(duì)、英漢語文本的切分、自動(dòng)句子對(duì)齊以及句對(duì)齊的校對(duì)”。[6]
語料整理最主要的是檢查語料的翻譯質(zhì)量。若有少量翻譯質(zhì)量較差的,可以刪除。如果翻譯質(zhì)量較差的內(nèi)容較多時(shí),應(yīng)該拒絕該批語料。
語料加工主要是對(duì)語料進(jìn)行“降噪”處理。“降噪”處理主要涉及以下五類:
1.公式:若轉(zhuǎn)化為TXT格式的公式仍未變形,則予以保留,否則就予以剔除。
2.表格:一般將表格內(nèi)的文字提取出。
3.圖片:不保留圖片,但需提取出圖片中的文字。
4.外包校對(duì)中遺留的某些問題,如空格、斷句、標(biāo)點(diǎn)、字母大小寫、數(shù)字。
5.將WORD格式轉(zhuǎn)化為TXT格式時(shí)會(huì)發(fā)生變形的符號(hào),如破折號(hào)“——”等。[7]
這五類內(nèi)容可以概括為雙語文本中的公式、表格、圖片、標(biāo)記及其他各種非文字內(nèi)容。這些內(nèi)容的存在會(huì)對(duì)雙語對(duì)齊過程造成干擾,并且用CAT軟件生成語料庫后會(huì)產(chǎn)生亂碼等雜質(zhì),所以稱為“語料噪音”。因此,在做雙語對(duì)齊操作前應(yīng)該先清除這些雜質(zhì),即“降噪”。純?nèi)斯そ翟氲男Ч芎?,但速度太慢。為了加快語料庫制作速度,除非是很重要的語料,一般應(yīng)該采用自動(dòng)“降噪”技術(shù),如把帶有“語料噪音”的WORD、PPT等雙語文本復(fù)制粘貼到TXT中去,再復(fù)制回WORD文本。這時(shí)原來帶有的“語料噪音”會(huì)被清除,但同時(shí)可能會(huì)出現(xiàn)中英雙語對(duì)應(yīng)的句對(duì)處在同一行上的情況。這樣就無法導(dǎo)入CAT軟件進(jìn)行雙語自動(dòng)對(duì)齊。對(duì)于這種情況,手工一個(gè)一個(gè)地分行操作速度太慢,可以在TXT中用正則表達(dá)式大批量地作自動(dòng)分行處理。另外,用中英文提取軟件結(jié)合EXCEL也可以作分行處理。這些都是自動(dòng)“降噪”技術(shù)。
當(dāng)然,自動(dòng)“降噪”技術(shù)雖然快捷,但對(duì)于某些特殊“語料噪音”,仍然需要花大量時(shí)間進(jìn)行人工修整。比如,圖片中的文字,會(huì)連同圖片一起清除掉,或者“降噪”后的效果仍不適合作雙語對(duì)齊等情況。這時(shí)我們可以用價(jià)值工程思想來審視這些語料是否值得花費(fèi)大量的人工來進(jìn)行處理。如果效費(fèi)比太低的話,則應(yīng)該放棄該類語料,而把有限的時(shí)間和精力花在效費(fèi)比較高的語料上。
(二)雙語對(duì)齊。清除了“語料噪音”且對(duì)中英文進(jìn)行分行后,“降噪”工作才算完成。后續(xù)的任務(wù)便是語料對(duì)齊。雙語語料的對(duì)齊可分為段落、句子、短語和詞語等層次。段落的對(duì)齊最容易實(shí)現(xiàn),但對(duì)CAT翻譯來說實(shí)用性不大,所以不應(yīng)采用。句子、短語和詞語的對(duì)齊比較難,其中,短語和詞語的對(duì)齊屬于術(shù)語庫建設(shè)的范疇,且并不比句子對(duì)齊難。句子對(duì)齊問題能解決,短語和詞語對(duì)齊問題自然也能解決。所以這里著重討論句級(jí)對(duì)齊問題。
在具體做句級(jí)對(duì)齊操作時(shí),應(yīng)遵循以下原則:(1)允許一句對(duì)多句或多句對(duì)一句;(2)句號(hào)、感嘆號(hào)、問號(hào)和省略號(hào)均視為句子的邊界標(biāo)記;(3)由于有些中文句子大量使用逗號(hào)或分號(hào),導(dǎo)致句子極長,這么長的語料對(duì)CAT翻譯來說使用價(jià)值不大。因此,句級(jí)對(duì)齊不一定要以句號(hào)為邊界標(biāo)記,有時(shí)可以用句子長度作為邊界標(biāo)準(zhǔn),多數(shù)情況下可用50字(詞)作為一個(gè)句對(duì)的長度單位。但法律文本中長句較多,這時(shí)可適當(dāng)放大邊界標(biāo)準(zhǔn)。根據(jù)筆者這幾年的語料庫建設(shè)經(jīng)驗(yàn),設(shè)定150字(詞)為一個(gè)句對(duì)的長度單位時(shí),基本能涵蓋各種法律雙語句對(duì),且極少有例外。當(dāng)然,具體長度可根據(jù)文本類型和建庫者的目的靈活設(shè)定。
為了實(shí)現(xiàn)上述句級(jí)對(duì)齊目標(biāo),最好采用自動(dòng)對(duì)齊軟件。由于“翻譯很多時(shí)候并非完全遵照句子對(duì)應(yīng)句子的原則,省譯、擴(kuò)譯或摘譯情況比較多見,因此,目前來說依靠軟件自動(dòng)句對(duì)齊處理準(zhǔn)確度很低,這一工作仍需人工完成”。[8]然而,人工對(duì)齊法雖然精確,效果好,但太耗時(shí)費(fèi)力。對(duì)于需要大量語料庫支持的CAT翻譯模式來說,緩慢的人工雙語對(duì)齊制庫法顯然很難滿足需要。為了解決這個(gè)問題,我們需要更高效的對(duì)齊方法。就目前的軟件技術(shù)水平來說,可行的雙語對(duì)齊方案有三種。第一種是把整篇中文和英文分別或混合導(dǎo)入CAT軟件進(jìn)行自動(dòng)對(duì)齊。目前句級(jí)雙語自動(dòng)對(duì)齊技術(shù)采用的方法有基于長度、基于詞典,基于在線等形式,通過一定的算法將意義相同的源語和目標(biāo)語進(jìn)行自動(dòng)對(duì)齊。不同的軟件自動(dòng)對(duì)齊的正確率不盡相同。在這方面,自動(dòng)對(duì)齊和人工對(duì)齊操作綜合性能較好的有雪人翻譯軟件(SCAT),其自動(dòng)對(duì)齊精度一般可達(dá)到70-90%(具體精度要視語料類型而定)。自動(dòng)對(duì)齊完成后,可利用雪人軟件的人工對(duì)齊功能進(jìn)行修整。人工修整的方法主要有合并、拆分、剪切等,具體應(yīng)該綜合靈活運(yùn)用。第二種對(duì)齊方法是把原先對(duì)應(yīng)的中文和英文分別復(fù)制到EXCEL,再導(dǎo)入到CAT中,即可生成雙語對(duì)齊的平行語料庫。對(duì)于中英文混雜在一起但對(duì)應(yīng)的語料,可以用中英文提取軟件分開后,復(fù)制粘貼到EXCEL,再導(dǎo)入雪人等CAT軟件生成雙語對(duì)齊語料庫。第三種對(duì)齊方法是把中英文復(fù)制粘貼到TXT,用正則表達(dá)式對(duì)文本進(jìn)行修改,然后導(dǎo)入到CAT作自動(dòng)對(duì)齊,并作少量人工檢查和修整。上述三種方案要視不同情況靈活采用,才能高效快速地進(jìn)行雙語對(duì)齊。
(三)語料庫的后處理。語料對(duì)齊并保存為翻譯記憶庫后,一個(gè)微型翻譯平行語料庫就做好了。把各個(gè)微型語料庫分類合并起來,就構(gòu)成警務(wù)翻譯平行語料庫的各個(gè)子庫。各個(gè)子庫的集合就是一個(gè)較大的警務(wù)翻譯平行語料庫。然而,憑個(gè)人之力用雙語對(duì)齊法制作語料庫的速度是較慢的。如果利用業(yè)余時(shí)間制作的話,一個(gè)人一年一般只能制作幾萬句對(duì)。這樣的建庫速度是不能滿足警務(wù)翻譯需要的。為了加快建庫速度,還應(yīng)該與國內(nèi)外同行進(jìn)行交流并收集他們業(yè)已建成的警務(wù)語料庫。但是以這種方式收集來的語料庫中,有不少在雙語自動(dòng)對(duì)齊前未對(duì)語料進(jìn)行有效的“降噪”處理,所以存在著“語料噪音”。對(duì)于已經(jīng)建成的具有SDL、STM或者TMX格式語料庫的“語料噪音”,其“降噪”要比在雙語對(duì)齊前在WORD、PPT或者PDF文本中的“語料降噪”困難得多。此外,還存在著下述問題。
1.如目前一般的CAT軟件只有合并功能,沒有切分功能。以Trados軟件為例,其能導(dǎo)入的單庫容量比一般的CAT要大,但它無切分功能。而其他的CAT如雪人軟件單庫容量只有一百多萬句對(duì),大于這個(gè)容量則無法導(dǎo)入,這樣就不能與Trados交換大庫。而Trados本身的庫也會(huì)由于只能一直單向增大這一功能局限,最終導(dǎo)致語料庫太大而不能正常運(yùn)行。這就要求有一種把大庫切分成小庫的技術(shù)。對(duì)此,目前一般的CAT軟件并無這種功能。
2.對(duì)于搜集來的語料庫,有可能與自己已有的庫重復(fù)。如果已有庫擁有量在幾十萬句對(duì)以下時(shí),這個(gè)問題是不難解決的。如現(xiàn)在有些CAT軟件有自動(dòng)去重功能,只要把自己原有的庫與新來的庫合并導(dǎo)入CAT,CAT軟件就能自動(dòng)把重復(fù)的句對(duì)刪除。但是當(dāng)庫量超過百萬句對(duì)時(shí),就超過了CAT軟件的容量,這時(shí)新庫進(jìn)來時(shí)其重復(fù)問題就無法處理了。從長遠(yuǎn)看,警務(wù)翻譯語料庫的建設(shè)目標(biāo)應(yīng)是千萬級(jí)句對(duì)以上,因此,如果不能解決在千萬級(jí)以上句對(duì)背景下的新庫自動(dòng)重復(fù)檢測(cè)和自動(dòng)重復(fù)刪除的技術(shù)問題,就無法完成大型警務(wù)語料庫的建設(shè)目標(biāo)。
上述問題歸納起來就是“降噪、切分、去重”三大難題。筆者在這幾年的語料庫建設(shè)和交流過程中,未找到國內(nèi)同行有針對(duì)這三大問題的較全面而有效的自動(dòng)處理技術(shù)。為了解決這三大語料庫后處理過程中的難題,筆者與軟件設(shè)計(jì)人員經(jīng)過長期合作研究,已經(jīng)設(shè)計(jì)了一個(gè)語料庫的“降噪、切分、去重”自動(dòng)處理軟件,其處理容量可達(dá)上億句對(duì)級(jí),詳情可參見筆者撰寫并發(fā)表于《科教導(dǎo)刊》(2016年第8期)的《翻譯語料庫建設(shè)中一些問題的軟件處理法》一文。
3.語料庫的后處理還包括語料庫標(biāo)注?!罢Z料對(duì)齊之后下一步的重要工作是對(duì)語料進(jìn)行標(biāo)注。標(biāo)注主要涉及兩個(gè)方面:一是詞性標(biāo)注,二是語言特征信息與翻譯信息標(biāo)注”。[9]語料標(biāo)注的主要目的是為翻譯教學(xué)、語料庫翻譯學(xué)研究和語料庫語言學(xué)研究等方面服務(wù)。其詞性標(biāo)注可以用TreeTagge3等軟件自動(dòng)完成。但是,目前有些比較先進(jìn)的CAT技術(shù)完全可以取代這樣的標(biāo)注,如雪人CAT,它已經(jīng)把“機(jī)器翻譯(MT)、計(jì)輔翻譯(CAT)、在線詞典”三個(gè)功能整合在一個(gè)CAT界面上了,只需把光標(biāo)移動(dòng)到需要查詢的詞上,便可從在線詞典中看到該詞的詞性和釋義等全部信息,所以詞性標(biāo)注對(duì)于以翻譯為目的的雪人CAT這樣的軟件來說是無必要的。至于語言特征和翻譯信息標(biāo)注,這對(duì)翻譯輔助是有參考價(jià)值的,但是該種標(biāo)注目前在技術(shù)上還無法實(shí)現(xiàn)自動(dòng)模式,需要人工操作,極其耗時(shí)費(fèi)力,很難在短期內(nèi)完成大中型語料庫的標(biāo)注。警務(wù)翻譯語料庫的目的是為了支持CAT軟件優(yōu)質(zhì)快速地完成警務(wù)翻譯任務(wù),其當(dāng)務(wù)之急是語料庫要足夠大,有無標(biāo)注對(duì)CAT的翻譯輔助功能影響不大,因此,為了早日建成大型警務(wù)翻譯語料庫,在建庫初期可以不標(biāo)注;將來如果有語料庫翻譯學(xué)研究等方面的需要時(shí),可以對(duì)已經(jīng)建成的警務(wù)語料庫進(jìn)行后續(xù)深加工。
當(dāng)然,這并不是說用于CAT的翻譯語料庫完全不必標(biāo)注。對(duì)于少數(shù)特殊情況,還是有必要標(biāo)注的。例如對(duì)于“警司”這個(gè)警銜名稱的翻譯,不同國家和地區(qū)有不同的譯名,如:Police Superintendent(中國警司)、Superintendent of Police(香港警司)、Sergeant(美國紐約警司)、Police Sergeant(美國洛杉機(jī)警司)、Superintendent of Police(英國警司)、Superintendent(澳大利亞新南威爾士警司)。對(duì)于這種同一個(gè)詞或詞組在不同的地區(qū)有同譯名的情況,就需要標(biāo)注。雪人CAT軟件為這種情況提供了“備注”功能,我們?cè)谧鲭p語對(duì)齊時(shí)可以在“備注”欄中標(biāo)注警銜的國別或地區(qū)信息,這樣,CAT譯員在翻譯時(shí)就可根據(jù)不同地區(qū)參考標(biāo)注選擇合適的警銜譯名。
警務(wù)工作用語涉及的領(lǐng)域非常之大,單純依靠警務(wù)語料庫不一定能完全滿足CAT警務(wù)翻譯的需要。為更好地滿足CAT警務(wù)翻譯的需要,本文提出了第一層次的警務(wù)專業(yè)翻譯平行語料庫和第二層次的超大型綜合翻譯平行語料庫的設(shè)計(jì)思想和方案。
警務(wù)翻譯語料庫的構(gòu)建有語料庫制作和語料庫收集兩種途徑。通過這兩種途徑構(gòu)建語料庫時(shí)都會(huì)遇到“語料噪音”等問題,處理的方法有人工操作和自動(dòng)處理技術(shù)二種。人工處理法質(zhì)量高,但速度慢;自動(dòng)處理法質(zhì)量稍差,但速度快。為了既優(yōu)質(zhì),又快速地構(gòu)建警務(wù)語料庫,需要以價(jià)值工程思想為指導(dǎo),用功能、成本分析,采用效費(fèi)比較高的構(gòu)建方案,并把自動(dòng)處理和人工少量修整適當(dāng)結(jié)合,以期早日建成大型警務(wù)翻譯平行語料庫。
[1]李毅鵬.從雙語平行語料庫到翻譯記憶庫[J].雞西大學(xué)學(xué)報(bào),2012(12).
[2]劉震宇.公安院校微型警務(wù)英語口語語料庫的構(gòu)建與應(yīng)用[J].山東警察學(xué)院學(xué)報(bào),2014(9).
[3]Sinclair,John.Council of Europe Multilingual Lexicogra?phy Project[R].Report Submitted to the Council of Europe un?der contract no.57/89,1991:13.
[4]王克非.新型雙語對(duì)應(yīng)語料庫的設(shè)計(jì)與構(gòu)建[J].中國翻譯,2004(11).
[5]王衛(wèi)平.《歐洲語言共同參考框架》對(duì)制定警務(wù)英語能力量化標(biāo)準(zhǔn)的啟示[J].鐵道警察學(xué)院學(xué)報(bào),2015(2).
[6]陳瀟瀟,葛詩利.科技文獻(xiàn)英漢翻譯平行語料庫的構(gòu)建[J].廣東外語外貿(mào)大學(xué)學(xué)報(bào),2012(5).
[7]管新潮,胡開寶,張冠男.英漢醫(yī)學(xué)平行語料庫的創(chuàng)建與初始應(yīng)用研究[J].當(dāng)代外語研究,2011(9).
[8]譚興,石婕妤.地方性旅游景區(qū)翻譯語料庫的創(chuàng)建與應(yīng)用[J].成都師范學(xué)院學(xué)報(bào).2014(10).
[9]熊兵.基于英漢雙語平行語料庫的翻譯教學(xué)模式研究[J].外語界,2015(4).
(責(zé)任編輯:秋實(shí))
H315.9
A
1674-3040(2016)05-0095-05
2016-05-18
丁皓,浙江警察學(xué)院國際學(xué)院(籌)英語教師、助教,主要研究方向?yàn)橛⒄Z語言文學(xué)翻譯理論與實(shí)踐方向。