劉曲 楊天地
摘 要:翻譯語料庫的建設(shè)和研究探索始于上世紀(jì)中期,經(jīng)過幾十年的發(fā)展,國內(nèi)外翻譯語料庫的建設(shè)已經(jīng)取得了豐碩的成果,并在計算機(jī)技術(shù)的輔助下不斷向?qū)I(yè)性和個性化的方向發(fā)展。
關(guān)鍵詞:翻譯語料庫;建設(shè)現(xiàn)狀;發(fā)展趨勢
0 引言
語料庫語言學(xué)和語料庫建設(shè)的研究是一個相對起步較晚的領(lǐng)域,自上世紀(jì)五十年代以來,隨著計算機(jī)科學(xué)研究的推廣和深入,各門類語料庫的建設(shè)研究逐漸進(jìn)入高速發(fā)展階段,并成為推動語料庫語言學(xué)發(fā)展的源動力。
1 翻譯語料庫與平行語料庫
翻譯語料庫是指按照一定的語言學(xué)標(biāo)準(zhǔn),在隨機(jī)采樣的基礎(chǔ)上,廣泛收集具有代表性、真實(shí)性和典型性特征的連續(xù)語言運(yùn)用材料文本或話語使用片段的具有一定包容性和可分析行的大型電子語料文本的集合。語料庫可為語言運(yùn)用提供學(xué)習(xí)范本,也可用于不同層面和領(lǐng)域的相關(guān)語言研究和語言教學(xué)。專業(yè)語料庫的建設(shè)更是專業(yè)語言研究不可或缺的有利工具。
平行語料庫屬雙語語料庫的一種,是目前雙語翻譯語料庫中最典型、使用最為廣泛的一種形式。平行語料庫主要收集原語與譯語的對照預(yù)料,“按設(shè)定的標(biāo)準(zhǔn)對語料進(jìn)行句子或段落的對齊,常用于考察原文中的某些語言現(xiàn)象如何在譯文中得到反映”(李德超,2010)。
2 國外翻譯語料庫研究建設(shè)現(xiàn)狀
國外翻譯語料庫研究大體經(jīng)歷了三個階段:第一階段,20世紀(jì)60年代至70年代第一代電子語料庫時期,以Quirk、Francis、Leech 等語言學(xué)家的研究為代表,誕生了BROWN、LOB和LLC三大經(jīng)典語料庫。這三大語料庫建立過程中形成的基本方法和基本原則,為建立更大規(guī)模的語料庫奠定了基礎(chǔ),標(biāo)志著語料庫研究進(jìn)入電子時代。第二階段,20世紀(jì)80至90年代第二代電子語料庫時期。出現(xiàn)了一批容量更大、標(biāo)注及檢索統(tǒng)計手段更先進(jìn)新型電子語料庫。最典型的是COBUILD、Longman、BNC、ICE等,與第一代電子語料庫相比容量更大,通常以億為單位,采用了更加先進(jìn)的計算機(jī)技術(shù),檢索統(tǒng)計能力更強(qiáng),速度更快。第三階段,20世紀(jì)90年代至今的第三代電子語料庫時期。計算機(jī)標(biāo)注技術(shù)、索引技術(shù)和檢索技術(shù)極大地提高了對超大規(guī)模語料庫的處理和查找能力。以上三方面為特大型語料庫、監(jiān)控語料庫、多模態(tài)語料庫及多功能語料庫的建設(shè)提供了物質(zhì)基礎(chǔ),這一時期的主流語料庫主要有COCA、BNC、ANC、OEC和BOE。特大型語料庫為基于語料庫的語言學(xué)研究提供更全面、更豐富和更可靠的數(shù)據(jù)支持,由于語料規(guī)模巨大,概率統(tǒng)計更趨于平衡,語料采集時就更容易保證語料的典型性和代表性,從而降低平衡語料庫的平衡度對語料庫的代表性的影響。
3 國內(nèi)翻譯語料庫的研究建設(shè)現(xiàn)狀
國內(nèi)翻譯語料庫研究從20世紀(jì)70年代末80年代初興起,20世紀(jì)90年代后,隨著語料庫語言學(xué)研究的深入,廣泛開展了語料庫建設(shè)研究,并形成了一批高水平的語料庫研究團(tuán)隊,建成了JDEST、CEEC、CLEC、COLSEC、SWECCL 等較大型的英語學(xué)習(xí)者語料庫,并基于這些語料庫開展了廣泛的英語語言學(xué)及教學(xué)研究。我國近30年語料庫研究實(shí)踐具有兩個共性特征:第一,語料主要來源于各級各類英語考試。SWECCL的語料采集于全國大學(xué)英語四級考試作文,COLSEC語料采集于全國大學(xué)英語口語考試錄音,SECCL采用了全國英語專業(yè)四級口語錄音,CEEC則采用全國英語高考廣東省考生抽樣的英語作文。采用來自各級各類英語考試的語料不僅使語料搜集更加容易,而且保證語料的代表性,客觀反應(yīng)我國不同級別英語學(xué)習(xí)者的實(shí)際水平。第二,語料標(biāo)注及檢索均采用國際通用軟件與自行研發(fā)軟件相結(jié)合的方式,國際通用軟件包括CLAWS、Wordsmith、TACT、Paraconcordancer、ICECUP、OCP、SARA。國內(nèi)語料庫研究者也根據(jù)需要,自主開發(fā)了一些檢索及標(biāo)注工具,如CEEC研制的中英文檢索系統(tǒng)Project,CLEC研制的Corfind用于標(biāo)注、Cbrower用于檢索、Cleantxt用于清除漢字符號、Pargraph用于清除轉(zhuǎn)行符用、Merge用于合并和統(tǒng)計詞。自主開發(fā)的標(biāo)注系統(tǒng)和檢索工具,彌補(bǔ)了國外常用語料庫工具處理中文的缺陷,使語料庫研究更為客觀全面。
4 語料庫的未來發(fā)展趨勢
首先,迄今為止,國內(nèi)外學(xué)者、研究機(jī)構(gòu)高校院所等所建立的語料庫多以通用型語料庫為主,容量巨大,標(biāo)準(zhǔn)明確,其語料來源多基于國內(nèi)外規(guī)模成熟的標(biāo)準(zhǔn)化考試材料,但是隨著專業(yè)領(lǐng)域研究的不斷深入,通用型語料庫已不能滿足不同專業(yè)領(lǐng)域研究的需要,不能為專業(yè)研究提供更精準(zhǔn)的數(shù)據(jù)支撐。因此,研究并建立一批專業(yè)性強(qiáng)的小型語料庫顯得勢在必行。
其次,隨著計算機(jī)技術(shù)的不斷深入發(fā)展和推廣,個人計算機(jī)能力的不斷增強(qiáng),借助計算機(jī)實(shí)現(xiàn)更加智能化的語料庫標(biāo)注和分類操作將成為可能,而且研究者也可以根據(jù)個人的研究條件和特色,在計算機(jī)的輔助下自行建立更有效輔助研究工作的個性化語料庫。
參考文獻(xiàn)
[1]李德超,王克非.新型雙語旅游語料庫的研制和應(yīng)用[J].現(xiàn)代外語,2010,(1).