• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      優(yōu)化地學(xué)詞匯標(biāo)注方案 奠定完善地質(zhì)語料庫基礎(chǔ)*

      2013-10-23 11:58:26張翼翼董淑欣楊會蘭
      外語學(xué)刊 2013年4期
      關(guān)鍵詞:語料含義語料庫

      張翼翼 董淑欣 楊會蘭

      (中國地質(zhì)大學(xué),北京100083)

      優(yōu)化地學(xué)詞匯標(biāo)注方案 奠定完善地質(zhì)語料庫基礎(chǔ)*

      張翼翼 董淑欣 楊會蘭

      (中國地質(zhì)大學(xué),北京100083)

      在地學(xué)文獻(xiàn)翻譯實(shí)踐過程中,筆者通過Google在線翻譯提供的譯文,結(jié)合地質(zhì)專業(yè)詞匯的特點(diǎn),分析基于語料庫的機(jī)器翻譯系統(tǒng)存在的一些典型問題。同時(shí),從優(yōu)化詞匯標(biāo)注方案角度對語料處理提出建議,借此提升地學(xué)文獻(xiàn)的機(jī)器翻譯質(zhì)量,為構(gòu)建地學(xué)領(lǐng)域的專用型語料庫奠定基礎(chǔ)。

      語料庫;詞匯;標(biāo)注

      1 引言

      關(guān)于語料庫的定義,Atkins 和Clear認(rèn)為,語料庫是為專門目的、按照明確設(shè)計(jì)標(biāo)準(zhǔn)收集的文章集合(Granger 1998:7)。該定義包含3個(gè)方面:(1)建構(gòu)語料庫具有專門的目的;(2)語料庫具有明確的設(shè)計(jì)標(biāo)準(zhǔn);(3)語料庫是由文章組成的集合(王建新 2005:16)。也就是說,語料庫由自然出現(xiàn)的語言樣本匯集而成,是為語言研究而收集并用電子形式保存的語言材料。

      計(jì)算機(jī)技術(shù)迅速發(fā)展,使包含廣泛自然語料的語料庫得以建立。語料庫不僅對詞匯學(xué)、翻譯、語言教學(xué)等研究有巨大促進(jìn)作用,而且對機(jī)器翻譯軟件、信息提取軟件、拼寫檢查軟件的發(fā)展具有重大的推動作用,語料庫方法也因此成為自然語言處理的重要方法(王建新2005:4)。

      近年來,計(jì)算機(jī)語料庫對自然語言處理的各個(gè)不同方面(如話語識別、人機(jī)對話、信息提取、網(wǎng)頁分類、機(jī)器翻譯、文字處理等)都顯得極為重要,而且極具潛力,這已經(jīng)得到國際計(jì)算語言學(xué)界的廣泛認(rèn)可(王建新 2005:3)。但是,基于語料庫的機(jī)器翻譯的效果仍然不夠理想,尤其是涉及到具有專業(yè)背景和行業(yè)特色的相關(guān)文獻(xiàn)時(shí),這種不理想體現(xiàn)得更加明顯。

      目前,地學(xué)領(lǐng)域的中英文語料庫還未完全建立,作為專用型語料庫,地質(zhì)語料庫是專門為地學(xué)領(lǐng)域的科研、教學(xué)、教材編寫以及語言比較研究而收集的文章集合,其取樣的文本應(yīng)該力求代表地學(xué)環(huán)境中的英語語言及其變體。語料庫中除了大量地學(xué)信息有助于提升機(jī)器翻譯質(zhì)量之外,相應(yīng)語料處理尤其是詞匯標(biāo)注(附碼)在很大程度上決定著翻譯質(zhì)量的高低。因此,本文以節(jié)選自Long-termpersistenceofoilfromtheExxonValdezspillintwo-layerbeaches(NatureGeoscience)的片段為例,說明如何通過優(yōu)化語料庫詞匯的標(biāo)注方案,提升地學(xué)文獻(xiàn)的機(jī)器翻譯質(zhì)量,為完善地學(xué)領(lǐng)域的專用型語料庫奠定基礎(chǔ)。

      2 實(shí)證分析

      原文:Oil spilled from the tanker Exxon Valdez in 1989 (refs 1, 2) persists in the subsurface of gravel beaches in Prince William Sound, Alaska. / The contamination includes considerable amounts of chemicals that are harmful to the local fauna 3. / However, remediation of the beaches was stopped in 1992, because it was assumed that the disappearance rate of oil was large enough to ensure a complete removal of oil within a few years. / Here we present field data and numerical simulations of a two-layered beach with a small freshwater recharge in the contaminated area, where a high-permeability upper layer is underlain by a low-permeability lower layer.

      利用Google 提供的在線翻譯譯文:石油從油輪,埃克森公司在1989年瓦爾迪茲(文獻(xiàn)1,2)瀉堅(jiān)持在阿拉斯加州威廉王子灣,礫石的海灘地下。/ 污染向當(dāng)?shù)貏游锒际怯泻Φ幕瘜W(xué)物質(zhì),包括相當(dāng)數(shù)量。/ 然而,泳灘的整治是在1992年停止,因?yàn)樗羌僭O(shè)石油的消失率足夠大,以確保在幾年之內(nèi)徹底清除的石油。這里我們提出一個(gè)兩層的海灘,在污染區(qū),其中一個(gè)高滲透率的上層是由一個(gè)低滲透率較低層之下的小淡水補(bǔ)給領(lǐng)域的數(shù)據(jù)和數(shù)值模擬。

      在討論之前,首先看機(jī)器翻譯的基本模式(巢文涵 2008:9):

      從圖中可以看出,處理語料庫中的詞匯在機(jī)器翻譯中扮演著重要角色。Google提供的在線翻譯將remediation,removal分別譯為“整治”、“清除”,這說明機(jī)器翻譯系統(tǒng)針對某些詞匯能根據(jù)整個(gè)語篇進(jìn)行意義層面的對齊,然而對另外一些詞匯的釋義卻不夠理想。例如,將persist譯為“堅(jiān)持”,是由于受到后面介詞in的影響。英文單詞persist既有 “堅(jiān)持做某事”的釋義,也有“持續(xù)/存留”的釋義。Google在線翻譯使用的翻譯系統(tǒng)對語料庫中persist進(jìn)行詞類自動標(biāo)注時(shí),依據(jù)局部上下文線索(王建新 2005:180)區(qū)分persist的兩種含義,致使in及其后面單詞的詞性成為區(qū)分兩種不同意義的關(guān)鍵。其實(shí),原文中的in是地點(diǎn)狀語的一部分,與后面的名詞關(guān)系密切,與前面的動詞關(guān)系松散,并不代表persist in doing sth中的in,因此persist應(yīng)該翻譯為“存留”而非“堅(jiān)持”。有鑒于此,標(biāo)注詞匯時(shí)是將詞組拆開還是另覓其他組合方式,有賴于句法規(guī)則和出現(xiàn)頻率。

      受到固定搭配影響的例子還包括將assumed錯(cuò)誤地翻譯為“假設(shè)”,而沒有視其為常常出現(xiàn)在科技文章中的習(xí)慣性用法,正確地將it is assumed that翻譯成“人們認(rèn)為”。語料庫中的詞匯大部分是一個(gè)一個(gè)被標(biāo)注的,而特定語言環(huán)境要求靈活地將幾個(gè)單詞標(biāo)注為一個(gè)整體,這往往成為機(jī)器翻譯的死角。

      再如,由于忽略地質(zhì)英語詞匯的特點(diǎn),將field data直譯為“領(lǐng)域上的數(shù)據(jù)”。這說明現(xiàn)有語料庫對地學(xué)領(lǐng)域的語料收集不足,單詞釋義也缺乏融合專業(yè)背景的詳盡標(biāo)注。許多術(shù)語雖然由日常詞匯構(gòu)成,卻有別于常規(guī)用法,不可“望詞生義”,更不能將兩個(gè)單詞的詞義簡單疊加:field data 應(yīng)該譯為“野外數(shù)據(jù)”,field moisture 應(yīng)該譯為“土壤水分”,field capacity 應(yīng)該譯為“田間持水量”,oil field 應(yīng)該譯為“油田”。其他的例子還包括:ground water不是“地上的水”而是“地下水”,guide fossil不是“指導(dǎo)化石”而是“標(biāo)準(zhǔn)化石”,induced fracture 不是“引導(dǎo)裂縫”而是“次生裂縫”,oil recovery 不是“油恢復(fù)”而是“采油”,pressure buildup 不是“壓力增加”而是“壓力恢復(fù)”(何大順 2007)。

      高璞等(2009)認(rèn)為,地質(zhì)英語詞匯的特點(diǎn)按照構(gòu)成方式的不同可以分為:(1)本專業(yè)特有的詞匯,如geology(地質(zhì)學(xué))、mineral (礦石) 和dinosaur(恐龍);(2)與其他專業(yè)共有的詞匯,如reservoir(水力專業(yè))譯為“水庫”、plat form (交通專業(yè))譯為“站臺”;(3)與日常生活共用的詞匯,如fault (平時(shí)譯為“缺點(diǎn)”,地質(zhì)含義為“斷層”)、basin(平時(shí)譯為“盆或者臉盆”,地質(zhì)含義為“盆地或者流域”)、shear(平時(shí)譯為“剪切”,地質(zhì)含義為“受剪切破壞的面或者帶”)、graduate(平時(shí)譯為“畢業(yè)或者畢業(yè)生”,地質(zhì)含義為“刻度”)、envelope(平時(shí)譯為“封皮”,地質(zhì)含義為“圍巖”)、horizon(平時(shí)譯為“地平線”,地質(zhì)含義為“層位”)、joint(平時(shí)譯為“接頭”,地質(zhì)含義為“節(jié)理”)。顯然,上述因素會加大語料庫構(gòu)建過程中詞匯的標(biāo)注難度。

      即便都是地學(xué)的相關(guān)文獻(xiàn),由于細(xì)分的專業(yè)不同,同一單詞會呈現(xiàn)出不同含義,這使得詞匯的標(biāo)注過程更加復(fù)雜。例如,earth core 在普通地質(zhì)學(xué)中譯為“地核”,rare earth在能源地質(zhì)學(xué)中譯為“稀有金屬”,earth slide在工程地質(zhì)學(xué)中譯為“滑坡”(林徹 1983)。有時(shí)候,同一詞匯的含義在不同學(xué)科的地質(zhì)著作中大相徑庭。例如,當(dāng)trap與地層、構(gòu)造、沉積作用有關(guān)時(shí),譯為“圈閉”;與石油有關(guān)時(shí),譯為“油捕”;與火山巖有關(guān)時(shí),則譯為“暗色巖”。又如,deposit與各種礦產(chǎn)、礦床類型的術(shù)語以及專有名詞Noranda,Quemont,Jerome 等連用時(shí),通常譯為“礦床”,而與表示各種沉積巖類型的術(shù)語聯(lián)用時(shí)則譯為“沉積”。不僅如此,某些詞的單、復(fù)數(shù)形式也影響單詞的含義,例如,單數(shù)compass 譯為“羅盤”,復(fù)數(shù)compasses 則譯為“圓規(guī)”;單數(shù)earth譯為“地球”,復(fù)數(shù)earths譯為“土族金屬”;單數(shù)fold譯為“褶曲”,復(fù)數(shù)folds譯為“褶皺”;單數(shù)scale譯為“比例尺”,復(fù)數(shù)scales譯為“天平”(尹麗莉 2009)。遺憾的是,目前機(jī)器翻譯系統(tǒng)尚不能識別、區(qū)分這些詞匯及其形式所表意義上的細(xì)微差別。

      3 研究結(jié)論

      綜上所述,我們應(yīng)該加大帶有行業(yè)背景的專業(yè)語料的收集力度,為完善地學(xué)領(lǐng)域的專用型語料庫奠定堅(jiān)實(shí)的“物質(zhì)基礎(chǔ)”。而語料庫中的詞匯是否能夠被合理地標(biāo)注,則成為語料庫構(gòu)建的重中之重。筆者認(rèn)為,對于經(jīng)常用到的固定搭配,要根據(jù)科技文獻(xiàn)的寫作特點(diǎn),用整體標(biāo)注替代分別標(biāo)注;若通過機(jī)器翻譯系統(tǒng)的自動標(biāo)注軟件難以實(shí)現(xiàn)詞間“整合”,則在必要時(shí)采取自動標(biāo)注后的人工核對或者人工標(biāo)注;對于容易產(chǎn)生歧義的詞匯,要基于規(guī)則和概率結(jié)合的方法,根據(jù)上下文和專業(yè)排除可能的歧義。

      實(shí)際上,除了可以通過改進(jìn)詞匯的標(biāo)注方式來實(shí)現(xiàn)語料庫的維護(hù)和升級外,語料本身的質(zhì)量也決定著機(jī)器翻譯的質(zhì)量。這要求在收集語料時(shí),既要保證收錄高質(zhì)量的源語言語料,又要保證收錄相應(yīng)的高質(zhì)量譯文,如此,才能為語料的后期處理提供更多方便。

      巢文涵.基于雙語語料庫的機(jī)器翻譯關(guān)鍵技術(shù)研究[D]. 國防科學(xué)技術(shù)大學(xué)博士學(xué)位論文, 2008.

      陳群秀.計(jì)算機(jī)輔助翻譯系統(tǒng)漫談[Z].第十一屆全國民族語言文字信息研討會, 2007.

      馮志偉.機(jī)器翻譯研究[M].北京:中國對外翻譯出版公司, 2004.

      馮志偉.基于語料庫的機(jī)器翻譯系統(tǒng)[J].術(shù)語標(biāo)準(zhǔn)化與信息技術(shù), 2010(1).

      高璞等.石油地質(zhì)英語詞匯教學(xué)方法探析[J].中國地質(zhì)教育, 2009(4).

      何大順 何 春. 論地學(xué)專業(yè)文獻(xiàn)的英漢翻譯[J].成都理工大學(xué)學(xué)報(bào)(社會科學(xué)版), 2007(4).

      林 徹.地質(zhì)翻譯參考[M].北京:地質(zhì)出版社, 1983.

      曲江秀 譚麗娟.地質(zhì)專業(yè)英語的特點(diǎn)和教學(xué)方法探討[J].中國科教創(chuàng)新導(dǎo)刊, 2008(19).

      王建新.計(jì)算機(jī)語料庫的建設(shè)與應(yīng)用[M].北京:清華大學(xué)出版社, 2005.

      肖維青.平行語料庫與應(yīng)用翻譯研究[J].中國科技翻譯, 2007(3).

      尹麗莉.地質(zhì)英語的詞匯特點(diǎn)探析[J].吉林地質(zhì), 2009(3).

      Granger, S.TheComputerLearnerCorpus:AVersatileNewSourceofDataforSLAResearch[M]. London/New York: Longman, 1998.

      Mona, B.CorpusLinguisticsandTranslationStudies:ImplicationsandApplications[M]. Amsterdam: John Benjamins Publishing Company, 1993.

      OnWord-processingBasedupontheAnnotatedCorpus

      Zhang Yi-yi Dong Shu-xin Yang Hui-lan

      (China University of Geosciences, Beijing 100083, China)

      This study is done by the Work-shop of English for Geology, an academic group under the Department of Foreign Languages at China University of Geosciences (Beijing). According to a piece of Chinese episode translated into English by Google on the Internet, this paper focuses on how to make computer-aid-translation better in light of word-processing based upon the annotated corpus, by means of correcting the translations with problems and analyzing the features of writing in Geological field.

      corpus; word; annotated

      *本文系中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金資助項(xiàng)目“基于我國世界地質(zhì)公園的中英文公示語研究雙語平行對譯語料庫的構(gòu)建”(2-9-2012-04)的階段性成果。

      H314

      A

      1000-0100(2013)04-0122-3

      2013-03-31

      【責(zé)任編輯王松鶴】

      猜你喜歡
      語料含義語料庫
      Union Jack的含義和由來
      英語世界(2022年9期)2022-10-18 01:11:46
      《語料庫翻譯文體學(xué)》評介
      把課文的優(yōu)美表達(dá)存進(jìn)語料庫
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      虛榮的真正含義
      華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
      基于JAVAEE的維吾爾中介語語料庫開發(fā)與實(shí)現(xiàn)
      語言與翻譯(2015年4期)2015-07-18 11:07:45
      關(guān)于“獲得感”之含義
      《苗防備覽》中的湘西語料
      國內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
      罗源县| 邵武市| 永清县| 台州市| 杭州市| 丰原市| 滦南县| 巫溪县| 且末县| 上虞市| 潞西市| 壶关县| 汝州市| 弋阳县| 察雅县| 五寨县| 广东省| 金阳县| 西城区| 乌拉特前旗| 东兴市| 堆龙德庆县| 阿拉善左旗| 景谷| 高阳县| 辽宁省| 通河县| 林口县| 临沂市| 万宁市| 噶尔县| 大新县| 通山县| 湖口县| 新昌县| 屯门区| 唐山市| 石泉县| 津市市| 遂昌县| 阿拉善左旗|