• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      淺談?wù)Z料庫分類及用途

      2018-11-01 07:00:58代思師蔡容齡吳恒
      求知導(dǎo)刊 2018年25期
      關(guān)鍵詞:多語種目標(biāo)語言資料庫

      代思師 蔡容齡 吳恒

      一、語料庫的定義

      在語言學(xué)中,語料庫是指大量文本的集合。在語料庫語言學(xué)中,他們是主要用來進(jìn)行統(tǒng)計分析與假設(shè)檢定,在某一領(lǐng)域中,測試語言規(guī)律的出現(xiàn)或有效性。語料庫可以是某一單獨(dú)語種的文本(單語語料庫),又或者是多種語言中的文本數(shù)據(jù)。

      二、語料庫的分類

      1.多語種語料庫

      多語種語料(Multilingual corpora)經(jīng)常經(jīng)過格式特殊處理進(jìn)行比對研究,也被稱作平行語料庫。它是由大量的平行文本(parallel text)組成。平行文本通常是幾種語言放在一起,有原文有譯文,對齊放置。較為著名的平行文本有洛布古典叢書和克萊梵語叢書。平行文本不僅僅是兩種語言的平行,有時會有多種語言集合。如圣經(jīng)研究中,關(guān)于圣經(jīng)的譯文可以有多種版本。較為著名的便是俄利根的《圣經(jīng)六國譯文合璧》,其中為舊約提供了六個版本。

      在多語種語料庫中,一定要注意多語種語義的平行對齊,這是保障語言學(xué)研究的前提條件。一般情況下,雙語平行語料庫中,主要有兩種類型,翻譯語料庫(translation corpus)和對比語料庫(comparable corpus)。在翻譯語料庫中,一種語言的文本會是另外語種語言文本的翻譯。在翻譯過程中,翻譯人員可以對句子進(jìn)行拆分、合并、刪除、插入或重新排列。翻譯語料庫現(xiàn)如今廣泛運(yùn)用于機(jī)器翻譯中,機(jī)器翻譯實際屬于計算機(jī)語言學(xué)中的一類,其方法是通過某種程序?qū)⒁环N語言翻譯成另外一種語言。借助語料庫,便可以提供大量準(zhǔn)確而地道的目標(biāo)語言文本,從而使計算機(jī)可以生成更加復(fù)雜的自動翻譯,處理更復(fù)雜的語言翻譯。

      在對比語料庫中,文本都是同種類型,覆蓋同種內(nèi)容,但是他們并不是互相翻譯的關(guān)系。為開發(fā)平行語料庫,有些文本需以一個短語或句子組成的語塊進(jìn)行匹配。其中,經(jīng)常會運(yùn)用由兩種語言語料庫組成的平行語塊對雙語的機(jī)器翻譯進(jìn)行訓(xùn)練。為使語料庫能夠?qū)φZ言學(xué)研究更能有用,他們通常會運(yùn)用到注釋程序,比如,對演講的部分內(nèi)容進(jìn)行注釋或是詞性標(biāo)注。

      2.數(shù)圖資料庫

      一些語料庫還可用于分析文本結(jié)構(gòu)水平。尤其是一些較小的語料庫,有可能全部都有解析。這些語料庫通常稱為數(shù)圖資料庫(Treebanks)或者解析語料庫(Parsed Corpora)。在語言學(xué)中,數(shù)圖資料庫就是一個文本的解析語料庫,對句法或語義結(jié)構(gòu)進(jìn)行注釋。在二十世紀(jì)九十年代初期的解析語料庫的建造使計算機(jī)語言學(xué)發(fā)生了翻天覆地的變化,使他們從大范圍經(jīng)驗數(shù)據(jù)中獲益。世界上規(guī)模最大的數(shù)圖資料庫是賓夕法尼亞大學(xué)數(shù)圖資料庫(The Penn Treebank)。自從該資料庫建立以后,數(shù)圖資料庫的運(yùn)用便顯得十分重要。雖然該類型語料庫是源于計算機(jī)語言學(xué),但是其研究領(lǐng)域范圍已經(jīng)涉及整個語言學(xué)研究。在數(shù)圖資料庫中,會對所有文字進(jìn)行注解。

      3.考古語料庫

      考古語料庫(Archaeological corpora)被用作研究歷史文檔,破譯古老的文本,或運(yùn)用于宗教學(xué)領(lǐng)域研究。考古語料庫并不是新興的產(chǎn)物,在考古學(xué)中,古時候存在的大量文字語言的書籍或材料便可組成一個考古語料庫,如前文所說的羅塞塔石碑。石碑制作于公元前一九六年,原本只是一塊刻有古埃及法老托勒密五世詔書的石碑,但由于這塊石碑同時刻有同一段內(nèi)容的三種不同語言版本,使得近代的考古學(xué)家得以有機(jī)會對照各語言版本的內(nèi)容后,解讀出已經(jīng)失傳千余年的埃及象形文之意義與結(jié)構(gòu),而是研究古埃及歷史的重要里程碑。

      三、結(jié)語

      對于英語學(xué)習(xí)者來講,語料庫的用途也十分廣泛??捎糜谀繕?biāo)語言的學(xué)習(xí),同時也可以用作外文寫作的輔助工具,通過語料庫呈現(xiàn)的權(quán)威文本來掌握目標(biāo)語言的語句形成習(xí)慣。

      參考文獻(xiàn):

      [1]王克非,秦洪武.論平行語料庫在翻譯教學(xué)中的應(yīng)用[J].外語教學(xué)與研究,2015(5).

      [2]王克非.中國英漢平行語料庫的設(shè)計與研制[J].中國外語,2012(6).

      猜你喜歡
      多語種目標(biāo)語言資料庫
      語聯(lián)世界,言通天下
      基于內(nèi)容與協(xié)同過濾的GitHub學(xué)習(xí)資料庫推薦
      國家社科基金重大項目“‘古今字’資料庫建設(shè)與相關(guān)專題研究”成果鑒定會順利召開
      施工企業(yè)技術(shù)資料庫的建立與完善
      天津科技(2020年5期)2020-01-08 12:27:35
      教材插圖在英語課堂閱讀教學(xué)中的運(yùn)用及實例探討
      多語種《中級軍事漢語》教材的編寫思路與指導(dǎo)思想
      二語習(xí)得過程中的石化現(xiàn)象分析
      北美“新清史”研究的基石何在——是多語種史料考辨互證的實證學(xué)術(shù)還是意識形態(tài)化的應(yīng)時之學(xué)?(上)
      從英語碩士到法國博士——我的留學(xué)規(guī)劃和多語種學(xué)習(xí)之路
      新東方英語(2014年1期)2014-01-07 20:03:00
      概念任務(wù)下中英雙語者非目標(biāo)語言的詞匯通達(dá)
      德保县| 铜陵市| 资中县| 项城市| 柘荣县| 玉溪市| 朔州市| 阿克陶县| 澄江县| 沙湾县| 宜阳县| 象州县| 夹江县| 阳新县| 商丘市| 丹江口市| 利津县| 宁阳县| 安庆市| 永仁县| 云安县| 上高县| 大田县| 巢湖市| 杨浦区| 民权县| 延庆县| 五原县| 乌鲁木齐县| 凤庆县| 上高县| 文昌市| 射阳县| 沁源县| 兴业县| 阳原县| 大理市| 治多县| 上饶县| 苗栗市| 湖南省|