• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      日語專業(yè)金融方向日漢雙語語料庫構(gòu)建和應用

      2020-01-07 14:03:47宋一鑫胡煒姍白雪
      科學導報·學術 2020年52期

      宋一鑫 胡煒姍 白雪

      【摘?要】隨著“一帶一路”的推進和全球化進程,外語人才的需求量也在增長。如今的外語人才除了要求翻譯能力外,也需要他們具有翻譯專業(yè)領域的能力,例如,汽車、工程、經(jīng)濟等方面??萍技夹g的進步與發(fā)展,各個專業(yè)的專有名詞和特殊句型亦日漸豐富,外語人才也面臨著龐大的記憶需求。本文總結(jié)了構(gòu)建金融方向日漢雙語語料庫和小范圍的應用推廣的經(jīng)驗,期望可以拋磚引玉,吸引更多人士將語料庫推廣到更多專業(yè)層面和課堂教學上。

      【關鍵詞】日漢雙語;語料庫構(gòu)建;語料庫應用

      一、漢字對日本語言文字的影響

      一般說來,漢字是兩種文字的組合,在日本語言文化中,假名有平假名和片假名兩種區(qū)分。有學者研究認為,平假名的產(chǎn)生與我國的草書有關,而片假名的產(chǎn)生與我國的漢字楷書有關,平假名主要在日語的日常書寫中,而片假名則主要是日本語言文化中對外來詞、象聲詞進行標注的一種方式。在日本的很多正式文件中,漢字是重要的書寫內(nèi)容,且占據(jù)很大的比重。在日語中,常用的漢字有兩千多個,其他領域使用的漢字的數(shù)量更多。日本教育中對于漢字的掌握程度也有專門的考核,比如在小學或者初中的學習中,必須掌握一定數(shù)量的漢字才能畢業(yè),如果不能達到要求,則不能順利畢業(yè)。掌握更多漢字的讀寫技巧,可以使日本人在生活以及工作中的各種活動得到有效的開展。日語中的很多文獻也是使用漢字進行書寫的,而且一直流傳至今,在今后也將繼續(xù)傳承下去,是日本傳統(tǒng)文化研究的一個重要載體和途徑,具有很高的參考價值。試想一下如果在日語文化中廢除了漢字,則很多歷史記錄、政治公務記錄任務都不可能完成,很多歷史文化也得不到傳承,會給日本的發(fā)展帶來很大的阻礙。

      二、語料庫簡介

      1 語料庫的定義

      語料庫是以電子計算機為載體承載語言知識的基礎資源。關于語料庫的基本認識:語料庫中存放的是在語言的實際使用中真實出現(xiàn)過的語言材料;真實語料需要經(jīng)過加工(分析和處理),才能成為有用的資源。語料庫,顧名思義,就是存放語言材料的倉庫。目前,人們通常所說的語料庫是指存放在計算機里的未添加標記的原始文本或者經(jīng)過加工添加了語言學信息標記的文本。

      2語料庫的分類

      1. 多語種語料庫

      多語種語料(Multilingual corpora)經(jīng)常經(jīng)過格式特殊處理進行比對研究,也被稱作平行語料庫。它是由大量的平行文本(parallel text)組成。平行文本通常是幾種語言放在一起,有原文有譯文,對齊放置。較為著名的平行文本有洛布古典叢書和克萊梵語叢書。平行文本不僅僅是兩種語言的平行,有時會有多種語言集合。如圣經(jīng)研究中,關于圣經(jīng)的譯文可以有多種版本。較為著名的便是俄利根的《圣經(jīng)六國譯文合璧》,其中為舊約提供了六個版本。在多語種語料庫中,一定要注意多語種語義的平行對齊,這是保障語言學研究的前提條件。一般情況下,雙語平行語料庫中,主要有兩種類型,翻譯語料庫(translation corpus)和對比語料庫(comparable corpus)。在翻譯語料庫中,一種語言的文本會是另外語種語言文本的翻譯。在翻譯過程中,翻譯人員可以對句子進行拆分、合并、刪除、插入或重新排列。翻譯語料庫現(xiàn)如今廣泛運用于機器翻譯中,機器翻譯實際屬于計算機語言學中的一類,其方法是通過某種程序?qū)⒁环N語言翻譯成另外一種語言。借助語料庫,便可以提供大量準確而地道的目標語言文本,從而使計算機可以生成更加復雜的自動翻譯,處理更復雜的語言翻譯。在對比語料庫中,文本都是同種類型,覆蓋同種內(nèi)容,但是他們并不是互相翻譯的關系。為開發(fā)平行語料庫,有些文本需以一個短語或句子組成的語塊進行匹配。其中,經(jīng)常會運用由兩種語言語料庫組成的平行語塊對雙語的機器翻譯進行訓練。為使語料庫能夠?qū)φZ言學研究更能有用,他們通常會運用到注釋程序,比如,對演講的部分內(nèi)容進行注釋或是詞性標注。

      2. 數(shù)圖資料庫

      一些語料庫還可用于分析文本結(jié)構(gòu)水平。尤其是一些較小的語料庫,有可能全部都有解析。這些語料庫通常稱為數(shù)圖資料庫(Treebanks)或者解析語料庫(Parsed Corpora)。在語言學中,數(shù)圖資料庫就是一個文本的解析語料庫,對句法或語義結(jié)構(gòu)進行注釋。在二十世紀九十年代初期的解析語料庫的建造使計算機語言學發(fā)生了翻天覆地的變化,使他們從大范圍經(jīng)驗數(shù)據(jù)中獲益。世界上規(guī)模最大的數(shù)圖資料庫是賓夕法尼亞大學數(shù)圖資料庫(The PennTreebank)。自從該資料庫建立以后,數(shù)圖資料庫的運用便顯得十分重要。雖然該類型語料庫是源于計算機語言學,但是其研究領域范圍已經(jīng)涉及整個語言學研究。在數(shù)圖資料庫中,會對所有文字進行注解。

      3. 考古語料庫

      考古語料庫(Archaeological corpora)被用作研究歷史文檔,破譯古老的文本,或運用于宗教學領域研究。考古語料庫并不是新興的產(chǎn)物,在考古學中,古時候存在的大量文字語言的書籍或材料便可組成一個考古語料庫,如前文所說的羅塞塔石碑。石碑制作于公元前一九六年,原本只是一塊刻有古埃及法老托勒密五世詔書的石碑,但由于這塊石碑同時刻有同一段內(nèi)容的三種不同語言版本,使得近代的考古學家得以有機會對照各語言版本的內(nèi)容后,解讀出已經(jīng)失傳千余年的埃及象形文之意義與結(jié)構(gòu),而是研究古埃及歷史的重要里程碑

      三、國內(nèi)語料庫的發(fā)展現(xiàn)狀

      語料庫,指經(jīng)科學取樣和加工的大規(guī)模電子文本庫,使用者可以借助計算機等工具快速尋找一個或者多個真實使用的語言范例。雖然目前國內(nèi)已有多項語料庫相關的研究和建設,但開放型語料庫相對來說數(shù)量不多。已開發(fā)的語料庫尚未完全進入到外語課堂,多數(shù)外語專業(yè)學生依賴于詞典和網(wǎng)絡搜索。目前公開的可以低價或免費利用的雙語語料庫中,日語語料庫從內(nèi)容量和更新率來講遠遠低于英語語料庫。根據(jù)報道,北京語言大學等國內(nèi)多家大學已經(jīng)完成雙語語料庫、垂直語料庫的建設,但多為英漢雙語,日語語料庫和日漢雙語語料庫較少。目前常被提及的日語語料庫有日本國立國語研究所研究的《現(xiàn)代日語書面語均衡語料庫》(BCCWJ),收錄了在日本發(fā)行的日語書籍、報刊、雜志、政府白皮書等出版物,共計詞匯量一億多。國內(nèi)方面,有北京外國語大學北京日本學研究中心徐一平主持的《中日對譯語料庫》(CDROM)。筆者在實際使用了多個日語 / 日漢雙語語料庫后感受到語料庫更新較慢,專業(yè)性詞匯較少。并且在日語外語學習者中語料庫沒有得到真正的推廣,實際的使用率較低。隨著網(wǎng)絡技術的發(fā)展和市場的需求,越來越多的學者也指出,今后語料庫勢必會進入到外語教學的課堂,也會向?qū)I(yè)化、共享化、智能化方向發(fā)展。筆者認為在大數(shù)據(jù)時代的背景下,構(gòu)建一個專業(yè)方向的雙語語料庫,符合當前外語教學中語言加專業(yè)化的發(fā)展趨勢,也希望通過建立一個語料庫的平臺達到學生、教師雙方互利的局面。

      四、語料庫的研究意義

      本研究第一,希望可以解決學生們對于日語詞匯的局限性。在目前的外語教學中,學生對于日語詞匯的理解多源于課本或者字典上的翻譯解釋和教師的講解,一個日語詞匯對照一個中文翻譯,在實際的使用中生搬硬套,整句不符合日語表達習慣。語料庫包含大量的真實語例,可以讓學生了解到詞匯的正確使用和搭配,幫助學生選擇更符合母語習慣的詞匯。第二,翻譯工作中要求翻譯內(nèi)容必須滿足“專業(yè)性、統(tǒng)一性、準確性”,但由于目前課本更新速度有限,部分詞匯在工具書中找不到對應的翻譯,在實際的翻譯教學現(xiàn)場,同一個專有詞匯經(jīng)常被翻譯為不同的對應內(nèi)容。日語專業(yè)金融方向日漢雙語語料庫,讓學生在做金融方向相關翻譯時可以準確、快捷地找到標準翻譯,提高翻譯質(zhì)量,縮短翻譯時間。第三,提供語言運用真實范例。在目前的日語教學中,教師會花費大量的時間思考例句,但其例句的實用性和邏輯性都有不足,利用日漢雙語語料庫既可以減少教師編寫教案的時間量,也可以利用真實的語境語例,提高學生的外語語感。第四,語料庫中收集的政府公文、新聞報道、金融機構(gòu)公文等不同文體可以給學生提供正式的雙語文體模板。第五,希望可以改變現(xiàn)有的教與學的被動模式,為學生提供自學、自查的平臺,提高學生自主學習的動機和能力。

      五、構(gòu)建日漢雙語雙語語料庫的步驟

      構(gòu)建日漢雙語語料庫具體分為:收集日漢對譯內(nèi)容語料、語料降噪、語料對齊、語料上傳和語料庫公開分享五個步驟。

      (一)語料收集

      按照:1. 原文和譯文為對應關系;2. 原文具有可讀性;3. 譯文應符合譯出語的表達習慣。這三項標準,筆者選取了一帶一路相關官方文章中三篇內(nèi)容,《海上絲綢之路的愿景與行動》《亞洲基礎設施投資銀行協(xié)定》《中國關鍵詞 -- 一帶一路》。三篇文章的中文文本選自一帶一路網(wǎng)、中華人民共和國財政部官方網(wǎng)站等,對應的日語文本選擇自 SciencePortalChina、中國駐日本大使館等官方性或?qū)W術性網(wǎng)站,保證語料的真實性、有效性和行文的嚴謹。

      (二)語料降噪

      語料收集自網(wǎng)絡,因此文字內(nèi)容在轉(zhuǎn)換處理時會將原本網(wǎng)頁的代碼等非文章本身的內(nèi)容帶入,需要利用 Word 軟件轉(zhuǎn)換收集的語料格式,剔除和文章內(nèi)容無關的信息。由于在中文系統(tǒng)下,日語漢字和假名在批量轉(zhuǎn)換格式時會出現(xiàn)錯字、別字、漏字的情況,最后需要加入人工校對檢查語料的正確性和完整性。

      (三)語料對齊

      將降噪過的語料上傳到 Tmxmall 的在線對齊功能 Aligner 系統(tǒng),由于 Aligner 系統(tǒng)不能完全做到工整對齊,因此需要通過人工檢查,將日語和漢語以句子為單位進行拆分,但由于日語和漢語語法不一致,語句無法做到嚴格的一一對應,因此在拆分時會出現(xiàn)一對多或者多對一的情況。以保證原文的句法邏輯完整為準,按照句號為標記拆分原文,譯文不管內(nèi)容多少則需要和原文拆分后的內(nèi)容相符合。逐一檢查句法的邏輯性和完整性,以及錯譯、漏譯、錯字、漏字等并一一討論修改。最后利用軟件的對齊功能調(diào)整對齊文章。若文章較長或有多篇文章,建議分數(shù)次上傳對齊。

      (四)語料庫上傳

      通過 Tmxmall 的 Aligner 對齊后,利用系統(tǒng)自帶的導出功能導出對譯語料存為 tmx 格式。在 Tmxmall 個人頁面中新建記憶庫并命名,將導出后的多個 tmx 格式的語料逐一上傳至建立的記憶庫中,完成金融方向日漢雙語語料庫。

      (五)語料庫分享

      語料庫構(gòu)建完成之后,通過 Tmxmall 的付費功能,可以將語料庫分享給多人。

      六、語料庫的應用案例和使用感受

      為了得到語料庫的實際使用感受,筆者按照語料庫收錄內(nèi)容設計了一個小型的實際應用案例。筆者選取本校兩名大三日語系學生,要求將日語原文的《財務部長談亞洲基礎投資銀行》翻譯成為中文,原文為訪談類文章,共計 3054 字,內(nèi)容為 2015 年 3 月日本記者就亞洲投資銀行的相關問題采訪當時的中國財政部部長。根據(jù)譯前問卷調(diào)查,兩名學生此前未翻譯過訪談類的文體或相關內(nèi)容,也未翻譯過較長的文字內(nèi)容。翻譯原文中亦涉及到多處一帶一路相關政策、金融類專有名詞等。筆者要求學生以此語料庫為參考工具,并提出翻譯的“專業(yè)性、統(tǒng)一性、準確性”三個標準,將文章翻譯為適合發(fā)布的中文內(nèi)容。每名學生平均花費約 4 個小時左右,完整譯出文章。譯文經(jīng)三位教師對譯檢查,對各項指標進行審查。對其評價為:學生的譯文符合漢語母語規(guī)范,準確、有效地翻譯出了原文中存在的各個專有 詞,并且譯文滿足了訪談文章的特殊體裁。在三個月的試用期后,筆者向使用了語料庫的師生們收集了關于語料庫使用的感想。其中對于語料庫的不足的意見主要有:

      (1)語料庫的內(nèi)容較少,內(nèi)容比較單一,只能完成針對性強的內(nèi)容。

      (2)檢索目標詞匯時,搜索結(jié)果中只標記了目標詞匯,對譯的內(nèi)容則沒有相應的標記。

      (3)希望開發(fā) app 應用程序,可以利用移動設備隨時查找。

      (4)希望加入語音查找功能,加快查找的效率。此外,對于語料庫感到滿意的地方有:①對于專有名詞、口號、標題等固定格式的翻譯可以通過語料庫快速準確地找到對譯內(nèi)容。②對于公文、條例、采訪、規(guī)章等特殊文體的翻譯時有較好的啟示性和示范性作用。③利用語料庫快速找到詞匯、語法、句型的例句,對于教師備課提供了一個準確、快捷的平臺。

      七、關于雙語語料庫的構(gòu)建、應用及今后的推廣

      現(xiàn)在的網(wǎng)絡提供了非常豐富的語料資源和便捷的語料制作存放平臺。本次語料庫的打造耗時約 1 個半月,利用網(wǎng)絡可以即時收集到最新的雙語資料,也可以通過多方面的對比,篩選優(yōu)質(zhì)的符合標準的雙語語料內(nèi)容。雖然計算機可以批量操作減少部分工作量,但是在語料降噪,語料對齊等步驟時依舊需要加入人工的篩選和刪減,因此如要建立大型的語料庫,也需要采取多人合作的方式,投入相應的人力成本。此外,目前可存放語料庫的平臺較少,按照語料的數(shù)量、可分享的人數(shù)、可同時啟用查詢的記憶庫最大數(shù)量、每天可檢索次數(shù)的最大數(shù)量的不同,而產(chǎn)生相應的費用,且使用費用不低,若要建立大型語料庫供多人查閱,其成本也是不可忽略的一方面。并且對于如今習慣移動設備操作的使用者來講,網(wǎng)頁版的使用操作具有一定的局限性。在實際應用方面,語料庫可以讓學生迅速查找到專有名詞的對應譯法,也可以通過完整的句子和段落,幫助學生掌握詞匯的固定搭配,以及公文、演講、書信等特殊文體的表達方式。通過提供多個語言實例和語言出現(xiàn)的頻率和概率,讓學生可以在同義詞中選擇正確合適的選項。在翻譯教學方面,許多學者提出了翻譯教學中需要加強學生的跨文化意識,要求學生在翻譯時不能停留在表面的語言轉(zhuǎn)換表達上,而是需要符合譯出語的語境和表達習慣。語料庫為學生提供了真實有效的語言表達,學生可以將語料庫的翻譯作為參考,和自己的譯文對比,在檢索和對比的學習中,了解譯出語的語境和表達習慣,讓譯出語更符合母語者的用法,也就是所謂的更“地道”。并且,在以往的教學工作中,教師需要花費大量的時間思考例句,但是大部分的例句在邏輯性和實用性上都不太理想。教師可以利用語料庫尋找更貼近實際語境、更有邏輯性和實用性的語句。除了現(xiàn)有的大型語料庫外,學生可以按照自己的需求建立語料庫。在語料庫的建設中接觸大量的原文,對于學生來講也是一個鍛煉學習的機會。語料庫需要大量的語料支撐才能成為有利用價值的語料庫。隨著大數(shù)據(jù)技術的發(fā)展,語料庫也應該走出研究室走出大學,成為共建共享的資源。打造語料庫簡單操作,易上手,對于中高級外語學習者和譯者來說也是一個一勞永逸的項目。雖然語料庫的建立和使用都需要一定的費用,但是如果可以吸引更多的企業(yè)和學校加入語料庫的打造,提供資金和技術的支持,相信語料庫可以得到更大的推廣。

      八、結(jié)語

      語料庫的建設無論是在日常教學中或者譯員翻譯中都有著積極的作用。但目前語料庫依舊處于研究、應用、教學相互獨立的階段,想要語料庫有更好的應用和發(fā)展需要更多人的關注和意見,如果學者和教師都能夠參與其中,將語料庫引入實際的課堂教學和翻譯現(xiàn)場,今后語料庫也將成為生活學習中便利的工具。

      參考文獻:

      [1]管新潮,陶友蘭 . 語料庫與翻譯 [M]. 上海:復旦大學出版社,2017.

      [2]胡開寶,毛鵬飛 . 國外語料庫翻譯學研究述評 [J]. 當代語言學,2012(4):51.

      [3]桂詩春,馮志偉,楊慧中,何安平,衛(wèi)乃興,李文中,梁茂成 . 語料庫語言學與中國外語教學 [J]. 現(xiàn)代外語,2010(4):93-100.

      (作者單位:遼寧工業(yè)大學)

      揭东县| 金门县| 禄劝| 博野县| 师宗县| 拜城县| 乐昌市| 台东市| 竹山县| 囊谦县| 佛学| 景宁| 沁水县| 博白县| 且末县| 抚远县| 长乐市| 河南省| 葫芦岛市| 揭东县| 泰顺县| 太原市| 施秉县| 菏泽市| 永城市| 武邑县| 泽普县| 黔西县| 左云县| 奉化市| 麻江县| 武安市| 广丰县| 莱芜市| 金寨县| 临沭县| 赫章县| 黑河市| 崇州市| 靖远县| 闽侯县|