張克金?瞿莉莉
摘 要:本文基于外貿(mào)企業(yè)的B2B的銷售平臺角度,探討了小型語料庫的建立的四個步驟:料采集、格式轉(zhuǎn)換、標注及賦碼、語料的整合生成、語料庫的檢索,將小型語料庫用于商務英語翻譯教學,能豐富教學手段、提高教學效果。
關(guān)鍵詞:B2B外貿(mào)平臺,商務翻譯教學,語料庫
一、B2B外貿(mào)平臺及小型語料庫
B2B平臺為英文Business-to-Business的縮寫,即企業(yè)對企業(yè),或者說是進出口商之間的外貿(mào)電子商務平臺。B2B外貿(mào)平臺是外貿(mào)購銷市場的領(lǐng)域的一種,是出口方對進口方的國際營銷關(guān)系,其具體的運作方式主要是出口方以會員的身份在B2B平臺上用英語發(fā)布公司、銷售產(chǎn)品信息、付款方式及運輸?shù)刃畔?,而進口方則可以在外貿(mào)平臺上發(fā)布采購信息,雙方都可以在B2B平臺看到對方的信息后向另一方發(fā)Email詢盤或者通過Trade manager等軟件在線交流,從而使得外貿(mào)得以順利進行。目前國內(nèi)著名的B2B外貿(mào)平臺主要有Global sources Alibaba及Made-in-China等。
小型語料庫因其靈活適用性在語料庫的研究中成為一種較熱的研究項目,大型的語料庫主要是研究范圍較廣的綜合性研究,而小型語料庫一般是精心采集的,旨在幫助語言學習者理解語言現(xiàn)象的語料庫,尤其是在商務英語專業(yè)翻譯教學與研究過中,可以充分利用海量網(wǎng)絡資源及語料庫工具創(chuàng)建小型翻譯語料庫以輔助教學與科研。
二、小型翻譯語料庫的建立
在創(chuàng)建B2B翻譯的小型語料庫前,首先應根據(jù)該語料庫國際貿(mào)易用途及B2B網(wǎng)頁框架設定一些基本原則,在日常的商務翻譯教學過程中需要編撰一系列專用翻譯素材與教學輔導素材,如果以B2B平臺的翻譯為素材,自建小型語料庫,對翻譯教學將有較大的幫助。目前小型語料庫仍未有統(tǒng)一明確的規(guī)范與標準,但就其建立過程而言,主要分為料采集、格式轉(zhuǎn)換、標注及賦碼、語料的整合生成、語料庫的檢索四個主要的過程。
1.語料采集和格式轉(zhuǎn)換
開發(fā)大型的語料庫是一浩繁的系統(tǒng)工程,需要耗費大量的人力物力,對于一般的商務英語翻譯教學而言,只需有針對性地建立小型語料庫即可,建立B2B翻譯教學用小型語料庫首要工作就是要進行語料采集和格式轉(zhuǎn)換,欲善其事,必先利其器,須了解常用的工具件。
信息采集工具:因B2B商務平臺主要是網(wǎng)頁在線信息,故需運用一些網(wǎng)絡語料批采集軟件,常用的網(wǎng)絡信息收集軟件主要有Wordsmith Tools里面的網(wǎng)頁資料下載工具Webgetter以及Httrack等軟件;文字編制的軟件主要有Editpad Pro、UltraEdit、EditPlus等軟件。
文字識別轉(zhuǎn)換工具:常見的文字識別及轉(zhuǎn)換工具主要有將PDF文檔轉(zhuǎn)換成word格式的Solid Converter PDF軟件;Adobe Acrobat Pro、CAJ Viewer等,如果是要將掃描的文檔傳話識別成電子文檔還需要ABBYY Finereader軟件。
專門針對B2B平臺的網(wǎng)頁語料采集,一般采用Httrack軟件,將要采集的企業(yè)的B2B平臺信息采集下載。
2. 語料的賦碼
從網(wǎng)絡上下載的文本一般還不是清潔文本,需要清除雜質(zhì)與多余的標點符號,將清潔前后的文本進行分類命名保存。語料賦碼工作的第一步通常是加Text header,即給語料標注篇名、作者、字數(shù)、領(lǐng)域、文體、來源、關(guān)鍵詞等,一般做法是將上述項目分別填入尖括號中并放置在文本句首。
目前還沒有自動編寫Text header的軟件,需要手動編寫,一般的小型與語料庫是可以根據(jù)個人實際需要不編寫Text header。
目前較通用的語料進行賦碼的軟件有Tree Tagger自動詞性賦碼器,使用該賦碼器對英語賦碼準確率在96%~97%之間,以下為基本的操作步驟:
第一步,雙擊打開Tree Tagger軟件。
第二步,點擊左上角的File菜單,選擇其中的“Open File”選項或者“open Direction”選項,打開對話框。
第三步,在對話框中選取需要詞性賦碼的文檔,選中后點擊“Open”按鈕。
第四步,在界面的上方“English,German,F(xiàn)rench,Italian”語言框中選取文本語言的種類。
第五步,點擊“ Start Tagging”按鈕,軟件就開始對打開的文本進行詞性賦碼。
Tree Tagger軟件對所選文本詞性賦碼完成后,會在原文本所在文件夾中生成同名文件,只是擴展名已經(jīng)變成了“.pos”, 此文件就是賦碼后的文件。
3.語料的整合
在對B2B平臺采集的語料進行賦碼后,需要對這些賦碼的語料進行整合后,才能做檢索工作。目前做語料整合檢索的軟件主要有WordSmith,Compulang WordPilot以及Antconc等軟件。在建立一般小型的語料庫時,我們一般采用wordpilot軟件整合語料庫,具體的步驟如下:
第一步,在“wordpilot”安裝路徑所在系統(tǒng)盤所在文件夾中找到“l(fā)ibraries”子文件夾,在子文件夾中創(chuàng)建一個自建語料庫的文件夾,將以上搜集賦碼的B2B清潔語料復制到該文件夾中。
第二步,雙擊運行“wordpilot”軟件,選擇“file”菜單里面的“new”選項,出現(xiàn)對話框,選擇系統(tǒng)文件里面的“l(fā)ibrary”文件夾。
第三步,選擇“Edit”菜單中的“Add text file”選項,軟件會彈出對話框,在對話框中找到新建在“l(fā)ibraries”文件夾中的語料庫純文檔,選擇后對話框會自動關(guān)閉。
第四步,選擇“File”菜單中文件保存的“Save”選項,鍵入自己命名的語料庫的名詞,比如說“B2B platform”保存即可,這樣一個小型的語料庫就生成了。
4.語料的檢索
語料庫的檢索的目的是導出索引行,以便于研究者觀察類似的語言現(xiàn)象,洞察其中的秘密,這些規(guī)律主要包括這幾個規(guī)律:①有關(guān)詞語搭配的規(guī)律。一個詞語慣常與哪些詞語搭配出現(xiàn),詞語的搭配一方面是與意義有關(guān),另一方面是與搭配形式有關(guān),分析詞語的搭配對翻譯教學具有重要的意義。②有關(guān)類聯(lián)結(jié)及形式的規(guī)律,搭配研究中主要是考慮詞與詞的共現(xiàn)關(guān)系。根據(jù)檢索的難度系數(shù)來分,可以分為簡單檢索與復雜檢索,簡單檢索的檢索項目主要是檢索一些明確的字面字符串和較為簡單的通配符, 檢索項中主要是常量檢索,變化形式不大。而復雜檢索中的檢索項是模糊綜合性的, 檢索表達式中常包含一系列變量, 比如對賦碼語料中詞性的檢索。本文主要以Antconc軟件為例說明語料庫的整合及檢索。Antconc軟件是由日本早稻田大學科技學院與工程學院英語教育中心的Laurence Anthony教授編寫的一款跨平臺語料處理軟件,該軟件具有索引,詞表生成,主題詞計算,搭配和詞組提取等多種功能。語料庫建庫及檢索過程的具體方法如下:
第一步,點擊file菜單窗口出現(xiàn)“open files”,選擇要打開的語料文件。
第二步,在“Search Term”一欄鍵入要檢索的關(guān)鍵詞詞項,如tea,trade term,等等。
第三步,在“Search Window Size”一欄設置顯示的詞語數(shù)量。
第四步,點擊“start”開始檢索。
三、結(jié)語
語料庫的建立在我國目前正在發(fā)展階段,語料庫的建立及其軟件的應用為商務英語教學提供了新的教學方法與教學手段。通過建立小型的B2B商務英語語料庫的建設,可以對國際貿(mào)易商務平臺上面常用的項目進行模塊化,每一個模塊的語料都有重疊之處,通過建立這樣的語料庫,可以為商務英語B2B平臺的翻譯提供有力的教學與練習工具,促進商務英語翻譯教學的發(fā)展。
參考文獻:
[1]桂詩春,楊惠中.中國學習者英語語料庫[M].上海:上海外語教育出版社,2003.
[2]王克菲.新型雙語對應語料庫的設計與構(gòu)建[J].中國翻譯,2004(6).
[3]趙宏展.小型翻譯語料庫的DIY[J]. 中國科技翻譯,2007(2).
[4]楊惠中.語料庫語言學導論[M].上海:上海外語教育出版社,2002.
[5]陽光武. 社會建構(gòu)主義模式與漢英翻譯教學[J]. 四川外語學院學報,2004(2).
[6] 梁茂成,李文中,許家金. 語料庫應用教程[M].北京:外語教學與研究出版社,2010.
(作者單位:張克金 長沙師范學院;瞿莉莉 湖南鐵路科技職業(yè)技術(shù)學院)