胡富茂
(洛陽理工學(xué)院 外語系,河南 洛陽 471023)
國內(nèi)的語塊研究越來越細(xì)致與深入,涉及的方面主要包括搭配研究(繆海燕、孫藍(lán),2005)、語塊運(yùn)用與英語口語和寫作之間的關(guān)系研究(王立非、張巖,2006)、語塊學(xué)習(xí)在二語習(xí)得中的地位研究(濮建忠,2003)、語塊提取(李潔晶、趙曉臨,2007;衛(wèi)乃興,2009;邢富坤,2012)等。語塊是語言的半成品,以整體形式儲(chǔ)存在大腦中,有較固定的語法結(jié)構(gòu)限制和穩(wěn)定的搭配意義,因此,在應(yīng)用時(shí)具有快捷方便、準(zhǔn)確流利的優(yōu)勢(shì)。此種言語程式或行話由于出現(xiàn)頻率很高,并且形式和意義較固定,使用的語境也較固定,就像一個(gè)板塊一樣,如:cash on delivery(貨到付款)、confirming your order(確認(rèn)你方的訂單)、accept your firm offer(接受你方的實(shí)盤)等。Sinclair(1991)認(rèn)為:“那些出現(xiàn)頻率高的詞匯串成了英語中基本的語言單位,大約70%的英語語言由存儲(chǔ)于人體大腦的語言板塊構(gòu)成”?!皳?jù)電腦統(tǒng)計(jì)數(shù)據(jù)顯示,像這些語義較固定的各類形式的語塊在自然語言中占到90%的比例”(李太志,2006)。
本文提出了一種基于規(guī)則匹配的語塊自動(dòng)提取方案,通過自動(dòng)在互聯(lián)網(wǎng)上采集網(wǎng)頁構(gòu)建動(dòng)態(tài)語料庫,利用英漢商務(wù)信函語塊的結(jié)構(gòu)、意義和功能等方面的特征,將英漢商務(wù)信函語塊分為全稱縮略語塊、慣用表達(dá)語塊、專業(yè)術(shù)語語塊三種類型,并制定英漢商務(wù)信函語塊自動(dòng)提取規(guī)則,最終實(shí)現(xiàn)從語料中自動(dòng)提取英漢商務(wù)信函語塊的功能。
語料庫已成為語言學(xué)理論研究、語言學(xué)應(yīng)用研究和語言信息處理不可缺少的基礎(chǔ)資源。為了對(duì)英漢商務(wù)信函語塊的語言學(xué)特點(diǎn)進(jìn)行觀察總結(jié),同時(shí)進(jìn)行基于規(guī)則的英漢商務(wù)信函語塊提取,我們需要先構(gòu)建一個(gè)規(guī)模足夠大的語料庫。顯然,通過手工的方法下載分析成千上萬的網(wǎng)頁、提取語料信息是不可行的。因此,通過動(dòng)態(tài)語料庫構(gòu)建的方式自動(dòng)獲取大規(guī)模的文本語料就顯得尤為重要。
通過觀察,我們發(fā)現(xiàn)隨著互聯(lián)網(wǎng)在信息傳遞中的地位越來越突出,很多報(bào)紙、期刊紛紛建立網(wǎng)站,以與紙質(zhì)媒體同步的速度提供大量文獻(xiàn)資料。這些文獻(xiàn)資料大都結(jié)構(gòu)規(guī)范一致,信息完整。這也為后期英漢商務(wù)信函語塊的提取提供了方便。因此,我們希望對(duì)這些網(wǎng)站進(jìn)行自動(dòng)下載和分析,收集大量語料,構(gòu)建英漢商務(wù)信函動(dòng)態(tài)語料庫。
從互聯(lián)網(wǎng)上直接下載的語料是半結(jié)構(gòu)化的,往往結(jié)構(gòu)復(fù)雜,含有大量HTML語言標(biāo)記,語料信息淹沒在蕪雜的網(wǎng)頁標(biāo)記中,不方便直接提取文本內(nèi)容。我們采用基于網(wǎng)頁結(jié)構(gòu)分析的方法,通過HTML的起止標(biāo)記來提取語料信息。HTML文檔包括文本和標(biāo)記,一條基本的標(biāo)記語句形式為:
<標(biāo)記名稱 屬性列表(參數(shù)列表)>[</標(biāo)記名稱>]
我們可以簡(jiǎn)單地把標(biāo)記分為兩類:包容標(biāo)記和空標(biāo)記。包容標(biāo)記由一個(gè)開始標(biāo)記和一個(gè)結(jié)束標(biāo)記構(gòu)成,中間是數(shù)據(jù)對(duì)象。空標(biāo)記只有起始標(biāo)記而沒有結(jié)束標(biāo)記。因此可以通過對(duì)網(wǎng)頁中HTML標(biāo)記的起止標(biāo)記進(jìn)行格式分析,判斷標(biāo)記的意義,提取其中有效的信息。我們以《中國日?qǐng)?bào)(財(cái)經(jīng)頻道)》的英文官方網(wǎng)站“http://www.chinadaily.com.cn/business/”和中文官方網(wǎng)站“http://www.chinadaily.com.cn/hqcj/”為例,從網(wǎng)頁自動(dòng)下載和語料信息抽取兩個(gè)方面來說明動(dòng)態(tài)語料庫的構(gòu)建方法。
首先,分析一下《中國日?qǐng)?bào)(財(cái)經(jīng)頻道)》英文官方網(wǎng)站的特點(diǎn),該網(wǎng)站提供的每一篇文獻(xiàn)都有其單獨(dú)的網(wǎng)頁,網(wǎng)頁地址中的編號(hào)簡(jiǎn)單遞增(如 http://www.chinadaily.com.cn/business/2011-02/26/content_12082981.htm)。利用網(wǎng)頁地址中編號(hào)的變化規(guī)律對(duì)網(wǎng)站進(jìn)行爬取,就可以下載所有的文獻(xiàn)網(wǎng)頁。同樣,《中國日?qǐng)?bào)(財(cái)經(jīng)頻道)》中文網(wǎng)站提供的每一篇文獻(xiàn)也都有其單獨(dú)的網(wǎng)頁(如http://www.chinadaily.com.cn/hqcj/gjcj/2011 -02 -24/content_1849755.html),網(wǎng)頁地址中的編號(hào)簡(jiǎn)單遞增。根據(jù)第一篇文獻(xiàn)的網(wǎng)頁地址向服務(wù)器發(fā)出HTTP請(qǐng)求,捕獲服務(wù)器的HTTP響應(yīng)信息,取出信息內(nèi)容存入結(jié)果文本。改變參數(shù)n和code的值,依次獲取所有文獻(xiàn)網(wǎng)頁。
每個(gè)網(wǎng)站都有自己的一套HTML起止標(biāo)記模板,通過判斷這些標(biāo)記的意義,我們可以解析出大量網(wǎng)頁的語料信息。
通過對(duì)上述網(wǎng)頁的HTML語言標(biāo)記的格式分析,可以建立其邏輯結(jié)構(gòu)圖,如圖1所示。
圖1 網(wǎng)頁邏輯結(jié)構(gòu)圖
根據(jù)上面的起止標(biāo)記可以解析得到網(wǎng)頁的標(biāo)題、正文等信息。由于我們建立動(dòng)態(tài)語料庫的目的是用于自動(dòng)提取英漢商務(wù)信函語塊,而同時(shí)包含英漢商務(wù)信函語塊的句子一般只存在于網(wǎng)頁的正文中,因此,構(gòu)建動(dòng)態(tài)語料庫只需要提取網(wǎng)頁的正文部分。通過對(duì)《中國日?qǐng)?bào)(財(cái)經(jīng)頻道)》的英文官方網(wǎng)站和中文官方網(wǎng)站網(wǎng)頁HTML格式的分析,我們發(fā)現(xiàn)網(wǎng)頁正文部分起止標(biāo)記如下:
<P class=MsoNormal style=[參數(shù)]align=[參數(shù)]>(正方信息)</P>
語料信息抽取主要利用起止標(biāo)記,通過所設(shè)計(jì)的Extract類提供的屬性和方法提取網(wǎng)頁的正文信息。Extract類包含一個(gè)extract函數(shù),該函數(shù)主要通過調(diào)用.NET Framework基類String類的成員public string Substring(int startIndex,int length)的方法實(shí)現(xiàn)單一信息的抽取功能,如抽取文章的標(biāo)題等等。extract方法的數(shù)據(jù)輸入為:待抽取的HTML字符串(string strInput)、模板的起止標(biāo)記字符串(string strLeft,string strRight)。輸出數(shù)據(jù)為抽取到的字符串(string strOutput)。具體流程如圖2所示:
圖2 語料信息抽取流程圖
解析得到的數(shù)據(jù)還需要進(jìn)行數(shù)據(jù)清洗和格式化。許多網(wǎng)頁為了美觀都加入了大量的網(wǎng)頁特效標(biāo)記、圖片以及超鏈接等等,如:換行符(<br> </br>)、鏈接標(biāo)記(<a> </a>)、層標(biāo)記(<div> </div>)、空格標(biāo)記( )等,這些都需要經(jīng)過特別處理來實(shí)現(xiàn)對(duì)語料信息的格式化?!罢齽t表達(dá)式是處理此類語塊的強(qiáng)大工具。”(Friedl,2006)我們通過編程,利用正則表達(dá)式實(shí)現(xiàn)對(duì)數(shù)據(jù)的清洗和格式化處理工作。數(shù)據(jù)清洗和格式化用到的正則表達(dá)式舉例如下:
(<[a-zA-Z]+[^>]* >)|(</[a-zA -Zd]+>)|( )
第一個(gè)“|”號(hào)前面部分匹配HTML開始標(biāo)記,它查找一個(gè)“<”字符,后面跟a到z之間的大小寫任意的任何一個(gè)或多個(gè)字母(“[a-zA-Z]+”部分中,“[a-zA -Z]”表示任意一個(gè)大寫或小寫字母,“+”表示一個(gè)或多個(gè)),接著是除“>”以外的零到多個(gè)任意字符(“[^>]* ”部分,“^”表示非,“[^>]”表示除“>”之外的任意字符,“* ”表示零或多個(gè)),最后以“>”字符結(jié)尾。
兩個(gè)“|”號(hào)中間的部分“(< /[a-zA -Zd]+ >)”匹配結(jié)束標(biāo)記,它匹配一個(gè)“<”字符,后跟一個(gè)“/”字符,然后是a到z之間的大小寫任意的任何一個(gè)或多個(gè)字母或者數(shù)字(“d”表示數(shù)字),最后以“>”字符結(jié)尾。
最后的部分匹配空格標(biāo)記“ ”。
如果還有其他特殊標(biāo)記,可以參照上述方法設(shè)計(jì)相應(yīng)的正則表達(dá)式進(jìn)行清除。這樣就基本完成了數(shù)據(jù)清洗和格式化,得到干凈的文本,可以進(jìn)行英漢商務(wù)信函語塊的提取。
基于規(guī)則的英漢商務(wù)信函語塊提取共包括三個(gè)步驟:英漢商務(wù)信函識(shí)別規(guī)則設(shè)計(jì)、文本預(yù)處理和后期處理。
目前課題組初步構(gòu)建了一個(gè)規(guī)模為200萬詞次的英漢商務(wù)信函語料庫,包括四個(gè)子庫:英語商務(wù)信函語料庫、漢語商務(wù)信函語料庫、英漢商務(wù)信函平行語料庫、漢英商務(wù)信函平行語料庫,該庫為動(dòng)態(tài)的,可以自動(dòng)獲取服務(wù)于語塊自動(dòng)提取的知識(shí)資源。我們從語言學(xué)的研究角度,將英漢商務(wù)信函語塊分為全稱縮略語塊、慣用表達(dá)語塊、專業(yè)術(shù)語語塊三種類型:①全稱縮略語塊。經(jīng)濟(jì)原則是大量商務(wù)縮略詞產(chǎn)生和被使用的最大原因。全稱縮略語塊涉及到貿(mào)易價(jià)格術(shù)語、保險(xiǎn)、運(yùn)輸、支付與結(jié)算等商務(wù)各個(gè)方面。例如:FOB(Free On Board)船上交貨、CFR(cost and freight)成本加運(yùn)、FCA(Free Carrier)貨交承運(yùn)人、FPA(Free from Particular Average)平安險(xiǎn)、WPA(With Particular Average)水漬險(xiǎn),等等。②慣用表達(dá)語塊。慣用表達(dá)短語雖然專業(yè)性沒有那么強(qiáng),但是也是較常用的。例如:In reply to your letter(茲復(fù))、Thank you for your cooperation(多謝你方合作)、by the way(轉(zhuǎn)換話題)、such as(列舉事物)、general speaking(評(píng)價(jià)),等等。③ 專業(yè)術(shù)語語塊。商務(wù)英語信函中幾乎每個(gè)環(huán)節(jié)都有套話與行話。例如:confirming your order(確認(rèn)你方的訂單)、accept your firm offer(接受你方的實(shí)盤),等等。
英漢商務(wù)信函語塊識(shí)別部分的主要任務(wù)是根據(jù)英漢商務(wù)信函語塊的結(jié)構(gòu)特征、意義特征、功能特征,制定相應(yīng)的規(guī)則識(shí)別出文本中的候選語塊,從全稱縮略語塊、慣用表達(dá)語塊、專業(yè)術(shù)語語塊三種分類中制定英漢商務(wù)信函語塊提取規(guī)則并進(jìn)行識(shí)別。下表是在候選英語商務(wù)信函語塊識(shí)別過程中使用到的文本標(biāo)記和句法特征詞規(guī)則。
表1 文本標(biāo)記和句法特征詞規(guī)則
確定句子以后就可以利用英語商務(wù)信函語塊識(shí)別規(guī)則對(duì)候選英語商務(wù)信函語塊進(jìn)行識(shí)別。下表是制定的候選漢語商務(wù)信函語塊提取規(guī)則。
找到候選漢語商務(wù)信函語塊以后,系統(tǒng)可以利用該規(guī)則進(jìn)行查找,將找到的詞語與文本標(biāo)記或句法特征詞之間的字符串作為候選縮略語。在英漢商務(wù)信函語塊提取階段,系統(tǒng)利用模板將候選英語商務(wù)信函語塊與候選漢語商務(wù)信函語塊進(jìn)行逐一匹配,最后找出正確的英漢商務(wù)信函語塊。
文本預(yù)處理部分的主要任務(wù)是對(duì)動(dòng)態(tài)語料庫中的語料進(jìn)行初步的處理,提取出包含指定規(guī)則的句子用于英漢商務(wù)信函語塊識(shí)別。下面以縮略語的提取為例進(jìn)行說明。該部分主要包括兩個(gè)步驟:
(1)去除不可能包含英漢商務(wù)信函縮略語語塊的括號(hào)。通過對(duì)實(shí)際語料的觀察,我們發(fā)現(xiàn)存在一些括號(hào)作為插入語用于解釋或說明。有的括號(hào)僅包含數(shù)字或者是數(shù)字加上特定符號(hào)(如百分號(hào)“%”、連字號(hào)“-”、斜杠“/”)等等。
對(duì)于這種括號(hào)中僅包含數(shù)字或者是數(shù)字加上特定符號(hào)的情況,由于括號(hào)內(nèi)不可能包含英漢商務(wù)信函縮略語語塊,如果不預(yù)先處理,勢(shì)必會(huì)在下一步語塊識(shí)別中進(jìn)行許多無用的提取,浪費(fèi)系統(tǒng)資源和時(shí)間,并且影響準(zhǔn)確率。因此,有必要預(yù)先去除這種括號(hào)。
(2)將文本切分為句子,提取出包含括號(hào)的句子。如果一個(gè)句子中含有多個(gè)括號(hào),則以右括號(hào)“)”為標(biāo)記,將句子切分為若干個(gè)子句,提取出包含括號(hào)的子句。
對(duì)英語文本進(jìn)行句子切分,鑒于英語文本中句點(diǎn)“.”的情況復(fù)雜,“需要設(shè)計(jì)詳細(xì)的規(guī)則和相應(yīng)的正則表達(dá)式,并結(jié)合一定的統(tǒng)計(jì)數(shù)據(jù),才能提高英語句子自動(dòng)切分的準(zhǔn)確率”(Clough,2001)。我們采用了上述規(guī)則和統(tǒng)計(jì)相結(jié)合的句子切分方法,效果良好?!坝⒄Z句子切分也可以用最大熵的方法解決”(Kit&Liu,2005)。漢語句子的切分也不容易,逗號(hào)“,”經(jīng)常也可以作為斷句的標(biāo)記,利用中文樹庫,“通過機(jī)器學(xué)習(xí)的方法可以達(dá)到比較理想的切分效果”(Xue,2005)。切分好的英、漢句子可以通過句長(zhǎng)、雙語詞典等進(jìn)行句對(duì)齊處理(Gale&Church,1991;Brown et al,1991;Chen,1993;Wu,1994;Li et al,2010)。
我們安排了課題組中兩位外國語言學(xué)與應(yīng)用語言學(xué)專業(yè)商務(wù)英語語言研究方向的教師(碩士學(xué)位)分別對(duì)測(cè)試語料中的英漢商務(wù)信函語塊進(jìn)行人工合法性驗(yàn)證,如果兩位教師的意見出現(xiàn)分歧,則以課題組共同的意見為準(zhǔn)。
圖3 基于規(guī)則的英漢商務(wù)信函語塊自動(dòng)提取系統(tǒng)層次結(jié)構(gòu)圖
英漢商務(wù)信函語塊自動(dòng)提取系統(tǒng)包括基礎(chǔ)資源層、提取規(guī)則層和應(yīng)用層三個(gè)層次。具體層次結(jié)構(gòu)如圖3所示。
各層次的主要功能和作用分別是:(1)基礎(chǔ)資源層。該層通過對(duì)互聯(lián)網(wǎng)中指定網(wǎng)站的網(wǎng)頁進(jìn)行定期爬取和更新以及對(duì)網(wǎng)頁語料信息的抽取和格式化,自動(dòng)構(gòu)筑大規(guī)模英漢商務(wù)信函語料庫,為英漢商務(wù)信函語塊自動(dòng)提取提供基礎(chǔ)資源;(2)提取規(guī)則層。該層為英漢商務(wù)信函語塊自動(dòng)提取的規(guī)則庫。英漢商務(wù)信函語塊的自動(dòng)提取規(guī)則主要通過人工內(nèi)省的方式制定,輔之以規(guī)則與統(tǒng)計(jì)相結(jié)合的語言信息處理學(xué)習(xí)方法,從而對(duì)規(guī)則進(jìn)行不斷完善;(3)應(yīng)用層。該層將英漢商務(wù)信函語塊自動(dòng)提取的多種規(guī)則綜合地應(yīng)用到語塊的自動(dòng)識(shí)別過程中,實(shí)現(xiàn)英漢商務(wù)信函語塊的自動(dòng)提取。通過英漢商務(wù)信函動(dòng)態(tài)語料庫的不斷更新,逐步構(gòu)建起一個(gè)較大規(guī)模的英漢商務(wù)信函語塊庫。
英漢商務(wù)信函語塊自動(dòng)提取系統(tǒng)包括動(dòng)態(tài)語料庫構(gòu)筑和英漢商務(wù)信函語塊自動(dòng)提取兩大部分,共五個(gè)模塊。(1)網(wǎng)頁自動(dòng)下載模塊。網(wǎng)頁自動(dòng)下載模塊主要利用網(wǎng)頁地址編號(hào)將指定網(wǎng)站的網(wǎng)頁批量下載到本地硬盤;(2)語料信息抽取和格式化模塊。語料信息抽取和格式化模塊主要利用起止錨點(diǎn)標(biāo)記對(duì)下載的網(wǎng)頁進(jìn)行結(jié)構(gòu)解析,抽取網(wǎng)頁正文部分的信息,利用正則表達(dá)式去除網(wǎng)頁特效標(biāo)記和超鏈接標(biāo)記等噪音,對(duì)語料信息進(jìn)行數(shù)據(jù)清洗和格式化,最后得到干凈的文本語料;(3)文本預(yù)處理模塊。文本預(yù)處理模塊主要根據(jù)英漢商務(wù)信函語塊的文本標(biāo)記集和句法特征詞集對(duì)輸入的語料文本進(jìn)行初步的處理,在排除一些不可能包含英漢商務(wù)信函語塊的括號(hào)以后,提取出包含括號(hào)的句子;(4)英漢商務(wù)信函語塊識(shí)別模塊。英漢商務(wù)信函語塊識(shí)別部分的主要任務(wù)是根據(jù)英漢商務(wù)信函語塊的結(jié)構(gòu)特征、意義特征、功能特征,制定相應(yīng)的規(guī)則識(shí)別出文本中的候選語塊,從全稱縮略語塊、慣用表達(dá)語塊、專業(yè)術(shù)語語塊三種分類中制定英漢商務(wù)信函語塊自動(dòng)提取規(guī)則進(jìn)行識(shí)別;(5)后期處理模塊。后期處理模塊根據(jù)英漢商務(wù)信函語塊的類型對(duì)提取出的英漢商務(wù)信函語塊進(jìn)行合法性驗(yàn)證。
為了測(cè)試系統(tǒng)對(duì)開放性語料中英漢商務(wù)信函語塊自動(dòng)提取的能力,我們進(jìn)行了實(shí)驗(yàn)測(cè)試。下文以縮略語提取為例進(jìn)行說明。
本次實(shí)驗(yàn)的測(cè)試語料是從動(dòng)態(tài)語料庫中隨機(jī)選取的500篇英文和500篇中文未經(jīng)人工校對(duì)、自動(dòng)分詞以及詞性標(biāo)注的生語料,共計(jì)322156個(gè)英漢商務(wù)信函詞形,語料大小約4.1M。我們的語料收集范圍分為建立業(yè)務(wù)關(guān)系函、產(chǎn)品推銷函、資信查詢函、詢盤函、發(fā)盤還盤函、訂購函、裝運(yùn)通知函、支付結(jié)算函、索賠函、保險(xiǎn)函等,這些信函涉及商務(wù)活動(dòng)的全過程。
為了更加客觀地對(duì)系統(tǒng)性能進(jìn)行評(píng)測(cè),我們將準(zhǔn)確率(Precision)、召回率(Recall rate)和F值(F values)作為測(cè)試結(jié)果的評(píng)價(jià)指標(biāo),將語言學(xué)家的意見作為參考標(biāo)準(zhǔn)。
一般情況下,達(dá)到一定的識(shí)別精度后,識(shí)別的準(zhǔn)確率和召回率存在著一定的反相關(guān)性,準(zhǔn)確率的提高以召回率的降低為代價(jià)。本研究希望通過語動(dòng)態(tài)語料庫的不斷更新,逐步構(gòu)建起一個(gè)較大規(guī)模的英漢商務(wù)信函語塊庫,因此我們相對(duì)更注重準(zhǔn)確率的提高。
利用基于規(guī)則的英漢商務(wù)信函語塊自動(dòng)提取系統(tǒng),我們最后提取到367個(gè)英漢商務(wù)信函縮略語語塊,其中正確的有360個(gè)。根據(jù)專家的反饋信息,測(cè)試語料中共有395個(gè)英漢商務(wù)信函縮略語語塊。測(cè)試結(jié)果見表3。
表3 基于規(guī)則的英漢商務(wù)信函語塊自動(dòng)提取系統(tǒng)測(cè)試結(jié)果
經(jīng)過分析,測(cè)試結(jié)果中共有218個(gè)不同的英漢商務(wù)信函語塊。下表是在測(cè)試結(jié)果中出現(xiàn)100次以上的英漢商務(wù)信函語塊。
表4 測(cè)試結(jié)果中出現(xiàn)100次以上的英漢商務(wù)信函語塊(部分)
從測(cè)試結(jié)果來看,英漢商務(wù)信函語塊自動(dòng)提取系統(tǒng)取得了較好的效果,測(cè)試的準(zhǔn)確率為96.49%、召回率為94.99%、F值為95.73%。經(jīng)過分析,出現(xiàn)錯(cuò)誤提取和未能提取出英漢商務(wù)信函語塊的原因主要有以下幾個(gè)方面:
(1)英漢商務(wù)信函語塊都作為注釋放在括號(hào)中;
(2)括號(hào)中除了英漢商務(wù)信函語塊還包括其他信息。
造成提取問題的主要原因是因?yàn)樽匀徽Z言系統(tǒng)并不是一個(gè)精心規(guī)劃的系統(tǒng),很難用一套規(guī)則提取所有的英漢商務(wù)信函語塊,需要根據(jù)每種語言的具體情況不斷對(duì)規(guī)則庫進(jìn)行完善。
語塊數(shù)量如此之多,僅靠死記硬背是不現(xiàn)實(shí)的,因此,研究如何利用語料庫進(jìn)行語塊的自動(dòng)提取,在英漢語言教學(xué)和機(jī)器翻譯等方面的研究中具有十分重要的意義。我們利用計(jì)算機(jī)進(jìn)行基于英漢商務(wù)信函語料庫的語塊提取研究,具有兩方面重要意義:(1)英漢商務(wù)信函語塊提取的實(shí)現(xiàn)為研制在互聯(lián)網(wǎng)上進(jìn)行機(jī)器輔助英漢商務(wù)信函翻譯系統(tǒng)提供基礎(chǔ);(2)我們構(gòu)建的英漢商務(wù)信函動(dòng)態(tài)語料庫是面向商務(wù)領(lǐng)域的一個(gè)特定的語料庫,它對(duì)商務(wù)英語學(xué)習(xí)者、商務(wù)漢語學(xué)習(xí)者、翻譯學(xué)習(xí)者及工作者的研究與學(xué)習(xí)起到指導(dǎo)作用。
[1]李潔晶,趙曉臨.慶祝楊惠中先生執(zhí)教50周年暨應(yīng)用語言學(xué)研討會(huì)綜述[J].外語界,2007(3):75-79.
[2]李太志.詞塊在外貿(mào)英語寫作教學(xué)中的優(yōu)勢(shì)及產(chǎn)出性訓(xùn)練[J].外語界,2006(1):34-39.
[3]繆海燕,孫藍(lán).非詞匯化高頻動(dòng)詞搭配的組塊效應(yīng)——一項(xiàng)基于語料庫的研究[J].解放軍外國語學(xué)院學(xué)報(bào),2005(3):41-44.
[4]濮建忠.英語詞匯教學(xué)中的類聯(lián)接、搭配與詞塊[J].外語教學(xué)與研究,2003(6):438-445.
[5]王立非,張巖.基于語料庫的大學(xué)生英語議論文中的語塊使用模式研究[J].外語電化教學(xué),2006(4):36-41.
[6]衛(wèi)乃興.語料庫語言學(xué)的方法論及相關(guān)理念[J].外語研究,2009(5):36-42.
[7]邢富坤.多詞單位的描寫識(shí)別與詞典編纂[J].當(dāng)代語言學(xué),2012(4):407-417.
[8]Brown,Peter F.,Jennifer C.Lai & L.Robert,Mercer.Aligning sentences in parallel corpora[C]//Proceedings of the29th Annual Meeting of the Association for Computational Linguistics.California:Berkeley,USA.1991:169 -176.
[9]Chen,Stanley F.Aligning Sentences in Bilingual Corpora Using Lexical Information[C]//Proceedings of the31st Annual Meeting of the Association for Computational Linguistics.Ohio:Columbus,USA.1993:9-16.
[10]Clough P.A Perl Program for Sentence Splitting Using Rules[M].University of Sheffield,2001.
[11]Friedl,Jeffrey.Mastering Regular Expressions(3rd Edition)[M].Publisher:O’Reilly,2006.
[12]Li P,Sun M,Xue P.Fast-Champollion:a Fast and Robust Sentence Alignment Algorithm[C]//Proceedings of the23rd International Conference on Computational Linguistics.Posters,2010:710 -718.
[13]Gale,William A.& Kenneth W.Church.A Program for Aligning Sentences in Bilingual Corpora[C]//Proceedings of the29thAnnual Conference of the Association for Computational Linguistics.Berkeley,1991:177 -184.
[14]Kit,C.,Liu X.Period Disambiguation with MaxEnt Model[C]//Natural Language Processing-IJCNLP2005.Springer Berlin Heidelberg,2005:223 -232.
[15]Sinclair,J.M.Corpus,Concordance,Collocation[M].Oxford:Oxford University Press,1991.
[16]Xue N,Xia F,Chiou F D,et al.The Penn Chinese Tree-Bank:Phrase Structure Annotation of a Large Corpus[J].Natural Language Engineering,2005,11(2):207-216.
[17]Wu,Dekai.Aligning a Parallel English-Chinese Corpus Statistically with Lexical Criteria[C]//Proceedings of the32nd Annual Meeting of the Association for Computational Linguistics.Las Cruces,New Mexico,USA.1994:80 –87.