基于規(guī)則的英漢商務(wù)信函語塊提取研究

2013-09-12 07:57:54胡富茂

外國語文 2013年3期

胡富茂

(洛陽理工學(xué)院外語系，河南洛陽 471023)

1．引言

國內(nèi)的語塊研究越來越細(xì)致與深入，涉及的方面主要包括搭配研究(繆海燕、孫藍(lán)，2005)、語塊運(yùn)用與英語口語和寫作之間的關(guān)系研究(王立非、張巖，2006)、語塊學(xué)習(xí)在二語習(xí)得中的地位研究(濮建忠，2003)、語塊提取(李潔晶、趙曉臨，2007;衛(wèi)乃興，2009;邢富坤，2012)等。語塊是語言的半成品，以整體形式儲(chǔ)存在大腦中，有較固定的語法結(jié)構(gòu)限制和穩(wěn)定的搭配意義，因此，在應(yīng)用時(shí)具有快捷方便、準(zhǔn)確流利的優(yōu)勢(shì)。此種言語程式或行話由于出現(xiàn)頻率很高，并且形式和意義較固定，使用的語境也較固定，就像一個(gè)板塊一樣，如:cash on delivery(貨到付款)、confirming your order(確認(rèn)你方的訂單)、accept your firm offer(接受你方的實(shí)盤)等。Sinclair(1991)認(rèn)為:“那些出現(xiàn)頻率高的詞匯串成了英語中基本的語言單位，大約70%的英語語言由存儲(chǔ)于人體大腦的語言板塊構(gòu)成”?！皳?jù)電腦統(tǒng)計(jì)數(shù)據(jù)顯示，像這些語義較固定的各類形式的語塊在自然語言中占到90%的比例”(李太志，2006)。

本文提出了一種基于規(guī)則匹配的語塊自動(dòng)提取方案，通過自動(dòng)在互聯(lián)網(wǎng)上采集網(wǎng)頁構(gòu)建動(dòng)態(tài)語料庫，利用英漢商務(wù)信函語塊的結(jié)構(gòu)、意義和功能等方面的特征，將英漢商務(wù)信函語塊分為全稱縮略語塊、慣用表達(dá)語塊、專業(yè)術(shù)語語塊三種類型，并制定英漢商務(wù)信函語塊自動(dòng)提取規(guī)則，最終實(shí)現(xiàn)從語料中自動(dòng)提取英漢商務(wù)信函語塊的功能。

2．構(gòu)建動(dòng)態(tài)語料庫

語料庫已成為語言學(xué)理論研究、語言學(xué)應(yīng)用研究和語言信息處理不可缺少的基礎(chǔ)資源。為了對(duì)英漢商務(wù)信函語塊的語言學(xué)特點(diǎn)進(jìn)行觀察總結(jié)，同時(shí)進(jìn)行基于規(guī)則的英漢商務(wù)信函語塊提取，我們需要先構(gòu)建一個(gè)規(guī)模足夠大的語料庫。顯然，通過手工的方法下載分析成千上萬的網(wǎng)頁、提取語料信息是不可行的。因此，通過動(dòng)態(tài)語料庫構(gòu)建的方式自動(dòng)獲取大規(guī)模的文本語料就顯得尤為重要。

通過觀察，我們發(fā)現(xiàn)隨著互聯(lián)網(wǎng)在信息傳遞中的地位越來越突出，很多報(bào)紙、期刊紛紛建立網(wǎng)站，以與紙質(zhì)媒體同步的速度提供大量文獻(xiàn)資料。這些文獻(xiàn)資料大都結(jié)構(gòu)規(guī)范一致，信息完整。這也為后期英漢商務(wù)信函語塊的提取提供了方便。因此，我們希望對(duì)這些網(wǎng)站進(jìn)行自動(dòng)下載和分析，收集大量語料，構(gòu)建英漢商務(wù)信函動(dòng)態(tài)語料庫。

從互聯(lián)網(wǎng)上直接下載的語料是半結(jié)構(gòu)化的，往往結(jié)構(gòu)復(fù)雜，含有大量HTML語言標(biāo)記，語料信息淹沒在蕪雜的網(wǎng)頁標(biāo)記中，不方便直接提取文本內(nèi)容。我們采用基于網(wǎng)頁結(jié)構(gòu)分析的方法，通過HTML的起止標(biāo)記來提取語料信息。HTML文檔包括文本和標(biāo)記，一條基本的標(biāo)記語句形式為:

＜標(biāo)記名稱屬性列表(參數(shù)列表)＞［＜/標(biāo)記名稱＞］

我們可以簡(jiǎn)單地把標(biāo)記分為兩類:包容標(biāo)記和空標(biāo)記。包容標(biāo)記由一個(gè)開始標(biāo)記和一個(gè)結(jié)束標(biāo)記構(gòu)成，中間是數(shù)據(jù)對(duì)象。空標(biāo)記只有起始標(biāo)記而沒有結(jié)束標(biāo)記。因此可以通過對(duì)網(wǎng)頁中HTML標(biāo)記的起止標(biāo)記進(jìn)行格式分析，判斷標(biāo)記的意義，提取其中有效的信息。我們以《中國日?qǐng)?bào)(財(cái)經(jīng)頻道)》的英文官方網(wǎng)站“http://www．chinadaily．com．cn/business/”和中文官方網(wǎng)站“http://www．chinadaily．com．cn/hqcj/”為例，從網(wǎng)頁自動(dòng)下載和語料信息抽取兩個(gè)方面來說明動(dòng)態(tài)語料庫的構(gòu)建方法。

2．1 網(wǎng)頁自動(dòng)下載

首先，分析一下《中國日?qǐng)?bào)(財(cái)經(jīng)頻道)》英文官方網(wǎng)站的特點(diǎn)，該網(wǎng)站提供的每一篇文獻(xiàn)都有其單獨(dú)的網(wǎng)頁，網(wǎng)頁地址中的編號(hào)簡(jiǎn)單遞增(如 http://www．chinadaily．com．cn/business/2011－02/26/content_12082981．htm)。利用網(wǎng)頁地址中編號(hào)的變化規(guī)律對(duì)網(wǎng)站進(jìn)行爬取，就可以下載所有的文獻(xiàn)網(wǎng)頁。同樣，《中國日?qǐng)?bào)(財(cái)經(jīng)頻道)》中文網(wǎng)站提供的每一篇文獻(xiàn)也都有其單獨(dú)的網(wǎng)頁(如http://www．chinadaily．com．cn/hqcj/gjcj/2011 －02 －24/content_1849755．html)，網(wǎng)頁地址中的編號(hào)簡(jiǎn)單遞增。根據(jù)第一篇文獻(xiàn)的網(wǎng)頁地址向服務(wù)器發(fā)出HTTP請(qǐng)求，捕獲服務(wù)器的HTTP響應(yīng)信息，取出信息內(nèi)容存入結(jié)果文本。改變參數(shù)n和code的值，依次獲取所有文獻(xiàn)網(wǎng)頁。

2．2 語料信息抽取和格式化

每個(gè)網(wǎng)站都有自己的一套HTML起止標(biāo)記模板，通過判斷這些標(biāo)記的意義，我們可以解析出大量網(wǎng)頁的語料信息。

通過對(duì)上述網(wǎng)頁的HTML語言標(biāo)記的格式分析，可以建立其邏輯結(jié)構(gòu)圖，如圖1所示。

圖1 網(wǎng)頁邏輯結(jié)構(gòu)圖

根據(jù)上面的起止標(biāo)記可以解析得到網(wǎng)頁的標(biāo)題、正文等信息。由于我們建立動(dòng)態(tài)語料庫的目的是用于自動(dòng)提取英漢商務(wù)信函語塊，而同時(shí)包含英漢商務(wù)信函語塊的句子一般只存在于網(wǎng)頁的正文中，因此，構(gòu)建動(dòng)態(tài)語料庫只需要提取網(wǎng)頁的正文部分。通過對(duì)《中國日?qǐng)?bào)(財(cái)經(jīng)頻道)》的英文官方網(wǎng)站和中文官方網(wǎng)站網(wǎng)頁HTML格式的分析，我們發(fā)現(xiàn)網(wǎng)頁正文部分起止標(biāo)記如下:

＜P class=MsoNormal style=［參數(shù)］align=［參數(shù)］＞(正方信息)＜/P＞

語料信息抽取主要利用起止標(biāo)記，通過所設(shè)計(jì)的Extract類提供的屬性和方法提取網(wǎng)頁的正文信息。Extract類包含一個(gè)extract函數(shù)，該函數(shù)主要通過調(diào)用．NET Framework基類String類的成員public string Substring(int startIndex，int length)的方法實(shí)現(xiàn)單一信息的抽取功能，如抽取文章的標(biāo)題等等。extract方法的數(shù)據(jù)輸入為:待抽取的HTML字符串(string strInput)、模板的起止標(biāo)記字符串(string strLeft，string strRight)。輸出數(shù)據(jù)為抽取到的字符串(string strOutput)。具體流程如圖2所示:

圖2 語料信息抽取流程圖

解析得到的數(shù)據(jù)還需要進(jìn)行數(shù)據(jù)清洗和格式化。許多網(wǎng)頁為了美觀都加入了大量的網(wǎng)頁特效標(biāo)記、圖片以及超鏈接等等，如:換行符(＜br＞＜/br＞)、鏈接標(biāo)記(＜a＞＜/a＞)、層標(biāo)記(＜div＞＜/div＞)、空格標(biāo)記(＆nbsp;)等，這些都需要經(jīng)過特別處理來實(shí)現(xiàn)對(duì)語料信息的格式化?！罢齽t表達(dá)式是處理此類語塊的強(qiáng)大工具。”(Friedl，2006)我們通過編程，利用正則表達(dá)式實(shí)現(xiàn)對(duì)數(shù)據(jù)的清洗和格式化處理工作。數(shù)據(jù)清洗和格式化用到的正則表達(dá)式舉例如下:

(＜［a－zA－Z］+［^＞］* ＞)|(＜/［a－zA －Zd］+＞)|(＆nbsp;)

第一個(gè)“|”號(hào)前面部分匹配HTML開始標(biāo)記，它查找一個(gè)“＜”字符，后面跟a到z之間的大小寫任意的任何一個(gè)或多個(gè)字母(“［a－zA－Z］+”部分中，“［a－zA －Z］”表示任意一個(gè)大寫或小寫字母，“+”表示一個(gè)或多個(gè))，接著是除“＞”以外的零到多個(gè)任意字符(“［^＞］* ”部分，“^”表示非，“［^＞］”表示除“＞”之外的任意字符，“* ”表示零或多個(gè))，最后以“＞”字符結(jié)尾。

兩個(gè)“|”號(hào)中間的部分“(＜ /［a－zA －Zd］+ ＞)”匹配結(jié)束標(biāo)記，它匹配一個(gè)“＜”字符，后跟一個(gè)“/”字符，然后是a到z之間的大小寫任意的任何一個(gè)或多個(gè)字母或者數(shù)字(“d”表示數(shù)字)，最后以“＞”字符結(jié)尾。

最后的部分匹配空格標(biāo)記“＆nbsp;”。

如果還有其他特殊標(biāo)記，可以參照上述方法設(shè)計(jì)相應(yīng)的正則表達(dá)式進(jìn)行清除。這樣就基本完成了數(shù)據(jù)清洗和格式化，得到干凈的文本，可以進(jìn)行英漢商務(wù)信函語塊的提取。

3．基于規(guī)則的英漢商務(wù)信函語塊提取

基于規(guī)則的英漢商務(wù)信函語塊提取共包括三個(gè)步驟:英漢商務(wù)信函識(shí)別規(guī)則設(shè)計(jì)、文本預(yù)處理和后期處理。

3．1 英漢商務(wù)信函語塊識(shí)別規(guī)則設(shè)計(jì)

目前課題組初步構(gòu)建了一個(gè)規(guī)模為200萬詞次的英漢商務(wù)信函語料庫，包括四個(gè)子庫:英語商務(wù)信函語料庫、漢語商務(wù)信函語料庫、英漢商務(wù)信函平行語料庫、漢英商務(wù)信函平行語料庫，該庫為動(dòng)態(tài)的，可以自動(dòng)獲取服務(wù)于語塊自動(dòng)提取的知識(shí)資源。我們從語言學(xué)的研究角度，將英漢商務(wù)信函語塊分為全稱縮略語塊、慣用表達(dá)語塊、專業(yè)術(shù)語語塊三種類型:①全稱縮略語塊。經(jīng)濟(jì)原則是大量商務(wù)縮略詞產(chǎn)生和被使用的最大原因。全稱縮略語塊涉及到貿(mào)易價(jià)格術(shù)語、保險(xiǎn)、運(yùn)輸、支付與結(jié)算等商務(wù)各個(gè)方面。例如:FOB(Free On Board)船上交貨、CFR(cost and freight)成本加運(yùn)、FCA(Free Carrier)貨交承運(yùn)人、FPA(Free from Particular Average)平安險(xiǎn)、WPA(With Particular Average)水漬險(xiǎn)，等等。②慣用表達(dá)語塊。慣用表達(dá)短語雖然專業(yè)性沒有那么強(qiáng)，但是也是較常用的。例如:In reply to your letter(茲復(fù))、Thank you for your cooperation(多謝你方合作)、by the way(轉(zhuǎn)換話題)、such as(列舉事物)、general speaking(評(píng)價(jià))，等等。③ 專業(yè)術(shù)語語塊。商務(wù)英語信函中幾乎每個(gè)環(huán)節(jié)都有套話與行話。例如:confirming your order(確認(rèn)你方的訂單)、accept your firm offer(接受你方的實(shí)盤)，等等。

英漢商務(wù)信函語塊識(shí)別部分的主要任務(wù)是根據(jù)英漢商務(wù)信函語塊的結(jié)構(gòu)特征、意義特征、功能特征，制定相應(yīng)的規(guī)則識(shí)別出文本中的候選語塊，從全稱縮略語塊、慣用表達(dá)語塊、專業(yè)術(shù)語語塊三種分類中制定英漢商務(wù)信函語塊提取規(guī)則并進(jìn)行識(shí)別。下表是在候選英語商務(wù)信函語塊識(shí)別過程中使用到的文本標(biāo)記和句法特征詞規(guī)則。

表1 文本標(biāo)記和句法特征詞規(guī)則

確定句子以后就可以利用英語商務(wù)信函語塊識(shí)別規(guī)則對(duì)候選英語商務(wù)信函語塊進(jìn)行識(shí)別。下表是制定的候選漢語商務(wù)信函語塊提取規(guī)則。

找到候選漢語商務(wù)信函語塊以后，系統(tǒng)可以利用該規(guī)則進(jìn)行查找，將找到的詞語與文本標(biāo)記或句法特征詞之間的字符串作為候選縮略語。在英漢商務(wù)信函語塊提取階段，系統(tǒng)利用模板將候選英語商務(wù)信函語塊與候選漢語商務(wù)信函語塊進(jìn)行逐一匹配，最后找出正確的英漢商務(wù)信函語塊。

3．2 文本預(yù)處理

文本預(yù)處理部分的主要任務(wù)是對(duì)動(dòng)態(tài)語料庫中的語料進(jìn)行初步的處理，提取出包含指定規(guī)則的句子用于英漢商務(wù)信函語塊識(shí)別。下面以縮略語的提取為例進(jìn)行說明。該部分主要包括兩個(gè)步驟:

(1)去除不可能包含英漢商務(wù)信函縮略語語塊的括號(hào)。通過對(duì)實(shí)際語料的觀察，我們發(fā)現(xiàn)存在一些括號(hào)作為插入語用于解釋或說明。有的括號(hào)僅包含數(shù)字或者是數(shù)字加上特定符號(hào)(如百分號(hào)“%”、連字號(hào)“－”、斜杠“/”)等等。

對(duì)于這種括號(hào)中僅包含數(shù)字或者是數(shù)字加上特定符號(hào)的情況，由于括號(hào)內(nèi)不可能包含英漢商務(wù)信函縮略語語塊，如果不預(yù)先處理，勢(shì)必會(huì)在下一步語塊識(shí)別中進(jìn)行許多無用的提取，浪費(fèi)系統(tǒng)資源和時(shí)間，并且影響準(zhǔn)確率。因此，有必要預(yù)先去除這種括號(hào)。

(2)將文本切分為句子，提取出包含括號(hào)的句子。如果一個(gè)句子中含有多個(gè)括號(hào)，則以右括號(hào)“)”為標(biāo)記，將句子切分為若干個(gè)子句，提取出包含括號(hào)的子句。

對(duì)英語文本進(jìn)行句子切分，鑒于英語文本中句點(diǎn)“．”的情況復(fù)雜，“需要設(shè)計(jì)詳細(xì)的規(guī)則和相應(yīng)的正則表達(dá)式，并結(jié)合一定的統(tǒng)計(jì)數(shù)據(jù)，才能提高英語句子自動(dòng)切分的準(zhǔn)確率”(Clough，2001)。我們采用了上述規(guī)則和統(tǒng)計(jì)相結(jié)合的句子切分方法，效果良好?！坝⒄Z句子切分也可以用最大熵的方法解決”(Kit＆Liu，2005)。漢語句子的切分也不容易，逗號(hào)“，”經(jīng)常也可以作為斷句的標(biāo)記，利用中文樹庫，“通過機(jī)器學(xué)習(xí)的方法可以達(dá)到比較理想的切分效果”(Xue，2005)。切分好的英、漢句子可以通過句長(zhǎng)、雙語詞典等進(jìn)行句對(duì)齊處理(Gale＆Church，1991;Brown et al，1991;Chen，1993;Wu，1994;Li et al，2010)。

3．3 后期處理

我們安排了課題組中兩位外國語言學(xué)與應(yīng)用語言學(xué)專業(yè)商務(wù)英語語言研究方向的教師(碩士學(xué)位)分別對(duì)測(cè)試語料中的英漢商務(wù)信函語塊進(jìn)行人工合法性驗(yàn)證，如果兩位教師的意見出現(xiàn)分歧，則以課題組共同的意見為準(zhǔn)。

4．實(shí)驗(yàn)測(cè)試及其分析

圖3 基于規(guī)則的英漢商務(wù)信函語塊自動(dòng)提取系統(tǒng)層次結(jié)構(gòu)圖

英漢商務(wù)信函語塊自動(dòng)提取系統(tǒng)包括基礎(chǔ)資源層、提取規(guī)則層和應(yīng)用層三個(gè)層次。具體層次結(jié)構(gòu)如圖3所示。

各層次的主要功能和作用分別是:(1)基礎(chǔ)資源層。該層通過對(duì)互聯(lián)網(wǎng)中指定網(wǎng)站的網(wǎng)頁進(jìn)行定期爬取和更新以及對(duì)網(wǎng)頁語料信息的抽取和格式化，自動(dòng)構(gòu)筑大規(guī)模英漢商務(wù)信函語料庫，為英漢商務(wù)信函語塊自動(dòng)提取提供基礎(chǔ)資源;(2)提取規(guī)則層。該層為英漢商務(wù)信函語塊自動(dòng)提取的規(guī)則庫。英漢商務(wù)信函語塊的自動(dòng)提取規(guī)則主要通過人工內(nèi)省的方式制定，輔之以規(guī)則與統(tǒng)計(jì)相結(jié)合的語言信息處理學(xué)習(xí)方法，從而對(duì)規(guī)則進(jìn)行不斷完善;(3)應(yīng)用層。該層將英漢商務(wù)信函語塊自動(dòng)提取的多種規(guī)則綜合地應(yīng)用到語塊的自動(dòng)識(shí)別過程中，實(shí)現(xiàn)英漢商務(wù)信函語塊的自動(dòng)提取。通過英漢商務(wù)信函動(dòng)態(tài)語料庫的不斷更新，逐步構(gòu)建起一個(gè)較大規(guī)模的英漢商務(wù)信函語塊庫。

英漢商務(wù)信函語塊自動(dòng)提取系統(tǒng)包括動(dòng)態(tài)語料庫構(gòu)筑和英漢商務(wù)信函語塊自動(dòng)提取兩大部分，共五個(gè)模塊。(1)網(wǎng)頁自動(dòng)下載模塊。網(wǎng)頁自動(dòng)下載模塊主要利用網(wǎng)頁地址編號(hào)將指定網(wǎng)站的網(wǎng)頁批量下載到本地硬盤;(2)語料信息抽取和格式化模塊。語料信息抽取和格式化模塊主要利用起止錨點(diǎn)標(biāo)記對(duì)下載的網(wǎng)頁進(jìn)行結(jié)構(gòu)解析，抽取網(wǎng)頁正文部分的信息，利用正則表達(dá)式去除網(wǎng)頁特效標(biāo)記和超鏈接標(biāo)記等噪音，對(duì)語料信息進(jìn)行數(shù)據(jù)清洗和格式化，最后得到干凈的文本語料;(3)文本預(yù)處理模塊。文本預(yù)處理模塊主要根據(jù)英漢商務(wù)信函語塊的文本標(biāo)記集和句法特征詞集對(duì)輸入的語料文本進(jìn)行初步的處理，在排除一些不可能包含英漢商務(wù)信函語塊的括號(hào)以后，提取出包含括號(hào)的句子;(4)英漢商務(wù)信函語塊識(shí)別模塊。英漢商務(wù)信函語塊識(shí)別部分的主要任務(wù)是根據(jù)英漢商務(wù)信函語塊的結(jié)構(gòu)特征、意義特征、功能特征，制定相應(yīng)的規(guī)則識(shí)別出文本中的候選語塊，從全稱縮略語塊、慣用表達(dá)語塊、專業(yè)術(shù)語語塊三種分類中制定英漢商務(wù)信函語塊自動(dòng)提取規(guī)則進(jìn)行識(shí)別;(5)后期處理模塊。后期處理模塊根據(jù)英漢商務(wù)信函語塊的類型對(duì)提取出的英漢商務(wù)信函語塊進(jìn)行合法性驗(yàn)證。

為了測(cè)試系統(tǒng)對(duì)開放性語料中英漢商務(wù)信函語塊自動(dòng)提取的能力，我們進(jìn)行了實(shí)驗(yàn)測(cè)試。下文以縮略語提取為例進(jìn)行說明。

4．1 測(cè)試語料

本次實(shí)驗(yàn)的測(cè)試語料是從動(dòng)態(tài)語料庫中隨機(jī)選取的500篇英文和500篇中文未經(jīng)人工校對(duì)、自動(dòng)分詞以及詞性標(biāo)注的生語料，共計(jì)322156個(gè)英漢商務(wù)信函詞形，語料大小約4．1M。我們的語料收集范圍分為建立業(yè)務(wù)關(guān)系函、產(chǎn)品推銷函、資信查詢函、詢盤函、發(fā)盤還盤函、訂購函、裝運(yùn)通知函、支付結(jié)算函、索賠函、保險(xiǎn)函等，這些信函涉及商務(wù)活動(dòng)的全過程。

4．2 測(cè)試評(píng)價(jià)標(biāo)準(zhǔn)

為了更加客觀地對(duì)系統(tǒng)性能進(jìn)行評(píng)測(cè)，我們將準(zhǔn)確率(Precision)、召回率(Recall rate)和F值(F values)作為測(cè)試結(jié)果的評(píng)價(jià)指標(biāo)，將語言學(xué)家的意見作為參考標(biāo)準(zhǔn)。

一般情況下，達(dá)到一定的識(shí)別精度后，識(shí)別的準(zhǔn)確率和召回率存在著一定的反相關(guān)性，準(zhǔn)確率的提高以召回率的降低為代價(jià)。本研究希望通過語動(dòng)態(tài)語料庫的不斷更新，逐步構(gòu)建起一個(gè)較大規(guī)模的英漢商務(wù)信函語塊庫，因此我們相對(duì)更注重準(zhǔn)確率的提高。

4．3 測(cè)試結(jié)果

利用基于規(guī)則的英漢商務(wù)信函語塊自動(dòng)提取系統(tǒng)，我們最后提取到367個(gè)英漢商務(wù)信函縮略語語塊，其中正確的有360個(gè)。根據(jù)專家的反饋信息，測(cè)試語料中共有395個(gè)英漢商務(wù)信函縮略語語塊。測(cè)試結(jié)果見表3。

表3 基于規(guī)則的英漢商務(wù)信函語塊自動(dòng)提取系統(tǒng)測(cè)試結(jié)果

經(jīng)過分析，測(cè)試結(jié)果中共有218個(gè)不同的英漢商務(wù)信函語塊。下表是在測(cè)試結(jié)果中出現(xiàn)100次以上的英漢商務(wù)信函語塊。

表4 測(cè)試結(jié)果中出現(xiàn)100次以上的英漢商務(wù)信函語塊(部分)

4．4 測(cè)試結(jié)果分析

從測(cè)試結(jié)果來看，英漢商務(wù)信函語塊自動(dòng)提取系統(tǒng)取得了較好的效果，測(cè)試的準(zhǔn)確率為96．49%、召回率為94．99%、F值為95．73%。經(jīng)過分析，出現(xiàn)錯(cuò)誤提取和未能提取出英漢商務(wù)信函語塊的原因主要有以下幾個(gè)方面:

(1)英漢商務(wù)信函語塊都作為注釋放在括號(hào)中;

(2)括號(hào)中除了英漢商務(wù)信函語塊還包括其他信息。

造成提取問題的主要原因是因?yàn)樽匀徽Z言系統(tǒng)并不是一個(gè)精心規(guī)劃的系統(tǒng)，很難用一套規(guī)則提取所有的英漢商務(wù)信函語塊，需要根據(jù)每種語言的具體情況不斷對(duì)規(guī)則庫進(jìn)行完善。

5．結(jié)語

語塊數(shù)量如此之多，僅靠死記硬背是不現(xiàn)實(shí)的，因此，研究如何利用語料庫進(jìn)行語塊的自動(dòng)提取，在英漢語言教學(xué)和機(jī)器翻譯等方面的研究中具有十分重要的意義。我們利用計(jì)算機(jī)進(jìn)行基于英漢商務(wù)信函語料庫的語塊提取研究，具有兩方面重要意義:(1)英漢商務(wù)信函語塊提取的實(shí)現(xiàn)為研制在互聯(lián)網(wǎng)上進(jìn)行機(jī)器輔助英漢商務(wù)信函翻譯系統(tǒng)提供基礎(chǔ);(2)我們構(gòu)建的英漢商務(wù)信函動(dòng)態(tài)語料庫是面向商務(wù)領(lǐng)域的一個(gè)特定的語料庫，它對(duì)商務(wù)英語學(xué)習(xí)者、商務(wù)漢語學(xué)習(xí)者、翻譯學(xué)習(xí)者及工作者的研究與學(xué)習(xí)起到指導(dǎo)作用。

［1］李潔晶，趙曉臨．慶祝楊惠中先生執(zhí)教50周年暨應(yīng)用語言學(xué)研討會(huì)綜述［J］．外語界，2007(3):75－79．

［2］李太志．詞塊在外貿(mào)英語寫作教學(xué)中的優(yōu)勢(shì)及產(chǎn)出性訓(xùn)練［J］．外語界，2006(1):34－39．

［3］繆海燕，孫藍(lán)．非詞匯化高頻動(dòng)詞搭配的組塊效應(yīng)——一項(xiàng)基于語料庫的研究［J］．解放軍外國語學(xué)院學(xué)報(bào)，2005(3):41－44．

［4］濮建忠．英語詞匯教學(xué)中的類聯(lián)接、搭配與詞塊［J］．外語教學(xué)與研究，2003(6):438－445．

［5］王立非，張巖．基于語料庫的大學(xué)生英語議論文中的語塊使用模式研究［J］．外語電化教學(xué)，2006(4):36－41．

［6］衛(wèi)乃興．語料庫語言學(xué)的方法論及相關(guān)理念［J］．外語研究，2009(5):36－42．

［7］邢富坤．多詞單位的描寫識(shí)別與詞典編纂［J］．當(dāng)代語言學(xué)，2012(4):407－417．

［8］Brown，Peter F．，Jennifer C．Lai ＆ L．Robert，Mercer．Aligning sentences in parallel corpora［C］//Proceedings of the29th Annual Meeting of the Association for Computational Linguistics．California:Berkeley，USA．1991:169 －176．

［9］Chen，Stanley F．Aligning Sentences in Bilingual Corpora Using Lexical Information［C］//Proceedings of the31st Annual Meeting of the Association for Computational Linguistics．Ohio:Columbus，USA．1993:9－16．

［10］Clough P．A Perl Program for Sentence Splitting Using Rules［M］．University of Sheffield，2001．

［11］Friedl，Jeffrey．Mastering Regular Expressions(3rd Edition)［M］．Publisher:O’Reilly，2006．

［12］Li P，Sun M，Xue P．Fast-Champollion:a Fast and Robust Sentence Alignment Algorithm［C］//Proceedings of the23rd International Conference on Computational Linguistics．Posters，2010:710 －718．

［13］Gale，William A．＆ Kenneth W．Church．A Program for Aligning Sentences in Bilingual Corpora［C］//Proceedings of the29thAnnual Conference of the Association for Computational Linguistics．Berkeley，1991:177 －184．

［14］Kit，C．，Liu X．Period Disambiguation with MaxEnt Model［C］//Natural Language Processing-IJCNLP2005．Springer Berlin Heidelberg，2005:223 －232．

［15］Sinclair，J．M．Corpus，Concordance，Collocation［M］．Oxford:Oxford University Press，1991．

［16］Xue N，Xia F，Chiou F D，et al．The Penn Chinese Tree-Bank:Phrase Structure Annotation of a Large Corpus［J］．Natural Language Engineering，2005，11(2):207－216．

［17］Wu，Dekai．Aligning a Parallel English-Chinese Corpus Statistically with Lexical Criteria［C］//Proceedings of the32nd Annual Meeting of the Association for Computational Linguistics．Las Cruces，New Mexico，USA．1994:80 –87．

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看