• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于規(guī)則的英漢商務(wù)信函語塊提取研究

      2013-09-12 07:57:54胡富茂
      外國語文 2013年3期
      關(guān)鍵詞:信函語塊英漢

      胡富茂

      (洛陽理工學(xué)院 外語系,河南 洛陽 471023)

      1.引言

      國內(nèi)的語塊研究越來越細(xì)致與深入,涉及的方面主要包括搭配研究(繆海燕、孫藍(lán),2005)、語塊運(yùn)用與英語口語和寫作之間的關(guān)系研究(王立非、張巖,2006)、語塊學(xué)習(xí)在二語習(xí)得中的地位研究(濮建忠,2003)、語塊提取(李潔晶、趙曉臨,2007;衛(wèi)乃興,2009;邢富坤,2012)等。語塊是語言的半成品,以整體形式儲(chǔ)存在大腦中,有較固定的語法結(jié)構(gòu)限制和穩(wěn)定的搭配意義,因此,在應(yīng)用時(shí)具有快捷方便、準(zhǔn)確流利的優(yōu)勢(shì)。此種言語程式或行話由于出現(xiàn)頻率很高,并且形式和意義較固定,使用的語境也較固定,就像一個(gè)板塊一樣,如:cash on delivery(貨到付款)、confirming your order(確認(rèn)你方的訂單)、accept your firm offer(接受你方的實(shí)盤)等。Sinclair(1991)認(rèn)為:“那些出現(xiàn)頻率高的詞匯串成了英語中基本的語言單位,大約70%的英語語言由存儲(chǔ)于人體大腦的語言板塊構(gòu)成”?!皳?jù)電腦統(tǒng)計(jì)數(shù)據(jù)顯示,像這些語義較固定的各類形式的語塊在自然語言中占到90%的比例”(李太志,2006)。

      本文提出了一種基于規(guī)則匹配的語塊自動(dòng)提取方案,通過自動(dòng)在互聯(lián)網(wǎng)上采集網(wǎng)頁構(gòu)建動(dòng)態(tài)語料庫,利用英漢商務(wù)信函語塊的結(jié)構(gòu)、意義和功能等方面的特征,將英漢商務(wù)信函語塊分為全稱縮略語塊、慣用表達(dá)語塊、專業(yè)術(shù)語語塊三種類型,并制定英漢商務(wù)信函語塊自動(dòng)提取規(guī)則,最終實(shí)現(xiàn)從語料中自動(dòng)提取英漢商務(wù)信函語塊的功能。

      2.構(gòu)建動(dòng)態(tài)語料庫

      語料庫已成為語言學(xué)理論研究、語言學(xué)應(yīng)用研究和語言信息處理不可缺少的基礎(chǔ)資源。為了對(duì)英漢商務(wù)信函語塊的語言學(xué)特點(diǎn)進(jìn)行觀察總結(jié),同時(shí)進(jìn)行基于規(guī)則的英漢商務(wù)信函語塊提取,我們需要先構(gòu)建一個(gè)規(guī)模足夠大的語料庫。顯然,通過手工的方法下載分析成千上萬的網(wǎng)頁、提取語料信息是不可行的。因此,通過動(dòng)態(tài)語料庫構(gòu)建的方式自動(dòng)獲取大規(guī)模的文本語料就顯得尤為重要。

      通過觀察,我們發(fā)現(xiàn)隨著互聯(lián)網(wǎng)在信息傳遞中的地位越來越突出,很多報(bào)紙、期刊紛紛建立網(wǎng)站,以與紙質(zhì)媒體同步的速度提供大量文獻(xiàn)資料。這些文獻(xiàn)資料大都結(jié)構(gòu)規(guī)范一致,信息完整。這也為后期英漢商務(wù)信函語塊的提取提供了方便。因此,我們希望對(duì)這些網(wǎng)站進(jìn)行自動(dòng)下載和分析,收集大量語料,構(gòu)建英漢商務(wù)信函動(dòng)態(tài)語料庫。

      從互聯(lián)網(wǎng)上直接下載的語料是半結(jié)構(gòu)化的,往往結(jié)構(gòu)復(fù)雜,含有大量HTML語言標(biāo)記,語料信息淹沒在蕪雜的網(wǎng)頁標(biāo)記中,不方便直接提取文本內(nèi)容。我們采用基于網(wǎng)頁結(jié)構(gòu)分析的方法,通過HTML的起止標(biāo)記來提取語料信息。HTML文檔包括文本和標(biāo)記,一條基本的標(biāo)記語句形式為:

      <標(biāo)記名稱 屬性列表(參數(shù)列表)>[</標(biāo)記名稱>]

      我們可以簡(jiǎn)單地把標(biāo)記分為兩類:包容標(biāo)記和空標(biāo)記。包容標(biāo)記由一個(gè)開始標(biāo)記和一個(gè)結(jié)束標(biāo)記構(gòu)成,中間是數(shù)據(jù)對(duì)象。空標(biāo)記只有起始標(biāo)記而沒有結(jié)束標(biāo)記。因此可以通過對(duì)網(wǎng)頁中HTML標(biāo)記的起止標(biāo)記進(jìn)行格式分析,判斷標(biāo)記的意義,提取其中有效的信息。我們以《中國日?qǐng)?bào)(財(cái)經(jīng)頻道)》的英文官方網(wǎng)站“http://www.chinadaily.com.cn/business/”和中文官方網(wǎng)站“http://www.chinadaily.com.cn/hqcj/”為例,從網(wǎng)頁自動(dòng)下載和語料信息抽取兩個(gè)方面來說明動(dòng)態(tài)語料庫的構(gòu)建方法。

      2.1 網(wǎng)頁自動(dòng)下載

      首先,分析一下《中國日?qǐng)?bào)(財(cái)經(jīng)頻道)》英文官方網(wǎng)站的特點(diǎn),該網(wǎng)站提供的每一篇文獻(xiàn)都有其單獨(dú)的網(wǎng)頁,網(wǎng)頁地址中的編號(hào)簡(jiǎn)單遞增(如 http://www.chinadaily.com.cn/business/2011-02/26/content_12082981.htm)。利用網(wǎng)頁地址中編號(hào)的變化規(guī)律對(duì)網(wǎng)站進(jìn)行爬取,就可以下載所有的文獻(xiàn)網(wǎng)頁。同樣,《中國日?qǐng)?bào)(財(cái)經(jīng)頻道)》中文網(wǎng)站提供的每一篇文獻(xiàn)也都有其單獨(dú)的網(wǎng)頁(如http://www.chinadaily.com.cn/hqcj/gjcj/2011 -02 -24/content_1849755.html),網(wǎng)頁地址中的編號(hào)簡(jiǎn)單遞增。根據(jù)第一篇文獻(xiàn)的網(wǎng)頁地址向服務(wù)器發(fā)出HTTP請(qǐng)求,捕獲服務(wù)器的HTTP響應(yīng)信息,取出信息內(nèi)容存入結(jié)果文本。改變參數(shù)n和code的值,依次獲取所有文獻(xiàn)網(wǎng)頁。

      2.2 語料信息抽取和格式化

      每個(gè)網(wǎng)站都有自己的一套HTML起止標(biāo)記模板,通過判斷這些標(biāo)記的意義,我們可以解析出大量網(wǎng)頁的語料信息。

      通過對(duì)上述網(wǎng)頁的HTML語言標(biāo)記的格式分析,可以建立其邏輯結(jié)構(gòu)圖,如圖1所示。

      圖1 網(wǎng)頁邏輯結(jié)構(gòu)圖

      根據(jù)上面的起止標(biāo)記可以解析得到網(wǎng)頁的標(biāo)題、正文等信息。由于我們建立動(dòng)態(tài)語料庫的目的是用于自動(dòng)提取英漢商務(wù)信函語塊,而同時(shí)包含英漢商務(wù)信函語塊的句子一般只存在于網(wǎng)頁的正文中,因此,構(gòu)建動(dòng)態(tài)語料庫只需要提取網(wǎng)頁的正文部分。通過對(duì)《中國日?qǐng)?bào)(財(cái)經(jīng)頻道)》的英文官方網(wǎng)站和中文官方網(wǎng)站網(wǎng)頁HTML格式的分析,我們發(fā)現(xiàn)網(wǎng)頁正文部分起止標(biāo)記如下:

      <P class=MsoNormal style=[參數(shù)]align=[參數(shù)]>(正方信息)</P>

      語料信息抽取主要利用起止標(biāo)記,通過所設(shè)計(jì)的Extract類提供的屬性和方法提取網(wǎng)頁的正文信息。Extract類包含一個(gè)extract函數(shù),該函數(shù)主要通過調(diào)用.NET Framework基類String類的成員public string Substring(int startIndex,int length)的方法實(shí)現(xiàn)單一信息的抽取功能,如抽取文章的標(biāo)題等等。extract方法的數(shù)據(jù)輸入為:待抽取的HTML字符串(string strInput)、模板的起止標(biāo)記字符串(string strLeft,string strRight)。輸出數(shù)據(jù)為抽取到的字符串(string strOutput)。具體流程如圖2所示:

      圖2 語料信息抽取流程圖

      解析得到的數(shù)據(jù)還需要進(jìn)行數(shù)據(jù)清洗和格式化。許多網(wǎng)頁為了美觀都加入了大量的網(wǎng)頁特效標(biāo)記、圖片以及超鏈接等等,如:換行符(<br> </br>)、鏈接標(biāo)記(<a> </a>)、層標(biāo)記(<div> </div>)、空格標(biāo)記( )等,這些都需要經(jīng)過特別處理來實(shí)現(xiàn)對(duì)語料信息的格式化?!罢齽t表達(dá)式是處理此類語塊的強(qiáng)大工具。”(Friedl,2006)我們通過編程,利用正則表達(dá)式實(shí)現(xiàn)對(duì)數(shù)據(jù)的清洗和格式化處理工作。數(shù)據(jù)清洗和格式化用到的正則表達(dá)式舉例如下:

      (<[a-zA-Z]+[^>]* >)|(</[a-zA -Zd]+>)|( )

      第一個(gè)“|”號(hào)前面部分匹配HTML開始標(biāo)記,它查找一個(gè)“<”字符,后面跟a到z之間的大小寫任意的任何一個(gè)或多個(gè)字母(“[a-zA-Z]+”部分中,“[a-zA -Z]”表示任意一個(gè)大寫或小寫字母,“+”表示一個(gè)或多個(gè)),接著是除“>”以外的零到多個(gè)任意字符(“[^>]* ”部分,“^”表示非,“[^>]”表示除“>”之外的任意字符,“* ”表示零或多個(gè)),最后以“>”字符結(jié)尾。

      兩個(gè)“|”號(hào)中間的部分“(< /[a-zA -Zd]+ >)”匹配結(jié)束標(biāo)記,它匹配一個(gè)“<”字符,后跟一個(gè)“/”字符,然后是a到z之間的大小寫任意的任何一個(gè)或多個(gè)字母或者數(shù)字(“d”表示數(shù)字),最后以“>”字符結(jié)尾。

      最后的部分匹配空格標(biāo)記“ ”。

      如果還有其他特殊標(biāo)記,可以參照上述方法設(shè)計(jì)相應(yīng)的正則表達(dá)式進(jìn)行清除。這樣就基本完成了數(shù)據(jù)清洗和格式化,得到干凈的文本,可以進(jìn)行英漢商務(wù)信函語塊的提取。

      3.基于規(guī)則的英漢商務(wù)信函語塊提取

      基于規(guī)則的英漢商務(wù)信函語塊提取共包括三個(gè)步驟:英漢商務(wù)信函識(shí)別規(guī)則設(shè)計(jì)、文本預(yù)處理和后期處理。

      3.1 英漢商務(wù)信函語塊識(shí)別規(guī)則設(shè)計(jì)

      目前課題組初步構(gòu)建了一個(gè)規(guī)模為200萬詞次的英漢商務(wù)信函語料庫,包括四個(gè)子庫:英語商務(wù)信函語料庫、漢語商務(wù)信函語料庫、英漢商務(wù)信函平行語料庫、漢英商務(wù)信函平行語料庫,該庫為動(dòng)態(tài)的,可以自動(dòng)獲取服務(wù)于語塊自動(dòng)提取的知識(shí)資源。我們從語言學(xué)的研究角度,將英漢商務(wù)信函語塊分為全稱縮略語塊、慣用表達(dá)語塊、專業(yè)術(shù)語語塊三種類型:①全稱縮略語塊。經(jīng)濟(jì)原則是大量商務(wù)縮略詞產(chǎn)生和被使用的最大原因。全稱縮略語塊涉及到貿(mào)易價(jià)格術(shù)語、保險(xiǎn)、運(yùn)輸、支付與結(jié)算等商務(wù)各個(gè)方面。例如:FOB(Free On Board)船上交貨、CFR(cost and freight)成本加運(yùn)、FCA(Free Carrier)貨交承運(yùn)人、FPA(Free from Particular Average)平安險(xiǎn)、WPA(With Particular Average)水漬險(xiǎn),等等。②慣用表達(dá)語塊。慣用表達(dá)短語雖然專業(yè)性沒有那么強(qiáng),但是也是較常用的。例如:In reply to your letter(茲復(fù))、Thank you for your cooperation(多謝你方合作)、by the way(轉(zhuǎn)換話題)、such as(列舉事物)、general speaking(評(píng)價(jià)),等等。③ 專業(yè)術(shù)語語塊。商務(wù)英語信函中幾乎每個(gè)環(huán)節(jié)都有套話與行話。例如:confirming your order(確認(rèn)你方的訂單)、accept your firm offer(接受你方的實(shí)盤),等等。

      英漢商務(wù)信函語塊識(shí)別部分的主要任務(wù)是根據(jù)英漢商務(wù)信函語塊的結(jié)構(gòu)特征、意義特征、功能特征,制定相應(yīng)的規(guī)則識(shí)別出文本中的候選語塊,從全稱縮略語塊、慣用表達(dá)語塊、專業(yè)術(shù)語語塊三種分類中制定英漢商務(wù)信函語塊提取規(guī)則并進(jìn)行識(shí)別。下表是在候選英語商務(wù)信函語塊識(shí)別過程中使用到的文本標(biāo)記和句法特征詞規(guī)則。

      表1 文本標(biāo)記和句法特征詞規(guī)則

      確定句子以后就可以利用英語商務(wù)信函語塊識(shí)別規(guī)則對(duì)候選英語商務(wù)信函語塊進(jìn)行識(shí)別。下表是制定的候選漢語商務(wù)信函語塊提取規(guī)則。

      找到候選漢語商務(wù)信函語塊以后,系統(tǒng)可以利用該規(guī)則進(jìn)行查找,將找到的詞語與文本標(biāo)記或句法特征詞之間的字符串作為候選縮略語。在英漢商務(wù)信函語塊提取階段,系統(tǒng)利用模板將候選英語商務(wù)信函語塊與候選漢語商務(wù)信函語塊進(jìn)行逐一匹配,最后找出正確的英漢商務(wù)信函語塊。

      3.2 文本預(yù)處理

      文本預(yù)處理部分的主要任務(wù)是對(duì)動(dòng)態(tài)語料庫中的語料進(jìn)行初步的處理,提取出包含指定規(guī)則的句子用于英漢商務(wù)信函語塊識(shí)別。下面以縮略語的提取為例進(jìn)行說明。該部分主要包括兩個(gè)步驟:

      (1)去除不可能包含英漢商務(wù)信函縮略語語塊的括號(hào)。通過對(duì)實(shí)際語料的觀察,我們發(fā)現(xiàn)存在一些括號(hào)作為插入語用于解釋或說明。有的括號(hào)僅包含數(shù)字或者是數(shù)字加上特定符號(hào)(如百分號(hào)“%”、連字號(hào)“-”、斜杠“/”)等等。

      對(duì)于這種括號(hào)中僅包含數(shù)字或者是數(shù)字加上特定符號(hào)的情況,由于括號(hào)內(nèi)不可能包含英漢商務(wù)信函縮略語語塊,如果不預(yù)先處理,勢(shì)必會(huì)在下一步語塊識(shí)別中進(jìn)行許多無用的提取,浪費(fèi)系統(tǒng)資源和時(shí)間,并且影響準(zhǔn)確率。因此,有必要預(yù)先去除這種括號(hào)。

      (2)將文本切分為句子,提取出包含括號(hào)的句子。如果一個(gè)句子中含有多個(gè)括號(hào),則以右括號(hào)“)”為標(biāo)記,將句子切分為若干個(gè)子句,提取出包含括號(hào)的子句。

      對(duì)英語文本進(jìn)行句子切分,鑒于英語文本中句點(diǎn)“.”的情況復(fù)雜,“需要設(shè)計(jì)詳細(xì)的規(guī)則和相應(yīng)的正則表達(dá)式,并結(jié)合一定的統(tǒng)計(jì)數(shù)據(jù),才能提高英語句子自動(dòng)切分的準(zhǔn)確率”(Clough,2001)。我們采用了上述規(guī)則和統(tǒng)計(jì)相結(jié)合的句子切分方法,效果良好?!坝⒄Z句子切分也可以用最大熵的方法解決”(Kit&Liu,2005)。漢語句子的切分也不容易,逗號(hào)“,”經(jīng)常也可以作為斷句的標(biāo)記,利用中文樹庫,“通過機(jī)器學(xué)習(xí)的方法可以達(dá)到比較理想的切分效果”(Xue,2005)。切分好的英、漢句子可以通過句長(zhǎng)、雙語詞典等進(jìn)行句對(duì)齊處理(Gale&Church,1991;Brown et al,1991;Chen,1993;Wu,1994;Li et al,2010)。

      3.3 后期處理

      我們安排了課題組中兩位外國語言學(xué)與應(yīng)用語言學(xué)專業(yè)商務(wù)英語語言研究方向的教師(碩士學(xué)位)分別對(duì)測(cè)試語料中的英漢商務(wù)信函語塊進(jìn)行人工合法性驗(yàn)證,如果兩位教師的意見出現(xiàn)分歧,則以課題組共同的意見為準(zhǔn)。

      4.實(shí)驗(yàn)測(cè)試及其分析

      圖3 基于規(guī)則的英漢商務(wù)信函語塊自動(dòng)提取系統(tǒng)層次結(jié)構(gòu)圖

      英漢商務(wù)信函語塊自動(dòng)提取系統(tǒng)包括基礎(chǔ)資源層、提取規(guī)則層和應(yīng)用層三個(gè)層次。具體層次結(jié)構(gòu)如圖3所示。

      各層次的主要功能和作用分別是:(1)基礎(chǔ)資源層。該層通過對(duì)互聯(lián)網(wǎng)中指定網(wǎng)站的網(wǎng)頁進(jìn)行定期爬取和更新以及對(duì)網(wǎng)頁語料信息的抽取和格式化,自動(dòng)構(gòu)筑大規(guī)模英漢商務(wù)信函語料庫,為英漢商務(wù)信函語塊自動(dòng)提取提供基礎(chǔ)資源;(2)提取規(guī)則層。該層為英漢商務(wù)信函語塊自動(dòng)提取的規(guī)則庫。英漢商務(wù)信函語塊的自動(dòng)提取規(guī)則主要通過人工內(nèi)省的方式制定,輔之以規(guī)則與統(tǒng)計(jì)相結(jié)合的語言信息處理學(xué)習(xí)方法,從而對(duì)規(guī)則進(jìn)行不斷完善;(3)應(yīng)用層。該層將英漢商務(wù)信函語塊自動(dòng)提取的多種規(guī)則綜合地應(yīng)用到語塊的自動(dòng)識(shí)別過程中,實(shí)現(xiàn)英漢商務(wù)信函語塊的自動(dòng)提取。通過英漢商務(wù)信函動(dòng)態(tài)語料庫的不斷更新,逐步構(gòu)建起一個(gè)較大規(guī)模的英漢商務(wù)信函語塊庫。

      英漢商務(wù)信函語塊自動(dòng)提取系統(tǒng)包括動(dòng)態(tài)語料庫構(gòu)筑和英漢商務(wù)信函語塊自動(dòng)提取兩大部分,共五個(gè)模塊。(1)網(wǎng)頁自動(dòng)下載模塊。網(wǎng)頁自動(dòng)下載模塊主要利用網(wǎng)頁地址編號(hào)將指定網(wǎng)站的網(wǎng)頁批量下載到本地硬盤;(2)語料信息抽取和格式化模塊。語料信息抽取和格式化模塊主要利用起止錨點(diǎn)標(biāo)記對(duì)下載的網(wǎng)頁進(jìn)行結(jié)構(gòu)解析,抽取網(wǎng)頁正文部分的信息,利用正則表達(dá)式去除網(wǎng)頁特效標(biāo)記和超鏈接標(biāo)記等噪音,對(duì)語料信息進(jìn)行數(shù)據(jù)清洗和格式化,最后得到干凈的文本語料;(3)文本預(yù)處理模塊。文本預(yù)處理模塊主要根據(jù)英漢商務(wù)信函語塊的文本標(biāo)記集和句法特征詞集對(duì)輸入的語料文本進(jìn)行初步的處理,在排除一些不可能包含英漢商務(wù)信函語塊的括號(hào)以后,提取出包含括號(hào)的句子;(4)英漢商務(wù)信函語塊識(shí)別模塊。英漢商務(wù)信函語塊識(shí)別部分的主要任務(wù)是根據(jù)英漢商務(wù)信函語塊的結(jié)構(gòu)特征、意義特征、功能特征,制定相應(yīng)的規(guī)則識(shí)別出文本中的候選語塊,從全稱縮略語塊、慣用表達(dá)語塊、專業(yè)術(shù)語語塊三種分類中制定英漢商務(wù)信函語塊自動(dòng)提取規(guī)則進(jìn)行識(shí)別;(5)后期處理模塊。后期處理模塊根據(jù)英漢商務(wù)信函語塊的類型對(duì)提取出的英漢商務(wù)信函語塊進(jìn)行合法性驗(yàn)證。

      為了測(cè)試系統(tǒng)對(duì)開放性語料中英漢商務(wù)信函語塊自動(dòng)提取的能力,我們進(jìn)行了實(shí)驗(yàn)測(cè)試。下文以縮略語提取為例進(jìn)行說明。

      4.1 測(cè)試語料

      本次實(shí)驗(yàn)的測(cè)試語料是從動(dòng)態(tài)語料庫中隨機(jī)選取的500篇英文和500篇中文未經(jīng)人工校對(duì)、自動(dòng)分詞以及詞性標(biāo)注的生語料,共計(jì)322156個(gè)英漢商務(wù)信函詞形,語料大小約4.1M。我們的語料收集范圍分為建立業(yè)務(wù)關(guān)系函、產(chǎn)品推銷函、資信查詢函、詢盤函、發(fā)盤還盤函、訂購函、裝運(yùn)通知函、支付結(jié)算函、索賠函、保險(xiǎn)函等,這些信函涉及商務(wù)活動(dòng)的全過程。

      4.2 測(cè)試評(píng)價(jià)標(biāo)準(zhǔn)

      為了更加客觀地對(duì)系統(tǒng)性能進(jìn)行評(píng)測(cè),我們將準(zhǔn)確率(Precision)、召回率(Recall rate)和F值(F values)作為測(cè)試結(jié)果的評(píng)價(jià)指標(biāo),將語言學(xué)家的意見作為參考標(biāo)準(zhǔn)。

      一般情況下,達(dá)到一定的識(shí)別精度后,識(shí)別的準(zhǔn)確率和召回率存在著一定的反相關(guān)性,準(zhǔn)確率的提高以召回率的降低為代價(jià)。本研究希望通過語動(dòng)態(tài)語料庫的不斷更新,逐步構(gòu)建起一個(gè)較大規(guī)模的英漢商務(wù)信函語塊庫,因此我們相對(duì)更注重準(zhǔn)確率的提高。

      4.3 測(cè)試結(jié)果

      利用基于規(guī)則的英漢商務(wù)信函語塊自動(dòng)提取系統(tǒng),我們最后提取到367個(gè)英漢商務(wù)信函縮略語語塊,其中正確的有360個(gè)。根據(jù)專家的反饋信息,測(cè)試語料中共有395個(gè)英漢商務(wù)信函縮略語語塊。測(cè)試結(jié)果見表3。

      表3 基于規(guī)則的英漢商務(wù)信函語塊自動(dòng)提取系統(tǒng)測(cè)試結(jié)果

      經(jīng)過分析,測(cè)試結(jié)果中共有218個(gè)不同的英漢商務(wù)信函語塊。下表是在測(cè)試結(jié)果中出現(xiàn)100次以上的英漢商務(wù)信函語塊。

      表4 測(cè)試結(jié)果中出現(xiàn)100次以上的英漢商務(wù)信函語塊(部分)

      4.4 測(cè)試結(jié)果分析

      從測(cè)試結(jié)果來看,英漢商務(wù)信函語塊自動(dòng)提取系統(tǒng)取得了較好的效果,測(cè)試的準(zhǔn)確率為96.49%、召回率為94.99%、F值為95.73%。經(jīng)過分析,出現(xiàn)錯(cuò)誤提取和未能提取出英漢商務(wù)信函語塊的原因主要有以下幾個(gè)方面:

      (1)英漢商務(wù)信函語塊都作為注釋放在括號(hào)中;

      (2)括號(hào)中除了英漢商務(wù)信函語塊還包括其他信息。

      造成提取問題的主要原因是因?yàn)樽匀徽Z言系統(tǒng)并不是一個(gè)精心規(guī)劃的系統(tǒng),很難用一套規(guī)則提取所有的英漢商務(wù)信函語塊,需要根據(jù)每種語言的具體情況不斷對(duì)規(guī)則庫進(jìn)行完善。

      5.結(jié)語

      語塊數(shù)量如此之多,僅靠死記硬背是不現(xiàn)實(shí)的,因此,研究如何利用語料庫進(jìn)行語塊的自動(dòng)提取,在英漢語言教學(xué)和機(jī)器翻譯等方面的研究中具有十分重要的意義。我們利用計(jì)算機(jī)進(jìn)行基于英漢商務(wù)信函語料庫的語塊提取研究,具有兩方面重要意義:(1)英漢商務(wù)信函語塊提取的實(shí)現(xiàn)為研制在互聯(lián)網(wǎng)上進(jìn)行機(jī)器輔助英漢商務(wù)信函翻譯系統(tǒng)提供基礎(chǔ);(2)我們構(gòu)建的英漢商務(wù)信函動(dòng)態(tài)語料庫是面向商務(wù)領(lǐng)域的一個(gè)特定的語料庫,它對(duì)商務(wù)英語學(xué)習(xí)者、商務(wù)漢語學(xué)習(xí)者、翻譯學(xué)習(xí)者及工作者的研究與學(xué)習(xí)起到指導(dǎo)作用。

      [1]李潔晶,趙曉臨.慶祝楊惠中先生執(zhí)教50周年暨應(yīng)用語言學(xué)研討會(huì)綜述[J].外語界,2007(3):75-79.

      [2]李太志.詞塊在外貿(mào)英語寫作教學(xué)中的優(yōu)勢(shì)及產(chǎn)出性訓(xùn)練[J].外語界,2006(1):34-39.

      [3]繆海燕,孫藍(lán).非詞匯化高頻動(dòng)詞搭配的組塊效應(yīng)——一項(xiàng)基于語料庫的研究[J].解放軍外國語學(xué)院學(xué)報(bào),2005(3):41-44.

      [4]濮建忠.英語詞匯教學(xué)中的類聯(lián)接、搭配與詞塊[J].外語教學(xué)與研究,2003(6):438-445.

      [5]王立非,張巖.基于語料庫的大學(xué)生英語議論文中的語塊使用模式研究[J].外語電化教學(xué),2006(4):36-41.

      [6]衛(wèi)乃興.語料庫語言學(xué)的方法論及相關(guān)理念[J].外語研究,2009(5):36-42.

      [7]邢富坤.多詞單位的描寫識(shí)別與詞典編纂[J].當(dāng)代語言學(xué),2012(4):407-417.

      [8]Brown,Peter F.,Jennifer C.Lai & L.Robert,Mercer.Aligning sentences in parallel corpora[C]//Proceedings of the29th Annual Meeting of the Association for Computational Linguistics.California:Berkeley,USA.1991:169 -176.

      [9]Chen,Stanley F.Aligning Sentences in Bilingual Corpora Using Lexical Information[C]//Proceedings of the31st Annual Meeting of the Association for Computational Linguistics.Ohio:Columbus,USA.1993:9-16.

      [10]Clough P.A Perl Program for Sentence Splitting Using Rules[M].University of Sheffield,2001.

      [11]Friedl,Jeffrey.Mastering Regular Expressions(3rd Edition)[M].Publisher:O’Reilly,2006.

      [12]Li P,Sun M,Xue P.Fast-Champollion:a Fast and Robust Sentence Alignment Algorithm[C]//Proceedings of the23rd International Conference on Computational Linguistics.Posters,2010:710 -718.

      [13]Gale,William A.& Kenneth W.Church.A Program for Aligning Sentences in Bilingual Corpora[C]//Proceedings of the29thAnnual Conference of the Association for Computational Linguistics.Berkeley,1991:177 -184.

      [14]Kit,C.,Liu X.Period Disambiguation with MaxEnt Model[C]//Natural Language Processing-IJCNLP2005.Springer Berlin Heidelberg,2005:223 -232.

      [15]Sinclair,J.M.Corpus,Concordance,Collocation[M].Oxford:Oxford University Press,1991.

      [16]Xue N,Xia F,Chiou F D,et al.The Penn Chinese Tree-Bank:Phrase Structure Annotation of a Large Corpus[J].Natural Language Engineering,2005,11(2):207-216.

      [17]Wu,Dekai.Aligning a Parallel English-Chinese Corpus Statistically with Lexical Criteria[C]//Proceedings of the32nd Annual Meeting of the Association for Computational Linguistics.Las Cruces,New Mexico,USA.1994:80 –87.

      猜你喜歡
      信函語塊英漢
      朱自清致逯欽立信函之五(1942.10.28)影印件
      朱自清致逯欽立信函之四(1945.6.25)
      商務(wù)英語翻譯中英漢褒貶義詞的應(yīng)用探討
      現(xiàn)代英文商務(wù)信函的個(gè)性化寫作風(fēng)格初探
      淺談?dòng)h習(xí)語的文化差異及翻譯方法
      英漢文化中的委婉語應(yīng)用對(duì)比分析
      英語語塊在漢英翻譯中的積極作用
      語言與翻譯(2014年3期)2014-07-12 10:32:10
      1935年4月4日梅貽琦致劍橋大學(xué)研究生處的信函
      從語塊類型看英語專業(yè)大學(xué)生語塊獲取能力與聽力理解能力的相關(guān)性研究
      外國語文(2013年1期)2013-09-12 07:57:56
      語塊的性質(zhì)及漢語語塊系統(tǒng)的層級(jí)關(guān)系
      河北区| 安溪县| 美姑县| 南华县| 连江县| 农安县| 永兴县| 富裕县| 自治县| 东港市| 衡南县| 颍上县| 长沙市| 江达县| 东台市| 湘潭县| 犍为县| 昌平区| 苏尼特右旗| 潜江市| 左云县| 桦川县| 黄浦区| 临湘市| 北宁市| 古浪县| 博罗县| 耒阳市| 花莲市| 永善县| 上思县| 平原县| 尉氏县| 弋阳县| 新巴尔虎左旗| 广宗县| 广南县| 郯城县| 蛟河市| 莒南县| 井研县|