• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      特定句法增強(qiáng)的SMT調(diào)序模型

      2015-02-21 08:10:07杜金華張喜媛
      關(guān)鍵詞:源語言句法結(jié)構(gòu)傾向性

      杜金華, 張喜媛

      (1.西安理工大學(xué) 自動(dòng)化與信息工程學(xué)院, 陜西 西安 710048;2. 陜西省復(fù)雜系統(tǒng)控制與智能信息處理重點(diǎn)實(shí)驗(yàn)室, 陜西 西安 710048)

      特定句法增強(qiáng)的SMT調(diào)序模型

      杜金華1,2, 張喜媛1,2

      (1.西安理工大學(xué) 自動(dòng)化與信息工程學(xué)院, 陜西 西安 710048;2. 陜西省復(fù)雜系統(tǒng)控制與智能信息處理重點(diǎn)實(shí)驗(yàn)室, 陜西 西安 710048)

      面向基于短語的漢英統(tǒng)計(jì)機(jī)器翻譯,提出了一種基于特定句法(漢語“的”結(jié)構(gòu))增強(qiáng)的調(diào)序方法,該方法首先在詞對齊和源端詞性(POS)信息的約束下抽取基本調(diào)序規(guī)則,然后根據(jù)中文端特定句法結(jié)構(gòu)—“的”字結(jié)構(gòu),將抽取的基本規(guī)則自動(dòng)分類為“調(diào)序傾向性強(qiáng)”和“調(diào)序傾向性弱”兩類,最后采用不同的優(yōu)化和剪枝策略對兩類規(guī)則進(jìn)行處理,得到最終的源語言端調(diào)序規(guī)則集合。在NIST漢英數(shù)據(jù)集上的實(shí)驗(yàn)表明,相對于基線系統(tǒng),本文所提方法在NIST MT2005測試集上顯著提高了0.69 BLEU值。

      統(tǒng)計(jì)機(jī)器翻譯;特定句法結(jié)構(gòu);“的”結(jié)構(gòu);POS調(diào)序模型

      詞序作為一種語法關(guān)系序列,它是表達(dá)語法關(guān)系的重要手段,是語言內(nèi)在意義的句法表現(xiàn)形式。不同語言之間的句法異構(gòu)性,導(dǎo)致了源語言端和目標(biāo)語言端詞序不同。從語法學(xué)角度來看,詞序不僅可以決定句子的邏輯語義模式,而且可以通過變化來實(shí)現(xiàn)不同含義的表達(dá)。

      統(tǒng)計(jì)機(jī)器翻譯研究中,詞序調(diào)序是一個(gè)熱點(diǎn)和難點(diǎn)問題。調(diào)序模型按照不同標(biāo)準(zhǔn)可劃分為以下類別:1)按照作用對象不同,調(diào)序分源語言端調(diào)序和目標(biāo)語言端調(diào)序;2)依據(jù)作用范圍,可分為全局[1]和局部調(diào)序;3)按照作用位置,可以分為作為特征融入到對數(shù)線性模型框架[2-3]的模型和作為解碼前的一個(gè)預(yù)處理模型[4];4)從建模方法來看,可以分為基于詞匯化的調(diào)序和基于句法的調(diào)序[5-6]等。

      隨著機(jī)器翻譯研究的不斷發(fā)展,調(diào)序模型的研究也取得了很大的進(jìn)展。2006年Chen等[4]提出了一種從詞對齊的訓(xùn)練語料中學(xué)習(xí)詞性(POS)調(diào)序和詞匯化調(diào)序規(guī)則的方法,預(yù)調(diào)序過程中將匹配到的規(guī)則作為額外的特征應(yīng)用到翻譯系統(tǒng)中進(jìn)行打分,取得了一定的效果。2007年Rottmann等[5]將獲取的POS規(guī)則作為特征加入到解碼過程,該方法可以獲取更加豐富的上下文信息來擴(kuò)展調(diào)序規(guī)則集,取得了不錯(cuò)的結(jié)果。Chang等[7]發(fā)現(xiàn)中文結(jié)構(gòu)與其他語言的結(jié)構(gòu)差異的重要原因之一是中文“的”結(jié)構(gòu)。因此,Chan等提出一種基于監(jiān)督學(xué)習(xí)的最大熵分類器自動(dòng)抽取和分類中文“的”調(diào)序結(jié)構(gòu),取得了顯著效果。

      為了使用句法學(xué)知識幫助中英翻譯任務(wù)中的詞序調(diào)整問題,同時(shí)又不增加模型復(fù)雜度,我們提出了一種基于淺層句法知識的預(yù)調(diào)序方法。首先,根據(jù)從詞對齊和源端的POS信息中抽取初始調(diào)序規(guī)則。然后,根據(jù)中文特定句法結(jié)構(gòu)“的”結(jié)構(gòu)[6-8]將規(guī)則分為調(diào)序“傾向強(qiáng)”和“傾向弱”兩類。最后,我們對這兩類規(guī)則設(shè)置不同的閾值進(jìn)行優(yōu)化過濾,得到最有效調(diào)序規(guī)則集合。在NIST中英數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,我們提出的方法相對于基線系統(tǒng)在BLEU值上有了明顯的提升。

      1 POS調(diào)序規(guī)則抽取算法

      1.1 源端詞性標(biāo)注

      句法標(biāo)注最基本的形式就是用詞性對每個(gè)單詞進(jìn)行標(biāo)記。詞性標(biāo)注信息包含豐富的語法信息,在自然語言處理(NLP)應(yīng)用中通常作為一種基本特征,例如句法樹分析,信息抽取等。

      本文使用ICTCALS[9]工具對源語言端句子(中文)進(jìn)行詞性標(biāo)注。圖1給出了ICTCALS工具中應(yīng)用的一些詞性標(biāo)注,其中,v代表verb(一級),vshi代表verb“是”(英語中代表is/are/am etc.)(二類)等。

      1.2 調(diào)序規(guī)則抽取

      調(diào)序規(guī)則抽取的基本思想是對源語言端進(jìn)行詞性標(biāo)記,再根據(jù)平行句對之間的詞對齊信息判斷源語言詞性序列與目標(biāo)語言端的對應(yīng)位置關(guān)系,規(guī)則抽取過程的數(shù)學(xué)描述如下所示。

      源語言句子詞性序列中任意連續(xù)序列記為{Li,m=posi,…,posi+m-1|1≤i≤I,1≤m≤I-i+1},其中i表示該標(biāo)記序列的起始位置,m表示該序列長度。求取目標(biāo)端位置最小值為:{amin=min{al}|i≤I≤i+m-1},最大值為{amax=max{ak}|i≤k≤i+m-1},其中amin表示對應(yīng)到目標(biāo)語言的最小對齊點(diǎn),稱為左邊界。amax指對應(yīng)在目標(biāo)語言端詞序列的最大對齊點(diǎn),稱為右邊界。

      根據(jù)以上的描述,基于POS信息的調(diào)序規(guī)則的抽取依據(jù)以下一致性原則,即若式(1)和式(2)同時(shí)成立,則Li,m=posi,…,posi+m-1作為一條可能的調(diào)序規(guī)則的左部被存儲(chǔ),該規(guī)則右部為對應(yīng)目標(biāo)語言詞序列的位置信息,記為AS→T,pos,i,m=ai,…,ai+m-1,其中S→T表示以源語言端為基準(zhǔn)的詞對齊。

      ?p∈(1,i-1),且apamax

      (1)

      ?p∈(i+m,I),且apamax

      (2)

      一條完整的初始的POS調(diào)序規(guī)則形式可以表示為:

      Li,m:AS→T,pos,i,m?posi,…,posi+m-1:ai,…,ai+m-1

      (3)

      式(3)所表示規(guī)則的右半部位置信息為某個(gè)目標(biāo)語言句子中詞的絕對位置信息,為提高規(guī)則泛化能力,需要對位置序列進(jìn)行歸一化處理,如下式:

      (4)

      其中r表示抽取的POS規(guī)則,L表示源語言的詞性標(biāo)注序列片段,A表示源語言與目標(biāo)語言的詞對齊信息,N表示平行語料庫句對總數(shù),I表示第k個(gè)源語言句子的句長,i表示某條規(guī)則中對應(yīng)的源語言詞性標(biāo)注序列L的起始位置,m表示L的長度。Σ在這里不表示數(shù)學(xué)意義上的累加和,而是指規(guī)則的集合。

      基于以上算法過程,對漢英平行語料在詞對齊后所抽取的規(guī)則集合可以表示為:

      (5)

      根據(jù)最大似然估計(jì)原理,抽取的調(diào)序規(guī)則集合中的規(guī)則r的概率計(jì)算過程如式(6):

      (6)其中,count(r)為規(guī)則r在規(guī)則庫Rall中出現(xiàn)的次數(shù),rleft為規(guī)則的左部,rright為規(guī)則的右部,規(guī)則左部rleft為固定部分,右部rright可以是不同的位置信息,例如:/v /d /v /m /q : 1 2 3 4 5和 /v /d /v /m /q : 0 0 1 2 3,這里左半部分為規(guī)則詞性,這個(gè)詞性序列有兩種位置組合,第一種出現(xiàn)了4次,第二種出現(xiàn)了1次,所以,公式(6)分母是在對左半部分詞性相同的規(guī)則進(jìn)行數(shù)量累和,在這個(gè)例子中指5。

      2 特定句法增強(qiáng)的調(diào)序規(guī)則分類

      研究者[7-8]很多工作證明了中英句法結(jié)構(gòu)的差異很多來源于特定的中文句法結(jié)構(gòu)“的”,“的”常用來做名詞性修飾結(jié)構(gòu)或其他成分。通過對漢英句法結(jié)構(gòu)和前人對句法研究工作的分析,為了能夠?qū)τ绊懺~序的特定句法結(jié)構(gòu)和一般句法結(jié)構(gòu)進(jìn)行區(qū)分,我們將抽取到的基于POS的調(diào)序規(guī)則分為兩類:調(diào)序“傾向性強(qiáng)”和“傾向性弱”。

      1)包含“的”結(jié)構(gòu)的規(guī)則:RDE,調(diào)序傾向性強(qiáng)的規(guī)則;

      2)不包含“的”的規(guī)則:RNON-DE,調(diào)序傾向性弱的規(guī)則。

      這里的“傾向性強(qiáng)”與“傾向性弱”是相對而言,在調(diào)序時(shí)所表現(xiàn)的權(quán)重有顯著區(qū)分。

      從Chang等[7]和Du[8]等的工作中我們可以看出,中文“的”結(jié)構(gòu)相對于其它句法結(jié)構(gòu)在中文中以很大的比例存在。文獻(xiàn)[7][8]將“的”結(jié)構(gòu)分為五類,在這五類中,需要調(diào)序的兩種規(guī)則(即“B preposition A”和“relative clause”)的數(shù)量在5種類別中所占比重達(dá)到70.69%,因此,我們將“的”結(jié)構(gòu)看做是一種調(diào)序“傾向性強(qiáng)”(數(shù)量上和比例上占很大優(yōu)勢)的規(guī)則。

      目前的工作中,我們只對“的”字結(jié)構(gòu)進(jìn)行了研究,來驗(yàn)證本文所提方法的有效性和可行性。

      包含“的”結(jié)構(gòu)的規(guī)則可以表示為:

      rDE?r1DEr2

      (7)

      其中,以“的”為中心,r1表示規(guī)則的左邊半部;r2表示規(guī)則的右半部。

      3 規(guī)則優(yōu)化過濾機(jī)制及源端預(yù)調(diào)序

      為確保獲取規(guī)則的準(zhǔn)確性和可靠性,我們建立優(yōu)選機(jī)制即規(guī)則剪枝策略來選取規(guī)則。定義了兩個(gè)閾值作為篩選條件,分別為:1)數(shù)量閾值θc,即規(guī)則出現(xiàn)的次數(shù)大于θc時(shí),該規(guī)則有效。2)比例閾值θp,即規(guī)則的估計(jì)概率大于θp時(shí)該規(guī)則有效。

      由Chen等的工作[4]可知,當(dāng)θp≥0.9時(shí),可以獲取大量可靠性和準(zhǔn)確性很高的規(guī)則,但相對降低了規(guī)則的召回率,尤其是對調(diào)序“傾向性強(qiáng)”和“傾向性弱”未加以區(qū)分,使得θp較大時(shí),有些“傾向強(qiáng)”的規(guī)則被剔除。因此,對特定句法結(jié)構(gòu)的調(diào)序規(guī)則適當(dāng)松散化比例閾值,可以獲得更多有效的規(guī)則。

      根據(jù)兩類規(guī)則在句法結(jié)構(gòu)中的作用,設(shè)置不同的比例閾值進(jìn)行規(guī)則篩選,從而達(dá)到優(yōu)化調(diào)序模型的目的。實(shí)驗(yàn)中將包含“的”的調(diào)序規(guī)則比例閾值設(shè)為0.5。將不包含“的”的調(diào)序規(guī)則比例閾值設(shè)為0.9。

      獲取調(diào)序規(guī)則集后,對源端進(jìn)行預(yù)調(diào)序,當(dāng)源端詞性序列中某個(gè)片段與調(diào)序規(guī)則集中的規(guī)則相匹配,則將源端的詞序調(diào)整。采用一種自左至右的匹配策略來進(jìn)行匹配(出現(xiàn)前綴相同的規(guī)則時(shí),我們采用最短的匹配),當(dāng)某一段源語言句子中某一段序列匹配上規(guī)則之后,我們會(huì)從當(dāng)前匹配到的序列的下一個(gè)位置再開始匹配,直至遍歷整個(gè)句子。

      4 實(shí) 驗(yàn)

      4.1 實(shí)驗(yàn)設(shè)置

      本文的翻譯系統(tǒng)是基于開源的Moses系統(tǒng), 使用GIZA++進(jìn)行詞對齊,然后利用grow-diag-final啟發(fā)式方法進(jìn)行詞對齊對稱化。

      漢英訓(xùn)練數(shù)據(jù)來自FBIS的271,124句對,語言模型為5-gram,NIST MT2006為開發(fā)集,NIST MT2005為測試集,系統(tǒng)性能評價(jià)采用BLEU4評價(jià)準(zhǔn)則(范圍0~100,得分越高表示翻譯性能越好)。

      實(shí)驗(yàn)分為四組:Baseline,pos+θp(0.9),pos+θp(0.5,0.9),pos+θp(0.9)+θc(2)。其中,Baseline為基線系統(tǒng),pos+θp(0.9),pos+θp(0.5,0.9)及pos+θp(0.5,0.9)+θc(2)為加入本文所提出的調(diào)序模型后的翻譯系統(tǒng),每個(gè)系統(tǒng)參數(shù)的數(shù)量和比例閾值設(shè)置不同。pos+θp(0.9)指包含“的”和不包含“的”的兩類規(guī)則比例閾值都設(shè)置為0.9,pos+θp(0.5,0.9)為包含“的”規(guī)則的比例閾值設(shè)為0.5,不包含“的”的比例閾值設(shè)為0.9,pos+θp(0.5,0.9)+θc(2)在比例閾值設(shè)置基礎(chǔ)上將數(shù)量閾值設(shè)置為2。

      4.2 實(shí)驗(yàn)結(jié)果和分析

      表1列舉了不同閾值設(shè)置下獲取規(guī)則的數(shù)量。從表1可看出以下幾點(diǎn)。

      1)未剪枝前,RDE在總規(guī)則集Rall中的比例接近20%,剪枝后所占比例明顯下降。可以看出,比例閾值設(shè)置過高時(shí),雖然確保了規(guī)則的準(zhǔn)確性,但導(dǎo)致大量有效的調(diào)序規(guī)則如“的”規(guī)則丟失。

      2)pos+θp(0.5,0.9)和pos+θp(0.5,0.9)+θc(2)中的規(guī)則數(shù)量對比,可以看出數(shù)量閾值θc的設(shè)置對RDE的影響要比RNON-DE顯著,使得RDE的數(shù)量大幅度減少,這說明了“的”結(jié)構(gòu)在中文句法結(jié)構(gòu)中普遍存在,且構(gòu)成形式是多變的。

      表2給出了不同翻譯任務(wù)下的翻譯結(jié)果。從結(jié)果可以看出以下幾點(diǎn)。

      1)相比于基線系統(tǒng),加入調(diào)序規(guī)則的三個(gè)系統(tǒng)性能都有所提升,pos+θp(0.9)在翻譯系統(tǒng)上的BLEU值提升了0.15%,pos+θp(0.5,0.9)提升了0.52%,pos+θp(0.5,0.9)+θc(2)提升了0.69%,說明了調(diào)序方法有效性。

      2)pos+θp(0.5,0.9)和pos+θp(0.5,0.9)+θc(2)的結(jié)果優(yōu)于pos+θp(0.9),說明本文所提區(qū)分調(diào)序“傾向性強(qiáng)”和“傾向性弱”的思路,對影響漢英語序差異的特定句法結(jié)構(gòu)“的”進(jìn)行區(qū)分處理是可行的。

      然而,通過對實(shí)驗(yàn)結(jié)果進(jìn)行分析,我們也發(fā)現(xiàn)了以下潛在問題。

      1) 雖然區(qū)分了調(diào)序“傾向性強(qiáng)”與“傾向性弱”規(guī)則,但僅限于漢語“的”字結(jié)構(gòu),我們?nèi)孕柰诰蚋嗟湫驼{(diào)序結(jié)構(gòu)以增強(qiáng)調(diào)序模型。

      2) 閾值的設(shè)定主要取自經(jīng)驗(yàn)值,閾值設(shè)置較大時(shí)對規(guī)則規(guī)模的剪枝力度過大,使得規(guī)則數(shù)據(jù)急劇下降,如表1所示,由此引起的后果是數(shù)據(jù)的調(diào)序比例降低,如表3中所示。

      5 結(jié)論和展望

      針對漢英機(jī)器翻譯的調(diào)序問題,本文提出了一種特定句法結(jié)構(gòu)增強(qiáng)的基于POS信息的源語言預(yù)調(diào)序方法。首先通過漢英平行句對的詞對齊信息和源語言句子的詞性標(biāo)注信息抽取POS調(diào)序規(guī)則,然后根據(jù)“的”結(jié)構(gòu)將調(diào)序規(guī)則分為調(diào)序“傾向性強(qiáng)”與“傾向性弱”兩類,最后采用不同的閾值設(shè)置對兩類規(guī)則集進(jìn)行剪枝,獲取最有效的調(diào)序規(guī)則集。在NIST漢-英機(jī)器翻譯評測數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),相比于基線系統(tǒng),本文所提方法的BLEU值在NIST 數(shù)據(jù)集集上分別提高了0.52%和0.69%,驗(yàn)證了方法的有效性。

      在以后的工作中,以漢英統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的調(diào)序?yàn)閷ο?,主要進(jìn)行以下方面的研究:1)挖掘更多有效的特定調(diào)序句法結(jié)構(gòu),進(jìn)一步增強(qiáng)基于POS信息的調(diào)序模型的調(diào)序能力;2)引入句法學(xué)知識抽取更加合理的句法調(diào)序規(guī)則。

      [1]Nagata M, Saito K, Yamamoto K, Ohashi K. A clustered global phrase reordering model for statistical machine translation[C]∥The 21 International Conference on Computational Linguistics and the 44th Annual Meeting of the ACL, Sydney, 2006:713-720.

      [2]Wang C, Collins M, Koehn P. Chinese syntactic reordering for statistical machine translation[C]∥Conference on Empirical Methods in Natural Language Processing, Prague, 2007:737-745.

      [3]Zhang J J, Zong C Q. A unified approach for effectively integrating source-side syntactic reordering rules into phrase-based translation[J]. Language Resources and Evaluation, 2013, 47: 449-474.

      [4]Chen B X, Cettolo M, Federico M. Reordering rules for phrase-based statistical machine translation[C]∥International Workshop on Spoken Language Translation and Evaluation Campaign on Spoken Language Translation, Kyoto, 2006:1-15.

      [5]Rottmann K, Vogel S. Word reordering statistical machine translation with a POS-based distortion model[C]∥The 11th International Conference on TMI-MT, Sweden, 2007:171-180.

      [6]Wu Q F, Huang S J, Dai X Y A Syntax-based pre-reordering for phrased-based Chinese-English SMT[C]∥The 11th China Conference on Computational Linguistics, Luoyang, 2011:50-57.

      [7]Chang P C, Jurafsky D, Manning C D. Disambiguating “DE” for Chinese-English machine translation[C]∥The Fourth Workshop on SMT, Athens, 2009:215-223.

      [8]Du J H, Way A. A discriminative latent variable-based “DE” classifier for Chinese-English SMT[C]∥The 23rd International Conference on Computational Linguistics, Beijing, 2010:286-294.

      [9]Zhang H P, Liu Q, Cheng X Q, et al. Chinese lexical analysis using hierarchical hidden markov model[C]∥The SIGHAN Workshop on Chinese Language Processing, Sapporo, 2003:63-70.

      (責(zé)任編輯 楊小麗)

      Specific syntactic construction enhanced POS reordering model for SMT

      DU Jinhua1,2, ZHANG Xiyuan1,2

      (1.Faculty of Automation and Information Engineering, Xi’an University of Technology,Xi’an 710048, China; 2.Shaanxi Key Laboratory of Complex System Control and Intelligent Information Processing, Xi’an 710048, China)

      This paper presents a specific syntactic structure (Chinese “DE” structure) enhanced reordering model for phrase-based Chinese-English SMT. This method first extracts the basic reordering rules in the case of constraint of word alignment and part of speech (POS) information, and then classifies the extracted basic rules automatically into two types of “strong reordering tendency” and “weak reordering tendency” in terms of Chinese and specific syntactic structure-“Chinese “DE” structure”. Finally, the different optimization and pruning strategies are adopted to deal with the rules of two types, whereby obtaining the reordering rule set of the source side. The experimental results on Chinese-English NIST 2005 data set indicate that the proposed method significantly raises the baseline by relatively 0.69 BLEU against baseline system.

      statistical machine translation; specific syntactic construction; “DE” construction; POS reordering model

      1006-4710(2015)03-0277-05

      2014-10-16

      國家自然科學(xué)基金資助項(xiàng)目(61100085)。

      杜金華,男,副教授,博士,研究方向?yàn)闄C(jī)器學(xué)習(xí)與自然語言處理。E-mail:jhdu@xaut.edu.cn。

      TP391

      A

      猜你喜歡
      源語言句法結(jié)構(gòu)傾向性
      基于模糊數(shù)學(xué)法的阿舍勒銅礦深部巖體巖爆傾向性預(yù)測
      林巍《知識與智慧》英譯分析
      淺析日語口譯譯員素質(zhì)
      現(xiàn)代漢語句法結(jié)構(gòu)解讀
      山西青年(2017年7期)2017-01-29 18:25:26
      《基本句法結(jié)構(gòu):無特征句法》評介
      跨文化視角下對具有修辭手法諺語英譯漢的研究
      速讀·下旬(2016年7期)2016-07-20 08:50:28
      關(guān)于醫(yī)患沖突報(bào)道的傾向性分析——以“湘潭產(chǎn)婦死亡案”為例
      以口譯實(shí)例談雙語知識的必要性
      考試周刊(2015年36期)2015-09-10 15:03:38
      “沒準(zhǔn)兒”“不一定”“不見得”和“說不定”的語義傾向性和主觀性差異
      語言與翻譯(2015年4期)2015-07-18 11:07:43
      一種面向博客群的主題傾向性分析模型
      徐汇区| 汉寿县| 乌拉特前旗| 兰西县| 普格县| 平遥县| 武义县| 白朗县| 巴南区| 蓬莱市| 温州市| 株洲县| 抚州市| 招远市| 大新县| 牙克石市| 阳江市| 阿瓦提县| 龙南县| 宁明县| 湘西| 浏阳市| 平邑县| 辽阳县| 堆龙德庆县| 庆安县| 金平| 特克斯县| 鄯善县| 临洮县| 海原县| 綦江县| 定结县| 错那县| 阿瓦提县| 衢州市| 洛宁县| 都匀市| 樟树市| 赣榆县| 嵩明县|