• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      融合句法特征的漢—老雙語詞語對齊算法研究

      2018-05-15 08:31李思卓周蘭江周楓郭劍毅
      軟件導(dǎo)刊 2018年4期
      關(guān)鍵詞:特征函數(shù)

      李思卓 周蘭江 周楓 郭劍毅

      摘 要:詞語對齊技術(shù)一直是自然語言處理的基礎(chǔ)問題。為實(shí)現(xiàn)漢―老雙語自動(dòng)詞對齊,首先對老撾語存在的修飾詞與中心詞順序倒置、結(jié)構(gòu)和位置上的差異性等特征進(jìn)行了分析,通過分析篩選出一些漢―老雙語特征并將這些特征融合,對其構(gòu)建特征函數(shù),以最小錯(cuò)誤率算法為條件,在對數(shù)線性模型框架下訓(xùn)練模型參數(shù),將IBM3模型作為基礎(chǔ)比較模型,通過逐步添加特征函數(shù)從而實(shí)現(xiàn)與基礎(chǔ)模型的對比。實(shí)驗(yàn)證明,該方法可有效提高漢-老雙語詞對齊質(zhì)量。

      關(guān)鍵詞:漢―老雙語詞對齊;特征函數(shù);最小錯(cuò)誤率算法;對數(shù)線性模型;IBM3模型

      DOIDOI:10.11907/rjdk.172624

      中圖分類號:TP312

      文獻(xiàn)標(biāo)識碼:A 文章編號:1672-7800(2018)004-0009-04

      Abstract:Word alignment has been regarded as one of the basic problems in natural language processing. In order to realize Laos-Chinese bilingual automatic word alignment, this paper analyzes the features of the inverted order of modifiers and central words in sentences and the differences in structure and location of the Lao. By summarizing the above characteristics, we selecte some of the Laos-Chinese bilingual features and fused these features, constructed feature function and trained the model parameters by the minimum error rate algorithm under the framework of Log-Linear model, based on IBM Model 3. During the experiment, we achieve the contrast to the underlying model by adding feature functions to the alignment model step by step. Experimental results show that this algorithm can effectively improve the quality of the Laos-Chinese bilingual word alignment.

      Key Words:Laos-Chinese bilingual word alignment; feature function; the minimum error rate algorithm; log-linear model; IBM Model

      0 引言

      雙語詞語對齊由Brown等提出,作為機(jī)器翻譯的一個(gè)隱含過程。Och等在IBM的5個(gè)模型基礎(chǔ)上開發(fā)了詞對齊開源工具GIZA++;Blunsom等加入了二叉決策,基于條件隨機(jī)場改進(jìn)了算法搜索過程。Liu等進(jìn)行了創(chuàng)新,在處理詞對齊問題時(shí)利用對數(shù)線性模型,針對不同雙語對齊語言將語法特點(diǎn)轉(zhuǎn)化成特征模型,從而提高詞對齊效果。

      本文對漢-老雙語的語言特點(diǎn)進(jìn)行了深入細(xì)致分析。為實(shí)現(xiàn)漢―老雙語自動(dòng)詞對齊,以漢語為標(biāo)準(zhǔn),通過總結(jié)老撾語特征,將這些特征融合,構(gòu)建特征函數(shù),以IBM3模型為基礎(chǔ),提出了一種融合多種老撾語依存句法特征函數(shù)的詞對齊算法,實(shí)驗(yàn)證明該方法可有效提高漢-老雙語詞對齊質(zhì)量。

      1 對數(shù)線性模型

      本文以IBM 3為基礎(chǔ)特征函數(shù),在IBM3的基礎(chǔ)上逐步增加針對老撾語語言特點(diǎn)設(shè)計(jì)的特征函數(shù),從而進(jìn)行效果對比。

      2 漢語-老撾語詞對齊特征函數(shù)

      2.1 IBM模型

      本文中,兩種不同對齊方向的IBM3特征模型被當(dāng)作不同特征:源語言和目標(biāo)語言都可以是漢語或老撾語。

      2.2 漢-老詞對齊特征函數(shù)

      2.2.1 老撾語-漢語詞語定語倒置函數(shù)

      與漢語相比,老撾語較為明顯的特征是修飾詞通常置于所修飾的中心詞之后。也就是說,漢語句子成分的排列順序?yàn)椋海ǘㄕZ)主語+謂語+(定語)賓語,而在老撾語中順序是:主語(定語)+謂語+賓語(定語)。例如,漢語的“他父親開新車”的老撾語為:“(父親)(他)(開)(車)(新)”。從上面例子可以看出,無論中心詞是主語還是謂語,充當(dāng)修飾功能的定語都是位于中心詞之后的,本文稱這種現(xiàn)象為修飾區(qū)間后置。因此,本文將老撾語句子分成兩塊,第一塊由名詞充當(dāng)?shù)闹行脑~,標(biāo)記為Nd;第二塊由形容詞充當(dāng)?shù)男揎椩~,標(biāo)記為Ad。

      2.2.2 漢語-老撾語狀語末置函數(shù)

      當(dāng)源語言為漢語時(shí),就可將此模型加入到以IBM3模型為基礎(chǔ)模型的對數(shù)線性框架中,其特征函數(shù)表示為公式(16):

      需要特別指出的是,該特征函數(shù)是單向的,即源語言為漢語,目標(biāo)語言為老撾語。

      3 參數(shù)訓(xùn)練及搜索

      3.1 模型參數(shù)訓(xùn)練

      3.2 搜索過程

      本文通過基于棧的搜索方法,在對齊特征函數(shù)權(quán)重λ的條件下,將概率最大的雙語詞語對齊結(jié)果從M維詞對齊空間搜索出來。

      4 實(shí)驗(yàn)與結(jié)果分析

      為了驗(yàn)證該詞對齊方法的可行性,在由人工對齊的漢-老雙語平行句對上展開實(shí)驗(yàn)?;A(chǔ)比較模型為IBM3,在實(shí)驗(yàn)語料上得出詞對齊實(shí)驗(yàn)結(jié)果。實(shí)驗(yàn)中使用的開發(fā)集、測試集和訓(xùn)練集數(shù)據(jù)如表1所示。

      本文使用ICTCLAS(Zhang et al.,2003)對開發(fā)集和測試集中的漢語句子進(jìn)行分詞和標(biāo)注,老撾語使用東南亞語言信息處理平臺[14]分詞和標(biāo)注。對開發(fā)集和測試集中的各500個(gè)句對進(jìn)行人工對齊,用來優(yōu)化模型參數(shù)和增益閾值。

      實(shí)驗(yàn)以IBM 3模型作為比較對象,為了更好地體現(xiàn)每個(gè)特征函數(shù)對漢老雙語詞對齊的約束作用,將不同于以上3類特征模型按詞性細(xì)分為幾種特征函數(shù),在以IBM 3模型為基礎(chǔ)的特征函數(shù)上逐步增加前文中定義的幾個(gè)特征函數(shù)。實(shí)驗(yàn)結(jié)果如表2所示。在同一漢-老雙語語料庫下,“IBM(both directions)”表示漢-老雙語詞對齊框架僅僅使用IBM3翻譯模型作為特征函數(shù),“+DCL”表示漢語-老撾語狀語末置模型,“+USCL”表示漢語-老撾語數(shù)詞對照模型,“+UDCL”表示漢語-老撾語數(shù)詞倒置模型,“+PCL(ADJ)”表示在此基礎(chǔ)上添加了漢語-老撾語方向定語倒置模型。

      待評測對齊結(jié)果集合為A,人工對齊結(jié)果分為兩類集合:確定性對齊集合S和不確定性對齊P,AER計(jì)算公式如下:

      從表2可以看出,在相同規(guī)模的老撾語-漢語雙語語料庫下,逐漸增加上述特征函數(shù)后,對齊效果明顯好于僅使用IBM 3模型作為特征函數(shù)的對齊模型,這說明修飾區(qū)間后置和句子主干對照特征對老撾語-漢語雙語詞語對齊起到了重要作用。

      5 結(jié)語

      本文在對數(shù)線性模型框架下,針對老撾語語言特點(diǎn)設(shè)計(jì)對齊特征函數(shù),將老撾語語言相關(guān)的統(tǒng)計(jì)特性加入到詞語對齊模型中,以最小錯(cuò)誤率算法為條件,在對數(shù)線性模型框架下訓(xùn)練模型參數(shù)。以IBM 3模型為基礎(chǔ)比較模型,提出了一種在對數(shù)線性模型基礎(chǔ)上融合多種老撾語依存句法特征函數(shù)的詞對齊算法,在實(shí)驗(yàn)中通過逐步添加特征函數(shù)到對齊模型,實(shí)現(xiàn)了與基礎(chǔ)模型的對比。實(shí)驗(yàn)結(jié)果表明,針對老撾語句法特點(diǎn)設(shè)計(jì)的特征函數(shù)可以明顯改善漢-老雙語語詞對齊效果。下一步會將更多的句法特征和依存句法結(jié)構(gòu)加入到模型中,以進(jìn)一步提高漢-老雙語詞對齊效果。

      參考文獻(xiàn):

      [1] SHEMTOV H.Text alignment in a tool for translating revised documents[C].Proc of the Sixth Conference of the European Chapter of the Association for Computational Linguistics, Utrecht, Netherlands,1993:449-453.

      [2] WANG X Z, HE Y L, WANG D D. Non-naive bayesian classifiers for classification problems with continuous attributes[J]. Cybernetics, IEEE Transactions on,2014,44(1):21-39.

      [3] RILEY D, GILDEA D. Improving the IBM alignment models using variational bayes[C].Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Short Papers-Volume 2. Association for Computational Linguistics,2012:306-310.

      [4] CHERRY C, FOSTER G. Batch tuning strategies for statistical machine translation[C].Proceedings of the 2012 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Association for Computational Linguistics,2012:427-436.

      [5] TANG J, GENTZLER E. Globalisation, networks and translation: a chinese perspective[J]. Perspectives: Studies in Translatology,2009,16(3-4):169-182.

      [6] BROWN P F, PIETRA V J D, PIETRA S A D, et al. The mathematics of statistical machine translation: parameter stimation[J]. Computational linguistics,1993,19(2):263-311.

      [7] OCH F J, NEY H. A systematic comparison of various statistical alignment models[J]. Computational linguistics,2003,29(1):19-51.

      [8] BLUNSOM P, COHN T. Discriminative word alignment with conditional random fields[C].Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the Association for Computational Linguistics. Association for Computational Linguistics,2006:65-72.

      [9] TUFID, ION R, CEAUU A, et al. Combined word alignments[C].Proceedings of the ACL Workshop on Building and Using Parallel Texts. Association for Computational Linguistics,2005:107-110.

      [10] LIU Y, LIU Q, LIN S. Discriminative word alignment by linear modeling[J]. Computational Linguistics, 2010,36(3):303-339.

      (責(zé)任編輯:杜能鋼)

      猜你喜歡
      特征函數(shù)
      獨(dú)立的實(shí)正態(tài)過程線性組合的正態(tài)性
      隨機(jī)變量和的特征函數(shù)的性質(zhì)與應(yīng)用
      亞純函數(shù)的Borel方向與Tsuji特征函數(shù)
      隨機(jī)變量的特征函數(shù)在概率論中的應(yīng)用
      關(guān)于(a,b,0)分布類的特征函數(shù)統(tǒng)一表達(dá)式的若干標(biāo)記
      非中心奇異Wishart分布的特征函數(shù)
      特征函數(shù)的性質(zhì)在實(shí)變函數(shù)中的應(yīng)用
      特征函數(shù)在伽瑪分布中一個(gè)恒等式的證明及推廣
      正態(tài)總體下樣本方差分布的新證法
      關(guān)于特征函數(shù)教學(xué)過程中的一點(diǎn)探討
      城固县| 浦县| 长垣县| 宁海县| 通州市| 阿勒泰市| 广灵县| 曲麻莱县| 兴业县| 汉沽区| 绍兴县| 遵义市| 晋城| 镇赉县| 昌宁县| 酒泉市| 汾西县| 泰顺县| 东平县| 远安县| 崇阳县| 林周县| 区。| 十堰市| 怀来县| 临漳县| 班玛县| 六枝特区| 榆中县| 庆阳市| 青浦区| 南皮县| 丹凤县| 漳平市| 伊金霍洛旗| 集安市| 门头沟区| 务川| 荣成市| 称多县| 阿拉善盟|