• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      蒙漢機(jī)器翻譯校正數(shù)據(jù)集

      2022-07-03 14:05:14申影利包烏格德勒趙小兵
      關(guān)鍵詞:蒙文蒙古文蒙漢

      申影利,包烏格德勒,趙小兵

      1.中央民族大學(xué)中國(guó)少數(shù)民族語(yǔ)言文學(xué)學(xué)院,北京 100081

      2.呼和浩特民族學(xué)院,呼和浩特 010051

      3.中央民族大學(xué)信息工程學(xué)院,北京 100081

      4.國(guó)家語(yǔ)言資源監(jiān)測(cè)與研究少數(shù)民族語(yǔ)言中心,北京 100081

      引 言

      傳統(tǒng)蒙古文(又稱回鶻式蒙古文)是一種黏著型拼音文字,包含“名義字符”和“變形顯現(xiàn)字符”。名義字符是蒙古文字符的獨(dú)立體存在形式,顯現(xiàn)字符則是字符居于詞首、詞中、詞尾時(shí)由于變形而產(chǎn)生的不同顯示形態(tài)[1]。蒙古文Unicode字符編碼“以音編碼”,其文本存在“形同音異”的現(xiàn)象,因而造成以國(guó)際標(biāo)準(zhǔn)編碼存儲(chǔ)的傳統(tǒng)蒙古文文本常常錯(cuò)誤地錄入形狀相同,但讀音不同的變形顯現(xiàn)字符。從字形上看,該單詞是完全相同的,但其內(nèi)部編碼卻是不同的,這種文本拼寫錯(cuò)誤對(duì)蒙古文信息處理研究造成重大障礙[2]。

      蒙古文的文本校對(duì)工作是蒙古文信息處理的基礎(chǔ)性工作之一。早期的校正工作依賴于人工校對(duì),準(zhǔn)確性高,但耗時(shí)耗力,效率低下。很多學(xué)者針對(duì)傳統(tǒng)蒙古文的自動(dòng)校對(duì)問題提出了可行的方案。華沙寶[3]依據(jù)蒙古文正字法規(guī)則開發(fā)MHAHP校對(duì)系統(tǒng),受限于詞典規(guī)模,該系統(tǒng)對(duì)動(dòng)詞構(gòu)形附加成分、格附加成分之外的錯(cuò)誤校對(duì)效果欠佳。蘇傳捷[4]等人利用機(jī)器翻譯模型來構(gòu)建拼寫校對(duì)模型,在小規(guī)模文本上糾錯(cuò)后正確詞比例達(dá)到97.55%。蔡祝元[5]通過建立音節(jié)與真詞混淆集,實(shí)現(xiàn)了對(duì)蒙古文非詞錯(cuò)誤與真詞錯(cuò)誤的查錯(cuò)與糾錯(cuò)。

      本文以第十七屆全國(guó)機(jī)器翻譯大會(huì)(The 17th China Conference on Machine Translation,CCMT 2021,網(wǎng)址見http://sc.cipsc.org.cn/mt/conference/2021/)蒙漢雙語(yǔ)翻譯項(xiàng)目公開評(píng)測(cè)數(shù)據(jù)集作為原始語(yǔ)料。根據(jù)分析,評(píng)測(cè)中提供的未經(jīng)處理的蒙文語(yǔ)料存在諸多文本錯(cuò)誤,這將嚴(yán)重影響機(jī)器翻譯的性能。因此,本文開展蒙文自動(dòng)校正工作,構(gòu)建面向機(jī)器翻譯任務(wù)的高質(zhì)量蒙漢雙語(yǔ)數(shù)據(jù)集。

      1 數(shù)據(jù)采集和處理方法

      1.1 原始語(yǔ)料數(shù)據(jù)收集

      原始數(shù)據(jù)來自第十七屆全國(guó)機(jī)器翻譯大會(huì)機(jī)器翻譯評(píng)測(cè)任務(wù)(CCMT 2021 MT Evaluation),CCMT 2021蒙漢雙語(yǔ)翻譯任務(wù)的評(píng)測(cè)訓(xùn)練、開發(fā)語(yǔ)料數(shù)據(jù)的情況見表1。

      表1 CCMT 2021蒙漢雙語(yǔ)翻譯任務(wù)數(shù)據(jù)情況Table 1 Data of CCMT 2021 Mongolian and Chinese bilingual translation task

      1.2 數(shù)據(jù)處理

      1.2.1 噪聲數(shù)據(jù)清洗

      在對(duì)蒙古文進(jìn)行文本校正工作之前,我們發(fā)現(xiàn)原始評(píng)測(cè)集中蒙漢平行語(yǔ)料,存在源端、目標(biāo)端語(yǔ)言混雜的情況。例如,在 IMU-CWMT2015文件夾中在源語(yǔ)言訓(xùn)練語(yǔ)料中存在大量的目標(biāo)端語(yǔ)言句子,反之亦然,如圖1所示。另外,訓(xùn)練數(shù)據(jù)中的重復(fù)句子會(huì)增加模型的負(fù)擔(dān),影響翻譯效果,因此在對(duì)蒙漢雙語(yǔ)句對(duì)中的蒙古文文本進(jìn)行校正前,首先需要進(jìn)行清洗、過濾蒙漢平行句對(duì)中的“噪聲”數(shù)據(jù)。這樣不但可以降低文本校正工作量,還能緩解低質(zhì)量語(yǔ)料引起的翻譯性能下降問題。針對(duì)以上情況,分別利用語(yǔ)種檢測(cè)技術(shù)刪除混雜語(yǔ)種、重復(fù)語(yǔ)句及空行,由實(shí)驗(yàn)最初設(shè)定的262,458句對(duì)訓(xùn)練語(yǔ)料得到經(jīng)過清洗后的248,438句對(duì),共刪除14,020句對(duì)。

      1.2.2 蒙文文本校正

      (一)數(shù)字、英文、中文符號(hào)、蒙古文非Unicode字符的轉(zhuǎn)換處理

      CCMT2021提供的蒙古文語(yǔ)料為Unicode編碼語(yǔ)料,因此,首先將蒙文語(yǔ)料中的數(shù)字、英文、符號(hào)及蒙古文非 Unicode 字符進(jìn)行轉(zhuǎn)換處理。

      (二)文本校對(duì)

      (1)通過正則表達(dá)式對(duì)部分字符進(jìn)行修正

      連續(xù)的變形控制符(u180B,u180C,u180D)只保留第一個(gè);對(duì)分寫的附加成分進(jìn)行統(tǒng)一處理;對(duì)u182C(?)和u182D(?)字符進(jìn)行修正;對(duì)混用的陽(yáng)性元音和陰性元音進(jìn)行修正;對(duì)u1836(?)字符進(jìn)行修正。以上操作結(jié)束后把蒙古文語(yǔ)料轉(zhuǎn)換為拉丁轉(zhuǎn)寫形式,對(duì)拉丁轉(zhuǎn)寫語(yǔ)料進(jìn)行校對(duì)。

      (2)通過詞典和規(guī)則的方法對(duì)文本進(jìn)行校正

      采用基于詞典和規(guī)則的方式對(duì)蒙古文進(jìn)行自動(dòng)校正,使用國(guó)家語(yǔ)言資源監(jiān)測(cè)與研究少數(shù)民族語(yǔ)言中心(https://nmlr.muc.edu.cn/)構(gòu)建整理的20萬(wàn)蒙古文的單詞詞典和構(gòu)形附加成分詞典。校正流程如圖2所示。

      蒙文文本校正示例如表2所示。表2通過舉例說明CCMT 2021蒙漢評(píng)測(cè)數(shù)據(jù)中原始蒙文文本的錯(cuò)誤形式以及經(jīng)過蒙文文本校正后的正確蒙文形式。從字形上看,錯(cuò)誤蒙文文本、校正蒙文文本基本相同,但通過將二者進(jìn)行相應(yīng)的拉丁轉(zhuǎn)寫,就可以發(fā)現(xiàn)其內(nèi)部編碼的不同之處。在表2的例子中,我們將錯(cuò)誤蒙文文本中的格錯(cuò)誤部分進(jìn)行標(biāo)紅,該類型是指蒙古文單詞在連寫附加成分時(shí)由于陰陽(yáng)性或者其他構(gòu)詞方面的語(yǔ)法原因?qū)е碌腻e(cuò)誤;紫色及藍(lán)色標(biāo)記單詞分別表示單音字、多音字錯(cuò)誤。

      表2 CCMT 2021蒙文文本錯(cuò)誤及校正示例Table 2 Samples of CCMT 2021 Mongolian text errors and correction

      2 數(shù)據(jù)樣本描述

      本數(shù)據(jù)集為蒙漢機(jī)器翻譯雙語(yǔ)平行句對(duì),共包含兩部分:5萬(wàn)句校正后蒙文文本,文件名稱為:mn_correct.txt;5萬(wàn)句中文文本,文件名稱為:zh.txt。如下圖3所示。

      3 數(shù)據(jù)質(zhì)量控制和評(píng)估

      為驗(yàn)證上述蒙文文本校正工作是否對(duì)下游機(jī)器翻譯質(zhì)量有提升作用,我們使用全部經(jīng)過蒙文校正的CCMT2021蒙漢評(píng)測(cè)集及原始蒙漢評(píng)測(cè)集,在當(dāng)前主流的神經(jīng)機(jī)器翻譯框架Transformer[6]上進(jìn)行對(duì)比實(shí)驗(yàn),使用BLEU[7]作為評(píng)測(cè)指標(biāo)。由于CCMT2021主辦方未提供蒙漢雙語(yǔ)測(cè)試數(shù)據(jù),我們選取CWMT2017提供的蒙漢雙語(yǔ)測(cè)試集共1001句對(duì)。實(shí)驗(yàn)結(jié)果如表3所示,其中2021_dev、2017_test分別表示CCMT2021驗(yàn)證集和CWMT2017測(cè)試集。

      表3 蒙漢雙向翻譯模型測(cè)試結(jié)果Table 3 Test results of Mongolian-Chinese bidirectional translation model

      從表3中的實(shí)驗(yàn)結(jié)果可以看出:經(jīng)過蒙文校正后的語(yǔ)料在蒙漢雙向翻譯任務(wù)中都獲得了最優(yōu)性能。在蒙語(yǔ)→漢語(yǔ)翻譯任務(wù)中,與校正前的蒙漢雙語(yǔ)數(shù)據(jù)在2021_dev驗(yàn)證集和2017_test測(cè)試集上的BLEU值相比,分別提升了17.7和0.9個(gè)百分點(diǎn)。另一方面,漢語(yǔ)→蒙語(yǔ)翻譯BLEU提升均優(yōu)于蒙語(yǔ)→漢語(yǔ)翻譯任務(wù),校正后分別提升了21.7%、6.4%。這是因?yàn)槊烧Z(yǔ)相比于漢語(yǔ)構(gòu)詞形態(tài)更加復(fù)雜,當(dāng)翻譯為蒙語(yǔ)時(shí),解碼端很難避免語(yǔ)法錯(cuò)誤,所以高質(zhì)量蒙漢雙語(yǔ)數(shù)據(jù)訓(xùn)練的模型對(duì)漢語(yǔ)→蒙語(yǔ)方向翻譯效果的提升優(yōu)于蒙語(yǔ)→漢語(yǔ)翻譯方向。實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),使用蒙文文字校正后的蒙漢語(yǔ)料在雙向翻譯任務(wù)上均能夠顯著提升翻譯效果。

      4 數(shù)據(jù)使用價(jià)值

      數(shù)據(jù)稀疏是低資源語(yǔ)言神經(jīng)機(jī)器翻譯面臨的主要問題,針對(duì)蒙古文信息處理研究,蒙古文高質(zhì)量語(yǔ)料的獲取一直是亟待解決的難題。本文在蒙漢機(jī)器翻譯評(píng)測(cè)數(shù)據(jù)集的基礎(chǔ)上,進(jìn)行蒙古文文本校正工作,實(shí)驗(yàn)驗(yàn)證發(fā)現(xiàn),經(jīng)過文本校正后的蒙漢雙語(yǔ)數(shù)據(jù)集,在下游機(jī)器翻譯任務(wù)中的翻譯質(zhì)量有明顯提升。本數(shù)據(jù)集除機(jī)器翻譯任務(wù)外,還可用于文本校正、命名實(shí)體識(shí)別、信息檢索等蒙古文自然語(yǔ)言處理工作。

      致 謝

      感謝全國(guó)機(jī)器翻譯大會(huì)主辦機(jī)構(gòu)提供的寶貴原始數(shù)據(jù)資源,感謝對(duì)本數(shù)據(jù)集進(jìn)行蒙文校正工作的蒙語(yǔ)研究專家。

      數(shù)據(jù)作者分工職責(zé)

      申影利(1994—),女,安徽亳州人,在讀博士研究生,研究方向?yàn)樽匀徽Z(yǔ)言處理、機(jī)器翻譯。主要承擔(dān)工作:數(shù)據(jù)篩選、處理、加工,數(shù)據(jù)集生成,論文的撰寫。

      包烏格德勒(1979—),男,內(nèi)蒙古興安盟人,博士,副教授,研究方向?yàn)橛?jì)算語(yǔ)言學(xué)、蒙古文信息處理。主要承擔(dān)工作:數(shù)據(jù)集設(shè)計(jì)和整理,數(shù)據(jù)校準(zhǔn)。

      趙小兵(1967—),女,內(nèi)蒙古呼和浩特人,博士,博士生導(dǎo)師,研究方向?yàn)樽匀徽Z(yǔ)言處理、輿情分析等。主要承擔(dān)工作:研究思路設(shè)計(jì)與論文撰寫指導(dǎo)。

      猜你喜歡
      蒙文蒙古文蒙漢
      蒙文少兒出版物題材特征分析
      《內(nèi)蒙古藝術(shù)》(蒙漢刊)首屆作者培訓(xùn)班掠影
      簡(jiǎn)論蒙漢蛇文化比較研究
      關(guān)于新發(fā)現(xiàn)的《字母匯編》(蒙古文)
      淺析關(guān)于蒙漢章回小說的結(jié)構(gòu)
      蒙文信息處理課程教學(xué)策略分析
      清朝頒予杜爾伯特達(dá)賴汗之滿蒙文承襲詔書(英文)
      關(guān)于蒙古文在各種瀏覽器上顯示方法的探討
      略論Khandjamts夫人(基里爾蒙古文)
      清代歸化城土默特地區(qū)的草廠糾紛與蒙漢關(guān)系
      全椒县| 青岛市| 曲周县| 甘泉县| 苏尼特左旗| 徐州市| 黄大仙区| 凤冈县| 南丹县| 双牌县| 崇仁县| 广昌县| 宽甸| 连平县| 云和县| 南丹县| 普宁市| 万宁市| 南雄市| 沭阳县| 林周县| 晋江市| 天长市| 墨江| 临猗县| 永年县| 策勒县| 中西区| 昭通市| 台中市| 奈曼旗| 阿拉尔市| 信宜市| 成武县| 青川县| 平凉市| 迁西县| 周口市| 邯郸市| 洛浦县| 株洲市|