• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于Transformer模型的軌道交通機器翻譯系統(tǒng)設計

      2024-05-07 07:44:06李子林劉慶猛李雪山
      鐵路計算機應用 2024年4期
      關(guān)鍵詞:多語種插件語料

      李子林,劉慶猛,李雪山

      (中國鐵道科學研究院集團有限公司 科學技術(shù)信息研究所,北京 100081)

      近年來,中國鐵路“走出去”的步伐不斷加快,已成為“一帶一路”建設和國際產(chǎn)能合作的一張靚麗名片。隨著坦桑尼亞—贊比亞鐵路(簡稱:坦贊鐵路)、蒙巴薩—內(nèi)羅畢鐵路(簡稱:蒙內(nèi)鐵路)、中國—老撾鐵路(簡稱:中老鐵路)、匈牙利—塞爾維亞鐵路(簡稱:匈塞鐵路)、雅加達—萬隆高速鐵路(簡稱:雅萬高鐵)等國際鐵路建設合作項目的順利、穩(wěn)步推進,以及《高速鐵路設計基礎(chǔ)設施》等技術(shù)標準的國際化,中國鐵路生產(chǎn)經(jīng)營、科技研發(fā)事業(yè)也不斷迎來一系列新的國際機遇和挑戰(zhàn)。鐵路行業(yè)對外合作和技術(shù)交流的不斷深入也對鐵路從業(yè)人員掌握外國語言的能力提出了更高的要求。此外,在鐵路科技自立自強背景下,國內(nèi)鐵路科研人員囿于語言障礙,無法快速、精準地查詢和利用多語種科技文獻,造成國外先進的鐵路科技研發(fā)成果無法被充分了解、吸收和借鑒。鑒于此,立足軌道交通行業(yè)特點和現(xiàn)實需求,推出具有領(lǐng)域性、專業(yè)性和行業(yè)特色的機器翻譯系統(tǒng)工具意義深遠。

      從基于循環(huán)神經(jīng)網(wǎng)絡(RNN,Recurrent Neural Network)到基于注意力機制、基于卷積神經(jīng)網(wǎng)絡(CNN,Convolutional Neural Network)的神經(jīng)機器翻譯方法[1-3],再發(fā)展至基于自注意力機制的Transformer模型的神經(jīng)機器翻譯(NMT, Neural Machine Translation)方法[4],神經(jīng)機器翻譯模型通過神經(jīng)網(wǎng)絡和注意力機制學習序列之間的映射優(yōu)化了翻譯性能,已成為機器翻譯領(lǐng)域的主流模型。然而,聚焦小語種及特定行業(yè)領(lǐng)域的機器翻譯系統(tǒng)仍處于探索發(fā)展期[5-6]。以谷歌、百度、DeepL等為代表的主流機器翻譯系統(tǒng)在通用領(lǐng)域、常用語種翻譯方面效果顯著,但是在特定行業(yè)領(lǐng)域、小語種翻譯等方面仍然有較大的優(yōu)化空間。以軌道交通行業(yè)為例,主流機器翻譯系統(tǒng)對專業(yè)術(shù)語、專有名詞縮寫、行業(yè)新詞的機器翻譯效果與通用領(lǐng)域翻譯效果尚存差距。另外,滿足本地化部署和信息安全保密要求亦是行業(yè)機器翻譯系統(tǒng)研發(fā)和設計關(guān)注的重點。

      基于上述研究,本文立足軌道交通行業(yè)特色,打造基于Transformer模型的軌道交通機器翻譯系統(tǒng)——“鐵譯通”(RailTrans),面向行業(yè)用戶,提供專業(yè)化、多元化、定制化、安全性強的機器翻譯服務,為進一步豐富人工智能技術(shù)在鐵路行業(yè)的應用場景提供支撐[7]。

      1 系統(tǒng)總體架構(gòu)

      軌道交通機器翻譯系統(tǒng)總體架構(gòu)由應用層和翻譯引擎實現(xiàn)層組成,如圖1所示。

      圖1 軌道交通機器翻譯系統(tǒng)總體架構(gòu)

      1.1 翻譯引擎實現(xiàn)層

      1.1.1 資源數(shù)據(jù)

      主要用于存儲雙語句對、軌道交通領(lǐng)域術(shù)語詞典等基本數(shù)據(jù)庫資源。

      1.1.2 數(shù)據(jù)加工

      主要對資源數(shù)據(jù)層存儲的數(shù)據(jù)進行結(jié)構(gòu)化預處理,以確保訓練系統(tǒng)所需要的數(shù)據(jù)可用,主要包括:亂碼過濾、句對齊、中文分詞、多國語分詞、命名實體識別、子詞切分等流程。

      1.1.3 模型訓練

      采用基于Transformer模型進行神經(jīng)機器翻譯建模,同時,使用極大似然估計針對平行數(shù)據(jù)進行網(wǎng)絡參數(shù)調(diào)優(yōu),進而可以使用此模型進行翻譯引擎構(gòu)建。自動評價方法使用雙語互譯質(zhì)量評估輔助工具(BLEU,Bilingual Evaluation Understudy)來評價翻譯質(zhì)量,并根據(jù)評測結(jié)果的優(yōu)缺點調(diào)整訓練模型,最后得出翻譯系統(tǒng)最佳模型。

      1.1.4 引擎構(gòu)建

      對資源數(shù)據(jù)、數(shù)據(jù)加工及模型訓練等模塊進行統(tǒng)一調(diào)度管理,并將所有資源數(shù)據(jù)加載至內(nèi)存,等待翻譯任務進行解碼。利用神經(jīng)機器翻譯解碼技術(shù),基于云平臺結(jié)構(gòu)搭建系統(tǒng)架構(gòu),使之具備分布式處理能力,同時不斷擴展計算節(jié)點以進一步提高翻譯性能。

      1.2 應用層

      1.2.1 功能模塊

      主要包括語種識別、用戶詞典等服務模塊。語種識別主要是基于統(tǒng)計模型建模,自動識別輸入句子的語言,以便于用戶自動切換到所需語種。用戶詞典主要是面向軌道交通專業(yè)用戶,提供嵌入軌道交通專業(yè)詞庫的領(lǐng)域翻譯功能,根據(jù)用戶需求添加術(shù)語詞典,確保神經(jīng)機器模型在深度學習中提高翻譯性能。

      1.2.2 應用服務

      主要包括:翻譯應用程序編程接口(API,Application Programming Interface),用于支持二次開發(fā);基于Web的文本翻譯、文檔翻譯,其中,文檔格式支持pdf、txt、doc、docx、xls、ppt和pptx等常用格式;基于Web的瀏覽器翻譯,其中,瀏覽器支持Chrome、Edge、360及其他基于Chrome內(nèi)核的瀏覽器;基于Office插件的辦公軟件翻譯,兼容微軟Office和WPS,支持word、ppt、excel文檔。

      2 系統(tǒng)功能

      軌道交通機器翻譯系統(tǒng)的定位是面向國內(nèi)軌道交通行業(yè)用戶的高度安全性、專業(yè)化、個性化的機器翻譯引擎,主要功能如下。

      2.1 網(wǎng)頁端翻譯

      網(wǎng)頁端翻譯功能主要適配瀏覽器端用戶使用場景,分為文本翻譯和文檔翻譯。其中,文本翻譯具備5 000字符文字翻譯能力,提供原文種自動識別、原文清空、譯文復制、雙語高亮等功能;文檔翻譯適配pdf、docx、txt、xls、xls、ppt、pptx、html等格式文檔,具備列表顯示、翻頁、搜索、翻譯進度、下載、刪除、預覽等功能,支持雙語對照格式、譯文docx格式下載。

      2.2 翻譯API及翻譯插件

      隨著多語種信息指數(shù)級增長,機器翻譯技術(shù)逐漸被融合應用到各類業(yè)務場景,為用戶提供實時便捷的翻譯服務[8]。鑒于此,本系統(tǒng)推出翻譯API及各類翻譯插件。文本翻譯API,是基于HTTP協(xié)議的翻譯API,用戶可根據(jù)需要便捷地集成嵌入到業(yè)務平臺或其他應用中;文檔翻譯API,通過API的方式可快速將文檔翻譯服務集成到現(xiàn)有業(yè)務系統(tǒng);XML翻譯API,可支持XML文本翻譯,譯文保留原始格式;特色術(shù)語庫API,通過API調(diào)用添加行業(yè)特色語料,保證譯文中術(shù)語翻譯的準確性和一致性。Office翻譯插件,用戶下載插件到本地安裝后,點選Office辦公軟件工具欄的“鐵譯通”按鈕即可啟動翻譯服務;Web瀏覽器翻譯插件,用戶下載插件到本地安裝后,點選Web瀏覽器輔助工具欄的“鐵譯通”即可啟動網(wǎng)頁翻譯服務。

      2.3 人工翻譯

      機器翻譯在翻譯效率方面優(yōu)勢明顯,但針對軌道交通行業(yè)專業(yè)性強、術(shù)語量多、內(nèi)容復雜的科研類文檔,機器翻譯與人工翻譯相比在文章結(jié)構(gòu)、用詞精準度、語言流暢度等方面仍有較大差距。因此,本系統(tǒng)推出人工翻譯功能,整合軌道交通翻譯專家數(shù)據(jù)庫,有效實現(xiàn)用戶翻譯需求與領(lǐng)域翻譯專家“點對點”關(guān)聯(lián),完成人工翻譯訂單的在線投遞、定向分配、任務返回與譯文發(fā)布。

      2.4 后臺管理

      提供用戶(組)管理功能,可根據(jù)需要對特定用戶(組)的基本信息進行增刪改查,并對相應用戶(組)的使用權(quán)限進行自定義設置;提供充值管理功能,按照流量計費制度對用戶賬號流量進行實時監(jiān)測和自動充值提醒;提供人工翻譯訂單管理功能,對接收的人工翻譯服務訂單進行派單操作和費用配置;提供API管理功能,對API權(quán)限、流量、個性化定制等進行設置;此外,提供訪問控制、訪問統(tǒng)計、流量統(tǒng)計等訪問日志功能。

      3 關(guān)鍵技術(shù)

      3.1 多語種數(shù)據(jù)處理與分析

      多語種數(shù)據(jù)處理與分析主要包括多語言數(shù)據(jù)加工和多語種語言分析。大規(guī)模平行雙語數(shù)據(jù)來源廣泛,數(shù)字化過程中不免出現(xiàn)亂碼問題,因此,須對非法字符、控制字符等進行亂碼過濾等規(guī)范化處理。多語言數(shù)據(jù)加工主要通過集成分布式爬蟲、數(shù)據(jù)標注、數(shù)據(jù)清洗等工具,對軌道交通行業(yè)多語言數(shù)據(jù)進行采集、規(guī)范化處理和加工,為后期多語種語言分析提供數(shù)據(jù)基礎(chǔ)。

      多語種語言分析能夠支持中文句子級的自動分詞、詞性標注、命名實體識別、組塊識別、成分句法分析等技術(shù),對句子中的特殊信息進行預處理,主要包括數(shù)字、時間、日期、人名、地名和組織機構(gòu)名等。在分詞基礎(chǔ)上,根據(jù)大規(guī)模語料進行子詞統(tǒng)計,得到更符合語料的詞匯表,同時,減少機器翻譯中詞匯表過大引起的速度問題。多語種語言分析平臺強大的語料處理能力為高質(zhì)量語料訓練夯實基礎(chǔ),進而保證翻譯質(zhì)量的可信度。

      3.2 Transformer模型及優(yōu)化

      Transformer神經(jīng)網(wǎng)絡模型僅使用自注意力機制和標準的前饋神經(jīng)網(wǎng)絡,不依賴循環(huán)單元或者卷積操作可以高效地描述任意距離之間的依賴關(guān)系,因此,非常適合處理語言文字序列。

      軌道交通機器翻譯系統(tǒng)以Transformer神經(jīng)網(wǎng)絡模型為基礎(chǔ),在算法層面進行創(chuàng)新,以提升模型編碼和解碼的性能。Transformer模型優(yōu)化的方法多數(shù)是將模型加寬(Transformer-Big模型),但是,堆疊太多的層會因為梯度消失或梯度爆炸而導致模型難以訓練,傳統(tǒng)的層標準化(LN,Layer Normalization)是在殘差連接之后進行,本文提出一種新的基于群體置換(Group-Permutation)的知識蒸餾方法,即將深的Transformer模型壓縮為一個淺的輕量模型,并通過隨機刪除子層以引入擾動訓練的子層跳躍(Skipping Sub-Layer)方法?;贕roup-Permutation的知識蒸餾方法如圖2所示。

      圖2 基于Group-Permutation的知識蒸餾方法

      其主要可分為如下3個步驟。

      (1)在Teacher模型上應用Group-permutation的訓練方法;

      (2)通過Teacher模型生成SKD數(shù)據(jù);

      (3)利用得到的SKD數(shù)據(jù)訓練Student模型。

      軌道交通機器翻譯系統(tǒng)引入翻譯記憶(TM,Translation Memory),并融入神經(jīng)機器翻譯NMT模型進行訓練。翻譯記憶是保存信息所翻譯專家歷史翻譯記錄的數(shù)據(jù)庫,其中,每個條目包含源語句子及其翻譯。依托中國鐵道科學研究院集團有限公司科學技術(shù)信息研究所翻譯中心積累的豐富的優(yōu)質(zhì)翻譯經(jīng)驗和語料,構(gòu)成翻譯記憶的基礎(chǔ),這些語料對于軌道交通領(lǐng)域的精準翻譯非常重要。模型訓練中,利用數(shù)據(jù)增廣的方式將翻譯記憶和訓練數(shù)據(jù)拼接起來,同時,調(diào)整神經(jīng)機器翻譯的架構(gòu),使其能夠處理翻譯記憶信息,從中獲得翻譯知識。

      3.3 專業(yè)語料庫構(gòu)建

      經(jīng)典神經(jīng)機器翻譯模型訓練高度依賴雙語平行語料庫[9]。為確保軌道交通機器翻譯系統(tǒng)的翻譯專業(yè)性和精準度,構(gòu)建雙語平行專業(yè)語料庫,從語料規(guī)模、語料采集、語料擇選與規(guī)范化處理等維度進行規(guī)劃與控制,為后期神經(jīng)機器翻譯模型的訓練夯實基礎(chǔ)。

      4 應用場景

      軌道交通機器翻譯系統(tǒng)作為子系統(tǒng)納入到了中國鐵道科學研究院集團有限公司的“軌道交通專業(yè)知識服務系統(tǒng)(鐵科院數(shù)字圖書館)”之中,面向軌道交通行業(yè)用戶提供基礎(chǔ)服務、特色服務和人工服務。

      4.1 基礎(chǔ)服務

      主要包括:文本翻譯、文檔翻譯服務。用戶登錄系統(tǒng)主界面后,手工錄入或上傳文檔即可翻譯。系統(tǒng)支持切換“領(lǐng)域翻譯”“即時翻譯”模式,用戶可自定義翻譯服務的時效性和專業(yè)化程度。例如,輸入文本“cars per cut”,在“通用領(lǐng)域”模式翻譯為“每輛車”,在“軌道領(lǐng)域”模式翻譯為“鉤車”,翻譯結(jié)果的專業(yè)性更強。

      4.2 特色服務

      主要包括:插件翻譯、文檔轉(zhuǎn)換處理等服務。相較于主流機器翻譯引擎,本系統(tǒng)增加Office/WPS翻譯插件、瀏覽器翻譯插件服務,同步在線端的用戶數(shù)據(jù),真正實現(xiàn)“一個賬號聯(lián)通多種服務方式”。另外,推出“劃詞翻譯”“翻譯范圍自定義”等個性化翻譯工具,增設“文檔轉(zhuǎn)換處理”輔助翻譯工具,提高文檔翻譯服務的用戶滿意度。

      4.3 人工服務

      本系統(tǒng)整合國內(nèi)軌道交通行業(yè)翻譯專家資源,增設人工翻譯服務模塊。用戶可在線提交“翻譯訂單”,上傳翻譯示例文檔,選擇不同等級的翻譯服務,并對翻譯內(nèi)容提出要求。本系統(tǒng)將根據(jù)“翻譯訂單”進行專家配對,為用戶推薦目標領(lǐng)域的翻譯專家完成翻譯工作。

      與商業(yè)機器翻譯引擎相比,本系統(tǒng)應用優(yōu)勢如下。

      (1)實現(xiàn)本地化部署,有效保障數(shù)據(jù)的安全性和保密性;

      (2)利用專業(yè)語料庫,提升領(lǐng)域翻譯的專業(yè)性和精準度;

      (3)提供多元化翻譯服務,除網(wǎng)頁端翻譯服務外,提供Office等插件翻譯和人工翻譯服務,適配用戶個性化的應用場景。

      5 結(jié)束語

      本文針對商用機器翻譯引擎安全性無法保證、專業(yè)化領(lǐng)域翻譯精準度低、翻譯服務方式單一等問題,設計軌道交通機器翻譯系統(tǒng)。通過應用知識蒸餾方法進行Transformer模型優(yōu)化,構(gòu)建軌道交通行業(yè)專業(yè)語料庫,提升系統(tǒng)翻譯的專業(yè)性和精準度,實現(xiàn)本地化部署與運營維護,保障數(shù)據(jù)的安全性和保密性;推出文本翻譯、文檔翻譯、Office插件翻譯等的多元化翻譯服務,為軌道交通行業(yè)人員提供更加安全化、專業(yè)化、特色化的翻譯工具。下一步,將豐富多語種語料庫,增加文檔翻譯OCR識別等功能,優(yōu)化翻譯API性能,提升系統(tǒng)的穩(wěn)定性和易用性。

      猜你喜歡
      多語種插件語料
      語聯(lián)世界,言通天下
      自編插件完善App Inventor與樂高機器人通信
      電子制作(2019年22期)2020-01-14 03:16:34
      多語種《中級軍事漢語》教材的編寫思路與指導思想
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      華語電影作為真實語料在翻譯教學中的應用
      MapWindowGIS插件機制及應用
      基于Revit MEP的插件制作探討
      《苗防備覽》中的湘西語料
      國內(nèi)外語用學實證研究比較:語料類型與收集方法
      北美“新清史”研究的基石何在——是多語種史料考辨互證的實證學術(shù)還是意識形態(tài)化的應時之學?(上)
      昌乐县| 留坝县| 广丰县| 栖霞市| 白水县| 澄迈县| 上饶市| 巴马| 依兰县| 永丰县| 江陵县| 永清县| 崇明县| 车险| 固阳县| 江安县| 海宁市| 连南| 改则县| 曲松县| 广州市| 阿尔山市| 柘城县| 奉化市| 阳东县| 庆阳市| 探索| 宁乡县| 吴旗县| 镇平县| 天镇县| 长宁县| 西乌珠穆沁旗| 高唐县| 喀喇| 肇东市| 阿坝| 鄢陵县| 莒南县| 普兰县| 周口市|