• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于混合策略的多語種票據(jù)轉(zhuǎn)換

      2015-11-07 08:26:12改造者余長江鐘方偉
      中國科技信息 2015年23期
      關(guān)鍵詞:混合策略多語種票據(jù)

      改造者:余長江 馬 斌 鐘方偉 周 平

      基于混合策略的多語種票據(jù)轉(zhuǎn)換

      改造者:余長江 馬 斌 鐘方偉 周 平

      主要研究現(xiàn)有業(yè)務(wù)系統(tǒng)實(shí)現(xiàn)多語種票據(jù)自動(dòng)轉(zhuǎn)換的方法;首先闡述了多語種票據(jù)轉(zhuǎn)換的必要性,然后論述多語種票據(jù)轉(zhuǎn)換的關(guān)鍵技術(shù),給出自動(dòng)轉(zhuǎn)換方法的流程,最后通過實(shí)例論證了方法的可行性,對(duì)多語種票據(jù)轉(zhuǎn)換方法的擴(kuò)展性做了展望。

      中國實(shí)行民族區(qū)域自治政策,對(duì)少數(shù)民族聚集地區(qū)社會(huì)穩(wěn)定、民族團(tuán)結(jié)和經(jīng)濟(jì)發(fā)展起到積極的推動(dòng)作用。隨著信息技術(shù)在各行各業(yè)的深入應(yīng)用,很多票據(jù)、單據(jù)、發(fā)票等內(nèi)容還是以漢語作為唯一表述語言;部分采用雙語打印的票據(jù),由于業(yè)務(wù)或內(nèi)容變更而無法及時(shí)顯示準(zhǔn)確的信息,無法滿足還沒有掌握漢語文字的群眾需求,對(duì)服務(wù)雙方的交流造成一定的障礙,從而對(duì)當(dāng)?shù)孛褡鍒F(tuán)結(jié)和社會(huì)穩(wěn)定造成了一定的影響。

      新疆是國家重要的能源基地,電力行業(yè)是新疆經(jīng)濟(jì)發(fā)展的重要支撐,電力行業(yè)的服務(wù)質(zhì)量對(duì)新疆發(fā)展和社會(huì)穩(wěn)定起著重要作用。國家電網(wǎng)公司推廣的電力營銷業(yè)務(wù)系統(tǒng),操作語言只有漢語,系統(tǒng)在新疆本地推廣存在著嚴(yán)重的語言問題,尤其是電費(fèi)繳費(fèi)業(yè)務(wù)中票據(jù)的雙語顯示問題,不能完全滿足客戶需求。

      為此,需要研究一種多語種票據(jù)轉(zhuǎn)換和打印方法,將漢語票據(jù)內(nèi)容通過實(shí)時(shí)翻譯自動(dòng)轉(zhuǎn)換為多語種內(nèi)容,同時(shí)按照票據(jù)格式進(jìn)行排版,最后在不影響現(xiàn)有業(yè)務(wù)系統(tǒng)流程的前提下,實(shí)現(xiàn)多語種票據(jù)打印。

      現(xiàn)有業(yè)務(wù)系統(tǒng)已經(jīng)形成獨(dú)立、完整的系統(tǒng)架構(gòu),因此,增加翻譯服務(wù)需要考慮對(duì)現(xiàn)有系統(tǒng)的影響,開發(fā)、部署原則應(yīng)當(dāng)以最小代價(jià)為基礎(chǔ),不影響現(xiàn)有系統(tǒng)的業(yè)務(wù)獨(dú)立性。

      多語種票據(jù)自動(dòng)轉(zhuǎn)換關(guān)鍵技術(shù)

      圖1 混合策略翻譯原理

      基于混合策略的翻譯模式

      目前,市場(chǎng)上自動(dòng)翻譯系統(tǒng)的翻譯準(zhǔn)確率平均在60%左右,無法滿足商業(yè)用途。但是,在特定領(lǐng)域內(nèi),存在有針對(duì)性的翻譯方法,如針對(duì)姓名、地名的專有名詞翻譯,基于專業(yè)術(shù)語的詞匯翻譯,針對(duì)大批量和重復(fù)性工作的基于記憶庫的翻譯方法等,能夠有效提升翻譯準(zhǔn)確率,使其滿足商業(yè)要求。因此,針對(duì)票據(jù)內(nèi)容的翻譯,可以采用基于詞典、記憶庫、規(guī)則等混合策略的翻譯模式,來提高翻譯的準(zhǔn)確率。

      由于少數(shù)民族的人名或者地名,一般采用音譯的方式,尤其是人名的翻譯沒有統(tǒng)一標(biāo)準(zhǔn),存在多個(gè)漢語名字對(duì)應(yīng)同一個(gè)少數(shù)民族語言名字的情況,因此,對(duì)人名和地名進(jìn)行單獨(dú)翻譯不但能夠提升翻譯效率,更重要的是可以統(tǒng)一翻譯標(biāo)準(zhǔn)。

      常用詞匯翻譯,一般采用基于記憶庫和專業(yè)術(shù)語庫的翻譯方式。在某一個(gè)領(lǐng)域內(nèi),通過翻譯訓(xùn)練,將常用詞匯記錄在記憶庫或者術(shù)語庫,因此,能夠滿足大多數(shù)商業(yè)應(yīng)用的需求。其他詞匯的翻譯需求,需要通過通用翻譯方式來實(shí)現(xiàn),這種翻譯方式的準(zhǔn)確率比較低、翻譯效率低,因此,在特定領(lǐng)域或者場(chǎng)景中,主要用于對(duì)前幾種翻譯方式

      由于目前已經(jīng)存在漢英、漢維、漢哈、漢蒙、漢藏等多語種的翻譯引擎,因此,將票據(jù)的漢語內(nèi)容實(shí)時(shí)轉(zhuǎn)換為多語種,需要重點(diǎn)解決兩個(gè)問題。

      一是提高翻譯的準(zhǔn)確率

      由于當(dāng)前的翻譯引擎自動(dòng)翻譯的結(jié)果準(zhǔn)確率比較低,還不具備普遍應(yīng)用的水平,不能直接應(yīng)用于實(shí)際業(yè)務(wù)。但是,可以通過擴(kuò)展專業(yè)術(shù)語庫、提供多策略的翻譯方式、多倫次的語言訓(xùn)練等方式來解決此問題。

      二是翻譯服務(wù)集成方式的選擇的補(bǔ)充。

      基于混合策略的翻譯模式,其主要步驟包括:

      1.分詞:將翻譯目標(biāo)語句,按照語言特點(diǎn)進(jìn)行分詞,分分離出單詞、詞組等;

      2.標(biāo)準(zhǔn):結(jié)合應(yīng)用場(chǎng)景,按照詞的特性,標(biāo)注詞的屬性,例如,人名、地名、專業(yè)術(shù)語、領(lǐng)域詞匯、通用詞匯等;

      3.分類:按照標(biāo)準(zhǔn)屬性,翻譯引擎調(diào)用不同語料庫,進(jìn)行檢索翻譯;

      4.翻譯:在詞匯翻譯后,調(diào)用翻譯引擎進(jìn)行詞匯組合(翻譯引擎提供語意分析,按照語言特點(diǎn)進(jìn)行語句組合),形成完整的語句方式的翻譯結(jié)果;

      5.還原:按照商業(yè)應(yīng)用目的或者場(chǎng)景,將翻譯結(jié)果按照目標(biāo)格式組合輸出。

      圖2 翻譯服務(wù)集成架構(gòu)

      圖3 混合策略的票據(jù)自動(dòng)轉(zhuǎn)換打印流程

      票據(jù)轉(zhuǎn)換服務(wù)集成架構(gòu)

      多語種翻譯作為一個(gè)服務(wù),應(yīng)該與原有業(yè)務(wù)系統(tǒng)獨(dú)立,不影響業(yè)務(wù)系統(tǒng)的業(yè)務(wù)流程;同時(shí),翻譯服務(wù)也不應(yīng)該重復(fù)業(yè)務(wù)系統(tǒng)的業(yè)務(wù)流程,只需提供翻譯服務(wù)或者調(diào)用業(yè)務(wù)應(yīng)用即可實(shí)現(xiàn)多語種業(yè)務(wù),這樣既保證了系統(tǒng)松散耦合,又可以降低開發(fā)成本。

      實(shí)現(xiàn)多語種翻譯、票據(jù)自動(dòng)轉(zhuǎn)換和打印等功能,首先需要開發(fā)和集成兩個(gè)服務(wù)接口:一是在業(yè)務(wù)平臺(tái)上開發(fā)相應(yīng)的接口服務(wù),二是多語種翻譯服務(wù)中開發(fā)相應(yīng)的接口服務(wù)。導(dǎo)出WSDL接口描述文件,通過應(yīng)用集成將服務(wù)注冊(cè)部署在企業(yè)服務(wù)總線(ESB)上,通過SOAP協(xié)議方式,實(shí)現(xiàn)在業(yè)務(wù)平臺(tái)側(cè)的業(yè)務(wù)響應(yīng)服務(wù)和多語種翻譯服務(wù)側(cè)的業(yè)務(wù)響應(yīng)服務(wù)。

      其次,業(yè)務(wù)應(yīng)用集成滿足如下兩個(gè)場(chǎng)景:

      1.多語種翻譯服務(wù)發(fā)送SOAP消息給ESB上的代理服務(wù)偵聽,由代理服務(wù)動(dòng)態(tài)路由到業(yè)務(wù)服務(wù),實(shí)現(xiàn)調(diào)用業(yè)務(wù)平臺(tái)上的接口服務(wù)。業(yè)務(wù)平臺(tái)上的服務(wù)在完成業(yè)務(wù)處理后實(shí)時(shí)反饋執(zhí)行結(jié)果。如圖中右側(cè)虛線部分;

      2.業(yè)務(wù)平臺(tái)發(fā)送SOAP消息給ESB上的代理服務(wù)偵聽,由代理服務(wù)動(dòng)態(tài)路由到業(yè)務(wù)服務(wù),實(shí)現(xiàn)調(diào)用多語種翻譯的接口服務(wù)。多語種翻譯服務(wù)在完成翻譯處理后實(shí)時(shí)反饋執(zhí)行結(jié)果。如圖中左側(cè)實(shí)線部分。

      多語種票據(jù)自動(dòng)轉(zhuǎn)換方法

      自動(dòng)轉(zhuǎn)換流程

      多語種票據(jù)自動(dòng)轉(zhuǎn)換方法包括三個(gè)主要步驟:一是預(yù)處理部分,主要完成業(yè)務(wù)交互數(shù)據(jù)的封裝和解析;二是機(jī)器翻譯部分,主要完成基于混合策略的機(jī)器翻譯過程;三是后處理部分,主要完成翻譯記憶、多語種票據(jù)生成等過程。其具體流程如圖3所示。

      預(yù)處理部分接收XML格式的數(shù)據(jù)包,通過數(shù)據(jù)解析,判斷票據(jù)的類型,提取票據(jù)內(nèi)容到待翻譯隊(duì)列中。判斷票據(jù)類型主要有兩個(gè)作用:一是獲取票據(jù)主要數(shù)據(jù)項(xiàng),用于票據(jù)內(nèi)容提取、待翻譯詞匯的屬性標(biāo)注,助于翻譯方式的選擇;二是針對(duì)票據(jù)格式的記錄,翻譯結(jié)果將會(huì)按照數(shù)據(jù)項(xiàng)分別輸入到對(duì)應(yīng)的內(nèi)容框中,并根據(jù)內(nèi)容框的大小調(diào)整多語種文字的大小。

      在預(yù)處理提取了票據(jù)內(nèi)容后,將標(biāo)注了屬性的待翻譯信息輸入到翻譯引擎,翻譯引擎根據(jù)屬性選擇相應(yīng)的語料庫進(jìn)行實(shí)時(shí)翻譯,最后將詞匯翻譯結(jié)果組合成目標(biāo)語句翻譯結(jié)果輸出。

      后處理部分首先將翻譯結(jié)果中,標(biāo)準(zhǔn)常用屬性的部分提取出來,通過記憶庫檢索比較,將庫中沒有的詞匯或詞組錄入記憶庫,以備后續(xù)應(yīng)用。然后根據(jù)預(yù)處理部分解析的票據(jù)類型和格式,填充多語種翻譯結(jié)果,然后生成多語種票據(jù),以XML格式封裝保存。最后將生成的多語種票據(jù)輸出到業(yè)務(wù)平臺(tái)進(jìn)行打印。

      xml票據(jù)數(shù)據(jù)結(jié)構(gòu)

      多語種票據(jù)轉(zhuǎn)換過程中,票據(jù)數(shù)據(jù)以XML格式封裝,具體格式如下例所示:

      <dataset〉</dataset〉:標(biāo)記數(shù)據(jù)集的開始和結(jié)束;

      <headers〉</headers〉:頭元素集;

      <header name=”頭元素名”〉頭元素值</ header〉:頭元素;

      <parameters〉</parameters〉:參數(shù)元素集;

      <parameter name=”參數(shù)元素名”〉參數(shù)元素值</parameter〉:參數(shù)元素

      <datastores〉</datastores〉:數(shù)據(jù)存儲(chǔ)集的開始和結(jié)束;

      <datastore name=”數(shù)據(jù)存儲(chǔ)名”〉</ datastore〉:數(shù)據(jù)存儲(chǔ)集的開始和結(jié)束;

      <metadata name=”元素定義名”〉</ metadata〉:數(shù)據(jù)存儲(chǔ)集中字段元素的定義;

      <rowset〉</rowset〉:多行記錄集的開始和結(jié)束;

      <row〉</row〉:行記錄的開始和結(jié)束;

      <column name=”字段名” type=”字段類型”〉字段值</column〉:字段元素。

      圖4 多語種票據(jù)實(shí)例

      實(shí)現(xiàn)與展望

      基于混合策略的多語種票據(jù)自動(dòng)轉(zhuǎn)換方法已經(jīng)應(yīng)用于新疆電力維漢雙語營銷業(yè)務(wù)系統(tǒng),在營銷業(yè)務(wù)應(yīng)用中需要與最終用電用戶確認(rèn)的表卡單據(jù),如電費(fèi)發(fā)票類單據(jù)、用電申請(qǐng)類表單、電費(fèi)賬單類、客戶用電事故類表單、用電設(shè)備裝拆類表單、停送電通知類表單、用電檢查工作類表單等實(shí)現(xiàn)維語打印,確保最終的用戶能看懂填報(bào)內(nèi)容,保證確認(rèn)信息清晰、明白、理解無歧義,有效的解決了民族用戶看不懂漢語票據(jù)的難題,提高了供電企業(yè)服務(wù)用電客戶,滿足少數(shù)民族用戶需求。

      基于混合策略的多語種票據(jù)轉(zhuǎn)換方法,是多語種機(jī)器翻譯技術(shù)商業(yè)化成功應(yīng)用,對(duì)于機(jī)器翻譯技術(shù)的發(fā)展和普及具有重要意義。后續(xù),將基于多語種處理技術(shù)的研究進(jìn)展、應(yīng)用領(lǐng)域的拓展,進(jìn)行針對(duì)性的改進(jìn),提升應(yīng)用面和翻譯性能。

      10.3969/j.issn.1001-8972.2015.23.020

      猜你喜歡
      混合策略多語種票據(jù)
      語聯(lián)世界,言通天下
      混合策略的漢維輔助翻譯系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
      多語種《中級(jí)軍事漢語》教材的編寫思路與指導(dǎo)思想
      注冊(cè)制背景下上市公司與投資者的博弈分析
      基于混合策略博弈的我國工業(yè)碳減排分析
      已有薪資激勵(lì)背景下股票期權(quán)的推行前景和條件
      北美“新清史”研究的基石何在——是多語種史料考辨互證的實(shí)證學(xué)術(shù)還是意識(shí)形態(tài)化的應(yīng)時(shí)之學(xué)?(上)
      從英語碩士到法國博士——我的留學(xué)規(guī)劃和多語種學(xué)習(xí)之路
      新東方英語(2014年1期)2014-01-07 20:03:00
      金坛市| 遵化市| 祁连县| 长沙县| 九寨沟县| 建水县| 延长县| 弥勒县| 沈阳市| 岳普湖县| 西充县| 宜丰县| 永年县| 佛坪县| 北流市| 五台县| 攀枝花市| 舟曲县| 巴彦县| 通海县| 修水县| 莆田市| 濮阳县| 连云港市| 望城县| 巴彦县| 清徐县| 陕西省| 东兰县| 三江| 贵溪市| 仁化县| 竹北市| 湖州市| 吉水县| 眉山市| 新田县| 陆良县| 泽普县| 深水埗区| 嘉义市|