• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      漢哈機器翻譯中的文字轉換技術研究

      2016-04-14 11:12祖力克爾江艾孜海爾江艾孜爾古麗
      電腦知識與技術 2016年5期
      關鍵詞:機器翻譯自然語言處理

      祖力克爾江+艾孜海爾江+艾孜爾古麗

      摘要:漢哈機器翻譯指的是漢語和哈薩克語之間通過利用機器翻譯的一種翻譯方法。如今,在政府、學校等場所漢語和哈薩克語需要互相翻譯,而很多時候都是利用書面和人工方法來翻譯,這種傳統(tǒng)的方法既浪費時間又需要很多人的參與。該文章研究的漢哈機器翻譯是利用谷歌翻譯先把漢語翻譯成斯拉夫文字的哈薩克文再通過文字轉換功能把翻譯出來的結果轉換成新疆目前用的現(xiàn)行哈薩克文(以阿拉伯文字為基礎的哈薩克文),利用了優(yōu)秀的開發(fā)工具Microsoft VisualStudio 2010。漢哈機器翻譯系統(tǒng)的意義在于機器翻譯是計算機科學領域智能翻譯的一個重要方向,通過本系統(tǒng)可以很方便的把漢語翻譯成哈薩克文。

      關鍵詞: 自然語言處理;漢哈翻譯;機器翻譯;哈薩克文翻譯

      中圖分類號:TP18 文獻標識碼:A 文章編號:1009-3044(2016)05-0166-03

      Abstract: Chinese (language)-Kazakh machine translation is one kind of translation month through the use of machine translation between Chinese language and Kazakh language. Nowadays, in the government, schools and other places ,Kazakh and Chinese need to translate to each other, but people always write and by using artificial methods to translation, this traditional approach is a waste of time and requires the participation of many people. This article research of Chinese (language)-Kazakh machine translation is to use Google translator to translate Chinese into Cyrillic text Kazakh first to make the text through the result of the conversion function to translate into xinjiang current with current Kazakh (the Kazakh article) on the basis of the Arabic script, takes advantage of the excellent development tools of Microsoft Visual Studio 2010. Chinese (language)-Kazakh translation systems is that machine translation is the meaning of intelligent translation of an important direction in the field of computer science, through this system can easily translate Chinese into Kazakh.

      Key words:natural language processing; Chinese (language)-Kazakh translation; Machine translation; Kazakh translation;

      1 概述

      隨著現(xiàn)代計算機科學技術的快速發(fā)展,人類渴望利用機器翻譯而達到突破語言障礙的愿望已經初步實現(xiàn)了,尤其是對雙語的研究越來越吸引了專家的重視和研究。研究成果證實了機器翻譯的重要性,利用電子計算機把一種語言翻譯成另一個目標語言達到計算機,人們互相之間的語言障礙,使得溝通更加方便。機器翻譯可以通過電子計算機上的軟件,網頁可以實現(xiàn),其中,最典型的是目前最流行的谷歌在線翻譯(Google Translate),做到了90種語言的相互翻譯。

      哈薩克語屬于突厥語系。文字有兩種,分別是現(xiàn)行哈薩克文和斯拉夫哈薩克文,現(xiàn)行哈薩克文與斯拉夫哈薩克文都是用于表達哈薩克語言的拼音文字,其中,國內用的哈薩克文是以阿拉伯字母為基礎的現(xiàn)行哈薩克文。由于哈薩克語有黏著語的特殊性,單詞通過附加成分會改變意義,所以研究哈薩克語跟其他語言之間機器翻譯的研究較復雜。我國在上世紀九十年代啟動“少數民族文字處理技術開發(fā)”項目,針對少數民族語言的研究工作拉開序幕,雖然要實現(xiàn)真正意義上的遍及少數民族的機譯工作需要比較長的時間,但也欣喜地看到這方面的工作已陸續(xù)展開并不斷取得進展。目前國內研究僅僅限于單詞,最多是詞組,但仍然有很多學者和愛好者對哈薩克語與其他語言之間機器翻譯沒有停止過研究,其中國內最典型的是Kazakhsoft網頁版的在線漢哈翻譯。

      在國外,因為哈薩克語是哈薩克斯坦的國語,對哈薩克語跟其他語言之間機器翻譯的研究比較突出,其中典型的是‘Google Translate + Kazakh'項目,谷歌翻譯(Google Translate)是谷歌公司提供的一項免費翻譯服務,可實現(xiàn)90多種語言之間的即時翻譯。因為歷史的原因,哈薩克文字在不同國家,不同地區(qū)有了不同的文字,目前有兩種文字,一個是哈薩克斯坦用的斯拉夫字母為基礎的斯拉夫哈薩克文字,中國哈薩克文字是以阿拉伯字母為基礎的現(xiàn)行哈薩克文。因為文字不同語言相通,所以,可以用谷歌的在線翻譯,但需要轉換功能。

      本研究是通過谷歌翻譯將漢語翻譯成斯拉夫哈薩克語,再通過現(xiàn)行哈薩克文與斯拉夫哈薩克文之間的字母轉換,最終實現(xiàn)漢語與新疆哈薩克文字的翻譯。

      2 斯拉夫哈薩克文與現(xiàn)行哈薩克文轉換規(guī)則研究

      2.1 斯拉夫哈薩克文

      以斯拉夫字母為基礎的哈薩克文字。這種文字形式共有 37個音素,42個字母。除原有的斯拉夫字母之外,還增加了9個字母,這9個字母不出現(xiàn)在俄語詞里,是哈薩克語特有的字母。另外還有 13個字母用來拼寫外來語(俄語)借詞時使用。

      2.2 現(xiàn)行哈薩克文

      所謂的現(xiàn)行哈薩克文文字是以阿拉伯字母為基礎的哈薩克文文字。另外 1959 年設計了拉丁字母為基礎的新文字方案,1982年恢復原先的阿拉伯字母基礎上的哈薩克文文字。共有33個音(音位),其中9個是元音,24個是輔音,有些字母有兩種書寫形式,有些有四種書寫形式,根據詞里的位置,書寫形式發(fā)生變化。書寫方向是從右向左。

      2.3 斯拉夫哈薩克文與現(xiàn)行哈薩克文轉換規(guī)則

      如無特別說明,現(xiàn)行哈薩克文應先轉換為對應的斯拉夫哈薩克文的小寫形式,然后再根據斯拉夫哈薩克文的書寫規(guī)則進行必要的大小寫轉換。其中現(xiàn)代哈薩克文與斯拉夫哈薩克文字母進行一一對換非常重要,對應情況表1--6所示。

      3 漢哈機器翻譯關鍵技術研究

      漢哈機器翻譯的原理是先利用谷歌在線翻譯將中文翻譯成斯拉夫文字的哈薩克文,再通過把斯拉夫文字的哈薩克文轉換成以阿拉伯為字母基礎的現(xiàn)行哈薩克文生成翻譯的結果。

      3.1斯拉夫哈薩克文與現(xiàn)行哈薩克文轉換算法

      (1)讀取一個原字符;

      (2)根據字符檢查合法性;

      (3)把斯拉夫哈薩克文字符轉換到對應的現(xiàn)行哈薩克文字符;

      (4)對現(xiàn)行哈薩克文字符進行選型;

      (5)轉換過的現(xiàn)行哈薩克文字符來替換斯拉夫哈薩克文字符;

      (6)如果轉換完,就退出過程否則重復(1) (6) 如果轉換完,就退出過程否則重復(1)。

      3.2 研究工作及思路

      漢哈機器翻譯軟件可以幫助利用計算機來翻譯中文與哈薩克文的一個軟件。比起傳統(tǒng)的人工方式翻譯,計算機機器翻譯通過轉換生成現(xiàn)行哈薩克文,速度快,方便,在很短的時間內可以翻譯長篇文章并且導出成word。

      根據漢哈機器翻譯的工作流程,完成了漢哈機器翻譯系統(tǒng)的設計和實現(xiàn)。

      (1)系統(tǒng)通過輸入界面輸入翻譯的文字把翻譯結果輸出到另一個界面。

      (2)系統(tǒng)在翻譯過程中先在后臺把中文翻譯成斯拉夫文字的哈薩克文再通過轉換功能把斯拉夫文字轉換成以阿拉伯文字為基礎的現(xiàn)行哈薩克文。

      (3)導出成word并保存。

      4 結束語

      本文利用目前最流行的谷歌在線翻譯(Google Translate),漢語直接翻譯斯拉夫哈薩克文,然后翻譯斯拉夫哈薩克文轉換現(xiàn)代哈薩克文。本研究的關鍵問題,解決斯拉夫哈薩克文轉換現(xiàn)代哈薩克文。首先研究斯拉夫哈薩克文字母表與現(xiàn)代哈薩克文字母表進行比較、分析,總結對應轉換規(guī)則。例如:表1—表6是一個轉換規(guī)則。語言角度考慮語言次序固定,沒有必要其他方面展開工作。經過多年努力探討了基于谷歌在線翻譯器(Google Translate)的翻譯方法。但是本方法對谷歌在線翻譯器(Google Translate)的依賴性很強。需要進一步展開新的思路和方法。

      參考文獻:

      [1] 劉金龍,張巖,董軍.斯拉夫哈薩克文與現(xiàn)行哈薩克文編碼字符轉換規(guī)則的探究[J].電子測試, 2014(19).

      [2] 薩合多拉·木巴拉克,古麗拉·阿東別克.哈薩克語阿拉伯文與斯拉夫文間的智能轉換[J].計算機工程與應用, 2014(18):226-229.

      [3] 新疆維吾爾自治區(qū)民語委.哈薩克語正音法基本規(guī)則[S],1997.

      [4] 古麗扎達· 海沙,古麗拉· 阿東別克.我國哈薩克族詞匯與哈薩克斯坦詞匯間自動轉換的研究[J].計算機應用與軟件, 計算機應用與軟件,2012,29(7):3-5.

      [5] 新疆維吾爾自治區(qū)民語委.現(xiàn)代哈薩克語[M].新疆人民出版社,2002:182-18.

      猜你喜歡
      機器翻譯自然語言處理
      信息時代下機器翻譯的“可譯”與“不可譯”
      互聯(lián)網+新時代下人機翻譯模式研究
      “語聯(lián)網+行業(yè)” 助力中國偉大復興
      基于組合分類算法的源代碼注釋質量評估方法
      詞向量的語義學規(guī)范化
      营山县| 朔州市| 张家口市| 衢州市| 都兰县| 万年县| 忻州市| 正定县| 江口县| 黑山县| 九龙坡区| 万宁市| 九江市| 天台县| 蓬安县| 云林县| 乐昌市| 富顺县| 宣武区| 巴林左旗| 教育| 鸡西市| 甘南县| 句容市| 梁山县| 东明县| 册亨县| 揭阳市| 永泰县| 紫阳县| 略阳县| 长汀县| 库伦旗| 永嘉县| 尼玛县| 永修县| 涞水县| 工布江达县| 城口县| 日土县| 上杭县|