薩合多拉·木巴拉克,古麗拉·阿東別克
Sahdolla MUBARAK,Gulila ALTENBEK
新疆大學(xué) 信息科學(xué)與工程學(xué)院,烏魯木齊 830046
College of Information Science&Engineering,Xinjiang University,Urumqi 830046,China
隨著全球經(jīng)濟一體化發(fā)展,中國和中亞國家的經(jīng)濟貿(mào)易往來日益頻繁,哈薩克斯坦是一個很重要的合作伙伴,哈薩克語成為兩國之間經(jīng)濟文化交流的重要載體。由于居住在不同地區(qū)的哈薩克族長期受到不同文化、不同歷史等一些因素的影響,形成了基于同一語言的兩種文字的特殊情況,阻礙了兩國經(jīng)濟文化交流的深入發(fā)展。所以開發(fā)解決這個問題的計算機轉(zhuǎn)換系統(tǒng)的意義很大,本文研究在Windows環(huán)境下,哈薩克語兩種文字間智能轉(zhuǎn)換的實現(xiàn)。
阿拉伯字母哈薩克語是以阿拉伯字母為基礎(chǔ)的拼音文字,共有33個音(音位),其中9個是元音,24個是輔音,有些字母有兩種書寫形式,有些有四種書寫形式,根據(jù)詞里的位置,書寫形式發(fā)生變化。拼寫時由右向左寫,詞和詞之間必須留有一定的空隙[1]。語音方面的特點是元音和諧和輔音同化規(guī)律,元音和諧指的是前后元音和諧,即在本族固有詞匯中,前后兩組元音不能出現(xiàn)在同一個單詞中;輔音同化的特點是詞中相鄰的兩個輔音,前一輔音影響后一輔音,隨即后一輔音又導(dǎo)致前一輔音發(fā)生變化,稱為輔音的相互通話,即同時出現(xiàn)輔音的前進與后退通話。
斯拉夫字母哈薩克文(西里爾文)是哈薩克族于1940年開始使用的,以斯拉夫字母為基礎(chǔ)的文字。這種文字形式共有37個音素,42個字母。除原有的斯拉夫字母之外,還增加了9個字母,這9個字母不出現(xiàn)在俄語詞里,是哈薩克語特有的字母。另外還有13個字母用來拼寫外來語(俄語)借詞時使用。因此,斯拉夫字母哈薩克標(biāo)準(zhǔn)文一般只有31個音素,從語言歷史來看,哈薩克語固有詞中,實際上只有24或25個音位[2]。
斯拉夫字母哈文有37個音,42個字母,阿拉伯字母哈文有35個音,33個字母。這兩種文字之間大部分(32個字母)是一一對應(yīng)的關(guān)系,根據(jù)哈薩克語詞的構(gòu)成規(guī)則來對特殊情況進行一些處理之后,采用對應(yīng)字母相互轉(zhuǎn)換的方法來設(shè)計系統(tǒng)。
西里爾文中有些字母是由兩個音構(gòu)成的復(fù)合音,這些詞在哈薩克固有詞里沒有音位。例如:程序把文章從斯拉夫字母哈文轉(zhuǎn)換為阿拉伯字母哈文的過程中,讀到這四個字母中的任何一個時,先把這個字母拆分成對應(yīng)的兩個斯拉夫字母,再進行轉(zhuǎn)換。阿拉伯文轉(zhuǎn)換為斯拉夫文時,因為這些詞一般只出現(xiàn)在俄語借詞中,所以用對應(yīng)庫來解決這個問題。
這兩個非音素字母是不發(fā)音的。它們多是從俄語或是經(jīng)俄語傳入哈薩克語的單詞中出現(xiàn),阿拉伯字母哈文沒有這兩個音符[3]。從斯拉夫字母哈文轉(zhuǎn)換為阿拉伯字母哈文的過程中,由于阿拉伯字母和斯拉夫字母的發(fā)音相同,所以轉(zhuǎn)換時就采用了忽略這兩個符號的方法。而對于從阿拉伯字母哈文轉(zhuǎn)換為斯拉夫字母哈文的過程中,由于沒有如何加入這兩個音符的具體規(guī)則,所以采用建立對應(yīng)詞匯庫來解決這一問題。
哈薩克斯拉夫文中有“Й”和“И”兩個字母,而在阿拉伯字母哈文中這兩個字母都用同一個來代替,這就產(chǎn)生了到底在什么時候用Й,什么時候用И的問題。一般情況下輔音后面跟“И”,元音后跟“Й”。所以在單詞中出現(xiàn)有時,檢查它的前一個字母是元音還是輔音。
阿拉伯字母哈文采用阿拉伯文標(biāo)點符號的記法,而斯拉夫字母哈文中采用的是與英文字母相同的標(biāo)點符號記法。兩種標(biāo)點符號中除了如表1所列的三個標(biāo)點符號之外的其他標(biāo)點符號是一樣的。
表1 兩種字母的標(biāo)點符號
這個問題是本系統(tǒng)要解決的主要問題。在斯拉夫字母哈薩克文到阿拉伯字母哈薩克文的轉(zhuǎn)換過程中由于斯拉夫文是怎么讀就怎么寫,所以不出現(xiàn)字母的形變現(xiàn)象。但在阿拉伯字母哈薩克文中的一個詞中,如果有三個字母中的任何一個出現(xiàn),則使得這個單詞中的前元音符號不能寫,所以單詞里應(yīng)寫為的四個字寫成,但發(fā)音不變。例如:“人生)這個單詞中第一個字母是,在這個單詞后加后綴時,因為后綴中出現(xiàn)了”這個字母,所以第一個字母的寫法發(fā)生變化,寫成字母了,所以輸入員輸入時直接輸入了。最后阿拉伯字母哈薩克文轉(zhuǎn)換為斯拉夫文時轉(zhuǎn)換成了
通過分析哈薩克語詞的組成結(jié)構(gòu),結(jié)合《現(xiàn)代哈薩克語問答》,《哈薩克語語法知識》[4]發(fā)現(xiàn)哈薩克語中詞的構(gòu)成是有一定規(guī)則的。因此,本文以詞的形式結(jié)構(gòu)規(guī)則為核心,再加一些限定條件,分析了哈薩克語中詞的內(nèi)部構(gòu)成規(guī)則。
在哈薩克語的固有詞(包括一些早期外來語借詞)中,前一音節(jié)的元音同后一音節(jié)的元音在舌位的前后,同時在唇形方面互相制約,存在著明顯的調(diào)諧,匹配的現(xiàn)象。詞干和附加成分之間也如此,通常把多音節(jié)詞里元音的這種調(diào)諧,匹配叫做元音和諧,而把這種模式叫做元音和諧律[5]。
哈薩克語的元音和諧律在音節(jié)之間以元音的前后和諧為基礎(chǔ),輔以圓唇元音和諧。哈薩克語元音按舌位的前后分類如表2所示。
表2 哈薩克語元音按舌位的前后分類
如果詞的前一音節(jié)里的元音是后音,那么后續(xù)音節(jié)(包括附加成分)里的元音也只能是后元音。
哈薩克語固有詞里后元音和諧的模式,在文字上表現(xiàn)為:后元音后只能出現(xiàn)。
如果詞的前一音節(jié)里的元音是前元音,那么后續(xù)音節(jié)(包括附加成分)里的元音也只能是前元音。
哈薩克語固有詞里前元音和諧的模式,在文字上表現(xiàn)為:前元音后只能出現(xiàn)
哈薩克語在形成和發(fā)展過程中吸收了大量的外來詞,它們不受上述的哈薩克語元音和諧律的限制[7],所以本文中用數(shù)據(jù)庫來解決這個問題。但對這些外來詞后后續(xù)的附加成分遵守元音和諧律。
外來詞借詞綴加附加成分時,根據(jù)詞的最后一個音節(jié)元音的性質(zhì)來調(diào)配后續(xù)音節(jié)里的音節(jié)。如果外來詞的最后一個音節(jié)里的元音是后元音,那么附加成分里的元音都是后元音字母,如果前元音,那么附加成分里元音都是前元音字母。
表3 特殊字母組對應(yīng)表
結(jié)合以上哈薩克語詞的結(jié)構(gòu)規(guī)則和構(gòu)形附加成分集,建立了哈薩克語詞的結(jié)構(gòu)規(guī)則集,形式化表示如下幾種。
由于標(biāo)準(zhǔn)Unicode建立前,新疆哈薩克文輸入法采用不同的Unicode代碼來表示哈薩克文,所以在程序執(zhí)行阿拉伯字母哈薩克文轉(zhuǎn)換成斯拉夫字母哈薩克文前,需要先將各種不同的輸入法轉(zhuǎn)換為統(tǒng)一標(biāo)準(zhǔn)Unicode格式。然后把已載入的文本切成單詞,并進行詞干提取。接下來從第一個詞干開始從數(shù)據(jù)庫里找對應(yīng)的斯拉夫文詞,如果找到了,替換對應(yīng)的斯拉夫文,根據(jù)詞干最后音節(jié)的情況對后綴進行操作。如果從數(shù)據(jù)庫中找不到對應(yīng)斯拉夫文詞,那么根據(jù)上述的規(guī)則對整個單詞(包括詞干和后綴)進行修正編碼錯誤問題等操作。程序流程如圖1所示。
圖1 阿拉伯字母哈薩克文轉(zhuǎn)換為斯拉夫字母哈薩克文程序流程圖
42個斯拉夫字母哈文中32個字母是和哈薩克阿拉伯字母一一對應(yīng)的,7個字母是多對一對應(yīng)的,也就是這7個字母的每一個對應(yīng)哈薩克阿拉伯字母的2字母。還有兩個不發(fā)音的音符,軟音符號和硬音符號,它們在阿拉伯字母哈文中沒有對應(yīng)的字母,所以把文本從斯拉夫字母轉(zhuǎn)換成阿拉伯字母時忽略了這兩個音符。
系統(tǒng)利用基于規(guī)則的方法,采用C#編寫阿拉伯字母哈薩克文與斯拉夫字母哈薩克文間相互智能轉(zhuǎn)換系統(tǒng),系統(tǒng)界面如圖2所示,使用哈薩克語小學(xué)語文(共有5個年級的課文)進行了測試,共有65 461個單詞的文章進行轉(zhuǎn)換后2 930個單詞出現(xiàn)了錯誤,準(zhǔn)確率為95.5%。
圖2 程序基本的操作界面
從實驗結(jié)果來看,采用的方法基本令人滿意,但準(zhǔn)確率尚需近一步提高。該方法還沒有達到很高的轉(zhuǎn)換效率,主要原因有以下幾個方面:
(1)軟音符號導(dǎo)致的問題,阿拉伯字母哈薩克文的軟音符號導(dǎo)致上述的編碼錯誤問題,還加上阿拉伯字母哈語本身存在的語法問題,給哈薩克語自然語言處理工作帶來很大的麻煩,本系統(tǒng)中也是因為這個問題下降了正確率。
(2)數(shù)據(jù)庫完整性問題,數(shù)據(jù)庫包括外來詞,人名,地名,機構(gòu)名等信息。因為中國哈薩克人和哈薩克斯坦哈薩克人對一些同一個事物有不同的名稱,例如:手機,馕等詞都有不同的名稱,這些詞不可能靠規(guī)則來轉(zhuǎn)換。解決這個問題需要很長的時間和人力才能實現(xiàn)。
(3)哈薩克語詞的構(gòu)成規(guī)則有待完善。本文主要講的是基于規(guī)則方法的轉(zhuǎn)換系統(tǒng),完善的哈語構(gòu)詞規(guī)則會更好地提高兩種文字形式間轉(zhuǎn)換。
本文分析并實現(xiàn)了哈薩克語兩種文字智能轉(zhuǎn)換的方法,建立了哈薩克語基本外來詞庫,為哈薩克文資料的傳播和交流提供了便利。該實驗方法從哈語最本質(zhì)的特征出發(fā),從宏觀上總結(jié)出一些規(guī)則,比較直觀地表達了哈語基本詞的構(gòu)成規(guī)律,但該方法還沒有能夠解決哈語中外來詞的轉(zhuǎn)換。因此,下一步將完善對應(yīng)庫,進一步改善哈語詞的構(gòu)成規(guī)則,并嘗試規(guī)則和統(tǒng)計相結(jié)合的方法,提高哈語兩種文字間智能轉(zhuǎn)換系統(tǒng)的效率。
[1]阿里木賽依提·阿布力哈孜.哈薩克語入門[M].奎屯:伊犁人民出版社,2009.
[2]古麗扎達·海沙,古麗拉·阿東別克.我國哈薩克族詞匯與哈薩克斯坦詞匯間自動轉(zhuǎn)換的研究[J].計算機應(yīng)用與軟件,2012,29(7):3-5.
[3]吳宏偉.從現(xiàn)代哈薩克語詞的構(gòu)成看原始突厥語詞匯的特點[J].語言研究,1994,15(1):3-4.
[4]迪麗達.哈薩克語語法知識[M].奎屯:伊犁人民出版社,2010.
[5]努爾蘭.現(xiàn)代哈薩克語問答[M].奎屯:伊犁人民出版社,1998.
[6]張定京.現(xiàn)代哈薩克語實用語法[M].北京:中央民族大學(xué)出版社,2004.
[7]蔣宏軍.如何區(qū)分哈薩克語中的外來詞[J].伊犁師范學(xué)院學(xué)報:社會科學(xué)版,2011,18(2):1-2.
[8]黃中祥.哈薩克詞匯與文化[M].北京:中國社會科學(xué)出版社,2005.