(中國科學院新疆理化技術研究所,新疆烏魯木齊,830011)
斯拉夫哈薩克文與現行哈薩克文編碼字符轉換規(guī)則的探究
劉金龍,張 巖,董 軍
(中國科學院新疆理化技術研究所,新疆烏魯木齊,830011)
哈薩克語在發(fā)展變化的過程中,在世界范圍內形成了基于同一語言的兩種文字形式的特殊情況,分別是國外的以斯拉夫文字母為基礎的哈薩克斯拉夫文字,稱之為斯拉夫哈薩克文,以及我國的以阿拉伯文字母為基礎的哈薩克阿拉伯文字,稱之為現行哈薩克文。由于兩種哈薩克文發(fā)音相同,而且均是一音一字的文字形式,所以斯拉夫哈薩克文與現行哈薩克文是可以通過規(guī)則互相轉換的,但至今并沒有相關的國家或地方標準對轉換規(guī)則進行明確描述。因此,本文通過對斯拉夫哈薩克文和現行哈薩克文的研究,提出兩種文字的字符編碼轉換規(guī)則。
斯拉夫哈薩克文;現行哈薩克文;轉換規(guī)則
哈薩克文是一種拼音文字,主要有兩種書寫形式,一種是以斯拉夫字母為基礎的斯拉夫哈薩克文,主要在哈薩克斯坦、烏茲別克斯坦、俄羅斯、蒙古國、土庫曼斯坦、吉爾吉斯斯坦和土耳其等國家使用,使用人口近1200萬;另一種是以阿拉伯字母為基礎的現行哈薩克文,是我國哈薩克族民眾使用的書面文字,共有約154萬人使用。由于兩種文字的書寫方式截然不同,在國內的哈薩克民眾對外交流往來時,無法認知國外使用的斯拉夫哈薩克文,造成諸多不便,而現在,世界范圍內的交流與合作日益頻繁和重要,迫切需要制定準確嚴謹的字符編碼轉換規(guī)則。
(1) 由42個西里爾字母構成,書寫方向是從左向右;
(2) 有大寫字母和小寫字母之分,句首字母、雙引號內的首字母、專有名詞的首字母以及縮略語的字母須大寫
(3) 存在不發(fā)音也無實意的軟音符“Ь”,和硬音符“Ъ”。
(1) 有33個阿拉伯字母組成,書寫方向是從右向左;
(2) 沒有大小寫之分,但根據字母在單詞中位置的不同,有四種形態(tài)變化,分為獨立體、首寫體、中寫體和尾寫體,并有三種其特有的標點符號;
(6) 縮略語的每個字母之間有一個且僅有一個空格。
3.1總則
3.1.1 擴展區(qū)編碼字符的轉換
斯拉夫哈薩克文編碼字符轉換為對應現行哈薩克文字母名義形式的編碼字符就完成了轉換工作。但是某些信息系統(tǒng)不能依據現行哈薩克文字母名義形式的編碼字符選擇正確的變形顯現形式編碼字符用于顯示。針對這種信息系統(tǒng),需將現行哈薩克文字母名義形式的編碼字符依據現行哈薩克文的書寫習慣進一步轉換為正確的變形顯現形式編碼字符。
3.1.2 斯拉夫哈薩克文字母大小寫形式的處理
在斯拉夫哈薩克文編碼字符轉換為現行哈薩克文編碼字符的過程中,對同一個西里爾字母的大寫形式和小寫形式采用同樣的方式處理。
3.1.3 鏡像字符的處理
由于書寫方向不同,在斯拉夫哈薩克文轉換為現行哈薩克文的過程中,需將一個鏡像字符的編碼字符轉換為與之鏡像的另一個編碼字符。表1列出了部分鏡像字符的鏡像關系,完整的鏡像字符列表可以參考unicode。
表1
3.2一個西里爾字母與一個阿拉伯字母的轉換
(1) 表2所示的29個斯拉夫哈薩克文字母,其編碼字符直接轉換為對應的現行哈薩克文字母的編碼字符。
表2
(2) 如果1個單詞中存在多于1個如表3所示的斯拉夫哈薩克文元音字母,則單詞中這些元音字母除第一個外,其它全部直接轉換為對應現行哈薩克文元音字母的編碼字符。
表3
(3) 如果單詞中存在表3所示的斯拉夫哈薩克文元音字母,同時單詞中也存在如表4所示的斯拉夫哈薩克文字母,則單詞中這些斯拉夫哈薩克文元音字母全部直接轉換為對應現行哈薩克文元音字母的編碼字符。
表4
(4) 表5所示的斯拉夫哈薩克文字母й和и,其編碼字符都轉換為現行哈薩克文字母的編碼字符,斯拉夫哈薩克文字母э和е都轉換為現行哈薩克文字母的編碼字符。
表5
3.3一個西里爾字母與多個阿拉伯字母的轉換
(1) 如果1個單詞中存在至少1個如表3所示的斯拉夫哈薩克文元音字母,且單詞中不存在如表4所示的斯拉夫哈薩克文字母,則單詞中這些元音字母的第一個轉換為對應現行哈薩克文元音字母的編碼字符,同時在詞首添加字符。
(2) 表6所示的4個斯拉夫哈薩克文字符直接轉換為對應的現行哈薩克文字母序列的編碼字符。
表6
(3) 斯拉夫哈薩克文字符ц,當出現在非詞首時,直接轉換為對應的現行哈薩克文字母序列的編碼字符。當出現在詞首時,需根據專用詞匯表確定轉換為現行哈薩克文字母或字母序列的編碼字符。
3.4Ъ和Ь的處理
斯拉夫哈薩克文字母Ъ和Ь的編碼字符在轉換為現行哈薩克文時忽略。
3.5縮略語的編碼字符轉換
相鄰的多個大寫斯拉夫哈薩克文字母編碼字符轉換為現行哈薩克文編碼字符時,直接轉換為對應的現行哈薩克文編碼字符,然后在現行哈薩克文字母編碼字符之間加1個空格編碼字符。
3.6標點符號的編碼字符轉換
現行哈薩克文中因為從右向左的書寫方向,有三個特有的標點符號,分別是逗號() ,問號()和分號(),轉換為對應的斯拉夫哈薩克文標點符號的編碼字符逗號(,),問號(?)和分號(;)。
3.7非現行哈薩克文編碼字符的轉換
3.7.1 斯拉夫哈薩克文中阿拉伯字符的處理
斯拉夫哈薩克文中的阿拉伯字符應保留不變,同時在阿拉伯字符的前后分別增加零寬空格和零寬不中斷空格。
3.7.2 零寬空格和零寬不中斷空格的處理
忽略斯拉夫哈薩克文中的零寬空格和零寬不中斷空格,同時零寬空格和零寬不中斷空格之間的字符保留不變。
3.7.3 布局和格式控制字符的處理
斯拉夫哈薩克文中的布局和格式控制字符保留不變。
當今世界,各個地的交流和合作日益密切,通過轉換規(guī)則和根據轉換規(guī)則設計開發(fā)的轉換軟件,使國內的哈薩克民眾能夠認知國外的斯拉夫哈薩克文,這對整個哈薩克民族之間的溝通和了解,以及中國與哈薩克斯坦等國的政治經濟文化的交流都有著重大意義。
[1] 新疆維吾爾自治區(qū)民語委,《哈薩克語正音法基本規(guī)則》,1997年。
[2] 古麗扎達·海沙,古麗拉·阿東別克,《我國哈薩克族詞匯與哈薩克斯坦詞匯間自動轉換的研究》計算機應用與軟件,第29 卷第7 期。
[3] 新疆維吾爾自治區(qū)民語委,《現代哈薩克語》,新疆人民出版社,2002:182-18。
劉金龍(1983.1-),男,漢族,碩士,研究方向:計算機技術。
The study on the conversion rules between character encodings of Slavic- based Kazakh and Arabic- based Kazakh
Liu Jinlong,Zhang Yan,Dong Jun
(Xinjiang Technical Institute of Physics & Chemistry,Chinese Academy of Sciences,Urumqi,830011,China)
Kazakh language,in the process of its development,has evolved two different writing forms globally- Slavic-based Kazakh and Arabic-based Kazakh.Slavic- based Kazakh is derived from the Slavic letters.But Arabic- based Kazakh is derived from the Arabic letters,which is also called the modern Kazakh. The two writing Kazakh have the same pronunciation, and there is also sound-to-spelling correspondencein Kazakh,so the conversion between the two writing forms are feasible under certain rules.But until now, there is no clear description of the conversion rules in any national or regional standards.Thus,based on the study of the Slavic Kazakh and Arabic Kazakh,this paper advanced a conversion rule between character encodings of the two writing forms.
Slavic- based Kazakh;Arabic- based Kazakh;conversion regulations