買買提依明·哈斯木,吾守爾·斯拉木,維尼拉·木沙江,努爾麥麥提·尤魯瓦斯
(1. 新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆多語種重點(diǎn)實(shí)驗(yàn)室,新疆 烏魯木齊 830046;2. 和田師范??茖W(xué)校,計(jì)算機(jī)科學(xué)系,新疆 和田 848000)
?
基于統(tǒng)計(jì)專用字符的維、哈、柯文文種識(shí)別研究
買買提依明·哈斯木1,2,吾守爾·斯拉木1,維尼拉·木沙江1,努爾麥麥提·尤魯瓦斯1
(1. 新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆多語種重點(diǎn)實(shí)驗(yàn)室,新疆 烏魯木齊 830046;2. 和田師范專科學(xué)校,計(jì)算機(jī)科學(xué)系,新疆 和田 848000)
在Unicode編碼方案中維、哈、柯文字符安排在阿拉伯字符區(qū)域,三種語言中共享字符比較多,跟阿拉伯字符區(qū)域混在一起,沒有專用的語言ID。在信息檢索和自然語言處理領(lǐng)域?qū)S、哈、柯文的識(shí)別、處理帶來不便。該文首先分析并總結(jié)了維、哈、柯文三種語言中的專用字符、復(fù)合字符、某些字符在某種語言中出現(xiàn)形勢(shì)的獨(dú)特性等特征,然后在此基礎(chǔ)上設(shè)計(jì)了維、哈、柯文種識(shí)別算法。 實(shí)驗(yàn)結(jié)果表明該文提出的文種識(shí)別算法的正確率在文本多于70詞時(shí)達(dá)到96.67%以上。
文種識(shí)別;專用字符;復(fù)合字符;維文;哈文;柯文;Unicode
維吾爾語、哈薩克語、柯爾克孜語(下文簡稱維、哈、柯語)屬于阿爾泰語系突厥語族。雖然有Uyghur、Kazakh、Kyrgyz不同語言之分,但其字模,字符串構(gòu)成方式,語序以及句法和語法規(guī)則大體相通。另外,三種語言對(duì)應(yīng)字符串的Unicode編碼不僅內(nèi)容上大體相同,而且在表現(xiàn)形式上(斜體字部分)也較接近。在字母表中的大部分字母完全相同并非常相近阿拉伯語[1-2],所以在Unicode編碼方案中維、哈、柯文字符安排在阿拉伯字符區(qū)域(0600~06FF),跟阿拉伯字符區(qū)域混在一起,該區(qū)域中維、哈、柯共用一些字母,而且沒有語言ID。該區(qū)域中字母的順序符合阿拉伯字母表,維、哈、柯文字母的順序非?;靵y[3],所以在信息交換和自動(dòng)識(shí)別應(yīng)用中很難區(qū)分維、哈、柯文,且存在語言上的二義性。
近年來隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,維、哈、柯文網(wǎng)站越來越多。如何按文種分類、整理維、哈、柯文互聯(lián)網(wǎng)信息資源是在維、哈、柯文信息檢索、輿情分析、在線機(jī)器翻譯中,首先需要解決的問題。專用字母識(shí)別是一種常用的文種識(shí)別技術(shù)。本論文研究通過統(tǒng)計(jì)維、哈、柯文三種語言各自獨(dú)有的專用字符、復(fù)合字符和有些字符在某種語言中出現(xiàn)形式的獨(dú)特性等特征來對(duì)維、哈、柯文進(jìn)行文種識(shí)別。
文種識(shí)別技術(shù)是在信息檢索和在線機(jī)器翻譯領(lǐng)域使用的基礎(chǔ)技術(shù)之一,用來判斷某一個(gè)文本是由哪種語言來描述的[4-5]。文種識(shí)別技術(shù)中用各種各樣的特征來對(duì)文本進(jìn)行分析。它們包括專用字符、獨(dú)有詞集合和獨(dú)有N元字符序列等,分別有各自的優(yōu)缺點(diǎn)[6]?;诮y(tǒng)計(jì)專用字符的文種識(shí)別技術(shù)是最簡單的文種識(shí)別方法,對(duì)于大規(guī)模的文本文種識(shí)別性能非常好,但是對(duì)于處理小規(guī)模的文本(包含一個(gè)句子)性能較差[7]?;诮y(tǒng)計(jì)獨(dú)有詞集合的文種識(shí)別技術(shù)中選用獨(dú)有詞集合進(jìn)行識(shí)別時(shí),首先為每一個(gè)語種建立獨(dú)有詞庫,并統(tǒng)計(jì)每一個(gè)語言中獨(dú)有詞的出現(xiàn)頻率,這項(xiàng)工作較難實(shí)現(xiàn)[5,7]。這種方法不適合用于像英、維、哈、柯等粘性語言,因?yàn)檫@種語言中單詞的前后加上前綴或后綴來表示不同的語法現(xiàn)象,形態(tài)變化活躍。統(tǒng)計(jì)單詞的出現(xiàn)頻率必須要進(jìn)行分詞、詞法分析和詞干提取等預(yù)處理操作[6,8]。沒有指定文種之前無法對(duì)文本進(jìn)行以上預(yù)處理操作。而且大多數(shù)語言的詞法分析和詞干提取技術(shù)不公開,不容易實(shí)現(xiàn)。所以這種文種識(shí)別方案難度高,不可取。另一種文種識(shí)別方法是由Canver和Trencke提出的基于N元模型的文種識(shí)別方法,該方法的思想是根據(jù)每種語言中出現(xiàn)頻率組多的N元字符(連續(xù)字符序列)進(jìn)行文種識(shí)別[8]。
在維、哈、柯文文種識(shí)別技術(shù)方面維尼拉·木沙江、吐爾地·托合提等人提出了基于靜態(tài)重定位的維、哈、柯文Unicode編碼方案,在該方案中,維、哈、柯文字母根據(jù)各自的字母表排序在三個(gè)不同的區(qū)域(仍然在0600~06FF),自動(dòng)獲取各自的語言表示信息,消除了語言上的二義性[3]。買爾旦·吾守爾用“維吾爾語-漢語”、“哈薩克語-漢語”和“柯爾克孜文-漢語”詞庫,分別統(tǒng)計(jì)以上詞庫中的維、哈、柯文專用字母和復(fù)合字母的出現(xiàn)頻率,采用統(tǒng)計(jì)學(xué)知識(shí)、理論和方法,使得三種語言之間的文種識(shí)別率達(dá)到58.18%[9]。薛亞平也提出了采用維、哈、柯文特有字母的字母和特殊的字母組合進(jìn)行文種識(shí)別的算法。在該算法中,如果該文件中只出現(xiàn)了維文特有的字母或字母組合,則可以判定該文為維文文件。同樣方法也可以判斷哈文文件。如果兩種語言的特殊字母或字母組合均有出現(xiàn),則可以判斷為維、哈文的混排文件[10]。但該工作沒有給出詳細(xì)的統(tǒng)計(jì)實(shí)驗(yàn)數(shù)據(jù)。倪耀群、曹鵬等人使用N元語法模型實(shí)現(xiàn)了維吾爾文的快速語種判別,準(zhǔn)確率超過98%[11]。
3.1 維、哈、柯文Unicode字符介紹 Unicode字符編碼是一種使用16bits(兩個(gè)字節(jié))唯一表示一個(gè)字符、一共能夠表示65 536個(gè)字符的國際標(biāo)準(zhǔn)[11]。其中阿拉伯字母所有文字字符(包括維、哈、柯文)都集中在阿拉伯字母區(qū)域(0600~06FF),但是該區(qū)域中維、哈、柯文字符分布是不連續(xù)的,沒有分配語言ID,共用一些代碼位。0600~06FF范圍包括,在“中華人民共和國國家標(biāo)準(zhǔn)(GB 21669-2008)信息技術(shù)維吾爾文,哈薩克文,柯爾克孜文編碼字符集”中有制定的維、哈、柯文字母的42個(gè)名義字符形式和160個(gè)位于Arabic Presentation Forms的變形顯現(xiàn)形式[12]。而以上42個(gè)名義字符代碼位的大部分被三種語言共用。如表1~7中列出了三種語言中共用和獨(dú)用字符[6]。
表1 維、哈、柯文共用字符名義形式及編碼
表2 維吾爾文復(fù)合字符名義形式及編碼
表3 哈、柯文共用名義字符及編碼
表4 維吾爾文專用名義字符及編碼
表5 維、哈文共用名義字符及編碼
表6 哈薩克文專用名義字符及編碼
表7 柯爾克孜文專用名義字符及編碼
3.2 維文字符獨(dú)特特征分析
維吾爾語中一共有32個(gè)字母,其中有8個(gè)元音字母和24個(gè)輔音字母。維文與哈文和柯文相比有以下三個(gè)特點(diǎn)。
a) 維文元音字符的特點(diǎn)。有些元音字符的獨(dú)立形式、尾字符和首字形式由相應(yīng)的元音字符前加“”(編碼為0626,HAMZA ABOVE)來實(shí)現(xiàn),如表8中的帶下劃線的字符,在哈、柯文中不會(huì)出現(xiàn)這種形式的字符組合。
c) 表4中的三個(gè)輔音字母是維文專用字符。
根據(jù)維文的以上三個(gè)特征,通過統(tǒng)計(jì)維吾爾文專用字符和復(fù)合字符,能夠識(shí)別維吾爾文。
表8 維文復(fù)合字符名義形式和變形顯現(xiàn)形式及編碼
3.3 哈文字符獨(dú)特特征分析
哈薩克語中一共有33個(gè)字母,其中有9個(gè)元音和24個(gè)輔音字母。目前哈薩克文網(wǎng)頁上的字符有如下特點(diǎn)。
a) 理論上,根據(jù)表6中的哈薩克文專用字符可以識(shí)別出哈薩克文,但統(tǒng)計(jì)500篇哈薩克文網(wǎng)頁正文中出現(xiàn)的哈文字符,只出現(xiàn)了28個(gè)哈文字符,幾乎沒出現(xiàn)表9中的帶下劃線的四個(gè)元音字母,也沒出現(xiàn)哈文元音前置符“”(HIGH HAMZA, 編碼為
表9 哈文專用名義字符形式和變形顯現(xiàn)形式及編碼
表10 哈文錯(cuò)誤字符編碼統(tǒng)計(jì)結(jié)果
3.4 柯文字符獨(dú)特特征分析
柯爾克孜語中一共有30個(gè)字母,其中有8個(gè)元音字母,22個(gè)輔音字母??挛膶S米址腥缦绿攸c(diǎn)。
a) 編碼為06C5和06C9及它們的變形顯現(xiàn)形式是柯文專用的,如表11所示。
表11 柯文專用名義字符形式和變形顯現(xiàn)形式及編碼
b) 編碼為0649的字母和它的變形顯現(xiàn)形式在維文和哈文中都出現(xiàn),所以從字符編碼角度上不能作為專用字符,如表8和10所示。
c) 編碼為0626(HAMZA ABOVE)的字母在維文中也出現(xiàn),但出現(xiàn)時(shí)后面連接的字符必須是元音字符,如表8所示。在柯文中出現(xiàn)該字符的首字符形式和中字符形式時(shí)后面連接的是輔音字符,它的尾字符形式、獨(dú)立字符形式是柯文專用的。在維文中詞的最后不出現(xiàn)編碼為0626的字符,也不以獨(dú)立字符形式出現(xiàn),后面必須要連接維吾爾元音字符。
d) 柯文中有同一個(gè)元音字符形式前后出現(xiàn)的現(xiàn)象,而在維文和哈文中的外來語中也會(huì)出現(xiàn),主要出現(xiàn)在外來語中,但出現(xiàn)頻率很低??挛闹械奶厥庠糇帜附M合如表12所示。
表12 柯文中的特殊元音字母組合
根據(jù)以上柯文的四個(gè)特征,通過統(tǒng)計(jì)柯文字符的獨(dú)特特征,能夠識(shí)別柯文。
3.5 基于統(tǒng)計(jì)字符獨(dú)特特征的維、哈、柯文文種識(shí)別算法的設(shè)計(jì) 按照上述分析的維、哈、柯文專用字符、復(fù)合字符以及有些字符在某種語言中出現(xiàn)形式的獨(dú)特性,本文設(shè)計(jì)了維、哈、柯文文種識(shí)別算法。該算法的思路是首先分別統(tǒng)計(jì)文本中出現(xiàn)的屬于維、哈、柯三種語言的專用字符、復(fù)合字符、某種語言中出現(xiàn)的獨(dú)特的字符形式,然后判斷屬于哪種語言統(tǒng)計(jì)值最高,統(tǒng)計(jì)值最高的語種被判斷為該文本文種。因?yàn)榫S、哈、柯文是粘性語言,用戶的拼寫錯(cuò)誤導(dǎo)致文本中出現(xiàn)屬于其他語種的字符形式,有時(shí)候文本中也會(huì)引入其它語種描述的文本信息。所以為了避免文本中出現(xiàn)的其它文種的獨(dú)特特性對(duì)文種識(shí)別的干擾,要分別統(tǒng)計(jì)文本中出現(xiàn)的屬于三種語言的獨(dú)特特征。具體分析思路是: 首先要讀取文本,然后分析文本中的所有字符,判斷某個(gè)字符是否滿足如下條件:
a) 該字符是否屬于某種語言的專用字符。
b) 能不能跟它后面的字符組合,形成屬于某種語言的復(fù)合字符或特殊的元音字母的組合形式。
c) 該字符的出現(xiàn)形式是否屬于該字符在某種語言的出現(xiàn)形式的獨(dú)特字符。
按照上述的三個(gè)條件分別統(tǒng)計(jì)文本中出現(xiàn)的屬于三種語言字符的獨(dú)特特征。統(tǒng)計(jì)公式如下:
Chracter(x)=
(1)
4.1 實(shí)驗(yàn)數(shù)據(jù)的采集 維、哈、柯文到目前為止沒有公開的文種識(shí)別語料庫,本文設(shè)計(jì)了一個(gè)定向網(wǎng)頁數(shù)據(jù)采集系統(tǒng),在人民網(wǎng)、天山網(wǎng)、新華網(wǎng)和一些熱門的維、哈、柯文綜合網(wǎng)站中采集了相應(yīng)的文本數(shù)據(jù)。本文采集的三種語言的文本集規(guī)模如表13所示。目前柯爾克孜文網(wǎng)站的數(shù)量比維文和哈文網(wǎng)站少,所以測(cè)試語料庫中柯爾克孜文的數(shù)據(jù)比較少。
表13 測(cè)試語料庫的規(guī)模
4.2 統(tǒng)計(jì)三種語言的專用和復(fù)合字符的出現(xiàn)頻率
為了驗(yàn)證基于統(tǒng)計(jì)專用字符和復(fù)合字符的維、哈、柯文文種識(shí)別技術(shù)的有效性,需要統(tǒng)計(jì)維、哈、柯三種語言中的專用字符和復(fù)合字符出現(xiàn)的頻率。在測(cè)試文本集中統(tǒng)計(jì)了第三節(jié)中總結(jié)出的三種語言的專用字符和復(fù)合字符的出現(xiàn)頻率。
在表14~16中所示的數(shù)據(jù)分別為測(cè)試語料庫中的維、哈、柯文文本中出現(xiàn)的維、哈、柯文字符的獨(dú)
表14 10 606篇維文文本中維文字符的獨(dú)特特性出現(xiàn)的文本數(shù)量
字符網(wǎng)頁數(shù)字符網(wǎng)頁數(shù)063A102190626+,06C710073062E10460626+,06C684810698193206C898560626+,06271045006D010425626+,06D5101740626+,0649101000626+,06488623
特特性。通過觀察可以判斷通過統(tǒng)計(jì)維、哈、柯文字符的獨(dú)特特性的方法來識(shí)別維、哈、柯文文種的有效性。
表15 測(cè)試語料中哈文字符的獨(dú)特特性出現(xiàn)的文本數(shù)量
表16 測(cè)試語料中柯文字符的獨(dú)特特性出現(xiàn)的文本數(shù)量
在表15中幾乎沒有出現(xiàn)在表9中的帶下劃線的哈文專用字符,而代替出現(xiàn)了表10中的字符和字符的組合。出現(xiàn)以上錯(cuò)誤的原因是當(dāng)前使用的哈文輸入法沒有根據(jù)“中華人民共和國國家標(biāo)準(zhǔn)(GB 21669-2008)信息技術(shù)維吾爾文,哈薩克文,柯爾克孜文編碼字符集”設(shè)計(jì)的原因。所以不能在統(tǒng)計(jì)理論上的哈文專用字符的基礎(chǔ)上識(shí)別哈文,必須要借用實(shí)際出現(xiàn)編碼的特點(diǎn)來識(shí)別哈文。
在表16中帶下劃線的數(shù)據(jù)是柯文文本中的特殊元音字母組合出現(xiàn)的文本數(shù)量。在表17中帶下劃線的數(shù)據(jù)是不考慮柯文雙元音字母組合時(shí)不同規(guī)模的柯文文本段的識(shí)別正確率,比較兩組數(shù)據(jù)可以得到結(jié)論,考慮特殊雙元音字母組合很大程度上提高了對(duì)柯文文種的識(shí)別準(zhǔn)確率。從表中的數(shù)據(jù)可以看出柯文中的特殊的元音字母組合可以作為特征來識(shí)別柯文。
表17 測(cè)試雙元音字母特征對(duì)柯文文種識(shí)別印象
在表18~20中所示的數(shù)據(jù)分別為測(cè)試語料庫中的維、哈、柯文文本中出現(xiàn)的其他文種的獨(dú)特特性。所以為了避免文本中出現(xiàn)的其他文種的獨(dú)特特性對(duì)文種識(shí)別的干擾,首先要分別統(tǒng)計(jì)文本中出現(xiàn)的各個(gè)文種字符的獨(dú)特特性,然后出現(xiàn)獨(dú)特特性最高的文種被指定為該文本的文種。
表18 10 606篇維文本中出現(xiàn)其他文種獨(dú)特特性的文本數(shù)量
表19 8 039篇哈文本中出現(xiàn)其他文種獨(dú)特特性的文本數(shù)量
表20 1 503篇柯文本中出現(xiàn)其他文種獨(dú)特特性的文本數(shù)量
4.3 性能測(cè)試
為了驗(yàn)證本文研究的文種識(shí)別算法的準(zhǔn)確率,分別測(cè)試了語料中的識(shí)別率和包含不同字?jǐn)?shù)文本中的準(zhǔn)確率,實(shí)驗(yàn)結(jié)果如表21和表22所示。
表21 在測(cè)試語料中的識(shí)別率
通過分析表21中的數(shù)據(jù)可以總結(jié)出本文研究的維、哈、柯文文種識(shí)別算法對(duì)維文和柯文的識(shí)別性能是很理想的,哈文識(shí)別效果不如維、柯文,因?yàn)楣淖址莫?dú)特字符特征比維、柯文少得多。
為了測(cè)試本文研究的文種識(shí)別算法在不同規(guī)模的文本中的性能,把測(cè)試語料庫中的文本分組成不同規(guī)模的文本段,在不同規(guī)模的文本段中測(cè)試文種識(shí)別算法的精確度。通過分析表22中的數(shù)據(jù)可以總結(jié)出文本中包含的詞總數(shù)70以上時(shí),它的識(shí)別效率是很理想的,準(zhǔn)確率高于96.67%。維、柯短文本的識(shí)別效率是很理想的,對(duì)包含詞數(shù)小于30的哈文段文本的識(shí)別效率不太理想。
表22 包含不同詞數(shù)文本中的識(shí)別率
本文研究的基于統(tǒng)計(jì)字符的維、哈、柯文文種識(shí)別技術(shù)對(duì)長文本性能非常好,文本包含的詞數(shù)多于70詞的時(shí)候準(zhǔn)確率達(dá)到96.67%以上。對(duì)維、柯文的識(shí)別率比哈文的識(shí)別率高,因?yàn)楣牡莫?dú)特字符特征比維、柯文少得多。在文本規(guī)模比較大時(shí)可以達(dá)到各領(lǐng)域?qū)嶋H應(yīng)用的目標(biāo)。
[1] 吐爾根·依布拉音,袁保社.新疆少數(shù)民族語言文字信息處理研究與應(yīng)用[J].中文信息學(xué)報(bào),2011,25(6):150-156.
[2] 王玲,達(dá)瓦·伊德木草,吾守爾·斯拉木.維哈柯及蒙語多文種語言相似性考查研究[J].中文信息學(xué)報(bào),2013,27(6):180-186.
[3] 維尼拉·木沙江,吐爾地·托合提,吐爾洪·吾司曼。基于重定位的維、哈、柯文Unicode編碼及多文種索引技術(shù)研究[J].鄭州大學(xué)學(xué)報(bào)(理學(xué)版),2009,41(1):48-51.
[4] R D Lins and P. Gon?alves. Automatic language identi_cation of written texts[C]//Proceedings of SAC-2004, the 2004 ACM symposium on Applied computing, ACM Press, 2004:1128-1133.
[5] Chew Y Choong, Yoshiki Mikami, C A Marasinghe et al. Optimizing ngram Order of an ngram Based Language Identification Algorithm for 68 Written Languages[J]. The International Journal on Advances in ICT for Emerging Regions 2009,02 (02):21-28.
[6] Bruno Martins, M rio J.Silva. Language Identification in Web Pages[C]//Proceedings of SAC’05 March, Santa Fe, New Mexico, USA:ACM, 2005: 13-17.
[8] W B Cavnar and J.M.Trenkle. N-gram-based text categorization[C]//Proceedings of SDAIR-94, the 3rd Annual Symposium on Document Analysis and Information Retrieval, Las Vegas, Nevada, U.S.A, 1994: 161-175.
[9] 買日旦·吾守爾,維尼拉·木沙江.多文種多向電子詞典軟件系統(tǒng)關(guān)鍵技術(shù)研究[J].計(jì)算機(jī)應(yīng)用與軟件,2011,28(4):170-173.
[10] 薛亞平,袁保社. 全文檢索系統(tǒng)中語種識(shí)別與索引技術(shù)研究[J].技術(shù)應(yīng)用,2009,12: 49-51.
[11] 倪耀群,曹鵬,許洪波,唐慧豐,程學(xué)旗.網(wǎng)絡(luò)維吾爾文判別及其文本長度下界的探討[J].中文信息學(xué)報(bào),2012,26(6):109-115.
[12] 中華人民共和國國家標(biāo)準(zhǔn)(GB 21669-2008)信息技術(shù)維吾爾文,哈薩克文,柯爾克孜文編碼字符集[C],2008-04-11發(fā)布,2008-09-01實(shí)施.
Unique Character Based Statistical Language Identification for Uyghur, Kazak and Kyrgyz
Maimaitiyiming Hasimu1,2, Wushouer Silamu1, Weinila Mushajiang1, Nuermaimaiti Youliwasi1
(1. School of Information Science and Engineering, Xinjiang University, Multilingual Information Technology Laboratory of Xinjiang, Urumqi, Xinjiang 830046, China; 2. Department of Computer Science Hotan Teachers College, Hotan, Xinjiang 848000, China)
In Unicode encoding consortium, Uyghur, Kazak and Kyrgyz characters are arranged in the Arabic characters area and mixed with Arabic characters. Some characters in these languages shares same code without language ID,which brings difficulty in information retrieval and natural language processing. After analyzing the unique characters, compound characters and the special features of some characters in certain language context, this paper designs a language identification algorithm of Uyghur, Kazak and Kyrgyz. The experimental results show that the accuracy achieves 96.67% for texts with 70 words or more.
language identification, unique characters, compound characters, Uyghur text, Kazak text, Kyrgyz text, Unicode
買買提依明·哈斯木(1980—),博士研究生,講師,主要研究領(lǐng)域?yàn)樾畔z索。E?mail:mamtimin116@163.com吾守爾·斯拉木(1942—),中國工程院院士,本科,教授,博士生導(dǎo)師,主要研究領(lǐng)域?yàn)樽匀徽Z言處理。E?mail:wushour@xju.edu.cn維尼拉·木沙江(1960—),本科,教授,碩士生導(dǎo)師,主要研究領(lǐng)域?yàn)樾畔z索。E?mail:winira@xju.edu.cn
1003-0077(2015)02-0111-07
2014-03-17 定稿日期: 2014-04-25
國家“973”重點(diǎn)基礎(chǔ)研究計(jì)劃(2014CB340506);國家自然科學(xué)基金(61262063,61363063)
TP391
A