網(wǎng)絡(luò)維吾爾文判別及其文本長(zhǎng)度下界的探討

2012-10-15 01:51:50倪耀群許洪波唐慧豐程學(xué)旗

中文信息學(xué)報(bào) 2012年6期

倪耀群，曹鵬，許洪波，唐慧豐，程學(xué)旗

（1.中國(guó)科學(xué)院計(jì)算技術(shù)研究所，北京100190；2.中國(guó)科學(xué)院研究生院，北京100049；3.解放軍外國(guó)語(yǔ)學(xué)院，河南洛陽(yáng)471003）

1 引言

1.1 維吾爾文和阿拉伯文、哈薩克文等文字共用很多字母

阿拉伯文是由28個(gè)輔音字母和12個(gè)發(fā)音符號(hào)（不包括疊音符）組成的拼音文字，世界上大約有60多個(gè)民族的文字是以阿拉伯字母為基礎(chǔ)來書寫的。為正確書寫和顯示這60多種文字中的專有字符，Unicode標(biāo)準(zhǔn)在阿拉伯基本字母集合（U＋600～U＋6FF）之外提供了阿拉伯語(yǔ)變形顯現(xiàn)形式－A（U＋FB50～U＋FDFB）和阿拉伯語(yǔ)變形顯現(xiàn)形式－B（U＋FE70～U＋FEFC）字符集。

中國(guó)新疆地區(qū)使用的維吾爾文、哈薩克文和柯爾克孜文都屬于這類文字，以阿拉伯字母為基礎(chǔ)書寫的維文稱為老維文，簡(jiǎn)寫為ASU（Arabic－Script Uyghur），老維文有32個(gè)字母。而以阿拉伯字母為基礎(chǔ)的哈薩克文有33個(gè)字母，柯爾克孜文有30個(gè)字母和一個(gè)合體字母，這些文字共用了很多字母，編碼重疊較多，字符集差異很不明顯。例如，哈薩克文33個(gè)字母中有21個(gè)字母的字型形狀及編碼與維吾爾文完全相同［1］；波斯文有32個(gè)字母，其中28個(gè)是阿拉伯字母。下面列舉了幾種文字：

其中維文被谷歌瀏覽器chrome的“網(wǎng)頁(yè)檢測(cè)”識(shí)別為阿拉伯文；而谷歌翻譯的“檢測(cè)語(yǔ)言”功能，把維文識(shí)別當(dāng)作“普什圖語(yǔ)”（阿富汗的主要語(yǔ)言），如圖1所示。

圖1 谷歌翻譯誤將維文（《人民日?qǐng)?bào)》記者深入災(zāi)區(qū)第一線采訪）檢測(cè)為“普什圖語(yǔ)”

如何將維吾爾文從阿拉伯文、哈薩克文、柯爾克孜文等以阿拉伯字母為基礎(chǔ)書寫的類似文字中識(shí)別出來，是維文信息處理的一個(gè)重要研究問題。

1.2 維吾爾文的書寫體系復(fù)雜

維吾爾文的書寫系統(tǒng)受其他語(yǔ)言的影響比較大，字符編碼存在一些混亂的情況。

維文32個(gè)字母因位置不同有126個(gè)書寫形體［2］（glyph），加上元音分節(jié)符hamza的各種變形等其他編碼后共使用了162個(gè)書寫形體［3］。然而ISO沒有為維文開辟專門的代碼區(qū)，而是把維文字符分配到阿拉伯基本字母集合、變形顯現(xiàn)形式－A和變形顯現(xiàn)形式－B這三塊不連續(xù)的區(qū)間。

對(duì)變形字母的編碼如何處理造成了編碼的混亂。（1）字母在單詞中不同位置發(fā)生了變形，應(yīng)該存儲(chǔ)為名義字母（Representative，32個(gè)），但有些網(wǎng)站上直接使用阿拉伯變形顯現(xiàn)形式的編碼來存儲(chǔ)該字母。如：的編碼為“06CB”，其末尾形式為，也應(yīng)該存儲(chǔ)為“06CB”，但是有些網(wǎng)站存儲(chǔ)為變形顯現(xiàn)形式－A的編碼“FBDF”；（2）有些情況下元音字母之前應(yīng)該添加hamza，有人加了，有人不加；添加hamza之后可以變成一個(gè)復(fù)合字母（conjunct vowel form）［4］，也可以保持原來的兩個(gè)字母；（3）連寫字母和是否拆分為和也不盡相同。

另外由于維文網(wǎng)站的多元化導(dǎo)致維文網(wǎng)頁(yè)字體的編碼不一，同一個(gè)字母在不同網(wǎng)站中有多個(gè)編碼，如”的編碼有U＋649、U＋635和U＋6CC等。據(jù)統(tǒng)計(jì)，目前有264個(gè)網(wǎng)頁(yè)字體文件，如“Alp Basma Aq”、“UKIJ Tuz Tor”等。需要消除這些網(wǎng)頁(yè)文件造成的編碼差異，使用統(tǒng)一的編碼表示所有維文字符。

總結(jié)以上兩點(diǎn)，維吾爾文的識(shí)別有其困難性和特殊性，為解決維文的識(shí)別，作者使用基于字符層的語(yǔ)言模型來確定文本的語(yǔ)種。

本文的組織結(jié)構(gòu)如下：第2節(jié)介紹了語(yǔ)種識(shí)別的相關(guān)工作；第3節(jié)介紹了維吾爾文的識(shí)別模型，分為模型參數(shù)確定、模型訓(xùn)練和維文識(shí)別算法流程；第4節(jié)測(cè)試了模型在網(wǎng)頁(yè)、論壇和微博客等不同類型數(shù)據(jù)上的性能；第5節(jié)就微博客數(shù)據(jù)的測(cè)試結(jié)果進(jìn)一步分析，討論了4種文字中識(shí)別語(yǔ)種所需要的字符串長(zhǎng)度，在理論分析基礎(chǔ)上對(duì)實(shí)際數(shù)據(jù)計(jì)算后得出了語(yǔ)種識(shí)別的文本長(zhǎng)度最低界限，以及不滿足下限的超短文本能達(dá)到的最高語(yǔ)種識(shí)別準(zhǔn)確率。

2 語(yǔ)種識(shí)別的相關(guān)工作

語(yǔ)種識(shí)別實(shí)質(zhì)是分類問題，一般有規(guī)則方法和統(tǒng)計(jì)方法，規(guī)則方法需要人工總結(jié)出語(yǔ)言知識(shí)并將其轉(zhuǎn)換為系統(tǒng)規(guī)則，依賴于設(shè)計(jì)人員對(duì)語(yǔ)言本身的充分了解和分析，而且結(jié)果的正確性很難把握。

文獻(xiàn)［5］利用一元語(yǔ)法模型（unigram）進(jìn)行漢字內(nèi)碼識(shí)別的方法，可以高速、準(zhǔn)確地識(shí)別簡(jiǎn)體漢字和繁體漢字，滿足實(shí)時(shí)處理等各種應(yīng)用。但單一的以字為基本單位的unigram方法過于簡(jiǎn)單，沒有考慮阿拉伯字母等其他語(yǔ)言的情況。

文獻(xiàn)［6］采用編碼模式、字符分布和雙字符序列分布的復(fù)合方法來檢測(cè)語(yǔ)言／編碼，效果很好，在UTF16和UTF8的情況下，盡管編碼方式正確識(shí)別了，語(yǔ)言信息仍是未知的。檢測(cè)語(yǔ)言時(shí)需要每一種語(yǔ)言的，大量的文本采樣數(shù)據(jù)，同時(shí)需要對(duì)語(yǔ)言的認(rèn)知／分析有一定的深度，對(duì)許多單字節(jié)編碼還沒有測(cè)試。文獻(xiàn)［7］在8種編碼（utf－8、us－ascii、iso－8859－1、shift－jis、euc－jp、iso－2022－jp、euc－kr、iso－2022－kr）上測(cè)試了 Naive Bayes（NB）和Support Vector Machine（SVM）模型，認(rèn)為SVM需要較少的內(nèi)存就可以達(dá)到98.22%識(shí)別準(zhǔn)確率，但是檢測(cè)的編碼之間重疊程度不大，僅是英日韓文字的不同編碼。

規(guī)則方法有薛亞平［1］和張?。?］，他們根據(jù)GB2l6690－2008信息技術(shù)—維吾爾文、哈薩克文、柯爾克孜文編碼字符集國(guó)家標(biāo)準(zhǔn)，按照不同文種的字符編碼構(gòu)造正則表達(dá)式進(jìn)行匹配，從而識(shí)別文種。由于維文、哈文、柯文和阿文的非重疊區(qū)很小，這幾種文本的正確識(shí)別具有一定的難度，識(shí)別率還不是很高，需要結(jié)合人工輔助來正確識(shí)別。

3 維吾爾文的識(shí)別模型

考慮到維吾爾文和其他采用阿拉伯字母書寫的文字盡管在編碼上有很多重疊，但是字母排列順序不同，這是文字自身表現(xiàn)出的區(qū)別于其他文字的明顯特征。因此，作者提出了一種基于n－gram模型的維文語(yǔ)種識(shí)別方法。

3.1 n－gram模型中階數(shù)n的確定

在n－gram建模方法使用這樣的假設(shè)：語(yǔ)言是一個(gè)馬爾可夫過程，某個(gè)字母的出現(xiàn)僅僅與前面的n－1個(gè)字母相關(guān)，因此m個(gè)Unicode字符構(gòu)成的字符串s的概率可以表示為式（1）：

其中P（wi｜wi－n＋1wi－n＋2…wi－1）用大數(shù)定律估計(jì)，即 wchar類型的字符串 wi－n＋1wi－n＋2…wi－1wi在所有以 wi－n＋1wi－n＋2…wi－1開頭的字符串中所占的比率。

在n－gram模型中階數(shù)n的選擇存在著一個(gè)平衡，馮沖、黃河燕［9］認(rèn)為理想的識(shí)別模型應(yīng)當(dāng)既能夠描述訓(xùn)練樣本所獨(dú)有的語(yǔ)種和編碼特點(diǎn)，又不過分反映樣本中特定的文本內(nèi)容和語(yǔ)言現(xiàn)象。為了確定n－gram的階數(shù)，作者在4種語(yǔ)言的網(wǎng)頁(yè)正文中統(tǒng)計(jì)了所有 uni－gram，bigram，tri－gram，4－gram 和 5－gram，以及這些gram出現(xiàn)的次數(shù)。

以維文為例，bigram有1 132個(gè)，其中最頻繁的bigram出現(xiàn)了5 822 195次，有60個(gè)bigram出現(xiàn)次數(shù)超過一百萬次，大部分（751個(gè)）bigram出現(xiàn)次數(shù)在1 000次以上；對(duì)比tri－gram有17 854個(gè)，只有5個(gè)tri－gram出現(xiàn)次數(shù)超過一百萬次，10 025個(gè)trigram出現(xiàn)次數(shù)小于100次，數(shù)據(jù)稀疏現(xiàn)象比較明顯。對(duì)阿拉伯文的統(tǒng)計(jì)也驗(yàn)證了這一點(diǎn)。

綜合考慮，因?yàn)閠ri－gram的統(tǒng)計(jì)意義不明顯，按照大數(shù)定律估計(jì)的概率由于數(shù)據(jù)稀疏不很準(zhǔn)確，而且會(huì)造成更大的系統(tǒng)開銷（約16 777 216個(gè)存儲(chǔ)單元），所以最終確定以bigram模型計(jì)算字符串概率：其中的P（w1）是字符串的開始字符，如果在每個(gè)字符串前面加上一個(gè)虛擬開始符號(hào)（概率為1），可以去掉該項(xiàng)，簡(jiǎn)化計(jì)算。

3.2 Bigram模型的訓(xùn)練

P（bigram｜L）是語(yǔ)言L中bigram出現(xiàn)的概率，為表現(xiàn)統(tǒng)計(jì)意義，忽略那些頻率較低的bigram，如維文有7個(gè)bigram只出現(xiàn)一次，這些bigram代表了樣本中特殊的偶發(fā)的語(yǔ)言現(xiàn)象，對(duì)區(qū)分語(yǔ)種的作用微乎其微。維吾爾文和阿拉伯文的bigram頻次分布如圖2（見下頁(yè)）。

為充分表現(xiàn)語(yǔ)言在bigram上的共性并去除偶發(fā)現(xiàn)象的干擾，作者選用高頻bigram組成該語(yǔ)言的特征表，同時(shí)為防止圖2所示長(zhǎng)尾效應(yīng)的影響，特征表中的bigram概率之和應(yīng)該大于一個(gè)閾值（作者選取0.9）。按照這個(gè)原則，作者在阿拉伯文中選取了400個(gè)bigram，在維文中選取了1 000個(gè)bigram。

作者根據(jù)阿拉伯文和維文字母編碼的特點(diǎn)，對(duì)維文變形顯現(xiàn)字符映射到基本阿拉伯字符，經(jīng)過映射后字符的UTF8編碼在D880～DBBF（U＋600～U＋6FF）范圍內(nèi)，進(jìn)一步對(duì)其壓縮，將這個(gè)256個(gè)編碼的區(qū)間映射到unsigned char（0～255），使得語(yǔ)言模型的存儲(chǔ)結(jié)構(gòu)（語(yǔ)言特征表）大大減小。

圖2 維吾爾文和阿拉伯文bigram特征頻次分布圖

3.3 對(duì)未知文本的語(yǔ)種識(shí)別

按照Bayes公式，字符串s屬于某種語(yǔ)言L的概率

其中P（s）為定值，而先驗(yàn)概率P（L）可以根據(jù)訓(xùn)練文本中維文、阿拉伯文、哈薩克文等文章所占的比例計(jì)算出來。但是在測(cè)試新的未知文本時(shí)，難以預(yù)知該文本的來源，因此簡(jiǎn)單認(rèn)為所有待檢測(cè)文本所屬的文種是等概率的，即P（L）為一個(gè)常數(shù)。

而后驗(yàn)概率P（s｜L）的對(duì)數(shù)

count（bigram）為字符串s中某個(gè)bigram 出現(xiàn)的次數(shù)，但是P（bigram｜L）有可能為零，原因有二，一是訓(xùn)練文本中根本沒有出現(xiàn)該bigram，二是某些低頻的bigram沒有被該語(yǔ)言的bigram特征表收錄（如維文去除了132個(gè)bigram，保留了1 000個(gè)bigram）。這就需要進(jìn)行零概率的拉普拉斯校準(zhǔn)。

在概率空間（0，1）上對(duì)數(shù)函數(shù)是嚴(yán)格單調(diào)遞增的，即P（bigram｜L）與其對(duì)數(shù)值正相關(guān)，因此count（bigram）×P（bigram｜L）與count（bigram）×logP（bigram｜L）正相關(guān)。

最終使得字符串s出現(xiàn)概率最大的語(yǔ)言，就是s所屬的語(yǔ)言，定義為L(zhǎng)＊：

只需要將待識(shí)別的網(wǎng)頁(yè)文本掃描一遍，統(tǒng)計(jì)count（bigram），然后按照式（5）計(jì)算該網(wǎng)頁(yè)文本屬于某種語(yǔ)言的概率。理論上，有多少個(gè)語(yǔ)種，就需要多少次相似度計(jì)算。作者的目的僅僅是識(shí)別維吾爾文，所以可以簡(jiǎn)化計(jì)算，將識(shí)別文本看成二分類問題，即比較該文本屬于維文（正例）和非維文（負(fù)例）概率。非維文的計(jì)算本來需要將維文以外的其他所有語(yǔ)言的文本一起作為負(fù)例樣本，鑒于哈薩克文和柯爾克孜文的樣本非常少，作者簡(jiǎn)單的把阿拉伯文當(dāng)作負(fù)例樣本。

維文訓(xùn)練網(wǎng)頁(yè)有6萬頁(yè)面（2008年采集的維文網(wǎng)頁(yè)和論壇，3GB）和6 560個(gè)阿拉伯文頁(yè)面（2008年采集的中國(guó)網(wǎng)阿拉伯文版，200MB）。

模型訓(xùn)練和網(wǎng)頁(yè)維文識(shí)別的流程如圖3所示（見下頁(yè)）。

4 維吾爾文識(shí)別結(jié)果及分析

現(xiàn)有的維吾爾文識(shí)別方法是基于表達(dá)式規(guī)則和人工輔助的［1，8］，且并沒有給出識(shí)別準(zhǔn)確率，與作者采用的統(tǒng)計(jì)方法缺乏可比性。因此，作者通過使用不同時(shí)間、不同來源的網(wǎng)頁(yè)數(shù)據(jù)（新聞和論壇），以及不同類型的網(wǎng)頁(yè)數(shù)據(jù)（微博客）來進(jìn)行實(shí)驗(yàn)測(cè)試，驗(yàn)證了該方法在不同數(shù)據(jù)上的良好性能和穩(wěn)定性。

4.1 對(duì)網(wǎng)頁(yè)和論壇的測(cè)試

測(cè)試環(huán)境：硬件環(huán)境：AMD 3600＋ CPU，2.5G內(nèi)存，80G硬盤

程序識(shí)別網(wǎng)頁(yè)的處理速度大約為100MB／s。對(duì)單個(gè)網(wǎng)頁(yè)（中文、阿拉伯文、哈薩克文、柯爾克孜文、維吾爾文）的判別結(jié)果如表1所示。

對(duì)不同時(shí)間、不同來源的多個(gè)網(wǎng)站的網(wǎng)頁(yè)分組測(cè)試結(jié)果如表2所示。

分析：

圖3 模型訓(xùn)練和維文識(shí)別流程圖

表1 五種語(yǔ)言的網(wǎng)頁(yè)文種判別結(jié)果

表2 四種語(yǔ)言網(wǎng)頁(yè)開放測(cè)試的正確率

2）對(duì)正文較長(zhǎng)的新聞、論壇等網(wǎng)頁(yè)，維吾爾文的識(shí)別準(zhǔn)確率較高。

3）訓(xùn)練中使用的阿拉伯文和維吾爾文，在識(shí)別時(shí)也得到了非常高的準(zhǔn)確率。

4.2 對(duì)微博客的測(cè)試

微博客的特點(diǎn)是文本長(zhǎng)度短，轉(zhuǎn)發(fā)造成的重復(fù)內(nèi)容多，而且轉(zhuǎn)發(fā)還造成同一文本內(nèi)包含了多種文字。因此對(duì)微博客需要去重后才能正確評(píng)價(jià)文本分類識(shí)別的準(zhǔn)確率。文獻(xiàn)［10］提到了一種通過文本壓縮將文本轉(zhuǎn)換為一個(gè)大整數(shù)從而去重的方法。

在2010年推特識(shí)別結(jié)果中隨機(jī)采樣了31條數(shù)據(jù)進(jìn)行人工判斷，發(fā)現(xiàn)有30條判斷正確（準(zhǔn)確率96.6%），1條來自伊朗的波斯文消息被判別為維吾爾文，該消息呈現(xiàn)如下形式：

Deutsche Welle RT＠User2Iran awaiting 40%inflation

http：／／bit.ly／6e1wPH ＃iranelection

容易看出，這條消息中包含德、英、波斯三種文字，其中波斯文的25個(gè)阿拉伯字符占消息字符總數(shù)的18.461 538%，其維文得分0.001 361比阿拉伯文得分0.001 283只高出了0.000 078。而且“伊朗”這個(gè)詞的波斯文拼寫“”與維文拼寫“”最后三個(gè)連續(xù)的字符都相同（），類似這樣的單詞片段導(dǎo)致程序的誤判。

5 語(yǔ)言識(shí)別問題中的文本長(zhǎng)度下界分析

語(yǔ)言分類的文本長(zhǎng)度下界其實(shí)就是求解若干字符串集合的公共字符串，作者將研究范圍限定在維吾爾文、阿拉伯文、哈薩克文和柯爾克孜文四種文字的字符串集合中。

對(duì)同種語(yǔ)言的每個(gè)網(wǎng)頁(yè)抽取正文后，用空格、標(biāo)點(diǎn)符號(hào)、數(shù)字、字母等作為分割標(biāo)記切分正文得到若干字符串，將它們放到一個(gè)集合中，形成一個(gè)語(yǔ)言詞串（token）集合。維吾爾文、阿拉伯文、哈薩克文和柯爾克孜文四種文字的字符串集合中分別含有251 928，82 559，21 972和14 521個(gè)字符串。這些字符串在長(zhǎng)度上的分布如圖4所示。

最終目的是找出這四個(gè)集合的最大公共子串。

圖4 四種語(yǔ)言單詞／token按照字符串長(zhǎng)度上的分布

5.1 兩個(gè)字符串集合的公共字符串

字符串集合 A＝｛A1，A2，A3…Am｝和B＝｛B1，B2，B3，…，Bn｝，假設(shè) A1，A2，A3，…，Am的平均長(zhǎng)度為L(zhǎng)1，B1，B2，B3，…，Bn的平均長(zhǎng)度為L(zhǎng)2，則：

A的子串個(gè)數(shù)上限為mC2L1，同理B的子串個(gè)數(shù)上限為nC2L2，通過字符串比較得到公共子串（common sub）的比較次數(shù)上限為mC2L1nC2L2，設(shè) m＝n＝10 000，L1＝L2＝10，比較次數(shù)大約為2 025億次。實(shí)際上m，n比10 000大很多（對(duì)維文來說20萬單詞是很保守的估計(jì)），使得兩個(gè)大集合之間的公共子串求解變得不可行。更遑論四個(gè)集合的公共子串的計(jì)算了。

我國(guó)傳統(tǒng)的抗旱工作模式是危機(jī)管理，即在旱情出現(xiàn)后才對(duì)干旱作出反應(yīng)，臨時(shí)組織動(dòng)員廣大干部群眾，并拿出大量資金和物資投入抗旱減災(zāi)工作中。但隨著社會(huì)主義市場(chǎng)經(jīng)濟(jì)體系的不斷完善，傳統(tǒng)的危機(jī)管理模式在觀念、措施、手段和政策上呈現(xiàn)出一些不適應(yīng)的地方：一是重視“抗”,忽視“防”，難以做到以最小的投入取得最大的抗旱減災(zāi)效果；二是重視工程措施，忽視非工程措施，難以發(fā)揮工程設(shè)施的最大抗旱效益；三是重視行政手段，忽視經(jīng)濟(jì)、法律、科技手段，抗旱減災(zāi)能力缺陷明顯；四是重視經(jīng)濟(jì)效益，忽視生態(tài)效益，難以滿足和諧發(fā)展要求。

為此，對(duì)公共子串做出限制，要求公共子串必須真實(shí)存在于某個(gè)語(yǔ)言的字符串集合中。也就是說，公共子串必須是某種語(yǔ)言的合法單詞或其變形（token），稱這樣的單詞為合法公共字符串。

5.2 四種語(yǔ)言字符串集合的合法公共字符串

依照上述合法公共字符串的定義，可以在有限時(shí)間內(nèi)求得每個(gè)集合相對(duì)于其他三個(gè)集合的合法公共字符串。流程如下：

1）ABCD為四個(gè)字符串集合，S（A）為集合A中所有字符串的子串集合的并集，同理得到S（B）、S（C）和S（D），從上面的分析容易得出

｜S（A）｜＝10 000×10×9／2（大約為百萬數(shù)量級(jí)）

2）對(duì)集合A中的每個(gè)字符串Ai分別在集合S（B）、S（C）和S（D）中查找，如果在三個(gè)集合中全都查到，則Ai是一個(gè)合法公共字符串。

3）同樣的方法驗(yàn)證集合B、C、D中的每個(gè)字符串是否為合法公共字符串。

4）所有合法公共字符串中長(zhǎng)度最長(zhǎng)的字符串就是四個(gè)集合的最長(zhǎng)合法公共字符串，也就是語(yǔ)言分類的文本長(zhǎng)度下界。

實(shí)驗(yàn)環(huán)境：建立的四個(gè)語(yǔ)言的集合比較消耗內(nèi)存（大約2GB）和時(shí)間，在 windows7（64bit）4G內(nèi)存環(huán)境下經(jīng)過約20分鐘運(yùn)行得到合法公共字符串（簡(jiǎn)稱公共單詞）共1 112個(gè)，其長(zhǎng)度分布和該長(zhǎng)度對(duì)應(yīng)的識(shí)別準(zhǔn)確率如圖5所示（見下頁(yè)）。

圖5 不同字符串長(zhǎng)度對(duì)應(yīng)的公共單詞個(gè)數(shù)及識(shí)別準(zhǔn)確率

作者給出文本語(yǔ)種判別長(zhǎng)度下界為8（大于7個(gè)字符）。少于8個(gè)字符的字符串無法判斷語(yǔ)言類別，圖3給出的準(zhǔn)確率也是理論上的最高值。

應(yīng)該指出，這個(gè)數(shù)據(jù)基于作者研究的范圍統(tǒng)計(jì)得到，而網(wǎng)頁(yè)實(shí)際出現(xiàn)的詞串有可能未被統(tǒng)計(jì)，或者屬于其他未定義語(yǔ)言。實(shí)際識(shí)別準(zhǔn)確率可能更高（從兩種文字的正規(guī)文本集合中識(shí)別維文）或者更低（從更多種類文字的非正式文本中識(shí)別維文）。

6 總結(jié)與下一步工作

本文介紹了一種利用二元語(yǔ)法模型（bigram）進(jìn)行從維吾爾文、阿拉伯文、哈薩克文和柯爾克孜文網(wǎng)頁(yè)中識(shí)別維吾爾文的方法，針對(duì)維文的編碼混亂的各種情況進(jìn)行細(xì)致的預(yù)處理，能夠從類似阿拉伯文的網(wǎng)頁(yè)中高速、準(zhǔn)確的識(shí)別維文（網(wǎng)頁(yè)論壇的識(shí)別達(dá)到準(zhǔn)確率98.9%，微博客96.6%，速度約100MB／s）。對(duì)短文本的測(cè)試結(jié)果分析引入了文本識(shí)別長(zhǎng)度下界的概念，作者對(duì)四種語(yǔ)言的公共字符串進(jìn)行了理論分析和統(tǒng)計(jì)計(jì)算，從而確定了四種文字中正確識(shí)別需要的文本長(zhǎng)度下界為8個(gè)字符。

經(jīng)過對(duì)不同時(shí)期采集的開放數(shù)據(jù)（2008年和2011年的維吾爾文、阿拉伯文網(wǎng)頁(yè)、2010年的推特?cái)?shù)據(jù)）的測(cè)試，表明該方法可以快速、準(zhǔn)確地處理維文網(wǎng)頁(yè)的識(shí)別問題，對(duì)于微博客等短文本在預(yù)處理（將消息按照字符集分解為幾個(gè)比較“純凈的”單語(yǔ)言網(wǎng)頁(yè)）之后再做語(yǔ)種識(shí)別，還能進(jìn)一步提高判斷精度。

由于采用阿拉伯字母書寫的語(yǔ)言比較多，在字符集上相互之間的交疊大而復(fù)雜，因此按照N元語(yǔ)法模型對(duì)更多的文字（如波斯文、普什圖文、烏爾都文……）訓(xùn)練更多的語(yǔ)言特征，是解決語(yǔ)種分類錯(cuò)誤的一條有效途徑。

［1］薛亞平，袁保社.全文檢索系統(tǒng)中語(yǔ)種識(shí)別與索引技術(shù)研究［J］.網(wǎng)絡(luò)安全技術(shù)與應(yīng)用，2009，（12）：49－51.

［2］哈力克·尼亞孜，吾買爾·阿皮孜.基礎(chǔ)維吾爾語(yǔ)［M］.新疆大學(xué)，1995：1－2.

［3］瓦熱斯江·阿布都克力木.維文Unicode在線處理技術(shù)與實(shí)現(xiàn)［D］.新疆大學(xué)碩士研究生學(xué)位論文，2002：17－18.

［4］Imad Saleh，Waris Abdukerim Janbaz.Web Development Considerations for Unicode－based Text Processing in Uyghur Language［C］／／Proceedings of the 30th Internationalization and Unicode Conference，November 2006，Washington，DC USA：15－17.

［5］李繼鋒，劉群.基于N－Gram模型的高速漢字編碼識(shí)別系統(tǒng)［J］.計(jì)算機(jī)工程與應(yīng)用，2004，（3）：39－42.

［6］Shanjian Li，Katsuhiko Momoi.A composite approach to language／encoding detection［OL］，http：／／www－archive.mozilla.org／projects／intl／UniversalCharsetDetection.html.

［7］Seungbeom Kim，Jongsoo Park.Automatic Detection of Character Encoding and Language［R］，CS 229，Machine Learning，Autumn 2007，Stanford University.

［8］張健，任煒，蔣欣，等.多語(yǔ)種eml文件編碼及語(yǔ)種識(shí)別算法研究［J］.新疆大學(xué)學(xué)報(bào)（自然科學(xué)版），2010，27（4）：482－485.

［9］馮沖，黃河燕，陳肇雄，等.基于字符層馬爾科夫模型的多語(yǔ)種識(shí)別［J］.計(jì)算機(jī)科學(xué)，2006，33（1）：226－235.

［10］曹鵬，李靜遠(yuǎn)，滿彤，等.Twitter中近似重復(fù)消息的判定方法研究［J］.中文信息學(xué)報(bào)，2011，25（1）：20－27.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看