阿衣蘇魯·依拉洪
摘要:維吾爾語(yǔ)是以單詞為基礎(chǔ)的黏連語(yǔ),字母由于在單詞中的作用相異而有不同的書(shū)寫(xiě)規(guī)則。當(dāng)前手寫(xiě)技術(shù)的進(jìn)步依然滯后于漢文、英文等。筆者在解析維吾爾語(yǔ)構(gòu)造、組詞特征與錄入行為等的前提下,歸納了黏連語(yǔ)對(duì)手寫(xiě)輸入識(shí)別的作用,并且討論了維吾爾語(yǔ)手寫(xiě)識(shí)別體系與有關(guān)重要技術(shù),通過(guò)對(duì)這部分技術(shù)的闡述,筆者期待在解析、證實(shí)的前提下,讓維吾爾語(yǔ)手寫(xiě)體為大眾所熟知。
關(guān)鍵詞:維吾爾語(yǔ);手寫(xiě)體;電腦;識(shí)別技術(shù);探討
中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2017)03-0166-02
維吾爾語(yǔ)手寫(xiě)體網(wǎng)上電腦識(shí)別技術(shù)是自動(dòng)化的,電腦自動(dòng)把待識(shí)別模式納入到識(shí)別工作中。模式識(shí)別在字符辨認(rèn)、指紋辨別、神態(tài)辨別、話(huà)語(yǔ)辨別等領(lǐng)域已經(jīng)開(kāi)始普及使用。而書(shū)面識(shí)別也是模式識(shí)別的其中一種。伴隨電腦科技的日新月異,數(shù)字圖像處置與解析也已經(jīng)滲透到了科技行業(yè)。[1]漢字識(shí)別通過(guò)超過(guò)20年的發(fā)展,獲得了令人矚目的成就,完成了對(duì)各類(lèi)文本圖片的漢文自動(dòng)識(shí)別,這類(lèi)研究成績(jī)已經(jīng)受到了世界范圍的關(guān)注。而維吾爾語(yǔ)的識(shí)別工作才起步而已。
1 維吾爾語(yǔ)特征簡(jiǎn)介
維吾爾語(yǔ)是我國(guó)56個(gè)民族的民族語(yǔ)言的其中一種,維吾爾語(yǔ)包含32個(gè)字母,當(dāng)中包括8個(gè)元音、24個(gè)輔音,通常能夠?qū)懗?28個(gè)種類(lèi)的詞語(yǔ);每一個(gè)字母根據(jù)存在的位置的差別能夠劃定為后連形式、前后連模式、前連模式、獨(dú)立模式等四類(lèi),維吾爾語(yǔ)單詞是一類(lèi)粘連性字符,由這部分字符組成連體段,字母互為聯(lián)系的水平線(xiàn)被稱(chēng)為基線(xiàn)。此外,一部分維吾爾語(yǔ)字母主體一樣,用上下附加題的方位來(lái)區(qū)別字符。[2]
2 維吾爾語(yǔ)手寫(xiě)體辨別的特點(diǎn)
維吾爾語(yǔ)是由單詞構(gòu)成的,和阿拉伯文相近,寫(xiě)作模式是由右至左,字母粘連。當(dāng)前,對(duì)維吾爾語(yǔ)的手寫(xiě)識(shí)別存在兩類(lèi)解讀辦法。其一,直觀地對(duì)整個(gè)單詞實(shí)施整詞識(shí)別,這類(lèi)模式的優(yōu)勢(shì)較為明顯,然而必須累積大批的單詞;其二,先完成單詞的切分,在對(duì)切分后的單獨(dú)字符實(shí)施識(shí)別。[3]
維吾爾語(yǔ)包含32個(gè)字母,其是:
并且,每一個(gè)字母存在多類(lèi)模式:
1) 分成四類(lèi)模式的一共有24個(gè)字母:
例如:
2) 分成八類(lèi)模式的總共只有2個(gè)字母:
例如,
3) 有兩類(lèi)模式的字母加起來(lái)有6個(gè):
例如:
4) 字符模式通常包含
其模式能夠達(dá)到128種。
為便于聯(lián)機(jī)識(shí)別,筆者將全部維吾爾字母寫(xiě)法、字符依照其功能劃定為若干種,在抽樣練習(xí)階段分類(lèi)裝存。
1) 簡(jiǎn)易字符。最為常見(jiàn)的維吾爾字母字符,比如
2) 繁雜操作符
右端、上端、下端都可以出現(xiàn)有著一定筆畫(huà)的維吾爾字母字符,比如
3) 兩類(lèi)字母音節(jié)字符
輔音部分與元音部分構(gòu)成兩種字體。比如:
4) 三種字母音節(jié)
舉例說(shuō)明:
3 維吾爾語(yǔ)手寫(xiě)體網(wǎng)上甄別的過(guò)程分析
3.1 預(yù)處置
預(yù)處置是手寫(xiě)的基本元素,對(duì)提升辨認(rèn)率來(lái)講至為關(guān)鍵。
3.1.1 幾何處置
預(yù)處置階段,最為重要的方法是清除噪音,排除硬件缺陷和手寫(xiě)抖動(dòng),再模式化寫(xiě)出的字體。目前,運(yùn)用頻率最高的是緩沖、過(guò)濾、另行抽取樣本與標(biāo)準(zhǔn)化技術(shù)。
1)將單獨(dú)點(diǎn)與臨近的三點(diǎn)實(shí)施均衡配對(duì),并對(duì)點(diǎn)的連接序列間的間距實(shí)施再次采樣,進(jìn)而緩解線(xiàn)訊息的硬度。
2)手寫(xiě)體痕跡的平行垂直問(wèn)題,使手寫(xiě)體能夠達(dá)到書(shū)寫(xiě)標(biāo)準(zhǔn),再利用切比雪夫第二類(lèi)別紙?jiān)谶^(guò)濾設(shè)備中過(guò)濾,用來(lái)規(guī)整筆跡,以清除時(shí)空抽樣引發(fā)的噪聲。
3)使用過(guò)濾設(shè)備緩解并縮減多余部分,采用同樣的模式對(duì)符號(hào)樣本進(jìn)行采集,再利用頂點(diǎn)刪除的形式讓手寫(xiě)體更為準(zhǔn)則化。[5]
3.1.2 基線(xiàn)探測(cè)
大多數(shù)基線(xiàn)勘探模式均是以幾何理論為基礎(chǔ)的,從離線(xiàn)或印刷體的運(yùn)用模式離析出來(lái)的。這類(lèi)邏輯模式解析了手寫(xiě)體表層構(gòu)造,以判斷檢索基線(xiàn)的筆跡有關(guān)點(diǎn),幾何理論中最為常見(jiàn)即是直方圖映射。
3.1.3 處置字體中的延緩部分
在維吾爾語(yǔ)手寫(xiě)階段,延緩筆劃分布在字符的上部或下部,可以利用一種非常規(guī)的連接筆劃連接延緩筆劃與維吾爾語(yǔ),參考分支界定學(xué)說(shuō)中的雙圖形學(xué)說(shuō)來(lái)完成相連或字體的改變,并將不同的字符分隔。[6]此外,借鑒阿拉伯語(yǔ)手寫(xiě)體辨別的模式,形成直觀串法來(lái)調(diào)節(jié)秩序。在這部分詞語(yǔ)的秩序內(nèi),延緩筆畫(huà)是根據(jù)相異的測(cè)序?qū)懗傻模址哪:谏w潛藏于特征載體內(nèi),在手寫(xiě)階段,利用延緩筆劃映射學(xué)說(shuō)來(lái)整合延緩筆劃。該映射學(xué)說(shuō)要經(jīng)歷兩個(gè)階段,即檢驗(yàn)延緩筆劃與在適當(dāng)?shù)耐ㄟ^(guò)處理的點(diǎn)序列字符中,完成延緩筆劃的書(shū)寫(xiě)。
3.2 特點(diǎn)提煉
特點(diǎn)提煉的初衷是,通過(guò)萃取與換算錄入訊息有關(guān)的特點(diǎn)或數(shù)據(jù)來(lái)獲取字符類(lèi)別劃分標(biāo)準(zhǔn),粘連體字符表率性的錄入信息繁多,包括視覺(jué)描述符,比如遮擋位置、凹陷方位與環(huán)等。幾何描述符也開(kāi)始逐漸普及,比如切線(xiàn)、相連角、相對(duì)速率、筆劃長(zhǎng)與位置、連續(xù)點(diǎn)的間距等。
另外,錄入信息的坐標(biāo)也能夠完成萃取——比如曲線(xiàn)運(yùn)轉(zhuǎn)速率與角速率。在阿拉伯文手寫(xiě)體識(shí)別階段,一部分研發(fā)專(zhuān)家萃取了字體特征的神經(jīng)生理學(xué)與生理力學(xué)的方程組參數(shù),描述的是手寫(xiě)體的曲線(xiàn)運(yùn)轉(zhuǎn)狀態(tài)。此外,F(xiàn)reeman鏈碼的分成三個(gè)部分:長(zhǎng)筆畫(huà)、短筆畫(huà)、抬筆。特征矢量最重要的是方向碼,描述的是切分狀態(tài)下的筆劃,每類(lèi)筆畫(huà)的長(zhǎng)度、斜率與坐標(biāo)軸等。
3.3 切分
切分法包括整體法與分析法,此處只介紹分析法。
在分析法中,對(duì)一類(lèi)字符高效識(shí)別的前提是識(shí)別單元是精準(zhǔn)的,而不正確的切分讓識(shí)別缺乏價(jià)值。最初利用外在切分學(xué)說(shuō)的是內(nèi)杰爾等專(zhuān)業(yè)人士參考阿拉伯手寫(xiě)體辨別準(zhǔn)則實(shí)現(xiàn)的,手寫(xiě)體由一些基礎(chǔ)知覺(jué)特征編碼與整體知覺(jué)特征編碼組成。利用網(wǎng)絡(luò)手寫(xiě)體的beta橢圓理論,并使用模糊集知識(shí)來(lái)檢測(cè)其基本特征,并利用遺傳換算理論來(lái)檢測(cè)其特征,這類(lèi)切分學(xué)說(shuō)相關(guān)的觀念來(lái)自凹凸性理論,為了避免形成長(zhǎng)度不達(dá)標(biāo)的分段,在分段線(xiàn)譜的長(zhǎng)度中參考了臨界指標(biāo),而分段曲線(xiàn)長(zhǎng)度揭示了結(jié)構(gòu)曲線(xiàn)的分段線(xiàn)性段的總長(zhǎng)度,并且將筆劃細(xì)分成四類(lèi)字母。其步驟包括:隨意分解、強(qiáng)化分解、連接連續(xù)接頭與定位分解點(diǎn)。
4 結(jié)束語(yǔ)
綜上,維吾爾語(yǔ)是新疆維吾爾地區(qū)的官方語(yǔ)言其中一種,當(dāng)前的手寫(xiě)科技較為落后,筆者在對(duì)中英語(yǔ)、阿拉伯語(yǔ)等手寫(xiě)識(shí)別科技解讀的前提下,從維吾爾語(yǔ)的文字構(gòu)造、組詞特征與錄入習(xí)慣等特點(diǎn)入手,探討了維吾爾語(yǔ)手寫(xiě)體在線(xiàn)電腦識(shí)別科技,為新疆地區(qū)民眾使用電子設(shè)施提供了一定的參考。
參考文獻(xiàn):
[1] 吾加合買(mǎi)提·司馬義,艾斯卡爾·艾木都拉.基于中心距離特征的聯(lián)機(jī)手寫(xiě)維吾爾文全形態(tài)字母識(shí)別研究[J].電腦知識(shí)與技術(shù),2014(13):3097-3099,3103.
[2] 姜志威,丁曉青,彭良瑞,等.低數(shù)據(jù)資源條件下基于結(jié)構(gòu)信息共享的無(wú)切分維文文檔識(shí)別字符建模[J].電子與信息學(xué)報(bào),2015,(9):2103-2109.
[3] 高麗娟,邢喜民,楊紹富,等.新源、和靜交界Ms6.6地震前庫(kù)爾勒地震臺(tái)部分異常識(shí)別和分析[J].內(nèi)陸地震,2014,28(1):22-29.
[4] 金劍,田淑芳,焦?jié)櫝?,?基于地物光譜分析的WorldView-2數(shù)據(jù)巖性識(shí)別:以新疆烏魯克薩依地區(qū)為例[J].現(xiàn)代地質(zhì),2013,27(2):489-496.
[5] 侯?lèi)?ài)萍,陳新勇.基于基因信息圖譜的傳統(tǒng)聚落景觀研究——以新疆吐魯番麻扎村維吾爾族聚落為例[J].新疆大學(xué)學(xué)報(bào):自然科學(xué)版,2016,33(2):235-240,252.
[6] 努爾艾力·喀迪爾,彭良瑞,哈力木拉提,等.一種基于HMM和統(tǒng)計(jì)語(yǔ)言模型的維吾爾文及阿拉伯文識(shí)別方法[J].計(jì)算機(jī)應(yīng)用與軟件,2015,32(1):171-174.