• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      脫機(jī)手寫維吾爾文單詞的過拆分方法

      2018-07-12 10:42瑪伊萊·艾力瑪依拉·依布拉音地里木拉提·吐爾遜艾斯卡爾·艾木都拉
      電腦知識與技術(shù) 2018年12期
      關(guān)鍵詞:投影

      瑪伊萊·艾力 瑪依拉·依布拉音 地里木拉提·吐爾遜 艾斯卡爾·艾木都拉

      摘要:脫機(jī)手寫體維吾爾文切分是脫機(jī)手寫體維吾爾文識別的基礎(chǔ),切分準(zhǔn)確率直接影響識別的正確率,該問題的研究對提高識別的系統(tǒng)性能具有重要的意義。提出了一種脫機(jī)手寫維吾爾文單過切分方法。該方法的基本過程是通過確定單詞的主筆劃找到單詞的基線,再根據(jù)基線以上的部分過拆分單詞,對該方案進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明該文切分方案具有有效性和可行性。

      關(guān)鍵詞: 脫機(jī)手寫;維吾爾文;過切分;投影;基線檢測

      中圖分類號:TP18 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2018)12-0271-03

      Abstract:Off-line handwriting Uyghur word segmentation is the basis of offl-ine Uyghur handwriting recognition. The segmentation accuracy directly affects the accuracy of recognition. The research on this issue is of great significance to improve the recognition system performance. An off-line handwritten Uyghur single-pass segmentation method is proposed. The basic process of this method is to find the baseline of the word by determining the main stroke of the word, then to split the word according to the part above the baseline, and the experiment is carried out. The experimental results show that the proposed scheme is effective and feasible.

      Key words:Off-line handwriting; Uyghur; over segmentation; projection; Baseline detection;

      1 引言

      維吾爾文的歷史悠久,在中國的西北地區(qū),廣泛地被維吾爾族使用?;诰S吾爾文的文字處理系統(tǒng)與輸入方法的研究,在我國研究較少,同時起步也比較晚,現(xiàn)存的研究文獻(xiàn)中,研究最多的就是鍵盤編碼輸入方式[1],關(guān)于識別方面的研究相對較少。關(guān)于維吾爾文字的識別技術(shù),尤其是印刷體字符的研究,研究比較成熟的代表是清華大學(xué)與新疆大學(xué)[2-4]。與其他語言文字相比,維吾爾文在書寫規(guī)則,字母結(jié)構(gòu)、書寫習(xí)慣等方面更為復(fù)雜,難度較大,尤其是手寫體識別,由于硬件因素的影響,對于脫機(jī)手寫單詞識別更少。基于此,本文主要的研究對象是脫機(jī)手寫維吾爾文字符切分技術(shù)的。單詞的識別主要分為兩種,一種是基于分割的方法,第一種是整體性識別的方法。如果是通過分析字母的形狀特征對字母進(jìn)行識別,然后再對整個單詞進(jìn)行識別,則說明采用的是基于分割的方法;如果是通過單詞的整體數(shù)字特征入手,再采用整體的模式對單詞進(jìn)行識別,則說明采用的是整體性識別方法。在維吾爾文中,如果是采用整體性識別的方法對其識別,是行不通的,因?yàn)檫@種語言的單詞數(shù)量特別龐大,因此只能采用基于分割的方法。在單詞圖像中,單詞中的字符切分是相對比較重要的一步,它是字符切分、單詞識別等技術(shù)的基礎(chǔ)。要進(jìn)行正確地識別就要進(jìn)行正確的區(qū)分,如果切分不當(dāng)就容易造成識別錯誤,對于這種問題是不能忽視的。在維吾爾文的脫機(jī)手寫中,兩個因素給單詞切分帶來了較大的困難,第一個因素是手寫的隨意性,第二個因素是單詞圖像中字符的唯一性。

      維吾爾文字書寫時字母連續(xù)流暢,自右向左書寫。維吾爾文與漢文有較大的不同,維吾爾文的一個詞是由一個或多個字母組成的。根據(jù)維吾爾文的書寫規(guī)則,,這些字母可能前后相連形成一個或幾個連體字母段或稱連體段。不管是維吾爾文的手寫體,還是維吾爾文的印刷體,在連體字母段中,所有的字母都是沿著一條水平線相連的,這條水平線叫基線。一個單詞包含一個或多個連體段。每個連體段也是由一組字母,或一個字母組成。

      2 預(yù)處理

      以采集到的單詞圖像為基本對象,對其進(jìn)行相應(yīng)的處理,這種處理就叫預(yù)處理。預(yù)處理的目的有兩個,一個是減少噪聲的影響,另一個是減少外界干擾,預(yù)處理的主要作用是對手寫單詞存在的變形進(jìn)行矯正。預(yù)處理在所有的步驟中是不能缺少的關(guān)鍵性步驟,它是字符分割的基礎(chǔ)與前提。主要內(nèi)容包括圖像二值化,傾斜矯正等。

      2.1 二值化

      在本方案中,實(shí)驗(yàn)的樣本圖像采用的是黑白圖像,白色的是背景,黑色的是字體。如果從數(shù)字圖像的像素值上對其分析,圖中像素的灰度值從0到255均有分布,在圖像上都有細(xì)微的表現(xiàn),灰度差異較小的是字符像素點(diǎn)與背景像素點(diǎn),在單詞中,骨架部分呈現(xiàn)的是黑色,邊緣部分呈現(xiàn)的是灰色。本文投影切分算法的實(shí)現(xiàn)就是要利用顏色差異,所以分割之前需要對圖像進(jìn)行二值化處理。充分結(jié)合最大類間方差法[5]可以找到圖片的一個合適的閾值。對這個閾值加以利用,就可以更容易(與人為設(shè)定相比)地把一張灰度圖像轉(zhuǎn)換為二值圖像。最大類間方差法(otsu)的公式推導(dǎo):記[T]為前景與背景的分割閾值,前景點(diǎn)數(shù)占圖像比例用[w0]表示,平均灰度用[u0]表示;背景點(diǎn)數(shù)占圖像比例用w1表示,平均灰度用u1表示。則圖像的總平均灰度,可以采用公式(1)對其表示;前景和背景圖象的方差,則可以采用公式(2)對其表示:

      在上述公式中,當(dāng)方差最大時,就可以將其認(rèn)定為此時前景與背景差異最大,換句話說,就是此時的灰度是最佳閾值。

      2.2 傾斜矯正

      對于文字,在手寫的過程中,出現(xiàn)一定程度的傾斜是很正常的。但文字的傾斜卻會對方向特征、投影直方圖等文字特征的正確抽取造成一定程度的影響,倘若傾斜程度過大,還會導(dǎo)致字符上下交錯,這必然會加大字符分割與識別的難度。由此可見,在對手寫文字進(jìn)行預(yù)處理的時候,務(wù)必對其進(jìn)行傾斜校正操作[6-8]。[Hough]變換是一種特別有效的檢測直線的算法,它以直角坐標(biāo)系中的目標(biāo)點(diǎn)位基本對象,再將這些點(diǎn)映射到極坐標(biāo)系中進(jìn)行累積,即先使直角坐標(biāo)系平面上任一直線上的所有點(diǎn)均累積到極坐標(biāo)系的同一點(diǎn)集中去,然后通過尋找極坐標(biāo)系中點(diǎn)集的峰值來發(fā)現(xiàn)較長的直線特征。對每一個像素點(diǎn)都進(jìn)行Hough變換,找出傾斜角度對此矯正單詞的傾斜角。

      3 單詞的過拆分

      本節(jié)介紹維吾爾文手寫單詞拆分,單詞拆分指的是把單詞所包含的字母拆分出來。本文用的是基于字符的拆分方法,流程圖如圖1所示:

      從某種程度上來說,利用垂直投影算法確定文字的切分點(diǎn),會依賴于手寫文本的規(guī)范性,尤其是書寫的隨意性、多樣性等特點(diǎn)。由此可見,對于垂直投影確定的切分點(diǎn),印刷體文字就會比手寫文字更加準(zhǔn)確一些。正因?yàn)榭紤]到這樣的因素,故而在本文中,沒有直接對單詞圖像進(jìn)行垂直投影,而是提出了基于單詞基線的一種過拆分的方法,通過提取單詞基線以上的部分,對提取后的分段,進(jìn)行單詞拆分。

      單詞的過切分算法如下:

      (1) 對預(yù)處理后的手寫維吾爾文單詞圖像求基線具體公式如(3)所示:其中I(i,j)為單詞圖像中第i行、第j列的像素值,n為單詞圖像總列數(shù)。

      得到水平投影的值后,再把sum中的最大值所在的像素行算出來,并將其確定為基線位置。

      (2)從手寫單詞的基線部分開始往下置白,就是說單詞基線下的碎片部分變成背景,提取單詞基線以上的部分。

      (3)對手寫單詞基線以上的部分進(jìn)行垂直投影。垂直投影也稱為列投影,那是因?yàn)樵诖怪蓖队坝?jì)算的是每列中,像素值為0的像素點(diǎn)的總數(shù)。垂直投影的算法是,按列來統(tǒng)計(jì)圖像中像素值為0的像素點(diǎn)的個數(shù)。單詞圖像的垂直投影如(4)所示:

      4 實(shí)驗(yàn)結(jié)果及分析

      本實(shí)驗(yàn)平臺采用頻率大小為[3.6GHz],內(nèi)存大小為[4G],實(shí)驗(yàn)運(yùn)行環(huán)境為專用數(shù)學(xué)軟件[MATLABR214a]。實(shí)驗(yàn)對象為不同的人按照平常的習(xí)慣不受任何限制的方式書寫的單詞圖像。實(shí)驗(yàn)結(jié)果如下圖所示:

      由以上實(shí)驗(yàn)結(jié)果可以看出,用本文中提出的方法可以有效地把維吾爾文手寫單詞圖像分割成字母。在整個算法過程中,當(dāng)遇到(?????????????)等字母是出現(xiàn)錯誤切分的情況。

      5結(jié)論

      本文以脫機(jī)手寫單詞為研究對象,利用維吾爾文單詞的結(jié)構(gòu)特征有效地將單詞切分成字母,同時還給出了階段性的算法描述和實(shí)驗(yàn)結(jié)論。未來工作對于出現(xiàn)錯切分的情況再次做深入的研究。

      參考文獻(xiàn):

      [1] 萬芳. 聯(lián)機(jī)手寫維吾爾文字識別技術(shù)的研究與實(shí)現(xiàn)[D].新疆大學(xué),2007.

      [2] 吳燕,袁保社. 聯(lián)機(jī)手寫維文字符切分算法研究[J]. 微計(jì)算機(jī)信息,2010,26(12):184-185+178.

      [3] 陳卿,袁保社,李曉,任宏宇,張建華. 基于模板匹配的印刷維吾爾文字符識別研究[J]. 計(jì)算機(jī)技術(shù)與發(fā)展,2012,22(04):119-122.

      [4] 曹志宏. 維吾爾文字聯(lián)機(jī)手寫體識別系統(tǒng)的研究與實(shí)現(xiàn)[D].新疆大學(xué),2007.

      [5] 擺雪剛. 脫機(jī)手寫維吾爾文本行傾斜校正技術(shù)研究[D].新疆大學(xué),2015

      [6] 許亞美. 手寫維吾爾文字識別若干關(guān)鍵技術(shù)研究[D].西安電子科技大學(xué),2014.

      [7] Zhu B, Shivram A, Govindaraju V, et al. Online Handwritten Cursive Word Recognition by Combining Segmentation-Free and Segmentation-Based Methods[C]// International Conference on Frontiers in Handwriting Recognition. IEEE, 2016:161-165

      [8] Nakkach H, Hichri S, Haboubi S, et al. A Segmentation-Free Approach to Strokes Extraction from Online Isolated Arabic Handwritten Character[C]// International Conference on Advanced Technologies for Signal& Image Processing Atsip. 2016.

      [9] 曹衛(wèi). 脫機(jī)手寫體漢字切分算法研究[D]. 中南民族大學(xué), 2012.

      [10] 楊俠. 手寫體漢字分割的研究與應(yīng)用[D]. 山東師范大學(xué), 2012.

      猜你喜歡
      投影
      全息? 全息投影? 傻傻分不清楚
      投影向量問題
      解變分不等式的一種二次投影算法
      China e Iberoamérica
      基于最大相關(guān)熵的簇稀疏仿射投影算法
      色彩艷麗的高亮度入門4K投影 Acer(宏碁)H6810BD
      求解變分不等式的一種雙投影算法
      找投影
      一種基于正交多項(xiàng)式展開的CT三維投影數(shù)據(jù)重建算法
      基于OPED的有限角投影數(shù)據(jù)快速重建算法
      栖霞市| 安泽县| 区。| 绵竹市| 安义县| 南丰县| 西华县| 河北省| 茌平县| 雅安市| 阿尔山市| 温宿县| 平邑县| 屏南县| 丹棱县| 泰安市| 梧州市| 桑日县| 宜章县| 乳山市| 正安县| 黔西县| 定安县| 通州市| 浦县| 安阳市| 老河口市| 高碑店市| 平安县| 牡丹江市| 长沙市| 松江区| 嘉定区| 山东省| 读书| 永寿县| 铜梁县| 双鸭山市| 拉萨市| 泉州市| 屯留县|