• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于掃描圈的字符識別方法

      2012-09-29 03:19:14宋賢霞李玉琴
      自動化與信息工程 2012年5期
      關(guān)鍵詞:小寫字母鄰點弧段

      宋賢霞 李玉琴

      (1.甘肅中醫(yī)學(xué)院 2.蘭州理工大學(xué))

      0 引言

      公式廣泛存在于各類文獻(xiàn)資料中,當(dāng)對這些文獻(xiàn)進(jìn)行數(shù)字化時,其中的公式只能按照圖像格式使用,不能加以識別分析,也不能依據(jù)公式對文章進(jìn)行檢索。當(dāng)需要驗證或重用這些公式時,只能使用專門的排版軟件進(jìn)行重新輸入,因此找到一種簡單有效的方法將文獻(xiàn)中的公式轉(zhuǎn)化為可編輯的文本公式是非常必要的[1-2]。

      在實際應(yīng)用中,數(shù)學(xué)公式一般是由英文字符、阿拉伯?dāng)?shù)字、特殊符號及希臘字母組成的,因此要正確識別數(shù)學(xué)公式首先要識別這些組成元素[3-5]。本文所做的關(guān)于掃描圈的識別就是針對每一個單獨字符進(jìn)行識別,本文以印刷體的英文小寫字母為例對掃描圈識別的方法進(jìn)行闡述[6]。

      1 掃描圈提取

      1.1 掃描圈概念

      英文字符在外觀上是由一些曲線組成的,任何一個連筆符號都可以看成是由一個外圈和若干個內(nèi)圈組合而成,如a是由一個內(nèi)圈和一個外圈組合而成的;c則是由一個外圈形成的。用不同的數(shù)字代表上下左右四個方向,并且用它們的組合代表左上、左下、右上、右下四個方向(如圖1所示)。通過掃描搜索,每一個幾何圈都可以一一對應(yīng)于由這四種符號構(gòu)成的數(shù)字串,這個數(shù)字串簡稱為掃描圈。

      圖1 掃描圈的數(shù)字串表示

      1.2 掃描圈提取

      掃描圈的提取是按照相對坐標(biāo)和鄰點搜索實現(xiàn)的,在掃描開始之前需要給出一個初始中心點,即掃描初點。尋找掃描初點的過程有兩種方式:一種是按照行掃描的方式以搜索到的第一個黑色點作為掃描初點;另一種是按照列掃描的方式搜索掃描初點。本文采用的是行掃描的方式。

      找到掃描初點之后,將其作為當(dāng)前中心點,按照逆時針的方向搜索它的八個領(lǐng)域點,應(yīng)當(dāng)注意此時它的鄰點中有四個方向的點已經(jīng)在行掃描的過程中被考察過,且都不為黑點,因此,此時只要搜索它另外四個方向上的鄰點(01、00、30、11)。若在搜索過程中得到一個黑色新鄰點,定義這個首次出現(xiàn)的黑色新鄰點為下一個中心點,然后按照逆時針方向以前中心點的下一個點為起始點,在8個方向中搜索新的中心點,這樣就形成了幾何圈的掃描過程;若在掃描過程中未在掃描初點的鄰域中找到黑色新鄰點,表明此掃描初點為一個孤立的像素點,將其視為無效點清除,并尋找新的掃描初點。表1對遵循以上規(guī)律得到的掃描圈結(jié)果進(jìn)行了舉例說明。

      表1 掃描圈結(jié)果舉例

      按照上述方法,對每一個英文小寫字母都可以得到若干個四進(jìn)制的字符串,如果依照點的絕對坐標(biāo)的單調(diào)性,可以將幾何圈分成若干個單調(diào)弧,在四進(jìn)制的字符串中便能得到單調(diào)段的個數(shù)及序數(shù)穩(wěn)定性,即同一符號在一定范圍內(nèi)的放大和縮小格式具有相同的單調(diào)段個數(shù)及序數(shù)。一個計算機(jī)符號實際上是幾何符號的有限剖分,符號識別就是研究幾何符號的剖分不變性,知道了剖分不變性便可以得到計算機(jī)符號的不依賴于硬件的抽象碼。

      1.3 掃描圈提取過程中的特殊處理

      為防止在掃描圈提取過程中由于筆畫過細(xì)而造成損失單調(diào)段及影響序數(shù)的情況,在掃描圈提取過程中如果出現(xiàn)相反的方向就進(jìn)行加寬處理,即在掃描圈中多加入一個與這兩個方向按逆時針的垂直方向上的像素點,表2對進(jìn)行了加寬處理的筆畫作了舉例說明。

      從表2的處理中可以看出,掃描圈是一個很長的數(shù)字串,包含多個相同的碼字連續(xù)出現(xiàn)的子段,它們實際上就是一個個的單調(diào)弧。為在不損失圖像筆畫信息的前提下盡可能的壓縮掃描圈的長度,提出掃描核的提取方法。

      表2 對掃描圈進(jìn)行加寬處理

      2 掃描核及特征提取

      2.1 掃描核

      在幾何相似變換下,即適當(dāng)?shù)膸缀畏糯蠡蚩s小,同一個幾何圈的掃描圈是不同的,但具有內(nèi)在的結(jié)構(gòu)不變性,提取這些結(jié)構(gòu)不變量是結(jié)構(gòu)識別的關(guān)鍵。

      掃描圈是由數(shù)字0、1、2、3的組合構(gòu)成的數(shù)字串,不同的組合表示不同的方向,如果掃描圈cod為:{i、j}={0、1},{1、2},{2、3},{3、0},則稱 cod由數(shù)字{i、j}構(gòu)成的極大段為掃描弧。這里的極大段是指不含相反方向數(shù)字的極大弧段。

      每一個掃描圈都可以看作是掃描弧的有序組合,如果用cod[ i ]來表示一個掃描弧,那么掃描圈cod可以分解為弧段的表示:

      cod=cod[1]cod[2]cod[3] ……cod[n],n稱為弧段的個數(shù),這是一個相似不變量,當(dāng)對字符進(jìn)行適當(dāng)?shù)姆糯蠛涂s小后,n均不會改變。

      每一個弧段中由于其不含相反方向的數(shù)字,所以可以對弧段進(jìn)行壓縮,例如弧段 2222121212222222可以壓縮為12,這樣每一個掃描圈便可壓縮為掃描基的表示,將其稱之為掃描核。

      一般,掃描圈在其長度得到大幅度縮減的基礎(chǔ)上仍保留著掃描弧個數(shù)、方向等重要形態(tài)信息。下面對字符的特征提取就是在掃描核的基礎(chǔ)上進(jìn)行的。

      2.2 特征代碼庫的建立

      經(jīng)過壓縮之后很長的掃描圈變成了由掃描基表示的較短的掃描核,掃描核所攜帶的筆畫走向信息與掃描圈是相同的,每一個掃描基就表示一種筆畫的走向。由于英文字符在結(jié)構(gòu)上具有不變性,因此任一字符在某一方向上的筆畫總數(shù)是不變的,即每一個掃描基在掃描核中的總數(shù)是不會變的,根據(jù)這一特性對于每一個英文字符,首先提取它的掃描核,然后數(shù)出其中每一個掃描基的個數(shù),用它們組成一個長度為4的特征向量,表3是對一部分字符特征向量的舉例說明。

      表3 字符特征向量舉例

      對于26個英文小寫字母,按照上述方法分別計算它們的特征向量并保存在計算機(jī)中作為匹配的模板。

      3 模板匹配

      對于輸入的單個字符,按照前面的方法提取它的特征向量,將其與所有模板逐個進(jìn)行比較,計算它們之間的距離

      對于距離D,設(shè)定了一個閥值,當(dāng)D大于該閥值時,中斷與該模板的比較,并進(jìn)行與下一個模板的比較。當(dāng)所有的模板都比較完之后,找出其中距離最短的模板,則識別結(jié)果為該模板對應(yīng)的英文字符,若所有的距離都超過了閥值,則認(rèn)為該字符無法識別。

      4 結(jié)束語

      文中所設(shè)計的方法主要是針對印刷體的英文小寫字母,對于不同字體的英文小寫字母,它們的像素點位置略有差別,這種差別將影響字符的識別率。因此,為了提高字符的識別率需要針對每一種字體分別提取它們的特征代碼庫。這樣每一個英文小寫字母所對應(yīng)的特征代碼就不止一個,在模板匹配過程中需要與這些不同的特征代碼進(jìn)行比較。

      [1] 程值軍.基于掃描表方法和命令串方法的數(shù)學(xué)公式識別與文本轉(zhuǎn)化的理論研究[D].蘭州大學(xué),2007.

      [2] 龐東虎,金偉杰.英文字符特征提取系統(tǒng)[J].計算機(jī)仿真,2007,24(12):208-210.

      [3] 黃炯生,黃敏琪.基于模型匹配法的字符識別[J].中國科技信息,2008(8):92-94.

      [4] 藍(lán)章禮.基于中心與圓周的英文字符識別方法研究[J].計算機(jī)科學(xué)學(xué)報,2007,34(4):241-242.

      [5] 黃敏,龍輝敏,楊曦,等.一種典型的英文字符識別算法[J].電子儀器儀表用戶,2000,7(4):17-21.

      [6] 王萍,劉恒,狄光敏.基于簡約碼特性樹的字母和數(shù)字識別[J].天津大學(xué)學(xué)報, 2008,41(6):668-672.

      猜你喜歡
      小寫字母鄰點弧段
      一種航天測控冗余跟蹤弧段處理方法
      上海航天(2024年1期)2024-03-08 02:52:28
      Starter Unit 3 What color is it?
      基于改進(jìn)弧段切點弦的多橢圓檢測
      面向工業(yè)復(fù)雜場景的合作靶標(biāo)橢圓特征快速魯棒檢測
      圍長為5的3-正則有向圖的不交圈
      斜體字母、大小寫字母使用規(guī)范
      臥底
      老年世界(2016年8期)2016-10-17 00:24:48
      特殊圖的一般鄰點可區(qū)別全染色
      淺談如何將多段線中的弧線段折線化
      四川建筑(2015年4期)2015-06-24 14:08:40
      笛卡爾積圖Pm×Kn及Cm×Kn的鄰點可區(qū)別E-全染色研究
      互助| 九龙城区| 抚州市| 武功县| 洪江市| 紫云| 黎城县| 洪江市| 梁山县| 延安市| 调兵山市| 泸水县| 万载县| 溧水县| 德兴市| 汤原县| 嘉义市| 广西| 绥芬河市| 衢州市| 临澧县| 肇州县| 环江| 兴城市| 治县。| 宁阳县| 中卫市| 社旗县| 博湖县| 额济纳旗| 开化县| 安福县| 岳阳市| 乌拉特前旗| 南木林县| 佳木斯市| 巴东县| 建水县| 县级市| 洞头县| 盐津县|