• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于多維特征和候選項(xiàng)的易混手寫(xiě)英文識(shí)別

      2021-11-20 01:57:12付鵬斌宋冬雪楊惠榮
      關(guān)鍵詞:字符識(shí)別手寫(xiě)字符

      付鵬斌,宋冬雪,楊惠榮

      (北京工業(yè)大學(xué) 信息學(xué)部,北京 100124)

      0 引 言

      手寫(xiě)英文字符識(shí)別是光學(xué)字符識(shí)別(optical character recognition,OCR)的一個(gè)重要分支,研究人員提出了多種方法[1-5]進(jìn)行手寫(xiě)英文字符的識(shí)別。近年來(lái),為了提高易混手寫(xiě)字符的識(shí)別準(zhǔn)確率,現(xiàn)有的研究方法可以分為兩類(lèi):以特征提取[6-8]為中心,以神經(jīng)網(wǎng)絡(luò)[9-11]為中心。以特征提取為中心的方法旨在通過(guò)找到字符高質(zhì)量的特征并加強(qiáng)特征的表征能力來(lái)進(jìn)行易混字符的區(qū)分。Inkeaw等[12]提出了一種利用潛在表征區(qū)域的梯度特征來(lái)增強(qiáng)圖像特征的識(shí)別方法。Jangid等[13]提出了一種基于由類(lèi)間方差和類(lèi)內(nèi)方差之比定義的統(tǒng)計(jì)度量,增強(qiáng)字符的可分辨部分的特征元素以進(jìn)行判定。這類(lèi)方式雖然能夠?qū)ψ址男螒B(tài)特點(diǎn)進(jìn)行直觀性描述,但是對(duì)于產(chǎn)生形變的字符識(shí)別準(zhǔn)確率并不高,缺乏魯棒性。另一方面,以神經(jīng)網(wǎng)絡(luò)為中心的方法專(zhuān)注于開(kāi)發(fā)一個(gè)復(fù)雜且高度區(qū)分的分類(lèi)器,以更好地區(qū)分易混字符。Shao等[14]提出了一種基于多實(shí)例學(xué)習(xí)的易混字符識(shí)別方法。Wang等[15]提出使用層次化結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)來(lái)區(qū)分易混字符。盡管這些研究中提出的識(shí)別分類(lèi)器在易混字符識(shí)別方面表現(xiàn)良好,但由于分類(lèi)器的復(fù)雜度較高,通常需要大量的樣本進(jìn)行訓(xùn)練,耗費(fèi)較多時(shí)間。

      本文通過(guò)分析易混字符相似區(qū)域的特點(diǎn)和字符間構(gòu)成單詞的相關(guān)性,提出一種結(jié)合多維特征和候選項(xiàng)區(qū)分易混手寫(xiě)英文字符的識(shí)別方法,進(jìn)一步加強(qiáng)字符識(shí)別結(jié)果的可信度,有效提高了易混手寫(xiě)英文字符的識(shí)別準(zhǔn)確率。

      1 基于CNN的字符識(shí)別

      1.1 數(shù)據(jù)準(zhǔn)備

      本文基于已公開(kāi)的NIST、Chars74k數(shù)據(jù)集上擴(kuò)充收集了包含不同年齡段作者的手寫(xiě)英文數(shù)據(jù),并以此為基礎(chǔ),經(jīng)過(guò)腐蝕、膨脹、加噪等一系列圖像形變操作算法,形成了共38類(lèi)包含大小寫(xiě)的手寫(xiě)英文字符數(shù)據(jù)集,其中將大小寫(xiě)書(shū)寫(xiě)形式相同的字符,合并成了同一類(lèi)字符,這樣的字符為 {C/c,F/f,K/k,L/l,M/m,O/o,P/p,S/s,U/u,V/v,W/w,X/x,Y/y,Z/z}。 最終形成了每類(lèi)手寫(xiě)英文字符圖像約10 000張,共計(jì)373 352張的手寫(xiě)英文字符數(shù)據(jù)集。

      1.2 字符識(shí)別

      文中所用的手寫(xiě)英文字符識(shí)別網(wǎng)絡(luò)是基于CNN構(gòu)建的網(wǎng)絡(luò)模型,網(wǎng)絡(luò)結(jié)構(gòu)為兩個(gè)卷積層、兩個(gè)池化層和兩個(gè)全連接層。

      本文采用的網(wǎng)絡(luò)模型如圖1所示,其中輸入的是28×28的圖像,C1和C3層代表卷積層,S2和S4是池化層,F(xiàn)5和F6 是全連接層。整個(gè)網(wǎng)絡(luò)第一層卷積設(shè)定有32個(gè)5×5大小的濾波器,從而得到32個(gè)28×28特征圖。第二層池化層設(shè)定池化的大小為2×2,經(jīng)過(guò)這層池化操作后,圖像的長(zhǎng)和寬都縮小一半,從28×28變到了14×14。再經(jīng)過(guò)第三層的卷積操作,特征圖數(shù)量變成了64。經(jīng)過(guò)第四層又一個(gè)2×2的池化層后得到了64個(gè)7×7大小的特征圖之后進(jìn)入全連接層。選取了兩個(gè)全連接層,第一個(gè)全連接層設(shè)置的神經(jīng)元的個(gè)數(shù)是1024個(gè),相當(dāng)于把7×7×64的特征圖轉(zhuǎn)化成一個(gè)1024的列向量,第二個(gè)全連接層的神經(jīng)元個(gè)數(shù)是38,即文中確定的英文字符分類(lèi)數(shù)。

      圖1 CNN識(shí)別模型

      1.3 實(shí)驗(yàn)測(cè)試及分析

      為驗(yàn)證使用模型的有效性,實(shí)驗(yàn)統(tǒng)計(jì)了該模型對(duì)手寫(xiě)英文字符的識(shí)別準(zhǔn)確率。將數(shù)據(jù)準(zhǔn)備階段構(gòu)建的手寫(xiě)英文字符數(shù)據(jù)集,經(jīng)過(guò)篩選、歸一化后,每類(lèi)字符的數(shù)量按照4∶1的比例劃分為訓(xùn)練集和測(cè)試集。實(shí)驗(yàn)結(jié)果如圖2和圖3 所示,手寫(xiě)英文字符識(shí)別在測(cè)試集上的平均識(shí)別準(zhǔn)確率是96.52%。

      圖2 字符“A-K/k”的識(shí)別準(zhǔn)確率

      圖3 字符“L/l-Z/z”的識(shí)別準(zhǔn)確率

      由圖2和圖3可知,其中“a”,“C/c”、“D”、“g”、“I”、“q”、“r”、“V/v”等字符識(shí)別準(zhǔn)確率均低于95%,并且“I”和“r”的識(shí)別準(zhǔn)確率低于92%。與整體字符的平均識(shí)別準(zhǔn)確率相比,存在一定的偏差。通過(guò)分析其識(shí)別結(jié)果發(fā)現(xiàn),主要誤差造成的原因是易混字符的誤識(shí)。由于英文字符筆畫(huà)簡(jiǎn)單,某些字符的字形相差不大,基于神經(jīng)網(wǎng)絡(luò)的字符識(shí)別算法,字符的特征提取蘊(yùn)含在模型訓(xùn)練過(guò)程中,所以在初次識(shí)別時(shí),由于易混字符的特征相似,會(huì)有較大概率出現(xiàn)分類(lèi)錯(cuò)誤的現(xiàn)象。因此,對(duì)于易混字符,有必要根據(jù)其相似區(qū)域找到差異性從而進(jìn)行針對(duì)化的識(shí)別,彌補(bǔ)識(shí)別的不足。

      2 易混字符的識(shí)別

      2.1 易混字符類(lèi)別劃分

      通過(guò)卷積神經(jīng)網(wǎng)絡(luò)得到的特征向量以SoftMax回歸的形式輸出手寫(xiě)字符歸屬于每一類(lèi)的概率大小。輸入一個(gè)手寫(xiě)字符圖像,其輸出向量在每個(gè)類(lèi)別的概率大小反映該樣本識(shí)別為該類(lèi)別的置信度。一般置信度最大的字符就是識(shí)別結(jié)果。定義置信度最大的識(shí)別概率為第一識(shí)別概率pi,1, 依次類(lèi)推,第二識(shí)別概率pi,2, 第三識(shí)別概率pi,3…pi,n。 設(shè)待識(shí)別字符圖像經(jīng)過(guò)卷積神經(jīng)網(wǎng)絡(luò)識(shí)別后輸出的第一識(shí)別概率pi,1代表的字符為初步識(shí)別結(jié)果Ri,待識(shí)別字符對(duì)應(yīng)的正確識(shí)別結(jié)果為Ci,統(tǒng)計(jì)易混字符類(lèi)別的算法如下:

      步驟1 輸入:字符初步識(shí)別結(jié)果Ri,字符正確識(shí)別結(jié)果Ci;

      步驟2 統(tǒng)計(jì)識(shí)別過(guò)程中與正確識(shí)別結(jié)果Ci比較,不等于Ci的Ri分別出現(xiàn)的次數(shù),用F(Ci,Ri) 表示;

      步驟3 計(jì)算混淆概率P(Ri|Ci)

      (1)

      F(Ci) 表示所有識(shí)別結(jié)果出現(xiàn)的次數(shù);

      步驟4 對(duì)所有混淆概率根據(jù)P(Ri|Ci) 的大小進(jìn)行排序;

      步驟5 取排序后的前N個(gè)Ri代表字符作為Ci的易混字符;

      步驟6 統(tǒng)計(jì)各類(lèi)字符中包含易混字符的公共部分,定義為同一類(lèi)易混字符。

      根據(jù)以上算法進(jìn)行統(tǒng)計(jì),將易混字符劃分為以下6類(lèi):

      (1)a,Q,q,g

      (2)b,D,o

      (3)c,l

      (4)I,l,i,J,j,z

      (5)n,h

      (6)u,v,r,y

      通過(guò)分析造成字符易混的影響因素,又可將以上類(lèi)別細(xì)分為表1所示的易混字符對(duì)。

      表1 易混字符類(lèi)別

      2.2 易混字符的判定

      對(duì)字符經(jīng)過(guò)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行初步識(shí)別之后,設(shè)定判斷識(shí)別結(jié)果是否可信的條件如下

      pi,1>α&&pi,2<β&&pi,3<γ

      (2)

      即需要同時(shí)滿足第一識(shí)別概率大于閾值α,第二識(shí)別概率小于閾值β,第三識(shí)別概率小于閾值γ的條件,這樣才認(rèn)為該字符的識(shí)別結(jié)果可取。對(duì)大量手寫(xiě)英文字符的識(shí)別結(jié)果進(jìn)行分析,通過(guò)表2列出的部分因易混字符而造成的誤識(shí)和其識(shí)別概率也可以看出,一般因?yàn)橐谆熳址斐傻淖R(shí)別錯(cuò)誤,其正確識(shí)別結(jié)果出現(xiàn)在識(shí)別概率排名前三位的字符中。

      表2 部分因易混字符而造成的誤識(shí)結(jié)果和識(shí)別概率

      因此對(duì)易混字符的判定可以表示為

      pi,1<α&&pi,2>β&&pi,3>γ

      (3)

      通過(guò)實(shí)驗(yàn)計(jì)算后得出,當(dāng)α=0.9,β=0.1,γ=0.01時(shí),若字符的識(shí)別概率滿足式(3),并且前三位識(shí)別字符中包含易混字符中的某一類(lèi),則認(rèn)為該字符為易混字符。

      2.3 多維特征提取

      對(duì)于易混字符結(jié)合特征對(duì)其識(shí)別,關(guān)鍵在于提取穩(wěn)定的、最能體現(xiàn)字符間差異的特征。因此,在確定是易混字符造成的誤識(shí)之后,首先需要確定易混字符的區(qū)分區(qū)域,在區(qū)分區(qū)域的基礎(chǔ)上進(jìn)行多維特征的提取。通過(guò)對(duì)大量易混字符樣本進(jìn)行觀察和分析,定義了以下字符的多維特征,具體定義如下:

      定義1 鏈碼特征

      鏈碼是通過(guò)給定單位長(zhǎng)度的序列來(lái)描述圖像輪廓信息的一種特征,如圖4所示,本文所用是八方向鏈碼表示。對(duì)一個(gè)連通的像素序列來(lái)說(shuō),其輪廓曲線的鏈碼可以定義為 {a0…ai…an}, 其中ai∈{0,1,2,3,4,5,6,7},n表示圖像矩陣化后的點(diǎn)集數(shù)。如圖5(a)和5圖(b)所示,繪制字符“D”和“O”的外輪廓鏈碼圖,在圖中按照箭頭所指方向開(kāi)始進(jìn)行編碼。對(duì)于手寫(xiě)字符“D”和“O”來(lái)說(shuō),其顯著的區(qū)別在于字符左側(cè)輪廓的變化趨勢(shì),字符“D”的相對(duì)趨勢(shì)變化一直為第三象限的方向,而字符“O”則存在第三到第四象限的方向變化趨勢(shì)。

      圖4 鏈碼方向碼表示

      圖5 鏈碼特征

      定義2 橫縱向交截?cái)?shù)特征

      在矩陣化的圖片上,通過(guò)在每一行插入水平射線和在每一列上插入垂直射線,射線上像素的黑白交替變化次數(shù)即為橫縱向交截?cái)?shù)特征。從圖6可以觀察到,對(duì)不同手寫(xiě)英文字符來(lái)說(shuō),在不同區(qū)域位置的橫縱向交截?cái)?shù)會(huì)有所不同。例如字符“v”和“y”,從兩個(gè)字符的高度起點(diǎn)開(kāi)始,從上往下到字符高度終點(diǎn),每行進(jìn)行水平射線穿插,字符“v”水平射線穿插出來(lái)的橫向交截?cái)?shù)是2的行數(shù)占整個(gè)圖形總行數(shù)的比例一定大于字符“y”的比例。

      圖6 橫縱向交截特征

      定義3 點(diǎn)特征

      對(duì)于字符圖像來(lái)說(shuō),是否存在交叉點(diǎn)是字符結(jié)構(gòu)中最基本、最易見(jiàn)的特征。由于英文字符是由筆畫(huà)連接或交叉而構(gòu)成的,因此可以根據(jù)字符的連通性確定其點(diǎn)特征。通常點(diǎn)特征的計(jì)算需要依賴(lài)細(xì)化算法得到。

      用式(4)逐個(gè)計(jì)算細(xì)化圖中各目標(biāo)像素對(duì)應(yīng)的t值

      (4)

      其中,Xi為當(dāng)前像素P周?chē)?鄰域中的像素值,且P=X8,t為二值圖中相鄰兩元素值差的絕對(duì)值之和。當(dāng)t的值分別為2、6、8時(shí),則表明像素點(diǎn)P分別對(duì)應(yīng)于細(xì)化二值圖的端點(diǎn)、三叉點(diǎn)、四叉點(diǎn)。結(jié)合字符本身來(lái)說(shuō),端點(diǎn)就是指筆畫(huà)(或筆段)的起點(diǎn),三叉點(diǎn)是指從該點(diǎn)發(fā)出3條筆畫(huà)的點(diǎn),四叉點(diǎn)是指從該點(diǎn)發(fā)出4條筆畫(huà)的點(diǎn)。手寫(xiě)字符“a”只有端點(diǎn)和三叉點(diǎn)存在,而字符“Q”中則存在四叉點(diǎn)。

      定義4 幾何特征

      本文選取字符圖像的寬高比,連通域個(gè)數(shù)作為易混字符的幾何特征。寬高比即從字符最小外包矩形圖像中計(jì)算得到的字符的寬度和高度的比值。連通域個(gè)數(shù)為圖像中具有連通性的區(qū)域個(gè)數(shù)。圖像中如果兩個(gè)像素點(diǎn)鄰接,則這兩點(diǎn)彼此連通。所有彼此連通的點(diǎn)形成的一個(gè)區(qū)域,該區(qū)域?yàn)榫哂羞B通性的區(qū)域。

      2.4 推薦候選項(xiàng)

      在實(shí)際生活中,英文字符的出現(xiàn)形式是以單詞為基本構(gòu)成形式而應(yīng)用,某些易混字符單從個(gè)體形態(tài)來(lái)看具有的差異性較小,但根據(jù)其在構(gòu)成的單詞之間則會(huì)有不同的組成。因此為了進(jìn)一步提高識(shí)別結(jié)果的可信度,提出了一種結(jié)合字符合并形成候選項(xiàng)單詞的識(shí)別算法。具體流程如圖7所示。

      圖7 推薦候選項(xiàng)算法流程

      為了研究單詞的使用情況及提取單詞中字符間的連接規(guī)律,本文主要針對(duì)高中階段學(xué)生的學(xué)習(xí)類(lèi)型建立了英文語(yǔ)料庫(kù)。語(yǔ)料庫(kù)中包含1000余篇高中英語(yǔ)范文、中國(guó)英語(yǔ)學(xué)習(xí)者語(yǔ)料庫(kù)(CLEC)和英國(guó)國(guó)家語(yǔ)料庫(kù),其中去除了語(yǔ)料庫(kù)中所有的標(biāo)點(diǎn)符號(hào)。

      確定易混字符后,它的前三位識(shí)別概率對(duì)應(yīng)的字符表示為 {ri,1,ri,2,ri,3}, 將與該易混字符相連形成單詞的其它字符的識(shí)別結(jié)果表示為 {R1…Ri…Rn}, 結(jié)合單詞間字符的組成順序建立候選項(xiàng)單詞 {Word1…Wordi…Wordn},Wordi={R1,R2…r…Rn}, 其中r∈{ri,1,ri,2,ri,3}。

      因?yàn)橐谆熳址`識(shí)的原因,往往會(huì)造成單詞的拼寫(xiě)錯(cuò)誤。為了找到離錯(cuò)誤單詞相似程度最高的正確單詞,即字符正確識(shí)別結(jié)果??梢岳脝卧~的編輯距離來(lái)衡量候選項(xiàng)單詞與語(yǔ)料庫(kù)中單詞的相似程度,根據(jù)式(5)計(jì)算單詞間的編輯距離

      dist(word,Tword)=sub(word,Tword)

      (5)

      其中,語(yǔ)料庫(kù)表示為V,語(yǔ)料庫(kù)中單詞為T(mén)word,Tword∈V,word∈{Word1…Wordi…Wordn},dist(word,Tword) 代表候選項(xiàng)單詞與單詞語(yǔ)料庫(kù)中單詞的編輯距離,sub(word,Tword) 代表候選項(xiàng)單詞與單詞語(yǔ)料庫(kù)中單詞比較,進(jìn)行替換操作所需代價(jià)。

      計(jì)算編輯距離的偽代碼如下:

      輸入:word[0…m],Tword[0…n]; 0…m和0…n代表組成單詞的字符

      輸出:編輯距離dist

      Begin

      //dist[i,j] 表示word[0…i] 和Tword[0…j] 這兩個(gè)字串的編輯距離

      Intdist[0…m,0…n]

      Fori←0 TomDo:

      dist[i,0]=i

      Forj←0 TonDo

      dist[0,j]=j

      Fori←1 TomDo

      Forj←1 TonDo

      Intcost=(word[i]= =Tword[j]?0∶1)

      dist[i,j]=min(dist[i-1,j-1]+cost)

      Returndist[m,n]

      通過(guò)已有研究發(fā)現(xiàn),假設(shè)各個(gè)單詞的使用頻率相等,當(dāng)兩個(gè)或兩個(gè)以上的字符被替換時(shí)單詞的成詞率很低。因此基于貝葉斯理論從概率的角度確定單詞的正確輸出,將需要計(jì)算概率的單詞集合限制在與候選單詞編輯距離為1的范圍內(nèi)。

      假設(shè)與候選項(xiàng)單詞word編輯距離為1范圍內(nèi)單詞Tword構(gòu)成的集合為S={S1…Si…Sn}, 求Si∈S使得P(Si|word) 最大,根據(jù)貝葉斯公式可得到式(6)

      (6)

      對(duì)于所有的Si∈S, 出現(xiàn)候選項(xiàng)單詞的概率都是一樣的,即P(word)都相等,因此近一步推導(dǎo)得式(7)

      (7)

      其中,P(Si) 表示語(yǔ)料庫(kù)中單詞Si出現(xiàn)概率,P(word|Si) 表示因?yàn)橐谆熳址`識(shí)成word的概率。將二者乘積最大的語(yǔ)料庫(kù)中單詞Si挑選出來(lái)作為推薦候選項(xiàng)單詞,將其中易混字符對(duì)應(yīng)的字符作為識(shí)別結(jié)果。

      2.5 結(jié)合多維特征和推薦候選項(xiàng)

      對(duì)于待識(shí)別單詞中出現(xiàn)的易混字符,利用上文定義的多維特征去除圖像中的冗余屬性,得到了不同類(lèi)別的易混字符的識(shí)別規(guī)則,分類(lèi)器根據(jù)其類(lèi)別信息,查找對(duì)應(yīng)的算法,通過(guò)計(jì)算從而得到識(shí)別結(jié)果。再結(jié)合推薦候選項(xiàng),進(jìn)一步加強(qiáng)了易混字符的識(shí)別可信度。整體識(shí)別算法如下:

      步驟1 輸入:易混字符圖像image

      步驟2 利用CNN識(shí)別算法,得到字符識(shí)別概率 {pi,1,pi,2,pi,3} 以及前三位識(shí)別字符 {ri,1,ri,2,ri,3};

      步驟3 根據(jù)識(shí)別概率和前三位識(shí)別字符通過(guò)2.2節(jié)的算法確定是否為易混字符和其所屬的易混字符類(lèi)別;

      步驟4 確定不同類(lèi)別易混字符的區(qū)分區(qū)域 {xi,yi→xj,yj}, 進(jìn)行記錄;

      步驟5 根據(jù)造成易混字符的影響因素的不同,分別選擇字符的多維特征組;定義SFc表示特征組,F(xiàn)Nc=(xi,yi→xj,yj) 表示為字符某段筆畫(huà)的鏈碼序列,LNc為橫向交截?cái)?shù),VNc為縱向交截?cái)?shù),Bc=(BCc,BPc) 代表交叉點(diǎn)的數(shù)目和位置,寬高比WH,連通域個(gè)數(shù)CON;

      步驟6 計(jì)算image的多維特征,對(duì)標(biāo)記的區(qū)域結(jié)合字符形態(tài)特征,進(jìn)行識(shí)別;若屬于字符筆畫(huà)結(jié)構(gòu)相似造成的易混字符,SFc=(LNc,VNc,FNc,WH); 若屬于筆畫(huà)位置不同,SFc=(Bc,FNc,CON); 若屬于筆畫(huà)長(zhǎng)度不同,SFc=(WH,LNc,VNc); 若屬于筆畫(huà)交叉位置不同,SFc=(Bc); 根據(jù)SFc獲得識(shí)別結(jié)果Result1;否則拒識(shí);

      步驟7 對(duì)于字符結(jié)構(gòu)相似字符,則還需要結(jié)合候選項(xiàng)單詞進(jìn)行識(shí)別。根據(jù)2.4節(jié)算法動(dòng)態(tài)計(jì)算出與單詞語(yǔ)料庫(kù)中單詞的編輯距離dist;若dist=0,則該候選項(xiàng)單詞為推薦候選項(xiàng)單詞,該推薦候選項(xiàng)單詞中對(duì)應(yīng)的易混字符結(jié)果為識(shí)別結(jié)果Result2;若dist>0,根據(jù)貝葉斯理論計(jì)算概率乘積最大的推薦候選項(xiàng)單詞中的字符作為識(shí)別結(jié)果Result2;

      步驟8 獲得易混字符最終識(shí)別結(jié)果Result;若通過(guò)多維特征和推薦候選項(xiàng)算法計(jì)算得到的結(jié)果Result1=Result2, 則Result=Result1=Result2; 若 (Result1!=Result2&&dist=0),Result=Result2; 若 (Result1!=Result2&&dist=1), 并且屬于由筆畫(huà)相似造成的不同,Result=Result2; 否則Result=Result1;

      步驟9 輸出易混字符識(shí)別結(jié)果Result;

      3 實(shí)驗(yàn)與分析

      通過(guò)對(duì)易混字符識(shí)別處理前后的性能進(jìn)行實(shí)驗(yàn)統(tǒng)計(jì),并將字符的識(shí)別準(zhǔn)確率作為性能評(píng)價(jià)指標(biāo),定義如下

      (8)

      其中,P為字符的識(shí)別準(zhǔn)確率,CN為字符識(shí)別正確的總數(shù),F(xiàn)N字符識(shí)別錯(cuò)誤的總數(shù)。

      在1.3節(jié)收集的實(shí)驗(yàn)數(shù)據(jù)的基礎(chǔ)上,對(duì)單字符識(shí)別加上了本文算法再識(shí)別后,由圖8和圖9可以觀察到,手寫(xiě)英文字符的平均識(shí)別準(zhǔn)確率從96.52%提升到了98.67%,其中易混字符的識(shí)別準(zhǔn)確率均有了明顯提升。

      圖8 利用本文算法后字符“A-K/k”的識(shí)別準(zhǔn)確率

      圖9 利用本文算法后字符“L/l-Z/z”的識(shí)別準(zhǔn)確率

      為了驗(yàn)證易混字符結(jié)合多維特征和候選項(xiàng)的識(shí)別準(zhǔn)確率,收集了來(lái)自多名作者書(shū)寫(xiě)的手寫(xiě)英文單詞,這些單詞選擇了在不考慮圖像質(zhì)量,單詞中每個(gè)字符均能裁切為完整且獨(dú)立字符的影響下,其中每個(gè)單詞包含至少一個(gè)因?yàn)橐谆熳址斐傻恼`識(shí),合計(jì)600個(gè)單詞。在已確定易混字符所屬類(lèi)別和其所屬單詞的情況下,進(jìn)行實(shí)驗(yàn)結(jié)果如圖10 所示:其中利用多維特征進(jìn)行易混字符識(shí)別的平均準(zhǔn)確率為70.85%,加上推薦候選項(xiàng)后平均準(zhǔn)確率為78.03%。

      圖10 利用本文算法的易混字符識(shí)別準(zhǔn)確率

      4 結(jié)束語(yǔ)

      針對(duì)手寫(xiě)英文字符識(shí)別中易混字符造成的識(shí)別錯(cuò)誤,在神經(jīng)網(wǎng)絡(luò)初步識(shí)別的基礎(chǔ)上,提出了一種結(jié)合多維特征和候選項(xiàng)的識(shí)別算法。通過(guò)對(duì)大量易混字符進(jìn)行識(shí)別實(shí)驗(yàn)表明,該方法能夠較好地識(shí)別易混字符,并提高了手寫(xiě)英文字符的整體識(shí)別準(zhǔn)確率,從而驗(yàn)證了該方法的可行性及正確性。根據(jù)易混字符在整體相似,局部差異的特點(diǎn),對(duì)它們之間的細(xì)微差異信息進(jìn)行精準(zhǔn)識(shí)別,解決了采用特征輸入神經(jīng)網(wǎng)絡(luò)時(shí),由于選擇特征的局限性造成的誤識(shí)。同時(shí)為應(yīng)用到其它語(yǔ)言的易混手寫(xiě)字符識(shí)別提供了思路。

      猜你喜歡
      字符識(shí)別手寫(xiě)字符
      手寫(xiě)比敲鍵盤(pán)更有助于學(xué)習(xí)和記憶
      尋找更強(qiáng)的字符映射管理器
      我手寫(xiě)我心
      抓住身邊事吾手寫(xiě)吾心
      字符代表幾
      一種USB接口字符液晶控制器設(shè)計(jì)
      電子制作(2019年19期)2019-11-23 08:41:50
      消失的殖民村莊和神秘字符
      基于集成學(xué)習(xí)的MINIST手寫(xiě)數(shù)字識(shí)別
      電子制作(2018年18期)2018-11-14 01:48:08
      一種改進(jìn)深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)的英文字符識(shí)別
      儀表字符識(shí)別中的圖像處理算法研究
      万州区| 西充县| 漠河县| 荃湾区| 阳西县| 石屏县| 泰顺县| 鄢陵县| 闽侯县| 锦州市| 山丹县| 阜康市| 盘山县| 治县。| 青神县| 印江| 罗江县| 中阳县| 汾西县| 云龙县| 安仁县| 黄龙县| 贡嘎县| 武清区| 张家界市| 永和县| 苍山县| 呼玛县| 天门市| 青冈县| 达拉特旗| 兴安盟| 临泉县| 安达市| 恩施市| 察隅县| 黑龙江省| 九江县| 衡阳市| 泽州县| 福海县|