• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于神經(jīng)網(wǎng)絡(luò)與比例法的多文字識別

      2016-10-17 09:05:16林毅斌姚劍敏郭太良
      電視技術(shù) 2016年9期
      關(guān)鍵詞:直方圖特征提取投影

      林毅斌,姚劍敏,郭太良

      (福州大學(xué) 物理與信息工程學(xué)院,福建 福州 350002)

      ?

      基于神經(jīng)網(wǎng)絡(luò)與比例法的多文字識別

      林毅斌,姚劍敏,郭太良

      (福州大學(xué) 物理與信息工程學(xué)院,福建 福州 350002)

      用傳統(tǒng)方法進行文字識別時,需要花費時間分別去提取各個文字的區(qū)域。但是在講究速度與效率的實時系統(tǒng)中,文字識別的速度是一個值得深思的問題。提出了一種多文字識別方法,其核心思想是將輸入的文字當(dāng)做一個整體進行處理,而不需要在單字區(qū)域提取上消耗過多時間,再利用ROI以及投影法進一步減少比例法特征提取算法的運算時間。在此基礎(chǔ)上,采用BP神經(jīng)網(wǎng)絡(luò)進行樣本訓(xùn)練與文字識別。實驗結(jié)果表明,該方法能夠有效地實現(xiàn)快速識別,識別四個字的所花費的時間為120 ms。

      多文字識別;比例法;BP神經(jīng)網(wǎng)絡(luò)

      伴隨著計算機技術(shù)的快速發(fā)展,多媒體信息的重要傳遞媒介已經(jīng)逐漸從文字轉(zhuǎn)換為圖像;同時相機從之前的膠卷相機發(fā)展到數(shù)碼相機,并且其制造技術(shù)逐年成熟,大大提高了數(shù)碼相機的性能,高質(zhì)量的相機也出現(xiàn)在市場上,配合這軟件技術(shù)對拍照質(zhì)量的提升,高質(zhì)量的數(shù)字圖像已經(jīng)可以較為輕松地獲取。因此,作為數(shù)字圖像處理中的文字識別技術(shù)也由此受到了研究人員的關(guān)注[1]。位于數(shù)字圖像中的文字(如拍攝到的車牌等)是圖像信息中的重點,具有非常豐富的含義,對于圖像中文字信息的提取,可獲取圖像中包含的語義,可以運用到生活中的多個方面[2]。

      文字識別是模式識別的重要應(yīng)用領(lǐng)域之一,文字識別的方法主要有以下幾種:基于統(tǒng)計特征字符的文字識別方法[3-4]、基于模板匹配的方法[5]、模糊識別和結(jié)構(gòu)字符識別[6]。作為模式識別中的一種,文字識別的成功率在很大程度也是取決于所提取特征的正確性和穩(wěn)定性。因此,能良好反映文字本質(zhì)的特征在表示文字的同時,還應(yīng)該具有易于實現(xiàn)和簡潔性質(zhì)[7]。

      神經(jīng)網(wǎng)絡(luò)作為一門日益成熟的學(xué)科,已經(jīng)在計算機視覺、語言識別、模式識別等領(lǐng)域廣泛應(yīng)用,利用神經(jīng)網(wǎng)絡(luò)來實現(xiàn)文字識別也因此成為研究人員的興趣所在,受到重視[8]。其中BP神經(jīng)網(wǎng)絡(luò)算法具有算法成熟,結(jié)構(gòu)簡單,精確尋優(yōu)等優(yōu)點,故而可將BP神經(jīng)網(wǎng)絡(luò)用于文字識別。

      由于在現(xiàn)實使用中,特別是在實時系統(tǒng)中,文字識別的速度是制約系統(tǒng)的一大因素,例如在脫機式智能顯示器自動化測試時,由于圖像中文字信息保持的時間長短不一,文字識別所消耗時間過長就可能導(dǎo)致文字信息的漏測,造成錯誤。因此本文提出基于神經(jīng)網(wǎng)絡(luò)和比例法的多文字識別方法,將多個文字進行統(tǒng)一處理,減少文字識別的時間,提升速率。

      1 比例法文字特征提取

      傳統(tǒng)的文字識別技術(shù),通常對各個文字區(qū)域采用分別提取的方式,由此為基礎(chǔ)上再利用某種文字識別算法對各個單文字進行識別,得到各個文字的識別結(jié)果,從而得到整體文字識別的結(jié)果。

      本文采取的特征提取方法為比例法提取,其關(guān)鍵是將輸入的文字當(dāng)做一個整體部分進行處理,而不需要經(jīng)過單個文字的提取,從而減少文字提取的處理時間;同時在特征提取上,采用ROI與投影法[9]降維相結(jié)合的方法減少運算量,從而達(dá)到快速特征提取的效果。

      1.1ROI文字區(qū)域粗提取

      感興趣區(qū)域(Region of Interest,ROI)[10-11]在進行圖像處理時,可在原圖像內(nèi)部以矩形、圓等圖形勾勒出所需要處理的區(qū)域。設(shè)置ROI后,對圖像進行處理時大多數(shù)情況下只會ROI區(qū)域進行處理,從而忽略其他區(qū)域,大大減少了圖像的運算量,增加了精度,因此被廣泛應(yīng)用于視覺處理中。在文字圖像中設(shè)置ROI區(qū)域,將文字信息包含于ROI 中,并將ROI區(qū)域作為子圖,在進行閾值處理、文字精提取等處理時可大大減少運算速度,從而為達(dá)到快速文字識別奠定了基礎(chǔ)。

      1.2文字區(qū)域精提取

      在初步提取的文字ROI區(qū)域中,需要進一步對文字區(qū)域進行精確提取。提取的步驟如下所述:

      1) 對該區(qū)域進行二值分割,使用的方法為直方圖與大津法相結(jié)合的二值化算法[12],該方法的具體實施如下:求出ROI區(qū)域的直方圖,直方圖反映的是圖像的灰度分部。再對直方圖進行濾波,從而可以得到平滑的直方圖,在去除掉部分噪聲的同時又保留了直方圖的原始信息。

      (1)在濾波后的直方圖中找出波峰,得到波峰集合

      R0={Rl,Rl≥Rl-t&Rl≥Rl-t&h(l)>(1/L)×θ}

      (1)

      式中:L為灰度的等級;h(l)則是直方圖的原始數(shù)值;θ是一個比例系數(shù),用來保留在直方圖中占一定比例的波峰。

      (2)把直方圖中相近的波峰進行處理,當(dāng)距離小于某一數(shù)值時,將較小的波峰刪除;同時去除波谷不明顯的峰值,將其視為同一峰值合并。

      (3)將篩選過后的峰值進行區(qū)域劃分,若剩余的峰值為r0,r1,r2,…,rn,則區(qū)域劃分為[0,r0],[r0,r1],…,[rn-1,rn]。

      (4)在劃分后的區(qū)域中分別利用大津法求得局部閾值。設(shè)在某一灰度區(qū)域內(nèi)[1,m]中,根據(jù)大津法原理,若所求的閾值為K,前景C0與背景C1出現(xiàn)的概率和均值為

      (2)

      (3)

      式中:Pi為每個灰度出現(xiàn)的概率。

      則C0和C1類間方差為

      (4)

      式中:uL為整圖的總體均值;K*即為最佳閾值。

      2) 在進行圖像分割后,作為前景的文字信息與背景分離。因為文字信息在排列上具有一定的規(guī)律性,最直觀的表現(xiàn)為按某同一方向進行排列,且各個字符之間的空隙幾乎一致,因此文字信息在投影上有這特殊的現(xiàn)象,即等距相隔出會出現(xiàn)規(guī)律性的波谷(峰)。因此在此處可用投影方法對圖像文字的區(qū)域進行提取,可得到文字區(qū)域的最小外接矩形,并提出文字信息。

      1.3文字特征提取

      由于在脫機式智能顯示器自動化測試時所涉及到的文字以4個字為主,本文討論的多文字以4個字為例。本文的文字特征提取關(guān)鍵在于降維和比例法,降維有助于減少計算量,從而能夠更加快速提取文字的特征,在提取文字特征時應(yīng)當(dāng)考慮全局與局部相考慮,如果只考慮全局部分,則提取到的文字特征就缺少對局部特征的描述,如果只考慮局部部分,就會造成提取到的文字特征缺乏全局特征,不具有全局代表性,因此只有將全局特征和局部特征相結(jié)合才能得到具有代表性且相對穩(wěn)定的文字特征。

      在滿足本文應(yīng)用的條件下,本文的文字特征提取過程如下:將4個文字平均分為16個子區(qū)域部分,每個區(qū)域部分作為一個子圖存在,圖1為其示意圖,對每個子圖分別提取2個特征值,其中一個特征值與全局相關(guān),另一個特征與局部相關(guān),故對“無線網(wǎng)絡(luò)”而言,有32個特征值,組成代表文字的特征向量。

      圖1 子區(qū)域示意圖

      1)比例法全局特征提取

      本文采取的比例法全局特征為各個子圖中筆畫占子圖總面積的百分比,若假設(shè)子圖像的行有W個像素,高有H個像素,則比例法全局特征有

      (5)其中:c1為比例法全局特征;s為子圖總面積,即s=W×H;f(i,j)表示二值圖像中像素點的值,有

      (6)

      信息感知層對耗材流轉(zhuǎn)進行跟蹤定位、自動識別并將實時采集到的信息反饋到網(wǎng)絡(luò)支撐層,網(wǎng)絡(luò)支撐層同步記錄數(shù)據(jù)并及時無誤地向平臺上層傳輸[7]。

      2)比例法局部特征提取

      本文的比例法局部特征的提取涉及到圖像的投影[10]。對于任意一幅圖像來說,其構(gòu)成都是由像素構(gòu)成的,若文字圖像中的背景為白色的像素點,將文字部分所占的部分為黑色的像素點。則此時有該圖像中一行像素點中黑色像素點的總和為該行的水平投影,把圖像中每行的水平投影求出并統(tǒng)計即可得到該圖像的水平投影;同理,垂直投影就是圖像中每一列垂直投影的統(tǒng)計整合,而每列的垂直投影為該列中黑色像素的和。投影可以將二維的圖像降維成兩個一維的函數(shù),維度的減少也就意味著計算量的減少。

      該特征的提取方法如下,若已求出子圖中的水平投影與垂直投影,則在水平投影中找到筆畫(黑色點)最多的一行,記該行的筆畫點數(shù)為L;在垂直投影中找到筆畫最多的一列,記該列的筆畫點數(shù)為V,則該局部特征值為

      (7)

      根據(jù)上述方法提取“無線網(wǎng)絡(luò)”的特征向量為:

      (1.264 706,0.686 250,1.041 667,0.784 583,1.075 000,0.757 500,1.041 667,0.670 000,1.025 641,0.670 000,1.041 667,0.695 417,1.242 424,0.752 500,1.041 667,0.664 583,1.041 667,0.825 417,1.041 667,0.758 750,1.351 351,0.736 667,1.041 667,0.677 500,1.136 364,0.731 250,1.041 667,0.711 250,6.250 000,0.738 750,1.041 667,0.630 833)。

      2 BP神經(jīng)網(wǎng)絡(luò)

      人工神經(jīng)網(wǎng)絡(luò)即神經(jīng)網(wǎng)絡(luò),是一種模擬生物神經(jīng)網(wǎng)絡(luò)的算法[13],利用該算法可從外界中學(xué)習(xí)獲取相關(guān)知識,并通過學(xué)習(xí)到的相關(guān)知識處理某些問題,是一門廣泛應(yīng)用的交叉性學(xué)科。

      2.1人工神經(jīng)元

      圖2 人工神經(jīng)元原理

      圖2中,x1~xn是從其他神經(jīng)元傳輸過來的信號;ωij表示表示從神經(jīng)元j到神經(jīng)元i的連接權(quán)值;θ表示一個閾值,或稱為偏置,用來改變神經(jīng)元的活性。則神經(jīng)元i的輸出與輸入的關(guān)系表示為

      (8)

      則輸出yi表示為

      yi=f(neti)

      (9)

      式中:函數(shù)f(·)為激活函數(shù),neti為凈激活,若神經(jīng)元的凈激活neti為正,稱該神經(jīng)元處于激活狀態(tài)或興奮狀態(tài),若凈激活neti為負(fù),則稱神經(jīng)元處于抑制狀態(tài)。

      2.2BP神經(jīng)網(wǎng)絡(luò)及學(xué)習(xí)過程

      BP神經(jīng)網(wǎng)絡(luò)是應(yīng)用最為廣泛的人工神經(jīng)網(wǎng)絡(luò)模型,使用的是常見的負(fù)梯度下降算法,具有很強的非線性映射能力,通常應(yīng)用中所利用的三層BP神經(jīng)網(wǎng)絡(luò)被證明可以實現(xiàn)任意函數(shù)的逼近,具有通用性,所說的三層BP網(wǎng)絡(luò)即含有輸入層、輸出層和一個隱含層。BP網(wǎng)絡(luò)的結(jié)構(gòu)如圖3所示。在算法訓(xùn)練過程中,輸入信息由輸入層正常傳遞,誤差則是反向回饋,從而不斷對權(quán)值和閾值進行調(diào)整,實現(xiàn)對函數(shù)的逼近[14]。

      圖3 BP神經(jīng)網(wǎng)絡(luò)

      激活函數(shù)作為神經(jīng)網(wǎng)絡(luò)的重要環(huán)節(jié),對BP網(wǎng)絡(luò)訓(xùn)練有重要作用, 為了能實現(xiàn)梯度算法,BP網(wǎng)絡(luò)要求神經(jīng)元的激活函數(shù)必須是可導(dǎo)的,并且導(dǎo)函數(shù)必須連續(xù)函數(shù)。激活函數(shù)常采用S型函數(shù)和雙極S型函數(shù)這兩個非線性函數(shù)。其中S型函數(shù)為

      (10)

      雙極S型函數(shù)為

      (11)

      假設(shè)BP網(wǎng)絡(luò)的有P個訓(xùn)練樣本,則有P個輸入輸出對(Ip,Tp),其中p=1,2,…,P,則設(shè)輸入向量為Ip=(ip1,ip2,…,ipm)T,理論網(wǎng)絡(luò)算法輸出為Op=(op1,op2,…,opn)T,算法實際的輸出為Tp=(tp1,tp2,…,tpn)T,通常情況下,理論值與實際輸出值有誤差,BP算法的學(xué)習(xí)過程就是重復(fù)不斷地把Tp與Op進行比較,并根據(jù)極小原則修改權(quán)值ωij,從而使誤差平方和為最小,即

      (12)

      若記Δωij表示一次學(xué)習(xí)過程對權(quán)值的修改量,則有

      ωij+Δωij?ωij

      (13)

      (14)

      其中:δpi=tpi-opi;η為學(xué)習(xí)因子,影響B(tài)P網(wǎng)絡(luò)的學(xué)習(xí)速率,又稱學(xué)習(xí)速率。

      2.3網(wǎng)絡(luò)參數(shù)選擇

      1)激活函數(shù)選擇

      根據(jù)BP網(wǎng)絡(luò)的特性,激活函數(shù)將采用Sigmoid函數(shù),即S形函數(shù),Sigmoid函數(shù)可以實現(xiàn)對神經(jīng)元較好的模擬,同時微分簡單,運算方便。

      2)輸入層神經(jīng)元的個數(shù)

      輸入神經(jīng)元個數(shù)應(yīng)與文字的特征向量的維數(shù)相對應(yīng),故在本文中輸入層神經(jīng)元個數(shù)為32個。

      3)隱含層神經(jīng)元個數(shù)

      隱含層神經(jīng)元個數(shù)的選取[15]需要經(jīng)過反復(fù)的實驗才能得出最合適的值。對與給定的樣本輸入值和理論輸出值,不重復(fù)調(diào)整隱含層神經(jīng)元個數(shù),訓(xùn)練完成后必須查看網(wǎng)絡(luò)識別結(jié)果,如此反復(fù)進行實驗,選取網(wǎng)絡(luò)結(jié)果最理想的值。對于本文來說,經(jīng)過多次反復(fù)驗證,神經(jīng)元個數(shù)取29時BP網(wǎng)絡(luò)有良好的效果。

      4)輸出層神經(jīng)元個數(shù)

      網(wǎng)絡(luò)的輸出層可因樣本的規(guī)模大小選取不同的個數(shù)。當(dāng)樣本規(guī)模較小時,對于本文選取的Sigmoid函數(shù),可將Sigmoid函數(shù)值域[0,1]平均分為若干份,分別對應(yīng)于各個樣本;若樣本規(guī)模較大時,可適當(dāng)增加神經(jīng)元個數(shù)以便使用。在本文中,選取的神經(jīng)元個數(shù)為6。

      3 實驗結(jié)果

      在實驗中,本文采用的硬件平臺為CPU2.2 GHz,內(nèi)存為4 Gbyte,軟件算法使用VC編寫實現(xiàn),操作系統(tǒng)為Windows7。

      本文一共采用250個四字漢字,各20個樣本,總共5 000個樣本作為BP網(wǎng)絡(luò)訓(xùn)練樣本,與其他文字識別算法進行對比,如表1所示。

      表1實驗結(jié)果對比

      方法識別時間(4個字)/ms輪廓提取法183三角統(tǒng)計法168本文方法120

      由表1可得到,本文提出的算法在識別4個字的情況下,識別時間為120ms,比其他算法具有更快的速度,因此此方法可行且有效。

      4 結(jié)語

      本文在針對脫機式智能顯示器自動化測試的應(yīng)用特點,在需識別文字可預(yù)知在一定范圍內(nèi)的情況下,研究了一種基于神經(jīng)網(wǎng)絡(luò)與比例法的多文字識別。該方法采用將輸入文字作為整體進行識別,從而減免了單個文字區(qū)域的提取,在文字特征的提取上也采用了運算速度較快的降維方法等,實現(xiàn)了更快的識別速度。因此本方法適用于其他實時性系統(tǒng),如logo檢測等。

      [1]姚麗君,李浪.靜態(tài)圖像文字提取技術(shù)綜述[J]. 電腦知識與技術(shù),2014 (33):7991-7992.

      [2]HEL,RUANWT,ZHANGM,etal.Surveyonhyperspectralimageryclassificationwithsupportvectormachine[J].Journalofnewindustrialization,2012,2(1):46-51.

      [3]錢娜,侯清濤,李金屏. 基于神經(jīng)網(wǎng)絡(luò)和三角形統(tǒng)計特征的文字識別[J]. 濟南大學(xué)學(xué)報(自然科學(xué)版),2008 (2):128-131.

      [4]梁華剛,程加樂,茹鋒. 基于特征空間法的旋轉(zhuǎn)多字體文字識別[J]. 微電子學(xué)與計算機,2015 (4):82-85.

      [5]陳瑋,曹志廣,李劍平. 改進的模板匹配方法在車牌識別中的應(yīng)用[J].計算機工程與設(shè)計,2013,34(5):1808-1811.

      [6]蘇暢,胡曉冬,王斌輔,等.基于筆畫相關(guān)加權(quán)的視頻圖像文字識別[J].計算機應(yīng)用,2012 (8):2305-2308.

      [7]ERLERM,KENDERJR.Semantickeywordextractionviaadaptivetextbinarizationofunstructuredunsourcedvideo[C]//Proc.the16thIEEEInternationalConferenceonImageProcessing.Piscataway:IEEE,2009:26l-264.

      [8]焦微微,巴力登. 基于改進BP神經(jīng)網(wǎng)絡(luò)的脫機手寫文字識別[J]. 電視技術(shù),2014,38 (13):200-202.

      [9]張娜,陳露軍,王緒本. 基于水平垂直投影的考古文字修復(fù)識別方法[J]. 科技通報,2014 (6):185-187.

      [10]馮競舸. 靜止圖像的ROI區(qū)域自動提取與編碼[D]. 南京:南京郵電大學(xué),2013.

      [11]白瑪玉珍. 藏文文字特征提取方法的研究[J]. 電腦知識與技術(shù),2013 (10):6362-6364.

      [12]吳丹,蔡曉東,謝月飛,等. 基于直方圖分析和OTSU算法的文字圖像二值化[J]. 計算機與現(xiàn)代化,2013 (7):117-119.

      [13]KALAICHELVIV.Applicationofneuralnetworksincharacterrecognition[J].Internationaljournalofcomputerapplications,2012,12 (52):183-192.

      [14]張宇博,舒紅平. 改進的BP神經(jīng)網(wǎng)絡(luò)算法及其應(yīng)用[J]. 網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2015 (3):78-80.

      [15]沈花玉,王兆霞,高成耀,等.BP神經(jīng)網(wǎng)絡(luò)隱含層單元數(shù)的確定[J].天津理工大學(xué)學(xué)報,2008 (5):13-15.

      林毅斌(1991— ),碩士生,主研信息顯示系統(tǒng);

      姚劍敏(1978— ),碩士生導(dǎo)師,副研究員,為本文通信作者,主要研究方向為視頻圖像處理、模式識別;

      郭太良(1963— ),博士生導(dǎo)師,研究員,主要研究方向為場致發(fā)射陰極材料及器件研究。

      責(zé)任編輯:閆雯雯

      Multi-character recognition based on the neural network and projective method

      LIN Yibin, YAO Jianmin,GUO Tailiang

      (CollegeofPhysicsandInformationEngineering,F(xiàn)uzhouUniversity,F(xiàn)uzhou350002,China)

      It is time-consuming to use the traditional method in recognizing characters by collecting characters by every word region. However, it is worth of digging deeper into the problem of recognition speed, regarding to the efficiency in the real-time system. A multi-characters recognition method is presented. It mainly focuses on recognizing characters as a whole batch instead of spending much time in picking up every word region. In addition, it can make further improvement in reducing the computing time of characteristic parameter by using ROI and projective method. On that basis, BP neural network is applied in training samples and recognizing characters. The experimental result shows that it is an efficient method of characters recognition, which takes 120 ms in recognizing four characters.

      multi-character recognition; projective method; BP neural network

      TN911.73;TP391.4

      A

      10.16280/j.videoe.2016.09.023

      國家“863”重大專項(2013AA030601);福建省科技重大專項(2014HZ0003-1);福建省資助省屬高校專項課題(JK2014003)

      2015-09-29

      文獻引用格式:林毅斌,姚劍敏,郭太良. 基于神經(jīng)網(wǎng)絡(luò)與比例法的多文字識別[J].電視技術(shù),2016,40(9):112-116.

      LIN Y B, YAO J M,GUO T L. Multi-character recognition based on the neural network and projective method[J]. Video engineering,2016,40(9):112-116

      猜你喜歡
      直方圖特征提取投影
      統(tǒng)計頻率分布直方圖的備考全攻略
      符合差分隱私的流數(shù)據(jù)統(tǒng)計直方圖發(fā)布
      解變分不等式的一種二次投影算法
      基于最大相關(guān)熵的簇稀疏仿射投影算法
      找投影
      找投影
      用直方圖控制畫面影調(diào)
      基于Daubechies(dbN)的飛行器音頻特征提取
      電子制作(2018年19期)2018-11-14 02:37:08
      Bagging RCSP腦電特征提取算法
      基于直方圖平移和互補嵌入的可逆水印方案
      計算機工程(2015年8期)2015-07-03 12:20:21
      长汀县| 咸阳市| 玉树县| 兰考县| 江安县| 陈巴尔虎旗| 栖霞市| 攀枝花市| 股票| 廊坊市| 芜湖市| 诸城市| 辰溪县| 宾阳县| 大足县| 比如县| 隆德县| 湘西| 东山县| 句容市| 肇源县| 沙河市| 绥江县| 调兵山市| 建宁县| 菏泽市| 白玉县| 固始县| 上饶市| 苏尼特右旗| 宁武县| 册亨县| 乳山市| 密山市| 江安县| 泽州县| 河源市| 沛县| 日喀则市| 沙洋县| 北宁市|