王錦 趙德群 鄧錢(qián)華 宋瑞祥
摘? 要:人工神經(jīng)網(wǎng)絡(luò)是模仿動(dòng)物神經(jīng)網(wǎng)絡(luò)行為并執(zhí)行分布式并行信息處理的數(shù)學(xué)模型。網(wǎng)絡(luò)依賴于系統(tǒng)的復(fù)雜性,調(diào)整大量節(jié)點(diǎn)之間的連接,達(dá)到處理信息的目的。因BP神經(jīng)網(wǎng)絡(luò)具有自適應(yīng)性、自組織性和實(shí)時(shí)性等特點(diǎn)。目前,它廣泛應(yīng)用于模式識(shí)別、預(yù)測(cè)估計(jì)、信號(hào)處理等領(lǐng)域;因BP網(wǎng)絡(luò)是基于梯度下降法實(shí)現(xiàn)算法學(xué)習(xí)的,所以不可避免地存在算法收斂效率較低的情況,非常容易??吭诰植孔钚↑c(diǎn)上導(dǎo)致在預(yù)測(cè)問(wèn)題上效果一般。如何優(yōu)化改進(jìn)BP網(wǎng)絡(luò)一直是一個(gè)備受關(guān)注的焦點(diǎn)。本文從兩方面著手改進(jìn)BP神經(jīng)網(wǎng)絡(luò),并以在出版物中的圖像識(shí)別為應(yīng)用進(jìn)行研究,以求提高網(wǎng)絡(luò)收斂性和預(yù)測(cè)精度。
關(guān)鍵詞:神經(jīng)網(wǎng)絡(luò);自適應(yīng);圖像識(shí)別
中圖分類號(hào):TH165.3;TP183? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2019)07-0011-03
Abstract:Artificial neural network (ANN) is a mathematical model that imitates the behavior of ANN and performs distributed parallel information processing. The network relies on the complexity of the system,adjusting the connection between a large number of nodes to achieve the purpose of processing information. Because BP neural network has the characteristics of self-adaptability,self-organization and real-time. At present,it is widely used in pattern recognition,prediction and estimation,signal processing and other fields. Because BP network is based on gradient descent method to realize algorithm learning,inevitably,the convergence efficiency of the algorithm is low,and it is very easy to stop at the local minimum point,which leads to the general effect on prediction problem. How to optimize and improve BP network has always been a focus of attention. In this paper,BP neural network is improved from two aspects,and the application of image recognition in publications is studied in order to improve the convergence and prediction accuracy of the network.
Keywords:neural network;adaptive;image recognition
0? 引? 言
BP神經(jīng)網(wǎng)絡(luò)具有自適應(yīng)性等特點(diǎn),廣泛應(yīng)用于模式識(shí)別領(lǐng)域。但是由于自身的一些局限性,諸如易陷于局部極小、網(wǎng)絡(luò)收斂速度慢、訓(xùn)練時(shí)間長(zhǎng)等。如何優(yōu)化改進(jìn)BP網(wǎng)絡(luò)一直是一個(gè)備受關(guān)注的焦點(diǎn)。本文提出一種改進(jìn)BP神經(jīng)網(wǎng)絡(luò)的研究方案,通過(guò)引入自適應(yīng)動(dòng)量因子來(lái)進(jìn)行網(wǎng)絡(luò)優(yōu)化。
1? BP神經(jīng)網(wǎng)絡(luò)算法優(yōu)化——以圖像識(shí)別應(yīng)用為例
1.1? 傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)算法
1.1.1? 圖像灰度化
圖像灰度化有多種算法,加權(quán)平均數(shù)算法是其中主要的幾種算法之一,主要機(jī)理是給一個(gè)彩色圖像的各個(gè)RGB分量進(jìn)行加權(quán)的計(jì)算,然后轉(zhuǎn)換成灰度數(shù)值并進(jìn)行平均。式(1)所示,是該方法的常見(jiàn)加權(quán)均值公式:
本文采用的灰度化處理方法,只是一個(gè)圖像存儲(chǔ)格式的轉(zhuǎn)換,對(duì)整理的算法識(shí)別沒(méi)有太大的優(yōu)化作用,但是這種加權(quán)平均的灰度化計(jì)算方法,已經(jīng)能滿足本文平面圖像圖文分割的圖像處理要求了。
1.1.2? 二值化處理
所謂二值化處理,即將灰度化的圖像轉(zhuǎn)成只有黑色和白色的圖像,這個(gè)過(guò)程是本文算法處理的必經(jīng)步驟,而且二值化處理的效果會(huì)直接影響到后續(xù)算法的效果。通常,需要選取一個(gè)合適的閾值Threshold(0到255之間)來(lái)將黑色和白色分開(kāi),即大于該閾值的背景像素設(shè)為白色(255),小于該閾值的設(shè)為黑色(0),其具體計(jì)算公式為:
其中T(x,y)是輸入圖像(x,y)的灰度值m(x,y)進(jìn)行處理后的輸出灰度值,由式(2)可以看出,選取合適的Threshold閾值是二值化處理的關(guān)鍵,不同的Threshold閾值二值化后的圖像效果也不一樣。
本文選取了只適用于局部圖像特征的閾值進(jìn)行二值化的算法,這個(gè)算法在對(duì)圖像進(jìn)行局部小塊的分割時(shí),重點(diǎn)將環(huán)境光的背景影響因素作為參數(shù)考慮了進(jìn)去,然后通過(guò)一個(gè)變化的連續(xù)矩形窗口來(lái)進(jìn)行最佳閾值的尋找,并利用此閾值進(jìn)行圖像的二值化,這是一個(gè)不間斷的連續(xù)過(guò)程,由于對(duì)于環(huán)境背景光線的考慮,所以圖像在處理后效果較好。
其中,m(x,y)為掩模區(qū)域的灰度平均值,s(x,y)為掩模區(qū)域的標(biāo)準(zhǔn)方差,k和掩模窗口的大小為經(jīng)驗(yàn)參數(shù),通過(guò)式(2)不同閾值處理的效果試驗(yàn),本文中取掩模窗口大小為8×8,k為0.5,R選取0到255的中間值128,作為s的標(biāo)準(zhǔn)化參數(shù)。
1.1.3? 圖像去噪
圖像去噪的主要機(jī)制是在圖像中選擇一個(gè)目標(biāo)像素,然后對(duì)于此像素以坐標(biāo)為中心給定一個(gè)固定值的窗口,然后采用窗口滑行計(jì)算的方式,將每個(gè)窗口內(nèi)的目標(biāo)像素四周的像素的灰度值進(jìn)行全部的平均,然后用求得的平均值代替中心目標(biāo)像素的灰度值。
1.1.4? 版面校正
采用移動(dòng)智能終端來(lái)采集圖像信息,由于采集圖像信息時(shí)移動(dòng)終端所處的空間位置的不同,這使得采集的圖像或多或少存在形變。本次設(shè)計(jì)中對(duì)于形變問(wèn)題也采取了相應(yīng)的預(yù)處理措施,具體過(guò)程如下:
(1)圖像膨脹化,該種處理方式采用窗口大小為3×3的結(jié)構(gòu)窗口,用這樣大小的窗口去覆蓋二值化圖像中的像素點(diǎn),當(dāng)覆蓋的窗口中的所有像素點(diǎn)的值為0時(shí),則對(duì)應(yīng)的像素點(diǎn)值為0,否則像素值設(shè)置為1;
(2)基準(zhǔn)點(diǎn)獲取,圖像經(jīng)過(guò)膨脹處理之后,再對(duì)圖像的數(shù)據(jù)進(jìn)行處理,查看在垂直向的像素一致區(qū)域長(zhǎng)度是否滿足設(shè)定的閾值,滿足則將該區(qū)域的中心點(diǎn)作為基準(zhǔn)點(diǎn);
(3)左右鄰近點(diǎn)獲取,定位完成基準(zhǔn)點(diǎn)之后,需要對(duì)基準(zhǔn)點(diǎn)的左右側(cè)進(jìn)行處理尋找鄰近點(diǎn),尋找公式為:
式(4)和式(5)中D指代需要得到的鄰近點(diǎn),S指代的是對(duì)應(yīng)的基準(zhǔn)點(diǎn),k為加權(quán)系數(shù),一般取值為10。通過(guò)式(4)和式(5)計(jì)算得到最小正整數(shù)的WL和WR,其對(duì)應(yīng)的D即為需要計(jì)算得到的近鄰點(diǎn),通過(guò)對(duì)所有鄰近點(diǎn)的連接就能夠得到文字行的初始連線。
(4)位置校正,完成鄰近點(diǎn)的連線之后,還要計(jì)算校正斜率,根據(jù)這個(gè)計(jì)算得到的數(shù)值,然后對(duì)于采集到的平面圖像數(shù)據(jù)進(jìn)行一步步的移位和旋轉(zhuǎn)操作,就可以逐漸得到科學(xué)的校正之后的圖像效果,整個(gè)流程如下:1)讀入二值化圖像;2)圖像膨脹化處理;3)尋找基準(zhǔn)點(diǎn);4)對(duì)基準(zhǔn)點(diǎn)尋找其左右方向的鄰近點(diǎn);5)連接基準(zhǔn)點(diǎn)和臨近點(diǎn);6)定位的基本文字行;7)計(jì)算校正斜率;8)復(fù)原文檔圖像。
1.2? 基于自適應(yīng)動(dòng)量因子的算法優(yōu)化
上一節(jié)介紹了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)用于圖像識(shí)別的基本算法,這些算法由于設(shè)計(jì)缺陷,在針對(duì)本文研究的平面圖像識(shí)別適用性上都有一定的限制。所以,如何能夠把兩種不同的算法進(jìn)行有機(jī)的整合,從而有效的結(jié)合當(dāng)前兩種算法各自的優(yōu)點(diǎn),并發(fā)揮相應(yīng)的適應(yīng)性,是當(dāng)前各個(gè)高校以及工業(yè)界進(jìn)行研究的重點(diǎn)。本文即根據(jù)這一思路,設(shè)計(jì)整合了一種綜合算法,流程如下:(1)讀取文檔圖像;(2)圖像預(yù)處理;(3)單字黑體擴(kuò)充;(4)輪廓投影;(5)分割線及連通閾值獲取;(6)同質(zhì)區(qū)域合并;(7)文檔版面分割。
1.2.1? 基于連通域的文字提取
通過(guò)對(duì)出版物中的文字進(jìn)行分析,研究其主要組成的漢字的特征,可以得出以下結(jié)論,大多數(shù)字體的點(diǎn),即像素點(diǎn)在八連通的鄰域內(nèi)需要一行或者一列全是白色的行列點(diǎn),邊緣點(diǎn)除外,另外需要考慮到每一個(gè)漢字都是接近于方塊形狀,需要將這個(gè)鄰域的分析方法在這個(gè)基礎(chǔ)上進(jìn)行一定的擴(kuò)充。
本文對(duì)于出版物中出現(xiàn)的漢字用連通鄰域的方法進(jìn)行相應(yīng)的黑體擴(kuò)充,然后可以在水平或者豎直方向上進(jìn)行投影。
對(duì)于單個(gè)字進(jìn)行黑體擴(kuò)充的具體算法實(shí)現(xiàn)步驟如下:
(1)進(jìn)行文檔圖像的掃描,特別是需要采用八連通域的方法對(duì)于圖像內(nèi)的全部像素點(diǎn)都進(jìn)行掃描和分析;
(2)對(duì)于圖像中的像素點(diǎn)都進(jìn)行以下的判斷,看是否存在空白的列或者空白的行在其八連通域的范圍內(nèi),如果存在,就不進(jìn)行處理;如果不存在,則說(shuō)明這個(gè)像素點(diǎn)周?chē)怯幸恍┖谏袼攸c(diǎn)的,這些點(diǎn)是分布比較均勻的,就需要把其八連通域的周邊的像素點(diǎn)全用黑色進(jìn)行填充。
1.2.2? 輪廓投影
本文在后續(xù)的步驟中將單個(gè)漢字填充后的出版物文檔進(jìn)行整個(gè)的輪廓投影,并對(duì)于投影后的像素進(jìn)行水平一行或者豎直一列的像素點(diǎn)個(gè)數(shù)統(tǒng)計(jì),將這個(gè)總和進(jìn)行對(duì)比之后,可以計(jì)算出整個(gè)出版物文本圖像里的所有的行列投影值。
把原始的二值化的投影輪廓與投影圖進(jìn)行對(duì)比之后,按照上述的方法進(jìn)行投影,可以發(fā)現(xiàn)整個(gè)的直方圖的波谷和波峰都具有明顯的周期性,并且規(guī)律性和區(qū)分度都是非常高的,如圖1所示。
1.2.3? 分割線及連通閾值獲取
在平面圖像提取的數(shù)據(jù)中,對(duì)單個(gè)漢字的黑體進(jìn)行擴(kuò)充之后,相比于未進(jìn)行處理之前的二值化圖像而言,其直方圖和投影信息會(huì)更加的充裕,里面含有多個(gè)不同的信息,也可以提取出一定的規(guī)律。因此,按照以上分析可以對(duì)于文本中的圖像進(jìn)行尋找識(shí)別,定位圖像所在的具體坐標(biāo)位置。
(1)提取出版物的版塊分割線。具體采用的分割線的提取方式如下:
平面圖像中的版面分布比較復(fù)雜,首先需要按照單個(gè)黑體字體進(jìn)行擴(kuò)充之后的圖像,然后采用1.2.2段落的自頂向下的方法即輪廓投影法,最后進(jìn)行后續(xù)的處理,根據(jù)波谷的位置切分出版物文檔中的圖像并劃分區(qū)域。
(2)獲取并分析不同連通閾值。獲取連通閾值的流程如下:
1)出版物中的文本正文這一塊的內(nèi)容由于直方圖投影呈現(xiàn)出的是比較明顯的波狀圖形,而且周期性是非常明顯的。通過(guò)這一系列識(shí)別和分析可以將各個(gè)行或者列之間的連通間距計(jì)算出來(lái)。
文本行或者列的連通間距th1計(jì)算公式為:
2)如果是平面圖像數(shù)據(jù)中的標(biāo)題區(qū)域,這塊內(nèi)容在直方圖中的投影也是呈現(xiàn)出一定的周期性的,不過(guò)標(biāo)題的特點(diǎn)是較大,所以投影結(jié)果中波峰的寬度是非常大的,另外標(biāo)題字體之間的距離通常是比正文字間距要大很多,因此這一部分間距也可以作為區(qū)分是不是標(biāo)題的重要依據(jù),同時(shí)可以根據(jù)波形的連通區(qū)域?qū)τ谡暮蜆?biāo)題進(jìn)行區(qū)分,合并相應(yīng)的域值。
文本標(biāo)題字符之間的連通間距th2計(jì)算公式為:
其中M為該區(qū)域內(nèi)的波谷個(gè)數(shù),di為第i個(gè)波谷的寬度,就是該區(qū)域樣本中第i個(gè)標(biāo)題字符間的連通間距;
3)在按照上述方法對(duì)出版物采集到的圖像數(shù)據(jù)中每一個(gè)像素的單字體進(jìn)行擴(kuò)充后,黑色的像素可以更加密集的出現(xiàn),對(duì)于圖像區(qū)域的識(shí)別也會(huì)更加顯。
2? 結(jié)? 論
本文采用的連通域的分割算法是基于輪廓投影的,實(shí)現(xiàn)比較簡(jiǎn)單,與傳統(tǒng)的基于連通域的分割算法相比,速度有了一定的提升,而且可以解決一些傳統(tǒng)算法中的不準(zhǔn)確等問(wèn)題,大大地提高了算法的準(zhǔn)確率。
參考文獻(xiàn):
[1] 柴毅,尹宏鵬,李大杰,等.基于改進(jìn)遺傳算法的BP神經(jīng)網(wǎng)絡(luò)自適應(yīng)優(yōu)化設(shè)計(jì) [J].重慶大學(xué)學(xué)報(bào)(自然科學(xué)版),2007(4):91-96.
[2] 王燕妮,樊養(yǎng)余.改進(jìn)BP神經(jīng)網(wǎng)絡(luò)的自適應(yīng)預(yù)測(cè)算法 [J].計(jì)算機(jī)工程與應(yīng)用,2010,46(17):23-26.
[3] Meng X,Han X,Xu Q. BP Network Optimized with Genetic Algorithm and Apply on The Fault Diagnose of Complex Equipment [J]. IEEE,2007:1630-1633.
[4] Zheng B H . Material procedure quality forecast based on genetic BP neural network [J]. Modern Physics Letters B,2017,31(19-21):1.
作者簡(jiǎn)介:王錦(1991-),男,漢族,山東濟(jì)寧人,碩士研究生,研究方向:電子科學(xué)與技術(shù);趙德群(1974-),男,漢族,湖南邵陽(yáng)人,碩士生導(dǎo)師,副教授,博士,研究方向:圖像處理與模式識(shí)別、智能多媒體信息處理等;鄧錢(qián)華(1978-),男,漢族,山西大同人,高級(jí)工程師,博士,研究方向:通信技術(shù);宋瑞祥(1992-),男,漢族,山西大同人,碩士研究生,研究方向:信息與通信工程。