高新怡 張坤坤 楊靜怡 陳冠宇 蔡華蕊
【摘 要】文章主要研究了外界獲取的文字圖像整個(gè)處理過(guò)程所使用到的方法和算法,并對(duì)完成文字識(shí)別操作的各種方法進(jìn)行了比較。通過(guò)雙三次插值法完成圖像的采集、平均值二值化完成圖像的預(yù)處理、卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)處理并識(shí)別文字。并且闡述了各個(gè)環(huán)節(jié)用LABVIEW實(shí)現(xiàn)步驟。圖像識(shí)別是幾年來(lái)的一個(gè)熱門技術(shù),對(duì)于試聽能力下降的老人,如果能利用這類技術(shù)極好的便利生活,即實(shí)現(xiàn)了高科技助老。
【關(guān)鍵詞】LABVIEW;圖像采集;文字識(shí)別;神經(jīng)網(wǎng)絡(luò)
1 圖像獲取
1.1圖像采集
圖像采集 是指通過(guò)攝像頭將光學(xué)信號(hào)轉(zhuǎn)化為電信號(hào),傳送至圖像采集卡進(jìn)行數(shù)字化,形成可使計(jì)算機(jī)識(shí)別、處理的數(shù)字圖像數(shù)據(jù),將其保存下來(lái)的過(guò)程。通常情況,圖像的采樣有3種方法:最鄰近插值法、雙線性插值法、雙三次插值法。
采集后的圖像有兩個(gè)衡量指標(biāo):灰度等級(jí)以及采集分辨率。對(duì)衡量指標(biāo)的優(yōu)化,稱為對(duì)圖像的預(yù)處理。
1.2圖像預(yù)處理
1.2.1 二值化
圖像二值化 是指將采集到的灰度圖像的灰度值置為0或者255,使整個(gè)圖像呈現(xiàn)為黑白圖像,這樣有利于簡(jiǎn)化圖像,在對(duì)圖像做進(jìn)一步處理時(shí),圖像的集合性質(zhì)僅與0像素值或255像素值的點(diǎn)的有關(guān),不會(huì)涉及到像素的多級(jí)值,使得數(shù)據(jù)的處理更加簡(jiǎn)單、壓縮量更小。
簡(jiǎn)單方法 是指在對(duì)彩色圖像灰度化以后,掃描圖像的每一個(gè)像素值,小于127的像素值設(shè)為0(黑色),大于或者等于127的像素值設(shè)為255(白色)。該方法的優(yōu)點(diǎn)在于處理量小、反應(yīng)速度快,缺點(diǎn)在于閾值127的選擇沒(méi)有依據(jù),僅為像素值0-255的中值,沒(méi)有考慮到像素值的分布情況,處理后圖像的效果欠佳。
平均值二值化方法 是指先計(jì)算出像素點(diǎn)的平均值K,再對(duì)灰度化后的圖像的每一個(gè)像素點(diǎn)進(jìn)行掃描,小于或者等于K像素值的像素點(diǎn)設(shè)為0(黑色),大于K像素值的像素點(diǎn)設(shè)為255(白色)。該方法相比于簡(jiǎn)單方法,在閾值選取上更加的有邏輯,選擇像素值的平均值。但仍然可能導(dǎo)致部分對(duì)象像素或者背景像素丟失,導(dǎo)致二值化后的結(jié)果不能反映源圖像的真實(shí)信息。
直方圖方法 該方法的閾值選擇為尋找兩個(gè)最高的峰值,閾值取值在兩個(gè)峰之間的峰谷最低處。該方法的精準(zhǔn)度更高,結(jié)果更為人們所接受。
1.2.2 反色
反色 是指將得到的彩色圖像的R、G、B值取反,這里所涉及的反轉(zhuǎn)操作即為用255減去原來(lái)圖像的R、G、B值得到新圖的R、G、B值。對(duì)圖片反色處理后可以增加圖像的對(duì)比度,凸顯出圖片的一些細(xì)節(jié)信息。
1.3濾波處理
均值濾波 通俗來(lái)說(shuō),是一種“低通濾波器”,去除高頻信號(hào),即消除尖銳噪聲,使圖像平滑,但無(wú)法去除椒鹽噪聲。
中值濾波 是取某個(gè)像素點(diǎn)的周圍像素點(diǎn)的中值作為該點(diǎn)的像素值,相比于均值濾波,可以較好的去除椒鹽噪聲。
最大值/最小值濾波 是取某像素點(diǎn)的周圍像素點(diǎn)的最大值/最小值作為該點(diǎn)的像素值,此方法能夠很好的處理椒鹽噪聲。
高斯濾波 取某像素點(diǎn)與周圍像素點(diǎn)的距離作為權(quán)重卷積計(jì)算中心位置的像素。高斯濾波是一種低通濾波,對(duì)圖像的“平滑化”效果顯著。
1.4 用LABVIEW預(yù)處理信號(hào)
LABVIEW 中的運(yùn)動(dòng)視覺(jué)模塊具有相對(duì)完整的圖像處理功能,調(diào)用其中的IMAQ USB函數(shù)可自動(dòng)識(shí)別USB攝像頭并讀取數(shù)據(jù),圖像采集完成之后,調(diào)用IMAQ Extract進(jìn)行光標(biāo)設(shè)置所需查找的像素。待找到最合適的像素值之后,程序中先運(yùn)行一個(gè)條件結(jié)構(gòu),其次運(yùn)行一個(gè)順序結(jié)構(gòu),再設(shè)置其image控件,調(diào)整palette參數(shù)可實(shí)現(xiàn)對(duì)所獲圖像的二值化,再調(diào)用matlab中的白化函數(shù),完成對(duì)所獲圖像的白化處理。
2 圖像識(shí)別
2.1 算法選取
2.1.1 最佳統(tǒng)計(jì)分類器
最佳統(tǒng)計(jì)分類器算法 通過(guò)模式分類器計(jì)算出模式相對(duì)于類的平均損失,再通過(guò)貝葉斯分類器將平均損失降至最低。在此,標(biāo)準(zhǔn)字庫(kù)中的每個(gè)字符對(duì)應(yīng)于算法中的一個(gè)類,每個(gè)文字圖像對(duì)應(yīng)于算法中的一個(gè)模式。此算法的運(yùn)算量相對(duì)較小,但結(jié)果不夠精確。
2.1.2 串匹配
串匹配算法 是將獲取的文字圖像的邊緣信息編碼成串,且與標(biāo)準(zhǔn)字庫(kù)文字邊緣信息進(jìn)行比對(duì),計(jì)算出其與標(biāo)準(zhǔn)字庫(kù)文字邊緣信息的匹配度。此算法在精確的接近于無(wú)限大時(shí),可將所獲文字與標(biāo)準(zhǔn)字庫(kù)精準(zhǔn)匹配。但該算法的匹配是逐個(gè)字符進(jìn)行匹配的,計(jì)算量大,相應(yīng)速度較慢。
2.1.3 神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò) 是將圖片文字作為輸入,標(biāo)準(zhǔn)字庫(kù)文字作為輸出,利用反向傳播算法、梯度下降法對(duì)網(wǎng)絡(luò)各參量進(jìn)行優(yōu)化,使得誤差函數(shù)最小。神經(jīng)網(wǎng)絡(luò)可通過(guò)卷積神經(jīng)網(wǎng)絡(luò)算法,對(duì)輸入進(jìn)行強(qiáng)制稀疏化,減小計(jì)算量,準(zhǔn)確度提高。
相比三種算法,神經(jīng)網(wǎng)絡(luò)的計(jì)算量小,準(zhǔn)確度更高。
2.2 神經(jīng)網(wǎng)絡(luò)
2.2.1 卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)由輸入層、卷積層、池化層、全連接層以及輸出層組成。輸入層可對(duì)圖像進(jìn)行前文所提到的預(yù)處理操作。卷積層通過(guò)一個(gè)用戶自定義的核與圖像的特征描述矩陣作遍歷完某個(gè)方向的卷積運(yùn)算,將所得到的局部信息存儲(chǔ)到一個(gè)新的矩陣中,其中通過(guò)不同的核得到的特征矩陣可進(jìn)行信息共享[1].設(shè)第層卷積層的輸入具有個(gè)通道,且該層具有個(gè)核表示激活函數(shù),該層的結(jié)果可表示如下:
池化層的作用是對(duì)卷積層所提取到的特征進(jìn)行降維,使激活值的變換更加陡峭以實(shí)現(xiàn)更好的學(xué)習(xí)。在通過(guò)卷積層得到的矩陣中選擇的窗口以的步幅滑動(dòng),并選擇每個(gè)窗口中的最大值記錄到一個(gè)新的矩陣中,該最大池化值對(duì)應(yīng)于核所需求的最佳匹配模板。
最后通過(guò)全連接層作用,與傳統(tǒng)MLNN網(wǎng)絡(luò)類似,對(duì)所提取整理得到的信息特征進(jìn)行非線性組合,在輸出層得到對(duì)圖片中文字識(shí)別的結(jié)果。
整個(gè)網(wǎng)絡(luò)的訓(xùn)練將文字圖片作為輸入,其對(duì)應(yīng)于文字庫(kù)的標(biāo)準(zhǔn)輸出作為標(biāo)簽,采用反向傳播算法進(jìn)行各層中參數(shù)的計(jì)算。其中全連接層的BP計(jì)算與傳統(tǒng)前饋神經(jīng)網(wǎng)絡(luò)相同,卷積層采用與前饋傳播類似的交叉相關(guān)方法進(jìn)行計(jì)算,池化層則在將訓(xùn)練中的誤差極大值分配到合適的位置,而在反向傳播中不會(huì)進(jìn)行參數(shù)的更新。利用傳統(tǒng)的SGD方法將各誤差函數(shù)的最小化,可得到各層中參數(shù)的最優(yōu)值。
2.2.2 遞歸神經(jīng)網(wǎng)絡(luò)
為增強(qiáng)神經(jīng)網(wǎng)絡(luò)所處理結(jié)果的可讀性,此處增加一個(gè)RNN網(wǎng)絡(luò)進(jìn)行自然語(yǔ)言的進(jìn)一步處理。RNN反向傳播算法[4]和常規(guī)神經(jīng)網(wǎng)絡(luò)類似,通過(guò)梯度下降法基于時(shí)間進(jìn)行反向傳播,得到合適的模型參數(shù)。
2.3 基于LABVIEW的神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)
神經(jīng)網(wǎng)絡(luò)在LABVIEW中是通過(guò)反饋的形式實(shí)現(xiàn)的,利用移位寄存器將前一次循環(huán)的輸出傳遞給下一個(gè)循環(huán)的輸入。在使用的先進(jìn)控制算法中,內(nèi)模控制在系統(tǒng)的控制領(lǐng)域具有極強(qiáng)的優(yōu)越性。
3 結(jié)論
本文介紹了基于圖像識(shí)別技術(shù)完成文字識(shí)別的方法,闡述了所獲取的文字圖像的預(yù)處理方法,介紹了用于圖像文字識(shí)別過(guò)程中所涉及到的算法。其中插值能增強(qiáng)圖像的某些特征來(lái)對(duì)所獲圖像進(jìn)行預(yù)處理,濾波去除不必要的噪聲,訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)可對(duì)處理好的圖像進(jìn)行貼標(biāo)簽或分類。
目前,文字識(shí)別到技術(shù)已經(jīng)相對(duì)成熟,各種圖像計(jì)算的科學(xué)算法如濾波、白化、卷積神經(jīng)網(wǎng)絡(luò)等已被不僅限于圖像識(shí)別的各領(lǐng)域廣泛應(yīng)用,而濾波可用于各種圖片的平滑處理,插值能增強(qiáng)各種信號(hào),使信號(hào)的特征更清晰,這些算法在識(shí)別領(lǐng)域中可達(dá)到較好的效果。
參考文獻(xiàn):
[1]熊秀,石秀華,許暉,杜向黨.用LABVIEW實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)控制.1000-8829.2005.
[2]張乃堯,閻平凡.神經(jīng)網(wǎng)絡(luò)與模糊控制[M].北京:清華大學(xué)出版社,1998.
天津市大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃項(xiàng)目202110069073