陳太陽
摘要:近年來,計(jì)算機(jī)視覺領(lǐng)域的一個(gè)研究熱點(diǎn)就是基于深度學(xué)習(xí)的文字識別。通過在深度網(wǎng)絡(luò)中融合對字符圖像采用K均值和PCA提取的特征信息,本文提出一種基于卷積神經(jīng)網(wǎng)絡(luò)多特征融合的復(fù)雜背景字符識別方法。該方法對測試集進(jìn)行分組實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明該方法對復(fù)雜背景字符識別有較高的正確率。
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);多特征融合;復(fù)雜背景;字符識別
中圖分類號:TP391? ? ? 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2021)10-0192-02
Abstract: In recent years, the text recognition based on deep learning is one of the hot spots in the field of computer vision. The paper propose a complex background character recognition method based on convolutional neural network and multi-feature fusion by fuzing the character images feature information which extracted by the ways from K-means and PCA in deep network. This method picks brigade laboratory for test dataset, the results proved that this method has a higher recognition accuracy for complex background character.
Key words: Convolutional neural network; Multi-feature fusion; Complex background; Text recognition
1 引言
文字識別作為計(jì)算機(jī)視覺領(lǐng)域的熱門研究課題之一[1],在人們的日常學(xué)習(xí)生活中具有重要的意義。傳統(tǒng)的光學(xué)字符識別通常適用于具有特定格式的掃描文檔[2],傳統(tǒng)的光學(xué)字符難以對復(fù)雜背景字符有很好的識別效果。
隨著深度學(xué)習(xí)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)[3]在計(jì)算機(jī)視覺領(lǐng)域取得了很大的成功,但是目前的工作對復(fù)雜背景字符的識別研究還比較少。本文針對復(fù)雜背景字符識別問題,提出了一種多特征融合卷積網(wǎng)絡(luò)模型(MFF)。該網(wǎng)絡(luò)模型有三個(gè)輸入通道來分別提取復(fù)雜背景字符的原圖、K均值[4]及PCA[5]的特征信息,并將獲取的相應(yīng)特征進(jìn)行融合,然后再將融合得到的特征放入后續(xù)網(wǎng)絡(luò)[6]進(jìn)行訓(xùn)練。本文用該方法來提高識別復(fù)雜背景字符的精度。
2 MFF網(wǎng)絡(luò)模型
MFF網(wǎng)絡(luò)模型的構(gòu)建主要分為數(shù)據(jù)預(yù)處理模塊、特征提取與融合模塊、優(yōu)化模塊。數(shù)據(jù)預(yù)處理模塊是為了提供足夠的復(fù)雜背景字符圖像來訓(xùn)練網(wǎng)絡(luò)。特征提取和融合模塊是MFF網(wǎng)絡(luò)的核心部分,該部分將復(fù)雜背景字符的三個(gè)特征提取整合。優(yōu)化模塊是為了提高復(fù)雜背景字符的識別率。本文MFF網(wǎng)絡(luò)模型的構(gòu)建分為以下六個(gè)步驟,具體流程如圖1所示。
1)輸入訓(xùn)練字符進(jìn)行復(fù)雜背景融合;
2)得到復(fù)雜背景字符圖片后用K均值算法和PCA算法進(jìn)行圖片處理;
3)將相應(yīng)圖片集輸入到網(wǎng)絡(luò)中;
4)將獲取的特征進(jìn)行融合;
5)對得到的融合特征進(jìn)行訓(xùn)練優(yōu)化;
6)Softmax分類得出訓(xùn)練結(jié)果。
2.1 數(shù)據(jù)預(yù)處理模塊
為了提高M(jìn)FF網(wǎng)絡(luò)的識別準(zhǔn)確率,本文采用數(shù)據(jù)增廣[7]的方式來支撐網(wǎng)絡(luò)的訓(xùn)練。先對訓(xùn)練字符用不同復(fù)雜場景的圖片進(jìn)行背景融合,再對得到的圖片用K均值算法進(jìn)行處理,最后再用PCA算法對K均值算法得到的圖片進(jìn)行處理得到三類圖片,確保網(wǎng)絡(luò)有足夠的數(shù)據(jù)進(jìn)行訓(xùn)練。
2.2特征提取與融合模塊
通過數(shù)據(jù)預(yù)處理模塊處理后得到三類復(fù)雜背景字符圖像,本文就要對其進(jìn)行特征提取。通過K均值算法處理后,我們把復(fù)雜背景圖像進(jìn)行聚類,這樣就能把復(fù)雜背景的干擾降低,凸顯原本字符的特征。再對K均值算法得到的圖片進(jìn)行PCA處理,通過降維得到更便于理解的特征。將三類圖片一起輸入到網(wǎng)絡(luò)中進(jìn)行卷積池化提取特征,再將這三種特征進(jìn)行融合。因?yàn)榻?jīng)過K均值算法和PCA算法處理后的特征是正向有利于識別的特征,所以融合后的特征比單獨(dú)放入原圖的特征更有利于網(wǎng)絡(luò)的訓(xùn)練。得到融合后的特征,再進(jìn)一步用卷積網(wǎng)絡(luò)進(jìn)行特征提取與處理,得到網(wǎng)絡(luò)的輸出。MFF網(wǎng)絡(luò)Flatten層前的實(shí)現(xiàn)參數(shù)細(xì)節(jié)在表1中,按照網(wǎng)絡(luò)層級順序列出。其中原圖,k均值和PCA輸入通道用下標(biāo)r,k和p標(biāo)記.TF.concat[8]層對三個(gè)輸入通道得到的特征進(jìn)行融合,之后經(jīng)過三次卷積一次池化的操作輸入Flatten層。再將得到的結(jié)果輸入全連結(jié)層進(jìn)行優(yōu)化處理。
2.3 優(yōu)化模塊
通過特征提取與融合模塊得到了特征圖后就可以將其輸入到dropout層,該層可有效地避免過擬合的發(fā)生,達(dá)到正則化的效果。隨機(jī)梯度下降法[9]可以加速收斂時(shí)的速度,減少計(jì)算梯度時(shí)候的冗余。最后就可以通過Softmax分類獲得MFF網(wǎng)絡(luò)的輸出。
3 實(shí)驗(yàn)結(jié)果與分析
通過2.1數(shù)據(jù)預(yù)處理模塊,本文在自定義數(shù)據(jù)37800張復(fù)雜背景字符圖片下進(jìn)行實(shí)驗(yàn),測試數(shù)據(jù)與訓(xùn)練數(shù)據(jù)的比例為2:8。本文提出的方法對測試集進(jìn)行三次分組實(shí)驗(yàn)對比分析,每組實(shí)驗(yàn)取五次測試集準(zhǔn)確率的平均值。通過表2得出的測試結(jié)果可以看出,本文提出的MFF網(wǎng)絡(luò)模型在復(fù)雜背景字符識別上可以通過提取不同的特征進(jìn)行融合的方式來得到較好的識別效果。
4 結(jié)論
對復(fù)雜背景字符的識別對生活有實(shí)際的意義。文字識別作為計(jì)算機(jī)領(lǐng)域的研究熱點(diǎn),目前對復(fù)雜背景字符識別的關(guān)注度比較低。本文基于復(fù)雜背景字符的特征提出了一種針對字符的多特征融合卷積網(wǎng)絡(luò)模型(MFF),這為復(fù)雜背景字符識別問題提供了一種解決思路。通過多次實(shí)驗(yàn)對比結(jié)果表明,MFF網(wǎng)絡(luò)模型能夠在復(fù)雜背景字符識別上取得較好的效果。
參考文獻(xiàn):
[1]王德清,吾守爾·斯拉木,許苗苗.場景文字識別技術(shù)研究綜述[J].計(jì)算機(jī)工程與應(yīng)用,2020,56(18):1-15.
[2] 郝亞男,喬鋼柱,譚瑛.面向OCR文本識別詞錯(cuò)誤自動校對方法研究[J].計(jì)算機(jī)仿真,2020,9(37):333-337.
[3] 周飛燕,金林鵬,董軍.卷積神經(jīng)網(wǎng)絡(luò)綜述[J].計(jì)算機(jī)學(xué)報(bào),2017,40(6):1229-1252.
[4] 焦志成,李潔,王穎,等.淺層模糊K均值圖像分類網(wǎng)絡(luò)[J].計(jì)算機(jī)科學(xué)與探索,2015,9(08):1018-1024.
[5] 安俊峰,劉海冬,潘雷,等.基于PCA和灰度直方圖特征融合的交通標(biāo)志的分類研究[J].公路,2018,4(4):178-185.
[6] Krizhevsky A,Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017,60(6):84-90.
[7] 汪權(quán)彬,譚營.基于數(shù)據(jù)增廣和復(fù)制的中文語法錯(cuò)誤糾正方法[J].智能系統(tǒng)學(xué)報(bào),2020,1(15):99-106.
[8] SZEGED C,VANHOUCKE V,IOFFE S,et al。Rethinking the inception architecture for computer vision[C].Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,2016,2818-2826.
[9] 王功鵬,段萌,牛常勇.基于卷積神經(jīng)網(wǎng)絡(luò)的隨機(jī)梯度下降法[J].計(jì)算機(jī)工程與設(shè)計(jì),2018,39(2):441-463.
【通聯(lián)編輯:唐一東】