刁軍輝
摘要:對于環(huán)境背景復雜的鋼材生產線來說,現(xiàn)場光照條件和字符印刷質量會直接影響采集圖像質量,傳統(tǒng)字符識別和文本區(qū)域檢測方法效果會因此下降。基于此,本文將基于EAST深度學習文本檢測器與卷積神經(jīng)網(wǎng)絡(CNN)開展研究,并介紹一種實用的鋼材表面字符檢測與識別方法,希望研究內容能夠給相關從業(yè)人員帶來一定啟發(fā)。
關鍵詞:鋼材表面;卷積神經(jīng)網(wǎng)絡;字符識別
前言:自動化操作正逐漸取代鋼材生產企業(yè)生產環(huán)節(jié)中的一些人工操作,對應保存鋼材編號與測試數(shù)據(jù)便屬于其中代表。但結合實際調研可以發(fā)現(xiàn),現(xiàn)階段的計算機視覺方法在很多時候無法較好滿足鋼材表面字符檢測與識別需要,為更好服務于自動化生產,正是本文圍繞鋼材表面字符檢測與識別方法開展具體研究的原因所在。
1.????? 圖像預處理方法
受光照不均勻、鋼材表面坑洼、現(xiàn)場環(huán)境復雜等因素影響,圖像過暗、過亮、噪聲過多等情況很容易出現(xiàn),并直接影響字符檢測和識別的開展,因此需開展圖像預處理,具體流程為:“灰度化→濾波去噪→圖像增強→EAST文本區(qū)域檢測”??刹捎酶咚篂V波處理噪聲,以此可在保留字符邊緣的同時處理噪聲,后續(xù)算法受到的影響能夠降到最低,采用式(1)進行處理,式中的 為事先定好的常數(shù),由此得到的結果離散化為原圖和模板做卷積即可。
(1)
對于整體較亮或較暗的圖像,可開展直方圖均衡化處理,如采用伽馬變換,背景區(qū)域信息弱化、文本區(qū)域信息突出即可順利實現(xiàn),具體為:
(2)
s設置為文本區(qū)域(拉伸具有更高灰度級的圖像區(qū)域),同時壓縮存在較低灰度的區(qū)域,圖像文本區(qū)域可由此擁有更強的對比度。由于鋼材的中央?yún)^(qū)域為字符區(qū)域,因此先獲取整體文本的位置屬于常用方法,形態(tài)圖像處理和圖像邊緣分割屬于較為傳統(tǒng)的區(qū)域檢測算法,目標區(qū)域獲得可基于連接區(qū)域找到實現(xiàn),EAST深度學習文本檢測器可較好滿足實際需要。作為一種深度學習模型,EAST以訓練模式和新穎架構為核心,整個圖像中四邊形文本行可基于單個神經(jīng)網(wǎng)絡實現(xiàn)預測,不必要的中間步驟可由此省略,如字符分割和候選區(qū)域聚合。EAST模型由輸出層、特征合并分支、特征提取器三個部分組成。預訓練可采用池化層和卷積層交錯的卷積神經(jīng)網(wǎng)絡,四級特征圖像可由此獲得,分別為原圖1/4、1/8、1/16、1/32大小,在特征合并部分中,合并分支功能可逐漸合并,以此大小加倍處理圖形,隨后級聯(lián)當前特征圖。對于之后的3×3卷積層,其負責信息融合及文本合并階段結果的最終產生,同時存在對應RBOX的輸出層,由旋轉角度和軸向邊界框表示[1]。
EAST也存在一定缺點,如將一個文本區(qū)域檢測到多個文本區(qū)域,長文本的檢測會受到影響。需聚合多個文本區(qū)域,以此得到整體的文本區(qū)域。為適應長文本區(qū)域檢測,需對EAST輸出層進行改進,以此實現(xiàn)更加準確的長文本預測。EAST的最終頂點坐標計算需應用所有像素預測頂點坐標加權平均值,這使得基于短邊一側的若干像素的長文本四邊形另一側兩個頂點預測存在較高難度,因此采用的文本框邊界輸出層模式設計有頭尾方向,頭部像素負責其一側兩個頂點預測,另一側由尾部像素負責,是否在文本框中、是否屬于文本框邊界像素、是頭還是尾分別為改進后網(wǎng)絡輸出層的第一位、第二位和第三位,邊界像素可實現(xiàn)兩個頂點坐標預測為最后四位。在得到預測輸出后,最后的文本框坐標也需要通過計算得到,需根據(jù)配置閾值通過預測矩陣得到激活像素集合,合并相鄰集合需按照先左右后上下順序,以此獲得頭和尾邊界像素集合,最后的預測坐標值為每個邊界像素點預測值的加權平均值。
2.????? 鋼材表面字符檢測與識別方法
2.1字符區(qū)域矯正與分割
EAST檢測會得到存在一定傾斜角度的文本區(qū)域,下一步的分割很容易受到角度過大傾斜的干擾,因此需開展針對性的字符區(qū)域矯正。需基于字符區(qū)域水平軸與包圍矩形的長邊夾角確定旋轉角度,根據(jù)字符區(qū)域包圍矩形中心點確定旋轉中心,仿射變換矩陣可由此計算。圖像傾斜矯正后需分割出背景中的字符,可采用最大類間方差法。多種場景下的分割不適合采用手動選擇閾值方法,因此需應用自適應閾值選擇方法,圖片處理可采用最大類間方差法的二值化操作。二值化后,多個字符區(qū)域確定可通過找到正外界矩形實現(xiàn),需搜索連接區(qū)域。在個別判斷外部矩形寬度異常字符的過程中,需基于列的線性掃描進行操作,上下輪廓的極小值在異常區(qū)域尋找,切分正常的單個字符可通過對比正常區(qū)域寬度分割獲得,向訓練好的卷積神經(jīng)網(wǎng)絡順序輸入切分正常的單個字符,最終的識別結果即可獲得[2]。
2.2卷積神經(jīng)網(wǎng)絡
卷積神經(jīng)網(wǎng)絡屬于鋼材表面字符檢測與識別的關鍵環(huán)節(jié),卷積神經(jīng)網(wǎng)絡由三部分組成,包括全連接層、池化層、卷積層。對于普通神經(jīng)網(wǎng)絡來說,神經(jīng)元連接到圖像每個像素會導致參數(shù)過多,但卷積神經(jīng)網(wǎng)絡能夠實現(xiàn)參數(shù)數(shù)量的合理控制,這種控制可基于局部感知或權重共享實現(xiàn)。所謂局部感知,指的是基于強相關性的圖像特點,由于存在相關性較強的距離相近像素點,以及相關性較差的距離較遠像素點,因此僅需要局部感知每個神經(jīng)元,且所需參數(shù)僅為卷積核心的像素數(shù)量。權重共享指的是一種提取特征方法用于每個卷積內核,通過對提取某一種特征卷積核的確認,同樣的學習特征即可對整個圖像學習,通過多個卷積核進行多種特征學習,特征提取充分即可得到保障,該區(qū)域的特征也可通過圖像區(qū)域上的特定特征的最大值或平均值計算確定。特征的尺寸可通過匯總統(tǒng)計特征實現(xiàn)減少,過度擬合的難度也會提升,這種操作被稱為池化,模型的參數(shù)和復雜性因此簡化。實際采用多層卷積,訓練基于完整連接層實現(xiàn),學習特征的全局化程度會隨層數(shù)增大而提高。本文研究需首先粗略切割鋼材表面圖片字符并保存,隨后基于0到9一共十類數(shù)字劃分字符圖片,分作測試集和訓練集兩個集合,字符訓練用卷積神經(jīng)網(wǎng)絡為LeNet5結構,后續(xù)檢測基于保存的訓練后權值進行,圖1為卷積神經(jīng)網(wǎng)絡結構。
結論:綜上所述,基于EAST與CNN的鋼材表面字符檢測與識別方法具備較高實用性。在此基礎上對比傳統(tǒng)方法與本文研究方法可以發(fā)現(xiàn),改進后的EAST和卷積神經(jīng)網(wǎng)絡均具備較高準確度,二者結合能夠取得令人滿意的結果,研究的價值由此得到證明。
參考文獻:
[1]艾夢琴,陶青川.基于MobileNet模型的鋼材表面字符檢測識別算法[J].現(xiàn)代計算機,2020(03):73-78.
[2]謝更新. EAST高速相機采集與圖像處理系統(tǒng)研究[D].中國科學技術大學,2019.