基于深度學(xué)習(xí)的熱軋鋼坯表面不同字體的字符識別研究

2021-10-09 23:26劉康錢煒楊康

軟件工程 2021年10期

劉康錢煒楊康

摘? 要：同一熱軋鋼坯生產(chǎn)線上會存在鋼坯表面字符的字體不一致的問題，而利用深度學(xué)習(xí)YOLOv3算法訓(xùn)練不同字體的字符數(shù)據(jù)集，嚴(yán)重影響了整體字符的識別率，雖然原始的YOLOv3網(wǎng)絡(luò)結(jié)構(gòu)適用性較好，但對噴印字符識別區(qū)域沒有針對性。為解決以上問題，根據(jù)噴印字符相對較小且沒有大小形態(tài)變化的特性，改進(jìn)了YOLOv3模型結(jié)構(gòu)，僅保留預(yù)測小、中目標(biāo)的網(wǎng)絡(luò)結(jié)構(gòu)，在保證較高檢測精度的同時(shí)，縮小模型容量;采用對不同字體字符分開訓(xùn)練的識別方式，得出針對性分開訓(xùn)練比混合字體整體訓(xùn)練的識別準(zhǔn)確率高的結(jié)論。結(jié)果表明，本方法比不同字體整體訓(xùn)練的識別準(zhǔn)確率提高了7%以上，可在工程上進(jìn)行應(yīng)用。

關(guān)鍵詞：深度學(xué)習(xí);字符識別;熱軋鋼坯;YOLOv3

中圖分類號：TP301.6? ? ?文獻(xiàn)標(biāo)識碼：A

Research on Character Recognition of Different Fonts on the Surface of

Hot Rolled Steel Billet based on Deep Learning

LIU Kang1， QIAN Wei1， YANG Kang2

（1.School of Mechanical Engineering， University of Shanghai for Science and Technology， Shanghai 200093， China;

2.Shanghai Baosight Software Co.，Ltd.， Shanghai 201999， China）

1010898612@qq.com; 1458515538@qq.com; yangkang@baosight.com

Abstract： Aiming at character fonts inconsistency on the billet surface in the same hot-rolled billet production line， deep learning YOLOv3 algorithm is used to train character data sets of different fonts， which seriously affects the overall character recognition rate. Although the original YOLOv3 network structure is quite applicable， it is not targeted at the recognition area of printed characters. In order to solve the above problem， this paper proposes to improve YOLOv3 model structure according to the characteristics of relatively small print characters and no changes in size and shape. Only the network structure for predicting small and medium targets is retained， and the model capacity was reduced while ensuring high detection accuracy. It is concluded that the recognition accuracy of the targeted separate training is higher than that of the whole training of mixed fonts. The results show that the recognition accuracy of this method is more than 7% higher than that of the whole training of different fonts， and it can be applied in engineering.

Keywords： deep learning; character recognition; hot-rolled steel billet; YOLOv3

1? ?引言（Introduction）

計(jì)算機(jī)視覺技術(shù)的迅速發(fā)展，使其得以在工業(yè)自動化生產(chǎn)過程中發(fā)揮著極大的推動作用，大大提高了生產(chǎn)效率和產(chǎn)品質(zhì)量[1]。在鋼材工件等金屬工業(yè)產(chǎn)品生產(chǎn)中，每個(gè)生產(chǎn)工件上會采用不同的字符組成來標(biāo)注其專屬的生產(chǎn)標(biāo)號，從而便于對其生產(chǎn)的監(jiān)控、配套的管理和質(zhì)量的追蹤。目前，采用傳統(tǒng)OCR技術(shù)識別字符的準(zhǔn)確率還不理想，仍需人工讀取工件上的生產(chǎn)標(biāo)號再次確認(rèn)并記錄的解決方案耗費(fèi)人工和時(shí)間。為實(shí)現(xiàn)熱軋鋼坯生產(chǎn)線達(dá)到較高的自動化水平，通過物料跟蹤系統(tǒng)對送板、軋輥、裝鋼、出鋼等工序進(jìn)行全線數(shù)據(jù)跟蹤，其中數(shù)據(jù)跟蹤發(fā)揮著至關(guān)重要的作用，而字符識別的準(zhǔn)確率直接影響到數(shù)據(jù)跟蹤[2]。車間物料跟蹤的范圍是從鋼坯入爐，經(jīng)加熱爐、軋線軋制、上冷床至打捆稱重為止。物料跟蹤信息包括批號、軋件號、爐號、鋼種、產(chǎn)品規(guī)格、過程數(shù)據(jù)、生產(chǎn)時(shí)間等，每個(gè)軋件的跟蹤信息自動傳輸?shù)胶蟛抗ば?。系統(tǒng)將整條軋線劃分成若干個(gè)跟蹤區(qū)域，對物料按照先進(jìn)先出的原則實(shí)現(xiàn)連續(xù)實(shí)時(shí)跟蹤，使實(shí)際物料在每個(gè)區(qū)域都能及時(shí)準(zhǔn)確地顯示出來[3]。因此，在復(fù)雜的生產(chǎn)現(xiàn)場環(huán)境下提高鋼卷號識別率十分迫切。在現(xiàn)階段研究與應(yīng)用中，對于單一字體的噴印字符識別準(zhǔn)確率比較理想，可對于混合字體的識別準(zhǔn)確率還達(dá)不到技術(shù)要求。

如今YOLO系列的算法已有五個(gè)版本，依次為YOLOv1、YOLOv2、YOLOv3、YOLOv4、YOLOv5，但本文用到Y(jié)OLOv3算法，因?yàn)閅OLO系列算法中是從YOLOv3開始被廣泛應(yīng)用的，后面出的YOLOv4、YOLOv5是在YOLOv3基礎(chǔ)上的進(jìn)一步改進(jìn)，是在細(xì)枝末節(jié)上進(jìn)行的優(yōu)化，沒有YOLOv3在工業(yè)界的普遍適用性好[4]。該網(wǎng)絡(luò)采用Darknet53作為骨干網(wǎng)絡(luò)[5]，由C語言實(shí)現(xiàn)，容易安裝，沒有任何依賴項(xiàng)，移植性非常好;支持CPU與GPU兩種計(jì)算方式，也適用于生產(chǎn)線現(xiàn)場無顯卡的硬件設(shè)備;具有輕量型、靈活性的特性，適合用于來研究底層，可以更為方便地從底層對其進(jìn)行改進(jìn)與擴(kuò)展。

因此，本文依據(jù)不同字符字體圖像特征和識別任務(wù)的需求，采用基于YOLOv3的改進(jìn)神經(jīng)網(wǎng)絡(luò)分開訓(xùn)練數(shù)據(jù)集進(jìn)行對應(yīng)字符識別和檢測分析，旨在保證識別速度的同時(shí)，準(zhǔn)確地實(shí)現(xiàn)鋼坯表面噴印字符識別以便進(jìn)行物料跟蹤。

2? ?YOLOv3網(wǎng)絡(luò)模型（YOLOv3 network model）

2.1? ?網(wǎng)絡(luò)結(jié)構(gòu)

我們選用Darknet53作為目標(biāo)檢測網(wǎng)絡(luò)YOLOv3的骨干網(wǎng)絡(luò)，因?yàn)槠淇杀Ａ粼瓐D的大部分信息，能提取待訓(xùn)練圖像的目標(biāo)特征，其中：（1）CBL由卷積層（Conv）、批量歸一化（Bn）與Leaky_relu激活函數(shù)三者組成，是該網(wǎng)絡(luò)結(jié)構(gòu)中的最小組件。（2）Res unit：借鑒Resnet網(wǎng)絡(luò)中的殘差結(jié)構(gòu)，將殘差模塊集成到網(wǎng)絡(luò)中，得到更深的網(wǎng)絡(luò)構(gòu)建，有利于檢測小目標(biāo)。（3）ResX：由一個(gè)CBL和X 個(gè)殘差組件構(gòu)成，表示這個(gè)殘差塊（res_block）里含有多少個(gè)Res unit，是YOLOv3網(wǎng)絡(luò)結(jié)構(gòu)中的大組件。YOLOv3的骨干網(wǎng)絡(luò)Darknet53具有殘差結(jié)構(gòu)，該設(shè)計(jì)有效緩解了深層網(wǎng)絡(luò)的梯度彌散后梯度爆炸問題，提升了檢測性能，每個(gè)殘差模塊由2 個(gè)卷積層和1 個(gè)shortcut連接。（4）concat：張量拼接，將Darknet中間層和后面的某一層的上采樣進(jìn)行拼接，對應(yīng)分支的特征圖融合。拼接的操作和殘差層add的操作是不一樣的，拼接會擴(kuò)充張量的維度，而add只是直接相加不會導(dǎo)致張量維度的改變[6]，如圖1所示。

2.2? ?網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn)

原始YOLOv3網(wǎng)絡(luò)結(jié)構(gòu)采用三個(gè)不同尺度的特征圖進(jìn)行目標(biāo)檢測任務(wù)的原因是考慮原始圖像中可能包含的目標(biāo)物體大小不確定，對于這一問題，YOLOv3算法的解決方法是在YOLOv2曾采用passthrough層結(jié)構(gòu)[7]來檢測細(xì)粒度特征的基礎(chǔ)上，對原始圖像使用不同的粒度進(jìn)行劃分網(wǎng)格，更進(jìn)一步采用了三個(gè)不同尺度的特征圖來進(jìn)行對象檢測。例如，劃分為13×13、26×26、52×52的網(wǎng)格，其中13×13的大網(wǎng)格用于檢測相對大的目標(biāo)物體，26×26的網(wǎng)格用于檢測中等的目標(biāo)物體，52×52的網(wǎng)格用于檢測相對小的目標(biāo)物體，這是與主干網(wǎng)絡(luò)輸出的三種特征圖的大小是一一對應(yīng)的[4]。

結(jié)合實(shí)際應(yīng)用情況，鋼坯表面噴印字符相對較小，字符檢測任務(wù)針對的是小目標(biāo)訓(xùn)練。YOLOv3采用多尺度來對不同尺寸的目標(biāo)進(jìn)行檢測計(jì)算復(fù)雜度較高，對該噴印字符識別應(yīng)用上有些浪費(fèi)計(jì)算機(jī)算力，因此針對大小幾乎無變化的噴印字符不需要過多的尺度進(jìn)行訓(xùn)練，我們在保證較高識別準(zhǔn)確率的同時(shí)，改進(jìn)YOLOv3網(wǎng)絡(luò)結(jié)構(gòu)，僅采用兩個(gè)不同尺度的特征圖來進(jìn)行對象檢測，如圖2所示。

2.3? ?回歸函數(shù)

我們知道，要實(shí)現(xiàn)多類別的分類，有兩種改進(jìn)普通的logistic回歸的方式：

（1）直接根據(jù)每個(gè)類別，分別建立一個(gè)二分類器，帶有這個(gè)類別的樣本標(biāo)記為1，帶有其他類別的樣本標(biāo)記為0。如果有k 個(gè)類別，那么就可以得到k 個(gè)針對不同標(biāo)記的普通的logistic分類器。

（2）修改logistic回歸的損失函數(shù)，使其適應(yīng)多分類問題。這個(gè)損失函數(shù)不再只考慮二分類的損失，而是具體考慮每個(gè)樣本標(biāo)記的損失，這種方法就叫作Softmax回歸，即logistic回歸的多分類版本，可將多分類的結(jié)果以概率的形式呈現(xiàn)[8]。

原YOLOv3網(wǎng)絡(luò)會產(chǎn)生三種不同的特征圖，將被分別傳入logistic層中，進(jìn)而運(yùn)算產(chǎn)生模型的輸出。而logistic回歸是針對二分類問題的，鋼坯表面噴印字符檢測識別是互斥的多分類問題，在該目標(biāo)檢測任務(wù)中，為了能去除無效預(yù)測框，保留最準(zhǔn)確的預(yù)測框，同時(shí)根據(jù)噴印字符實(shí)際情況，即不存在多個(gè)目標(biāo)物體重合的情況，因此普通logistic回歸就不適用了，我們采用的是Softmax回歸，介紹如下。

對于輸入數(shù)據(jù)有k 個(gè)類別的分類問題，先定義邏輯回歸假設(shè)函數(shù)[9]，可以理解為Softmax回歸估算每一類的概率，詳見式（1）。

（1）

其中，是模型的參數(shù)，p是類別概率值。

Softmax回歸算法的代價(jià)函數(shù)[10]（其中），詳見式（2）。

（2）

其中，是回歸的模型參數(shù)矩陣，c是類別，m是已標(biāo)記的樣本數(shù)，是一個(gè)指示性函數(shù)，值為真即等于1，值為假即等于0。

通過式（2），可將logistic回歸的損失函數(shù)改為如式（3）所示。但對于，Softmax回歸與logistic回歸的計(jì)算方式不同，Softmax回歸是logistic回歸的一般形式[9]。

（3）

其中，是回歸的模型參數(shù)矩陣，c是類別，m是已標(biāo)記的樣本數(shù)，p是類別概率值;是一個(gè)指示性函數(shù)，值為真即等于1，值為假即等于0。

3? ?實(shí)驗(yàn)及結(jié)果分析（Experiment and result analysis）

3.1? ?實(shí)驗(yàn)環(huán)境

本文實(shí)驗(yàn)平臺環(huán)境配置情況如表1所示。

3.2? ?數(shù)據(jù)集構(gòu)建

圖像數(shù)據(jù)集使用熱軋現(xiàn)場拍攝作為訓(xùn)練識別噴印字符的數(shù)據(jù)樣本，根據(jù)字體不同分開統(tǒng)計(jì)出兩個(gè)數(shù)據(jù)集，每個(gè)數(shù)據(jù)集都包含10 種數(shù)字符號，采集圖像存儲格式為bmp，分辨率為2592×2048。采集的兩種字體的字符圖像分開整理成各自的訓(xùn)練數(shù)據(jù)集，兩種原始字符圖像如圖3所示。數(shù)據(jù)集的標(biāo)注采用labelimg軟件，具體對圖片目標(biāo)區(qū)域內(nèi)的單個(gè)字符依次進(jìn)行標(biāo)注。labelimg對字符圖像標(biāo)注完成后，會生成與之對應(yīng)的XML文件，隨后將XML文件里面的標(biāo)注框名稱和目標(biāo)邊框位置信息轉(zhuǎn)換為txt文件。

3.3? ?訓(xùn)練結(jié)果

先利用本文網(wǎng)絡(luò)模型對一種數(shù)據(jù)集進(jìn)行訓(xùn)練，訓(xùn)練過程中的損失變化情況如圖4所示。由圖4顯示的訓(xùn)練過程迭代次數(shù)的平均損失曲線發(fā)現(xiàn)，訓(xùn)練迭代1.5萬次后平均損失函數(shù)值降低至0.35;隨著迭代次數(shù)的增加，平均損失函數(shù)值基本保持不變，趨于穩(wěn)定。

分別用本文網(wǎng)絡(luò)、原始YOLOv3網(wǎng)絡(luò)與YOLOv3-tiny網(wǎng)絡(luò)對相同數(shù)據(jù)集進(jìn)行訓(xùn)練，訓(xùn)練好的模型測試相同測試集，結(jié)果如表2所示。

實(shí)驗(yàn)結(jié)果表明，采用本文改進(jìn)的YOLOv3網(wǎng)絡(luò)表現(xiàn)相對較好，在原始YOLOv3網(wǎng)絡(luò)借鑒殘差網(wǎng)絡(luò)結(jié)構(gòu)基礎(chǔ)上，形成了更深的網(wǎng)絡(luò)層次，去除多余多尺度檢測，提升了mAP（各類別AP的平均值）及小目標(biāo)檢測效果。在速度相當(dāng)?shù)那闆r下，本文網(wǎng)絡(luò)的識別準(zhǔn)確率比原始YOLOv3網(wǎng)絡(luò)與YOLOv3-tiny網(wǎng)絡(luò)要高，得到了提升。網(wǎng)絡(luò)的Bn層與批量大小密切相關(guān)，批量越小訓(xùn)練時(shí)受到的干擾越多，不同的訓(xùn)練批量數(shù)下?lián)p失函數(shù)收斂速度略有不同，且識別準(zhǔn)確率也有影響，批量統(tǒng)計(jì)估算不準(zhǔn)確時(shí)，在識別任務(wù)中采用小的批量數(shù)時(shí)，誤差會迅速增加。用在訓(xùn)練大型網(wǎng)絡(luò)和將特征轉(zhuǎn)移到計(jì)算機(jī)視覺任務(wù)中時(shí)受內(nèi)存消耗限制，只能使用小的訓(xùn)練批量數(shù)。改進(jìn)的網(wǎng)絡(luò)結(jié)構(gòu)可以減小此方面的影響，提升訓(xùn)練批量數(shù)，減小誤差。

使用本文改進(jìn)的網(wǎng)絡(luò)結(jié)構(gòu)將統(tǒng)計(jì)的兩種數(shù)據(jù)集放置一起混合訓(xùn)練，對混合訓(xùn)練與分開訓(xùn)練得到的模型測試相同測試集，統(tǒng)計(jì)結(jié)果如表3所示。顯然，分開訓(xùn)練效果最好。

4? ?結(jié)論（Conclusion）

本研究在Darknet53作為骨干網(wǎng)絡(luò)的基礎(chǔ)上，確保YOLOv3對不同尺度預(yù)測模塊正常工作，結(jié)合鋼坯表面噴印字符大小特征去除多尺度預(yù)測對大目標(biāo)的作用，只保證對無大小變化的小目標(biāo)檢測無影響，減小因網(wǎng)絡(luò)結(jié)構(gòu)大而占用的計(jì)算內(nèi)存，來提高批量訓(xùn)練的數(shù)量，在訓(xùn)練過程中具有很好的收斂性，訓(xùn)練速度也有一些提升，提升了識別準(zhǔn)確率。網(wǎng)絡(luò)中采用10 類別的Softmax回歸層，適用多分類問題，有針對性地降低類別損失函數(shù)，提升本文網(wǎng)絡(luò)的訓(xùn)練速度和識別準(zhǔn)確率。最后證實(shí)不同字體的字符分開訓(xùn)練比混合訓(xùn)練的識別準(zhǔn)確率更高，實(shí)際熱軋現(xiàn)場應(yīng)用分開訓(xùn)練模型。但本文改進(jìn)的網(wǎng)絡(luò)結(jié)構(gòu)仍存在一些問題：對噴印模糊字符的圖像進(jìn)行特征提取效果不佳，還需提高模型的泛化能力及小樣本特征提取能力。下一步準(zhǔn)備引入圖像馬賽克等數(shù)據(jù)增強(qiáng)方法，增加樣本的復(fù)雜程度，提升網(wǎng)絡(luò)對復(fù)雜鋼板表面字符圖像的識別精度。

參考文獻(xiàn)（References）

[1] 武宗茜，丁紹榮，溫志強(qiáng)，等.巨能特鋼棒材智能化生產(chǎn)管理系統(tǒng)[J].冶金自動化，2021，45（02）：30-36.

[2] 王排書.熱軋鋼坯編號識別與表面質(zhì)量檢測系統(tǒng)研究與設(shè)計(jì)[D].錦州：遼寧工業(yè)大學(xué)，2020.

[3] 賀笛.深度學(xué)習(xí)在鋼板表面缺陷與字符識別中的應(yīng)用[D].北京：北京科技大學(xué)，2021.

[4] 蔡哲棟，應(yīng)娜，郭春生，等.YOLOv3剪枝模型的多人姿態(tài)估計(jì)[J].中國圖象圖形學(xué)報(bào)，2021，26（04）：837-846.

[5] 何帥.卷積神經(jīng)網(wǎng)絡(luò)在手寫數(shù)字識別中的應(yīng)用[J].電腦知識與技術(shù)，2020，16（21）：13-15.

[6] 王輝，張帆，劉曉鳳，等.基于DarkNet-53和YOLOv3的水果圖像識別[J].東北師大學(xué)報(bào)（自然科學(xué)版），2020，52（4）：60-65.

[7] SHEN Z J， ZANG S F， WU Q T. Weighted balanced distribution adaptation based on a softmax regression model for transfer learning[J]. Scientific Journal of Intelligent Systems Research， 2021， 3（5）：27-36.

[8] 王玉，王夢佳，張偉紅.基于CNN和Group Normalization的校園垃圾圖像分類[J].吉林大學(xué)學(xué)報(bào)（信息科學(xué)版），

2020，38（06）：744-750.

[9] 徐德榮，陳秀宏，田進(jìn).稀疏自編碼和Softmax回歸的快速高效特征學(xué)習(xí)[J].傳感器與微系統(tǒng)，2017，36（05）：55-58.

[10] 孟佩，曹菡，師軍.基于Softmax回歸模型的協(xié)同過濾算法研究與應(yīng)用[J].計(jì)算機(jī)技術(shù)與發(fā)展，2016，26（12）：153-155，159.

作者簡介：

劉? ?康（1996-），男，碩士生.研究領(lǐng)域：機(jī)器視覺.

錢? ?煒（1964-），男，碩士，副教授.研究領(lǐng)域：機(jī)器人機(jī)構(gòu)學(xué)，機(jī)械設(shè)計(jì)及理論，CAD技術(shù).

楊? ?康（1985-），男，碩士，工程師.研究領(lǐng)域：智能裝備，金屬表面缺陷檢測、分類.