卜令正,王洪棟,朱美強(qiáng),代 偉
(中國礦業(yè)大學(xué) 信息與控制工程學(xué)院,江蘇 徐州 221116)(*通信作者電子郵箱zhumeiqiang@cumt.edu.cn)
隨著經(jīng)濟(jì)的發(fā)展和社會的進(jìn)步,生活中數(shù)字的應(yīng)用越來越廣泛,使用場景也越來越豐富,對應(yīng)的自然場景數(shù)字識別需求也迅速增長,其中也有多種類型數(shù)字混合的場景識別需求。例如,電測量數(shù)字顯示儀表的印刷電路板檢測中,板載電子元器件上有多種不同類型阿拉伯?dāng)?shù)字,儀表上電顯示的數(shù)字為八段數(shù)碼管。又如,圖1(a)所示的報銷單識別中,單據(jù)既包含打印體的金額、日期編號等信息,又包含修改的數(shù)量、金額等手寫數(shù)字信息。因此,研究多種類型混合數(shù)字的識別有較高的現(xiàn)實意義和經(jīng)濟(jì)價值。
作為光學(xué)字符識別的一個重要分支,數(shù)字識別的研究由來已久,其識別方法主要分為模板匹配法、基于特征的機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)方法。傳統(tǒng)的數(shù)字識別方法多是利用數(shù)字本身的特征進(jìn)行識別。例如:陸靖濱等[1]提出了改進(jìn)最大類間方差法對數(shù)顯數(shù)字儀表圖像字符自適應(yīng)提取,用穿線法實現(xiàn)數(shù)字的自動識別;董延華等[2]基于模式識別技術(shù),通過改進(jìn)的特征匹配算法改變了特征向量并增加學(xué)習(xí)次數(shù);陳瑋等[3]提出了基于歐拉數(shù)的模板匹配,將模板圖像進(jìn)行分組,只將目標(biāo)圖像與具有相同歐拉數(shù)的模板進(jìn)行匹配。上述傳統(tǒng)數(shù)字識別方法易受環(huán)境因素影響,背景的變化、數(shù)字的浮動和漂移、光照的強(qiáng)弱對識別效果都有較大的影響,在圖像質(zhì)量退化時識別率較低。
圖1 多源數(shù)字的不同應(yīng)用Fig. 1 Different applications of multi-source digits
機(jī)器學(xué)習(xí)的發(fā)展為模式識別提供了新的方法,在數(shù)字識別中也被廣泛地使用。甘勝江等[4]對K近鄰(K-Nearest Neighbors,KNN)和隨機(jī)森林方法進(jìn)行改進(jìn),將KNN分類器的多元輸出轉(zhuǎn)化為二元輸出;然后,構(gòu)建隨機(jī)森林各個決策點的決策函數(shù),對手寫體數(shù)字進(jìn)行分類。Tuba等[5]用基于投影直方圖的手寫體數(shù)字識別算法,使用仔細(xì)調(diào)整的45個支持向量機(jī)(Support Vector Machine, SVM)進(jìn)行分類。潘虎等[6]將二叉樹型結(jié)構(gòu)和快速Adaboost訓(xùn)練算法結(jié)合起來,將紙幣號碼識別問題轉(zhuǎn)化為一系列Adaboost二分類問題。傳統(tǒng)的機(jī)器學(xué)習(xí)方法多數(shù)需要人工提取圖像特征,特征提取的好壞對識別結(jié)果有至關(guān)重要的影響,不同樣本庫識別效果可能會有較大差別;樣本的數(shù)量與質(zhì)量對識別效果也有影響。例如:在KNN當(dāng)中,因要與數(shù)據(jù)集中樣本依次比較,增大數(shù)據(jù)集會降低識別速度;而在SVM中樣本質(zhì)量越高,分類效果越好。
深度學(xué)習(xí)不需要人工特征提取,而是在模型學(xué)習(xí)中自動逐層提取特征,在數(shù)字識別方面得到了廣泛的研究與應(yīng)用。Lecun等[7]提出了LeNet卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN),是特征自動提取的多層學(xué)習(xí)算法,最早應(yīng)用于郵政編碼中的手寫體數(shù)字識別;Alani[8]提出了一種使用受限玻爾茲曼機(jī)(Restricted Boltzmann Machine, RBM)和CNN相結(jié)合的深度學(xué)習(xí)算法,對阿拉伯式手寫數(shù)字進(jìn)行識別;Singh等[9]提出了一種使用計算統(tǒng)一設(shè)備架構(gòu)(Compute Unified Device Architecture, CUDA)識別數(shù)字的深度CNN(Deep CNN, DCNN);Sabour等[10]提出了膠囊網(wǎng)絡(luò),在識別高度重疊的數(shù)字方面比傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)更好。對于大樣本自然環(huán)境數(shù)字識別問題,深度學(xué)習(xí)方法在識別率與魯棒性等方面均優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)方法。
已有的數(shù)字識別研究工作多針對單一類型數(shù)字進(jìn)行識別,對多源混合數(shù)字進(jìn)行識別的研究較少。在上述研究中,卷積神經(jīng)網(wǎng)絡(luò)對于大樣本數(shù)字識別問題具有訓(xùn)練簡單、泛化能力好的優(yōu)點。本文以RoboMaster機(jī)甲大師賽中移動步兵射擊機(jī)器人識別數(shù)碼管與手寫字體,并擊打相應(yīng)的九宮格為背景(如圖1(b)所示),研究基于改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)的多源數(shù)字識別方法。
RoboMaster機(jī)甲大師賽是國內(nèi)首個激戰(zhàn)類機(jī)器人競技比賽,參賽隊伍需自行研制多種類型的機(jī)器人進(jìn)行協(xié)同作戰(zhàn)。在比賽的能量機(jī)關(guān)激活環(huán)節(jié),也稱大神符環(huán)節(jié),全向移動步兵射擊機(jī)器人通過讀取地上固定的無線射頻識別(Radio Frequency IDentification, RFID)卡,激活其正前方的觸摸屏屏幕。觸摸屏屏幕上方為數(shù)碼管密碼顯示區(qū)域,下方為九宮格手寫數(shù)字顯示區(qū)域,具體見圖1(b)。機(jī)器人在本體的固定位置上安裝有識別攝像頭,以第一視角獲取前方圖像。
比賽時,機(jī)器人需要通過攝像頭先識別數(shù)碼管區(qū)域的5個密碼數(shù)字,然后控制射擊機(jī)構(gòu)依照順序用塑料子彈擊打九宮格區(qū)域內(nèi)對應(yīng)的手寫數(shù)字。九宮格區(qū)域內(nèi)的手寫數(shù)字每1.5 s更新一次,每次只有一個手寫數(shù)字與數(shù)碼管密碼區(qū)內(nèi)的某個數(shù)字一致。步兵射擊機(jī)器人只有正確識別兩類數(shù)字,并按照數(shù)碼管數(shù)字順序連續(xù)5次成功擊打九宮格內(nèi)的手寫數(shù)字,才算成功完成這項任務(wù)。比賽在室內(nèi)場館進(jìn)行,光照強(qiáng)度適中,分布相對均勻,但也有一定的明暗變化。
多源數(shù)字識別算法流程如圖2所示,主要包含四個步驟:
1)從視頻文件中獲取含有待識別大符的圖像,對數(shù)碼管數(shù)字和九宮格手寫體進(jìn)行定位,圖3為定位結(jié)果;彩色圖轉(zhuǎn)化為灰度圖進(jìn)行邊緣檢測,然后查找輪廓。手寫體數(shù)字部分,按照輪廓面積、輪廓最小包圍矩形的長寬比與旋轉(zhuǎn)角篩選出9個滿足條件的最小包圍矩形,從而確定九宮格中手寫體位置。數(shù)碼管部分依據(jù)與九宮格的相對位置,在原圖中用感興趣區(qū)域(Region Of Interest, ROI)框定。
圖2 多源數(shù)字識別流程Fig. 2 Flow chart of multi-source digit recognition
圖3 九宮格和數(shù)碼管定位Fig. 3 Jiugongge and digital tube positioning
2)手寫體和數(shù)碼管提取。手寫體部分,依據(jù)最小包圍矩形,經(jīng)透視變換將手寫體數(shù)字變換成40×40正方形數(shù)字。數(shù)碼管部分通過二值化、腐蝕膨脹、濾波去除噪聲并進(jìn)行輪廓查找,以標(biāo)準(zhǔn)矩形包圍輪廓;然后拆分5個數(shù)碼管。
3)對手寫體數(shù)字和數(shù)碼管數(shù)字進(jìn)行處理。手寫體部分,進(jìn)行二值化和反二值化,成為與訓(xùn)練集一樣的黑底白字,并進(jìn)行抗扭斜處理、傾斜糾正,數(shù)字居中并添加黑邊,大小調(diào)整為50×50,變化過程如圖4(a)所示。數(shù)碼管部分,將拆分的數(shù)碼管數(shù)字居中并歸一化統(tǒng)一大小,結(jié)果如圖4(b)所示。
圖4 驗證集數(shù)字處理Fig. 4 Digital processing of verification set
4)用Caffe(Convolutional architecture for fast feature embedding)[11]框架下訓(xùn)練好的改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)對分割出來的數(shù)字進(jìn)行識別。改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)算法詳見第3章。
訓(xùn)練改進(jìn)神經(jīng)網(wǎng)絡(luò)的混合數(shù)據(jù)集是MNIST手寫體圖像和八段數(shù)碼管儀表提取的圖像。MNIST數(shù)據(jù)集是一個手寫體數(shù)字?jǐn)?shù)據(jù)庫[12]。數(shù)碼管圖像是從安科瑞電氣股份有限公司13組電子儀表檢測線上獲得[13]。數(shù)據(jù)集分布如表1所示。混合數(shù)據(jù)集部分?jǐn)?shù)字樣本如圖5所示。
改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)輸出時,基于softmax的概率分類方法,將兩種不同形態(tài)數(shù)字分為了20類[14]。圖像數(shù)據(jù)集轉(zhuǎn)化為Caffe[15]支持并方便大批量數(shù)據(jù)處理的lmdb(lightning memory-mapped database)格式。雖然Caffe的ImageLayer可以直接讀取圖像文件,但依次讀取幾萬、十幾萬張圖像時間非常長。lmdb文件結(jié)構(gòu)簡單,只有兩個文件:數(shù)據(jù)文件(data.mdb)和鎖文件(lock.mdb)。lmdb文件訪問簡單,只要代碼中引用lmdb數(shù)據(jù)庫,給出訪問路徑即可,減少了I/O開銷并使用內(nèi)存映射的方式訪問文件,文件尋址開銷非常小。
表1 實驗用數(shù)據(jù)集Tab. 1 Data sets for experiments
圖5 混合數(shù)據(jù)集部分樣本圖像Fig. 5 Partial sample images of mixed data set
改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖6(a)所示,該網(wǎng)絡(luò)結(jié)構(gòu)相比圖6(b)的LeNet有較多的改進(jìn)。首先,改進(jìn)網(wǎng)絡(luò)在多個卷積層上添加了Relu激活函數(shù),在網(wǎng)絡(luò)中添加非線性因素,用于加速神經(jīng)網(wǎng)絡(luò)的收斂。其次,改進(jìn)網(wǎng)絡(luò)參考了如圖6(c)所示的AlexNet網(wǎng)絡(luò)[16],采用dropout函數(shù)[17]。dropout函數(shù)在訓(xùn)練時隨機(jī)選取一部分神經(jīng)元輸出取值為0,下次訓(xùn)練時又會恢復(fù)保留取值。這樣的操作削弱了神經(jīng)元節(jié)點之間的聯(lián)合適應(yīng)性,增強(qiáng)了泛化能力,從而避免了過擬合問題。改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)比LeNet深,能提取更多的特征以增強(qiáng)分類效果。但相比AlexNet結(jié)構(gòu)更為簡潔,識別速度比AlexNet更快。
訓(xùn)練時,改進(jìn)網(wǎng)絡(luò)模型各層變化與參數(shù)配置如表2所示。Accuracy層得到測試集準(zhǔn)確率,Loss層采用交叉熵函數(shù)作為損失函數(shù)獲得訓(xùn)練的損失值。測試時,通過softmax分類器得到測試圖像的分類結(jié)果。
采用隨機(jī)梯度下降法訓(xùn)練神經(jīng)網(wǎng)絡(luò),學(xué)習(xí)策略為inv,動量值momentum為0.9。學(xué)習(xí)率隨著迭代次數(shù)的增加而降低,可以很好地實現(xiàn)自動調(diào)節(jié)。學(xué)習(xí)速率迭代方法如下:
new_lr=base_lr×(1+gamma×iter)-power
其中:new_lr為新的學(xué)習(xí)速率;base_lr是網(wǎng)絡(luò)基礎(chǔ)學(xué)習(xí)速率,為0.01;iter為當(dāng)前迭代次數(shù);gamma是學(xué)習(xí)率變化的比率,為0.000 1;能量值power為0.75。卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練階段最大迭代次數(shù)為20 000,含有13個epoch。預(yù)測階段迭代次數(shù)為163,可以覆蓋測試集16 295個圖像。
圖6 網(wǎng)絡(luò)結(jié)構(gòu)Fig. 6 Network structure
3.3.1 實驗設(shè)置
實驗所用的電腦配置為Intel Core i5-6300HQ處理器,Nvidia GTX 960M 4 GB獨(dú)立顯卡,16 GB DDR4內(nèi)存,512 GB固態(tài)硬盤,軟件平臺為Linux16.04下的Caffe深度學(xué)習(xí)框架,集成開發(fā)環(huán)境(Integrated Development Environment, IDE)軟件為codeblocks16.01。
訓(xùn)練時,圖像在神經(jīng)網(wǎng)絡(luò)的不同層可生成不同的特征圖,將特征圖可視化容易看出其中的錯誤信號。據(jù)此可以判斷模型的結(jié)構(gòu)設(shè)計是否合理,并有針對性地修改網(wǎng)絡(luò)結(jié)構(gòu)或參數(shù)。手寫體數(shù)字“2”在神經(jīng)網(wǎng)絡(luò)各層中的變化如圖7(a)所示,層次越深,神經(jīng)網(wǎng)絡(luò)提取的特征越抽象。通過卷積核將上一層特征圖轉(zhuǎn)化為更高層次、更抽象的表示。特征提取可以很好地剔除掉噪聲對神經(jīng)網(wǎng)絡(luò)的影響,因此卷積神經(jīng)網(wǎng)絡(luò)可以提取更為復(fù)雜的圖像特征,改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)才有了較好的識別效果。
判斷一個卷積神經(jīng)網(wǎng)絡(luò)是否合理的另一種方法是對模型權(quán)值進(jìn)行可視化。對應(yīng)不同卷積層的權(quán)值可視化圖如圖7(b)所示,其中,從第一個卷積層到第四個卷積層變化的權(quán)值圖以灰色圖的形式表示。卷積核既不是類似于噪聲,也不是相關(guān)性太高或缺乏結(jié)構(gòu)性,神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)相對合理。
表2 網(wǎng)絡(luò)模型的參數(shù)配置Tab. 2 Parameter configuration of network model
圖7 圖像和卷積權(quán)值的逐層變化Fig. 7 Layer-by-layer changes of images and convolution weights
改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到的日志數(shù)據(jù)中,有測試集損失值與準(zhǔn)確率隨著訓(xùn)練迭代次數(shù)的變化,以及訓(xùn)練集損失值隨訓(xùn)練迭代次數(shù)的變化,結(jié)果如圖8所示。
如圖8(a)所示,選取前10 000次迭代的softmax損失值。由圖8(a)可以看出,隨著迭代次數(shù)的增加,訓(xùn)練集和測試集的損失值都不斷減小;訓(xùn)練集損失值快速下降,中間稍微有一
些波動,但整體呈下降趨勢;測試集損失值下降過程中波動不大,但一直在不斷降低;最終損失值都收斂到0.05以內(nèi),完成優(yōu)化。如圖8(b)所示,訓(xùn)練前期測試集準(zhǔn)確率隨著迭代次數(shù)的增加快速上升,準(zhǔn)確率達(dá)到99%以后變化趨于平穩(wěn)。
圖8 損失值和準(zhǔn)確率隨迭代次數(shù)的變化Fig. 8 Changes of loss value and accuracy with iteration times
3.3.2 測試集測試
本文算法對混合數(shù)據(jù)集中測試集16 259張圖像識別結(jié)果的混淆矩陣如表3所示,矩陣對角線數(shù)據(jù)是分類正確的圖像個數(shù),其他位置是分類錯誤的。從表3可以看出,本文算法分類的準(zhǔn)確度較高。
表3 測試集混淆矩陣Tab. 3 Confusion matrix of test set
不同算法對混合數(shù)據(jù)集中測試集16 259張圖像的識別結(jié)果如表4所示。
表4中,方向梯度直方圖(Histogram of Oriented Gradients, HOG)特征提取,每8×8的像素組成一個細(xì)胞單元(cell),把梯度方向平均劃分為9個區(qū)間(bin),塊的大小為16×16,即2×2個細(xì)胞單元(cell)組成一個塊,所以每個塊內(nèi)有4×9=36個特征。以8個像素為步長在水平方向有4個掃描窗口,在垂直方向?qū)⒂?個掃描窗口。而輸入的圖像大小調(diào)整為40×40,就是每張圖像總共提取有9×4×16=576個特征。
表4中,SVM識別算法,核函數(shù)選擇為徑向基核函數(shù)(Radial Basis Function, RBF)(高斯核函數(shù)),SVM類型為C類支撐向量機(jī),20類分組。訓(xùn)練數(shù)據(jù)總量為6 915個,在訓(xùn)練數(shù)據(jù)量小的時候,SVM識別準(zhǔn)確率不如KNN,訓(xùn)練樣本點太大時,計算耗時,算法效率不高。
HOG特征提取結(jié)合KNN算法,在K=5時識別效果較好。如果KNN算法樣本維度太高,因為要與每一個樣本進(jìn)行比較,計算速度將會很慢,所以訓(xùn)練數(shù)據(jù)選取442個。從測試集識別結(jié)果可以看到,KNN+HOG識別速度較快,但準(zhǔn)確率一般。
從表4的算法對比可知:改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)算法識別率不僅高于兩種傳統(tǒng)機(jī)器學(xué)習(xí)算法,也略優(yōu)于同為卷積神經(jīng)網(wǎng)絡(luò)的LeNet算法和AlexNet算法,并且測試集損失率更低。
表4 不同算法對測試集的識別結(jié)果Tab. 4 Recognition results of different algorithms for test set
本文算法在識別單張測試集圖像時,平均識別一張數(shù)字圖像時間為2.142 ms,略長于LeNet網(wǎng)絡(luò),但遠(yuǎn)少于AlexNet網(wǎng)絡(luò)(單張字符時間為7.443 ms)。AlexNet因為網(wǎng)絡(luò)結(jié)構(gòu)更深,識別時間相對較長,不能直接用于實際比賽。相比LeNet和AlexNet,改進(jìn)網(wǎng)絡(luò)識別精度提升并不明顯;但從第4章比賽視頻測試結(jié)果可以看出,改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)算法對手寫體和數(shù)碼管都保持較高的識別率并滿足識別速度要求,具備多源數(shù)字識別能力,有較好的泛化能力和魯棒性。
在多個時段不同光照條件下,以全向移動步兵機(jī)器人視角獲得大神符視頻。從視頻中提取出手寫體數(shù)字和數(shù)碼管數(shù)字并處理整合成用作驗證算法效果的驗證數(shù)據(jù)集。多數(shù)深度學(xué)習(xí)算法[18]中將數(shù)據(jù)集一部分作為訓(xùn)練集,另一部分作為測試集,測試集與訓(xùn)練集是同分布的。此處驗證集與表1中的訓(xùn)練數(shù)據(jù)集(混合訓(xùn)練集和混合測試集)來源不同,互不關(guān)聯(lián),這樣能更好地驗證算法的性能。驗證集數(shù)字分布如表5所示。
表5 驗證集數(shù)字分布Tab. 5 Digital distribution of validation set
驗證集中手寫體數(shù)字共有1 555張,數(shù)碼管數(shù)字共有1 615張。
不同算法對驗證集的識別結(jié)果如表6所示。從表6中可以看出,AlexNet手寫體識別精度略低于LeNet和本文算法,原因在于:AlexNet網(wǎng)絡(luò)有6 000萬個參數(shù)和650 000個神經(jīng)元,相比于另外兩種網(wǎng)絡(luò),其空間復(fù)雜度高,模型參數(shù)多,訓(xùn)練模型所需數(shù)據(jù)量大。本文的訓(xùn)練集僅有97 792張單通道數(shù)字圖像,數(shù)據(jù)量少于訓(xùn)練AlexNet所需百萬級ImageNet三通道彩色圖像[19],使得訓(xùn)練出的模型出現(xiàn)一定程度過擬合。
在實際比賽場景下,不同算法對九宮格手寫體數(shù)字識別結(jié)果如圖9所示。
由表6和圖9可知,對于驗證集中的手寫體數(shù)字,本文算法平均識別率位98.14%,相比于其他幾種識別算法更高;改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)對實際比賽場景下獲得的手寫體數(shù)字進(jìn)行識別時,除了個別數(shù)字準(zhǔn)確率略低于其他識別算法,整體識別準(zhǔn)確率穩(wěn)定且較高,表明了本文算法有更好的魯棒性。
表6 不同算法對驗證集識別結(jié)果Tab. 6 Recognition results of different algorithms for validation set
圖9 不同算法對手寫體數(shù)字識別結(jié)果Fig. 9 Recognition results of different algorithms for handwritten digits
部分識別錯誤的數(shù)字如圖10所示。由圖10中識別錯誤的字符可以分析出:由于分割不好、字符怪異等情況,部分?jǐn)?shù)字無法識別。而卷積神經(jīng)網(wǎng)絡(luò)識別效果與樣本數(shù)據(jù)也有很大的關(guān)系,擴(kuò)大訓(xùn)練數(shù)據(jù)集樣本量,尤其是圖10中這種低質(zhì)量的數(shù)字圖像,可進(jìn)一步提高識別準(zhǔn)確率。
圖10 部分識別錯誤的數(shù)字Fig. 10 Partial incorrectly identified digits
所提算法是否有效關(guān)鍵在于實際比賽的測試。測試的視頻是從2017年東部賽區(qū)初賽現(xiàn)場獲得,視頻時長483 s,理想的情況下按照大符每1.5 s刷新一次來算,一共有322幀包含不同內(nèi)容的大神符圖像,而去掉攝像頭可能被遮擋、九宮格與數(shù)碼管刷新過程出現(xiàn)數(shù)字重疊與重復(fù)的部分圖像實際上有265幀有效幀。其中,識別錯誤23幀,大符圖像識別準(zhǔn)確率為90.98%。視頻在實驗平臺上處理時長為492 s,平均處理速度為每秒29.4幀。以連續(xù)成功識別5幀為成功激活一次大符來算,492 s的時間內(nèi)可以成功激活大符42次,平均每分鐘可激活5.12次。這一實驗結(jié)果很好地滿足了比賽時數(shù)據(jù)處理速度與準(zhǔn)確率的要求。視頻結(jié)果測試表明改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)有很好的泛化性與實用性。
針對多源數(shù)字識別的實際需求,利用卷積神經(jīng)網(wǎng)絡(luò)在圖像識別分類上的優(yōu)勢,本文提出了一種改進(jìn)結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)。該網(wǎng)絡(luò)能夠同時識別數(shù)碼管與手寫體數(shù)字,并將改進(jìn)算法應(yīng)用于RoboMaster機(jī)甲大師賽,測試結(jié)果驗證了算法的有效性。實驗結(jié)果表明,改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)算法性能優(yōu)于SVM、KNN,識別率略優(yōu)于AlexNet和LetNet網(wǎng)絡(luò),且具有較好的魯棒性和泛化能力。