雷浩 苑迎春 何振學(xué)
摘要:為提高自然場(chǎng)景下棗品種識(shí)別方法的準(zhǔn)確率,提出一種融合多尺度卷積和注意力機(jī)制的棗品種識(shí)別模型(Jujube-ResNet-18)。以自然場(chǎng)景下的10類棗品種為對(duì)象,根據(jù)棗品種圖像的特點(diǎn),該模型在ResNet-18基礎(chǔ)上進(jìn)行改進(jìn)。引入多尺度卷積模塊,增強(qiáng)模型對(duì)棗果多尺度特征的提取能力;在每個(gè)殘差塊中加入注意力機(jī)制CBAM,提高棗果特征信息權(quán)重,減弱復(fù)雜背景等無用特征的影響。試驗(yàn)結(jié)果表明,Jujube-ResNet-18在棗品種數(shù)據(jù)集上的準(zhǔn)確率為89.5%,參數(shù)量和權(quán)重大小分別為1.135×107和43.41 MB。與其他算法相比,Jujube-ResNet-18有更好的特征提取能力、抗干擾能力和較小的模型復(fù)雜度,可為自然場(chǎng)景下的棗品種識(shí)別研究提供參考。
關(guān)鍵詞:棗品種識(shí)別;深度學(xué)習(xí);殘差網(wǎng)絡(luò);多尺度卷積;注意力機(jī)制
中圖分類號(hào):TP391.4
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):2095-5553 (2024) 06-0135-08
收稿日期:2022年10月15日
修回日期:2022年12月15日
*基金項(xiàng)目:國家自然科學(xué)基金(62102130);河北省自然科學(xué)基金(F2020204003)
第一作者:雷浩,男,1999年生,河北邢臺(tái)人,碩士研究生;研究方向?yàn)樯疃葘W(xué)習(xí)與圖像處理。E-mail: 2251081642@qq.com
通訊作者:苑迎春,女,1970年生,河北清苑人,博士,教授;研究方向?yàn)橹悄苄畔⑻幚砼c大數(shù)據(jù)。E-mail: nd_hd_yyc@163.com
Jujube varieties recognition based on multi-scale convolution and attention mechanism
Lei Hao, Yuan Yingchun, He Zhenxue
(College of Information Science and Technology, Hebei Agricultural University, Baoding, 071001, China)
Abstract: In order to improve the accuracy of jujube varieties recognition method in natural scenes, a jujube varieties recognition model (Jujube-ResNet-18) was proposed by integrating multi-scale convolution and attention mechanism. In this study, ten types of jujube varieties under natural scenes were taken as objects. According to the characteristics of jujube variety images, the model in this paper was improved on the basis of ResNet-18. Firstly, the multi-scale convolution module was introduced to enhance the ability of the model to extract multi-scale features of jujube fruit. Secondly, the attentional mechanism CBAM was added into each residual block to increase the weight of jujube fruit feature information and weaken the influence of complex background and other useless features. The experimental results showed that the accuracy of Jujube-ResNet-18 on the date variety dataset was 89.5%, while the number of parameters and weight were only 1.135×107and 43.41 MB, respectively. Compared with other algorithms, Jujube-ResNet-18 has better feature extraction ability, anti-interference ability and smaller model complexity, which can provide a reference for the study of jujube varieties recognition in natural scenes.
Keywords: jujube varieties recognition; deep learning; residual network; multi-scale convolution; attention mechanism
0 引言
棗樹為鼠李科棗屬植物,原產(chǎn)于中國,栽培歷史悠久、種質(zhì)資源豐富、營養(yǎng)價(jià)值高,在我國果樹領(lǐng)域中占據(jù)重要地位[1]。棗品種準(zhǔn)確識(shí)別對(duì)棗果的病害防治、自動(dòng)采摘、分選加工等環(huán)節(jié)具有重要意義。例如,依照不同棗品種與不同病害間的相關(guān)性,識(shí)別棗品種可針對(duì)性防治病害;在棗果成熟期,棗品種識(shí)別是棗園自動(dòng)化分類采摘的前提;對(duì)棗果進(jìn)行品質(zhì)分級(jí)及加工前,同樣需要對(duì)其品種進(jìn)行識(shí)別分類。因此,研究一種高效、準(zhǔn)確的棗品種智能識(shí)別方法,可為棗產(chǎn)業(yè)高質(zhì)量發(fā)展提供有力支撐[2]。
在果品種類識(shí)別領(lǐng)域,基于機(jī)器學(xué)習(xí)的圖像處理技術(shù)已有廣泛應(yīng)用[3]。蘇軍等[4]以4類干制紅棗為研究對(duì)象,提取每類紅棗的顏色特征和紋理特征,采用SVM進(jìn)行分類。Sabanci[5]利用圖像處理技術(shù)提取蘋果的形狀和顏色特征,利用MLP算法建立判別模型。上述研究均取得較優(yōu)效果,但品種特征設(shè)計(jì)、選取和調(diào)節(jié)的過程較為復(fù)雜,易受主觀因素影響,不適用于多類品種和復(fù)雜環(huán)境下的識(shí)別研究。
隨著深度學(xué)習(xí)的不斷發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別領(lǐng)域的應(yīng)用越來越多[6],具有代表性的卷積神經(jīng)網(wǎng)絡(luò)有AlexNet[7]、VGG[8]、ResNet[9]、Inception[10]等。與傳統(tǒng)機(jī)器學(xué)習(xí)相比,卷積神經(jīng)網(wǎng)絡(luò)可自動(dòng)學(xué)習(xí)圖像特征,特征提取更加充分、客觀,能有效提升識(shí)別精度。余游江等[11]利用3種卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建Stacking集成模型用于識(shí)別五種紅棗,準(zhǔn)確率達(dá)到92.38%。El-Kahlout等[12]通過構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)對(duì)3類品種的桃子進(jìn)行識(shí)別,測(cè)試集準(zhǔn)確率可達(dá)100%。倪建功等[13]提出一種花生莢果識(shí)別模型,該模型在AlexNet網(wǎng)絡(luò)的基礎(chǔ)上,通過設(shè)置不同尺寸的卷積核以提高特征提取能力。趙騰飛等[14]通過對(duì)構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行推理優(yōu)化,實(shí)現(xiàn)核桃仁的分類識(shí)別,識(shí)別準(zhǔn)確率為99.44%。Hu等[15]最先提出了通道注意力SENet,通過調(diào)整特征通道權(quán)重以獲取輸入特征中的有效信息。蘇寶峰等[16]提出融合注意力機(jī)制的殘差網(wǎng)絡(luò)用于自然背景下的葡萄品種識(shí)別,準(zhǔn)確率達(dá)到88.75%。張繼成等[17]在殘差網(wǎng)絡(luò)中嵌入SENet,有效緩解自然狀態(tài)下成熟草莓識(shí)別中復(fù)雜環(huán)境的干擾。耿磊等[18]提出一種融合注意力結(jié)構(gòu)的蘋果品種分類模型,在7類蘋果品種上準(zhǔn)確率高達(dá)96.78%。
針對(duì)自然場(chǎng)景下的棗品種識(shí)別問題,本文選取10類棗品種開展研究,考慮到不同品種間的顏色、形狀、紋理等特征復(fù)雜多樣,且部分品種間存在特征相似、區(qū)分難度大和易受復(fù)雜環(huán)境干擾等問題。本文融合多尺度卷積和注意力機(jī)制對(duì)深度學(xué)習(xí)方法進(jìn)行改進(jìn),以提取更多棗果細(xì)微特征,同時(shí)增強(qiáng)其抗環(huán)境干擾能力,實(shí)現(xiàn)對(duì)自然環(huán)境下的棗品種準(zhǔn)確、高效的識(shí)別。
1 試驗(yàn)數(shù)據(jù)
本文棗圖像采集于河北省滄縣國家棗樹良種繁育基地,采集時(shí)間為2021年9—10月,采集設(shè)備為小米手機(jī)和尼康D7500單反數(shù)碼相機(jī),分辨率分別為2 250像素×4 000像素和2 784像素×1 856像素。選取茶壺棗、大荔龍棗等10類棗品種進(jìn)行研究,具體品種如圖1所示,拍攝場(chǎng)景涵蓋晴天、陰天、雨天等自然場(chǎng)景。每張圖像上僅包含單個(gè)棗果或多個(gè)分離棗果且都包含一定的復(fù)雜背景,例如棗果葉片、樹枝、樹干等等,圖像采集數(shù)量總計(jì)1 153張,各品種圖像數(shù)量如表1所示。
本研究首先將棗數(shù)據(jù)集按照3∶2比例劃分為訓(xùn)練集和測(cè)試集。為使模型得到充分學(xué)習(xí),提升其泛化性能,防止出現(xiàn)過擬合等現(xiàn)象[19],本文對(duì)訓(xùn)練集中的圖像進(jìn)行擴(kuò)增。采取的數(shù)據(jù)擴(kuò)增方式為改變圖像色度、對(duì)比度、亮度、高斯模糊、垂直和水平翻轉(zhuǎn)圖像、隨機(jī)旋轉(zhuǎn)一定角度等。擴(kuò)增前后數(shù)據(jù)集分布情況如表1所示。圖像在輸入到模型之前,通過等比縮放將圖像最小邊縮放至256像素,保證輸入圖像不發(fā)生扭曲變形。再通過圖像中心裁剪得到模型標(biāo)準(zhǔn)輸入尺寸224像素×224像素,最后對(duì)圖像進(jìn)行歸一化處理。
2 棗品種識(shí)別模型
本文提出的棗品種識(shí)別模型是以ResNet-18網(wǎng)絡(luò)為基礎(chǔ)實(shí)現(xiàn)改進(jìn),引入多尺度卷積模塊代替ResNet-18網(wǎng)絡(luò)中第一層的7×7卷積核,豐富模型提取到的特征信息。同時(shí),每個(gè)殘差塊中添加注意力機(jī)制CBAM,增強(qiáng)模型對(duì)圖像中棗果特征信息的學(xué)習(xí),降低復(fù)雜背景對(duì)分類性能的影響;其他位置的結(jié)構(gòu)和參數(shù)均保持不變。Jujube-ResNet-18模型結(jié)構(gòu)如圖2所示,模型參數(shù)如表2所示。
2.1 基礎(chǔ)網(wǎng)絡(luò)選取
神經(jīng)網(wǎng)絡(luò)的深度與模型性能具有較強(qiáng)相關(guān)性。理論上,通過加深網(wǎng)絡(luò)深度,可提升網(wǎng)絡(luò)的特征提取能力。然而研究表明,隨著網(wǎng)絡(luò)層數(shù)的不斷加深,模型存在梯度消失、難以收斂等問題,從而導(dǎo)致模型性能退化。為此,He等[9]在2015年提出了殘差網(wǎng)絡(luò)ResNet,該網(wǎng)絡(luò)中的殘差結(jié)構(gòu)一定程度上緩解了神經(jīng)網(wǎng)絡(luò)深度增加所帶來的梯度消失、退化等問題,并在同年的ImageNet分類競(jìng)賽中獲得冠軍。ResNet中的殘差結(jié)構(gòu)如圖3所示。
設(shè)x為殘差結(jié)構(gòu)的輸入,F(xiàn)(x)為輸入x經(jīng)過權(quán)重層后的特征映射,H(x)為殘差結(jié)構(gòu)的特征映射,殘差塊右側(cè)的通路為恒等映射。其中H(x)=F(x)+x,而F(x)=H(x)-x又被稱為殘差映射。試驗(yàn)表明,相比于直接學(xué)習(xí)殘差塊的特征映射H(x),殘差映射F(x)更易優(yōu)化。殘差結(jié)構(gòu)在輸入特征x的基礎(chǔ)上繼續(xù)學(xué)習(xí)殘差映射,使模型有更好的性能。
常見的ResNet殘差網(wǎng)絡(luò)有ResNet-18、ResNet-34、ResNet-50、ResNet-101等,充分考慮到本文數(shù)據(jù)集規(guī)模和模型參數(shù)量、性能等因素,本文選擇ResNet-18作為基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)。
2.2 多尺度卷積模塊
ResNet-18網(wǎng)絡(luò)第一層卷積核大小為7×7,用來提取圖像大范圍下的粗粒度信息,特征尺度較為單一。在不同環(huán)境和時(shí)期下采集的棗品種圖像中,棗果特征復(fù)雜各異,且部分品種間在某些生長時(shí)期的特征較為相似,僅使用大尺寸卷積核難以提取到各類棗果的多尺度特征信息。因而采用不同尺寸的卷積核對(duì)圖像進(jìn)行卷積,可以幫助模型更充分地提取到多種局部特征,得到不同粒度特征上的響應(yīng)[20]。本文構(gòu)建的多尺度卷積模塊如圖4所示。
輸入圖像首先經(jīng)過4個(gè)并行通路進(jìn)行卷積操作,分別為1×1卷積、3×3卷積、兩個(gè)3×3卷積串聯(lián)和三個(gè)3×3卷積串聯(lián),最后將卷積后的4部分特征圖在通道維度上進(jìn)行拼接融合,得到多尺度特征圖。融合過程計(jì)算如式(1)所示。
Y=concat(X0,X1,X2,X3)(1)
式中:Y——多尺度特征圖;
Xi——各通路輸出特征圖,i∈[0,3]。
其中,堆疊三個(gè)3×3卷積層與一個(gè)7×7卷積層具有相同的感受野[21],兩個(gè)3×3卷積層與一個(gè)5×5卷積層具有相同的感受野。該結(jié)構(gòu)在保證感受野相同的前提下,堆疊多個(gè)卷積層和非線性激活函數(shù),加深了網(wǎng)絡(luò)的深度,不僅可以提高網(wǎng)絡(luò)的非線性判別能力,還能減少模型中的參數(shù)。4個(gè)通路的卷積核在特征提取過程中分別獲得不同尺度的感受野,最后通過融合不同尺度的特征,豐富模型提取到的棗果特征信息。
2.3 注意力機(jī)制
在自然場(chǎng)景下采集的棗品種圖像中,存在葉片、樹枝等復(fù)雜環(huán)境信息。模型在對(duì)輸入圖像進(jìn)行特征提取時(shí),除學(xué)習(xí)棗果特征外,還會(huì)學(xué)習(xí)到環(huán)境噪聲信息。因此在模型中引入注意力機(jī)制來提高其表征能力,增強(qiáng)對(duì)分類任務(wù)有益的特征權(quán)重并抑制復(fù)雜背景干擾。Woo等[22]提出一種融合空間注意力和通道注意力的注意力機(jī)制CBAM(Convolutional Block Attention Module),相比于僅考慮通道注意的SENet,特征選擇更加全面。CBAM結(jié)構(gòu)如圖5所示。
在該模塊中,輸入特征圖F首先與通道注意模塊生成的通道注意權(quán)重MC相乘,以校準(zhǔn)特征圖F通道維度上的權(quán)重,得到通道注意力調(diào)整后的特征圖FC。再將FC與空間注意模塊中生成的空間注意權(quán)重MS相乘,完成空間維度上的特征標(biāo)定,輸出特征圖FS。其過程公式為
FC=MS(F)UF(2)
FS=MS(FC)UFC(3)
在通道注意模塊中,主要篩選特征圖通道維度上的重要特征,抑制冗余信息。通道數(shù)為C,尺寸為H×W的特征圖首先在空間維度上分別進(jìn)行全局最大池化和全局平均池化,得到兩個(gè)C×1×1的特征向量,然后分別通過多層感知機(jī)。最后將多層感知機(jī)的兩個(gè)輸出結(jié)果相加,再經(jīng)過Sigmoid激活函數(shù)后得到通道注意權(quán)重。計(jì)算如式(4)所示。
MC(F)=σ{MLP[AvgPool(F)]+MLP[MaxPool(F)]}=σ{W1[W0(Fcavg)]+W1[W0(Fcmax)]}(4)
式中:AvgPool——平均池化;
MaxPool——最大池化;
W0、W1——隱藏層的權(quán)重;
σ——Sigmoid激活函數(shù)。
在空間注意模塊中,重點(diǎn)關(guān)注同一特征圖中對(duì)分類任務(wù)起關(guān)鍵作用的像素區(qū)域。通道數(shù)為C,尺寸為H×W的輸入特征圖在通道維度上分別進(jìn)行全局最大池化和全局平均池化,得到兩個(gè)1×H×W的特征向量,然后將兩個(gè)結(jié)果在通道維度上進(jìn)行拼接,通過卷積核大小為7×7的卷積操作將通道數(shù)降維至1,最后經(jīng)過Sigmoid激活函數(shù)后得到空間注意權(quán)重。計(jì)算如式(5)所示。
MS(F)=σ(f7×7([AvgPool(F);MaxPool(F)]))=σ(f7×7([Fsavg;Fsmax]))(5)
式中:f7×7——卷積核大小為7×7的卷積運(yùn)算。
隨著網(wǎng)絡(luò)中特征信息的不斷傳遞,噪聲信息所占權(quán)重會(huì)不斷增加,最終導(dǎo)致模型識(shí)別性能降低。為最大限度減少噪聲信息干擾,在ResNet-18的每個(gè)殘差塊中引入注意力機(jī)制CBAM,使網(wǎng)絡(luò)在特征提取過程中,不斷調(diào)整特征圖權(quán)重,增強(qiáng)對(duì)關(guān)鍵特征信息的提取能力。改進(jìn)后殘差結(jié)構(gòu)如圖6所示。
2.4 評(píng)價(jià)指標(biāo)
本文將準(zhǔn)確率Accuracy、精確率Precision、召回率Recall、F1-score作為模型的評(píng)價(jià)指標(biāo)。為了平衡模型性能和復(fù)雜度,同樣將模型參數(shù)量、模型權(quán)重大小作為評(píng)價(jià)指標(biāo),用以綜合評(píng)價(jià)模型性能。
式中:TP——模型將正樣本預(yù)測(cè)為正樣本的個(gè)數(shù);
FN——模型將正樣本預(yù)測(cè)為負(fù)樣本的個(gè)數(shù);
FP——模型將負(fù)樣本預(yù)測(cè)為正樣本的個(gè)數(shù);
TN——模型將負(fù)樣本預(yù)測(cè)為負(fù)樣本的個(gè)數(shù)。
3 試驗(yàn)結(jié)果與分析
3.1 試驗(yàn)設(shè)置
本研究中的各項(xiàng)試驗(yàn)環(huán)境參數(shù)如表3所示。
模型訓(xùn)練過程中,批處理大小為32,迭代次數(shù)為100,優(yōu)化器為SGD,學(xué)習(xí)率為0.01。
3.2 試驗(yàn)對(duì)比分析
為驗(yàn)證本文模型在棗品種識(shí)別研究上的有效性,在保證相同的試驗(yàn)條件下,選取在圖像識(shí)別領(lǐng)域具有代表性的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行對(duì)比分析,其中包括AlexNet、ResNet-18、ResNet-34、ResNet-50、InceptionV3。不同模型的準(zhǔn)確率、參數(shù)量和權(quán)重大小對(duì)比如表4所示。
由表4可知,Jujube-ResNet-18在識(shí)別準(zhǔn)確率上均高于其他卷積神經(jīng)網(wǎng)絡(luò),在測(cè)試集上的準(zhǔn)確率達(dá)89.5%。且參數(shù)量和權(quán)重大小都相對(duì)較小,分別為1.135×107和43.4 MB。相比于AlexNet,準(zhǔn)確率提升約6%,由于該模型相較于Jujube-ResNet-18深度較淺,特征提取能力不足,從而準(zhǔn)確率較低。相比于準(zhǔn)確率較高的InceptionV3,提升了0.7%,而參數(shù)量和模型權(quán)重大小均減少約48%。相比于ResNet-18,本文在充分利用其性能優(yōu)勢(shì)的基礎(chǔ)上,又引入多尺度卷積和注意力機(jī)制對(duì)其進(jìn)行改進(jìn),準(zhǔn)確率提升3.3%。由于在殘差結(jié)構(gòu)中加入了注意力機(jī)制CBAM,模型參數(shù)量和權(quán)重大小都略有增加,但相比于ResNet-18,模型參數(shù)量僅增加1.5%,權(quán)重大小僅增加1.6%。Jujube-ResNet-18在ResNet-18的基礎(chǔ)上,以增加較小的模型復(fù)雜度為代價(jià),帶來模型分類效果的顯著提升,較好地平衡了模型的識(shí)別性能和復(fù)雜度,表明本文模型更適用于棗品種識(shí)別。
3.3 消融試驗(yàn)
為驗(yàn)證Jujube-ResNet-18中各改進(jìn)模塊的有效性,對(duì)僅采用多尺度卷積模塊改進(jìn)ResNet-18的模型(試驗(yàn)2)同分別采用注意力機(jī)制SENet(試驗(yàn)3)和CBAM(試驗(yàn)4)改進(jìn)ResNet-18的模型進(jìn)行對(duì)比試驗(yàn),試驗(yàn)對(duì)比如表5所示。
從表5分析可知,多尺度卷積模塊和注意力機(jī)制均能有效提升網(wǎng)絡(luò)的準(zhǔn)確率。試驗(yàn)2相比于試驗(yàn)1,準(zhǔn)確率提高1.3%,參數(shù)量略有減小。因?yàn)槭褂枚喑叨染矸e結(jié)構(gòu)代替7×7卷積核后,增強(qiáng)了模型的特征提取能力,模型可提取到不同感受野下的細(xì)粒度特征,使其有更好的分類效果,多個(gè)小卷積核代替大卷積核也減小了模型參數(shù)。試驗(yàn)3、4模型準(zhǔn)確率相比于試驗(yàn)1分別提高1.1%和2.2%,表明在殘差結(jié)構(gòu)中添加注意力機(jī)制,可增大模型中棗果特征信息的權(quán)重,抑制對(duì)復(fù)雜背景特征信息的提取。同時(shí),試驗(yàn)4中的CBAM從通道和空間兩個(gè)維度上關(guān)注棗果特征,相比于試驗(yàn)3中只關(guān)注通道注意的SENet,可取得更好的效果。Jujube-ResNet-18則有效融合多尺度卷積塊和CBAM,準(zhǔn)確率進(jìn)一步提升。
3.4 混淆矩陣
混淆矩陣可直觀表明模型在各個(gè)品種上的分類效果。ResNet-18和Jujube-ResNet-18在測(cè)試集上的混淆矩陣如圖7、圖8所示。分析可知,在棗果特征區(qū)分較為明顯的茶壺棗和月牙棗上,本文提出的Jujube-ResNet-18相比于ResNet-18,識(shí)別正確的數(shù)量分別增加3個(gè)和4個(gè)。在棗果特征較為相似的品種上,例如在大荔龍棗、酥園鈴和小紫棗之間,大荔龍棗識(shí)別正確的數(shù)量增加1個(gè),消除了識(shí)別為酥園鈴的錯(cuò)判;其中在小紫棗上提升效果最明顯,識(shí)別正確的數(shù)量增加8個(gè),消除了識(shí)別為大荔龍棗和酥園鈴的錯(cuò)判。但在酥園鈴上,錯(cuò)判為大荔龍棗和小紫棗的情況依舊存在。
根據(jù)混淆矩陣計(jì)算出兩種模型在每類棗品種上的精準(zhǔn)率、召回率和F1-score,評(píng)價(jià)指標(biāo)對(duì)比如表6所示。
本文提出的Jujube-ResNet-18在測(cè)試集上的平均精準(zhǔn)率為90.4%、召回率為89.4%、F1-score為89.5%;ResNet-18在測(cè)試集上的平均精確率為86.2%、召回率為86.2%、F1-score為86%。在上述三種指標(biāo)中,表明本文提出的模型具有較好的識(shí)別效果。
3.5 模型驗(yàn)證
為驗(yàn)證Jujube-ResNet-18模型的泛化性能,本文重新采集10類棗品種圖像各20張,使用訓(xùn)練好的Jujube-ResNet-18模型進(jìn)行識(shí)別,結(jié)果如表7所示。
由表7可知,本文提出的Jujube-ResNet-18在200張驗(yàn)證圖像上的準(zhǔn)確率可達(dá)89.0%,與測(cè)試集上的準(zhǔn)確率相當(dāng),表明本文模型有較好的泛化性能。
3.6 特征可視化
Grad-CAM[23]是一種特征可視化方法,通過生成的熱力圖可幫助理解卷積神經(jīng)網(wǎng)絡(luò)各層學(xué)習(xí)到的特征。在熱力圖中,顏色越深的區(qū)域代表模型的關(guān)注度越高,紅色區(qū)域即為重點(diǎn)關(guān)注區(qū)域。本文隨機(jī)選取以下四類棗品種圖像,利用Grad-CAM方法對(duì)ResNet-18和Jujube-ResNet-18模型的最后一個(gè)卷積層進(jìn)行可視化,生成的熱力圖如圖9所示。
從圖9可以看出,Jujube-ResNet-18模型相比于ResNet-18,不僅關(guān)注到棗果的細(xì)粒度特征而且減少了對(duì)復(fù)雜背景信息的學(xué)習(xí)。例如在茶壺棗上,其顯著性特征為棗果上半部的凸起部分;在月牙棗上,其中下部略有彎曲。本文模型不僅重點(diǎn)關(guān)注到這些區(qū)域,而且減少了葉片、樹枝等信息的干擾。
4 結(jié)論
針對(duì)自然場(chǎng)景下的棗品種識(shí)別問題,提出一種基于改進(jìn)ResNet-18的棗品種識(shí)別模型,并通過試驗(yàn)驗(yàn)證。
1) 在繼承ResNet-18優(yōu)點(diǎn)的基礎(chǔ)上,引入多尺度卷積模塊代替單一尺度卷積核,使模型獲取到棗果不同尺度的特征信息,更有助于表征不同棗品種。注意力機(jī)制的加入,增強(qiáng)模型的抗噪聲干擾能力和魯棒性,模型分類性能顯著提升。
2) 本文模型在十類棗品種數(shù)據(jù)集上的準(zhǔn)確率達(dá)89.5%,參數(shù)量為1.135×107,模型權(quán)重大小為43.41 MB,較好地平衡模型復(fù)雜度和分類精度,且綜合性能優(yōu)于AlexNet、ResNet-18、InceptionV3等主流的卷積神經(jīng)網(wǎng)絡(luò)。充分表明本文模型適用于自然場(chǎng)景下的棗品種識(shí)別。
3) 在之后研究工作中,將繼續(xù)優(yōu)化本文模型,考慮加入度量學(xué)習(xí)方法使棗品種圖像特征類內(nèi)聚合,類間分散,進(jìn)一步提升模型的分類性能。同時(shí)將增加棗品種數(shù)據(jù)集的種類,擴(kuò)大本文模型的實(shí)際應(yīng)用范圍。
參 考 文 獻(xiàn)
[1]劉孟軍, 王玖瑞, 劉平, 等. 中國棗生產(chǎn)與科研成就及前沿進(jìn)展[J]. 園藝學(xué)報(bào), 2015, 42(9): 1683-1698.
Liu Mengjun, Wang Jiurui, Liu Ping, et al. Historical achievements and frontier advances in the production and research of Chinese jujube (ziziphus jujuba) in China [J]. Acta Horticulturae Sinica, 2015, 42(9): 1683-1698.
[2]劉孟軍, 王玖瑞. 新中國果樹科學(xué)研究70年——棗[J]. 果樹學(xué)報(bào), 2019, 36(10): 1369-1381.
Liu Mengjun, Wang Jiurui. Fruit scientific research in New China in the past 70 years: Chinese jujube [J]. Journal of Fruit Science, 2019, 36(10): 1369-1381.
[3]陽靈燕, 張紅燕, 陳玉峰, 等. 機(jī)器學(xué)習(xí)在農(nóng)作物品種識(shí)別中的應(yīng)用研究進(jìn)展[J]. 中國農(nóng)學(xué)通報(bào), 2020, 36(30): 158-164.
Yang Lingyan, Zhang Hongyan, Chen Yufeng, et al. The application of machine learning in crop variety recognition: A review [J]. Chinese Agricultural Science Bulletin, 2020, 36(30): 158-164.
[4]蘇軍, 饒?jiān)?張敬堯, 等. 基于GA優(yōu)化SVM的干制紅棗品種分類方法[J]. 洛陽理工學(xué)院學(xué)報(bào)(自然科學(xué)版), 2018, 28(4): 65-69, 93.
Su Jun, Rao Yuan, Zhang Jingyao, et al. Study on classification method of jujube varieties based on GA optimized SVM [J]. Journal of Luoyang Institute of Science and Technology (Natural Science Edition), 2018, 28(4): 65-69, 93.
[5]Sabanci K. Different apple varieties classification using KNN and MLP algorithms [J]. International Journal of Intelligent Systems and Applications in Engineering, 2016, 4(S1): 166-169.
[6]張珂, 馮曉晗, 郭玉榮, 等. 圖像分類的深度卷積神經(jīng)網(wǎng)絡(luò)模型綜述[J]. 中國圖象圖形學(xué)報(bào), 2021, 26(10): 2305-2325.
Zhang Ke, Feng Xiaohan, Guo Yurong, et al. Overview of deep convolutional neural networks for image classification [J]. Journal of Image and Graphics, 2021, 26(10): 2305-2325.
[7]Krizhevsky A, Sutskever I, Hinton G E. Image Net classification with deep convolutional neural networks [J]. Communications of the ACM, 2017, 60(6): 84-90.
[8]Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition [J]. arXiv Preprint arXiv: 1409.1556, 2014.
[9]He K, Zhang X, Ren S, et al. Deep residual learning for image recognition [C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 770-778.
[10]Szegedy C, Liu W, Jia Y, et al. Going deeper with convolutions [C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015: 1-9.
[11]余游江, 喻彩麗, 尚遠(yuǎn)航, 等. 基于Stacking模型的紅棗品種分類識(shí)別[J]. 北方園藝, 2022(8): 139-148.
Yu Youjiang, Yu Caili, Shang Yuanhang, et al. Classification and recognition of jujube varieties based on Stacking model fusion [J]. Northern Horticulture, 2022(8): 139-148.
[12]El-Kahlout M I, Abu-Naser S S. Peach type classification using deep learning [J]. International Journal of Academic Engineering Research, 2019, 3(12).
[13]倪建功, 楊昊巖, 李娟, 等. 基于改進(jìn)型AlexNet的花生莢果品種識(shí)別[J]. 花生學(xué)報(bào), 2021, 50(4): 14-22.
Ni Jiangong, Yang Haoyan, Li Juan, et al. Variety identification of peanut pod based on improved AlexNet [J].Journal of Peanut Science, 2021, 50(4): 14-22.
[14]趙騰飛, 胡國玉, 周建平, 等. 卷積神經(jīng)網(wǎng)絡(luò)算法在核桃仁分類中的研究[J]. 中國農(nóng)機(jī)化學(xué)報(bào), 2022, 43(6): 181-189.
Zhao Tengfei, Hu Guoyu, Zhou Jianping, et al. Research on convolutional neural network algorithm for walnut kernel classification identification [J]. Journal of Chinese Agricultural Mechanization, 2022, 43(6): 181-189.
[15]Hu J, Shen L, Sun G. Squeeze and excitation networks [C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 7132-7141.
[16]蘇寶峰, 沈磊, 陳山, 等. 基于注意力機(jī)制的葡萄品種多特征分類方法[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2021, 52(11): 226-233, 252.
Su Baofeng, Shen Lei, Chen Shan, et al. Multi-features identification of grape cultivars based on attention mechanism [J]. Transactions of the Chinese Society for Agricultural Machinery, 2021, 52(11): 226-233, 232.
[17]張繼成, 李德順. 基于深度殘差學(xué)習(xí)的成熟草莓識(shí)別方法[J]. 中國農(nóng)機(jī)化學(xué)報(bào), 2022, 43(2): 136-142.
Zhang Jicheng, Li Deshun. Ripe strawberry recognition method based on deep residual learning [J]. Journal of Chinese Agricultural Mechanization, 2022, 43(2): 136-142.
[18]耿磊, 黃亞龍, 郭永敏. 基于融合注意力機(jī)制的蘋果品種分類方法[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2022, 53(6): 304-310, 369.
Geng Lei, Huang Yalong, Guo Yongmin. Apple variety classification method based on fusion attention mechanism [J]. Transactions of the Chinese Society for Agricultural Machinery, 2022, 53(6): 304-310, 369.
[19]馬崠奡, 唐娉, 趙理君, 等. 深度學(xué)習(xí)圖像數(shù)據(jù)增廣方法研究綜述[J]. 中國圖象圖形學(xué)報(bào), 2021, 26(3): 487-502.
Ma Donggao, Tang Ping, Zhao Lijun, et al. Review of data augmentation for image in deep learning [J]. Journal of Image and Graphics, 26(3): 487-502.
[20]Peng G, Tuo X, Shen T, et al. Recognition of rock micro-fracture signal based on deep convolution neural network inception algorithm [J]. IEEE Access, 2021, 9: 89390-89399.
[21]黃英來, 艾昕. 改進(jìn)殘差網(wǎng)絡(luò)在玉米葉片病害圖像的分類研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2021, 57(23): 178-184.
Huang Yinglai, Ai Xin. Research on classification of corn leaf disease image by improved residual network [J]. Computer Engineering and Applications, 2021, 57(23): 178-184.
[22]Woo S, Park J, Lee J-Y, et al. CBAM: Convolutional block attention module [C]. Proceedings of the European Conference on Computer Vision (ECCV), 2018: 3-19.
[23]Selvaraju R R, Cogswell M, Das A, et al. Grad-CAM: Visual explanations from deep networks via gradient-based localization [C]. Proceedings of the IEEE International Conference on Computer Vision, 2017: 618-626.