戴天虹 翟冰
摘 要:木材是一種常見的可再生資源,不同品種的木材有著不同的用途和商業(yè)價(jià)值。傳統(tǒng)的木材分類工作主要依靠人工完成,工作效率較低。為提高木材識(shí)別效率,提出一種基于改進(jìn)EfficientNet的木材識(shí)別方法。該方法以EfficientNet 作為基準(zhǔn)模型,采用大核注意力模塊代替部分移動(dòng)翻轉(zhuǎn)瓶頸卷積(Mobile Inverted Bottleneck Convolution, MBConv)模塊中的壓縮激勵(lì)網(wǎng)絡(luò)(squeeze-and-excitation networks, SENet),聯(lián)合2種注意力機(jī)制使網(wǎng)絡(luò)能更有效地提取木材細(xì)粒度信息。訓(xùn)練過程中引入漸進(jìn)式學(xué)習(xí)策略,采用不同尺寸大小的圖像和不同丟棄概率的Dropout層進(jìn)行訓(xùn)練,進(jìn)一步提升模型訓(xùn)練速度和識(shí)別準(zhǔn)確率。試驗(yàn)結(jié)果表明,改進(jìn)后的EfficientNet模型識(shí)別準(zhǔn)確率達(dá)到99.83%,相比于未改進(jìn)的EfficientNet模型提高了0.49%,且模型參數(shù)僅6.16 MB。該研究的模型能夠很好地識(shí)別木材種類,為移動(dòng)端部署木材種類識(shí)別模型提供參考。
關(guān)鍵詞:木材識(shí)別;EfficientNet;大核注意力;細(xì)粒度信息;漸進(jìn)式學(xué)習(xí)
中圖分類號(hào):TP391.4??? 文獻(xiàn)標(biāo)識(shí)碼:A?? 文章編號(hào):1006-8023(2023)04-0093-08
Wood Recognition Research Based on Improved EfficientNet
DAI Tianhong, ZHAI Bing
(College of Mechanical and Electrical Engineering, Northeast Forestry University, Harbin 150040, China)
Abstract:Wood is a common renewable resource. Different kinds of wood have different uses and commercial values. The traditional wood classification work mainly depends on manual work, and the work efficiency is low. In order to improve the efficiency of wood recognition, a wood recognition method based on improved EfficientNet is proposed. In this method, EfficientNet is used as the benchmark model, and the large kernel attention module is used to replace part of squeeze-and-excitation networks (SENet) in Mobile Inverted Bottleneck Convolution (MBconv), and combines the two attention mechanisms to enable the network to extract wood fine grain information more effectively. Progressive learning strategy is introduced in the training process, and images of different sizes and Dropout layers with different discarding probabilities are used for training, which further improves the training speed and recognition accuracy of the model. The experimental results show that the recognition accuracy of the improved EfficientNet model can reach 99.83%, which is 0.49% higher than that of the unimproved EfficientNet model, and the model parameters are only 6.16 MB. The proposed model can identify wood species well, and can provide reference for the deployment of wood species identification model in mobile terminal.
Keywords:Wood recognition; EfficientNet; large kernel attention; fine-grained information; progressive learning
收稿日期:2022-10-22
基金項(xiàng)目:中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金資助(2572019CP17);黑龍江省自然科學(xué)基金項(xiàng)目(C201414);哈爾濱市科技創(chuàng)新人才項(xiàng)目(2014RFXXJ086)
第一作者簡介:戴天虹,教授,碩士生導(dǎo)師。研究方向?yàn)槟静娜毕輽z測、圖像處理、無線傳感器網(wǎng)絡(luò)路由協(xié)議及匯聚節(jié)點(diǎn)選址算法等。E-mail: th_2000@sina.com
引文格式:戴天虹,翟冰. 基于改進(jìn)EfficientNet的木材識(shí)別研究[J]. 森林工程, 2023,39(4):93-100.
DAI T H, ZHAI B. Wood recognition research based on improved EfficientNet[J]. Forest Engineering, 2023, 39(4):93-100.
0 引言
木材是社會(huì)生產(chǎn)活動(dòng)中重要的物質(zhì)材料,與人們的生活息息相關(guān)。不同種類的木材具有不同的理化性質(zhì),從而導(dǎo)致其用途和商業(yè)價(jià)值各不相同。正確地識(shí)別木材類別,對于木材合理利用、質(zhì)量評(píng)定和公平論價(jià)等都具有重要意義[1]。
早期的木材分類工作主要依靠人工根據(jù)木材物理性質(zhì)的直觀表征,通過觀察對比完成,這需要一定的專業(yè)經(jīng)驗(yàn)知識(shí),且容易出現(xiàn)誤判,其效率較低。隨著計(jì)算機(jī)視覺技術(shù)的發(fā)展,木材種類自動(dòng)識(shí)別技術(shù)主要包括2類方法,一類是基于傳統(tǒng)的機(jī)器學(xué)習(xí)的識(shí)別方法,另一類是基于深度學(xué)習(xí)的識(shí)別方法。基于傳統(tǒng)的機(jī)器學(xué)習(xí)的識(shí)別方法需要人工提取圖像特征,例如顏色和紋理等,再運(yùn)用機(jī)器學(xué)習(xí)的方法進(jìn)行識(shí)別。Wang等[2]采用灰度共生矩陣(Grey Level Co-occurrence Matrix, GLCM)進(jìn)行特征提取,通過支持向量機(jī)(Support Vector Machine, SVM)實(shí)現(xiàn)分類,在24種木材的480個(gè)樣本的數(shù)據(jù)采集達(dá)到了91.7%的識(shí)別準(zhǔn)確率。戴天虹等[3]利用RGB圖像中3個(gè)顏色分量的顏色矩信息以及圖片的均值和方差構(gòu)建了11個(gè)特征向量對圖像進(jìn)行處理和分級(jí)。王克奇等[4]將圖像從RGB空間轉(zhuǎn)換到L*a*b*顏色空間,并利用模擬退火算法進(jìn)行特征選擇,最后結(jié)合BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)和K最近鄰(K-Nearest Neighbor, KNN)2種分類方法實(shí)現(xiàn)木材分類。Sugiarto等[5]利用方向梯度直方圖(Histogram of Oriented Gradient, HOG)提取木材的紋理,然后采用支持向量機(jī)進(jìn)行識(shí)別。趙鵬等[6]對高光譜圖像進(jìn)行降維處理并采用非下采樣輪廓波變換(Nonsub Sampled Contourlet Transform, NSCT)實(shí)現(xiàn)圖像融合,再對融合圖像使用改進(jìn)的基本灰度光環(huán)矩陣(Improved-Basic Gray Level Aura Matrix, I-BGLAM)提取其紋理特征,同時(shí)將高光譜圖像的全波段求均并進(jìn)行光滑處理得到光譜特征,最后融合紋理特征和光譜特征并利用極限學(xué)習(xí)機(jī)(Extreme Learning Machine, ELM)實(shí)現(xiàn)分類。傳統(tǒng)的機(jī)器學(xué)習(xí)方法在特征提取階段效率較低,并且所提取的特征相對于樣本數(shù)據(jù)的代表性將直接影響最終識(shí)別的效果。近年來,深度學(xué)習(xí)發(fā)展非常迅速,卷積神經(jīng)網(wǎng)絡(luò)( Convolutional Neural Networks,CNN)作為深度學(xué)習(xí)的重要組成部分,其顯著的特征提取性能使他受到廣泛關(guān)注[7-12]。Gao等[13]提出一種結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制的模型對木材缺陷進(jìn)行分類。Yang等[14]采用在ImageNet預(yù)訓(xùn)練過的VGG19對25種木材進(jìn)行特征提取和分類,識(shí)別準(zhǔn)確率達(dá)到93.63%。Liu等[15]提出一種基于分割混洗殘差(Split-Shuffle-Residual, SSR)的CNN,利用SSR模塊在通道維度進(jìn)行分割和洗牌操作,并通過與殘差結(jié)構(gòu)相結(jié)合減少了計(jì)算消耗成本,對橡膠木板的分類準(zhǔn)確率達(dá)到了94.86%。
綜上,為進(jìn)一步提高木材圖像識(shí)別準(zhǔn)確率和速度,本研究提出一種基于改進(jìn)EfficientNet的木材識(shí)別方法,通過消融試驗(yàn)證明該方法的有效性,為未來更高效地開展木材識(shí)別工作以及移動(dòng)端設(shè)備的模型部署提供技術(shù)與方法。
1 改進(jìn)的EfficientNet模型
1.1 EfficientNet 模型
以往的卷積神經(jīng)網(wǎng)絡(luò)模型通常通過調(diào)整圖像輸入分辨率、網(wǎng)絡(luò)的深度和通道寬度3個(gè)參數(shù)中的一個(gè)來優(yōu)化模型性能,而這種優(yōu)化方法需要手動(dòng)調(diào)整網(wǎng)絡(luò)模型,這使得網(wǎng)絡(luò)設(shè)計(jì)的難度增大,且需要消耗更多的資源成本。Tan等[16]提出了一種復(fù)合縮放方法對網(wǎng)絡(luò)的寬度、深度和分辨率進(jìn)行統(tǒng)一縮放調(diào)整,復(fù)合縮放公式如式(1)所示。
depth:d=αφ
width:w=βφresolution:r=γφ
s.t.α β2γ2≈2
α≥1,β≥1,γ≥1。(1)
式中:d、w、r分別表示網(wǎng)絡(luò)的深度、寬度和輸入圖像的分辨率;φ表示復(fù)合縮放系數(shù);α、β、γ表示對應(yīng)的縮放基數(shù)。
通過固定φ=1,并基于式(1)中的限制條件,利用網(wǎng)格搜索得到α=1.2,β=1.1,γ=1.15,至此得到EfficientNetB0模型。以EfficientNetB0為基線模型,即固定α、β、γ的值,對φ取不同的值便可得到EfficientNetB1—B7。因此,EfficientNet共包括8個(gè)系列網(wǎng)絡(luò),即EfficientNetB0—B7,而EfficientNetB0作為基線模型他的參數(shù)量最小,運(yùn)行速度最快,因此本研究選擇EfficientNetB0為基準(zhǔn)模型進(jìn)行改進(jìn)。
EfficientNetB0模型的結(jié)構(gòu)如圖1所示,由2個(gè)卷積層、16個(gè)移動(dòng)翻轉(zhuǎn)瓶頸卷積(Mobile Inverted Bottleneck Convolution, MBConv)模塊、1個(gè)全局平均池化層和1個(gè)全連接層(Fully Connected Layers,F(xiàn)C)組成。其中,輸入圖像的尺寸大小為224×224×3,首先通過Conv3×3進(jìn)行升維操作得到112×112×32的特征圖,然后利用一系列MBConv模塊對特征圖進(jìn)行運(yùn)算處理得到7×7×320的特征圖,最后利用Conv1×1、平均池化和全連接層實(shí)現(xiàn)輸出結(jié)果。
MBConv模塊結(jié)構(gòu)如圖2所示,主要由普通卷積、深度卷積(Depthwise Convolution)(包括BN和Swish)、SE(Squeeze-and-Excitation)模塊和Dropout層組成。其中深度卷積是逐通道的卷積運(yùn)算,即1個(gè)卷積核負(fù)責(zé)1個(gè)通道。而1×1的普通卷積也稱為逐點(diǎn)卷積,可以在通道維度上對深度卷積產(chǎn)生的特征圖進(jìn)行加權(quán)運(yùn)算,兩者結(jié)合可有效降低模型的計(jì)算量與參數(shù)量。SE模塊是一種注意力機(jī)制,可獲取不同通道的權(quán)重,通過權(quán)重與原始特征相乘得到加權(quán)后的輸出特征,有助于模型在通道維度上對重要的特征信息產(chǎn)生更多的關(guān)注。
1.2 模型改進(jìn)
近年來,注意力機(jī)制在計(jì)算機(jī)視覺中發(fā)揮著越來越重要的作用,可以看作是一個(gè)基于輸入特征的自適應(yīng)選擇過程。計(jì)算機(jī)視覺中的注意力可分為通道注意力、空間注意力、時(shí)間注意力和分支注意力4個(gè)基本類別[17],不同的注意力在視覺任務(wù)中有著不同的效果。除此之外,自注意機(jī)制[18-19]是另外一種特殊的注意力機(jī)制,起源于自然語言處理(Natural Language Processing,NLP),由于其擁有捕獲長距離依賴關(guān)系和自適應(yīng)性的優(yōu)點(diǎn),逐漸在計(jì)算機(jī)視覺領(lǐng)域得到了廣泛應(yīng)用。
大核注意力(Large Kernel Attention,LKA)[20]具有卷積操作和自注意力機(jī)制的優(yōu)勢,既兼顧了局部上下文信息和長距離依賴關(guān)系,又避免了自注意力機(jī)制忽略通道維度的適應(yīng)性等缺點(diǎn)。大核注意力由3個(gè)部分組成:深度卷積、深度膨脹卷積(Depthwise dilation convolution)和逐點(diǎn)卷積(Pointwise convolution)。具體地說,1個(gè)K×K的卷積可以分解為1個(gè)K/d×K/d的深度膨脹卷積(d為膨脹率,·表示向上取整),1個(gè)(2d-1)×(2d-1)的深度卷積和1個(gè)1×1的普通卷積,因此連接上述分解后的模塊便可組成大核注意力模塊。特征圖通過大核注意力模塊可以計(jì)算1個(gè)像素點(diǎn)的重要性并生成注意力圖。LKA模塊結(jié)構(gòu)如圖3所示。
LKA模塊可以描述為下式
Attention=Conv1×1(DW-D-Conv(DW-Conv(F)))。(2)
Output=AttentionF。(3)
式中:DW-D-Conv表示深度膨脹卷積;DW-Conv表示深度卷積;F∈RC×H×W表示輸入特征圖,C為通道個(gè)數(shù),H為高度,W為寬度;Attention∈RC×H×W是注意力圖,注意力圖中的值表示每個(gè)特征元素的重要性表示元素相乘。
LKA能兼顧長距離依賴關(guān)系和局部上下文信息的同時(shí)實(shí)現(xiàn)通道維度的適應(yīng)性,進(jìn)一步優(yōu)化模型性能。使用LKA模塊代替SE模塊得到改進(jìn)后的LKA-MBConv模塊,其結(jié)構(gòu)如圖4所示(試驗(yàn)中K=21, d=3)。由于LKA模塊的參數(shù)量相比于SE模塊較多且2種注意力機(jī)制各有其特點(diǎn),因此不明顯增加模型參數(shù)量以及聯(lián)合2種注意力機(jī)制的作用使模型可以更有效地提取圖像中的細(xì)粒度信息,僅針對含有MBConv模塊的階段(Stage)中的第一個(gè)MBConv模塊采用LKA-MBConv模塊代替,最終改進(jìn)后的EfficientNetB0如圖5所示。
1.3 漸進(jìn)式學(xué)習(xí)策略
圖像分辨率的大小對訓(xùn)練效率起著重要的作用。在訓(xùn)練過程僅僅單一地改變圖像分辨率的大小可能會(huì)導(dǎo)致模型準(zhǔn)確率的下降。Tan等[21]提出漸進(jìn)式學(xué)習(xí)策略,即當(dāng)采用不同分辨率大小的圖像對模型進(jìn)行訓(xùn)練時(shí),也需要自適應(yīng)地調(diào)整正則化程度以匹配當(dāng)前圖像分辨率,而非采用固定的正則化手段。具體地說,當(dāng)采用較小分辨率的圖像時(shí),其包含的細(xì)粒度信息也會(huì)縮減,需要較弱的正則化手段促進(jìn)模型快速學(xué)習(xí)到簡單的特征表示,若此時(shí)采用較強(qiáng)的正則化手段則會(huì)進(jìn)一步弱化圖像的語義信息,從而難以獲得理想的特征表示。當(dāng)采用較大分辨率的圖像時(shí),其包含的細(xì)粒度信息較多,更容易過擬合,因此采用更強(qiáng)的正則化手段有助于提高模型的泛化性能。
本研究基于漸進(jìn)式學(xué)習(xí)策略將總迭代次數(shù)劃分為多個(gè)階段,不同階段中采用不同尺寸的輸入圖像和不同丟棄概率的Dropout層,在訓(xùn)練過程中引入漸進(jìn)式學(xué)習(xí)策略能夠有效提高模型訓(xùn)練速度和識(shí)別準(zhǔn)確率。
2 試驗(yàn)與性能分析
2.1 試驗(yàn)參數(shù)設(shè)置
采用的操作系統(tǒng)是Windows10 專業(yè)版,中央處理器為Intel Core i7-12700H 2.30 GHz,顯卡為NVIDIA GeForce RTX3060,顯存大小為 6 GB,深度學(xué)習(xí)框架采用了Pytorch 1.12。試驗(yàn)中基于漸進(jìn)式學(xué)習(xí)策略進(jìn)行模型訓(xùn)練,訓(xùn)練中的輸入圖像最小尺寸為128×128,最大尺寸為224×224,測試圖像的尺寸始終為224×224,Dropout層丟棄概率最小為0(即不丟棄),最大為0.2,使用Adam優(yōu)化器訓(xùn)練50個(gè)周期,將總的迭代次數(shù)分為5個(gè)階段,每個(gè)階段10個(gè)周期,在同一個(gè)階段中采用的輸入圖像尺寸和Dropout丟棄概率相同,漸進(jìn)式學(xué)習(xí)中圖像尺寸與Dropout概率設(shè)置見表1。此外,初始學(xué)習(xí)率設(shè)置為0.000 1,采用學(xué)習(xí)率指數(shù)衰減的方式更新學(xué)習(xí)率,衰減步長為1步,學(xué)習(xí)衰減率為0.95。批處理大小設(shè)置為16,損失函數(shù)采用交叉熵?fù)p失。
2.2 數(shù)據(jù)集
選擇了東北地區(qū)常見的5類樹種(白樺、紅松、落葉松、水曲柳和柞木)的木材樣本進(jìn)行試驗(yàn),木材圖像在標(biāo)準(zhǔn)照明體為D65(即色溫為6 500 K)的條件下采集,最終獲得了包含1 000張圖片的源數(shù)據(jù)庫,圖片尺寸大小均為512×512,每種木材又分為徑切和弦切2類,因此共得到10個(gè)類別,其中每種類別各100張圖片,各類別數(shù)據(jù)樣本示例如圖6所示。
2.3 數(shù)據(jù)增強(qiáng)
針對源數(shù)據(jù)樣本過少的缺點(diǎn),對其采用離線數(shù)據(jù)增強(qiáng)進(jìn)行擴(kuò)充,采用的離線數(shù)據(jù)增強(qiáng)方法有:1)水平翻轉(zhuǎn),對源數(shù)據(jù)集圖片進(jìn)行水平翻轉(zhuǎn);2)隨機(jī)旋轉(zhuǎn),對圖像隨機(jī)旋轉(zhuǎn)固定角度(90°、180°和270°);3)隨機(jī)添加高斯模糊,由于實(shí)際應(yīng)用場景中圖像清晰度各不相同,因此添加高斯模糊有助于模擬真實(shí)場景,增強(qiáng)后的圖像樣例如圖7所示(以紅松弦切為例)。通過以上離線數(shù)據(jù)增強(qiáng)最終獲得擴(kuò)充后的數(shù)據(jù)集共6 025張木材圖像。按照大約8∶2的比例劃分訓(xùn)練集與測試集,最終得到訓(xùn)練集4 814張圖片,測試集1 211張圖片,各類別木材圖片數(shù)量統(tǒng)計(jì)見表2。
2.4 試驗(yàn)評(píng)價(jià)標(biāo)準(zhǔn)
將正確分類的木材圖像數(shù)量與總的木材圖像數(shù)量的比值作為分類評(píng)價(jià)標(biāo)準(zhǔn),如式(4)所示。
P=NTNA×100%。(4)
式中:P為識(shí)別準(zhǔn)確率,%;NT為分類正確的木材圖像數(shù)量,個(gè);NA為全部木材圖像數(shù)量,個(gè)。
2.5 不同模型性能對比
采用ResNet50、MobileNetV3、EfficientNetB0和改進(jìn)后的EfficientNetB0進(jìn)行對比,評(píng)價(jià)指標(biāo)包括4項(xiàng),分別是識(shí)別準(zhǔn)確率(測試集)、模型參數(shù)、浮點(diǎn)運(yùn)算量和批處理時(shí)間(批次大小為16),試驗(yàn)結(jié)果見表3。不同的模型在50個(gè)epoch中的識(shí)別準(zhǔn)確率變化曲線如圖8所示,訓(xùn)練損失值變化曲線如圖9所示。
由表3可知,本算法的識(shí)別準(zhǔn)確率達(dá)到了99.83%,要高于ResNet50和MobileNetV3,且相比于基準(zhǔn)模型EfficientNetB0提高了0.49%。本模型對于內(nèi)存的需求不大,模型參數(shù)量僅為6.16 MB,要遠(yuǎn)低于ResNet50,浮點(diǎn)運(yùn)算量同樣低于ResNet50,而準(zhǔn)確率要高于ResNet50。雖然本模型參數(shù)量和浮點(diǎn)運(yùn)算量與MobileNetV3和EfficientNetB0相比都要高一些,但是其差距并不大,從批次處理時(shí)間上可以看出本模型僅僅高于基準(zhǔn)模型0.005 s,在實(shí)際應(yīng)用中的影響較小,而識(shí)別準(zhǔn)確率相比而言則是顯得更為重要。因此整體而言,本模型針對木材識(shí)別問題具有一定的應(yīng)用價(jià)值。
2.6 消融試驗(yàn)
1)試驗(yàn)1
為驗(yàn)證改進(jìn)方法中不同模塊和策略對模型性能的貢獻(xiàn),以EfficientNetB0為基準(zhǔn)模型設(shè)計(jì)了消融試驗(yàn)。試驗(yàn)結(jié)果見表4。由表4可知,單獨(dú)引入LKA模塊后,識(shí)別準(zhǔn)確率相比于基準(zhǔn)模型提升了0.24%,但總的訓(xùn)練時(shí)間有所增長。單獨(dú)采用漸進(jìn)式學(xué)習(xí)策略時(shí),識(shí)別準(zhǔn)確率相比于基準(zhǔn)模型提升了0.08%,同時(shí)總的訓(xùn)練時(shí)間更短。而聯(lián)合LKA模塊和漸進(jìn)式學(xué)習(xí)策略2種改進(jìn)后,相比于基準(zhǔn)模型的識(shí)別準(zhǔn)確率提升了0.49%,總的訓(xùn)練時(shí)間也比基準(zhǔn)模型更短。測試結(jié)果表明,LKA模塊和漸進(jìn)式學(xué)習(xí)策略使模型性能均有所提升,二者同時(shí)添加的效果最好。因此本研究所提出的模型能更好地勝任木材識(shí)別任務(wù)。
2)試驗(yàn)2
針對LKA模塊中K和d的取值對最終模型性能的影響進(jìn)行了試驗(yàn)。以本模型為基準(zhǔn)進(jìn)行了對比,結(jié)果見表5。由表5可知,當(dāng)K和d分別取值21和3或28和4時(shí),模型性能最好,這表明大核卷積對于視覺任務(wù)的重要性。與分解21×21的大核卷積相比,采用分解28×28的大核卷積的模型性能并無明顯提升,但分解28×28的大核卷積會(huì)使模型參數(shù)量增加,因此本模型在試驗(yàn)中將K和d 設(shè)置為21和3。
3)試驗(yàn)3
針對基準(zhǔn)模型中MBConv模塊內(nèi)的SE模塊替換為LKA模塊的方案設(shè)計(jì)了對比試驗(yàn),即采用2種方案來驗(yàn)證不同的改進(jìn)對模型性能的影響。方案1是本模型,即基準(zhǔn)模型中含有MBConv模塊的階段中的第一個(gè)MBConv模塊內(nèi)的SE模塊替換為LKA模塊;方案2則是將基準(zhǔn)模型中所有MBConv模塊內(nèi)的SE模塊替換為LKA模塊。試驗(yàn)結(jié)果見表6。由表6可知,雖然方案2實(shí)現(xiàn)了比基準(zhǔn)模型更高的識(shí)別準(zhǔn)確率,但是方案1(本模型)相比于基準(zhǔn)模型提升更大,而且相比于方案2,方案1的模型參數(shù)和浮點(diǎn)運(yùn)算量更小,由此可見聯(lián)合2種注意力機(jī)制的模型性能更好。因此綜合考慮下,本模型更適合移動(dòng)端的部署。
2.7 混淆矩陣
混淆矩陣是表示精度評(píng)價(jià)的一種標(biāo)準(zhǔn)格式,經(jīng)常被用來描述分類模型在測試數(shù)據(jù)上的性能。本試驗(yàn)中10個(gè)類別的混淆矩陣如圖10所示,橫軸表示預(yù)測類別,縱軸表示真實(shí)類別,藍(lán)色深淺表示識(shí)別的準(zhǔn)確性,顏色越深,識(shí)別準(zhǔn)確率越高。從圖10可知,改進(jìn)后的模型除了第6類(水曲柳徑切)識(shí)別存在誤差,其余類別均能百分百識(shí)別正確,總的識(shí)別率能達(dá)到99%以上,因此改進(jìn)的模型實(shí)現(xiàn)了預(yù)期效果,能夠很好地識(shí)別多數(shù)木材種類,可以為自動(dòng)化木材種類識(shí)別提供技術(shù)參考。
3 結(jié)論
針對木材識(shí)別問題提出一種基于改進(jìn)EfficientNet的識(shí)別方法。該方法引入大核注意力模塊和漸進(jìn)式學(xué)習(xí)策略,有效增強(qiáng)了模型對細(xì)粒度特征信息的提取能力,加快了模型訓(xùn)練速度,提高了模型識(shí)別準(zhǔn)確率。消融試驗(yàn)對比了不同模塊與策略對模型性能的影響。此外,雖然改進(jìn)后的模型實(shí)現(xiàn)了更高的識(shí)別準(zhǔn)確率,但其相比于基準(zhǔn)模型在參數(shù)量和浮點(diǎn)運(yùn)算量都有所提升,從批處理時(shí)間上來看該提升對模型處理圖片速度影響甚微,仍適合部署于資源有限的移動(dòng)端設(shè)備,但是還需進(jìn)一步優(yōu)化。同時(shí),本試驗(yàn)所采用的木材數(shù)據(jù)集規(guī)模有限,因此如何進(jìn)一步優(yōu)化模型結(jié)構(gòu)和進(jìn)一步挖掘細(xì)粒度特征信息,使模型參數(shù)量和浮點(diǎn)運(yùn)算量減小的同時(shí)更加適合移動(dòng)端部署和更廣泛的木材識(shí)別任務(wù)是下一步要研究的內(nèi)容。
【參 考 文 獻(xiàn)】
[1]晁曉菲,樊李行,蔡騁,等.基于多特征提取和選擇的木材分類與識(shí)別[J].現(xiàn)代農(nóng)業(yè)科技,2018(18):118-120.
CHAO X F, FAN L X, CAI C, et al. Wood texture classification and identification based on multi-feature extraction and selection[J]. Modern Agricultural Science and Technology, 2018(18): 118-120.
[2] WANG B, WANG H, QI H. Wood recognition based on grey-level co-occurrence matrix[C]//2010 International Conference on Computer Application and System Modeling (ICCASM 2010). IEEE, 2010, 1: V1-269-V1-272.
[3]戴天虹,王克奇,白雪冰, 等.基于神經(jīng)網(wǎng)絡(luò)和顏色特征對木材進(jìn)行分級(jí)的分析[J].森林工程,2006(1):18-20.
DAI T H, WANG K Q, BAI X B, et al. Analysis of wood classification based on neural network and color features[J]. Forest Engineering, 2006(1): 18-20.
[4]王克奇,楊少春,戴天虹,等.基于均勻顏色空間的木材分類研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2008(7):1780-1784.
WANG K Q, YANG S C, DAI T H, et al. Research on wood classification using uniform color space[J]. Computer Engineering and Design, 2008(7):1780-1784.
[5]SUGIARTO B, PRAKASA E, WARDOYO R, et al. Wood identification based on histogram of oriented gradient (HOG) feature and support vector machine (SVM) classifier[C]//2017 2nd International conferences on Information Technology, Information Systems and Electrical Engineering (ICITISEE). IEEE, 2017: 337-341.
[6]趙鵬,韓金城,王承琨.基于I-BGLAM紋理和光譜融合的高光譜顯微成像木材樹種分類[J].光譜學(xué)與光譜分析,2021,41(2):599-605.
ZHAO P, HAN J C, WANG C K. Wood species classification with microscopic hyper-spectral imaging based on I-BGLAM texture and spectral fusion[J]. Spectroscopy and Spectral Analysis, 2021, 41(2): 599-605.
[7]趙鵬超,戚大偉.基于卷積神經(jīng)網(wǎng)絡(luò)和樹葉紋理的樹種識(shí)別研究[J].森林工程,2018,34(1):56-59.
ZHAO P C, QI D W. Study on tree species identification based on convolution neural network and leaf texture image[J]. Forest Engineering, 2018, 34(1): 56-59.
[8]張玉薇,陳棋,田湘云,等.基于UAV可見光遙感的單木冠幅提取研究[J].西部林業(yè)科學(xué),2022,51(3):49-59.
ZHANG Y W, CHEN Q, TIAN X Y, et al. Individual tree crown extraction based on UAV visible light remote sensing technology[J]. Journal of West China Forestry Science, 2022, 51(3):49-59.
[9]汪泉,宋文龍,張怡卓,等.基于改進(jìn)VGG16網(wǎng)絡(luò)的機(jī)載高光譜針葉樹種分類研究[J].森林工程,2021,37(3):79-87.
WANG Q, SONG W L, ZHANG Y Z, et al. Study on hyperspectral conifer species classification based on improved VGG16 network[J]. Forest Engineering, 2021, 37(3): 79-87.
[10]朱良寬,晏銘,黃建平.一種新型卷積神經(jīng)網(wǎng)絡(luò)植物葉片識(shí)別方法[J].東北林業(yè)大學(xué)學(xué)報(bào),2020,48(4):50-53.
ZHU L K, YAN M,HUANG J P. Plant leaf recognition method with new convolution neural network[J]. Journal of Northeast Forestry University, 2020, 48(4):50-53.
[11]王愛麗,張宇梟,吳海濱,等.基于集成卷積神經(jīng)網(wǎng)絡(luò)的LiDAR數(shù)據(jù)分類[J].哈爾濱理工大學(xué)學(xué)報(bào),2021,26(4):138-145.
WANG A L, ZHANG Y X, WU H B, et al. LiDAR data classification based on ensembled convolutional neural networks[J]. Journal of Harbin University of Science and Technology, 2021, 26(4):138-145.
[12]DONG S, WANG P, ABBAS K. A survey on deep learning and its applications[J]. Computer Science Review, 2021, 40: 100379.
[13]GAO M, WANG F, LIU J, et al. Estimation of the convolutional neural network with attention mechanism and transfer learning on wood knot defect classification[J]. Journal of Applied Physics, 2022, 131(23): 233101.
[14]YANG J, HUANG P, DAI F, et al. Application of deep learning in wood classification[C]//2019 IEEE International Conference on Computer Science and Educational Informatization (CSEI). IEEE, 2019: 124-129.
[15]LIU S, JIANG W, WU L, et al. Real-time classification of rubber wood boards using an SSR-based CNN[J]. IEEE Transactions on Instrumentation and Measurement, 2020, 69(11): 8725-8734.
[16]TAN M, LE Q. Efficientnet: rethinking model scaling for convolutional neural networks[C]//International Conference on Machine Learning. PMLR, 2019: 6105-6114.
[17]GUO M H, XU T X, LIU J J, et al. Attention mechanisms in computer vision: a survey[J]. Computational Visual Media, 2022, 8: 331-368.
[18]DEVLIN J, CHANG M W, LEE K, et al. Bert: pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805, 2018.
[19]Brown T, Mann B, Ryder N, et al. Language models are few-shot learners[J]. Advances in Neural Information Processing Systems, 2020, 33: 1877-1901.
[20]GUO M H, LU C Z, LIU Z N, et al. Visual attention network[J]. arXiv preprint arXiv:2202.09741, 2022.
[21]TAN M, LE Q. Efficientnetv2: smaller models and faster training[C]//International Conference on Machine Learning. PMLR, 2021: 10096-10106.