孫劍明 畢振宇 牛連丁
摘要:馬鈴薯葉片病害是影響馬鈴薯質量和產量的主要因素,為了能夠快速準確地識別馬鈴薯葉片病害并采取對應的防控和救治措施,本研究提出一種新型馬鈴薯葉片病害識別方法。該方法利用EfficientNet v2網絡提取圖像特征,通過4個不同尺度的網絡層進行金字塔融合,從而捕捉不同尺度下的圖像細節(jié)和上下文信息,并在金字塔融合中的每個下采樣環(huán)節(jié)都添加1個CBAM注意力機制模塊,且每個CBAM模塊后都加入Vision Transformer的Encoder模塊進行特征增強,幫助提升所提取特征的豐富性和抽象能力,最后使用softmax進行分類。研究提出的模型識別準確率達到98.26%,相比改進之前提升3.47百分點,且其loss收斂更快,宏平均值與加權平均值都有明顯提升。消融試驗表明,該模型在各項指標上的表現最優(yōu),超過基線模型和融合模型,大幅提高圖像分類識別任務模型的性能表現。該方法可有效提高病害區(qū)域的識別能力和檢測準確率,且能在強干擾的環(huán)境下做到高精度識別,具有良好的魯棒性和適應性,同時能解決病害識別中泛化能力弱、精度低、計算效率低等問題。
關鍵詞:農業(yè);馬鈴薯葉片病害;圖像識別;卷積神經網絡;特征融合;Transformer模型
中圖分類號:TP391.41 ??文獻標志碼:A
文章編號:1002-1302(2024)08-0166-10
收稿日期:2023-05-15
基金項目:國家自然科學基金(編號:32201411)。
作者簡介:孫劍明(1980—),男,山東黃縣人,博士,教授,主要從事模式識別智慧農業(yè)、機器視覺、圖像信息處理及自動控制方向的研究。E-mail:sjm@hrbcu.edu.cn。
通信作者:畢振宇,碩士研究生,主要研究方向為模式識別智慧農業(yè)。E-mail:15776480171@163.com。
馬鈴薯因高產穩(wěn)產、適應性廣、營養(yǎng)成分全、產業(yè)鏈長,受到全世界的高度重視,隨著需求量的增加,其種植面積也在不斷擴張,同時馬鈴薯的病害發(fā)病率也在不斷增高,直接影響馬鈴薯的產量和質量。但是,對于大面積農田種植的馬鈴薯,單靠人力來識別其病害,費時費力、效率低下。及時、準確識別馬鈴薯病害,盡早做出相對應的防控和救治措施,從而減少農藥使用,減輕對田地的傷害,可在保證產量的同時提高質量,并減輕農戶的經濟支出[1]。
近年來,卷積神經網絡在不斷地改進和創(chuàng)新。卷積神經網絡是神經網絡中的一個分支,在這個分支下有很多優(yōu)秀的圖像分類檢測模型[2]。在圖像識別任務中,從最早的LeNet-5一直發(fā)展到2017年ImageNet大賽冠軍模型SeNet[3-4]。在目標檢測任務中,從使用selective search類暴力搜索模型 Fast RCNN,到現在已可利用APN構建快速模型YOLO v3[5-6]。Liu等提出一種基于DCNN的蘋果樹葉病識別方法,對4種常見蘋果葉病在給定樣本數據集進行試驗,結果顯示模型具有較快的收斂速度和較高的準確度[7]。Zhang等利用AlexNet模型構建全局池化擴張卷積神經網絡,為減少訓練時間和提高識別精確度,將全連接層替換為全局池化層以增加卷積感受域,采用擴張卷積層以恢復空間分辨率,完成6種常見黃瓜葉片的疾病識別[8]。Too等直接對VGG16、Inception-v4、ResNet、DenseNet 網絡調優(yōu),將這些神經網絡用于訓練和測試PlantVillage 圖像集中 14 種植物的病害圖像,并對比在不同迭代次數下的試驗結果[9]。郭小清等提出了一種多尺度檢測的卷積神經網絡模型,可以在一定程度上緩解圖像數據稀疏的問題[10]。任守綱等利用VGGNet計算多分類交叉熵損失,對番茄葉病害進行分類訓練,實現植物葉部病斑分割和病害種類識別,構建基于反卷積引導的 VGG網絡模型[11]。
2021年,鐘昌源等融合不同水平特征構建新模型,該模型在作物病害葉片語義分割的效率和準確性之間具有良好的平衡[12]。彭紅星等提出一種基于多重特征增強與特征融合的SSD模型,能夠更精準有效地檢測無人機拍攝的荔枝圖像,可為小目標農作物的檢測開拓思路[13]。受Transformer模型在自然語言處理領域成功應用的啟發(fā),Transformer模型視覺轉換器(ViT)在許多計算機視覺基準測試中取得了很好的結果;Borhani等提出一種基于ViT的輕量級深度學習方法,用于實時自動化分類植物病害[14-15]。
上述利用各神經網絡模型雖然取得了較好的識別精度,但計算效率、高精度、泛化能力仍有提升空間。本研究以馬鈴薯的健康葉片和患有晚疫病、早疫病的葉片為研究對象,在EfficientNet v2網絡中加入金字塔特征融合,并結合CBAM注意力機制和Vision Transformer的Encoder模塊,提高對特征的判斷和利用能力,在分類決策過程中更加準確可靠。研究設計的模型具有高效的特征提取能力和加權融合能力,同時也在模型輕量化方面有很好的表現。
1 馬鈴薯葉片病害數據集
1.1 數據集介紹
試驗所用到的數據集源于Kaggle網站上基于PlantVillage的公共數據集。PlantVillage是一個公開的農作物病害數據集,其中針對馬鈴薯葉片的病害類別有早疫病、晚疫病2種疾病,原數據集圖片中包含早疫病葉片1 000張、晚疫病葉片1 000張、健康葉片152張。試驗先對數據集進行數據增強,按照8 ∶2比例將其分成訓練集、測試集。同時將數據集中的原始圖像歸一化為 256×256×3,使其適應模型的輸入。PlantVillage數據集中的部分樣本圖像如圖1所示。
1.2 數據預處理與數據增強
預處理能優(yōu)化圖像的識別效果,所以在大多數圖像研究中都會加入預處理這個過程。在獲取數據的過程中,會產生各種影響因素,比如數據缺失、噪聲的產生、試驗不均衡等。故使用深度學習來進行圖像識別分類預處理是十分必要的,可以降低環(huán)境因素對圖像的影響。
對數據集圖像進行遮擋和調暗處理,以增加圖像的復雜性,可以對模型的魯棒性進行比較全面的提升。在實際應用中往往會遭遇到各種因素的干擾,如光照條件的變化、遮擋、各種噪聲等,這些因素會導致原始圖像的特征信息發(fā)生變化,使得模型的性能下降。通過數據增強方法,模擬真實情況下的圖像,增加模型訓練的難度,從而可以使模型學習到更豐富的特征信息,提高模型的識別能力,增強模型的魯棒性。
進行數據增強時,將調暗系數設置為0.2,以創(chuàng)造一個更加黑暗的環(huán)境,同時再對數據集圖片進行隨機遮擋處理,遮擋概率設置為0.5,遮擋框(相對于圖片大?。┳钚?.02,最大為0.4,遮擋框的最小、最大寬高比分別設置為0.3、3.3,經數據增強處理后的數據集中包含早疫病2 000張,晚疫病2 000張,健康葉片304張。部分增強圖片如圖2所示。
2 模型與方法
2.1 EfficientNet v2網絡
EfficientNet v2是新一代高效神經網絡模型,由Google Brain在2021年提出。該模型采用Compound Scaling、多階段、優(yōu)化高級模塊、EMA權重平均等多項創(chuàng)新技術,實現更高的準確度和效率,同時具備更少的參數。Compound Scaling綜合考慮深度、寬度、分辨率的縮放,實現更好的性能和更高的能效比;多階段采用不同的深度、寬度、分辨率,提升模型性能;優(yōu)化高級模塊則加強特征提取和模型優(yōu)化。此外,EfficientNet v2還采用大量的進階優(yōu)化技術,如Swish激活函數、 Squeeze-and-Excitation模塊、EMA權重平均等,以提高模型的性能和泛化能力。通過這些創(chuàng)新技術的引入,EfficientNet v2在圖像分類、目標檢測、分割等各個領域的任務中都能取得出色表現,成為當前最先進和高效的神經網絡模型之一[16-17]。
EfficientNet v2-B0是EfficientNet v2模型系列中的基礎模型,相比于EfficientNet v2-S等其他模型,它擁有更少的層數和更小的參數量,因此計算速度更快,內存消耗更少,訓練速度更快,能夠在更為復雜的計算任務中獲得更好的表現。研究采用EfficientNet v2-B0網絡作為基線網絡進行試驗,其網絡結構如表1所示。
EfficientNet v2-B0采用MBConv3、MBConv5結構,包括具有不同變化的多個階段和不同數量的MBConv層,以提取不同級別的特征,并逐步提高模型的深度和寬度。模型精度和推斷速度的升級效果得到顯著提高,同時適用于更小的設備。EfficientNet v2-B0網絡結構如圖3、圖4所示。
2.2 多尺度特征融合
多尺度特征融合是一種將不同尺度的特征圖進行融合的方法,用于提升模型在各種尺度下的檢測和識別性能。在圖像處理方面,多尺度特征融合廣泛應用于目標檢測、圖像分類、語義分割等任務中,模型可以在多種尺度下更好地捕捉圖像中的物體信息。金字塔特征融合是一種常見的多尺度特征融合方法,其思想是通過構建一組不同尺度的特征圖,從而提供更加全面和豐富的圖像信息,使得模型具有更好的魯棒性和泛化能力[18]。
金字塔特征融合可以通過對原始圖像進行多次下采樣(或上采樣),將不同尺度的特征圖進行融合,得到整個金字塔中所有尺度的特征圖。金字塔特征融合的優(yōu)點在于,它可以通過構建一組不同尺度的特征圖,從而提供更加全面和豐富的圖像信息,使得模型具有更好的魯棒性和泛化能力[19]。
本研究提取MBConv3模塊的第1個Swish激活層block2b_expand_activation(64×64×128)、MBConv5模塊的第1個Swish激活層block4a_expand_activation(32×32×192)、MBConv5模塊的第2個Swish激活層block6a_expand_activation(16×16×672)、top_activation(8×8×1 280),金字塔特征融合結構如圖5所示。
2.3 CBAM注意力機制
CBAM(convolutional block attention module)是一種注意力機制模塊,它可以自適應學習特征圖中不同部分的重要程度,通道注意力、空間注意力機制都是CBAM模塊用于提高圖像特征表示的有效方法。這些注意力機制不僅可以識別有用信息,還可以抑制無關信息。通過學習每個通道和空間位置的重要性,注意力機制可以使網絡更好地識別輸入圖像中的關鍵特征,從而提高模型的性能[20]。CBAM模塊結構如圖6所示。
CBAM的通道注意力提取如公式(1)表示:
Mc(F)=σ{MLP[AvgPool(F)]+MLP[MaxPool(F)]}
=σ{W1[W0(FCavg)]+W1[W0(FCmax)]}。(1)
其中:σ表示sigmoid函數;W0∈RC/r×C;W1∈RC×C/r;MLP 的權重W0、W1是共享的,用于2個輸入,并且ReLU激活函數接在W0后面。
CBAM的空間注意力提取如公式(2)表示:
Ms(F′)=σ(f7×7{[AvgPool(F′);MaxPool(F′)]})
=σ(f7×7([F′savg;F′smax]))。(2)
其中:f7×7表示卷積核大小為7×7的卷積操作。
2.4 Vision TransformerEncoder模塊
在Vision Transformer模型中,Encoder模塊是模型的核心之一,它的主要作用是為計算機的機器視覺任務提取特征, 如圖像分類、目標檢測、圖像分割
等任務[21]。該模塊的結構基于Transformer模型,通過注意力機制實現不需要局部卷積操作就可以處理空間特征的能力,并且具備良好的擴展性[22]。該模塊的工作流程包括將輸入的像素數據(二維圖像)轉化為向量表示,通過多層Encoder將特征優(yōu)化和抽象,最后輸出得到圖像的特征表示。該模塊在解決長序列的處理能力、建模全局特征依賴、提高數據利用率等方面,具備很多優(yōu)勢[23]。相對于傳統(tǒng)的卷積神經網絡,使用Vision Transformer Encoder模塊能夠提取更明確的特征表示,并更好地應用于文本識別、自然語言處理等計算機視覺任務中[24]。Vision Transformer Encoder模塊結構如圖7所示。
在輸入到本研究的Encoder模塊之前,先將提取的2個特征層融合,然后使用一個叫Reshape的層,將輸入的張量x轉化為2D矩陣,其中第1維是(-1),該維的大小根據張量中“非1”元素的總數計算得出,第2維則等于原始張量中每個元素的大小x.shape[-1]。轉化成符合Encoder模塊輸入的二維張量,也就是其中的融合張量(fusion tensor)模塊。
標準化處理(Norm)層對輸入的張量進行標準化處理,確保數據特征在一定的范圍內。
Norm(x)=LayerNorm[x+Attention(x)]。(3)
通過多頭注意力機制層(Multi-Head Attention)對標準化后的張量進行全局關系的建模,
捕捉特征張量中各部分之間的依賴關系,從而得到一個新的高維特征表示,用于輸入特征的下一步處理。在Multi-Head Attention中,輸入的特征張量為x,包括N個特征向量,每個向量的長度為d_model。將x通過線性投影變換為3個張量,分別表示Query、Key、Value。將Query、Key、Value分別輸入到num_heads個獨立的注意力頭中,計算得到num_heads個注意力張量,再將其按通道維度進行合并,從而得到1個張量,最后通過線性投影得到輸出。
Query=x×Wq;Key=x×Wk;Value=x×Wv;(4)
Attention(Q,K,V)=softmax[QKT/sqrt(d_k)]×V;(5)
MultiHead(Q,K,V)=concat(head1,…,headh)×Wo。(6)
其中,Wq、Wk、Wv、Wo分別表示針對Query、Key、Value和輸出的線性變換矩陣;head表示注意力頭數量;d_k表示每個Query、Key矩陣中元素的維度大??;sqrt(d_k)為縮放因子,能夠控制結果的范圍和分布。
將Multi-Head Attention層的輸出、輸入張量進行相加(Add層),以便使當前層處理后的特征與原始特征發(fā)生變化,并通過Norm層進行標準化處理,確保不同維度之間的變化具有相似的尺度。
在多層感知機(MLP)層中使用帶有激活函數的Dense層對標準化后的特征張量進行變換,從而進一步提取特征。再次對輸出特征張量進行標準化處理。
MLP(x)=Gelu(xW1+b1)W2+b2。(7)
其中,x表示輸入張量;W1、b1分別表示第1個 Dense 層的權重、偏置;W2、b2分別表示第2個 Dense 層的權重、偏置。公式(7)將標準化后的特征張量通過2個 Dense 層進行變換,并使用Gelu激活函數進行非線性變換,得到1個新的張量作為當前層處理后的特征。
最后將第1個Add層的輸出和MLP層的輸出進行相加,以得到最終的輸出向量,并同時進行殘差連接,確保多層處理后的特征仍然包含原始特征信息。
2.5 本研究模型識別方法
本研究首先使用EfficientNet v2網絡對圖像進行特征提取,為了能夠更好地捕獲不同尺度下的圖像信息,使用了4個不同尺度的網絡層進行金字塔融合,從而提高模型的分類準確率和穩(wěn)定性。接下來,在特征融合的下采樣環(huán)節(jié)添加3個CBAM注意力機制模塊。這些模塊能夠動態(tài)地調整特征圖中不同位置的通道權重,更好地捕獲有用的特征信息。為了增強特征表達能力,每個CBAM模塊后都添加了Vision Transformer的Encoder模塊,從而提高了模型的分類準確率、穩(wěn)定性、魯棒性。最終的輸出結果被送入softmax分類器進行分類。本研究改進模型網絡結構如圖8所示。
3 試驗結果與分析
3.1 試驗環(huán)境
試驗采用 Windows 10操作系統(tǒng),Python 3.9 作為開發(fā)語言,Tensorflow 2.11.0為深度學習開發(fā)框架,開發(fā)工具為Pycharm。硬件包括16 GB內存、Nvidia RTX-3060顯卡,配備AMD RyzenTM 7 5800H with Radeon Graphics處理器。
3.2 訓練過程
3.2.1 評價指標 精確率(Precision):指被分類器正確分類的樣本數量占總樣本數的比例,即
Precision=TPTP+FP。(8)
其中,TP表示真正例(分類器將正類正確分類的數量),FP表示假正例(分類器將負類錯誤分類成正類的數量)(表2)。
召回率(Recall):指分類器正確分類的正樣本數量占真實正樣本總數的比例,即
Recall=TPTP+FN。(9)
其中,TP表示真正例,FN表示假負例(分類器將正類錯誤分類為負類的數量)。
F1分數:綜合考慮Precision 和 Recall,以一個綜合的指標來評估模型分類效果,即
F1=2×Precision×RecallPrecision+Recall。(10)
準確率(Accuracy):指分類器將所有樣本正確分類的數量占總樣本數的比例,即
Accuracy=TP+TNTP+FP+TN+FN。(11)
其中,TP表示真正例,TN表示真負例(分類器將負類正確分類的數量),FP表示假正例,FN表示假負例。
宏平均(macro avg):對每個類別的評價指標(Precision、Recall、F1分數)求平均值,各類別的評價指標平等對待,適用于多分類模型樣本分布均衡的情況。
加權平均(weighted avg):對每個類別的評價指標進行加權平均,其中權重為每個類別樣本數在總樣本數中所占的比例,用于多分類模型存在樣本不均衡的情況。
3.2.2 不同網絡模型性能對比
TensorBoard是由Google開發(fā)的機器學習可視化工具,主要用于追蹤機器學習過程中的各項指標,如準確率、損失等變化。各模型訓練結束后直接通過TensorBoard可視化顯示各評價指標折線圖。試驗選取 EfficientNet v2-B0 作為基線網絡, 該網絡與常見分類網絡模型AlexNet、VGG16、ResNet50、Inception v3、MobileNet v2采用相同數據集進行試驗對比,且訓練集 ∶測試集=8 ∶2,試驗設置epoch為10、batch_size為16、學習率為0.000 1進行訓練,其中褐色為AlexNet、灰色為VGG16、綠色為MobileNet v2、粉色為Inception v3、深藍色為ResNet50、淺藍色為EfficientNet v2-B0,各模型網絡性能在訓練集下的表現如圖9所示。
各網絡模型在測試數據集上的分類準確率如表3所示。
由圖9、表3可知,EfficientNet v2-B0相較于其他模型具有更高的識別準確率、更好的泛化能力和穩(wěn)定性,這意味著在面對不同環(huán)境的圖像時,其識別能力更好。且該模型具有更高的適用性,可以在更多的場景下應用。同時,EfficientNet v2-B0的loss收斂更快,這意味著訓練成本更低,更節(jié)省時間和資源,故選取EfficientNet v2-B0為基線網絡。
3.2.3 消融試驗
研究進行了3種消融試驗,旨在優(yōu)化目標識別任務模型的性能。首先進行基線試驗,使用EfficientNet v2網絡進行圖像特征提取和分類,未進行額外優(yōu)化,命名該模型為基線模型,對應圖10中的綠色曲線。接著,在特征融合和CBAM模塊添加試驗中,為模型添加4個不同尺度的網絡層進行金字塔融合,并在金字塔的融合下采樣環(huán)節(jié)添加3個CBAM注意力機制模塊,以進一步提高模型的性能表現, 命名該模型為融合模型, 對應圖10中的灰色曲線。最后,再添加Vision Transformer的Encoder模塊進行特征增強,命名該模型為本研究模型,對應圖10中的橙色曲線。Encoder模塊可以將輸入序列進行多頭自注意力計算和前饋網絡計算,從而能夠更好地捕捉圖像特征之間的關系,提高準確度和泛化能力。試驗設置epoch為50、batch_size為32、學習率為0.000 1進行訓練。圖10為3種模型的各項性能對比。
由表4可知,模型放進前識別準確率為94.79%,放進后達到98.26%,提升3.47百分點。在測試數據集上采用查準率 P、查全率 R、F1分數來進一步衡量本研究算法模型的識別性能。由于查準率和查全率一般相互矛盾,故常用F1調和平均數來對模型進行分析。表5至表8為各模型性能的評價指標。
根據圖10與表4至表8分析可知,本研究的擴展試驗模型均能夠顯著提升模型的性能表現,特別是在F1分數、召回率、精確率等指標方面。其中,本研究模型在各項指標上的表現最優(yōu),超過基線模型和融合模型,模型的loss收斂更快,準確率更高,宏平均值與加權平均值都有明顯提升。消融試驗結果表明,通過添加金字塔特征融合、CBAM注意力機制、Vision Transformer的Encoder模塊,可以大幅度提高圖像分類識別任務模型的性能表現。
混淆矩陣常用來可視化地評估模型的性能優(yōu)劣。圖11至圖13給出了早疫病、晚疫病、健康類別的分類混淆矩陣。圖11中,401張早疫病葉片中有368張被正確識別,其中33張被識別成了晚疫??;61張健康葉片中有53張被正確識別,8張被識別成晚疫??;401張晚疫病葉片中有397張被正確識別,4張被識別成健康葉片。圖12中,401張早疫病葉片中有400張被正確識別,其中1張被識別成了晚疫?。?1張健康葉片中有51張被正確識別,2張被識別成早疫病,8張被識別成晚疫??;401張晚疫病葉片中有381張被正確識別,18張被識別成早疫病,2張被識別成健康葉片。圖13中,401張早疫病葉片中有399張被正確識別,其中2張被識別成了晚疫??;61張健康葉片中有52張被正確識別,9張被識別成晚疫?。?01張晚疫病葉片中有397張被正確識別,2張被識別成早疫病,2張被識別成健康葉片。分析可知,本研究提出的模型針對早疫病和晚疫病有著極高的分類準確率,且具有較好的識別性能和魯棒性,可以應用于復雜的自然環(huán)境中。預測效果如圖14所示。
4 結論
本研究在馬鈴薯病害葉片的識別任務中應用
EfficientNet v2網絡進行特征提取,并采用金字塔特征融合、CBAM注意力機制、Vision Transformer的Encoder模塊進行模型的擴展與優(yōu)化。試驗結果表明,經過模型擴展和優(yōu)化后,該模型不僅在干擾環(huán)境下具有高精度識別能力,而且表現出良好的魯棒性和適應性,能夠有效提高病害區(qū)域的識別能力和檢測準確率,同時解決了病害識別中泛化能力差、精度低、計算效率低等問題。研究可以為農業(yè)信息化技術的可行性提供合理依據,在一定程度上可以增強馬鈴薯病害的預測和防控能力。
參考文獻:
[1] 黃鳳玲,張 琳,李先德,等. 中國馬鈴薯產業(yè)發(fā)展現狀及對策[J]. 農業(yè)展望,2017,13(1):25-31.
[2]Lu J Z,Tan L J,Jiang H Y. Review on convolutional neural network (CNN) applied to plant leaf disease classification[J]. Agriculture,2021,11(8):707.
[3]Zhang J S,Yu X S,Lei X L,et al. A novel deep LeNet-5 convolutional neural network model for image recognition[J]. Computer Science and Information Systems,2022,19(3):1463-1480.
[4]Pragy P,Sharma V,Sharma V. Senet cnn based tomato leaf disease detection[J]. International Journal of Innovative Technology and Exploring Engineering,2019,8(11):773-777.
[5]Sardogˇan M,zen Y,Tuncer A. Detection of apple leaf diseases using Faster R-CNN “,” Faster R-CNN Kullanarak ElmaYapragˇ Hastalklarnn Tespiti[J]. Düzce üniversitesi Bilim Ve Teknoloji Dergisi,2020,8(1):1110-1117.
[6]Farhadi A,Redmon J. YOLO v3:an incremental improvement[C]//Computer vision and pattern recognition. Berlin/Heidelberg,Germany:Springer,2018,1804:1-6.
[7]Liu B,Zhang Y,He D J,et al. Identification of apple leaf diseases based on deep convolutional neural networks[J]. Symmetry,2017,10(1):11.
[8]Zhang S W,Zhang S B,Zhang C L,et al. Cucumber leaf disease identification with global pooling dilated convolutional neural network[J]. Computers and Electronics in Agriculture,2019,162(C):422-430.
[9]Too E C,Li Y J,Njuki S,et al. A comparative study of fine-tuning deep learning models for plant disease identification[J]. Computers and Electronics in Agriculture,2019,161:272-279.
[10]郭小清,范濤杰,舒 欣. 基于改進Multi-Scale AlexNet的番茄葉部病害圖像識別[J]. 農業(yè)工程學報,2019,35(13):162-169.
[11]任守綱,賈馥瑋,顧興健,等. 反卷積引導的番茄葉部病害識別及病斑分割模型[J]. 農業(yè)工程學報,2020,36(12):186-195.
[12]鐘昌源,胡澤林,李 淼,等. 基于分組注意力模塊的實時農作物病害葉片語義分割模型[J]. 農業(yè)工程學報,2021,37(4):208-215.
[13]彭紅星,李 荊,徐慧明,等. 基于多重特征增強與特征融合SSD的荔枝檢測[J]. 農業(yè)工程學報,2022,38(4):169-177.
[14]Borhani Y,Khoramdel J,Najafi E. A deep learning based approach for automated plant disease classification using vision transformer[J]. Scientific Reports,2022,12:11554.
[15]LiXP,ChenXY,YangJL,etal.Transformerhelpsidentify
kiwifruit diseases in complex natural environments[J]. Computers and Electronics in Agriculture,2022,200:107258.
[16]Li X P,Li S Q. Transformer help CNN see better:a lightweight hybrid apple disease identification model based on transformers[J]. Agriculture,2022,12(6):884.
[17]Zhong Y W,Huang B J,Tang C W. Classification of cassava leaf disease based on a non-balanced dataset using transformer-embedded ResNet[J]. Agriculture,2022,12(9):1360.
[18]Luo Y Q,Sun J,Shen J F,et al. Apple leaf disease recognition and sub-class categorization based on improved multi-scale feature fusion network[J]. IEEE Access,2021,9:95517-95527.
[19]郭啟帆,劉 磊,張 珹,等. 基于特征金字塔的多尺度特征融合網絡[J]. 工程數學學報,2020,37(5):521-530.
[20]Ma R,Wang J,Zhao W,et al. Identification of maize seed varieties using MobileNet v2 with improved attention mechanism CBAM[J]. Agriculture,2022,13(1):11.
[21]Vaswani A,Shazeer N,Parmar N,et al. Attention is all you need[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems.December 4-9,2017,Long Beach,California,USA.ACM,2017:6000–6010.
[22]Xing L P,Jin H M,Li H A,et al. Multi-scale vision transformer classification model with self-supervised learning and dilated convolution[J]. Computers and Electrical Engineering,2022,103:108270.
[23]侯越千,張麗紅. 基于Transformer的多尺度物體檢測[J]. 測試技術學報,2023,37(4):342-347.
[24]Wang S S,Zeng Q T,Ni W J,et al. ODP-Transformer:interpretation of pest classification results using image caption generation techniques[J]. Computers and Electronics in Agriculture,2023,209:107863.