徐聰 王旭啟 劉裕
摘要:田間農(nóng)作物害蟲種類繁多,不同的生長(zhǎng)階段形態(tài)和顏色各異,在自然環(huán)境下采集的圖像背景復(fù)雜,角度和尺度變化多樣,從而使傳統(tǒng)的害蟲檢測(cè)方法準(zhǔn)確率較低。提出一種改進(jìn)可形變?nèi)矸e神經(jīng)網(wǎng)絡(luò)(deformable fully convolution network,DFCN)的農(nóng)作物害蟲檢測(cè)方法,該方法由編碼模塊和解碼模塊組成。編碼模塊在VGG16中采用了可形變卷積,能適應(yīng)不同形狀、位置和尺寸等幾何形變的害蟲圖像。為了更好地保留害蟲圖像的紋理特征和背景特征,在編碼模塊中應(yīng)用了混合池化,加快了網(wǎng)絡(luò)的訓(xùn)練速度,提高了害蟲檢測(cè)的準(zhǔn)確率;解碼模塊對(duì)編碼的下采樣層進(jìn)行反卷積操作,最后應(yīng)用像素級(jí)分類器獲得有效的檢測(cè)圖像。在擴(kuò)展的害蟲圖像數(shù)據(jù)集上與DFCN方法的分割精確度和平均交并比分別為90.43、78.16,較語(yǔ)義分割方法SegNet分別提高了3.27、3.72,單幅圖像的識(shí)別時(shí)間為0.36 s,比SegNet 加快了0.16 s。結(jié)果表明DFCN方法在害蟲圖像檢測(cè)方面具有較高的準(zhǔn)確率,分割速度快,可為復(fù)雜背景下農(nóng)作物害蟲檢測(cè)提供一定的理論參考。
關(guān)鍵詞:農(nóng)作物害蟲檢測(cè);全卷積神經(jīng)網(wǎng)絡(luò);可形變卷積;可形變?nèi)矸e神經(jīng)網(wǎng)絡(luò)
中圖分類號(hào): TP391.4? 文獻(xiàn)標(biāo)志碼: A
文章編號(hào):1002-1302(2022)09-0211-08
農(nóng)作物害蟲檢測(cè)是現(xiàn)階段農(nóng)業(yè)生產(chǎn)活動(dòng)中的關(guān)鍵問(wèn)題之一。自然環(huán)境下采集的農(nóng)作物害蟲圖像經(jīng)常受光照、害蟲形態(tài)、圖像尺寸和拍攝角度等因素影響,使害蟲的分割和識(shí)別等具有很大難度[1]。隨著人工智能技術(shù)的快速發(fā)展,深度學(xué)習(xí)的理論方法被廣泛應(yīng)用在農(nóng)作物病蟲害檢測(cè)上,降低了傳統(tǒng)人工檢測(cè)方法的主觀性和檢測(cè)成本,提高了檢測(cè)的準(zhǔn)確率[2-5]。
趙志焱等基于Tiny-Alex卷積神經(jīng)網(wǎng)絡(luò)(TACNN)對(duì)金龜子、梨木虱和梨癭蚊3種玉露香梨葉常見害蟲進(jìn)行識(shí)別[6],相比AlexNet有較高的識(shí)別率[7]。Zhou等提出了一種基于深度卷積條件生成對(duì)抗網(wǎng)絡(luò)的害蟲分類方法,該方法在卷積層之后嵌入空間金字塔層,將最小二乘損失函數(shù)作為網(wǎng)絡(luò)的損失函數(shù)來(lái)迭代優(yōu)化,使網(wǎng)絡(luò)收斂快、穩(wěn)定性好[8-9]。Schmidhuber等提出了一種基于深度卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的常見害蟲識(shí)別方法,使用數(shù)字圖像處理技術(shù)和對(duì)抗生成網(wǎng)絡(luò)對(duì)小麥、水稻、玉米等9種常見害蟲擴(kuò)展構(gòu)建數(shù)據(jù)集,將VGG16、VGG19、Inception-v3和Inception-v4在數(shù)據(jù)集中所學(xué)的知識(shí)遷移在新的網(wǎng)絡(luò)中進(jìn)行害蟲分類識(shí)別[10-11]。李靜等提出了一種基于改進(jìn)GoogLeNet模型的玉米螟蟲害圖像識(shí)別方法,該方法先通過(guò)遷移學(xué)習(xí)將GoogLeNet的Inception-v4網(wǎng)絡(luò)結(jié)構(gòu)知識(shí)轉(zhuǎn)移到玉米螟蟲識(shí)別的任務(wù)上,再用Inception模塊的多尺度卷積核提取多尺度玉米螟蟲害分布的特征并優(yōu)化模型參數(shù),使模型具有更強(qiáng)的魯棒性和適用性,平均識(shí)別率達(dá)到了96.44%[12]。趙立新等將PlantVillage數(shù)據(jù)集學(xué)習(xí)到的知識(shí)遷移到目標(biāo)棉花病蟲數(shù)據(jù)集上,用遷移學(xué)習(xí)算法改進(jìn)AlexNet模型,實(shí)現(xiàn)棉花葉部蟲害圖像的準(zhǔn)確分類,最終準(zhǔn)確度能達(dá)到97.16%[13]。李衡霞等提出了一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的油菜蟲害檢測(cè)方法,能對(duì)5種油菜害蟲快速檢測(cè)[14]。在空間金字塔池化的深度CNN和改進(jìn)的YOLOv3的基礎(chǔ)上,張博等提出了一種農(nóng)作物害蟲的種類識(shí)別方法,改善因作物害蟲姿態(tài)和尺度多樣性導(dǎo)致的識(shí)別精度低的問(wèn)題,識(shí)別率可達(dá)88.07%[15-17]。劉文定等提出了一種基于全卷積神經(jīng)網(wǎng)絡(luò)(fully convolution network,F(xiàn)CN)的蟲害區(qū)域識(shí)別方法,該方法用卷積層替換VGG16模型[18-19]的全連接層,通過(guò)上采樣實(shí)現(xiàn)端到端的學(xué)習(xí),用跳躍結(jié)構(gòu)融合多種特征信息,有效提升識(shí)別精度,在一定程度上解決了蟲害區(qū)域不規(guī)則和傳統(tǒng)識(shí)別方法泛化能力差的問(wèn)題[20]。張苗輝等利用深度學(xué)習(xí)理論訓(xùn)練學(xué)習(xí)了10種常見害蟲的信息,構(gòu)建害蟲的超完備字典,引入稀疏表示算法對(duì)害蟲樣本分類識(shí)別,平均準(zhǔn)確率達(dá)85.3%[21]。Fuentes等基于局部和全局類注釋信息,在不同分辨率的番茄病蟲害圖像上提出一種魯棒的深度學(xué)習(xí)檢測(cè)方法,能有效識(shí)別9種不同類型的病蟲[22]。梁萬(wàn)杰等基于CNN提出了水稻二化螟蟲害識(shí)別方法,設(shè)計(jì)了一個(gè)10層卷積網(wǎng)絡(luò)模型,可有效學(xué)習(xí)圖像特征,對(duì)水稻二化螟識(shí)別有較好的魯棒性,識(shí)別精度達(dá)到89.14%[23]。Ding等基于深度學(xué)習(xí)模型提出了一種滑動(dòng)窗對(duì)性誘劑黏板上害蟲圖像的自動(dòng)檢測(cè)識(shí)別和計(jì)數(shù)方法,在蘋果蠹蛾數(shù)據(jù)集上驗(yàn)證了該方法的有效性[24]。
以上都是基于深度神經(jīng)網(wǎng)絡(luò)及改進(jìn)的算法模型,在農(nóng)作物病蟲害檢測(cè)和識(shí)別上取得了較好的試驗(yàn)結(jié)果,但對(duì)于形變病蟲害圖像的檢測(cè)沒(méi)有涉及,因?yàn)槟P蛯?duì)幾何形變的建模能力主要來(lái)自數(shù)據(jù)集的擴(kuò)增、網(wǎng)絡(luò)層數(shù)的加深和模型的人為設(shè)計(jì),沒(méi)有從根本上解決田間害蟲的形變問(wèn)題[25]。為了解決以上問(wèn)題,本研究提出了一種改進(jìn)的可形變?nèi)矸e神經(jīng)網(wǎng)絡(luò)的農(nóng)作物害蟲檢測(cè)方法,該方法在改進(jìn)的FCN網(wǎng)絡(luò)中嵌入可形變卷積[26]和混合池化,進(jìn)一步提高了害蟲檢測(cè)的準(zhǔn)確率并加快網(wǎng)絡(luò)的訓(xùn)練速度。試驗(yàn)表明該模型在田間對(duì)一定幾何形變的害蟲具有較好的檢測(cè)能力和魯棒性。
1 材料與方法
1.1 數(shù)據(jù)收集與擴(kuò)充
以常見的黏蟲、玉米螟、飛蛾、毛毛蟲、瓢蟲、蚜蟲、棉鈴蟲和葉蟬8種農(nóng)作物害蟲為研究對(duì)象。圖像來(lái)自陜西省寶雞市農(nóng)業(yè)科學(xué)研究所的大田試驗(yàn)基地,在田間自然環(huán)境下的不同時(shí)間段里,用智能手機(jī)、攝像機(jī)和物聯(lián)網(wǎng)圖像采集設(shè)備采集了1 600幅害蟲圖像,每種害蟲圖像200幅。為保證數(shù)據(jù)集的完整性,每種害蟲再用50幅網(wǎng)絡(luò)圖像對(duì)數(shù)據(jù)集進(jìn)行擴(kuò)充。用PhotoShop將圖像統(tǒng)一裁剪為每幅 256×256像素大小的JPG彩色圖像以提高后續(xù)網(wǎng)絡(luò)模型的訓(xùn)練效率。圖1為選用的部分害蟲圖像。
模型訓(xùn)練之前先對(duì)采集的圖像數(shù)據(jù)進(jìn)行隨機(jī)翻轉(zhuǎn)、平移、添加噪聲、隨機(jī)縮放和角度變換等處理進(jìn)行擴(kuò)充,如圖2為葉蟬害蟲的擴(kuò)充圖像,以改善在訓(xùn)練過(guò)程中模型出現(xiàn)的過(guò)擬合現(xiàn)象。經(jīng)過(guò)數(shù)據(jù)集擴(kuò)充后,8種農(nóng)作物害蟲圖像各擴(kuò)充為1 000幅,數(shù)據(jù)集共8 000幅,隨機(jī)選擇6 500幅作為訓(xùn)練集用于訓(xùn)練網(wǎng)絡(luò),其余1 500幅作為測(cè)試集用于測(cè)試網(wǎng)絡(luò)性能。
1.2 可形變卷積
傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)采用固定形狀的卷積核,即只對(duì)輸入特征圖的固定位置進(jìn)行采樣,在同一層特征圖中,所有特征點(diǎn)的感受野是一樣的,可不同特征點(diǎn)位置所對(duì)應(yīng)物體的形變或尺度是不同的,所以常規(guī)卷積無(wú)法適應(yīng)對(duì)象空間的幾何變換。為增強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)對(duì)多形變圖像的處理能力,可采用可形變卷積。
圖3為可形變卷積的計(jì)算框架。輸入特征圖經(jīng)過(guò)可形變卷積,如圖中紅色框(A)操作后獲取輸出特征圖。紅色框(A)內(nèi)表示卷積核中每一個(gè)采樣點(diǎn)加入一個(gè)偏移量,使得卷積核在輸入特征圖上的采樣點(diǎn)發(fā)生偏移,實(shí)現(xiàn)當(dāng)前位置附近的隨意采樣而不局限于常規(guī)卷積的規(guī)則采樣點(diǎn)。偏移量不是隨機(jī)產(chǎn)生而是卷積核對(duì)特征圖中的每一個(gè)位置學(xué)習(xí)來(lái)的偏移量,即通過(guò)另一個(gè)平行的標(biāo)準(zhǔn)卷積單元計(jì)算得到,也可以通過(guò)梯度方向傳播進(jìn)行端對(duì)端的學(xué)習(xí)。其中2N為預(yù)測(cè)的x、y方向的偏移量,因?yàn)椴煌蓸狱c(diǎn)征的貢獻(xiàn)不同,因此還需要預(yù)測(cè)采樣點(diǎn)的權(quán)重。以3×3大小的卷積為例,圖3-B、圖3-E是常規(guī)卷積與可形變卷積采樣位置對(duì)比情況,其中圖3-B是常規(guī)卷積核的采樣點(diǎn)位置,圖3-C是添加1個(gè)偏移量后可形變卷積的采樣點(diǎn)位置,圖3-D和圖3-E是圖3-C的特殊情況。表明可形變卷積包括了各種尺度的變換,縱橫比和旋轉(zhuǎn)。
常規(guī)卷積一般先對(duì)輸入特征映射圖使用規(guī)則R進(jìn)行采樣,再用卷積核對(duì)采樣點(diǎn)進(jìn)行加權(quán)求和。其中R表示當(dāng)前卷積區(qū)域感受野的尺寸和位置。如定義一個(gè)大小為3×3且感受野在中心的卷積核R={(-1,1),(-1,0),…,(0,1),(1,1)},輸出特征圖y(P 0)的計(jì)算式為:
y(P 0)=∑P n∈Rw(P n)·x(P 0+P n)。(1)
式中:w(·)為權(quán)重;x(·)為輸入;P 0為輸出特征圖的每個(gè)位置;P n為對(duì)R中所列位置的枚舉。
為了獲取更好的空間信息表示能力,在常規(guī)卷積中加入偏移量,可形變卷積定義為:
y(P 0)=∑P n∈Rw(P n)·x(P 0+P n+ΔP n)。(2)
式中:{ΔP n|n=1,2,…,N}為P n的偏移量。
可形變卷積的采樣是在不規(guī)則區(qū)域上進(jìn)行的,導(dǎo)致卷積后得到的特征圖像素偏移量通常為小數(shù),而卷積是基于整數(shù)位置的,所以需要通過(guò)線性插值算法獲取實(shí)際像素偏移位置。可以將2個(gè)一維線性插值分別用于特征圖的水平和垂直方向,實(shí)現(xiàn)雙線性插值,具體實(shí)現(xiàn)為:
x(p)=∑qG(q,p)·x(q);(3)
G(p,q)=g(q x,p x)·g(q y,p y)。(4)
式中:p為可形變卷積中的任意小數(shù)位置P 0+P n+ΔP n;g(a,b)=max(0,1-|a-b|)。
可形變卷積核的大小和位置可以根據(jù)當(dāng)前圖像的內(nèi)容進(jìn)行動(dòng)態(tài)調(diào)整,直觀效果就是不同位置的卷積核采樣點(diǎn)位置會(huì)根據(jù)圖像內(nèi)容發(fā)生自適應(yīng)變化,從而適應(yīng)各種不同形狀、大小等幾何形變,更好地獲取檢測(cè)害蟲圖像所需的特征信息,從而提高檢測(cè)農(nóng)作物害蟲的精度。
1.3 混合池化
池化是對(duì)信息進(jìn)行抽象的過(guò)程,而CNN幾乎都會(huì)使用池化操作來(lái)縮小特征圖的尺寸,這對(duì)于局部空間不變性和增大后續(xù)卷積的感受野是非常重要的。目前常見的池化操作有最大值池化(max pooling)和均值池化(mean pooling)。最大值池化是選取區(qū)域的最大值,能更好地保留紋理特征;均值池化是選取區(qū)域的平均值,能較好地保留整體數(shù)據(jù)的特征,突出背景信息?;旌铣鼗╩ixed pooling,MXP)能結(jié)合最大值池化和均值池化的優(yōu)點(diǎn),在保留紋理特征的同時(shí)也能突出背景特征,引入的計(jì)算和內(nèi)存開銷很小。在混合池化的基礎(chǔ)上,對(duì)害蟲檢測(cè)的模型進(jìn)一步改進(jìn)。
混合池化的計(jì)算公式如下:
f mix(x)=a·f max(x)+(1-a)f avg(x),a∈[0,1]。(5)
當(dāng)a=0時(shí),f mix(x)是均值池化f avg(x);當(dāng)a=1時(shí),f mix(x)為最大池化f max(x)。f mix(x)對(duì)參數(shù)a求導(dǎo),學(xué)習(xí)參數(shù),對(duì)樣本x i求導(dǎo),學(xué)習(xí)得到權(quán)重。進(jìn)行梯度更新時(shí),損失函數(shù)E的求導(dǎo)表示為:
E a= E f mix(x)· f mix(x) a=δ·maxix i-1N∑Ni=1x i;(6)
E x i= E f mix(x)· f min(x) x i=δ·a+(1-a)1N,當(dāng)x i=maxix i
δ·(1-a)1N,當(dāng)x i≠maxix。(7)
式中:δ= E f mix(x)為上一層傳遞回來(lái)的誤差。
1.4 改進(jìn)的可形變?nèi)矸e神經(jīng)網(wǎng)絡(luò)
本研究提出的一種改進(jìn)可形變?nèi)矸e神經(jīng)網(wǎng)絡(luò)(deformable fully convolution network,DFCN)的農(nóng)作物害蟲檢測(cè)方法主要由編碼和解碼2個(gè)部分組成。編碼模塊是在傳統(tǒng)的VGG16基礎(chǔ)上擴(kuò)展改進(jìn),由常規(guī)卷積層、可形變卷積層、批歸一化層和激活層構(gòu)成,并在這些結(jié)構(gòu)后添加混合池化層。池化層相當(dāng)于下采樣操作,所以此時(shí)輸出的特征圖分辨率小于原始圖。解碼與編碼相互對(duì)稱,主要進(jìn)行上采樣操作得到稀疏特征圖,然后將稀疏特征圖反卷積操作得到密集的特征圖,圖像逐步恢復(fù)至原圖像大小。害蟲檢測(cè)問(wèn)題實(shí)際就是害蟲的2個(gè)分類問(wèn)題(害蟲區(qū)域和背景區(qū)域),所以解碼模塊最后加入 1×1 卷積層,完成害蟲區(qū)域的分割。DFCN模型結(jié)構(gòu)如圖4所示。
編碼模塊中只采用10層卷積,減少了原始VGG16的卷積層數(shù),使模型訓(xùn)練速度加快。在編碼模塊中應(yīng)用了4個(gè)可形變卷積層(DConv),能夠有效地適應(yīng)田間害蟲圖像的多樣性。同時(shí)將下采樣的最大池化全部更改為混合池化,在保留紋理特征的基礎(chǔ)上也能保留背景特征,最大可能地減少特征學(xué)習(xí)過(guò)程中信息的丟失。常規(guī)卷積層(Conv)大小設(shè)置為3×3,步長(zhǎng)為1,其后加入批歸一化層(Batch Normalisation)和激活層(RELU)。池化層大小設(shè)置為2×2,步長(zhǎng)為2??尚巫兙矸e大小也設(shè)置為3×3。解碼與編碼對(duì)稱,包括常規(guī)卷積層、上采樣層(up sampling)和Softmax分類器,上采樣的采樣尺度統(tǒng)一設(shè)置為2。表1為DFCN的具體參數(shù)情況。
2 試驗(yàn)與結(jié)果
2.1 試驗(yàn)環(huán)境搭建及參數(shù)設(shè)置
為了驗(yàn)證提出算法對(duì)田間農(nóng)作物害蟲檢測(cè)的有效性,試驗(yàn)基于實(shí)際采集的害蟲圖像及擴(kuò)充的數(shù)據(jù)庫(kù)集,與分割模型FCN和SegNet進(jìn)行試驗(yàn)比較。所有試驗(yàn)都使用TensorFlow作為深度學(xué)習(xí)框架,用Python3.7編程開發(fā)語(yǔ)言,系統(tǒng)的操作環(huán)境是Windows10 64 Bit,硬件開發(fā)環(huán)境為Intel Xeon E5-2643v3 @3.40 GHz CPU,64 GB內(nèi)存,顯卡NVidia Quadro M4000 GPU。
在對(duì)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練過(guò)程中,數(shù)據(jù)集中的每幅害蟲圖像都參與50次測(cè)試,最終害蟲檢測(cè)的準(zhǔn)確率是統(tǒng)計(jì)了圖像50次試驗(yàn)檢測(cè)率的平均值、訓(xùn)練平均時(shí)間和測(cè)試平均時(shí)間。模型采用帶動(dòng)量因子的小批量隨機(jī)梯度下降算法(stochastic gradient descent,SGD)對(duì)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,采用(RELU)作為激活函數(shù)以保證模型的非線性能力,將初始學(xué)習(xí)率設(shè)置為0.01,動(dòng)量因子設(shè)置為0.9,Batch size設(shè)置為12,將模型進(jìn)行1 200次迭代后設(shè)置學(xué)習(xí)率為0.001。
在分割效果指標(biāo)的量化過(guò)程中,使用平均精度均值 (mean average precision,MAP)和平均交并比(mean region intersection over union,Mean IOU)進(jìn)行評(píng)價(jià)。具體的計(jì)算公式如下:
MAP=∑Ki=1AP(i)K×100%;(8)
MeanIOU=1c cl∑pn ppt p+∑ qn pq-n pp。(9)
式中:AP(i)表示第i類農(nóng)作物害蟲的平均精度;K為農(nóng)作物害蟲總類別數(shù);n cl為分割圖像像素所屬類別;p表示圖像中像素正確對(duì)應(yīng)的像素類別;q表示圖像中像素錯(cuò)誤分類后所屬像素類別;t p為分割結(jié)果中p類別的像素總數(shù);n pp為分割結(jié)果中正確分割為類別p的像素總數(shù);n pq為分割結(jié)果中本屬于類別p但被誤分為q的像素?cái)?shù)量。
在農(nóng)作物害蟲分割的實(shí)際應(yīng)用中,實(shí)時(shí)性也是一個(gè)較為重要的指標(biāo),所以本研究也將單幅圖像分割時(shí)間作為評(píng)估標(biāo)準(zhǔn)。
2.2 試驗(yàn)驗(yàn)證
在試驗(yàn)過(guò)程中采用批量訓(xùn)練方式。將構(gòu)建后的訓(xùn)練集和測(cè)試集圖像以批次(Batch)的形式送入網(wǎng)絡(luò)模型中,訓(xùn)練集中共包含6 500幅圖像,將每50幅圖像分為一個(gè)批次,完成模型的訓(xùn)練共需要130個(gè)批次。為保障模型的訓(xùn)練效率以及分割精度,使用訓(xùn)練集圖像對(duì)模型進(jìn)行100次遍歷(Epoch),模型的迭代次數(shù)設(shè)置為3 000次。使用梯度下降和反向傳播算法對(duì)模型的權(quán)重參數(shù)進(jìn)行更新,將學(xué)習(xí)率設(shè)置為1×10-5。由于使用帶動(dòng)量的梯度下降算法,為防止模型出現(xiàn)過(guò)擬合現(xiàn)象,設(shè)置動(dòng)量因子為0.9。利用驗(yàn)證集對(duì)模型權(quán)重參數(shù)進(jìn)行局部修正。為了表明DFCN的優(yōu)勢(shì),將DFCN與經(jīng)典FCN進(jìn)行比較。圖5為FCN和DFCN在訓(xùn)練集上的損失值變化曲線。由圖5可以看出,與FCN相比,DFCN的收斂比較快,當(dāng)?shù)螖?shù)大于1 500時(shí),DFCN基本收斂,曲線比較平穩(wěn)。本研究選擇迭代次數(shù)為2 200時(shí)的DFCN模型進(jìn)行害蟲檢測(cè)試驗(yàn)。
為了更好地理解分析網(wǎng)絡(luò),先對(duì)卷積核進(jìn)行可視化。全卷積神經(jīng)網(wǎng)絡(luò)分別采用大小為3×3、5×5和7×7的不同卷積核訓(xùn)練模型得到圖6所示的卷積核及其對(duì)應(yīng)的特征圖。
由圖6可以看出,較小的卷積核局部感受野小,包含了更多的特征細(xì)節(jié)信息,而卷積核大的局部感受野雖大,但不能充分表現(xiàn)害蟲圖像的細(xì)節(jié)。由于害蟲在圖像中所占的區(qū)域較小,所以在DFCN中使用3×3的卷積核提取害蟲的感興趣特征,更好地反映害蟲的特征信息。
表2為不同卷積核大小和不同池化得到的檢測(cè)結(jié)果,圖7為各種不同池化在害蟲圖像上的操作結(jié)果。由表2和圖7可以看出,在相同的池化類型條件下,無(wú)論卷積核大小,混合池化的效果都要優(yōu)于最大池化和平均池化。不同尺寸的卷積核對(duì)分割結(jié)果有很大影響。
為了更好地觀察模型的訓(xùn)練效果,及時(shí)調(diào)整卷積層的設(shè)置參數(shù),將多個(gè)卷積層和池化層逐步提取的特征圖結(jié)果進(jìn)行輸出,可以看到模型在每一層中利用卷積所得到的特征提取效果。圖8是卷積核為3×3的可形變卷積和常規(guī)CNN的卷積核為3×3卷積的第一個(gè)卷積層上的5幅特征圖??梢钥闯隹尚巫兙矸e的特征圖相較于常規(guī)CNN的卷積特征圖更能反映害蟲的基本特征。
為了驗(yàn)證改進(jìn)的可形變?nèi)矸e神經(jīng)網(wǎng)絡(luò)在害蟲檢測(cè)上的有效性,在實(shí)際采集到的田間害蟲圖像數(shù)據(jù)庫(kù)及其擴(kuò)展數(shù)據(jù)庫(kù)上分別進(jìn)行試驗(yàn),與常見語(yǔ)義分割模型FCN和SegNet進(jìn)行了試驗(yàn)比較。圖9是害蟲分割的效果圖,其中(A)是原圖,(B)是FCN效果分割圖,(C)是SegNet效果分割圖,(D)是DFCN效果分割圖。
從圖9中直觀可以看出,DFCN模型分割的害蟲輪廓邊緣較清楚。特別從圖9中A4~D4可以看出FCN等一些方法,將害蟲的陰影部分錯(cuò)分為害蟲本身,而DFCN對(duì)于這些地方并沒(méi)有誤分,同時(shí)細(xì)節(jié)信息保留得較好。這是因?yàn)镈FCN中引入了可形變卷積,能適應(yīng)害蟲復(fù)雜的幾何形變,同時(shí)混合池化最大限度地保留了輪廓信息和細(xì)節(jié)信息,使學(xué)習(xí)到的特征更易于害蟲的分割。
圖10為基于FCN、SegNet和DFCN模型在擴(kuò)展的害蟲圖像集上的訓(xùn)練分割精度隨迭代次數(shù)的變化情況。在前1 000次迭代時(shí)3個(gè)模型的分割精度都有較大幅度的增加,而在1 000次后,DFCN的上升幅度比FCN和SegNet快得多,且2 000次后DFCN整體上升趨勢(shì)較為穩(wěn)定,說(shuō)明趨于收斂。由圖5至圖10的結(jié)果可知,DFCN提取的特征圖和收斂性能優(yōu)于FCN和SegNet,這是因?yàn)镈FCN使用了可變形卷積和混合池化。由于分割時(shí)間是評(píng)價(jià)模型實(shí)用性的關(guān)鍵技術(shù)指標(biāo),使用單幅圖像分割時(shí)間作為衡量分割速度的時(shí)間指標(biāo)。為了進(jìn)一步表明DFCN的分割性能,將DFCN與FCN和SegNet進(jìn)行比較。選擇迭代次數(shù)為3 000時(shí)的DFCN、FCN和SegNet為訓(xùn)練好的3個(gè)模型,分別進(jìn)行害蟲分割試驗(yàn)。表3給出了基于3種方法的平均精度均值(MAP)、平均交并比(IOU)和單幅圖像分割時(shí)間。
在分割結(jié)果和單幅圖像分割時(shí)間上,表3表明DFCN比其他2種方法更有效。主要原因是DFCN采用了可分離卷積架構(gòu)。由于SegNet使用空洞卷積方式對(duì)網(wǎng)絡(luò)模型進(jìn)行構(gòu)造,所以網(wǎng)絡(luò)模型需要耗費(fèi)大量的訓(xùn)練時(shí)間,導(dǎo)致模型分割效率下降,對(duì)單幅圖像的分割時(shí)間較長(zhǎng),為0.52 s。
3 結(jié)論
針對(duì)田間農(nóng)作物害蟲由于圖像形變導(dǎo)致檢測(cè)準(zhǔn)確率較低的問(wèn)題,提出一種改進(jìn)可形變?nèi)矸e神經(jīng)網(wǎng)絡(luò)的方法,該方法主要由編碼模塊和解碼模塊組成。編碼模塊在VGG16上引入4個(gè)可形變卷積層,兼顧了害蟲尺寸大小和形態(tài)等多樣性,提高了模型對(duì)幾何形變害蟲圖像的特征提取能力。模型中采用了混合池化,最大化地保留了圖像的紋理特征和背景特征,有效地提高了害蟲檢測(cè)的準(zhǔn)確率,分割精確度和平均交分別為90.43、78.16,比SegNet 分別提高了3.27、3.72,識(shí)別時(shí)間為0.36 s,比SegNet 加快了0.16 s。提出的方法不需要額外的監(jiān)督信息就能獲得較多有效的田間害蟲特征信息。研究通過(guò)試驗(yàn)驗(yàn)證了提出方法在形變蟲害圖像檢測(cè)的有效性,為復(fù)雜環(huán)境下的農(nóng)作物害蟲檢測(cè)提供了理論參考。
參考文獻(xiàn):
[1]宋麗娟. 基于圖像的農(nóng)作物病害識(shí)別關(guān)鍵算法研究[D]. 西安:西北大學(xué),2018.
[2]鄭方梅. 基于卷積神經(jīng)網(wǎng)絡(luò)的農(nóng)作物病害圖像識(shí)別研究[D]. 重慶:重慶師范大學(xué),2019.
[3]衛(wèi)智熠. 基于卷積神經(jīng)網(wǎng)絡(luò)的可見光圖像農(nóng)作物病蟲害的檢測(cè)[D]. 哈爾濱:哈爾濱工業(yè)大學(xué),2017.
[4]黃文江,張競(jìng)成,師 越,等. 作物病蟲害遙感監(jiān)測(cè)與預(yù)測(cè)研究進(jìn)展[J]. 南京信息工程大學(xué)學(xué)報(bào)(自然科學(xué)版),2018,10(1):30-43.
[5]劉思佳. 基于視覺的農(nóng)作物病蟲害自主識(shí)別系統(tǒng)研究[D]. 唐山:華北理工大學(xué),2020.
[6]趙志焱,楊 華,胡志偉,等. 基于TACNN的玉露香梨葉蟲害識(shí)別[J]. 計(jì)算機(jī)工程與應(yīng)用,2021,57(9):176-181.
[7]Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM,2017,60(6):84-90.
[8]Zhou X Y,Pan Z S,Hu G Y,et al. Stock market prediction on high-frequency data using generative adversarial nets[J]. Mathematical Problems in Engineering,2018,2018:1-11.
[9]王 鐸,溫長(zhǎng)吉,王希龍,等. 基于深度卷積條件生成對(duì)抗網(wǎng)絡(luò)的蟲害分類算法研究[J]. 中國(guó)農(nóng)機(jī)化學(xué)報(bào),2020,41(6):179-187.
[10]Schmidhuber J. Deep learning in neural networks:an overview[J]. Neural Networks,2015,61:85-117.
[11]Cao X,Wei Z Y,Gao Y J,et al. Recognition of common insect in field based on deep learning[J]. Journal of Physics:Conference Series,2020,1634(1):012034.
[12]李 靜,陳桂芬,安 宇. 基于優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)的玉米螟蟲害圖像識(shí)別[J]. 華南農(nóng)業(yè)大學(xué)學(xué)報(bào),2020,41(3):110-116.
[13]趙立新,侯發(fā)東,呂正超,等. 基于遷移學(xué)習(xí)的棉花葉部病蟲害圖像識(shí)別[J]. 農(nóng)業(yè)工程學(xué)報(bào),2020,36(7):184-191.
[14]李衡霞,龍陳鋒,曾 蒙,等. 一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的油菜蟲害檢測(cè)方法[J]. 湖南農(nóng)業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2019,45(5):560-564.
[15]He K M,Zhang X Y,Ren S Q,et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(9):1904-1916.
[16]Redmon J,F(xiàn)arhadi A. YOLOv3:an incremental improvement[EB/OL]. (2018-04-08)[2021-08-05]. https://arxiv.org/abs/1804.02767.
[17]張 博,張苗輝,陳運(yùn)忠. 基于空間金字塔池化和深度卷積神經(jīng)網(wǎng)絡(luò)的作物害蟲識(shí)別[J]. 農(nóng)業(yè)工程學(xué)報(bào),2019,35(19):209-215.
[18]Shelhamer E,Long J,Darrell T. Fully convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(4):640-651.
[19]Mahapatra D,Roy P K,Sedai S M,et al. Retinal image quality classification using saliency maps and CNNs[C]//Machine Learning in Medical Imaging,2016:172-179.
[20]劉文定,田洪寶,謝將劍,等. 基于全卷積神經(jīng)網(wǎng)絡(luò)的林區(qū)航拍圖像蟲害區(qū)域識(shí)別方法[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2019,50(3):179-185.
[21]張苗輝,李俊輝,李佩琛. 基于深度學(xué)習(xí)和稀疏表示的害蟲識(shí)別算法[J]. 河南大學(xué)學(xué)報(bào)(自然科學(xué)版),2018,48(2):207-213.
[22]Fuentes A,Yoon S,Kim S C,et al. A robust deep-learning-based detector for real-time tomato plant diseases and pests recognition[J]. Sensors,2017,17(9):2022.
[23]梁萬(wàn)杰,曹宏鑫. 基于卷積神經(jīng)網(wǎng)絡(luò)的水稻蟲害識(shí)別[J]. 江蘇農(nóng)業(yè)科學(xué),2017,45(20):241-243,253.
[24]Ding W G,Taylor G.Automatic moth detection from trap images for pest management[J]. Computers and Electronics in Agriculture,2016,123:17-28.
[25]Wang Q C,Zheng Y J,Yang G P,et al. Multiscale rotation-invariant convolutional neural networks for lung texture classification[J]. IEEE Journal of Biomedical and Health Informatics,2018,22(1):184-195.
[26]Dai J F,Qi H Z,Xiong Y W,et al. Deformable convolutional networks[C]//2017 IEEE International Conference on Computer Vision,2017:764-773.