陳冬梅 張赫 魏凱華 袁琳 金晶 吳開華
摘要:昆蟲圖像分割是昆蟲圖像的識(shí)別與鑒定的重點(diǎn)和難點(diǎn)。目前,昆蟲分割算法速度慢、過程復(fù)雜且大多數(shù)只針對(duì)于單一背景圖像。為了更準(zhǔn)確高效地實(shí)現(xiàn)昆蟲圖像的前景背景圖像分離,提出一種基于逐像素聚類的端對(duì)端的昆蟲圖像分割方法,能夠同時(shí)實(shí)現(xiàn)復(fù)雜背景下的昆蟲圖像分割與昆蟲種類識(shí)別。采用覆蓋5個(gè)昆蟲目級(jí)階元的37種實(shí)際場(chǎng)景下拍攝的昆蟲圖像作為研究對(duì)象,首先通過試驗(yàn)確定所提模型的最優(yōu)參數(shù)設(shè)置,選擇ResNet101作為分割模型的主干特征提取網(wǎng)絡(luò),在IoU取0.50時(shí),其掩膜分支平均準(zhǔn)確度均值、定位平均準(zhǔn)確度均值及平均識(shí)別誤差率分別為93.15%、95.06%和12.12%,分割每張昆蟲圖像僅需0.080 s,所提模型能夠同步實(shí)現(xiàn)復(fù)雜背景下昆蟲目標(biāo)與背景的快速準(zhǔn)確分割并進(jìn)行分類。
關(guān)鍵詞:昆蟲圖像;復(fù)雜背景;實(shí)時(shí)性;實(shí)例分割;識(shí)別分類
中圖分類號(hào):TP391.41 文獻(xiàn)標(biāo)志碼: A
文章編號(hào):1002-1302(2021)24-0195-10
收稿日期:2021-06-01
基金項(xiàng)目:浙江省基礎(chǔ)公益研究計(jì)劃(編號(hào):LGN19F030001);浙江省農(nóng)業(yè)重大技術(shù)協(xié)同推廣計(jì)劃項(xiàng)目(編號(hào):2020XTTGCY04-02、2020XTTGCY01-05);浙江省基礎(chǔ)公益研究計(jì)劃(編號(hào):LGN19D010001、LGF20F050004、LQ16F050002);國(guó)家自然科學(xué)基金(編號(hào):61705056);浙江省教育廳科研計(jì)劃(編號(hào):Y201533689);中國(guó)博士后科學(xué)基金(編號(hào):2020M681848)。
作者簡(jiǎn)介:陳冬梅(1988—),女,山東煙臺(tái)人,博士,副教授,主要從事圖像分析處理在農(nóng)業(yè)領(lǐng)域的研究。E-mail:chendonmei@hdu.edu.cn。
通信作者:吳開華,博士,教授,主要從事光電檢測(cè)技術(shù)及儀器、在線檢測(cè)技術(shù)及儀器、無人機(jī)技術(shù)等方面的研究工作。E-mail:wukaihua@hdu.edu.cn。
龐大的昆蟲家族是大自然生物鏈中的重要一環(huán),占據(jù)著節(jié)肢動(dòng)物門的最大一綱。這些生物形態(tài)各異,數(shù)量驚人,分布又極其廣泛,迄今發(fā)現(xiàn)的昆蟲有120多萬種,占整個(gè)動(dòng)物界種類的80%左右[1]。其中,絕大多數(shù)昆蟲以植物為寄主,通過取食作物獲取營(yíng)養(yǎng),會(huì)造成農(nóng)作物的產(chǎn)量和品質(zhì)顯著降低,成為制約農(nóng)業(yè)生產(chǎn)的重要因素之一[2]。因此,研究昆蟲的規(guī)律,找出其中可供利用的特性,對(duì)于農(nóng)業(yè)發(fā)展,尤其是害蟲防治策略的設(shè)計(jì)和益蟲的保護(hù)與利用都具有十分重要的意義。在昆蟲研究中,昆蟲的識(shí)別既是昆蟲研究和害蟲防治的基礎(chǔ),也是昆蟲研究的重要內(nèi)容之一[3]。
傳統(tǒng)的昆蟲識(shí)別是通過分類學(xué)專家或具有昆蟲分類知識(shí)的技術(shù)人員對(duì)昆蟲進(jìn)行種類的鑒定[4]。但現(xiàn)有的分類學(xué)專家和掌握分類的技術(shù)人員無論在分布還是在數(shù)目上均難以滿足時(shí)下正呈現(xiàn)擴(kuò)大傾向的各類實(shí)際場(chǎng)景需求。同時(shí),昆蟲圖像識(shí)別由于昆蟲本身紋理豐富而被視為一類相對(duì)困難的圖像細(xì)粒度識(shí)別問題。當(dāng)識(shí)別種類及數(shù)量較多時(shí),群體所呈現(xiàn)出的種間相似性、種內(nèi)多樣性以及不同姿態(tài)的差異會(huì)進(jìn)一步增加數(shù)據(jù)復(fù)雜度,此類圖像的區(qū)分信息更多地集中在像素層面,用人為構(gòu)建并篩選的特征對(duì)圖像進(jìn)行表達(dá)很容易丟失其中的細(xì)節(jié)[5]。
信息技術(shù)的快速發(fā)展使得計(jì)算機(jī)代替人腦進(jìn)行判別的方法成為了可能,以計(jì)算機(jī)為基礎(chǔ)的昆蟲自動(dòng)識(shí)別方法可以處理最常見的昆蟲圖像數(shù)據(jù),先將采集的昆蟲圖像進(jìn)行圖像處理和背景前景分離,再使用圖像識(shí)別方法進(jìn)行類別分析。目前,基于計(jì)算機(jī)的昆蟲圖像分割主要依賴于傳統(tǒng)圖像分割方法,如基于閾值的分割方法、基于邊緣的分割方法、基于區(qū)域的分割方法以及基于數(shù)學(xué)形態(tài)學(xué)的分割方法等[6]。Mele等提出了基于全局閾值與局部種子區(qū)域生長(zhǎng)法相結(jié)合的昆蟲圖像分割方法[7]。劉曉靜等根據(jù)復(fù)雜背景下的昆蟲彩色圖像的特點(diǎn),采用了一種融合顏色和空間信息的靜態(tài)圖像壓縮(JSEG)分割算法[8]。一方面,這些研究只利用圖片中邊緣、顏色、紋理等低級(jí)特征,分割結(jié)果并不精確,同時(shí)對(duì)于圖像的要求較高,且對(duì)于昆蟲的分類大多是在分割結(jié)果的基礎(chǔ)上進(jìn)行,整個(gè)過程須要分步進(jìn)行,存在效率低、適用性差等缺點(diǎn)。另一方面,目前多數(shù)研究是將某領(lǐng)域中較成熟的圖像分割算法直接或稍加改進(jìn)后,在較小的測(cè)試集或某張圖像上進(jìn)行仿真測(cè)試,很少對(duì)大樣本的圖像做測(cè)試,不能充分說明方法的可行性[9]。自然環(huán)境下昆蟲種類繁多,實(shí)際場(chǎng)景下獲取的昆蟲圖像背景復(fù)雜,有些昆蟲目標(biāo)與背景相似度高,這使得僅依靠圖片中低級(jí)特征去解決復(fù)雜背景下昆蟲目標(biāo)的分割及識(shí)別分類存在較大的局限性。
近年來,隨著機(jī)器學(xué)習(xí)的迅速發(fā)展,國(guó)內(nèi)外學(xué)者越來越關(guān)注以機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法為基礎(chǔ)的圖像識(shí)別分割。在昆蟲分割方面,楊信廷等以粉虱和薊馬為例,提出了一種基于邊緣檢測(cè)算子分割和支持向量機(jī)的溫室粉虱和薊馬誘蟲板的圖像識(shí)別算法,實(shí)現(xiàn)溫室害蟲的誘蟲板圖像識(shí)別[10]。王衛(wèi)民等針對(duì)害蟲圖像分割和計(jì)數(shù)存在的問題,在U-Net基礎(chǔ)上改進(jìn)得到了Insect-Net模型用于昆蟲的識(shí)別和計(jì)數(shù)[11]。竺樂慶等基于全卷積網(wǎng)絡(luò)實(shí)現(xiàn)了鱗翅目標(biāo)本圖像前背景的自動(dòng)分割[12]。Pang等針對(duì)傳統(tǒng)分類器對(duì)圖像要求高且分類不準(zhǔn)確等問題,基于F-RCN對(duì)昆蟲進(jìn)行識(shí)別[13]。上述昆蟲分割方法僅在實(shí)驗(yàn)室環(huán)境無背景或單一背景的昆蟲圖像上具有較好的分割效果。對(duì)于自然環(huán)境下復(fù)雜背景的昆蟲圖像的分割及識(shí)別分類效果還有待進(jìn)一步探索。
針對(duì)自然環(huán)境下昆蟲圖像分割和識(shí)別的特殊性和復(fù)雜性,以及目前昆蟲圖像分割及識(shí)別的不足,本試驗(yàn)提出逐像素聚類的端對(duì)端的昆蟲圖像分割方法,擬同時(shí)實(shí)現(xiàn)復(fù)雜背景下的昆蟲圖像背景分離和昆蟲識(shí)別,本研究主要包括材料與方法、試驗(yàn)與結(jié)果以及總結(jié)與展望。
1 材料與方法
1.1 圖像數(shù)據(jù)與試驗(yàn)環(huán)境
本試驗(yàn)的試驗(yàn)圖像數(shù)據(jù)涵蓋5個(gè)目級(jí)階元下的37類共4 285張昆蟲圖像[14-15]。所有圖像都是通過數(shù)碼相機(jī)(佳能、尼康和移動(dòng)設(shè)備等)捕獲的。為了消除光照變化的潛在負(fù)面影響,所有樣品圖像在作物田間情況下均采用統(tǒng)一的光照設(shè)置進(jìn)行預(yù)處理。本試驗(yàn)采用圖像標(biāo)注軟件Labelme[16]以VOC格式對(duì)圖像添加掩膜標(biāo)簽,并生成模型訓(xùn)練所需的掩膜圖片,數(shù)據(jù)集中每類昆蟲圖像及其對(duì)應(yīng)的掩膜圖像示例如圖1所示。圖1中對(duì)應(yīng)每種昆蟲的編號(hào)、種類名稱及數(shù)量均在表1中詳細(xì)列出。試驗(yàn)在杭州電子科技大學(xué)高性能計(jì)算機(jī)平臺(tái)上進(jìn)行。該平臺(tái)操作系統(tǒng)為Windows 10,平臺(tái)采用單塊型號(hào)為NVDIA GTX 1080Ti的圖形處理器,搭載Intel(R) Core(TM) i7-8700k的CPU,內(nèi)存為11 G。
1.2 昆蟲圖像分割方法概述
本研究擬使用基于YOLCAT++[17]的昆蟲分割模型,其算法整體流程如圖2所示。首先,昆蟲原始圖像通過主干特征提取網(wǎng)絡(luò)得到特征圖,然后C3~C5層特征圖通過特征金字塔網(wǎng)絡(luò)FPN[18]得到P3~P5層特征圖。同時(shí)為消除混疊效應(yīng),對(duì)P3~P5層進(jìn)行卷積得到新的P3~P5層,P6、P7層是由P5層卷積得到。模型將分割過程拆分為頭部預(yù)測(cè)和原型網(wǎng)絡(luò)2個(gè)并行的分支,將2個(gè)分支的輸出合并獲得最終的掩膜。筆者使用快速非極大抑制對(duì)每個(gè)實(shí)例預(yù)測(cè)得到的掩膜進(jìn)行處理。通過裁剪將邊界外的掩膜清零,其中訓(xùn)練階段的邊界是真實(shí)邊框,評(píng)估階段的邊界是預(yù)測(cè)的邊框。最后,以0.5為閾值對(duì)生成的掩膜進(jìn)行圖像二值化處理得到最終結(jié)果。
1.2.1 主干特征提取網(wǎng)絡(luò)結(jié)構(gòu) 目前,主流的圖像識(shí)別算法主要是利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)自動(dòng)提取圖像特征,而后依據(jù)提取到的特征進(jìn)行目標(biāo)的提取和分類。特征金字塔網(wǎng)絡(luò)是一種通用結(jié)構(gòu),它可以與VGG[19]、ResNet[20]、Mobilenets[21]、Darknet[22]等不同的骨架網(wǎng)絡(luò)組合使用。本研究分別使用了ResNet50、ResNet101與FPN組合的結(jié)構(gòu),具體結(jié)構(gòu)如圖3所示。從圖3可以看出,ResNet-FPN分為3個(gè)部分,分別是自下而上連接部分、自下而上連接部分及橫向連接部分。其中,自下而上部分是以ResNet作為骨架結(jié)構(gòu)進(jìn)行特征的提取,ResNet分為5個(gè)不同的階段,其中將階段3到階段5各層最后輸出的一層特征分別定義為C3、C4、C5。自上而下是從最高層開始以最近鄰法進(jìn)行上采樣。橫向連接是利用256×1×1的卷積核對(duì)C3~C5各層進(jìn)行卷積操作,不經(jīng)過激活函數(shù)直接得到256通道的特征圖輸出,將其與上采樣得到的特征圖進(jìn)行加和得到融合特征圖。然后用3×3的卷積核對(duì)融合后的特征圖進(jìn)行卷積,以便消除混疊效應(yīng)。最終得到 P3~P5特征層。特征層P6則是P5經(jīng)過步長(zhǎng)為2的最大池化下采樣得到,特征層P7則是P6經(jīng)過步長(zhǎng)為2的最大池化下采樣得到。 其中, P3用于輸入到原型網(wǎng)絡(luò)分支,P3~P7特征層作為后續(xù)頭部預(yù)測(cè)分支的輸入。
1.2.2 原型掩膜及系數(shù)計(jì)算 原型網(wǎng)絡(luò)是一種簡(jiǎn)單、高效的學(xué)習(xí)方式,其基本思路是對(duì)于每一個(gè)分類來創(chuàng)建一個(gè)原型表示。模型中原型網(wǎng)絡(luò)分支由若干卷積層組成,其結(jié)構(gòu)如圖4-a所示。以P3層作為輸入進(jìn)入到原型網(wǎng)絡(luò)分支,利用全卷積神經(jīng)網(wǎng)絡(luò)產(chǎn)生一系列與圖像大小一致的原型掩膜,這一過程不依賴任一特定實(shí)例且不依賴重池化,因此產(chǎn)生了質(zhì)量非常高且穩(wěn)定性更好的掩碼。P3層昆蟲特征圖經(jīng)過卷積層卷積后輸出維度為138×138×32的掩膜,即32個(gè)大小是138×138的原型掩膜。
為了提高速度,達(dá)到實(shí)時(shí)分割的目的,引入共享卷積網(wǎng)絡(luò),在RetinaNet[23]的基礎(chǔ)上改進(jìn)得到頭部預(yù)測(cè)分支,其網(wǎng)絡(luò)結(jié)構(gòu)如圖4-b所示。以P3~P7作為輸入進(jìn)入到預(yù)測(cè)頭,然后有1個(gè)分支輸出目標(biāo)位置,1個(gè)分支輸出掩膜系數(shù),1個(gè)分支輸出分類的置信率,即在原本目標(biāo)檢測(cè)分支的基礎(chǔ)上添加一個(gè)掩膜輸出,對(duì)每個(gè)錨框來預(yù)測(cè)掩膜系數(shù),也就是對(duì)實(shí)例的表示編碼為原型域的表達(dá)。所以決定目標(biāo)的有4(位置)+k(掩膜系數(shù))+37(分類置信率)個(gè)參數(shù)。將預(yù)測(cè)頭分支得到的掩膜系數(shù)和原型分支得到的原型掩膜做矩陣乘法,得到圖像中每一個(gè)目標(biāo)物體的掩膜。
以P3層昆蟲特征圖為例進(jìn)行說明,P3的維度是69×69×256,則P3層生成的錨框個(gè)數(shù)是14 283(69×69×3=14 283)。然后頭部預(yù)測(cè)分支將其分為3個(gè)分支輸出,分別是 (1)類別置信度,本數(shù)據(jù)集共有38類(包括背景),所以其維度為542 754(P3層生成的錨框個(gè)數(shù)×38);(2)位置偏移,維度為 57 132(P3層生成的錨框個(gè)數(shù)×4);(3)掩膜置信度,維度為457 056(P3層生成的錨框個(gè)數(shù)×32)。對(duì)P4~P7進(jìn)行相同的操作,最后將這些結(jié)果拼接起來,標(biāo)記共有19 248,本數(shù)據(jù)集共有38類(包括背景),所以全部類別的置信度維度為731 424(標(biāo)記個(gè)數(shù)×38);全部位置偏移維度為76 992(標(biāo)記個(gè)數(shù)×4);全部掩膜的置信度維度為615 936(標(biāo)記個(gè)數(shù)×32)。
同時(shí),在模型中引入了可變形卷積[24],即采用自由形式的采樣代替了傳統(tǒng)的剛性網(wǎng)格采樣,將ResNet C3~C5層中的各個(gè)3×3標(biāo)準(zhǔn)卷積每隔3個(gè)卷積層換成一個(gè)3×3可變形卷積。因此,相比標(biāo)準(zhǔn)卷積,可變形卷積通過學(xué)習(xí)位置偏移得到更符合待檢目標(biāo)形狀和尺寸的采樣點(diǎn)。在錨框策略上,本研究采用的是保持比例[1,1/2,2]不變,把FPN每一層的特征尺寸數(shù)目增加3倍。
1.3 分割結(jié)果評(píng)價(jià)指標(biāo)
圖像分割的評(píng)價(jià)指標(biāo)是從文獻(xiàn)檢索演變而來的,將圖像分割的像素點(diǎn)屬于感興趣區(qū)域的可能性與文本的相關(guān)性相關(guān)聯(lián),從而將文本檢索中的性能評(píng)價(jià)指標(biāo)應(yīng)用到圖像分割[25]。目標(biāo)一般分為2類(正例和負(fù)例,分別用P和N表示)。模型評(píng)價(jià)指標(biāo)一般由TP(true positive)、FP(false positive)、FN(false negative)及TN(true negative)4個(gè)參數(shù)表示(表2)。其中,TP表示把正例判為正例的數(shù)目,F(xiàn)N表示把正例判為負(fù)例的數(shù)目,F(xiàn)P表示把負(fù)例判為正例的數(shù)目,TN表示把負(fù)例判為負(fù)例的數(shù)目。
準(zhǔn)確率是指判斷正確的情況占所有情況的比例,其中判斷正確的總共有(TP+TN)個(gè),準(zhǔn)確率A可通過公式(1)計(jì)算得到。精確率是指把正的預(yù)測(cè)為正的個(gè)數(shù)占所有預(yù)測(cè)為正的樣本的比例。預(yù)測(cè)為正的樣本總共有(TP+FP)個(gè),精確率P可由公式(2)計(jì)算得到。召回率是指所有正樣本中被預(yù)測(cè)正確的占所有正樣本的比例,其中正樣本預(yù)測(cè)為正的有TP個(gè),正樣本總共有(TP+FN)個(gè)。召回率R可通過公式(3)計(jì)算得到。
A=TP+TNTP+TN+FN+FP;(1)
P=TPTP+FP;(2)
R=TPTP+FN。(3)
平均精度(AP)指標(biāo)可以全面地表達(dá)圖像分割模型的分類器性能,是準(zhǔn)確率和召回值的綜合體現(xiàn),已被廣泛應(yīng)用于目標(biāo)檢測(cè)方法的評(píng)價(jià)[26-27]。通常計(jì)算過程中會(huì)提供一系列重疊閾值對(duì)其進(jìn)行平均以避免偏頗。重疊閾值指單個(gè)實(shí)例的候選框與原標(biāo)記框的交疊率,即IoU。例如,AP50%表示統(tǒng)計(jì)IoU值大于50%的實(shí)例的平均精度。平均精度是精確率在召回率上的積分,計(jì)算公式如公式(4)所示。式中:P為精確率,R為召回率,通常AP值越高,分類器性能越好。
AP=∫10P(R)dR。(4)
每一類圖像都可以計(jì)算出對(duì)應(yīng)的AP值,平均準(zhǔn)確度均值(mAP)是指分類器能識(shí)別的所有類的AP值取算術(shù)平均值得到的值,其計(jì)算公式如公式(5)所示。
mAP=∑CC=1AP(C)C。(5)
除了分類和定位準(zhǔn)確度,速度也是體現(xiàn)目標(biāo)檢測(cè)算法性能的重要指標(biāo),對(duì)于移動(dòng)端昆蟲識(shí)別來說,速度是檢驗(yàn)?zāi)芊襁_(dá)到實(shí)時(shí)檢測(cè)的一個(gè)重要指標(biāo)。評(píng)估速度常用的指標(biāo)是每秒幀率(FPS),即每秒內(nèi)可以處理的圖片數(shù)量。另外也可以通過處理一張圖片消耗的時(shí)間來評(píng)估檢測(cè)速度,時(shí)間越短,速度越快。本研究以處理每張圖片所用時(shí)間作為評(píng)價(jià)速度的指標(biāo)。
無論是目標(biāo)檢測(cè)還是分割,都會(huì)對(duì)目標(biāo)進(jìn)行分類,即檢測(cè)到的目標(biāo)屬于哪一種類別。本研究以測(cè)試數(shù)據(jù)集中每類昆蟲錯(cuò)分的數(shù)量占本類測(cè)試圖像總數(shù)的比例作為類別誤差率(LR),通過求取每種類別誤差率的均值作為平均識(shí)別誤差率(mLR)。具體計(jì)算公式如公式(6)所示,式中:i取1~37內(nèi)的整數(shù),表示37類昆蟲,n=37表示共37類昆蟲,LR(i) 表示每類昆蟲的誤差率。
mLR=∑37i=1LR(i)n。(6)
2 試驗(yàn)與結(jié)果
在試驗(yàn)中,對(duì)超參數(shù)進(jìn)行了統(tǒng)一設(shè)置,其中batch size設(shè)置為4,學(xué)習(xí)率設(shè)置為0.001,使用了動(dòng)量的隨機(jī)梯度下降(SGDM)優(yōu)化算法[28],交叉驗(yàn)證的L2正則化參數(shù)設(shè)置為0.000 5。
2.1 主干特征提取網(wǎng)絡(luò)對(duì)比試驗(yàn)
主干特征提取網(wǎng)絡(luò)是特征提取的重要組件,其復(fù)雜程度很大程度上決定了目標(biāo)分割算法的耗時(shí),且模型的性能很大程度上依賴于主干特征提取網(wǎng)絡(luò)。本研究分別以ResNet50和ResNet101作為主干特征提取網(wǎng)絡(luò)對(duì)昆蟲分割模型進(jìn)行試驗(yàn)。首先,通過判斷訓(xùn)練總損失曲線、定位損失曲線、分類損失曲線及掩膜損失曲線是否收斂來確定不同主干特征提取網(wǎng)絡(luò)對(duì)于分割模型是否具有良好的擬合泛化能力,在確定擬合泛化能力之后,通過比較不同主干下模型的平均準(zhǔn)確度均值、平均識(shí)別誤差率、訓(xùn)練時(shí)間及測(cè)試每張昆蟲圖片所耗時(shí)間等4項(xiàng)性能評(píng)價(jià)指標(biāo),進(jìn)而確定分割效果最優(yōu)的主干特征提取網(wǎng)絡(luò)。分別以ResNet50和ResNet101作為主干特征提取網(wǎng)絡(luò),對(duì)模型進(jìn)行訓(xùn)練和測(cè)試。圖5是模型在不同主干特征提取網(wǎng)絡(luò)下模型各類損失訓(xùn)練曲線,可以看出,2個(gè)模型在訓(xùn)練和驗(yàn)證的迭代過程中,分類、邊框及掩膜的損失值均呈整體下降趨勢(shì),且最終達(dá)到收斂。說明2種主干特征提取網(wǎng)絡(luò)組成的分割模型均具有較強(qiáng)的擬合及泛化能力。在確定模型的擬合泛化能力之后,對(duì)不同主干下模型的整體性能進(jìn)行分析。表3為模型分別以ResNet50、ResNet101作為主干特征提取網(wǎng)絡(luò)的條件下,IoU取0.50~0.95閾值時(shí)模型邊框及掩膜的平均準(zhǔn)確度均值。隨著IoU值的遞增,定位及掩膜的mAP值逐漸變小。由表3可知,在IoU取0.50時(shí),平均準(zhǔn)確度均值最大。由表4可知,IoU取0.50時(shí),以ResNet50作為主干特征提取網(wǎng)絡(luò)得到的掩膜平均準(zhǔn)確度均值稍高于ResNet101,且訓(xùn)練時(shí)間和測(cè)試每張圖片消耗的時(shí)間均少于ResNet101,但分類平均識(shí)別誤差率比ResNet101高3.48百分點(diǎn),因此對(duì)模型而言,以ResNet101作為主干特征提取網(wǎng)絡(luò)時(shí)得到的整體性能更佳。
2.2 模型與Mask R-CNN分割性能對(duì)比試驗(yàn)
在實(shí)現(xiàn)分割與分類的同時(shí),如何提高圖像的識(shí)別速度是本研究的重點(diǎn)之一。在以Mask R-CNN為代表的雙階段實(shí)例分割方法中模板掩膜的生成與特征定位的準(zhǔn)確與否有著密切的關(guān)聯(lián),現(xiàn)有的方法是通過對(duì)特征進(jìn)行“repooling”(RoI pooling/Align)使其與原始圖像位置對(duì)準(zhǔn),之后將新的定位特征送入掩膜分支進(jìn)行預(yù)測(cè),這個(gè)過程須要分步驟進(jìn)行,因此很難加速。通過對(duì)本研究采用的單階段分割模型與雙階段分割模型Mask R-CNN進(jìn)行比較,分析兩者在分割效果及效率上的性能。
對(duì)于Mask R-CNN模型,同樣分別以ResNet50和ResNet101作為主干特征提取網(wǎng)絡(luò)進(jìn)行試驗(yàn)。首先通過判斷訓(xùn)練總損失曲線、定位損失曲線、分類損失曲線及掩膜損失曲線是否收斂來確定不同主干特征提取網(wǎng)絡(luò)對(duì)于Mask R-CNN模型是否具有良好的擬合泛化能力,在確定擬合泛化能力之后,通過比較不同主干下模型的平均準(zhǔn)確度均值、平均識(shí)別誤差率、訓(xùn)練時(shí)間及測(cè)試每張昆蟲圖片所耗時(shí)間等4項(xiàng)性能評(píng)價(jià)指標(biāo),進(jìn)而確定分割效果最優(yōu)的主干特征提取網(wǎng)絡(luò)。然后將得到的結(jié)果與基于本研究網(wǎng)絡(luò)模型得到的結(jié)果進(jìn)行對(duì)比分析。
對(duì)Mask R-CNN及本研究模型在掩膜分支的性能進(jìn)行分析比較。不同模型在主干特征提取網(wǎng)絡(luò)分別為ResNet50及ResNet101的情況下,IoU取0.50時(shí)掩膜平均準(zhǔn)確度均值、平均識(shí)別誤差率、訓(xùn)練時(shí)間及測(cè)試每張昆蟲圖片所耗時(shí)間4項(xiàng)性能指標(biāo)的值如表5所示。由表5可知,本研究所用模型在訓(xùn)練時(shí)所耗時(shí)間要遠(yuǎn)遠(yuǎn)多于Mask R-CNN,但是測(cè)試每張昆蟲圖片所耗時(shí)間要遠(yuǎn)少于Mask R-CNN。其中,本研究采用的模型以ResNet50作為主干特征提取網(wǎng)絡(luò)時(shí)測(cè)試每張昆蟲圖片所耗時(shí)間要少于以ResNet101作為主干特征提取網(wǎng)絡(luò)時(shí)的時(shí)間。在平均識(shí)別誤差率方面,以ResNet50作為主干特征提取網(wǎng)絡(luò)的Mask R-CNN比以ResNet50作為主干特征提取網(wǎng)絡(luò)的分割模型低7.03百分點(diǎn);以ResNet101作為主干特征提取網(wǎng)絡(luò)的分割模型與以ResNet101作為主干特征提取網(wǎng)絡(luò)的Mask R-CNN相當(dāng)。在平均準(zhǔn)確度均值方面,無論是以ResNet50還是以ResNet101作為主干特征提取網(wǎng)絡(luò),基于本研究模型得到的平均準(zhǔn)確度均值均優(yōu)于Mask R-CNN。綜合上述分析,以ResNet101作為主干特征提取網(wǎng)絡(luò)時(shí)本研究采用的模型具有較好的分割性能,在保證識(shí)別誤差率和分割精度的基礎(chǔ)上,大大減少了分割消耗的時(shí)間。圖6、圖7所示分別是基于本研究模型和基于Mask R-CNN得到的部分分割結(jié)果,通過對(duì)比可以看出,基于本研究模型得到的掩膜結(jié)果要明顯優(yōu)于Mask R-CNN。
2.3 分割異常分析
在分割結(jié)果中存在少數(shù)異常的情況,存在異常結(jié)果的昆蟲種類主要包括菊方翅網(wǎng)蝽、菜蝽、赤條蝽、稻綠蝽和小菜蛾等。蟲害圖像分割異常主要包括小目標(biāo)漏檢、圖像中目標(biāo)與背景相似導(dǎo)致目標(biāo)無法識(shí)別及類別錯(cuò)分等3種情況。圖8-a、圖8-b是小目標(biāo)未被檢測(cè)到的示例,本研究分割模型是基于錨框的,大目標(biāo)的檢測(cè)主要依靠小的特征圖,而小目標(biāo)的檢測(cè)依賴于較大的特征圖,大特征圖來自于淺層網(wǎng)絡(luò),淺層網(wǎng)絡(luò)提取到的特征主要是一些淺層特征,小目標(biāo)的像素特征少,檢測(cè)往往更依賴于淺層特征,由于所能得到的特征信息過少造成小目標(biāo)漏檢的結(jié)果。圖8-c、圖8-d是由于圖像目標(biāo)與背景相似導(dǎo)致網(wǎng)絡(luò)提取不到足夠的信息對(duì)目標(biāo)進(jìn)行分類、定位及分割,從而造成結(jié)果異常。圖8-e、圖8-f、圖8-g、圖8-h是種類錯(cuò)分的示意圖,由于圖像目標(biāo)之間存在較大的相似性,在卷積網(wǎng)絡(luò)提取特征的過程中,不同種類之間可用于區(qū)分的信息較少導(dǎo)致類別出錯(cuò),測(cè)試結(jié)果中錯(cuò)分主要包括2個(gè)種類,將菜蝽和赤條蝽錯(cuò)分。
3 總結(jié)與展望
本研究以作物常見昆蟲圖像為研究目標(biāo),基于單階段實(shí)例分割模型設(shè)計(jì)了復(fù)雜背景下作物昆蟲快速識(shí)別分割方法,分別對(duì)不同主干特征提取網(wǎng)絡(luò)單階段實(shí)例分割算法及雙階段實(shí)例分割算法Mask R-CNN進(jìn)行試驗(yàn)及性能的對(duì)比分析,結(jié)果表明,以ResNet101作為主干特征提取網(wǎng)絡(luò)時(shí),本研究采用的模型具有最好的分割性能,在IoU取0.50時(shí),其掩膜分支平均準(zhǔn)確度均值、定位平均準(zhǔn)確度均值及平均識(shí)別誤差率分別為93.15%、95.06%和12.12%,分割每張昆蟲圖像僅需0.080 s。與雙階段分割算法Mask R-CNN相比,本研究采用的單階段分割算法在保證識(shí)別誤差率及精確度的同時(shí),極大地縮減了分割圖片消耗的時(shí)間。
本方法初步實(shí)現(xiàn)了昆蟲圖片的識(shí)別與分割。雖然在識(shí)別誤差率上仍須要進(jìn)一步優(yōu)化提高,但是與之前的研究相比,該方法實(shí)現(xiàn)了復(fù)雜背景下昆蟲目標(biāo)的分割,同時(shí)大大縮減了昆蟲目標(biāo)分割所消耗的時(shí)間,這對(duì)于實(shí)現(xiàn)昆蟲圖像的實(shí)時(shí)性分割具有重要意義,且對(duì)于特定場(chǎng)景下昆蟲的識(shí)別及分割具有參考價(jià)值。
目前,病蟲害分割主要是利用溫室或田間地頭的攝像頭、相機(jī)等設(shè)備采集作物葉片上的蟲害圖像,然后將圖像上傳到遠(yuǎn)端服務(wù)器進(jìn)行相關(guān)圖像處理[10]。在后續(xù)相關(guān)工作中,對(duì)于分割模型,在保證分割準(zhǔn)確率及分割效率的情況下,可以通過簡(jiǎn)化模型大小,將模型應(yīng)用到移動(dòng)端。其次,可以開發(fā)對(duì)應(yīng)的蟲害計(jì)數(shù)軟件應(yīng)用,這樣農(nóng)戶可以隨時(shí)對(duì)作物蟲害進(jìn)行識(shí)別分類及計(jì)數(shù),進(jìn)而對(duì)蟲情進(jìn)行實(shí)時(shí)判斷并采取對(duì)應(yīng)的措施。
本研究所用數(shù)據(jù)集大多是單目標(biāo)圖像,對(duì)于昆蟲計(jì)數(shù),在后續(xù)研究中需要增加圖像的復(fù)雜性,進(jìn)而通過分割結(jié)果得到計(jì)數(shù)結(jié)果。此外,在對(duì)于多種類的昆蟲檢測(cè)及分割達(dá)到相對(duì)較好效果的條件下,將算法模型應(yīng)用于特定應(yīng)用場(chǎng)景下昆蟲的檢測(cè)及分割還有待進(jìn)一步研究,相應(yīng)的昆蟲圖像數(shù)據(jù)集有待進(jìn)一步健全。
參考文獻(xiàn):
[1]閻錫海,王延鋒,李延清. 昆蟲起源、進(jìn)化及其原因模糊性研究[J]. 延安大學(xué)學(xué)報(bào)(自然科學(xué)版),2003,22(1):81-84.
[2]吳孔明. 我國(guó)農(nóng)業(yè)昆蟲學(xué)的現(xiàn)狀及發(fā)展策略[J]. 植物保護(hù),2010,36(2):1-4.
[3]陳學(xué)新. 21世紀(jì)我國(guó)害蟲生物防治研究的進(jìn)展、問題與展望[J]. 昆蟲知識(shí),2010,47(4):615-625.
[4]姚 青,呂 軍,楊保軍,等. 基于圖像的昆蟲自動(dòng)識(shí)別與計(jì)數(shù)研究進(jìn)展[J]. 中國(guó)農(nóng)業(yè)科學(xué),2011,44(14):2886-2899.
[5]劉子毅.基于圖譜特征分析的農(nóng)業(yè)蟲害檢測(cè)方法研究[D]. 杭州:浙江大學(xué),2017.
[6]華敏杰.基于深度學(xué)習(xí)的圖像語義分割算法概述[J]. 中國(guó)戰(zhàn)略新興產(chǎn)業(yè),2018(4):120.
[7]Mele K.Insect soup challenge:segmentation,counting,and simple classification[C]//2013 IEEE International Conference on Computer Vision Workshops.Sydney,NSW,Australia:IEEE,2013:168-171.
[8]劉曉靜,耿國(guó)華,周明全,等. 一種基于復(fù)雜背景下的昆蟲彩色圖像分割方法[J]. 計(jì)算機(jī)應(yīng)用與軟件,2008,25(11):37-38,88.
[9]王江寧,紀(jì)力強(qiáng). 昆蟲圖像分割方法及其應(yīng)用[J]. 昆蟲學(xué)報(bào),2011,54(2):211-217.
[10]楊信廷,劉蒙蒙,許建平,等. 自動(dòng)監(jiān)測(cè)裝置用溫室粉虱和薊馬成蟲圖像分割識(shí)別算法[J]. 農(nóng)業(yè)工程學(xué)報(bào),2018,34(1):164-170.
[11]王衛(wèi)民,符首夫,顧榕蓉,等. 基于卷積神經(jīng)網(wǎng)絡(luò)的蟲情圖像分割和計(jì)數(shù)方法[J]. 計(jì)算機(jī)工程與科學(xué),2020,42(1):110-116.
[12]竺樂慶,馬夢(mèng)園,張 真,等. 基于全卷積網(wǎng)絡(luò)的鱗翅目標(biāo)本圖像前背景自動(dòng)分割方法研究[J]. 昆蟲學(xué)報(bào),2018,61(2):255-262.
[13]Pang H W,Yang P P,Chen X L,et al. Insect recognition under natural scenes using R-FCN with anchor boxes estimation[C]//International Conference on Image and Graphics.Springer,Cham,2019:689-701.
[14]Xie C J,Zhang J E,Li R,et al. Automatic classification for field crop insects via multiple-task sparse representation and multiple-kernel learning[J]. Computers and Electronics in Agriculture,2015,119:123-132.
[15]Xie C J,Wang R J,Zhang J E,et al. Multi-level learning features for automatic classification of field crop pests[J]. Computers and Electronics in Agriculture,2018,152:233-241.
[16]Russell B C,Torralba A,Murphy K P,et al. LabelMe:a database and web-based tool for image annotation[J]. International Journal of Computer Vision,2008,77(1/2/3):157-173.
[17]Bolya D,Zhou C,Xiao F,et al. YOLACT++:better real-time instance segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2020,99:1.
[18]Lin T Y,Dollár P,Girshick R,et al. Feature pyramid networks for object detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Honolulu,HI,USA:IEEE,2017:936-944.
[19]Simonyan K,Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. Computer Science,2014:1409-1556.
[20]He K M,Gkioxari G,Dollár P,et al. Mask R-CNN[C]//Proceedings of the IEEE international conference on computer vision.Venice,Italy:IEEE,2017:2961-2969.
[21]Howard A G,Zhu M L,Chen B,et al. MobileNets:efficient convolutional neural networks for mobile vision applications[J]. Computer Vision & Pattern Recognition,2017:1704-4861.
[22]Redmon J,Divvala S,Girshick R,et al. You only look once:unified,real-time object detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Las Vegas,NV,USA:IEEE,2016:779-788.
[23]Lin T Y,Goyal P,Girshick R,et al. Focal loss for dense object detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2020,42(2):318-327.
[24]Zhu X Z,Hu H,Lin S,et al. Deformable ConvNets V2:more deformable,better results[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Long Beach,CA,USA:IEEE,2019:9300-9308.
[25]鄧 穎,吳華瑞,朱華吉. 基于實(shí)例分割的柑橘花朵識(shí)別及花量統(tǒng)計(jì)[J]. 農(nóng)業(yè)工程學(xué)報(bào),2020,36(7):200-207.
[26]Kapoor A J,F(xiàn)an H,Sardar M S.Intelligent detection using convolutional neural network[J]. Earth and Environmental Science,2019,234:12061.
[27]Revaud J,Almazan J,Rezende R,et al. Learning with average precision:training image retrieval with a listwise loss[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV).Seoul,Korea (South):IEEE,2019:5106-5115.
[28]Theodoridis S. Stochastic gradient descent[M]//Machine learning. Amsterdam:Elsevier,2015:161-231.