孫 俊,楊鍇鋒,羅元秋,沈繼鋒,武小紅,錢 磊
(江蘇大學(xué)電氣信息工程學(xué)院,鎮(zhèn)江 212000)
小麥是世界上播種面積最大、產(chǎn)量最多、分布最廣的糧食作物[1],2021 年世界小麥使用量達到7.54 億t[2]。然而,受人口增長、需求增加和氣候變化等因素的影響,相關(guān)部門需要準確決策以確保小麥作物的可持續(xù)生產(chǎn)[3]。小麥的生產(chǎn)對中國以及世界各地的作物生產(chǎn)[4]、糧食價格[5]和糧食安全[6-7]等產(chǎn)生了重大影響,因此,快速、準確產(chǎn)量估計對于小麥管理、貿(mào)易和政府決策至關(guān)重要。
小麥產(chǎn)量預(yù)估主要由單位面積穗數(shù)、單穗粒數(shù)和千粒質(zhì)量3 個參數(shù)決定[8],傳統(tǒng)產(chǎn)量預(yù)估主要通過農(nóng)業(yè)部門根據(jù)經(jīng)驗進行目測估產(chǎn)或者隨機選取大田區(qū)域進行人工采樣、計數(shù)、稱質(zhì)量統(tǒng)計來完成[9],前者準確率低,易受個人經(jīng)驗影響,后者則工作量巨大,費時費力。
當前,隨著傳感器與計算機技術(shù)的發(fā)展[10],對農(nóng)作物成熟前進行估產(chǎn)的方法層出不窮。針對超大面積農(nóng)田估產(chǎn),相關(guān)研究主要通過宏觀數(shù)據(jù),例如氣候變化[11-12]、空氣中氮氧含量[13]、衛(wèi)星遙感葉面積指數(shù)等進行估產(chǎn)[14-15]。Cao 等[16]比較了傳統(tǒng)的機器學(xué)習(xí)方法和深度學(xué)習(xí)模型,通過整合谷歌地球引擎平臺內(nèi)的氣候、衛(wèi)星、土壤特性和空間信息數(shù)據(jù)對小麥進行產(chǎn)量預(yù)估,建立模型的決定系數(shù)R2達到了0.90。宏觀數(shù)據(jù)雖然可以快速對大范圍農(nóng)作物進行估產(chǎn),但數(shù)據(jù)的收集、變化都極易受外界因素影響,產(chǎn)量預(yù)估準確率不能保證。近年來,隨著視覺技術(shù)的發(fā)展,通過近景圖像進行目標計數(shù)的方法層出不窮。深度學(xué)習(xí)中計數(shù)方法可以分為以下三類:基于目標檢測、圖像分割和密度圖計數(shù)的方法?;跈z測的目標計數(shù)方法使用Faster R-CNN[17]、Yolo[18]、SSD[19]等算法通過檢測到目標區(qū)域生成多個位置框,進而統(tǒng)計出目標的數(shù)量。Madec等[20]使用Faster R-CNN 對240 張高空間分辨率小麥RGB圖像進行計數(shù),最終預(yù)測方程R2達到0.91,線性擬合效果較好。文獻[21]通過卷積神經(jīng)網(wǎng)絡(luò)結(jié)合梯度下降法與非極大值抑制構(gòu)建冬小麥麥穗檢測計數(shù)系統(tǒng)。對 100 幅冬小麥圖像進行麥穗計數(shù)測試,采用決定系數(shù)和歸一化均方根誤差(Normalized Root Mean Square Error,NRMSE)進行正確率定量評價,最終R2與NRMSE 分別達到0.62、11.73%,精度有待進一步提高。謝元澄等[22]通過引入特征金字塔及在線負樣本挖掘技術(shù)構(gòu)建 FCS R-CNN 網(wǎng)絡(luò)對麥穗進行檢測,檢測精度達到92.9%。Wang 等[23]針對小麥遮擋問題,提出了一種隨機切割方法,根據(jù)圖像中的小麥數(shù)量和大小選擇和刪除一些矩形框,模擬真實小麥圖像的遮擋。采用卷積塊注意模塊(Convolutional Block Attention Module,CBAM)對無用的背景信息進行剔除,關(guān)注麥穗?yún)^(qū)域,提出的模型計數(shù)精度達到94%。使用目標檢測的方法對麥穗進行識別計數(shù),雖然能直觀顯示每個麥穗的目標信息,但目標檢測算法對部分遮擋的麥穗識別效果差,因此上述研究的計數(shù)精度以及R2有待進一步提高。Ma 等[24]使用基于深度卷積神經(jīng)網(wǎng)絡(luò)與像素級語義分割的全卷積網(wǎng)絡(luò)(Fully Convolutional Networks,F(xiàn)CN)結(jié)合的網(wǎng)絡(luò)模型,對冬小麥麥穗進行分割,分割精度達到了82.9%,且通過泛化測試驗證了所提出的兩階段分割方法的實用性。錢立冬[25]使用基于多尺度殘差U-net 分割網(wǎng)絡(luò)結(jié)合注意力子對抗網(wǎng)絡(luò)對小麥進行分割計數(shù),實現(xiàn)了90.8%的召回率,展現(xiàn)了較好的分割計數(shù)性能。但基于分割的方法對重疊相互遮擋的目標識別效果較差,而基于密度圖計數(shù)的方法可以很好緩解這個問題。
MCNN(Multi-Column Convolutional Neural Network,MCNN)[26]與CSRnet[27]等方法在密集人群計數(shù)中展現(xiàn)了良好的計數(shù)性能,這些方法依賴于訓(xùn)練回歸來估計圖像不同部分的目標密度,然后進行積分得到目標數(shù)量。考慮到麥田實拍麥穗分布密集,鮑文霞等[28]將基于密度圖的方法用在了麥穗計數(shù)上,并且在4 種不同品種小麥上,取得的平均絕對誤差達到了 16.23。劉航等[29]提出Resnet-16 模型,對全球小麥數(shù)據(jù)集實現(xiàn)端到端的麥穗密度圖回歸計數(shù),引入矯正因子和膨脹因子后,模型的R2達到了0.973,計數(shù)準確率達到了94%?;诿芏葓D方法對麥穗計數(shù)展現(xiàn)了良好的性能,但是還存在部分不足,如模型的泛化能力未得到驗證,精度有待進一步提升。
相關(guān)研究表明,小麥估產(chǎn)可以通過對大區(qū)域宏觀數(shù)據(jù)建模,以及對近景圖片使用深度學(xué)習(xí)的方法進行計數(shù)。但宏觀數(shù)據(jù)收集難度較大,易受到外界因素干擾。深度學(xué)習(xí)的方法雖然準確率高,但其需要大量的圖像以及標注,圖像采集與標注過程費時費力,因此目前基于深度學(xué)習(xí)的麥穗計數(shù)研究中,大部分自建的數(shù)據(jù)集[20-21,28]圖像數(shù)量少于300 張,且部分研究對小麥品種進行劃分,單獨評估某一品種小麥計數(shù)準確性指標。使用過小的數(shù)據(jù)量與單一固定品種的麥穗圖像容易造成訓(xùn)練的模型泛化能力太弱,陷入局部最優(yōu)[30]。因此現(xiàn)階段研究無法建立通用的麥穗計數(shù)模型,不能很好地用于不區(qū)分品種的小麥計數(shù)。考慮到現(xiàn)存問題,本研究使用全球收集的小麥圖像,通過圖像濾波以增強對無人機麥穗圖像的泛化能力,另外通過改進CSRnet 網(wǎng)絡(luò)結(jié)構(gòu),將前端網(wǎng)絡(luò)增加三個卷積層,以提取小麥更深層的特征,另外將特征提取網(wǎng)絡(luò)插入4 種不同尺度的上下文語義信息提取模塊,最終融合兩部分信息提取小麥特征,構(gòu)建 Wheat Ear Counting 網(wǎng)絡(luò)(WECnet),對麥穗進行準確計數(shù)。為了驗證模型的泛化能力,本文除了在原有的全球小麥數(shù)據(jù)集進行測試驗證其評估指標外,還通過使用無人機獲取的實拍小麥圖像驗證,其與訓(xùn)練集來源完全不同,用于確保模型的可移植性。
1.1.1 數(shù)據(jù)來源與劃分
為了獲取足夠多樣且有代表性的小麥圖像,避免因小麥圖像特征單一,導(dǎo)致訓(xùn)練模型泛化能力弱的問題,本文使用的麥穗圖像來源于全球小麥檢測數(shù)據(jù)集(GWHD,http://www.global-wheat.com)。選擇GWHD圖像中5 個國家的小麥數(shù)據(jù)集,不同國家圖像采集與麥穗特征如表1 所示。
表1 不同國家麥穗圖像特征Table 1 Image features of wheat ears in different countries
小麥種植的行間距從15~30.5 cm 不等,每平方米種植150~450 粒種子不等,包含多種基因型,小麥生長階段在開花期與成熟期之間,所使用相機焦距在10~60 mm不等,相機與地面的距離在1.8~2.9 m 之間,俯視拍攝,圖像大小統(tǒng)一為1 024×1 024 像素。本文選取GWHD 數(shù)據(jù)集中的1 000 幅圖像,累計包含47 573 個麥穗。此1 000幅圖像按照8∶1∶1 劃分為訓(xùn)練集、測試集、驗證集。驗證集參與網(wǎng)絡(luò)訓(xùn)練,對當前訓(xùn)練模型的超參數(shù)進行對比尋優(yōu);測試集不參與訓(xùn)練,僅通過評價指標驗證模型的泛化效果。
另外,為了更好驗證模型的泛化能力,本文還通過無人機獲取田間實拍小麥圖像進行驗證。圖像采集區(qū)域位于江蘇江陰市(31°51′N,120°29′E)以及安徽淮南市(32°28′N,117°2′E)兩處農(nóng)田。數(shù)據(jù)采集時間分別在2021年5 月4 日16:00 和5 月10 日10:00,此時小麥正處于灌漿期。選用的無人機鏡頭型號為DJI-FC1102,光圈大小為f/2.6,曝光時間自動。原始圖像分辨率為3 968×2 976 像素,考慮到網(wǎng)絡(luò)輸入尺寸限制,將圖像調(diào)整到1 209×907 像素。鏡頭距離麥穗上部0.5~1.2 m,俯視拍攝,拍攝細節(jié)如圖1 所示。為了避免太陽劇烈照射影響成像效果,拍攝時天氣情況為多云,并且剔除模糊和畸變嚴重的圖像,最終篩選出46 幅符合要求的圖像,經(jīng)人工統(tǒng)計麥穗數(shù)目總和為3 780 穗。
1.1.2 數(shù)據(jù)標注與人工計數(shù)
本文對GWHD 數(shù)據(jù)集中的訓(xùn)練集與驗證集進行麥穗點標注,使用shanghaitech 數(shù)據(jù)集標注格式,通過matlab人工標注圖片中的麥穗中心坐標點與麥穗總數(shù)。另外,本文對GWHD 數(shù)據(jù)集中劃分的測試集(Test_A)與無人機拍攝的圖像(Test_B)進行人工計數(shù),通過使用序號筆工具與多人共同統(tǒng)計數(shù)量取平均值以保證計數(shù)的準確性,保存每幅圖像中麥穗數(shù)量。麥穗細節(jié)與數(shù)據(jù)集劃分標注流程如圖2 所示。
1.1.3 數(shù)據(jù)增強
深度學(xué)習(xí)需要數(shù)以百萬計的大量參數(shù),足夠充足的數(shù)據(jù)才能使這些參數(shù)更具有代表性,但實際情況中獲取足量數(shù)據(jù)存在難度。在麥穗計數(shù)中,實拍麥穗會因為成長階段、光照、拍攝狀態(tài)等不同造成麥穗狀態(tài)不一,難以獲取所有狀態(tài)的小麥圖像,因此需要對原始圖像進行數(shù)據(jù)增強。采用數(shù)據(jù)增強技術(shù)增加樣本多樣性是提升卷積神經(jīng)網(wǎng)絡(luò)檢測精度和泛化能力最簡單有效的方法。隨機增加數(shù)據(jù)多樣性的方法包括旋轉(zhuǎn)、裁剪、鏡像等,針對性數(shù)據(jù)增強策略包括添加噪聲、改變對比度,濾波等。針對細節(jié)模糊的圖像樣本,加強圖像邊緣、保持真實度是圖像增強時關(guān)注的兩大要素[31]。數(shù)據(jù)增強的目的就是使有限數(shù)據(jù)集包含更多目標特征,更擬合現(xiàn)實場景。本研究使用公開的全球采集的小麥圖像,公開的圖像經(jīng)過壓縮處理,圖像平均大小為180 kB,圖像質(zhì)量較差,包含較多噪音[32]。經(jīng)過添加多種噪聲與不同濾波卷積核試驗對比,發(fā)現(xiàn)對數(shù)據(jù)集進行濾波可以有效提升圖像的泛化能力。選擇的濾波器卷積核與濾波效果如圖3所示。小麥灌漿期麥穗與葉片顏色接近,濾波后有效突出了麥穗邊緣細節(jié),提升了圖像質(zhì)量。本文使用OpenCV 中的filter2D()函數(shù),將線性濾波器應(yīng)用于圖像,濾波函數(shù)為
式中 dst()為目標圖像,src()為原始圖像,k為卷積核(kernel),cols、rows 分別為卷積核的列數(shù)、行數(shù),A表示內(nèi)核的錨點(anchor)。
1.2.1 WECnet 小麥計數(shù)模型網(wǎng)絡(luò)框架
CSRnet[27]人群計數(shù)模型網(wǎng)絡(luò)框架包括前端和后端網(wǎng)絡(luò),前端網(wǎng)絡(luò)使用VGG16 的前10 層提取特征,后端網(wǎng)絡(luò)使用空洞卷積生成高質(zhì)量的密度圖,此方法對密集人群計數(shù)展現(xiàn)了良好的性能。CSRnet 網(wǎng)絡(luò)主要識別人群頭部區(qū)域,頭部與其他部位顏色與紋理等信息區(qū)別較大,且頭部形狀單一,因此計數(shù)效果良好。而灌漿期麥穗與葉片顏色接近,且存在多種長寬比的麥穗,給網(wǎng)絡(luò)準確計數(shù)帶來挑戰(zhàn)。因此本研究使用VGG19 替代VGG16 以提取更深層特征,使用不同空洞率卷積替代固定空洞卷積,在融合多尺度特征的同時,可以保證網(wǎng)絡(luò)輸出較高分辨率的密度圖。在網(wǎng)絡(luò)中插入上下文語義信息提取模塊,使用不同大小感受野,關(guān)注麥穗上下文語義信息。WECnet 整體框架如圖4 所示。前端網(wǎng)絡(luò)由VGG19 的前12 層組成,對輸入固定大小的224×224 RGB 圖像進行3×3、步長為1 的卷積。在卷積第2、4、8 層后,使用大小為2×2、步長為2 的最大池化層,通過前端網(wǎng)絡(luò)提取麥穗的基本特征。將提取到的VGG特征通過平均池化操作,使其成為不同大小的核,1×1 卷積可以跨通道組合上下文特征而不改變它們的維度,由于輸出的特征圖只包含部分原始輸入值,因此需要上采樣到原始輸入值大小,獲取尺度特征。將尺度特征與VGG 特征進行融合,然后將其傳遞給后端網(wǎng)絡(luò)。后端網(wǎng)絡(luò)使用空洞卷積,在不減小感受野的情況下降低空間特征的損失,針對麥穗特征,對空洞率進行調(diào)整,前兩層使用普通卷積,3~6 層使用空洞率為2 與4 的空洞卷積,最后一層使用1×1 卷積進行輸出,生成高質(zhì)量的密度圖,預(yù)測麥穗目標數(shù)量。
1.2.2 上下文語義信息提取
前端VGG網(wǎng)絡(luò)在整幅圖像上使用相同的感受野對圖像進行卷積,而麥穗大小尺度不一,長寬比例不同,VGG網(wǎng)絡(luò)提取的特征對麥穗計數(shù)存在局限,容易對較長的麥穗誤檢,影響計數(shù)精度。因此,在文中通過引入上下文語義信息提取模塊,通過將VGG19 前12 層提取的局部特征進行平均池化分為4 種不同大小的塊,然后對其進行上采樣,以返回原始特征圖大小形成對比度特征。對比度特征進一步用于學(xué)習(xí)不同尺度的權(quán)重,然后將其反饋至后端網(wǎng)絡(luò),最終生成高質(zhì)量的密度圖。上下文語義信息提取示意如圖5 所示。
1.2.3 標簽密度圖生成
在麥穗標注中,每個麥穗僅標注其中心點坐標(x,y)。實際上,麥穗不可能只由一個像素點代替,中心點附近的坐標也可以代表麥穗。若直接將麥穗中心點作為目標1,其他部位直接視為負樣本0,會對網(wǎng)絡(luò)的訓(xùn)練帶來極大的干擾,影響模型擬合。因此,本文采用MCNN[26]中生成密度圖的方法,利用自適應(yīng)高斯卷積核對麥穗標注形成標簽密度圖,距離中心點越近,激活值越大,這樣網(wǎng)絡(luò)能有方向地快速收斂到最優(yōu)模型,密度生成函數(shù)為
式中di表示與第i個麥穗最相鄰的m個麥穗的平均距離,β為增益系數(shù),本文中,m取3,β取0.3。xi表示標注中心點坐標,δ(x?xi)表示圖像包含的麥穗位置信息,G(x)為自適應(yīng)高斯核函數(shù)。根據(jù)人工標注的坐標生成的麥穗密度可視化圖如圖6 所示。
1.2.4 田間小麥密度預(yù)測模型
田間小麥實拍面積大小計算方法如下:1)從無人機獲取的圖像信息中讀取無人機飛行的相對地面高度H,為了便于計算,本文使用無人機進行水平飛行,可視為高度H固定。2)測量小麥高度,同一品種相同生長狀態(tài)的小麥可視為同一高度,通過測量多株小麥麥穗高度取平均值獲取h。3)通過鏡頭與小麥距離,鏡頭的水平視場角計算圖像覆蓋的面積S。田間小麥密度模型可由麥穗計數(shù)模型預(yù)測的單幅圖像平均麥穗數(shù)量與圖像覆蓋面積計算。
式中S為拍攝圖像的實際面積,m2;H為無人機距離地面高度,m;h為麥穗高度,m;θ為無人機鏡頭的水平視場角,(°),ρear為平均麥穗密度,個/m2,Ni為第i幅圖像預(yù)測的麥穗數(shù)量,n為圖像數(shù)量。
本文使用端到端的方法訓(xùn)練WECnet 網(wǎng)絡(luò),前12 層由訓(xùn)練良好的VGG19 進行微調(diào),其他層進行標準偏差為0.01 的高斯初始化。所有模型均在Ubuntu 16.04 LTS 64位系統(tǒng)環(huán)境下運行,采用pytorch 深度學(xué)習(xí)框架。計算機硬件配置為32GB 內(nèi)存,搭載 Intel? Core? i7-8700K CPU 和GTX1080Ti 11GB 顯卡。迭代次數(shù)為100 次,初始學(xué)習(xí)率設(shè)置為1×10-5,每30 次迭代學(xué)習(xí)率下降為原來的十分之一,動量(momentum)設(shè)置為 0.95,batch size設(shè)置為2。為了在訓(xùn)練前期更有效利用信息,采用隨機梯度下降算法法(Stochastic Gradient Descent,SGD)優(yōu)化訓(xùn)練模型。訓(xùn)練中損失函數(shù)的計算公式為
深度學(xué)習(xí)的計數(shù)相關(guān)研究通常使用平均絕對誤差(Mean Absolute Error,MAE)、均方根誤差(Root Mean Squared Error,RMSE)、決定系數(shù)(R2)作為模型評價指標。另外,對無人機圖像計數(shù)增加整體錯誤率(Error rate,Er)指標。MAE 為預(yù)測值與真實值的平均誤差,表示算法的準確性,MAE 越小,算法準確度越高;RMSE為預(yù)測值與真實值誤差的分散程度,代表算法的穩(wěn)定性,RMSE 越小,算法的魯棒性越高;R2表示趨勢線擬合程度,它的數(shù)值大小可以反映麥穗計數(shù)的估計值與對應(yīng)的實際數(shù)據(jù)之間的擬合程度,數(shù)值越接近1,擬合程度越高,趨勢線的可靠性就越高;Er 表示模型在整體測試集上預(yù)測麥穗計數(shù)結(jié)果的錯誤率,數(shù)值越小,整體誤差越小。
為了驗證WECnet 的性能,本文將WECnet 與其他4種經(jīng)典、性能優(yōu)異的方法進行對比,對比的方法分為兩類:目標檢測計數(shù)方法和密度圖計數(shù)方法。目標檢測算法使用矩形框標記目標的位置,結(jié)果更加直觀,但在目標檢測后處理過程中,單個目標物會應(yīng)與多個預(yù)測目標輸出,因此在對正樣本的選擇中,網(wǎng)絡(luò)容易對密集、遮擋嚴重的目標漏檢,影響計數(shù)效果。計數(shù)整體性能不如密度圖方法。目標檢測計數(shù)方法中,YOLO V5 為單階段算法,其基于整張圖片信息進行預(yù)測,因此速度較快,平均單幅圖像檢測僅需18 ms,但其通過長寬比篩選并過濾了大小和長寬比較極端的真實目標框,對部分麥穗未成功檢測,影響計數(shù)性能。FPN[33]為兩階段算法,使用滑窗式的檢測窗口,基于局部圖片信息進行推理,速度較慢,平均單幅圖像檢測需60 ms,算法定位準確率較高,在麥穗數(shù)據(jù)集上MAE 到達了6.77。在密度圖計數(shù)方法中,MCNN 使用多列分別訓(xùn)練,其參數(shù)計算量過大,并不能高效地預(yù)測不同大小的目標,并且難以訓(xùn)練,單幅圖像計數(shù)耗時72 ms。CSRnet 采用易于訓(xùn)練的端到端方法,通過空洞卷積擴展感受野,用于人群計數(shù)和高質(zhì)量密度圖生成,單幅圖像計數(shù)耗時28 ms。WECnet 由于增加了網(wǎng)絡(luò)層數(shù)與語義信息提取結(jié)構(gòu),速度相較CSRnet 有所減慢,單幅圖像計數(shù)耗時32 ms,提升精度的同時速度依然可以滿足實際應(yīng)用需求。不同方法對比結(jié)果如表2 所示。
表2 不同方法評估結(jié)果Table 2 Evaluation results of different methods
為了直觀展示檢測結(jié)果,本文將5 種方法計數(shù)結(jié)果進行可視化展示,如圖7 所示。其中,圖像1、2 包含麥穗數(shù)量的人工計數(shù)結(jié)果為49、64。檢測算法使用矩形框標記目標的位置,結(jié)果更加直觀,但在目標檢測后處理過程中,單個目標物會應(yīng)與多個預(yù)測目標輸出,因此對正樣本的選擇中網(wǎng)絡(luò)容易對密集、遮擋嚴重的目標漏檢,影響計數(shù)效果,計數(shù)結(jié)果小于真實值。密度圖方法直接進行回歸計數(shù),計數(shù)準確率相對較高。由于MCNN 與CSRnet 網(wǎng)絡(luò)針對人群計數(shù),將近似圓形的頭部視為關(guān)鍵區(qū)域,未考慮小麥存在不同長寬比例的情況,過于狹長的麥穗被重復(fù)計數(shù),造成部分圖像計數(shù)值高于真實值的情況,而本文網(wǎng)絡(luò)WECnet 進行改進,很好地避免了重復(fù)計數(shù),并且加深網(wǎng)絡(luò)層次,提取更深層次特征,取得了最優(yōu)的計數(shù)效果。
WECnet 在原始人群計數(shù)網(wǎng)絡(luò)CSRnet 的基礎(chǔ)上添加了上下文語義信息提取模塊,另外在前端特征提取網(wǎng)絡(luò)將原有的VGG16 更換為VGG19,后端網(wǎng)絡(luò)對固定空洞率的卷積替換為多種空洞率的卷積。為了驗證改進的網(wǎng)絡(luò)結(jié)構(gòu)在麥穗計數(shù)中提升性能的能力,對不同網(wǎng)絡(luò)結(jié)構(gòu)的測試結(jié)果如表3 所示。
表3 不同網(wǎng)絡(luò)結(jié)構(gòu)計數(shù)性能比較Table 3 Comparison of counting performance of different network structures
表3 中,模型1 單獨加入上下文語義信息提取模塊,提取小麥尺度信息,模型2 單獨使用多種空洞率的卷積,模型4 單獨使用更深的VGG19 前端網(wǎng)絡(luò)提取特征,更深的結(jié)構(gòu)提取了更多麥穗特征。分別單獨使用語義信息提取、多空洞率的卷積或VGG19 改進后,模型計數(shù)性能都有所上升,模型取得最優(yōu)的R2、RMSE 與MAE 達到0.92、6.65 與5.12。
模型3 使用多空洞率卷積與語義信息提取模塊,模型5 使用VGG19 與語義信息提取模塊,模型6 使用VGG19 與多空洞率卷積。采用兩種優(yōu)化方式結(jié)合,計數(shù)性能得到進一步提升,模型取得最優(yōu)的R2、RMSE 與MAE達到0.93、6.31 與4.92。最終,使用VGG19 作為前端網(wǎng)絡(luò)、插入上下文語義信息提取模塊以及使用多種空洞率的后端網(wǎng)絡(luò)構(gòu)建的WECnet 達到了最優(yōu)的性能,其線性擬合R2達到0.95,RMSE 降低至6.1,MAE 降低至4.78,均為所有模型評價指標的最優(yōu)值,相較于原始的人群計數(shù)網(wǎng)絡(luò),R2、RMSE 與MAE 性能分別提升4.4%、13.2%、9.8%,可以準確對麥穗進行計數(shù)。
在改進的計數(shù)網(wǎng)絡(luò)上,本文對無人機拍攝的小麥圖像使用原始計數(shù)網(wǎng)絡(luò)及改進網(wǎng)絡(luò)進行麥穗數(shù)量預(yù)測,同時與人工計數(shù)真實值進行比較,結(jié)果如圖8 所示。
總體來說,改進后的4 種網(wǎng)絡(luò)都可以較準確的對無人機獲取的圖像進行麥穗計數(shù),R2均能達到0.85 以上,線性擬合線可以有效反映預(yù)測值與真實值的關(guān)系。具體來看,原始人群計數(shù)網(wǎng)絡(luò)CSRnet 的R2達到了0.87,擬合程度較高,但是大部分圖像預(yù)測麥穗數(shù)量大于真實數(shù)量,整體計數(shù)錯誤率較高,錯誤率5.49%。通過數(shù)據(jù)增強和改進網(wǎng)絡(luò),降低了整體計數(shù)錯誤率。在本文的WECnet上,使用數(shù)據(jù)增強計數(shù)對46 幅圖像總計3 880 個麥穗的計數(shù)結(jié)果為3 871,錯誤率僅為0.23%,性能最優(yōu)。因此,本文方法訓(xùn)練的模型可以有效用于田間實拍的麥穗圖像計數(shù)中,對無人機獲取的小麥圖像可以進行準確的麥穗計數(shù),進而對小麥的密度進行預(yù)估以實現(xiàn)精準的小麥估產(chǎn)。
本研究在人群計數(shù)網(wǎng)絡(luò)CSRnet 的基礎(chǔ)上,通過改進構(gòu)建WECnet 網(wǎng)絡(luò)對無人機采集圖像中麥穗進行計數(shù)。為了獲得可遷移的麥穗計數(shù)模型,選用全球5 個國家的1 000 幅不同品種小麥圖像以保證麥穗多樣性,并對訓(xùn)練集圖像進行線性濾波增強。在WECnet 網(wǎng)絡(luò)前端,通過使用VGG19 的前12 層進行特征提取,同時與上下文語義特征進行融合,充分提取麥穗的特征信息,后端網(wǎng)絡(luò)使用多空洞率卷積在融合多尺度特征的同時,保持網(wǎng)絡(luò)輸出較高分辨率的密度圖。為了驗證模型的可遷移性,本研究通過訓(xùn)練好的模型對無人機獲取的麥田圖像進行計數(shù)。研究結(jié)論如下:
1)在全球小麥數(shù)據(jù)集上,本文訓(xùn)練的模型決定系數(shù)、均方根誤差與平均絕對誤差達到了0.95、6.1、4.78,相較原始的人群計數(shù)網(wǎng)絡(luò),計數(shù)準確率得到提升。
2)在無人機拍攝圖像計數(shù)中,決定系數(shù)達到了0.886,整體錯誤率僅為0.23%,平均單幅圖像計數(shù)時間為32 ms,計數(shù)速度與精度都表現(xiàn)優(yōu)異。
通過本文構(gòu)建的普適田間小麥密度預(yù)測模型,可以為無人機獲取的小麥圖像進行麥田估產(chǎn)提供數(shù)據(jù)參考。