李守豪 孫宇朝 楊 瑋 張煥春 夏秀波*
(1中國農(nóng)業(yè)大學(xué)現(xiàn)代精細(xì)農(nóng)業(yè)系統(tǒng)集成研究教育部重點(diǎn)實(shí)驗(yàn)室,北京 100083;2山東省煙臺市農(nóng)業(yè)科學(xué)研究院,煙臺,265500;3煙臺市智慧農(nóng)業(yè)研究中心,煙臺 265500)
我國是一個水果生產(chǎn)和消費(fèi)大國[1],水果產(chǎn)業(yè)是我國農(nóng)業(yè)農(nóng)村經(jīng)濟(jì)發(fā)展中的重要組成部分,在我國農(nóng)業(yè)生產(chǎn)、農(nóng)民增收方面做出了重大貢獻(xiàn),對推進(jìn)我國農(nóng)業(yè)領(lǐng)域的供給側(cè)結(jié)構(gòu)性改革、實(shí)現(xiàn)國家鄉(xiāng)村振興戰(zhàn)略具有重大意義。隨著社會的快速發(fā)展,我國人口老齡化形勢愈加嚴(yán)峻,農(nóng)村大量青壯年外流,使得農(nóng)村勞動力大大減少[2],而我國大部分地區(qū)水果采收仍然以人工采摘為主,勞動力成本逐年上升。因此,機(jī)器人代替人工的智能采摘將成為水果采收的必然趨勢[3]。水果果實(shí)視覺檢測技術(shù)是果實(shí)采摘機(jī)器人中最重要的技術(shù)之一,該技術(shù)通過搭載的相機(jī)模塊對各類環(huán)境下的不同信息進(jìn)行感知進(jìn)而捕獲檢測目標(biāo),將其目標(biāo)的各類屬性及立體坐標(biāo)返回到采摘機(jī)器人計算機(jī)中。而目標(biāo)果實(shí)檢測的準(zhǔn)確性與速度是衡量視覺識別系統(tǒng)先進(jìn)性的重要指標(biāo)。近年來,基于深度學(xué)習(xí)的目標(biāo)檢測算法在人工智能領(lǐng)域迅猛發(fā)展,對提高采摘機(jī)器人的視覺檢測性能提供了強(qiáng)有力的技術(shù)支撐,其在提升目標(biāo)檢測精度與速度等方面均展現(xiàn)出巨大潛能。
傳統(tǒng)的數(shù)字圖像處理技術(shù)是基于果實(shí)的顏色、紋理、形狀等單個或多個特征融合的方法將果實(shí)從圖像中檢測出來[4]。丁亞蘭等人[5]采用了R-B顏色因子固定閾值法進(jìn)行獼猴桃果實(shí)的圖像分割,將93作為固定閾值把獼猴桃果實(shí)從背景中分割出來,分割效率大于82%,但當(dāng)獼猴桃圖像背景中存在反光樹葉時,識別效果不佳。傳統(tǒng)的圖像處理技術(shù)受自然環(huán)境下的光照強(qiáng)弱、果實(shí)與枝葉色差大小等因素影響較大,在田間自然條件下果實(shí)的識別效果難以有較大提升。
基于機(jī)器學(xué)習(xí)的目標(biāo)檢測算法主要是通過提取大量果實(shí)樣本數(shù)據(jù)的特征來人工設(shè)計特征提取器進(jìn)而進(jìn)行果實(shí)檢測[6]。其中,K-means聚類算法是一種被廣泛使用的無監(jiān)督學(xué)習(xí)分類方法,如,Wang等人[7]提出了一種基于K-means聚類的荔枝識別算法,能夠較好地減少光照強(qiáng)弱的影響,在有遮擋和果實(shí)重疊下也有較好的識別精度。目前像貝葉斯分類器算法、支持向量機(jī)SVM算法等眾多機(jī)器學(xué)習(xí)圖像分割算法已經(jīng)應(yīng)用到了果實(shí)的識別中且表現(xiàn)良好。但是傳統(tǒng)機(jī)器學(xué)習(xí)算法特征提取復(fù)雜且困難、網(wǎng)絡(luò)結(jié)構(gòu)泛化能力較差且不利于多類別目標(biāo)的檢測,因此在自然環(huán)境相對復(fù)雜的果園中受多種因素影響,其識別效果并不理想。
與傳統(tǒng)的機(jī)器相比,基于深度學(xué)習(xí)的目標(biāo)檢測算法通過構(gòu)建深度卷積神經(jīng)網(wǎng)絡(luò)直接由網(wǎng)絡(luò)自身提取目標(biāo)的特征,進(jìn)行訓(xùn)練學(xué)習(xí),進(jìn)而對目標(biāo)物體進(jìn)行識別檢測。其特征學(xué)習(xí)全面性高,適應(yīng)性好,檢測精度與速率均有較大提升[8]?;谏疃葘W(xué)習(xí)的目標(biāo)檢測算法主要分為one-stage和two-stage兩類,前者較后者在速度上有更大的優(yōu)勢,而精度上會略顯不足。在YOLOv1提出之前,目標(biāo)檢測領(lǐng)域的R-CNN系列算法一枝獨(dú)秀,R-CNN系列算法網(wǎng)絡(luò)結(jié)構(gòu)具有雙階段(two-stage)檢測精度高的特點(diǎn),但檢測速度難以滿足實(shí)時性的要求。YOLO的核心思想就是把目標(biāo)檢測轉(zhuǎn)變成一個回歸問題,把整張圖像作為網(wǎng)絡(luò)的輸入,直接在輸出層回歸得到邊界框(bounding box)的位置及其所屬的類別。目前對于果實(shí)的識別與檢測,深度學(xué)習(xí)的主要使用算法有R-CNN(Region Convolutional Neural Networks)系列、SSD(Single Shot MultiBox Detector)、YOLO(You Only Look Once)系列等。
Girshick等人[9]提出了區(qū)域卷積網(wǎng)絡(luò)目標(biāo)檢測框架R-CNN(Regions with CNN features),屬于兩階段的目標(biāo)檢測算法,使用預(yù)先訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)來抽取特征,有效的提升了識別精度;朱旭等人[10]提出了基于Faster R-CNN的藍(lán)莓冠層果實(shí)檢測識別方法,通過自己構(gòu)建數(shù)據(jù)集,使用改進(jìn)的Faster R-CNN進(jìn)行訓(xùn)練,所得到的模型平均識別準(zhǔn)確率可以達(dá)到94%以上,可以為自動采摘以及估產(chǎn)提供一定的技術(shù)支持;Joseph等人[11]提出YOLO(You Only Look Once)算法,屬于單階段的目標(biāo)檢測,該算法的最大優(yōu)勢就是檢測速度非???,盡管當(dāng)時的精度與Faster-RCNN相比稍有不足,尤其是在小目標(biāo)檢測方面及定位的準(zhǔn)確度方面,但隨著YOLOv7的發(fā)布,該算法系列已成為目前最先進(jìn)的目標(biāo)檢測算法之一。黃彤鑌等人[12]為實(shí)現(xiàn)在自然環(huán)境下對柑橘果實(shí)的識別,通過引入(CBAM)注意力機(jī)制模塊來提高網(wǎng)絡(luò)的特征提取能力,提出一種基于YOLOv5改進(jìn)模型的柑橘識別方法,用α-IoU損失函數(shù)代替GIoU損失函數(shù)作為邊界框回歸損失函數(shù),試驗(yàn)結(jié)果表明模型平均精度AP值達(dá)到91.3%,在GPU上對單張柑橘果實(shí)圖像的檢測時間為16.7 ms,模型占用內(nèi)存為14.5 Mb,為蘋果采收機(jī)器人在復(fù)雜的果園背景下能夠快速、高效的實(shí)現(xiàn)蘋果檢測提供理論基礎(chǔ)。
果實(shí)采摘機(jī)器人的視覺檢測技術(shù)不僅需要準(zhǔn)確地識別出目標(biāo)物體,還要計算出目標(biāo)物體的三維坐標(biāo)并返回到采摘機(jī)器人的計算中心。目前,果實(shí)目標(biāo)三維定位算法根據(jù)其傳感器類型可分為單目相機(jī)、雙目相機(jī)、多目相機(jī)、激光測距儀、深度相機(jī)及光基3D相機(jī)等[13],其中基于單目相機(jī)的目標(biāo)檢測辦法具有結(jié)構(gòu)簡單、成本低、便于標(biāo)定和識別等特點(diǎn),但該方法僅依據(jù)一幅圖像無法恢復(fù)目標(biāo)物體的三維位置,且定位精度受光照強(qiáng)度影響較大,不適合自然條件下高精度的目標(biāo)定位;激光測距儀與光基3D相機(jī)雖具有測量距離遠(yuǎn)、定位精度高等優(yōu)勢,但該方法成本較高且不適用于室外環(huán)境。而基于雙目相機(jī)和深度相機(jī)的定位方法較其他方法在采摘機(jī)器人機(jī)器視覺識別系統(tǒng)上更有優(yōu)勢,在復(fù)雜的自然環(huán)境下具有較高的定位精度。
基于雙目相機(jī)的成本低、圖像分辨率與物體測量精度較高、適合于近距離下室內(nèi)和室外環(huán)境、抗干擾能力強(qiáng)等特點(diǎn)[14],該相機(jī)被廣泛地應(yīng)用于果實(shí)的定位檢測。林中豪等人[15]設(shè)計了一種葡萄園田間雙目測距系統(tǒng),該系統(tǒng)采用BM匹配算法測量葡萄枝葉與機(jī)器人間距離,測距誤差小于3%,為葡萄園監(jiān)控機(jī)器人的應(yīng)用奠定了技術(shù)基礎(chǔ)。為了實(shí)現(xiàn)對蘋果的識別和定位,祁金文等人[16]提出了一種基于YOLOv5算法和雙目相機(jī)的蘋果目標(biāo)識別和定位的改進(jìn)算法,該算法基于雙目相機(jī)使用視差法進(jìn)行三維空間定位最終平均誤差在15.9 mm,平均相對誤差在2.41%左右,可以快速準(zhǔn)確識別和定位蘋果目標(biāo),對蘋果采摘機(jī)器人的研究提供了技術(shù)支撐,奠定了前期工作基礎(chǔ)。
目標(biāo)檢測與定位技術(shù)等視覺檢測技術(shù)雖在果實(shí)采摘機(jī)器人上的研究已經(jīng)取得了相當(dāng)大的進(jìn)展,但是依舊存在不少問題有待解決,例如如何在復(fù)雜的自然果園環(huán)境下進(jìn)一步提升對目標(biāo)果實(shí)識別與定位的準(zhǔn)確度,如何在保持準(zhǔn)確度的條件下進(jìn)一步提高檢測速度,以達(dá)到農(nóng)業(yè)生產(chǎn)中采摘機(jī)器人的實(shí)時性要求,如何在保障檢測準(zhǔn)確度與速度的同時進(jìn)一步簡化模型,以降低對硬件設(shè)備的高性能要求,便于農(nóng)業(yè)生產(chǎn)工具的部署與推廣。
隨著視覺檢測技術(shù)的發(fā)展,未來的采摘機(jī)器人對果實(shí)的檢測與定位應(yīng)是多傳感器信息融合的結(jié)果,不僅僅具有簡單的識別和定位功能,而是集果實(shí)的多品種識別、成熟度分級、質(zhì)量分級、大小分級、產(chǎn)量估計與精確三維定位于一體的采摘即分級的綜合性采摘系統(tǒng)。