孔翰博 王克強 蔡肯 林欽永 陳楚君
(仲愷農(nóng)業(yè)工程學(xué)院 廣東省廣州市 510225)
20 年代中后期,美國學(xué)者Schertz 和 Brown 首次提出利用機器人作用與水果收獲過程中,利用機器人對水果采摘過程進行簡化。經(jīng)過世界各國學(xué)者的研究和實驗,目前已開發(fā)出各種類型的拾取機器人,但在實際應(yīng)用中還存在許多問題。據(jù)統(tǒng)計,作物采摘已經(jīng)占中國勞動力的三分之二以上,面對今天的高勞動力成本和巨大的勞動力人口。采摘機器人的設(shè)計目的是實現(xiàn)高效摘莊稼,同時降低巨大的采摘成本。然而,現(xiàn)有的采摘機器人樣機由于采摘效率低,尚處于一個實驗進行研究發(fā)展階段,因外界環(huán)境因素的不穩(wěn)定性導(dǎo)致采摘機器人的應(yīng)用問題一直都是沒有可以達到普及水平。影響因素概括為:目標(biāo)生長狀態(tài)的變化;枝葉和枝干的濃蔭以及簇的生長;光照強度和夜間采摘的影響;此外,崎嶇的地面和機器人同時運行時機械手的自由度給實際應(yīng)用造成了很大的困難。針對實際環(huán)境下選擇機器人的精度、實時、穩(wěn)定性和本地適應(yīng)性,特征進行提取信息技術(shù),機器學(xué)習(xí)的多種算法和深度合作學(xué)習(xí)的各種網(wǎng)絡(luò)模型為其提供了巨大的支撐。從早期基于顏色,形狀,紋理等圖像特征的提取到傳統(tǒng)的機器學(xué)習(xí)算法的使用,再到先進卷積神經(jīng)網(wǎng)絡(luò)下的深度學(xué)習(xí)模型的廣泛應(yīng)用。國內(nèi)外學(xué)者針對多種算法或多種模型的實驗,取得了良好的效果。
針對上述問題,本文主要介紹和總結(jié)了近年來在識別和定位領(lǐng)域的研究進展和成果,通過對比分析幾種算法和模型與其他學(xué)者結(jié)合對原算法和模型進行改進的優(yōu)勢和局限性。并且以數(shù)據(jù)精確性,實時性,穩(wěn)定性和廣泛性為標(biāo)準(zhǔn)來鑒定分析算法和模型的設(shè)計可行性。最后,對當(dāng)前大數(shù)據(jù)時代的相關(guān)技術(shù)進行了討論,希望從面部識別、動態(tài)捕獲技術(shù)應(yīng)用于農(nóng)業(yè)識別和定位等行業(yè)中學(xué)習(xí),希望為相關(guān)工作提供幫助。
特征是表示對象的數(shù)量。識別算法必須選擇合適的特征。這是保證算法有效性的關(guān)鍵。良好的圖像特征可以讓物體在特征空間中更好地分離,減少算法的負擔(dān),更省力地提供乘數(shù)效應(yīng)。顏色、形狀和紋理特征在目標(biāo)的檢測中最為常用。在以往的研究中,研究人員通過對顏色、特征、紋理等圖像特征進行分割來檢測水果等一些農(nóng)作物,但由于外部因素,單個特征或兩個特征總是存在檢測精度誤差。原因是一些外部因素給實驗帶來的影響。由于這種限制,使用傳統(tǒng)的數(shù)字圖像處理,將作物特征兩種或兩種以上的多功能檢測方法來有效提高檢測的準(zhǔn)確性。
1.1.1 基于顏色的特征處理
作為全局特征,可以使用圖像顏色來描述與所確定的區(qū)域相對應(yīng)的圖像或場景的表面特征。例如,對于果實顏色與枝條、葉片和枝條差異較大的作物,提取顏色作為其特征是可行的,如蘋果和荔枝。2012 年Zhou 等提出了一種基于色差R-B(紅色-藍色)和G-R(綠色-紅色)的蘋果識別算法,但此方法適用于杏、桃、油桃和柑橘等顏色特征較為明顯的水果作物。研究資料發(fā)現(xiàn),多數(shù)的學(xué)者大多利用RGB,YCbCr,Lab 和HSV 等顏色空間來提取出目標(biāo)作物的顏色特征并且組合閾值分割出目標(biāo)作物的輪廓特征,從而進行識別。Peng 等在以往研究的Otus 算法的基礎(chǔ)上,改進進行了雙次Otus 分割的多目標(biāo)色彩識別算法,延續(xù)了在一定程度上不受圖像對比度與亮度變化影響并且基本克服了傳統(tǒng)Otus 分割算法對3 類目標(biāo)對象無法處理的問題。但是當(dāng)目標(biāo)進行作物與其發(fā)展背景不同顏色相似時(例如青柑橘與其綠葉顏色相似時),該方法會出現(xiàn)問題無法通過分割導(dǎo)致檢測失敗的情況。
1.1.2 基于形狀的特征處理
形狀特征提取算法在背景和顏色難以區(qū)分或存在遮擋等問題時更容易檢測。描述目標(biāo)形狀特征的主要包括輪廓形狀和區(qū)域形狀兩種類型。Chen等運用傅里葉描述子原理,提取油茶果形狀特征并識別,提取油茶果和樹葉的8 階歸一化傅里葉描述子特征,用SVM 方法分類識別正確率100%。區(qū)域進行形狀可以描述中的分水嶺算法對微弱的邊緣網(wǎng)絡(luò)信息技術(shù)有著一個較好的響應(yīng),Zhang等在傳統(tǒng)的分水嶺算法中引入形態(tài)學(xué)重建,在消除噪聲的同時避免了過度的切割,較完整的完成了對目標(biāo)邊界的識別分割。
1.1.3 基于紋理的特征處理
紋理是近年來許多學(xué)者在特征提取中最常用的因素,對于背景顏色、遮擋等干擾下的目標(biāo)分離具有重要意義。局部二值模式(local binary patterns, LBP)算法由T.Ojala 等人提出,是一種針對圖像局部紋理特征信息提取的補充算法,具有計算復(fù)雜度低;無需訓(xùn)練學(xué)習(xí);光照不變性;易于工程實現(xiàn)的優(yōu)勢;之后在LBP 的基礎(chǔ)上提出了WLD 紋理描述符,并設(shè)計了基于局部紋理描述符和形狀、大小特征的棗果自動分類系統(tǒng),展示了紋理特征下的紋理描述符提取結(jié)果優(yōu)于顏色,形狀特征,結(jié)合選定的WLD 描述符與YCbCr 顏色空間中的形狀和大小特征相結(jié)合,最高精度可以達到98.1%。
1.1.4 基于多特征集成處理
在自然條件下,外部因素的影響往往導(dǎo)致特征提取效果較差。例如,反射光的強度因照明條件不同而不同;作物果實被枝、葉、枝和簇遮擋也會影響形狀和大小的特征提取。上述因素影響下下,單一的特征進行提?。伾?,形狀,紋理等)并非是一個最佳的辦法。Wang等結(jié)合HSV 和形狀特征融合的方法對花椒進行識別,在不同光照條件下識別率有了不同的提高,平均條件下識別率達到94%,在遮陰,背光,順光條件下均比傳統(tǒng)的HSV 顏色空間算法識別率得到了提高。
1.1.5 缺陷檢測
有些農(nóng)作物在生長和運輸過程中會出現(xiàn)皮膚缺陷。以胡蘿卜為例,對胡蘿卜的表皮缺陷進行檢測是識別過程中一個非常具有重要的環(huán)節(jié)。
胡蘿卜缺陷包括青頭、彎曲、分支、斷裂、開裂等,對于不同的缺陷需要不同的算法:
(1)青頭檢測是利用正常胡蘿卜區(qū)域和綠頭區(qū)域之間的色差來實現(xiàn)的,在HSV 顏色空間中,胡蘿卜圖像用于確定綠頭區(qū)域H、S 和V 的識別閾值。區(qū)分了胡蘿卜與存在缺陷的胡蘿卜之間的形狀差異。
(2)凸包算法、Hu 不變矩和Harris 角點檢測算法分別用于檢測胡蘿卜彎曲、斷裂和分支缺陷。
(3)裂紋檢測使用胡蘿卜正常和裂紋區(qū)域的紋理。
(4)差分實現(xiàn)、Sobel 水平邊緣檢測算子、canny 邊緣檢測算子結(jié)合形態(tài)學(xué)操作實現(xiàn)胡蘿卜裂紋區(qū)域提取。綜合以上算法,對缺陷胡蘿卜的識別有了較高的正確率。
1.1.6 特征提取的總結(jié)
綜合顏色,形狀,紋理和缺陷等特征的檢測中(如表1所示),我們不難發(fā)現(xiàn),當(dāng)作物顏色明顯可以區(qū)分或者與背景顏色區(qū)分較大時,可以以顏色作為主要的提取特征,例如杏、桃、油桃和柑橘等顏色較為明顯的作物。但顏色特征過于依靠光照的理想情況,所以通常在人工條件下進行顏色的提取。對于果實顏色與其背景相似時,形狀特征可以作為主要提取特征,如青色系水果與枝葉顏色相似,可以檢測其形狀來提高識別的精準(zhǔn)度。當(dāng)作物被枝葉或簇的遮擋嚴(yán)重時,紋理特征可以更快速準(zhǔn)確的識別出目標(biāo)作物。當(dāng)農(nóng)作物表面的缺陷檢測被破壞時,可以很好地對受損農(nóng)作物進行分類,為后續(xù)的識別提供了方便。通過提取多個特征,可以大大提高目標(biāo)識別的精度和對于復(fù)雜實際環(huán)境的適應(yīng)性,并且可以大大降低非人工條件下的約束。
表1: 傳統(tǒng)的目標(biāo)檢測及識別方法的對照
機器學(xué)習(xí)作為人工智能的核心技術(shù),是人工智能的實現(xiàn)方式。它自動通過經(jīng)驗和多個學(xué)習(xí)樣本優(yōu)化模型,得出無法通過數(shù)據(jù)分析總結(jié)得到的規(guī)律。通過國內(nèi)外學(xué)者的研究,目前機器學(xué)習(xí)可以分為四大類:分類、回歸、聚類和規(guī)則抽取。
機器學(xué)習(xí)算法可以分為三大類,分別為有監(jiān)督、半監(jiān)督和無監(jiān)督,監(jiān)督學(xué)生學(xué)習(xí)方法主要內(nèi)容包括分類和回歸算法,無監(jiān)督學(xué)習(xí)能力主要研究聚類算法。結(jié)合機器學(xué)習(xí)在采摘機器人上的應(yīng)用,本文章綜合概述K-means 聚類算法,貝葉斯分類器算法,KNN 聚類算法,SVM 支持向量機算法四種算法在針對不同的實際情況時的使用情況。
2.1.1 基于K-means 聚類算法
K-means 聚類是一種無監(jiān)督分類的方法,聚類的目標(biāo)是未標(biāo)記的數(shù)據(jù),K-means 算法最重要的問題就是選擇初始集群中心并建立距離測量功能。Jiang改進了一種隨機選擇常規(guī)K-means 算法的集群中心的方法,并提出了一種基于直方圖的集群中心自動檢測方法。形成的集群中心合理、有效,可以大大減少后續(xù)集群的迭代時間。Wang基于K-means聚類的litchi 識別算法被呈現(xiàn)為將litchi 與葉子、分支和背景分開,未遮擋和部分遮擋的利奇的平均識別率分別為98.8%和97.5%??偠灾撍惴ň哂休^高的識別和分類精度,但其缺陷也比較明顯。首先我們需要進行提前給出K 值,但是很難提前給出K 值。其次,K 中心的隨機選取對最終分類結(jié)果有很大的影響。
2.1.2 基于貝葉斯分類器算法
貝葉斯分類算法是監(jiān)督學(xué)習(xí)的學(xué)習(xí)算法。該算法研究廣泛應(yīng)用于大規(guī)模數(shù)據(jù)庫,具有高分類精度和高速發(fā)展速度的優(yōu)點。然而,缺陷也很明顯,需要獲取目標(biāo)的概率信息才能進行準(zhǔn)確的計算,當(dāng)訓(xùn)練集中出現(xiàn)新樣本時,精度可能會受到影響。Li 等使用樸素貝葉斯分類器對水果和非水果區(qū)域進行分類。該算法消除了綠色番茄和綠色枝葉背景顏色過于相似而造成的局限性,檢測率達到86.7%。該算法消除了綠色番茄和綠色葉片背景顏色過于相似的局限性,檢測率為86.7% 。但實驗的缺陷也十分具有明顯,在應(yīng)用于各種不同應(yīng)用場景,光照強度可以改變或番茄成熟發(fā)展過程顏色像素的改變學(xué)生會對先前的數(shù)據(jù)集造成較大影響。
2.1.3 基于KNN 聚類算法
KNN 算法也被稱為K 近鄰分類算法。是一種簡單的根據(jù)不同特征值之間的距離進行分類的機器學(xué)習(xí)方法,屬于監(jiān)督學(xué)習(xí)。它的訓(xùn)練數(shù)據(jù)都是有標(biāo)簽的數(shù)據(jù),即訓(xùn)練的數(shù)據(jù)都有自己的類別。Ma等提取目標(biāo)作物的顏色和紋理兩個特征,提出了一種基于PCA 降維與距離集成的KNN 算法,結(jié)果分析表明,該算法在作物的識別中識別率可高達92.6%,并且對光照時間變化,視角進行變化發(fā)展都有一個較好的魯棒性。在此實驗的基礎(chǔ)上,如果采用K-means 聚類與二次分水嶺相結(jié)合的方法對圖片進行分割可以得到更好的效果。
2.1.4 基于SVM 支持向量機算法
SVM 是一種有監(jiān)督的統(tǒng)計學(xué)習(xí)算法,可用于線性和非線性回歸分析和模式分類。對于線性可分分類,支持向量機通過非線性平面分離兩類之間的最大間隔。
SVM 分類器在光照偏強的環(huán)境下對果實圖像數(shù)據(jù)分割精度優(yōu)于貝葉斯分類器,并且可以采用SVM 可有效管理實現(xiàn)含大量高光點果實圖像的分割,適用于在不同光照條件下的果實圖像分割,Chen 等引入目標(biāo)輪廓的HOG 梯度方向特征訓(xùn)練支持向量機,進而對提取的輪廓進行細篩選,實現(xiàn)自動識別目標(biāo)。以成熟蘋果作為實驗的對象,識別準(zhǔn)確率可以到達93%,Mai在蘋果分割中,使用蘋果圖像和背景圖像訓(xùn)練集對SVM 進行訓(xùn)練,然后使用訓(xùn)練好的SVM 蘋果顏色分割方法對待測圖像的蘋果和背景進行分割。該算法在較小的訓(xùn)練集中表現(xiàn)良好,但在較大的訓(xùn)練集或多分類任務(wù)中,分類識別的準(zhǔn)確率會降低。
2.1.5 總結(jié)與對比
與上述四種算法相比,每種算法都有相應(yīng)的優(yōu)點,但也有一定的局限性,經(jīng)過比較和分析,可以得出以下結(jié)論:
K-means 聚類算法明顯簡單且易于實現(xiàn)。為了處理大數(shù)據(jù)集,算法針對不同數(shù)據(jù)集具有一定適應(yīng)性,并且處理速度較快,并且當(dāng)集群之間的差異明顯時,集群效應(yīng)更好。然而,在比較數(shù)據(jù)時,難以選擇K 值的初始值和集群中心,對數(shù)據(jù)類型要求較高;KNN 聚類算法可以進行回歸計算和分類計算。沒有數(shù)據(jù)的假設(shè),精度高。可以在不直接重新設(shè)置新數(shù)據(jù)的情況下添加到數(shù)據(jù)集中。當(dāng)K 值大時,可以減小學(xué)習(xí)的估計誤差,但是具有增加學(xué)習(xí)的近似誤差的缺點。K 值的選擇可以預(yù)測發(fā)生錯誤,增強算法對于異常情況的適應(yīng)性,所以K 值的選擇也是KNN 聚類算法的關(guān)鍵性問題;貝葉斯分類器算法在小規(guī)模數(shù)據(jù)集中具有良好的性能,可以處理多個分類任務(wù),但是僅僅能夠處理具有計算概率的數(shù)據(jù)集。對未處理過的樣本,識別功能可能會失效;SVM 支持向量機算法對二分類的任務(wù)精確度很高,當(dāng)大樣本或者多分類任務(wù)時,處理結(jié)果相對不好。
綜上所述(如表2 所示),機器學(xué)習(xí)算法還存在邏輯回歸,決策樹等多類算法,相對于機器視覺技術(shù)的應(yīng)用可能還需要開發(fā),例如AdaBoost 特征算法具有高精度的優(yōu)勢和處理時間過于長的局限性。所以在算法的應(yīng)用性上面,還需要更多嘗試和研究。
表2: 機器學(xué)習(xí)經(jīng)典算法應(yīng)用對比
2006 年深度學(xué)習(xí)算法的提出使得機器學(xué)習(xí)在眾多領(lǐng)域的應(yīng)用取得了里程碑的進展,深度學(xué)習(xí)的概念源于人工神經(jīng)網(wǎng)絡(luò)的研究,含多個隱藏層的多層感知器就是一種深度學(xué)習(xí)結(jié)構(gòu)。深度學(xué)習(xí)與人工神經(jīng)網(wǎng)絡(luò)模型的建立,對于機器視覺識別技術(shù)的應(yīng)用,都達到了極好的成果。本節(jié)總結(jié)了在檢測目標(biāo)時常見的深度學(xué)習(xí)模型。
2.2.1 卷積神經(jīng)網(wǎng)絡(luò)模型
卷積神經(jīng)網(wǎng)絡(luò)模型(Convolutional Neural Networks,CNN)的結(jié)構(gòu)分為輸入層和隱含層,卷積神經(jīng)網(wǎng)絡(luò)的輸入層可以處理多維數(shù)據(jù),與其它神經(jīng)網(wǎng)絡(luò)算法類似,由于使用梯度下降算法進行學(xué)習(xí),卷積神經(jīng)網(wǎng)絡(luò)的輸入特征需要進行標(biāo)準(zhǔn)化處理;隱含層包含卷積層、池化層和全連接層3 類常見構(gòu)筑。
Philipe等提出了一種基于CNN 的新型花卉檢測的方法。該算法明顯優(yōu)于HSV、HSV+bh、HSV+SVM 三種算法,識別率平均高達90%。深度學(xué)習(xí)模型與機器學(xué)習(xí)算法以及一些特征提取的互相結(jié)合往往是目前在應(yīng)用領(lǐng)域比較常用的辦法,Cai 等提出了一種支持向量機(SVM)蘋果果實識別方法,該方法使用卷積神經(jīng)網(wǎng)絡(luò)提取蘋果的大小、顏色、紋理和圓度作為蘋果特征,試驗結(jié)果顯示,同時使用CNN 和SVM 分類器的融合模型比單獨使用簡單的KNN 聚類算法,SVM 和CNN 模型的蘋果果實識別準(zhǔn)確率要高得多。
2.2.2 AlexNet 和VGGNet 網(wǎng)絡(luò)模型
AlexNet 模型在CNN 中使用重疊的最大池化。此前,CNN 中普遍使用平均池化,AlexNet 全部使用最大池化,避免平均池化的模糊化效果。此外,AlexNet 提出讓步長度小于池內(nèi)核的大小,這樣池層的輸出就會重疊覆蓋,提高了特征的豐富性。Wang采用Tensorflow 框架構(gòu)建基于AlexNet的全卷積神經(jīng)網(wǎng)絡(luò)AlexNet-FCN,建立荔枝表皮缺陷提取的全卷積神經(jīng)網(wǎng)絡(luò)模型特別是當(dāng)缺陷區(qū)域與正常區(qū)域的像素值差異較小時,模型表現(xiàn)明顯優(yōu)于常規(guī)算法。
VGGNet 由5 層卷積層、3 層全連接層、softmax 輸出層構(gòu)成,層與層之間使用max-pooling(最大化池)分開,所有隱層的激活單元都采用ReLU 函數(shù)。Song等構(gòu)建了VGG16 實施的Faster R-CNN 模型并且進行了訓(xùn)練。在不同的時間和照明條件下采集的奇異果圖像被檢測良好,識別率達到了87.61%。
相比于AlexNet 模型和AGGNet 模型,前者相對于有靈活的卷積核數(shù),靈活的每個block 池化層前的卷積核層數(shù),完全依賴于模型和實驗本身,但速度慢準(zhǔn)確率較低。后者比AlexNet 深,13,16,19 層均可,但是訓(xùn)練時間過于長。
2.2.3 Faster R-CNN 網(wǎng)絡(luò)模型
Ross B. Girshick 在2016 年提出了新的Faster R-CNN,相較于R-CNN 和Fast R-CNN 提高了檢測速度和精準(zhǔn)度,真正的實現(xiàn)了端對端的目標(biāo)檢測框架。
Xiong等以樹上綠柑橘為研究對象,3 組對比試驗證明了基于Faster R-CNN 算法進行綠色柑橘檢測的有效性,試驗結(jié)果表明,F(xiàn)aster R-CNN 模型不僅適用于單果的檢測,對于多果的檢測精度也較高。在面對與背景極其相似的顏色特征下,最終識別率達到85.49%,同時滿足了實時檢測的要求。
2.2.4 單階段檢測模型
目前基于深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)模型可以分為兩大類:一類是以RCNN,F(xiàn)ast R-CNN 和Faster R-CNN 為代表的兩階段檢測模型,一類就是SDD 網(wǎng)絡(luò)檢測模型和YOLO網(wǎng)絡(luò)檢測模型。相對于兩階段檢測模型,在實時檢測方面優(yōu)于上述的區(qū)域推薦,而準(zhǔn)確率方面則相對較差。
2.2.4.1 SSD 網(wǎng)絡(luò)檢測模型
SSD 物理檢測模型相較于其他檢測模型,SSD 便于訓(xùn)練和優(yōu)化,同時提高檢測速度。這是一種用于多個類別的單階段檢測模型,它是一種針對多種類型的單相檢測模型,與其他單結(jié)構(gòu)模型(YOLO)相比,SSD 具有更高的精度,因為它完全消除了推薦生成和壓縮像素或特征重采樣階段,并將所有計算封裝在一個單一的網(wǎng)絡(luò)中。Peng等文以蘋果、荔枝、臍橙、皇帝柑4 種水果為研究對象,提出了一種將經(jīng)典SSD深度學(xué)習(xí)模型中的VGG16 輸入模型替換為ResNet-101 模型,有較好的泛化性和魯棒性,可以很好地實現(xiàn)自然環(huán)境下多類水果的精準(zhǔn)檢測。四種對象的平均檢測率可達到96.12%。
2.2.4.2 YOLO 網(wǎng)絡(luò)檢測模型
YOLO 為一種新的目標(biāo)進行檢測技術(shù)方法,該方法的特點是可以實現(xiàn)快速檢測的同時還具有較高的準(zhǔn)確率,YOLO將目標(biāo)區(qū)域預(yù)測和目標(biāo)類別預(yù)測整合于單個神經(jīng)系統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)模型中,實現(xiàn)在準(zhǔn)確率較高的情況下快速學(xué)習(xí)目標(biāo)檢測與識別,更加適合實際應(yīng)用研究環(huán)境。
YOLOv1 是這類模型的開始。YOLOv1 方法模型訓(xùn)練依賴于物體識別標(biāo)注數(shù)據(jù),因此,對于非常規(guī)的物體形狀或比例,YOLOv1 的檢測效果并不理想,平均精度僅達63.4%。對比YOLOv1 模型與R-CNN 系檢測模型其對背景的檢測率更高,但定位的準(zhǔn)確度不及R-CNN 系列模型。
相較于其他先進的檢測系統(tǒng),YOLOv1 存在著各種各樣的缺點,Joseph Redmon 在YOLOv1 的基礎(chǔ)上進行改進,提出了YOLOv2 并且提出了一種檢測與分類聯(lián)合訓(xùn)練方法,由于光照的多樣性、背景的復(fù)雜性及芒果與樹葉顏色的高度相似性,特別是樹葉和枝干對果實遮擋及果實重疊,Xue等提出Tiny-yolo 網(wǎng)絡(luò)結(jié)構(gòu),實現(xiàn)網(wǎng)絡(luò)多層特征的復(fù)用和融合,提高檢測精度,對前景區(qū)域用YOLOv2 進行訓(xùn)練,大幅減少了遮擋或重疊對識別的干擾,在較少遮擋的情況下識別率可達97.02%,在遮擋或重疊影響下,識別率可達95.1%,相比與Faster R-CNN 模型性能大大提升。隨著卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展,2019 年,Joseph Redmon 又對YOLOv2 網(wǎng)絡(luò)進行了改進提出了YOLOv3,它直接通過回歸生成每個類的邊界框坐標(biāo)和概率,大大提高了檢測速度。Tian提出了一種改進的YOLOv3 模型,結(jié)合DenseNet 方法,用于檢測光照波動、背景復(fù)雜、蘋果重疊、樹枝和樹葉的果園中不同生長階段的蘋果,效果幾乎好于先前的模型。
結(jié)合了大量前人研究技術(shù),加以組合并進行適當(dāng)創(chuàng)新的算法,Bochkovskiy A 提出了YOLOv4,實現(xiàn)了檢測速度與精度的完美平衡。在農(nóng)業(yè)定位應(yīng)用中不同程度的遮擋都給檢測的準(zhǔn)確率造成巨大的困難,Chen針對遮擋,目標(biāo)較小,噪音等提出一種基于YOLOv4 的改進算法,采用Canopy 算法與K-Means 算法得到更好的先驗框值并且在YOLOv4 網(wǎng)絡(luò)中每個不同尺度特征的輸出層前增加一個調(diào)整層,并采用殘差網(wǎng)絡(luò)結(jié)構(gòu)和密集連接網(wǎng)絡(luò)相結(jié)合。最終對果園生長環(huán)境下的不同生長期的柑橘平均檢測率為96.04%。
2.2.5 總結(jié)與對比
本章基于深度學(xué)習(xí)和人工神經(jīng)網(wǎng)絡(luò),對幾種識別定位模型進行了總結(jié)。以目標(biāo)檢測流程進行分類,大致可以分為兩類,一類單階段檢測模型:SSD 檢測模型和YOLO 檢測模型,另一類就是R-CNN 系列的兩階段檢測模型:R-CNN,F(xiàn)ast R-CNN,F(xiàn)aster R-CNN 檢測模型。通過對比發(fā)現(xiàn),R-CNN系統(tǒng)的兩階段檢測模型通常速度較高,但速度較慢,單階段檢測模型速度較快,但精度較低,檢測幅度越小,檢測精度越低。
深度合作學(xué)習(xí)中還有我們很多問題模型未提及,例如FCN 全卷積神經(jīng)網(wǎng)絡(luò)信息模型分析可以通過接受任意尺寸的圖像,SegNet 作為一種比較研究熱門的語義分割模型,不僅能識別果實,還可以分割出果實與枝干的邊緣輪廓,為采摘機器人發(fā)展提供摘取目標(biāo)。示例分割模型在遮擋嚴(yán)重的情況下具有很強的魯棒性,很多學(xué)者利用CNN 網(wǎng)絡(luò)對其進行了改進,但也存在實時性差的問題。三種深度學(xué)習(xí)檢測模型對比如表3 所示。
表3: 三種深度學(xué)習(xí)檢測模型對比
隨著國內(nèi)外學(xué)者的發(fā)展,采摘機器人經(jīng)過多次改進和迭代,已經(jīng)從研發(fā)階段轉(zhuǎn)變?yōu)閷嶒炿A段,并將用于農(nóng)業(yè)生產(chǎn)過程中。在機器人自主化作業(yè)設(shè)計過程中,快速、準(zhǔn)確地對成熟發(fā)展農(nóng)業(yè)經(jīng)濟作物進行市場定位和識別一直是采摘機器人通過研究的重點和焦點解決問題。然而,其目標(biāo)定位成像技術(shù)往往會導(dǎo)致風(fēng)速、噪聲、振動、光照等印象中的成像重疊和模糊問題,導(dǎo)致最終的目標(biāo)定位不準(zhǔn)確,影響了拾取效率。因此,本章總結(jié)了近年來廣泛應(yīng)用于目標(biāo)定位的技術(shù)以及拾取機器人的結(jié)構(gòu)和發(fā)展。
在國內(nèi)外眾多學(xué)者廣泛的研究下,目標(biāo)定位技術(shù)分為以下幾類:單目及雙目等立體視覺相機、深度相機與紅外測距技術(shù)。下面就將介紹幾種相機及在實際環(huán)境下的應(yīng)用情況。
3.1.1 單目和雙目等立體視覺相機
單目相機應(yīng)用于早期的采摘機器人中,起始的相機不具備RGB 功能,1987 年Whittaker 將黑白相機應(yīng)用于采摘機器人,所局限性較大。之后研發(fā)的具有傳感器的RGB 單目相機,仍存在較大的誤差。雙目和多目等立體三維相機的應(yīng)用雖然能有比較精確的獲得圖像,但考慮到光照的影響,夜間對目標(biāo)的識別效果不好。利用單目相機對單幅、兩幅和多幅的圖像進行定位。單目相機有結(jié)構(gòu)簡單成本低的特點,所以相對應(yīng)它的誤差相對較大。
雙目照相機模仿人眼的視覺原理,從具有已知相對位置的兩個照相機觀察物體,從不同視點獲取場景圖像,并使用圖像之間的匹配關(guān)系獲得目標(biāo)的三維信息。這種視覺定位方法具有簡單的操作和高精度的優(yōu)點。
Wang采用雙目RGB 相機標(biāo)定和荔枝圖像采集,使用基于幾何中心的匹配方法來匹配所識別的聚類水果。實驗結(jié)果表明,該識別方法能夠抵抗光照和遮擋條件的影響,準(zhǔn)確識別聚類荔枝果實,匹配成功率為91.96%-97.37%。
3.1.2 深度相機與紅外測距技術(shù)
深度相機由彩色相機、深度相機和激光組成,依據(jù)結(jié)構(gòu)光和飛行時間大致非為兩類:結(jié)構(gòu)光類深度相機受光照和目標(biāo)紋理影響較小,針對動態(tài)事物捕捉能力較低;(通??床灰姷墓猓┩高^觀測到的物體,然后接收從物體反射的光脈沖,通過檢測光脈沖的往復(fù)(往復(fù)時間)來計算被測物體和照相機的距離的原理。那個具有抗外部干擾的強度。Kusumam K提出使用RGB-D 傳感器的機器人收獲西蘭花的三維視覺系統(tǒng),得到一個高精度的西蘭花頭部檢測系統(tǒng)。
夜間條件下,獲取圖像深度會因為光照強度的影響,所以在這種情況下,紅外技術(shù)是不錯的選擇,基于紅外技術(shù)的紅外測距儀Zhang采用基于近紅外線性陣列結(jié)構(gòu)照明和三維重建技術(shù)的機器視覺系統(tǒng)實現(xiàn)蘋果莖和花萼的識別以及定位。夜間條件下,利用紅外測距儀結(jié)合其他特征提取算法對目標(biāo)的識別和定位有了巨大幫助。
采摘機器人發(fā)展以來系統(tǒng)結(jié)構(gòu)相似,由自主移動平臺、輕度多自由度機械臂、具有柔性末端效應(yīng)器的力反饋系統(tǒng)、多傳感器機器視覺系統(tǒng)、驅(qū)動控制系統(tǒng)、智能決策系統(tǒng)以及輔助軟件和硬件組成,同樣機器人同樣需要有網(wǎng)絡(luò)傳輸系統(tǒng),水果收獲機器人的首要任務(wù)是使用視覺感應(yīng)感知和學(xué)習(xí)作物信息。其任務(wù)包括相機校準(zhǔn)、目標(biāo)識別和定位、目標(biāo)背景識別、3D 重建、基于視覺定位的機器人行為規(guī)劃、機制和視覺。該系統(tǒng)也是協(xié)作的,并使用視覺伺服控制拾取機制執(zhí)行剪切操作。目前對采摘機器人的研究中,難點在于基于機器視覺技術(shù)對不同作物種類和環(huán)境變化的感知和適應(yīng),雖然國內(nèi)外學(xué)者針對不同的環(huán)境及其外界因素進行研究,但解決基于機器視覺的采摘機器人在實際情況的應(yīng)用仍是一大難題。
農(nóng)業(yè)工程的主體主體以農(nóng)田為主。與工業(yè)領(lǐng)域不同的是,這里存在著巨大的不確定性。土壤、水、風(fēng)速、光等關(guān)鍵因素都在不斷變化。農(nóng)業(yè)場景的開放性決定了基于機器視覺的采摘機器人的應(yīng)用充滿了困難和挑戰(zhàn)。
縱觀目前的各種作物識別的算法及模型,盡管經(jīng)過不停的迭代改進仍是存在一定的局限性,并且大部分改進或結(jié)合算法都在理想情況下進行實驗。所以復(fù)雜的實際環(huán)境是采摘機器人應(yīng)用困難的主要原因之一。傳統(tǒng)的圖像識別技術(shù),利用特征提取來對目標(biāo)進行識別,但受到光照,遮擋等因素影響嚴(yán)重;機器學(xué)習(xí)的傳統(tǒng)算法,雖然對目標(biāo)有不錯的檢測識別率,但大部分的數(shù)據(jù)都通過預(yù)處理或是提前通過計算得出概率,在多變的實際情況中難以應(yīng)用;基于人工神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)技術(shù)的誕生,對目標(biāo)識別做出了巨大的貢獻,能夠較好的識別出目標(biāo)作物,但卻需要巨大的訓(xùn)練集,并且對訓(xùn)練時間、硬件條件的要求比較高?;谏疃葘W(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)需要面對的另一個問題就是定位,生長狀態(tài)下的作物利于蘋果等會發(fā)生顏色,形狀的改變,甚至?xí)霈F(xiàn)缺陷狀態(tài)。生長環(huán)境的不確定性讓訓(xùn)練集不停的擴大,網(wǎng)絡(luò)結(jié)構(gòu)也越發(fā)復(fù)雜相對應(yīng)的訓(xùn)練時間就越長,導(dǎo)致采摘機器人效率低下實時性差。
同樣對于采摘機器人的末端執(zhí)行器的使用也決定了采摘機器人的工作效率,在控制機器人對定位目標(biāo)進行采摘時,若目標(biāo)存在遮擋或成簇成長時,會致使末端執(zhí)行器損壞或者目標(biāo)作物的損壞。同樣末端執(zhí)行器上面的定位系統(tǒng)也十分重要,在采摘機器人的機械臂啟動過程中定位信息要不停更新,這就要就定位系統(tǒng)的計算效率和實時性來保證定位的準(zhǔn)確性。在使用定位系統(tǒng)時,單目相機的速度快但誤差較大,雙目或多目相機等立體視覺系統(tǒng)雖然會得到較為精確的信息但時間長同時操作困難。
綜上所述,基于機器視覺技術(shù)的采摘機器人在實際條件下的應(yīng)用充滿巨大挑戰(zhàn),在有算法和模型的支撐下,還需要硬件與其結(jié)合使用。這樣的難度導(dǎo)致即便現(xiàn)在有著大量的作物識別、定位的文獻,但這個領(lǐng)域仍舊是農(nóng)業(yè)研究的主要問題。同樣野外環(huán)境下,采摘機器人的路徑規(guī)劃,障礙物的躲避以及陸地的崎嶇性同樣是將采摘機器人應(yīng)用于現(xiàn)實中的困難問題。
目前是大數(shù)據(jù)、云計算與人工智能飛速發(fā)展的時代,而農(nóng)業(yè)方面主要面對的問題大概分為三種,自然環(huán)境的影響,作物生長的狀態(tài)特征提取,末端執(zhí)行器的使用及定位的準(zhǔn)確性。工業(yè)方面的面部識別,動態(tài)捕捉技術(shù)的發(fā)展以及趨于成熟,是否農(nóng)業(yè)方面可以借鑒工業(yè)相關(guān)技術(shù)的技術(shù)進而應(yīng)用到農(nóng)業(yè)應(yīng)用中?,F(xiàn)階段基于深度學(xué)習(xí)的特征提取往往是在特定環(huán)境下針對特定的作物,是否能根據(jù)大數(shù)據(jù)而提出新的包括特征相似作物的訓(xùn)練集進行預(yù)訓(xùn)練,從而提高識別的廣泛性。其次針對末端執(zhí)行器,是否能使用多傳感器融合在執(zhí)行器上的研究,進而截取某種傳感器的優(yōu)勢來彌補另一種傳感器是局限性。最后針對大數(shù)據(jù)的信息儲備已經(jīng)云計算的高效率是否能為農(nóng)業(yè)方面卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練而提供便利,后續(xù)嘗試將這二者技術(shù)與現(xiàn)在模型相結(jié)合是否能做到更好的效果是需要國內(nèi)外學(xué)者進一步研究。
本文從識別、定位及采摘機器人于實際中的應(yīng)用和挑戰(zhàn)三方面對目前領(lǐng)域的研究進行歸納對比,識別技術(shù)中基于傳統(tǒng)的特征提取手段是將目標(biāo)作物的顏色,形狀和紋理作為早期的研究重點進行提取進而進行目標(biāo)的檢測與識別,后續(xù)的將多特征提取融合,一定程度的彌補了單特征中存在的局限性同時也提高了識別的準(zhǔn)確率;基于傳統(tǒng)機器學(xué)習(xí)算法有良好的性能,一些學(xué)者通過與特征提取的結(jié)合也得到不錯的識別率,但需要參數(shù)的設(shè)定以及先驗概率的計算的前提條件,所以良好的性能和不錯的識別率僅僅是在理論研究或者理想環(huán)境下,實際應(yīng)用中的多變性依舊給傳統(tǒng)的機器學(xué)習(xí)算法帶來一定的局限性;基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)的多種模型和經(jīng)過對應(yīng)用場景的實驗后的改進迭代,使深度學(xué)習(xí)模型對于外界因素具有一定的適應(yīng)性,另外其中的分割模型對于遮擋,重疊目標(biāo)可以做到分割出枝干,一定程度上解決了目標(biāo)處于被遮擋狀態(tài)時檢測效果不理想的情況。綜上可以看出,深度學(xué)習(xí)模型的應(yīng)用相較于前面的研究,具有更高的檢測精度,穩(wěn)定性和廣泛性,同樣這幾個標(biāo)準(zhǔn)也是決定了對于識別系統(tǒng)在現(xiàn)實中的應(yīng)用效果。
定位系統(tǒng)的研究主要對于單目雙目以及多目相機的立體視覺系統(tǒng)、深度相機、紅外技術(shù)的應(yīng)用,在晃動、遮擋、夜間、光照等因素上,如何使用上述系統(tǒng)進行目標(biāo)的定位是研究的首要重點。采摘機器人的發(fā)展存在更多局限性,不僅僅是上面提到識別定位技術(shù)的困難,同樣在機器人運行情況下的自由度、路面的崎嶇性等對機器人本身造成影響的因素也為實際的應(yīng)用增大了難度。但針對進一步機器視覺應(yīng)用領(lǐng)域的研究,結(jié)合工業(yè)視覺定位技術(shù),結(jié)合云計算大數(shù)據(jù)等目前前沿技術(shù)是否會為目前的問題提供解決辦法是值得我們?nèi)タ紤]和研究的。