基于CNN深度學(xué)習(xí)的機(jī)器人抓取位置檢測方法

2020-09-02 08:31:36申燕萍

計算機(jī)測量與控制 2020年8期

申燕萍

(1.常州工業(yè)職業(yè)技術(shù)學(xué)院信息工程學(xué)院，江蘇常州 213164；2.江蘇大學(xué) 計算機(jī)科學(xué)與通信工程學(xué)院，江蘇鎮(zhèn)江 212000)

0 引言

隨著當(dāng)代計算機(jī)與網(wǎng)絡(luò)通信技術(shù)快速發(fā)展，智能家居系統(tǒng)受到人們的密切關(guān)注，在智能家居系統(tǒng)中，機(jī)器人逐漸進(jìn)入人們?nèi)粘Ｉ頪1]。機(jī)器人抓取研究被廣泛應(yīng)用到軍事及工業(yè)等領(lǐng)域并作為機(jī)器人領(lǐng)域重點研究方向。但是實際的機(jī)器人抓取卻只能完成提前設(shè)定好的任務(wù),一旦遇到復(fù)雜的設(shè)定環(huán)境,抓取任務(wù)就會失敗[2]。為了滿足實際生活需要，對這方面的要求更加嚴(yán)格,保證它不僅僅局限于預(yù)先設(shè)定程序,而且對不同需要抓取的目標(biāo)在非穩(wěn)定的環(huán)境下進(jìn)行合理的抓取,以達(dá)到更加準(zhǔn)確的抓取目的[3]。因此，該研究是具有實際意義與價值的。智能機(jī)器人的抓取研究由于抓取的形態(tài)、位置等因素變得相對困難，采用了一種可以直接搜索有效位置的方法,該方法是通過在編碼器的改進(jìn)下學(xué)習(xí)目標(biāo)位置的多模態(tài)特征學(xué)習(xí)，采用卷積神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)目標(biāo)，獲取最優(yōu)抓取位置，并預(yù)測出目標(biāo)位置處的二維圖像坐標(biāo)系下的坐標(biāo)以及旋轉(zhuǎn)角度。采用上述兩種方法進(jìn)行掃描并提取目標(biāo)物體所標(biāo)記的信息時，受到復(fù)雜環(huán)境及人為干預(yù)影響，導(dǎo)致檢測精準(zhǔn)度較低。針對該問題，提出了基于CNN深度學(xué)習(xí)的機(jī)器人抓取位置檢測方法，無需人工干預(yù)，通過監(jiān)督學(xué)習(xí)，可獲取目標(biāo)物體在機(jī)器人坐標(biāo)系下的姿態(tài)，進(jìn)而完成抓取動作。

1 基于CNN深度學(xué)習(xí)檢測原理

在深度學(xué)習(xí)目標(biāo)檢測領(lǐng)域中，大都采用卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行檢測，該檢測模型以其獨特的結(jié)構(gòu)設(shè)計被廣泛應(yīng)用。CNN 采用局部連接與權(quán)值共享這兩種設(shè)計結(jié)構(gòu)，使系統(tǒng)具有類似生物視覺功能，能夠?qū)D像數(shù)據(jù)進(jìn)行挖掘和語義上的分析,大幅度地減少了網(wǎng)絡(luò)模型參數(shù)規(guī)模的復(fù)雜性，提高了檢測精準(zhǔn)性[4]。同時CNN 中的特殊層結(jié)構(gòu)具有高度不變性的優(yōu)點,在平移、傾斜或任意其他形式的變形情況下被設(shè)計應(yīng)用，這也是卷積神經(jīng)網(wǎng)絡(luò)更適合應(yīng)用于圖像特征學(xué)習(xí)與表達(dá)主要原因，相比于其他神經(jīng)網(wǎng)絡(luò)方法檢測可靠性更高[5]。

CNN 模型的種類較多，但是其基本結(jié)構(gòu)的設(shè)計方式大致相同，CNN 模型由輸入層、卷積層、池化層、全連接層、輸出層組成。

1)輸入層:輸入層的作用是取得有效待測數(shù)據(jù),它作為CNN的起始層，進(jìn)行圖像數(shù)據(jù)的獲取和預(yù)處理。輸入層只有一個數(shù)據(jù)輸出操作，并對這個輸出數(shù)據(jù)進(jìn)行圖像隨機(jī)剪裁、尺度縮放、去均值化或歸一化等預(yù)處理，并把數(shù)據(jù)圖像的特征圖作為網(wǎng)絡(luò)結(jié)構(gòu)層，CNN把每一層輸出的圖像數(shù)據(jù)信息或含有某種語義特征信息都稱為特征圖[6-8]。

2)卷積層:卷積層是整個CNN的核心層，利用特殊的卷積核核心結(jié)構(gòu)，對輸出的所有數(shù)據(jù)進(jìn)行卷積，并把卷積結(jié)果以特征圖方式輸出，完成數(shù)據(jù)特征提取。CNN的卷積層利用卷積核進(jìn)行數(shù)據(jù)輸出提取的獨特卷積方式，具有提取精準(zhǔn)、效率高的優(yōu)點，是CNN深度神經(jīng)網(wǎng)絡(luò)重要結(jié)構(gòu)[9]。標(biāo)準(zhǔn)結(jié)構(gòu)如圖1所示。

圖1 卷積層的卷積操作

通過卷積層的卷積操作流程可知，卷積層將局部空間上感受到的信息和特征維度上的信息進(jìn)行聚合處理，形成一個完整信息聚合體，在卷積層經(jīng)過多層卷積操作后，得到特征圖[10]。CNN通過輸入特征圖，便可對從全局里面得到的圖像做相應(yīng)的描述和提取。為了實現(xiàn)不同分層的特征提取和融合,需要學(xué)習(xí)了解每個卷積核的不同的目標(biāo)特征,同時輸入多層卷積信息[11]。

3)池化層:池化層在CNN中主要是負(fù)責(zé)對輸入的數(shù)據(jù)樣本進(jìn)行采樣操作。池化層通過對輸入特征圖的各個空間維度上的特征進(jìn)行切片劃分，并將劃分的特征圖設(shè)置為個毫無交點的區(qū)域,然后池化每個所對區(qū)域的特征[12]。

每個區(qū)域的特征圖像在它的池化過程中,需要選取尺寸為2×2，但如果有一些非常大的圖,也可以采用的尺寸，但是這種過大尺寸會造成在池化過程中信息的大量流失。普遍采用平均值和最大值兩種池化方法,過程如圖2所示。

圖2 池化處理

根據(jù)均值池化和最大值池化示意圖在每個區(qū)域的特征圖像按照的尺寸進(jìn)行池化時，均值池化是將每個區(qū)域內(nèi)的元素進(jìn)行均值計算，并作為輸出特征值，或者是把不同區(qū)域的相同元素加起來作為輸出特征值。每個元素在不同區(qū)域內(nèi)的最大值作為輸出特征值，這兩種不同的池化方式能夠正確有效地提取不同特征值。

4)全連接層:全連接層位于池化層和輸出層之間，主要負(fù)責(zé)全連接對最后一個池化和輸出層的特征圖。目前全連接層在CNN中己經(jīng)逐漸被表面全局均值池化層所替代，可以得到比全連接層更好的效果。全連接層的工作原理與單層前饋神經(jīng)網(wǎng)絡(luò)相同，通過將輸入的高維度特征圖采用卷積的方法降為一維，或者直接將具有特征矩陣的元素排列成一維向量，這兩種降維方法都是為了便于輸出層的分類與處理。

5)輸出層:輸出層是CNN的結(jié)尾層，通過對全連接層得到的一維特征向量，采用Logistic回歸或SVM進(jìn)行分類，或者采用Softmax回歸等概率形式完成特征向量的輸出。輸出層基本采用Softmax回歸的輸出方式，利用邏輯回歸的推廣原理，能夠處理不同形式的分類問題。

2 機(jī)器人抓取位置檢測

2.1 抓取位置目標(biāo)匹配

將機(jī)器人抓取位置模板點按照切線斜率方向進(jìn)行角度劃分，結(jié)合距離匹配定義，得到按照傾角分層的模板匹配距離：

(1)

式(1)中,M為匹配點總數(shù)；xi為匹配點投影在機(jī)器上的坐標(biāo)值；mi為機(jī)器模板點根據(jù)切線斜率方向的第m幅距離映射圖上的取值；Fmi(xi)為映射圖上坐標(biāo)灰度值。根據(jù)上述公式可得到機(jī)器模板上匹配點到邊緣坐標(biāo)圖像點中最近的距離。

為研究按傾角分層的距離對映射圖上坐標(biāo)灰度值的影響，需保持橫縱坐標(biāo)變量保持不變，并觀察匹配度函數(shù)分布情況，結(jié)果如圖3所示。

圖3 匹配度函數(shù)分布

由圖3可看出，按傾角分層方法峰值較為明顯，能夠提高匹配度函數(shù)靈敏性。引入GA求解匹配方法，匹配步驟如圖4所示。

圖4 匹配最優(yōu)解流程圖

GA作為CNN深度學(xué)習(xí)的隨機(jī)搜索算法，能夠使種群更加靠近全局最優(yōu)值，一旦搜索接近峰值時，個體占據(jù)排序在最前端。當(dāng)GA引進(jìn)一段時間后，以其初始搜索結(jié)果為基準(zhǔn)，尋找最優(yōu)解。GA求解方法只能對一個變量進(jìn)行優(yōu)化，而相似度函數(shù)包含了多個變量，這些變量對于圖像來說是具有獨立意義的，因此，使用該方法能夠在初值附近匹配到最優(yōu)解。

2.2 信息獲取與處理

將CNN深度學(xué)習(xí)方法應(yīng)用到機(jī)器人抓取位置檢測之中，應(yīng)先將抓取位置作為深度學(xué)習(xí)對象，并將目標(biāo)可抓取位置視為CNN深度學(xué)習(xí)樣本數(shù)據(jù)。抓取位置檢測過程可描述為：依據(jù)目標(biāo)物體大小選擇不同方向矩形框，并在目標(biāo)物體上提取抓取位置，并將抓取位置均勻輸入到CNN深度學(xué)習(xí)中進(jìn)行預(yù)測。

抓取位置的CNN深度學(xué)習(xí)結(jié)合了多個模態(tài)特征信息，其中包括通道彩色圖像信息、深度圖像信息。圖5分別列出了兩種圖像可抓取位置和不可抓取位置信息。

圖5 抓取位置信息

將抓取位置信息進(jìn)行預(yù)處理，將其轉(zhuǎn)化為符合CNN深度學(xué)習(xí)的數(shù)據(jù)格式，以此提高CNN深度學(xué)習(xí)隱含層提取特征的能力。對于數(shù)據(jù)的預(yù)處理，需先將標(biāo)記區(qū)域?qū)?yīng)的模態(tài)數(shù)據(jù)統(tǒng)一轉(zhuǎn)化為單模態(tài)的特征圖尺寸向量；然后將處理后得到的特征向量輸入到多模態(tài)特征預(yù)訓(xùn)練過程之中；最后將每層訓(xùn)練目標(biāo)最小化函數(shù)代入訓(xùn)練過程之中，由此完成信息預(yù)處理。

2.3 檢測流程設(shè)計

機(jī)器人抓取作業(yè)示意圖如圖6所示。

圖6 機(jī)器人抓取作業(yè)示意圖

利用機(jī)器人視覺系統(tǒng)分析給定的場景彩色圖像，推斷出目標(biāo)物體最優(yōu)抓取狀態(tài)。機(jī)器人抓取過程中主要包括抓取點確定和姿態(tài)預(yù)估兩個階段。采用CNN深度學(xué)習(xí)法設(shè)計具體檢測流程，如下所示：

step1：輸入處理后的抓取位置信息；

step2：以射頻網(wǎng)為基礎(chǔ)，利用邊界框及其分?jǐn)?shù)對信息進(jìn)行分類研究，實現(xiàn)抓取定位角度的粗估計；

step3：經(jīng)過信息篩選與排序，獲取邊界框頂點坐標(biāo)；

step4：簇估計角度，大約定位抓取位置，再細(xì)估計角度；

step5：將粗估計與細(xì)估計角度值相互融合，獲取抓取角度；

step6：根據(jù)邊界框頂點坐標(biāo)，抓取中心坐標(biāo)；

step7：輸出檢測結(jié)果。

2.4 抓取位置檢測結(jié)果顯示

使用旋轉(zhuǎn)矩形框表示目標(biāo)物體最優(yōu)抓取位置，在檢測該位置時，需將包含目標(biāo)物體的圖像輸入到CNN深度學(xué)習(xí)過程之中，經(jīng)過訓(xùn)練后，選定機(jī)器人最合適的抓取位置坐標(biāo)和所涉及圖像的平面旋轉(zhuǎn)角。

抓取位置檢測結(jié)果顯示如圖7所示。

圖7 抓取位置檢測結(jié)果顯示

機(jī)器人的抓取方向根據(jù)其習(xí)慣，定為矩形框長邊方向,表示矩形框相對圖像坐標(biāo)系橫軸旋轉(zhuǎn)角度，箭頭表示矩形框旋轉(zhuǎn)方向。根據(jù)該內(nèi)容，可得到高精準(zhǔn)抓取位置檢測結(jié)果，利用CNN深度學(xué)習(xí)方法，獲取清晰顯示結(jié)果。

3 實驗驗證

為了驗證基于CNN深度學(xué)習(xí)的機(jī)器人抓取位置檢測方法有效性，實驗環(huán)境為Win7操作系統(tǒng)，該系統(tǒng)訓(xùn)練環(huán)境為Matlab R2015a。

3.1 實驗準(zhǔn)備

3.1.1 數(shù)據(jù)分析

選用Canon VC-C50型號的單目標(biāo)相機(jī)，具有320×240分辨率，在該相機(jī)下獲取的目標(biāo)物體圖像如圖8所示。

圖8 樣本示例

數(shù)據(jù)訓(xùn)練所需的基本數(shù)據(jù)為50張不同場景中的圖像，抓取角度為0°，無需人工標(biāo)注邊界框就可獲取抓取位置，通過旋轉(zhuǎn)圖像將數(shù)據(jù)擴(kuò)充到200張，具體擴(kuò)充方法如下所示：

圍繞邊界框中心點，擴(kuò)充邊長為原矩形框邊長之和的正方形；以5°間隔將圖形圍繞圓心旋轉(zhuǎn)一周，能夠保證抓取的位置在圖形中央，方便特征提取，能夠省去修改邊界框的繁瑣步驟；為了減少第1階段定位耗時，需將圖片合并縮減為0°、45°、90°、135°。

3.1.2 角度歸一化處理

因樣本數(shù)據(jù)規(guī)模較小，內(nèi)部層數(shù)多且復(fù)雜，使用微軟數(shù)據(jù)集訓(xùn)練相關(guān)數(shù)據(jù)作為初始值，并在此基礎(chǔ)上進(jìn)行微調(diào)處理。采用動量法，在大量噪聲環(huán)境下對角度進(jìn)行歸一化處理。

3.2 機(jī)器人抓取模式設(shè)置

通過機(jī)器訓(xùn)練，使其能夠精準(zhǔn)分辨出目標(biāo)，這是機(jī)械視覺學(xué)習(xí)最簡單有效的模式。機(jī)器人會從多個角度確定目標(biāo)位置，然后將所有位置邊緣點形成一個整體坐標(biāo)，形成三維立體圖。

在實驗過程中，機(jī)器人成功抓起物體，如圖9所示。

圖9 機(jī)器人抓取模式

先建立3D模型，再經(jīng)過一系列分析，可以判斷物體當(dāng)時所擺放的位置，進(jìn)而完成一套抓取動作。

該過程中機(jī)器人抓取訓(xùn)練的2個階段時間分別為15小時和1小時，其訓(xùn)練曲線如圖10所示。

圖10 訓(xùn)練曲線

由圖10可知：兩個時間階段下的曲線都趨近于收斂狀態(tài)。

3.3 實驗結(jié)果與分析

根據(jù)上述內(nèi)容可知，機(jī)器人實際抓取的物體是杯子和球，兩個物體分別放在桌子上和地上。分別采用傳統(tǒng)的改進(jìn)自動編碼器多模態(tài)特征學(xué)習(xí)、卷積神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)方法和基于CNN深度學(xué)習(xí)方法分別在訓(xùn)練時間為15小時和1小時情況下進(jìn)行對比分析。其中1小時無人工干預(yù)，環(huán)境簡單；15小時受到人工干預(yù)，環(huán)境復(fù)雜。

1)15小時:在15小時情況下，將3種方法的檢測精準(zhǔn)度進(jìn)行對比分析，結(jié)果如圖11所示。

由圖11可知：采用CNN深度學(xué)習(xí)方法檢測精準(zhǔn)度始終維持在85%以上；采用卷積神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)方法檢測精準(zhǔn)度始終維持在50%以上；采用改進(jìn)自動編碼器多模態(tài)特征學(xué)習(xí)方法檢測精準(zhǔn)度始終維持在40%以上。由此可知，在15小時情況下，采用CNN深度學(xué)習(xí)方法檢測精準(zhǔn)度較高。

2)1小時:在1小時情況下，將3種方法的檢測精準(zhǔn)度進(jìn)行對比分析，結(jié)果如表1所示。

表1 1小時情況下3種方法檢測精準(zhǔn)度對比分析

由表1可知：采用CNN深度學(xué)習(xí)方法檢測精準(zhǔn)度較高，在迭代次數(shù)為20次時，最高檢測精準(zhǔn)度為0.988。而采用其余兩種方法，都比該方法檢測精準(zhǔn)度要低，當(dāng)?shù)螖?shù)為10次時，卷積神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)方法最高為0.652，最低也高于50%，而改進(jìn)自動編碼器多模態(tài)特征學(xué)習(xí)方法最高檢測精準(zhǔn)度為0.410，最低為0.308。由此可知，在1小時情況下，采用CNN深度學(xué)習(xí)方法檢測精準(zhǔn)度較高。

4 結(jié)束語

針對傳統(tǒng)方法存在的問題，提出了基于CNN深度學(xué)習(xí)的機(jī)器人抓取位置檢測方法，并對該方法進(jìn)行了實驗驗證。在實驗中，通過與改進(jìn)自動編碼器多模態(tài)特征學(xué)習(xí)方法、卷積神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)方法作對比，實驗結(jié)果表明基于CNN深度學(xué)習(xí)方法能夠較好提取目標(biāo)位置特征，具有精準(zhǔn)檢測效果。相比于以往方法，既提高了檢測方法實時性，又增強(qiáng)了姿態(tài)角檢測精度，大大減輕了機(jī)器人內(nèi)存消耗。

在未來研究項目中，使用基于CNN深度學(xué)習(xí)檢測方法是進(jìn)一步完善傳統(tǒng)方法的網(wǎng)絡(luò)結(jié)構(gòu)，提高機(jī)器人抓取位置檢測精準(zhǔn)度，并將該方法應(yīng)用到機(jī)器人抓取相關(guān)任務(wù)之中。針對CNN深度學(xué)習(xí)領(lǐng)域輕量化研究，較為繁瑣，該領(lǐng)域有著較長的研究周期，很難應(yīng)用到實際中，所以，權(quán)值輕量化的結(jié)合需應(yīng)用到抓取目標(biāo)位置中，接下來的研究方向可以將重點放在該領(lǐng)域。