李佳城,陳智強(qiáng)(通信作者),王 碩
(1 遼寧工程技術(shù)大學(xué)測(cè)繪與地理科學(xué)學(xué)院 遼寧 阜新 123000)
(2 遼寧科技大學(xué)電子信息與工程學(xué)院 遼寧 鞍山 114051)
工業(yè)機(jī)器人在使用上面臨著感知能力不強(qiáng)、無法適應(yīng)周圍環(huán)境的問題。通過三維視覺獲取場(chǎng)景三維信息,在三維信息引導(dǎo)下計(jì)算機(jī)器人末端運(yùn)動(dòng)軌跡,使得機(jī)器人在視覺引導(dǎo)下更好地適應(yīng)周圍環(huán)境,這是機(jī)器人行業(yè)要解決的核心問題。近幾年國(guó)內(nèi)對(duì)于改進(jìn)機(jī)器人抓取問題的方法在不斷發(fā)展,在2011年時(shí),張森彥等[1]采用矩形框表示物體抓取位置來替代之前的點(diǎn)抓取法,而采用這種矩形框表達(dá)的抓取方法是機(jī)器人抓取的新應(yīng)用,可達(dá)到比較理想的效果。隨著深度神經(jīng)網(wǎng)絡(luò)的發(fā)展,神經(jīng)網(wǎng)絡(luò)的應(yīng)用似乎無處不在,在2019年,曹雛清等[2]也設(shè)計(jì)了一種新的深度神經(jīng)網(wǎng)絡(luò)算法,該算法完成機(jī)器人對(duì)物體的判斷和針對(duì)判斷而形成的位置。隨著不同的神經(jīng)網(wǎng)絡(luò)方法在機(jī)器人抓取問題的嘗試,卷積神經(jīng)網(wǎng)絡(luò)也被設(shè)計(jì)出來解決機(jī)器人物體抓取的問題,而李傳浩[3]、王斌[4]、黃家才等[5]、李秀智等[6]、李鵬飛[7]采用隨機(jī)森林方法、循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)合并使用ICP 算法,進(jìn)一步提高抓取的效果。陳盟等[8]采用層次網(wǎng)絡(luò)構(gòu)建抓取姿態(tài)的算法,上述抓取位置的構(gòu)造效果和取得的抓取效率都在逐漸進(jìn)步。
本文設(shè)計(jì)了一種輕量級(jí)卷積模塊Inception-ConCat,該模塊將圖像用卷積方式構(gòu)建特征信息,這個(gè)過程是信息編碼過程,該過程結(jié)束后,再采用GRU 網(wǎng)絡(luò)對(duì)物體進(jìn)行姿態(tài)識(shí)別,從而控制機(jī)械臂運(yùn)動(dòng),形成抓取動(dòng)作,成功抓住物體。為了驗(yàn)證效果,算法首先在康奈爾數(shù)據(jù)集上驗(yàn)證,之后在實(shí)際工作環(huán)境中,使用具有視覺抓取能力的KUKA 機(jī)械臂上進(jìn)行驗(yàn)證,結(jié)果表明研究人員所設(shè)計(jì)的抓取網(wǎng)絡(luò)運(yùn)算速度快,抓取準(zhǔn)確度高(綜合抓取成功率達(dá)到96.1%),相對(duì)于之前的抓取網(wǎng)絡(luò)[8],取得良好改善效果。
要實(shí)現(xiàn)機(jī)器人對(duì)于目標(biāo)檢測(cè)的目標(biāo),最重要的一點(diǎn)是要對(duì)機(jī)器人抓取目標(biāo)的位置進(jìn)行正確的標(biāo)定,通常研究人員用雙指抓手來實(shí)現(xiàn)物體抓取,如圖1所示,圖中的機(jī)械手是研究人員自己設(shè)計(jì)制造的機(jī)械手。機(jī)器人結(jié)構(gòu)中,其上端是一個(gè)三維獲取視覺,整個(gè)手眼結(jié)構(gòu)為典型的“眼在手上”(Eyes On Hand)結(jié)構(gòu)。
圖1 視覺引導(dǎo)雙指機(jī)械抓手
機(jī)器人一般是在現(xiàn)實(shí)空間里進(jìn)行抓取的,需要為機(jī)器人提供在三維空間的信息,而三維空間信息有3 個(gè)維度的位置信息,包括:機(jī)器人機(jī)械手的三維位置坐標(biāo)、抓手的三維旋轉(zhuǎn)方向和抓手兩指張開的長(zhǎng)度。在相機(jī)像素坐標(biāo)下的表示的三維抓取信息需要通過轉(zhuǎn)移矩陣轉(zhuǎn)移到機(jī)器人抓手位置的三維坐標(biāo):
其中Tci是機(jī)器人使用的相機(jī)的內(nèi)部參數(shù)矩陣,包括相機(jī)的焦距和像素大小等,Trc是把相機(jī)內(nèi)參矩陣轉(zhuǎn)為機(jī)器人空間坐標(biāo)的矩陣。研究人員可以應(yīng)用矩形框檢測(cè)的方法來實(shí)現(xiàn)抓取:在檢測(cè)目標(biāo)上生成一個(gè)矩形框來表示抓手的抓取范圍。
如圖2所示為抓取檢測(cè)網(wǎng)絡(luò)生成的矩形框。
圖2 二維抓取網(wǎng)絡(luò)參數(shù)表達(dá)
圖中,θ表示檢測(cè)矩形框與水平位置的夾角,(x,y)表示檢測(cè)矩形框的中心,H表示檢測(cè)矩形框的高,W表示檢測(cè)矩形框的寬。
采用傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)來表達(dá)被抓取物體,其表達(dá)要么表達(dá)能力有限,要么網(wǎng)絡(luò)太繁瑣,為此研究人員設(shè)計(jì)了Inception-ConCat 模塊進(jìn)行堆疊,并且利用殘差機(jī)制防止網(wǎng)絡(luò)退化。研究人員在卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上增加Inception 機(jī)制,并且結(jié)合殘差機(jī)制防止網(wǎng)絡(luò)退化,從而給研究人員的網(wǎng)絡(luò)命名為Inception-ConCat 網(wǎng)絡(luò)。在此基礎(chǔ)上,研究人員基于所提出的Inception-ConCat 模塊又改進(jìn)新的殘差結(jié)構(gòu)網(wǎng)絡(luò)Inception-ConCat-ResNet,結(jié)構(gòu)如圖3所示:
圖3 Inception-ConCat-ResNet 模塊
結(jié)合前部分提出的自主設(shè)計(jì)的網(wǎng)絡(luò)模塊,最終設(shè)計(jì)了一個(gè)抓取網(wǎng)絡(luò)Inception-ConCat GraspNet,這個(gè)網(wǎng)絡(luò)主要是對(duì)被抓取物體進(jìn)行編碼,在編碼后,對(duì)編碼結(jié)構(gòu)設(shè)計(jì)GRU 循環(huán)網(wǎng)絡(luò)進(jìn)行解碼,在解碼過程中不斷控制機(jī)器人各個(gè)關(guān)節(jié)運(yùn)動(dòng),使之最后成功抓取被測(cè)物。
抓取網(wǎng)絡(luò)的工作過程一般分兩個(gè)階段進(jìn)行,第一個(gè)階段是預(yù)測(cè)出所有可能的抓取位置,第二階段是對(duì)這些可能的抓取位置進(jìn)行投票,得分最高者就作為最終的抓取位置。這兩個(gè)階段的實(shí)現(xiàn)需要對(duì)應(yīng)兩種不同的神經(jīng)網(wǎng)絡(luò)。與一般抓取網(wǎng)絡(luò)不同的是,Inception-ConCat-GraspNet 是一個(gè)端到端的單階段抓取網(wǎng)絡(luò),網(wǎng)絡(luò)執(zhí)行一次即可得到結(jié)果,本文設(shè)計(jì)的抓取網(wǎng)絡(luò)整體框架如圖4所示。
在上述結(jié)構(gòu)中,網(wǎng)絡(luò)由2 個(gè)卷積層核心3×3 卷積層、4 個(gè)自主設(shè)計(jì)的 Inception-ConCat-ResNet 模塊、全連接層所組成,F(xiàn)C1 隱藏的節(jié)點(diǎn)數(shù)為1 024,F(xiàn)C2 隱藏的節(jié)點(diǎn)數(shù)為256,在依次通過這三種網(wǎng)絡(luò)模塊后,可以得到檢測(cè)目標(biāo)的矩形框和其他信息。
實(shí)驗(yàn)中采用了兩個(gè)步驟驗(yàn)證抓取網(wǎng)絡(luò)的效果,首先用康奈爾數(shù)據(jù)集進(jìn)行基于圖片的抓取效果,然后使用自主設(shè)計(jì)的具有三維視覺抓取功能的實(shí)際視覺機(jī)器人驗(yàn)證抓取效果,最后結(jié)果證明抓取網(wǎng)絡(luò)實(shí)現(xiàn)的效果理想,總精度達(dá)到95.1%,實(shí)際應(yīng)用效果理想。
在下述實(shí)驗(yàn)中,研究人員始終采用Jaccard 指數(shù)作為驗(yàn)證標(biāo)準(zhǔn)。為了使實(shí)驗(yàn)結(jié)果能與其他抓取網(wǎng)絡(luò)做橫向的比較,選擇在機(jī)器人抓取領(lǐng)域比較公認(rèn)的康奈爾數(shù)據(jù)集作為實(shí)驗(yàn)對(duì)象。該數(shù)據(jù)集提供900 幅的被抓取物體的圖像,這些樣本像都帶有矩形框,共有5 000 多個(gè)用于抓取物體的矩形框和將近3 000 個(gè)不可用于抓取的矩形框。
為了驗(yàn)證本文所提算法的實(shí)際應(yīng)用價(jià)值,研究人員采用實(shí)驗(yàn)室自主設(shè)計(jì)的基于KUKA 機(jī)械臂的三維視覺抓取機(jī)構(gòu)驗(yàn)證抓取網(wǎng)絡(luò)效果,抓取機(jī)器人結(jié)構(gòu)如前圖1所示。該視覺抓取機(jī)器人,研究人員自主設(shè)計(jì)了帶有深度信息的三維環(huán)境獲取傳感器,在三維視覺傳感器下方設(shè)計(jì)了兩個(gè)手指的抓手,并且將其設(shè)計(jì)為“眼在手上”結(jié)構(gòu),經(jīng)過機(jī)械臂視覺標(biāo)定后,三維視覺抓取機(jī)械臂的抓取精度在3 mm以內(nèi),完全滿足實(shí)驗(yàn)中抓取的需求。
康奈爾抓取數(shù)據(jù)集是驗(yàn)證抓取效果的公共數(shù)據(jù)集,為了使用該數(shù)據(jù)集要擴(kuò)充康奈爾數(shù)據(jù)集提供的數(shù)據(jù)信息。先在圖像的中心選取480×480 大小的像素尺寸進(jìn)行裁剪,然后隨機(jī)角度旋轉(zhuǎn),在x軸和y軸方向上隨機(jī)最多平移20個(gè)像素,將其進(jìn)行裁剪獲得480×480 的圖像。通過康奈爾數(shù)據(jù)集進(jìn)行抓取框選擇,最后數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表1所示:
抓取網(wǎng)絡(luò)檢測(cè)的部分抓取框結(jié)果如圖5所示:
圖5 康奈爾數(shù)據(jù)集的抓取框結(jié)果
如表2所示:為了驗(yàn)證本文設(shè)計(jì)的機(jī)器人抓取檢測(cè)算法的實(shí)際效果,實(shí)驗(yàn)結(jié)果表明,機(jī)器人抓取未知物體平均成功率為97.3%,其中抓取圓柱的準(zhǔn)確率稍高,抓取圓筒的準(zhǔn)確率稍低(96.7%),這個(gè)可能與被抓取物體的摩擦效果不同有關(guān)。上述結(jié)構(gòu)已經(jīng)充分說明本次設(shè)計(jì)的抓取網(wǎng)絡(luò)Inception-ConCat-GraspNe 在實(shí)際應(yīng)用中具有重要的實(shí)用價(jià)值和意義,抓取過程如下圖6所示。
圖6 實(shí)際機(jī)器人的抓取效果
表2 視覺機(jī)器臂實(shí)際抓取效果統(tǒng)計(jì)
本文設(shè)計(jì)了一種新穎的卷積模塊Inception-ConCat 模塊并加強(qiáng)為Inception-ConCat-GraspNe 模塊,在此基礎(chǔ)上采用編碼解碼結(jié)構(gòu)設(shè)計(jì)整個(gè)深度神經(jīng)網(wǎng)絡(luò)。為了驗(yàn)證實(shí)驗(yàn)效果,在康奈爾公開數(shù)據(jù)集和實(shí)際的三維視覺機(jī)器人上進(jìn)行實(shí)驗(yàn),結(jié)果表明設(shè)計(jì)的抓取網(wǎng)絡(luò)算法,其抓取準(zhǔn)確率達(dá)到97.3%,在實(shí)際的機(jī)器人抓取實(shí)驗(yàn)中也取得了95.1%的實(shí)際精度,本次設(shè)計(jì)的機(jī)器人抓取算法有明顯的優(yōu)越性,具有重要意義和推廣價(jià)值。