• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于輕量級(jí)OpenPose改進(jìn)的幻影機(jī)手勢(shì)交互系統(tǒng)

      2021-08-19 11:02:04譚立行魯嘉淇張笑楠劉宇紅張榮芬
      關(guān)鍵詞:幻影關(guān)鍵點(diǎn)手勢(shì)

      譚立行,魯嘉淇,張笑楠,劉宇紅,張榮芬

      貴州大學(xué) 大數(shù)據(jù)與信息工程學(xué)院,貴州550023

      近年來(lái),隨著計(jì)算機(jī)技術(shù)的高速發(fā)展,各國(guó)紛紛制訂了各自的機(jī)器人發(fā)展戰(zhàn)略規(guī)劃,而良好的人機(jī)交互方式是人機(jī)合作的重要基礎(chǔ)。傳統(tǒng)的鍵盤(pán)、鼠標(biāo)等人機(jī)交互方式只能在人與計(jì)算機(jī)之間架起一座起到交互作用的橋梁,難以滿(mǎn)足用戶(hù)日益增長(zhǎng)的交互需要,因此尋求一種更自然化、便捷化的實(shí)時(shí)人機(jī)交互方式成為熱點(diǎn)研究方向[1]。

      當(dāng)前,人手已經(jīng)被用作實(shí)時(shí)輸入設(shè)備進(jìn)行人機(jī)交互,人們可以通過(guò)手勢(shì)而非鍵盤(pán)或鼠標(biāo)等設(shè)備來(lái)更直觀地控制機(jī)器,例如手機(jī)的觸摸屏。但是,觸摸屏一類(lèi)的交互方式受限于配套設(shè)備,要求被操控的機(jī)器必須有配套的觸摸屏。經(jīng)過(guò)研究發(fā)現(xiàn),基于攝像頭輸入的手勢(shì)交互不需要與被控設(shè)備進(jìn)行直接接觸,可以在設(shè)備周?chē)M(jìn)行交互。然而,通過(guò)攝像頭視頻輸入手勢(shì)進(jìn)行手勢(shì)估計(jì)對(duì)于計(jì)算機(jī)是一個(gè)艱巨的任務(wù),因?yàn)槭值倪\(yùn)動(dòng)靈活多樣,實(shí)踐應(yīng)用中用戶(hù)背景環(huán)境也復(fù)雜多變,手勢(shì)識(shí)別的準(zhǔn)確性、實(shí)時(shí)性以及魯棒性較差[2],如何使計(jì)算機(jī)能夠及時(shí)、準(zhǔn)確地識(shí)別用戶(hù)做出的手勢(shì)是這一技術(shù)亟待解決的關(guān)鍵問(wèn)題。為有效地進(jìn)行人機(jī)交互,本文目標(biāo)是嘗試提出一種能精準(zhǔn)、實(shí)時(shí)解決攝像頭手勢(shì)交互識(shí)別的算法模型及硬件系統(tǒng),實(shí)現(xiàn)通過(guò)手勢(shì)交互控制小車(chē)運(yùn)行。

      1 相關(guān)工作

      傳統(tǒng)的手勢(shì)識(shí)別主要使用基于圖像和序列圖片幀處理手工特征的算法來(lái)實(shí)現(xiàn)。這些方法首先需要檢測(cè)圖像中手部位置,常見(jiàn)的手部檢測(cè)方法主要分為基于形狀信息特征、基于膚色信息、形狀特征與膚色信息相結(jié)合和基于運(yùn)動(dòng)信息的四種方法?;谛螤钐卣鞯姆椒ㄖ饕腔谔荻戎狈綀D(Histogram of Oriented Gradient,HOG)、尺度不變特征變換(Scale-Invariant Feature Transform,SIFT)、光流直方圖(Histogram of Flow,HOF)等人為指定的特征,利用支持向量機(jī)(Support Vector Machine,SVM)分類(lèi)器進(jìn)行分類(lèi)[3],對(duì)人工特征的依賴(lài)很強(qiáng)。膚色方法通過(guò)分析人體膚色與背景的特殊差異,設(shè)置閾值將不同色彩空間中的人手分離出來(lái),然后使用形態(tài)學(xué)操作對(duì)圖形進(jìn)行腐蝕膨脹處理,進(jìn)而達(dá)到消除噪聲的目的。這種方法局限性大,由于各人膚色不同,在閾值設(shè)置上不能適用統(tǒng)一標(biāo)準(zhǔn),無(wú)法全面描述人類(lèi)手勢(shì)?;谶\(yùn)動(dòng)信息的方法利用運(yùn)動(dòng)過(guò)程中圖像幀之間的差異進(jìn)行減運(yùn)算得到差異值,通過(guò)差異值分析運(yùn)動(dòng)信息,是一種基于序列圖片幀的方法。這種方法的缺點(diǎn)在于對(duì)運(yùn)動(dòng)圖像要求很高,要求運(yùn)動(dòng)圖像中背景不能變化,手勢(shì)移動(dòng)不能過(guò)快,場(chǎng)景光照條件也不能變化,不具有廣泛適用性[4]。在機(jī)器學(xué)習(xí)出現(xiàn)以后,基于模板匹配的方法開(kāi)始流行,最早出現(xiàn)的方法是利用模板匹配法進(jìn)行靜態(tài)手勢(shì)識(shí)別,將輸入圖像與模板進(jìn)行匹配計(jì)算圖像相似度[5],但這種識(shí)別方法準(zhǔn)確性較低,僅能識(shí)別簡(jiǎn)單手勢(shì)。在深度學(xué)習(xí)方法出現(xiàn)以后,基于深度學(xué)習(xí)的識(shí)別方法開(kāi)始成為主流,以Wang Nan團(tuán)隊(duì)提出的基于深度學(xué)習(xí)的Faster R-CNN方法為例,F(xiàn)aster R-CNN可以通過(guò)使用深度卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)學(xué)習(xí)更多抽象的手勢(shì)紋理特征,避免了傳統(tǒng)手勢(shì)識(shí)別方法對(duì)人工設(shè)計(jì)特征的依賴(lài),使得手勢(shì)識(shí)別更具準(zhǔn)確性和魯棒性。

      目前,深度學(xué)習(xí)的視覺(jué)手勢(shì)識(shí)別主要分為基于RGB-D攝像頭的方式和基于RGB攝像頭的方式兩種?;赗GB-D攝像頭的方式除了常見(jiàn)的三位顏色空間信息外,還能夠提取空間深度信息,以微軟公司研發(fā)的Kinect攝像頭為例,這種攝像頭可以直接應(yīng)用于捕捉人體關(guān)節(jié)點(diǎn),能夠?qū)崿F(xiàn)現(xiàn)實(shí)與虛擬環(huán)境中場(chǎng)景間的多感知交互[6]。這種方式的優(yōu)點(diǎn)在于空間中的深度信息給計(jì)算機(jī)提供了一個(gè)新的數(shù)據(jù)維度用來(lái)分析手勢(shì),在準(zhǔn)確率、識(shí)別準(zhǔn)確度和系統(tǒng)穩(wěn)定性上都表現(xiàn)優(yōu)秀。有很多研究者基于Kinect進(jìn)行相關(guān)研究,如桑海峰團(tuán)隊(duì)研究的面向人機(jī)交互的快速人體動(dòng)作識(shí)別系統(tǒng)就利用Kinect捕捉人體骨骼數(shù)據(jù)流提取關(guān)鍵點(diǎn)形成特征[7]。但是RGB-D攝像頭價(jià)格昂貴,不利于開(kāi)發(fā)。而基于RGB攝像頭的方式不需要專(zhuān)業(yè)的攝像頭,并且不需要特殊的設(shè)備,對(duì)于人機(jī)交互來(lái)說(shuō),是一種更為自然、通用的交互方式,也更利于成為主流的視覺(jué)手勢(shì)交互方式。

      基于深度學(xué)習(xí)的手勢(shì)識(shí)別方法在靜態(tài)動(dòng)作識(shí)別上可以取得很好的精確度且有較好的魯棒性,但是深度學(xué)習(xí)帶來(lái)的計(jì)算開(kāi)銷(xiāo)往往過(guò)大,使得基于深度學(xué)習(xí)的視覺(jué)手勢(shì)交互系統(tǒng)還不能夠投入生產(chǎn),仍停留在理論階段。為了避免分類(lèi)器過(guò)載,影響算法性能,一些研究人員使用了降維方法,降低特征維數(shù)。與此思想類(lèi)似,本文提出的基于輕量級(jí)OpenPose改進(jìn)的手勢(shì)交互系統(tǒng),主要針對(duì)OpenPose網(wǎng)絡(luò)中的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行降維,改善OpenPose在速度上的局限。

      本文降維的靈感來(lái)源于華為公司諾亞方舟實(shí)驗(yàn)室的Kai Han團(tuán)隊(duì)提出的幻影網(wǎng)絡(luò)GhostNet[8]。通過(guò)幻影模塊(Ghost Module)減小卷積核尺寸的同時(shí)保證識(shí)別的精度,減小深度學(xué)習(xí)對(duì)于硬件算力的需求。最后本文結(jié)合Arduino嵌入式平臺(tái),搭建了一個(gè)基于深度學(xué)習(xí)的視覺(jué)手勢(shì)人機(jī)交互系統(tǒng)。該系統(tǒng)應(yīng)用幻影模塊針對(duì)Intel提出的輕量級(jí)OpenPose[9]進(jìn)行改進(jìn),提升了實(shí)時(shí)應(yīng)用的可行性。

      2 算法研究

      2.1 輕量級(jí)的OpenPose

      輕量級(jí)OpenPose(Lightweight OpenPose)是Intel公司基于卡耐基梅隆大學(xué)發(fā)布的開(kāi)源項(xiàng)目OpenPose框架進(jìn)行的改進(jìn)。OpenPose是一個(gè)可以基于實(shí)時(shí)多人關(guān)鍵點(diǎn)識(shí)別讀懂人類(lèi)肢體語(yǔ)言的開(kāi)放庫(kù)和程序包[10],它使得開(kāi)發(fā)者能夠在單目攝像頭的基礎(chǔ)上獲得準(zhǔn)確率較高的人體關(guān)鍵點(diǎn)坐標(biāo)。OpenPose支持對(duì)手部進(jìn)行21個(gè)關(guān)鍵點(diǎn)的檢測(cè),將原始圖像輸入網(wǎng)絡(luò)后,最終能夠匯總得到人手關(guān)鍵點(diǎn)特征圖。21個(gè)手部關(guān)鍵點(diǎn)結(jié)構(gòu)如圖1所示。

      圖1 21點(diǎn)人手建模Fig.1 21 points human hand model

      OpenPose的結(jié)構(gòu)如圖2所示,由一個(gè)雙分支的CNN對(duì)于輸入的二維彩色圖像進(jìn)行處理。

      大小為W×H像素的原始圖像在經(jīng)過(guò)VGG-19前十層初始化處理后經(jīng)過(guò)微調(diào)會(huì)得到一個(gè)特征圖F,將特征圖F輸入網(wǎng)絡(luò)當(dāng)中,在網(wǎng)絡(luò)中分成兩路分支。用TP表示總階段數(shù),TC表示總置信圖階段數(shù)。分支1中的每一級(jí)都用于預(yù)測(cè)關(guān)鍵點(diǎn)置信圖[11],從最新的部分親和域(Part Affinity Fields,PAF)開(kāi)始重復(fù)進(jìn)行置信圖檢測(cè)。

      在利用式(1)和式(2)進(jìn)行關(guān)鍵點(diǎn)置信圖檢測(cè)時(shí),t表示第t輪迭代,其中ρt表示在第t輪迭代中進(jìn)行推理的CNN,STP表示經(jīng)過(guò)TP輪迭代后的置信圖,St表示經(jīng)過(guò)TP輪迭代后,從最新的部分親和域開(kāi)始重復(fù)進(jìn)行檢測(cè)得到的置信圖。

      分支2中每一級(jí)都用于預(yù)測(cè)關(guān)鍵點(diǎn)的部分親和域:

      其中,φt指的是在第t階段進(jìn)行推理的CNN。令φ1為第1輪迭代時(shí)用于進(jìn)行推理的CNN,在每個(gè)后續(xù)階段中,來(lái)自上一階段CNN的預(yù)測(cè)結(jié)果和原始圖像的特征圖F共同作用精確地預(yù)測(cè)Lt。

      部分親和域是一組二維矢量場(chǎng),用于在圖像上編碼肢體像素點(diǎn)的位置和走向。之后的每一路循環(huán)都將上一輪兩路分支循環(huán)的輸出以及原始特征圖F作為輸入,最后利用匈牙利算法進(jìn)行推理,得到人體骨骼的關(guān)鍵點(diǎn)和肢體對(duì)應(yīng)的二維坐標(biāo)作為輸出,如圖3所示。

      圖3 OpenPose流程圖Fig.3 OpenPose pipeline

      為了引導(dǎo)網(wǎng)絡(luò)在迭代過(guò)程中能夠預(yù)測(cè)兩分支中的部分親和域和關(guān)鍵點(diǎn)置信圖,在每個(gè)階段的末尾都要應(yīng)用損失函數(shù)。在t階段的置信圖分支的損失函數(shù)和部分親和域的損失函數(shù)分別為:

      為了評(píng)估fS,在網(wǎng)絡(luò)訓(xùn)練的過(guò)程中,從標(biāo)注的關(guān)鍵點(diǎn)中生成可信度置信圖S*。每一個(gè)置信圖都是特定身體部位處于給定像素中的可信度的二維表征。令Xi,j∈?2為圖片中第k個(gè)人第j個(gè)身體部分的真實(shí)位置,則在p處的值可定義為:

      其中,σ為控制峰的擴(kuò)展。表示第k個(gè)人第j個(gè)身體部分的可信度。

      網(wǎng)絡(luò)預(yù)測(cè)結(jié)果的可信度置信圖可表示為各個(gè)獨(dú)立置信圖通過(guò)最大算子后的集合。

      而在Intel公司改進(jìn)后的輕量級(jí)OpenPose中,將原始的OpenPose中用于提取特征圖F的網(wǎng)絡(luò)從VGG19換成了輕量級(jí)的網(wǎng)絡(luò)MobileNetV1。通過(guò)這樣的操作可以有效減少訓(xùn)練過(guò)程中生成的參數(shù)量,僅為原始二階OpenPose參數(shù)量的15%,減輕了程序運(yùn)行時(shí)加載網(wǎng)絡(luò)參數(shù)的資源損耗,從而提升了檢測(cè)的速度。輕量級(jí)OpenPose還改進(jìn)了原始OpenPose中的兩分支結(jié)構(gòu),共享所有層使其變?yōu)閱温方Y(jié)構(gòu),僅在最后兩層分為兩路分支分別輸出關(guān)鍵點(diǎn)置信圖S和親和域L。原始OpenPose中計(jì)算量耗費(fèi)大的7×7卷積核也被替換為3×3,1×1,3×3結(jié)構(gòu)的卷積核,在保留了接收親和域的同時(shí)減少了計(jì)算量。輕量級(jí)OpenPose結(jié)構(gòu)改進(jìn)部分如圖4所示。

      圖4 輕量級(jí)OpenPose改進(jìn)結(jié)構(gòu)Fig.4 Improved architecture of lightweight OpenPose

      2.2 幻影姿態(tài)機(jī)

      輕量級(jí)OpenPose框架在OpenPose框架檢測(cè)效果的基礎(chǔ)上通過(guò)犧牲一小部分精確度換來(lái)了可觀的速度提升,但是輕量級(jí)OpenPose框架所提供的網(wǎng)絡(luò)結(jié)構(gòu)依舊過(guò)大,在實(shí)時(shí)檢測(cè)時(shí)難以使用獨(dú)立的CPU得到較高的檢測(cè)速率。為了進(jìn)一步減輕OpenPose對(duì)于硬件資源的需求,提出了幻影姿態(tài)機(jī)(Ghost Pose Machine,GPM)。

      幻影姿態(tài)機(jī)是基于華為公司諾亞方舟實(shí)驗(yàn)室提出的幻影模塊的思想提出的。GPM整體結(jié)構(gòu)與輕量級(jí)OpenPose識(shí)別網(wǎng)絡(luò)類(lèi)似,通過(guò)將其中的卷積層從傳統(tǒng)卷積層更換為幻影卷積層來(lái)提升網(wǎng)絡(luò)性能。通過(guò)更少的卷積運(yùn)算次數(shù)獲得更多的特征,以此來(lái)提高OpenPose框架的運(yùn)行速度,提高實(shí)時(shí)識(shí)別速度,減輕計(jì)算機(jī)視覺(jué)深度學(xué)習(xí)對(duì)于硬件資源的需求。在基于深度學(xué)習(xí)的計(jì)算機(jī)視覺(jué)識(shí)別過(guò)程中,需要進(jìn)行大量的卷積運(yùn)算來(lái)產(chǎn)生特征圖,幻影模塊的核心思想在于卷積過(guò)程中產(chǎn)生的特征圖會(huì)有許多特征圖是類(lèi)似的,將這樣的特征圖稱(chēng)作冗余特征圖,這些冗余特征圖可由其他特征圖進(jìn)行線(xiàn)性變換得到相似特征圖,將此類(lèi)冗余特征圖稱(chēng)作“幻影”特征圖[12]。因此可以通過(guò)減少卷積產(chǎn)生的通道數(shù),利用線(xiàn)性乘法對(duì)卷積后的特征圖做線(xiàn)性變換,從而得到“幻影”特征圖產(chǎn)生高維卷積效果。本文幻影模塊結(jié)構(gòu)如圖5所示。

      圖5 幻影模塊(GM)Fig.5 Ghost module(GM)

      如圖6所示,給定輸入數(shù)據(jù)X∈?c×h×w。圖中c是輸入圖像的通道數(shù),在RGB彩色圖中,共有紅、綠、藍(lán)三色通道,h和w分別是輸入圖像的高度和寬度,則生成n個(gè)特征圖的任意卷積操作層可表示為式(9):

      圖6 卷積操作Fig.6 Convolution operation

      其中,*為卷積運(yùn)算符號(hào),X為輸入圖像,Y是通道數(shù)為n的輸出特征圖,Y∈?h′×w′×n,f∈?c×k×k×n既是卷積核,也是濾波器,b是偏差項(xiàng),h′、w′為特征圖尺寸,k×k為卷積核尺寸。

      由于在輸出圖中存在很多冗余,不必一一生成具有大量FLOP和參數(shù)的“幻影”特征圖。將原來(lái)生成n個(gè)特征圖Y的卷積操作替換為產(chǎn)生m個(gè)核心特征圖Y′的卷積操作,如式(10)所示。

      其中,f′∈?c×k×k×m為所使用的卷積核,m為生成特征圖個(gè)數(shù),且m≤n。

      為了進(jìn)一步獲得所需要的n個(gè)特征圖,對(duì)得到的m個(gè)核心特征圖Y′做廉價(jià)線(xiàn)性運(yùn)算生成s個(gè)“幻影”。

      其中,y′i,j是Y′的第i個(gè)核心特征值,Φi,j是生成第j個(gè)“幻影”yi,j所進(jìn)行的第j個(gè)線(xiàn)性運(yùn)算,yi,j是生成的第j個(gè)“幻影”,最終可得到n=m×s個(gè)特征圖。

      通過(guò)在傳統(tǒng)的CNN中插入幻影模塊,無(wú)需進(jìn)行高維度的卷積運(yùn)算,能夠有效減少卷積運(yùn)算所帶來(lái)的硬件設(shè)備資源消耗,提高算法的識(shí)別速度。

      使用幻影模塊升級(jí)后的卷積操作與普通卷積操作理論加速比為:

      其中,d×d是每個(gè)線(xiàn)性運(yùn)算的平均核尺寸,其大小和k×k的大小近似,而s?c。

      類(lèi)似地,理論壓縮比可以計(jì)算為:

      表明本文幻影姿態(tài)機(jī)能對(duì)整個(gè)過(guò)程中涉及到的高維度卷積層進(jìn)行降維,縮小卷積核的尺寸,并通過(guò)插入幻影模塊來(lái)達(dá)到高維卷積的效果,在可以接受的精度損失內(nèi)減小了計(jì)算量。

      3 系統(tǒng)結(jié)構(gòu)及軟件設(shè)計(jì)

      3.1 幻影姿態(tài)機(jī)

      本系統(tǒng)首次將OpenPose用于實(shí)時(shí)人機(jī)交互操作控制,并且利用輕量級(jí)OpenPose和幻影模塊對(duì)識(shí)別過(guò)程進(jìn)行加速,有利于提高系統(tǒng)實(shí)時(shí)性。根據(jù)本文幻影姿態(tài)機(jī)基于輕量級(jí)OpenPose框架進(jìn)行改進(jìn),只需將框架中用到的卷積層替換為幻影模塊卷積,卷積核替換結(jié)構(gòu)如圖7所示。

      圖7 幻影卷積核替換結(jié)構(gòu)Fig.7 Architecture of ghost convolution kernel

      即將網(wǎng)絡(luò)中原本的7×7卷積替換為3×3卷積,生成m通道核心特征圖,再進(jìn)行s次線(xiàn)性運(yùn)算得到n通道特征圖,所得特征圖與7×7卷積生成的n通道特征圖相似。替換后可實(shí)現(xiàn)卷積降維,從而對(duì)整體神經(jīng)網(wǎng)絡(luò)架構(gòu)進(jìn)行加速,提高幻影姿態(tài)機(jī)識(shí)別效率。

      另外,通過(guò)將普通的卷積層替換為幻影卷積層,可以使用更少的卷積運(yùn)算得到相同的特征圖。本文基于幻影模塊生成冗余特征圖的方法,提出了一種新的適用于多場(chǎng)景的手勢(shì)識(shí)別控制方法。首先利用幻影姿態(tài)機(jī)對(duì)輸入的實(shí)時(shí)RGB圖像進(jìn)行手部建模,然后使用模板匹配圖像識(shí)別方法對(duì)幻影姿態(tài)機(jī)建立的手勢(shì)模型進(jìn)行識(shí)別并發(fā)出指令,從而進(jìn)行人機(jī)交互控制,以滿(mǎn)足系統(tǒng)應(yīng)用需求。該方法適應(yīng)性強(qiáng),任何人做出操作手勢(shì)均可識(shí)別,無(wú)需針對(duì)不同膚色的人重新訓(xùn)練用于進(jìn)行動(dòng)作識(shí)別的模型,并且相對(duì)于輕量級(jí)OpenPose,減少了卷積運(yùn)算次數(shù),能夠提高識(shí)別速率。本文幻影姿態(tài)機(jī)框架如圖8所示。

      圖8 幻影姿態(tài)機(jī)框架Fig.8 Architecture of ghost pose machine

      3.2 手勢(shì)識(shí)別系統(tǒng)框架

      本文手勢(shì)識(shí)別交互控制系統(tǒng)結(jié)構(gòu)如圖9所示。實(shí)驗(yàn)中采用搭載Arduino UNO的移動(dòng)小車(chē)執(zhí)行交互響應(yīng),將系統(tǒng)運(yùn)行在PC端進(jìn)行實(shí)時(shí)手勢(shì)檢測(cè)以及指令識(shí)別,并通過(guò)PC端與移動(dòng)端的通信對(duì)移動(dòng)端小車(chē)發(fā)出控制指令。

      圖9 手勢(shì)交互系統(tǒng)框架Fig.9 Architecture of gesture interaction system

      圖10 給出的是小車(chē)手勢(shì)交互控制系統(tǒng)流程。系統(tǒng)準(zhǔn)備就緒后,使用PC端RGB攝像頭輸入實(shí)時(shí)圖像,在此過(guò)程中,調(diào)用訓(xùn)練好的“輕量級(jí)OpenPose+幻影姿態(tài)機(jī)”模型(簡(jiǎn)稱(chēng)幻影姿態(tài)機(jī))進(jìn)行人手關(guān)鍵點(diǎn)檢測(cè)并畫(huà)出骨架,利用模板匹配方法對(duì)畫(huà)出骨架的手勢(shì)圖像進(jìn)行分類(lèi)識(shí)別。

      圖10 系統(tǒng)流程圖Fig.10 System pipeline

      識(shí)別完成后,PC端將根據(jù)識(shí)別出的手勢(shì)通過(guò)藍(lán)牙通信向小車(chē)發(fā)出控制指令,小車(chē)上搭載的Arduino開(kāi)發(fā)板通過(guò)藍(lán)牙模塊與PC進(jìn)行實(shí)時(shí)通訊,接受指令并對(duì)小車(chē)的電機(jī)進(jìn)行控制,從而達(dá)到控制小車(chē)交互行進(jìn)的目的。

      為了控制小車(chē)的移動(dòng),本文設(shè)置了五種基本手勢(shì):握拳、手勢(shì)數(shù)字1、手勢(shì)數(shù)字2、手勢(shì)數(shù)字6和手掌打開(kāi)。五種手勢(shì)分別對(duì)應(yīng)了小車(chē)的前進(jìn)、左轉(zhuǎn)、右轉(zhuǎn)、倒車(chē)、停車(chē)五個(gè)指令。如圖11所示。

      圖11 五種指令手勢(shì)Fig.11 Five instruction gestures

      3.3 軟件設(shè)計(jì)

      本系統(tǒng)的實(shí)驗(yàn)平臺(tái)基于藍(lán)牙移動(dòng)小車(chē)搭建。藍(lán)牙小車(chē)搭載Arduino嵌入式平臺(tái),通過(guò)藍(lán)牙模塊與本地PC端進(jìn)行通信。小車(chē)平臺(tái)用兩節(jié)18650鋰離子電池供電,搭載藍(lán)牙4.0模塊。

      嵌入式平臺(tái)選用Arduino UNO平臺(tái),該平臺(tái)搭載時(shí)鐘頻率為16 MHz ATMEGA328P內(nèi)核的微處理器,足夠進(jìn)行藍(lán)牙通訊。圖像的采集和處理識(shí)別主要由本地PC機(jī)進(jìn)行,嵌入式平臺(tái)作為控制傳輸中繼,通過(guò)藍(lán)牙連接小車(chē)電機(jī)和本地PC。本地PC通過(guò)攝像頭監(jiān)測(cè)控制者的手勢(shì),生成控制指令。

      4 實(shí)驗(yàn)及結(jié)果

      4.1 數(shù)據(jù)集與網(wǎng)絡(luò)訓(xùn)練

      在訓(xùn)練幻影姿態(tài)機(jī)的過(guò)程中,本文采用微軟公司的COCO2017數(shù)據(jù)集進(jìn)行訓(xùn)練實(shí)現(xiàn)關(guān)鍵點(diǎn)檢測(cè),共計(jì)118 288張圖片;而對(duì)于手勢(shì)分類(lèi),用幻影姿態(tài)機(jī)采集了五種手勢(shì)各20張的關(guān)鍵點(diǎn)圖進(jìn)行標(biāo)注,用于分類(lèi)識(shí)別網(wǎng)絡(luò)的訓(xùn)練。

      為使得幻影姿態(tài)機(jī)能夠更快取得良好結(jié)果,本文調(diào)用了預(yù)訓(xùn)練過(guò)的MobileNetV1進(jìn)行遷移訓(xùn)練,使用GPU顯卡(NVIDIA GTX 2070)對(duì)訓(xùn)練過(guò)程進(jìn)行加速。軟件基于深度學(xué)習(xí)開(kāi)源工具箱Pytorch實(shí)現(xiàn),調(diào)用了pycocotools、opencv、numpy等開(kāi)源庫(kù),最終可運(yùn)行在Intel?Core i5-9500F@2.90 GHz CPU,Windows 10操作系統(tǒng)上。

      網(wǎng)絡(luò)中的各層權(quán)重通過(guò)Adaboost求解,訓(xùn)練中主要修改迭代次數(shù)和學(xué)習(xí)率兩項(xiàng)參數(shù)。每一次迭代使用256張圖片,共經(jīng)過(guò)3 700次迭代。最終在訓(xùn)練集上幻影姿態(tài)機(jī)的檢測(cè)準(zhǔn)確率達(dá)到65.9%。

      4.2 識(shí)別算法評(píng)估

      實(shí)驗(yàn)1人手關(guān)鍵點(diǎn)檢測(cè)。

      為了對(duì)比驗(yàn)證本文改進(jìn)算法的實(shí)際檢測(cè)性能,分別針對(duì)原始OpenPose、輕量級(jí)OpenPose和本文幻影姿態(tài)機(jī)三個(gè)模型在COCO驗(yàn)證集上進(jìn)行了檢測(cè)人手關(guān)鍵點(diǎn)的測(cè)試實(shí)驗(yàn)。準(zhǔn)確率測(cè)試結(jié)果如表1所示。

      表1 COCO2017驗(yàn)證集上OpenPose、輕量級(jí)OpenPose、幻影姿態(tài)機(jī)的性能比較Table 1 Performance of OpenPose,lightweight OpenPose and ghost pose machine on COCO2017

      從表1結(jié)果中可以看出,本文幻影姿態(tài)機(jī)算法基本上保持了原有網(wǎng)絡(luò)的關(guān)鍵點(diǎn)識(shí)別率。

      為了測(cè)試幻影姿態(tài)機(jī)的加速效果,本文分別將OpenPose、輕量級(jí)OpenPose以及幻影姿態(tài)機(jī)三種算法在本地PC機(jī)上運(yùn)行,接通RGB攝像頭進(jìn)行實(shí)時(shí)檢測(cè),經(jīng)多次測(cè)試的運(yùn)行速度如表2所示。

      表2 OpenPose、輕量級(jí)OpenPose、幻影姿態(tài)機(jī)的實(shí)時(shí)檢測(cè)幀率Table 2 Real-time FPS of OpenPose,lightweight OpenPose and ghost pose machine

      從表2結(jié)果中可以看出,本文幻影姿態(tài)機(jī)對(duì)比原輕量級(jí)OpenPose框架明顯提高了識(shí)別速率。由式(12),理論加速比為2,根據(jù)上述結(jié)果可計(jì)算出實(shí)際加速1.18~1.57倍,低于理論加速比,猜想是因?yàn)榛糜白藨B(tài)機(jī)中backbone部分使用的幻影模塊參數(shù)還未達(dá)到最優(yōu),“幻影”冗余還可進(jìn)一步壓縮。

      實(shí)驗(yàn)2實(shí)時(shí)手勢(shì)識(shí)別。

      在上述訓(xùn)練與驗(yàn)證幻影姿態(tài)機(jī)的過(guò)程中,攝像頭始終正對(duì)著手勢(shì)且沒(méi)有受到其他干擾,在實(shí)際應(yīng)用中難以做到理想狀態(tài)。因此為了實(shí)時(shí)測(cè)試在更復(fù)雜情況下的識(shí)別效果,本組實(shí)驗(yàn)分別做以下四種情況的識(shí)別效果對(duì)比:手勢(shì)正常面向攝像頭,手勢(shì)側(cè)面對(duì)準(zhǔn)攝像頭,手勢(shì)背面對(duì)準(zhǔn)攝像頭,有多只手出現(xiàn)在攝像頭中。這四種情況下幻影姿態(tài)機(jī)的識(shí)別效果如圖12所示。

      圖12 復(fù)雜情況下手勢(shì)識(shí)別效果Fig.12 Recognition results on complicated background

      在測(cè)試過(guò)程當(dāng)中,分別在不同情況下設(shè)置五種手勢(shì)(對(duì)應(yīng)小車(chē)前進(jìn)、左轉(zhuǎn)、右轉(zhuǎn)、倒車(chē)、停車(chē))的對(duì)照實(shí)驗(yàn),用手勢(shì)正面面對(duì)攝像頭、手勢(shì)側(cè)面面對(duì)攝像頭、手勢(shì)背面面對(duì)攝像頭以及正面出現(xiàn)兩只手控制小車(chē)實(shí)現(xiàn)交互響應(yīng)。每次測(cè)試中,隨機(jī)做動(dòng)作100次,每種手勢(shì)各20次。小車(chē)實(shí)時(shí)響應(yīng)結(jié)果如表3所示。

      表3 五種手勢(shì)在三種情況下手勢(shì)識(shí)別精確率和召回率Table 3 Precision and recall of five gestures recognition under three cases %

      文中,TP為將手勢(shì)預(yù)測(cè)為對(duì)應(yīng)手勢(shì)的數(shù)量,TN為將其他手勢(shì)預(yù)測(cè)為其他手勢(shì)的數(shù)量,F(xiàn)N為將手勢(shì)預(yù)測(cè)為其他手勢(shì)的數(shù)量,F(xiàn)P為將其他手勢(shì)預(yù)測(cè)為當(dāng)前手勢(shì)的數(shù)量,則精確率計(jì)算公式為:

      召回率計(jì)算公式為:

      通過(guò)以上實(shí)驗(yàn)結(jié)果可以看出,幻影姿態(tài)機(jī)在正面和背面的手勢(shì)識(shí)別精確率和召回率較高,正面識(shí)別精確率最高可達(dá)85.71%,召回率最高可達(dá)90%;手勢(shì)側(cè)面對(duì)準(zhǔn)攝像頭時(shí)檢測(cè)效果最差,精確率最高僅達(dá)到72.73%,召回率僅能達(dá)到75%;特殊情況,在同時(shí)出現(xiàn)兩只手時(shí),若兩只手的距離較近,幻影姿態(tài)機(jī)會(huì)將兩只手的關(guān)鍵點(diǎn)誤識(shí)別,無(wú)法判斷識(shí)別出關(guān)鍵點(diǎn)屬于哪只手。

      另外,在實(shí)際應(yīng)用中,操作人員一般正面對(duì)準(zhǔn)攝像頭,但系統(tǒng)很難確保操作人員在操控設(shè)備時(shí)位置不變,因此需要測(cè)試幻影姿態(tài)機(jī)在操作人員與攝像頭處于不同距離下的手勢(shì)識(shí)別效果。表4是正面識(shí)別時(shí)各種手勢(shì)的平均識(shí)別結(jié)果。

      表4 不同距離下幻影姿態(tài)機(jī)的正面識(shí)別精確率Table 4 Precision of ghost pose machine for front recognition at different distances

      通過(guò)實(shí)驗(yàn)結(jié)果可知,在超過(guò)兩米的范圍幻影姿態(tài)機(jī)很難再對(duì)人手進(jìn)行識(shí)別,這是因?yàn)镺penPose框架提供的基礎(chǔ)人手訓(xùn)練模型僅對(duì)近距離手勢(shì)數(shù)據(jù)進(jìn)行訓(xùn)練,無(wú)法應(yīng)用于遠(yuǎn)距離的手勢(shì)。解決辦法是考慮利用數(shù)據(jù)增廣技術(shù)擴(kuò)充數(shù)據(jù)集,通過(guò)人工標(biāo)注圖片對(duì)網(wǎng)絡(luò)進(jìn)行再訓(xùn)練,提升姿態(tài)機(jī)在較大的距離范圍內(nèi)檢測(cè)復(fù)雜人手關(guān)鍵點(diǎn)的能力。

      5 結(jié)束語(yǔ)

      本文提出了一種改進(jìn)的基于輕量級(jí)OpenPose的新型人機(jī)交互系統(tǒng),通過(guò)構(gòu)建幻影姿態(tài)機(jī),改善了OpenPose模型參數(shù)量大的問(wèn)題,減輕了硬件負(fù)擔(dān),在保證手勢(shì)識(shí)別準(zhǔn)確率的基礎(chǔ)上有效提升了識(shí)別速率。該系統(tǒng)可適用于多種領(lǐng)域,包括無(wú)人機(jī)操控、遠(yuǎn)程手術(shù)等不適合傳統(tǒng)人機(jī)交互模式操作的場(chǎng)景,能夠?qū)C(jī)器進(jìn)行更為復(fù)雜的操控。本系統(tǒng)基于輕量級(jí)OpenPose與幻影模塊進(jìn)行改進(jìn),目前的研究實(shí)現(xiàn)了幻影姿態(tài)機(jī)的基本運(yùn)行,但仍然有許多可以改進(jìn)和深入研究的方向,比如:如何進(jìn)一步優(yōu)化模型參數(shù)設(shè)置;如何確定卷積層中哪些是核心特征,哪些是“幻影”;如何進(jìn)一步簡(jiǎn)化網(wǎng)絡(luò)結(jié)構(gòu)[13];實(shí)現(xiàn)多人背景下的手勢(shì)識(shí)別交互;實(shí)現(xiàn)動(dòng)態(tài)手勢(shì)的識(shí)別;進(jìn)一步提高準(zhǔn)確度、魯棒性等。

      猜你喜歡
      幻影關(guān)鍵點(diǎn)手勢(shì)
      勞斯萊斯幻影
      《幻影》
      像素前線(xiàn)之“幻影”2000
      聚焦金屬關(guān)鍵點(diǎn)
      肉兔育肥抓好七個(gè)關(guān)鍵點(diǎn)
      挑戰(zhàn)!神秘手勢(shì)
      幻影游船
      V字手勢(shì)的由來(lái)
      勝利的手勢(shì)
      醫(yī)聯(lián)體要把握三個(gè)關(guān)鍵點(diǎn)
      郎溪县| 静海县| 自治县| 渭源县| 安泽县| 梓潼县| 大连市| 凤凰县| 右玉县| 巴东县| 若羌县| 昌乐县| 罗甸县| 南部县| 项城市| 廉江市| 霍城县| 潞西市| 富顺县| 阳城县| 蒲城县| 阳朔县| 河南省| 沙洋县| 休宁县| 舒兰市| 广饶县| 怀宁县| 古浪县| 开平市| 梅河口市| 高雄市| 永兴县| 阳谷县| 绥化市| 塘沽区| 黄龙县| 都安| 元谋县| 连山| 新密市|