• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于計(jì)算機(jī)視覺的人機(jī)交互技術(shù)研究

      2022-05-26 07:00:34賈淑滟
      關(guān)鍵詞:描述符手勢步長

      賈淑滟

      (山西旅游職業(yè)學(xué)院,山西太原 030031)

      0 引言

      近年來,人類行為和手勢識別受到研究者越來越多的關(guān)注,并在人機(jī)交互等領(lǐng)域發(fā)揮了重要作用.人類和機(jī)器人之間直觀可靠的通信對于成功的協(xié)作至關(guān)重要.關(guān)于自然界面,人類和機(jī)器人助手之間最相關(guān)的交流渠道是語音和手勢[1].由于典型的嘈雜工業(yè)環(huán)境使語言交流變得無效,手勢已經(jīng)成為與機(jī)器人合作的最具探索性的交流方式[2].盡管傳感器技術(shù)和機(jī)器學(xué)習(xí)方法取得了重要進(jìn)展,但自動手勢分割和分類仍然是一個具有挑戰(zhàn)性的問題[3].識別手勢的過程中會遇到許多困難,例如噪聲和缺失數(shù)據(jù)、個體間的可變性、不規(guī)則的觀察條件(例如,燈光、背景和視點(diǎn))和無限的詞匯外運(yùn)動等.此外,由于時(shí)間維度帶來的更高復(fù)雜性,對用于手勢識別的視頻理解一直是一個不斷增長的研究領(lǐng)域[4-6].Kinect傳感器的出現(xiàn)是計(jì)算機(jī)視覺的一個顯著進(jìn)步,它被應(yīng)用于各種涉及手勢識別的任務(wù),例如娛樂和人機(jī)界面.隨著Kinect提供內(nèi)置的骨骼數(shù)據(jù)以及高分辨率的深度和顏色圖像,伴隨著很多新的數(shù)據(jù)集出現(xiàn),為研究人員提供了設(shè)計(jì)新方法并在大量序列上驗(yàn)證的機(jī)會.本文在2014年“ChaLearn Looking at People (LAP)”挑戰(zhàn)賽數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)[7].

      本文主要研究視頻序列的標(biāo)注,該方法依賴于從骨架數(shù)據(jù)中提取的一系列手工特征.本文提出了一個有效的手勢定位模塊,它執(zhí)行幀級別的二分類.用于手勢識別的方法采用了基于滑動窗口的方案.本文還結(jié)合了不同持續(xù)時(shí)間大小的窗口,以獲得一個多時(shí)間尺度的方法.此外,本文提出了一種用于同時(shí)進(jìn)行手勢檢測和分類的方法,該方法采用了具有雙向長短期記憶(LSTM)單元的遞歸神經(jīng)網(wǎng)絡(luò)(RNN)[8].這些循環(huán)單元使長時(shí)間尺度上的時(shí)間關(guān)系學(xué)習(xí)變得高效,并且表現(xiàn)出了比標(biāo)準(zhǔn)單元更好的性能[9].

      1 研究現(xiàn)狀

      傳統(tǒng)的手勢識別方法通常包括時(shí)空手工描述符和分類,即使是提交給2014ChaLearn LAP挑戰(zhàn)賽的最精確的方法也提出了手工提取特征的描述符.得分最高的方法從每個視覺模態(tài)中學(xué)習(xí)特征,但是從骨架數(shù)據(jù)中構(gòu)建的特征是完全手動提取的特征[4].第二名的方法完全依賴于手工制作的特征,每個手勢的整體外觀是由骨架數(shù)據(jù)推斷出來的[5].

      雖然許多人類姿勢可以通過主要關(guān)節(jié)的位置和運(yùn)動來區(qū)分,例如肘部和肩部等.但其他姿勢不同于手的姿勢及其相對于身體或面部的位置.因此,方向梯度直方圖(HOG)[10]是一種手工制作的特征描述符,通常用于區(qū)分手勢,在手勢識別中具有顯著的效果[5].近幾十年來,構(gòu)建一個機(jī)器學(xué)習(xí)系統(tǒng)往往需要仔細(xì)的工程實(shí)現(xiàn)和大量的領(lǐng)域?qū)I(yè)知識來設(shè)計(jì)一個特征提取器.此外,特征的選擇是一項(xiàng)困難的任務(wù),因?yàn)樗鼈兏叨纫蕾囉趩栴}本身.深度學(xué)習(xí)方法是一種表征學(xué)習(xí)方法,允許機(jī)器獲得原始數(shù)據(jù),并自動發(fā)現(xiàn)檢測或分類任務(wù)所需的表征信息[11].學(xué)習(xí)到的特征已經(jīng)在無數(shù)的領(lǐng)域中顯示出有價(jià)值的結(jié)果,比用工程描述符獲得的結(jié)果要好很多倍[12].

      卷積神經(jīng)網(wǎng)絡(luò)[13]是深度網(wǎng)絡(luò)的典型例子,可用于直接從數(shù)據(jù)中學(xué)習(xí)潛在和復(fù)雜的特征.使用卷積神經(jīng)系統(tǒng)將物體識別的錯誤率幾乎減半是深度學(xué)習(xí)的一項(xiàng)重大突破,促使了計(jì)算機(jī)視覺社區(qū)開始廣泛采用深度學(xué)習(xí)[14].Di Wu等人使用深度網(wǎng)絡(luò),包括3D CNN來處理顏色和深度圖像,為隱馬爾可夫模型(HMM)建模釋放概率[6].盡管神經(jīng)網(wǎng)絡(luò)已經(jīng)大量地應(yīng)用于特征構(gòu)建,但它們可以從像素值端到端地訓(xùn)練到分類輸出.Ji等人將這些網(wǎng)絡(luò)用于機(jī)場監(jiān)控視頻中的人體動作識別[15].Karpathy等人還研究了在時(shí)域中擴(kuò)展CNN連通性的多種方法[16].他們的慢融合模型在Sports-1M數(shù)據(jù)集上取得了最佳性能,也是一個3D卷積神經(jīng)網(wǎng)絡(luò).

      Pigou等人表明時(shí)間池化不足以進(jìn)行手勢識別,在該任務(wù)中,時(shí)間信息比一般的視頻分類任務(wù)更具區(qū)分性[9].他們在雙向遞歸(RNN與LSTM細(xì)胞)后進(jìn)一步地使用了時(shí)空卷積,并在2014年挑戰(zhàn)中取得了最先進(jìn)的結(jié)果.將卷積神經(jīng)系統(tǒng)獨(dú)有的特征提取能力與LSTM網(wǎng)絡(luò)的時(shí)序動態(tài)建模相結(jié)合的概念,也為使用多模態(tài)可穿戴傳感器進(jìn)行人類動作識別提供了最先進(jìn)的結(jié)果[17].

      2 手勢分割

      2.1 姿態(tài)描述符

      該方法的核心是基于手工特征的姿態(tài)描述符,如圖1所示,它利用Kinect傳感器采集11個人體關(guān)節(jié)對應(yīng)的骨骼數(shù)據(jù).該姿態(tài)描述符包括當(dāng)前幀周圍短時(shí)間窗口的空間信息和時(shí)間細(xì)節(jié),例如速度和加速度.

      本文的手勢檢測方法最初遵循Zanfir等人提出的流程[18].因此,本文通過計(jì)算一個歸一化的姿態(tài)向量,以及所有11個關(guān)節(jié)的速度和加速度.圖1將上身關(guān)節(jié)顯示為樹形結(jié)構(gòu),其中臀部中心關(guān)節(jié)是根節(jié)點(diǎn).它的原始坐標(biāo)從所有其他位置向量中減去,以減少身體空間位置的影響.每對關(guān)節(jié)之間距離的標(biāo)準(zhǔn)化也用于平衡用戶身體比例的差異.然后,使用標(biāo)準(zhǔn)偏差等于1的5×1高斯濾波器沿時(shí)間維度平滑每個坐標(biāo).最后,每個關(guān)節(jié)的速度和加速度是對應(yīng)的平滑位置的一階和二階導(dǎo)數(shù).

      本文通過收集特征角度和成對距離來獲得更精確的描述符[4].如圖2所示,如果添加兩個虛擬的骨骼:右手/左手-臀部中心,傾斜角則由解剖學(xué)上連接的所有三個關(guān)節(jié)形成.方位角提供與身體相關(guān)聯(lián)的坐標(biāo)系中姿態(tài)外觀的信息,并且它們被計(jì)算為傾斜角所使用的相同的三個關(guān)節(jié).彎曲角度是在垂直于軀干的矢量和每個關(guān)節(jié)的標(biāo)準(zhǔn)化位置之間測量的.每對關(guān)節(jié)之間的55個距離作為最后一個特征添加到描述符.結(jié)合所有經(jīng)過歸一化(均值零和單位方差)后的特征,本文得到每幀的183維姿態(tài)描述符.

      圖1 人體關(guān)節(jié)示意圖Fig.1 Schematic diagram of human joints圖2 由相連關(guān)節(jié)形成的角度示意圖Fig.2 Schematic diagram of angle formed by connecting joints

      2.2 有監(jiān)督的分割

      不同的手勢在其初始或最終階段可能非常相似,并且按幀分類通常會產(chǎn)生噪音甚至是錯誤的結(jié)果.本文引入這個模塊是為了防止這些負(fù)面影響.分類器區(qū)分靜止時(shí)刻和活動時(shí)期,它可以識別每個手勢的起點(diǎn)和終點(diǎn).這個階段是基于手工描述符實(shí)現(xiàn)的.標(biāo)記有一個手勢類的所有訓(xùn)練幀被用作正樣本參與訓(xùn)練,并且在這種手勢之前和之后的一組幀被用作負(fù)樣本.

      圖3 分割模塊的網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.3 Network structure diagram of segmentation module

      如圖3所示,為本文采用的網(wǎng)絡(luò)結(jié)構(gòu).由于模型是用姿態(tài)描述符訓(xùn)練的,它的輸入層有183個單元.此外,網(wǎng)絡(luò)包括2個隱藏層,分別包含100個單元,且第一個應(yīng)用ReLU作為激活函數(shù),第二個應(yīng)用雙曲正切激活函數(shù).輸出層只有一個神經(jīng)元,使用Sigmoid進(jìn)行激活.當(dāng)處理活動周期時(shí),該層輸出1,否則輸出0.該網(wǎng)絡(luò)通過比例共軛梯度法進(jìn)行優(yōu)化.

      對于每個樣本,神經(jīng)網(wǎng)絡(luò)輸出的分?jǐn)?shù)個數(shù)與樣本的幀數(shù)一樣多.本文發(fā)現(xiàn)預(yù)測結(jié)果通常不夠穩(wěn)定,因此,本文進(jìn)一步采用最小二乘法和二次多項(xiàng)式通過局部回歸來平滑它們.之后,本文使用一個閾值來確定分?jǐn)?shù)高于0.4的所有幀都屬于一個運(yùn)動周期.此外,本文只考慮持續(xù)至少12幀的活動周期.

      3 手勢分類

      幀級別的分類是研究人員應(yīng)對靜態(tài)手勢的一個合理策略,因?yàn)閱螏臄?shù)據(jù)非常特殊.然而,本文的工作重心是動態(tài)手勢,針對這個目的,本文設(shè)計(jì)了三個合適的模型.方法A和方法B是基于滑動窗口的方法,滑動窗口可以連接來自不同時(shí)刻的空間信息.這些模型只關(guān)注上一節(jié)模型所劃分的動作周期.方法C是用LSTM單元測試RNN的深度模型.

      3.1 方法A

      窗口的應(yīng)用導(dǎo)致動態(tài)姿態(tài),它是在給定時(shí)間步長采樣并連接以產(chǎn)生時(shí)空向量的描述符序列.本文的方法A用3個姿態(tài)描述符來構(gòu)建動態(tài)的姿態(tài),即所選幀之間的步長等于4.因此,這個窗口正好包含9幀.每次應(yīng)用后窗口的步長等于2.此外,本文希望從每個活動周期收集至少5個動態(tài)姿態(tài),從而確保分類器有足夠的數(shù)據(jù)來輸出魯棒的預(yù)測.當(dāng)周期的維度不足以滿足該條件時(shí),使用三次插值法將數(shù)據(jù)調(diào)整到最小長度.

      圖4 分類模塊的網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.4 Network structure diagram of classification module

      如圖4所示,為將根據(jù)以上描述符建立的動態(tài)姿態(tài)作為前饋網(wǎng)絡(luò)的輸入時(shí)所對應(yīng)的網(wǎng)絡(luò)結(jié)構(gòu).每個動態(tài)姿態(tài)包括3個姿態(tài)描述符,因此,輸入層有549個單元.該網(wǎng)絡(luò)包括兩個隱藏層,第一層由300個單元組成,第二層僅由100個單元組成.兩層都應(yīng)用雙曲正切作為激活函數(shù).輸出層有20個單位,是類別數(shù),使用Softmax作為激活函數(shù).該網(wǎng)絡(luò)也是由共軛梯度法訓(xùn)練的.

      分類過程的最終細(xì)節(jié)可能因活動周期的長短而有所不同.根據(jù)對手勢平均長度的研究,本文假設(shè)一個少于55幀的運(yùn)動周期只包含一個手勢.在這種情況下,本文在整個片段上滑動窗口,網(wǎng)絡(luò)單獨(dú)評估動態(tài)姿態(tài).對于每個動態(tài)姿勢,如果最大得分高于一個閾值,本文記錄對應(yīng)的類.最后,如果最常見的類別在記錄的類別中獲得絕大多數(shù),本文則將動作周期分類為該類別.否則,該段將保持未標(biāo)記狀態(tài).當(dāng)周期長度較大時(shí),假設(shè)它包括多個手勢,目標(biāo)是檢測其中的每一個手勢.同理,如果獲勝類的分?jǐn)?shù)大于一個閾值,則記錄那個類.每當(dāng)在至少3個連續(xù)窗口中識別到相同的手勢時(shí),則假設(shè)該手勢被有效地執(zhí)行.然后,被分類為同一類別的連續(xù)窗口所包含的所有幀都被標(biāo)記為該類別.

      3.2 方法B

      太寬的動態(tài)姿勢會導(dǎo)致嘈雜的預(yù)測,尤其是在手勢的初始和最終階段.另一方面,短的動態(tài)姿勢是沒有區(qū)別的,因?yàn)橐恍┳藙蓊愑邢嗨频耐庥^.搜索不同的超參數(shù)組合可以改善某些預(yù)測,但會惡化其他預(yù)測.因此,本文引入了一種較為魯棒的方法,該方法應(yīng)用了3個滑動窗口,這與方法A使用的方法非常相似,但是通過對具有不同時(shí)間步長的描述符進(jìn)行采樣來創(chuàng)建動態(tài)姿態(tài).這種關(guān)聯(lián)產(chǎn)生了一個適應(yīng)多種時(shí)間尺度的模型.

      根據(jù)上面的描述,這種方法使用3個滑動窗口.第一個負(fù)責(zé)收集姿態(tài)描述符,所選幀之間的步長等于4,第二個使用步長3,最后一個應(yīng)用步長2.監(jiān)控每個滑動窗口的所有其他超參數(shù)與上面定義的那些保持一致.該模型包括3個神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,每個神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)與圖3中描述的相同.

      當(dāng)窗口在每個活動周期滑動時(shí),可以得到3組分?jǐn)?shù).它們與優(yōu)化權(quán)重相結(jié)合.然后,分類過程遵循上面定義的準(zhǔn)則.

      3.3 方法C

      本文實(shí)現(xiàn)的第三種方法采用的是基于具有雙向LSTM單元的RNN,該過程與上面所述的有所不同,因?yàn)楸疚膩G棄了來自分割部分的所有信息.在每個訓(xùn)練樣本上滑動一個10幀長的窗口,從窗口內(nèi)的所有幀中收集數(shù)據(jù).因此,對于每一次迭代,都得到一個矩陣,它的維數(shù)是幀數(shù)乘以特征數(shù).如果窗口內(nèi)的所有幀都屬于靜態(tài)的,迭代之間的步長等于5幀.否則,步長只有2幀.

      這里應(yīng)用的深層網(wǎng)絡(luò)包括了3個具有雙向LSTM單元的隱藏層、2個隨機(jī)丟失層和1個具有完全連接單元的密集層.第一和第二隱藏層各有1 024個單元,使用Leaky-ReLU激活功能,后面是隨機(jī)丟失層,其丟失輸入元素的概率為60%.第三個LSTM層有512個單元.全連接層由21個單位組成,即類別數(shù)(包括靜止類),使用Softmax作為激活函數(shù).該網(wǎng)絡(luò)使用隨機(jī)梯度下降動量(SGDM)優(yōu)化.學(xué)習(xí)率初始化為0.01,在每組10個迭代周期后,學(xué)習(xí)率下降0.85倍,直到最多150個迭代周期.此外,本文還使用批大小為128的數(shù)據(jù)樣本來加速收斂并防止模型過擬合.

      最后,從測試樣本中收集數(shù)據(jù)序列,每次迭代后的步長等于窗口的長度,這消除了序列之間的重疊.預(yù)測也是不穩(wěn)定的,它們需要平滑,就像對手勢分割所做的那樣.最后,本文只考慮當(dāng)手勢被有效地執(zhí)行至少15個連續(xù)的幀時(shí),賦予其相同的分類標(biāo)簽.

      4 實(shí)驗(yàn)

      4.1 ChaLearn Looking at People挑戰(zhàn)賽2014

      2014年,ChaLearn提出了一個多模態(tài)手勢識別競賽.該數(shù)據(jù)集包括近14 000個手勢,涵蓋了從意大利手語詞匯中提取的20個類別.它還包含多個詞匯之外的動作.這個數(shù)據(jù)集提供了三維視頻,以及骨骼關(guān)節(jié)數(shù)據(jù).此外,數(shù)據(jù)集被分為訓(xùn)練集、驗(yàn)證集和測試集.盡管驗(yàn)證和測試集的真值已經(jīng)發(fā)布,但它僅用于每個模型的評估.

      本文沿用了競賽主辦方提出的評估程序,使用Jaccard指數(shù)來量化模型的性能.因此,對于序列s中的第n個手勢,Jaccard指標(biāo)被定義為:

      (1)

      其中,As,n是序列s中手勢n的真實(shí)標(biāo)注,Bs.n是同一序列中此手勢的預(yù)測結(jié)果.As,n和Bs.n分別是一個二維向量,其中執(zhí)行給定手勢的幀被設(shè)置為1.整體性能計(jì)算為所有類別和所有序列的平均Jaccard指數(shù).

      4.2 手勢分割

      本文測試了分割模型的幾種網(wǎng)絡(luò)結(jié)構(gòu),即具有不同數(shù)量的隱藏層和這些層中不同單元數(shù)量的網(wǎng)絡(luò).實(shí)驗(yàn)結(jié)果表明,具有兩個隱藏層的網(wǎng)絡(luò)比具有單個隱藏層的網(wǎng)絡(luò)表現(xiàn)稍好.此外,實(shí)驗(yàn)結(jié)果還發(fā)現(xiàn)使用ReLU作為第一個隱藏層的激活函數(shù)和雙曲正切函數(shù)作為第二個隱藏層的激活函數(shù)時(shí),可以獲得最佳性能.第2.2節(jié)中敘述了詳細(xì)的策略,它在對每一幀的分類上取得了96.8%的準(zhǔn)確率.如圖5所示,這是可視化的一個分割結(jié)果的例子.其中,柱狀區(qū)域是真實(shí)的標(biāo)注,虛線是平滑后的分?jǐn)?shù),實(shí)線代表最終分割結(jié)果.

      當(dāng)用戶以清晰的時(shí)間間隔執(zhí)行手勢時(shí),分割模型可以良好運(yùn)行.然而,一些受試者執(zhí)行連續(xù)的手勢,而另一些受試者在整個樣本持續(xù)期間采用動態(tài)的姿勢.在這些情況下,分割是具有挑戰(zhàn)性的,模型只能檢測一個大的活動周期.這就是為什么本文在第3.1節(jié)中針對更長的活動周期描述了不同的分類過程.

      如前所述,數(shù)據(jù)集包括多個詞匯外的手勢.然而,分割模型可以檢測到用戶的任何顯著移動,即使是對于那些未知的手勢類別,如圖6的末尾部分所示.因此,未標(biāo)記的手勢是分類模型的任務(wù),分類模型必須足夠精確以預(yù)測那些序列不屬于詞匯.

      圖5 手勢分割結(jié)果示意圖Fig.5 Schematic diagram of gesture segmentation results圖6 未知手勢類別的分割結(jié)果示意圖Fig.6 Schematic diagram of segmentation results of unknown gesture categories

      4.3 手勢分類和機(jī)器人控制

      如表1所示,將所提方法與2014年挑戰(zhàn)賽前3名的提交方法進(jìn)行了比較.所有結(jié)果都是僅使用骨架數(shù)據(jù)獲得的.

      圖7 根據(jù)方法C得到的預(yù)測結(jié)果 計(jì)算的混淆矩陣示意圖Fig.7 Schematic diagram of confusion matrix calculated according to the prediction results obtained by method C

      本文手勢分類方法A從單個窗口構(gòu)建動態(tài)姿勢,獲得了0.692 8的Jaccard指數(shù).在方法B中,多個時(shí)間尺度的引入帶來了分?jǐn)?shù)的提高,分?jǐn)?shù)增加到0.704 7.實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),不同窗口的組合能夠適應(yīng)不同用戶的表現(xiàn)差異.此外,方法B中采用了獲得單個得分向量的權(quán)重,結(jié)果表明,動態(tài)姿勢的辨別能力取決于所選幀之間的步長,并且對于更寬的窗口,該權(quán)重最大.方法C總結(jié)的深度學(xué)習(xí)法達(dá)到了0.746 7的Jaccard指數(shù).如圖7所示,該混淆矩陣直觀顯示了方法C的性能.另一方面,手勢類別通常引起多種手勢混淆.從實(shí)驗(yàn)結(jié)果可以觀察到#14和#15類相互混淆.如圖8所示.導(dǎo)致這種錯誤標(biāo)注的原因(容易混淆的相似之處).此時(shí),骨架數(shù)據(jù)不足以區(qū)分它們.在左邊,用戶正在執(zhí)行手勢#14,在右邊是手勢#15.最后,右邊的列表示假陰性,假陰性是標(biāo)有某種手勢類別的幀,但被歸類為靜止類別,即有些手勢沒有被檢測到.另一方面,最后一行表示假陽性,假陽性是屬于靜止類的幀,但是預(yù)測出了手勢類別.這一結(jié)果的主要原因是有些詞匯外的手勢類別誤導(dǎo)了模型.

      圖8 導(dǎo)致錯誤標(biāo)注的可視化例子(手勢#14和#15)Fig.8 Visualization example leading to incorrect annotation (hand gesture #14 and #15)

      圖9 方法C在測試集上的預(yù)測結(jié)果與真實(shí)標(biāo)簽的對比Fig.9 Comparison between the predicted results of method C and the ground-truth on the test set

      如圖9所示,為樣本#703的真實(shí)標(biāo)簽和預(yù)測結(jié)果的對比.本文選擇這個樣本的原因主要是為了與Di Wu等人[6]的結(jié)果進(jìn)行直接的比較.如圖7的頂部圖像所示,該視頻包括10個標(biāo)記的手勢.正如在本文前面提到的,可以清楚地辨別由明確的時(shí)間間隔分隔的手勢,但是也存在不同手勢的連續(xù)實(shí)例.本文方法克服了這個問題,并正確地預(yù)測出所有的標(biāo)簽,以及準(zhǔn)確地定位每個手勢的起點(diǎn)和終點(diǎn).另一方面,該方法標(biāo)記出了一個超出詞匯范圍的手勢.甚至這種行為也代表了一個很好的結(jié)論,因?yàn)樵谶@個視頻中,用戶至少執(zhí)行了4個詞匯外手勢.實(shí)驗(yàn)結(jié)果表明,本文模型對這個樣本的預(yù)測比Di Wu等人[6]提出的要好得多.盡管有這個精確的預(yù)測,這個樣本只達(dá)到了0.867 2的Jaccard指數(shù),這也側(cè)面反映了這個指數(shù)的累贅性質(zhì).

      本文提出了一個用于工業(yè)機(jī)器人協(xié)同的人機(jī)交互界面,目標(biāo)是開發(fā)一個真實(shí)的交互過程來完成一項(xiàng)有用的任務(wù).在這里,本文的首要任務(wù)是捕捉和移動一個工具,它包括以下5個動作:1)機(jī)器人向工具周圍的移動;2)夾持器的閉合;3)工具的翻譯;4)夾具的打開;5)并返回到默認(rèn)位置.為此,本文訓(xùn)練了一個模型,之前使用的數(shù)據(jù)集中只包含了20個手勢中的5個.如圖10所示,為這個任務(wù)的可視化描述.因?yàn)橹恍枰獛讉€直觀的、容易學(xué)習(xí)的手勢.這種與協(xié)作機(jī)器人的聯(lián)系代表了一種突破,因?yàn)檫€沒有研究人員發(fā)布過這種類型的應(yīng)用.本文使用KUKA Sunrise工具箱(KST),這是一個MATLAB工具箱,來操作KUKA Sunrise系統(tǒng)控制器[20].

      圖10 人機(jī)交互的不同階段示意圖Fig.10 Schematic diagram of different stages of human-computer interaction

      5 結(jié)語

      本文提出了一個手勢檢測模型,它基于一系列手工特征的描述符.它可以區(qū)分靜止和活動區(qū)間,準(zhǔn)確率為96.8%.該方法報(bào)告了3種基于相同描述符的不同手勢分類方法.本文的方法C應(yīng)用具有雙向LSTM單元的RNN來同時(shí)執(zhí)行手勢的檢測和分類.這一策略實(shí)現(xiàn)了0.746 7的Jaccard指數(shù).最后,本文構(gòu)建了一個輕量版本的方法C,只包含了數(shù)據(jù)集內(nèi)20個手勢中的5個,本文將其用作機(jī)器人的命令.

      計(jì)算機(jī)視覺社區(qū)的一個重要部分是將其努力與深度學(xué)習(xí)方法相結(jié)合.因此,未來的一個工作方向?qū)⑹怯米詣訉W(xué)習(xí)的特征取代手工特征,本文正是應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)來自動完成這項(xiàng)任務(wù).此外,本文還試圖將輸入通道擴(kuò)展到RGB-D圖像,使每個手勢的表示更加魯棒.

      猜你喜歡
      描述符手勢步長
      基于結(jié)構(gòu)信息的異源遙感圖像局部特征描述符研究
      基于Armijo搜索步長的BFGS與DFP擬牛頓法的比較研究
      挑戰(zhàn)!神秘手勢
      V字手勢的由來
      Linux單線程并發(fā)服務(wù)器探索
      勝利的手勢
      利用CNN的無人機(jī)遙感影像特征描述符學(xué)習(xí)
      基于逐維改進(jìn)的自適應(yīng)步長布谷鳥搜索算法
      一種新型光伏系統(tǒng)MPPT變步長滯環(huán)比較P&O法
      電測與儀表(2014年2期)2014-04-04 09:04:00
      一種新穎的光伏自適應(yīng)變步長最大功率點(diǎn)跟蹤算法
      包头市| 新和县| 苏州市| 彭泽县| 南丰县| 招远市| 荆州市| 平塘县| 明星| 堆龙德庆县| 浦城县| 新野县| 南乐县| 镇沅| 阿拉善右旗| 凤翔县| 开远市| 石城县| 嘉峪关市| 平塘县| 井研县| 石柱| 石泉县| 福安市| 东乌珠穆沁旗| 左贡县| 昌图县| 江永县| 玉田县| 烟台市| 长子县| 涟源市| 大厂| 敦煌市| 陵川县| 枣庄市| 芷江| 东港市| 乐安县| 麦盖提县| 招远市|