• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于人機(jī)交互的端對(duì)端手勢(shì)識(shí)別控制框架的設(shè)計(jì)與實(shí)現(xiàn)

      2023-08-26 04:13:24霍英陳臺(tái)興孫錦森張嘉明林鴻森
      電腦知識(shí)與技術(shù) 2023年20期
      關(guān)鍵詞:手勢(shì)識(shí)別人機(jī)交互神經(jīng)網(wǎng)絡(luò)

      霍英 陳臺(tái)興 孫錦森 張嘉明 林鴻森

      關(guān)鍵詞:手勢(shì)識(shí)別;MediaPipe;神經(jīng)網(wǎng)絡(luò);人機(jī)交互

      中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A

      文章編號(hào):1009-3044(2023)20-0017-03

      0 引言

      手勢(shì)識(shí)別[1]和手部檢測(cè)具有廣泛的潛在應(yīng)用,涵蓋車內(nèi)手勢(shì)、手語(yǔ)識(shí)別、虛擬現(xiàn)實(shí)等領(lǐng)域。手勢(shì)技術(shù)使得用戶可以在不接觸設(shè)備的情況下實(shí)現(xiàn)控制或互動(dòng),因此越來越受到人們的關(guān)注和青睞。然而,互聯(lián)網(wǎng)上的手勢(shì)識(shí)別模型雖然眾多,但它們只適用于特定的手勢(shì)集,缺乏規(guī)范和架構(gòu)設(shè)計(jì),最終難以為用戶提供方便的使用和構(gòu)建體驗(yàn)。因此,文章提出了一種端對(duì)端、可擴(kuò)展的框架,允許用戶使用手勢(shì)實(shí)時(shí)控制計(jì)算機(jī)系統(tǒng),實(shí)現(xiàn)人機(jī)交互[2]。該框架在不同的硬件(CPU/GPU) 和操作系統(tǒng)上工作,并依靠一個(gè)中等分辨率的攝像頭來檢測(cè)手勢(shì)。該框架使用手勢(shì)技術(shù)代替鼠標(biāo)操作和鍵盤快捷鍵,讓用戶能夠通過手勢(shì)輕松控制桌面。此外,還提供了一個(gè)易于使用的配置,用戶可以重新映射手勢(shì)和動(dòng)作,添加新的自定義動(dòng)作和手勢(shì)。

      該框架設(shè)計(jì)了兩種手勢(shì)類型:靜態(tài)和動(dòng)態(tài)。靜態(tài)手勢(shì)指的是單一的手部姿勢(shì)就能夠提供足夠的信息來進(jìn)行分類的手勢(shì),例如“V字”手勢(shì)。而動(dòng)態(tài)手勢(shì)[3]則不能僅通過一個(gè)姿勢(shì)來檢測(cè),需要一連串的姿勢(shì)才能被理解和分類。例如,在移動(dòng)手的同時(shí)保持手型姿勢(shì)的手勢(shì)“( 向上滑動(dòng)”) ,或者是涉及連續(xù)改變手姿勢(shì)的手勢(shì)“( 捏”) 。通過將手部運(yùn)動(dòng)與連續(xù)的姿勢(shì)變化相結(jié)合,可以創(chuàng)造出大量的動(dòng)態(tài)手勢(shì)。

      該框架采用了模塊化設(shè)計(jì),將其分為若干邏輯組件,每個(gè)組件執(zhí)行特定任務(wù)。手勢(shì)接收器從圖像中獲取關(guān)鍵點(diǎn),將其傳遞給手勢(shì)識(shí)別器,后者使用神經(jīng)網(wǎng)絡(luò)對(duì)靜態(tài)和動(dòng)態(tài)手勢(shì)進(jìn)行分類。最后,手勢(shì)執(zhí)行器執(zhí)行分類結(jié)果的動(dòng)作。該框架的關(guān)鍵特點(diǎn)是,它具有高度的可定制性。除了內(nèi)置的鼠標(biāo)和鍵盤功能,用戶還可以將手勢(shì)映射到任何桌面操作上,包括Shell等腳本。這使得該系統(tǒng)的使用方式非常靈活。用戶可以將手勢(shì)用于啟動(dòng)應(yīng)用程序、設(shè)置環(huán)境等。此外,框架還提供了一種添加新手勢(shì)的方法,以滿足用戶不同的需求。

      1 準(zhǔn)備工作

      1.1 識(shí)別方法

      通過查閱資料,研究者發(fā)現(xiàn)了許多關(guān)于從靜態(tài)圖像或視頻中進(jìn)行手勢(shì)識(shí)別的文獻(xiàn)。這些解決方案通??梢苑譃橐韵聨最悾?) 通過相機(jī)或傳感器提供純RGB圖像與深度數(shù)據(jù)(RGB-D) ;2) 通過檢測(cè)手部關(guān)鍵點(diǎn)(手掌和手指關(guān)節(jié))作為中間步驟或直接從視頻中執(zhí)行端到端檢測(cè);3) 將檢測(cè)關(guān)鍵點(diǎn)作為最終目標(biāo),而不是手的三維重建[4];4) 手勢(shì)是預(yù)先分割的或必須實(shí)時(shí)分割的[5]。

      基于上述研究,研究者采用單目RGB視頻流,并將其輸入一個(gè)兩階段的神經(jīng)網(wǎng)絡(luò)架構(gòu)。在第一階段中,使用現(xiàn)成的MediaPipe[6]框架從單個(gè)視頻幀中檢測(cè)手部關(guān)鍵點(diǎn),并生成一個(gè)手部關(guān)鍵點(diǎn)序列。在第二階段中,使用自己的神經(jīng)網(wǎng)絡(luò)模型對(duì)這個(gè)關(guān)鍵點(diǎn)序列進(jìn)行靜態(tài)和動(dòng)態(tài)手勢(shì)的檢測(cè)。

      1.2 識(shí)別框架

      手勢(shì)識(shí)別在多種領(lǐng)域中有著廣泛應(yīng)用,例如虛擬界面控制、游戲、增強(qiáng)現(xiàn)實(shí)/虛擬現(xiàn)實(shí)環(huán)境交互、汽車人機(jī)界面、家庭自動(dòng)化、教育、零售商業(yè)環(huán)境以及消費(fèi)電子產(chǎn)品控制等。手勢(shì)的高表達(dá)性和直觀性使其成為這些應(yīng)用中非常有價(jià)值的交互方式。盡管手勢(shì)識(shí)別市場(chǎng)正在快速增長(zhǎng),但幾乎沒有任何端到端的開源手勢(shì)識(shí)別框架。GRT是一個(gè)例外,這是一個(gè)為實(shí)時(shí)手勢(shì)識(shí)別而設(shè)計(jì)的C++機(jī)器學(xué)習(xí)庫(kù),它提供了創(chuàng)建自定義識(shí)別器的構(gòu)建模塊。相比之下,研究者使用神經(jīng)網(wǎng)絡(luò)作為構(gòu)建模塊,并采用PyTorch[7]框架進(jìn)行模型開發(fā),可以進(jìn)一步提高手勢(shì)識(shí)別的準(zhǔn)確性和效率。

      2 架構(gòu)設(shè)計(jì)

      研究者利用開源框架MediaPipe來檢測(cè)攝像頭捕捉的圖像中的手部關(guān)鍵點(diǎn)。MediaPipe模塊從攝像頭讀取數(shù)據(jù),進(jìn)行處理并生成關(guān)鍵點(diǎn),接著通過ZeroMQ (一種消息傳遞隊(duì)列)將其傳輸給手勢(shì)接收器。手勢(shì)接收器接收關(guān)鍵點(diǎn)后將其傳輸給手勢(shì)識(shí)別器,后者對(duì)其進(jìn)行特征編碼,并送入神經(jīng)網(wǎng)絡(luò)進(jìn)行手勢(shì)檢測(cè)。最后,手勢(shì)接收器將檢測(cè)到的手勢(shì)發(fā)送到手勢(shì)執(zhí)行器,以執(zhí)行相應(yīng)的動(dòng)作。

      2.1 MediaPipe

      一個(gè)跨平臺(tái)框架,提供各種機(jī)器學(xué)習(xí)解決方案。MediaPipe中的手部跟蹤器[8]是一個(gè)高保真的解決方案,可以從單一圖像中推斷出手部的21個(gè)三維坐標(biāo),跟蹤平滑,能夠應(yīng)對(duì)自我封閉的情況,也就是手覆蓋自身。在使用其手部跟蹤功能時(shí),它能夠跟蹤用戶的手掌并生成手部坐標(biāo)或關(guān)鍵點(diǎn)。

      2.2 手勢(shì)接收器

      手勢(shì)接收器充當(dāng)其他模塊的控制器。它能夠從MediaPipe模塊接收到關(guān)鍵點(diǎn),并將其傳遞給手勢(shì)識(shí)別器和鼠標(biāo)跟蹤器進(jìn)行處理。隨后,它將處理后的輸出(即手勢(shì)名稱)傳遞給手勢(shì)執(zhí)行器,以執(zhí)行相應(yīng)的操作。

      2.3 手勢(shì)識(shí)別器

      手勢(shì)識(shí)別器是一個(gè)核心模塊,用于對(duì)給定的關(guān)鍵點(diǎn)進(jìn)行手勢(shì)分類。為此,框架使用了兩個(gè)神經(jīng)網(wǎng)絡(luò),一個(gè)用于檢測(cè)靜態(tài)手勢(shì),另一個(gè)用于動(dòng)態(tài)手勢(shì)。這些神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和訓(xùn)練細(xì)節(jié)將在后續(xù)章節(jié)中詳細(xì)介紹。通過這些神經(jīng)網(wǎng)絡(luò)的處理,框架能夠?qū)κ謩?shì)進(jìn)行準(zhǔn)確的分類,并將分類結(jié)果傳遞給其他模塊以執(zhí)行相應(yīng)的操作。

      2.4 鼠標(biāo)追蹤器和手勢(shì)執(zhí)行器

      鼠標(biāo)追蹤器模塊能夠?qū)崟r(shí)追蹤用戶手指在屏幕上的移動(dòng),并將其映射到光標(biāo)的移動(dòng)。通常情況下,使用食指尖端作為追蹤鼠標(biāo)的關(guān)鍵點(diǎn)。隨著手指的移動(dòng),追蹤器可以將其在屏幕上的運(yùn)動(dòng)投影到光標(biāo)的移動(dòng)上。

      手勢(shì)執(zhí)行器模塊接收手勢(shì)識(shí)別器所識(shí)別的手勢(shì)名稱作為輸入,并根據(jù)預(yù)定義的手勢(shì)動(dòng)作映射表執(zhí)行相應(yīng)的操作??蚣茴A(yù)先定義了一小部分手勢(shì)及其對(duì)應(yīng)的動(dòng)作,以涵蓋常見的使用情況。

      3 手勢(shì)識(shí)別器

      手勢(shì)識(shí)別器的輸入是由MediaPipe生成的21個(gè)三維關(guān)鍵點(diǎn),每個(gè)關(guān)鍵點(diǎn)對(duì)應(yīng)于手上的一個(gè)位置。每個(gè)關(guān)鍵點(diǎn)由三個(gè)坐標(biāo)組成,分別表示該點(diǎn)在三個(gè)維度上的位置(x,y,z )(x,y,z )。因此,手勢(shì)識(shí)別器的輸入向量是一個(gè)長(zhǎng)度為63的向量。這些輸入向量經(jīng)過預(yù)處理,被轉(zhuǎn)換為神經(jīng)網(wǎng)絡(luò)期望的特征,以便進(jìn)行手勢(shì)分類。具體如下所述:

      3.1 靜態(tài)手勢(shì)

      3.1.1 特征提取

      由MediaPipe生成的21個(gè)關(guān)鍵點(diǎn)被轉(zhuǎn)換為神經(jīng)網(wǎng)絡(luò)所需的向量。該向量是通過計(jì)算相對(duì)手部向量得出的,即輸入關(guān)鍵點(diǎn)之間的向量差。這些相對(duì)向量以一種位置不變的方式編碼手的姿勢(shì)信息,也就是說,無論手在網(wǎng)絡(luò)攝像頭的視野中處于什么位置,都能檢測(cè)到相同的手勢(shì)。以第一個(gè)相對(duì)手部向量(從手掌底部到拇指的第一個(gè)關(guān)節(jié))為例,可以通過以下方式計(jì)算得出:

      其中,V0V0和V1V1代表圖2中標(biāo)有0和1的點(diǎn)的三維坐標(biāo),V01V01代表它們之間的相對(duì)向量。通過計(jì)算一共有16個(gè)相對(duì)的手部向量(拇指4個(gè),其他手指3 個(gè)),每個(gè)手部向量由(x,y,z )(x,y,z ) 坐標(biāo)組成,總共有48個(gè)坐標(biāo)。最后,添加上標(biāo)志手,即執(zhí)行手勢(shì)的手,這個(gè)49-D向量被送入神經(jīng)網(wǎng)絡(luò)。

      3.1.2 數(shù)據(jù)集

      在進(jìn)行網(wǎng)絡(luò)訓(xùn)練時(shí),研究者收集了自己的數(shù)據(jù),并創(chuàng)建了一個(gè)小型的數(shù)據(jù)集。研究者采用了以下方法收集這些數(shù)據(jù):首先指定手勢(shì)的名稱,然后執(zhí)行Me? diaPipe 框架并捕獲關(guān)鍵點(diǎn)。這些關(guān)鍵點(diǎn)被記錄在CSV文件中,并與相應(yīng)的手勢(shì)名稱一起使用。對(duì)于每個(gè)手勢(shì),收集了約2 000個(gè)樣本。雖然實(shí)現(xiàn)靜態(tài)手勢(shì)相對(duì)簡(jiǎn)單,但手只能做出有限的姿勢(shì),具有一定的局限性。因此需要收集動(dòng)態(tài)手勢(shì)的數(shù)據(jù)以提高模型的泛化能力。

      3.2 動(dòng)態(tài)手勢(shì)

      3.2.1 特征提取

      為了提取特征向量,將輸入序列中的每一幀轉(zhuǎn)換為一個(gè)向量,該向量由以下內(nèi)容組成:手掌底部的絕對(duì)坐標(biāo),即V0xV0x和V01yV0y。這是因?yàn)橐恍┦謩?shì),如“向上刷”“向右刷”,涉及手的移動(dòng);手掌底部的時(shí)間坐標(biāo)。這包括該坐標(biāo)相對(duì)于上一個(gè)時(shí)間段的位置變化,從而獲取手勢(shì)方向信息;相對(duì)手部向量的坐標(biāo)。與靜態(tài)情況類似,這些坐標(biāo)用于捕捉手的姿勢(shì)。

      3.2.2 數(shù)據(jù)集

      為了訓(xùn)練動(dòng)態(tài)手勢(shì)識(shí)別模型,使用SHREC[9]數(shù)據(jù)集。這個(gè)數(shù)據(jù)集包含2 800個(gè)序列,包括14種手勢(shì),如“向上滑動(dòng)”“點(diǎn)擊”等常見手勢(shì),以及“滑動(dòng)+”等更復(fù)雜的手勢(shì)。這些序列是可變長(zhǎng)度的,由多人以兩種方式進(jìn)行采集:使用整個(gè)手掌或只使用手指。為了收集更多數(shù)據(jù),框架還提供一個(gè)腳本,用于記錄動(dòng)態(tài)手勢(shì)的數(shù)據(jù)。

      4 模型訓(xùn)練和結(jié)果分析

      通過PyTorch-Lightning 框架來建立神經(jīng)網(wǎng)絡(luò)分類器。PyTorch-Lightning是一種開源深度學(xué)習(xí)框架,它提供了模塊化的模型開發(fā)工具,讓用戶能夠快速地構(gòu)建神經(jīng)網(wǎng)絡(luò)。該框架提供了訓(xùn)練、驗(yàn)證和測(cè)試等功能,同時(shí)也支持分布式訓(xùn)練。其優(yōu)點(diǎn)是可擴(kuò)展性強(qiáng)、易于使用、性能良好等。使用該框架能夠顯著減少代碼量,并加快開發(fā)速度。

      4.1 靜態(tài)手勢(shì)

      為了檢測(cè)靜態(tài)手勢(shì),使用一個(gè)具有兩個(gè)線性層的前饋神經(jīng)網(wǎng)絡(luò)分類器,該分類器接收特征向量并將其歸類為可用的手勢(shì)之一。該網(wǎng)絡(luò)經(jīng)歷了大約50次迭代,訓(xùn)練后的混淆矩陣如圖3所示。雖然無法記錄所有可能的靜態(tài)手勢(shì),但考慮到后續(xù)用戶的擴(kuò)展性,研究者采用了一些處理方法以解決數(shù)據(jù)不平衡的問題。除了相關(guān)的手勢(shì)集,還引入了一個(gè)“空”手勢(shì),如果沒有檢測(cè)到相關(guān)的手勢(shì),就會(huì)選擇這個(gè)手勢(shì)。為了訓(xùn)練分類器,收集了各種不相關(guān)的靜態(tài)手勢(shì),并將它們標(biāo)記為空。盡管這提高了分類器的性能,但仍然出現(xiàn)許多假陽(yáng)性的情況。為了解決這個(gè)問題,通過對(duì)“空”手勢(shì)的得分進(jìn)行縮放,手動(dòng)校準(zhǔn)分類器的softmax輸出。

      4.1.1 實(shí)驗(yàn)結(jié)果

      這些優(yōu)化使靜態(tài)分類器能夠在多個(gè)用戶和不同的照明條件下達(dá)到很高的檢測(cè)精度,并取得了驗(yàn)證準(zhǔn)確率為98.52%的良好性能。此外,研究者還對(duì)響應(yīng)時(shí)間進(jìn)行了檢測(cè),發(fā)現(xiàn)沒有明顯的延遲。

      4.2 動(dòng)態(tài)手勢(shì)

      為了更準(zhǔn)確地檢測(cè)動(dòng)態(tài)手勢(shì),采用由線性層組成的遞歸神經(jīng)網(wǎng)絡(luò),與雙向GRU相連,對(duì)傳入的特征進(jìn)行編碼。在檢測(cè)動(dòng)態(tài)手勢(shì)時(shí),關(guān)鍵問題在于準(zhǔn)確計(jì)算手勢(shì)的起始和結(jié)束時(shí)間。為了避免這個(gè)問題,研究者使用信號(hào)鍵來表示手勢(shì)的起始和結(jié)束,并將鍵盤中的“Ctrl”鍵用作信號(hào)鍵。這種方法能夠處理不同長(zhǎng)度的手勢(shì),并減少錯(cuò)誤分類的數(shù)量。除了SHREC提供的手勢(shì)外,研究者還使用這種方法增加了一個(gè)名為“圓圈”的手勢(shì)。盡管“圓圈”是一個(gè)復(fù)雜的手勢(shì),但網(wǎng)絡(luò)在測(cè)試期間能夠準(zhǔn)確檢測(cè)出該手勢(shì),這表明網(wǎng)絡(luò)也能成功地應(yīng)用于其他手勢(shì)。

      4.2.1 實(shí)驗(yàn)結(jié)果

      研究者使用混淆矩陣對(duì)各種手勢(shì)進(jìn)行了分類和評(píng)估,結(jié)果如圖4所示。圖4表明,動(dòng)態(tài)手勢(shì)的性能比靜態(tài)手勢(shì)低,平均準(zhǔn)確率約為85%。這是因?yàn)閯?dòng)態(tài)手勢(shì)涉及兩個(gè)因素:手的姿勢(shì)和手隨時(shí)間的位移。從混淆矩陣中可以看出,那些涉及手部位移的手勢(shì)(如“滑動(dòng)”) 被準(zhǔn)確地檢測(cè)出來,而那些涉及手指方向變化的手勢(shì)(如“點(diǎn)擊”) 則相對(duì)較難。

      在多次測(cè)試中,出現(xiàn)領(lǐng)域不匹配的問題。具體來說,研究者使用了由RGB相機(jī)捕獲的數(shù)據(jù)流進(jìn)行測(cè)試,而SHREC數(shù)據(jù)集是由英特爾RealSense深度相機(jī)記錄的。由于這種領(lǐng)域不匹配,框架在測(cè)試過程中失去了一定的準(zhǔn)確性。為了解決這個(gè)問題,研究者計(jì)劃改進(jìn)特征計(jì)算方法,并使用更大、更具代表性的數(shù)據(jù)集進(jìn)行訓(xùn)練。通過這種方式,可以提高模型的準(zhǔn)確性和可靠性,以更好地適應(yīng)各種不同的環(huán)境。

      5 結(jié)論

      文章提出了一個(gè)基于人機(jī)交互的端對(duì)端手勢(shì)識(shí)別控制框架,其可以通過用戶的偏好進(jìn)行定制。除了提供一個(gè)全功能的鍵鼠替代品外,框架還支持自定義手勢(shì)和動(dòng)作的添加,以便用戶在不同的環(huán)境下使用。未來,研究者的目標(biāo)是通過提高檢測(cè)精度進(jìn)一步改進(jìn)這個(gè)框架,使得增量訓(xùn)練新手勢(shì)更加有效,并進(jìn)行用戶研究以評(píng)估框架的可用性。

      猜你喜歡
      手勢(shì)識(shí)別人機(jī)交互神經(jīng)網(wǎng)絡(luò)
      神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
      電子制作(2019年19期)2019-11-23 08:42:00
      基于手勢(shì)識(shí)別的工業(yè)機(jī)器人操作控制方法
      基于紅外的非接觸式手勢(shì)識(shí)別系統(tǒng)設(shè)計(jì)
      基于嵌入式的智能手表設(shè)計(jì)
      某型柴油機(jī)虛擬維修系統(tǒng)研究
      人機(jī)交互課程創(chuàng)新實(shí)驗(yàn)
      復(fù)雜背景下的手勢(shì)識(shí)別方法
      人形交互式服務(wù)機(jī)器人研究現(xiàn)狀及發(fā)展趨勢(shì)
      一種靜態(tài)手勢(shì)數(shù)字識(shí)別的實(shí)現(xiàn)及應(yīng)用
      基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
      中宁县| 阜新市| 连山| 灵川县| 仁布县| 吉木萨尔县| 万宁市| 冕宁县| 历史| 河间市| 莲花县| 江阴市| 通城县| 安顺市| 渝北区| 遵义县| 白水县| 南郑县| 尉犁县| 玉龙| 易门县| 资源县| 蒙阴县| 海林市| 哈尔滨市| 广饶县| 东阳市| 汾阳市| 和顺县| 阿勒泰市| 九龙县| 宣城市| 北川| 双牌县| 苍南县| 永靖县| 龙海市| 安康市| 宁安市| 瑞昌市| 昭觉县|