• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于手部姿態(tài)識(shí)別的MIDI體感交互系統(tǒng)設(shè)計(jì)

      2023-12-10 19:29:18周祺張帥
      關(guān)鍵詞:手勢(shì)識(shí)別樹莓派

      周祺 張帥

      [收稿日期]2022-0119

      [第一作者]周祺(1990-),湖北武漢人,湖北工業(yè)大學(xué)教授,研究方向?yàn)楫a(chǎn)品創(chuàng)新設(shè)計(jì)

      [通信作者]張帥(1996-),河北唐山人,湖北工業(yè)大學(xué)碩士研究生,研究方向?yàn)轶w感交互設(shè)計(jì)

      [文章編號(hào)]1003-4684(2023)02-0027-06

      [摘要]為擺脫MIDI音樂設(shè)備在交互方式上的限制,同時(shí)針對(duì)目前體感交互系統(tǒng)便攜性差、價(jià)格昂貴等問題,將邊緣計(jì)算設(shè)備與輕量級(jí)網(wǎng)絡(luò)結(jié)合,提出了一種基于手部姿態(tài)識(shí)別的音樂體感交互系統(tǒng)。系統(tǒng)上位機(jī)依托于樹莓派 4b,通過單目攝像頭獲取數(shù)據(jù)進(jìn)而識(shí)別手部關(guān)鍵點(diǎn),調(diào)用舵機(jī)追蹤目標(biāo),并通過nRF24L01通信模塊將動(dòng)作指令發(fā)送給下位機(jī),從而實(shí)現(xiàn)中遠(yuǎn)距離控制音樂演奏。通過在輕量級(jí)網(wǎng)絡(luò)ShuffleNet v2中嵌入SENet通道注意力機(jī)制并進(jìn)行網(wǎng)絡(luò)瘦身操作,系統(tǒng)可在200 ms內(nèi)完成體感控制任務(wù),能滿足用戶手勢(shì)控制、設(shè)備協(xié)同等需求。

      [關(guān)鍵詞]MIDI; 樹莓派; 手勢(shì)識(shí)別; ShuffleNet v2; 體感交互

      [中圖分類號(hào)]TP 271? [文獻(xiàn)標(biāo)識(shí)碼]A

      人機(jī)交互領(lǐng)域如今把交互行為的相關(guān)問題作為評(píng)價(jià)設(shè)計(jì)資源、情感性、體驗(yàn)感受和美學(xué)的重要指標(biāo)[1]。交互系統(tǒng)設(shè)計(jì)的靈感也越來越多地來自于以身體設(shè)計(jì)和空間設(shè)計(jì)為基礎(chǔ)的體感動(dòng)作,在姿態(tài)識(shí)別、手勢(shì)識(shí)別等技術(shù)應(yīng)用中尤其明顯。但相關(guān)系統(tǒng)在MIDI音樂控制這類日?;顒?dòng)中并未得到廣泛應(yīng)用,且多數(shù)應(yīng)用需要特定的輔助設(shè)備,如動(dòng)捕手套、深度攝像頭等。隨著深度神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺領(lǐng)域研究的深入,平面圖像的特征提取和手勢(shì)識(shí)別的能力越來越強(qiáng),使用廉價(jià)易用限制更少的單目攝像頭搭建體感交互系統(tǒng)逐漸成為可能。Juan C.Núez等[2]就提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)和LSTM循環(huán)網(wǎng)絡(luò)組合,采用兩階段培訓(xùn)策略的手部關(guān)鍵點(diǎn)識(shí)別方法。雖然處理關(guān)鍵點(diǎn)識(shí)別的模型發(fā)展很快,也越來越準(zhǔn)確,但也可以看到多數(shù)模型需要大量的計(jì)算和內(nèi)存資源,無(wú)法快速部署在樹莓派等邊緣計(jì)算設(shè)備上,無(wú)法滿足體感交互應(yīng)用的便攜性需求,限制了在小型設(shè)備上的應(yīng)用。

      對(duì)嵌入式設(shè)備的需求刺激了高效網(wǎng)絡(luò)結(jié)構(gòu)的發(fā)展,近年來出現(xiàn)了一系列輕量化卷積網(wǎng)絡(luò)模型。GoogleNet[3]通過引入初始空間模塊,以更低的計(jì)算成本更好地提取特征。MobileNets[4]中,Andrew等人使用深度可分離卷積策略,將標(biāo)準(zhǔn)卷積分解為深度卷積和點(diǎn)態(tài)卷積,有效地減少了計(jì)算負(fù)荷。其中,ShuffleNet v2[5]使用分組卷積模式,引入通道分割和通道混洗操作,在較小模型規(guī)模的同時(shí)仍具有較強(qiáng)的泛化性,可以用比傳統(tǒng)網(wǎng)絡(luò)更少的參數(shù)保持相似的精度。因此,本文根據(jù)改進(jìn)的ShuffleNet v2手部關(guān)鍵點(diǎn)回歸模型,搭建了一個(gè)用于控制MIDI音樂設(shè)備的體感交互系統(tǒng)。系統(tǒng)以樹莓派4b為搭載平臺(tái),加入二自由度舵機(jī)、無(wú)線通信等模塊,實(shí)現(xiàn)了交互識(shí)別、動(dòng)態(tài)跟蹤、遠(yuǎn)程控制等功能,讓MIDI設(shè)備控制更加直觀自然、方便高效,使得體感交互系統(tǒng)易便攜、低功耗、反應(yīng)迅速。

      1??? 基于改進(jìn)ShuffleNet v2實(shí)現(xiàn)輕量化手勢(shì)識(shí)別算法

      手部關(guān)鍵點(diǎn)檢測(cè),也稱為手部姿態(tài)識(shí)別,旨在定位手部關(guān)鍵區(qū)域,包括指尖、指關(guān)節(jié)等部位。為了在低成本的小型設(shè)備上完成體感交互的MIDI設(shè)備控制,以手部關(guān)鍵點(diǎn)檢測(cè)為目標(biāo),從兩個(gè)研究方向?qū)δP瓦M(jìn)行改進(jìn):第一個(gè)方向是優(yōu)化模型結(jié)構(gòu),強(qiáng)調(diào)圖像中最重要的特征信息;另一個(gè)方向傾向于壓縮模型,旨在以合理的精度損失減小模型。因此,本文以ShuffleNet v2為基礎(chǔ),增加SENet通道注意力機(jī)制從而提高精度,引入網(wǎng)絡(luò)瘦身來降低計(jì)算消耗,搭建了一種輕量高效的手部姿態(tài)識(shí)別模型。

      1.1??? ShuffleNet v2輕量級(jí)網(wǎng)絡(luò)

      ShuffleNet v2是曠世在2018 年提出的一種輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò),其設(shè)計(jì)遵循四個(gè)基本原則[5]:1)為了最小化內(nèi)存訪問成本,輸入通道的數(shù)量和輸出通道的數(shù)量應(yīng)該盡可能相等;2)為了降低內(nèi)存訪問成本,組卷積要盡可能小;3)為了提高網(wǎng)絡(luò)并行度,網(wǎng)絡(luò)結(jié)構(gòu)要盡可能簡(jiǎn)單;4)為了減少運(yùn)算消耗,激活等運(yùn)算的次數(shù)要盡可能少。

      為遵循其設(shè)計(jì)原則,ShuffleNet v2網(wǎng)絡(luò)采取了分組卷積的方式,在保證精度的情況下減少網(wǎng)絡(luò)參數(shù)量。網(wǎng)絡(luò)主要由兩個(gè)類型單元構(gòu)成:a類型單元(圖1a)和b類型單元(圖1b),分別對(duì)應(yīng)運(yùn)算中步長(zhǎng)為2和1的兩種情況。

      a類型單元為下采樣單元,兩個(gè)分支分別進(jìn)行步長(zhǎng)為2的3×3深度卷積(Depthwise convolution,DWConv)和1×1單元卷積操作。在卷積之后,兩個(gè)分支通過級(jí)聯(lián)操作(Concat) 進(jìn)行通道拼接合并,特征圖維度大小減半,輸出通道數(shù)加倍,最后進(jìn)行通道混洗操作(Channel Shuffle)進(jìn)行特征融合。

      b類型單元首先將輸入特征通道c平均拆分為兩個(gè)分支c-c′和c′,即進(jìn)行通道分割操作(Channel Split)。為減少碎片化程度,在左分支c-c′保持結(jié)構(gòu)不變直接同等映射,右邊分支c′則按順序進(jìn)行1×1單元卷積、3×3深度卷積和1×1單元卷積操作。通過級(jí)聯(lián)操作拼接合并后,單元通道數(shù)保持不變,最后也需進(jìn)行通道混洗操作。經(jīng)過通道分割操作后,每次卷積計(jì)算都是在部分特征通道上進(jìn)行的,計(jì)算量和參數(shù)相應(yīng)減少,網(wǎng)絡(luò)單元可以容納更多的特征通道,提高了網(wǎng)絡(luò)的準(zhǔn)確率。

      兩個(gè)單元后的通道混洗就是在不同的組之后交換一些通道,從而交換信息,解決了分組卷積導(dǎo)致的信息丟失問題,使得各個(gè)組的信息更豐富,有利于提取到更多更好的特征(圖2)。通道混洗操作過程為:將輸入層分為 g 組,總通道數(shù)為 g × n ,首先將通道維度重塑為 (g,n),然后將這輸出特征轉(zhuǎn)置變成 (n,g),最后重塑為 g × n 進(jìn)行輸出。

      1.2??? SENet通道注意機(jī)制

      SENet(Squeeze-and-Excitation Networks)通道注意機(jī)制是由Hu等[6]在2018年提出的,其核心思想在于通過學(xué)習(xí)特征通道的權(quán)重,使得有效的特征權(quán)重增大,無(wú)效或效果小的特征權(quán)重減小,能夠達(dá)到更好的結(jié)果同時(shí)僅增加了可接受的少量計(jì)算代價(jià)。SENet單元結(jié)構(gòu)(圖3)主要有兩部分,分別稱為擠壓(Squeeze)和激勵(lì)(Excitation)。

      對(duì)于卷積操作Ftr:X→U,X∈H′×W′×C′,U∈H×W×C,設(shè)V=[v1,v2,…,vC]表示卷積核集,其中vC表示第C個(gè)卷積核的參數(shù);輸出特征圖有C個(gè)通道,即

      U=[u1,u2,…,uC]

      輸入特征圖有C′個(gè)通道,即

      X=[x1,x2,…,x′C]

      其中uC可表示為:

      uC=vC*X=∑C′s=1vsC*xs

      其中“*”意為卷積操作。

      Ftr可通過SENet單元如下操作來校準(zhǔn)特征:原始特征圖X首先進(jìn)行擠壓操作,通過全局池化(Global pooling)壓縮到1×1×C,將每個(gè)二維的特征通道變成一個(gè)特征標(biāo)識(shí)符,在這種情況下1×1 部分仍具有原始H×W 感應(yīng)野,并且將跨空間維度H×W的特征映射聚合了起來。全局池化操作生成的通道向量z∈C是由X的空間維度H×W通過收縮生成,其中z的第c個(gè)元素計(jì)算方法見式(1)。

      zC=Fsq(uC)=1H×W∑Hi=1∑Wj=1uC(i,j)(1)

      接下來進(jìn)行激勵(lì)操作,充分捕獲通道依賴性,學(xué)習(xí)每個(gè)通道樣本的特定激活,控制通道激活。激勵(lì)層將擠壓結(jié)果交由兩個(gè)全連接層(FC)預(yù)測(cè),對(duì)特征映射進(jìn)行重新加權(quán),通過Sigmoid函數(shù)的門機(jī)制把權(quán)值歸一化,公式如下:

      s=Fex(z,W)=σ(g(z,W))=σ(W2δ(W1z))(2)

      式中,δ為ReLU函數(shù),W1∈Cr×C和W2∈C×Cr表示兩個(gè)全連接層生成的權(quán)重值,通過在非線性周圍形成一個(gè)具有兩個(gè)全連接層的瓶頸來參數(shù)化門控機(jī)制:W1中進(jìn)行維度縮減,將z的維度從C縮減為C/r,縮減后進(jìn)入ReLU激活,之后在W2中將維度再增擴(kuò)回C。

      單元最終輸入通過對(duì)參數(shù)的重新縮放轉(zhuǎn)換獲得,表示如下:

      C=Fscale(uC,sC)=sC·uC

      其中C=[1,2,…,C]和Fscale(uC,sC)指的是特征圖中的uC與激勵(lì)操作產(chǎn)生的sC之間的通道相乘。

      1.3??? 輕量級(jí)關(guān)鍵點(diǎn)識(shí)別網(wǎng)絡(luò)

      手部關(guān)鍵點(diǎn)檢測(cè)就是定位手部的關(guān)鍵點(diǎn)坐標(biāo)序列,其中手部定位點(diǎn)序列(圖4)包括指尖,各節(jié)指骨連接處等21處關(guān)鍵點(diǎn)。以手部21處關(guān)鍵點(diǎn)序列為依據(jù),由Large-scale Multiview 3D Hand Pose數(shù)據(jù)集和網(wǎng)絡(luò)抓取的共11200張圖片制作了訓(xùn)練圖集。

      訓(xùn)練中,為更好地模擬實(shí)際應(yīng)用中的情況,在[-30, 30]度之間隨機(jī)旋轉(zhuǎn)訓(xùn)練圖像,將隨機(jī)平移應(yīng)用于邊界框15%內(nèi)進(jìn)行了中心擾動(dòng)并進(jìn)行了隨機(jī)翻轉(zhuǎn)。將大小為256×256的圖像及關(guān)鍵點(diǎn)坐標(biāo)輸入調(diào)參后的ShuffleNet v2網(wǎng)絡(luò)模型后,直接返回手部21個(gè)關(guān)鍵點(diǎn)坐標(biāo),調(diào)參后的網(wǎng)絡(luò)結(jié)構(gòu)見表1。

      為了在保證模型準(zhǔn)確性的同時(shí)降低模型復(fù)雜度,提高泛化能力,在Shufflenet v2網(wǎng)絡(luò)b類型單元右側(cè)的最后一個(gè)單元卷積層之后添加SENet層,更改后的模塊結(jié)構(gòu)見圖5。ShuffleNet v2網(wǎng)絡(luò)結(jié)構(gòu)加入的SENet單元,對(duì)提取的深度特征圖進(jìn)行重新校準(zhǔn),能夠添加更豐富和更高級(jí)別的信息源,從而更好地引導(dǎo)模型的深度學(xué)習(xí)過程。

      1.4??? 模型剪枝與重構(gòu)

      雖然使用ShuffleNet v2構(gòu)建的模型比較精巧,但仍然考慮進(jìn)一步壓縮模型以實(shí)現(xiàn)更快的推理速度,因此有必要對(duì)模型進(jìn)行剪枝操作(圖6)。剪枝是一種常見的模型壓縮方法,使用剪枝去除不重要的通道,可以減少神經(jīng)網(wǎng)絡(luò)的計(jì)算和內(nèi)存需求[7]。

      本文選用的網(wǎng)絡(luò)瘦身操作是一種通道級(jí)剪枝方案,其基本思想是聯(lián)合訓(xùn)練權(quán)重和引入的比例因子γ衡量每個(gè)通道的重要性[8]。網(wǎng)絡(luò)瘦身根據(jù)BN(Batch Normalization)層中的比例因子γ來衡量通道的重要性,可以指導(dǎo)模型在訓(xùn)練過程中將不重要的通道剪除,即γ較小時(shí)對(duì)應(yīng)的通道。具體的網(wǎng)絡(luò)瘦身流程為:首先在原始模型的BN層中加入比例因子γ,將模型訓(xùn)練后通過系數(shù)γ的L1正則化約束項(xiàng)來誘導(dǎo)BN層稀疏。然后通過比例因子γ的權(quán)重衡量通道的權(quán)重,找到可以丟棄的通道。最終訓(xùn)練修剪后的模型并將準(zhǔn)確性恢復(fù),構(gòu)建更小的模型來移植參數(shù)。

      網(wǎng)絡(luò)瘦身方法的目標(biāo)函數(shù)定義為:

      Lslimming=∑(i,t)l(f(i,W),t)+λ∑γ∈Γg(γ)(3)

      公式(3)為調(diào)整后的模型損失函數(shù),(i,t) 為訓(xùn)練輸入和目標(biāo),W為網(wǎng)絡(luò)中的可訓(xùn)練參數(shù),即∑(i,t)l(f(i,W),t)為原始模型的訓(xùn)練損失函數(shù),后半部分為用于約束的比例因子γ,g(.)是比例因子上的懲罰項(xiàng),λ是兩者的平衡因子,g(.) 使用L1正則化,即g(s)=s。L1的正則化使得BN層的比例因子趨近于零,能夠識(shí)別不重要的通道,有助于后續(xù)的通道剪枝,甚至可能提了泛化精度。

      訓(xùn)練時(shí),根據(jù)ShuffleNet v2的結(jié)構(gòu)特點(diǎn),僅針對(duì)步長(zhǎng)為1的ShuffleNet v2單元右分支進(jìn)行網(wǎng)絡(luò)瘦身操作,修剪了50%的通道。重構(gòu)的小網(wǎng)絡(luò)經(jīng)過微調(diào)步驟移植模型參數(shù),最終模型大小從原始模型的5.4 MB降至3.9 MB,用于衡量模型復(fù)雜度的浮點(diǎn)運(yùn)算次數(shù)(Floating point of operations,F(xiàn)LOPs)從2.36×107降至1.77×107,參數(shù)量減少25%。當(dāng)手部關(guān)鍵點(diǎn)訓(xùn)練集在經(jīng)過修剪后的關(guān)鍵點(diǎn)檢測(cè)模型上將實(shí)現(xiàn)較好的識(shí)別準(zhǔn)確度,即經(jīng)損失函數(shù)計(jì)算所得準(zhǔn)確率大于90%后,將其部署至樹莓派設(shè)備上。

      2??? 體感交互系統(tǒng)設(shè)計(jì)

      用于MIDI設(shè)備控制的體感交互系統(tǒng)由樹莓派、攝像頭、二自由度云臺(tái)、Arduino、紅外傳感模塊、nRF24L01通信模塊和5針DIN插座組成。系統(tǒng)分為兩個(gè)部分,以樹莓派4b作為數(shù)據(jù)處理端,Arduino uno作為數(shù)據(jù)接收端。樹莓派作為上位機(jī),通過攝像頭獲取的圖像計(jì)算分析關(guān)鍵點(diǎn)位置,控制二自由度云臺(tái)追蹤手部,并將手部姿態(tài)信息通過通信模塊傳遞給下位機(jī)Arduino uno,從而實(shí)現(xiàn)對(duì)MIDI設(shè)備的體感控制,模塊框圖見圖7。

      2.1??? 舵機(jī)追蹤模塊

      為了讓用戶在交互時(shí)手掌處于攝像頭中心位置,使用二自由度云臺(tái)對(duì)手部中點(diǎn)進(jìn)行追蹤。為實(shí)現(xiàn)舵機(jī)角度的平滑調(diào)整,采取了PID 控制,即比例(proportional)-微分(integral)-積分(derivative)控制修正系統(tǒng)偏差。追蹤控制以離散形式實(shí)現(xiàn),需要采用后向歐拉方法對(duì)控制器方程進(jìn)行數(shù)值積分[9],計(jì)算公式為:

      u(k)=KPe(k)+KI∑i=0e(i)+KD[e(k)-e(k-1)]

      其中KP、KI和KD分別是比例系數(shù)、積分系數(shù)和微分系數(shù)。

      根據(jù)手部識(shí)別模型返回手部21個(gè)關(guān)鍵點(diǎn)的坐標(biāo)集,可得手部中心坐標(biāo)為(xh,yh) ,圖像中心點(diǎn)坐標(biāo)為(xc,yc),則第i張圖片圖像中心點(diǎn)與手部中心點(diǎn)縱向和橫向偏差分別為:

      Δxi=xh-xc, Δyi=yh-yc

      橫向舵機(jī)方位角有效范圍為0~180°,縱向舵機(jī)方位角有效范圍為0~90°,因此追蹤模塊中最終所用的舵機(jī)移動(dòng)角度計(jì)算公式為:

      ax=KPΔxi+KD(Δxi-Δxi-1),

      ay=(KPΔyi+KD(Δyi-Δyi-1))/2

      舵機(jī)的控制部分需要使用PWM(脈沖寬度調(diào)制技術(shù)),利用占空比來控制脈沖信號(hào)的輸出大小,靠脈沖信號(hào)的持續(xù)時(shí)間來定位舵機(jī)輸出軸的旋轉(zhuǎn)角度。系統(tǒng)選用舵機(jī)的PWM頻率為50 Hz,轉(zhuǎn)動(dòng)范圍為0~180 °,對(duì)應(yīng)的PWM周期T為20 ms,其脈沖長(zhǎng)度t、占空比D和轉(zhuǎn)動(dòng)角度之間的對(duì)應(yīng)關(guān)系如圖8所示。

      為防止舵機(jī)追蹤抖動(dòng)造成鏡頭不穩(wěn),模塊中設(shè)置一個(gè)24×24的死區(qū),并使用多線程進(jìn)行橫滾軸和俯仰軸的PID角度修正運(yùn)算,從而達(dá)到及時(shí)穩(wěn)定的手部跟隨效果。系統(tǒng)檢測(cè)到交互區(qū)域內(nèi)有紅外信號(hào)時(shí)初始化舵機(jī)和攝像頭,舵機(jī)轉(zhuǎn)至初始位置;在時(shí)限內(nèi)監(jiān)測(cè)區(qū)域未識(shí)別到目標(biāo)手勢(shì)信息時(shí),舵機(jī)回歸初始位置并在待機(jī)時(shí)間結(jié)束后釋放相關(guān)端口以節(jié)約算力,控制流程見圖9。

      2.2??? 無(wú)線通信與控制模塊

      上位機(jī)通過nRF24L01單片射頻收發(fā)芯片將識(shí)別到的動(dòng)作信息傳遞給同樣配備nRF24L01通信模塊的下位機(jī),實(shí)現(xiàn)中遠(yuǎn)距離的無(wú)線通信。對(duì)nRF24L01通信模塊的地址、通信頻道等在收發(fā)端進(jìn)行配置,實(shí)現(xiàn)多機(jī)的數(shù)據(jù)傳輸,可以組建星狀控制網(wǎng)絡(luò),方便用戶同時(shí)控制多個(gè)MIDI設(shè)備。

      控制端主要完成以下流程(圖10):1)接受手部姿態(tài)信號(hào);2)識(shí)別姿態(tài)編號(hào)并轉(zhuǎn)換為MIDI消息;3)通過5針DIN插座輸出信號(hào)控制MIDI設(shè)備。

      5針DIN接線傳遞的MIDI控制消息由十六進(jìn)制符號(hào)表示,由控制器號(hào)和數(shù)據(jù)字節(jié)共同組成??刂破魈?hào)大于128,間于0x80到0xFF(十六進(jìn)制);數(shù)據(jù)字節(jié)小于127,間于0x00到0x7F(十六進(jìn)制),控制端組合發(fā)送給MIDI設(shè)備后可實(shí)現(xiàn)音量更改或音高變化等功能[10]。

      3??? 實(shí)驗(yàn)測(cè)試與結(jié)果分析

      進(jìn)行系統(tǒng)測(cè)試時(shí),數(shù)據(jù)處理端樹莓派4b運(yùn)行姿態(tài)識(shí)別模型及傳達(dá)指令,攝像頭Camera V2實(shí)時(shí)采集用戶圖像信息。Thonny Python作為開發(fā)環(huán)境運(yùn)行手勢(shì)識(shí)別模型文件,在識(shí)別出手部關(guān)鍵坐標(biāo)后,通過計(jì)算其二維角度關(guān)系識(shí)別手勢(shì)。Arduino uno作為控制端,通過USB-MIDI接線與PC 機(jī)相連,使用MIDI-OX程序監(jiān)控傳入的MIDI數(shù)據(jù),測(cè)試對(duì)應(yīng)MIDI音色的演奏情況(圖11)。

      在測(cè)試時(shí),共定義了10種手部控制姿勢(shì),包含4個(gè)簡(jiǎn)單方向手勢(shì)(SG),4個(gè)簡(jiǎn)單手指手勢(shì)(FG)和2個(gè)精細(xì)復(fù)雜手勢(shì)(CG)(圖12),分別對(duì)應(yīng)不同的MIDI信號(hào)。每個(gè)動(dòng)作分別在ShuffleNet V2網(wǎng)絡(luò)在網(wǎng)絡(luò)瘦身前后的模型上進(jìn)行測(cè)試,獲取得到識(shí)別準(zhǔn)確率、幀率及響應(yīng)時(shí)間(表2)。

      手勢(shì)交互實(shí)測(cè)中,識(shí)別準(zhǔn)確率在原模型上的平均準(zhǔn)確率為81.4%,網(wǎng)絡(luò)瘦身后模型的平均準(zhǔn)確率79.5%。與原模型相比,其準(zhǔn)確率只下降了1.9%,在簡(jiǎn)單方向手勢(shì)上其相差僅為0.8%,手勢(shì)識(shí)別的準(zhǔn)確率在前后并未大幅下降。在響應(yīng)時(shí)間上,原模型和剪枝模型都實(shí)現(xiàn) 8 幀/s以上的運(yùn)算幀率,并且剪枝后的模型速度提高了14.3%,對(duì)比原模型能更及時(shí)地完成信息反饋,有利于用戶實(shí)時(shí)控制MIDI設(shè)備的演奏??傮w來說,修建后的模型,在基本不影響準(zhǔn)確性的情況下,其響應(yīng)速度和模型大小都優(yōu)于原模型,能夠及時(shí)完成MIDI音樂的體感交互操作。

      4??? 結(jié)論

      改進(jìn)的ShuffleNet v2模型實(shí)現(xiàn)了對(duì)更小、更快的追求,基本能夠同步完成MIDI設(shè)備的體感交互任務(wù)。針對(duì)具有精度要求和時(shí)間敏感的體感交互應(yīng)用,本系統(tǒng)為在小型化設(shè)備上進(jìn)行關(guān)鍵點(diǎn)推理提供了一個(gè)解決方案。結(jié)合無(wú)線通訊技術(shù)和MIDI音樂標(biāo)準(zhǔn),實(shí)現(xiàn)了遠(yuǎn)程無(wú)接觸手勢(shì)控制數(shù)字音樂演奏的相關(guān)功能。系統(tǒng)如果更新關(guān)鍵點(diǎn)二維角度算法,還可增加及修改交互動(dòng)作,擴(kuò)展其手勢(shì)識(shí)別庫(kù)。研究結(jié)果為體感交互和關(guān)鍵點(diǎn)識(shí)別的實(shí)時(shí)連續(xù)識(shí)別和縱向擴(kuò)展開辟了一個(gè)有趣的實(shí)踐方向,為MIDI音樂創(chuàng)作者提供了多樣化的交互方式,且便于攜帶、成本不高、易于拓展。

      [參考文獻(xiàn)]

      [1]LUTHER L, TIBERIUS V, BREM A. User Experience (UX) in business, management, and psychology: A bibliometric mapping of the current state of research[J]. Multimodal Technologies and Interaction, 2020, 4(02): 18.

      [2]NUNEZ J C, CABIDO R, PANTRIGO J J, et al. Convolutional neural networks and long short-term memory for skeleton-based human activity and hand gesture recognition[J]. Pattern Recognition, 2018, 76: 80-94.

      [3]SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[C].∥Proceedings of the IEEE conference on computer vision and pattern recognition, 2015:1-9.

      [4]Howard A G, Zhu M, Chen B, et al. Mobilenets: Efficient convolutional neural networks for mobile vision applications[EB/OL]. (2017-04-17)[2021-12-30]. https://arxiv.53yu.com/abs/1704.04861.

      [5]MA N, ZHANG X, ZHENG H T, et al. Shufflenet v2: Practical guidelines for efficient cnn architecture design[C].∥Proceedings of the European conference on computer vision (ECCV), 2018: 116-131.

      [6]HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C].∥Proceedings of the IEEE conference on computer vision and pattern recognition,2018: 7132-7141.

      [7]林景棟,吳欣怡,柴毅,等.卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化綜述[J].自動(dòng)化學(xué)報(bào),2020,46(01):24-37.

      [8]LIU Z, LI J, SHEN Z, et al. Learning efficient convolutional networks through network slimming[C].∥Proceedings of the IEEE international conference on computer vision,2017: 2736-2744.

      [9]BALAJI V, BALAJI M, CHANDRASEKARAN M, et al. Optimization of PID control for high speed line tracking robots[J]. Procedia Computer Science, 2015, 76: 147-154.

      [10] DE OLIVEIRA H M,DE OLIVEIRA R C. Understanding MIDI: A Painless Tutorial on Midi Format[EB/OL]. (2017-05-15)[2021-12-30]. https:∥arxiv.53yu.com/abs/1705.05322.

      Design of MIDI Somatosensory Interaction Systembased on Hand Posture Recognition

      ZHOU Qi, ZHANG Shuai

      (School of Industrial Design, Hubei Univ. of Tech., Wuhan? 430068, China)

      Abstract:In order to get rid of the limitation of MIDI music equipment in the way of interaction, and to solve the problems of poor portability and high price of the current somatosensory interaction system, combining edge computing equipment with a lightweight network, a music somatosensory interaction system based on hand gesture recognition is proposed. The host computer of the system relies on the Raspberry Pi 4b, obtains data through the monocular camera to identify the key points of the hand, calls the steering gear to track the target, and sends the action command to the lower computer through the nRF24L01 communication module, so as to realize the medium and long-distance control of music performance. By embedding the SENet channel attention mechanism in the lightweight network ShuffleNet v2 and performing the network slimming operation, the system can complete the somatosensory control task within 200ms, which can meet the needs of user gesture control, device coordination, etc., and the system is convenient and efficient. It provides a reference for deploying somatosensory interactive applications on mobile devices.

      Keywords:MIDI; Raspberry Pi; gesture recognition; ShuffleNet v2; somatosensory interaction

      [責(zé)任編校: 張巖芳]

      猜你喜歡
      手勢(shì)識(shí)別樹莓派
      基于微信端的智能家居監(jiān)控系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
      基于手勢(shì)識(shí)別的工業(yè)機(jī)器人操作控制方法
      基于紅外的非接觸式手勢(shì)識(shí)別系統(tǒng)設(shè)計(jì)
      基于嵌入式的智能手表設(shè)計(jì)
      智能安全防盜探測(cè)小車
      一種基于樹莓派的門禁系統(tǒng)快速構(gòu)建方法
      復(fù)雜背景下的手勢(shì)識(shí)別方法
      基于SIFT算法的手勢(shì)控制系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
      一種靜態(tài)手勢(shì)數(shù)字識(shí)別的實(shí)現(xiàn)及應(yīng)用
      煙草物流中心工業(yè)無(wú)線網(wǎng)絡(luò)安全監(jiān)測(cè)系統(tǒng)設(shè)計(jì)
      望谟县| 淅川县| 嘉兴市| 大方县| 南郑县| 吉林市| 岳池县| 锦州市| 哈密市| 城固县| 新野县| 奉节县| 民勤县| 辰溪县| 东山县| 清徐县| 拉孜县| 江陵县| 万山特区| 山丹县| 南江县| 宜川县| 平安县| 吉隆县| 于都县| 谢通门县| 崇阳县| 班玛县| 镇江市| 桦南县| 衡阳县| 西和县| 曲麻莱县| 凤山县| 河津市| 伊宁市| 吉木萨尔县| 楚雄市| 京山县| 芜湖市| 正阳县|