• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      404 Not Found


      nginx
      404 Not Found

      404 Not Found


      nginx
      404 Not Found

      404 Not Found


      nginx
      404 Not Found

      404 Not Found


      nginx
      404 Not Found

      404 Not Found


      nginx
      404 Not Found

      404 Not Found


      nginx

      一種復(fù)雜背景下的智能手勢識別模型

      2022-09-09 00:45:46肖灑賀盼博崔強
      電子技術(shù)與軟件工程 2022年14期
      關(guān)鍵詞:手勢骨架準確率

      肖灑 賀盼博 崔強

      (聯(lián)通(上海)產(chǎn)業(yè)互聯(lián)網(wǎng)有限公司 上海市 200050)

      1 引言

      近年來,隨著手部姿態(tài)估計技術(shù)的發(fā)展,很容易獲得精確的手關(guān)節(jié)坐標。因此,基于骨骼架構(gòu)的手勢識別已經(jīng)成為一種流行的動作和手勢識別方式。各種努力集中于預(yù)測手關(guān)節(jié)和手勢類別序列的三維坐標。與圖像相比,骨架對變化的背景噪聲具有更強的魯棒性。此外,由于骨架的數(shù)據(jù)量較小,因此更容易設(shè)計輕量級的手勢識別模型。因此,本文主要研究基于骨架的手勢識別方法。

      受計算機視覺任務(wù)深度學習取得巨大成功的推動,最近的研究旨在將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于基于骨架的手勢識別。在這些研究中,一些文章將手骨骼序列作為偽圖像,其中幀被視為圖像的列,手關(guān)節(jié)被視為行,3D坐標對應(yīng)于圖像的三個通道。因此,基于2D CNN的神經(jīng)網(wǎng)絡(luò)可用于提取空間和時間特征,用于手勢或動作識別。最近,許多方法將骨架序列嵌入到時空圖中,其中每個幀內(nèi)的關(guān)節(jié)通過身體骨架的底層結(jié)構(gòu)連接,相鄰幀中的相同關(guān)節(jié)也連接。然后設(shè)計了圖卷積網(wǎng)絡(luò)來捕捉動作識別的辨別特征。盡管這些方法已經(jīng)取得了優(yōu)異的性能,但它們在捕捉交互式關(guān)節(jié)的局部特征方面仍然存在固有的局限性。由于骨架序列嵌入到具有固定結(jié)構(gòu)的預(yù)定義圖像或圖形中,交互關(guān)節(jié)可能彼此不相鄰。因此,只有深層才能聚合這些交互關(guān)節(jié)的信息。劉建議將骨架序列建模為3D體積,利用基于3D CNN的網(wǎng)絡(luò)提取骨架動力學。通過對骨骼進行體積建模,上述缺陷得到了緩解。然而,在計算資源有限的設(shè)備上部署基于3D CNN的網(wǎng)絡(luò)的代價非常昂貴。

      準確定位手部21個主要骨節(jié)點,包括指尖和各節(jié)指骨關(guān)節(jié),返回每個骨節(jié)點的坐標信息,輸出4個輔助關(guān)鍵點(食指中關(guān)節(jié)、食指根、中指中關(guān)節(jié)、中指根)的坐標信息復(fù)雜的手勢通常涉及五個手指之間的互動。因此,捕捉每個手指的動態(tài)以及交互手指的聚合特征對于手勢識別至關(guān)重要。然而,使用固定關(guān)節(jié)排列的卷積運算動態(tài)地組裝交互式手指的特征是困難的。為此,本文引入了自注意機制來代替卷積進行特征聚合。通過動態(tài)注意權(quán)重,自我注意模塊能夠靈活捕捉交互式手指的特征。與卷積相比,自注意機制可以直接捕獲全局特征,而無需堆疊深度網(wǎng)絡(luò),從而可以設(shè)計輕量級的手勢識別網(wǎng)絡(luò)。

      本文的主要貢獻如下:

      (1)對數(shù)據(jù)集進行了優(yōu)化和擴展。手勢圖片包括5個拍攝角度、多個年齡組、多個個體、多個背景環(huán)境和各種照明條件,更接近現(xiàn)實中AR/VR中使用的實際手勢識別環(huán)境。構(gòu)建的數(shù)據(jù)集樣本分布更為均衡。便于模型訓練,提升模型識別準確率。

      (2)在yolov5模型的基礎(chǔ)上,引入了注意力機制模塊,提高了計算效率和精度。通過引入Pixels-IoU解決定位框不準確的問題,提高了損失值對處理標注框的敏感性。將優(yōu)化后的模型與原yolov5和yolov3進行了比較,得到了具有競爭力的結(jié)果。

      (3)改進后的模型與原始YOLOv5相比,均值平均精度提升了3.2%,對于復(fù)雜圖片背景,強弱光照下的圖片識別,分別獲得了94%、98.2%、92%的識別準確率,證明了改進后模型的優(yōu)勢。

      2 相關(guān)工作

      這一部分主要是論述了國內(nèi)外對基于骨架的手勢識別的最新相關(guān)工作。由于基于骨架的動作識別任務(wù)類似于基于骨架的手勢識別任務(wù),因此本文也對基于骨架的動作識別的研究進行了總結(jié)。同時也簡單的描述了將注意力機制引入計算機視覺領(lǐng)域的最新研究成果。因為YOLOv5是一個比較成熟的模型,這個部分簡單的做了一下介紹。

      2.1 基于手部骨架的關(guān)鍵點手勢識別

      在手勢識別中,一種比較流行的方法是先對手的形狀進行分割,通過檢測手的位置或手的形狀,再進行手勢識別。在基于視覺的系統(tǒng)中,另外一種流行的分割方法是膚色檢測,它的核心思路是從雜亂的背景中提取手的部分。云等人提出了一種多特征融合方法,通過結(jié)合不變矩特征提取角度計數(shù)、膚色角度和非膚色角度來提高識別結(jié)果。其中一些手勢識別系統(tǒng)借助廉價的彩色手套簡化了從背景中提取手的過程。而在文獻中使用了一種手套,提供六種獨特顏色的顏色編碼。王和Popovi使用了一種普通的布手套,但是上面印有一種定制圖案,便于特征提取和手勢檢測。手勢識別的另一個方法是使用通過深度傳感器拍攝的3D圖像,如Microsoft Kinect深度相機和Leap Motion。3D相機在前平面中查看對象并生成對象的深度圖像,深度圖像用于背景去除,然后生成對象的深度輪廓。使用Kinect的手勢識方法見文獻。而Molina等人使用了另一種稱為飛行時間范圍相機的深度相機,該相機提供每像素的實時深度信息。就適用性而言,這種基于視覺的手勢分割方法是可取的,因為它只需要大多數(shù)筆記本電腦上可用的傳統(tǒng)攝像頭,并且不需要特殊的深度傳感器,從而大大的減少了成本開銷。

      相對來說,靜態(tài)手勢識別可以通過應(yīng)用標準模式識別技術(shù)(如模板匹配)來實現(xiàn),而動態(tài)手勢識別需要時間序列模式識別算法(如隱馬爾可夫模型(HMM)或動態(tài)時間扭曲(DTW)算法)。HMM是一種統(tǒng)計馬爾可夫模型,其中建立的模型被假定為馬爾可夫過程。HMM是一個雙重隨機過程,其基本隨機過程是不可觀測的,但可以通過另一組隨機過程觀察到,該隨機過程產(chǎn)生一系列可觀測符號,并且該模型因其在各個領(lǐng)域的應(yīng)用而聞名,包括手勢識別,如文獻。使用HMM進行手勢識別的問題在于,如果手勢轉(zhuǎn)換過程中的行為沒有得到精確訓練,其識別精度會降低。DTW是測量兩個時間序列之間的相似性的算法之一,這兩個時間序列的速度可能不同。

      復(fù)雜的手勢通常涉及五個手指之間的互動。因此,捕捉每個手指的動態(tài)以及交互手指的聚合特征對于手勢識別至關(guān)重要。然而,使用固定關(guān)節(jié)排列的卷積運算動態(tài)地組裝交互式手指的特征是困難的。為此,本文引入了自注意機制來代替卷積進行特征聚合。通過動態(tài)注意權(quán)重,自我注意模塊能夠靈活捕捉交互式手指的特征。與卷積相比,自注意機制可以直接捕獲全局特征,而無需堆疊深度網(wǎng)絡(luò),從而可以設(shè)計輕量級的手勢識別網(wǎng)絡(luò)。

      2.2 自我注意力機制

      自我注意機制是Transformer的一個基本模塊,它最開始被提出用于機器翻譯和自然語言處理。基于Transformer的方法引起了研究者的注意,并且出現(xiàn)了大量基于transformer的方法,并在NLP任務(wù)中取得了優(yōu)異的性能。受Transformer在NLP領(lǐng)域的成功啟發(fā),科研人員開始將Transformer引入計算機視覺任務(wù)。Vision Transformer將Transformer應(yīng)用于圖像塊序列以進行圖像分類,并與最先進的卷積網(wǎng)絡(luò)相比實現(xiàn)了優(yōu)異的性能。

      2.3 YOLOv5網(wǎng)絡(luò)模型

      YOLOv5 網(wǎng)絡(luò)結(jié)構(gòu)按照處理階段分為 Input、Backbone、Neck、Prediction 4個部分,如表1所示。Input部分完成數(shù)據(jù)增強、自適應(yīng)圖片縮放、錨框計算等基本處理任務(wù)。Backbone部分作為主干網(wǎng)絡(luò),主要使用 CSP 結(jié)構(gòu)提取出輸入樣本中的主要信息,以供后續(xù)階段使用。Neck部分使用FPN及PAN結(jié)構(gòu),利用Backbone部分提取到的信息,加強特征融合。Prediction 部分做出預(yù)測,并計算GIOU_Loss等損失值。

      表1:模型描述與YOLOv5模型圖

      3 本文模型介紹與改進工作

      3.1 YOLOv5網(wǎng)絡(luò)修改損失參數(shù)

      YOLO 系列算法通常使用的損失函數(shù)類型為GIoU、DIoU和CIoU,從GIoU到CIoU的演變使得回歸損失不斷精確、目標框回歸更加穩(wěn)定.但在實際實驗過程中發(fā)現(xiàn),對具有高縱橫比的目標和密集目標,以上3類損失函數(shù)均會產(chǎn)生定位框不準確的問題,這極大地限制了目標識別的回歸效率.為了解決這一問題,引入Pixels-IoU(PIoU) 函數(shù)。

      該損失函數(shù)通過引入一個旋轉(zhuǎn)參數(shù),使得原有的處理標注框能夠更加緊湊地框選目標.考慮到在手勢識別情況中,識別目標受到主觀印象因素比較大,比如“比耶”這個手勢,包含有豎方向,左斜方向和右斜方向。為了精確計算目標交并比(IoU),該損失函數(shù)是采用像素計數(shù)的方式來計算目標IoU,這使得損失值對處理標注框的大小、位置和旋轉(zhuǎn)都是敏感的.PIoU 損失的計算公式為:

      式中,M為所有正樣本的集合,|M|為正樣本數(shù),真實目標b和目標框b`的b∩b`和b∪b`分別表示兩者之間的交集區(qū)域和并集區(qū)域,PIoU函數(shù)的計算公式為:

      式中,S和S分別表示經(jīng)損失函數(shù)內(nèi)核函數(shù)處理后,目標b和目標框b`交集的像素量數(shù)和并集的像素量數(shù)。

      3.2 注意力機制的引入

      客觀現(xiàn)實中需要識別的案例往往具有明顯的實際色彩:圖像模糊、識別目標所占比例太小,背景色千奇百怪、手勢姿勢偏斜角度各自不一等等特殊情況占了多數(shù)情況。引入注意力機制為了捕獲手勢上下文的信息與時空領(lǐng)域的信息,可以提取更多的基于骨骼的關(guān)節(jié)向量信息等特征。

      此時,在時間t這個節(jié)點,關(guān)節(jié)之間的距離大小表示為一個矩陣,矩陣尺寸為3×N×N,其中N對應(yīng)的是手勢骨骼關(guān)節(jié)點的總數(shù),而參數(shù)d∈D的計算公式如下:

      由于Transformer的特性,輸入特征向量的最終尺寸取決于所用特征的類型。本文中,手部特征、速度和加速度組成的特征向量大小為240。增加了基于骨骼節(jié)點的手勢之后,特征向量的大小為640。

      4 模型驗證及結(jié)果

      4.1 實驗數(shù)據(jù)集介紹及實驗環(huán)境

      4.1.1 實驗環(huán)境配置

      本文模型是在一臺裝有NVIDIA GeForce RTX 3090的計算機上實現(xiàn)的,使用PyTorch語言。在前面介紹的工作中,骨架序列被均勻地采樣到8幀作為輸入。同時,本文采取了數(shù)據(jù)擴充的方式優(yōu)化數(shù)據(jù)集,包括縮放、移位、時間插值和添加噪聲。選擇Adam作為優(yōu)化策略,選擇交叉熵作為損失函數(shù)。培訓的批量大小設(shè)置為32,輟學率固定為0.1。學習率從0.001開始,一旦學習停滯,學習率將衰減10倍。當學習速率第四次衰減時,就停止整個訓練過程。

      4.1.2 實驗數(shù)據(jù)集

      本文對數(shù)據(jù)集進行了優(yōu)化和改良,收集項目中實拍和網(wǎng)絡(luò)上自然裸手手勢數(shù)據(jù)庫,共5萬張圖片,涵蓋各種場景、18種動作手勢、5個拍攝角度、多個年齡組、多個個體和各種照明條件。在標簽方面,標準中有21個關(guān)鍵點和手勢類別。

      本文使用 Anaconda 工具創(chuàng)建一個 Python3.8 預(yù)處理工作環(huán)境,在該環(huán)境中,安裝 LabelImg工具及其依賴包。LabelImg 工具為目標檢測標記工作提供可視化支持,可使用矩形框快速確定目標位置及名稱。標注后的文件為 Pascal VOC 支持的 XML 格式,編寫 Python 腳本可以快速將 XML格式輸出文件轉(zhuǎn)化為 YOLO 支持的 TXT 標簽格式。

      4.2 實驗與結(jié)果分析

      4.2.1 模型描述

      模型描述大致如下:輸入為X,輸出為U,V是卷積核,*代表卷積操作,vs代表通道數(shù)為S的2-D的卷積核。在通道上輸入空間特征并學習特征的空間關(guān)系。由于每個信道的卷積結(jié)果的總和、信道特征關(guān)系和卷積核學習的空間關(guān)系混合在一起。引入自我注意力模塊就是為了擺脫這種混合,使模型直接學習信道特征關(guān)系。如表1所示。

      4.2.2 實驗結(jié)果

      (1)實驗結(jié)果表明,各個參數(shù)均在60輪次內(nèi)逐漸收斂(損失參數(shù)收斂至 0.010,結(jié)果參數(shù)收斂至0.999),準確率0.997,

      mAP@0.5也達0.996(見圖2)

      圖2:訓練結(jié)果圖

      (2)優(yōu)化后模型網(wǎng)絡(luò)識別效果圖如圖3所示。

      圖3:改進網(wǎng)絡(luò)的識別效果圖

      由圖3可知,改良后網(wǎng)絡(luò)基于全局語義信息采集獲取到的特征更加精準,識別精準度更高,并且能適應(yīng)于不同的場景。

      由表2結(jié)果可以看出:本文改進后的模型的總體 mAP達到0.887,與原始的YOLOv5相比,準確率提升了6.2%,說明改進模型在召回率、準確率等指標上均表現(xiàn)良好。

      表2:兩個網(wǎng)絡(luò)對測試集識別準確率和總體mAP對比

      在實際應(yīng)用中,因為主體具有主觀性,比如在AR設(shè)備中,人們會下意識的調(diào)整手勢,減少遮擋等情況,反而是外界光照因素稱為了主要印象因子,因此,在這部分,本文將強光照與弱光照單獨做了模型檢驗。

      實驗結(jié)果表明(見表3、表4),在較強光照條件下,手勢識別效果比較弱光照條件下好,最好的識別準確率能達到98.2%。在較弱光照條件下,準確率仍然能達到92%及以上,如圖4所示。由此可知在外部環(huán)境變換的情況下,該方法依然能保持一個較好的識別準確率,也證明了整個動態(tài)手勢識別方法的魯棒性較好。

      表3:較強光照識別結(jié)果

      表4:較弱光照識別結(jié)果

      圖4:強光照和較弱光照下的識別圖像對比圖

      5 結(jié)論和未來工作

      綜上所述,為了實現(xiàn)精準的手勢識別,本文提出了一種基于YOLOv5的優(yōu)化模型:引入了PIoU損失函數(shù)來提高識別效果。引入了具有較強非線性能力的輕量級注意機制模塊,有效地避免了傳統(tǒng)淺層學習算法中人工干預(yù)和識別率低的問題。本文擴展了數(shù)據(jù)集,包括但不限于明暗處理、手勢遮擋、復(fù)雜背景貼圖、復(fù)雜人體手勢等。它更符合現(xiàn)實生活中的手勢識別應(yīng)用。模型中使用的測試集也在不同情況下進行了測試,取得了良好的識別效果。通過實驗證明,優(yōu)化后的算法比YOLOv5準確率提高了6.2%,目標識別網(wǎng)絡(luò)的mAP@0.5達到了0.99。對復(fù)雜背景、強光照圖片、弱光照圖片識別效果較好,在標準Finger Spelling(ASL)、OUHANDS兩個數(shù)據(jù)集也證明了優(yōu)化后的模型檢測準確率高,魯棒性好,計算速度快。

      未來將會將該算法應(yīng)用于實時動態(tài)手勢識別,也有更加詳細的進一步進行手勢關(guān)鍵點識別。

      猜你喜歡
      手勢骨架準確率
      淺談管狀骨架噴涂方法
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
      2015—2017 年寧夏各天氣預(yù)報參考產(chǎn)品質(zhì)量檢驗分析
      骨架密度對炭/炭多孔骨架壓力浸滲銅的影響
      挑戰(zhàn)!神秘手勢
      V字手勢的由來
      高速公路車牌識別標識站準確率驗證法
      勝利的手勢
      內(nèi)支撐骨架封抽技術(shù)在突出煤層瓦斯抽采中的應(yīng)用
      中國煤層氣(2014年3期)2014-08-07 03:07:45
      404 Not Found

      404 Not Found


      nginx
      404 Not Found

      404 Not Found


      nginx
      404 Not Found

      404 Not Found


      nginx
      404 Not Found

      404 Not Found


      nginx
      404 Not Found

      404 Not Found


      nginx
      天津市| 青田县| 宜兰市| 滨海县| 蒲城县| 葵青区| 浦县| 社会| 资溪县| 都匀市| 衡东县| 日喀则市| 延川县| 湘阴县| 阳泉市| 波密县| 英吉沙县| 三穗县| 久治县| 河北区| 昌图县| 龙游县| 武穴市| 普宁市| 阿尔山市| 太康县| 衡阳县| 中阳县| 名山县| 沾益县| 镇江市| 荣成市| 资兴市| 广宁县| 东宁县| 平江县| 福海县| 新野县| 凤翔县| 临颍县| 平度市|