• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于深度學(xué)習(xí)的手勢(shì)識(shí)別算法設(shè)計(jì)

      2019-03-29 11:54龍輝
      物聯(lián)網(wǎng)技術(shù) 2019年2期
      關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò)高效性深度學(xué)習(xí)

      龍輝

      摘 要:手勢(shì)識(shí)別是人工智能范疇的一項(xiàng)生物識(shí)別技術(shù),其方便、快捷、可靠和穩(wěn)定等一系列特性使其在多個(gè)領(lǐng)域具有廣泛應(yīng)用。如拍照和視頻中使用手勢(shì)增加貼紙和實(shí)時(shí)特效,將復(fù)雜的手語轉(zhuǎn)化為自然語言,智能家居的輔助控制,輔助駕駛系統(tǒng)等。神經(jīng)網(wǎng)絡(luò)被廣泛應(yīng)用于圖像識(shí)別領(lǐng)域,具有較好的口碑。文章基于深度學(xué)習(xí)理論設(shè)計(jì)一種識(shí)別精度高,能夠?qū)崿F(xiàn)實(shí)時(shí)手勢(shì)識(shí)別的算法。

      關(guān)鍵詞:深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò);實(shí)時(shí)手勢(shì)識(shí)別;高效性

      中圖分類號(hào):TP393文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):2095-1302(2019)02-00-03

      0 引 言

      人機(jī)交互[1]即HCI,是指人們通過相應(yīng)方式與機(jī)器溝通,并獲取機(jī)器反饋信息的過程。

      深度學(xué)習(xí)相比傳統(tǒng)的機(jī)器學(xué)習(xí)算法往往在圖像處理方面能獲得更好的效果。其中常用的算法如Faster R-CNN[2],YOLO[3],SSD[4]等均有其獨(dú)特魅力,在目標(biāo)檢測(cè)領(lǐng)域具有舉足輕重的作用。

      本文基于深度學(xué)習(xí)理論,采用卷積神經(jīng)網(wǎng)絡(luò)中的輕量級(jí)分類網(wǎng)絡(luò)MobileNet和目標(biāo)檢測(cè)網(wǎng)絡(luò)SSD相結(jié)合;基于輸入圖片的尺寸不同對(duì)模型的影響、帶孔卷積的引入,對(duì)改進(jìn)后的SSD算法進(jìn)行微調(diào)。為了進(jìn)一步提升識(shí)別速度,使用Deepwise卷積以進(jìn)一步降低網(wǎng)絡(luò)參數(shù)和計(jì)算量。

      1 卷積計(jì)算

      對(duì)于輸入的圖片,CNN[5]無法準(zhǔn)確獲悉這些特征與原圖哪些部分相匹配,因此需要用不同尺寸的過濾器提取圖像特征。計(jì)算過程被稱為卷積操作,卷積過程如圖1所示。過濾器和圖像中左上角的3×3像素塊卷積后的值為特征圖中的第一個(gè)值4。

      計(jì)算特征圖中像素點(diǎn)和原圖的映射結(jié)果。實(shí)際計(jì)算過程是將過濾器和原圖對(duì)應(yīng)尺寸匹配,相同位置的值相乘,再將所有的乘積結(jié)果相加。

      2 手勢(shì)識(shí)別算法模型設(shè)計(jì)

      2.1 算法主干網(wǎng)絡(luò)

      本文網(wǎng)絡(luò)模型是將MobileNet和SSD網(wǎng)絡(luò)相結(jié)合,然后對(duì)網(wǎng)絡(luò)進(jìn)行微調(diào)。其中MobileNet使用了MobileNet-v1網(wǎng)絡(luò)。截取MobileNet-v1網(wǎng)絡(luò)前12層卷積層作為網(wǎng)絡(luò)的基礎(chǔ)特征提取層,再加上6層輔助特征提取網(wǎng)絡(luò),組成算法的主干網(wǎng)絡(luò)。標(biāo)簽邊框和默認(rèn)框之間存在偏移值,因此將偏移值作為網(wǎng)絡(luò)學(xué)習(xí)的內(nèi)容。結(jié)合分類誤差,計(jì)算端對(duì)端損失函數(shù),進(jìn)行反向傳播的計(jì)算和更新。

      2.2 模型微調(diào)

      (1)將輔助特征提取網(wǎng)絡(luò)中的3×3標(biāo)準(zhǔn)卷積使用Deep-wise卷積進(jìn)行替換,進(jìn)一步減少網(wǎng)絡(luò)參數(shù)和計(jì)算量。

      (2)本文卷積均使用Atrous卷積(帶孔卷積),在減少padding帶來的噪聲的同時(shí),也能減少冗余特征的提取。

      (3)對(duì)部分輔助特征提取卷積網(wǎng)絡(luò)卷積步長或者特征維度進(jìn)行調(diào)整,使輔助特征網(wǎng)絡(luò)的尺寸在不斷減小的同時(shí),維度數(shù)量也隨之減小,減少冗余特征對(duì)訓(xùn)練和識(shí)別結(jié)果的影響。

      3 手勢(shì)識(shí)別算法設(shè)計(jì)

      3.1 算法流程

      算法流程如圖2所示。首先準(zhǔn)備好收集的且已人工標(biāo)記的訓(xùn)練集圖片,然后經(jīng)圖中所示的圖片預(yù)處理過程,將訓(xùn)練集送入上文設(shè)計(jì)的MobileNet-SSD網(wǎng)絡(luò)進(jìn)行迭代學(xué)習(xí)訓(xùn)練,直至模型訓(xùn)練完成。重復(fù)上述步驟,多次實(shí)驗(yàn),獲得模型。最終選擇在驗(yàn)證集上表現(xiàn)效果最好的模型,在測(cè)試集上進(jìn)行測(cè)試,得到相關(guān)數(shù)據(jù),作為本文最終的數(shù)據(jù),分析本文設(shè)計(jì)的算法模型的優(yōu)劣。

      3.2 手勢(shì)數(shù)據(jù)集

      本文共采集了15種手勢(shì)的數(shù)據(jù)圖片。平均每種約為

      2 300張。數(shù)據(jù)集的組成包含石頭,布,ok,比心等。從每種手勢(shì)中抽出300張加入驗(yàn)證集,抽取100張加入測(cè)試集。最終,訓(xùn)練集中有32 327張圖片,驗(yàn)證集中有4 500張圖片,測(cè)試集中有1 500張圖片,數(shù)據(jù)集共有38 327張圖片。數(shù)據(jù)集中部分圖片如圖3所示。

      3.3 圖片標(biāo)注

      數(shù)據(jù)集采用LabelImg標(biāo)定工具進(jìn)行人工標(biāo)記得到真實(shí)標(biāo)簽和類別信息。圖4和圖5所示分別為在標(biāo)注工具中、標(biāo)注圖片和標(biāo)注完成將目標(biāo)信息進(jìn)行存儲(chǔ)的xml文件信息展示。

      3.4 算法環(huán)境

      本文的硬件環(huán)境見表1所列。對(duì)于神經(jīng)網(wǎng)絡(luò)[6]訓(xùn)練而言,顯卡的計(jì)算能力和CPU的性能至關(guān)重要,性能優(yōu)良的顯卡與CPU可以大幅縮減訓(xùn)練時(shí)間與算法的運(yùn)行時(shí)間。

      3.5 實(shí)驗(yàn)與分析

      3.5.1 實(shí)驗(yàn)步驟

      (1)本文手勢(shì)數(shù)據(jù)集中有15個(gè)類別,因此先將網(wǎng)絡(luò)文件、網(wǎng)絡(luò)訓(xùn)練和測(cè)試文件,以及類別定義文件中的相關(guān)描述修改為15個(gè)類別。

      (2)將準(zhǔn)備好的圖片和對(duì)應(yīng)包含了標(biāo)注信息的xml文件制作成caffe框架常使用的lmdb格式數(shù)據(jù)集。

      (3)把caffe框架下的模型文件和訓(xùn)練文本映射在訓(xùn)練文本設(shè)置好的參數(shù)中。

      (4)觀察終端輸出迭代過程中l(wèi)oss值的變化,驗(yàn)證集上輸出的測(cè)試準(zhǔn)確率,并保存日志文件,方便后期對(duì)訓(xùn)練模型進(jìn)行分析。

      (5)迭代訓(xùn)練完成后找到生成的模型。若模型在測(cè)試集上表現(xiàn)較好,則在測(cè)試集上測(cè)試;否則,修改參數(shù)文件中的相關(guān)參數(shù)微調(diào)模型后繼續(xù)訓(xùn)練。

      3.5.2 實(shí)驗(yàn)結(jié)果分析

      算法中訓(xùn)練模型包括如下種類:

      (1)SSD經(jīng)典算法網(wǎng)絡(luò),基礎(chǔ)網(wǎng)絡(luò)使用VGG-16,圖片的輸入尺寸為300×300,記為SSD-300;

      (2)本文改進(jìn)的算法輸入尺寸為416×416和600×600,分別記為MN-SSD-416和MN-SSD-600;

      (3)輔助特征層卷積使用標(biāo)準(zhǔn)卷積,圖片的輸入尺寸為416×416,模型記為MNS-SSD-416。

      模型訓(xùn)練信息見表2所列。通過對(duì)比可知,本文改進(jìn)后的算法模型在參數(shù)量和計(jì)算量方面都大幅減少。

      將上述模型進(jìn)行多方比較可得:

      (1)通過對(duì)比可以發(fā)現(xiàn)改進(jìn)后的三種網(wǎng)絡(luò)在手勢(shì)識(shí)別精度方面與SSD-300相比未降低,但在識(shí)別速度方面卻有很大提高,其中MN-SSD-416和MNS-SSD-416可以實(shí)現(xiàn)實(shí)時(shí)手勢(shì)識(shí)別。

      (2)MNS-SSD-416網(wǎng)絡(luò)減少了參數(shù)和計(jì)算量,使得每秒能夠識(shí)別的圖片數(shù)提高至43.5幀,mAP僅降低0.3個(gè)百分點(diǎn)。由此可得,使用Deepwise卷積替換輔助特征層的標(biāo)準(zhǔn)卷積是成功的,識(shí)別速度實(shí)現(xiàn)了大幅提高,付出的識(shí)別準(zhǔn)確率代價(jià)較小。

      (3)MN-SSD-600和MN-SSD-416具有相同的網(wǎng)絡(luò)結(jié)構(gòu),增大了輸入圖片的尺寸。雖然在識(shí)別精度方面表現(xiàn)出了略微優(yōu)勢(shì),能夠使得較難識(shí)別的幾類手勢(shì)有較好的識(shí)別精度,但是大大降低了網(wǎng)絡(luò)識(shí)別速度,使得識(shí)別速度僅為22.6幀/s。說明增大圖片輸入尺寸確實(shí)能夠使特征更豐富,識(shí)別率也有所提高,但卻大大降低了識(shí)別速度。

      3.6 手勢(shì)識(shí)別效果展示

      本文展示了識(shí)別精度和速度都較好的模型MN-SSD-416的測(cè)試效果圖,如圖6所示。左圖中預(yù)測(cè)“我愛你”手勢(shì)類別的置信度為0.895 3;右圖中預(yù)測(cè)類別是“數(shù)字7”的置信度為0.921 1。本文主要考量手勢(shì)識(shí)別的精度,所以對(duì)邊框位置并未考察。但從實(shí)際效果可以看出,算法的位置回歸效果也很好。

      4 結(jié) 語

      本文設(shè)計(jì)的算法能夠滿足多種嵌入式平臺(tái)的使用需求,在保證較好的手勢(shì)識(shí)別精度的前提下,識(shí)別速度也有著很大優(yōu)勢(shì),為實(shí)時(shí)手勢(shì)識(shí)別提供了一種可行的算法。

      參 考 文 獻(xiàn)

      [1]張丹潔,侯文君. 三維用戶界面交互范式研究[EB/OL].中國科技論壇,2011.

      [2] REN S Q,HE K M,GIRSHICK R,et al. Faster R-CNN:towards real-time oject detection with region proposal networks[J]. Transactions on pattern analysis & machine intelligence,2015,

      39(6):1.

      [3] HINTON G E,SALAKHUTDINNOV R R. Reducing the dimensionality of data with neural networks[J]. Science,2006(313):500-508.

      [4] L IU W,ANGUELOV D,DUMITRU ERHAN,et al. SSD: Single Shot MultiBox Detecot[C]// ECCV 2016.

      [5] LECUN Y,BOTTOU L,BENGIO Y,et al. Gradient-based learning applied to document recognition[C]// Proceedings of the IEEE,November 1998:2278-2324.

      [6] DEBEVEC P. A neural network for facial feature location[J]. UC berkeley CS283 project report,1992,22(1):18.

      [7]呂耀坤.基于卷積神經(jīng)網(wǎng)絡(luò)的實(shí)景交通標(biāo)志識(shí)別[J].物聯(lián)網(wǎng)技術(shù),2017,7(1):29-30.

      [8]揚(yáng)晉芳,衛(wèi)建華,劉琪,等.基于紅外的非接觸式手勢(shì)識(shí)別系統(tǒng)設(shè)計(jì)[J].物聯(lián)網(wǎng)技術(shù),2016,6(11):113-115.

      猜你喜歡
      卷積神經(jīng)網(wǎng)絡(luò)高效性深度學(xué)習(xí)
      淺談水質(zhì)檢測(cè)的高效性發(fā)展
      基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識(shí)別算法
      MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
      大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
      數(shù)學(xué)課堂教學(xué)高效性的再思考
      如何實(shí)現(xiàn)小組學(xué)習(xí)的有效性、高效性
      語文閱讀課堂高效性構(gòu)建策略
      云和县| 华亭县| 独山县| 班戈县| 延津县| 涪陵区| 宁都县| 萍乡市| 玉门市| 沽源县| 土默特左旗| 专栏| 巴中市| 古田县| 长泰县| 昌吉市| 定边县| 贺兰县| 滕州市| 汉源县| 沙河市| 廊坊市| 全椒县| 沾化县| 杭州市| 深州市| 清水河县| 磴口县| 增城市| 竹山县| 陆丰市| 黄龙县| 兴安县| 山丹县| 郁南县| 昌吉市| 延津县| 桂阳县| 吴桥县| 梧州市| 扎囊县|