• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于深度學(xué)習(xí)的手語學(xué)習(xí)系統(tǒng)

      2019-03-10 08:33:12李成武高宇玥
      絲路視野 2019年5期
      關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò)手語

      李成武 高宇玥

      摘 要:手語是聾啞人群最常使用的交流方式,但因?yàn)槭终Z的普及程度較低,聾啞人與普通人之間交流有很大障礙。本文利用Keras 構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)框架實(shí)現(xiàn)對(duì)手語圖像的識(shí)別,通過循環(huán)神經(jīng)網(wǎng)絡(luò)將語音轉(zhuǎn)為對(duì)應(yīng)的手語視頻輸出。手語的自動(dòng)化識(shí)別能夠使手語使用者更加便利地與外界進(jìn)行溝通,不懂手語的人也可以和聾啞人正常、順利地交流。

      關(guān)鍵詞:手語 Keras 卷積神經(jīng)網(wǎng)絡(luò) 循環(huán)神經(jīng)網(wǎng)絡(luò)

      一、引言

      最新資料統(tǒng)計(jì)說明,我國聽力語言殘疾居視力殘疾、肢殘、智殘等五大殘疾之首,為2057萬人,占中國總?cè)丝跀?shù)的1.67%,其中七歲以下兒童約為80萬人。手語是聽障人之間溝通的主要方式,由手型、動(dòng)作、表情及姿勢(shì)等構(gòu)成的一套手語交流體系。但健聽人多數(shù)不懂手語,手語溝通障礙造成了社會(huì)勞動(dòng)力的較大浪費(fèi)。目前,中國殘聯(lián)出臺(tái)了手語統(tǒng)一標(biāo)準(zhǔn),這使得聾啞人與健全人之間順利交流變得有章可循,手語翻譯技術(shù)具有廣泛的應(yīng)用價(jià)值。開發(fā)手語識(shí)別系統(tǒng)有助于聾啞人融入社會(huì),也有助于加速國家通用手語的推廣進(jìn)程。

      過去手語識(shí)別的研究主要依賴于各種可穿戴傳感器,如顏色手套、數(shù)據(jù)手套等。基于數(shù)據(jù)手套的手語識(shí)別準(zhǔn)確率較高,但設(shè)備昂貴、攜帶不便,難以普及和推廣。深度學(xué)習(xí)的快速發(fā)展加速了基于視覺的手語識(shí)別應(yīng)用。本文通過設(shè)計(jì)手語識(shí)別框架,基于卷積神經(jīng)網(wǎng)絡(luò)模型實(shí)現(xiàn)手語識(shí)別。

      二、系統(tǒng)總體設(shè)計(jì)方案

      基于深度學(xué)習(xí)的手語學(xué)習(xí)系統(tǒng)分為四個(gè)部分:手勢(shì)圖像采集、圖像信息的提取與識(shí)別、語音識(shí)別、手語視頻輸出?!笆謩?shì)圖像采集”模塊主要完成對(duì)手語動(dòng)作的采集,并將采集到的圖像信息發(fā)送到NVIDIA JETSON TX2平臺(tái)。再由“圖像信息的提取與識(shí)別”模塊利用神經(jīng)網(wǎng)絡(luò)的卷積層提取手部特征并通過全連接層進(jìn)行識(shí)別。這樣就使得正常人能理解聾啞人手語的含義。“語音識(shí)別”模塊將正常人輸入的語音轉(zhuǎn)化為文本,然后通過“手語視頻輸出”模塊將語音識(shí)別出來的文本轉(zhuǎn)化為對(duì)應(yīng)的手語視頻輸出(圖1)。這樣聾啞人就能理解正常人想要表達(dá)的意思。那么,不懂手語的正常人和聾啞人之間的交流變得輕松而簡單。

      三、數(shù)據(jù)集構(gòu)建和預(yù)處理

      手語信息以視頻的形式錄入,錄入相同手勢(shì)不同角度下的視頻。錄入完成后,以幀為單位將錄入的視頻轉(zhuǎn)換成圖片保存在同一目錄的不同文件夾中,每個(gè)文件包括相同詞義的數(shù)據(jù),并確定其含義。目前,數(shù)據(jù)集包含50個(gè)不同手勢(shì),每個(gè)手勢(shì)100張圖片,共5000張圖片。其中訓(xùn)練集共4000張圖片,每個(gè)手勢(shì)80張;測(cè)試集共1000張圖片,每個(gè)手勢(shì)20張。

      數(shù)據(jù)集構(gòu)建完成后需要對(duì)訓(xùn)練集進(jìn)行預(yù)處理,利用OPENCV捕捉視頻幀,根據(jù)背景差分法分割出前景目標(biāo),并通過膚色檢測(cè)模型輸出只有手部區(qū)域的二值圖像。為了增加模型的魯棒性,本文使用Keras框架中的ImageDataGenerator對(duì)視頻幀進(jìn)行隨機(jī)裁剪、水平翻轉(zhuǎn)、隨機(jī)旋轉(zhuǎn)角度、尺寸縮放等操作。

      四、神經(jīng)網(wǎng)絡(luò)訓(xùn)練

      因?yàn)槭终Z訓(xùn)練數(shù)據(jù)有限,所以本文采用遷移學(xué)習(xí)的方法完成手語手勢(shì)的識(shí)別。相比于AlexNet ,VGG-16結(jié)構(gòu)簡單,卷積核全部替換為3×3(極少用了1×1),池化核全部使用2×2。參數(shù)量大,大部分參數(shù)集中在全連接層中。網(wǎng)絡(luò)名稱中有16表示它有16層conv/fc層。本文采用VGG-16作為預(yù)訓(xùn)練模型。

      本系統(tǒng)遷移學(xué)習(xí)的具體步驟為:

      1.構(gòu)建VGG-16模型;

      2.加載VGG-16模型參數(shù);

      3.將網(wǎng)絡(luò)最后一層卷積層前面的參數(shù)固定,不參與訓(xùn)練,即設(shè)置參數(shù)為trainable=False;

      4.在最后一層卷積層的后面加上一個(gè)隱藏層為1024的全連接層;

      5.修改softmax層的輸出,因?yàn)楸疚氖褂玫臄?shù)據(jù)集共有50種手勢(shì),所以將softmax的輸出設(shè)為50。softmax層計(jì)算公式如下:

      其中,Xj表示第j個(gè)輸出,K代表總分類數(shù),softmax層的輸出代表樣本X屬于第j個(gè)分類的概率。

      將4000張圖片順序打亂分為50批(batch),即每個(gè)batch有80張圖片,然后訓(xùn)練50輪(epoch),并將訓(xùn)練好的模型參數(shù)保存在本地。雖然訓(xùn)練時(shí)間較長,但是這樣可以保證每個(gè)手勢(shì)識(shí)別正確率的增加和應(yīng)對(duì)不同狀況下兩手勢(shì)發(fā)生的意外重合。

      五、語音識(shí)別

      近幾年,不少專家和學(xué)者都在語音識(shí)別任務(wù)中嘗試了注意力模型。但是截至目前,注意力模型在在線語音服務(wù)中的大規(guī)模使用,一直鮮有成功案例。究其原因,是因?yàn)檎Z音識(shí)別的注意力模型存在兩個(gè)問題:一是流式解碼的問題。傳統(tǒng)的注意力模型大都是基于整句的建模,比較有代表性的是谷歌的LAS模型。如果在線語音識(shí)別采用整句注意力建模,這就客觀上要求語音都上傳到服務(wù)器后,才能開始聲學(xué)打分計(jì)算和解碼,這樣勢(shì)必引入較長的用戶等待時(shí)間,影響用戶體驗(yàn),同時(shí)也沒辦法完成實(shí)時(shí)語音交互的任務(wù)。二是長句建模的精度下降問題。傳統(tǒng)注意力模型的核心思想是基于整句的全局信息,通過機(jī)器學(xué)習(xí)的方法,選擇出和當(dāng)前建模單元最匹配的特征。句子越長,進(jìn)行特征選擇的難度越大。出錯(cuò)的概率越高,錯(cuò)誤前后傳導(dǎo)的概率也越高。

      本文語音識(shí)別模塊是采用百度語音識(shí)別API來實(shí)現(xiàn)的。百度語音識(shí)別所采用的模型解決了傳統(tǒng)注意力模型不能進(jìn)行流建模和解碼的問題,并且依靠截?cái)?,?shí)現(xiàn)了對(duì)長句子的高精準(zhǔn)的注意力建模,同時(shí)也解決了CTC模型的插入或刪除錯(cuò)誤對(duì)注意力模型的影響。接下來對(duì)百度語音識(shí)別采用的模型即流式多級(jí)的截?cái)嘧⒁饬δP停⊿MLTA)進(jìn)行簡略介紹。

      SMLTA模型使用CTC(一種語音識(shí)別算法)的尖峰信息對(duì)連續(xù)語音流進(jìn)行截?cái)?,然后在每一個(gè)截?cái)嗟恼Z音小段上進(jìn)行當(dāng)前建模單元的注意力建模。這樣把原來的全局的整句Attention建模,變成了局部語音小段的Attention的建模。同時(shí),為了克服CTC模型不可避免的插入刪除錯(cuò)誤對(duì)系統(tǒng)造成的影響,該算法引入一種特殊的多級(jí)Attention機(jī)制,實(shí)現(xiàn)特征層層遞進(jìn)的更精準(zhǔn)的特征選擇。

      最終,這種創(chuàng)新的建模方法識(shí)別率不但超越了傳統(tǒng)的全局Attention建模,同時(shí)還能夠保持計(jì)算量、解碼速度等在線資源耗費(fèi)和傳統(tǒng)CTC模型持平。

      六、手語手勢(shì)識(shí)別與輸出

      系統(tǒng)操作界面有四個(gè)功能選項(xiàng),分別為獲取手勢(shì)、識(shí)別手勢(shì)、學(xué)習(xí)手勢(shì)、操作提示。

      系統(tǒng)啟動(dòng)后打開攝像頭獲取手勢(shì)視頻,錄制的手勢(shì)視頻保存在手勢(shì)視頻文件夾中,并將視頻逐幀轉(zhuǎn)為成一張一張的圖片保存在手勢(shì)圖片文件夾下,方便后續(xù)預(yù)處理操作。

      將手勢(shì)圖片文件夾下的手勢(shì)圖片送入已訓(xùn)練好的CNN模型進(jìn)行手勢(shì)識(shí)別,判斷手勢(shì)動(dòng)作代表的詞義,將其與數(shù)據(jù)庫進(jìn)行比對(duì),匹配出相同詞義的手勢(shì)圖片后輸出,并將詞義打印在顯示結(jié)果處。

      正常人利用麥克輸入一個(gè)詞或一段話的音頻信號(hào),通過語音識(shí)別模塊翻譯成文本。翻譯好的文本經(jīng)過分詞后會(huì)和數(shù)據(jù)庫中保存的各手勢(shì)詞義進(jìn)行比對(duì),匹配成功的手勢(shì)將從數(shù)據(jù)庫中輸出對(duì)應(yīng)的視頻文件給用戶,以供學(xué)習(xí)。

      七、實(shí)驗(yàn)與結(jié)論

      本文使用的實(shí)驗(yàn)環(huán)境為: NVIDIA JETSON TX2 開發(fā)板,Ubuntu 16.04操作系統(tǒng),TensorFlow1.13。

      隨機(jī)選取5種手勢(shì)對(duì)系統(tǒng)進(jìn)行測(cè)試試驗(yàn)。實(shí)驗(yàn)中,每種手勢(shì)由5個(gè)實(shí)驗(yàn)者各做10次,共得到250個(gè)手勢(shì)視頻片段,系統(tǒng)對(duì)這250個(gè)視頻片段進(jìn)行手勢(shì)識(shí)別,識(shí)別結(jié)果如表1所示。

      表中各種手勢(shì)的平均識(shí)別率為89. 6%,試驗(yàn)結(jié)果表明,本文的手識(shí)別方法具有較高的精確度。但系統(tǒng)可以識(shí)別的手勢(shì)種類較少,因此,下一步的工作將增加手勢(shì)的種類,并為了實(shí)際需求將加入動(dòng)態(tài)手語識(shí)別。

      參考文獻(xiàn)

      [1]王麗光,張根源,劉子龍.基于單目視覺的實(shí)時(shí)手語識(shí)別系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].電子科技,2017,30(3):131.

      [2]李亞麗,王敏,李靜.遷移學(xué)習(xí)的研究現(xiàn)狀[J].時(shí)代教育,2014,09(169):222.

      [3]BG大龍.【專題知識(shí)】詳解經(jīng)典CNN結(jié)構(gòu)—VGGNet原理[EB/OL].https://zhuanlan.zhihu.com/p/79258431,2019-08-25.

      [4]洞察網(wǎng).百度提出截?cái)嘧⒁饬δP蚐MLTA,第一個(gè)注意力模型的語音大規(guī)模上線[EB/OL].https://tech.china.com/article/20190116/kejiyuan1205235862.html?qq-pf-to=pcqq.c2c,2019-01-16.

      [5]曉坤、思源.超越整句的流式多級(jí)Attention:解密百度輸入法背后的語音識(shí)別模型[EB/OL].https://zhuanlan.zhihu.com/p/55330861,2019-01-20.

      猜你喜歡
      卷積神經(jīng)網(wǎng)絡(luò)手語
      手語視覺轉(zhuǎn)譯的創(chuàng)新設(shè)計(jì)研究
      包裝工程(2023年24期)2023-12-27 09:19:52
      自然手語在聾人大學(xué)生手語中的使用調(diào)查研究——以南京特殊教育師范學(xué)院為例
      活力(2019年15期)2019-09-25 07:23:06
      基于卷積神經(jīng)網(wǎng)絡(luò)溫室智能大棚監(jiān)控系統(tǒng)的研究
      基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識(shí)別算法
      科學(xué)認(rèn)識(shí)中國手語,努力提高應(yīng)用水平
      深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
      基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
      軟件工程(2016年8期)2016-10-25 15:47:34
      基于卷積神經(jīng)網(wǎng)絡(luò)的樹葉識(shí)別的算法的研究
      奇怪的手語圖
      奇怪的手語圖
      将乐县| 旬阳县| 永定县| 金乡县| 东丰县| 永城市| 新巴尔虎左旗| 诏安县| 永吉县| 佛山市| 育儿| 青州市| 潍坊市| 湄潭县| 威海市| 花莲市| 道孚县| 商城县| 随州市| 呼图壁县| 保德县| 西平县| 黄浦区| 凌源市| 甘肃省| 玛沁县| 永善县| 从化市| 科技| 昌宁县| 乐昌市| 关岭| 荔波县| 通州区| 达孜县| 武冈市| 嘉善县| 北碚区| 淮阳县| 潞西市| 正安县|