• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      中國手語識(shí)別方法及技術(shù)綜述

      2024-05-18 22:25:20蔣賢維孫計(jì)領(lǐng)張艷瓊王立平蔣小艷韓雪
      現(xiàn)代特殊教育 2024年6期
      關(guān)鍵詞:深度神經(jīng)網(wǎng)絡(luò)遷移學(xué)習(xí)語料庫

      蔣賢維 孫計(jì)領(lǐng) 張艷瓊 王立平 蔣小艷 韓雪

      【摘要】 中國手語具有自己獨(dú)特的文化內(nèi)涵和復(fù)雜表達(dá),是近3000萬聽障人士融入社會(huì)的重要手段。手語識(shí)別技術(shù)能幫助聽障人士走出信息孤島,和健聽人建立有效溝通。中國手語識(shí)別方法大致經(jīng)歷了傳統(tǒng)技術(shù)識(shí)別和現(xiàn)代智能識(shí)別兩個(gè)時(shí)期。前者主要包含數(shù)據(jù)收集、預(yù)處理、特征提取和分類識(shí)別四個(gè)主要階段,主流技術(shù)有HMMs、SVM和DTW等,基于手語手形數(shù)據(jù)完成識(shí)別,不依賴海量樣本數(shù)據(jù);后者主要利用深度神經(jīng)網(wǎng)絡(luò)和人工智能技術(shù),強(qiáng)調(diào)深度學(xué)習(xí),遷移學(xué)習(xí)和技術(shù)融合,模型對(duì)樣本數(shù)據(jù)量的依賴程度較高。我國已經(jīng)開始廣泛建設(shè)各類手語語料庫,但需要進(jìn)一步規(guī)范和推廣。

      【關(guān)鍵詞】 手語識(shí)別技術(shù);語料庫;深度神經(jīng)網(wǎng)絡(luò);遷移學(xué)習(xí)

      【中圖分類號(hào)】 G760

      【作者簡介】 蔣賢維,副教授,南京特殊教育師范學(xué)院數(shù)學(xué)與信息科學(xué)學(xué)院(南京,210038),jxw@njts.edu.cn;孫計(jì)領(lǐng)、張艷瓊、蔣小艷,副教授,南京特殊教育師范學(xué)院數(shù)學(xué)與信息科學(xué)學(xué)院(南京,210038);王立平,教授,南京特殊教育師范學(xué)院數(shù)學(xué)與信息科學(xué)學(xué)院(南京,210038);韓雪,講師,南京特殊教育師范學(xué)院數(shù)學(xué)與信息科學(xué)學(xué)院(南京,210038)。

      一、引言

      調(diào)查數(shù)據(jù)表明,作為我國殘疾人群體中占比最大的聽障人士,其數(shù)量約近3000萬,聽障人士能進(jìn)行有效溝通,才能打破信息孤島,融入社會(huì)[1]。手語是聽障人士用于交流的重要手段。作為一種結(jié)構(gòu)化的手勢形式,它通過手形、運(yùn)動(dòng)、位置、運(yùn)動(dòng)方向和非手控特征等組合來傳遞信息。中國手語更是一種特殊的表達(dá)方式,具有自己獨(dú)特的文化意義和審美意義,既結(jié)合了漢語的音、義來傳遞和表達(dá)語義,又以手勢張揚(yáng)漢語的特色,體現(xiàn)文化審美。手語識(shí)別指利用計(jì)算機(jī)技術(shù)將手語轉(zhuǎn)換成其他可理解的信息,如自然語言、文本、音頻、圖像、視頻等。目標(biāo)是自動(dòng)將手語表達(dá)翻譯成相應(yīng)的手語注釋。由于手語詞匯量大,語義豐富,表達(dá)方式多樣,語法結(jié)構(gòu)復(fù)雜,因此手語識(shí)別困難較多,是復(fù)合的跨學(xué)科挑戰(zhàn)。但手語識(shí)別可廣泛應(yīng)用于日常交流、工作學(xué)習(xí)、翻譯研究等,尤其是有益于各類特殊教育學(xué)校、有殘疾學(xué)生就讀的普通學(xué)校、殘疾人康復(fù)機(jī)構(gòu)的從業(yè)人員,特殊教育行政管理、科研人員和師生,以及熱心特殊教育的社會(huì)各界人士,甚至還可以擴(kuò)展到臨近及相似的其他領(lǐng)域。因此,手語識(shí)別方法及技術(shù)研究具有深遠(yuǎn)的意義,它有助于特殊教育事業(yè)發(fā)展,有助于特殊兒童少年群體成長和特殊教育教師業(yè)務(wù)提升。本文基于近20年的中國手語識(shí)別方法及技術(shù)相關(guān)論文及數(shù)據(jù),分別從傳統(tǒng)手語識(shí)別方法和現(xiàn)代手語識(shí)別方法兩條主線,探討了手語識(shí)別的數(shù)據(jù)集及語料庫建設(shè)、數(shù)據(jù)采集、預(yù)處理、特征提取、分類識(shí)別以及不同類型的深度神經(jīng)網(wǎng)絡(luò)和遷移學(xué)習(xí)等內(nèi)容,分析了中國手語識(shí)別方法及技術(shù)的特點(diǎn),并與國外主流手語識(shí)別方法和技術(shù)作對(duì)比。

      二、數(shù)據(jù)集及語料庫

      語料庫被認(rèn)為是自然語言處理任務(wù)的數(shù)據(jù)集,手語識(shí)別技術(shù)的研究首先要有合適的手語語料庫。世界各國都開展了本國手語語料庫的建設(shè)。澳大利亞手語語料庫AuslanSignbank是目前較為成熟型的手語語料庫,主要用于手語的傳承保護(hù)和詞典編纂[2]。德國孤立詞語料庫有SIGNUM和DGS Kinect 40[3-4],連續(xù)語句語料庫則以天氣預(yù)報(bào)手語平行語料庫PHOENIX Weather 2014為代表[5]。美國手語語料庫有ASLLVD、ASLSKELETON3D、ASLLRP SignBank、WLASL2000和How2Sign[5-10]等。此外,典型代表還有英國手語語料庫、希臘手語語料庫、荷蘭手語語料庫等[11-14]。

      我國《國家手語和盲文規(guī)范化行動(dòng)計(jì)劃(2015—2020年)》和《第二期國家手語和盲文規(guī)范化行動(dòng)計(jì)劃(2021—2025年)》提出,要加強(qiáng)國家手語語料庫規(guī)劃布局,加快手語語料庫技術(shù)規(guī)范建設(shè),為建成能貼近聾人手語語言生活、聾人教育,具有服務(wù)生活交流、服務(wù)教學(xué)、服務(wù)研究功能,權(quán)威的國家手語語料庫提供有力支撐。目前我國的手語語料庫處于建設(shè)和提升階段,具代表性的有復(fù)旦大學(xué)龔群虎的通用手語語料庫項(xiàng)目“基于漢語和部分少數(shù)民族語言的手語語料庫建設(shè)研究”[15];南京特殊教育師范學(xué)院丁勇等人主持的國家語委重大項(xiàng)目“國家手語詞匯語料庫建設(shè)”[16]。此外,一些研究者和團(tuán)隊(duì)也自建了專用的手語語料庫,如中國科學(xué)院計(jì)算研究所與微軟亞洲研究院合作的基于Kinect的手語識(shí)別和翻譯項(xiàng)目拍攝的DEVISIGN數(shù)據(jù)集[17];東北大學(xué)王斐等人創(chuàng)建的NCSL數(shù)據(jù)集[18];黃杰團(tuán)隊(duì)建立的連續(xù)手語數(shù)據(jù)集CSL-100[19];陳曉燕研究中國電視手語傳譯的非手部策略時(shí)建立的樣本語料庫[20];吳蕊珠等人提出的構(gòu)建手語漢語平行語料庫的方案[21];劉學(xué)達(dá)基于上海手語高頻詞建立的上海手語語料庫[22];國家手語和盲文研究中心顧定倩教授團(tuán)隊(duì)主持修訂了《國家通用手語詞典》,收錄了聽力殘疾人語言生活和教育中使用頻率較高、比較穩(wěn)定的手語常用詞8214個(gè)[23];倪蘭篩選出2500個(gè)左右的中國手語常用手勢,編撰了《中國手語教程》[24]。這些語料庫各有特色,肩負(fù)各自的創(chuàng)建使命,即目前的手語語料庫資源建設(shè)大多出于某項(xiàng)研究需求,自定義規(guī)范較多。因此,它們沒有相對(duì)統(tǒng)一的標(biāo)準(zhǔn),無法較好地泛化和推廣,只能局限在某個(gè)局部領(lǐng)域應(yīng)用。由于缺乏合適的語料庫和數(shù)據(jù)集,阻礙了手語研究的進(jìn)一步深度挖掘。

      三、傳統(tǒng)手語識(shí)別方法及技術(shù)

      傳統(tǒng)手語識(shí)別方法主要通過捕獲手部參數(shù)然后轉(zhuǎn)換為相應(yīng)的釋義,機(jī)器學(xué)習(xí)相關(guān)技術(shù)是主流,一般不涉及大模型,對(duì)樣本數(shù)據(jù)量的要求相對(duì)不高。它最常見的兩種方式是基于傳感器和基于視覺的手語識(shí)別。這兩種識(shí)別也可以稱為接觸式和非接觸式手語識(shí)別。從功能性、精度、舒適度和價(jià)格等方面來看,接觸式手語識(shí)別通常精度高、功能強(qiáng)大,但價(jià)格較高;非接觸式手語識(shí)別一般更舒適、方便,價(jià)格較低,但精度相對(duì)較低,所獲得的圖像很容易受到背景的影響,但可以包含面部表情,幫助增強(qiáng)意義識(shí)別。

      由于手語識(shí)別方法及技術(shù)研究中涉及較多專業(yè)術(shù)語和英文縮寫,為了更準(zhǔn)確地理解這些關(guān)鍵詞,聯(lián)通上下文,表1列出了主要識(shí)別方法及技術(shù)的中英文全名及其縮寫詞(按字母排序)。

      接觸式裝備較早應(yīng)用于手勢識(shí)別,典型代表有數(shù)據(jù)手套、肌電信號(hào)臂環(huán)、慣性測量單元(IMU)、WiFi、雷達(dá)、智能手機(jī)、Leap Motion控制器和Kinect等。裝備可以直接檢測人手和各個(gè)關(guān)節(jié)的空間信息,并處理成輸入數(shù)據(jù)。此外,在基于視覺的識(shí)別模型中,相機(jī)是獲取輸入數(shù)據(jù)的主要工具,用于獲取手語圖像和視頻。基于視覺的方法采集成本低、設(shè)備依賴性弱,采集方便,但從視頻流和關(guān)鍵幀中提取特征可能會(huì)帶來額外的計(jì)算開銷;同時(shí),由于膚色、角度、光線等因素,基于視覺的識(shí)別準(zhǔn)確率會(huì)降低。一般可以通過引入高性能計(jì)算機(jī)來解決這些問題。

      如圖1所示,傳統(tǒng)的手語識(shí)別方法大致可以分為數(shù)據(jù)收集、預(yù)處理、特征提取和分類識(shí)別四個(gè)主要階段。每個(gè)階段都引入了不同的技術(shù),構(gòu)成了不同的手語識(shí)別模型和系統(tǒng)。

      (一)數(shù)據(jù)收集

      數(shù)據(jù)手套等設(shè)備是早期手語數(shù)據(jù)收集常用手段,采集的手語特征參數(shù)有手形、運(yùn)動(dòng)軌跡和位置信息,后來一些研究人員開始簡化或減除設(shè)備上復(fù)雜的傳感器以降低成本?;谝曈X的手語識(shí)別中,輸入數(shù)據(jù)大多是預(yù)處理后的表征手語圖像或視頻。此外,體感相機(jī)等可以同時(shí)獲得視覺圖像信息、深度信息和骨骼信息,考慮了多模態(tài)手語信息的獲取。

      (二)預(yù)處理

      為了減少無用信息并捕獲最具代表性的信息,在提取特征或訓(xùn)練模型之前需要執(zhí)行預(yù)處理。常用的預(yù)處理操作包括圖像調(diào)整、形態(tài)變換、灰度轉(zhuǎn)換、過濾、降噪、增強(qiáng)和歸一化等。在手語識(shí)別研究中,膚色檢測和過濾、RGB- HSV轉(zhuǎn)換、灰度轉(zhuǎn)換、手部分割和檢測等方法常常被用來減少計(jì)算量、提高計(jì)算效率和獲得ROI。

      (三)特征提取

      特征提取是指獲取輸入數(shù)據(jù)中需要的部分并轉(zhuǎn)化為特征集。常用的特征提取方法有:灰度共生矩陣(GLCM),定向梯度直方圖(HOG),小波熵(WE),主成分分析(PCA),Hu矩不變量(HMI),尺度不變特征變換(SIFT),傅立葉描述符(FD),加速魯棒特征(SURF),潛在狄利克雷分配(LDA)等。

      其中,灰度共生矩陣(GLCM)是一種基于灰度空間相關(guān)特性來表示紋理的方法。如圖2所示,由于紋理是由空間位置上灰度反復(fù)變化形成,因此,圖像空間中任意兩個(gè)像素之間必然有灰度關(guān)系,這種關(guān)系稱為圖像中灰度的空間相關(guān)特性。1973年,Haralick等人首次提出使用灰度共生矩陣來描述紋理特征[25]。國內(nèi)高亞嵐等人使用灰度共生矩陣和模糊支持向量機(jī)進(jìn)行中國手語手指語識(shí)別,準(zhǔn)確率達(dá)到86.7%[26]。

      方向梯度直方圖特征是一種能夠快速描述物體局部梯度特征的描述符[27]。定向梯度直方圖(HOG)是密集網(wǎng)格中局部方向梯度的歸一化直方圖,它是一種廣泛應(yīng)用于計(jì)算機(jī)視覺和圖像處理中的特征描述方法。包括物體方向在內(nèi),HOG對(duì)于幾何變換和光度轉(zhuǎn)換來說具有不變性[28]。此外,HOG還可以將樣本數(shù)據(jù)轉(zhuǎn)換到稀疏空間。因此,它特別適合圖像中的目標(biāo)檢測。如圖3所示,給出了HOG算法實(shí)現(xiàn)的主要流程。Mou等人提出了一種基于HOG特征的稀疏編碼手語識(shí)別方法[29]。其中,手語識(shí)別通過監(jiān)督、區(qū)分和基于學(xué)習(xí)加權(quán)局部特征的面向事件的字典被表述為稀疏表示問題。提取出每類手語樣本的HOG特征,然后使用LC-KSVD算法學(xué)習(xí)面向事件和面向判別的詞典。

      小波熵(WE)是離散小波變換(DWT)和熵計(jì)算的組合方法,常用于處理復(fù)雜信號(hào)的時(shí)間特征。由于使用離散小波變換會(huì)增加計(jì)算量和存儲(chǔ)量,因此引入熵來提高性能,熵表示圖像紋理和信息不確定性的隨機(jī)度量。小波熵可以定量地衡量信息分布的有序性和無序性,定性地反映一些有用的信息。圖4描述了一個(gè)二階二維離散小波變換的過程。朱兆松等人提出了一種結(jié)合小波熵和支持向量機(jī)(WE-SVM)的中國手語識(shí)別方法,總體精度達(dá)到85.69±0.59%[30]。

      圖像匹配是計(jì)算機(jī)視覺領(lǐng)域的重要研究內(nèi)容,在圖像處理中普遍采用尺度不變特征變換(SIFT),它可以對(duì)圖像中的關(guān)鍵點(diǎn)進(jìn)行檢測,具有尺度不變性。SIFT的不變性主要體現(xiàn)在圖像旋轉(zhuǎn)和縮放上,對(duì)光照和拍攝角度僅保持部分不變。尺度不變特征變換算法生成圖像特征集主要有四個(gè)階段:尺度空間極值檢測;關(guān)鍵點(diǎn)定位;方向分配;關(guān)鍵點(diǎn)描述。該算法的本質(zhì)是關(guān)鍵點(diǎn)檢測和描述符生成。Tharwat等人提出了基于尺度不變特征變換的方法構(gòu)建阿拉伯手語識(shí)別系統(tǒng)[31]。

      此外,主成分分析(PCA)作為一種使用正交變換將相關(guān)變量觀測值更改為不相關(guān)變量值的數(shù)學(xué)運(yùn)算,其變換本質(zhì)是一種利用低維子空間來近似某個(gè)向量或圖像。其優(yōu)點(diǎn)是能夠在充分保留有用信息的基礎(chǔ)上有效降低原始特征向量維數(shù),降低內(nèi)存,減少計(jì)算量。Lowe提出了一種集成主成分分析、線性判別分析和支持向量機(jī)的新型層次分類方案,取得了更高的準(zhǔn)確率[32]。Hu矩不變(HMI)可以用于不復(fù)雜的紋理特征,能較好描述目標(biāo)形狀。傅里葉描述符(FD)被定義為描述物體邊界曲線信號(hào)的頻域分析。這些曲線與原始運(yùn)動(dòng)和旋轉(zhuǎn)無關(guān)。FD通常需要進(jìn)行歸一化,通過低頻分量來計(jì)算手勢圖像的相似度差異。加速魯棒特征(SURF)的穩(wěn)健性在圖像變換中表現(xiàn)較好,特征提取速度也比尺度不變特征變換(SIFT)更快,但需要高品質(zhì)的圖像,受環(huán)境影響較大,因此并不實(shí)用。

      (四)分類識(shí)別

      分類本質(zhì)是找到一個(gè)函數(shù)來確定輸入數(shù)據(jù)所屬的類別。分類的準(zhǔn)確率與構(gòu)建方法、待分類數(shù)據(jù)特征以及訓(xùn)練樣本數(shù)量等因素密切相關(guān)。機(jī)器學(xué)習(xí)模型中常見分類器有隱式馬爾可夫模型(HMMs),支持向量機(jī)(SVM),動(dòng)態(tài)時(shí)間規(guī)整(DTW),長短期記憶(LSTM),隨機(jī)森林(RF),k近鄰(k-NN),貝葉斯分類器(NBC),相關(guān)向量機(jī)(RVM),AdaBoost多標(biāo)簽多類分類器等。

      其中,隱式馬爾可夫模型(HMMs)是用概率表示變量的傳統(tǒng)馬爾可夫模型改進(jìn)版本,通常被引入統(tǒng)計(jì)模式分析中[33]。當(dāng)HMMs應(yīng)用于手勢識(shí)別系統(tǒng)構(gòu)建分類器時(shí),主要涉及學(xué)習(xí)和評(píng)估兩個(gè)過程。學(xué)習(xí)應(yīng)用于手勢建模過程,可以理解為隱馬爾可夫模型的訓(xùn)練問題;評(píng)估應(yīng)用于手勢識(shí)別過程,分類器建立后,采用前向算法計(jì)算先驗(yàn)概率,并對(duì)輸入的觀察序列進(jìn)行判別。HMMs在一定程度上對(duì)時(shí)間軸上的局部變形(壓縮和擴(kuò)展)具有不變性,因此被廣泛應(yīng)用于自然語言建模、在線手寫識(shí)別和生物序列分析等領(lǐng)域。陳梯等人基于快速魯棒性特征和隱馬爾可夫模型對(duì)手語視頻中的8種手勢進(jìn)行識(shí)別,平均識(shí)別率達(dá)到93%,能有效克服光照、角度和復(fù)雜背景的影響[34]。

      支持向量機(jī)(SVM)是一種監(jiān)督學(xué)習(xí)方法,擁有優(yōu)越的泛化能力、更高的精度和精細(xì)的數(shù)學(xué)易處理性等優(yōu)點(diǎn),但不能處理序列關(guān)系,不適用動(dòng)態(tài)手語識(shí)別[35]。劉小建等人選擇非線性徑向基函數(shù)(RBF),利用網(wǎng)格搜索方法調(diào)整確定SVM參數(shù),實(shí)現(xiàn)了高效、準(zhǔn)確的手勢識(shí)別[36]。

      動(dòng)態(tài)時(shí)間規(guī)整(DTW)可以將一個(gè)復(fù)雜的全局優(yōu)化問題逐步轉(zhuǎn)化為多個(gè)局部優(yōu)化問題,因此被廣泛應(yīng)用于語音識(shí)別、動(dòng)作識(shí)別、數(shù)據(jù)挖掘和信息檢索等領(lǐng)域。由于手語基于時(shí)間序列表達(dá),只需要計(jì)算兩條手語表達(dá)數(shù)據(jù)之間的距離即可計(jì)算相似度。識(shí)別時(shí),將待識(shí)別與參考手語特征序列依次進(jìn)行匹配,選擇輸出的結(jié)果必須是最小總失真且不大于識(shí)別閾值的。該算法識(shí)別精度高、系統(tǒng)復(fù)雜度低,但匹配計(jì)算開銷較大。張露提出了基于DTW單個(gè)手語識(shí)別算法,對(duì)數(shù)字0—9進(jìn)行檢測并取得良好識(shí)別效果[37]。魏秋月等人采用一種改進(jìn)的DTW算法對(duì)特征數(shù)據(jù)進(jìn)行模板訓(xùn)練,實(shí)現(xiàn)了基于軌跡匹配的動(dòng)態(tài)手勢識(shí)別,在14種手勢上獲得了98.7%的平均識(shí)別率[38]。

      長短期記憶(LSTM)網(wǎng)絡(luò)本質(zhì)上是一種循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),通過增加一個(gè)處理器解決了傳統(tǒng)RNN中存在的梯度消失問題[39]。其對(duì)間隙長度相對(duì)不敏感,通過為RNN提供可以持續(xù)數(shù)千個(gè)時(shí)間步的短期記憶,從而實(shí)現(xiàn)“長短期記憶”。LSTM不僅可以檢測手語的時(shí)間變化,還可以學(xué)習(xí)手勢變化之間的對(duì)應(yīng)關(guān)系,從而增強(qiáng)手語的分類識(shí)別能力。毛晨思提出了基于卷積網(wǎng)絡(luò)和長短時(shí)記憶網(wǎng)絡(luò)的中國手語詞識(shí)別,識(shí)別率達(dá)到了98.2%[40]。

      隨機(jī)森林(RF)由LeoBreiman于2001年提出,該算法在許多實(shí)際任務(wù)中表現(xiàn)出很強(qiáng)的性能。隨機(jī)森林分類是由多種決策樹分類模型組成復(fù)合分類模型。其基本思想是首先通過自舉采樣從原始訓(xùn)練集中提取m個(gè)樣本集,每個(gè)樣本集的樣本量保持不變;其次,對(duì)這m個(gè)樣本集建構(gòu)對(duì)應(yīng)m個(gè)決策樹模型,并得到m個(gè)分類結(jié)果;然后基于m個(gè)分類結(jié)果對(duì)每條記錄進(jìn)行投票并確定其最終分類。隨機(jī)森林可以為一些先驗(yàn)知識(shí)模糊、規(guī)則不明確、約束不完全、數(shù)據(jù)不完整的應(yīng)用問題提供更好的解決方案。其缺點(diǎn)是會(huì)因決策樹增加帶來泛化誤差。如Su等人提出了基于ACC和sEMG的非視覺手語識(shí)別方法,運(yùn)用隨機(jī)森林進(jìn)行分析,識(shí)別率為98.25%,效果良好[41]。

      四、現(xiàn)代手語識(shí)別方法及模型

      傳統(tǒng)手語識(shí)別方法提供了實(shí)用的解決方案,隨著人工智能的崛起和大模型的推廣,新技術(shù)和新方法成為研究者新的追求目標(biāo)。尤其是近年來,深度學(xué)習(xí)、遷移學(xué)習(xí)以及基于深度神經(jīng)網(wǎng)絡(luò)的混合網(wǎng)絡(luò)模型等,為手語識(shí)別提供了更好的解決方案。

      (一)卷積神經(jīng)網(wǎng)絡(luò)

      卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一種具有卷積計(jì)算功能和深層結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò)。它利用多層疊加的方式從低層特征提取到高層特征,模擬了人腦的層次結(jié)構(gòu)功能。由于其強(qiáng)大的特征提取能力和對(duì)圖像信息有效、準(zhǔn)確的分類能力,被認(rèn)為是識(shí)別和分類領(lǐng)域最具代表性的深度神經(jīng)網(wǎng)絡(luò)。典型的卷積神經(jīng)網(wǎng)絡(luò)(如圖5所示)由多個(gè)層組成,包括輸入層、卷積層、池化層、全連接層和輸出層。其中,卷積層通過卷積運(yùn)算進(jìn)行特征提?。怀鼗瘜涌梢圆粩鄿p小數(shù)據(jù)的空間大小,從而減少參數(shù)和計(jì)算的數(shù)量;全連接層扮演了“分類器”的角色。

      大數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)模型性能隨著樣本數(shù)量增加而提高,同樣對(duì)樣本量和網(wǎng)絡(luò)訓(xùn)練提出了更高的要求。簡單的CNN并不能獲得更好的性能,因此,各種優(yōu)化算法被融入卷積神經(jīng)網(wǎng)絡(luò)模型中。例如,批量歸一化(BN)技術(shù)可以使層的輸入保持更均勻分布。Dropout技術(shù)可以細(xì)化網(wǎng)絡(luò),有效減少過擬合,并實(shí)現(xiàn)一定程度的正則化。ReLU函數(shù)可以加速隨機(jī)梯度下降的收斂速度[42]。數(shù)據(jù)增強(qiáng)(DA)技術(shù)可以有效擴(kuò)展數(shù)據(jù)集并有助于緩解過度擬合[43]。趙一丹提出將CNN和LSTM相結(jié)合識(shí)別特定手語視頻,實(shí)驗(yàn)識(shí)別準(zhǔn)確率為99.256%[44]。

      盡管CNN具有強(qiáng)大的特征提取能力,但其僅適用于處理單幀圖像數(shù)據(jù)。手語運(yùn)動(dòng)過程表達(dá)涉及幀間的相關(guān)信息,3D卷積神經(jīng)網(wǎng)絡(luò)(3D-CNN)提供了解決方案。3D-CNN主要解決圖片之間的相關(guān)性,增加了新的維度信息。3D-CNN可以捕獲空間和時(shí)間維度的判別特征。楊光義等人提出一種基于注意力機(jī)制的復(fù)雜背景連續(xù)手語識(shí)別算法,并在大規(guī)模連續(xù)手語數(shù)據(jù)集CSL100上取得優(yōu)異表現(xiàn)[45]。

      (二)YOLO

      YOLO(You Only Look Once)是計(jì)算機(jī)視覺領(lǐng)域著名的模型之一。該方法將任務(wù)合并為回歸問題,無需將檢測結(jié)果分為分類和回歸,適用于實(shí)時(shí)物體檢測任務(wù)。YOLO的發(fā)展經(jīng)歷了YOLO V1到Y(jié)OLO V8。其中,YOLO V1算法將目標(biāo)檢測定義為單一回歸問題,速度比傳統(tǒng)算法要快得多。YOLO V1的優(yōu)點(diǎn)是可以高速實(shí)時(shí)檢測物體,理解廣義物體表示,并且模型不會(huì)過于復(fù)雜,其缺點(diǎn)是當(dāng)小物體出現(xiàn)在簇或組中時(shí),模型的效果較差;YOLO V2在速度、精度和檢測大量物體等方面都做出了較大改進(jìn);YOLO V3添加了邏輯回歸來預(yù)測每個(gè)邊界框的得分,還引入了Faster R-CNN方法;YOLO V4通過添加和組合一些新功能(加權(quán)殘差連接、跨階段部分連接、跨小批量歸一化、自對(duì)抗訓(xùn)練等),實(shí)現(xiàn)了更優(yōu)越和更高效性能;YOLO V5是一種單階段目標(biāo)檢測算法,框架結(jié)構(gòu)人性化,集成了大量計(jì)算機(jī)視覺技術(shù),提高了訓(xùn)練速度和物體識(shí)別速度[46]。張曉晨等人提出了一種基于YOLO V5的中國傳統(tǒng)手語拼音數(shù)據(jù)庫模型[47];張強(qiáng)提出了一種基于改進(jìn)的YOLO V3的靜態(tài)手勢實(shí)時(shí)識(shí)別方法,該方法對(duì)流視頻靜態(tài)手勢的平均識(shí)別準(zhǔn)確率為99.1%,對(duì)4個(gè)自定義連續(xù)動(dòng)態(tài)手勢的識(shí)別率為94%[48]。

      (三)膠囊網(wǎng)絡(luò)

      膠囊網(wǎng)絡(luò)(CapsNet)是一種新的深度神經(jīng)網(wǎng)絡(luò)模型,目前主要應(yīng)用于圖像識(shí)別領(lǐng)域。與傳統(tǒng)神經(jīng)元不同,膠囊的輸入和輸出都是向量。向量長度可以理解為傳統(tǒng)神經(jīng)元中的概率,而向量的方向代表其他信息。膠囊網(wǎng)絡(luò)利用基于協(xié)議的動(dòng)態(tài)路由來替代傳統(tǒng)CNN中的最大池化(Max-Pooling)。膠囊將特征檢測的概率定義為其輸出向量長度,特征狀態(tài)描述為向量方向。

      膠囊網(wǎng)絡(luò)(如圖6所示)由六個(gè)神經(jīng)網(wǎng)絡(luò)層組成,包括卷積層、PrimaryCaps層、DigitCaps層、第一全連接層、第二全連接層和第三全連接層。前三層是編碼器,后三層是解碼器。

      CapsNet對(duì)噪聲數(shù)據(jù)更具彈性,并且還可以適應(yīng)輸入數(shù)據(jù)的仿射變換。同時(shí),膠囊網(wǎng)絡(luò)也被證明可以減少訓(xùn)練時(shí)間并最大限度地減少參數(shù)數(shù)量。它可以用來承擔(dān)機(jī)器翻譯、自動(dòng)駕駛、手寫字符和文本識(shí)別、目標(biāo)檢測、情感檢測等任務(wù)。郝子煜等人設(shè)計(jì)了基于CapsNet的中國手指語識(shí)別算法,并獲得了較好的識(shí)別效果[49]。

      (四)遷移學(xué)習(xí)及融合網(wǎng)絡(luò)

      遷移學(xué)習(xí)(transfer learning)主要有兩種策略,一是使用特定任務(wù)的標(biāo)注語料,用監(jiān)督學(xué)習(xí)的方式對(duì)預(yù)訓(xùn)練模型參數(shù)進(jìn)行微調(diào)(fine-tune),取得更好性能。因?yàn)閺念^訓(xùn)練一個(gè)預(yù)訓(xùn)練語言模型,尤其是大模型,需要海量的數(shù)據(jù),時(shí)間和計(jì)算成本非常高。因此,共享語言模型非常重要,只要在預(yù)訓(xùn)練好的模型權(quán)重上構(gòu)建模型,就可以大幅地降低計(jì)算成本。二是凍結(jié)并重新訓(xùn)練,這涉及凍結(jié)除最后一層之外的所有層(權(quán)重不更新)并僅訓(xùn)練最后一層。如圖7所示,遷移學(xué)習(xí)的好處是預(yù)訓(xùn)練模型很可能已有類似的數(shù)據(jù)集,通過激發(fā)在預(yù)訓(xùn)練過程中獲得的知識(shí),從海量數(shù)據(jù)中獲得統(tǒng)計(jì)理解能力。由于模型已經(jīng)在大量數(shù)據(jù)上進(jìn)行過預(yù)訓(xùn)練,后續(xù)只需要很少的數(shù)據(jù)量就可以達(dá)到不錯(cuò)性能。此外,隨著人工智能和神經(jīng)網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,各種先進(jìn)的網(wǎng)絡(luò)模型和技術(shù)不斷涌現(xiàn)。集成了多種機(jī)器學(xué)習(xí)技術(shù)的融合網(wǎng)絡(luò),可以更有效地實(shí)現(xiàn)中國手語的識(shí)別和翻譯。大多數(shù)情況下,往往也會(huì)結(jié)合多種主流技術(shù)和先進(jìn)方法來實(shí)現(xiàn)更高效的網(wǎng)絡(luò)模型建構(gòu)。

      五、國內(nèi)外發(fā)展對(duì)比

      中國手語泛指中國聾人使用的手語,理論上匯集了少數(shù)民族、港澳臺(tái)地區(qū)和各類地方手語。但由于目前中國通用手語的標(biāo)準(zhǔn)化僅針對(duì)中國大陸,因此“中國手語”一詞又僅指大陸聽障人使用的手語。手語識(shí)別可以分為靜態(tài)手語識(shí)別和動(dòng)態(tài)手語識(shí)別兩大類,對(duì)應(yīng)的還可以細(xì)分為手指語識(shí)別、孤立詞識(shí)別和連續(xù)手語識(shí)別,因此,研究者們提出了各種不同的識(shí)別方法和技術(shù),并取得了不同的成效。如手指語識(shí)別由于內(nèi)容組成有限,屬于靜態(tài)圖像識(shí)別,背景環(huán)境相對(duì)可控,識(shí)別準(zhǔn)確率幾乎都在90%以上;孤立詞識(shí)別介于手指語和連續(xù)手語識(shí)別之間,傳統(tǒng)方法和現(xiàn)代智能方法都有提及,識(shí)別性能也相對(duì)較高;連續(xù)手語識(shí)別由于涉及時(shí)間動(dòng)態(tài)和上下文信息,因此更具挑戰(zhàn)。卷積神經(jīng)網(wǎng)絡(luò)、3DCNN、循環(huán)神經(jīng)網(wǎng)絡(luò)及其變體(LSTM、GRU等)、Transformer模型等帶來了解決之道,但同時(shí)也面臨海量數(shù)據(jù)量級(jí)和強(qiáng)大算法負(fù)載的考驗(yàn)。

      基于2003至2023年的中國手語識(shí)別方法及技術(shù)相關(guān)論文及數(shù)據(jù)調(diào)研發(fā)現(xiàn)(如圖8所示),中國手語識(shí)別的研究論文數(shù)量呈穩(wěn)步增長趨勢。其中,2012年前處于緩慢增長階段,從2013年開始,手語識(shí)別的研究論文呈現(xiàn)高增長趨勢。尤其從2014年開始,文獻(xiàn)發(fā)表數(shù)明顯增長,這主要得益于計(jì)算機(jī)視覺和人工智能技術(shù)的迅猛發(fā)展。同期,中國手語識(shí)別也從傳統(tǒng)的研究方法轉(zhuǎn)向基于視覺,尤其是深度神經(jīng)網(wǎng)絡(luò)等新方法、新技術(shù)。2019年以來這一趨勢得到了更明確的印證。

      傳統(tǒng)技術(shù)的手語識(shí)別階段(時(shí)間大約為2000年至2011年),HMMs、SVM和DTW等是主流技術(shù)。特別是將HMMs技術(shù)引入到手語識(shí)別領(lǐng)域,對(duì)手語的時(shí)序建模取得了較好效果。這一階段,手語識(shí)別的研究主要集中在手指語和孤立靜態(tài)手語(手勢)識(shí)別,利用數(shù)據(jù)手套獲取數(shù)據(jù)集?,F(xiàn)代人工智能技術(shù)階段(時(shí)間大約從2012至今),CNN、3D-CNN、YOLO和各類深度神經(jīng)網(wǎng)絡(luò)及其變型(如ResNet、VGG-Nets、Faster R-CNN、CapsNet等)出現(xiàn)。這一階段,手語識(shí)別的研究主要集中在大規(guī)模手語和實(shí)時(shí)、連續(xù)手語識(shí)別,利用數(shù)據(jù)傳感器(如Kinect、Leap Motin等)和高清攝影攝像獲取更高質(zhì)量的數(shù)據(jù)集。同時(shí),面部表情識(shí)別、復(fù)雜背景處理和3D手語識(shí)別等也引起了學(xué)者的研究興趣。另外,前期運(yùn)用廣泛的HMMs、SVM等技術(shù)也被嫁接應(yīng)用到一些混合模型。總體而言,手語識(shí)別從傳統(tǒng)技術(shù)向基于計(jì)算機(jī)視覺和人工智能轉(zhuǎn)變,從單一模型向混合模型轉(zhuǎn)變。

      在橫向?qū)Ρ壬希袊终Z識(shí)別與其他手語識(shí)別技術(shù)研究典型代表(如美國手語、印度手語和阿拉伯手語等)相比,處于伯仲之間。如表2所示,其他國家的手語識(shí)別也采用了豐富的識(shí)別方法和技術(shù),機(jī)器學(xué)習(xí)中的支持向量機(jī)和隱式馬爾科夫模型在前期也應(yīng)用頻繁,近年來各國也更偏向于各類深度神經(jīng)網(wǎng)絡(luò)和多模型融合。英美手語有典型的主題和注解型結(jié)構(gòu),英國手語里普遍采用“賓語—主語—?jiǎng)釉~”語序句式,美國手語的簡單句多采用“主語—?jiǎng)釉~—賓語”語序。美國手語更多的是一種視覺性語言,不是口頭語言,它用一只或兩只手來打手勢,依靠手部形狀、手勢的空間擺放、打手勢時(shí)手部的方向以及手部運(yùn)動(dòng)等視覺成分來表達(dá)意義,使用美國手勢語不用說話,也不用擴(kuò)聲。相比而言,中國手語表達(dá)蘊(yùn)含了中文的復(fù)雜內(nèi)涵,涉及句型、語法和語義等多個(gè)方面,不像英語系的表達(dá)簡潔明了,僅這點(diǎn)而言,中國手語識(shí)別的難度明顯較大,對(duì)識(shí)別方法和技術(shù)提出了更高的要求。此外,從時(shí)間線上看,國內(nèi)在一些熱點(diǎn)技術(shù)研究上略微滯后。一方面說明我們的創(chuàng)新性還有待提升,同時(shí)也說明中國手語識(shí)別的轉(zhuǎn)化和本土化需要過程。因此,我們需要挖掘一些更好更合適的中國手語識(shí)別方法和技術(shù),反向來引領(lǐng)和指導(dǎo)普遍的手語識(shí)別。

      六、總結(jié)及展望

      本文對(duì)近20年來的中國手語識(shí)別方法和技術(shù)進(jìn)行了回顧和總結(jié),探討了手語識(shí)別的各個(gè)方面,包括手語數(shù)據(jù)集、數(shù)據(jù)采集技術(shù)、特征提取、分類和識(shí)別方法以及不同類型的深度神經(jīng)網(wǎng)絡(luò)、遷移學(xué)習(xí)模型等。研究發(fā)現(xiàn),前期中國手語識(shí)別方法遵循傳統(tǒng)理念,劃分若干主要階段,以捕獲手部參數(shù)為主進(jìn)行分類識(shí)別,不需要海量的研究樣本,主流技術(shù)包括HMMs、SVM、DTW等。后期隨著現(xiàn)代人工智能技術(shù)的快速發(fā)展,基于深度神經(jīng)網(wǎng)絡(luò)的各種識(shí)別方法發(fā)揮著越來越重要的作用。以2012年為分水嶺,中國手語識(shí)別已從傳統(tǒng)研究方法轉(zhuǎn)向基于視覺并融入深度學(xué)習(xí)和遷移學(xué)習(xí),強(qiáng)調(diào)技術(shù)交叉和模型融合。

      雖然目前中國手語識(shí)別整體上取得了良好的綜合評(píng)價(jià)指標(biāo),但由于手語本身和手語數(shù)據(jù)集的獨(dú)特性和復(fù)雜性,仍然存在以下值得研究的問題。

      第一,優(yōu)質(zhì)的數(shù)據(jù)集。多數(shù)中國手語數(shù)據(jù)集規(guī)模過小、樣本過少、不規(guī)范、無法泛化和橫向比較,實(shí)驗(yàn)性質(zhì)的研究占比高,無法應(yīng)用推廣。因此,需要擴(kuò)充樣本,建設(shè)標(biāo)準(zhǔn)化的合適數(shù)據(jù)集。

      第二,高效識(shí)別、精準(zhǔn)識(shí)別。即需要解決手語識(shí)別中實(shí)時(shí)性、魯棒性、高精度和用戶獨(dú)立性問題。同時(shí),為了更準(zhǔn)確地轉(zhuǎn)換釋義,一些手語識(shí)別需要補(bǔ)充連續(xù)手語特征的融合信息以及嘴唇和面部表情的協(xié)調(diào)信息,還需要妥善解決手語行為受背景干擾,光線、角度和操作標(biāo)準(zhǔn)化的影響問題。

      第三,新模型、新算法的使用。算法和模型的迭代更新非常迅速,因此要與時(shí)俱進(jìn),嘗試更好的識(shí)別方法和模型,同時(shí)要注意協(xié)調(diào)模型精度和計(jì)算負(fù)荷的矛盾問題。

      未來,新技術(shù)的不斷發(fā)展和科學(xué)領(lǐng)域的交叉融合必將催化中國手語識(shí)別的進(jìn)步和提升?;旌暇W(wǎng)絡(luò)模型、深度學(xué)習(xí)及人工智能技術(shù)等將進(jìn)一步推動(dòng)手語識(shí)別相關(guān)的理論研究和算法創(chuàng)新,中國手語識(shí)別必將取得更大更高質(zhì)量的發(fā)展。

      【參考文獻(xiàn)】

      [1]閆思伊,薛萬利,袁甜甜.手語識(shí)別與翻譯綜述[J].計(jì)算機(jī)科學(xué)與探索,2022(16):2415-2429.

      [2]Johnston T,Schembri A.Australian sign language(Auslan):An introduction to sign language linguistics[M].New York:Cambridge University Press,2007:1-10.

      [3]Von Aaris U,Kraiss K F.Towards a video corpus for signer-independent continuous sign language recognition[C]. Lisbon:Springer,2007:2-10.

      [4]Cooper H,Ong E J,Pugeault N,et al.Sign language recognition using sub-units[J].The Journal of Machine Learning Research,2012(13):2205-2231.

      [5]Camgoz N C,Hadfield S,Koller O,et al.Neural sign language translation[C]. Salt Lake City:IEEE,2018:7784-7793.

      [6]Neidle C,Thangali A,Sclaroff S.Challenges indevelopment of the American sign language lexicon video dataset(ASLLVD) corpus[C]. Paris:ELRA,2012:1-8.

      [7]De Amorim C C,Zanchettin C.ASLS-keleton 3D and ASL-phono:two novel datasets for the American sign language[J]. ArXiv,2022(3):2-65.

      [8]Neidle C,Oooku A,Metaxas D.ASL video corpora & sign bank:resources available through the American sign language linguistic research project(ASLLRP)[J]. ArXiv,2022(8):78-99.

      [9]Li D,Opazo C R,Yu X,et al.Word-level deep sign language recognition from video:a new large-scale dataset and methods comparison[C]. Snowmass,2020:1459-1469.

      [10]Duarte A,Palaskar S,Ventura L,et al.How 2sign:a large-scale multimodal dataset for continuous Ame-rican sign language[C]. Nashville:IEEE,2021:2735-2744.

      [11]Fenlon J,Cormier K,Rentelis R,et al.BSL sign bank:a lexical database of British sign language[DB/OL].(2022-11-26)[2023-12-15].http://bslsig-nbank.ucl.ac.uk.

      [12]Schembri A,F(xiàn)enlon J,Rentelis R,et al.British sign language corpus project:a corpus of digital video data and annotations of British sign language[DB/OL].(2022-11-26)[2023-12-15].http://www.bslco-rpusproject.org.

      [13]Adaloglou N,Chatzis T,Papastratic I,et al.A comprehensive study on deep learning-based methods for sign language recognition[J].IEEE Transactions on Multimedia,2022(24):1750-1762.

      [14]Radboud Universiteit. NGT corpus[DB/OL].(2022-11-26)[2023-12-15].http://www.ru.nl/cor-pusngt/.

      [15]全國哲學(xué)社會(huì)科學(xué)工作辦公室.基于漢語和部分少數(shù)民族語言的手語語料庫建設(shè)研究[R/OL].(2022-11-26)[2023-12-15].http://www.nopss.gov.cn/GB/352519/355466/.

      [16]趙曉馳,任媛媛,丁勇.國家手語詞匯語料庫的建設(shè)與使用[J].中國特殊教育,2017(1):43-47.

      [17]Chai X,Wang H,Chen X.The DEVISIGN Large vocabulary of Chinese sign language database and baseline evaluations[R]. Beijing:Technical Report VIPL-TR-14-SLR-001,2014.

      [18]Wang F,Du Y X,Wang G R,et al.(2+1)DSLR:an efficient network for video sign language recognition[J].Neural Computing and Applications,2022(34):2413-2423.

      [19]Huang J,Zhou W H,Zhang Q L,et al.Video based sign language recognition without temporal segmenta-tion[C]. Louisiana:AAAI,2018:275.

      [20]陳曉燕.中國電視手語傳譯中的非手部策略[D].廈門:廈門大學(xué),2014.

      [21]吳蕊珠,李晗靜,呂會(huì)華,等.面向ELAN軟件的手語漢語平行語料庫構(gòu)建[J].中文信息學(xué)報(bào),2019(33):43-50.

      [22]劉學(xué)達(dá).中國手語語料庫高頻詞初步分析及標(biāo)注探討[D].上海:上海外國語大學(xué),2022.

      [23]北京師范大學(xué)國家手語和盲文研究中心.國家手語和盲文研究中心主持制定的《國家通用手語常用詞表》發(fā)布[J].教育學(xué)報(bào),2018(3):54-54.

      [24]倪蘭,和子晴.上海手語翻譯服務(wù)需求與現(xiàn)狀調(diào)查[J].中國翻譯,2022(43):113-119.

      [25]Haralick R M,Shanmugam K,Dinstein I H.Textural features for image classification[J].IEEE Transactions on Systems,Man,and Cybernetics,1973(6):610-621.

      [26]Gao Y,Xue C,Wang R,et al.Chinese fingerspelling recognition via gray-level co-occurrence matrix and fuzzy support vector machine[J]. ICST Transactions on e-Education and e-Learning,2020(20):166554.

      [27]Silanon K. Thai finger-spelling recognition using a cascaded classifier based on histogram of orientation gradient features[J].Computational Intelligence and Neuroscience,2017(8):1-11.

      [28]Ming H.A new facial expression recognition method for deep autoencoder[J].Journal of Southwest Normal University:Natural Science Edition,2019(7):81-86.

      [29]Mou Y,Guo Y.Research on sparse coding sign language recognition method based on HOG features[J].Microprocessor,2020(5):50-57.

      [30]Jiang X,Zhu Z.Chinese sign language identifica-tion via wavelet entropy and support vector machine[C]. Dalian:Spinger,2019:726-736.

      [31]Tharwat A,Gaber T,Hassanien A E,et al. Sift-based Arabic sign language recognition system[C].Cham:Springer,2015:359-370.

      [32]Lowe D.Distinctiveimage features from scale-invariant keypoints[J]. International Journal of Com-puter Vision,2004(2):91-110.

      [33]Alexandre L,Salvador S J,Rodrigues J. Pattern vecognition and image analysis[C]. Cham:Springer,2017:419-426.

      [34]陳梯,孫杳如.基于快速魯棒性特征和隱馬爾可夫模型的手語識(shí)別[J].現(xiàn)代計(jì)算機(jī)(專業(yè)版),2018(3):15-18+25.

      [35]Zhang Y,Wang S,Dong Z.Classi-cation of alzh-eimer disease based on structural magnetic resonance imaging by kernel support vector machine decision tree[J]. Progress in Electromagnetics Research,2014(144):171-184.

      [36]劉小建,張?jiān)?基于多特征提取和SVM分類的手勢識(shí)別[J].計(jì)算機(jī)工程與設(shè)計(jì),2017(4):953-958.

      [37]張露.基于DTW的單個(gè)手語識(shí)別算法[J].現(xiàn)代計(jì)算機(jī)(專業(yè)版),2016(8):77-80.

      [38]魏秋月,劉雨帆.基于Kinect和改進(jìn)DTW算法的動(dòng)態(tài)手勢識(shí)別[J].傳感器與微系統(tǒng),2021(11):127-130.

      [39]Sepp H,Jürgen S.Long shortterm memory[J].Neural Computation,1997(8):1735-1780.

      [40]毛晨思.基于卷積網(wǎng)絡(luò)和長短時(shí)記憶網(wǎng)絡(luò)的中國手語詞識(shí)別方法研究[D].合肥:中國科學(xué)技術(shù)大學(xué),2018.

      [41]Su R,Chen X,Cao S,et al.Random forest-based recognition of isolated sign language subwords using data from accelerometers and surface electromyographic sensors[J].Sensors,2016(1):100-105.

      [42]Jiang X,Zhang Y D. Chinese sign language fing-erspelling via six-layer convolutional neural network with leaky rectified linear units for therapy and rehabilitation[J]. Journal of Medical Imaging and Health Informatics,2019(9):2031-2090.

      [43]Jiang X,Lu M,Wang S H. An eight-layer convolutional neural network with stochastic pooling,batch normalization and dropout for fingerspelling recognition of Chinese sign language[J]. Multimedia Tools and Applications,2019(79):5697-15715.

      [44]趙一丹.基于深度學(xué)習(xí)的手語識(shí)別算法研究[D].西安:西安工業(yè)大學(xué),2019.

      [45]楊光義,丁星宇,高毅,等.基于注意力機(jī)制的復(fù)雜背景連續(xù)手語識(shí)別[J].武漢大學(xué)學(xué)報(bào)(理學(xué)版),2023(1):97-105.

      [46]Daniels,Steve,Nanik S,et al.Indonesian sign language recognition using YOLO method[C]. London:IOP Publishing,2021:12-29.

      [47]Zhang X,Lei A,Su X.A Chinese traditional sign language pinyin database model based on YOLOv5[J].Television Technology,2023(4):38-42.

      [48]張強(qiáng).基于改進(jìn)YOLOv3的手勢識(shí)別方法研究[D].合肥:合肥工業(yè)大學(xué),2019.

      [49]郝子煜,阿里甫·庫爾班,李曉紅,等.基于CapsNet的中國手指語識(shí)別[J].計(jì)算機(jī)應(yīng)用研究,2019(10):3157-3159.

      [50]Fatmi R,Rashad S,Integlia R.Comparing ANN,SVM,and HMM based machine learning methods for American sign language recognition using wearable motion sensors[C]. Las Vegas:IEEE,2019:290-297.

      [51]Xie M,Ma X.End-to-end residual neural network with data augmentation for sign language recognition[C].Chengdu:IEEE,2019:1629-1633.

      [52]Plouffe G,Cretu A M. Static and dynamic hand gesture recognition in depth data using dynamic time warping[J].IEEE Trans Instrum Meas,2015(2):305-316.

      [53]Abhishek K S,Qubeley L C K,Ho D.Glove-based hand gesture recognition sign language translator using capacitive touch sensor[C]. Hong Kong:IEEE,2016:334-337.

      [54]Pan T Y,Lo L Y,Yeh C W,et al.Realtime sign language recognition in complex background scene based on a hierarchical clustering classification method[C].Chengdu:IEEE,2016:64-67.

      [55]Susa J A B,Macalisang J R,Sevilla R V,et al. Implementation of security access control using American sign language recognition via deep learning approach[C]. Jamshoro:ICETELL,2022:1-5.

      [56]Amin M S,Rizvi S T H,Mazzei A,et al.Assistive data glove for isolated static postures recognition in American sign language using neural network[J].Electronics,2023(8):1904.

      [57]Wadhawan A,Kumar P.Deeplearning-based sign language recognition system for static signs[J].Neural Computing and Applications,2020(5):7957-7968.

      [58]Raheja J,Mishra A,Chaudhary A.Indian sign language recognition using SVM[J].Pattern Recog-nition and Image Analysis,2016(2):434-441.

      [59]Sajanraj T D,Beena M.Indian sign language numeral recognition using region of interest convoluti-onal neural network[C]. Coimbatore:ICICCT,2018:636-640.

      [60]Suri K,Gupta R.Convolutional neural network array for sign language recognition using wearable IMUs[C]. Noida:SPIN,2019:483-488.

      [61]Vkishore P V,Prasad M V D,Prasad C R,et al.4-camera model for sign language recognition using elliptical fourier descriptors and ANN[C]. Guntur:IEEE,2015:34-38.

      [62] De Castro G Z,Guerra R R,Guimar?es F G.Automatic translation of sign language with multi-stream 3D CNN and generation of artificial depth maps[J].Expert Systems with Applications,2023(2):119394.

      [63]Sidig A A I,Luqman H,Mahmoud S A.Arabic sign language recognition using vision and hand tracking features with HMM[J].International Journal of Intelligent Systems Technologies and Applications,2019(5):430-447.

      [64]Tubaiz N,Shanableh T,Assaleh K.Glove-based continuous Arabic sign language recognition in user-dependent mode[J].IEEE Transactions on Human-Machine Systems,2015(4):526-533.

      [65]Mohandes M,Aliyu S,Deriche M.Arabic sign language recognition using the leap motion controller[C].Cham:Springer,2014:960-965.

      [66]Saleh Y,Issa G.Arabic sign language recognition through deep neural networks fine-tuning[J].iJOE,2020(5):71-83.

      [67]Deriche M,Aliyu S O,Mohandes M. An intelligent Arabic sign language recognition system using a pair of LMCS with GMM based classification[J].IEEE Sensors Journal,2019(18):8067-8078.

      [68]Alawwad R A,Bchir O,Ismail M M B.Arabic sign language recognition using faster R-CNN[J].International Journal of Advanced Computer Science and Applications,2021(3):1-10.

      [69]Latif G,Mohammad N,Khalaf R A l,et al.An automatic Arabic sign language recognition system based on Deep CNN:an assistive system for the deaf and hard of hearing[J].International Journal of Computing and Digital Systems,2020(4):715-724.

      Review of Chinese Sign Language Recognition Methods and Technologies

      JIANG Xianwei ? SUN Jiling ? ZHANG Yanqiong ? WANG Liping ? JIANG Xiaoyan ? HAN Xue

      Abstract:Chinese Sign Language has its own unique cultural connotations and complex expressions,and it is an important means for more than 30 million hearing-impaired people to integrate into society.Sign language recognition technology can assist individuals with hearing impairments in bridging communication gaps and establishing effective communication with those who can hear.Chinese sign language recognition methods have gone through roughly two stages of traditional technology recognition and modern intelligent recognition.The former mainly includes four stages of data collection,preprocessing,feature extraction,and classification recognition.Hidden Markov Models(HMMs),Support Vector Machines(SVM),and Dynamic Time Warping(DTW)are mainstream technologies.It achieves recognition based on hand data without relying on extensive sample data.The latter mainly combines deep neural network and artificial intelligence technology,emphasizing deep learning,transfer learning,and technology integration.The model is highly dependent on the amount of sample data.China has started to extensively develop various sign language corpora,but it requires further standardization and promotion.

      Key words:sign language recognition technologies;corpus,deep neural network,transfer learning

      Authors:JIANG Xianwei,associate professor,School of Mathematics and Information Science,Nanjing Normal University of Special Education(Nanjing,210038),jxw@njts.edu.cn;SUN Jiling,ZHANG Yanqiong,JIANG Xiaoyan,associate professor,School of Mathematics and Information Science,Nanjing Normal University of Special Education(Nanjing,210038);WANG Liping,professor,School of Mathematics and Information Science,Nanjing Normal University of Special Education(Nanjing,210038);HAN Xue,lecturer,School of Mathematics and Information Science,Nanjing Normal University of Special Education(Nanjing,210038).

      (特約編校:張居曉)

      猜你喜歡
      深度神經(jīng)網(wǎng)絡(luò)遷移學(xué)習(xí)語料庫
      《語料庫翻譯文體學(xué)》評(píng)介
      試論基于深度神經(jīng)網(wǎng)絡(luò)的汽車車型識(shí)別問題
      基于多特征融合的跨域情感分類模型研究
      奇異值分解與移移學(xué)習(xí)在電機(jī)故障診斷中的應(yīng)用
      把課文的優(yōu)美表達(dá)存進(jìn)語料庫
      深度神經(jīng)網(wǎng)絡(luò)的發(fā)展現(xiàn)狀
      基于深度神經(jīng)網(wǎng)絡(luò)的身份識(shí)別研究
      基于深度學(xué)習(xí)的目標(biāo)反饋?zhàn)R別系統(tǒng)
      一種基于遷移極速學(xué)習(xí)機(jī)的人體行為識(shí)別模型
      大數(shù)據(jù)環(huán)境下基于遷移學(xué)習(xí)的人體檢測性能提升方法
      台安县| 巧家县| 密山市| 岗巴县| 江安县| 疏勒县| 昭苏县| 上高县| 九江市| 南江县| 教育| 扎赉特旗| 贵南县| 法库县| 景德镇市| 兴安县| 大埔县| 天等县| 平凉市| 阜新| 酉阳| 札达县| 交城县| 抚宁县| 鄂尔多斯市| 云霄县| 双城市| 阿荣旗| 丰台区| 酉阳| 崇仁县| 德惠市| 康乐县| 天水市| 城市| 济南市| 普格县| 明溪县| 黑河市| 铜川市| 团风县|