• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      帶置信度的基于sEMG的無聲語音識別研究

      2020-09-29 07:51:13王鑫喬波楊夢
      電腦知識與技術(shù) 2020年17期
      關(guān)鍵詞:置信度

      王鑫 喬波 楊夢

      摘要:基于表面肌電信號(sEMG)的語音識別是通過面部放置的肌電信號傳感器采集生物電信號進(jìn)行處理識別,過程不依賴于聲學(xué)信號, 可以避免外界噪聲的干擾,可提高強背景噪聲下通訊的準(zhǔn)確性、可靠性以及適應(yīng)場景條件的多變性,因此作為新的替代通訊方式在很多領(lǐng)域和場景被研究且應(yīng)用。因為信號時間軸不一致而無法直接利用機器學(xué)習(xí)算法進(jìn)行識別,本文提出了利用插值法來解決此問題。現(xiàn)有研究的識別結(jié)果沒有提供可信度評估,在高風(fēng)險領(lǐng)域應(yīng)用不足,本文將一致性預(yù)測器(Conformal Predictors)應(yīng)用于基于表面肌電信號的孤立漢字無聲語音識別中,在提高了識別準(zhǔn)確率的同時為預(yù)測結(jié)果提供可靠性評估和保障。

      關(guān)鍵詞: 肌電信號;無聲語音識別;置信度;插值算法;一致性預(yù)測器

      中圖分類號:TN912.34 ? ? ? ?文獻(xiàn)標(biāo)識碼:A

      文章編號:1009-3044(2020)17-0003-04

      Abstract:Silent speech recognition is based on the bioelectric signal collected by the sEMG sensor placed on the face, which is independent of the acoustic signal. It can avoid the interference of external noise, improve the accuracy and reliability of communication under strong background noise, and adapt to the variability of scene conditions. Therefore, as a new alternative communication method, it has been studied and applied in many fields and scenes. At present, the recognition of signal is based on the hidden Markov model, because the time axis of signal is inconsistent, so it can not directly utilize machine learning algorithms. This paper proposes an interpolation method to solve this problem. The existing research results do not provide confidence guarantee, and are insufficient in the high-risk field. In this paper, conformal predictors are applied to the isolated Chinese silent speech recognition based on sEMG signal, which improves the recognition accuracy and provides reliability evaluation and guarantee for the prediction results.

      Key words:sEMG signal; silent speech recognition; confidence measurement; interpolation algorithm; conformal predictor

      1概述

      近二十年來,自動語音識別(Automatic Speech Recognition,ASR)在實際應(yīng)用中取得了令人滿意的發(fā)展,然而基于聲學(xué)信號的語音識別仍存在一些固有缺點:(1)語音信號很容易被環(huán)境噪聲干擾,在背景噪音下的語音識別性能會顯著下降;(2) 聲學(xué)信號的采集過程很難保持隱私或保密;(3)不適用于發(fā)聲障礙人士。 表面肌電信號(surface electromyography,sEMG)是肌肉系統(tǒng)進(jìn)行隨意性和非隨意性活動時產(chǎn)生的生物電變化經(jīng)表面電極引導(dǎo)、放大、顯示和記錄所獲得的一維電壓時間序列信號,反映了神經(jīng)和肌肉系統(tǒng)的功能和生理狀態(tài),并且從人體皮膚表面獲取,不會對人體造成損傷,因此在多個領(lǐng)域獲得深入研究和廣泛應(yīng)用,例如疾病診斷、假肢控制、遠(yuǎn)程操作機器人、康復(fù)治療等[1]。話語聲音的產(chǎn)生是一系列喉部肌肉和面部肌肉蔟活動協(xié)作完成的,肌肉的變化對應(yīng)不同的活動狀態(tài),因此可以從表面肌電信號中提取特征進(jìn)行語言或語義識別,識別不依賴于聲學(xué)信號,自然避免了噪音或其他聲波干擾,因此基于表面肌電信號的無聲語音識別作為強噪音下的替代通訊方式被廣泛應(yīng)用,如飛行員在強噪音駕駛艙中進(jìn)行指令控制[2],消防員在救火場景中與隊員或指揮中心進(jìn)行交互[3];基于肌電信號可以與語音信號同步采集,被研究用于為宇航員提供額外通訊方式[4];除此之外,因為說話人可以采用默讀的方式述說指令或語句,也可以用來實現(xiàn)高保密性的人-機或人-人交互[5]。

      雖然早在1985年肌電信號就被引入無聲語音識別的研究[6],但研究直到2001年才有突破性進(jìn)展,研究者比較了時域、傅里葉、小波包、小波變換四種特征提取方式,采用線性判別分析進(jìn)行分類進(jìn)行0-9數(shù)字的識別,平均識別率達(dá)到90%[2]。隨后針對大量以及連續(xù)信號的識別展開了許多的研究和實驗,并證明通過sEMG進(jìn)行連續(xù)語音識別是可能的[7]。Michael Wand等學(xué)者[8]建立了肌電信號數(shù)據(jù)庫,由108 個詞匯組成的50個基本句子,平均每句話的字準(zhǔn)確率達(dá)到70%。 國內(nèi)的研究起步比較晚,2005年戴立梅等人將sEMG應(yīng)用于無聲語音識別領(lǐng)域,實現(xiàn)10個數(shù)字的識別,平均識別率達(dá)到85%。2019年金丹彤等人將深度學(xué)習(xí)應(yīng)用于漢語孤立詞的識別,對10個漢字得到80%的平均識別準(zhǔn)確率[9]?;诩‰娦盘柕臒o聲語音識別一般包括信號預(yù)處理、肌肉活動狀態(tài)檢測(分割),特征提取和識別四個步驟,目前的無聲語音信號識別多是基于隱馬爾可夫模型(HMM),但HMM模型的建立需要依賴一個較大的語音庫,這在實際工作中占有很大的工作量,且模型需的存儲量和匹配計算的運算量相對較大,雖然機器學(xué)習(xí)算法可解決此問題,但由于說話快慢的變化會使得信號的時間軸不一致,因此機器學(xué)習(xí)算法無法直接被應(yīng)用,只能與HMM一起建立混合模型實現(xiàn)。本文利用圖像識別領(lǐng)域常見的插值法解決了時間軸不一致性問題,使得機器學(xué)習(xí)算法可以直接應(yīng)用于無聲語音信號識別。在高風(fēng)險領(lǐng)域,分類失敗將導(dǎo)致嚴(yán)重的后果,利用可信度可以對識別結(jié)果的可靠性進(jìn)行假設(shè)檢驗,定位識別錯誤所在,提高系統(tǒng)的識別率和穩(wěn)健性[10][11]?;谵D(zhuǎn)導(dǎo)推理的一致性預(yù)測 (Conformal Predictor,CP)是1998年Vovk等人[12]提出來一種基于柯爾莫戈洛夫(Kolmogorov)算法隨機性理論的域預(yù)測機器學(xué)習(xí)算法,可以對預(yù)測結(jié)果進(jìn)行可靠性評估和保障,本文將研究一致性預(yù)測器在基于肌電信號的孤立詞的無聲語音識別的應(yīng)用,通過線性判別分析(LDA)優(yōu)化特征后,10個漢字的分類識別準(zhǔn)確率達(dá)99%,且同時可輸出帶置信度評估的域預(yù)測結(jié)果,為后續(xù)連續(xù)詞識別提供支持。

      2 ?原理和方法

      本研究使用表面肌電信號進(jìn)行10個漢語單詞的孤立詞的識別,單詞選用日常會話中的最常用的漢字。言語是多種面部和其他肌肉活動復(fù)雜結(jié)合的結(jié)果。根據(jù)解剖學(xué)研究[13],與言語相關(guān)活躍的肌肉數(shù)量很豐富,我們采用了先前研究中的電極位置[14],并進(jìn)行了一些實驗,確定使用五個通道捕捉肌肉信號,分別為:顴骨主、提角肌、頸闊肌、外舌和二腹肌前腹,如圖1所示。電極使用標(biāo)準(zhǔn)的Ag/AgCl電極,使用NuAmps腦電放大器采集肌電信號,采樣頻率為250HZ。為了減少噪音,在采集過程中關(guān)閉了所有不必要的電源。實驗采集了2位男性同學(xué)的肌電信號。在實驗中,受試者以重復(fù)的方式默讀詞匯表中的單詞,每個單詞讀20次,每個字之間有10秒的停頓,使肌肉得到充分休息。

      基于肌電信號的無聲語音識別一般包括信號預(yù)處理、肌肉活動狀態(tài)檢測(分割),特征提取和識別,如圖2所示。本研究采用陷波濾波、帶通濾波和基線漂移對信號進(jìn)行預(yù)處理,然后手動進(jìn)行信號分割,采用插值技術(shù)使信號長度達(dá)到一致。特征提取的目的是用一組有效的數(shù)據(jù)描述原始肌電信號。本研究使用信號的時域信息作為特征,利用線性判別分析對特征進(jìn)行降維。分類識別步驟中對比了傳統(tǒng)的離線模式機器學(xué)習(xí)算法和在線學(xué)習(xí)模式的一致性預(yù)測器。

      3關(guān)鍵技術(shù)實現(xiàn)

      3.1 信號預(yù)處理與分割

      本研究采用陷波濾波、帶通濾波對信號進(jìn)行預(yù)處理。陷波濾波器(notch ?filter)用于消除普遍存在的電力線干擾。電力線干擾可以通過地面、空氣等介質(zhì)傳輸?shù)饺梭w,后由表面肌電信號采集裝置采集。由于表面肌電信號相對較弱,電力線干擾很可能造成嚴(yán)重的影響,掩蓋了表面肌電信號本身的特性。本研究使用自適應(yīng)陷波濾波器來恢復(fù)干擾,然后將其從被測信號中消除。經(jīng)研究電力線干擾被認(rèn)為是50赫茲正弦信號和50赫茲余弦信號的線性疊加[15],本系統(tǒng)采用自適應(yīng)算法調(diào)整兩個信號的權(quán)值,使誤差最小。sEMG的主要信息集中在20Hz-120Hz范圍內(nèi)。通過帶通濾波可以保持20Hz-120Hz的信號,來消除電力線信號的高次諧波和其他環(huán)境噪聲。

      實驗采用連續(xù)錄入的方式,對詞匯表的每一個單詞,用戶將重復(fù)說20次,所以一個記錄將包含20段有效信號,需要將這些有效信號分割出來。盡管語音識別針對VAD(Voice Activity Detection)進(jìn)行了大量的研究,但基于sEMG的SAD(Speech Activity Detection)在許多方面是一個更為困難的問題,多個表面肌電通道的使用使問題更加復(fù)雜,因為肌肉收縮優(yōu)先于語音產(chǎn)生并提前時間不等, 很難定義語音相關(guān)活動的開始和結(jié)束,而每個通道的言語活動相關(guān)行為獨立又互相受影響。本論文采用人工分割的方式篩選出所有有效信號段,總共獲得1200多個樣本,如表1所示。

      3.2插值和特征提取

      由于用戶說話的快慢不同,導(dǎo)致有效信號的長度不一,本研究采用插值方法來規(guī)整信號的長度,通過對比最近鄰插值法、雙線性插值和雙三次插值的效果,最終采用雙線性插值將信號調(diào)整為每個通道370維的長度。

      根據(jù)提取參數(shù)的方法不同,可以將信號分析分為:時域分析、頻域分析和時頻域分析。根據(jù)之前的研究,時域特征可以為識別提供足夠的信息,獲得更好的性能[16],本論文對信號進(jìn)行時域分析。肌電信號是具有非平穩(wěn)特性的生理電信號,在短時間范圍內(nèi)可以認(rèn)為信號是穩(wěn)態(tài)的,為了描述sEMG信號隨時間變化的趨勢,首先按照疊加窗技術(shù)進(jìn)行分幀處理。根據(jù)信號采樣率和實際分析的需要,我們?nèi)∶繋盘栭L為30ms, 幀移為15ms,每幀信號加漢明窗以消除分幀帶來的幀信號邊緣的不連續(xù)性。接著提取幀內(nèi)的四個時域特征值,分別為短時平均幅度、短時能量、短時平均過零率、短時平均幅值差。 從采集的5個通道的信號中共提取460維特征值??紤]到高維相關(guān)的精度和計算問題,利用線性判別分析(Linear Discriminant Analysis,LDA)方法從460個特征中選擇了50個特征,該方法在腦組織分析[17]、語音識別[18]和人臉識別[19]等領(lǐng)域有著廣泛的應(yīng)用。

      3.3 一致性預(yù)測器

      3.3.1 一致性預(yù)測器原理

      一致性預(yù)測器基于樣本服從獨立同分布假設(shè)的假設(shè),預(yù)測過程可以采用在線學(xué)習(xí)的方式,過程中訓(xùn)練樣本集是不斷更新的,在對測試樣本完成預(yù)測后,將測試樣本和它的真實標(biāo)簽加入訓(xùn)練樣本序列中,使得訓(xùn)練可以從零樣本開始并逐步擴充訓(xùn)練集;也可以采用傳統(tǒng)的機器學(xué)習(xí)的離線學(xué)習(xí)模式,即在固定的訓(xùn)練樣本集上訓(xùn)練模型。

      4 實驗結(jié)果

      本論文分別使用傳統(tǒng)的分類算法K近鄰、隨機森林(RF)以及支持向量機(SVM)和CP-KNN、CP-SVM、CP-RF進(jìn)行無聲語音識別。在KNN中使用的距離是歐幾里德距離。支持向量機的核函數(shù)是線性函數(shù)。隨機森林中決策樹的數(shù)量為500。所有實驗均在10倍交叉驗證程序中進(jìn)行。

      4.1 單值預(yù)測結(jié)果

      實驗先后使用460維全部特征和50維優(yōu)化特征進(jìn)行分類,對比了離線模式的CP-KNN、CP-SVM和CP-RF的單值預(yù)測結(jié)果和傳統(tǒng)的KNN、SVM和RF的預(yù)測結(jié)果,如表2所示。結(jié)果顯示,使用優(yōu)化后的50維特征在預(yù)測中有更好的性能。對比多有的分類器,采用CP-RF識別的準(zhǔn)確度最高,同時具有最大的可信度。

      4.2 域預(yù)測結(jié)果

      實驗比較了三種CP分類器的在線模式下的域預(yù)測性能。為了比較不同顯著性水平的域預(yù)測的精確度,我們統(tǒng)計了標(biāo)簽集的元素個數(shù)的中值,如圖3所示。在顯著性水平為5%時,CP-SVM的域預(yù)測的中值約為9,隨著顯著性水平的增加而減小。相較于CP-SVM,CP-1NN和CP-RF輸出精確度更高的域預(yù)測,即中值為1,但當(dāng)顯著性水平增加時,CP-RF的空預(yù)測增長率最小,如圖4所示。

      5結(jié)論

      本研究實現(xiàn)了基于面部肌肉肌電信號的10個漢語孤立詞的無聲語音識別,通過使用插值技術(shù)解決信號時間軸不統(tǒng)一的問題,并將一致性預(yù)測器應(yīng)用于分類識別,為預(yù)測提供可靠性評估和保障。實驗表明基于隨機森林的CP識別性能最好,在離線模式下分類精確度可達(dá)99.5%,可信度為99.8%,在線模式下,置信度水平為95%時仍可得到大量單一預(yù)測。證明一致性預(yù)測器可成功應(yīng)用于孤立漢語單詞識別。在今后的工作中可以探索如何利用CPs來提高漢語識別的魯棒性以及將小詞匯量孤立詞識別擴展至連續(xù)詞識別進(jìn)而實現(xiàn)連續(xù)識別。

      參考文獻(xiàn):

      [1] MerlettiR,LoConteLR.Advances in processing of surface myoelectric signals:Part1[J].Medical andBiological Engineering and Computing, 1995,33(3):362-372.

      [2] Chan A D C,Englehart K,Hudgins B,etal.Myo-electric signals to augment speech recognition[J].Medical & Biological Engineering & Computing, 2001,39(4):500-504.

      [3] Betts B J,BinstedK,JorgensenC.Small-vocabulary speech recognition using surface electromyography[J].Interacting With Computers, 2006,18(6):1242-1259.

      [4] Jonas Dino. Ames Technology Capabilities and Facilities[EB/OL]. https://www.nasa.gov/centers/ames/research/technology-onepagers/human_senses.html

      [5] Kapur A , Kapur S , Maes P . AlterEgo: A Personalized Wearable Silent Speech Interface[C]// the 2018 Conference,2018.

      [6] Sugie N,Tsunoda K.A speech prosthesis employing a speech synthesizer-vowel discrimination from perioral muscle activities and vowel production[J].IEEE Transactions on BiomedicalEngineering, 1985,BME-32(7):485-490.

      [7] Lopez-Larraz E,Mozos O M,Antelis J M,et al.Syllable-based speech recognition using EMG[C]//2010AnnualInternational Conference of the IEEE Engineering in Medicine and Biology,August31-September 4, 2010. Buenos Aires. IEEE, 2010: 4699-4702.

      [8] Schultz T,WandM.Modeling coarticulation in EMG-based continuous speech recognition[J].Speech Communication, 2010,52(4):341-353.

      [9] 金丹彤. 基于表面肌電信號的無聲語音識別算法研究[D].浙江:浙江大學(xué),2019.

      [10] 劉鏡,劉加.置信度的原理及其在語音識別中的應(yīng)用[J].計算機研究與發(fā)展,2000,37(7):882-890.

      [11] Jiang H.Confidence measures for speech recognition:a survey[J].Speech Communication,2005,45(4):455-470.

      [12] Vovk V, Gammerman A,Shafer G.Algorithmic Learning in a Random World[J].2005:xvi.

      [13] Smith K K.Anelectromyographic study of the function of the jawadducting muscles inVaranusexanthematicus (Varanidae)[J].Journal of Morphology,1982,173(2):137-158.

      [14] Maier-Hein L,Metze F,SchultzT,et al.Session independent non-audible speech recognition using surface electromyography[C]//IEEE Workshop on Automatic Speech Recognition and Understanding,2005.,November 27, 2005.SanJuan,Puerto Rico. IEEE, 2005: 331-336.

      [15] Chan A DC,Englehart K,Hudgins B,etal.Myo-electric signals to augment speech recognition[J].Medical & Biological Engineering & Computing, 2001,39(4):500-504.

      [16] Schultz T, Walliczek M, Kraft F, et al. Towards Continuous Speech Recognition Using Surface Elec- tromyography. Bmj, 2006(29).

      [17] Sch?ferKC,Balog J,SzaniszlóT,etal.Real time analysis of brain tissueby direct combinationofultrasonicsurgical aspiration and sonic spray mass spectrometry[J].Analytical Chemistry, 2011,83(20):7729-7735.

      [18] Sakai M,Kitaoka N,Takeda K.Feature transformation based on discriminant analysis preserving local structure for speech recognition[C]//2009 IEEE International Conference on Acoustics,Speech and Signal Processing,April 19-24,2009. Taipei, Taiwan, China. IEEE, 2009: 3813-3816.

      [19] BelhumeurPN,HespanhaJP,KriegmanDJ.Eigenfaces vs.Fisherfaces:recognition using class specific linear projection[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 1997,19(7):711-720.

      [20] Phinyomark A,HuH,Phukpattaranont P,etal.Application of linear discriminant analysis in dimensionality reduction for hand motion classification[J].Measurement Science Review, 2012,12(3):15-22.

      【通聯(lián)編輯:唐一東】

      猜你喜歡
      置信度
      用于多尺度道路目標(biāo)檢測的優(yōu)化定位置信度改進(jìn)算法
      基于數(shù)據(jù)置信度衰減的多傳感器區(qū)間估計融合方法
      置信度輔助特征增強的視差估計網(wǎng)絡(luò)
      一種基于定位置信度預(yù)測的二階段目標(biāo)檢測方法
      硼鋁復(fù)合材料硼含量置信度臨界安全分析研究
      系統(tǒng)可靠性評估與更新方法
      正負(fù)關(guān)聯(lián)規(guī)則兩級置信度閾值設(shè)置方法
      校核、驗證與確認(rèn)在紅外輻射特性測量中的應(yīng)用
      基于改進(jìn)的關(guān)聯(lián)規(guī)則挖掘算法的用戶興趣挖掘
      計算機時代(2016年9期)2016-10-28 16:09:28
      置信度條件下軸承壽命的可靠度分析
      軸承(2015年2期)2015-07-25 03:51:04
      永川市| 稻城县| 黄浦区| 纳雍县| 民县| 吉林省| 阿拉善左旗| 榆社县| 西平县| 伊吾县| 平舆县| 石景山区| 香格里拉县| 蒲江县| 新津县| 手机| 镇远县| 岑巩县| 喀喇沁旗| 大关县| 聊城市| 太和县| 顺平县| 灯塔市| 油尖旺区| 贵溪市| 津市市| 东阳市| 民丰县| 元朗区| 乡城县| 高要市| 耿马| 平潭县| 闸北区| 兴海县| 临桂县| 雷山县| 托克托县| 黎川县| 宜阳县|