• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于骨導(dǎo)麥克風(fēng)數(shù)據(jù)的咀嚼發(fā)音類型自動(dòng)識(shí)別與分類方法

      2022-10-17 10:53:22更太加張新意魏建國(guó)
      聲學(xué)技術(shù) 2022年4期
      關(guān)鍵詞:馬爾可夫特征參數(shù)語(yǔ)音

      更太加,張新意,魏建國(guó),

      (1.青海民族大學(xué)人工智能應(yīng)用技術(shù)國(guó)家民委重點(diǎn)實(shí)驗(yàn)室,青海西寧 810007;2.天津大學(xué)智能與計(jì)算學(xué)部,天津 300350)

      0 引言

      健康的飲食可以使人們獲得充足的營(yíng)養(yǎng),同時(shí)也可以預(yù)防一些疾病。飲食和健康是息息相關(guān)的,所以人們也越來(lái)越注重飲食習(xí)慣?,F(xiàn)代社會(huì),人們承受著生活和工作的雙重壓力,再加上不健康的飲食習(xí)慣,處于“亞健康”狀態(tài)的人越來(lái)越多。健康問(wèn)題也逐漸成為研究熱點(diǎn)。研究人員正致力于將計(jì)算機(jī)技術(shù)、生物醫(yī)學(xué)技術(shù)和物聯(lián)網(wǎng)技術(shù)緊密結(jié)合,開發(fā)出更加精確便利的系統(tǒng)來(lái)監(jiān)控、指導(dǎo)人們的飲食和健康狀況。

      為了降低飲食習(xí)慣不規(guī)律的風(fēng)險(xiǎn),需要對(duì)人們的進(jìn)食進(jìn)行計(jì)劃和評(píng)估從而保持健康飲食。通常情況下,醫(yī)護(hù)人員通過(guò)采訪來(lái)檢查人們的健康狀態(tài)、記錄飲食數(shù)據(jù)。但是,這種方法存在一個(gè)問(wèn)題,得到的數(shù)據(jù)準(zhǔn)確率通常很低。通過(guò)監(jiān)測(cè)人們的口腔運(yùn)動(dòng),可以間接監(jiān)測(cè)人們的飲食習(xí)慣,例如咀嚼次數(shù)、咀嚼頻率等都會(huì)影響著人們的飲食和健康。在分析健康飲食行為的領(lǐng)域,Woda等研究了在攝入固體食物過(guò)程中咀嚼過(guò)程的重要性,認(rèn)為咀嚼頻率是診斷健康飲食行為的一個(gè)關(guān)鍵參數(shù)[1]。

      2013年,臺(tái)灣大學(xué)資訊工程系的研究員研發(fā)了一款牙齒傳感器Tattletale,這款傳感器可以放入假牙的傳感裝置,實(shí)時(shí)監(jiān)控用戶的口腔活動(dòng)以及飲食狀況[2]。Tattletale裝置將有望應(yīng)用于健康護(hù)理方面,用來(lái)監(jiān)測(cè)人們的咀嚼、吸煙、講話以及咳嗽等活動(dòng)。裝置中有內(nèi)置的加速度計(jì),智能手機(jī)可以接收其上傳的信息,用于口腔活動(dòng)的數(shù)據(jù)分析,準(zhǔn)確程度高達(dá)94%。2014年,一款名為BitBite的產(chǎn)品進(jìn)入了人們的視野。它通過(guò)收集和分析人們咀嚼食物發(fā)出的聲音,來(lái)監(jiān)測(cè)用戶的咀嚼習(xí)慣[3]。其工作原理是通過(guò)內(nèi)部的麥克風(fēng)、傳感器,把傳感器收集的信息,發(fā)送到智能手機(jī)上。經(jīng)過(guò)算法處理咀嚼食物時(shí)所產(chǎn)生的音頻信號(hào),最終判別所吃的食物類型。不僅如此,它還能記錄咀嚼的間隔和吃飯的速度。應(yīng)用程序能可視化顯示這些信息,生成一系列圖表和報(bào)告,提醒用戶咀嚼習(xí)慣和飲食習(xí)慣是否健康。應(yīng)用程序有多種判斷標(biāo)準(zhǔn),比如咀嚼質(zhì)量、咬合數(shù),以及攝入的熱量等,最后應(yīng)用程序還可以提供關(guān)于飲食習(xí)慣和熱量攝入的建議。2016年,德國(guó)帕紹大學(xué)研發(fā)了一款新穎的設(shè)備“節(jié)食眼鏡”,一般的眼鏡主要是改善視力或者保護(hù)眼睛,但是這款設(shè)備可以對(duì)所食用的食物進(jìn)行分類[4]。它的工作機(jī)制是采用機(jī)器學(xué)習(xí)技術(shù)來(lái)處理收集到的數(shù)據(jù)。對(duì)于不同種類的食物,人們的咀嚼力度是不一樣的,例如餅干需要的咀嚼力量會(huì)小一些,而牛軋?zhí)切枰木捉懒α繒?huì)比大一些,因此收集到的肌電圖信號(hào)也不同,使用機(jī)器學(xué)習(xí)算法來(lái)處理這些數(shù)據(jù),從而判別食物的種類。目前,這款眼鏡還處于研究階段。

      以往的研究方法成本較高,硬件也較復(fù)雜,沒(méi)有對(duì)食物咀嚼做骨導(dǎo)麥克風(fēng)數(shù)據(jù)的咀嚼音識(shí)別。骨導(dǎo)麥克風(fēng)對(duì)振動(dòng)敏感,能夠很好地排除環(huán)境噪聲對(duì)實(shí)驗(yàn)數(shù)據(jù)采集的影響,而且其體積相對(duì)小巧,便與用戶攜帶,固定性好。本文通過(guò)骨導(dǎo)麥克風(fēng)數(shù)據(jù)對(duì)咀嚼聲音的類型進(jìn)行判斷,從而指導(dǎo)人們的健康飲食習(xí)慣。

      本文從咀嚼音的發(fā)音機(jī)制、骨導(dǎo)音的傳導(dǎo)機(jī)制、隱馬爾可夫模型、骨導(dǎo)音數(shù)據(jù)采集,實(shí)驗(yàn)和實(shí)驗(yàn)結(jié)果等方面介紹了基于骨導(dǎo)麥克風(fēng)數(shù)據(jù)下的咀嚼發(fā)音類型分類方法。

      1 咀嚼音的發(fā)音機(jī)制

      發(fā)聲運(yùn)動(dòng)主要借助于能夠發(fā)音的器官相互協(xié)調(diào)配合。另外在發(fā)聲時(shí)聲道內(nèi)空氣特性也會(huì)發(fā)生變化。在日常的生活中,我們會(huì)通過(guò)說(shuō)話進(jìn)行交流,感冒身體不舒服時(shí)會(huì)發(fā)出咳嗽的聲音,吃東西的時(shí)候會(huì)發(fā)出咀嚼的聲音。說(shuō)話、咳嗽、咀嚼、安靜是最常見(jiàn)的口腔運(yùn)動(dòng)。食物材質(zhì)不同,類型不同,發(fā)出的咀嚼音也不相同。看起來(lái)雜亂無(wú)章的咀嚼運(yùn)動(dòng),其實(shí)也相對(duì)比較有規(guī)律,例如牙齒周期性地研磨食物,舌頭和牙齒配合使食物在口腔中不斷被磨碎,由此形成的咀嚼音也比較有規(guī)律。本文主要研究口腔運(yùn)動(dòng)中咀嚼音的識(shí)別。

      2 骨導(dǎo)音的傳導(dǎo)機(jī)制

      聲音的產(chǎn)生來(lái)源于物體的振動(dòng),身體內(nèi)聲音的傳導(dǎo)主要分為兩種類型,氣傳導(dǎo)和骨傳導(dǎo)。在氣傳導(dǎo)的過(guò)程當(dāng)中,聲波依靠空氣傳播至人的外耳道,再通過(guò)外耳道傳導(dǎo)至鼓膜,受到聲波的影響,鼓膜發(fā)生振動(dòng),振動(dòng)的聲音經(jīng)過(guò)聽(tīng)小骨,引起聽(tīng)小骨振動(dòng),接著將振動(dòng)傳導(dǎo)至內(nèi)耳,這些聲音信號(hào)進(jìn)入耳蝸,刺激耳蝸內(nèi)的組織器官,使之發(fā)生神經(jīng)沖動(dòng),神經(jīng)沖動(dòng)通過(guò)身體相應(yīng)的細(xì)胞組織進(jìn)行傳播,最終傳導(dǎo)至大腦皮層上的聽(tīng)覺(jué)中樞,最后人們感受到了聲音。還有一種通過(guò)骨傳導(dǎo)的聲音信號(hào),由于傳導(dǎo)介質(zhì)是骨頭,所以傳導(dǎo)的速度更快。骨導(dǎo)語(yǔ)音與氣導(dǎo)語(yǔ)音信號(hào)均由同一發(fā)聲源產(chǎn)生。兩者最大的不同在于聲音傳輸路徑的不同,氣導(dǎo)語(yǔ)音是激勵(lì)信號(hào)經(jīng)過(guò)聲道調(diào)制后再經(jīng)過(guò)口腔、鼻腔等輻射最終形成的語(yǔ)音信號(hào)。骨導(dǎo)語(yǔ)音則可看成激勵(lì)信號(hào)經(jīng)過(guò)人體內(nèi)部骨頭、組織等路徑傳輸形成的語(yǔ)音信號(hào)[5]。

      3 隱馬爾可夫模型

      3.1 隱馬爾可夫模型簡(jiǎn)介

      1970年前后,Baum等建立了隱馬爾可夫模型(HiddenMarkovModels,HMM)的理論基礎(chǔ)[6]。后來(lái),研究人員將隱馬爾可夫模型引入到語(yǔ)音識(shí)別過(guò)程中,打開了隱馬爾可夫模型在語(yǔ)音識(shí)別領(lǐng)域的大門。在20世紀(jì)80年代中期,更多的研究人員擴(kuò)大了隱馬爾模型的研究范圍。隱馬爾可夫模型算法比較成熟,效率比較高,在語(yǔ)音識(shí)別領(lǐng)域應(yīng)用比較廣泛[7-9]。同時(shí)隱馬爾可夫模型也存在一定的缺點(diǎn),即它需要建立一個(gè)較大的訓(xùn)練庫(kù),識(shí)別過(guò)程中的運(yùn)算量較大[10]。

      HMM和一階馬爾可夫(Markov)過(guò)程的不同之處在于HMM由兩個(gè)隨機(jī)過(guò)程組成,一個(gè)是狀態(tài)轉(zhuǎn)移序列,另一個(gè)是每次狀態(tài)轉(zhuǎn)移時(shí)輸出的符號(hào)組成的符號(hào)序列[11]。圖1是三個(gè)狀態(tài)的隱馬爾可夫模型狀態(tài)轉(zhuǎn)移圖。其中:X1、X2、X3代表了隱含狀態(tài)序列,y1、y2、y3代表了可觀察的輸出,a12、a23、a32、a21代表了狀態(tài)轉(zhuǎn)移概率,b1、b2、b3代表了輸出概率。

      圖1 三個(gè)狀態(tài)的隱馬爾可夫模型狀態(tài)轉(zhuǎn)移圖Fig.1 State transition graph of hidden Markov model under three states

      隱馬爾可夫工具包(Hidden Markov Toolkit,HTK)是構(gòu)建隱馬爾可夫模型的工具包,隱馬爾科夫模型可用于對(duì)任何時(shí)間序列進(jìn)行建模,HTK的核心具有與其一致的目的。然而,HTK主要是用來(lái)構(gòu)建基于隱馬爾科夫模型的語(yǔ)音處理工具,特別是構(gòu)建識(shí)別器。因此,HTK的大部分基礎(chǔ)架構(gòu)支持都致力于這項(xiàng)任務(wù)。作為最常用的語(yǔ)音處理工具集之一,HTK的實(shí)現(xiàn)方法在業(yè)界十分具有影響力。它具有語(yǔ)音識(shí)別和合成源代碼的開放性過(guò)程,而且它還為了大眾提供了開發(fā)新的語(yǔ)音識(shí)別工具的全部過(guò)程。

      隱馬爾科夫模型可以由以下元素組成:

      (1)模型中的狀態(tài)數(shù)N。雖然狀態(tài)是隱藏的,但對(duì)于許多實(shí)際應(yīng)用來(lái)說(shuō),通常會(huì)對(duì)可觀狀態(tài)或模型狀態(tài)集合具有某些程度上的物理意義。例如遍歷模型那樣,通常情況下,各狀態(tài)之間可以通過(guò)某種連接相互到達(dá)。我們將各個(gè)狀態(tài)表示為S={s1,s2,...,sn},時(shí)間t的狀態(tài)為q1。

      (2)每個(gè)狀態(tài)的不同觀察符號(hào)的數(shù)量M。觀測(cè)符號(hào)對(duì)應(yīng)于被建模的系統(tǒng)的物理輸出。我們將各個(gè)符號(hào)表示為V={v1,v2,...,vm}。

      (3)狀態(tài)轉(zhuǎn)移概率分布矩陣A={aij},其中,aij如式(1)所示:

      對(duì)于任意狀態(tài)可以在單個(gè)步驟中達(dá)到任何其他狀態(tài)的特殊情況,對(duì)于所有i,j,我們有aij>0。對(duì)于其他類型的HMM,對(duì)于一個(gè)或多個(gè)(i,j)對(duì),有aij=0。

      (4)狀態(tài)j的觀測(cè)符號(hào)概率分布矩陣B={bj(k)},如式(2)所示:

      (5)初始狀態(tài)分布π={πi},其中πi式(3)所示:

      最終對(duì)于給定N、M、A、B和π的適當(dāng)值,HMM可以用作發(fā)生器來(lái)給出觀測(cè)序列:O=O1O2……OT,其中每個(gè)觀察值OT是來(lái)自V的符號(hào)之一,T是序列中的觀測(cè)次數(shù).

      4 數(shù)據(jù)處理與準(zhǔn)備

      4.1 骨導(dǎo)音數(shù)據(jù)的采集與準(zhǔn)備

      在建立口腔運(yùn)動(dòng)信號(hào)數(shù)據(jù)庫(kù)時(shí),使用骨導(dǎo)麥克風(fēng)采用單聲道模式采集咀嚼信號(hào),采樣頻率為16 000Hz。在數(shù)據(jù)采集過(guò)程中,共采集了20名不同的實(shí)驗(yàn)人員的咀嚼音信號(hào),實(shí)驗(yàn)人員沒(méi)有明顯的面部偏斜、顳頷關(guān)節(jié)癥狀等嚴(yán)重影響咀嚼的病癥,其中男生16人,女生4人,年齡分布為:10~20歲5人,20~30歲25人。每個(gè)實(shí)驗(yàn)人員錄制的內(nèi)容包括軟咀嚼(咀嚼米飯)、硬咀嚼(咀嚼花生)、口香糖咀嚼(咀嚼口香糖)和咳嗽聲音,每個(gè)內(nèi)容每人錄制10 min,每人骨導(dǎo)音采集持續(xù)約30 min。骨導(dǎo)音錄制的內(nèi)容如表1所示。

      表1 骨導(dǎo)音錄制的內(nèi)容Table 1 Content of the bone guided sound recording

      4.2 骨導(dǎo)音數(shù)據(jù)的標(biāo)注

      要使機(jī)器正確地學(xué)習(xí)采集到的數(shù)據(jù)特征,需要提供正確的數(shù)據(jù)標(biāo)注,算法在標(biāo)注內(nèi)容的監(jiān)督下調(diào)整產(chǎn)生正確的模型。

      根據(jù)本項(xiàng)目的需求,需要分別建立包括三種咀嚼音模型在內(nèi)的五種模型,即軟咀嚼、硬咀嚼和口香糖咀嚼、靜音模型和咳嗽模型。對(duì)于軟咀嚼,選擇米飯作為實(shí)驗(yàn)材料,米飯的質(zhì)地比較柔軟,咀嚼發(fā)出的骨導(dǎo)音信號(hào)強(qiáng)度較?。粚?duì)于硬咀嚼,選擇質(zhì)地相對(duì)堅(jiān)硬的花生,因?yàn)橘|(zhì)地較硬,產(chǎn)生的骨導(dǎo)音相對(duì)較強(qiáng),不過(guò)質(zhì)地較脆的食品在咀嚼初始階段信號(hào)強(qiáng)度較大,被牙齒咬斷磨碎后,食物粒度變小,信號(hào)強(qiáng)度隨之下降,咀嚼類型由硬咀嚼變?yōu)檐浘捉溃栽跇?biāo)注時(shí),對(duì)于硬咀嚼的不同階段特征,要標(biāo)注不同的信息;口香糖咀嚼是相對(duì)比較穩(wěn)定的一種咀嚼狀態(tài),信號(hào)強(qiáng)度基本上不會(huì)隨著咀嚼過(guò)程有太大變化,標(biāo)注比較簡(jiǎn)單。除了咀嚼食物發(fā)出的咀嚼音之外,我們還要考慮人體觸碰儀器所發(fā)出的噪聲、周圍環(huán)境的噪聲和吞咽的聲音,由于錄音器材和貼附位置儀器與皮膚之間的摩擦等聲音,所以需要將與咀嚼無(wú)關(guān)的聲音進(jìn)行標(biāo)注。本項(xiàng)目采用praat軟件對(duì)聲音進(jìn)行標(biāo)注,最后確定的標(biāo)注為軟咀嚼(chs)、硬咀嚼(chh)、口香糖咀嚼(gum)、咳嗽(cou)、靜音(sil)和其它(oth)。咀嚼信號(hào)的內(nèi)容和標(biāo)簽如表2所示。

      表2 咀嚼音數(shù)據(jù)標(biāo)注內(nèi)容和標(biāo)簽Table 2 Marking content and symbols of chewing sound data

      根據(jù)praat軟件,對(duì)以上咀嚼音數(shù)據(jù)進(jìn)行標(biāo)注,標(biāo)注結(jié)果如圖2~6所示,圖2~6中上方的數(shù)據(jù)表示時(shí)長(zhǎng),單位s。

      圖2所示咀嚼米飯的咀嚼音標(biāo)注過(guò)程是軟咀嚼,標(biāo)注為chs。圖3表示咀嚼花生時(shí)的咀嚼音標(biāo)注,咀嚼過(guò)程為硬咀嚼,標(biāo)注為chh。圖4表示咀嚼口香糖時(shí)的咀嚼音標(biāo)注,咀嚼過(guò)程為口香糖咀嚼,標(biāo)注為gum。圖5表示咳嗽時(shí)的標(biāo)注,標(biāo)注為cou。圖6為靜音標(biāo)注圖,標(biāo)注為sil。

      圖2 軟咀嚼的咀嚼音標(biāo)注圖Fig.2 Annotation diagram ofsoft chewing sound during chewing rice

      圖3 硬咀嚼的咀嚼音標(biāo)注圖Fig.3 Annotation diagram of hard chewing sound during chewing peanuts

      圖4 口香糖咀嚼的咀嚼音標(biāo)注圖Fig.4 Annotation diagramof chewing sound during chewing gum

      圖5 咳嗽音標(biāo)注圖Fig.5 Phonetic notation of cough

      圖6 其他聲音和靜音標(biāo)注圖Fig.6 Phonetic notation of other sound and mute

      4.3 骨導(dǎo)音特征參數(shù)提取

      4.3.1 特征參數(shù)提取要求

      骨導(dǎo)音存在很多冗余信息,一方面影響處理的速度,一方面加重存儲(chǔ)的負(fù)擔(dān),所以需要把語(yǔ)音信號(hào)中最有用的信息提取出來(lái),對(duì)其進(jìn)行降維處理。特征參數(shù)最好具備以下要求[11]:

      (1)提取的特征參數(shù)有代表性,不能失去語(yǔ)音信號(hào)的重要信息。

      (2)各階參數(shù)之間要相互獨(dú)立,處理起來(lái)更加方便。

      (3)提取特征參數(shù)的方法太復(fù)雜,需要控制計(jì)算量,提取方法要簡(jiǎn)單方便,這樣才能使語(yǔ)音識(shí)別系統(tǒng)的實(shí)用性更強(qiáng)。

      4.3.2 美爾頻率倒譜系數(shù)

      根據(jù)上述原則,本文采用了美爾頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)進(jìn)行特征提取。MFCC結(jié)合了人耳聽(tīng)覺(jué)特性和語(yǔ)音生理的特征,相比LPCC更適合語(yǔ)音識(shí)別,是目前比較受歡迎的一種特征參數(shù),且計(jì)算簡(jiǎn)便,能夠比較好地區(qū)分幀與幀之間的特征參數(shù)[12]。

      特征提取是提取音頻信號(hào)中的部分信息使其能夠代表原來(lái)的音頻信號(hào),把多余的信息去掉。人的聽(tīng)覺(jué)對(duì)所有頻率的接收和處理是不同的。人耳類似于一個(gè)濾波器組,只讓某些頻率的信號(hào)通過(guò)。但這些濾波器不是均勻分布的,在低頻區(qū)域?yàn)V波器較多,但人耳識(shí)別的低頻信號(hào)更多,相比之下,高頻區(qū)域的濾波器的數(shù)目較少,即人耳對(duì)高頻信號(hào)的感知不足。提取的MFCC特征具有線性關(guān)系:即語(yǔ)音信號(hào)的Mel頻率的差別與人耳識(shí)別的差別是一樣的。圖7是MFCC特征參數(shù)提取的過(guò)程。

      圖7 MFCC特征參數(shù)的提取過(guò)程Fig.7 The extraction process of MFCC characteristic parameters

      對(duì)輸入的數(shù)字語(yǔ)音信號(hào)進(jìn)行預(yù)加權(quán),其目的是為了對(duì)高頻部分進(jìn)行加權(quán),增加語(yǔ)音的高頻分辨率。一般通過(guò)傳遞函數(shù)H(z)的一階FIR高通數(shù)字濾波器來(lái)實(shí)現(xiàn)預(yù)加權(quán),傳遞函數(shù)H(z)為[13]

      其中,μ為預(yù)加權(quán)系數(shù),本文中所使用的預(yù)加權(quán)系數(shù)為0.97。和其他平穩(wěn)信號(hào)相比,語(yǔ)音信號(hào)為非平穩(wěn)信號(hào),處理語(yǔ)音信號(hào)時(shí),需要把語(yǔ)音信號(hào)進(jìn)行平穩(wěn)化處理[11]。人的發(fā)聲器官振動(dòng)會(huì)產(chǎn)生語(yǔ)音,這個(gè)振動(dòng)比語(yǔ)音信號(hào)更加平緩,所以在短時(shí)間內(nèi)(10~30 ms),可以把語(yǔ)音信號(hào)作為平穩(wěn)信號(hào)來(lái)處理。基于這個(gè)前提,平穩(wěn)信號(hào)的處理技術(shù)便可以應(yīng)用于語(yǔ)音信號(hào)的分析和處理過(guò)程,所以第一步要對(duì)語(yǔ)音信號(hào)進(jìn)行分幀。

      分幀可以連續(xù)分段,但是由于幀與幀之間不能平滑過(guò)渡,一般情況下,采用交疊分幀法來(lái)保證幀與幀的連續(xù)性。前一幀與后一幀有部分重疊,幀與幀之間的重疊稱為幀移。一般情況下,幀移的長(zhǎng)度不會(huì)超過(guò)幀長(zhǎng)的一半[11]。通過(guò)加窗處理,人們可以對(duì)某一窗內(nèi)的序列進(jìn)行分析,常用的三種窗函數(shù)為矩形窗、漢明窗和漢寧窗[13]。窗函數(shù)選取非常重要[13],就主瓣寬度而言,矩形窗最窄,其中漢明窗最寬,而兩者的旁瓣高度正好相反,漢明窗應(yīng)用最為廣泛。

      5 實(shí)驗(yàn)

      5.1 實(shí)驗(yàn)數(shù)據(jù)

      實(shí)驗(yàn)數(shù)據(jù)選用了自行錄制的10個(gè)實(shí)驗(yàn)人員的全部478個(gè)咀嚼聲音頻樣本。這些樣本是采樣率為16 000 Hz、時(shí)長(zhǎng)為1~5 s不等的wav格式文件。

      5.2 特征提取

      本次實(shí)驗(yàn)采用了HTK工具包,HTK(HMM Tools Kit)是一個(gè)基于隱馬爾可夫模型對(duì)語(yǔ)音信號(hào)進(jìn)行分析處理的工具包。主要包括兩個(gè)部分:庫(kù)程序和工具,庫(kù)程序是由眾多開源C函數(shù)模塊構(gòu)成。

      HTK提供的HCOPY可以依據(jù)用戶給出的配置文件獲取相應(yīng)的特征參數(shù)。配置文件通常會(huì)定義編碼類型、全頻帶系數(shù)的個(gè)數(shù)、預(yù)處理系數(shù)、加視窗的種類和大小等特征提取所需的參數(shù)。本文提取的特征參數(shù)是梅爾頻率倒譜組合參數(shù)(MFCC_0_D_A),包括梅爾頻率特征參數(shù)、MFCC一階差分系數(shù)、MFCC二階差分系數(shù)[9],在HTK中,通過(guò)HCopy函數(shù)提取MFCC特征參數(shù)。

      5.3 骨導(dǎo)音識(shí)別

      在完成隱馬爾科夫模型的訓(xùn)練之后,就可以進(jìn)行HMM的識(shí)別測(cè)試。訓(xùn)練已有的語(yǔ)音數(shù)據(jù)會(huì)產(chǎn)生相應(yīng)的隱馬爾科夫模型參數(shù),通過(guò)維特比算法(Viterbi Algorithm)尋找出最佳的路徑,計(jì)算得出數(shù)據(jù)字典和詞網(wǎng)絡(luò)形成的各種合法的模型序列概率,修改到最優(yōu)標(biāo)準(zhǔn),可以提高識(shí)別率。實(shí)驗(yàn)的總體環(huán)境為:采樣頻率為16 000 Hz,量化精度為16 bit,單聲道模式。其中,MFCC參數(shù)為39維,39個(gè)濾波器,預(yù)加權(quán)系數(shù)0.96,使用漢明窗。

      在HTK過(guò)程中,可以使用Hvite命令進(jìn)行識(shí)別。HTK提供的HResluts工具可以進(jìn)行結(jié)果分析,工作原理是首先由HVite識(shí)別出標(biāo)識(shí)文件和參考標(biāo)識(shí)文件,HResluts讀入這兩個(gè)文件,通過(guò)比較兩個(gè)文本分別計(jì)算出文本中詞匯被替換、刪除和插入的錯(cuò)誤的數(shù)量,然后計(jì)算出詞匯和句子的識(shí)別率。HResluts使用動(dòng)態(tài)編程技術(shù)對(duì)兩個(gè)標(biāo)注文本進(jìn)行分析處理,然后將統(tǒng)計(jì)結(jié)果輸出到指定位置。結(jié)果輸出格式如圖8所示。

      圖8 咀嚼音識(shí)別結(jié)果的輸出格式Fig.8 Output format of chewing sound recognition result

      圖8中第一行表示通過(guò)與參考標(biāo)識(shí)文件比較,得出語(yǔ)句級(jí)別的準(zhǔn)確率RCor為0,因?yàn)楸疚臎](méi)有使用句子級(jí)別的識(shí)別,所以識(shí)別率沒(méi)有參考意義。第二行給出本文得到的結(jié)果,即單詞級(jí)別準(zhǔn)確率為84.70%,準(zhǔn)確數(shù)目H=4 357,刪除的標(biāo)記的數(shù)目D=324,被替換的標(biāo)記數(shù)目S=463,插入的標(biāo)記數(shù)目I=232,錄音文件中定義的標(biāo)記的總數(shù)N=5 144。使用HResults工具可以對(duì)識(shí)別系統(tǒng)的識(shí)別水平進(jìn)行有效的評(píng)估分析,可以方便地對(duì)比多次實(shí)驗(yàn)的結(jié)果。

      準(zhǔn)確數(shù)目H和其他參數(shù)之間的關(guān)系式為

      單詞級(jí)別的精確率可以表示為

      6 結(jié)論

      飲食狀況直接影響著人們的健康,很多人飲食不規(guī)律再加上工作壓力大、生活節(jié)奏快,導(dǎo)致了健康狀況下降,于是人們?cè)絹?lái)越重視自己的飲食狀況,因此,本文致力于監(jiān)測(cè)人們的咀嚼活動(dòng)來(lái)監(jiān)測(cè)人們的飲食狀況。本文共錄制了20人的咀嚼音數(shù)據(jù),并利用HTK工具包、基于隱馬爾可夫模型對(duì)咀嚼音進(jìn)行分析,識(shí)別出咀嚼音中的硬咀嚼、軟咀嚼、口香糖咀嚼、咳嗽和靜音。

      通過(guò)音頻文件的識(shí)別結(jié)果和結(jié)果分析可以得到以下結(jié)論:

      (1)通過(guò)實(shí)驗(yàn)表明,可以通過(guò)隱馬爾可夫模型分辨出軟咀嚼,硬咀嚼以及口香糖咀嚼的音頻。

      (2)咳嗽的音頻識(shí)別率較高,因?yàn)殪o音和咳嗽的特征明顯區(qū)分于其他咀嚼音的特征。

      本課題的研究結(jié)果可以為今后口腔運(yùn)動(dòng)以及醫(yī)療健康檢查方面的研究提供可靠的數(shù)據(jù)和參考價(jià)值。但數(shù)據(jù)規(guī)模較小、音頻場(chǎng)景單一等問(wèn)題,今后將結(jié)合領(lǐng)域知識(shí)與深度學(xué)習(xí)技術(shù)進(jìn)行更深入的研究。

      猜你喜歡
      馬爾可夫特征參數(shù)語(yǔ)音
      故障診斷中信號(hào)特征參數(shù)擇取方法
      基于特征參數(shù)化的木工CAD/CAM系統(tǒng)
      魔力語(yǔ)音
      基于MATLAB的語(yǔ)音信號(hào)處理
      電子制作(2019年14期)2019-08-20 05:43:38
      基于MQ3與MP3的價(jià)廉物美的酒駕語(yǔ)音提醒器
      電子制作(2019年9期)2019-05-30 09:42:10
      對(duì)方正在輸入……
      基于PSO-VMD的齒輪特征參數(shù)提取方法研究
      保費(fèi)隨機(jī)且?guī)в屑t利支付的復(fù)合馬爾可夫二項(xiàng)模型
      基于SOP的核電廠操縱員監(jiān)視過(guò)程馬爾可夫模型
      應(yīng)用馬爾可夫鏈對(duì)品牌手機(jī)市場(chǎng)占有率進(jìn)行預(yù)測(cè)
      体育| 环江| 商水县| 台中市| 樟树市| 固始县| 醴陵市| 会宁县| 宁波市| 灵武市| 霍州市| 潜山县| 蕉岭县| 浙江省| 镶黄旗| 卢湾区| 汨罗市| 哈密市| 军事| 英吉沙县| 河西区| 贺兰县| 佛冈县| 富平县| 息烽县| 三亚市| 绥德县| 乐昌市| 平塘县| 阳谷县| 高安市| 广灵县| 石屏县| 湘乡市| 兰考县| 九江市| 唐山市| 桐梓县| 正蓝旗| 三明市| 昂仁县|