劉明 曾偉浩
摘要:佩戴助聽器的聽力患者像正常人一樣生活在安靜的臥室、嘈雜的道路或音樂會等各種環(huán)境中。有些助聽器算法只適用于一個場景,但在另一個場景可能沒有效果,甚至帶來更糟糕的結(jié)果。有些助聽器需要患者根據(jù)不同的環(huán)境手動調(diào)整一些參數(shù),通過音量調(diào)節(jié)開關來控制輸出音量,以適應當前的環(huán)境,獲得更好的聲音。而且,一次設置后,佩戴后不可能一直手動調(diào)整,手動選擇功能對于老年人、兒童或殘疾人等弱勢群體非常不方便。如果助聽器使用算法自動識別場景,自動設置參數(shù)以適應當前環(huán)境,并自動增益輸出音量,而不是人工操作的繁瑣部分,將大大提高助聽器的智能化程度。
關鍵詞:助聽器 ?自動識別場景 ?自動增益
一、引言
聽佩戴數(shù)字助聽器的聽障患者通常處于各種聽力環(huán)境中,如言語、噪音或音樂等[1]。為了獲得最佳的聽覺體驗,在早期的數(shù)字助聽器中,數(shù)字助聽器廠商會將適合各種場景的程序預刻錄到芯片中,通過撥動開關選擇相應的程序,即不同的頻率響應或其他處理選項,如麥克風陣列語音增強、噪聲抑制、寬動態(tài)壓縮和回聲消除等[2]。用戶需要確定他們所處的環(huán)境,并手動切換開關來選擇與場景相對應的節(jié)目。然而,對于聽障患者來說,識別當前環(huán)境并選擇與場景相對應的節(jié)目是一項非常困難的任務。即使對于一個聽力健康的人來說,也不清楚選擇哪個節(jié)目來匹配當前的場景。最大的問題是,老年人是數(shù)字助聽器的主要用戶,讓他們根據(jù)不同的應用場景進行功能切換是非常困難的。
二、聽覺場景分析算法概述
根據(jù)數(shù)字助聽器的語音信號整體的處理流程可知,聽覺場景分析算法屬于事先準備好的,也就是說經(jīng)過算法訓練好的模型。算法流程分為三部分,分別是特征提取、模式分類器和參數(shù)控制。第一步,數(shù)字助聽器通過特征提取將接收到語音信號轉(zhuǎn)換成特征向量。這一步是識別算法中非常關鍵的階段,因為選擇的特征向量包含有可以區(qū)分不同類型的環(huán)境的信息,選擇合適的特征向量將會影響到整個算法的識別率[3]。第二步是模式分類器根據(jù)特征向量判決輸入的語音信號是屬于哪個場景模型。第三步根據(jù)第二步判斷出的場景,配置其他算法的一些參數(shù)以適應當前場景。聽覺場景分析的整體結(jié)構(gòu)如圖1所示:
圖1 ?聽覺場景識別系統(tǒng)框架圖
在本文中,考慮到數(shù)字助聽器芯片的功耗和計算能力,特征提取采用12維MFCC 梅爾倒譜系數(shù)和12維一階二階MFCC 梅爾倒譜系數(shù),分類器采用改進的GMM模型[4]。實驗中,分別比較了改進的GMM算法和改進的GMM算法的識別率,比較了不同維數(shù)的特征參數(shù)和不同高斯混合數(shù)的識別率,最后選擇了最佳參數(shù)并應用于數(shù)字助聽器系統(tǒng)中。
三、實驗方法
日常生活中,聽覺場景的種類數(shù)目眾多,找出典型的聽覺場景是該算法的第一步。因此,為了驗證聽覺場景識別算法的準確性,采用文獻提到的方法從在線聲音庫的網(wǎng)站freesound.org收集到7類音頻數(shù)據(jù),分別是嘈雜的語音、展館上的語音、餐廳中的語音、街道上的語音、列車中的語音、純凈的語音和音樂音頻。其中前五種屬于帶噪語音[5]。每個種類總共有300段音頻,其中225段作為訓練數(shù)據(jù),75段作為測試數(shù)據(jù),每段音頻時間是2s,采樣率為16KHZ,精度為16位。由于語音信號具有短時平穩(wěn)特性,因此在實驗時可以對每短時音頻信號進行分幀、加窗(漢明窗),每幀音頻信號幀長20 ms,采樣數(shù)為320,幀移設置為15 ms,采樣數(shù)為240,F(xiàn)FT長度為256。本文首先從GMM高斯核數(shù)方面來比較傳統(tǒng)GMM算法和本文提出的改進的GMM算法的整體識別率。特征參數(shù)先固定選用12維的MFCC系數(shù)。高斯混合數(shù)分別取2,4,8,16和32。
四、結(jié)論
基于GMM模型的聽覺場景識別算法分為訓練和識別兩部分。訓練部分首先對語音信號進行采樣和量化,然后從語音信號中提取36維特征參數(shù),如MFCC、一階MFCC和二階MFCC。首先,通過GMM訓練算法訓練每個聽覺場景的特定模型參數(shù),最后通過GMM識別算法識別聽覺場景。聽覺場景識別算法是現(xiàn)代數(shù)字助聽器的一項高級功能,它極大地提高了現(xiàn)代數(shù)字助聽器的智能性,解決了許多聽力受損患者的不便問題。
參考文獻
[1]曹旭來.數(shù)字助聽器中響度補償算法的研究[D].南京郵電大學,2014.
[2]雍雅琴.數(shù)字助聽器中主要語音信號處理方法研究[D].北京協(xié)和醫(yī)學院,2013.
[3]魏政,尹雪飛,陳克安.可實現(xiàn)聽覺場景匹配的智能數(shù)字助聽器算法[J].聲學技術(shù),2012,31(5):511-516.
[4]何鑫,高勇.一種語音增強中新的噪聲預估計算法[J].通信技術(shù),2018,51(10):2320-2324.
[5]Dillon H.Hearing Aids[M].Thieme,2001.
基金項目:
1:深圳市科技計劃項目(項目編號:JCYJ20180307123857045)
2:廣東省教育廳科技項目(項目編號:2019GKQNCX122)
3:校級科研項目(項目編號:SZIIT2019KJ026)