屈曉靜,林佳聰,彭東城,鐘其麟
(廣東工業(yè)大學(xué)華立學(xué)院,廣東 廣州 511325)
隨著中國人口老齡化現(xiàn)象的加重以及二胎政策的開放,老人與兒童群體的看護(hù)問題已經(jīng)逐漸成為影響社會安定的重要因素之一。與此同時,老人、兒童獨(dú)自在家發(fā)生意外的事件仍然一再發(fā)生,這當(dāng)中因無法及時求救而造成無法挽回的后果的事件不在少數(shù)??粘怖先伺c留守兒童的安全一直以來都是社會重點(diǎn)關(guān)注的問題,傳統(tǒng)的報警方式如電話、手機(jī)、智能手表等,能滿足一般的報警需求,但當(dāng)老人、兒童獨(dú)自在家發(fā)生意外時,例如重摔無法起身、身體不適行動不便而無法到達(dá)報警設(shè)備旁時,傳統(tǒng)的通信設(shè)備報警方式作用有限。
基于此,本項(xiàng)目設(shè)計(jì)了一種基于卷積神經(jīng)網(wǎng)絡(luò)的聲音識別報警系統(tǒng),該系統(tǒng)基于卷積神經(jīng)網(wǎng)絡(luò)算法,在一定程度上提高了語音識別的正確率。老人或兒童獨(dú)自在家發(fā)生意外時,在身邊無通信設(shè)備的情況下,只需通過呼叫即可向特定聯(lián)系人求救,無需移動即可緊急通知聯(lián)系人。例如,重摔無法起身或身體不適,行動不便無法到達(dá)電話旁時,只需在原地呼救,待系統(tǒng)識別后可即時通過GSM模塊以短信方式通知設(shè)定的聯(lián)系人。
系統(tǒng)主要由Raspberry Pi 3 Model B、GSM模塊、麥克風(fēng)陣列、語音識別模塊等組成。由于卷積神經(jīng)網(wǎng)絡(luò)在時間與空間上具有平移不變的卷積特點(diǎn),所以可以對外界環(huán)境以及說話者的多樣性進(jìn)行克服性處理,提高語音識別率。圖1所示為聲音識別報警系統(tǒng)的整體框架。在特殊情況發(fā)生時,當(dāng)事人可以通過發(fā)出特定語音信號向現(xiàn)場指定聯(lián)系人發(fā)送短信。該系統(tǒng)以Raspberry Pi 3 Model B作為主控制器,通過串口向GSM模塊發(fā)送AT指令,即可實(shí)現(xiàn)向住戶發(fā)送短信的功能。
圖1 系統(tǒng)整體框架
該項(xiàng)目中使用的Raspberry Pi 3 Model B配備了64位ARM Cortex-A53 1.2 GHz四核處理器、藍(lán)牙和WiFi。同時,還具有1 GB的RAM內(nèi)存,以及以太網(wǎng)端口和40個GPIO引腳,并搭載有DSI顯示連接器、微型USB電源接口、攝像頭接口、HDMI接口、RCA影音端口。Raspberry Pi 3 Model B具有較小的體積、強(qiáng)大的系統(tǒng)功能、較強(qiáng)的兼容性且支持多種計(jì)算機(jī)語言,適合作為本系統(tǒng)的開發(fā)平臺。樹莓派GPIO引腳定義如圖2所示。
圖2 樹莓派GPIO引腳定義
本設(shè)計(jì)采用的A6 Mini GSM模塊體積小,尺寸為22.8 mm×16.8 mm×2.2 mm,工作電壓為3.5~5 V,睡眠模式下電流為0.9 mA,功耗低,工作溫度范圍廣,支持GSM850、EGSM900等頻段,支持短消息傳輸功能。GSM模塊和Raspberry Pi 3 Model B通過TTL線路連接,連接時需重新分配串口。GSM和樹莓派之間的連接如圖3所示。
圖3 GSM模塊與樹莓派連接圖
系統(tǒng)使用AT命令完成發(fā)送短消息的操作。操作開始時,需要初始化串行端口以獲得GSM模塊的波特率。其次,短信模式設(shè)置為文本模式,首先發(fā)送“AT+CMGF=1”,然后發(fā)送“AT+CSMP”設(shè)置文本模式的參數(shù),通過發(fā)送“AT+CSCS=UCS2”設(shè)置UCS2編碼字符集,然后設(shè)置緊急聯(lián)系人的手機(jī)號碼,編輯短信內(nèi)容后發(fā)送“0x1A”,GSM模塊即可實(shí)現(xiàn)短信通知緊急聯(lián)系人的功能。GSM模塊發(fā)送短信流程如圖4所示。
圖4 GSM模塊發(fā)送短信流程
麥克風(fēng)陣列依據(jù)一定的幾何結(jié)構(gòu),將一組麥克風(fēng)進(jìn)行排列放置,每個麥克風(fēng)同時采集和處理聲音信號。獲得信號的時域和頻域信息后,可以獲得聲音的位置信息。麥克風(fēng)收集的聲音信號質(zhì)量與環(huán)境有關(guān)。當(dāng)聲源遠(yuǎn)離麥克風(fēng)且周圍環(huán)境有噪音時,麥克風(fēng)采集的聲音信號質(zhì)量受到很大影響,語音識別的效果會嚴(yán)重降低。為實(shí)現(xiàn)聲音的降噪與抑制功能,以便達(dá)到對語音信息的優(yōu)化處理和提高對環(huán)境中語音的識別率,本系統(tǒng)需要對已采集的聲音進(jìn)行麥克風(fēng)陣列優(yōu)化。
ReSpeaker 6-Mic圓形麥克風(fēng)陣列具有2個ADC(X-Power AC108 ADC)芯片和1個DAC(X-Power AC101 DAC)芯片,包括6個高性能貼片模擬麥克風(fēng),兼容樹莓派接口,靈敏度高。ReSpeaker 6-Mic支持多通道輸入和輸出,并可以捕獲3~5 m半徑內(nèi)的語音,從而實(shí)現(xiàn)更強(qiáng)大的語音功能。
語音識別即經(jīng)過時頻分析后的語音頻譜。與此同時,還需要考慮語音輸入的干擾因素,如揚(yáng)聲器和環(huán)境的多樣性。為此,解決語音信號的多樣性問題是提高語音識別率的關(guān)鍵。在空間和時間上,進(jìn)行語音識別的聲學(xué)建模時可以通過卷積神經(jīng)網(wǎng)絡(luò)具備的卷積平移不變特性,完成對語音信號多樣性的處理。
該系統(tǒng)基于卷積神經(jīng)網(wǎng)絡(luò)處理用戶的語音信號,其核心實(shí)現(xiàn)步驟包括卷積神經(jīng)網(wǎng)絡(luò)的Mel頻率倒譜系數(shù)特征提取、數(shù)據(jù)歸一化、數(shù)據(jù)分類等。
梅爾頻率倒譜系數(shù)特征提取流程如圖5所示。
圖5 梅爾頻率倒譜系數(shù)特征提取流程
結(jié)合語音信號的靜態(tài)和動態(tài)特征,可以提高系統(tǒng)的語音識別能力。因此,系統(tǒng)采用由靜態(tài)梅爾頻率倒譜系數(shù)、動態(tài)差分參數(shù)和幀能量組成的梅爾頻率倒譜系數(shù)方法。
3.1.1 靜態(tài)MFCC特征的提取
為實(shí)現(xiàn)對所采集的語音高頻部分的優(yōu)化處理,需要進(jìn)行預(yù)加重操作,從而提高語音的高頻分辨率,以便后續(xù)的優(yōu)化操作。依據(jù)相同的信噪比從而對查找頻譜進(jìn)行精準(zhǔn)定位。預(yù)加重一般通過高通濾波器實(shí)現(xiàn)??蚣軇澐滞瓿珊螅總€框架都乘以漢明窗口,以增加框架左右兩端的連續(xù)性。然后對每幀進(jìn)行FFT變換獲得每幀的頻譜,并對頻譜模式進(jìn)行平方處理獲得語音信號的功率。
對頻譜的平滑處理操作可以減少特征數(shù)據(jù)量和計(jì)算機(jī)量,從而消除諧波帶來的影響。三角濾波器的頻率響應(yīng)如下:
式中,f(m)為中心頻率,m=1, 2, ..., n。
計(jì)算每個濾波器組輸出的對數(shù)能量:
通過DTC變換對Mel頻譜進(jìn)行倒譜分析即可得到相應(yīng)的MFCC系數(shù):
式中:L表示Mel倒譜系數(shù)的階數(shù);M表示濾波器的總數(shù)。
3.1.2 動態(tài)差分參數(shù)的提取
獲得的Mel頻率倒譜系數(shù)參數(shù)僅反映了語音的靜態(tài)特性,為了更好地反映語音信號的時域連續(xù)性,采用一階差分參數(shù)和二階差分參數(shù)來描述語音的動態(tài)特性。差分參數(shù)的計(jì)算公式如下:
式中:d表示第t個一階差分;C表示倒譜系數(shù);Q表示倒譜系數(shù)的階數(shù);K表示一階導(dǎo)數(shù)的時間差,系統(tǒng)值K為1。
為提高精度,必須在梯度下降的條件下尋找最優(yōu)速度。
Mel頻率倒譜系數(shù)特征提取完成后,利用語音信號特征的標(biāo)準(zhǔn)差歸一化,達(dá)到加速梯度下降尋找最優(yōu)解速度的目的,轉(zhuǎn)換公式如下:
式中:σ表示原始數(shù)據(jù)標(biāo)準(zhǔn)差;μ表示原始數(shù)據(jù)的均值。
典型的卷積神經(jīng)網(wǎng)絡(luò)主要由卷積層、最大池化層和全連接層組成。在通過標(biāo)準(zhǔn)差歸一化處理后,所得數(shù)據(jù)需要做進(jìn)一步的分類處理。
卷積層由若干卷積核組成,具有信號特征提取功能。卷積內(nèi)核在輸出層計(jì)算能力的實(shí)現(xiàn)方式是對在該層獲得的滑動卷積數(shù)據(jù)的結(jié)果求和,然后將各層的偏差數(shù)據(jù)進(jìn)行累加求和。
池化層極大地簡化了卷積層輸出的復(fù)雜性,減少了網(wǎng)絡(luò)層的參數(shù),該系統(tǒng)通過使用最大池化方法極大地優(yōu)化了流程。池化層所在區(qū)域后的值由圖像區(qū)域的最大值定義。池化層后的數(shù)據(jù)通過結(jié)合非線性操作線性整流函數(shù)(remu)提高模型的識別性能。
全連接層將使用非線性運(yùn)算獲得的數(shù)據(jù)與向量和權(quán)重矩陣的乘積及偏差相結(jié)合。
該系統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)模型主要由輸入層、卷積層和池化層等組成,如圖6所示。輸入層、池化層和輸出均為一層,卷積層為兩層。本系統(tǒng)中,卷積神經(jīng)網(wǎng)絡(luò)輸入層的初始設(shè)計(jì)尺寸為11×39×3,激活函數(shù)使用remu函數(shù)。卷積層的輸入是前一個池化層的輸出,并且與系統(tǒng)每個完全連接的層緊密相關(guān),每個層的輸入是前一個層的輸出。
圖6 卷積神經(jīng)網(wǎng)絡(luò)模型
語音識別效果與系統(tǒng)所處環(huán)境有關(guān)。在該實(shí)驗(yàn)中,選擇3個人分別在安靜的環(huán)境和少量噪聲的環(huán)境中進(jìn)行測試。在每個環(huán)境中測試200次,測試數(shù)據(jù)由系統(tǒng)輸出識別結(jié)果得到,測試結(jié)果見表1所列。
表1 語音識別測試結(jié)果
從表中可以看出,語音識別的準(zhǔn)確率平均為95.5%,準(zhǔn)確率較高,能夠滿足預(yù)期的語音識別效果,證明了語音識別報警系統(tǒng)的可行性。
在聲音識別原理和GSM技術(shù)的基礎(chǔ)上,設(shè)計(jì)并實(shí)現(xiàn)了基于卷積神經(jīng)網(wǎng)絡(luò)的聲音識別報警系統(tǒng)。系統(tǒng)實(shí)時監(jiān)控家庭環(huán)境中的語音報警信號。實(shí)驗(yàn)測試表明,該系統(tǒng)工作穩(wěn)定,具有良好的語音識別效果,有效保障了人們獨(dú)自在家的安全,具有廣闊的市場前景和應(yīng)用價值。