宋亞男,林錫海,徐榮華,宋子寅
(廣東工業(yè)大學(xué)自動(dòng)化學(xué)院,廣東廣州 510006)
課題組結(jié)合學(xué)生畢業(yè)設(shè)計(jì)工作建設(shè)實(shí)驗(yàn)室,提供了進(jìn)一步研究的平臺(tái)和實(shí)驗(yàn)基礎(chǔ)。此項(xiàng)工作讓參與的學(xué)生在完成自己的畢業(yè)設(shè)計(jì)的同時(shí),也為實(shí)驗(yàn)室建設(shè)作了貢獻(xiàn)。設(shè)計(jì)和開發(fā)的結(jié)果可以提供給后屆學(xué)生學(xué)習(xí)和參考,后屆學(xué)生更容易在以前學(xué)生基礎(chǔ)上進(jìn)行進(jìn)一步的工作和研究。本文中闡述了機(jī)器人語音識(shí)別系統(tǒng)的實(shí)驗(yàn)設(shè)計(jì)目標(biāo)、實(shí)現(xiàn)過程以及結(jié)果。
為了便于學(xué)習(xí)者理解語音識(shí)別的基本原理和算法,更好地應(yīng)用凌陽SPCE061A 開發(fā)符合要求的應(yīng)用程序,先基于Matlab設(shè)計(jì)了以動(dòng)態(tài)時(shí)間規(guī)整(dynamic time warping,DTW)算法和Mel頻率倒譜系數(shù)(Mel frequency cepstrum coefficients,MFCC)參數(shù)提取算法為基礎(chǔ)的孤立詞自動(dòng)語音識(shí)別系統(tǒng);然后結(jié)合機(jī)器人語音識(shí)別的需求,基于凌陽SPCE061A 設(shè)計(jì)了和實(shí)現(xiàn)了語音識(shí)別應(yīng)用系統(tǒng),基于該研究結(jié)果構(gòu)建了相應(yīng)的實(shí)驗(yàn)方案,并提供本科生學(xué)習(xí)使用。具體說來,包括下面2個(gè)實(shí)驗(yàn)設(shè)計(jì)目標(biāo):
(1)基于Matlab實(shí)現(xiàn)以DTW 算法和MFCC 參數(shù)提取算法為基礎(chǔ)的孤立詞自動(dòng)語音識(shí)別演示實(shí)驗(yàn),展示給學(xué)生語音識(shí)別原理,增強(qiáng)學(xué)生結(jié)合應(yīng)用思考和解決實(shí)際問題的能力;
(2)基于凌陽SPCE061A 完成機(jī)器人語音識(shí)別系統(tǒng)的半開放實(shí)驗(yàn)(為了便于學(xué)習(xí)語音識(shí)別算法在實(shí)際中的應(yīng)用,開放語音識(shí)別算法設(shè)計(jì)部分,固化硬件電路部分),提供給學(xué)生對(duì)機(jī)器人語音識(shí)別算法應(yīng)用研究和改進(jìn)的平臺(tái)。
對(duì)于孤立詞來講,使用模板匹配方法進(jìn)行語音識(shí)別,一般就是把整個(gè)單詞作為識(shí)別單元。在訓(xùn)練階段,將詞匯表中的每個(gè)詞語依次說一遍,然后將其特征矢量時(shí)間序列作為模板存入模板庫。在識(shí)別階段,將輸入語音的特征矢量時(shí)間序列依次與模板庫中的每個(gè)模板進(jìn)行相似度比較,選擇相似度最高的作為識(shí)別結(jié)果[1-4]。一個(gè)完整的孤立詞語音識(shí)別系統(tǒng)通常包括語音的輸入、語音信號(hào)的預(yù)處理、特征提取和訓(xùn)練與識(shí)別等環(huán)節(jié),基本構(gòu)成如圖1所示[5-9]。
圖1 典型的語音識(shí)別系統(tǒng)
(1)預(yù)處理:包括對(duì)語音數(shù)據(jù)進(jìn)行去噪、預(yù)加重、分幀、加窗等處理。
(2)特征提?。赫Z音識(shí)別很重要的一環(huán)就是特征參數(shù)提取,提取的特征參數(shù)能有效地代表語音特征,具有很好的區(qū)分性,各階參數(shù)之間有良好的獨(dú)立性。
(3)訓(xùn)練:在訓(xùn)練階段,將特征參數(shù)進(jìn)行一定的處理之后,為每個(gè)詞條得到一個(gè)模型,保存為模板庫。
(4)識(shí)別:在識(shí)別階段,語音信號(hào)經(jīng)過相同的通道得到語音參數(shù),生成測(cè)試模版,并與參考模版進(jìn)行匹配,將匹配分?jǐn)?shù)最高的參考模版作為識(shí)別結(jié)果。
(5)專家知識(shí):對(duì)于不同的語言有不同的語言學(xué)專家知識(shí)庫,可以在很多先驗(yàn)知識(shí)的幫助下,提高識(shí)別的準(zhǔn)確率[10-14]。
(1)在基于Matlab實(shí)現(xiàn)以DTW 算法和MFCC參數(shù)提取算法為基礎(chǔ)的孤立詞自動(dòng)語音識(shí)別演示實(shí)驗(yàn)中,基于PC 機(jī)的語音識(shí)別系統(tǒng)的語音采集過程見圖2。語音聲波通過話筒輸入到聲卡后直接獲得的是經(jīng)過濾波、A/D 變換、量化處理的離散的數(shù)字信號(hào)。獲得語音信號(hào)后,在Matlab環(huán)境中實(shí)現(xiàn)如圖1的語音訓(xùn)練和識(shí)別[15]。
圖2 基于PC機(jī)的語音錄制過程框圖
(2)在基于凌陽SPCE061A 完成機(jī)器人語音識(shí)別系統(tǒng)的半開放實(shí)驗(yàn)中,系統(tǒng)結(jié)構(gòu)圖見圖3。獲得語音信號(hào)后,在凌陽SPCE061A 中實(shí)現(xiàn)如圖1的語音訓(xùn)練和識(shí)別。
圖3 SPCE061A語音識(shí)別系統(tǒng)結(jié)構(gòu)框圖
這里主要采用基于DTW 算法和MFCC 參數(shù)提取算法實(shí)現(xiàn)語音識(shí)別,因?yàn)閷?shí)驗(yàn)設(shè)計(jì)不同,控制器開放程度不一樣,所以具體設(shè)計(jì)見2.4和2.5節(jié)。
2.4.1 實(shí)驗(yàn)?zāi)康?/p>
實(shí)驗(yàn)?zāi)康模簬椭鷮W(xué)生理解語音識(shí)別原理;基于Matlab實(shí)現(xiàn)孤立詞語音識(shí)別,培養(yǎng)學(xué)生語音識(shí)別算法設(shè)計(jì)和應(yīng)用的興趣。
2.4.2 實(shí)驗(yàn)內(nèi)容和實(shí)驗(yàn)步驟
(1)利用Windows自帶的錄音機(jī)錄制語音文件,由聲卡(見圖2)完成語音波形的A/D 轉(zhuǎn)換,獲得Wave文件,提供后續(xù)處理語音文件。
(2)用wavread函數(shù)讀入錄制的Wave文件,用Soundview 函數(shù)可以將錄制語音信號(hào)的波形圖顯示出來,用vad函數(shù)對(duì)其進(jìn)行端點(diǎn)檢測(cè)。
(3)對(duì)語音信號(hào)進(jìn)行預(yù)處理和端點(diǎn)檢測(cè)后,用MFCC函數(shù)提取語音信號(hào)的特征參數(shù),用DTW 函數(shù)實(shí)現(xiàn)語音識(shí)別,在Matlab命令窗口中輸入‘testdtw’,可以得到語音識(shí)別結(jié)果。
2.5.1 實(shí)驗(yàn)?zāi)康?/p>
基于凌陽SPCE061A 完成機(jī)器人語音識(shí)別系統(tǒng)的半開放實(shí)驗(yàn)。為了便于學(xué)習(xí)語音識(shí)別算法在實(shí)際中的應(yīng)用,開放語音識(shí)別算法設(shè)計(jì)部分,固化硬件電路部分,提供給學(xué)生對(duì)機(jī)器人語音識(shí)別算法應(yīng)用研究和改進(jìn)的平臺(tái)。
2.5.2 實(shí)驗(yàn)內(nèi)容和實(shí)驗(yàn)步驟
(1)按圖3連接系統(tǒng)。
(2)在集成開發(fā)環(huán)境unSP IDE2.0.0 中編寫程序,編譯、鏈接、調(diào)試好程序后,根據(jù)SPCE061A 的開發(fā)方法,把程序下載到SPCE061A 開發(fā)板上進(jìn)行軟硬件聯(lián)調(diào)。
(3)現(xiàn)有語音識(shí)別人機(jī)交互系統(tǒng)實(shí)例:通過3條語句的訓(xùn)練演示特定人連續(xù)音識(shí)別,其中第1條語句為觸發(fā)命令,在程序一開始為訓(xùn)練名稱,即觸發(fā)命令,然后提示訓(xùn)練2條命令(根據(jù)機(jī)器人的設(shè)計(jì)要求,自定義觸發(fā)名稱為“小車”,2條命令為“過來”和“撿球”),訓(xùn)練完畢開始辨識(shí),當(dāng)識(shí)別出觸發(fā)名稱后,發(fā)布命令則會(huì)聽到應(yīng)答,相關(guān)I/O 口的輸出變?yōu)榈碗娖健H藱C(jī)交互系統(tǒng)語音訓(xùn)練階段和識(shí)別階段的具體命令分別如表1和表2所示[15]:
表1 人機(jī)交互語音訓(xùn)練階段命令
表2 人機(jī)交互語音識(shí)別階段
即根據(jù)提示音進(jìn)行連續(xù)語音訓(xùn)練,將“小車”、“過來”、“撿球”3條語句存入存儲(chǔ)器中,提取特征參數(shù)作為參考模板;然后進(jìn)行語音識(shí)別測(cè)試,對(duì)“小車”、“過來”、“撿球”中的每條語句分別進(jìn)行測(cè)試。每次正確識(shí)別出語音后,用萬用表測(cè)試IOB口的端口電平,以端口電平的高低來判斷每次IOB口輸出是否為正確信號(hào)。
可在上述2個(gè)實(shí)驗(yàn)中添加代碼,實(shí)現(xiàn)更高識(shí)別率的算法或者研究更復(fù)雜語音(連續(xù)語音、噪聲環(huán)境下的語音)的識(shí)別,算法學(xué)生自行設(shè)計(jì)。
機(jī)器人語音識(shí)別系統(tǒng)實(shí)驗(yàn)設(shè)計(jì)與實(shí)現(xiàn)是由學(xué)生林錫海的本科畢業(yè)設(shè)計(jì)工作完成的,特此表示感謝。在相關(guān)基金項(xiàng)目的資助下正準(zhǔn)備將機(jī)器人語音識(shí)別系統(tǒng)實(shí)驗(yàn)引入本科實(shí)驗(yàn)教學(xué)中,已經(jīng)經(jīng)過部分學(xué)生和教師的試運(yùn)行,受到好評(píng)。實(shí)踐表明:這種將本科學(xué)生的畢業(yè)設(shè)計(jì)與實(shí)驗(yàn)室建設(shè)相結(jié)合,在實(shí)驗(yàn)設(shè)備緊張的情況下,既能讓學(xué)生有機(jī)會(huì)參與具體實(shí)踐,同時(shí)學(xué)生的優(yōu)秀設(shè)計(jì)可以服務(wù)于實(shí)驗(yàn)室建設(shè),為后屆學(xué)生提供參考和開設(shè)新的實(shí)驗(yàn)項(xiàng)目,也使實(shí)驗(yàn)資源得到了充分利用。
(
)
[1]邢銘生,朱浩,王宏斌.語音識(shí)別技術(shù)綜述[J].科協(xié)論壇,2010(3):62-63.
[2]Lawrence Rabiner,Biing-Hwang Juang.Fundamentals of Speech Recognition[J].New Jersey:Prentice Hall,1993:210-241.
[3]劉么和,宋庭新.語音識(shí)別與控制應(yīng)用技術(shù)[M].北京:科學(xué)出版社,2008.
[4]Sakoe H,Chiba S.Dynamic programming optimization for spoken word recognition[J].IEEE Trans Acoustics,Speech,Signal Proc,1978,26(1):43-49.
[5]韓紀(jì)慶,張磊.語音信號(hào)處理[M].北京:清華大學(xué)出版社,2004.
[6]曾靚.小語音庫的語音識(shí)別及實(shí)現(xiàn)[D].廣州:中山大學(xué),2009.
[7]Shariah M A M,Ainon R N,Zainuddin R,et al.Human Computer Interaction Using Isolated-Words Speech Recognition Technology[C]//International Conference on Intelligent and Advanced Systems,2007:1173-1178.
[8]何強(qiáng),何英.MATLAB擴(kuò)展編程[M].北京:清華大學(xué)出版社,2002.
[9]馬莉,黨幼云.特定人孤立詞語音識(shí)別系統(tǒng)的仿真與分析[J].西安工程科技學(xué)院學(xué)報(bào),2007,21(3):371-373.
[10]楊雪松.面向智能服務(wù)機(jī)器人的非特定人交互口令語音識(shí)別系統(tǒng)研究[D].北京:北京大學(xué),2009.
[11]李守軒.輪椅機(jī)器人語音識(shí)別控制系統(tǒng)的研究與實(shí)現(xiàn)[D].南昌:南昌大學(xué),2007.
[12]羅亞非.凌陽16位單片機(jī)應(yīng)用基礎(chǔ)[M].北京:北京航空航天大學(xué)出版社,2005.
[13]張震宇,王華,于愛華.基于SPCE061A 語音單片機(jī)的智能小車的控制[J].浙江科技學(xué)院學(xué)報(bào),2007,19(1):27-30.
[14]汪敏,周鵬.凌陽16位單片機(jī)實(shí)驗(yàn)與實(shí)踐[M].北京:北京航空航天大學(xué)出版社,2007.
[15]林錫海.召喚式撿球機(jī)器人的語音識(shí)別系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].廣州:廣東工業(yè)大學(xué),2011.