陳后全
(西北民族大學電氣工程學院,甘肅 蘭州730030)
本文設(shè)計的目的是使得機械可以進行語音識別,從而幫助人們方便快捷又安全有效的生活。人機之間的語言識別系統(tǒng)在現(xiàn)今社會要求會更高,對其準確性和及時性的規(guī)定也更嚴苛,對語言信號的識別進行相關(guān)仿真實驗,從實驗中的結(jié)果得出正確結(jié)論[1],使其能根據(jù)語音信息接收人的思想意圖,執(zhí)行相關(guān)的操作步驟。本文采用MATLAB 來進行語音信號的識別過程,利用MATLAB 強大的數(shù)學運算能力,分析語音信號,提取語音信號的特征參數(shù),再對參數(shù)進行DTW 算法的匹配,從而具有規(guī)定模板的數(shù)據(jù)庫對比,完成數(shù)據(jù)的相似度呈現(xiàn)。在MATLAB 的仿真界面上顯示聲音的具體波形圖,通過錄入和輸出的波形圖差異對比,就可以完成語音識別系統(tǒng)的智能設(shè)計。
語音信號的接收是人們口中說出的詞語,包括孤立詞語,連接詞語和連續(xù)語音等,這些詞語需要進行特定的分門別類,得到它們相關(guān)的特征參數(shù)然后進行對應(yīng)識別。自然界中,不管是人類的聲音還是其他的聲音,聲音的傳出都具有音色,音調(diào)和響度這3 個特性,根據(jù)聲音的這3 個特點和人們說話的行為方式來判斷系統(tǒng)提取的特征因素,從而再更進一步地進行準確的語音識別。聲音的普遍四聲圖如圖1:
圖1 聲音的普遍四聲圖
由圖分析,聲音有陰陽上去(1234)四個聲,系統(tǒng)通過采集聲音信號進行語音識別。在系統(tǒng)的識別過程中,對采集的語音信號進行預(yù)處理,包括采樣,量化和濾波等。其次是對聲音的特征提取,聲音的特征參數(shù)必須有效地反應(yīng)該聲音的語言特性,使之能夠區(qū)分出其他的語音信號。同時特征參數(shù)要具備相互獨立性和便于計算這兩種特點,這樣才能保證系統(tǒng)在語音識別的過程麗準確且高效,實時且流暢。
這里提出的兩點是口音和噪音的干擾,這些我們都可以視作噪聲來對待,由于我國的地域和文化風俗性差異,普通話的普及還有所欠缺,人們的語言特點也不盡相同,因此噪聲是本文系統(tǒng)所要克服的一個難點。采用語音數(shù)據(jù)庫的對比方法,可以改善口音的識別問題,進一步在系統(tǒng)內(nèi)建立聲學模型機制同樣可以提高語音識別的成功率,對系統(tǒng)發(fā)展有益。噪音的干擾會使得語音信號收集受到影響,信號的收集很有可能會摻雜進擾動因素,形成無法消除的噪聲,造成語音識別成功率的下降。對系統(tǒng)的降噪處理需要更深一步的語音模型構(gòu)造,更好的數(shù)學建模方法和更強的噪聲抑制功能。對這些改進方法同樣可以借鑒聲音的四種模式,聲音簡單四模式圖如圖2:
圖2 聲音簡單四模式圖
根據(jù)聲音的音長和頻率,我們可以分析出一二三四聲的大致區(qū)別,圖中的聲調(diào)曲線是聲音信號辨別的關(guān)鍵[2-4]。通過對曲線走勢的判斷,我們可以得到聲音的波形幅度和順延周期,這些參數(shù)為系統(tǒng)的語音識別提供了可靠的數(shù)據(jù)支持。
根據(jù)聲音信號的特點,對聲音信號的捕捉作出一個框架模型,其中包括基本音頻,干擾噪聲,聲道控制和特征分析等模型,系統(tǒng)模型圖如圖3:
圖3 系統(tǒng)模型圖
基本音頻通過輸入基本的語音信號,提取聲音的頻率等特征,將收集的語音信號經(jīng)過周期性處理,得到周期性的波形信號傳輸?shù)铰暤滥P椭?。聲道模型中同時會接收到系統(tǒng)判定的干擾噪聲,不可避免,在對聲道模型中的語音信號進行采樣,量化等預(yù)處理后,對語音信號的識別操作開始進行,通過算法和數(shù)據(jù)庫的對比,最后成功完成人們與機器之間的語音識別功能。
DTW 算法針對孤立詞語進行計算,從而得到簡單高效的正確結(jié)果。DTW 算法基于DP 的思想進行相應(yīng)建構(gòu),匹配語音的相關(guān)模板,計算量不是特別龐大,所有DTW 算法在現(xiàn)今社會中仍然具有很廣泛的運用。
算法初始確定語音的開始點和結(jié)束點,對模板庫的各個詞條進行相關(guān)劃分,將劃分出來的模板作為參考依據(jù),一個參考的劃分區(qū)域可以表示為A 或B 的行組,如A={A(1),A(2),A(3),A(4),A(5),……},A(1)是開始點的語音特征矢量,A 組的最后一個元素為結(jié)束點的語音特征矢量。同理可以設(shè)置測試的劃分區(qū)域,并定義相關(guān)的語音特征矢量,算法將參考和測試兩方面因素進行MFCC 系數(shù)、幀變換和窗函數(shù)的對應(yīng)計算,最終得到語音信號數(shù)據(jù)的正確結(jié)果。
本文使用MATLAB 進行系統(tǒng)的仿真實驗,經(jīng)過采集志愿者的聲音,錄入音頻信號“A-Z”26 個英文字母的語言發(fā)音,并為這26 個英文字母的實驗對象分別命名,命名表如表1:
表1 命名表
通過對聲音信號進行分析處理后,提取相關(guān)特征參數(shù)以及選取模板,將模板存入數(shù)據(jù)庫中,建立相關(guān)的數(shù)據(jù)庫模型,為實驗的仿真奠定數(shù)據(jù)支持。將語音信號隨機選取進行MATLAB 仿真可以看到相應(yīng)的波形圖,單字母波形圖如圖4:
圖4 單字母波形圖
經(jīng)過錄入相關(guān)字母的波形顯示對比,可以對比出26 個字母的相同波形,因此語音識別系統(tǒng)可以正確應(yīng)用。簡單字母“A-Z”的26 個比較完全成功,拓展到孤立詞語,連接詞語和連續(xù)語音等的數(shù)據(jù)庫比較,從而完成更好的語音識別系統(tǒng)[5]。
本文利用MATLAB 軟件作為仿真工具,運用其強大的數(shù)學運算能力以及其龐大的數(shù)據(jù)庫構(gòu)造能力,成功建構(gòu)出基于MATLAB 的智能語音識別系統(tǒng),幫助人們更好的生活。語音識別技術(shù)過程中,運用到了DTW 算法和仿真中的各種函數(shù),在不斷試錯中也不斷改進和完善,進而使得語言的處理能夠在統(tǒng)計學和模式識別等相關(guān)學科中相融合,起到理論聯(lián)系實際的一大奠基。人們需要不斷地探索,不斷地創(chuàng)新和不斷的進步,才能在科技快速發(fā)展的同時也充實自己。