趙 楠,武明虎,熊 煒,陳晶晶
(湖北工業(yè)大學 電氣與電子工程學院,武漢 430068)
基于Android語音信號處理教學平臺的設計
趙 楠,武明虎,熊 煒,陳晶晶
(湖北工業(yè)大學 電氣與電子工程學院,武漢 430068)
以智能移動設備作為載體,具有語音信號的采集、語音分析和處理及圖形顯示等功能的基于Android的語音信號處理教學演示平臺,不僅節(jié)約了教學成本,激發(fā)學生的學習興趣,而且有助于學生對課程基本理論的理解以及分析問題和動手實踐能力的提高。同時,該平臺涉及到多個學科領域,能擴展到其他課程的教學實踐中,為現代化教學改革提供新思路和手段。
語音信號處理;Android;移動教學平臺;實踐經驗
語音信號處理(speech signal processing,SSP)是利用數字信號處理技術對語音信號進行分析和處理的一門學科,涉及數字信號處理、語音學、信息論、隨機過程、模式識別等許多學科領域[1-3],是一門理論性強、實用廣、難度大的交叉學科。該課程所涉及的知識理論性強,基本概念抽象,傳統(tǒng)板書或簡單的PPT教學方式很難讓學生深入地理解和掌握其基本原理[4-6]。
近年來,隨著無線移動技術的發(fā)展,移動學習充分利用可便攜設備實現了跨越地域限制的學習方式,逐漸受到研究者的青睞[7-8]。而作為移動設備發(fā)展最為迅速的Android系統(tǒng)平臺,其各種應用層出不窮,在高校中擁有龐大的用戶群體。
湖北工業(yè)大學電氣學院通信教研組經過多年探索和嘗試,希望將Android系統(tǒng)與移動學習理念引入語音信號處理課堂教學中,開發(fā)了基于Android系統(tǒng)的語音信號處理移動輔助教學軟件,以圖形方式形象地展示語音信號的特點,從而豐富學生的感性認識,提高其學習主動性。同時,學生可隨時隨地在手邊的Android移動設備上進行課程內容的演示和學習,既省時又便捷。這種靈活、多樣、自主的學習方式,能夠幫助學生建立對抽象的“信號”的認識,為相關理論的學習和研究打下基礎。
Android系統(tǒng)是當今移動終端使用量最大的操作系統(tǒng)。本文利用其普及性、移動便捷、快速運算等特點,開發(fā)了基于Android系統(tǒng)的語音信號處理教學輔助平臺(SSP educational platform by Hbut,SEPH)。用戶只需在其移動終端上安裝SEPH軟件,借助無線移動通信技術,即可實現隨時隨地移動學習[9]。SEPH改變了現有的單一教學手段,將虛擬實驗與課堂理論有機結合,能極大地激發(fā)學生的學習興趣。其良好的移動性和交互性,在節(jié)約教學成本的同時,能有效地提高教學效果。
SEPH平臺實現基本的語音分析和處理功能,包括時域分析、頻譜分析、倒譜分析、線性預測編碼技術(linear predictive coding,LPC)等。
基音周期是語音信號處理中的一個非常重要的參數,能夠準確地檢測出基音周期對語音信號的分析、合成、編碼以及識別,具有重要的意義[1]。短時自相關函數法和倒譜分析法是基音周期估計較為常用的方法。本節(jié)基于SEPH系統(tǒng),探討在基音檢測教學中如何利用語音分析技術對實際的語音信號進行分析與檢測。
2.1 基于倒譜分析法的基音檢測
語音信號的倒譜分析是估計語音生成模型的有效方法,通常用于語音編碼、合成、識別等方面[2]。根據語音產生理論,語音信號s(n)由語音信號的聲門激勵信息e(n)通過聲道h(n)產生,在頻域,語音信號可表示為:于是,s(n)的對數幅度譜為:
借助傅里葉變換技術,lg|S(ω)|中與激勵信息E(ω)相關的高頻部分和與聲道信息H(ω)相關的低頻部分被有效地分離,從而獲得聲道共振峰的特性和基音周期。
清音幀沒有周期性和強烈的峰起,而濁音幀存在明顯的尖峰,其峰值的位置就是濁音基音周期的良好估值。同時,利用低時窗,將倒譜的低時部分的聲道信息h(n)提取出來,能夠獲得該段語音信號的共振峰頻率。因此,利用倒譜分析,不僅能進行清、濁音的判別,而且能夠估計語音信號的共振峰頻率和濁音的基音周期。語音的基音頻率隨著聲音的變化情況,如圖1所示。
圖1 基音頻率圖(倒譜法)
2.2 基于短時自相關函數法的基音檢測
對于語音信號x(n)來說,其短時自相關定義為:
式中,k為延遲點數。
圖2 基音頻率圖(短時自相關函數法)
清音幀的短時自相關序列雜亂無章,類似于噪聲,而濁音幀的短時自相關序列具有周期性。通過估計該自相關序列的周期,可以獲得該濁音幀的基音周期?;魴z測圖如圖2所示??梢灾庇^地看出,在發(fā)聲的整個過程中,濁音語音的基音頻率隨著聲音的變化幅度波動很大,縱坐標值為零的語音段是清音語音。
同時,根據圖1和圖2的基音頻率圖,學生能清晰地理解這兩種檢測方法的原理和作用。自相關函數法算法簡單直觀,但準確率不高,容易產生倍基音;倒譜法能較好地檢測出語音信號的基音周期,但計算量大。通過對比實驗,將以前枯燥的語音特性分析與基音檢測原理,變?yōu)橹庇^的、形象的視覺效果,來展示不同類型語音信號和檢測方法的特點,激發(fā)了學生的學習興趣,有利于學生迅速理解相關知識。
在語音信號處理中,共振峰頻率表征發(fā)音時聲道特性的關鍵參數,在語音合成、語音識別等方面有著重要的應用價值。本節(jié)結合常見的倒譜法和LPC法,來說明在共振峰檢測方面使用SEPH的優(yōu)勢。
3.1 基于倒譜法的共振峰檢測
倒譜將基音諧波和聲道的頻譜包絡分離,其低時部分可用于分析聲道、聲門等信息。利用低時窗提取倒譜信息,再進行DFT后的輸出,即為平滑后的對數模函數。這一平滑對數譜表現出語音段的諧振結構,即譜的峰值基本上對應于共振峰的頻率。因此,通過對平滑對數譜的峰值進行定位,可以有效地估計共振峰頻率[10]。圖3給出了前3個共振峰頻率的軌跡圖。
圖3 共振峰軌跡圖(倒譜法)
3.2 基于LPC法的共振峰檢測
在語音信號處理技術中,LPC分析是一種譜估計的方法[11],一個語音的采樣能夠用過去若干個語音采樣的線性組合來逼近,即:
式中,p為LPC階數,ak為線性預測系數,e(n)為線性預測誤差。
在最小均方誤差意義上,通過線性預測得到的采樣逼近實際語音采樣,從而獲得一組唯一的預測系數,即線性組合中的加權系數[12]。
對于p階線性預測來說,有:
為了分析語音信號的頻域特性,該LPC功率譜可表示為:
式中,G為模型增益。
用戶通過手指在SEPH界面中選擇某一語音幀(光標所在位置如圖4(a)所示),其對應的LPC譜就會出現在演示界面的上半部分。通過這樣靈活生動的用戶體驗,形象直觀地展示語音特性,既調動了學生的積極性,又活躍了課堂氣氛。
圖4(a)顯示了濁音幀及其相應的LPC譜,學生可直觀看出語音的LPC特性以及峰值對應的共振峰頻率。通過對預測多項式系數的分解,可以確定共振峰的中心頻率和帶寬[1]。給出濁音和清音共振峰頻率隨著聲音的變化情況如圖4(b)所示。
從圖3和圖4(b)的共振峰軌跡圖中可以看出,倒譜法頻譜曲線的波動較小,估計共振峰參數的效果較好,但計算量大;LPC法用一個全極點模型逼近語音譜,但較難匹配含有零點的語音,同時亦受LPC階數p的影響。在教學過程中,可以引導學生根據不同方法的特點自主進行分析驗證,通過靈活地更改參數設置,動態(tài)地讓學生理解共振峰檢測的基本原理,加深其對課程內容的理解和掌握。
圖4 LPC法
語音信號處理知識理論性強、概念抽象。針對該課程教學特點,本文基于Android系統(tǒng)開發(fā)了一個移動教學演示平臺,其良好的移動性和交互性、直觀的圖形展示、靈活的參數配置和豐富的語音分析及處理功能,不僅減少了相關教學平臺的投入成本,而且極大激發(fā)了學生的自主學習、自主探究的興趣,有效提高了學生分析問題和動手實踐能力。該教學演示平臺不但可應用于本科生和研究生相關教學實踐,而且為后續(xù)研究奠定了較好的基礎。
[1]胡航.語音信號處理(修訂版)[M].黑龍江:哈爾濱工業(yè)大學出版社,2002.
[2]劉衛(wèi)東,孟曉靜,王艷.語音信號處理實驗教學研究探索[J].實驗室研究與探索,2008,27(4):72-74.
[3]趙力.語音信號處理[M].北京:機械工業(yè)出版社,2003.
[4]謝斌,蔡自興.項目驅動式教學在語音信號處理課程改革中的嘗試[J].計算機教育,2012(18):63-66.
[5]張雪英.數字語音處理及MATLAB仿真[M].北京:電子工業(yè)出版社,2010.
[6]楊毅,鄧北星,馬曉紅.《語音信號處理》實驗教學研究與實踐[J].實驗科學與技術,2012,10(6): 112-116.
[7]李云飛.移動學習系統(tǒng)及其相關學習模式[J].開放教育研究,2012,18(1):152-158.
[8]楊佳.M-Learning中的學習活動設計[J].軟件導刊(教育技術),2011,10(1):89-91.
[9]薛建強.大學英語移動學習模式的構建與發(fā)展研究[J].實驗技術與管理,2014,31(3):176-179.
[10]肖正安.基于MATLAB分析語音信號頻域特征[J].湖北第二師范學院學報,2011,28(8):35-37.
[11]趙淑敏.基于MATLAB實現對語音信號頻譜分析[J].江西通信科技,2010(4):15-17.
[12]蓋正杰.基于矢量量化的說話人識別分析與研究[D].長春:長春理工大學,2009.
Design of Teaching Platform of Speech Signal Processing Based on Android
ZHAO Nan,WU Minghu,XIONG Wei,CHEN Jingjing
(School of Electrical&Electronic Engineering,Hubei University of Technology,Wuhan 430068,China)
An attractive Android-based mobile educational platform for teaching speech signal processing is presented in this paper.The proposed platform has the advantages of high portability,strong affordability,adequate interactivity,and easy adoptability with high-hierarchy graphic user interface and extensive hands-on experiences.The experimental results show that this platform can significantly cultivate students’learning interest,improve their practical ability,and consolidate theoretical concepts.The platform is also appropriate for the signal-processing related courses,which can provide new ideas and means for the construction of modern teaching reform.
speech signal processing;Android;mobile teaching platform;practice experience
TN911.7
A
10.3969/j.issn.1672-4550.2016.05.017
2015-01-11;修改日期:2015-03-11
湖北工業(yè)大學教學研究項目(校2015014)。
趙 楠(1983-),女,博士,講師,主要從事語音信號處理、通信信號處理方面的研究。