張其進(jìn),張玉梅
(1.陜西師范大學(xué) 現(xiàn)代教學(xué)技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,陜西 西安 710119;2.陜西師范大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,陜西 西安 710119)
在語音信號處理中,分類問題一直是基礎(chǔ)性的但又難以解決的課題之一。語音分類在語音預(yù)測、語音編碼和解碼等領(lǐng)域中都有廣泛的應(yīng)用。語音的產(chǎn)生依賴于發(fā)音器官,包括肺、氣管、聲帶、口腔、鼻腔和嘴唇等[1]。語音信號具有混沌特性,這是因?yàn)檎Z音信號會在聲道邊際層產(chǎn)生渦流,并最終形成一種湍流,而湍流本身已經(jīng)證實(shí)就是一種具有混沌特性的現(xiàn)象。Lyapunov指數(shù)[2]能夠給出系統(tǒng)分類對系統(tǒng)初始化值的依賴度?,F(xiàn)有研究多是基于特征量對語音信號進(jìn)行識別與預(yù)測,而基于混沌特性的語音信號分類研究則較少。
文中以混沌理論中相空間重構(gòu)[3]為基礎(chǔ),采集同人群、不同發(fā)音的各類語音信號,計(jì)算出延遲時間和嵌入維數(shù)后求出其最大Lyapunov指數(shù),探究其規(guī)律,找出各類信號的最大Lyapunov指數(shù)的分布區(qū)間,完成基于最大Lyapunov指數(shù)的語音信號分類。該方法將采集來的語音信號根據(jù)其最大Lyapunov指數(shù)進(jìn)行分類,進(jìn)一步說明了語音信號與混沌理論的切合性,并為語音信號的分類提供了新依據(jù)。
研究語音信號的混沌特性需要還原出混沌特性系統(tǒng)的復(fù)雜動力學(xué)特征。Takens嵌入定理[4]中證明了混沌系統(tǒng)最重要的兩個參數(shù)—嵌入維數(shù)m和延時時間τ的存在,通過相空間重構(gòu)技術(shù)提取出混沌語音信號的性質(zhì)和規(guī)律。相空間重構(gòu)的原理如下:
設(shè)x(t),t=1,2,…,N為混沌語音信號時間序列,在m維相空間中的狀態(tài)轉(zhuǎn)移形式為:
Y(t+1)=f(Y(t))
(1)
其中,Y(t)為相空間中的點(diǎn),τ為延遲時間,且
Y(t)=(x(t),…,x(t+(m-1)τ))
(2)
展開得:
(x(t+1),…,x(t+1+(m-1)τ))=f(x(t),…,x(t+(m-1)τ))
(3)
在重構(gòu)的相空間中,第n+τ個向量的前m-1個分量為第n個向量的后m-1個分量(τ為時間延遲,m為嵌入維數(shù))。如表1所示的時間序列{1,2,3,4,5,6,7,8,9,10,11,12,13,14,15},假設(shè)其嵌入維數(shù)m為6,延時時間τ為3,則對其重構(gòu)相空間得到向量。第四個向量x4的前3個分量為第一個向量x1的后3個分量,第五個向量x5的前三個分量為第二個向量x2的后三個分量。
通過求取出表1中語音信號正確的嵌入維數(shù)m和延遲時間τ,可以恢復(fù)語音信號的非線性動力學(xué)特征。文獻(xiàn)[5]總結(jié)介紹了多種方法,其中互信息法[6]是估計(jì)延遲時間τ的有效方法,Cao方法[7]是嵌入維數(shù)m選取最常用的方法,在相空間重構(gòu)中有廣泛應(yīng)用。因此,文中分別采用互信息法求取延遲時間τ,用Cao方法來選取嵌入維數(shù)m。
表1 相空間重構(gòu)
在理論上,對一個理想的無限長和無噪聲的語音信號時間序列,延遲時間的選取是任意的,但是實(shí)際中的語音信號序列是有限長度且存在噪聲的,所以在實(shí)際應(yīng)用中,延遲時間并不能隨意取值。設(shè)觀測時間序列為{x(i),i=1,2,…,N},則在i和i+τ時刻觀測量之間的互信息函數(shù)為:
(4)
其中,P[x(i)]為點(diǎn)x(i)的概率密度;P[x(i),x(i+τ)]為點(diǎn)x(i)和x(i+τ)的聯(lián)合概率。一般選擇I(τ)求取到的第一個局部最小的τ為延遲時間,此時產(chǎn)生的冗余最小,并具有最大獨(dú)立性,能夠很好地還原混沌系統(tǒng)的動力學(xué)特性。
假設(shè)有一組時間序列x1,x2,…,xN,延遲時間向量可以被重構(gòu)為:
yi(d)=(xi,xi+τ,…,xi+(d-1)τ),i=1,2,…,N-(d-1)τ
(5)
其中,d為嵌入維數(shù);τ為延遲時間。記yi(d)為當(dāng)嵌入維數(shù)為d時的第i個重構(gòu)向量。類似的,yi(d+1)是嵌入維數(shù)為d+1時的第i個重構(gòu)向量。
如果d是合適的嵌入維數(shù),那么d維重構(gòu)相空間中鄰近的任意兩點(diǎn),如果在d+1維重構(gòu)之后的空間中仍然鄰近,稱這樣的一對點(diǎn)為真鄰近點(diǎn);否則,稱其為虛假鄰近點(diǎn)[8]。正確的嵌入意味著沒有虛假鄰近點(diǎn)存在,通常通過判斷a(i,d)是否大于給定的閾值來確定是否是虛假鄰近點(diǎn),其中
a(i,d)=|xi+dτ-xn(i,d)+dτ|/‖yi(d)-yn(i,d)(d)‖
(6)
從a(i,d)的定義來看,對不同的點(diǎn)i,至少在理論上a(i,d)應(yīng)該有不同的閾值。不同的時間序列可能有不同的閾值。這說明只依靠嵌入維數(shù)d和每個軌線上的點(diǎn)以及給定的時間序列來得出正確且合理的閾值是很困難的。為了避免這個問題,定義:
(7)
E(d)只取決于嵌入維數(shù)d和延遲τ。為了研究E(d)從d到d+1的變化,定義:
E1(d)=E(d+1)/E(d)
(8)
當(dāng)d比某一d0大時,如果E1(d)停止改變,那么d0+1即為最小嵌入維數(shù)。理論上,在隨機(jī)的時間序列中,隨著d的增長,E1(d)永遠(yuǎn)不會達(dá)到飽和值停止變化。但是由于可供觀測的數(shù)據(jù)樣本有限,雖然時間序列是隨機(jī)的,E1(d)有可能在某一d值時停止變化。因此,為了減小計(jì)算誤差,使結(jié)果更加準(zhǔn)確,需要再計(jì)算E2(d)。
定義:
(9)
E2(d)=E*(d+1)/E*(d)
(10)
由于未來的新值與之前的值無關(guān),E2(d)在這種情況下對任何d來講,值都為1。但是,對確定的時間序列,E2(d)是確實(shí)與d相關(guān)的。所以,必定存在某一d值,使E2(d)≠1。當(dāng)E1(d)和E2(d)都在1附近穩(wěn)定時,即得到了最小嵌入維數(shù)。要確定時間序列的最小嵌入維數(shù),必須計(jì)算E1(d)和E2(d),以便從隨機(jī)時間序列中區(qū)分出確定的時間序列。
Lyapunov指數(shù)是指系統(tǒng)鄰近兩個或者多個軌道整體分離速率指數(shù)的評估,是對產(chǎn)生時間序列數(shù)據(jù)的系統(tǒng)混沌特性大小的衡量標(biāo)準(zhǔn)之一。最大Lyapunov指數(shù)作為混沌系統(tǒng)的一個重要特征量,是混沌特性識別的主要依據(jù)之一。當(dāng)最大Lyapunov指數(shù)小于零時,系統(tǒng)具有部分穩(wěn)定的點(diǎn);當(dāng)最大Lyapunov指數(shù)等于零時,則對應(yīng)著多個呈現(xiàn)周期性循環(huán)的解集或者存在系統(tǒng)分離點(diǎn);系統(tǒng)的最大Lyapunov指數(shù)作為衡量是否具有混沌特性的標(biāo)志,當(dāng)最大Lyapunov指數(shù)大于零時,認(rèn)為符合混沌系統(tǒng)的特點(diǎn)。
1993年Rosenstein等[9]提出了用于計(jì)算小數(shù)據(jù)量樣本最大Lyapunov指數(shù)的小數(shù)據(jù)量法。它具有計(jì)算速度快、抗噪聲能力強(qiáng)的特點(diǎn)。其計(jì)算過程如下:
其中,j=N0,N0+1,…,N,N0=(m-1)τ+1,dj(0)表示到第j個點(diǎn)的最近距離,P為混沌時間序列的平均周期,則最大Lyapunov指數(shù)可通過重構(gòu)之后的相空間中每個點(diǎn)的最近鄰點(diǎn)的平均發(fā)散速率進(jìn)行估計(jì)。最大Lyapunov指數(shù)[10]估計(jì)公式為:
(12)
其中,i=N0,N0+1,…,N,Δt為樣本周期,dj(i)是第j個最近鄰點(diǎn)經(jīng)過i個離散時間步長的距離。
后來Sato等將該估計(jì)公式改進(jìn)為:
(13)
其中,k是常數(shù),最大Lyapunov指數(shù)在此時的含義為系統(tǒng)總體混沌水平的量的估計(jì)。結(jié)合Sato等的估計(jì)式有:
dj(i)≈Cjeλ1(Δt),Cj=dj(0)
(14)
將上式兩邊取對數(shù)得到:
lndj(i)≈lnCj+λ1(i·Δt)
(15)
最大Lyapunov指數(shù)相當(dāng)于上式直線的斜率,可通過最小二乘法[11]逼近這組直線而得到,即:
(16)
其中,q為非零dj(i)的數(shù)目,y(i)為距離dj(i)對q累積和的平均值。
實(shí)驗(yàn)采用計(jì)算機(jī)內(nèi)插聲卡,外接一個麥克風(fēng)和兩個喇叭,以組成文中的研究系統(tǒng)。利用該系統(tǒng),采集了各種類型的語音,其中包括5個男聲和5個女聲。對語音采用8 kHz采樣頻率,8位的采樣精度。經(jīng)過大量的語音采集和人工剪切工作,得到了包括長單元音和所有雙元音在內(nèi)的樣本共300個,作為實(shí)驗(yàn)樣本。
由于輔音時長較短,致使誤差較大,且輔音信號的送氣強(qiáng)度及其與聲道壁的摩擦程度均比元音信號要強(qiáng),因此可以認(rèn)為輔音信號的混沌程度[12]大于元音信號的混沌程度,在此不再測算輔音信號。
對采集的信號進(jìn)行語音信號與處理、參數(shù)計(jì)算、語音篩選、特征歸類這幾個具體的步驟。對采集的語音信號分別選取延遲時間、嵌入維數(shù),然后計(jì)算最大Lyapunov指數(shù),并根據(jù)已有國際音標(biāo)[13-14]的發(fā)音類型,尋找其最大Lyapunov指數(shù)的規(guī)律,得到其語音分布。
延遲時間的求取使用互信息法,得到語音的嵌入維與誤差的關(guān)系圖,得到的第一個極小值,此時該值即為該語音的最小延遲時間。文中求取了說話者1/a:/的語音,延遲時間為2。
圖1 說話者1/:/音的嵌入維數(shù)
圖中下方的曲線代表E1(d),上方曲線條代表E2(d)。選取兩者在縱坐標(biāo)1附近趨于穩(wěn)定的點(diǎn),該點(diǎn)對應(yīng)的橫坐標(biāo)即選取為嵌入維數(shù)。從圖中可看出說話者1的/:/音的嵌入維數(shù)為11。
圖2為求取說話者2的/ai/音的最大Lyapunov指數(shù)。如圖所示,選取圖中趨近于直線段的部分進(jìn)行擬合,即100~300段,得到說話者2的/ai/音的最大Lyapunov指數(shù)為0.816 5。
圖2 說話者2的/ai/音的最大Lyapunov指數(shù)
對采集到的語音信號,按男聲、女聲分類,計(jì)算每一類各組發(fā)音的最大李雅普諾夫指數(shù)的平均值。
圖3 各音素的男女均值比例
通過實(shí)驗(yàn)發(fā)現(xiàn)男生和女生的最大Lyapunov指數(shù)范圍分別為0.138~0.377與0.313~0.560,結(jié)合圖3可以發(fā)現(xiàn),男聲均值分布在0.14~0.38之間,女聲均值分布在0.31~0.56之間。在這13組語音信號中,除了/a:/音和/ei/音的最大Lyapunov指數(shù)男聲大于女聲外,其余的音素的最大Lyapunov指數(shù)都是女聲大于男聲。而且/a:/音和/ei/音女聲和男聲的最大李雅普諾夫指數(shù)差值在0.03以內(nèi)。因此在誤差允許的范圍內(nèi),可以確定對于同一個發(fā)音,女聲的最大Lyapunov指數(shù)大于男聲的最大Lyapunov指數(shù)。
英語音標(biāo)中,按發(fā)音時舌活動的范圍分類:長單元音分為前元音/i:/,中元音/:/和后元音/:/、/u:/、/a:/;雙元音分為合口雙元音/ei/、/ai/、/i/、/u/、/au /和集中雙元音/i/、/ε/、/u/。計(jì)算得到每個音素的最大Lyapunov指數(shù)的平均值,如表2所示。
表2 各音素最大Lyapunov指數(shù)的平均值
可以看出:前元音的值在0.40~0.43之間,中元音的值在0.28~0.32之間,后元音則位于0.22~0.28;合口雙元音的值在0.34~0.40之間,而集中雙元音則在0.24~0.32之間。由此可以得出結(jié)論,長單元音中的前元音、中元音、后元音以及雙元音中的合口雙元音和集中雙元音有明顯的Lyapunov指數(shù)分界。
通過數(shù)據(jù)比對與分析,得出各類語音信號的最大Lyapunov指數(shù)具有以下特征:女聲的最大Lyapunov指數(shù)大于男聲的最大Lyapunov指數(shù);前元音>中元音>后元音;合口雙元音>集中雙元音。
共采集300個樣本,根據(jù)對元音最大Lyapunov指數(shù)的分類,求出各語音信號恰好落在對應(yīng)分布區(qū)間的概率(見表3)??梢姽烙?jì)的分布區(qū)間都有高于90%的對應(yīng)性,進(jìn)一步證明了該結(jié)論的正確性。
表3 各類元音的最大Lyapunov指數(shù)分類區(qū)間
混沌理論在本質(zhì)上是非線性的,可以彌補(bǔ)傳統(tǒng)線性分析方法的不足,因此對于語音信號處理具有重要作用。文中通過采集大量語音樣本,并進(jìn)行大量的實(shí)驗(yàn),進(jìn)一步探究了語音信號的混沌特性,利用Lyapunov指數(shù)這一特征量,總結(jié)了各類語音音素的最大Lyapunov指數(shù)區(qū)間,尋找其規(guī)律,并實(shí)現(xiàn)了分類,為語音信號的進(jìn)一步處理提供了數(shù)據(jù)基礎(chǔ),取得了比較滿意的效果。