基于混沌特性的語音信號分類

2019-01-21 00:57:32張其進(jìn)張玉梅

計(jì)算機(jī)技術(shù)與發(fā)展 2019年1期

張其進(jìn)，張玉梅

(1.陜西師范大學(xué) 現(xiàn)代教學(xué)技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室，陜西西安 710119；2.陜西師范大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院，陜西西安 710119)

0 引言

在語音信號處理中，分類問題一直是基礎(chǔ)性的但又難以解決的課題之一。語音分類在語音預(yù)測、語音編碼和解碼等領(lǐng)域中都有廣泛的應(yīng)用。語音的產(chǎn)生依賴于發(fā)音器官，包括肺、氣管、聲帶、口腔、鼻腔和嘴唇等[1]。語音信號具有混沌特性，這是因?yàn)檎Z音信號會在聲道邊際層產(chǎn)生渦流，并最終形成一種湍流，而湍流本身已經(jīng)證實(shí)就是一種具有混沌特性的現(xiàn)象。Lyapunov指數(shù)[2]能夠給出系統(tǒng)分類對系統(tǒng)初始化值的依賴度?，F(xiàn)有研究多是基于特征量對語音信號進(jìn)行識別與預(yù)測，而基于混沌特性的語音信號分類研究則較少。

文中以混沌理論中相空間重構(gòu)[3]為基礎(chǔ)，采集同人群、不同發(fā)音的各類語音信號，計(jì)算出延遲時間和嵌入維數(shù)后求出其最大Lyapunov指數(shù)，探究其規(guī)律，找出各類信號的最大Lyapunov指數(shù)的分布區(qū)間，完成基于最大Lyapunov指數(shù)的語音信號分類。該方法將采集來的語音信號根據(jù)其最大Lyapunov指數(shù)進(jìn)行分類，進(jìn)一步說明了語音信號與混沌理論的切合性，并為語音信號的分類提供了新依據(jù)。

1 語音信號混沌特性的方法分析

1.1 相空間重構(gòu)

研究語音信號的混沌特性需要還原出混沌特性系統(tǒng)的復(fù)雜動力學(xué)特征。Takens嵌入定理[4]中證明了混沌系統(tǒng)最重要的兩個參數(shù)—嵌入維數(shù)m和延時時間τ的存在，通過相空間重構(gòu)技術(shù)提取出混沌語音信號的性質(zhì)和規(guī)律。相空間重構(gòu)的原理如下：

設(shè)x(t),t=1,2,…,N為混沌語音信號時間序列,在m維相空間中的狀態(tài)轉(zhuǎn)移形式為：

Y(t+1)=f(Y(t))

(1)

其中，Y(t)為相空間中的點(diǎn)，τ為延遲時間,且

Y(t)=(x(t),…,x(t+(m-1)τ))

(2)

展開得：

(x(t+1),…,x(t+1+(m-1)τ))=f(x(t),…,x(t+(m-1)τ))

(3)

在重構(gòu)的相空間中,第n+τ個向量的前m-1個分量為第n個向量的后m-1個分量(τ為時間延遲,m為嵌入維數(shù))。如表1所示的時間序列{1,2,3,4,5,6,7,8,9,10,11,12,13,14,15},假設(shè)其嵌入維數(shù)m為6,延時時間τ為3,則對其重構(gòu)相空間得到向量。第四個向量x4的前3個分量為第一個向量x1的后3個分量,第五個向量x5的前三個分量為第二個向量x2的后三個分量。

通過求取出表1中語音信號正確的嵌入維數(shù)m和延遲時間τ，可以恢復(fù)語音信號的非線性動力學(xué)特征。文獻(xiàn)[5]總結(jié)介紹了多種方法，其中互信息法[6]是估計(jì)延遲時間τ的有效方法，Cao方法[7]是嵌入維數(shù)m選取最常用的方法，在相空間重構(gòu)中有廣泛應(yīng)用。因此，文中分別采用互信息法求取延遲時間τ，用Cao方法來選取嵌入維數(shù)m。

表1 相空間重構(gòu)

1.2 互信息法計(jì)算延遲時間

在理論上，對一個理想的無限長和無噪聲的語音信號時間序列，延遲時間的選取是任意的，但是實(shí)際中的語音信號序列是有限長度且存在噪聲的，所以在實(shí)際應(yīng)用中，延遲時間并不能隨意取值。設(shè)觀測時間序列為{x(i),i=1,2,…,N}，則在i和i+τ時刻觀測量之間的互信息函數(shù)為：

(4)

其中，P[x(i)]為點(diǎn)x(i)的概率密度；P[x(i),x(i+τ)]為點(diǎn)x(i)和x(i+τ)的聯(lián)合概率。一般選擇I(τ)求取到的第一個局部最小的τ為延遲時間，此時產(chǎn)生的冗余最小，并具有最大獨(dú)立性，能夠很好地還原混沌系統(tǒng)的動力學(xué)特性。

1.3 Cao方法計(jì)算嵌入維數(shù)

假設(shè)有一組時間序列x1,x2,…,xN，延遲時間向量可以被重構(gòu)為：

yi(d)=(xi,xi+τ,…,xi+(d-1)τ),i=1,2,…,N-(d-1)τ

(5)

其中，d為嵌入維數(shù)；τ為延遲時間。記yi(d)為當(dāng)嵌入維數(shù)為d時的第i個重構(gòu)向量。類似的，yi(d+1)是嵌入維數(shù)為d+1時的第i個重構(gòu)向量。

如果d是合適的嵌入維數(shù)，那么d維重構(gòu)相空間中鄰近的任意兩點(diǎn)，如果在d+1維重構(gòu)之后的空間中仍然鄰近，稱這樣的一對點(diǎn)為真鄰近點(diǎn)；否則，稱其為虛假鄰近點(diǎn)[8]。正確的嵌入意味著沒有虛假鄰近點(diǎn)存在，通常通過判斷a(i,d)是否大于給定的閾值來確定是否是虛假鄰近點(diǎn)，其中

a(i,d)=|xi+dτ-xn(i,d)+dτ|/‖yi(d)-yn(i,d)(d)‖

(6)

從a(i,d)的定義來看，對不同的點(diǎn)i,至少在理論上a(i,d)應(yīng)該有不同的閾值。不同的時間序列可能有不同的閾值。這說明只依靠嵌入維數(shù)d和每個軌線上的點(diǎn)以及給定的時間序列來得出正確且合理的閾值是很困難的。為了避免這個問題，定義：

(7)

E(d)只取決于嵌入維數(shù)d和延遲τ。為了研究E(d)從d到d+1的變化，定義：

E1(d)=E(d+1)/E(d)

(8)

當(dāng)d比某一d0大時，如果E1(d)停止改變，那么d0+1即為最小嵌入維數(shù)。理論上，在隨機(jī)的時間序列中，隨著d的增長，E1(d)永遠(yuǎn)不會達(dá)到飽和值停止變化。但是由于可供觀測的數(shù)據(jù)樣本有限，雖然時間序列是隨機(jī)的，E1(d)有可能在某一d值時停止變化。因此，為了減小計(jì)算誤差，使結(jié)果更加準(zhǔn)確，需要再計(jì)算E2(d)。

定義：

(9)

E2(d)=E*(d+1)/E*(d)

(10)

由于未來的新值與之前的值無關(guān)，E2(d)在這種情況下對任何d來講，值都為1。但是，對確定的時間序列，E2(d)是確實(shí)與d相關(guān)的。所以，必定存在某一d值，使E2(d)≠1。當(dāng)E1(d)和E2(d)都在1附近穩(wěn)定時，即得到了最小嵌入維數(shù)。要確定時間序列的最小嵌入維數(shù)，必須計(jì)算E1(d)和E2(d)，以便從隨機(jī)時間序列中區(qū)分出確定的時間序列。

2 小數(shù)據(jù)量法計(jì)算最大Lyapunov指數(shù)

Lyapunov指數(shù)是指系統(tǒng)鄰近兩個或者多個軌道整體分離速率指數(shù)的評估，是對產(chǎn)生時間序列數(shù)據(jù)的系統(tǒng)混沌特性大小的衡量標(biāo)準(zhǔn)之一。最大Lyapunov指數(shù)作為混沌系統(tǒng)的一個重要特征量，是混沌特性識別的主要依據(jù)之一。當(dāng)最大Lyapunov指數(shù)小于零時，系統(tǒng)具有部分穩(wěn)定的點(diǎn)；當(dāng)最大Lyapunov指數(shù)等于零時，則對應(yīng)著多個呈現(xiàn)周期性循環(huán)的解集或者存在系統(tǒng)分離點(diǎn)；系統(tǒng)的最大Lyapunov指數(shù)作為衡量是否具有混沌特性的標(biāo)志，當(dāng)最大Lyapunov指數(shù)大于零時，認(rèn)為符合混沌系統(tǒng)的特點(diǎn)。

1993年Rosenstein等[9]提出了用于計(jì)算小數(shù)據(jù)量樣本最大Lyapunov指數(shù)的小數(shù)據(jù)量法。它具有計(jì)算速度快、抗噪聲能力強(qiáng)的特點(diǎn)。其計(jì)算過程如下：

其中，j=N0,N0+1,…,N，N0=(m-1)τ+1，dj(0)表示到第j個點(diǎn)的最近距離，P為混沌時間序列的平均周期，則最大Lyapunov指數(shù)可通過重構(gòu)之后的相空間中每個點(diǎn)的最近鄰點(diǎn)的平均發(fā)散速率進(jìn)行估計(jì)。最大Lyapunov指數(shù)[10]估計(jì)公式為：

(12)

其中，i=N0,N0+1,…,N，Δt為樣本周期，dj(i)是第j個最近鄰點(diǎn)經(jīng)過i個離散時間步長的距離。

后來Sato等將該估計(jì)公式改進(jìn)為：

(13)

其中，k是常數(shù)，最大Lyapunov指數(shù)在此時的含義為系統(tǒng)總體混沌水平的量的估計(jì)。結(jié)合Sato等的估計(jì)式有：

dj(i)≈Cjeλ1(Δt)，Cj=dj(0)

(14)

將上式兩邊取對數(shù)得到：

lndj(i)≈lnCj+λ1(i·Δt)

(15)

最大Lyapunov指數(shù)相當(dāng)于上式直線的斜率，可通過最小二乘法[11]逼近這組直線而得到，即：

(16)

其中，q為非零dj(i)的數(shù)目，y(i)為距離dj(i)對q累積和的平均值。

3 實(shí)驗(yàn)分析與比較

實(shí)驗(yàn)采用計(jì)算機(jī)內(nèi)插聲卡，外接一個麥克風(fēng)和兩個喇叭，以組成文中的研究系統(tǒng)。利用該系統(tǒng)，采集了各種類型的語音，其中包括5個男聲和5個女聲。對語音采用8 kHz采樣頻率，8位的采樣精度。經(jīng)過大量的語音采集和人工剪切工作，得到了包括長單元音和所有雙元音在內(nèi)的樣本共300個,作為實(shí)驗(yàn)樣本。

由于輔音時長較短，致使誤差較大，且輔音信號的送氣強(qiáng)度及其與聲道壁的摩擦程度均比元音信號要強(qiáng)，因此可以認(rèn)為輔音信號的混沌程度[12]大于元音信號的混沌程度，在此不再測算輔音信號。

對采集的信號進(jìn)行語音信號與處理、參數(shù)計(jì)算、語音篩選、特征歸類這幾個具體的步驟。對采集的語音信號分別選取延遲時間、嵌入維數(shù)，然后計(jì)算最大Lyapunov指數(shù)，并根據(jù)已有國際音標(biāo)[13-14]的發(fā)音類型，尋找其最大Lyapunov指數(shù)的規(guī)律，得到其語音分布。

3.1 參數(shù)計(jì)算

延遲時間的求取使用互信息法，得到語音的嵌入維與誤差的關(guān)系圖，得到的第一個極小值，此時該值即為該語音的最小延遲時間。文中求取了說話者1/a:/的語音，延遲時間為2。

圖1 說話者1/:/音的嵌入維數(shù)

圖中下方的曲線代表E1(d)，上方曲線條代表E2(d)。選取兩者在縱坐標(biāo)1附近趨于穩(wěn)定的點(diǎn)，該點(diǎn)對應(yīng)的橫坐標(biāo)即選取為嵌入維數(shù)。從圖中可看出說話者1的/:/音的嵌入維數(shù)為11。

圖2為求取說話者2的/ai/音的最大Lyapunov指數(shù)。如圖所示，選取圖中趨近于直線段的部分進(jìn)行擬合，即100～300段，得到說話者2的/ai/音的最大Lyapunov指數(shù)為0.816 5。

圖2 說話者2的/ai/音的最大Lyapunov指數(shù)

3.2 男聲和女聲的最大Lyapunov指數(shù)

對采集到的語音信號，按男聲、女聲分類，計(jì)算每一類各組發(fā)音的最大李雅普諾夫指數(shù)的平均值。

圖3 各音素的男女均值比例

通過實(shí)驗(yàn)發(fā)現(xiàn)男生和女生的最大Lyapunov指數(shù)范圍分別為0.138～0.377與0.313～0.560，結(jié)合圖3可以發(fā)現(xiàn)，男聲均值分布在0.14～0.38之間，女聲均值分布在0.31～0.56之間。在這13組語音信號中，除了/a:/音和/ei/音的最大Lyapunov指數(shù)男聲大于女聲外，其余的音素的最大Lyapunov指數(shù)都是女聲大于男聲。而且/a:/音和/ei/音女聲和男聲的最大李雅普諾夫指數(shù)差值在0.03以內(nèi)。因此在誤差允許的范圍內(nèi)，可以確定對于同一個發(fā)音，女聲的最大Lyapunov指數(shù)大于男聲的最大Lyapunov指數(shù)。

3.3 各類元音的最大Lyapunov指數(shù)分類

英語音標(biāo)中，按發(fā)音時舌活動的范圍分類：長單元音分為前元音/i:/，中元音/:/和后元音/:/、/u:/、/a:/；雙元音分為合口雙元音/ei/、/ai/、/i/、/u/、/au /和集中雙元音/i/、/ε/、/u/。計(jì)算得到每個音素的最大Lyapunov指數(shù)的平均值，如表2所示。

表2 各音素最大Lyapunov指數(shù)的平均值

可以看出：前元音的值在0.40～0.43之間，中元音的值在0.28～0.32之間，后元音則位于0.22～0.28；合口雙元音的值在0.34～0.40之間，而集中雙元音則在0.24～0.32之間。由此可以得出結(jié)論，長單元音中的前元音、中元音、后元音以及雙元音中的合口雙元音和集中雙元音有明顯的Lyapunov指數(shù)分界。

通過數(shù)據(jù)比對與分析，得出各類語音信號的最大Lyapunov指數(shù)具有以下特征：女聲的最大Lyapunov指數(shù)大于男聲的最大Lyapunov指數(shù)；前元音>中元音>后元音；合口雙元音>集中雙元音。

共采集300個樣本，根據(jù)對元音最大Lyapunov指數(shù)的分類，求出各語音信號恰好落在對應(yīng)分布區(qū)間的概率(見表3)?？梢姽烙?jì)的分布區(qū)間都有高于90%的對應(yīng)性，進(jìn)一步證明了該結(jié)論的正確性。

表3 各類元音的最大Lyapunov指數(shù)分類區(qū)間

4 結(jié)束語

混沌理論在本質(zhì)上是非線性的，可以彌補(bǔ)傳統(tǒng)線性分析方法的不足，因此對于語音信號處理具有重要作用。文中通過采集大量語音樣本，并進(jìn)行大量的實(shí)驗(yàn)，進(jìn)一步探究了語音信號的混沌特性，利用Lyapunov指數(shù)這一特征量，總結(jié)了各類語音音素的最大Lyapunov指數(shù)區(qū)間，尋找其規(guī)律，并實(shí)現(xiàn)了分類，為語音信號的進(jìn)一步處理提供了數(shù)據(jù)基礎(chǔ)，取得了比較滿意的效果。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看