• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于混沌特性的語音信號分類

      2019-01-21 00:57:32張其進(jìn)張玉梅
      關(guān)鍵詞:男聲相空間延遲時間

      張其進(jìn),張玉梅

      (1.陜西師范大學(xué) 現(xiàn)代教學(xué)技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,陜西 西安 710119;2.陜西師范大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,陜西 西安 710119)

      0 引 言

      在語音信號處理中,分類問題一直是基礎(chǔ)性的但又難以解決的課題之一。語音分類在語音預(yù)測、語音編碼和解碼等領(lǐng)域中都有廣泛的應(yīng)用。語音的產(chǎn)生依賴于發(fā)音器官,包括肺、氣管、聲帶、口腔、鼻腔和嘴唇等[1]。語音信號具有混沌特性,這是因?yàn)檎Z音信號會在聲道邊際層產(chǎn)生渦流,并最終形成一種湍流,而湍流本身已經(jīng)證實(shí)就是一種具有混沌特性的現(xiàn)象。Lyapunov指數(shù)[2]能夠給出系統(tǒng)分類對系統(tǒng)初始化值的依賴度?,F(xiàn)有研究多是基于特征量對語音信號進(jìn)行識別與預(yù)測,而基于混沌特性的語音信號分類研究則較少。

      文中以混沌理論中相空間重構(gòu)[3]為基礎(chǔ),采集同人群、不同發(fā)音的各類語音信號,計(jì)算出延遲時間和嵌入維數(shù)后求出其最大Lyapunov指數(shù),探究其規(guī)律,找出各類信號的最大Lyapunov指數(shù)的分布區(qū)間,完成基于最大Lyapunov指數(shù)的語音信號分類。該方法將采集來的語音信號根據(jù)其最大Lyapunov指數(shù)進(jìn)行分類,進(jìn)一步說明了語音信號與混沌理論的切合性,并為語音信號的分類提供了新依據(jù)。

      1 語音信號混沌特性的方法分析

      1.1 相空間重構(gòu)

      研究語音信號的混沌特性需要還原出混沌特性系統(tǒng)的復(fù)雜動力學(xué)特征。Takens嵌入定理[4]中證明了混沌系統(tǒng)最重要的兩個參數(shù)—嵌入維數(shù)m和延時時間τ的存在,通過相空間重構(gòu)技術(shù)提取出混沌語音信號的性質(zhì)和規(guī)律。相空間重構(gòu)的原理如下:

      設(shè)x(t),t=1,2,…,N為混沌語音信號時間序列,在m維相空間中的狀態(tài)轉(zhuǎn)移形式為:

      Y(t+1)=f(Y(t))

      (1)

      其中,Y(t)為相空間中的點(diǎn),τ為延遲時間,且

      Y(t)=(x(t),…,x(t+(m-1)τ))

      (2)

      展開得:

      (x(t+1),…,x(t+1+(m-1)τ))=f(x(t),…,x(t+(m-1)τ))

      (3)

      在重構(gòu)的相空間中,第n+τ個向量的前m-1個分量為第n個向量的后m-1個分量(τ為時間延遲,m為嵌入維數(shù))。如表1所示的時間序列{1,2,3,4,5,6,7,8,9,10,11,12,13,14,15},假設(shè)其嵌入維數(shù)m為6,延時時間τ為3,則對其重構(gòu)相空間得到向量。第四個向量x4的前3個分量為第一個向量x1的后3個分量,第五個向量x5的前三個分量為第二個向量x2的后三個分量。

      通過求取出表1中語音信號正確的嵌入維數(shù)m和延遲時間τ,可以恢復(fù)語音信號的非線性動力學(xué)特征。文獻(xiàn)[5]總結(jié)介紹了多種方法,其中互信息法[6]是估計(jì)延遲時間τ的有效方法,Cao方法[7]是嵌入維數(shù)m選取最常用的方法,在相空間重構(gòu)中有廣泛應(yīng)用。因此,文中分別采用互信息法求取延遲時間τ,用Cao方法來選取嵌入維數(shù)m。

      表1 相空間重構(gòu)

      1.2 互信息法計(jì)算延遲時間

      在理論上,對一個理想的無限長和無噪聲的語音信號時間序列,延遲時間的選取是任意的,但是實(shí)際中的語音信號序列是有限長度且存在噪聲的,所以在實(shí)際應(yīng)用中,延遲時間并不能隨意取值。設(shè)觀測時間序列為{x(i),i=1,2,…,N},則在i和i+τ時刻觀測量之間的互信息函數(shù)為:

      (4)

      其中,P[x(i)]為點(diǎn)x(i)的概率密度;P[x(i),x(i+τ)]為點(diǎn)x(i)和x(i+τ)的聯(lián)合概率。一般選擇I(τ)求取到的第一個局部最小的τ為延遲時間,此時產(chǎn)生的冗余最小,并具有最大獨(dú)立性,能夠很好地還原混沌系統(tǒng)的動力學(xué)特性。

      1.3 Cao方法計(jì)算嵌入維數(shù)

      假設(shè)有一組時間序列x1,x2,…,xN,延遲時間向量可以被重構(gòu)為:

      yi(d)=(xi,xi+τ,…,xi+(d-1)τ),i=1,2,…,N-(d-1)τ

      (5)

      其中,d為嵌入維數(shù);τ為延遲時間。記yi(d)為當(dāng)嵌入維數(shù)為d時的第i個重構(gòu)向量。類似的,yi(d+1)是嵌入維數(shù)為d+1時的第i個重構(gòu)向量。

      如果d是合適的嵌入維數(shù),那么d維重構(gòu)相空間中鄰近的任意兩點(diǎn),如果在d+1維重構(gòu)之后的空間中仍然鄰近,稱這樣的一對點(diǎn)為真鄰近點(diǎn);否則,稱其為虛假鄰近點(diǎn)[8]。正確的嵌入意味著沒有虛假鄰近點(diǎn)存在,通常通過判斷a(i,d)是否大于給定的閾值來確定是否是虛假鄰近點(diǎn),其中

      a(i,d)=|xi+dτ-xn(i,d)+dτ|/‖yi(d)-yn(i,d)(d)‖

      (6)

      從a(i,d)的定義來看,對不同的點(diǎn)i,至少在理論上a(i,d)應(yīng)該有不同的閾值。不同的時間序列可能有不同的閾值。這說明只依靠嵌入維數(shù)d和每個軌線上的點(diǎn)以及給定的時間序列來得出正確且合理的閾值是很困難的。為了避免這個問題,定義:

      (7)

      E(d)只取決于嵌入維數(shù)d和延遲τ。為了研究E(d)從d到d+1的變化,定義:

      E1(d)=E(d+1)/E(d)

      (8)

      當(dāng)d比某一d0大時,如果E1(d)停止改變,那么d0+1即為最小嵌入維數(shù)。理論上,在隨機(jī)的時間序列中,隨著d的增長,E1(d)永遠(yuǎn)不會達(dá)到飽和值停止變化。但是由于可供觀測的數(shù)據(jù)樣本有限,雖然時間序列是隨機(jī)的,E1(d)有可能在某一d值時停止變化。因此,為了減小計(jì)算誤差,使結(jié)果更加準(zhǔn)確,需要再計(jì)算E2(d)。

      定義:

      (9)

      E2(d)=E*(d+1)/E*(d)

      (10)

      由于未來的新值與之前的值無關(guān),E2(d)在這種情況下對任何d來講,值都為1。但是,對確定的時間序列,E2(d)是確實(shí)與d相關(guān)的。所以,必定存在某一d值,使E2(d)≠1。當(dāng)E1(d)和E2(d)都在1附近穩(wěn)定時,即得到了最小嵌入維數(shù)。要確定時間序列的最小嵌入維數(shù),必須計(jì)算E1(d)和E2(d),以便從隨機(jī)時間序列中區(qū)分出確定的時間序列。

      2 小數(shù)據(jù)量法計(jì)算最大Lyapunov指數(shù)

      Lyapunov指數(shù)是指系統(tǒng)鄰近兩個或者多個軌道整體分離速率指數(shù)的評估,是對產(chǎn)生時間序列數(shù)據(jù)的系統(tǒng)混沌特性大小的衡量標(biāo)準(zhǔn)之一。最大Lyapunov指數(shù)作為混沌系統(tǒng)的一個重要特征量,是混沌特性識別的主要依據(jù)之一。當(dāng)最大Lyapunov指數(shù)小于零時,系統(tǒng)具有部分穩(wěn)定的點(diǎn);當(dāng)最大Lyapunov指數(shù)等于零時,則對應(yīng)著多個呈現(xiàn)周期性循環(huán)的解集或者存在系統(tǒng)分離點(diǎn);系統(tǒng)的最大Lyapunov指數(shù)作為衡量是否具有混沌特性的標(biāo)志,當(dāng)最大Lyapunov指數(shù)大于零時,認(rèn)為符合混沌系統(tǒng)的特點(diǎn)。

      1993年Rosenstein等[9]提出了用于計(jì)算小數(shù)據(jù)量樣本最大Lyapunov指數(shù)的小數(shù)據(jù)量法。它具有計(jì)算速度快、抗噪聲能力強(qiáng)的特點(diǎn)。其計(jì)算過程如下:

      其中,j=N0,N0+1,…,N,N0=(m-1)τ+1,dj(0)表示到第j個點(diǎn)的最近距離,P為混沌時間序列的平均周期,則最大Lyapunov指數(shù)可通過重構(gòu)之后的相空間中每個點(diǎn)的最近鄰點(diǎn)的平均發(fā)散速率進(jìn)行估計(jì)。最大Lyapunov指數(shù)[10]估計(jì)公式為:

      (12)

      其中,i=N0,N0+1,…,N,Δt為樣本周期,dj(i)是第j個最近鄰點(diǎn)經(jīng)過i個離散時間步長的距離。

      后來Sato等將該估計(jì)公式改進(jìn)為:

      (13)

      其中,k是常數(shù),最大Lyapunov指數(shù)在此時的含義為系統(tǒng)總體混沌水平的量的估計(jì)。結(jié)合Sato等的估計(jì)式有:

      dj(i)≈Cjeλ1(Δt),Cj=dj(0)

      (14)

      將上式兩邊取對數(shù)得到:

      lndj(i)≈lnCj+λ1(i·Δt)

      (15)

      最大Lyapunov指數(shù)相當(dāng)于上式直線的斜率,可通過最小二乘法[11]逼近這組直線而得到,即:

      (16)

      其中,q為非零dj(i)的數(shù)目,y(i)為距離dj(i)對q累積和的平均值。

      3 實(shí)驗(yàn)分析與比較

      實(shí)驗(yàn)采用計(jì)算機(jī)內(nèi)插聲卡,外接一個麥克風(fēng)和兩個喇叭,以組成文中的研究系統(tǒng)。利用該系統(tǒng),采集了各種類型的語音,其中包括5個男聲和5個女聲。對語音采用8 kHz采樣頻率,8位的采樣精度。經(jīng)過大量的語音采集和人工剪切工作,得到了包括長單元音和所有雙元音在內(nèi)的樣本共300個,作為實(shí)驗(yàn)樣本。

      由于輔音時長較短,致使誤差較大,且輔音信號的送氣強(qiáng)度及其與聲道壁的摩擦程度均比元音信號要強(qiáng),因此可以認(rèn)為輔音信號的混沌程度[12]大于元音信號的混沌程度,在此不再測算輔音信號。

      對采集的信號進(jìn)行語音信號與處理、參數(shù)計(jì)算、語音篩選、特征歸類這幾個具體的步驟。對采集的語音信號分別選取延遲時間、嵌入維數(shù),然后計(jì)算最大Lyapunov指數(shù),并根據(jù)已有國際音標(biāo)[13-14]的發(fā)音類型,尋找其最大Lyapunov指數(shù)的規(guī)律,得到其語音分布。

      3.1 參數(shù)計(jì)算

      延遲時間的求取使用互信息法,得到語音的嵌入維與誤差的關(guān)系圖,得到的第一個極小值,此時該值即為該語音的最小延遲時間。文中求取了說話者1/a:/的語音,延遲時間為2。

      圖1 說話者1/:/音的嵌入維數(shù)

      圖中下方的曲線代表E1(d),上方曲線條代表E2(d)。選取兩者在縱坐標(biāo)1附近趨于穩(wěn)定的點(diǎn),該點(diǎn)對應(yīng)的橫坐標(biāo)即選取為嵌入維數(shù)。從圖中可看出說話者1的/:/音的嵌入維數(shù)為11。

      圖2為求取說話者2的/ai/音的最大Lyapunov指數(shù)。如圖所示,選取圖中趨近于直線段的部分進(jìn)行擬合,即100~300段,得到說話者2的/ai/音的最大Lyapunov指數(shù)為0.816 5。

      圖2 說話者2的/ai/音的最大Lyapunov指數(shù)

      3.2 男聲和女聲的最大Lyapunov指數(shù)

      對采集到的語音信號,按男聲、女聲分類,計(jì)算每一類各組發(fā)音的最大李雅普諾夫指數(shù)的平均值。

      圖3 各音素的男女均值比例

      通過實(shí)驗(yàn)發(fā)現(xiàn)男生和女生的最大Lyapunov指數(shù)范圍分別為0.138~0.377與0.313~0.560,結(jié)合圖3可以發(fā)現(xiàn),男聲均值分布在0.14~0.38之間,女聲均值分布在0.31~0.56之間。在這13組語音信號中,除了/a:/音和/ei/音的最大Lyapunov指數(shù)男聲大于女聲外,其余的音素的最大Lyapunov指數(shù)都是女聲大于男聲。而且/a:/音和/ei/音女聲和男聲的最大李雅普諾夫指數(shù)差值在0.03以內(nèi)。因此在誤差允許的范圍內(nèi),可以確定對于同一個發(fā)音,女聲的最大Lyapunov指數(shù)大于男聲的最大Lyapunov指數(shù)。

      3.3 各類元音的最大Lyapunov指數(shù)分類

      英語音標(biāo)中,按發(fā)音時舌活動的范圍分類:長單元音分為前元音/i:/,中元音/:/和后元音/:/、/u:/、/a:/;雙元音分為合口雙元音/ei/、/ai/、/i/、/u/、/au /和集中雙元音/i/、/ε/、/u/。計(jì)算得到每個音素的最大Lyapunov指數(shù)的平均值,如表2所示。

      表2 各音素最大Lyapunov指數(shù)的平均值

      可以看出:前元音的值在0.40~0.43之間,中元音的值在0.28~0.32之間,后元音則位于0.22~0.28;合口雙元音的值在0.34~0.40之間,而集中雙元音則在0.24~0.32之間。由此可以得出結(jié)論,長單元音中的前元音、中元音、后元音以及雙元音中的合口雙元音和集中雙元音有明顯的Lyapunov指數(shù)分界。

      通過數(shù)據(jù)比對與分析,得出各類語音信號的最大Lyapunov指數(shù)具有以下特征:女聲的最大Lyapunov指數(shù)大于男聲的最大Lyapunov指數(shù);前元音>中元音>后元音;合口雙元音>集中雙元音。

      共采集300個樣本,根據(jù)對元音最大Lyapunov指數(shù)的分類,求出各語音信號恰好落在對應(yīng)分布區(qū)間的概率(見表3)??梢姽烙?jì)的分布區(qū)間都有高于90%的對應(yīng)性,進(jìn)一步證明了該結(jié)論的正確性。

      表3 各類元音的最大Lyapunov指數(shù)分類區(qū)間

      4 結(jié)束語

      混沌理論在本質(zhì)上是非線性的,可以彌補(bǔ)傳統(tǒng)線性分析方法的不足,因此對于語音信號處理具有重要作用。文中通過采集大量語音樣本,并進(jìn)行大量的實(shí)驗(yàn),進(jìn)一步探究了語音信號的混沌特性,利用Lyapunov指數(shù)這一特征量,總結(jié)了各類語音音素的最大Lyapunov指數(shù)區(qū)間,尋找其規(guī)律,并實(shí)現(xiàn)了分類,為語音信號的進(jìn)一步處理提供了數(shù)據(jù)基礎(chǔ),取得了比較滿意的效果。

      猜你喜歡
      男聲相空間延遲時間
      束團(tuán)相空間分布重建技術(shù)在西安200 MeV質(zhì)子應(yīng)用裝置的應(yīng)用
      二氧化碳對乙烷燃燒著火延遲時間的影響
      煤氣與熱力(2021年3期)2021-06-09 06:16:22
      LTE 系統(tǒng)下行鏈路FDRX 節(jié)能機(jī)制研究
      豐碑(男聲獨(dú)唱)
      心聲歌刊(2020年1期)2020-04-21 09:25:02
      基于分層COX模型的跟馳反應(yīng)延遲時間生存分析
      夢中的騎手(男聲獨(dú)唱)
      心聲歌刊(2019年3期)2019-06-06 02:52:32
      中 年 人
      延遲時間對氣輔注射成型氣體穿透行為影響的數(shù)值模擬和實(shí)驗(yàn)研究
      中國塑料(2016年8期)2016-06-27 06:35:02
      非對易空間中的三維諧振子Wigner函數(shù)
      初中男聲合唱教學(xué)的探索
      乃东县| 甘孜县| 汉寿县| 青铜峡市| 土默特左旗| 博湖县| 红安县| 保德县| 云安县| 新昌县| 门源| 邳州市| 平塘县| 连江县| 林甸县| 安阳市| 嘉黎县| 迁西县| 黄浦区| 东明县| 宁远县| 南澳县| 沁源县| 鄂州市| 六盘水市| 远安县| 封开县| 保靖县| 慈利县| 曲沃县| 时尚| 乌什县| 贡嘎县| 姜堰市| 巴塘县| 大冶市| 湘阴县| 卢龙县| 胶州市| 维西| 增城市|