• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于能量變化率的漢語塞音檢測(cè)算法

      2014-10-15 01:52:32張連海李弼程
      中文信息學(xué)報(bào) 2014年3期
      關(guān)鍵詞:塞音韻母特征參數(shù)

      張連海,陳 斌,屈 丹,李弼程

      (解放軍信息工程大學(xué) 信息工程學(xué)院,河南 鄭州450002)

      1 引言

      為了進(jìn)一步提高語音識(shí)別的性能,近年來,不少學(xué)者主張,建立以語音與語言學(xué)知識(shí)為基礎(chǔ),結(jié)合統(tǒng)計(jì)模型的語音識(shí)別新框架[1],并得到廣泛研究[2-3]。知識(shí)的準(zhǔn)確提取,是實(shí)現(xiàn)該框架的前提。這里,知識(shí)主要是指聲學(xué)單元邊界和類別信息。漢語連續(xù)語音識(shí)別中,聲韻母是常用的識(shí)別單元。目前,有關(guān)聲韻母的分類和定位取得了一定的進(jìn)展[4-5]。其中,基于Seneff聽覺模型的檢測(cè)系統(tǒng)較好地實(shí)現(xiàn)了聲韻母邊界的檢測(cè)與阻塞音定位[6]。阻擦音(塞音、摩擦音、塞擦音)作為聲母中重要的一類,其聲學(xué)特征非常不穩(wěn)定,對(duì)統(tǒng)計(jì)模型的建立帶來了較大的困難。這主要是由于阻擦音中的塞音易受說話人和上下文的影響,持續(xù)時(shí)間短,變化速率快。因此,在得到阻塞音類別的基礎(chǔ)上,進(jìn)一步將阻擦音分為塞音和非塞音是十分有必要的。

      目前,對(duì)塞音的檢測(cè)主要基于爆發(fā)譜(Burst Spectrum)幅度[7]、譜峰位置[8]和形狀[9]等發(fā)音位置特性和嗓音、爆發(fā)譜起始時(shí)間[10-11]等特征,這些特征參數(shù)的提取要求較高的信噪比,且易受噪聲的影響,即使是在自然語音中,也無法準(zhǔn)確地提取。

      能量變化率是區(qū)別阻塞音類別的一個(gè)很重要特征,并且具有較好的魯棒性和穩(wěn)定性,因此本文從能量變化率進(jìn)行漢語塞音的刻畫。由于語音信號(hào)具有相當(dāng)大的隨機(jī)性,即便是同一個(gè)人在不同的時(shí)刻說相同的聲韻母,時(shí)間長(zhǎng)度等特性也可能會(huì)存在較大的差別,在較小的分析時(shí)長(zhǎng)內(nèi)聲學(xué)性質(zhì)可能會(huì)有較大的變化,因此對(duì)語音信號(hào)進(jìn)行分幀處理,難以得到聲韻母整體的聲學(xué)性質(zhì),進(jìn)而影響聲韻母類別的檢測(cè)性能。與傳統(tǒng)基于幀的聲韻母類別檢測(cè)方法不同,本文首先對(duì)語音信號(hào)進(jìn)行聲韻母邊界檢測(cè)[6],得到聲韻母音段,然后采用基于音段(segment based)的方法提取特征參數(shù),描述聲韻母整體的聲學(xué)特性,實(shí)現(xiàn)阻塞音中塞音的檢測(cè),檢測(cè)系統(tǒng)圖1所示。

      2 基于聽覺譜的能量變化率特征參數(shù)選取

      Seneff聽覺模型[12-13]由40個(gè)臨界頻帶濾波器組成,能較好地模擬人耳對(duì)語音的聽覺處理過程,描述聽覺神經(jīng)飽和,自適應(yīng)調(diào)適,掩蔽,對(duì)電流感應(yīng)的單向性,易受低頻周期信號(hào)激發(fā)等特性。Seneff聽覺感知模型的輸出稱為Seneff聽覺譜,它由兩部分組成:包絡(luò)響應(yīng)(Envelope Detector)ED 和同步響應(yīng)(Generalize Synchrony Detector)GSD,ED 凸顯語音信號(hào)能量的變化情況,GSD 則突出共振峰結(jié)構(gòu)。因此Seneff聽覺譜能夠較好地描述語音的能量分布特性和共振峰結(jié)構(gòu)。由于GSD的計(jì)算是通過對(duì)每個(gè)通道的GSDi求平均得到的,因此會(huì)導(dǎo)致頻域分辨率降低,同時(shí)出現(xiàn)偽峰值。為了避免GSD中的直接求平均,增強(qiáng)共振峰提取的可靠性,Ali[14-15]提出了平均局部同步輸出(Average Localize Synchrony Detector)ALSD。

      研究發(fā)現(xiàn),阻塞音聲學(xué)性質(zhì)的差異主要是由其不同的發(fā)音過程造成的。本文利用這種差異性特征進(jìn)行塞音的檢測(cè)分類,這種特征是指能量變化率及其衍生特征,具體包括音段持續(xù)時(shí)間、能量最大變化位置、譜峰位置、相對(duì)譜幅度等。

      塞音發(fā)音方法是聲道某處先閉合,氣壓升高,然后再迅速放開,瞬間釋放能量,一般來說這一發(fā)音過程會(huì)比非塞音短,這里采用歸一化音段持續(xù)時(shí)間(Normalized Duration)NDura對(duì)塞音的這一特性進(jìn)行刻畫。NDura為音段持續(xù)時(shí)間與句子中最大音段持續(xù)時(shí)間MaxDura的比值,其中音段持續(xù)時(shí)間為邊界檢測(cè)結(jié)束點(diǎn)end與起始點(diǎn)start之差,即式(1):

      塞音發(fā)音過程中具有氣流瞬間釋放的特點(diǎn),因此能量變化率大,塞擦音雖然也會(huì)有類似的發(fā)音方式,但其后段能量緩慢釋放,所以能量變化率相對(duì)會(huì)變小,而摩擦音的能量釋放更加緩慢,因此能量變化率參數(shù)是依次減小的。本文采用全頻帶歸一化ALSD變化率最大值MaxNARALSD(Maximum Normalized All-Band ALSD Change Rate),全頻帶歸一化ED變化率最大值MaxNARED(Maximum Normalized All-Band ED Change Rate)突出這一特性。由于基于Seneff聽覺模型ALSD和ED輸出的特征有類似的表達(dá)式,以下只給出基于ALSD的特征求解式,如式(2)~(3)所示。

      式中i=1,…,40為聽覺模型通道值,n=1,…,N為每一通道的輸出。

      由于塞音的能量變化率較快,因此其最大譜斜率位置(Maximum Normalized Spectral Slope Place,MSP)一般來說會(huì)位于最前段,而塞擦音與摩擦音能量緩慢變化,故其最大變化率大都發(fā)生在中間段與最后段。在前面求得的全頻帶歸一化ALSD、ED的基礎(chǔ)上,確定出最大變化率位置MSPALSD、MSPED,即式(4):

      由于塞音能量急劇釋放,故其頻譜峰值含有較多的高頻成分,譜峰位置主要會(huì)位于高頻,因此塞音音段譜峰位置平均值會(huì)較大。而非塞音段能量釋放緩慢,因此頻譜成分中含有較多的低頻成分,有較多的譜峰位置會(huì)位于低頻,在整個(gè)發(fā)音持續(xù)過程中譜峰位置平均值會(huì)比較小,采用音段ALSD、ED平均最大頻譜峰位置(Average Largest Spectral Peak Location,AvLSPL)AvLSPLALSD、AvLSPLED特征可以區(qū)分出塞音與非塞音,計(jì)算方法見式(5)。

      其中N為音段長(zhǎng)度,LSPLALSD為ALSD的最大頻譜峰值位置

      相對(duì)譜幅度(Relative Amplitude)能夠較好地區(qū)分發(fā)音位置和不同的阻塞音類別,并且具有較好的穩(wěn)定性和可靠性。相對(duì)譜幅度結(jié)合描述譜平坦度的參數(shù),能更好地實(shí)現(xiàn)阻塞音分類,這里采用上述ALSD、ED變化率最大值MaxNARALSD、MaxNARED描述平坦度。為了更好地描述發(fā)音過程,本文分0-4K和4K-8K兩個(gè)子帶求得相對(duì)譜幅度,對(duì)應(yīng)高、低子帶的ALSD和ED相對(duì)譜幅度值記為HRAALSD,LRAALSD和HRAED,LRAED,計(jì)算方法見式(7)~(8)。

      式中SALSD,VALSD分別表示塞音音段ALSD值和相鄰的韻母音段ALSD值。

      3 基于特征變換的KNN塞音檢測(cè)

      為了盡可能地減少數(shù)據(jù)量,去除特征之間的冗余,增大類之間的區(qū)分性,常需要對(duì)特征進(jìn)行變換。PCA和LDA是目前常用的兩種特征變換方法,并且能取得較好的效果,PCA特征變換能盡可能的去除特征冗余性,LDA特征變換能增大類間的區(qū)分性。由于KNN分類器復(fù)雜度較低,要求的數(shù)據(jù)量較少,同時(shí)能得到較好的分類效果,因此本文將結(jié)合兩種特征變換的優(yōu)點(diǎn),采用KNN分類器實(shí)現(xiàn)塞音的檢測(cè)。

      3.1 基于PCA的特征變換

      主成分分析(PCA)是通過K-L變換將訓(xùn)練樣本數(shù)據(jù)變換到彼此正交互不相關(guān)特征,本質(zhì)是將高維空間的數(shù)據(jù)投影到低維空間的過程。主成分分析的最優(yōu)投影矢量集等價(jià)于通過準(zhǔn)則函數(shù)式(9)得到的最優(yōu)投影矩陣:

      其中,A表示PCA投影矩陣,St為總體散度矩陣(即總體協(xié)方差矩陣)。最優(yōu)的PCA的投影矩陣APCA可以通過?Jp(A)/?A=0獲得,即APCA的列向量為特征方程StA=λA的d個(gè)最大的特征值所對(duì)應(yīng)的標(biāo)準(zhǔn)正交特征向量a1,a2,…,ad。其中特征向量滿足條件:Staj=λjajj=1,…,d,λ1≥ … ≥λd

      3.2 基于LDA的特征變換

      線性鑒別分析(LDA)是從高維特征空間中提取出最具有分類能力的低維特征,希望投影后的特征數(shù)據(jù),在變換空間里類間距離盡可能的大,同時(shí)類內(nèi)距離盡可能的小。線性鑒別分析旨在通過最優(yōu)化準(zhǔn)則函數(shù)式(10)找到一個(gè)最優(yōu)的投影矩陣:

      事實(shí)上,線性鑒別分析的最優(yōu)投影矩陣ALDA的列向量,一般取為廣義特征方程SbU=λSwU的d個(gè)最大特征值所對(duì)應(yīng)的特征向量u1,u2,…,ud。其中特征向量滿足條件:Sbuj=λjSwujj=1,…,d;λ1≥…≥λd,Sw為類內(nèi)散度矩陣,Sb為類間散度矩陣。

      3.3 基于Fisherface的特征變換

      PCA是保持樣本總體離散度最大的一種特征變換方法,但是由于變換過程沒有引入分類信息,當(dāng)以最小距離為準(zhǔn)則進(jìn)行識(shí)別時(shí),并不能保證分類錯(cuò)誤最小。LDA能保證較大的類間距離和較小的類內(nèi)距離,提供了一個(gè)增大類間特征區(qū)分性的有效方法,但在實(shí)際應(yīng)用中需要較多的數(shù)據(jù)樣本。當(dāng)數(shù)據(jù)樣本比較小時(shí),會(huì)使得類內(nèi)散度矩陣奇異,將不能直接應(yīng)用相應(yīng)的鑒別準(zhǔn)則。為了結(jié)合兩種變換的優(yōu)點(diǎn),同時(shí)解決因塞音檢測(cè)數(shù)據(jù)樣本比較小,而使類內(nèi)散度矩陣不可求逆的情況,這里采用Fisherface[16]方法的PCA+LDA組合方法進(jìn)行特征變換。該方法將Fisher最優(yōu)鑒別特征的變換過程分為兩步:第1步,作K-L變換Y=PTX 將高維的原始樣本壓縮,其中,P為通過K-L變換得到的主分量投影矩陣;第2步,在變換空間內(nèi),利用線性鑒別分析進(jìn)行特征變換。類間散度矩陣、類內(nèi)散度矩陣和總體散度矩陣分別表示為為正定陣,最優(yōu)準(zhǔn)則函數(shù)重新定義為基于新的準(zhǔn)則函數(shù)可以得到最優(yōu)的投影矩陣。

      3.4 基于KNN的分類算法

      為了減少對(duì)訓(xùn)練數(shù)據(jù)量的要求,本文采用KNN(K Nearest Neighbor)進(jìn)行分類,采用歐氏距離度量樣本間的距離,KNN的基本思想是在與測(cè)試樣本x距離最小的K個(gè)樣本中,按出現(xiàn)最多的樣本類別來作為x的類別。判決準(zhǔn)則為:如果gj(x)=則x∈wj,其中ki為樣本中屬于第i類的個(gè)數(shù),wj為第j個(gè)類別。理論證明,K近鄰分類錯(cuò)誤率為P*e≤P≤2P*e。K近鄰分類錯(cuò)誤率P在貝葉斯錯(cuò)誤率P*e和兩倍貝葉斯錯(cuò)誤率2P*e之間,加上K近鄰法方法簡(jiǎn)單、算法較為穩(wěn)定、魯棒性較好,使它成為模式識(shí)別的重要方法之一。影響KNN算法性能的兩個(gè)重要因素是最近樣本的數(shù)目(K)和距離的測(cè)度。

      4 實(shí)驗(yàn)及結(jié)果分析

      4.1 實(shí)驗(yàn)語料

      隨機(jī)從863語料庫中截取511段連續(xù)語流作為實(shí)驗(yàn)語料,摩擦音與塞擦音各2 170個(gè),塞音4 340個(gè),語音的采樣頻率為16KHz,量化精度16bit,人工進(jìn)行語料的阻塞音類別和邊界的標(biāo)注。對(duì)檢測(cè)結(jié)果的評(píng)估采用語音識(shí)別的評(píng)估方式進(jìn)行。實(shí)際檢測(cè)單元的總數(shù)記為N,正確檢測(cè)單元的總數(shù)記為H,刪除錯(cuò)誤的總數(shù)記為D,插入錯(cuò)誤的總數(shù)記為I。正確率和準(zhǔn)確率定義如式(11)~(12)[17]

      4.2 實(shí)驗(yàn)結(jié)果

      將本文提出的11維特征參數(shù){NDura,Max-NARALSD,MaxNARED,MSPALSD,MSPED,AvLSPLALSD,AvLSPLED,HRAALSD,HRAED,LRAALSD,LRAED}進(jìn)行Fisherface變換,得到變換后的7維特征參數(shù)輸入到KNN分類器。KNN分類器中K值的選取對(duì)分類準(zhǔn)確率有較大的影響,不同的K值對(duì)數(shù)據(jù)量和計(jì)算量的要求也不同。為了選取合適的K值,本文對(duì)不同的K值對(duì)性能的影響進(jìn)行討論,摩擦音、塞擦音分別取100個(gè)數(shù)據(jù),塞音取200個(gè)數(shù)據(jù)用來訓(xùn)練,其余的用來測(cè)試。

      圖2 分類準(zhǔn)確率與K值的關(guān)系圖

      由圖2可知準(zhǔn)確率隨著K值增大而提高,當(dāng)K取值小于7時(shí),分類準(zhǔn)確率會(huì)有較大的提高,而當(dāng)K大于7時(shí),分類準(zhǔn)確率提高得不明顯,同時(shí)需要較多的數(shù)據(jù)量。因此本文K取值為7,下面討論一下不同的特征變換方法與數(shù)據(jù)量的關(guān)系。測(cè)試數(shù)據(jù)為4 140個(gè)塞音,摩擦音、塞擦音數(shù)據(jù)為2 070個(gè),訓(xùn)練數(shù)據(jù)分別為塞音60、70、80個(gè),摩擦音與塞擦音為30、35、40個(gè)。

      表1準(zhǔn)確率和特征變換方法與數(shù)據(jù)量的關(guān)系

      從表1中可以看出,隨著訓(xùn)練樣本數(shù)的增加,F(xiàn)isherface和LDA算法的準(zhǔn)確率有了顯著增加,PCA算法的準(zhǔn)確率較為穩(wěn)定,沒有明顯的變化。在數(shù)據(jù)量充足的條件下Fisherface算法要優(yōu)于PCA和LDA算法。由于PCA算法主要描述原始模式特征,因此訓(xùn)練樣本數(shù)對(duì)其檢測(cè)效果影響不大,而LDA算法主要反映不同類之間的差異,在很大程度上丟棄了與分類無關(guān)的信息,因此訓(xùn)練樣本數(shù)對(duì)其檢測(cè)效果有較大的影響。當(dāng)訓(xùn)練樣本數(shù)較少時(shí),會(huì)導(dǎo)致模式類別信息不夠,使得檢測(cè)效果不佳。LDA算法中,模式類別信息隨著每類樣本數(shù)的增加而增加,檢測(cè)準(zhǔn)確率也會(huì)有顯著的提高。當(dāng)樣本數(shù)為80時(shí),F(xiàn)isherface算法的準(zhǔn)確率達(dá)到96.32%,表明PCA與LDA算法的結(jié)合可以得到較好的塞音檢測(cè)效果。

      為了驗(yàn)證所提參數(shù)的有效性和塞音的檢測(cè)性能,對(duì)采用爆發(fā)譜特征[8]、MFCC特征和本文基于能量變化率特征(Energy Change Rate,ECR)的塞音檢測(cè)準(zhǔn)確率進(jìn)行比較。其中文獻(xiàn)[8]采用的是二維倒譜 系 數(shù) (two-dimensional cepstral coefficient,TDCC)進(jìn)行爆發(fā)譜特征的提取,即將相鄰的幾幀聯(lián)合起來進(jìn)行二維離散余弦變換(2D-DCT),可以得到圖3所示的M×NTDCC參數(shù)矩陣,選取前L個(gè)系數(shù),文中聯(lián)合的相鄰幀數(shù)M =10,頻率最大值N=7 500 Hz,L=10,降維前TDCC維數(shù)為L(zhǎng)(L+1)/2+1=65。MFCC是經(jīng)典的塞音檢測(cè)特征參數(shù),MFCC參數(shù)包含一階、二階差分系數(shù)共39維,經(jīng)過降維后TDCC和MFCC參數(shù)分別為33和57維。訓(xùn)練數(shù)據(jù)為200個(gè),其余的用來測(cè)試,圖3為采用不同特征塞音的檢測(cè)性能,分別采用爆發(fā)譜特征(TDCC)、MFCC、本文特征參數(shù)ECR,以及特征參數(shù)的組合,采用KNN分類器。

      圖3 M×NTDCC矩陣

      圖4 不同方法的檢測(cè)性能

      由圖4可知基于所提特征的塞音檢測(cè)準(zhǔn)確率高于基于爆發(fā)譜特征和MFCC特征的準(zhǔn)確率,說明所提特征參數(shù)具有較好的區(qū)分性和穩(wěn)定性,能較好地保證塞音檢測(cè)準(zhǔn)確率。其中基于MFCC特征的檢測(cè)率較低,這主要是由于MFCC比較適合于描述聲學(xué)性質(zhì)較穩(wěn)定的聲韻母類別如元音韻母等,而難以描述變化較為劇烈的塞音,因此會(huì)使得塞音的檢測(cè)性能不高。爆發(fā)譜特征結(jié)合MFCC特征塞音檢測(cè)性能會(huì)略有提升,但此時(shí)特征參數(shù)的維數(shù)較高,搜索空間較大。塞音與塞擦音在發(fā)音過程中都存在氣流爆發(fā)(burst)的發(fā)音行為,根據(jù)爆發(fā)譜特征會(huì)有較多的插入錯(cuò)誤,并且爆發(fā)譜較不穩(wěn)定,都會(huì)影響塞音檢測(cè)的準(zhǔn)確率。通過對(duì)本文塞音檢測(cè)結(jié)果進(jìn)行觀察可知,本文算法中錯(cuò)誤主要是摩擦音/h/引起的,這是由于/h/音發(fā)音能量微弱,聲學(xué)性質(zhì)很不穩(wěn)定,持續(xù)時(shí)間變化范圍很大,易受后接韻母的影響。與不送氣塞音相比,送氣塞音能量變化量大,有非常高的檢測(cè)準(zhǔn)確率。同時(shí)通過Fisherface方法的特征變換,可以有效地降低特征空間的維數(shù),減小KNN在高維空間中搜索最近鄰的復(fù)雜度,提高塞音檢測(cè)的效率。

      為了進(jìn)一步驗(yàn)證塞音檢測(cè)算法的抗噪聲性能,對(duì)本文確立的塞音檢測(cè)方法進(jìn)行魯棒性測(cè)試,表2為測(cè)試結(jié)果。

      表2 塞音檢測(cè)魯棒性測(cè)試結(jié)果

      由表2可知,在信噪比為10dB的環(huán)境下,本文算法的準(zhǔn)確率仍能達(dá)到88.07%,說明本文塞音檢測(cè)算法具有較好的魯棒性。這是由于Seneff聽覺譜本身具有較好的抗噪聲性能,且基于能量變化率的發(fā)音特征參數(shù)具有較好的穩(wěn)定性,因此能較好地保證檢測(cè)性能。

      4.3 模型的交叉驗(yàn)證

      由于本文的測(cè)試和訓(xùn)練樣本數(shù)相對(duì)較少,為了驗(yàn)證本文所選用參數(shù)和分類方法的有效性,基于上述實(shí)驗(yàn)語料,本文進(jìn)一步采用留一法[18](Leave-One-Out)對(duì)分類性能和泛化性能進(jìn)行測(cè)試。留一法的基本思想為對(duì)于一個(gè)樣本總數(shù)為N的集合,每次選取一個(gè)樣本作為測(cè)試集,其余N-1為訓(xùn)練集,重復(fù)N次。為了減小計(jì)算量,本文將塞音和非塞音各分為20份,每次選取1份作為測(cè)試集,其余19份作為訓(xùn)練集。根據(jù)交互驗(yàn)證均方根(RMSEVC)和預(yù)測(cè)均方根(RMSEP)進(jìn)行分類性能的評(píng)價(jià),RMSEVC和RMSEP數(shù)值越小,模型性能越好。

      其中ci是實(shí)際值,i是測(cè)試值,n是訓(xùn)練集樣本數(shù),m是測(cè)試集樣本數(shù)。本文將ci與i二值化取值為0或1,即將塞音標(biāo)為0,非塞音標(biāo)為1。表3為不同分類方法的交叉驗(yàn)證結(jié)果。

      表3 不同的分類方法交叉驗(yàn)證結(jié)果

      由表3可知,由于本文算法對(duì)特征變換中可能存在的問題進(jìn)行了考慮和改進(jìn),模型具有較好的穩(wěn)定性和泛化性能,因此本文所采用的分類器的交叉驗(yàn)證均方根和預(yù)測(cè)均方根均小于基于PCA和LDA變換的KNN分類器。經(jīng)過PCA變換與LDA變換的分類器相比,有更小的RMSEVC和更大的RMSEP,說明經(jīng)過PCA變換的分類器容易過訓(xùn)練,泛化性能較難保證,經(jīng)過LDA變換的分類器模型結(jié)構(gòu)不是很穩(wěn)定,但具有較好的泛化性能。

      5 小結(jié)

      本文針對(duì)爆發(fā)譜特征的不穩(wěn)定使得目前的塞音檢測(cè)性能難以提升的問題,提出了一種基于能量變化率的漢語塞音檢測(cè)方法。采用Fisherface方法對(duì)基于Seneff聽覺譜提取的描述能量變化率的特征參數(shù)進(jìn)行變換降維,增大了區(qū)分性,較好地縮小了搜索空間,提高了塞音的檢測(cè)效率和準(zhǔn)確率。通過采用留一法對(duì)該方法的性能進(jìn)行了驗(yàn)證,得知本文塞音檢測(cè)方法具有較好的泛化性能和穩(wěn)定性。文中較多錯(cuò)誤是由聲學(xué)性質(zhì)不穩(wěn)定,受前后音影響較大的摩擦音/h/引起的,因此后續(xù)的研究可以針對(duì)/h/音給檢測(cè)結(jié)果帶來的影響予以去除,同時(shí)提高送氣塞音的檢測(cè)魯棒性。

      [1]Chin-Hui.Lee,F(xiàn)rom knowledge-ignorant to knowledge-rich modeling:A new speech research paradigm for next generation automatic speech recognition[C]//Proceedings of ICSLP Keynote Speech,2004:1137-1140.

      [2]Jurgen T Geiger,Mohamed Anouar Lakhal,Bjorn Schuller,Gerhard Rigoll.Learning new acoustic events in an HMM-based system using MAP adaptation[C]//Proceedings of INTERSPEECH,2011:293-296.

      [3]David Mejía-Navarrete,Ascensión Gallardo-Antolín,Carmen Peláez-Moreno.Feature Extraction Assessment for an Acoustic-Event ClassificationTask Using the Entropy Triangle[C]//Proceedings of INTERSPEECH,2011:309-312.

      [4]張寶奇,張連海,屈丹.基于聽覺事件檢測(cè)的漢語語音聲韻切分[J].聲學(xué)學(xué)報(bào),2010,35(6):701-707.

      [5]Almpanidis G,Kotti M,Kotropoulos,and C.,Robust Detection of Phone Boundaries Using Model Selection Criteria With Few Observations[J],IEEE Transactions on Audio,Speech,and Language Processing,2009,17(2):287-298.

      [6]陳斌,張連海,王波,屈丹.基于Seneff聽覺譜特征的漢語連續(xù)語音聲韻母邊界檢測(cè)[J].聲學(xué)學(xué)報(bào),2012,37(1):104-112.

      [7]M F Dorman.Relative spectral change and formant transitions as cues to labial and alveolar place of articulation[J].J.Acoust.Soc.Am.1996,100(6):3825-3830.

      [8]A R Jayan and P C Pandey,Detection of stop landmarks using gaussian mixture model of speech spectrum[C]//Proceedings of ICASSP,2009:4681 4684.

      [9]Chi-Yueh Lin,Hsiao-Chuan Wang.Using Burst Onset Information To Improve Stop/Affricate Phone Recognition[C]//Proceedings of ICASSP[C],2010:4862-4865.

      [10]Prem C Pandey,Milind S Shah,Estimation of Place of Articulation During Stop Closures of Vowel Consonant Vowel Utterances,IEEE Transactions on Audio,Speech,and Language Processing,2009,17(2):277-286.

      [11]Chi-Yueh Lin,Hsiao-Chuan Wang.Mandarin Stops Classification Based On Random Forest Approach[C]//Proceedings of ISCSLP 2008:1-4.

      [12]Stephanie Seneff,A joint synchrony/mean-rate model of auditory speech processing[J],Journal of Phonetics,1988,16:55-76.

      [13]Stephanie Seneff,Pitch and Spectral Analysis of Speech Based on an Auditory Synchrony Model[M],Cambridge,Massachusetts Institute of Technology,1985.

      [14]Ahmed M.Abdelatty Ali,Jan Van der Spiegel,Paul Mueller,Robust Auditory-Based Speech Processing Using the Average Localized Synchrony Detection[J],IEEE Transaction on Signal and Audio Processing,2001,10:279-292.

      [15]Ahmed M.Abdelatty Ali,Jan Van der Spiegel,Paul MuellerAcoustic Phonetic Features for the Automatic Classification of Stop Consonants,IEEE Transactions on Audio,Speech,and Language Processing,2001,9(8):833-841.

      [16]Yang J,Yang J Y.Why can LDA be performed in PCA transformed space[J].Pattern Recognition,2003,36(2):563-566.

      [17]Steve Young.The HTK Book(for HTK Version 3.4).Cambridge University Engineering Department,2006:289.

      [18]Richard O.Duda,Peter E.Hart David G.Stork著,李宏東,姚天翔等譯.模式分類[M].北京:機(jī)械工業(yè)出版社,2009.

      猜你喜歡
      塞音韻母特征參數(shù)
      普通話塞音的聲學(xué)分析
      聲母韻母
      故障診斷中信號(hào)特征參數(shù)擇取方法
      基于特征參數(shù)化的木工CAD/CAM系統(tǒng)
      單韻母扛聲調(diào)
      漢語母語者英語塞音習(xí)得的實(shí)驗(yàn)研究
      基于PSO-VMD的齒輪特征參數(shù)提取方法研究
      統(tǒng)計(jì)特征參數(shù)及多分類SVM的局部放電類型識(shí)別
      中國(guó)不同方言區(qū)英語學(xué)習(xí)者元音間塞音VOT的對(duì)比研究——以吳方言區(qū)和江淮方言區(qū)為例
      漢語、法語塞音VOT的對(duì)比研究
      高平市| 武城县| 舞阳县| 山东| 香港 | 东宁县| 邯郸市| 贵州省| 金寨县| 两当县| 天津市| 海盐县| 梅河口市| 怀来县| 宁武县| 普兰店市| 安达市| 田东县| 莆田市| 乌拉特前旗| 罗源县| 合江县| 巢湖市| 三江| 布拖县| 庆云县| 且末县| 普格县| 武平县| 苍山县| 怀仁县| 丰宁| 浪卡子县| 三亚市| 公主岭市| 永城市| 阿城市| 桦川县| 阳泉市| 舒城县| 岳西县|