• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于融合特征的短語音漢語聲調(diào)自動識別方法

      2018-05-24 06:59:43沈凌潔
      聲學(xué)技術(shù) 2018年2期
      關(guān)鍵詞:基頻聲調(diào)韻律

      沈凌潔,王 蔚

      (南京師范大學(xué)教育科學(xué)學(xué)院,江蘇南京210097)

      0 引 言

      在漢語中,有四種聲調(diào),分別是陰平、陽平、上升和去聲。這四種聲調(diào)與元音、輔音結(jié)合起來成為漢語的三個必要成分。漢語是一種單音節(jié)結(jié)構(gòu)的語言,每個字由一個音節(jié)和一個聲調(diào)表示,代表不同的語義。因此,聲調(diào)對于漢字的區(qū)分起著重要的作用。

      由于漢語是聲調(diào)語言,因此發(fā)音的準(zhǔn)確性不僅與每個音節(jié)相關(guān),還與聲調(diào)相關(guān)。在噪聲環(huán)境中,語言的聲調(diào)信息可以幫助提高漢語語音識別的準(zhǔn)確性[1-2]。在 0 dB信噪比環(huán)境下,給予正確聲調(diào)信息的語音其識別率非常高,但當(dāng)聲調(diào)信息去除后,其識別率降低到 70%以下[1]。在漢語計(jì)算機(jī)輔助語言學(xué)習(xí)(Computer-Assisted Language Learning,CALL)領(lǐng)域中,聲調(diào)的識別和評價(jià)是系統(tǒng)的重要組成部分,Qu等[3]提出一種聲調(diào)測評的混合方法,文獻(xiàn)[4-6]表明,利用聲調(diào)和重音等信息可以檢測抑郁癥及相關(guān)的疾病。

      然而,聲調(diào)識別是語音識別的子問題,仍有問題沒有解決。例如,在連續(xù)的語音中,相鄰字的聲調(diào)會互相作用從而影響聲調(diào)的識別率,較短的字詞的聲調(diào)識別也具有挑戰(zhàn)性[3]。

      傳統(tǒng)的聲學(xué)特征主要有韻律特征(基頻、能量、時(shí)長)、音質(zhì)特征(基頻微擾jitter、振幅微擾shimmer)和時(shí)頻特征(梅爾倒譜系數(shù)、線性預(yù)測倒譜系數(shù))。韻律特征最能體現(xiàn)語音的副語言信息,因此是最常用的聲調(diào)識別特征[7-8]。不同的聲調(diào)通常由不同的基頻曲線表示。圖1展示了4個不同聲調(diào)的頻譜以及基頻曲線,基頻通常用F0來表示。圖1中4種聲調(diào)的頻譜圖在窄頻帶下繪制出來,不同的灰度代表相應(yīng)的頻率的能量值,顏色越深,能量越大。黑色線代表F0曲線,由自相關(guān)算法得出,該圖來源于文獻(xiàn)[9]。除了聲調(diào)的基頻特征,其他的聲學(xué)特征如持續(xù)時(shí)間、聲強(qiáng)等同樣可以輔助進(jìn)行聲調(diào)識別[10]。

      圖1 由一個女性表達(dá)的“shi”漢語音節(jié)的4個聲調(diào)的頻譜圖和F0曲線[9]Fig.1 Spectrum and F0 curves of the four tones of the Chinese syllable"shi" expressed by a woman[9]

      由于基頻能夠體現(xiàn)聲調(diào)的變化,因此它成為研究聲調(diào)識別與分類的主流特征。在有關(guān)語音識別等的任務(wù)中,倒譜特征被認(rèn)為是一種魯棒性較強(qiáng)的特征,尤其是梅爾倒譜系數(shù)(Mel-Frequency Cepstral Coefficient,MFCC)[11],它能夠很好地模擬人耳的聽力特性,因而成為語音識別中廣泛使用的特征。相關(guān)研究表明[12],聲調(diào)不僅與人的聲帶相關(guān)(通常由基頻表示),還與聲道的振動相關(guān)。聲道信息通常由頻譜特征表示,它與人的生理特性相關(guān),代表了聲道的大小和長度,因而能影響不同的發(fā)音。因此,將頻譜特征與韻律特征結(jié)合起來能更好地進(jìn)行聲調(diào)識別,提高聲調(diào)識別率。然而很少有將兩種特征結(jié)合起來進(jìn)行漢語聲調(diào)識別的研究。

      該研究的目的是將韻律特征(基頻、時(shí)間)和倒譜特征結(jié)合起來提高短語音漢語聲調(diào)的識別率。研究分為兩部分:第一部分,通過實(shí)驗(yàn)驗(yàn)證了倒譜特征(MFCC)能夠提高漢語聲調(diào)的識別率,并且計(jì)算該特征在聲調(diào)識別中的權(quán)重;第二部分,分析比較基于融合特征的5個分類器在不平衡數(shù)據(jù)上的分類效果。該研究使用了兩種設(shè)置的高斯混合模型、神經(jīng)網(wǎng)絡(luò),支持向量機(jī)和卷積神經(jīng)網(wǎng)絡(luò),比較準(zhǔn)確率、未加權(quán)平均召回率((Unweighted Average Recall,UAR)和科恩卡帕系數(shù)3個指標(biāo)。

      該研究提出了一個將基于超音段的韻律特征和基于幀的倒譜特征結(jié)合起來的方法來提高短語音漢語聲調(diào)識別率。首先在特征選擇上,將韻律特征和倒譜特征結(jié)合起來提高漢語聲調(diào)識別率。其次,基于融合特征,選擇不同的算法提高在不平衡數(shù)據(jù)上聲調(diào)的識別率。該研究的創(chuàng)新之處有以下幾個方面:

      (1) 特征選擇的方法:將基于不同統(tǒng)計(jì)特性的、不同模型的以及其他文獻(xiàn)提出的有效的韻律特征結(jié)合起來,使用順序前向特征選擇(Sequence Forward Feature Selecture,SFFS)方法,提取出對該數(shù)據(jù)庫有效的特征,減少數(shù)據(jù)的冗余度,從而簡化算法。同時(shí),針對不同的問題和數(shù)據(jù),該方法對其他相關(guān)研究如副語言信息挖掘、情感識別等相關(guān)問題研究有較好的泛化能力。

      (2) 特征融合:該研究通過早期融合的方法將基于字的韻律特征和基于幀的頻譜特征融合起來形成超向量。該超向量融合了語音的韻律信息和生理信息,被應(yīng)用于不同的分類器,從而提高漢語聲調(diào)識別率。

      (3) 解決問題:漢語聲調(diào)識別的相關(guān)研究目前已經(jīng)相當(dāng)成熟,但大多數(shù)研究僅關(guān)注發(fā)音清晰、時(shí)間較長、音質(zhì)較高的語音信息,而短時(shí)語音的漢語聲調(diào)識別仍然具有一定的挑戰(zhàn)。該研究聚焦短語音的漢語聲調(diào)識別,從特征和分類器的角度進(jìn)一步提高聲調(diào)識別率。

      1 相關(guān)研究

      對于近年來漢語聲調(diào)識別的研究情況,相關(guān)文獻(xiàn)詳見表1。該表體現(xiàn)了近10年漢語聲調(diào)識別在算法和特征提取上的變化,人們不僅僅只使用基頻特征等超音段特征,還關(guān)注倒譜特征在聲調(diào)識別中的作用。雖然已有研究表明倒譜特征能夠很好地進(jìn)行漢語聲調(diào)識別,但是相關(guān)研究基于不同的數(shù)據(jù)庫,識別率不能進(jìn)行絕對的比較,同時(shí),相關(guān)研究沒有指出頻譜特征和韻律特征對漢語聲調(diào)識別的貢獻(xiàn)率。關(guān)于聲調(diào)模型的研究,目前已有三種基頻曲線模型,分別為Tilt模型,Bézier模型,量化輪廓模型(Quantized Contour Model,QCM)等等[13]。本研究的啟發(fā)來自于文獻(xiàn)[14],其創(chuàng)新性地使用基頻F0,MFCC和Frequency Modulation特征進(jìn)行越南語聲調(diào)分類,研究表明,與只使用韻律特征的分類方法相比,將倒譜特征和韻律特征結(jié)合起來進(jìn)行分類的方法,準(zhǔn)確率提高7.5%,并指出聲調(diào)語言如漢語、粵語等都可以使用相似的方法?;谇叭说难芯?,本文嘗試使用韻律特征和倒譜特征相結(jié)合的方法進(jìn)行短語音漢語聲調(diào)識別,驗(yàn)證該方法在漢語聲調(diào)識別中的可行性。

      表1 漢語聲調(diào)的相關(guān)研究Table 1 Recent researches on Chinese tone classification

      由于漢語聲調(diào)的數(shù)據(jù)不平衡,因此解決不平衡數(shù)據(jù)對分類結(jié)果產(chǎn)生的影響是聲調(diào)分類任務(wù)不得不面臨的一個問題。文獻(xiàn)[18]列舉了不平衡數(shù)據(jù)對最終結(jié)果帶來的消極影響,指出在不平衡數(shù)據(jù)下分類器傾于向?qū)颖痉譃樽疃鄻颖緮?shù)所屬的那個類別。為了減少不平衡的聲調(diào)數(shù)據(jù)帶來的消極影響,相關(guān)研究進(jìn)行了多種實(shí)驗(yàn),如過采樣實(shí)驗(yàn)、欠采樣實(shí)驗(yàn)或整體采樣實(shí)驗(yàn)等[19]。解決不平衡數(shù)據(jù)的方法主要分為兩類,分別為基于算法和基于數(shù)據(jù)的兩個層級[20]。第一種方法采用新的算法或者對已有算法進(jìn)行改進(jìn)來解決問題。第二種方法對較少數(shù)據(jù)的類別進(jìn)行多次采樣、過采樣,或?qū)^多數(shù)據(jù)的類別進(jìn)行欠采樣。該文章采用不同算法來解決不平衡數(shù)據(jù)帶來的影響,獲得了較好的總體分類效果。

      2 本文提出的方法

      2.1 特 征

      2.1.1 韻律特征

      使用 praat[22]軟件提取每個短時(shí)漢字語音段的基頻特征,該軟件默認(rèn)提取基頻值的方法為自相關(guān)法[23]。每個語音段的基頻特征將從該語音段的基頻以及它的一階、二階差分中提取,使用z-score進(jìn)行標(biāo)準(zhǔn)化。這些特征如下:

      (1) 基本統(tǒng)計(jì)量:最大值M1,最小值M2,最大值對應(yīng)的時(shí)間T1,最小值對應(yīng)的時(shí)間平均值m,標(biāo)準(zhǔn)差S1,偏度S2,峰度S3,上四分位數(shù)Q1,中位數(shù)m1,下四分位數(shù)Q3,四分位差I(lǐng)(interquartile range),四分位差與標(biāo)準(zhǔn)差之差的絕對值|I-S1|,開始時(shí)刻的值f1,中間時(shí)刻的值f2,結(jié)束時(shí)刻的值f3,f2與f1的差的絕對值,f3與f1的差的絕對值,f3與f2的差的絕對值(22個特征);

      (2) 基于Tilt模型[24]的特征:基頻上升值,基頻上升時(shí)間,基頻下降值,基頻下降時(shí)間,基頻上升時(shí)間和下降時(shí)間的總和,基頻上升值和下降值的總和,Tilt值,一共7個特征;

      (3) 文獻(xiàn)[25-26]提出的特征:基頻上升的平均量f4,下降的平均量f5,上升次數(shù)的百分比f6,下降次數(shù)的百分比f7,一次擬合的一次項(xiàng)系數(shù)和常數(shù)項(xiàng)系數(shù)C1,c1,2~7次擬合的最高次數(shù)項(xiàng)的系數(shù)C2~C7(12 個特征)。

      由于這些特征代表和區(qū)分聲調(diào)的能力各不相同,因此該研究使用過濾式特征選擇方法(RELIEFF)算法[27]評估不同特征在分類任務(wù)中的區(qū)分性和代表性,按這些特征對分類任務(wù)的貢獻(xiàn)率從高到低進(jìn)行排序并產(chǎn)生相應(yīng)的權(quán)重。然后使用順序前向算法(Sequence Forward Feature Selection,SFFS)進(jìn)行特征的篩選,將這些排序好的特征依次投入相應(yīng)的分類器,并只保留能提高分類效果的特征,分類器采用KNN (k-Nearest Neighbor) 算法。最后,根據(jù)以上方法,保留7個特征(基頻曲線一次擬合的一次項(xiàng)系數(shù)C1,上升次數(shù)的百分比f6,下降次數(shù)的百分比f7,最大值與結(jié)束時(shí)刻值之差的絕對值最大值與開始時(shí)刻值之差的絕對值結(jié)束時(shí)刻值f3,最大時(shí)刻與結(jié)束時(shí)刻之差

      2.1.2 倒譜特征

      在提取 MFCC時(shí),首先進(jìn)行語音信號的預(yù)處理,設(shè)置幀長為20 ms,幀移為10 ms,窗函數(shù)為漢明窗。然后進(jìn)行聲音活動檢測(Voice Activity Detection,VAD),去除無聲段。每幀提取24維的特征向量,包括12個MFCC和它的一階差分(?MFCC)。每段語音的倒譜使用倒譜均值相減法(Cepstral Mean Substraction,CMS)進(jìn)行標(biāo)準(zhǔn)化。

      2.1.3 融合特征

      利用每幀的 MFCC特征訓(xùn)練分別代表4個聲調(diào)的高斯混合模型(Gaussian Mixture Model,GMM),計(jì)算每段語音的MFCC在這4個GMM上的對數(shù)化后驗(yàn)概率,將 7個韻律特征和這 4個MFCC的對數(shù)化后驗(yàn)概率結(jié)合起來形成11維的融合特征[28],如圖2所示。該研究使用10折交叉驗(yàn)證的方法計(jì)算每段語音段的4個MFCC對數(shù)化后驗(yàn)概率。

      圖2 融合特征的生成流程Fig.2 Diagram of fusion features’ generation

      2.2 實(shí)驗(yàn)設(shè)計(jì)

      2.2.1 實(shí)驗(yàn)一:將基于韻律特征和基于倒譜特征的分類器混合,計(jì)算兩種特征的權(quán)重

      為了探究韻律特征和倒譜特征對聲調(diào)分類任務(wù)的貢獻(xiàn)率,證明倒譜特征能提高聲調(diào)識別率,分別使用韻律特征和倒譜特征進(jìn)行分類,并賦予兩個分類器權(quán)重,探究在該權(quán)重變化的情況下,基于韻律特征和基于倒譜特征的混合分類器的聲調(diào)識別率的變化。兩個分類器為高斯混合模型(GMM)。訓(xùn)練韻律特征的GMM使用8個成分,訓(xùn)練倒譜特征的GMM選擇32個成分。測試語音根據(jù)韻律特征和倒譜特征識別出的聲調(diào)分別為它們分別由兩個分類器計(jì)算得到的后驗(yàn)概率和中得到,分別表示聲調(diào)1、聲調(diào)2、聲調(diào)3、聲調(diào)4。

      其中:Si為樣本i的7個韻律特征構(gòu)成的特征向量,為樣本總數(shù),,K為樣本i的幀數(shù),x1為第一幀語音的 MFCC特征向量,該研究假設(shè)每個聲調(diào)的先驗(yàn)概率相等并且對于每個語音段,P(S)和P(X)都是相等的。因此,可以將近似表示為

      在漢語聲調(diào)分類任務(wù)中,韻律特征和倒譜特征是兩種性質(zhì)完全不同的特征,對于聲調(diào)分類的貢獻(xiàn)程度也不相同,因此該研究將這兩種不同的分類器混合起來,探究兩種不同的特征是否能改善聲調(diào)分類的準(zhǔn)確率。盡管有許多混合不同分類器的方法[29-31],研究使用兩個分類器的后驗(yàn)概率加權(quán)和的方法[29]:

      該方法能夠體現(xiàn)不同分類器對整體聲調(diào)識別的貢獻(xiàn)程度。該研究使用兩種特征,即韻律特征和倒譜特征,韻律特征對整體分類效果的貢獻(xiàn)程度為因此,倒譜特征對整體分類效果的貢獻(xiàn)程度為1-α。為了檢驗(yàn)這兩個分類器的相似程度,計(jì)算了Q統(tǒng)計(jì)量[32]:

      式中表示兩個分類器都識別錯誤的個數(shù)表示兩個分類器都識別正確的個數(shù);N10表示第一個分類器分類正確的同時(shí)第二個分類器分類錯誤的個數(shù);N01表示第一個分類器分類錯誤的同時(shí)第二個分類器分類正確的個數(shù)。Q統(tǒng)計(jì)量介于[-1,1]之間,Q值越接近0,兩個分類器的分類效果越相近,反之,Q值越接近1或-1,兩個分類器的分類效果越不同。

      2.2.2 實(shí)驗(yàn)二:將韻律特征和倒譜特征混合,比較4個分類器的識別結(jié)果

      在驗(yàn)證了倒譜特征能提高漢語聲調(diào)的識別率之后,使用融合特征,從算法的水平上提高漢語聲調(diào)識別率。將7個韻律特征和這4個MFCC的對數(shù)化后驗(yàn)概率結(jié)合起來形成 11維的融合特征,如圖2所示。

      由于實(shí)驗(yàn)來自4個聲調(diào)的數(shù)據(jù)量相差較大,使用不同的分類器來比較它們在不平衡數(shù)據(jù)下的分類表現(xiàn)。使用如下4種分類器,分別為兩種設(shè)置的GMM、后向傳播神經(jīng)網(wǎng)絡(luò)(Back Propagating Neural Network,BPNN)、支持向量機(jī)、卷積神經(jīng)網(wǎng)絡(luò)。

      (1) 高斯混合模型(GMM):使用該融合特征分別訓(xùn)練4個高斯混合模型,對應(yīng)4個不同的聲調(diào)。GMM分類器有兩種設(shè)置,一個稱為小GMM,即訓(xùn)練MFCC時(shí)使用16個成分,訓(xùn)練該11維融合特征時(shí)使用4個成分,訓(xùn)練僅基于韻律特征的模型使用4個成分,另一個稱為大GMM,即訓(xùn)練MFCC時(shí)使用32個成分,訓(xùn)練該11維融合特征時(shí)使用8個成分,訓(xùn)練僅基于韻律特征的模型使用8個成分。

      (2) 后向傳播神經(jīng)網(wǎng)絡(luò)(BPNN):該網(wǎng)絡(luò)的拓補(bǔ)結(jié)構(gòu)為11*10*4,有10個隱藏節(jié)點(diǎn),隱藏節(jié)點(diǎn)的激活函數(shù)為sigmoid,輸出層的激活函數(shù)為softmax,調(diào)整BP網(wǎng)絡(luò)參數(shù)的方式為自適應(yīng)、有動量的梯度下降法。選擇概率最大的那個節(jié)點(diǎn)對應(yīng)的聲調(diào)作為該語音的類別。

      (3) 支持向量機(jī):支持向量機(jī)(Support Vector Machine,SVM)[33]能夠?qū)⒕哂懈呔S特征的兩類數(shù)據(jù)進(jìn)行較好的分類和判別,是一種判別性分類器。本研究需要解決的是多類別問題,因此分別設(shè)計(jì)6個SVM,測試時(shí)將測試數(shù)據(jù)分別投入6個樣本,分類器分別對該樣本進(jìn)行類別投票,投票結(jié)果最多的那一類即為該測試樣本的類別。當(dāng)出現(xiàn)一個以上相同的最大票數(shù)時(shí),選取第一個出現(xiàn)的最大值的那一類作為該測試樣本的類別。SVM選取高斯徑向基核函數(shù)。

      (4) 卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN):卷積神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)為11*8*4,使用一維卷積層,卷積核大小(kernal size)為3,濾波器個數(shù)為32,使用最大池化層(max-pooling),激活函數(shù)為修正線性單元(Rectified Linear Unit,ReLU)[34],優(yōu)化器為Adam[35],學(xué)習(xí)率為10-4,迭代次數(shù)為10。該實(shí)驗(yàn)在keras平臺上實(shí)現(xiàn)。

      該實(shí)驗(yàn)的基線系統(tǒng)為基于韻律特征并僅使用 4個成分的高斯混合模型(GMM)。

      3 實(shí)驗(yàn)與結(jié)論

      實(shí)驗(yàn)分為兩步。第一步,探究韻律特征和倒譜特征對聲調(diào)分類的貢獻(xiàn)程度,驗(yàn)證倒譜能提高漢語聲調(diào)的識別率。第二步,將兩種特征混合起來,利用5個分類器進(jìn)行聲調(diào)識別,比較不同分類器在不平衡數(shù)據(jù)上的表現(xiàn)。

      3.1 數(shù)據(jù)描述

      語音數(shù)據(jù)來自中國科學(xué)院自動化研究所疑問句語料庫,該語料庫中語料的采樣頻率為16 kHz,精度為16 bit。該語料庫由兩男兩女朗讀,每人朗讀相同的590句。使用隱馬爾可夫工具 (HMM toolkit,HTK)進(jìn)行字詞切分,請5個本科生對標(biāo)注好的數(shù)據(jù)進(jìn)行篩選,挑選時(shí)長較短的語音。收集到的4個聲調(diào)的數(shù)據(jù)分布見表2。

      該數(shù)據(jù)集被分為訓(xùn)練集和測試集兩部分,為了避免局部最優(yōu)的試驗(yàn)結(jié)果,使用 10折交叉驗(yàn)證進(jìn)行訓(xùn)練和測試。

      表2 數(shù)據(jù)分布Table 2 Data distribution

      3.2 評價(jià)指標(biāo)

      用來評價(jià)算法分類效果的指標(biāo)有三個,分別為準(zhǔn)確率、未加權(quán)平均召回率(UAR)和科恩卡帕系數(shù)(κ)[36]。準(zhǔn)確率用來評估總的分類準(zhǔn)確率;未加權(quán)平均召回率用來評估每一類的準(zhǔn)確率的均值,它對待每一類的錯誤率給予相同的權(quán)重,因而能更客觀地評價(jià)基于不平衡的數(shù)據(jù)集下算法的分類表現(xiàn);科思卡帕系數(shù)κ用來評估人和機(jī)器對聲調(diào)的識別的一致程度。未加權(quán)平均召回率(UAR)指標(biāo)用于體現(xiàn)在不平衡數(shù)據(jù)上的表現(xiàn),其定義為

      式中:ci表示被正確劃分為類別i的個數(shù);ni表示類別為i的樣本數(shù);N表示類別數(shù)。

      3.3 實(shí)驗(yàn)結(jié)果

      3.3.1 實(shí)驗(yàn)一:將基于韻律特征和基于倒譜特征的分類器混合,計(jì)算兩種特征的權(quán)重

      為了探究基頻特征和 MFCC特征對聲調(diào)識別的貢獻(xiàn)率,將兩種特征的GMM分類器混合起來,識別結(jié)果見圖3。

      圖3 混合分類器的聲調(diào)識別率Fig.3 Fusion recognition rate as a function of weight α attributed to both prosodic (α=1) and spectral (α=0) classifiers

      圖3中,基于韻律特征的分類器權(quán)重為α,基于倒譜特征分類器的權(quán)重為1-α。由圖3可知,當(dāng)基于韻律特征的GMM分類器的權(quán)重α為0.89,基于倒譜特征的GMM分類器權(quán)重1-α為0.11時(shí),聲調(diào)分類的準(zhǔn)確率最高,為85%。在該研究中,兩個分類器的Q值等于0.2295,表明韻律特征和倒譜特征在聲調(diào)分類任務(wù)中能夠提供互補(bǔ)的信息。由此證實(shí),韻律特征(主要是基頻)仍然是聲調(diào)分類的主要特征,但倒譜特征可以在一定程度上提高聲調(diào)分類的識別率。

      3.3.2 實(shí)驗(yàn)二:將韻律特征和倒譜特征混合,比較4個分類器的識別結(jié)果

      實(shí)驗(yàn)結(jié)果見表3。圖4是基于基線系統(tǒng)和卷積神經(jīng)網(wǎng)絡(luò)算法在聲調(diào)識別上的混合矩陣,灰度值表示正確識別每一種聲調(diào)的百分比,圖4中,基線系統(tǒng)(a)和卷積神經(jīng)網(wǎng)絡(luò)(b)的聲調(diào)識別率。j行k列的值表示本屬于聲調(diào)j的樣本卻被誤分為聲調(diào)k的比例。(j=1,2,3,4;k=1,2,3,4)。

      表3 基線系統(tǒng)與基于融合特征的5個分類器的分類結(jié)果Table 3 Classification results of baseline system and 5 classifiers with fusion features

      圖4 聲調(diào)識別混合矩陣Fig.4 Tone classification confusion matrices: the tone recognition error patterns of GMM baseline system (left) and CNN (right)

      從表3和圖4可以得到如下結(jié)果:

      (1) 與基線系統(tǒng)相比較起來,基于融合特征的卷積神經(jīng)網(wǎng)絡(luò)分類器的準(zhǔn)確率提高了5.87%;

      (2) 卷積神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確率最高,為87.6%。除了用卷積神經(jīng)網(wǎng)絡(luò)的方法之外,實(shí)驗(yàn)結(jié)果表明,神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確率最高,其次是支持向量機(jī)。并且,在不平衡數(shù)據(jù)上,支持向量機(jī)的表現(xiàn)僅次于卷積神經(jīng)網(wǎng)絡(luò)。支持向量機(jī)的優(yōu)勢是能夠利用有限的數(shù)據(jù)生成較好的決策面,從而獲得較優(yōu)的識別率[33];

      (3) 在該實(shí)驗(yàn)中,判別性模型(SVM)比生成性模型(GMM)表現(xiàn)好[8],這是因?yàn)榕袆e性模型能夠?qū)撛诘淖兞窟M(jìn)行分類并生成較好的決策面,從而判別數(shù)據(jù)的類別。

      4 討論和總結(jié)

      本研究驗(yàn)證了倒譜特征對短時(shí)聲調(diào)識別的作用。實(shí)驗(yàn)結(jié)果表明,雖然韻律特征在聲調(diào)識別中仍然起到重要的作用,但是由于倒譜特征能夠獲取韻律所不能表達(dá)的特征,能提供與韻律信息互補(bǔ)的代表生理特性的頻譜特征,因此能夠提高漢語聲調(diào)的識別率,文獻(xiàn)[13, 37]研究的結(jié)果證實(shí)了這一點(diǎn)。

      根據(jù)上述實(shí)驗(yàn)結(jié)果,進(jìn)一步將韻律特征和倒譜特征融合起來進(jìn)行短語音漢語聲調(diào)分類。分別比較在不平衡數(shù)據(jù)上基于融合特征的高斯混合模型、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)和卷積神經(jīng)網(wǎng)絡(luò)的分類效果,結(jié)果表明卷積神經(jīng)網(wǎng)絡(luò)能夠獲得最高的識別率。

      在進(jìn)行韻律特征的篩選與降維時(shí),采取與文獻(xiàn)[38]類似的方法,即針對每個特征的分類能力從高到低進(jìn)行排序,雖然得到的特征不完全一致,但大致都是描述基頻曲線走勢的特征。

      然而,為了能夠充分證明本文提出的短語音漢語聲調(diào)分類方法的泛化能力,今后還需要在其他數(shù)據(jù)庫上進(jìn)行實(shí)驗(yàn)。

      本研究從特征提取的角度來提高短語音漢語聲調(diào)的識別率。隨著近年來深度學(xué)習(xí)的快速發(fā)展和其顯著的分類能力[39],該研究未來可以進(jìn)一步從算法角度提高漢語聲調(diào)的識別率,將深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN),短長時(shí)記憶(Long Short Term Memory,LSTM)神經(jīng)網(wǎng)絡(luò)等深度神經(jīng)網(wǎng)絡(luò)同樣可以應(yīng)用到相關(guān)的研究中[14,15]。此外,由于該方法同時(shí)涉及到音段特征和超音段特征,因此還可以將類似的方法泛化到漢語重音檢測與評價(jià)、漢語韻律的檢測與評價(jià)、副語言信息的檢測與分類等相關(guān)的研究中,擴(kuò)大該方法的應(yīng)用范圍。

      5 結(jié) 論

      該研究通過將韻律特征和倒譜特征結(jié)合起來進(jìn)行漢語聲調(diào)識別,使用深度學(xué)習(xí)方法(CNN)和傳統(tǒng)機(jī)器學(xué)習(xí)方法進(jìn)行分類,實(shí)驗(yàn)結(jié)果表明將韻律特征和倒譜特征結(jié)合起來能顯著提高傳統(tǒng)基于韻律特征的聲調(diào)識別率,基于深度學(xué)習(xí)(CNN)的聲調(diào)識別效果最好。該研究方法和研究思路可以進(jìn)一步擴(kuò)展到語音情感識別、副語言信息檢測與識別等相關(guān)研究中,今后將進(jìn)一步探究相關(guān)深度學(xué)習(xí)方法來提高語音聲調(diào)識別。

      參考文獻(xiàn)

      [1] CHEN F, WONG L L N, HU Y. Effects of lexical tone contour on Mandarin sentence intelligibility[J]. Journal of Speech, Language,and Hearing Research, 2014, 57(1): 338-345.

      [2] WANG J, SHU H, ZHANG L, et al. The roles of fundamental frequency contours and sentence context in mandarin chinese speech intelligibility.[J]. Journal of the Acoustical Society of America,2013, 134(1): EL91-97.

      [3] QU Y, HE X, LU Y, et al. A hybrid method of tone Assessment for mandarin CALL system[M]. Pattern Recognition, Machine Intelligence and Biometrics. Springer Berlin Heidelberg, 2011: 61-80.

      [4] PAUL R, AUGUSTYN A, KLIN A, et al. Perception and production of prosody by speakers with autism spectrum disorders[J]. Journal of Autism & Developmental Disorders, 2005, 35(2): 205-220.

      [5] RINGEVAL F, DEMOUY J, SZASZAK G, et al. Automatic intonation recognition for the prosodic assessment of language-impaired children[J]. IEEE Transactions on Audio Speech & Language Processing, 2011, 19(5): 1328-1342.

      [6] DIEHL J J, PAUL R. Acoustic differences in the imitation of prosodic patterns in children with autism spectrum disorders[J]. Research in Autism Spectrum Disorders, 2012, 6(1): 123-134.

      [7] GONZALEZ-FERRERAS C, ESCUDERO-MANCEBO D, VIVARACHO-PASCUAL C, et al. Improving automatic classification of prosodic events by pairwise coupling[J]. IEEE Transactions on Audio Speech & Language Processing, 2012, 20(7): 2045-2058.

      [8] SRIDHAR V K R, BANGALORE S, NARAYANAN S S. Exploiting acoustic and syntactic features for automatic prosody labeling in a maximum entropy framework[J]. IEEE Transactions on Audio Speech & Language Processing, 2008, 16(4): 797-811.

      [9] CHEN C, BUNESCU R, XU L, et al. Tone classification in mandarin chinese using convolutional neural networks [C]//Conference of the International Speech Communication Association. 2016.

      [10] SURENDRAN D R. Analysis and automatic recognition of tones in mandarin chinese[D]. The University of Chicago, 2007.

      [11] DAVIS S, MERMELSTEIN P. Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences[J]. IEEE transactions on acoustics, speech, and signal processing, 1980, 28(4): 357-366.

      [12] ERICKSON D, IWATA R, ENDO M, et al. Effect of tone height on jaw and tongue articulation in Mandarin Chinese[C]//International Symposium on Tonal Aspects of Languages: With Emphasis on Tone Languages. 2004.

      [13] JOHNSON D O, KANG O. Automatic prosodic tone choice classification with Brazil’s intonation model[J]. International Journal of Speech Technology, 2016, 19(1): 95-109.

      [14] LE P N, AMBIKAIRAJAH E, CHOI E H C. Improvement of Vietnamese Tone Classification using FM and MFCC Features [C]//International Conference on Computing and Communication Technologies. IEEE, 2009: 1-4.

      [15] RYANT N, YUAN J, LIBERMAN M. Mandarin tone classification without pitch tracking[C]//ICASSP 2014-2014 IEEE International Conference on Acoustics, Speech and Signal Processing. IEEE,2014: 4868-4872.

      [16] WU J, ZAHORIAN S A, HU H. Tone recognition for continuous accented Mandarin Chinese[C]//Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on. IEEE,2013: 7180-7183.

      [17] HU H, ZAHORIAN S A, GUZEWICH P, et al. Acoustic features for robust classification of Mandarin tones[C]//INTERSPEECH.2014: 1352-1356.

      [18] ZHOU N, ZHANG W, LEE C Y, et al. Lexical tone recognition with an artificial neural network[J]. Ear & Hearing, 2008, 29(3):326-335.

      [19] LIU Z J, SHAO J, ZHANG P Y, et al. Research on tone recognition in Chinese spontaneous speech[J]. Acta Physica Sinica, 2007,56(12): 7064-7069.

      [20] XIN L, SIU M H, HWANG M Y, et al. Improved tone modeling for Mandarin broadcast news speech recognition.[C]//INTERSPEECH 2006-Icslp, Ninth International Conference on Spoken Language Processing, Pittsburgh, Pa, Usa, September. DBLP, 2006.

      [21] 曹陽, 黃泰翼, 徐波, 等. 基于統(tǒng)計(jì)方法的漢語連續(xù)語音中聲調(diào)模式的研究[J]. 自動化學(xué)報(bào), 2004, 30(2):191-198.CAO Yang, HUANG Taiyi, XU Bo, et al. A stochastically-based study on Chinese tone patterns in continuous speech[J]. Acta Automatica Sinica, 2004, 30(2): 191-198.

      [22] Boersma P, Weenink D. Praat: Doing phonetics by computer[J]. Ear& Hearing, 2011, 32(2): 266.

      [23] MEI X D, PAN J, SUN S H. Efficient algorithms for speech pitch estimation[C]//Intelligent Multimedia, Video and Speech Processing, 2001. Proceedings of 2001 International Symposium on.IEEE, 2001: 421-424.

      [24] TAYLOR P. Analysis and synthesis of intonation using the tilt model[J]. The Journal of the acoustical society of America, 2000,107(3): 1697-1714.

      [25] VU M Q, BESACIER L, CASTELLI E. Automatic question detection: prosodic-lexical features and crosslingual experiments [C]//INTERSPEECH 2007, Conference of the International Speech Communication Association, Antwerp, Belgium, August. DBLP, 2007:2257-2260.

      [26] MA M, EVANINI K, LOUKINA A, et al. Using f0 contours to assess nativeness in a sentence repeat task[C]//Sixteenth Annual Conference of the International Speech Communication Association.2015.

      [27] ROBNIK-?ikonja M, KONONENKO I. Theoretical and empirical analysis of relieff and rreliefF[J]. Machine Learning, 2003, 53(1):23-69.

      [28] FERRER L, BRATT H, RICHEY C, et al. Classification of lexical stress using spectral and prosodic features for computer-assisted language learning systems[J]. Speech Communication, 2015, 69: 31-45.

      [29] KUNCHEVA L I. Combining pattern classifiers: methods and algorithms[J]. Technometrics, 2005, 47(4): 517-518.

      [30] MONTE-MORENO E, CHETOUANI M, FAUNDEZ-ZANUY M, et al. Maximum likelihood linear programming data fusion for speaker recognition[J]. Speech Communication, 2009, 51(9): 820-830.

      [31] JAIN A, NANDAKUMAR K, ROSS A. Score normalization in multimodal biometric systems[J]. Pattern recognition, 2005, 38(12):2270-2285.

      [32] YILDIRIM S, NARAYANAN S. Automatic detection of disfluency boundaries in spontaneous speech of children using audio-visual information[J]. IEEE Transactions on Audio Speech & Language Processing, 2009, 17(1): 2-12.

      [33] BURGES C J C. A tutorial on support vector machines for pattern recognition[J]. Data mining and knowledge discovery, 1998, 2(2):121-167.

      [34] GLOROT X, BORDES A, BENGIO Y. Deep sparse rectifier neural networks[C]//International Conference on Artificial Intelligence and Statistics. 2012.

      [35] KINGA D, ADAM J B. A method for stochastic optimization[C]//International Conference on Learning Representations(ICLR). 2015.

      [36] COHEN J. A coefficient of agreement for nominal scales[J]. Educational & Psychological Measurement, 1960, 20(1): 37-46.

      [37] BAO W, LI Y, GU M, et al. Combining prosodic and spectral features for Mandarin intonation recognition[C]//International Symposium on Chinese Spoken Language Processing. IEEE, 2014: 497-500.

      [38] HAN R, CHOI J Y. Prosodic boundary tone classifickation with voice quality features[J]. J. Acoust. Soc. Am., 2013, 133(4): 1862-1866.

      [39] HINTON G, DENG L, YU D, et al. Deep neural networks for acoustic modeling in speech recognition: the shared views of four research groups[J]. IEEE Signal Processing Magazine, 2012, 29(6):82-97.

      猜你喜歡
      基頻聲調(diào)韻律
      語音同一認(rèn)定中音段長度對基頻分析的影響
      聲調(diào)符號位置歌
      基于時(shí)域的基頻感知語音分離方法?
      聲調(diào)歌
      橋面鋪裝層對中小跨徑橋梁基頻影響分析
      坐著轎車學(xué)聲調(diào)
      單韻母扛聲調(diào)
      春天的韻律
      中華詩詞(2019年1期)2019-08-23 08:24:12
      韻律之美——小黃村
      45000kHz基頻晶體濾波器
      電子制作(2017年20期)2017-04-26 06:57:35
      乃东县| 周至县| 新营市| 包头市| 湘西| 潮州市| 铅山县| 滨海县| 蒙城县| 开化县| 广平县| 东台市| 车险| 兴文县| 开阳县| 察隅县| 涞水县| 德庆县| 自贡市| 尉氏县| 宣汉县| 会昌县| 五寨县| 基隆市| 安阳市| 揭东县| 长岭县| 方山县| 阿瓦提县| 潮州市| 江津市| 平度市| 永年县| 且末县| 衢州市| 小金县| 满洲里市| 芒康县| 枣强县| 炉霍县| 万源市|