摘" 要: 減小域間差異和加強(qiáng)特征情感表達(dá)是解決跨庫語音情感識(shí)別任務(wù)的兩個(gè)主要問題,但少有研究同時(shí)考慮到上述問題,為此,提出一種基于解耦知識(shí)蒸餾策略優(yōu)化的域自適應(yīng)跨庫語音情感識(shí)別算法。在域自適應(yīng)算法中引入解耦知識(shí)蒸餾(DKD)策略,提高特征提取器獲取具有顯著情感信息的域不變特征的能力;并提出一個(gè)時(shí)頻域自校正卷積神經(jīng)網(wǎng)絡(luò)(TFSC?CNN),融合不同感受域的特征細(xì)節(jié),豐富特征中的情感信息,作為教師模型,指導(dǎo)特征提取器的訓(xùn)練過程;最后,使用優(yōu)化后的特征提取器進(jìn)行對(duì)抗訓(xùn)練,減小特征的域間差異,提升模型的泛化能力。所提方法在CASIA、EmoDB和RAVDESS數(shù)據(jù)集上進(jìn)行了6組不同的跨庫語音情感識(shí)別任務(wù),在UAR和WAR兩個(gè)評(píng)價(jià)指標(biāo)上分別取得了49.74%和50.62%的識(shí)別結(jié)果;同時(shí),通過消融實(shí)驗(yàn)進(jìn)一步驗(yàn)證了不同改進(jìn)模塊的有效性。文中方法為跨庫情感識(shí)別提供了一種新思路。
關(guān)鍵詞: 跨庫語音情感識(shí)別; 時(shí)頻域自校正模塊; 解耦知識(shí)蒸餾; 域自適應(yīng); 對(duì)抗訓(xùn)練; 域不變特征
中圖分類號(hào): TN912.3?34" " " " " " " " " " " " "文獻(xiàn)標(biāo)識(shí)碼: A" " " " " " " " " " " " 文章編號(hào): 1004?373X(2024)17?0173?08
Domain adaptive cross?corpus speech emotion recognition optimized by decoupled knowledge distillation
GAO Xiang1, BAI Jing1, XUE Peiyun1, 2, DONG Zhenan1, QIANG Yan3
(1. College of Electronic Information and Optical Engineering, Taiyuan University of Technology, Jinzhong 030600, China;
2. Shanxi Academy of Advanced Research and Innovation, Taiyuan 030032, China;
3. College of Computer Science and Technology, Taiyuan University of Technology, Jinzhong 030600, China)
Abstract: Reducing inter?domain differences and enhancing feature emotion expression are two outstanding issues in the cross?corpus speech emotion recognition (SER). However, few studies have been focused on the above. For this reason, a domain adaptive cross?corpus SER algorithm optimized by decoupled knowledge distillation (DKD) strategy is proposed. A DKD strategy is introduced into the domain adaption algorithm to improve the feature extractor′s ability of obtaining domain?invariant features with significant emotion information. A time?frequency domain self?calibration convolutional neural network (TFSC?CNN) is proposed. The TFSC?CNN is integrated with the feature details of different receptive fields, and enriched with the emotional information in the features. After that, it is served as a teacher model to guide the training process of the feature extractor. The optimized feature extractor is used for adversarial training of the model, so as to reduce the inter?domain differences of features and improve its generalization ability. Six different cross?corpus SER tasks are implemented on the datasets CASIA, EmoDB and RAVDESS. The proposed method achieves recognition results of 49.74% and 50.62% on the evaluation metrics UAR (unweighted average recall) and WAR (weighted average recall), respectively. Additionally, ablation experiments are conducted to validate the effectiveness of different improvement modules. The proposed method provides a new idea for cross?corpus emotion recognition.
Keywords: cross?corpus SER; TFSC module; DKD; domain adaptation; adversarial training; domain?invariant feature
0" 引" 言
語音情感識(shí)別(Speech Emotion Recognition, SER)是智能化人機(jī)交互的關(guān)鍵技術(shù)之一,能夠幫助使用者盡早關(guān)注到自己的負(fù)面情緒,并及時(shí)調(diào)整,被廣泛應(yīng)用于醫(yī)療、輔助駕駛、高危工作等領(lǐng)域,可有效預(yù)防意外的發(fā)生[1?2]。傳統(tǒng)的語音情感識(shí)別方法側(cè)重于在一個(gè)已知的語料庫中完成訓(xùn)練和測(cè)試,卻忽視了實(shí)際應(yīng)用中,測(cè)試語音樣本常常未知,且特征分布存在較大差異,因此,跨庫語音情感識(shí)別逐漸成為新的研究熱點(diǎn)[3]。
特征分布對(duì)齊問題是提高跨庫語音情感識(shí)別模型性能的關(guān)鍵因素,針對(duì)此問題,文獻(xiàn)[4]設(shè)計(jì)了一個(gè)最大化核范數(shù)和均值差異的模塊優(yōu)化傳統(tǒng)域自適應(yīng)算法,有效降低了樣本在決策邊界處的密度,同時(shí)增加了模型對(duì)目標(biāo)域樣本的辨別能力。文獻(xiàn)[5]通過使用類別粒度差異來評(píng)估域間距離,提出一種基于局部域適應(yīng)的跨庫語音情感識(shí)別框架。文獻(xiàn)[6]提出一種遷移子空間學(xué)習(xí)的方法,旨在學(xué)習(xí)一個(gè)投影矩陣,將數(shù)據(jù)樣本轉(zhuǎn)換到新的標(biāo)簽空間,并利用最大平均差異準(zhǔn)則及轉(zhuǎn)移非負(fù)矩陣分解方法保證其具有相似的特征分布。
然而,上述方法在探索域自適應(yīng)算法時(shí)重點(diǎn)專注于特征分布的適應(yīng)性,而忽視了特征提取器的關(guān)鍵作用。特征提取器過于簡(jiǎn)單,可能無法捕獲數(shù)據(jù)中的復(fù)雜關(guān)系和高階特征,導(dǎo)致信息損失,泛化能力差,影響模型性能;反之,特征提取器過于復(fù)雜又會(huì)導(dǎo)致過擬合、計(jì)算復(fù)雜度高、對(duì)噪聲敏感等問題,同樣影響模型使用[7]。因此,特征提取器的合理設(shè)計(jì)是域自適應(yīng)算法的關(guān)鍵一環(huán)。
知識(shí)蒸餾[8](Knowledge Distillation, KD)常被用于模型壓縮和遷移學(xué)習(xí)中,蒸餾后的模型既減小了模型的大小,又保持了相對(duì)較高的性能,是域自適應(yīng)算法中理想的特征提取器。文獻(xiàn)[9]使用知識(shí)蒸餾的方法壓縮模型,在年齡估計(jì)任務(wù)上將模型速度提升了15倍,同時(shí)提高了模型的魯棒性。文獻(xiàn)[10]采用自適應(yīng)聯(lián)合學(xué)習(xí)方法,將VGG和ResNext兩個(gè)教師網(wǎng)絡(luò)中的知識(shí)傳遞給學(xué)生模型,大幅減少了模型參數(shù)量。文獻(xiàn)[11]在融合了多頭注意力機(jī)制的深度卷積神經(jīng)網(wǎng)絡(luò)中使用解耦知識(shí)蒸餾(Decoupled Knowledge Distillation, DKD)進(jìn)行優(yōu)化,驗(yàn)證了logit蒸餾方法在語音情感識(shí)別任務(wù)中的有效性。但上述方法僅僅壓縮了模型大小,并沒能在跨數(shù)據(jù)集場(chǎng)景下分析模型性能,實(shí)用性較差。
綜上,本文提出了一種基于解耦知識(shí)蒸餾[12]策略優(yōu)化的域自適應(yīng)算法。首先,提出了時(shí)頻域自校正卷積神經(jīng)網(wǎng)絡(luò)(Time?frequency Domain Self?calibration Convolutional Neural Network, TFSC?CNN),利用時(shí)域和頻域中的多尺度信息動(dòng)態(tài)調(diào)整輸出特征,保證了模型的特征提取能力;其次,運(yùn)用解耦知識(shí)蒸餾方法將訓(xùn)練好的教師模型遷移至相對(duì)簡(jiǎn)單的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)上,在保持情感分類性能的同時(shí),壓縮模型大小;最后,將預(yù)訓(xùn)練后的CNN模型作為特征提取器,進(jìn)行對(duì)抗訓(xùn)練,提升跨庫語言情感識(shí)別模型的性能。
1" 跨庫語言情感識(shí)別模型
本文提出的基于解耦知識(shí)蒸餾優(yōu)化域自適應(yīng)的跨庫語言情感識(shí)別模型框架如圖1所示。主要分為兩個(gè)部分:第一部分是知識(shí)蒸餾過程,包括教師模型的設(shè)計(jì)以及解耦知識(shí)蒸餾訓(xùn)練,利用解耦知識(shí)蒸餾細(xì)化遷移過程的特性,將教師模型的知識(shí)更好地傳遞到特征提取器中;第二部分是域自適應(yīng)模型訓(xùn)練過程,利用第一部分得到的特征提取器進(jìn)行域自適應(yīng)訓(xùn)練,完成跨庫語言情感識(shí)別任務(wù)。
1.1" 特征處理
語音特征的質(zhì)量往往會(huì)對(duì)模型性能產(chǎn)生顯著影響,故本文選用對(duì)數(shù)梅爾頻譜圖(Log?Mel Spectrogram)作為模型的輸入特征[13],相較于韻律特征、音質(zhì)特征、譜特征等底層聲學(xué)特征,Log?Mel頻譜圖中包含更多的有效信息,同時(shí)也是當(dāng)前主流的SER模型最常用的特征之一。
1.2" 基于解耦知識(shí)蒸餾的對(duì)抗訓(xùn)練框架
為了保證特征信息的有效提取和遷移,本文首先提出時(shí)頻域自校正卷積神經(jīng)網(wǎng)絡(luò)作為教師模型強(qiáng)化特征提取過程,并采用解耦知識(shí)蒸餾方法指導(dǎo)學(xué)生模型的訓(xùn)練,使其能夠更好地完成域自適應(yīng)算法的訓(xùn)練,得到更具泛化性的模型。
1.2.1" 時(shí)頻域自校正卷積神經(jīng)網(wǎng)絡(luò)的提出
為了提高CNN的細(xì)節(jié)捕獲能力和全局依賴性,本文提出了一種新的注意力模塊——時(shí)頻域自校正模塊(Time?frequency Domain Self?calibration Module, TFSC),并將其與CNN融合搭建了時(shí)頻域自校正卷積神經(jīng)網(wǎng)絡(luò)(TFSC?CNN)作為教師模型。該網(wǎng)絡(luò)可以從時(shí)域和頻域中提取不同維度的相關(guān)信息,并融合不同感受域中捕獲的特征,提高網(wǎng)絡(luò)的全局依賴性。TFSC?CNN結(jié)構(gòu)示意圖如圖2所示。
圖2中,“Conv”“BatchNorm”和“ReLU”分別為卷積層、批歸一化層和激活函數(shù)層,三者組合在一起構(gòu)成一個(gè)卷積塊,用于捕獲Log?Mel頻譜圖中情感特征。TFSC模塊作為特征校正模塊,利用時(shí)域和頻域不同尺度的高維特征,實(shí)現(xiàn)對(duì)淺層特征的有效優(yōu)化,其工作原理如圖3所示。
TFSC模塊包含兩部分輸入,[Ci]為第[i]層卷積塊的輸出特征,[Si-1]為前一層時(shí)頻域自校正模塊的輸出特征。首先,利用兩個(gè)1×1的卷積塊將輸入特征[Ci]在通道層分為兩部分,得到尺寸為[C2×H×W]的[X1]和[X2],分別對(duì)其進(jìn)行時(shí)域維度和頻域維度的處理;然后,對(duì)[X1]采用平均池化運(yùn)算壓縮時(shí)域維度,并利用矩形卷積核提取特征信息,間接擴(kuò)大卷積核的感受野,提取時(shí)域的粗粒度特征;接著,通過上采樣運(yùn)算將得到的時(shí)域特征恢復(fù)到與[X1]相同的維度,方便其與[X1]進(jìn)行求和運(yùn)算,獲得高維時(shí)域特征[Xt];最后,利用得到的高維時(shí)域特征[Xt]形成自校正權(quán)重對(duì)細(xì)粒度特征[Si-1]完成自校正操作,實(shí)現(xiàn)時(shí)域特征的注意力增強(qiáng),得到優(yōu)化后的輸出特征[Yt]。通過相同步驟,得到注意力增強(qiáng)后的頻域特征[Yf]。將[Yt]和[Yf]簡(jiǎn)單拼接后經(jīng)過一個(gè)1×1的卷積塊即可融合為時(shí)頻域自校正模塊最終的輸出特征[Si]。
算法流程如下:
[Xt=Uω1DX1r×1+b1r×1+X1] (1)
[Xf=Uω2DX21×s+b21×s+X2] (2)
[Yt=ω4ω3Si-1+b3·σXt+b4] (3)
[Yf=ω6ω5Si-1+b5·σXf+b6] (4)
式中:[D?r×1]和[D?1×s]為平均池化運(yùn)算;[U?r×1]和[U?1×s]為雙線性上采樣插值運(yùn)算,其中,[r×1]和[1×s]為池化核和上采樣核的大小;[ω1]和[b1]分別為矩形卷積核的權(quán)重矩陣和偏置值;[σ(?)]為Sigmoid函數(shù);[“?”]為元素級(jí)乘法運(yùn)算;[ωj]和[bjj=3,4,5,6]分別表示不同尺寸為3×3的卷積核的權(quán)重矩陣和偏置值。
經(jīng)過分析,TFSC模塊通過池化和上采樣操作來擴(kuò)展卷積核的感受野,能自適應(yīng)地調(diào)整每個(gè)空間位置周圍的特征提取,此外,兩部分輸入的相互約束和融合加強(qiáng)了深層特征和淺層特征間的關(guān)聯(lián)度,更利于有效信息的采集。
卷積神經(jīng)網(wǎng)絡(luò)本身就對(duì)圖像特征具有強(qiáng)大的表征力,TFSC?CNN融合了時(shí)頻域自校正模塊與卷積神經(jīng)網(wǎng)絡(luò)各自的優(yōu)勢(shì),在處理Log?Mel頻譜圖時(shí)更加得心應(yīng)手。
卷積神經(jīng)網(wǎng)絡(luò)層數(shù)加深,得到的特征就會(huì)更加抽象和語義化,相比之下,淺層特征中更容易清晰地劃分出Log?Mel頻譜圖的時(shí)頻域信息,故不同于多數(shù)時(shí)頻注意力機(jī)制的用法,本文選擇將TFSC模塊添加在卷積神經(jīng)網(wǎng)絡(luò)的前半部分,利用兩個(gè)TFSC模塊從時(shí)域和頻域兩個(gè)維度增強(qiáng)CNN提取細(xì)粒度特征的能力;同時(shí)利用深層卷積層提取的高維語義特征信息完成對(duì)淺層特征的自校正操作,增強(qiáng)特征的全局依賴性,得到更精細(xì)的特征。隨后,在網(wǎng)絡(luò)的后半部分使用兩個(gè)卷積塊提取和融合深層抽象特征。最后使用全局平均池化(Global Average Pooling, GAP)層和全連接層完成情感分類任務(wù)。
1.2.2" 學(xué)生模型
本文選擇了一個(gè)具備四層卷積塊的簡(jiǎn)單網(wǎng)絡(luò)作為學(xué)生模型,以保持較低的復(fù)雜度并適應(yīng)后續(xù)的域自適應(yīng)訓(xùn)練。該模型主要由卷積層和池化層組成,池化層用于降低數(shù)據(jù)維度;每層卷積層后均連接有一個(gè)批量歸一化(BatchNorm)層和ReLU激活函數(shù)以加速訓(xùn)練,增加網(wǎng)絡(luò)的非線性擬合能力和穩(wěn)定性。整個(gè)學(xué)生模型結(jié)構(gòu)簡(jiǎn)潔而有效,網(wǎng)絡(luò)具體結(jié)構(gòu)如表1所示。
1.2.3" 解耦知識(shí)蒸餾訓(xùn)練
解耦知識(shí)蒸餾將傳統(tǒng)的KD損失重新表述為兩個(gè)獨(dú)立部分的加權(quán)和,即目標(biāo)類知識(shí)蒸餾(Target Class Knowledge Distillation, TCKD)和非目標(biāo)類知識(shí)蒸餾(Non?target Class Knowledge Distillation, NCKD)。具體框架如圖4所示。
首先,DKD將分類預(yù)測(cè)分為如下兩部分。
1) 對(duì)目標(biāo)類和所有非目標(biāo)類進(jìn)行二值預(yù)測(cè):
[pt=exp(zt)j=1Cexp(zj)," "p\t=k=1,k≠tCexp(zk)j=1Cexp(zj)] (5)
2) 對(duì)每個(gè)非目標(biāo)類進(jìn)行多類別預(yù)測(cè):
[pi=exp(zi)j=1,j≠tCexp(zj)] (6)
式中:[C]為類別數(shù)目;[zi]為第[i]類預(yù)測(cè)的logit值;[pt]為目標(biāo)類的二值預(yù)測(cè)概率;[p\t]為其他所有非目標(biāo)類的二值預(yù)測(cè)概率;[pi]為第[i]個(gè)非目標(biāo)類的多類別預(yù)測(cè)概率。
然后,傳統(tǒng)的KD損失中的Kullback?Leibler(KL)散度函數(shù)被重新表述為:
[KD=pTtlogpTtpSt+i=1,i≠tCpTilogpTipSi=pTtlogpTtpSt+pT\ti=1,i≠tCpTilogpTipSi+logpT\tpS\t=pTtlogpTtpSt+pT\tlogpT\tpS\t+pT\ti=1,i≠tCpTilogpTipSi=KL(bT ‖bS)+(1-pTt)KL(PT ‖PS)] (7)
式中:[T]和[S]分別表示教師模型和學(xué)生模型;[KL(bT ‖bS)]表示蒸餾過程中目標(biāo)類的教師和學(xué)生的二元概率之間的相似度,即TCKD;[KL(PT ‖PS)]表示非目標(biāo)類中教師和學(xué)生概率的相似度,即NCKD。故式(7)可改寫為:
[KD=TCKD+1-pTtNCKD] (8)
此時(shí),設(shè)置兩個(gè)超參數(shù)[α]和[β]作為TCKD和NCKD各自的權(quán)重,則DKD的損失函數(shù)可表示為:
[LDKD=α?TCKD+β?NCKD] (9)
得到蒸餾損失[LDKD]后,再計(jì)算學(xué)生模型的預(yù)測(cè)結(jié)果[PS]和情感語音樣本的正確標(biāo)簽之間的交叉熵?fù)p失,得到分類任務(wù)損失[LCE]:
[LCE=-i=1CTargeti·logPS] (10)
最后,調(diào)節(jié)[LDKD]和[LCE]的權(quán)重系數(shù),組成總損失函數(shù):
[Loss=λLDKD+1-λLCE] (11)
式中[λ]為權(quán)重系數(shù),取值范圍為(0,1)。通過所得總損失函數(shù)可完成解耦知識(shí)蒸餾過程,實(shí)現(xiàn)分類知識(shí)從教師模型到學(xué)生模型的傳遞,得到一個(gè)簡(jiǎn)潔高效的學(xué)生網(wǎng)絡(luò)作為域自適應(yīng)算法的特征提取器。
1.2.4" 域自適應(yīng)算法
為了減小源域和目標(biāo)域語音樣本間的特征分布差異,本文采用經(jīng)典的深度域自適應(yīng)算法中對(duì)抗訓(xùn)練的思想,其具體結(jié)構(gòu)如圖5所示。
首先,特征提取器和情感分類器選用和前文卷積神經(jīng)網(wǎng)絡(luò)(見表1)相同的模型結(jié)構(gòu),并使用蒸餾后學(xué)生模型的權(quán)重參數(shù)對(duì)特征提取器進(jìn)行初始化。初始化操作可以幫助模型得到更好的初始特征表示,有助于模型更好地適應(yīng)和學(xué)習(xí)目標(biāo)域的數(shù)據(jù)特征,減少領(lǐng)域之間的差異,提高模型性能和泛化能力。
然后,通過特征提取器和域鑒別器之間的梯度反轉(zhuǎn)層(Gradient Reversal Layer, GRL),完成對(duì)抗訓(xùn)練。
域自適應(yīng)網(wǎng)絡(luò)的訓(xùn)練目標(biāo)是最小化情感分類損失[Lc],最大化領(lǐng)域分類損失[Ld]。情感分類損失用于度量情感標(biāo)簽分類的準(zhǔn)確性,其損失函數(shù)可表示為:
[Lcy;θf,θc=-1ni=1nlogGyGfxiyi] (12)
式中:[θf]、[θc]分別表示特征提取器和情感分類器中的可訓(xùn)練參數(shù);[Gf(?)]為特征提取函數(shù),得到語音樣本經(jīng)過特征提取器后的輸出;[Gy(?)]為標(biāo)簽預(yù)測(cè)函數(shù),生成語音樣本的情感分類標(biāo)簽;[n]為源域中標(biāo)記的訓(xùn)練樣本數(shù)量。
領(lǐng)域分類損失用于領(lǐng)域自適應(yīng)訓(xùn)練,其損失函數(shù)可表示為:
[Ldd;θf,θd=-1ni=1nlogGdGfxidi-1mj=1mlogGdGfxjdj] (13)
式中:[θd]表示域鑒別器中的可訓(xùn)練參數(shù);[Gd(?)]為領(lǐng)域判別函數(shù),生成領(lǐng)域分類結(jié)果;[m]為目標(biāo)域中未標(biāo)記的訓(xùn)練樣本數(shù)量。
故最終的目標(biāo)函數(shù)為:
[Ly,d;θf,θc,θd=Lcy;θf,θc-λLdd;θf,θd] (14)
式中[λ]用于控制損失之間的權(quán)重。
2" 實(shí)驗(yàn)及結(jié)果分析
2.1" 數(shù)據(jù)集
為了評(píng)估所提算法的有效性,本文在3個(gè)公開的語音情感數(shù)據(jù)集CASIA、EmoDB和RAVDESS上進(jìn)行了多組對(duì)照實(shí)驗(yàn)。
CASIA由中國(guó)科學(xué)院自動(dòng)化研究所錄制,4名演員(兩名男性和兩名女性)分別演繹了6種情感:快樂、悲傷、憤怒、驚訝、恐懼和中性,共計(jì)1 200條語音數(shù)據(jù)。
EmoDB由德國(guó)柏林工業(yè)大學(xué)錄制。10名演員(5名男性和5名女性)模擬了7種情感:中性、憤怒、恐懼、快樂、悲傷、厭惡和無聊,共計(jì)535條語音數(shù)據(jù)。
RAVDESS由24名專業(yè)演員(12名男性和12名女性)以中性的北美發(fā)音錄制了8種情感:中性、平靜、快樂、悲傷、憤怒、驚訝、恐懼、厭惡,共計(jì)1 440條語音數(shù)據(jù)。
2.2" 實(shí)驗(yàn)設(shè)置
實(shí)驗(yàn)從3個(gè)數(shù)據(jù)集中選取了5種共有的情感類別(快樂、悲傷、憤怒、恐懼、中性),設(shè)計(jì)了6組跨庫語音情感識(shí)別任務(wù)。任務(wù)具體設(shè)置如表2所示。
在知識(shí)蒸餾過程中,將源域樣本按9∶1的比例隨機(jī)劃分為訓(xùn)練集和測(cè)試集,采用10折交叉驗(yàn)證的方式觀察特征提取器的分類性能;學(xué)習(xí)率設(shè)置為0.001,BatchSize設(shè)置為64,迭代輪數(shù)設(shè)置為500。在域自適應(yīng)訓(xùn)練過程中,取出目標(biāo)域樣本中80%的無標(biāo)簽數(shù)據(jù)和源域樣本中的有標(biāo)簽數(shù)據(jù)一起參與訓(xùn)練,目標(biāo)域樣本中余下的20%作為測(cè)試集;對(duì)特征提取器、情感分類器、域鑒別器三部分分別進(jìn)行優(yōu)化,學(xué)習(xí)率分別設(shè)置為0.001 5、0.005、0.001 5,BatchSize設(shè)置為64,迭代輪數(shù)設(shè)置為250。所有實(shí)驗(yàn)使用Python 3.9和TensorFlow框架實(shí)現(xiàn),優(yōu)化器選用Adam算法,GPU為GeForceRTX 3080 Ti,顯存為12 GB。
實(shí)驗(yàn)采用非加權(quán)平均召回率(Unweighted Average Recall, UAR)和加權(quán)平均召回率(Weighted Average" Recall, WAR)作為模型的評(píng)價(jià)指標(biāo)。
2.3" 實(shí)驗(yàn)結(jié)果及分析
2.3.1" 解耦知識(shí)蒸餾效果驗(yàn)證實(shí)驗(yàn)
為了驗(yàn)證教師模型在單一數(shù)據(jù)集上的卓越表現(xiàn)及解耦知識(shí)蒸餾方法在知識(shí)遷移上的有效性,實(shí)驗(yàn)對(duì)比了教師模型、學(xué)生模型以及經(jīng)過傳統(tǒng)知識(shí)蒸餾(KD)和解耦知識(shí)蒸餾(DKD)優(yōu)化后的學(xué)生模型在各個(gè)數(shù)據(jù)集上的分類效果。
實(shí)驗(yàn)結(jié)果如表3所示。
結(jié)果顯示,所提教師模型在各數(shù)據(jù)集中均展現(xiàn)出優(yōu)于學(xué)生模型的識(shí)別性能,證明了其指導(dǎo)學(xué)生模型的有效性。同時(shí),相較于未經(jīng)優(yōu)化的學(xué)生模型,傳統(tǒng)知識(shí)蒸餾方法可以使模型的UAR在CASIA、EmoDB、RAVDESS數(shù)據(jù)集上分別提升3.94%、1.34%、6.06%,WAR分別提升3.70%、1.19%、4.97%;而解耦知識(shí)蒸餾通過對(duì)KL散度深度解剖,進(jìn)一步提煉出真正指導(dǎo)模型分類任務(wù)的知識(shí),使模型的性能再次提升,UAR分別提升了4.94%、2.77%、8.09%,WAR分別提升了5.30%、2.19%、6.94%。關(guān)于式(11)中蒸餾損失權(quán)重系數(shù)[λ],經(jīng)過實(shí)驗(yàn)對(duì)比,最終取值為0.9,因?yàn)檩^高的蒸餾損失權(quán)重有利于模型更多地關(guān)注教師模型的決策邊界細(xì)節(jié),模仿教師模型決策過程,提高模型泛化能力,降低過擬合風(fēng)險(xiǎn)。蒸餾溫度[T]取值為5,中等的蒸餾溫度在平滑標(biāo)簽時(shí),可以保留一些相對(duì)尖銳的概率分布,有助于模型更精確地學(xué)習(xí)教師模型的輸出分布。實(shí)驗(yàn)結(jié)果證明,解耦知識(shí)蒸餾方法可以更大程度地挖掘logit蒸餾的潛力,選取教師模型中的關(guān)鍵信息遷移至學(xué)生模型。
2.3.2" 模型性能及消融實(shí)驗(yàn)
為了驗(yàn)證本文所提跨庫語音情感識(shí)別模型的有效性及模型中各模塊的必要性,設(shè)計(jì)了一組消融實(shí)驗(yàn),在6組任務(wù)下進(jìn)行了驗(yàn)證。
1) Only?CNN:所提學(xué)生模型。
2) CNN+KD:經(jīng)KD優(yōu)化的學(xué)生模型。
3) CNN+DKD:經(jīng)DKD優(yōu)化的學(xué)生模型。
4) CNN+DA:學(xué)生模型作為特征提取器,進(jìn)行域自適應(yīng)訓(xùn)練。
5) CNN+KD+DA:經(jīng)KD優(yōu)化的學(xué)生模型權(quán)重參數(shù)初始化特征提取器,完成域自適應(yīng)訓(xùn)練。
6) CNN+DKD+DA:即本文所提模型。
實(shí)驗(yàn)結(jié)果如表4和表5所示。
將表中結(jié)果繪制為點(diǎn)線圖,如圖6所示,可以清楚地觀察到本文提出的各種改進(jìn)均對(duì)CNN適應(yīng)跨庫語音情感識(shí)別任務(wù)帶來了支持,所提模型在6組任務(wù)中平均UAR為49.74%,領(lǐng)先消融實(shí)驗(yàn)中其余模型1.61%~14.87%;平均WAR為50.62%,領(lǐng)先其余模型1.75%~15.98%。對(duì)于普通的CNN模型,有限的特征提取能力往往難以適應(yīng)具有不同特征分布的跨庫語音情感識(shí)別任務(wù);而知識(shí)蒸餾策略為原始CNN模型提供了有效的指導(dǎo),增強(qiáng)了其特征提取能力,使得模型性能提升。同時(shí),域自適應(yīng)算法可以通過對(duì)抗性損失函數(shù)幫助模型學(xué)習(xí)域不變特征,顯著提升原始CNN模型的識(shí)別性能和穩(wěn)定性;當(dāng)加入解耦知識(shí)蒸餾優(yōu)化域自適應(yīng)算法中的特征提取器后,模型性能達(dá)到最優(yōu)。實(shí)驗(yàn)結(jié)果表明,特征提取器的性能會(huì)對(duì)模型的泛化能力產(chǎn)生影響,高效的特征提取器在保證模型提取到樣本中復(fù)雜的高階特征的同時(shí),又避免了過分?jǐn)M合源域數(shù)據(jù);而解耦知識(shí)蒸餾策略可以對(duì)特征提取器預(yù)訓(xùn)練,利用強(qiáng)大的教師模型指導(dǎo)特征提取器提取更具魯棒性的域不變特征,進(jìn)一步提高域自適應(yīng)算法的性能。
2.3.3" 與其他算法對(duì)比
將本文所提模型與一些最新的算法進(jìn)行性能對(duì)比,進(jìn)一步驗(yàn)證所提模型的有效性。所選算法有:
1) 聯(lián)合分布自適應(yīng)回歸算法[14](Joint Distribution Adaptive Regression, JDAR);
2) 深度自編碼器子域自適應(yīng)[15](Depth Autoencoder Subdomain Adaption, DASA);
3) 基于決策邊界優(yōu)化域自適應(yīng)算法[6](Decision Boundary Optimized Domain Adaption, DBODA);
4) 一種遷移學(xué)習(xí)和多損失動(dòng)態(tài)調(diào)節(jié)算法[16](Transfer Learningand Multi?Loss Dynamic Adjustment Algorithm, TLMLDA)。
不同跨庫語音情感識(shí)別模型的UAR對(duì)比如表6所示。
可以看出,在C2E和E2C任務(wù)中,本文所提模型的UAR均優(yōu)于其他模型,分別取得了3.23%~10.76%和2.25%~6.69%的領(lǐng)先,平均識(shí)別率提升了3.76%~8.73%。結(jié)果表明,本文所提方法可以有效優(yōu)化域不變情感特征的提取過程,緩解對(duì)抗訓(xùn)練過程中情感顯著信息的丟失,在跨庫語音情感識(shí)別任務(wù)中取得了性能提升。
3" 結(jié)" 語
本文提出了一種基于解耦知識(shí)蒸餾優(yōu)化的域自適應(yīng)跨庫語音情感識(shí)別方法,旨在強(qiáng)化傳統(tǒng)域自適應(yīng)算法的特征提取能力并保證其泛化能力,獲取包含顯著情感信息的域不變特征,緩解不同數(shù)據(jù)集之間的分布差異對(duì)情感識(shí)別模型性能的影響。首先,本文設(shè)計(jì)了一個(gè)時(shí)頻域自校正模塊,輔助CNN實(shí)現(xiàn)在具體數(shù)據(jù)集場(chǎng)景下的有效分類,并將其作為教師模型進(jìn)行解耦知識(shí)蒸餾,優(yōu)化域自適應(yīng)算法中的特征提取器;然后,利用對(duì)抗訓(xùn)練提高模型的泛化能力和在跨庫語音情感識(shí)別任務(wù)上的表現(xiàn);最后,模型在3個(gè)公開數(shù)據(jù)集上進(jìn)行了多組實(shí)驗(yàn),驗(yàn)證了方法的有效性,在C2E和E2C任務(wù)中,取得了優(yōu)于其他模型3.76%~8.73%的效果。
盡管本文所提模型已經(jīng)取得了較好的效果,但數(shù)據(jù)集樣本不足仍是困擾跨庫語言情感識(shí)別任務(wù)的關(guān)鍵原因,探索有效的數(shù)據(jù)增強(qiáng)方法和偽標(biāo)簽的使用將是下一階段的工作重點(diǎn)。
注:本文通訊作者為白靜。
參考文獻(xiàn)
[1] HASHEM A, ARIF M, ALGHAMDI M. Speech emotion recognition approaches: A systematic review [J]. Speech communication, 2023, 154: 102974.
[2] WANI T M, GUNAWAN T S, QADRI S A A, et al. A comprehensive review of speech emotion recognition systems [J]. IEEE access, 2021, 9: 47795?47814.
[3] GAO Y, OKADA S, WANG L B, et al. Domain?invariant feature learning for cross corpus speech emotion recognition [C]// 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). New York, NY, USA: IEEE, 2022: 6427?6431.
[4] 汪洋,傅洪亮,陶華偉,等.基于決策邊界優(yōu)化域自適應(yīng)的跨庫語音情感識(shí)別[J].計(jì)算機(jī)應(yīng)用,2023,43(2):374?379.
[5] ZHAO H, NING Y E, WANG R. Improved cross?corpus speech emotion recognition using deep local domain adaptation [J]. Chinese journal of electronics, 2023, 32(3): 1?7.
[6] LIU N, ZHANG B F, LIU B, et al. Transfer subspace learning for unsupervised cross?corpus speech emotion recognition [J]. IEEE access, 2021, 9: 95925?95937.
[7] HAGAD J L, KIMURA T, FUKUI K, et al. Learning subject?generalized topographical EEG embeddings using deep variational autoencoders and domain?adversarial regularization [J]. Sensors, 2021, 21(5): 1792.
[8] GOU J P, YU B S, MAYBANK S J, et al. Knowledge distillation: A survey [J]. International journal of computer vision, 2021, 129(6): 1789?1819.
[9] GRECO A, SAGGESE A, VENTO M, et al. Effective training of convolutional neural networks for age estimation based on knowledge distillation [J]. Neural computing and applications, 2022, 34(24): 21449?21464.
[10] SEPAHVAND M, MOHAMMADI F A. Joint learning method with teacher?student knowledge distillation for on?device breast cancer image classification [J]. Computers in biology and medicine, 2023, 155: 106476.
[11] ZHAO Z P, WANG H, WANG H S, et al. Hierarchical network with decoupled knowledge distillation for speech emotion recognition [C]// 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). New York, NY, USA: IEEE, 2023: 1?5.
[12] ZHAO B R, CUI Q, SONG R J, et al. Decoupled knowledge distillation [C]// 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York, NY, USA: IEEE, 2022: 11943?11952.
[13] MUKHAMEDIYA A, FAZLI S, ZOLLANVARI A. On the effect of Log?Mel spectrogram parameter tuning for deep learning?based speech emotion recognition [J]. IEEE access, 2023, 11: 61950?61957.
[14] ZHANG J C, JIANG L, ZONG Y, et al. Cross?corpus speech emotion recognition using joint distribution adaptive regression [C]// 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). New York, NY, USA: IEEE, 2021: 3790?3794.
[15] 莊志豪,傅洪亮,陶華偉,等.基于深度自編碼器子域自適應(yīng)的跨庫語音情感識(shí)別[J].計(jì)算機(jī)應(yīng)用研究,2021,38(11):3279?3282.
[16] TAO H W, WANG Y, ZHUANG Z H, et al. Cross?corpus speech emotion recognition based on transfer learning and multi?loss dynamic adjustment [J]. Computational intelligence and neuroscience, 2022(54): 1?10.