趙小蕾 趙慧青
摘 要:功能性副語音如笑聲、哭聲、嘆息聲等的研究在情感識(shí)別領(lǐng)域中越來越受到關(guān)注,開始被作為識(shí)別說話人情感重要的信息之一。然在應(yīng)用與研究中功能性副語音能否被自動(dòng)檢出是前提。針對(duì)這一需求,根據(jù)音頻分割算法提出了基于定長(zhǎng)分段的功能性副語音自動(dòng)檢測(cè)算法以及基于距離與貝葉斯的功能性副語音自動(dòng)檢測(cè)算法。并提出了結(jié)合靜音幀語音分割點(diǎn)確認(rèn)算法對(duì)分割點(diǎn)進(jìn)一步確認(rèn),并通過實(shí)驗(yàn)驗(yàn)證了該算法是有效的。通過實(shí)驗(yàn)對(duì)比兩種檢測(cè)算法的優(yōu)劣,實(shí)驗(yàn)結(jié)果表明:基于定長(zhǎng)分段自動(dòng)檢測(cè)算法較好,檢測(cè)率達(dá)到70%,較基于距離與貝葉斯的檢測(cè)算法高出5%。
關(guān)鍵詞:功能性副語音;定長(zhǎng)分段;自動(dòng)檢測(cè);檢測(cè)率
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào):2095-2163(2015)01-
Abstract: The functional paralanguages ??such as laughter, cries, and sighs get more and more attention in the field of emotion recognition. It is to be one of the important information as to identify the speaker emotion. While, automatic detection of functional paralanguage is the premise in the application and research. In response to this demand, according to the segmentation algorithm for audio, automatic detection of functional paralanguages algorithm based on fixed-length segments and algorithm based on distance and Bayesian are proposed. And a segment point confirmation combining with silence frame is proposed, and experiments are conducted to verify the algorithm. Through the experimental comparison of the two detection algorithms, the experimental results show that: the automatic detection algorithm based on fixed-length segments is better, and the detection rate is 70%, which is higher than detection algorithm based on distance and Bayesian by 5%.
Key words: Functional Paralanguage; Fixed-length Segment; Automatic Detection; Detection Rate
0引 言
功能性副語音如哭聲、笑聲、嘆息聲等的研究越來越受到各個(gè)領(lǐng)域?qū)W者的重視,并逐漸被引入到模式識(shí)別領(lǐng)域中。在文獻(xiàn)[1]中提到副語音攜帶更重要的情感信息,并且其受說話者的變化影響較少,文獻(xiàn)[2]中提出其比語音更具有可靠性。目前,功能性副語音的研究主要集中在特征提取、識(shí)別等方向上,而卻鮮有文章對(duì)功能性副語音的自動(dòng)檢測(cè)做出系統(tǒng)的研究。事實(shí)上,在實(shí)際應(yīng)用中,功能性副語音的自動(dòng)檢測(cè)尤為重要,其檢測(cè)結(jié)果更是功能性副語音應(yīng)用和研究的基礎(chǔ),針對(duì)這一實(shí)際需求,本文提出一種較為通用的檢測(cè)算法。
功能性副語音與語音之間存在明顯的差異,可將其視為與語音截然不同的音頻類別,故可引入音頻分割算法實(shí)現(xiàn)功能性副語音的自動(dòng)檢測(cè)過程。在文獻(xiàn)[3]中就將音頻分割算法分為基于距離的算法、基于模型選擇的算法和基于模型的算法三類。具體地,第一,基于距離的算法采用滑動(dòng)窗得到一條距離曲線,曲線上大于某一閾值的局部最大點(diǎn)被確認(rèn)為分割點(diǎn)。該算法實(shí)現(xiàn)簡(jiǎn)單,缺點(diǎn)是閾值很難確定,閾值過大則會(huì)漏檢掉正確的分割點(diǎn),閾值過小則會(huì)增加虛假分割點(diǎn);第二,基于模型選擇的算法,最常用的是Chen等[4]提出的基于貝葉斯信息準(zhǔn)則(Bayesian information criterion, BIC)算法,由于具有良好的統(tǒng)計(jì)學(xué)理論基礎(chǔ),而取得了較好的效果。還需指出,BIC音頻分割算法的缺點(diǎn)是計(jì)算量較大、受懲罰因子影響較大。相應(yīng)地,針對(duì)BIC的缺點(diǎn),一些文章對(duì)其實(shí)現(xiàn)了不同程度的改進(jìn),典型成果可如文獻(xiàn)[5-6];第三,基于模型的算法,則是為不同的音頻類別建立模型,并于分割時(shí)利用訓(xùn)練好的模型對(duì)每一幀或若干幀進(jìn)行識(shí)別分類,再將類別發(fā)生變化處作為分割點(diǎn)。針對(duì)性成果可如文獻(xiàn)[7-9]的研究即均以基于模型的分割算法為基礎(chǔ),但其不足卻是需要事先知道不同音頻的類別數(shù)目和大量的音頻訓(xùn)練數(shù)據(jù)。此后,綜合以上三類算法的優(yōu)缺點(diǎn),又相繼提出了一些混合分割算法,代表性研究如基于距離與貝葉斯混合音頻檢測(cè)算法(Distance Bayesian information criterion, DISTBIC)。而且文獻(xiàn)[10]就對(duì)基于距離與貝葉斯混合音頻檢測(cè)算法進(jìn)行了改進(jìn),進(jìn)而提出了保守的BIC混合分割算法,并且獲得了較好的效果。
根據(jù)以上分析,本文提出了基于定長(zhǎng)分段的功能性副語音檢測(cè)算法以及基于距離與貝葉斯的功能性副語音檢測(cè)算法,而且為了提高檢測(cè)精度,又進(jìn)一步提出了結(jié)合靜音幀語音分割點(diǎn)確認(rèn)算法。
1功能性副語音自動(dòng)檢測(cè)算法
1.1結(jié)合靜音幀語音分割點(diǎn)確認(rèn)算法
在分割不同類別段的過程中,由于實(shí)驗(yàn)誤差等不確定因素,所分割的類別段與實(shí)際類別段有一定偏差,這一偏差在這里是以幀為單位。不同類別段之間的分割位置可稱之為類別分割點(diǎn)。不同功能性副語音即可看成不同的類別,而且檢測(cè)也必須基于類別段的準(zhǔn)確分割,故分割點(diǎn)越接近真實(shí)分割位置,功能性副語音的檢測(cè)將會(huì)越準(zhǔn)確。分析大量說話人語音中功能性副語音的特點(diǎn)后,發(fā)現(xiàn)類別分割點(diǎn)位于靜音段(由若干靜音幀組成),而靜音幀的過零率為0。根據(jù)這一結(jié)論,提出了結(jié)合靜音幀語音分割點(diǎn)確認(rèn)算法,對(duì)初步分割的分割點(diǎn)進(jìn)行確認(rèn)和修正,從而使得分割點(diǎn)更接近于真實(shí)分割點(diǎn)。具體算法描述可如算法1所示。
算法1:結(jié)合靜音幀語音分割點(diǎn)確認(rèn)算法
Input:一段語音候選分割點(diǎn)集合Seg
Output:分割點(diǎn)集合SegN
Step1:設(shè)定閾值T(以幀為單位);
Setp2:從集合Seg中取一候選分割點(diǎn),如果分割點(diǎn)過零率為0則將該分割點(diǎn)計(jì)入到集合SegN,重復(fù)執(zhí)行Step2直到所有候選分割點(diǎn)處理完畢,執(zhí)行Step4,否則執(zhí)行Step3;
Step3:若在閾值T內(nèi)存在靜音幀,則以該靜音幀為新的類別分割點(diǎn),并計(jì)入到集合SegN中;否則去掉該候選分割點(diǎn)。執(zhí)行Setp2;
Step4:輸出集合SegN。
1.2說話人功能性副語音自動(dòng)檢測(cè)算法描述
假設(shè)功能性副語音檢測(cè)模型D_M已經(jīng)訓(xùn)練完成,該模型可識(shí)別功能性副語音和典型情感語音兩個(gè)類別?;诖?,另設(shè)一含有n個(gè)待檢測(cè)的與人無關(guān)的語音情感樣本集合,標(biāo)記為Sp={sp1,sp2,…,spn},而segN(Sp)={segN(spi)}為各個(gè)樣本的分割點(diǎn)集合,以及對(duì)應(yīng)的分離后的樣本片段集合為S(Sp)={S(spi)},并且各語音片段對(duì)應(yīng)的類別標(biāo)簽集合又可記為L(zhǎng)able(Sp)={Lable(spi)}。上述集合中,i=1,2,…,n。則功能性副語音自動(dòng)檢測(cè)算法描述則如算法2和算法3所示。
算法2:基于定長(zhǎng)分段的功能性副語音自動(dòng)檢測(cè)算法
Input:Sp
Output: SegN(Sp),S(Sp),Lable(Sp)
Step1:取Sp集合中一待測(cè)語音樣本sp i;
Step2:初始化參數(shù):段長(zhǎng)SegLen和段移SegMov;
Step3:對(duì)spi等長(zhǎng)分段,得集合Spij,設(shè)有m個(gè)小語音段;
Step4:使用D_M模型識(shí)別這m個(gè)小語音段,并合并連續(xù)相同類別的語音段,將合并后語音段存入集合S(spi)中,將對(duì)應(yīng)類別標(biāo)簽記錄在label(spi)中。并將所有類別分割點(diǎn)記錄在segNi中;
Step5:使用算法1對(duì)分割點(diǎn)集合進(jìn)行再次確認(rèn)得SegN(spi);
Step6:若Sp集合非空,執(zhí)行Step1,否則執(zhí)行Step7;
Step7:返回?cái)?shù)據(jù)集合SegN(Sp),S(Sp),Lable(Sp)。
算法 3:基于距離與貝葉斯的功能性副語音自動(dòng)檢測(cè)算法
Input:Sp
Output: SegN(Sp),S(Sp),Lable(Sp)
Step1:取Sp集合中一待測(cè)語音樣本sp i;
Step2:初始化參數(shù):滑動(dòng)窗長(zhǎng)WindowLen和窗移WindowStep;
Step3: 將滑動(dòng)窗在信號(hào)上滑動(dòng),計(jì)算相鄰窗距離,得到曲線L;計(jì)算L上局部最大點(diǎn)集合P={pi},i=1,2…,m以及對(duì)應(yīng)于每個(gè)局部最大點(diǎn)的值dmax及其左右兩側(cè)的局部最小點(diǎn)值lmin,rmin,并計(jì)算L曲線的方差R;
Step4:逐個(gè)判定局部最大,如果滿足公式|dmax-lmin|>0.1*R|dmax-rmin|>0.1*R 則,分割點(diǎn)segi=pi; 得候選分割點(diǎn)集合SegNi={seg1,seg2,…,segm};
Step5: 使用文獻(xiàn)[10]CBICV算法對(duì)SegNi進(jìn)行確認(rèn),得確認(rèn)分割點(diǎn)集合SegNi;
Step6:利用算法1對(duì)SegNi中的分割點(diǎn)再次確定,得SegN(spi),并標(biāo)記各分割語音段標(biāo)簽及語音段集合Lable(Spi),S(Spi) ;
Step7:若Sp集合非空,執(zhí)行Step1,否則執(zhí)行Step8;
Step8:返回?cái)?shù)據(jù)集合SegN(Sp),S(Sp),Lable(Sp)。
2實(shí)驗(yàn)與分析
2.1 實(shí)驗(yàn)數(shù)據(jù)
實(shí)驗(yàn)數(shù)據(jù)來源于文獻(xiàn)[11]介紹的包含功能性副語音的語音情感數(shù)據(jù)庫(FPSED),其中包含了如下六種功能性副語音:笑聲、傷心的哭聲、質(zhì)疑聲、叫喊聲、害怕的哭聲、嘆息聲,具體對(duì)應(yīng)六種典型情感類別:高興、傷心、驚奇、生氣、害怕和厭惡。由5男6女現(xiàn)場(chǎng)錄制,錄制15個(gè)預(yù)料,以wav格式存儲(chǔ),采用手工標(biāo)注。為了確保實(shí)驗(yàn)結(jié)果具有客觀性,實(shí)驗(yàn)均基于非特定人相關(guān)的實(shí)驗(yàn)數(shù)據(jù)集合。
2.2 實(shí)驗(yàn)結(jié)果與分析
算法的性能評(píng)價(jià)指標(biāo)包括準(zhǔn)確率(precision)、查全率(recall rate)和綜合性能(F)。F值是準(zhǔn)確率和查全率的調(diào)和平均數(shù),介于0~1之間,真實(shí)反映了副語音自動(dòng)檢測(cè)算法的綜合性能,而且F值越大表明算法的綜合性能越好。此外,為了驗(yàn)證算法的實(shí)時(shí)性能,又將算法的時(shí)間效率作為衡定算法好壞的度量標(biāo)準(zhǔn)之一,測(cè)得的時(shí)間效率越高則實(shí)時(shí)性能越強(qiáng),算法應(yīng)用價(jià)值也就越高。
檢測(cè)模型D_M訓(xùn)練:使用“一對(duì)一”SVM模型進(jìn)行訓(xùn)練,訓(xùn)練的數(shù)據(jù)為純副語音集合和純語音集合。數(shù)據(jù)通過手工截取,分離后共得到360個(gè)純副語音訓(xùn)練集合,以及360個(gè)語音訓(xùn)練集合,采用基因頻率相關(guān)、能量相關(guān)、共振峰相關(guān)等的特征101維 [11],采用SFFS進(jìn)行特征選擇。最終選擇特征為61維,SVM參數(shù)Gamma取0.01、C取8.5可得最佳模型。
實(shí)驗(yàn):在該實(shí)驗(yàn)中首先驗(yàn)證算法1的有效性,隨后將介紹功能性副語音自動(dòng)檢測(cè)算法性能隨各個(gè)參數(shù)的變化情況。
2.2.1 實(shí)驗(yàn)1 驗(yàn)證算法1有效性
隨機(jī)抽取待測(cè)集合中的一個(gè)測(cè)試樣本,對(duì)其應(yīng)用算法1:結(jié)合靜音幀分割點(diǎn)確認(rèn)算法,圖1為應(yīng)用算法1前后對(duì)比情況。從圖1中可以看出利用靜音段確認(rèn)分割點(diǎn)在功能性副語音自動(dòng)檢測(cè)中效果顯著。該算法可以保證語音片段的完整度,在其后的D_M分類識(shí)別中,優(yōu)化了樣本片段的分類,從而有利于功能性副語音的自動(dòng)檢測(cè)。算法中閾值T取40個(gè)采樣點(diǎn)。
2.2.2 實(shí)驗(yàn)2 功能性副語音自動(dòng)檢測(cè)算法性能隨各個(gè)參數(shù)的變化情況
(1)算法2實(shí)驗(yàn)與分析。 段長(zhǎng)SegLen與SegMov是影響基于分類的副語音自動(dòng)檢測(cè)算法性能的重要參數(shù),SegLen參數(shù)影響D_M模型分類正確率,從而影響真實(shí)分割點(diǎn)檢出率;SegMov參數(shù)則能確保類別之間的轉(zhuǎn)換可以平滑過度。兩參數(shù)的關(guān)系可以表述如下:SegMov=Movrate*SegLen,其中,Movrate范圍為0-1,通過多次實(shí)驗(yàn)確定SegLen取100幀較為合理。圖2和圖3分別給出了Movrate參數(shù)對(duì)算法綜合性能F、所用時(shí)間的影響情況。從圖2可以看出在Movrate取0.1時(shí),即段移為段長(zhǎng)的90%時(shí),綜合性能達(dá)到最高。然而,從圖3卻可看出,時(shí)間消耗也將隨之增加。綜合考慮綜合性能及時(shí)間效率兩個(gè)重要指標(biāo),該算法可令Movrate=0.4。
(2) 算法3實(shí)驗(yàn)與分析。首先給出算法3的相關(guān)參數(shù)配置:窗長(zhǎng)為WindowLen取60個(gè)采樣點(diǎn),窗移WindowStep為40個(gè)采樣點(diǎn)。在基于距離的過程中選取共振峰、能量、過零率等統(tǒng)計(jì)特征69維特征,在第二趟確認(rèn)過程中使用12MFCC系數(shù)、短時(shí)過零率、短時(shí)能量等14維特征。輸入D_M檢測(cè)模型的語音段,提取同D_M相同的61維特征。
算法3為兩趟算法。第一趟檢測(cè)分割點(diǎn)時(shí),當(dāng)窗長(zhǎng)WindowLen過短時(shí)虛假分割點(diǎn)增多,當(dāng)窗長(zhǎng)過長(zhǎng)時(shí)真實(shí)分割點(diǎn)會(huì)漏檢;第二趟為BIC確認(rèn),有模型參數(shù)k值是重要影響參數(shù),當(dāng)k值過小時(shí)會(huì)增加虛假分割點(diǎn),過大時(shí)會(huì)否定真實(shí)分割點(diǎn),從而導(dǎo)致副語音檢測(cè)性能降低。在算法實(shí)驗(yàn)中,首先確定WindowLen,因?yàn)榈谝惶耸堑诙怂惴ǖ那疤?。圖4給出了算法第一趟基于距離的分割算法綜合性能隨窗長(zhǎng)WindowLen的變化情況。從圖4可以看出當(dāng)WindowLen取100幀時(shí)其分割性能最好。圖5給出了在圖4的基礎(chǔ)上,固定WindowLen取100時(shí),算法的綜合性能F值隨k值變化情況。從圖5可以看出,在k取5時(shí)算法綜合性能最佳,且經(jīng)試驗(yàn)測(cè)得檢測(cè)樣本平均時(shí)間為15.61s。
(3)兩種算法對(duì)比分析及討論。對(duì)比圖2和圖5可以發(fā)現(xiàn),算法2的最高綜合性能為70%,而算法3的最高性能為65%,算法2較算法3高出5%。從時(shí)間效率上分析,算法3耗費(fèi)時(shí)間項(xiàng)為:第一趟候選分割點(diǎn)確定+第二趟分割點(diǎn)確認(rèn)+D_M分類。算法2耗費(fèi)時(shí)間的過程有:預(yù)分段+D_M分類+連續(xù)段合并。經(jīng)試驗(yàn)測(cè)得,算法3平均每個(gè)樣本使用15.61s,算法2平均每個(gè)樣本所需時(shí)間為12.79s。算法2耗時(shí)更少。這是因?yàn)樗惴?為兩趟算法,因而更加耗時(shí)。從算法復(fù)雜度角度分析,對(duì)于一個(gè)問題規(guī)模為n的算法而言,整個(gè)算法的執(zhí)行時(shí)間與基本操作重復(fù)執(zhí)行的次數(shù)成正比。從算法2和算法3的檢測(cè)算法描述中可以得知,算法2的時(shí)間復(fù)雜度為O(m*n),其中m為各個(gè)樣本平均的分段數(shù),而n為待測(cè)樣本總數(shù)。假設(shè)m<
3結(jié)束語
要想將功能副語音在情感領(lǐng)域的研究進(jìn)行推廣應(yīng)用,功能性副語音的自動(dòng)檢出是前提。為了實(shí)現(xiàn)自動(dòng)檢測(cè),本文根據(jù)音頻分割算法提出了兩種具有代表性的功能性副語音自動(dòng)檢測(cè)算法(算法2和算法3)。為了提高檢測(cè)精度,提出了結(jié)合靜音幀語音分割點(diǎn)確認(rèn)算法(算法1)。并通過實(shí)驗(yàn)驗(yàn)證了算法1的有效性,同時(shí)也對(duì)比分析了算法2和算法3的性能。算法2在時(shí)間效率、檢測(cè)率和算法復(fù)雜度上均較算法3更為優(yōu)越。但算法2也存在一定的不足:算法是基于模型的,要事先知道功能性副語音的類別,并且需要大量的訓(xùn)練樣本,而算法3則不需要。本文接下來的工作:檢測(cè)到功能性副語音后,可以將功能副語音從語音段中分離出來,實(shí)現(xiàn)功能性副語音類別的進(jìn)一步確定,且可進(jìn)一步用于輔助傳統(tǒng)語音情感識(shí)別。
參考文獻(xiàn):
[1]ISHI C T, ISHIGURO H, HAGITA N. Automatic extraction of paralinguistic information using prosodic features related to F0, duration and voice quality[J]. SCI, Speech Communication 50, 2008: 531-543.
[2]李春光. 副語音問題研究[D]. 哈爾濱:黑龍江大學(xué), 2004.
[3]CHENG S S, WANG H M.A. Sequential metric to based audio segmentation method via the Bayesian information criterion [C]// Proceedings of Eurospeech, Geneva: University of Geneva, 2003:945-948.
[4]CHEN S S, GOPLALAKRISHNAN P. Speaker, environment and channel change detection and clustering via the Bayesian information criterion[C]// Proceedings of the DARPA workshop, Lansdowne,1988:127-132.
[5]CETTOLO M, VESCOVI M. Efficient audio segmentation algorithms based on the BIC [C]//Proceedings of the International Conference on Acoustics, Speech, and Signal Processing, Hong Kong :IEEE, 2003: 537-540.
[6]Cettolo M, Vescovi M, Rizzi R. Evaluation of BIC based algorithms for audio segmentation [J]. Computer Speech and Language, 2005, 19(2): 147-170.
[7]張一彬,周杰,邊肇祺,等. 一種基于內(nèi)容的音頻流二級(jí)分割方法[J].計(jì)算機(jī)學(xué)報(bào),2006,29(3): 457-465.
[8]嚴(yán)宇,吳功平,楊展,等.基于模型的巡線機(jī)器人無碰壁障方法研究[J].武漢大學(xué)學(xué)報(bào)(工學(xué)版),2013,46(2):261-265.
[9]鄭能恒,張亞磊,李霞. 基于模型在線更新和平滑處理的音樂分割算法.深圳大學(xué)學(xué)報(bào)(理工版),2011,28(3):271-275.
[10]于俊清,胡小強(qiáng),孫凱.改進(jìn)的音頻混合分割方法[J]. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào), 2010(7): 1174-1181.
[11]趙小蕾,毛啟容,詹永照. 融合功能性副語言的語音情感識(shí)別新方法[J].計(jì)算機(jī)科學(xué)與探索,2014,8(2):186-199.
[12]MAO QiRong, WANG XiaoJia, ZHAN YongZhao. Speech Emotion Recognition Method Based on Improved Decision Tree and layered feature selection[J]. International Journal of Humanoid Robotics, 2010:245-261.