李克靖,孫鳳梅,石喬林
(中國電子科技集團公司 第五十八研究所,江蘇 無錫 214035)
一種基于SVM的多特征參數(shù)清濁音判決算法
李克靖,孫鳳梅,石喬林
(中國電子科技集團公司 第五十八研究所,江蘇 無錫214035)
為解決低速率聲碼器合成語音中,由于語音幀清濁判決不夠準(zhǔn)確而造成的偶發(fā)性嘶啞、機器音較重及變調(diào)等問題,提出一種基于支持向量機(Support Vector Machine,SVM)并結(jié)合多種語音特征參數(shù)的清濁音判決優(yōu)化算法。實驗結(jié)果顯示,該算法能夠有效降低清濁音的誤判率,進而使合成語音的清晰度和自然度得到改善。將本算法應(yīng)用到正弦激勵線性預(yù)測算法中,在與相同碼率的其他算法的比較實驗中,得到較高的PESQ-MOS分,顯示出一定的優(yōu)勢。關(guān)鍵詞:聲碼器;清濁判決;支持向量機;特征參數(shù)
隨著數(shù)字技術(shù)的發(fā)展,語音壓縮編碼技術(shù)在通信領(lǐng)域的應(yīng)用越來越深入和廣泛,同時,編碼速率也在不斷向低速化發(fā)展。然而,一些碼率下的語音編碼算法盡管已經(jīng)具有良好的性能,但其合成語音多數(shù)面臨著機器音較重、偶發(fā)性嘶啞及變調(diào)等問題。究其原因,主要在于清濁音判決不夠準(zhǔn)確以及基音周期的倍/半頻錯誤。因此,可通過提高參數(shù)提取的精度來得到更高質(zhì)量的合成語音。
清濁音判決是語音編碼中的一個重要參數(shù),常常關(guān)系到語音合成時所用激勵的形式,對合成語音的質(zhì)量有較大的影響。傳統(tǒng)方法是通過提取語音幀的某些特征參數(shù),然后進行線性處理并根據(jù)預(yù)定閾值來進行判斷,閾值一般依靠經(jīng)驗來確定,其中較為經(jīng)典的算法所使用的分類技術(shù)是一個貝葉斯決策過程[1],該方法簡單、容易實現(xiàn),然而無法保證判斷結(jié)果的可靠性;隨著人工智能技術(shù)的發(fā)展,許多學(xué)者將它引入到語音編碼領(lǐng)域中,文獻[2]介紹了一種應(yīng)用不同特征參數(shù)和神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的判別方法,但是傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò)(如BP神經(jīng)網(wǎng)絡(luò))方法存在著訓(xùn)練速度慢、容易陷入局部極小值點等缺陷,而且這種經(jīng)驗非線性方法在網(wǎng)絡(luò)結(jié)構(gòu)的選擇以及權(quán)重初值的設(shè)定方面往往需要依靠人工經(jīng)驗,缺乏統(tǒng)一的數(shù)學(xué)理論基礎(chǔ);文獻[3]應(yīng)用監(jiān)督學(xué)習(xí)中的Fisher判決法,通過高維空間向一維空間投影,進而在一維空間進行判決,簡化了分類界面的求取,提高了判決的準(zhǔn)確度,然而,依然沒有擺脫需要人工確定判決門限所帶來的誤差。
從本質(zhì)上講,清濁音判決是一個模式識別的問題,其目標(biāo)是根據(jù)樣本選取合適的參數(shù)得到最優(yōu)劃分,降低清濁音誤判率。
1.1貝葉斯最小風(fēng)險判決準(zhǔn)則
傳統(tǒng)清濁音判決方法一般采用最大短時自相關(guān)值作為語音特征值,通過貝葉斯最小風(fēng)險判決準(zhǔn)則,試圖找到一個最佳判決閾值,使代價函數(shù)(1)的值達到最?。?]。
其中,r為最大短時自相關(guān)值,L1和L2分別表示清音誤判為濁音和濁音誤判為清音的代價因子,p1和p2分別為清音誤判和濁音誤判的概率,p(U)和p(V)則分別代表清音和濁音出現(xiàn)的概率。一般在聲碼器中,濁音誤判為清音對合成語音質(zhì)量帶來的負(fù)面影響遠遠大于濁音誤判為清音,因此代價因子L1<<L2。為使代價函數(shù)最小,常常需要犧牲清音判決的準(zhǔn)確度來降低濁音誤判率,實際應(yīng)用中一般取0.6為閾值。
1.2貝葉斯準(zhǔn)則誤判分析
利用貝葉斯準(zhǔn)則進行清濁音判決時,存在大量清音的誤判,從而使合成語音濁音度過強、機器音較重,嚴(yán)重影響語音的自然度,并在一定程度上影響發(fā)音的清晰度,甚至造成部分語音變調(diào)。
另外,當(dāng)靜音段存在規(guī)律性的背景噪聲時,會有較大的自相關(guān)值,極易被誤判為濁音。基于貝葉斯準(zhǔn)則的判決算法僅以最大自相關(guān)值為判據(jù),數(shù)據(jù)量小,誤判率高,需要引入其它語音特征參數(shù)以提高判決準(zhǔn)確度。
支持向量機是一種典型的監(jiān)督學(xué)習(xí)方法,在小樣本、非線性和高維模式識別中有著許多特有的優(yōu)勢[5]。本文算法利用帶有清濁音標(biāo)記的語音樣本結(jié)合多個特征參數(shù)訓(xùn)練得到SVM分類器,然后以待分類語音幀的特征參數(shù)向量作為判據(jù),通過分類器得到分類標(biāo)簽,實現(xiàn)語音幀的清濁判決。
2.1SVM原理簡述
支持向量機最早是由Vapnik在1995年提出的,與傳統(tǒng)分類器相比,該方法是建立在統(tǒng)計學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險最小原理基礎(chǔ)上的,能夠根據(jù)有限的樣本信息在模型學(xué)習(xí)能力和復(fù)雜性之間尋求最佳折衷。
假設(shè)有n個維訓(xùn)練樣本(x1,y1),…,(xn,yn),xi∈Rk,yi∈{-1,1}是分類標(biāo)簽,SVM的目標(biāo)是尋找一個間隔最大的最優(yōu)超平面,即存在w和b組成超平面wTx+b=0可以將所有訓(xùn)練數(shù)據(jù)無錯誤地分開:
且離超平面最近的向量與超平面之間的間隔是所有可能情況中最大的。其中,使等號成立的那些樣本就是支持向量(Supporting Vector)。
實際分類問題中往往不是線性可分的,這時可引入松弛變量ξi,通過求解以下優(yōu)化問題得到超平面的參數(shù)w和b:
其中C>0為懲罰因子,它表示對錯分樣本的懲罰程度,C值越大表示對錯誤分類的懲罰越大。引入松弛變量用以實現(xiàn)最大分類間隔和最少錯分樣本之間的折衷,從而得到廣義的最優(yōu)分類面。
對線性不可分的問題,可以考慮通過某種非線性映射把訓(xùn)練數(shù)據(jù)映射到高維特征空間,然后利用支持向量在此空間中構(gòu)造出分類超平面,用線性判別函數(shù)實現(xiàn)原始空間中的非線性判別函數(shù)。引入核函數(shù)后分類器的決策函數(shù)為:
進行SVM訓(xùn)練時,常常遇到樣本數(shù)目不均衡的情況,此時,得到的分類面會偏向樣本數(shù)較少的一類。這是由于在式(4)中使用了相同的懲罰因子C,從而使分類面偏向樣本密度較小的一類??梢钥紤]對不同的類設(shè)置不同的懲罰因子C,這樣能夠有效地根據(jù)不同類別的錯分代價進行超平面的優(yōu)化,即構(gòu)造如下二次規(guī)劃問題[6]:
其中C+和C-分別為正樣本和負(fù)樣本的懲罰因子。
可以看出,支持向量機是將輸入的樣本空間升維,從而使原問題在高維空間中線性可分或接近線性可分。該方法之所以可行是因為空間升維后的算法復(fù)雜度并不隨維數(shù)的增加而增加,同時,在高維空間中的推廣能力也不受維數(shù)的影響,很好地避免了“維數(shù)災(zāi)難”的問題。
2.2語音特征參數(shù)選取
選取語音特征參數(shù)的原則是:參數(shù)要對不同模式的分類可靠有效,提取簡單,參數(shù)的取值范圍在各類別中的重疊較少,各參數(shù)可以從不同角度描述樣本的特性,以提高分類的準(zhǔn)確度。
文中算法采用最大自相關(guān)值(r)、過零率(z)、短時幀能量(e)和譜傾斜度(t)等4個特征參數(shù)作為判據(jù),其定義如下[7]:
其中,s(i)為經(jīng)過濾波后的語音信號,N為每幀樣點數(shù)。4個參數(shù)組成特征向量X=(r,z,e,t)。
圖1給出了一段語音“天安門廣場”中前3個參數(shù)的變化與語音波形的對比圖,可以較為明顯地看出呈現(xiàn)如下規(guī)律:濁音段有較大的最大自相關(guān)值和短時幀能量,以及較小的過零率;清音段的最大自相關(guān)值和短時幀能量較小,而過零率較大。另外譜傾斜度與語音波形之間的聯(lián)系雖然不是較為直觀,但是作為一個重要的語音特征參數(shù),可以在一定程度上提高訓(xùn)練所得分類器的分類準(zhǔn)確度,實驗過程中也證明了這一點。
2.3實驗結(jié)果與分析
算法實驗所用語音文件選自中國科學(xué)院聲學(xué)研究所語音數(shù)據(jù)庫,均為PCM格式,采樣率8 000 Hz,16 bit。訓(xùn)練樣本發(fā)音人為兩男兩女,幀長為25 ms,即200個樣點。訓(xùn)練樣本共有2 500幀,其中清音約占55%,濁音45%。訓(xùn)練樣本的清濁音分類是通過觀察語音幀時域波形、頻域頻譜特性并結(jié)合其實際對應(yīng)的音素綜合判定的。圖2所示為“中”字的聲母、韻母的部分波形,由于濁音具有明顯的周期性且振幅較大,而清音波形類似于白噪聲,振幅很小,沒有明顯的周期性,根據(jù)各幀波形及所屬音素可以相當(dāng)準(zhǔn)確地判定其清濁類別。
圖1 部分參數(shù)變化與語音波形對比圖Fig.1 Change of some parameters compared with sound wave
圖2 典型清濁音波形示意圖Fig.2 Wave of typical voiced/unvoiced sound
首先進行算法判決的準(zhǔn)確性測試,測試樣本來自DVSI網(wǎng)站公布的原始語音,包括男聲、女聲和男女混聲,共計2 000幀,由39%的濁音和61%的清音組成。同時對傳統(tǒng)貝葉斯判決及文獻[3]中Fisher判決方法進行了測試,實驗結(jié)果如表1所示,可以看出本文算法的判決準(zhǔn)確度明顯高于其他兩種算法,且對合成語音影響較大的濁音誤判也保持有比較理想的比例。
將本文算法應(yīng)用到正弦激勵線性預(yù)測(SELP)編解碼算法中進行測試,同時實現(xiàn)了美國政府標(biāo)準(zhǔn)MELPe算法以及傳統(tǒng)的使用貝葉斯判決的SELP_B算法,各算法碼率均為2.4 kb/s。對測試樣本中部分語音文件進行測試,包括Female、Male和 Mix 3個文件。測試指標(biāo)為平均意見得分(Mean Opinion Score,MOS),采用國際電信聯(lián)盟(International Telecommunication Union,ITU)建議的P.862 MOS分測試軟件,測試結(jié)果見表2??梢娛褂帽疚那鍧嵋襞袥Q算法后,SELP編解碼算法合成語音的PESQ-MOS分有一定的提高;另外,從安排多人進行試聽的反映來看,由于清濁音誤判而造成的偶發(fā)性嘶啞和變調(diào)問題相對于其他算法也有一定程度的改善,進一步證明了本文算法的有效性。
表1 算法誤判率比較Tab.1 Justice error of the algorithms
表2 算法PESQ-MOS分比較Tab.2 PESQ-MOS score of the algorithms
同時,筆者還將本文算法應(yīng)用到其他碼率(1200、600、300 bps)的SELP聲碼器中,所得合成語音的PESQ-MOS分相對于原對應(yīng)碼率的合成語音均有一定程度的提高。
本文將機器學(xué)習(xí)中支持向量機的方法應(yīng)用于語音編解碼中清濁音的判決,與傳統(tǒng)方法相比,避免了人工設(shè)定經(jīng)驗閾值的局限性,且能夠通過較小的訓(xùn)練樣本集獲得相當(dāng)好的分類性能,提高了清濁音判決的可靠性。將其應(yīng)用于SELP聲碼器中,對后續(xù)基音周期參數(shù)提取的準(zhǔn)確度也有一定的提高,進而有效改善了合成語音的偶發(fā)性嘶啞和變調(diào)問題,提高了其PESQ-MOS分,同時,具有相當(dāng)好的可懂度和自然度。
[1]Atal B,Rabiner L.A pattern recognition approach to voiced unvoiced-silence classification with applications to speech recognition[J].IEEE Transactions on Acoustics,Speech and Signal Processing,1976,24(3):201-212.
[2]Qi Y,Hunt B R.Voiced-unvoiced-silence classification of speech using hybrid features and a network classifier[J]. IEEE Transactions on Speech and Audio Processing,1993,1(2):250-255.
[3]黨曉妍,魏旋.聲碼器清濁音判決算法優(yōu)化[J].清華大學(xué)學(xué)報,2008,48(7):1119-1122.
[4]Theodoridis S,Koutroumbas K.Pattern Recognition[M]. Beijing:Publishing House of Electronic Industry,2006.
[5]Vapnik Vladimir N.The Nature of Statistical Learning Theory[M].Berlin Heidelberg,New York:Springer2Verlag,2000.
[6]Veropoulos K,Cambell C,Cristianini N.Controlling the sensitivity of support vector machines[C].Proceedings of the International Joint Conference on AI,1999:55-60.
[7]計哲,李曄,崔慧娟.SELP聲碼器基音周期參數(shù)量化合成改進算法[J].高技術(shù)通訊,2010,20(1):45-48.
Voiced-unvoiced classification based on SVM and multi-parameter
LI Ke-jing,SUN Feng-mei,SHI Qiao-lin
(China Electronic Technlogy Group Corporation No.58 Research Institute,Wuxi 214035,China)
The composed voice of low bit rate vocoders usually have occasionally hoarseness,out-of-tone speech,caused by the low veracity of voiced-unvoiced classification.To solve the problem,a new improved algorithm based on Support Vector Machine combined with several characteristic parameters is proposed.Experimental results show that the algorithm greatly reduces the voiced-unvoiced classification error rate,and enhances the articulation and spontaneousness of the composed voices.Use this method in SELP(sinuous excitation linear prediction)vocoder,compared with other method with same bit rate,it has higher PESQ-MOS score,which shows its advantage.
vocoders;voiced-unvoiced classification;support vector machine;characteristic parameters
TN 912.32
A
1674-6236(2016)05-0184-03
2015-04-20稿件編號:201504217
李克靖(1989—),男,安徽太和人,碩士。研究方向:語音壓縮編解碼。