周 慧,魏霖靜
(甘肅農(nóng)業(yè)大學(xué) 信息科學(xué)技術(shù)學(xué)院,甘肅 蘭州 730070)
隨著計(jì)算機(jī)技術(shù)的發(fā)展,傳統(tǒng)的計(jì)算機(jī)已不能滿足人們?nèi)找嬖鲩L(zhǎng)的需求,如何讓計(jì)算機(jī)和人的交流不僅能體現(xiàn)基本的信息,還能識(shí)別人類豐富的情感是是當(dāng)前國(guó)內(nèi)外眾多領(lǐng)域研究的熱點(diǎn)問題。
目前,很多的方法被使用到情感語音的識(shí)別中。如文獻(xiàn)[1]利用神經(jīng)網(wǎng)絡(luò),文獻(xiàn)[2]利用特征空間分解方法,文獻(xiàn)[3]實(shí)現(xiàn)了利用KNN方法的情感語音的識(shí)別。文中利用LS-SVM分類,實(shí)現(xiàn)了對(duì)4種基本情感的分類識(shí)別。
LS-SVM最小二乘支持向量機(jī)是標(biāo)準(zhǔn)SVM的一種推廣形式,它具有SVM的優(yōu)點(diǎn),也具有自身的特點(diǎn)。其基本理論如下[4-5]:
假設(shè)訓(xùn)練樣本集為(xi,yi),i=1,2,3,…,n,xi∈Rn為訓(xùn)練樣本的輸入,yi∈R為訓(xùn)練樣本的輸出。利用一非線性映射將樣本從原空間映射 φ(·)到高維特征空間 φ(xi),在高維特征空間中構(gòu)造最優(yōu)決策函數(shù):
利用結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,尋找(1)式中的最優(yōu) ω和b值:
上式中:‖ω‖2為控制模型的復(fù)雜度,C為正規(guī)化參數(shù),Remp為損失函數(shù)ε,也稱為經(jīng)驗(yàn)風(fēng)險(xiǎn)。損失函數(shù)ε的不同,支持向量機(jī)模型就不同。在最小二乘支持向量機(jī)中損失函數(shù)ε,即Remp=。
基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則來確定決策函數(shù)最優(yōu)ω和b值可轉(zhuǎn)換為求解以下最優(yōu)解:
利用拉格朗日方法求解這個(gè)優(yōu)化問題:
根據(jù)優(yōu)化條件:
得到函數(shù)的估計(jì)為:
其中核函數(shù)K(xi,xj)=φ(xi)·φ(xj),從而優(yōu)化問題轉(zhuǎn)變?yōu)榫€性方程組的解:
得到非線性決策函數(shù):
人類的情感是一個(gè)復(fù)雜且不容易準(zhǔn)確描述的問題,至今也沒有一種統(tǒng)一的定義。文中作為初步探索,將情感種類按常見的4種分類憤怒,高興,中性,悲傷劃分,并邀請(qǐng)4名學(xué)生在誘惑情感的情況下錄制了20句實(shí)驗(yàn)語音。
情感語音信號(hào)的特征參數(shù)涉及到時(shí)域、頻域、倒譜域及統(tǒng)計(jì)等方面,文中選取了短時(shí)能量,基頻相關(guān)參數(shù),語速,共振峰作為特征[6-7]。
語音信號(hào)的能量是隨時(shí)間的變化而變化的,在語音信號(hào)中的清音和濁音之間能量差別是顯著的。根據(jù)語音信號(hào)自身非平穩(wěn),準(zhǔn)周期等特點(diǎn),對(duì)語音信號(hào)分幀加窗后來計(jì)算10~30 ms時(shí)間內(nèi)的能量。
設(shè)初始的語音信號(hào)為x(l),進(jìn)行分幀后得到第n幀的語音信號(hào)為xn(m),則第n幀的語音信號(hào)的短時(shí)能量En可以表示為:
上式中的N為窗長(zhǎng)。
文中得到的不同情感的平均短時(shí)能量關(guān)系為:憤怒(0.16)>高興(0.08)>悲傷(0.04)>中性(0.01)。
發(fā)出的聲音可分為清音和濁音。當(dāng)發(fā)出濁音的時(shí)候由于聲帶振動(dòng)而引起的振動(dòng)頻率稱為基頻,語音中的基頻直接決定了語音中音調(diào)的高低。不同情感下語音的基頻差異也很大。對(duì)于基頻的獲取,可以采用多種方法。如自相關(guān)法,小波變換法,線性預(yù)測(cè)殘差倒譜法等等,不同的方法有缺點(diǎn)也不同。文中選取了比較典型的自相關(guān)方法提取相關(guān)語音的基頻。
語速,指發(fā)音的速度。無外界因素時(shí),每一個(gè)人的語速是基本恒定的。當(dāng)有外界因素的影響時(shí),語速就會(huì)變的不穩(wěn)定,加快或者放慢。根本上來講,語速的變化實(shí)際上是不同情感的一種體現(xiàn)。憤怒時(shí)語速加快,悲傷時(shí)語速就會(huì)自然的變慢。在實(shí)驗(yàn)中,可用下列公式來描述語速:
在語音學(xué)中,可以用來描述人類聲道共振現(xiàn)象。當(dāng)元音激勵(lì)進(jìn)入聲道時(shí)會(huì)引起共振特性,產(chǎn)生一組共振頻率,這就是共振峰,一般包括共振峰頻率位置和頻帶寬度。同一個(gè)說話人攜帶不同情感說話時(shí)的共振峰差異也是明顯的,因此語音信號(hào)的前3~4個(gè)共振峰也經(jīng)常用作情感識(shí)別的特征參數(shù)。
在最小二乘支持向量機(jī)分類時(shí),要對(duì)核函數(shù)進(jìn)行選取。文中采用了徑向基函數(shù)(RBF)核函數(shù),利用交叉驗(yàn)證的方法確定其中的兩個(gè)參數(shù)。
圖1 情感語音識(shí)別原理圖Fig.1 Schematic diagram of emotional speech recognition
文中將錄制的情感語音數(shù)據(jù)進(jìn)行了預(yù)處理,然后提取出了相應(yīng)的情感特征參數(shù),并將特征參數(shù)實(shí)現(xiàn)數(shù)據(jù)的歸一化處理。隨機(jī)抽取80%的數(shù)據(jù)樣本,建立基于LS-SVM的分類識(shí)別模型,并進(jìn)行了集內(nèi)測(cè)試和集外測(cè)試。
表1 情感語音識(shí)別結(jié)果Tab.1 Results of emotional speech recognition
文中利用LS-SVM實(shí)現(xiàn)了4種基本情感分類的情感語音識(shí)別,從識(shí)別率來看,基本情感在集內(nèi)測(cè)試中識(shí)別率高。但在整個(gè)的實(shí)驗(yàn)過程中還是存在著不足,比如訓(xùn)練和測(cè)試中高興和憤怒的情感特征區(qū)分度相對(duì)其他情感較低,因此增加情感的分類和特征的表示還是今后需要研究的重點(diǎn)。
[1]石瑛,胡學(xué)鋼.基于神經(jīng)網(wǎng)絡(luò)的語音情感識(shí)別[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(24):191-193.
SHIYing,HU Xue-gang.Research ofspeech emotion recognition based on acoustic features and ann[J].Computer Engineeringand Applications,2008,44(24):191-193.
[2]黃程韋,金赟,王青云,等.基于特征空間分解與融合的語音情感識(shí)別[J].信號(hào)處理,2010,26(6):835-839.
HUANG Cheng-wei,JIN Yun,WANG Qing-yun,et al.Speech emotion recognition based on decomposition[J].Signal Proce-ssing,2010,26(6):835-839.
[3]Lee C M.Classifying emotions in human-machine spoken dialogs [C]//Multimedia and Expro Proceeding.2002 IEEE International Conference,2002:737-740.
[4]YANG Hong,LOU Fei,XU Yu-ge,et al.GA Based LS-SVM Classifier for Waste Water Treatment Process[C]//Proc.of the 27th Chinese Control Conference,2008(7):436-439.
[5]Adankon M M,Cheriet M.Model Selection for the LS-SVM.Application to Handwriting Recognition[J].Pattern Recognition,2009(42):3264-3270.
[6]楊行峻,遲惠生.語音信號(hào)數(shù)字處理[M].北京:電子工業(yè)出版社,1995.
[7]余伶俐,蔡自興,陳明義.語音信號(hào)的情感特征分析與識(shí)別研究綜述[J].電路與系統(tǒng)學(xué)報(bào),2007,12(4):76-82.
YU Ling-li,CAI Zi-xing,CHEN Ming-yi.Study on emotion feature analysis and recognition in speech signal:an overview[J].Journal of Circuits and Systems, 2007,12(4):76-82.
[8]李鋒,袁軍社.BP神經(jīng)網(wǎng)絡(luò)在結(jié)構(gòu)邊界參數(shù)識(shí)別中的應(yīng)用[J].火箭推進(jìn),2009(4):30-33.
LI Feng,YUAN Jun-she.Application of BP neural network in characteristics identification of frame structure[J].Journal of Rocket Propulsion,2009(4):30-33.