• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于語(yǔ)譜圖的老年人語(yǔ)音情感識(shí)別方法

      2018-12-10 09:13張若凡黃俊古來(lái)
      軟件導(dǎo)刊 2018年9期
      關(guān)鍵詞:維納濾波卷積神經(jīng)網(wǎng)絡(luò)

      張若凡 黃俊 古來(lái)

      摘要:針對(duì)老年人的語(yǔ)音情感識(shí)別問(wèn)題,提出一種基于語(yǔ)譜圖的老年人語(yǔ)音情感識(shí)別方法。首先采用一種改進(jìn)的基于先驗(yàn)信噪比的維納濾波算法,針對(duì)老人語(yǔ)音情感庫(kù)EESDB進(jìn)行語(yǔ)音增強(qiáng),選取合適的語(yǔ)音情感庫(kù),對(duì)語(yǔ)音進(jìn)行語(yǔ)譜圖特征提取與規(guī)范化,然后分析卷積神經(jīng)網(wǎng)絡(luò)(CNN)的結(jié)構(gòu)并選定Cifar10網(wǎng)絡(luò)對(duì)語(yǔ)譜圖進(jìn)行分類,最后采用3種方案進(jìn)行對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果取得了較高的情感識(shí)別率,表明了該方法的有效性和可行性。

      關(guān)鍵詞:老年人語(yǔ)音情感識(shí)別;語(yǔ)譜圖;維納濾波;卷積神經(jīng)網(wǎng)絡(luò)

      DOIDOI:10.11907/rjdk.181094

      中圖分類號(hào):TP301

      文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào)文章編號(hào):16727800(2018)009002804

      英文標(biāo)題Speech Emotion Recognition for the Elderly Based on Spectrogram and CNNs

      --副標(biāo)題

      英文作者ZHANG Ruofan,HUANG Jun,GU Lai,XU Ermin,GU Zhixing

      英文作者單位(School of Telecommunications and Information Engineering,Chongqing University of Posts and Telecommunication,Chongqing 400065,China)

      英文摘要Abstract:To solve the problem of speech emotion recognition for the old people,a method of speech emotion recognition based on spectrogram is proposed.Firstly,the method used an improved Wiener filtering speech enhancement algorithm based on the prior SNR to remove the background noise and enhance the EESDB emotional database,merging the old emotional database EESDB and the Chinese emotional voice database together and extracting the spectrogram feature and standardizing the spectrogram.Then the convolutional neutral network was analyzed and the cifar10 iss chosen for the classification of spectrogram.Finally,the performance of this method was accessed by computer simulations and a higher recognition rates was achieved.The results show that the proposed method in this paper is effective.

      英文關(guān)鍵詞Key Words:speech emotion recognition for the old people;spectrogram;Wiener filter ;convolutional neutral networks(CNNs)

      0引言

      情感識(shí)別一直是情感計(jì)算領(lǐng)域的關(guān)注熱點(diǎn),主要通過(guò)計(jì)算機(jī)對(duì)用戶的生理信號(hào)進(jìn)行分析與處理,得出用戶的情感狀態(tài)。語(yǔ)音作為人類交流最重要的方式之一,不僅能傳達(dá)豐富的信息,還攜帶了說(shuō)話者大量情感因素。因此,如何讓計(jì)算機(jī)自動(dòng)從語(yǔ)音中識(shí)別出說(shuō)話者的情感狀態(tài)一直是情感識(shí)別領(lǐng)域的研究重點(diǎn)[13]。隨著我國(guó)人口老齡化的加劇,老年人的養(yǎng)老問(wèn)題日益突出。語(yǔ)言表達(dá)是反映老人精神狀態(tài)好壞的一個(gè)重要方面,關(guān)注老人的精神生活狀態(tài),首先要關(guān)注老年人的語(yǔ)音情感狀態(tài)。

      尋找智能、高效的老年人語(yǔ)音情感識(shí)別方法(Speech Emotion Recognition System)是智慧養(yǎng)老的關(guān)鍵問(wèn)題之一[4]。國(guó)內(nèi)外針對(duì)語(yǔ)音情感識(shí)別的研究已有20多年歷史[5]。20世紀(jì)80年代后期,麻省理工大學(xué)情感計(jì)算研究人員借助采樣識(shí)別人類情感,并讓機(jī)器對(duì)不同情感作出響應(yīng)[6]。2000年,美國(guó)Picard等[7]證明了聲學(xué)特征參數(shù)與情感的關(guān)聯(lián);2004年,我國(guó)東南大學(xué)趙力[8]首先針對(duì)語(yǔ)音中包含的情感信息進(jìn)行研究,采用GMM(高斯混合模型)識(shí)別方法對(duì)4種情感進(jìn)行識(shí)別,識(shí)別率最高可達(dá)95%;2009年,慕尼黑工業(yè)大學(xué)Schuller等針對(duì)情感識(shí)別框架提出了許多構(gòu)想。

      本文在已有方法的基礎(chǔ)上,針對(duì)老年人的語(yǔ)音進(jìn)行情感識(shí)別。該方法流程主要包括語(yǔ)音樣本預(yù)處理、情感特征提取、情感識(shí)別3部分[9]。語(yǔ)音樣本預(yù)處理以選取的數(shù)據(jù)集作為基本輸入,通過(guò)語(yǔ)音增強(qiáng)、數(shù)據(jù)集融合獲得去噪后的純凈數(shù)據(jù)集;情感特征提取通過(guò)分幀、加窗、FFT獲得語(yǔ)譜圖圖像特征;情感識(shí)別則采用目前使用較廣的卷積神經(jīng)網(wǎng)絡(luò)對(duì)情感信息進(jìn)行分類識(shí)別。

      1語(yǔ)音情感識(shí)別方法整體流程

      本方法的整體思路是對(duì)選取的數(shù)據(jù)集進(jìn)行預(yù)處理[10],在此基礎(chǔ)上通過(guò)變換得出語(yǔ)譜圖圖像特征,最后將規(guī)范化的語(yǔ)譜圖作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,配合分類器進(jìn)行情感識(shí)別與分類,如圖1所示。

      2語(yǔ)音情感數(shù)據(jù)庫(kù)準(zhǔn)備

      本文首先選取老人語(yǔ)音情感庫(kù)EESDB[11],EESDB是針對(duì)老年人建立的情感語(yǔ)料庫(kù)??紤]到捕捉自然情感的老人語(yǔ)音庫(kù)較少,該語(yǔ)料庫(kù)取自反映老人生活的電視劇《老人的故事》。首先從電視劇中截取包含情感的語(yǔ)音數(shù)據(jù),志愿者再對(duì)其進(jìn)行情感標(biāo)定。共截取語(yǔ)音992條,采樣率為44kHz,并進(jìn)行16bit量化,情感類型包括高興、傷心、中性、生氣、害怕和驚奇6種。

      本文同時(shí)選取中國(guó)科學(xué)院自動(dòng)化所漢語(yǔ)情感語(yǔ)料庫(kù)CASIA[12]作為語(yǔ)音情感數(shù)據(jù)庫(kù)的補(bǔ)充。CASIA漢語(yǔ)情感語(yǔ)料庫(kù)由中科院自動(dòng)化所制作,由4個(gè)專業(yè)發(fā)音人(2男2女)對(duì)500條語(yǔ)句進(jìn)行錄制,情感類型也包括高興、傷心、中性、生氣、害怕和驚奇6種。CASIA語(yǔ)料庫(kù)以16kHz采樣,并進(jìn)行16bit量化,經(jīng)過(guò)篩選,最終保留9 600句。表1為不同語(yǔ)料庫(kù)對(duì)比。

      3語(yǔ)音樣本預(yù)處理

      語(yǔ)音樣本預(yù)處理是訓(xùn)練識(shí)別前的準(zhǔn)備工作,包括針對(duì)EESDB語(yǔ)料庫(kù)的語(yǔ)音增強(qiáng)和語(yǔ)料庫(kù)融合,如圖2所示。

      CASIA是由專業(yè)錄音人員在無(wú)背景噪聲的理想實(shí)驗(yàn)室錄制,而EESDB則取自于電視劇,來(lái)源于真實(shí)環(huán)境,因此存在背景噪聲。不同的語(yǔ)音情感數(shù)據(jù)庫(kù)在錄制過(guò)程中,聲學(xué)條件會(huì)因?yàn)榛祉憽⒈尘霸胍粢约八褂娩浿圃O(shè)備的聲學(xué)屬性而產(chǎn)生變化,進(jìn)而導(dǎo)致在語(yǔ)音情感識(shí)別系統(tǒng)中提取的情感特征失準(zhǔn)。目前的語(yǔ)音情感識(shí)別大多是在理想實(shí)驗(yàn)室條件下進(jìn)行,因此提取的特征和識(shí)別得到的結(jié)果都是在單個(gè)純凈的語(yǔ)料庫(kù)上得到的。針對(duì)EESDB存在背景噪聲的情況,采用一種改進(jìn)的基于先驗(yàn)信噪比的維納濾波算法對(duì)語(yǔ)音進(jìn)行去噪。

      4情感特征提取

      情感特征提取算法步驟為:①對(duì)語(yǔ)料庫(kù)進(jìn)行分幀、加窗、傅里葉變換(FFT,F(xiàn)ast Fourier Transform)生成語(yǔ)譜圖[13];②對(duì)語(yǔ)譜圖進(jìn)行尺度一致化調(diào)整為256*256的RGB圖;③將語(yǔ)譜圖轉(zhuǎn)換為L(zhǎng)MDB格式;④求語(yǔ)譜圖均值。情感特征提取算法流程如圖3所示。

      4.1分幀

      語(yǔ)音信號(hào)在一個(gè)很短的時(shí)間段內(nèi)可看作穩(wěn)定狀態(tài)。通常將語(yǔ)音信號(hào)進(jìn)行分幀[14],每一幀長(zhǎng)度是20ms~30ms,在該時(shí)間段內(nèi),語(yǔ)音信號(hào)可視作穩(wěn)定狀態(tài)。

      4.2加窗

      分幀之后原本的語(yǔ)音信號(hào)變?yōu)榱擞邢扌盘?hào),在調(diào)用傅里葉變換函數(shù)時(shí)將導(dǎo)致高頻部分泄露,因此可通過(guò)加窗處理降低泄露[15]。信號(hào)加窗使用最多的窗函數(shù)有矩形窗與漢明窗。

      矩形窗:

      w(n)=1,0≤n≤(N-1)0,其他(1)

      漢明窗:

      w(n,α)=1-α-αcos(2πnN-1)0,其他(2)

      其中α是系數(shù),取值一般為0.46。

      4.3語(yǔ)譜圖特征提取

      語(yǔ)譜圖(Spectrogram)是可以反映語(yǔ)音頻譜隨時(shí)間變化的二維可視平面圖。語(yǔ)譜圖中包含了大量有用信息,如語(yǔ)音基頻、清音、爆破音等,因而被廣泛應(yīng)用于語(yǔ)音研究中。語(yǔ)譜圖的橫坐標(biāo)表示時(shí)間,縱坐標(biāo)表示頻率。每個(gè)像素的灰度值表示某時(shí)刻對(duì)應(yīng)頻率的信號(hào)能量密度,信號(hào)能量密度強(qiáng)弱用相應(yīng)點(diǎn)灰度或顏色深淺表示[16]。通過(guò)對(duì)語(yǔ)音樣本進(jìn)行分幀加窗、快速傅里葉變換(FFT,F(xiàn)ast Fourier Transform)得出語(yǔ)譜圖,樣本語(yǔ)譜圖如圖4所示。

      5CNN訓(xùn)練識(shí)別

      卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)是一種前饋神經(jīng)網(wǎng)絡(luò),由于該網(wǎng)絡(luò)不需要對(duì)圖像進(jìn)行復(fù)雜的前期預(yù)處理,近年來(lái)被廣泛應(yīng)用于模式識(shí)別領(lǐng)域,尤其是人臉檢測(cè)、語(yǔ)音監(jiān)測(cè)、文字識(shí)別等領(lǐng)域[17]。不同于大多數(shù)采用全連接的深度神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)采用部分連接的網(wǎng)絡(luò)模型,極大地提高了學(xué)習(xí)效率。

      典型的卷積神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)包括卷積層、降采樣層和全連接層,如圖5所示[18]。卷積層直接對(duì)輸入樣本(如語(yǔ)譜圖)進(jìn)行卷積操作。卷積核大小可自主設(shè)置,通過(guò)不同卷積核進(jìn)行卷積后,在每一層產(chǎn)生特征映射圖,特征映射圖中每組像素再進(jìn)行求和、加權(quán)及加偏置操作。卷積核之間共享相同的權(quán)重矩陣和偏置項(xiàng)。

      非線性降采樣層也稱為池化層,在卷積層之后,對(duì)卷積層輸出進(jìn)行空間和特征類型壓縮,減少參數(shù)與計(jì)算量。實(shí)踐證明,池化不僅可以降低輸入特征維數(shù),還可以改善結(jié)果。其具體操作與卷積層操作基本相同,區(qū)別在于降采樣層的卷積核只取對(duì)應(yīng)位置的最大值(最大池化,Max Pooling)或平均值(平均池化,Mean Pooling)等。全連接層是指輸入的每個(gè)神經(jīng)元與本層的每個(gè)神經(jīng)元相連,即連接所有特征,再將輸出值直接輸送給Softmax分類器。

      6實(shí)驗(yàn)與分析

      實(shí)驗(yàn)環(huán)境采用Ubuntu系統(tǒng),8G內(nèi)存,軟件為Matlab 2012b,并采用Caffe框架[19]。語(yǔ)音樣本選取中科院自動(dòng)化所CASIA漢語(yǔ)情感數(shù)據(jù)庫(kù)與EESDB老人語(yǔ)音情感庫(kù)的數(shù)據(jù)。實(shí)驗(yàn)隨機(jī)選取EESDB中相同發(fā)音的40句共800條語(yǔ)音,CASIA相同發(fā)音的50句共1 200條語(yǔ)音作為實(shí)驗(yàn)數(shù)據(jù),總共2 000條語(yǔ)音,其中1 200條為訓(xùn)練數(shù)據(jù),800條為驗(yàn)證數(shù)據(jù)。

      目前語(yǔ)音情感識(shí)別算法中常用的分類器有隱馬爾科夫模型、K近鄰分類、Softmax分類器與支持向量機(jī)(SVM,Support Vector Machine)等[20] 。實(shí)驗(yàn)選取Softmax分類器,核函數(shù)使用識(shí)別效果好且參數(shù)比較容易設(shè)置的多項(xiàng)式核函數(shù)。

      CNN在Caffe框架下搭建,采用的結(jié)構(gòu)與圖5結(jié)構(gòu)相同。第一組卷積核設(shè)置為5個(gè),大小為8×6,降采樣層大小為1×4;第二組卷積核設(shè)置為10個(gè),大小為6×4,降采樣層大小為1×3。兩層采用平均池化方法,全連接層節(jié)點(diǎn)數(shù)為500。

      采用跨庫(kù)訓(xùn)練方案,更改CASIA和EESDB在訓(xùn)練集和測(cè)試集中的比例[21]。選用的實(shí)驗(yàn)方案包含以下3種:①選用EESDB全部語(yǔ)句共800條,CASIA中240條語(yǔ)句作為訓(xùn)練集,剩余960條語(yǔ)句作為驗(yàn)證集進(jìn)行訓(xùn)練;②選用CASIA全部語(yǔ)句1 200條作為訓(xùn)練集,EESDB全部語(yǔ)句800條作為測(cè)試集進(jìn)行訓(xùn)練;③選用CASIA中600條語(yǔ)句、EESDB中600條語(yǔ)句,共1 200條作為訓(xùn)練集,CASIA剩余600條語(yǔ)句作為測(cè)試集。表2是基于3種方案的識(shí)別率。

      7結(jié)語(yǔ)

      本文提出一種基于語(yǔ)譜圖的老年人語(yǔ)音情感識(shí)別方法。首先選取合適的語(yǔ)音情感庫(kù),對(duì)其進(jìn)行預(yù)處理,提取語(yǔ)譜圖情感特征對(duì)語(yǔ)譜圖進(jìn)行尺度一致化調(diào)整,將語(yǔ)譜圖轉(zhuǎn)換為訓(xùn)練學(xué)習(xí)要求的格式,然后輸入CNN進(jìn)行訓(xùn)練,將識(shí)別結(jié)果輸入分類器進(jìn)行分類,最后得出情感識(shí)別結(jié)果。本文提出的利用語(yǔ)譜圖特征進(jìn)行語(yǔ)音情感識(shí)別的方法為研究老年人語(yǔ)音情感提供了新思路,語(yǔ)譜圖圖像特征可作為一類新特征進(jìn)一步增強(qiáng)語(yǔ)音情感識(shí)別系統(tǒng)的性能。

      參考文獻(xiàn)參考文獻(xiàn):

      [1]NWE T L,F(xiàn)OO S W,SILVA L C D.Speech emotion recognition using hidden Markov models[J].Speech Communication,2003,41(4):603623.

      [2]AYADI M E,KAMEL M S,KARRAY F.Survey on speech emotion recognition:features,classification schemes,and databases[J].Pattern Recognition,2011,44(3):572587.

      [3]薛文韜.語(yǔ)音情感識(shí)別綜述[J].軟件導(dǎo)刊,2016,15(9):143145.

      [4]席恒,任行,翟紹果.智慧養(yǎng)老:以信息化技術(shù)創(chuàng)新養(yǎng)老服務(wù)[J].老齡科學(xué)研究,2014(7):1220.

      [5]NWE T L,F(xiàn)OO S W,SILVA L C D.Speech emotion recognition using hidden Markov models[J].Speech Communication,2003,41(4):603623.

      [6]PICARD R W.Affective computing:challenges[J].International Journal of Human Computer Studies,2003,59(1):5564.

      [7]PICARD R.Computers that recognize and respond to user emotion[J].IBM Systems Journal,2000,39:705719.

      [8]趙力,錢向民,鄒采榮,等.語(yǔ)音信號(hào)中的情感特征分析和識(shí)別的研究[J].電子學(xué)報(bào),2004,32(4):606609.

      [9]韓文靜,李海峰,阮華斌,等.語(yǔ)音情感識(shí)別研究進(jìn)展綜述[J].軟件學(xué)報(bào),2014,25(1):3750.

      [10]徐濟(jì)仁,陳家松,徐屹.語(yǔ)音信號(hào)預(yù)處理技術(shù)綜述[J].信息化研究,2001,27(6):2627.

      [11]王坤俠.語(yǔ)音情感識(shí)別方法研究[D].合肥:合肥工業(yè)大學(xué),2015.

      [12]劉志勇,楊關(guān),馮國(guó)燦.基于 Gabor 小波和局部二值模式的步態(tài)識(shí)別[J].中山大學(xué)學(xué)報(bào):自然科學(xué)版,2014,53(4):17.

      [13]李富強(qiáng),萬(wàn)紅,黃俊杰.基于MATLAB的語(yǔ)譜圖顯示與分析[J].微計(jì)算機(jī)信息,2005,21(10X):172174.

      [14]蘇偉博.一種語(yǔ)音端點(diǎn)檢測(cè)方法及裝置[P].CN102097095A,2011.

      [15]鐘林鵬.說(shuō)話人識(shí)別系統(tǒng)中的語(yǔ)音信號(hào)處理技術(shù)研究[D].成都:電子科技大學(xué),2013.

      [16]陶華偉,査誠(chéng),梁瑞宇,等.面向語(yǔ)音情感識(shí)別的語(yǔ)譜圖特征提取算法[J].東南大學(xué)學(xué)報(bào):自然科學(xué)版,2015,45(5):817821.

      [17]李彥冬,郝宗波,雷航.卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J].計(jì)算機(jī)應(yīng)用,2016,36(9):25082515.

      [18]蔡娟,蔡堅(jiān)勇,廖曉東,等.基于卷積神經(jīng)網(wǎng)絡(luò)的手勢(shì)識(shí)別初探[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2015,24(4):113117.

      [19]JIA Y,SHELHAMER E, DONAHUA J,et al.Caffe:convolutional architecture for fast feature embedding[J].Computer Vision and Pattern Recognition,2014:675678.

      [20]朱永生,張優(yōu)云.支持向量機(jī)分類器中幾個(gè)問(wèn)題的研究[J].計(jì)算機(jī)工程與應(yīng)用,2003,39(13):3638.

      [21]金赟,宋鵬,鄭文明,等.半監(jiān)督判別分析的跨庫(kù)語(yǔ)音情感識(shí)別[J].聲學(xué)學(xué)報(bào),2015(1):2027.

      責(zé)任編輯(責(zé)任編輯:黃健)

      猜你喜歡
      維納濾波卷積神經(jīng)網(wǎng)絡(luò)
      多級(jí)維納濾波器的快速實(shí)現(xiàn)方法研究
      自適應(yīng)迭代維納濾波算法
      基于維納濾波的超聲增強(qiáng)實(shí)現(xiàn)方法
      基于多窗譜估計(jì)的改進(jìn)維納濾波語(yǔ)音增強(qiáng)
      基于維納濾波器的去噪研究
      基于卷積神經(jīng)網(wǎng)絡(luò)溫室智能大棚監(jiān)控系統(tǒng)的研究
      基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識(shí)別算法
      一種因果維納濾波器的推導(dǎo)方法
      宁都县| 察隅县| 建平县| 北海市| 沽源县| 永安市| 和林格尔县| 霞浦县| 泾源县| 永吉县| 从江县| 伊宁县| 宾阳县| 张家港市| 乐陵市| 修武县| 娄底市| 兴业县| 康平县| 龙岩市| 盐津县| 湘潭市| 潜江市| 会昌县| 江达县| 东阳市| SHOW| 屏东县| 桦南县| 渝中区| 雷州市| 桐柏县| 木里| 宜兰县| 奎屯市| 莱阳市| 镇平县| 苏尼特右旗| 蓬溪县| 永德县| 嘉善县|