• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      面向語音與面部表情信號(hào)的情感可視化方法

      2016-09-26 02:16:33韓志艷王健渤海大學(xué)遼寧錦州121000
      電子設(shè)計(jì)工程 2016年11期
      關(guān)鍵詞:特征參數(shù)可視化語音

      韓志艷,王健(渤海大學(xué) 遼寧 錦州 121000)

      面向語音與面部表情信號(hào)的情感可視化方法

      韓志艷,王健
      (渤海大學(xué) 遼寧 錦州 121000)

      為了提高情感可視化的魯棒性,該文提出了一種面向語音與面部表情信號(hào)的情感可視化方法。首先對(duì)獲取的情感信號(hào)進(jìn)行特征提取,并將其作為神經(jīng)網(wǎng)絡(luò)的輸入,神經(jīng)網(wǎng)絡(luò)的輸出即為相應(yīng)的圖案信息,然后通過圖像生成模塊生成可視化圖像,實(shí)現(xiàn)對(duì)中性、高興、憤怒、驚奇、悲傷和恐懼六種人類基本情感的可視化。該方法通過組合不同模式的情感特征進(jìn)入一幅圖像中,為人們創(chuàng)造了情感的可讀模式,可以直觀地展示情感的分類結(jié)果。仿真實(shí)驗(yàn)結(jié)果表明,僅通過語音信號(hào)進(jìn)行可視化的平均正確率是78.0%,而通過該文方法的平均正確率是91.8%,具有良好的魯棒性和易懂性。

      語音信號(hào);面部表情信號(hào);情感可視化;特征提取

      近年來,情感信息的研究工作在人機(jī)交互領(lǐng)域中已經(jīng)成為一個(gè)熱點(diǎn)問題[1-4]。隨著社會(huì)信息化的推進(jìn)和網(wǎng)絡(luò)應(yīng)用的日益廣泛,信息源越來越龐大。對(duì)海量信息之間的復(fù)雜關(guān)系的努力探索,促使了信息可視化這一嶄新科學(xué)技術(shù)的出現(xiàn)。情感信息可視化的研究任務(wù)是將大規(guī)模復(fù)雜數(shù)據(jù)信息轉(zhuǎn)換為直觀圖形或圖像,充分發(fā)揮人們對(duì)可視模式的形象思維優(yōu)勢,達(dá)到觀察、瀏覽、研究、探索、發(fā)現(xiàn)隱藏在大規(guī)模數(shù)據(jù)內(nèi)部的特征和規(guī)律的目的[5-8]。目前情感可視化的研究主要停留在單模式情感可視化的水平,即只從單一信息通道中獲得當(dāng)前對(duì)象的情感狀態(tài),如從語音信號(hào)、面部表情信號(hào)或生理信號(hào)(血壓、體溫、脈搏、心電、腦電、皮膚電阻等)等[9-12]。雖然單一地依靠語音信號(hào)、面部表情信號(hào)或生理參數(shù)來進(jìn)行可視化取得了一定的成果,但卻存在著很多局限性,因?yàn)槿祟愂峭ㄟ^多模式的方式表達(dá)情感信息的,它具有表達(dá)的復(fù)雜性和文化的相對(duì)性[13]。比如,在噪聲環(huán)境下,當(dāng)某一個(gè)通道的特征受到干擾或缺失時(shí),多模式方法能在某種程度上產(chǎn)生互補(bǔ)的效應(yīng),彌補(bǔ)了單模式的不足。所以研究多模式情感可視化的方法十分必要[14]。由于生理信號(hào)的測量必須與身體接觸,因此對(duì)于此通道的信號(hào)獲取有一定的困難,所以語音和面部表情作為兩種最為主要的表征情感的方式,在情感識(shí)別方面得到了廣泛的研究,但是其只能通過文字來表達(dá)識(shí)別結(jié)果,顯示不直觀[15-16]。因此本文中提出了一種面向語音和面部表情信號(hào)的情感可視化方法,可以應(yīng)用到情感識(shí)別結(jié)果的表達(dá)上,實(shí)現(xiàn)了情感信息的生動(dòng)描述和高效表達(dá)。

      1 可視化系統(tǒng)總體結(jié)構(gòu)

      如圖1所示為本可視化系統(tǒng)的總體結(jié)構(gòu)框圖,其包括情感信號(hào)獲取、情感信號(hào)預(yù)處理、情感特征參數(shù)提取、神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)及圖像生成模塊。

      2 情感信號(hào)獲取

      首先通過噪聲刺激或者觀看影視片段等誘發(fā)方式誘發(fā)人的情感,再同步獲取相應(yīng)情感狀態(tài)下的語音信號(hào)和面部表情信號(hào),并將二者綁定存儲(chǔ)。其中利用麥克風(fēng)輸入語音數(shù)據(jù),然后利用計(jì)算機(jī)以11.025 kHz的采樣頻率、16 bit的量化精度進(jìn)行采樣量化,獲得相應(yīng)的語音信號(hào);對(duì)面部表情信號(hào)則是通過攝像機(jī)拍攝,每幅圖像大小為256×256像素。

      圖1 系統(tǒng)總體結(jié)構(gòu)圖

      3 情感信號(hào)預(yù)處理

      利用一階數(shù)字預(yù)加重濾波器對(duì)獲取的語音信號(hào)進(jìn)行預(yù)加重處理,其中利用的預(yù)加重濾波器的系數(shù)取值范圍為0.93~0.97之間,本文取0.937 5。接下來以幀長256點(diǎn)的標(biāo)準(zhǔn)進(jìn)行分幀處理,并對(duì)分幀后的語音信號(hào)加漢明窗處理,再利用短時(shí)能零積法進(jìn)行端點(diǎn)檢測。

      對(duì)獲取的面部表情信號(hào),首先用膚色模型進(jìn)行臉部定位,然后進(jìn)行圖像幾何特性歸一化處理和圖像光學(xué)特性歸一化處理,其中圖像幾何特性歸一化主要以兩眼位置為依據(jù),而圖像光學(xué)特性的歸一化處理包括先用直方圖均衡化方法對(duì)圖像灰度做拉伸,以改善圖像的對(duì)比度,然后對(duì)圖像像素灰度值進(jìn)行歸一化處理,使標(biāo)準(zhǔn)人臉圖像的像素灰度值為0,方差為1,如此可以部分消除光照對(duì)識(shí)別結(jié)果的影響。其歸一化后的圖像大小為75×100像素。

      4 情感特征參數(shù)提取

      4.1語音情感特征參數(shù)提取

      以往對(duì)情感特征參數(shù)的有效提取主要以韻律特征為主,然而近年來通過深入研究發(fā)現(xiàn),音質(zhì)特征和韻律特征相互結(jié)合才能更準(zhǔn)確地識(shí)別情感。為了盡可能地利用語音信號(hào)中所包含的有關(guān)情感方面的信息,文中提取了16個(gè)語音情感特征,其中前9個(gè)語音情感特征為韻律特征,后7個(gè)語音情感特征為音質(zhì)特征。

      前9個(gè)語音情感特征分別為:語句發(fā)音持續(xù)時(shí)間與相應(yīng)的平靜語句持續(xù)時(shí)間的比值、基因頻率平均值、基因頻率最大值、基因頻率平均值與相應(yīng)平靜語句的基因頻率平均值的差值、基因頻率最大值與相應(yīng)平靜語句的基因頻率最大值的差值、振幅平均能量、振幅能量的動(dòng)態(tài)范圍、振幅平均能量與相應(yīng)平靜語句的振幅平均能量的差值、振幅能量動(dòng)態(tài)范圍與相應(yīng)平靜語句的振幅能量動(dòng)態(tài)范圍的差值。

      后7個(gè)語音情感特征分別為:第一共振峰頻率的平均值、第2共振峰頻率的平均值、第三共振峰頻率的平均值、諧波噪聲比的均值、諧波噪聲比的最大值、諧波噪聲比的最小值、諧波噪聲比的方差。

      4.2面部表情特征參數(shù)提取

      目前面部表情特征的提取根據(jù)圖像性質(zhì)的不同可分為靜態(tài)圖像特征提取和序列圖像特征提取,靜態(tài)圖像中提取的是表情的形變特征,而序列圖像中提取的是運(yùn)動(dòng)特征。本文以靜態(tài)圖像為研究對(duì)象,采用Gabor小波變換來提取面部表情特征參數(shù),具體過程如下:

      1)將預(yù)處理后的面部表情圖像網(wǎng)格化為25×25像素;

      2)用Gabor小波和網(wǎng)格化后的圖像進(jìn)行卷積,公式如下:

      其中,r(x,y)為Gabor小波變換后的結(jié)果;I(ε,η)為對(duì)應(yīng)像素坐標(biāo)(ε,η)的像素值;數(shù)算子,σ是與小波頻率帶寬有關(guān)的常數(shù),取值為的取值決定了Gabor濾波的波長,取值為0,1,2,u的取值表示Gabor核函數(shù)的方向,取值為1,2,3,4,5,6,表示總的方向數(shù),取值為6;ε,η為積分變量;

      3)取?!瑀(x,y)‖的均值和方差作為面部表情特征參數(shù);

      4)用主成分分析法PCA對(duì)上述面部表情特征參數(shù)進(jìn)行降維處理,文中將初始的75*100*2,即15 000個(gè)維數(shù)降為30維。

      5 神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)

      如圖2所示,所述的神經(jīng)網(wǎng)絡(luò)為三層小波神經(jīng)網(wǎng)絡(luò),其中輸入層有46個(gè)神經(jīng)元,激勵(lì)函數(shù)為線性變換,隱含層有12個(gè)神經(jīng)元,激勵(lì)函數(shù)為小波函數(shù),輸出層有3個(gè)神經(jīng)元,激勵(lì)函數(shù)為Sigmoid函數(shù)。

      圖2 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖

      6 圖像生成

      6.1圖像主顏色編碼

      通過給屏幕相應(yīng)位置的RGB賦值,即通過設(shè)定圖像紅色飽和度R、綠色飽和度G和藍(lán)色飽和度B的值,來獲得圖像的主顏色信息。紅綠藍(lán)三基色幅度全為0得到黑色,紅綠藍(lán)三基色幅度全為1得到白色,各個(gè)基色對(duì)顏色的貢獻(xiàn)是加色法則。本文取R=0,G=0,B=0,即主顏色為黑色。

      6.2圖案信息編碼

      如圖3所示,將16個(gè)語音情感特征和30個(gè)面部表情特征共46個(gè)情感特征作為神經(jīng)網(wǎng)絡(luò)的輸入,神經(jīng)網(wǎng)絡(luò)的輸出即為相應(yīng)的圖案信息,神經(jīng)網(wǎng)絡(luò)的輸出層有3個(gè)神經(jīng)元,均采用二進(jìn)制編碼,共有8個(gè)不同的碼,其中只用前6個(gè)碼,依次對(duì)應(yīng)著中性、高興、憤怒、驚奇、悲傷和恐懼6種人類基本情感,即000代表中性情感,001代表高興情感,010代表憤怒情感,011代表驚奇情感,100代表悲傷情感,101代表恐懼情感??梢酝ㄟ^改變相應(yīng)位置的三基色RGB的飽和度來顯示不同質(zhì)地的圖案。本文取R=1,G=1,B=1,即白色質(zhì)地的圖案。

      6.3圖像合成

      圖像合成時(shí),把圖像主顏色信息與圖案信息融合在一幅圖像中在顯示屏上顯示。具體為先獲得圖像的主顏色信息,然后用圖案信息置換相應(yīng)位置的主顏色信息,獲得相應(yīng)的情感可視化圖像。

      圖3 圖案信息編碼示意圖

      7 仿真實(shí)驗(yàn)

      圖4(a)所示為中性情感的可視化效果圖,圖案信息為一條橫線;圖4(b)為高興情感的可視化效果圖,圖案信息為一條橫線;圖4(c)為憤怒情感的可視化效果圖,圖案信息為一條豎線;圖4(d)為驚奇情感的可視化效果圖,圖案信息為兩條橫線;圖4 (e)為悲傷情感的可視化效果圖,圖案信息為兩條豎線;圖4(f)為恐懼情感的可視化效果圖,圖案信息為十字線。圖中可以直觀地展示情感的分類結(jié)果,與現(xiàn)有技術(shù)相比,具有良好的易懂性。

      圖4 可視化效果圖

      為證明文中方法的可視化效果,將單模式條件下的可視化效果與多模式條件下的可視化效果進(jìn)行對(duì)比。原始訓(xùn)練樣本集包含每種情感的200條語音數(shù)據(jù)樣本與200條面部表情數(shù)據(jù)樣本,測試集包含每種情感的100條語音數(shù)據(jù)樣本和100條面部表情數(shù)據(jù)樣本。在單模式條件下,僅通過語音信號(hào)進(jìn)行可視化的正確率如表1所示;在多模式條件下,通過用本文方法進(jìn)行可視化的正確率如表2所示。注:表中第行第列的元素表示真實(shí)情感狀態(tài)是的樣本被判別成的比例。

      由表1和表2可知,僅通過語音信號(hào)進(jìn)行可視化的平均正確率是78.0%,而本文提出的方法可視化的平均正確率是91.8%。因此,單純依靠某個(gè)通道信號(hào)進(jìn)行可視化在實(shí)際應(yīng)用中會(huì)遇到一定的困難,因?yàn)槿祟愂峭ㄟ^多模式的方式表達(dá)情感信息的,所以研究多模式情感可視化的方法十分必要。

      表1 僅通過語音信號(hào)進(jìn)行可視化的正確率

      8 結(jié) 論

      文中通過組合語音信號(hào)和面部表情信號(hào)兩種不同模式的情感特征進(jìn)入一幅圖像中,為人們創(chuàng)造了情感的可讀模式,可以直觀地展示情感的分類結(jié)果。同時(shí)提取了語音信號(hào)的音質(zhì)特征和韻律特征,能夠更全面地提取蘊(yùn)含在語音信號(hào)中的情感信息,使可視化的結(jié)果更加準(zhǔn)確。采用Gabor小波變換來提取面部表情特征參數(shù),它能夠同時(shí)檢測多尺度、多方向的紋理變化,而且對(duì)亮度和人臉姿態(tài)的變化不敏感,使得提取的面部表情特征參數(shù)魯棒性更好。而且本文通過神經(jīng)網(wǎng)絡(luò)來對(duì)圖案信息進(jìn)行編碼,有效地提高了情感的可視化正確率,縮短了可視化時(shí)間,實(shí)現(xiàn)了效率與時(shí)間的雙贏。但是本文只是針對(duì)特定文本的情感進(jìn)行可視化,距離實(shí)用還有一定的距離,所以非特定文本的情感可視化將成為我們下一步的研究方向。

      表2 本文提出的方法

      [1]余伶俐,蔡自興,陳明義.語音信號(hào)的情感特征分析與識(shí)別研究綜述[J].電路與系統(tǒng)學(xué)報(bào),2007,12(4):76-84.

      [2]Mao X,Chen L J.Speech emotion recognition based on parametric filter and fractal dimension[J].IEICE Trans on Information and Systems,2010,93(8):2324-2326.

      [3]Attabi Y,Dumouchel P.Anchor models for emotion recognition from speech[J].IEEE Trans on Affective Computing,2013,4(3):280-290.

      [4]Zheng W M,Xin M H,Wang X L et al.A novel speech emotionrecognitionmethodviaincomplete sparse least square regression[J].IEEE Signal Processing Letters,2014,21 (5):569-572.

      [5]Mao Q R,Dong M,Huang Z W,et al.Learning salient features for speech emotion recognition using convolutional neural networks[J].IEEE Trans on Multimedia,2014,16(8): 2203-2213.

      [6]梁路宏,艾海舟,徐光,等.人臉檢測研究綜述[J].計(jì)算機(jī)學(xué)報(bào),2002,25(5):449-458.

      [7]Rahulamathavan Y,Phan R C-W,Chambers J A,et al.Facial expression recognition in the encrypted domain based on local fisherdiscriminant analysis[J].IEEE Trans on Affective Computing,2013,4(1):83-92.

      [8]文沁,汪增福.基于三維數(shù)據(jù)的人臉表情識(shí)別[J].計(jì)算機(jī)仿真,2005,25(7):99-103.

      [9]Zheng W M.Multi-view facial expression recognition based on group sparse reduced-rank regression[J].IEEE Trans on Affective Computing,2014,5(1):71-85.

      [10]Petrantonakis P C,Hadjileontiadis L J.Emotion recognition from EEG using higher order crossings[J].IEEE Trans on Information Technology in Biomedicine,2010,14(2):186-197.

      [11]林時(shí)來,劉光遠(yuǎn),張慧玲.蟻群算法在呼吸信號(hào)情感識(shí)別中的應(yīng)用研究[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(2):169-1172.

      [12]Zacharatos H,Gatzoulis C,Chrysanthou Y L.Automatic emotion recognition based on body movement analysis:a survey[J].IEEE Computer Graphics and Applications,2014,34 (6):35-45.

      [13]Zeng Z,Pantic M,Roisman G I,et al.A survey of affect recognition methods:audio,visual,and spontaneous expressions[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2009,31(1):39-58.

      [14]Kim J,Andre E.Emotion recognition based on physiological changes in music listening[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2008,30(12):2067-2083.

      [15]黃程韋,金赟,王青云,等.基于語音信號(hào)與心電信號(hào)的多模態(tài)情感識(shí)別[J].東南大學(xué)學(xué)報(bào):自然科學(xué)版,2010,40(5): 895-900.

      [16]Sayedelahl A,Araujo R,Kamel M S.Audio-visual feature-decision level fusion for spontaneous emotion estimation in speech conversations:2013 IEEE International Conference on Multimedia and Expo Workshops,2013[C].USA:IEEE,2013:1-6.

      Emotion visualization method for speech and facial expression signals

      HAN Zhi-yan,WANG Jian
      (Bohai University,Jinzhou 121000,China)

      In order to improve the robustness of emotion visualization,this paper proposes a new emotion visualization method for speech and facial expression signals.Firstly,extracts emotion feature parameters.Then makes the feature parameters as the input of neural network,the output of neural network is the corresponding pattern information,and then generates a visual image by image generation module,and finally accomplishes the visualization for six kinds of human emotion(neutral,joy,anger,surprise,sadness,fear).This method creates emotion readable mode for people by combining the emotion features of different patterns into an image.That can visually show emotion classification results.The simulation results show that the average correct rate is 78.0%only through speech signal,while the average correct rate is 91.8%through the proposed method. That is robust and easy to understand.

      speech signal;facial expression signal;emotion visualization;feature extraction

      TN101

      A

      1674-6236(2016)11-0146-04

      2016-02-17稿件編號(hào):201602056

      國家自然科學(xué)基金(61503038;61403042)

      韓志艷(1982—),女,內(nèi)蒙古赤峰人,博士,副教授。研究方向:情感識(shí)別、情感可視化。

      猜你喜歡
      特征參數(shù)可視化語音
      基于CiteSpace的足三里穴研究可視化分析
      基于Power BI的油田注水運(yùn)行動(dòng)態(tài)分析與可視化展示
      云南化工(2021年8期)2021-12-21 06:37:54
      故障診斷中信號(hào)特征參數(shù)擇取方法
      基于特征參數(shù)化的木工CAD/CAM系統(tǒng)
      基于CGAL和OpenGL的海底地形三維可視化
      魔力語音
      基于MATLAB的語音信號(hào)處理
      電子制作(2019年14期)2019-08-20 05:43:38
      “融評(píng)”:黨媒評(píng)論的可視化創(chuàng)新
      基于MQ3與MP3的價(jià)廉物美的酒駕語音提醒器
      電子制作(2019年9期)2019-05-30 09:42:10
      對(duì)方正在輸入……
      小說界(2018年5期)2018-11-26 12:43:42
      丰台区| 奉新县| 武邑县| 尼玛县| 青河县| 忻州市| 商河县| 信宜市| 海丰县| 泾阳县| 阿图什市| 孝义市| 诸城市| 湖南省| 九龙县| 南溪县| 小金县| 荔波县| 平昌县| 万州区| 醴陵市| 新干县| 五常市| 阿拉善左旗| 牡丹江市| 虎林市| 邮箱| 定南县| 图们市| 即墨市| 扎鲁特旗| 轮台县| 瓮安县| 高雄市| 庆安县| 兴仁县| 双柏县| 长阳| 汉寿县| 盘山县| 宿州市|