• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于混合注意力機(jī)制的視頻序列表情識(shí)別

      2023-10-29 01:50:00李金海
      計(jì)算機(jī)仿真 2023年9期
      關(guān)鍵詞:注意力準(zhǔn)確率特征

      李金海,李 俊

      (1. 桂林電子科技大學(xué)電子工程與自動(dòng)化學(xué)院,廣西 桂林 541004;2. 桂林電子科技大學(xué)計(jì)算機(jī)與信息安全學(xué)院,廣西 桂林541004)

      1 引言

      表情能傳遞人類(lèi)的情緒、心理和身體狀態(tài)信息。研究表情自動(dòng)識(shí)別技術(shù)能夠有效地輔助人工智能機(jī)器分析判斷人類(lèi)的情緒,近年來(lái)該研究廣泛應(yīng)用于智能教育[1]、交通安全[2]、醫(yī)療[3]等領(lǐng)域,使得許多學(xué)者逐漸開(kāi)始關(guān)注動(dòng)態(tài)表情識(shí)別方面的研究。

      傳統(tǒng)的視頻表情識(shí)別算法主要有LBP-TOP[4]與光流法[5]等,這些手工提取特征的方法很大程度上依賴(lài)于特定的任務(wù),且這些方法都具有缺乏泛化性與穩(wěn)定性的特點(diǎn)。

      近幾年來(lái),隨著人工智能的迅猛發(fā)展,許多深度學(xué)習(xí)方法應(yīng)用在表情識(shí)別領(lǐng)域上,并且識(shí)別精度比手工提取特征方法有很大提升?,F(xiàn)階段主要有級(jí)聯(lián)網(wǎng)絡(luò)[6]、三維卷積神經(jīng)網(wǎng)絡(luò)[7]、多網(wǎng)絡(luò)融合[8]等方法對(duì)視頻表情進(jìn)行識(shí)別。以上方法對(duì)特征的提取具有一定的隨意性,且忽略了對(duì)表情峰值幀的關(guān)注,而表情在變化過(guò)程中表情峰值幀往往具有更多判別性的特征。此外,深度學(xué)習(xí)方法在訓(xùn)練模型時(shí)候要有大規(guī)模的數(shù)據(jù)量支撐。而表情識(shí)別任務(wù)中可靠的數(shù)據(jù)集規(guī)模較小,在該類(lèi)數(shù)據(jù)集上直接訓(xùn)練會(huì)導(dǎo)致模型出現(xiàn)過(guò)擬合現(xiàn)象。

      本文提出了一種混合注意力模型。該模型在通道維度上能有效地增強(qiáng)與表情相關(guān)性高的通道信息,時(shí)間維度上給予表情峰值幀更多的關(guān)注,以此增強(qiáng)網(wǎng)絡(luò)提取有效特征的能力。數(shù)據(jù)集方面通過(guò)數(shù)據(jù)增強(qiáng),增加訓(xùn)練樣本數(shù)量,解決數(shù)據(jù)集規(guī)模小的問(wèn)題。最后通過(guò)對(duì)比結(jié)果驗(yàn)證本文方法能夠明顯提高識(shí)別準(zhǔn)確率。

      2 基于混合注意力機(jī)制的表情識(shí)別模型

      本文提出了一種基于混合注意力機(jī)制的時(shí)空網(wǎng)絡(luò)對(duì)視頻中的臉部表情進(jìn)行分類(lèi)。模型主要包括了三部分:空域子網(wǎng)絡(luò)、時(shí)域子網(wǎng)絡(luò)和混合注意力模塊。

      2.1 空域子網(wǎng)絡(luò)

      空域子網(wǎng)絡(luò)中,通過(guò)VGG16網(wǎng)絡(luò)中的卷積層和池化層來(lái)學(xué)習(xí)人臉各類(lèi)表情的空域特征。本文對(duì)VGG16網(wǎng)絡(luò)進(jìn)行了修改,首先是保留VGG16的卷積層部分,并使用自適應(yīng)平均池化(Adaptive average Pooling,APP)代替原始網(wǎng)絡(luò)中的全連接層。其中自適應(yīng)平均池化層的池化窗口(kernel size)大小為4*4,滑動(dòng)步長(zhǎng)(Padding)為4,經(jīng)過(guò)池化層的操作實(shí)現(xiàn)特征降維。最終得到的特征向量的通道數(shù)(channel)為512,大小為1*1的特征圖。

      表1 改進(jìn)的VGG16結(jié)構(gòu)

      2.2 時(shí)域子網(wǎng)絡(luò)

      對(duì)于視頻幀中的表情識(shí)別,需要觀察表情和時(shí)間變化之間的關(guān)系。由于VGG神經(jīng)網(wǎng)絡(luò)對(duì)于時(shí)序變化的表達(dá)能力不足,因此需要引入其它網(wǎng)絡(luò)來(lái)解決該問(wèn)題。長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)能夠通過(guò)隱藏狀態(tài)來(lái)記錄先前序列的內(nèi)容,從而解決時(shí)序問(wèn)題。

      GRU網(wǎng)絡(luò)中重置門(mén)rt與更新門(mén)zt(t代表當(dāng)前時(shí)刻)具有重要要作用,如圖1所示。rt與zt都能接收當(dāng)前時(shí)刻輸入xt和先前時(shí)刻隱藏層狀態(tài)ht-1輸入,對(duì)應(yīng)的權(quán)值分別是Wr與Wz。根據(jù)圖1的GRU內(nèi)部結(jié)構(gòu)圖,網(wǎng)絡(luò)的主要操作過(guò)程如下式所示

      圖1 GRU內(nèi)部結(jié)構(gòu)

      (1)

      模型訓(xùn)練過(guò)程中,將一組序列中的視頻幀當(dāng)成一批次輸入,空域子網(wǎng)絡(luò)提取該批次的特征再經(jīng)過(guò)AAP層,得到n個(gè)大小為1*1,通道數(shù)為512的特征向量。然后把這些向量輸入時(shí)域子網(wǎng)絡(luò)里,GRU讀取視頻的時(shí)間變化獲得大小為n×512特征矩陣,隨后將特征矩陣進(jìn)行平鋪處理成1×512n的特征矩陣,最后輸入到混合注意力模塊中。

      2.3 混合注意力模塊

      本文設(shè)計(jì)的混合注意力主要為了有效提取通道特征與表情變化的時(shí)間特征。通道注意力采用自學(xué)習(xí)的方式獲得各個(gè)特征通道的權(quán)重,并按照權(quán)重大小增強(qiáng)對(duì)表情分類(lèi)有用的通道,抑制非相關(guān)的通道,提高了網(wǎng)絡(luò)對(duì)顯著性特征的提取性能。時(shí)間注意力通過(guò)判別幀間的表情強(qiáng)度,賦予表情強(qiáng)度大的視頻幀更高的權(quán)重,使網(wǎng)絡(luò)更關(guān)注于表情峰值幀。根據(jù)文獻(xiàn)[9]的實(shí)驗(yàn)原理,本文將兩個(gè)注意力模塊按照串聯(lián)的方式排列。設(shè)計(jì)完成后混合注意力如圖2所示。

      圖2 混合注意力模塊

      2.3.1 通道注意力原理

      通道注意力主要有激勵(lì)和特征通道賦值這兩個(gè)過(guò)程。其中激勵(lì)操作的原理如式(2)所示

      s=Fex(ht,WcATT)=δ(WcATT2σ(WcATT1ht))

      (2)

      其中ht為序列表情的時(shí)空特征,δ與σ為ReLU激活函數(shù)和Sigmoid激活函數(shù),Fex為激勵(lì)處理,WcATT1、WcATT2分別代表通道注意力中兩個(gè)全連接層的權(quán)值。激勵(lì)操作中,先采用第一個(gè)全連接層WcATT1與時(shí)空特征ht相乘,WcATT1的維度是C/r*C,r表示縮減倍數(shù),即為了減少運(yùn)算量,對(duì)原特征通道總數(shù)進(jìn)行壓縮,根據(jù)文獻(xiàn)[10],r取16。此時(shí)WcATT1ht的維度為[1,1,C/r]。激活函數(shù)使用ReLU函數(shù),保持輸出維度不變;隨后經(jīng)過(guò)全連接處理,將結(jié)果和WcATT2相乘,并利用sigmoid激活函數(shù)進(jìn)行非線性轉(zhuǎn)換。得到數(shù)值范圍為0到1的通道權(quán)重值sc。此時(shí)sc的維度大小為[1,1,C]。最后進(jìn)行特征通道賦值操作,即將權(quán)重sc與注意力機(jī)制前的時(shí)空特征ht進(jìn)行相乘,通道賦值公式如式所示

      (3)

      通道賦值中,對(duì)應(yīng)的權(quán)值sc表示為各個(gè)特征通道對(duì)表情的相關(guān)性大小。模型訓(xùn)練時(shí),通過(guò)sc的大小對(duì)相應(yīng)的特征進(jìn)行增強(qiáng)或者抑制。通過(guò)這種方式,能夠?qū)崿F(xiàn)對(duì)最具鑒別性表情特征的聚焦,提升模型的性能。

      2.3.2 時(shí)間注意力原理

      在視頻序列的識(shí)別任務(wù)中,并不是每一時(shí)刻的表情都對(duì)識(shí)別的貢獻(xiàn)相同。因此本文提出一種時(shí)間注意力機(jī)制,賦予表情峰值幀更多的權(quán)重,以生成更有判別性的特征。在時(shí)間注意力中,提出了一種比較幀強(qiáng)度的方法,即通過(guò)一個(gè)全連接層,將每個(gè)幀特征映射為時(shí)間注意力分?jǐn)?shù)。公式如下

      (4)

      式中,WtAtt為時(shí)間注意力模塊中可學(xué)習(xí)的參數(shù)矩陣。ut表示序列第t幀圖片時(shí)間注意力分?jǐn)?shù);然后,通過(guò)Softmax函數(shù)歸一化每幀的注意力分?jǐn)?shù)

      (5)

      (6)

      最后,使用兩個(gè)全連接層降維,并使用Softmax函數(shù)分類(lèi)得出六種表情結(jié)果。

      3 實(shí)驗(yàn)與分析

      3.1 表情數(shù)據(jù)集預(yù)處理

      為了驗(yàn)證本文算法在視頻序列表情識(shí)別的效果,本文選取了公開(kāi)主流數(shù)據(jù)庫(kù):CK+數(shù)據(jù)庫(kù)與Oulu-CASIA數(shù)據(jù)庫(kù)。

      在實(shí)驗(yàn)過(guò)程中使用dlib庫(kù)提供的人臉檢測(cè)器對(duì)眼睛、眉毛、鼻子、嘴巴和面部輪廓在內(nèi)的68個(gè)人臉關(guān)鍵點(diǎn)進(jìn)行檢測(cè)。利用68個(gè)點(diǎn)位置,計(jì)算臉部中間點(diǎn)的信息。根據(jù)視頻第一幀的位置信息,利用仿射變換矩陣調(diào)整后續(xù)圖像,使后續(xù)人臉臉部對(duì)齊。最后將臉部圖片裁剪成64x64尺寸,圖3為裁剪后的表情圖像。

      圖3 部分裁剪后圖像樣本

      由于兩個(gè)數(shù)據(jù)集中序列表情圖片較少,為了保證模型的泛化性與魯棒性,本文實(shí)驗(yàn)對(duì)數(shù)據(jù)集采取了數(shù)據(jù)擴(kuò)充的方法。具體地,首先將裁剪到的所有人臉區(qū)域圖片進(jìn)行水平反轉(zhuǎn)得到翻轉(zhuǎn)圖像數(shù)據(jù)集;然后,將原數(shù)據(jù)集與反轉(zhuǎn)圖像數(shù)據(jù)集分別偏移-10°、-5°、5°、10°得到偏移數(shù)據(jù)集,最后獲得10倍于原先的實(shí)驗(yàn)數(shù)據(jù)量。因?yàn)楦鱾€(gè)視頻的幀數(shù)都不同,而模型的輸入維度是不變的,因此對(duì)CK+與Oulu-CASIA中每個(gè)表情視頻序列均從起始幀按照時(shí)間序列連續(xù)采樣16幀,作為神經(jīng)網(wǎng)絡(luò)的輸入。此外,如果視頻序列幀數(shù)少于16幀的長(zhǎng)度,則復(fù)制最后一幀直至每個(gè)序列變?yōu)槠骄L(zhǎng)度。

      3.2 實(shí)驗(yàn)設(shè)置

      本文實(shí)驗(yàn)軟件框架為Pytorch1.8.1。實(shí)驗(yàn)在訓(xùn)練時(shí)采用隨機(jī)梯度下降法優(yōu)化模型在模型訓(xùn)練時(shí),CK+的訓(xùn)練集損失函數(shù)變化情況如圖4所示,當(dāng)?shù)?50個(gè)epoch后,損失函數(shù)已基本收斂,損失函數(shù)值接近0.1,因此實(shí)驗(yàn)中epoch取160。為了能更好地體現(xiàn)出算法的實(shí)驗(yàn)效果,本次實(shí)驗(yàn)使用十折交叉驗(yàn)證方法得到最后的準(zhǔn)確率。

      圖4 CK+訓(xùn)練損失函數(shù)圖

      3.3 消融實(shí)驗(yàn)

      為了體現(xiàn)加入了混合注意力機(jī)制的效果提升,對(duì)其進(jìn)行了消融實(shí)驗(yàn)。其中,Baseline是指改進(jìn)的VGG16與GRU的級(jí)聯(lián)網(wǎng)絡(luò),CA代表通道注意力模塊,TA代表時(shí)間注意力模塊,HA代表CA與TA相結(jié)合的混合注意力模塊。

      表2為消融實(shí)驗(yàn)中各個(gè)模型的準(zhǔn)確率。單獨(dú)加入通道注意力模塊與單獨(dú)加入時(shí)間注意力的網(wǎng)絡(luò)在兩個(gè)主流數(shù)據(jù)集上所得的準(zhǔn)確率相對(duì)于Baseline都有明顯的提高。

      表2 各個(gè)模型準(zhǔn)確率

      對(duì)于CK+數(shù)據(jù)集,單個(gè)時(shí)間與單個(gè)通道注意力模塊的加入分別比Baseline提高0.95%和1.41%。在Oulu-CASIA的實(shí)驗(yàn)中,分別提高了1.69%與4.76%。由此可得,通道注意力的性能略?xún)?yōu)于時(shí)間注意力的識(shí)別性能,說(shuō)明在視頻表情識(shí)別中全局通道維度比全局時(shí)間維度提供更多的信息。此外,Baseline-HA模型在CK+與Oulu-CASIA的準(zhǔn)確率分別比Baseline高出2.47%和6.75%,這表明混合注意力模塊能夠有效地將兩個(gè)注意力模塊的性能進(jìn)行互補(bǔ),不僅能夠在視頻序列中給予表情峰值幀更多的關(guān)注,而且能抑制無(wú)關(guān)通道干擾,提取更具顯著性的臉部紋理特征。

      3.4 混淆矩陣分析

      圖5與圖6展示了本文方法在兩個(gè)數(shù)據(jù)集上的混淆矩陣?;煜仃嚨男斜硎井?dāng)前表情的真正類(lèi)別,列為模型的分類(lèi)表情。不難得知,CK+數(shù)據(jù)庫(kù)的整體表情識(shí)別準(zhǔn)確率比Oulu-CASIA的要高,這是因?yàn)镃K+中大多數(shù)為清晰的人物正臉圖像;而Oulu-CASIA中圖像分辨率不夠高,而且部分人物有眼鏡和圍巾的遮擋,導(dǎo)致識(shí)別率較低。

      圖5 CK+識(shí)別結(jié)果混淆矩陣

      圖6 Oulu-CASIA識(shí)別結(jié)果混淆矩陣

      比較兩個(gè)混淆矩陣的數(shù)據(jù)可知,文中模型對(duì)驚訝與開(kāi)心兩個(gè)表情取得了優(yōu)異的識(shí)別效果。模型對(duì)于生氣和害怕兩個(gè)表情識(shí)別性能較弱,主要原因是,數(shù)據(jù)集中害怕與驚訝大部分都是瞪眼和張嘴的動(dòng)作,而生氣與悲傷都伴隨著鎖眉和撇嘴的動(dòng)作。具體而言,表情的相似導(dǎo)致模型出現(xiàn)混淆分類(lèi)的情況。

      3.5 與現(xiàn)有方法對(duì)比

      表3展示了本文所提模型與其它主流模型在所選數(shù)據(jù)集上實(shí)驗(yàn)的對(duì)比結(jié)果。

      表3 不同方法的準(zhǔn)確率對(duì)比

      從中可得,本文所提出模型對(duì)CK+與Oulu-CASIA這兩個(gè)數(shù)據(jù)集的識(shí)別準(zhǔn)確率僅次于MGLN-GRU,而優(yōu)于其它方法。值得注意的是,本文模型只關(guān)注于表情特征,而識(shí)別準(zhǔn)確率高于同時(shí)利用表情特征和幾何路標(biāo)點(diǎn)的PHRNN-MSCNN。而MGLN-GRU利用復(fù)雜的多任務(wù)模型實(shí)現(xiàn)了99.08%與90.40%的識(shí)別率,比文中模型分別高了0.38%和1.25%,但是MGLN-GRU模型與本文的實(shí)驗(yàn)設(shè)置不同,該模型的輸入是選取視頻序列的第一幀、中間幀和最后一幀來(lái)表示表情演化,這種離散幀的識(shí)別方法會(huì)造成峰值信息缺失。本文提出模型將視頻的連續(xù)多幀作為輸入,使文中模型注重于連續(xù)幀之間的表情依賴(lài)性,較好地適應(yīng)了表情強(qiáng)度的變化,更符合現(xiàn)實(shí)生活人臉表情變化過(guò)程。

      4 結(jié)束語(yǔ)

      本文設(shè)計(jì)了一種混合注意力機(jī)制視頻序列表情識(shí)別模型。該方法的主體為改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)與GRU網(wǎng)絡(luò)的級(jí)聯(lián)網(wǎng)絡(luò),可以提取序列時(shí)空信息的同時(shí)減少特征提取的計(jì)算量。其次,提出了由通道與時(shí)間注意力組成的混合注意力模塊,更關(guān)注于表情峰值幀中與表情相關(guān)性高的特征通道。通過(guò)數(shù)據(jù)擴(kuò)充方法,解決目前表情數(shù)據(jù)規(guī)模較小的難題,保證模型的泛化性。實(shí)驗(yàn)結(jié)果表明,嵌入混合注意力模塊使得模型在CK+與Oulu-CASIA兩個(gè)數(shù)據(jù)集上的識(shí)別準(zhǔn)確率分別提高2.47%與6.79%。最后,通過(guò)與其它研究方法對(duì)比,該模型在表情識(shí)別準(zhǔn)確率有明顯優(yōu)勢(shì)。驗(yàn)證了本文提出的方法能夠有效地提取最具表達(dá)能力的特征,提高識(shí)別準(zhǔn)確率。

      猜你喜歡
      注意力準(zhǔn)確率特征
      讓注意力“飛”回來(lái)
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
      2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
      如何表達(dá)“特征”
      不忠誠(chéng)的四個(gè)特征
      高速公路車(chē)牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
      抓住特征巧觀察
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      A Beautiful Way Of Looking At Things
      化隆| 松滋市| 苏尼特左旗| 上杭县| 安国市| 兴安盟| 清苑县| 神木县| 友谊县| 贵州省| 兰考县| 红桥区| 平塘县| 安龙县| 原阳县| 关岭| 石首市| 霞浦县| 福海县| 石首市| 丹东市| 会昌县| 修水县| 霞浦县| 会昌县| 瑞安市| 东乡族自治县| 正宁县| 明光市| 塘沽区| 南丹县| 麦盖提县| 无锡市| 景宁| 台东县| 绍兴县| 揭西县| 彭山县| 永吉县| 郸城县| 错那县|