唐志偉,張石清,趙小明,
(1.浙江理工大學(xué)機(jī)械與自動(dòng)控制學(xué)院,浙江 杭州 310018;2.臺(tái)州學(xué)院智能信息處理研究所,浙江 臺(tái)州 318000)
1456792435@qq.com;tzczsq@163.com;tzxyzxm@163.com
自動(dòng)人格識(shí)別技術(shù)是指通過計(jì)算機(jī)等輔助工具,對人們第一印象的行為數(shù)據(jù)(如聽覺、視覺等)進(jìn)行自動(dòng)識(shí)別的過程。目前心理學(xué)中最具影響力的人格評(píng)估模型為美國心理學(xué)家MCCRAE等提出的大五類(Big-Five)因素模型。該模型包括開放性(Openness,O)、盡責(zé)性(Conscientiousness,C)、外向性(Extroversion,E)、宜人性(Agreeableness,A)和神經(jīng)質(zhì)(Neuroticism,N),這五個(gè)維度代表了人類的人格特征。自動(dòng)人格識(shí)別的研究已成為心理學(xué)、計(jì)算機(jī)科學(xué)等相關(guān)領(lǐng)域的研究熱點(diǎn)。
早期的視覺人格識(shí)別方法主要是基于手工設(shè)計(jì)的視覺人格特征,然后將特征輸入支持向量機(jī)(Support Vector Machine,SVM)等經(jīng)典的分類器,用于實(shí)現(xiàn)視覺人格識(shí)別。在面向動(dòng)態(tài)視頻序列的手工視覺人格特征中,動(dòng)態(tài)視頻序列是由一系列視頻圖像幀組成,包含了時(shí)間信息和場景動(dòng)態(tài)。面向三個(gè)正交平面的局部Gabor二值模式(Local Gabor Binary Patterns from Three Orthogonal Planes,LGBPTOP)是其中一種代表性的手工動(dòng)態(tài)視頻描述符。KAYA等利用18 個(gè)Gabor濾波器對動(dòng)態(tài)視頻序列人臉圖像提取手工特征LGBP-TOP,進(jìn)一步輸入核極限學(xué)習(xí)機(jī)(Kernel Extreme Learning Machine,KELM)中預(yù)測大五人格特質(zhì)。
隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,一系列深度學(xué)習(xí)網(wǎng)絡(luò)模型被用于識(shí)別顯著視覺人格特征,包括卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)、長短時(shí)記憶(Long Short Term Memory,LSTM)網(wǎng)絡(luò)等。BEYAN等通過采用CNN+LSTM模型學(xué)習(xí)關(guān)鍵動(dòng)態(tài)圖像的空間和時(shí)間信息,最后利用SVM分類器實(shí)現(xiàn)自動(dòng)人格識(shí)別?,F(xiàn)有的視覺人格識(shí)別模型忽略了視頻序列中每幀圖像對人格識(shí)別的影響,為了有效利用視頻中的視覺信息,本文提出一種基于Transformer的視覺人格識(shí)別方法。首先采用預(yù)訓(xùn)練好的人臉卷積神經(jīng)網(wǎng)絡(luò)模型VGG-Face提取出視頻序列中的每幀圖像的深度幀級(jí)特征,包括視覺場景圖像和視覺人臉圖像。然后將提取出的兩種幀級(jí)視覺特征輸入到雙向長短時(shí)記憶網(wǎng)絡(luò)(Bidirectional Long Short Term Memory Network,Bi-LSTM)和Transformer網(wǎng)絡(luò)分別進(jìn)行時(shí)間信息和注意力信息的建模。最后,將視覺全局特征級(jí)聯(lián)并輸入一個(gè)線性回歸層網(wǎng)絡(luò),融合視覺特征信息,從而實(shí)現(xiàn)特征層的視覺大五人格預(yù)測得分。在公開數(shù)據(jù)集ChaLearn First Impressions V2上對所提出的模型進(jìn)行了評(píng)估,實(shí)驗(yàn)表明,本文所提出的方法能夠有效提升視覺人格識(shí)別效果。
圖1給出了本文提出的一種采用CNN+Bi-LSTM+Transformer的視覺模態(tài)人格識(shí)別模型框架,該方法采用兩種視覺模態(tài)信號(hào):全局場景圖像信號(hào)與局部人臉圖像信號(hào),具體包括三個(gè)步驟:數(shù)據(jù)預(yù)處理、特征提取和特征層融合,細(xì)節(jié)如圖1所示。
圖1 CNN+Bi-LSTM+Transformer模型框架示意圖Fig.1 Schematic diagram of CNN+Bi-LSTM+Transformer model framework
對視頻中的視覺圖像信號(hào)進(jìn)行采樣處理。對于視頻中的場景圖像,在每個(gè)原始視頻中等間隔選擇100 幀場景圖像,并將每幀場景圖像的分辨率從原來的1280×720 像素重新采樣到224×224 像素,進(jìn)而輸入VGG-Face模型中。視頻中的人臉圖像采用多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)(Multi-Task Convolutional Neural Network,MTCNN)進(jìn)行人臉檢測。MTCNN使用三個(gè)子網(wǎng)和非極大值抑制(Non-Maximum Suppression,NMS)生成邊界框,并將它們組合輸出面部區(qū)域和關(guān)鍵點(diǎn)。采集的人臉圖像分辨率為224×224。針對部分視頻受光照等環(huán)境影響,導(dǎo)致采用MTCNN方法截取人臉成功率較低,最后選取30 幀截取后的人臉圖像用于后續(xù)人臉圖像特征提取。對于采用MTCNN方法截取人臉圖像多余30 幀的視頻,進(jìn)行等間隔選取30 幀人臉圖像。對于采用MTCNN方法截取人臉圖像少于30 幀的視頻,重復(fù)插入第一幀和最后一幀的人臉圖像,直到獲得大小為30 幀的人臉視頻。
特征提取是對視頻中視覺信號(hào)的局部特征和全局特征進(jìn)行提取。
(1)視覺局部特征提取
對于視頻序列中的每幀預(yù)處理圖像(包括場景圖像和人臉圖像),使用在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練好的VGG-Face模型來學(xué)習(xí)深度視覺場景圖像特征和人臉圖像特征的高層次特征。VGG-Face網(wǎng)絡(luò)由13 個(gè)卷積層、5 個(gè)池化層和2 個(gè)全連接層組成。由于VGG-Face網(wǎng)絡(luò)最后一個(gè)全連接層的神經(jīng)元數(shù)為4,096,VGG-Face網(wǎng)絡(luò)學(xué)習(xí)到的視覺幀級(jí)特征的維度為4,096。
(2)視覺全局特征提取
當(dāng)完成對視頻中視覺局部特征任務(wù)之后,需要學(xué)習(xí)與時(shí)間和幀級(jí)注意力相關(guān)的全局視覺場景特征和視覺人臉圖像特征,進(jìn)一步用于完成面向整個(gè)視頻序列的人格預(yù)測任務(wù)。為此,擬采用Bi-LSTM與Transformer網(wǎng)絡(luò)分別對視頻序列中提取的視覺局部特征進(jìn)行時(shí)間與幀級(jí)注意力信息的建模。
①Bi-LSTM方法:給定一個(gè)視頻片段序列e=(,,…,e),時(shí)間步長∈[1,],Bi-LSTM由前向傳播算法和反向傳播算法疊加組成,輸出則由這兩種算法的隱藏層的狀態(tài)決定。
給定輸入序列e,輸入Bi-LSTM網(wǎng)絡(luò)中,相應(yīng)的學(xué)習(xí)過程為
②Transformer方法:如圖2所示,采用的Transformer模塊包括位置嵌入編碼、Transformer編碼層及編碼層內(nèi)置的多頭注意力機(jī)制。
圖2 Transformer模型結(jié)構(gòu)示意圖Fig.2 Schematic diagram of Transformer model structure
(a)位置嵌入編碼:本文采用位置嵌入(Position Embedding)編碼方法為輸入的語音片段和每幀圖像特征添加相應(yīng)的位置信息。以圖像片段特征為例,給定一個(gè)片段特征∈R,隨機(jī)生成一個(gè)位置矩陣∈R,位置編碼公式如下。
式中,∈[1,] ,∈[1,];位置矩陣P在訓(xùn)練過程中更新;∈R是包含位置信息的片段特征;⊕表示元素相加。
(b)Transformer編碼層:該模塊由多頭自注意力(Multi-Head Self-Attention,MHA)層,殘差(Residual)塊和層歸一化(LayerNorm),一個(gè)由兩個(gè)全連接層和兩個(gè)GELU(Gaussian Error Linear Unit)激活函數(shù)組成的多層感知機(jī)(Multi-Layer Perceptron,MLP)網(wǎng)絡(luò)組成,最后輸出一個(gè)片段幀注意力特征∈R,計(jì)算過程如下。
(c)多頭注意力機(jī)制:多頭注意力機(jī)制是自注意力機(jī)制的一個(gè)變種,最早在自然語言處理領(lǐng)域中用來處理文本序列數(shù)據(jù)。
為了有效融合學(xué)習(xí)到的視覺場景圖像特征與視覺人臉圖像特征,需要將這兩種視覺模態(tài)信息進(jìn)行融合,以實(shí)現(xiàn)不同視覺模態(tài)的人格識(shí)別。本文采用特征層融合方法進(jìn)行不同視覺信息的融合,并與決策層融合方法進(jìn)行比較。這兩種多模態(tài)信息融合方法主要內(nèi)容如下。
決策層融合被稱為后期融合(Late Fusion,LF)。首先對每個(gè)模態(tài)先進(jìn)行單獨(dú)的人格預(yù)測,然后通過某種決策規(guī)則將各個(gè)單模態(tài)的預(yù)測結(jié)果進(jìn)行結(jié)合,并得到最終的融合結(jié)果,因此本文對兩個(gè)視覺模態(tài)進(jìn)行加權(quán)決策融合。擬采用XU等提出的均方誤差(Mean Squared Error,MSE)最小化的思想,得到了各個(gè)模態(tài)的最優(yōu)權(quán)重值。
特征層融合被稱為早期融合(Early Fusion,EF),是將提取的多種特征直接級(jí)聯(lián)成一個(gè)總的特征向量。本文將提取的全局性的視覺場景特征和視覺人臉圖像特征級(jí)聯(lián)到一個(gè)線性回歸層(Linear Regresion Layer),實(shí)現(xiàn)大五人格預(yù)測。
實(shí)驗(yàn)采用的人格識(shí)別數(shù)據(jù)集為ChaLearn First Impression V2,由YouTube視頻中的10,000 個(gè)短視頻組成,每個(gè)視頻分辨率為1280×720,時(shí)長約15 s,面對攝像機(jī)說話的人使用英文。視頻所涉及的人具有不同的性別、年齡、種族等,其中6,000 個(gè)用于訓(xùn)練,2,000 個(gè)用于驗(yàn)證,2,000 個(gè)用于測試。因?yàn)闇y試集只對參加競賽者開放,本文實(shí)驗(yàn)只使用訓(xùn)練集和驗(yàn)證集。這些視頻剪輯使用大五人格特質(zhì)進(jìn)行注釋,每個(gè)特質(zhì)都用范圍[0,1]之間的值表示。
模型在訓(xùn)練過程中,樣本的批處理大小(Batch Size)設(shè)為32,初始學(xué)習(xí)率設(shè)為1×e,每一個(gè)輪次(Epoch)后都會(huì)變?yōu)樵瓉淼囊话搿W畲笱h(huán)次數(shù)設(shè)為30,使用自適應(yīng)矩估計(jì)(Adaptive Moment Estimatio,Adam)優(yōu)化器進(jìn)行優(yōu)化,采用均方誤差損失函數(shù)(Mean Squared Error Loss,MSEloss),實(shí)驗(yàn)平臺(tái)為顯存24 GB的NVIDIA GPU Quadro M6000。
本文使用如下公式作為評(píng)價(jià)指標(biāo)用來評(píng)估預(yù)測的人格特質(zhì)分?jǐn)?shù):
(1)消融實(shí)驗(yàn)
本文模型主要由Bi-LSTM和Transformer模塊組成,在第一印象數(shù)據(jù)集上進(jìn)行三組實(shí)驗(yàn),驗(yàn)證各模塊的有效性。
表1為消融實(shí)驗(yàn)結(jié)果。如表1所示Bi-LSTM模型在ChaLearn First Impression V2人格數(shù)據(jù)集中的大五人格平均分?jǐn)?shù)為0.9136,而Transformer模型在人格數(shù)據(jù)集取得的大五人格平均分?jǐn)?shù)為0.9022,Bi-LSTM表現(xiàn)更好,可知Bi-LSTM模型學(xué)習(xí)的時(shí)間維度特征比Tansformer模型學(xué)習(xí)的幀注意力特征更重要。Transformer與Bi-LSTM相結(jié)合后的模型BL+Tran取得了最好的分?jǐn)?shù)。這說明Transformer學(xué)習(xí)到的幀注意力特征與Bi-LSTM學(xué)習(xí)到的時(shí)間維度特征存在互補(bǔ)性,兩者相結(jié)合能夠明顯提升多模態(tài)人格識(shí)別性能。
表1 消融實(shí)驗(yàn)對比結(jié)果Tab.1 Comparison results of ablation experiments
(2)單視覺模態(tài)人格識(shí)別結(jié)果及分析
本文將支持向量回歸(Support Vector Regression,SVR)和決策樹回歸(Decision Tree Regression,DTR)經(jīng)典回歸模型用于單視覺模態(tài)人格識(shí)別實(shí)驗(yàn)。其中SVR采用了多項(xiàng)式(Poly)函數(shù)、徑向基函數(shù)(Radical Basis Function,RBF)和線性(Linear)函數(shù)三種核函數(shù),核函數(shù)的階數(shù)degree=3,懲罰因子C=2.0,參數(shù)gamma=0.5。這些回歸模型使用的輸入特征是對提取的視覺局部特征經(jīng)過平均池化后得到的全局特征。深度學(xué)習(xí)模型LSTM和Bi-LSTM,均使用兩層結(jié)構(gòu),且最后一層均輸出2,048 維特征。對于基于注意力機(jī)制的Transformer模型,使用六層編碼層,最后一層輸出1,024 維特征。對于Bi-LSTM+Transformer,級(jí)聯(lián)后最后一層輸出3,072 維特征。
表2和表3分別是對深度視覺場景圖像特征與深度視覺人臉圖像特征采用預(yù)訓(xùn)練好的VGG-Face提取后從不同模型學(xué)習(xí)得到的人格預(yù)測結(jié)果。由表2和表3可見,深度視覺場景圖像特征與深度視覺人臉圖像特征在深度學(xué)習(xí)模型Bi-LSTM+Transformer中分別獲得0.9044和0.9128的最高大五人格平均分?jǐn)?shù),表明該模型在視覺模態(tài)人格識(shí)別中具有一定的優(yōu)勢,傳統(tǒng)回歸模型DTR、SVR與深度學(xué)習(xí)模型Transformer、LSTM和Bi-LSTM在視覺模態(tài)人格預(yù)測分?jǐn)?shù)上相比,劣勢明顯,其中DTR表現(xiàn)最差。這兩種單視覺模態(tài)特征在人格預(yù)測中,深度視覺人臉圖像特征表現(xiàn)優(yōu)于深度視覺場景圖像特征,這表明人臉圖像特征在人格識(shí)別任務(wù)中包含更多的識(shí)別信息。
表2 不同方法下深度視覺場景圖像特征的人格預(yù)測結(jié)果Tab.2 Personality prediction results of image features of deep vision scene under different methods
表3 不同方法下深度視覺人臉圖像特征的人格預(yù)測結(jié)果Tab.3 Personality prediction results of image features of deep vision face under different methods
(3)融合場景與人臉圖像的視覺人格識(shí)別結(jié)果及分析
在視覺模態(tài)人格識(shí)別任務(wù)中分別使用特征層與決策層融合方法進(jìn)行實(shí)驗(yàn)。
表4列出了單視覺模態(tài)和兩種視覺模態(tài)在特征層融合和決策層融合方法取得的人格識(shí)別結(jié)果比較,其中Scene指場景圖像,F(xiàn)ace指人臉圖像。特征層融合是對Transformer與Bi-LSTM學(xué)習(xí)到的視覺全局特征(6,144 維)進(jìn)行級(jí)聯(lián),然后輸入一個(gè)線性回歸層而獲得的結(jié)果。決策層融合是對Bi-LSTM+Transformer在兩種視覺模態(tài)獲得的大五人格分?jǐn)?shù)采用XU等最優(yōu)加權(quán)策略融合得到的。
表4 特征層融合和決策層融合方法取得的人格識(shí)別結(jié)果比較Tab.4 Comparison of personality recognition results obtained by feature-level fusion and decision-level fusion methods
由表4可見,兩種視覺模態(tài)融合時(shí),使用特征層融合方法效果優(yōu)于決策層融合方法,大五人格平均分?jǐn)?shù)為0.9141。
本文提出了一種基于Transformer的視頻序列的人格識(shí)別方法。該方法將VGG-Face、Bi-LSTM和Transformer模型結(jié)合,分別用于學(xué)習(xí)對應(yīng)更高層次的視覺全局特征。最后比較了特征層與決策層的視覺人格預(yù)測結(jié)果。在ChaLearn First Impression V2公開人格數(shù)據(jù)集上的實(shí)驗(yàn)表明,本文方法能有效提升視覺模態(tài)人格識(shí)別模型的性能。由于當(dāng)前工作中只考慮了視覺模態(tài),在未來工作中應(yīng)考慮增加文本、聽覺、生理信號(hào)等更多與人格特質(zhì)相關(guān)的模態(tài)信息,嘗試更多先進(jìn)的融合方法,以便更好地提升人格識(shí)別效果。