征 察,吉立新,李邵梅,高 超
(國家數(shù)字交換系統(tǒng)工程技術(shù)研究中心, 鄭州 450000) (*通信作者電子郵箱zcpi31415926@163.com)
基于多模態(tài)信息融合的新聞圖像人臉標注
征 察*,吉立新,李邵梅,高 超
(國家數(shù)字交換系統(tǒng)工程技術(shù)研究中心, 鄭州 450000) (*通信作者電子郵箱zcpi31415926@163.com)
針對傳統(tǒng)新聞圖像中人臉標注方法主要依賴人臉相似度信息,分辨噪聲和非噪聲人臉能力以及非噪聲人臉標注能力較差的問題,提出一種基于多模態(tài)信息融合的新聞圖像人臉標注方法。首先根據(jù)人臉和姓名的共現(xiàn)關(guān)系,利用改進的K近鄰算法,獲得基于人臉相似度信息的人臉姓名匹配度;然后,分別從圖像中提取人臉大小和位置的信息對人臉重要程度進行表征,從文本中提取姓名位置信息對姓名重要程度進行表征;最后,使用反向傳播神經(jīng)網(wǎng)絡(luò)來融合上述信息完成人臉標簽的推理,并提出一個標簽修正策略來進一步改善標注結(jié)果。在Label Yahoo! News數(shù)據(jù)集上的測試效果表明,所提方法的標注準確率、精度和召回率分別達到了77.11%、73.58%和78.75%,與僅基于人臉相似度的算法相比,具有較好的分辨噪聲和非噪聲人臉能力以及非噪聲人臉標注能力。
新聞圖像;人臉標注;K近鄰算法;多模態(tài)信息;反向傳播神經(jīng)網(wǎng)絡(luò)
作為公開情報挖掘、大規(guī)模人臉數(shù)據(jù)庫建立和跨媒體信息檢索等多個領(lǐng)域的支撐技術(shù),新聞圖像中的人臉標注一直是計算機視覺領(lǐng)域中的一個研究熱點。其目的是針對有文本描述的新聞圖像,將圖像中的人臉用其在文本中的真實姓名作為標簽進行標注。
當前,研究者已提出了一系列人臉標注的方法。FaceBook、Google等互聯(lián)網(wǎng)公司提出的多種基于深度學習的人臉標注模型[1-3]取得了很好的效果。但是這些模型的訓練需要海量的訓練數(shù)據(jù),這通常難以獲得。為了減少對訓練數(shù)據(jù)的依賴,主流方法主要通過無監(jiān)督和弱監(jiān)督學習的方式進行人臉標注。劉勝宇[4]使用近鄰傳播(Affinity Propagation, AP)聚類算法[5]對大量待標注人臉進行聚類,并認為聚類結(jié)果中每個類簇中的人臉具有相同的標簽,之后通過分析每個類簇中人臉的候選姓名來確定人臉標簽。Luo等[6]2-6將新聞圖像中的人臉視為是被多個候選姓名同時標記的數(shù)據(jù),并根據(jù)最大邊緣準則,提出了MMS(Maximum Margin Set)算法,通過最大化人臉被候選姓名標注和被非候選姓名標注時的置信度差異,來獲得人臉標注模型。Zhang等[7]提出基于示例的偏標記學習(Instance-based PArtial Label learning, IPAL)算法,通過基于人臉間親密度的標簽傳播來獲得每個人臉的標簽。Wang等[8-10]提出了一系列基于檢索的人臉標注方法。這些方法將待標注人臉在大規(guī)模人臉數(shù)據(jù)庫中進行檢索,并根據(jù)返回的最相似的若干張人臉圖像的姓名推理出待標注人臉的標簽。Chen等[11]1-3采用多信息融合的方式進行人臉標簽推理。其首先使用基于檢索的方法IM(Image Match)和基于圖模型的方法GM(Graph Match)分別得到兩種人臉標注結(jié)果,并根據(jù)兩種結(jié)果融合方式的不同,提出了兩種基于信息融合的人臉標注方法:EF-IMGA (Early Fusion of IM and GA method)和LF-IMGA (Later Fusion of IM and GA method)。
圖1 基于多模態(tài)信息融合的新聞圖像人臉標注方法框架
可以看出,現(xiàn)有的方法主要依賴于人臉相似度信息來完成人臉標注。這帶來以下兩個問題:首先,在待標注人臉集中常含有大量在文本中不存在真實姓名的噪聲人臉[12]7,這些噪聲人臉主要由新聞圖像中的背景人物的人臉,以及被人臉檢測器誤檢為人臉的非人臉物體組成。僅依靠人臉相似度信息很難將噪聲人臉和非噪聲人臉區(qū)分開,并對噪聲人臉和非噪聲人臉準確標注。其次,由于新聞圖像中人物的不同表情、光照和姿勢等因素帶來的視覺空間差異,人臉相似度可靠性較低[13-14],即使可以將噪聲人臉和非噪聲人臉區(qū)分開,僅靠人臉相似度也很難將非噪聲人臉標注正確。
然而,在新聞圖像-文本數(shù)據(jù)集中,除人臉相似度信息外,還存在其他一些有助于確定人臉標簽的信息。根據(jù)Mathialaga等[15]1的研究可知,在圖像中并非所有的人臉都是同等重要的,通常圖像中面積越大的人臉越重要。同樣Berg等[16]2-3的研究顯示,當文本中存在多個候選姓名時,往往越早出現(xiàn)的姓名越重要。受此啟發(fā),本文提出噪聲人臉相對于非噪聲人臉重要程度較低,且非噪聲人臉和其真實姓名應具有同等重要程度的假設(shè),并基于該假設(shè)提出一種基于多模態(tài)信息融合的新聞圖像人臉標注(Face Annotation in news images based on Multi-modal Information Fusion, FAMIF)方法,通過融合多種有助于確定人臉標簽的信息來進行人臉標注。FAMIF首先提取出基于人臉相似度的人臉姓名匹配度、人臉重要程度和候選姓名重要程度等多模態(tài)信息;然后訓練一個融合上述三種信息的信息融合模型來進行人臉姓名的推理;最后,根據(jù)同張圖像中人臉姓名關(guān)系的約束,提出一種標簽修正策略來進一步提高人臉標注效果。實驗結(jié)果表明,FAMIF相對于僅基于人臉相似度的方法有較好的噪聲、非噪聲人臉分辨能力,以及非噪聲人臉的標注能力。
FAMIF的總體框架如圖1所示。首先在新聞圖像中對待標注人臉進行檢測和表征,結(jié)果表示為F={f1,f2,…,fi,…,fp},其中p為圖像中待標注人臉總數(shù)。同時將從文本中檢測出的所有姓名作為F中的每個待標注人臉的候選姓名集,表示為C={c1,c2,…,cj,…,cq,null},其中c1,c2,…,cj,…,cq組成了真實候選姓名集Cr,而null是人為添加的一個標簽,用于標注噪聲人臉。其次,從圖像中提取出人臉大小Fs(fi)和人臉位置Fp(fi)用于表征人臉fi的重要程度DF(fi),并從文本中提取出兩種姓名位置信息Np1(cj)和Np2(cj)用于表征候選姓名cj的重要程度DN(cj),以及基于人臉相似度信息得到fi和cj間的人臉姓名匹配度Fr(fi,cj)。這樣待標注人臉-候選姓名對{fi,cj},便可以被表征為一個含有多種信息的特征向量X(fi,cj)。之后,訓練一個滿足如式(1)條件的信息融合模型Z:
Z(X(fi,ni))≥Z(X(fi,cj)); 1≤i≤p,cj∈C
(1)
(2)
最后,根據(jù)同張圖像上,除null標簽外,多張人臉不能擁有相同標簽這一約束,提出一個標簽修正策略對人臉的初始標簽進行修正,得到最終的人臉標注結(jié)果Y={y1,y2,…,yi,…,yp}。
為了表示的方便,在下文的敘述中當表示某類數(shù)據(jù)的一般個例時不標注下標,當有必要表達序號的概念時再標注下標。如“某個待標注人臉”表示為f,“待標注人臉集合中的第i個人臉”表示為fi。
1.2.1 基于人臉相似度的人臉姓名匹配度
盡管由于多種因素的影響,新聞圖像中的人臉相似度信息的可靠性較低,但其仍能為確定人臉標簽提供重要的線索。本文利用人臉相似度信息的方式是建立一個基于改進的K近鄰(K-Nearest Neighbor,KNN)算法的分類模型來獲得人臉姓名匹配度,并將其作為用于人臉姓名推理的一維信息。
基于KNN的分類方法的傳統(tǒng)思路是:假設(shè)已知圖像中的待標注人臉f和其真實候選姓名集{c1,c2,…,cq},以及由其中每個候選姓名的真實人臉樣本所組成的訓練集T={(f1T,n1T),(f2T,n2T),…,(ftT,ntT)}(其中,上標T表示訓練數(shù)據(jù)),根據(jù)設(shè)定的距離度量,計算訓練集中每個樣本和f的距離,并將距離f最近的k個樣本點所組成的集合記為Nk(f)。在Nk(f)中根據(jù)分類決策規(guī)則(如多數(shù)表決),決定f的標簽y:
(3)
其中:I為示性函數(shù),即當niT=cj時,I=1;否則I=0。
將基于KNN的分類方法用于新聞圖像中的人臉標注,面臨的首要問題是如何獲得每個真實候選姓名足夠的真實人臉樣本以組成訓練集。為了解決這個問題,本文基于文獻[17]中的一個假設(shè)來從輸入的數(shù)據(jù)集中獲得訓練樣本,該假設(shè)的內(nèi)容為:對于一個由多個新聞圖像-文本數(shù)據(jù)組成的數(shù)據(jù)集,在候選姓名集含有c的所有人臉中,屬于c的真實人臉相對于其他候選姓名占有最大的比例。以候選姓名c為例,獲得訓練樣本的具體過程為首先在數(shù)據(jù)集中找出候選姓名集中含有c的所有人臉,并記這些人臉組成的集合為c的相關(guān)人臉集。之后在c的相關(guān)人臉集中使用AP聚類算法對人臉進行聚類,將最大的人臉類簇作為c的訓練樣本。之所以使用AP聚類算法進行人臉聚類,是因為事先不知道每個候選姓名的相關(guān)人臉集中含有多少個候選姓名的人臉,無法確定應該將相關(guān)人臉集聚為幾類,而AP聚類的特點就是不需要預先指定類別數(shù)量。
至此,可以為每個候選姓名獲得一定數(shù)量的訓練樣本。但因為每個候選姓名在數(shù)據(jù)集中出現(xiàn)的次數(shù)不同,不同候選姓名的訓練樣本數(shù)量相差較大,這會使得人臉被傾向于識別為訓練樣本較多的候選姓名的人臉。為了克服該困難,首先對不同候選姓名的訓練樣本數(shù)量進行均衡處理:對于訓練樣本少于20個的候選姓名,通過SMOTE(Synthetic Minority Over-sampling TEchnique)算法[18]為每個候選姓名生成若干人工樣本數(shù)據(jù),將其訓練樣本數(shù)量補充至20個。之后,在對人臉f進行識別的過程中,若在f的真實候選姓名集Cr中cj的訓練樣本數(shù)量最少且為s,則對Cr={c1,c2,…,cq}中每個候選姓名的樣本根據(jù)隨機采樣的方式,將其訓練樣本數(shù)量降至s。
在對不同的人臉計算其和候選姓名的匹配度時,用到的訓練樣本數(shù)量也可能不一致。為了根據(jù)不同的訓練樣本數(shù)量自適應地調(diào)整KNN算法中的參數(shù)k的取值,本文將其定義如式(4)所示:
k=round(α·s);α∈[0.05,1]
(4)
其中:round為四舍五入取整函數(shù);s為識別時每個真實候選姓名用到的訓練樣本數(shù);α為一個取值范圍為[0.05,1]的系數(shù)。
確定了訓練樣本和k的取值后,在計算f和標簽c∈C之間的匹配度Fr(f,c)時,為了同時涵蓋Nk(f)中屬于c的樣本點的個數(shù)和這些樣本點距f的距離信息,本文將Fr(f,c)定義如式(5):
Fr(f,c)=
(5)
其中:ωi為該距離的權(quán)重,距離越小,權(quán)重越大,ωi=1/d(fiT,f);d(fiT,f)為訓練集中的樣本點fiT到待標注人臉f的距離,并被歸一化至[0,1]。為了使獲得的Fr(f,c)的值域為[0,1],使用2π-1arctan(·)對括號內(nèi)的數(shù)值進行非線性變換。而對于待標注人臉f和標簽null的匹配度,本文采用類似于文獻[19]方法,將其視為一種信息不確定問題。當f和每個真實候選姓名的匹配度之間具有明顯差異時,f的標簽最有可能是匹配度最高的候選姓名。而當f和每個真實候選姓名的匹配度之間越接近,f的標簽也越不確定,而此時f的標簽為null的可能性也在增加,因此可使用標準化的信息熵的相反數(shù)來描述f的標簽是null的匹配度:
(6)
其中:q為f真實候選姓名的個數(shù),而將Fr(f,null)定義為負數(shù)的目的是令其和f標簽為真實候選姓名的匹配度加以區(qū)分。在實驗部分,本文采用歐氏距離作為距離度量,同時將k取值公式中的系數(shù)α根據(jù)經(jīng)驗設(shè)為0.2。
1.2.2 人臉重要程度
在拍攝圖像時,攝影師一般會更加靠近重點人物進行拍攝,所以在新聞圖像中,面積較大的人臉通常更加重要,其姓名出現(xiàn)在文本中的可能性也更大。在文獻[15]中,人臉大小信息的表征形式是能框住人臉的最小矩形(Bounding box)面積占圖像面積的比例。然而這種表征方式只涵蓋了每個人臉相對于所在圖像的大小,卻不能涵蓋該人臉相對于同一圖像中其他人臉在面積上的“突出”程度。為能同時涵蓋上述的兩方面的信息,本文將人臉f的人臉大小Fs(f)定義如式(7)所示:
(7)
其中:Fa(fi)和Fa(f)分別為第i張人臉和人臉f的實際面積比上圖像中所有人臉面積總和后得到的歸一化人臉面積值。
此外,當攝影師拍攝照片時,也通常會將重要人物的人臉置于靠近圖像中央的位置。因此本文也將人臉在圖像中的位置作為度量人臉重要程度的因素之一。為了提取出人臉f的位置信息,本文首先計算f的Bounding box的中心到圖像中心的歐氏距離Frp(f),之后通過除所有人臉距離之和,將其歸一化為Fnp(f)。類似于人臉大小信息,為了涵蓋f相對于同一圖像中其他人臉在位置上的“突出”程度,將f的人臉位置Fp(f)定義如式(8)所示:
(8)
在獲得人臉大小信息和人臉位置信息后,人臉f的重要程度DF(f)便可表示為二者的組合,即DF(f)=(Fs(f),Fp(f))。
1.2.3 姓名重要程度
文本中不同的候選姓名通常具有不同的重要程度。Berg等[16]5的研究表明,姓名出現(xiàn)在文本中的位置對姓名重要性的影響占主要地位。在文獻[16]中,候選姓名c的位置信息Np(c)定義如式(9):
Np(c)=L(c)/L(caption)
(9)
其中:L(c)為從文本開端至c第一次出現(xiàn)位置的文本長度;L(caption)為文本的總長度。雖然這種定義能準確地反映候選姓名在文本中出現(xiàn)的位置,但卻無法反映不同候選姓名出現(xiàn)的先后次序。因此,本文同時采用兩種姓名位置的定義方式。第一種定義方式和式(9)一致(Np1(c)),第二種方式為不同候選姓名第一次出現(xiàn)在文本中的次序(Np2(c))。
對于null,因為其并不出現(xiàn)在文本之中,Np1(null)和Np2(null)是沒有意義的。但是為了能夠在同一模型下完成對所有人臉的標注,同時能夠和真實候選姓名的位置值區(qū)分開,本文將Np1(null)定義為2,將Np2(null)定義為20,均遠大于數(shù)據(jù)集中任一個真實候選姓名的姓名位置值。在獲得兩種姓名位置信息后,候選姓名c的重要程度DN(c)便可表示為二者的組合,即DN(c)=(Np1(c),Np2(c))。
1.3.1 基于多模態(tài)信息融合的人臉標簽推理
在獲得人臉姓名匹配度、人臉重要程度和姓名重要程度三種信息之后,待標注人臉-候選姓名對{f,c}便可表示為X(f,c)=(Fr(f),Fs(f),Fp(f),Np1(c),Np2(c))。接下來,如何獲得信息融合模型Z來融合這些信息以完成人臉標簽推理成為關(guān)鍵。鑒于本文所利用的信息種類較多,很難憑借先驗知識和人的主觀經(jīng)驗來設(shè)計融合方法,故采用學習的方式來獲得模型Z。本文將1.2.1節(jié)中獲得的候選姓名的訓練樣本視為已標記數(shù)據(jù),并利用其產(chǎn)生Z的訓練數(shù)據(jù),具體過程為:對于姓名n的某個人臉樣本fT,令其和其候選姓名集C中的每個候選姓名組成一個待標注人臉-姓名數(shù)據(jù),進而可得到{X{fT,c}|c∈C}。對于其中的每個數(shù)據(jù),當n=c時將其標記為1,否則標記為0。這樣,便可以獲得一部分有標記數(shù)據(jù)用于訓練模型Z。
在現(xiàn)有的各種學習算法中,神經(jīng)網(wǎng)絡(luò)具有泛化能力強、穩(wěn)定性高、容錯性好、快速高效等優(yōu)勢。因此,為保證多種信息的合理融合,本文將多模態(tài)信息融合問題轉(zhuǎn)化為回歸問題,通過訓練一個5×h×1結(jié)構(gòu)的反向傳播(Back Propagation, BP)神經(jīng)網(wǎng)絡(luò)來得到模型Z,其中h為隱藏層節(jié)點數(shù)。在獲得模型Z之后,待標注人臉的初始標簽便可根據(jù)式(2)獲得。BP模型的具體訓練和測試過程見2.3節(jié)。
1.3.2 標注結(jié)果修正
在由1.3.1節(jié)得到的結(jié)果中,會出現(xiàn)這樣的情況:部分在同一張圖像上出現(xiàn)的不同人臉被相同的標簽標注。而現(xiàn)實中,同一圖像上多張人臉屬于同一人物的情況在新聞圖像中幾乎不存在[17]3。因此,有必要對由1.3.1節(jié)得到的結(jié)果進行修正,消除同一張圖像上不同人臉被標注相同姓名的情況。本文采用的修正策略如算法1所示。
算法1 標簽修正算法。
輸出 最終標注結(jié)果Y={y1,y2,…,yp}。
fori=1 topdo
Ci={j|1≤j≤q+1}
end for
fori=1 topdo
form=1 topdo
Cm=Cmy′
else
Ci=Ciy′
end if
end if
end for
end for
Y=Yr
其中:p為圖像中待標注人臉數(shù)量;q為文本中真實候選姓名數(shù)量;第q+1個候選姓名為null;C*為f*的候選標簽集合。
實驗在CPU為intel i7- 6700,3.4 GHz,內(nèi)存為8 GB的計算機上,使用Matlab2016a完成。實驗所使用的數(shù)據(jù)集為Label Yahoo! News。其最初是由Berg等[16]6從50萬張Yahoo新聞圖像中收集得到,后又被Guillaumin等[12]7進行了進一步的處理。數(shù)據(jù)集中的人臉含有豐富的光照、表情、姿勢等因素的變化。數(shù)據(jù)集中含有20 071個新聞圖像-文本數(shù)據(jù),以及從這些數(shù)據(jù)中提取出的5 876個候選姓名,31 147個待標注人臉;同時數(shù)據(jù)集中還包含了待標注人臉的Bounding box在圖像的位置,以及人臉的4 992維尺度不變特征變換(Scale-Invariant Feature Transform,SIFT)特征向量。在實驗過程中,為了在盡可能在人臉特征信息不過分丟失的情況下降低計算開銷,本文通過使用主成分分析(Principal Component Analysis,PCA)算法,將人臉特征維度降至300維。
與文獻[6]中的預處理方法一致,本文從候選姓名中選擇出那些重復超過20次的姓名,共計214個,并將其余的候選姓名視為null標簽,同時刪除了候選姓名中不包含這214個姓名的圖像。處理后的數(shù)據(jù)集的具體信息如表1所示。其中,非噪聲人臉比例是數(shù)據(jù)集中歸屬于這214個姓名的人臉占所有人臉的比例??梢钥闯?數(shù)據(jù)集中非噪聲人臉比例僅為56%,剩下的44%的人臉均為噪聲人臉。
表1 處理后的Label Yahoo!News數(shù)據(jù)集的詳細信息
測試時,FAMIF對數(shù)據(jù)集中的所有人臉進行標注。為了對標注性能進行評價,與文獻[11]3一致,本文采用三種評價指標來衡量人臉標注的性能,即準確率(Accuracy)、精度(Precision),以及召回率(Recall)。其中,準確率為數(shù)據(jù)集中被正確標注的人臉占所有人臉的比例,反映標注方法的整體性能;精度為被非null標簽標記的人臉中,被正確標記的人臉所占的比例,較高的精度說明標注方法對噪聲人臉的標注效果較好;召回率為非噪聲人臉中,被正確標記的人臉所占比例,反映了標注方法對非噪聲人臉的標注效果。當精度和召回率都較高時,能夠說明標注方法區(qū)分噪聲和非噪聲的能力較強。
在根據(jù)1.2.1節(jié)中所提方法獲得的訓練集中,每個候選姓名的訓練樣本數(shù)量的分布如圖2所示??梢钥闯?在進行樣本數(shù)量均衡之前,不同候選姓名的訓練樣本數(shù)量之間差異較大。但在經(jīng)過均衡處理后,大部分的候選姓名的訓練樣本數(shù)量都較為平衡。
圖2 候選姓名的訓練樣本數(shù)量分布
1.2.2節(jié)中提取的人臉大小和人臉位置的分布如圖3所示。為了方便繪圖和分析,在圖3中Fs和Fp均被線性縮放至[0,1]。由圖3可以發(fā)現(xiàn)數(shù)據(jù)集圖像中的人臉有很大一部分相對偏小,而這一點與數(shù)據(jù)集中含有高達44%的噪聲人臉,即“不重要的”人臉的情況相符,這間接地反映了用人臉大小來衡量人臉重要性是合理的。然而Fp的分布卻沒有呈現(xiàn)出大量人臉遠離圖像中心的情況,這反映了Fp衡量人臉重要程度的能力較Fs弱。
圖3 人臉大小和位置分布情況
圖4 姓名位置分布情況
圖4顯示了兩種候選姓名位置的分布情況。和圖3類似,Np1和Np2均被線性縮放至[0,1]??梢钥闯?盡管Np1和Np2大致分布相同,但仍具有一定差異,說明兩者的同時使用可以更加詳細地描述候選姓名在文本中的位置。此外,數(shù)據(jù)集中大部分文本中檢測出的候選姓名的數(shù)目都在3個以內(nèi)。而文本中最多出現(xiàn)7個候選姓名,因此選擇將Np2(null)定義為20能夠和真實候選姓名的位置區(qū)分開。
為了對模型Z進行訓練,需根據(jù)1.3.1節(jié)中的方法,利用1.2.1節(jié)中獲得的候選姓名的訓練樣本來得到模型Z的訓練數(shù)據(jù)。而1.2.1節(jié)中,根據(jù)聚類方法獲得的每個候選姓名的訓練樣本里可能含有少量的錯誤樣本。通常情況下,在數(shù)據(jù)集中出現(xiàn)次數(shù)較多的候選姓名,其真實人臉數(shù)量也通常較多,因而通過聚類能獲得較多的訓練樣本,且錯誤樣本所占比例也較低。因此,為了在能夠得到足夠的訓練數(shù)據(jù)的同時防止訓練數(shù)據(jù)中含有過多的錯誤,本文選擇樣本數(shù)超過30的候選姓名的訓練樣本共計207個,將其視為已標記的非噪聲人臉樣本。此外,待標注人臉集中含有大量的噪聲人臉,為了使訓練數(shù)據(jù)的分布盡可能接近真實情況,根據(jù)噪聲人臉通常具有較小面積的假設(shè),將數(shù)據(jù)集中面積最小的207個人臉視為噪聲人臉。利用這共計414個人臉樣本來生成Z的訓練數(shù)據(jù),最終共得到910個訓練數(shù)據(jù),其中標記為1的訓練數(shù)據(jù)和標記為0的訓練數(shù)據(jù)各430、480個。在訓練神經(jīng)網(wǎng)絡(luò)時,選擇Sigmoid函數(shù)作為隱藏層和輸出層的激活函數(shù),選擇Levenberg-Marquardt算法[20]作為訓練算法。為確定隱藏層神經(jīng)元節(jié)點的個數(shù),在隱藏層設(shè)置不同的神經(jīng)元數(shù)量進行訓練和測試,人臉標注的性能隨隱藏層神經(jīng)元個數(shù)變化的趨勢如圖5所示。可以看出,當隱藏層神經(jīng)元的個數(shù)為5時達到了最好的效果,這說明當訓練數(shù)據(jù)較少時,節(jié)點數(shù)的增加會導致模型容易出現(xiàn)過擬合,進而降低其泛化能力。因此將隱藏層節(jié)點數(shù)設(shè)為5,即h=5。
圖5 人臉標注性能隨隱藏層神經(jīng)元個數(shù)變化趨勢
為了分析不同的信息對標注結(jié)果的影響,定義了一個新的評價指標貢獻率(Ct):
(10)
其中:xi為X(f,c)中第i個信息;X~exp(xi)表示X(f,c)中xi缺省后剩下的數(shù)據(jù);M表示準確率、精度或召回率中的某一評價指標,M(X)和M(X~exp(xi))分別表示當輸入信息為X(f,c)和X~exp(xi)時在該評價指標上的性能。具體結(jié)果如圖6所示。
可以發(fā)現(xiàn),Fr、Fs和Fp對三個指標都有提升作用,說明這三種信息既有助于噪聲人臉和非噪聲人臉的區(qū)分,也有助于確定非噪聲人臉的標簽,而且Fs的效果尤其明顯。而Np1和Np2在提升了人臉標注的準確率和精度的同時降低了召回率,這反映了這兩種信息的引入使得部分非噪聲人臉被傾向于判定為噪聲人臉,從而導致召回率下降。但精度和準確率的提升說明這兩種信息有助于噪聲人臉的標注,彌補了其對非噪聲人臉標注的不良影響,進而在整體上提高了標注的效果。綜上,可以得出結(jié)論,在采用的多信息融合方法下,提取的多種信息均有助于人臉標注。
圖6 不同信息的貢獻率
為了進一步分析FAMIF的性能,將其和近年來提出的幾種基于人臉相似度信息的基準算法進行比較,結(jié)果如表2所示。所有算法的性能均在處理后的Label Yahoo!News 數(shù)據(jù)集上取得。表2中每個指標的第一名使用粗體進行標識,可以看出,相對于基準算法,FAMIF在準確率和召回率上取得了最好的效果。這說明當新聞圖像中存在大量噪聲人臉時,FAMIF通過利用多種模態(tài)信息的融合推理,綜合了各信息對確定人臉標簽的有效作用,可以較好地完成對非噪聲人臉的標注,且整體標注效果優(yōu)于基準算法。盡管相對于EF-IMGA、LF-IMGA和IPAL,FAMIF的精度指標不夠理想,但從這三種方法的精度和召回率的巨大差異可知,這三種方法將大量的非噪聲人臉標記為null,區(qū)分噪聲和非噪聲人臉的能力較差。而FAMIF在并未過分犧牲精度的情況下,準確率和召回率較大幅度地優(yōu)于基準算法,說明FAMIF區(qū)分噪聲和非噪聲人臉的能力高于基準算法。
表2 FAMIF和基準方法標注效果比較 %
本文提出了一種基于多模態(tài)信息的新聞圖像中人臉標注方法。通過充分挖掘圖像中的人臉大小和位置信息、文本中的姓名位置信息,建立了人臉和姓名重要程度之間的對應關(guān)系,克服了現(xiàn)有方法過度依賴人臉相似度信息的不足。實驗結(jié)果表明多模態(tài)信息對確定新聞圖像中人臉的標簽有著極其重要的作用。后續(xù)研究中將繼續(xù)挖掘圖像和文本中可能有助于確定人臉標簽的信息,如人臉、圖像的聚焦點等,進一步提高人臉標注準確率。
References)
[1] TAIGMAN Y, YANG M, RANZATO M, et al. DeepFace: closing the gap to human-level performance in face verification [C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2014: 1701-1708.
[2] SCHROFF F, KALENICHENKO D, PHILBIN J. FaceNet: a unified embedding for face recognition and clustering [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 815-823.
[3] OUYANG W, LOY C C, TANG X, et al. DeepID-Net: deformable deep convolutional neural networks for object detection [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 46(5): 2403-2412.
[4] 劉勝宇. 網(wǎng)絡(luò)新聞圖像中人臉標注技術(shù)研究[D]. 哈爾濱: 哈爾濱工業(yè)大學, 2011: 33-40. (LIU S Y. Research on annotation technology of face images in network news [D]. Harbin: Harbin Institute of Technology, 2011: 33-40.)
[5] FREY B J, DUECK D. Clustering by passing messages between data points [J]. Science, 2007, 315(5814): 972.
[6] LUO J, ORABONA F. Learning from candidate labeling sets [C]// NIPS 2010: Proceedings of the 23rd International Conference on Neural Information Processing Systems. New York: Curran Associates, 2010: 1504-1512.
[7] ZHANG M L, YU F. Solving the partial label learning problem: an instance-based approach [C]// Proceedings of the 2015 International Conference on Artificial Intelligence. Menlo Park: AAAI Press, 2015: 4048-4054.
[8] WANG D, HOI S C H, HE Y. A unified learning framework for auto face annotation by mining Web facial images [C]// Proceedings of the 2012 ACM International Conference on Information and Knowledge Management. New York: ACM, 2012: 1392-1401.
[9] WANG D, HOI S C H, HE Y, et al. Retrieval-based face annotation by weak label regularized local coordinate coding [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(3): 550-63.
[10] WANG D, HOI S C H, HE Y, et al. Mining weakly labeled Web facial images for search-based face annotation [J]. IEEE Transactions on Knowledge amp; Data Engineering, 2012, 26(1): 166-179.
[11] CHEN Z, FENG B, NGO C W, et al. Improving automatic name-face association using celebrity images on the Web [C]// Proceedings of the 2015 International Conference on Multimedia Retrieval. New York: ACM, 2015: 623-626.
[12] GUILLAUMIN M, VERBEEK J, SCHMID C. Multiple instance metric learning from automatically labeled bags of faces [C]// Proceedings of the 2010 European Conference on Computer Vision. Berlin: Springer, 2010: 634-647.
[13] XIAO S, TAN M, XU D. Weighted block-sparse low rank representation for face clustering in videos[C]// Proceedings of the 2014 European Conference on Computer Vision. Berlin: Springer, 2014: 123-138.
[14] XIAO S, XU D, WU J. Automatic face naming by learning discriminative affinity matrices from weakly labeled images [J]. IEEE Transactions on Neural Networks amp; Learning Systems, 2015, 26(10): 2440-2452.
[15] MATHIALAGAN C S, GALLAGHER A C, BATRA D. VIP: finding important people in images [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 4858-4866.
[16] BERG T L, BERG A C, EDWARDS J, et al. Names and faces in the news [C]// CVPR 2004: Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2004: 848-854.
[17] GUILLAUMIN M, MENSINK T, VERBEEK J, et al. Face recognition from caption-based supervision[J]. International Journal of Computer Vision, 2012, 96(1): 64.
[18] CHAWLA N V, BOWYER K W, HALL L O, et al. SMOTE: synthetic minority over-sampling technique [J]. Journal of Artificial Intelligence Research, 2002, 16(1): 321-357.
[19] PANG L, NGO C W. Unsupervised celebrity face naming in Web videos [J]. IEEE Transactions on Multimedia, 2015, 17(6): 854-866.
[20] MARQUARDT D W. An algorithm for least-squares estimation of nonlinear parameters [J]. Journal of the Society for Industrial amp; Applied Mathematics, 2006, 11(2): 431-441.
Faceannotationinnewsimagesbasedonmulti-modalinformationfusion
ZHENG Cha*, JI Lixin, LI Shaomei, GAO Chao
(NationalDigitalSwitchingSystemEngineeringamp;TechnologicalResearchCenter,ZhengzhouHenan450000,China)
The traditional face annotation methods for news images mainly rely on similarity information of the faces, and have poor ability to distinguish non-noise faces from noise faces and to annotate non-noise faces. Aiming at this issue, a face annotation method based on multi-modal information fusion was proposed. Firstly, according to the co-occurrence relations between faces and names, face-name match degrees based on face similarity were obtained by using a modifiedK-Nearest Neighbor (KNN) algorithm. After that, face importance degrees were characterized by the size and position information of faces extracted from images, and name importance degrees were characterized by the name position information extracted from images. Finally, Back Propagation (BP) neural network was applied to fuse the above information to infer labels of faces, and an annotation result correcting strategy was proposed to further improve the annotation results. Experimental results on Label Yahoo!News dataset demonstrate that the accuracy, precision and recall of the proposed method reach 77.11%, 73.58% and 78.75% respectively; compared with the methods only based on face similarity, the proposed method has outstanding ability to distinguish non-noise faces from noise faces and to annotate non-noise faces.
news image; faces annotation;K-Nearest Neighbor (KNN) algorithm; multi-modal information; Back Propagation (BP) neural network
2017- 04- 26;
2017- 06- 16。
國家自然科學基金資助項目(61601513)。
征察(1994—),男,安徽宿州人,碩士研究生,主要研究方向:計算機視覺、跨媒體信息處理; 吉立新(1969—),男,河南鄭州人,研究員,博士,主要研究方向:通信與信息系統(tǒng); 李邵梅(1982—),女,湖北鐘祥人,副研究員,博士,主要研究方向:數(shù)字圖像處理、模式識別; 高超(1982—),男,河南新鄭人,講師,博士,主要研究方向:計算機視覺、機器學習。
1001- 9081(2017)10- 3006- 06
10.11772/j.issn.1001- 9081.2017.10.3006
TP391.4
A
This work is partially supported by the National Natural Science Foundation of China (61601513).
ZHENGCha, born in 1994, M. S. candidate. His research interests include computer vision, cross-media information processing.
JILixin, born in 1969, Ph. D., research fellow. His research interests include communication and information systems.
LIShaomei, born in 1982, Ph. D., associate research fellow. Her research interests include digital image processing, pattern recognition.
GAOChao, born in 1982, Ph. D., lecturer. His research interests include computer vision, machine learning.