• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      改進級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的平面旋轉(zhuǎn)人臉檢測

      2020-04-24 03:07:56田妮莉楊志景BingoWingKuenLingEverettWang
      計算機工程與設(shè)計 2020年3期
      關(guān)鍵詞:候選框級聯(lián)關(guān)鍵點

      傅 勇,潘 晴,田妮莉,楊志景,Bingo Wing-Kuen Ling,Everett.X. Wang

      (廣東工業(yè)大學(xué) 信息工程學(xué)院,廣東 廣州 510006)

      0 引 言

      近年來,基于深度學(xué)習(xí)的人臉檢測和人臉識別[1-3]引起了廣泛的關(guān)注。但在一些特殊的場景中,由于平面內(nèi)旋轉(zhuǎn)(rotation in plane,RIP)導(dǎo)致的人臉表面特征變化,使得這些人臉檢測變得極具挑戰(zhàn)性。而目前的人臉檢測算法恰恰沒有考慮到這些特殊的場景,因此需要一種精確快速全方位RIP人臉檢測算法,以提高后續(xù)的人臉識別精度。

      DDFD[4]指出在CNN訓(xùn)練階段增加多視角多姿態(tài)人臉圖片,可以提高多姿態(tài)人臉檢測精度,該方法一方面需要對數(shù)據(jù)進行增廣以檢測RIP人臉,另一方面也需要較深的網(wǎng)絡(luò),而簡單的數(shù)據(jù)增廣會增加接下來多任務(wù)學(xué)習(xí)計算難度,不利于人臉關(guān)鍵點定位。C.Huang等[5]提出了將一張圖片檢測4次的方法來檢測RIP人臉的方法,這種分治策略帶來更多的誤檢測、時間開銷成倍增長,顯然不滿足實際工程應(yīng)用。H.A.Rowley等[6]提出了一個路由網(wǎng)絡(luò)先估計候選框角度,再輸入網(wǎng)絡(luò)中識別,但由于沒能精準(zhǔn)估計角度及使用傳統(tǒng)神經(jīng)網(wǎng)絡(luò)導(dǎo)致檢測時間過長,精度不高。

      Cascade CNN[7]通過級聯(lián)多個CNN逐步過濾非人臉樣本,實驗結(jié)果表明,該方法能夠有效實現(xiàn)人臉檢測;而MTCNN[8]將人臉分類、邊框回歸、人臉關(guān)鍵點定位3個任務(wù)合并,證明相關(guān)聯(lián)的不同任務(wù)地實現(xiàn)多任務(wù)學(xué)習(xí),可以互相提升性能;PCN[9]也通過級聯(lián)網(wǎng)絡(luò)檢測了RIP人臉。本文由此在傳統(tǒng)的級聯(lián)CNN的基礎(chǔ)上,嵌入一個32net的RIP分類網(wǎng)絡(luò),本文不僅能檢測任意角度RIP人臉,還進行了人臉關(guān)鍵點定位來實現(xiàn)人臉對齊,人臉關(guān)鍵點定位和人臉檢測多任務(wù)學(xué)習(xí)提高了人臉檢測性能,最后對本文算法進行了合理的評估。

      1 級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

      在級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)分類器中,下一級的網(wǎng)絡(luò)會比上一級更復(fù)雜,在模型前期去除大量的負樣本,使后面的網(wǎng)絡(luò)運行時間更短,級聯(lián)分類器可以快速地檢測目標(biāo),同時也減少了最后輸出的正樣本中FP(false positive)數(shù)量,提高了分類器地精確率(Precision)。本文由4個卷積神經(jīng)網(wǎng)絡(luò)構(gòu)成一個級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),如圖1所示,Conv,MP,AP, fc分別表示卷積層,最大池化層,平均池化層,全連接層,(k×k)為卷積核尺寸大小,底部數(shù)字為feature map尺寸×個數(shù)。其中網(wǎng)絡(luò)2(24net)和網(wǎng)絡(luò)3(32net)為并行結(jié)構(gòu),輸入都為網(wǎng)絡(luò)1(12net)輸出的人臉候選框。級聯(lián)神經(jīng)網(wǎng)絡(luò)一般由3個小網(wǎng)絡(luò)構(gòu)成,如本文中的12net,24net,48net。

      圖1 級聯(lián)網(wǎng)絡(luò)4個CNN結(jié)構(gòu)

      24net是一個中間的起媒介作用的網(wǎng)絡(luò),和12net類似,同時處理人臉和非人臉的二分類和人臉邊界框回歸,通過12net后剩下的檢測框尺寸重新調(diào)整成24×24大小,進一步通過24net篩選檢測。24net包含3個卷積層、兩個最大池化層和一個全連接層,進一步地拒絕大量地錯誤候選框,通過邊界框回歸偏移量校正網(wǎng)絡(luò)輸出的人臉候選框,最后進行非極大值抑制(NMS)。

      48net結(jié)構(gòu)如圖1所示,類似于24net,但更復(fù)雜,增加一個卷積層,同時輸出了5個關(guān)鍵點坐標(biāo)信息。本網(wǎng)絡(luò)驗證了相關(guān)聯(lián)的多任務(wù)學(xué)習(xí)可以提高人臉檢測精度。

      2 改進的級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)

      本文改進了一個級聯(lián)卷積神經(jīng)網(wǎng)絡(luò),如圖1中32net是本文增加的一個網(wǎng)絡(luò)。檢測器整個測試圖片傳輸途徑如圖2所示,Pnet(12net)為第一個網(wǎng)絡(luò),輸出較多候選框經(jīng)過NMS后,同時輸入Rnet(24net)和Cnet(32net),Rnet檢測豎直人臉后經(jīng)過NMS,Cnet保留旋轉(zhuǎn)人臉并校正,最后輸入Onet(48net)通過NMS去除IoU比值超過閾值的框。參考文獻[8],給定一張圖片,縮放到不同的尺寸來構(gòu)建一個圖像金字塔,輸入到第一個建議網(wǎng)絡(luò)(12net),產(chǎn)生較多地候選窗口同時對候選邊界框回歸,初步的非極大值抑制去除重疊區(qū)域比率很高的檢測框。

      圖2 測試圖片傳輸途徑

      剩下的檢測窗口同時輸入改善網(wǎng)絡(luò)(24net)和分類網(wǎng)絡(luò)(32net),分類網(wǎng)絡(luò)保留在平面內(nèi)旋轉(zhuǎn)角度[45°,315°]之間的候選框,通過Softmax層輸出類別后,進行相應(yīng)的仿射變換,變換成豎直方向的正臉,再輸入最后的輸出網(wǎng)絡(luò)(48net)得到人臉候選框和關(guān)鍵點坐標(biāo);同時12net輸出的候選框輸入24net進一步檢測篩選掉非人臉框,經(jīng)過非極大值抑制后,將剩下候選框輸入最后的48net得到人臉候選框和關(guān)鍵點坐標(biāo),最后將兩次48net輸出的候選框合并通過非極大值抑制消除IoU(交并比)比值超過閾值的框,得到最終的輸出。也就是說,當(dāng)測試圖片中包含旋轉(zhuǎn)角度過大的人臉時,通過12net,32net,48net校正在平面內(nèi)旋轉(zhuǎn)人臉候選框,得到人臉框和相應(yīng)的關(guān)鍵點坐標(biāo);測試圖片中的正臉,旋轉(zhuǎn)角度[-45°,45°]之間的人臉通過12net,24net,48net,檢測輸出相應(yīng)的人臉候選框。

      2.1 分類網(wǎng)絡(luò)

      本文將平面內(nèi)旋轉(zhuǎn)人臉檢測看作一個多分類問題,即將平面空間劃分為4個類,并將某一旋轉(zhuǎn)角度下的人臉劃分到其所屬的類中,如圖3所示,1、2、3類被32net保留。

      圖3 平面內(nèi)旋轉(zhuǎn)人臉類別

      32net是一個4分類網(wǎng)絡(luò),如圖3所示,將任意平面內(nèi)旋轉(zhuǎn)(rotation-in-plane,RIP)角度的人臉分為4類。網(wǎng)絡(luò)1輸出的所有的候選窗口調(diào)整成32*32大小輸入32net,再對RIP角度人臉進行4分類,將一個平面內(nèi)的人臉按照角度劃分成4類,每個類別都包含一個90°區(qū)間大小的RIP人臉。32net網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,包含3個卷積層、3個池化層和兩個全連接層,為了提高分類準(zhǔn)確率,在每個卷積層后加入BN[11]層,輸入每一維度減去自身均值,再除以自身標(biāo)準(zhǔn)差,使用隨機梯度下降法訓(xùn)練,這些均值和方差也只在當(dāng)前迭代的batch中計算,將數(shù)據(jù)以mini-batch的形式逐一處理,但測試時對每個樣本逐一處理,BN層有正則化效果,可以加速網(wǎng)絡(luò)學(xué)習(xí)等優(yōu)勢。對于這個4分類問題,每個樣本xi, 使用交叉熵損失函數(shù)

      (1)

      其中,pi是樣本xi屬于各個類別的概率,分類模型經(jīng)過Softmax激活函數(shù)之后,4個類別概率總和變?yōu)?,這里歸一化的作用是輸出4個直觀的概率值,yi∈{0,1,2,3} 指示各個類別的真實標(biāo)簽。

      2.2 仿射變換

      如圖2所示,48net輸入為上一級中兩個網(wǎng)絡(luò)輸出的所有候選框。若這一級也就是最后一級輸出含有32net中產(chǎn)生的候選框,先進行仿射變換,仿射變換是將RIP人臉候選框坐標(biāo)進行變換,得到實際人臉框在整個測試圖片上的坐標(biāo),變換矩陣為

      (2)

      (3)

      (4)

      二維旋轉(zhuǎn)變換公式

      M=B1×B2×B3

      (5)

      首先將旋轉(zhuǎn)中心移動到坐標(biāo)(0.5,0.5)處,然后執(zhí)行θ角旋轉(zhuǎn),當(dāng)為圖3中的1類時,候選框旋轉(zhuǎn)90°,當(dāng)為類別2時,候選框旋轉(zhuǎn)180°,當(dāng)為類別3時,候選框旋轉(zhuǎn)270°,再將旋轉(zhuǎn)中心移回到原來位置,得到旋轉(zhuǎn)人臉候選框的坐標(biāo),同樣,我們可以求出RIP人臉的關(guān)鍵點坐標(biāo)。這里只旋轉(zhuǎn)了候選框,而之前32net是旋轉(zhuǎn)框內(nèi)的圖片。最后將候選框進行非極大值抑制(NMS),得到最終的輸出。

      3 實 驗

      這部分介紹了網(wǎng)絡(luò)訓(xùn)練、數(shù)據(jù)預(yù)處理和多任務(wù)學(xué)習(xí)中各個任務(wù)的訓(xùn)練細節(jié)及作用。同時為驗證本文提出的級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)在人臉檢測任務(wù)中的性能,本文人臉檢測方法與當(dāng)前最新的算法在FDDB數(shù)據(jù)集上對比,該數(shù)據(jù)集是權(quán)威的人臉檢測的評測基準(zhǔn),包含2845張圖片,共計5171個人臉,人臉標(biāo)注為橢圓標(biāo)注。接下來評估本文方法在RIP人臉數(shù)據(jù)集的圖片上的性能,最后評估本文方法的運行效率。

      本文實驗用到Python2.7、Matlab、VS2013編譯環(huán)境,使用Caffe框架,采用GPU提高計算速度,GPU型號Nvidia Titan Xp,GPU內(nèi)存為16 G。

      3.1 訓(xùn)練過程

      本文對4個網(wǎng)絡(luò)單獨進行訓(xùn)練,第1、2、4網(wǎng)絡(luò)訓(xùn)練參考文獻[5],結(jié)合人臉二分類、人臉框回歸、人臉關(guān)鍵點定位3個任務(wù)訓(xùn)練一個級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)常規(guī)人臉檢測器。本文為了檢測RIP人臉,增加一個分類網(wǎng)絡(luò)。制作訓(xùn)練集和驗證集訓(xùn)練第3(32net)網(wǎng)絡(luò),是一個輕量級的網(wǎng)絡(luò)模型,損失函數(shù)為式(1),接下來介紹其訓(xùn)練細節(jié)。

      32net訓(xùn)練數(shù)據(jù)來源于LFPW,該數(shù)據(jù)集包含大量簡單場景下的常規(guī)人臉,首先對圖片進行較小的平移、旋轉(zhuǎn)和鏡像等方法進行數(shù)據(jù)增廣,圖片原來的人臉標(biāo)注也需要重新計算,再對圖片進行3個大角度旋轉(zhuǎn)及人臉框標(biāo)注的坐標(biāo)進行變換,最后裁剪圖片中的人臉,得到4個類別訓(xùn)練數(shù)據(jù),每個類別圖片20 K左右,使訓(xùn)練集覆蓋各個RIP角度的人臉。這里主要保存RIP角度較大的人臉候選框,所以在類別0訓(xùn)練集中加入了非人臉及部分人臉,這樣12net檢測出的非人臉候選框及RIP角度很小的人臉都會被32net篩選掉。

      本文通過訓(xùn)練大量的人臉圖片解決RIP人臉檢測和關(guān)鍵點定位,第1、2、4網(wǎng)絡(luò)主要參考文獻[8],訓(xùn)練數(shù)據(jù)來源于WIDER FACE[12],負樣本和真實人臉框IoU比率小于0.3,正樣本IoU比率大于0.65,部分人臉I(yè)oU比率介于0.4到0.65之間,人臉關(guān)鍵點回歸數(shù)據(jù)來源于CelebA[13],級聯(lián)網(wǎng)絡(luò)訓(xùn)練集數(shù)據(jù)組成比率為3∶1∶1∶2,分別為負樣本、正樣本、部分人臉樣本和包含人臉關(guān)鍵點坐標(biāo)樣本。

      3.1.1 人臉分類

      網(wǎng)絡(luò)學(xué)習(xí)到一個2分類問題,對最后輸出的feature map判斷,當(dāng)預(yù)測為正類時,經(jīng)過坐標(biāo)變換求出人臉候選框。對于每個xi, 類似于式(1),使用邏輯回歸交叉熵損失函數(shù)

      (6)

      其中,pi是樣本xi屬于人臉的概率,通過網(wǎng)絡(luò)輸出得到,yi∈{0,1} 代表真實樣本標(biāo)簽。

      3.1.2 人臉邊界框回歸

      對于每一個候選窗口,預(yù)測它和最接近它的真實樣本框(左頂點坐標(biāo),高和寬)的偏移量,學(xué)習(xí)一個回歸問題,對于每個xi, 使用歐式距離損失函數(shù)

      (7)

      3.1.3 人臉關(guān)鍵點定位

      類似于人臉框回歸,人臉關(guān)鍵點預(yù)測也是一個回歸任務(wù),使用最小化歐式距離損失函數(shù)

      (8)

      3.2 人臉框校正

      網(wǎng)絡(luò)同時學(xué)習(xí)人臉關(guān)鍵點回歸和人臉框回歸任務(wù)時,極大程度提高了兩個任務(wù)單獨訓(xùn)練的準(zhǔn)確度,本文主要為了提高檢測RIP角度人臉精度。人臉關(guān)鍵點坐標(biāo)是相對于人臉框的相對位置,而不是直接在整張測試圖片中定位出坐標(biāo)信息。為了更準(zhǔn)確定位出關(guān)鍵點坐標(biāo),48net訓(xùn)練時只訓(xùn)練豎直方向人臉,訓(xùn)練單一的樣本使得人臉關(guān)鍵點坐標(biāo)和人臉框之間對應(yīng)關(guān)系簡單,更容易完成多任務(wù)學(xué)習(xí),也簡化了測試時的計算步驟。

      人臉框回歸測試效果如圖4所示,粗略框由人臉二分類得出,邊界框回歸校正后的為準(zhǔn)確框。測試圖片時,當(dāng)最后一級網(wǎng)絡(luò)輸出不加回歸偏移量時,預(yù)測為粗略框,增加回歸向量偏移量后校正后為準(zhǔn)確候選框,直觀表明人臉框回歸任務(wù)可以提高人臉檢測精度。圖4是改進后的網(wǎng)絡(luò)輸出,簡單的級聯(lián)網(wǎng)絡(luò)只能檢測和校正豎直人臉。

      圖4 人臉框回歸偏移量校正人臉候選框

      3.3 FDDB人臉數(shù)據(jù)集評估

      FDDB使用橢圓標(biāo)注定義兩種評估類型:連續(xù)得分和離散得分,跟隨FDDB網(wǎng)站的評估程序和步驟來檢測本文的人臉檢測器性能,在FDDB數(shù)據(jù)集對比不同的人臉檢測器,如圖5和圖6所示,可以看出,本文的方法在FDDB數(shù)據(jù)集表現(xiàn)和MTCNN[8]檢測效果接近,優(yōu)于本文提到的其它方法,本文主要為了檢測旋轉(zhuǎn)人臉,接下來我們將測試本文方法在旋轉(zhuǎn)人臉數(shù)據(jù)集上的表現(xiàn)。

      3.4 評估旋轉(zhuǎn)人臉

      本文創(chuàng)建了一個旋轉(zhuǎn)人臉測試集,包含725張圖片,853個人臉,其中603張圖片來自CelebA[13],將這些圖片分別進行3個大角度的旋轉(zhuǎn),使人臉覆蓋上文提到的4個類別及任意RIP角度,然后對其標(biāo)注進行相應(yīng)坐標(biāo)變換,另外122張圖片從網(wǎng)上下載,主要為家庭合影、瑜伽、街舞、藝術(shù)表演和體育運動背景圖片,我們對圖片中的人臉標(biāo)注了矩形邊界框。一些檢測圖片效果如圖7所示。

      接下來評估了分類器在該測試集上的性能,繪制PR曲線,如圖8所示,MTCNN[8]很難完成RIP人臉檢測,召回率最大時都沒有到達0.5。實驗結(jié)果表明,普通級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)不能精確地檢測RIP人臉,很多RIP人臉未檢測到,本文提出的改進方法提高了RIP角度的人臉檢測的查全率,也提高了查準(zhǔn)率,本文方法在該數(shù)據(jù)集上檢測召回率為0.847,精確率為0.9。本實驗采用召回率(Recall)作為評價指標(biāo),召回率越高,檢測效果越好,召回率計算公式如下

      圖5 對比其它方法連續(xù)得分效果

      圖6 對比其它方法離散得分效果

      圖7 部分檢測結(jié)果樣例圖像

      (9)

      圖8 旋轉(zhuǎn)人臉測試PR曲線

      3.5 運行效率

      本文改進的級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)取得了較快的運行速度,本文模型尺寸較小,通過降低網(wǎng)絡(luò)輸入尺寸達到更高的速度,計算本文的方法和MTCNN[8]在所有FDDB數(shù)據(jù)集圖片的運行平均速度,共2845張圖片,使用MATLAB平臺,GPU加速,見表1,實驗結(jié)果表明只增加人臉候選框旋轉(zhuǎn)變換和一個小的分類網(wǎng)絡(luò),沒有增加過多的時間花費。

      表1 速度對比

      4 結(jié)束語

      本文改進了一種RIP人臉檢測和關(guān)鍵點定位方法,實驗結(jié)果表明,本文的方法可以很好檢測RIP人臉,本文人臉關(guān)鍵點定位主要為了獲得更好的人臉檢測效果,同時進行人臉關(guān)鍵點定位和人臉框回歸任務(wù)可以提高人臉框回歸精度。本文主要改進了一個級聯(lián)網(wǎng)絡(luò),由4個網(wǎng)絡(luò)組成,將平面內(nèi)旋轉(zhuǎn)人臉檢測看作一個多分類問題,很好解決了RIP人臉檢測。未來將研究平面外旋轉(zhuǎn)(rotation off plane,ROP)[14]人臉檢測模型,與本文方法進行融合,搭建一個完整的多姿態(tài)人臉檢測系統(tǒng)。

      猜你喜歡
      候選框級聯(lián)關(guān)鍵點
      重定位非極大值抑制算法
      聚焦金屬關(guān)鍵點
      面向自然場景文本檢測的改進NMS算法
      肉兔育肥抓好七個關(guān)鍵點
      基于Soft-NMS的候選框去冗余加速器設(shè)計*
      一種針對特定目標(biāo)的提議算法
      級聯(lián)LDPC碼的STBC-OFDM系統(tǒng)
      電子制作(2016年15期)2017-01-15 13:39:09
      基于級聯(lián)MUSIC的面陣中的二維DOA估計算法
      醫(yī)聯(lián)體要把握三個關(guān)鍵點
      LCL濾波器在6kV級聯(lián)STATCOM中的應(yīng)用
      電測與儀表(2014年1期)2014-04-04 12:00:34
      沅江市| 农安县| 陇南市| 郎溪县| 安福县| 嘉黎县| 广水市| 滁州市| 龙山县| 卢龙县| 贞丰县| 德钦县| 泾源县| 贞丰县| 大新县| 新和县| 高清| 崇义县| 禹城市| 达拉特旗| 沿河| 茌平县| 长白| 鄂托克旗| 平遥县| 新宁县| 和平区| 五华县| 和顺县| 新邵县| 南汇区| 徐汇区| 冕宁县| 庄浪县| 晋州市| 陕西省| 丹东市| 新民市| 沾化县| 肇庆市| 监利县|