• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      面向三維人臉重建的自編碼體素網(wǎng)絡(luò)研究

      2020-11-11 08:02:58董俊呈左旺孟
      智能計算機與應(yīng)用 2020年6期
      關(guān)鍵詞:體素人臉損失

      董俊呈, 左旺孟

      (哈爾濱工業(yè)大學(xué) 計算機科學(xué)與技術(shù)學(xué)院, 哈爾濱150001)

      0 引 言

      本文主要研究單幅人臉圖像的三維重建問題,基于VRN 論文的相關(guān)方法和技術(shù),完成面部照片三維重建任務(wù)的端到端的神經(jīng)網(wǎng)絡(luò)。 本文首先驗證了現(xiàn)有各種三維重建方案的效果、性能和可行性,同時對3DMM 和VRN 進行復(fù)現(xiàn)并驗證效果;其次,驗證基本無誤,并且復(fù)現(xiàn)效果達到baseline 水平后對VRN 的模型結(jié)構(gòu),損失函數(shù)和引導(dǎo)項這三個方向進行了改進。

      1 對現(xiàn)有工作的復(fù)現(xiàn)和驗證

      1.1 三維可變形模板(3DMM)

      本文實現(xiàn)了傳統(tǒng)的3DMM 重建方法,用蒙特卡洛法對輸入進行擬合,在適當(dāng)?shù)某跏蓟瘲l件下可以得到不錯的效果。

      代碼實現(xiàn)的操作大體如下:

      a.讀取BFM 數(shù)據(jù)集,經(jīng)PCA 后構(gòu)建特征值和特征向量,目標(biāo)是計算擬合所對應(yīng)的的各個特征值系數(shù)。

      b. 對于任意一個要擬合的人臉,檢測36,39,42,45,31,33,35,48,54,51,57 號特征點,計算在齊次坐標(biāo)系下經(jīng)過平移,水平拉伸和豎直拉伸后得到的與原圖對應(yīng)特征點的MSE 距離最小的情況作為初始化,如圖1 所示。

      圖1 通過人臉特征點進行初始化Fig. 1 Initialization by face landmark

      c.如圖2 所示,調(diào)用蒙特卡洛算法,以顏色直方圖的MSE 距離作為優(yōu)化目標(biāo),對三維人? 臉的特征向量系數(shù)進行優(yōu)化。 如果擬合中誤差小于設(shè)定的最小閾值,則可以提前結(jié)束;如果誤差大于設(shè)定的最大閾值,則認(rèn)為模型已經(jīng)偏離梯度下降方向,結(jié)束擬合過程,返回-1;否則,算法進行2 000 次后停止,返回當(dāng)前的最好結(jié)果。

      如果初始化得當(dāng),最終可以取得較好的擬合結(jié)果,如圖3 所示。

      圖2 蒙特卡洛算法進行擬合過程Fig. 2 The fitting process with Monte Carlo

      圖3 傳統(tǒng)3DMM 擬合結(jié)果Fig. 3 The result of the traditional 3DMM fitting

      利用蒙特卡洛方法對三維人臉進行擬合偽代碼如下:

      算法1利用蒙特卡洛方法對三維人臉進行擬合

      輸入:待擬合三維人臉特征向量系數(shù)矩陣G,輸入RGB 圖片I,蒙特卡洛步長l

      輸出:擬合結(jié)果人臉特征向量系數(shù)矩陣

      1.function MontFit(G, I, l):

      2. for i in range(2000):

      3. if MSE(Z(P(G)),Z(I)) >ThresholdMax:

      4. return -1

      5. end if

      6. if MSE(Z(P(G)),Z(I))<ThresholdMin:

      7. return G

      8. end if

      9. L←{for i in range(20), MontStep(G,l)} + {G}

      10. temp L←{for i in range(20), MSE(Z(P(L[i])), Z(I))}

      11. G←L[minIndex(tempL)]

      12. end for

      13.return G

      1.2 自編碼體素網(wǎng)絡(luò)(VRN)

      VRN 是一個端到端的神經(jīng)網(wǎng)絡(luò),輸入是一張三通道RGB 或灰度的任意姿態(tài),任意光照,任意表情,允許遮擋的人臉照片,輸出是一個三維人臉的體素表示[1],即一個192×192×200 的三維矩陣,其中數(shù)字“1”代表該位置有一個體素立方體,“0”則代表沒有,這個三維人臉向Z軸的垂直投影應(yīng)該與輸入人臉對齊。 需要注意的是,由于姿態(tài)變化,人臉(尤其是鼻子導(dǎo)致的)會有自遮擋問題,因此這個體元表示與簡單輸出一張深度圖是有區(qū)別的。

      本文將VRN release 的MATLAB 代碼重寫成了pytorch 代碼,完成了training 和testing 的工作,并用原文所列出的訓(xùn)練集對模型進行了訓(xùn)練并達到了baseline,在原文中提供的測試集 Florence 和AFLW2000-3D 上均達到了原文的水平,同時對文中用于比較VRN 性能的重建方法EOS 和3DDFA在對應(yīng)數(shù)據(jù)集上進行了驗證,與VRN 提供的數(shù)據(jù)基本一致,本文復(fù)現(xiàn)VRN 的可視化結(jié)果如圖4 所示。

      圖4 VRN 復(fù)現(xiàn)的可視化結(jié)果Fig. 4 Visualization results of VRN reproduction

      同時測試了文中用于比較效果的3DDFA 和EOS,證明VRN 的方法是可行的。 圖5 是在AFLW2000-3D 上比較VRN,復(fù)現(xiàn)VRN(VRNrepro),EOS 和3DDFA 的NME 損失,圖5(a)是VRN 論文中的結(jié)果,圖5(b)是復(fù)現(xiàn)的結(jié)果;圖6 是在Florence 上比較VRN,復(fù)現(xiàn)VRN(VRN-repro),EOS 和3DDFA 的NME 損失,圖6(a)是VRN 論文中的結(jié)果,圖6(b)是復(fù)現(xiàn)的結(jié)果。 本文在各數(shù)據(jù)集上各個方法的平均NME 損失值如表1 所示。

      圖5 AFLW2000 數(shù)據(jù)集上的結(jié)果Fig. 5 The result on AFLW2000

      圖6 Florence 數(shù)據(jù)集上的結(jié)果Fig. 6 The result on Florence

      表1 在各數(shù)據(jù)集上各個方法的平均NME 損失Tab. 1 The average NME loss of each method on each data set

      2 對自編碼體素網(wǎng)絡(luò)的改進

      VRN 網(wǎng)絡(luò)是一個端到端的,簡潔輕量的模型,但是模型的表達效果仍然沒有達到理想的效果。 因此,本文又訓(xùn)練了vrn-multitask,來提取人臉特征點的熱度圖,把熱度圖信息和原圖一起輸入到vrnguided 中來優(yōu)化輸出,確實得到了提升。 但是本文認(rèn)為VRN 采用的U-Net 結(jié)構(gòu)是可以改進的,嘗試如Fish-Net 這些被證明相同結(jié)構(gòu)下效果更好的網(wǎng)絡(luò)[2]。 另外,只有二維的特征點信息并不能最好的起到引導(dǎo)的作用,希望加入pose 等更多的信息來對VRN 進行引導(dǎo),試著得到更好一些的效果。 VRN 采用的全局的損失本文認(rèn)為也是有一定不足的,顯然人臉內(nèi)部的體素權(quán)重應(yīng)當(dāng)小于靠近邊緣和表面的體素。

      2.1 對自編碼體素網(wǎng)絡(luò)結(jié)構(gòu)的改進

      在VRN 中,本文使用兩個串聯(lián)的UNET 端到端訓(xùn)練了一個輸出體元人臉的網(wǎng)絡(luò),U-Net 使用的“上/下采樣+跳躍連接”的結(jié)構(gòu),使得其構(gòu)成的神經(jīng)網(wǎng)絡(luò)具有易收斂、輕量級,深層網(wǎng)絡(luò)容易更快的獲取淺層網(wǎng)絡(luò)梯度,保留了圖片各個像素的位置信息的優(yōu)點。 但也存在當(dāng)多個U-Net 共同工作于同一個模型時,各個U-Net 直接配合較差的問題,據(jù)此UNET 被提出后,已經(jīng)產(chǎn)生了很多基于UNET 結(jié)構(gòu)的其他模型結(jié)構(gòu),如FishNET 等。

      Fish-Net 是對U-Net 的一種改進。 Fish-Net 認(rèn)為,當(dāng)多個U-Net 串聯(lián)時,單個U-Net 內(nèi)的對應(yīng)上采樣和下采樣之間有跳躍連接,但兩個相鄰的UNet 之間的下采樣和上采樣之間沒有跳躍連接,因此兩個U-Net 之間的通路可能會成為梯度傳播的瓶頸;同時Fish-Net 的作者提取了相鄰兩個U-Net對應(yīng)的下采樣層和上采樣層,發(fā)現(xiàn)從語義信息的角度這兩個特征也處于不同的域。 因此Fish-Net 除了將下采樣層和自身對應(yīng)的上采樣層進行連接,還將每個U-Net 的上采樣層和后面相鄰的一個U-Net的下采樣層做了跳躍連接,使得后面的U-Net 可以更容易的感受到前面U-Net 的梯度。

      在Fish-Net 中,有兩種用于上采樣和下采樣的卷積塊,分別是上采樣-重制塊(UR-block)和下采樣-重制塊(DR-block)。 通過在FishNet 中設(shè)計的身體和頭部,將尾部和身體各個階段的特征連接到頭部。 Fish-Net 精心設(shè)計了頭部中的各層,以使其中沒有I-conv。 頭部中的層是由串聯(lián),具有特征的卷積和池化層組成。 因此,F(xiàn)ish-Net 解決了尾部在軀干網(wǎng)絡(luò)前獲得梯度傳播的問題,用到的兩種方法分別是:1)排除頭部的I-conv 和2)在身體和頭部使用串聯(lián)。 為了避免像素之間重疊,對于跨度為2的下采樣Fish-Net,將卷積核大小設(shè)置為2×2,消融實驗顯示了網(wǎng)絡(luò)中不同種類的內(nèi)核大小對實驗效果的影響。 為了避免I-conv 問題,應(yīng)避免采用上采樣方法中的加權(quán)反卷積,為簡單起見,F(xiàn)ish-Net 選擇最近鄰插值進行上采樣,由于上采樣操作將以較低的分辨率稀釋輸入特征,F(xiàn)ish-Net 在重制模塊中還應(yīng)用了膨脹卷積,該方法被證明是可行并且確實可以提高UNET 效果的,本文將UNET 替換成FishNET,并對數(shù)據(jù)結(jié)構(gòu)進行相應(yīng)的更改并重新訓(xùn)練,實驗證明在相同參數(shù)和模型規(guī)模下,不論是AFLW2000 數(shù)據(jù)集上,表2 所示,還是Florence 數(shù)據(jù)集上,表3 所示,F(xiàn)ishNET 的表現(xiàn)都要優(yōu)于UNET(圖7)。

      另外,本文提出了MR-UNET,如圖8 所示,來對原UNET 進行多尺度條件下的改進,實驗結(jié)果表明,在相同的網(wǎng)絡(luò)規(guī)模和參數(shù)量下,Stacked UNET表現(xiàn)不如原UNET,但隨著網(wǎng)絡(luò)規(guī)模的增加,其準(zhǔn)確度依然有很高的上限,且其網(wǎng)絡(luò)結(jié)構(gòu)和輸出的特征與FishNET 和UNET 有著較好的契合度。 因此,本文在后面的實驗中也使用該網(wǎng)絡(luò)來產(chǎn)生用于引導(dǎo)原網(wǎng)絡(luò)的pose 信息。

      表2 AFLW2000 上各個模型的參數(shù)規(guī)模和對應(yīng)的NME-LOSSTab. 2 The parameter scale and corresponding NME-LOSS of each model on AFLW2000

      表3 Florence 上各個模型的參數(shù)規(guī)模和對應(yīng)的NME-LOSSTab. 3 The parameter scale and corresponding NME-LOSS of each model on Florence

      MR-Net 全程端到端訓(xùn)練模型,使用RMSProp方式。 首先關(guān)閉所有上下采樣通路,使模型中只有主干網(wǎng)絡(luò)(第一行)處于工作狀態(tài),初始化學(xué)習(xí)率,每40 個epoch 后學(xué)習(xí)率衰減為之前的0.1。 在訓(xùn)練中對數(shù)據(jù)進行一系列增強操作:輸入圖片被施加一個XOY 平面的旋轉(zhuǎn),旋轉(zhuǎn)處于{-45,…,45}之間的整數(shù),然后被施加一個隨機的平移操作,平移距離是{-15,…,15}之間的整數(shù)像素,然后被施加一個縮放,由于盡量不使面不變形過于明顯,以及方便groundtruth 的z 方向,可以根據(jù)輸入圖片的變化產(chǎn)生對應(yīng)變化,本文中的縮放均使用等比例縮放,這樣groundtruth 的三維數(shù)據(jù)可以直接按照相同的比例進行縮放,隨機縮放比例處于1-{-0.15,…,0.15}之間,隨機選取20%的樣本做水平翻轉(zhuǎn),最后輸入數(shù)圖片在RGB 三個通道分別做等比例的隨機亮度調(diào)整,調(diào)整范圍在{0.6,…,1.4}之間。 同時,作為對應(yīng)的三維人臉也要做同樣的變換,與輸入的RGB 圖片保持對齊。

      圖7 FishNET 與UNET 的參數(shù)規(guī)模和NME-LOSS 關(guān)系的比較Fig. 7 Comparison of FishNET and UNET parameter scale and NME-LOSS relationship

      圖8 MR-UNET 的網(wǎng)絡(luò)結(jié)構(gòu)Fig. 8 MR-UNET network structure

      在主網(wǎng)絡(luò)訓(xùn)練至LOSS 不再下降,打開對應(yīng)通道,使第二行的網(wǎng)絡(luò)加入訓(xùn)練,訓(xùn)練參數(shù)相較于第一行訓(xùn)練參數(shù)均減少為原先的一半,訓(xùn)練至LOSS 不再下降;同樣在模型的LOSS 穩(wěn)定且不再下降后,打開對應(yīng)通路將第三行的網(wǎng)絡(luò)加入模型,訓(xùn)練方式仿照第一二行的情況,同樣需注意第三行和前兩行的數(shù)據(jù)應(yīng)保持等比例情況下的一致,且groundtruth 的三維人臉應(yīng)做對應(yīng)的變換來與輸入圖像保持對齊。

      同樣在模型的LOSS 穩(wěn)定且不再下降后,打開對應(yīng)通路將第三行的網(wǎng)絡(luò)加入模型,訓(xùn)練方式仿照第二行的情況,同樣需注意第三行和前兩行的數(shù)據(jù)應(yīng)保持等比例情況下的一致,且groundtruth 的三維人臉應(yīng)做對應(yīng)的變換來與輸入圖像保持對齊。

      本文對MR-UNET 與UNET 的參數(shù)規(guī)模和NME-LOSS 關(guān)系的比較,結(jié)果如表4 所示。 可見MR-UNET 在單幅人臉圖像三維重建任務(wù)上達到了最低的NME-LOSS。

      表4 MR-UNET 與UNET 的參數(shù)規(guī)模和NME-LOSS 關(guān)系的比較Tab. 4 Comparison of the parameter scale of MR-UNET and UNET and the relationship between NME-LOSS

      2.3 對自編碼體素網(wǎng)絡(luò)引導(dǎo)項的研究

      簡單的兩個串聯(lián)的UNET 模型表達能力有限,因此又訓(xùn)練了一個vrn-multitask 用于輸出人臉特征點的熱度圖,模型結(jié)構(gòu)如圖9 所示。 將這個熱度圖與原輸入連接到一起,輸入網(wǎng)絡(luò)進行重建,讓這個特征點的熱度圖對原模型進行引導(dǎo),稱為vrn-guided,網(wǎng)絡(luò)結(jié)構(gòu)如圖10 所示。

      圖9 VRN-multitask 的網(wǎng)絡(luò)結(jié)構(gòu)Fig. 9 VRN-multitask network structure

      圖10 VRN-guided 的網(wǎng)絡(luò)結(jié)構(gòu)Fig. 10 VRN-guided network structure

      在vrn-duided 中,首先訓(xùn)練了一個叉狀網(wǎng),如圖9 所示。 輸入圖片進入一個U-Net 后,輸出的特征被分為兩份,分別輸入到兩個單獨的U-Net 中,上半部分用于預(yù)測輸入人臉的熱度圖,下半部分用于預(yù)測三維重建結(jié)果,其中面部特征點熱度圖和三維體素人臉的損失同時能影響到左邊第一個U-Net 的參數(shù)學(xué)習(xí),vrn 原文中稱這個網(wǎng)絡(luò)為vrn-multitask,這個模型可以同時預(yù)測輸入圖片中人臉的特征點概率分布熱度圖和重建體素三維模型。 從模型角度來看,vrnmultitask 的左下半部分(去除第二列最上面的一個U-Net)與vrn-unguided 模型結(jié)構(gòu)一致。

      提取vrn-multitask 的左上半部分的熱度圖提取網(wǎng)絡(luò)。 首先將RGB 人臉圖片輸入該網(wǎng)絡(luò),得到192×192×68 的面部特征點熱度圖矩陣,將其和輸入圖片的192×192×3 的矩陣連接,這一步要確定兩者維度的對齊,一起輸入到重建網(wǎng)絡(luò)中進行重建,這個流程的模型就是vrn-guided,結(jié)構(gòu)如圖10 所示。

      本文認(rèn)為二維的特征點的熱度圖并不能最好的對模型進行引導(dǎo),原圖中很多信息并沒有被包含進去:如姿態(tài)、光照等信息。 因此,希望能訓(xùn)練一個網(wǎng)絡(luò)對姿態(tài)等信息進行預(yù)測,并與特征點信息一起對原模型進行引導(dǎo),嘗試達到比VRN 更好的效果。

      2.3.1 面部特征點信息用于引導(dǎo)

      在VRN 原文中,本文使用了一個另外的網(wǎng)絡(luò)用于面部特征點的檢測, 將檢測結(jié)果轉(zhuǎn)化為192x192x68 的熱度圖與vrn-unguided 連接后再輸入到UNET 中,用于引導(dǎo)三維重建過程,本文首先復(fù)現(xiàn)了該工作并達到了baseline,復(fù)現(xiàn)結(jié)果的NMELOSS,如表5 所示。

      表5 VRN-guided 復(fù)現(xiàn)結(jié)果的NME-LOSSTab. 5 NME-LOSS of the VRN-guided reproduction

      本文認(rèn)為就人臉特征點的表達來說,使用熱度圖并不是唯一且最好的方法。 通過面部特征點提取的神經(jīng)網(wǎng)絡(luò)獲得人能理解的面部特征點的熱度圖,再從熱度圖轉(zhuǎn)化為機器能理解的神經(jīng)網(wǎng)絡(luò)特征,經(jīng)歷了兩次不同domain 的翻譯過程,這個翻譯的過程可能導(dǎo)致一些信息的損失和網(wǎng)絡(luò)訓(xùn)練難度增加。 因此,本文在LFPW, HELEN, AFW, AFLW 等數(shù)據(jù)集上訓(xùn)練了一個以UNET 為基本結(jié)構(gòu)的面部特征點檢測網(wǎng)絡(luò),在IBUG 和MUG 數(shù)據(jù)集上測試達到dlib 的標(biāo)準(zhǔn)化MSE 誤差,將倒數(shù)第二層的特征提取代替原先的特征點熱度圖進行引導(dǎo)。

      希望倒數(shù)第二層的特征更好地起到引導(dǎo)重建的作用,本文首先將預(yù)測特征點網(wǎng)絡(luò)和三維重建網(wǎng)絡(luò)分別訓(xùn)練作為初始化,打開連接兩個網(wǎng)絡(luò)的通道一起訓(xùn)練,重復(fù)上面的兩個步驟幾次以后,得到最終結(jié)果,模型結(jié)構(gòu)如圖11 所示。

      圖11 模型結(jié)構(gòu)Fig. 11 The model structure

      最終保持了面部特征點檢測的準(zhǔn)確性,達到了dlib 相當(dāng)?shù)腷aseline,同時得到了比使用特征點熱度圖更高的結(jié)果,如圖12 所示。 圖12(a)是在AFLW2000上的結(jié)果,圖12(b)是在Florence 上的結(jié)果。

      圖12 特征點信息引導(dǎo)方法與VRN 的比較Fig. 12 Comparison of vrn and method with feature point information guidance

      2.3.2 面部姿態(tài)信息用于引導(dǎo)

      同時本文發(fā)現(xiàn)MR-UNET 在面部姿態(tài)預(yù)測有著很好的表現(xiàn),因此本文參考面部特征點信息用于引導(dǎo)的方法,將MR-UNET 的倒數(shù)第二層特征用于補充引導(dǎo)VRN-guided,最終在原基礎(chǔ)上得到了更好的效果。 圖13(a)是在AFLW2000 上的結(jié)果,圖13(b)是在Florence 上的結(jié)果。

      首先單獨訓(xùn)練MR-UNET 和VRN-guided 作為初始化,然后將兩個網(wǎng)絡(luò)連接起來同時訓(xùn)練,重復(fù)這兩個步驟若干次直到重建損失不再下降。

      2.4 對自編碼體素網(wǎng)絡(luò)損失函數(shù)的研究

      在VRN 的原文中,使用了一個全局的交叉熵?fù)p失函數(shù)作為網(wǎng)絡(luò)的LOSS 進行訓(xùn)練,式(1):

      圖13 姿態(tài)信息引導(dǎo)的方法與vrn 的比較Fig. 13 Comparison of vrn and method with pose information guidance

      近期在目標(biāo)檢測領(lǐng)域Focal-Loss 被提出,用于優(yōu)化交叉熵?fù)p失函數(shù)[3]。 目標(biāo)檢測通常被分成兩階段和一階段兩種算法,前者的代表是Faster RCNN,這類算法準(zhǔn)確率高但執(zhí)行效率低,雖然可以通過減少proposal 的數(shù)量或者降低輸入圖像的分辨率等方式來進行提速,但實際上治標(biāo)不治本,速度并沒有質(zhì)的提升;后者的代表是yolo,這種直接回歸的檢測算法效率高,但準(zhǔn)確度低。 經(jīng)過實驗研究表明單階段的算法不如兩階段的算法準(zhǔn)確度高是因為樣本類別不均勻,在目標(biāo)檢測中,成千上萬個候選位置中只有少部分是正樣本,導(dǎo)致樣本不均衡,這使負(fù)樣本占據(jù)了總LOSS的大部分,而且大多數(shù)都是簡單樣本,導(dǎo)致了模型優(yōu)化偏離了預(yù)期,之前的OHEM 方法也試圖解決樣本不均勻的情況,但是它雖然增加了分錯的樣本的權(quán)重,卻忽略了容易分類的樣本。 針對這個問題,本文提出了focal loss,通過減少易分類樣本的權(quán)重使得模型在訓(xùn)練時能夠更加專注于難分類的樣本,同時在原文中還訓(xùn)練了一個retinaNet 來證明focal loss 是有效的。 實驗結(jié)果表明retinaNet 即具有單階段檢測器的速度,又擁有兩階段檢測器的準(zhǔn)確度。

      按照Focal Loss 的思想,全局形式的交叉熵?fù)p失未必是最好的損失函數(shù)表達,因為正負(fù)樣本都被賦予了同樣的權(quán)重。 而在體素模型下,本文統(tǒng)計得到三維空間中負(fù)樣本(空塊)與正樣本(體元塊)的比值大約為3:1,希望模型把更多注意力放在正樣本上,也就是那些體元塊上。 因此,本文提出Focal Loss 來解決這個問題,其表達式(2)如下:

      其 中,α和γ是 超 參 數(shù)。 本 文 測 試 了AFLW2000 和Florence 數(shù)據(jù)集下,不同α和γ下的VRN 的NME-LOSS,結(jié)果如表6 和表7 所示。

      表6 AFLW2000 下的結(jié)果Tab. 6 Result on AFLW2000

      表7 Florence 下的結(jié)果Tab. 7 Result on Florence

      實驗證明:α =0.5,γ =2.0 時,模型的重建效果最好。

      3 結(jié)束語

      本文首先討論了基于單幅圖像的三維人臉重構(gòu)的研究背景、意義、和幾種主流方法,包括傳統(tǒng)的基于貝葉斯統(tǒng)計學(xué)習(xí)建模,使用馬爾科夫-Metropolis算法優(yōu)化的方法和以VRN 和3DDFA 為代表的利用卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型,逐一討論了這些方法的優(yōu)缺點和適用的條件及范圍。 復(fù)現(xiàn)了傳統(tǒng)的基于統(tǒng)計學(xué)習(xí)的重建方法,并給出了實驗結(jié)果,比較了這些結(jié)果和幾種其他的已有方法的效果優(yōu)劣。 另外,也復(fù)現(xiàn)了VRN 的有引導(dǎo)項和無引導(dǎo)向的兩個版本,訓(xùn)練達到了原文的baseline,驗證了VRN 算法的有效性,為接下來對VRN 算法的改進奠定了基礎(chǔ)。

      本文從3 個方向?qū)RN 算法進行了改進。 本文對體素重建網(wǎng)絡(luò)使用的U-Net 結(jié)構(gòu)和性能進行了描述,并分析了其優(yōu)點和缺點;針對其缺點,介紹了Fish-Net 模型,并根據(jù)其思想對體素重建網(wǎng)絡(luò)進行了修改和優(yōu)化,給出了實驗對比結(jié)果,證明了在同等參數(shù)規(guī)模下改進后的模型表現(xiàn)得更好;同時,本文提出了MR-Net模型,在多尺度下對VRN 進行優(yōu)化,實驗表明MR-Net在多尺度下對VRN 的改進是有效的;本文就帶有引導(dǎo)項的體素重建網(wǎng)絡(luò)進行了討論,研究了帶有引導(dǎo)項的重建網(wǎng)絡(luò)效果優(yōu)于不帶有引導(dǎo)項的重建網(wǎng)絡(luò)的原因,分析了利用人臉特征點熱度圖引導(dǎo)的優(yōu)勢和不足,進而構(gòu)建了一個由串聯(lián)U-Net 構(gòu)成的面部特征點檢測網(wǎng)絡(luò),使用網(wǎng)絡(luò)的特征對體素重建網(wǎng)絡(luò)進行引導(dǎo),實驗測試證明這種改進較直接用特征點熱度圖的方式引導(dǎo)更加合理,并且得到了更好的結(jié)果;本文還嘗試了使用MR-Net 對姿態(tài)進行預(yù)測,用姿態(tài)預(yù)測網(wǎng)絡(luò)的倒數(shù)第二層對重建網(wǎng)絡(luò)進行引導(dǎo),實驗證明這種改進同樣是有效的,相比VRN-Guided 得到了更好的結(jié)果;最后,本文對體素重建網(wǎng)絡(luò)的損失函數(shù)進行了討論和改進,敘述了VRN 的損失函數(shù)的推導(dǎo)方法,說明了其本質(zhì)上是一種交叉熵?fù)p失函數(shù)及其原理,介紹了Focal Loss,并借助Focal Loss 的思想對這種交叉熵?fù)p失函數(shù)進行了改進,并給出了實驗的對比結(jié)果,結(jié)果表明本文提出的非全局方式的Loss 形式相比與原文的全局形式在同等條件下有更好的表現(xiàn)。

      猜你喜歡
      體素人臉損失
      基于超體素聚合的流式細(xì)胞術(shù)自動門控方法
      基于多級細(xì)分的彩色模型表面體素化算法
      少問一句,損失千金
      有特點的人臉
      胖胖損失了多少元
      運用邊界狀態(tài)約束的表面體素加密細(xì)分算法
      基于體素格尺度不變特征變換的快速點云配準(zhǔn)方法
      玉米抽穗前倒伏怎么辦?怎么減少損失?
      三國漫——人臉解鎖
      動漫星空(2018年9期)2018-10-26 01:17:14
      一般自由碰撞的最大動能損失
      无为县| 汉源县| 绵竹市| 琼中| 海门市| 巫山县| 酉阳| 江安县| 贵德县| 无极县| 东海县| 拜城县| 鹿泉市| 浦城县| 乐陵市| 大埔区| 阳信县| 黎平县| 师宗县| 措美县| 肥城市| 刚察县| 山东| 青海省| 德令哈市| 房山区| 新源县| 元江| 永寿县| 白朗县| 伊金霍洛旗| 额敏县| 福清市| 静宁县| 彭州市| 凤庆县| 德保县| 攀枝花市| 清涧县| 宁远县| 祁阳县|