• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于鏡面對稱引導(dǎo)的單幅圖像三維重建

      2022-05-12 09:25:34路志青付燕平
      現(xiàn)代計算機(jī) 2022年5期
      關(guān)鍵詞:鏡面對稱性三維重建

      路志青,付燕平

      (安徽大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院,合肥 230601)

      0 引言

      人類能夠有效利用自身的視覺系統(tǒng)從單幅圖像中推斷出對應(yīng)場景或物體的空間結(jié)構(gòu)或幾何形狀。即使圖像中物體或者對象存在嚴(yán)重的遮擋或自遮擋的情況,人類視覺系統(tǒng)也能夠估計出物體的大致形狀。這種從有限的2D 信息中直接感知3D 結(jié)構(gòu)的能力來源于對我們熟悉的形狀和幾何的強(qiáng)烈先驗。近年來,一些研究者對這種從單幅圖像推斷三維結(jié)構(gòu)的能力進(jìn)行了大量的研究,并應(yīng)用到三維重建、物體識別、機(jī)器人抓取、物體位姿估計等領(lǐng)域。然而從含有明顯遮擋的圖像中推斷出對應(yīng)的物體或場景的三維信息仍然是一個巨大的挑戰(zhàn),尤其是存在物體自遮擋的情況。

      為了處理重建中的圖像中對象的遮擋問題,Xie 等提出將先驗的三維形狀知識整合到網(wǎng)絡(luò)中作為額外的約束,來對輸入單視圖三維重建進(jìn)行完整的估計,并獲取三維結(jié)構(gòu)。Li等通過對遮擋物體進(jìn)行概率估計生成多個似是而非的三維結(jié)構(gòu),從而解決遮擋物體可能存在的三維結(jié)構(gòu)。然而,上述的工作往往忽略了大多數(shù)自然界以及人造物體自身的幾何特性,即自身鏡面對稱性(圖1),無法有效地解決物體遮擋導(dǎo)致的遮擋部分重建結(jié)果準(zhǔn)確率下降以及二義性問題。在本工作中,我們提出了利用物體的自身幾何鏡面對稱特性來對三維重建網(wǎng)絡(luò)進(jìn)行約束,從而提高單幅圖像三維重建的質(zhì)量。我們提出一個基于鏡面對稱的端到端的網(wǎng)絡(luò)結(jié)構(gòu),首先通過包含概率采樣的圖編碼器將特征映射到一個基于深度學(xué)習(xí)的隱空間,然后計算出三維空間中對應(yīng)點坐標(biāo)的鏡面對重建進(jìn)行約束,最終輸出一個三維點云模型。通過ShapeNet和Pix3D數(shù)據(jù)集上大量的實驗和測試中驗證了我們想法的正確性,通過定性和定量分析證明了我們提出的基于對稱引導(dǎo)的三維重建網(wǎng)絡(luò)能夠重建處高質(zhì)量的三維點云,并估計處遮擋部分準(zhǔn)確的三維結(jié)構(gòu)。

      圖1 人造物體自身對稱性結(jié)構(gòu)

      1 相關(guān)工作

      1.1 多視圖三維重建

      目前,海量圖像數(shù)據(jù)驅(qū)動下的深度學(xué)習(xí)給三維重建帶來了新的機(jī)遇?;谏疃葘W(xué)習(xí)的圖像處理能夠給三維重建帶來更多更有價值的信息,并提高重建的準(zhǔn)確性。而三維重建方法大多數(shù)是需要多個視角的圖像作為輸入,這種被稱為多視圖三維重建工作能夠利用重建對象的多個視角采樣推斷出準(zhǔn)確的物體三維空間信息。Choy 等提出了3D-R2N2多個視角的三維重建網(wǎng)絡(luò),該網(wǎng)絡(luò)通過深度卷積主動學(xué)習(xí)從圖像到3D 形狀的映射,并以3D 占用網(wǎng)格的形式輸出三維表示。當(dāng)輸入多張圖像到該網(wǎng)絡(luò)時,三維重建表示會逐漸細(xì)化。然而,該網(wǎng)絡(luò)在輸入圖像少的時候,重建的精度就會降低。類似于3D-R2N2等主流的網(wǎng)絡(luò)采用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNNs)來融合從輸入圖像中連續(xù)提取的多個特征映射。然而,當(dāng)輸入圖像存在不同階次時,基于RNN 的方法就無法產(chǎn)生一致的重建結(jié)果。基于此,Xie 等提出Pix2Vox 網(wǎng)絡(luò),該網(wǎng)絡(luò)首先通過輸入多視角圖像生成一個粗略的3D 模型,然后利用上下文感知融合模塊自適應(yīng)地從不同三維體中選擇部分高質(zhì)量重建部件(比如桌腿),通過融合得到融合后的三維模型。最后通過求精模塊進(jìn)一步細(xì)化整合在一起三維模型,并得到最終的三維重建結(jié)果。類似于Xie 等的三維重建算法一般稱作增量式的三維重建。然而,增量式多視圖三維重建的幾何結(jié)構(gòu)的獲取非常依賴于重建的初始視圖,或者說最初生成的粗略的3D 模型好壞往往取決于輸入的視圖的好壞,并在不斷的調(diào)整中受到輸入視圖的約束。然而,該類算法會存在明顯的相機(jī)位姿累積誤差,并最終影響三維重建的結(jié)果。因此Liang等采用非增量式進(jìn)行多視圖三維重建,非增量式三維重建對初始視圖重建的精度要求不高,他們首先求出所有攝像機(jī)的參數(shù),通過全局方式一次性計算目標(biāo)三維點,并在重建的精度和效率上優(yōu)于增量式三維重建。然而,該方法在輸入數(shù)據(jù)較大的時候,參數(shù)的增多往往會使得重建效率下降。

      1.2 單視圖三維重建

      由于在多視圖重建中,數(shù)據(jù)獲取不方便以及數(shù)據(jù)計算量大的原因,致使很多研究者們把目光投向了單視圖三維重建,并提出了很多基于單視圖的端到端的三維重建框架。然而,單張視圖在三維重建中仍然存在很多的問題,其中最重要的就是重建對象存在自遮擋現(xiàn)象,由于單張圖像沒有更多的視角給重建提供足夠的信息,這直接導(dǎo)致最終重建的結(jié)果不準(zhǔn)確和二義性。針對這個現(xiàn)象,Mandikal 等提出了兩個思考問題:①給定一個物體的二維圖像,推斷其精確的三維點云表示的有效方法是什么?②當(dāng)輸入圖像存在高度遮擋時,我們?nèi)绾卧O(shè)計網(wǎng)絡(luò)來生成一組與輸入圖像一致的可信的3D 形狀?基 于此,他們提 出了3D-LMNet 網(wǎng)絡(luò)。3D-LMNet首先利用倒角距離損失訓(xùn)練點云自編碼器,然后使用多樣化損失和潛在空間匹配損失將自編碼向量映射到高斯概率分布來解決圖像遮擋導(dǎo)致重建的不確定問題。Li等提出了針對自遮擋問題的端到端的單視圖三維點云重建網(wǎng)絡(luò)3D-ReConstnet。針對物體自遮擋部分的不確定性,該網(wǎng)絡(luò)同樣利用特征向量學(xué)習(xí)到的高斯概率分布來預(yù)測點云。為了提高單視圖3D重建的準(zhǔn)確性,Xu 等提出了DISN 網(wǎng)絡(luò),該網(wǎng)絡(luò)采用一種隱式三維表面表示法SDF(signed distance function)在全局和局部特征信息上對給定一張圖像預(yù)測符號距離域,以此來重建三維模型。然而,數(shù)據(jù)驅(qū)動的網(wǎng)絡(luò)在估計點云重建方面往往不夠準(zhǔn)確,因為它們?nèi)狈缀渭s束,無法利用物體自身的幾何特性來對重建結(jié)構(gòu)進(jìn)行引導(dǎo)從而消除物體遮擋和自遮擋的影響。

      1.3 鏡面對稱性約束

      對稱性尤其是自身對稱性已經(jīng)應(yīng)用到了計算機(jī)視覺領(lǐng)域的很多方面,比如無監(jiān)督形狀恢復(fù)和圖像處理。在三維重建中,利用單張RGB 圖像中對象的自身對稱性來重建物體的三維形狀通過傳統(tǒng)的方法是可以實現(xiàn)的。正如Zhou 等所敘述的一樣,從圖像中檢測對稱性以及重建相應(yīng)的點云是一項挑戰(zhàn)的任務(wù)。首先,由于大多數(shù)基于幾何的對稱性檢測方法僅適用于二維平面以及擺放適宜的物體,而對于三維對稱平面是處理是不足的;再者,雖然通過神經(jīng)網(wǎng)絡(luò)能夠檢測出三維物體的鏡面,但是由于缺乏幾何先驗的約束,準(zhǔn)確性不高。為了提升三維的準(zhǔn)確性以及滿足上述的不足之處,我們的網(wǎng)絡(luò)在訓(xùn)練中添加了綜合上述二者優(yōu)勢的三維幾何對稱來約束三維重建,以期達(dá)到更好的結(jié)果。我們的對稱性通過高斯概率獲取對稱性信息,并通過神經(jīng)網(wǎng)絡(luò)的訓(xùn)練下獲取的參數(shù)來約束對稱信息,使得提升重建的準(zhǔn)確性。

      2 研究方法

      本文所提出的基于鏡面引導(dǎo)端到端的三維重建網(wǎng)絡(luò)框架如圖2 所示,輸入單張RGB 圖像,經(jīng)過網(wǎng)絡(luò)特征提取網(wǎng)絡(luò)、概率采樣、鏡面對稱約束等處理能夠生成較為準(zhǔn)確的三維點云模型。我們的網(wǎng)絡(luò)框架是在3D-LMNet的模式下進(jìn)行設(shè)計并改進(jìn)的,在特征提取部分我們引入DenseNet網(wǎng)絡(luò),并采用DenseNet121 網(wǎng)絡(luò)對圖像進(jìn)行編碼,以便獲取更加充足的圖像特征。在點云生成部分我們引入了鏡面對稱對模型的三維結(jié)構(gòu)進(jìn)行自相似約束。最后利用輸出網(wǎng)絡(luò)來獲取最終的三維模型。

      2.1 網(wǎng)絡(luò)架構(gòu)

      我們提出基于單幅圖像鏡面約束的三維重建網(wǎng)絡(luò)的目的就是輸入單張RGB 圖,通過網(wǎng)絡(luò)處理輸出對應(yīng)物體的三維點云結(jié)構(gòu)。首先,我們對輸入圖像進(jìn)行特征提取,并將圖像的二維空間信息映射到三維空間。近些年基于學(xué)習(xí)的圖像特征提取方法多種多樣,其中最為常見的就是ResNet和DenseNet。ResNet利用 殘差塊對圖像進(jìn)行處理,并在增加網(wǎng)絡(luò)深度的情況下引入跳躍連接的方式來避免層數(shù)的增加帶來的不足,這很可能會丟失部分的參數(shù);而DenseNet 在保證增加網(wǎng)絡(luò)層的基礎(chǔ)上對每一層的參數(shù)都進(jìn)行跳躍連接,能夠大大減少了參數(shù)的丟失。由于我們采用的是單幅圖像的三維重建,信息量的減少會影響重建的質(zhì)量,因此我們隊3D-LMNet 進(jìn)行改進(jìn), 我們采用了DenseNet121 網(wǎng)絡(luò)為特征提取層來充分利用圖像信息,從而減少有用信息的大量丟失。通過DenseNet121對特征提取,獲取圖像特征張量。接著我們把引入到一個高斯概率潛在空間,在網(wǎng)絡(luò)中進(jìn)行大量輸入數(shù)據(jù)的訓(xùn)練并更新潛在空間網(wǎng)絡(luò)的權(quán)值,然后利用最終的模型對輸入特征進(jìn)行解碼獲取輸入圖像中物體對應(yīng)的三維空間信息:

      其中,均值=(), 標(biāo)準(zhǔn)差=(),是和有相同的尺寸的隨機(jī)參數(shù),對標(biāo)準(zhǔn)差進(jìn)行約束。然后,我們通過解碼器對三維信息進(jìn)行解碼,輸出維度為1024×3的三維張量。

      在多次實驗中我們發(fā)現(xiàn)利用輸出的三維張量直接重建點云準(zhǔn)確率不高,為了解決這個問題我們引入了三維鏡面對稱來對網(wǎng)絡(luò)進(jìn)行約束,如圖2 中部分就是我們的鏡面對稱結(jié)構(gòu)約束。此時,我們首先要考慮的就是三維平面的位置問題,即如何確定我們需要的三維空間平面。在實驗中,我們將二維圖像信息映射到三維空間中采用的是高斯概率采樣,在設(shè)計上我們利用了標(biāo)準(zhǔn)正態(tài)分布對二維圖像信息進(jìn)行的處理,標(biāo)準(zhǔn)正態(tài)分布密度函數(shù)如下:

      圖2 網(wǎng)絡(luò)總體結(jié)構(gòu)

      此時的均值= 0,也就是所有三維空間的信息全部聚集到了均值兩側(cè),并對稱分布。根據(jù)這個理論,我們能夠推測出生成的三維數(shù)據(jù)是處于某一個維度的分布中的。之后,我們將解碼后的維度為1024 × 3 的三維張量進(jìn)行平面估計,最終確定其鏡面結(jié)構(gòu)。

      2.2 損失函數(shù)

      點云的結(jié)構(gòu)無序性要求我們需要選擇一種與輸入點序列不相關(guān)的損失來訓(xùn)練點云生成網(wǎng)絡(luò)。目前廣泛應(yīng)用的方法就是采用倒角距離(chamfer distance, CD)和 地 移 距 離(earth mover’s distance,EMD)去訓(xùn)練點云生成網(wǎng)絡(luò)。倒角距離CD 測量的是生成點與GT(ground truth)中對應(yīng)位置的點的距離的平方。EMD 處理的是GT 與生成點云之間點與點之間的映射。為了有效地利用物體自相似的特性,我們利用估計的鏡面對稱平面,在損失函數(shù)中加入鏡面對稱約束,整個損失函數(shù)定義為:

      其中CDEMD是對稱性點云生成的損失函數(shù),是約束對稱性生成強(qiáng)度的超參數(shù),這里我們定義為= 0.1,我們的CD 函數(shù)和EMD 分別定義為:

      其中我們令X∈R表示GT,X∈R表示生成的點云集合。表示生成的點云中點的數(shù)量。∈X表示GT 中的點,∈X表示生成點云中的點。

      3 實驗與結(jié)果分析

      3.1 實驗

      數(shù)據(jù)集。為了讓我們的實驗在結(jié)果上更加具有公信度,我們采用公共數(shù)據(jù)集ShapeNet和Pix3D來訓(xùn)練和測試我們的三維重建網(wǎng)絡(luò)模型,其中ShapeNet 數(shù)據(jù)集包含來自13個不同類別的共43809 CAD 模型,以及其對應(yīng)不同角度的渲染圖像,Pix3D 數(shù)據(jù)集包含7595 中真實拍攝的圖像以及其對應(yīng)的物體遮罩掩碼和CAD 模型等。我們采用和相關(guān)工作相同的4∶1訓(xùn)練集和測試集的比例進(jìn)行實驗。

      實驗詳情。為了使得和以往工作進(jìn)行更公平的對比,我們采用與相關(guān)工作相同的學(xué)習(xí)率5×10和優(yōu)化器Adam 分別對實驗進(jìn)行約束和優(yōu)化。由于數(shù)據(jù)量較大,我們采用小批量(尺寸為32)將需要訓(xùn)練的數(shù)據(jù)輸入到訓(xùn)練網(wǎng)絡(luò)中,并在50 輪的迭代,輸出最終的網(wǎng)絡(luò)模型。為了滿足網(wǎng)絡(luò)對輸入數(shù)據(jù)尺寸的要求。首先,我們將輸入的圖像進(jìn)行預(yù)處理,使其長寬尺寸都為128像素,然后在特征提取網(wǎng)絡(luò)DenseNet-121的處理下,將圖像的特征映射到不同的隱空間,之后為了減少額外的參數(shù)我們引入平均池化層對輸出進(jìn)行下采樣,最后,將包含三維空間信息的輸出通過鏡像平面約束并輸出包含自身鏡像的三維點云結(jié)構(gòu)。

      評價方法。點云重建最常用的評價方法有兩種:倒角距離和地移距離,我們利用這兩種方法來評估我們的生成1024 隨機(jī)鏡像采樣點的點云重建網(wǎng)絡(luò)模型。我們在ShapeNet數(shù)據(jù)集上對每一類別隨機(jī)選取圖像進(jìn)行測試,并展示其生成模型(圖3)和評價結(jié)果(表1)。

      表1 部分物體的重建結(jié)果在CD(10-2)和EMD(10-2)指標(biāo)上的比較

      3.2 實驗結(jié)果與分析

      圖3 展示了在ShapeNet數(shù)據(jù)集上的部分類別物體三維重建結(jié)果,最左側(cè)為輸入圖像(包括飛機(jī)、汽車、桌子等),中間是我們的網(wǎng)絡(luò)生成的點云重建結(jié)果,右側(cè)為GT(ground truth)。為了使得輸出尺寸能夠適應(yīng)我們的網(wǎng)絡(luò)輸出,我們設(shè)計的重建模型點的數(shù)量=1024。從結(jié)果中我們能夠看出我們的重建在視覺效果上與GT 的重建結(jié)果接近,而且在結(jié)構(gòu)上與輸入圖像是近似的。

      圖3 在ShapeNet數(shù)據(jù)集上的不同類別的重建點云結(jié)果

      用于重建的點云模型比較稀疏,在可視化效果上并不能直觀的看出重建模型的優(yōu)缺點,因此我們對每一個類別的對象進(jìn)行定量的評估,我們采用CD和EMD 度量來對現(xiàn)有的三維重建算法進(jìn)行定量評價(其中CD和EMD 都是以10為單位),如表1所示。我們選取了6類不同的對象來進(jìn)行測試,并對與近些年最好的三維重建網(wǎng)絡(luò)結(jié)果進(jìn)行比較(包括如PSGN,DISN,3DLMNet, 3D-ReConstNet),其中數(shù)值越小代表重建結(jié)果越好,表中的加粗體部分代表在某一類別中某個網(wǎng)絡(luò)架構(gòu)重建結(jié)果最優(yōu)。從表1中可以看出我們的方法采用鏡面對稱約束只有,能夠恢復(fù)出更加精細(xì)的三維點云結(jié)構(gòu)。

      為了驗證我們引入對稱性平面是否對我們的訓(xùn)練發(fā)揮作用,我們對我們的網(wǎng)絡(luò)結(jié)構(gòu)畸形了消融實驗,分別比較了使用和不使用鏡面對稱約束三維重建的結(jié)果。表2展示了我們的網(wǎng)絡(luò)的使用和不適用鏡面對稱重建結(jié)果的定量分析對比結(jié)果,其中U_ours 代表未加鏡面對稱約束的結(jié)果,Ours 是添加鏡面對稱約束的重建結(jié)果。通過表2的結(jié)果展示,我們能夠直觀的看到對稱性對三維重建可以有效地提高三維重建的質(zhì)量。圖4展示了我們鏡面對稱平面的可視化結(jié)果。

      表2 未加對稱性約束和添加對稱性約束的結(jié)果在CD(10-2)和EMD(10-2)指標(biāo)上的比較

      圖4 引入對稱平面的結(jié)果

      圖5是在Pix3D數(shù)據(jù)集上隨機(jī)選取的3類6個對象進(jìn)行三維重建的結(jié)果,圖中左側(cè)為輸入圖像,中間是通過本文提出的網(wǎng)絡(luò)重建的結(jié)果,右側(cè)為GT。數(shù)據(jù)集Pix3D上的圖像來源于真實拍攝的物體,為了滿足我們的模型對輸入的要求,在重建中我們?yōu)槠涮砑恿薽ask處理,因此在重建的結(jié)果的視覺上沒有在ShapeNet數(shù)據(jù)集上的好,這也說明了單視圖三維重建在真實場景中重建三維模型還是存在不足之處的。通過圖5中的重建結(jié)果與GT 進(jìn)行對比我們還能發(fā)現(xiàn),我們的重建結(jié)果在精細(xì)的幾何細(xì)節(jié)上處理的并不好,這也是目前基于單幅圖像三維重建面臨的一個重要的挑戰(zhàn)也是我們后期工作的一個研究方向。

      圖5 在Pix3D數(shù)據(jù)集上的重建結(jié)果

      雖然添加對稱性能夠給基于學(xué)習(xí)的三維重建網(wǎng)絡(luò)帶來質(zhì)量和結(jié)果的提升,但是單視圖重建中所存在的病態(tài)問題依然沒有完全解決。圖6展示了本文重建結(jié)果的不足之處,這同樣也是單視圖重建中的所面臨的共同問題。那就是對于細(xì)節(jié)部分無法很好地重建,如圖中圓圈所圈的部分比如長椅的把手和分叉的椅腿部分,都不能更加清晰的重構(gòu)出來,圖中音響的音桶部分是無法重構(gòu)出來的,這些都是我們需要仔細(xì)思考的問題。

      圖6 重建結(jié)果中的問題

      4 結(jié)語

      在本文中,我們提出了一個端到端的基于鏡面對稱引導(dǎo)的單視圖三維重建網(wǎng)絡(luò)。我們的網(wǎng)絡(luò)首先將2D 圖像特征映射到一個潛在空間并進(jìn)行采樣獲取圖像的三維空間結(jié)構(gòu),然后利用鏡面約束來處理三維重建中物體的自遮擋問題。我們在ShapeNet和Pix3D兩個公共數(shù)據(jù)集對訓(xùn)練并測試我們的網(wǎng)絡(luò),并輸入非對稱對象的圖像進(jìn)行驗證我們算法的有效性。實驗的結(jié)果展示我們的網(wǎng)絡(luò)在定性和定量上都有一定程度的提升。然而,我們的工作仍然存在一些不足之處,比如嚴(yán)重遮擋的以及其他遮擋的問題我們沒有進(jìn)行處理,我們將在未來的工作嘗試解決。

      猜你喜歡
      鏡面對稱性三維重建
      一類截斷Hankel算子的復(fù)對稱性
      計算鏡面時間“三法”
      神奇的鏡面成畫
      快樂語文(2021年34期)2022-01-18 06:04:06
      巧用對稱性解題
      橫向不調(diào)伴TMD患者髁突位置及對稱性
      基于Mimics的CT三維重建應(yīng)用分析
      軟件(2020年3期)2020-04-20 00:56:34
      幾何映射
      基于關(guān)系圖的無人機(jī)影像三維重建
      三維重建結(jié)合3D打印技術(shù)在腔鏡甲狀腺手術(shù)中的臨床應(yīng)用
      巧用對稱性解題
      田阳县| 鄂州市| 周口市| 长垣县| 甘德县| 集安市| 东至县| 永靖县| 米林县| 林芝县| 临汾市| 牡丹江市| 九寨沟县| 十堰市| 通河县| 保德县| 涟水县| 江孜县| 嘉义县| 常熟市| 成武县| 曲麻莱县| 涿鹿县| 视频| 永城市| 黄陵县| 福海县| 勃利县| 崇阳县| 景谷| 珲春市| 沅陵县| 中西区| 张家港市| 宁明县| 兴义市| 马边| 关岭| 辽宁省| 汶上县| 大足县|