• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于可見光單圖像三維結(jié)構(gòu)恢復(fù)方法綜述

      2021-11-30 05:14:58梁炎興王映輝
      集成技術(shù) 2021年6期
      關(guān)鍵詞:物體深度表面

      梁炎興 王映輝

      (江南大學(xué)人工智能與計算機(jī)學(xué)院 無錫 214122)

      1 引 言

      從二維圖像重建出三維結(jié)構(gòu)作為計算機(jī)視覺的一個重要研究領(lǐng)域,已取得豐富的成果[1-2]。其主要任務(wù)是通過相機(jī)獲取物體的二維圖像信息,利用三維重建的相關(guān)理論分析處理、恢復(fù)真實物體的表面形貌。該技術(shù)廣泛應(yīng)用于人工智能、機(jī)器人、無人駕駛、虛擬現(xiàn)實、航空遙感測量、工業(yè)自動化等重要領(lǐng)域。目前,許多基于多圖像的三維恢復(fù)方法[3-4]已被提出并得到廣泛應(yīng)用。雖然基于單圖像的三維恢復(fù)方法因其病態(tài)性而更具難度,但其方便性一直受到業(yè)界和學(xué)術(shù)界的關(guān)注。尤其是基于可見光(波段在 380~760 nm區(qū)間的肉眼可見光)而非結(jié)構(gòu)光、紅外激光、超聲波等方式的單圖像,其自身已經(jīng)丟失很多關(guān)鍵幾何信息,需要通過一些假設(shè)、先驗知識,或借助基于已有模型的深度學(xué)習(xí)方法實現(xiàn)三維恢復(fù)??偟膩碚f,基于可見光單圖像的三維恢復(fù)存在以下影響因素和困難:

      (1) 物體自身的材質(zhì)差異。不同材質(zhì)的物體因微觀分子結(jié)構(gòu)不同,呈現(xiàn)出不同的表面特性,如金屬、白紙、玻璃等。如果只考慮某種特定材質(zhì)的物體,往往會使三維恢復(fù)系統(tǒng)缺乏泛化性和魯棒性[5],而針對多個類別會因較大的類內(nèi)差異和較小的類間差異導(dǎo)致重建精度下降[6]。

      (2) 物體表面的幾何結(jié)構(gòu)差異。點、線、面代表了不同維度的幾何結(jié)構(gòu),這些基本幾何結(jié)構(gòu)元素的組合構(gòu)成了物體的表面形貌。同一個物體的不同區(qū)域,因物體表面凹凸、高低程度的不同,造成表面結(jié)構(gòu)、輪廓的差異[7]。即使是同種材質(zhì)的不同物體,也會因制造工藝、設(shè)計外形等因素導(dǎo)致物體表面的幾何結(jié)構(gòu)有較大的差異。

      (3) 圖像信息采集的損失。真實世界中的物體往往受到環(huán)境的影響,存在高光、陰影、遮擋、非剛性變形等現(xiàn)象[8],加上相機(jī)拍攝角度、距離、鏡頭畸變、投影等因素,導(dǎo)致圖像本身的信息損失甚至錯誤,干擾三維恢復(fù)的數(shù)據(jù)輸入。

      基于單圖像的三維結(jié)構(gòu)恢復(fù)是一個不確定性問題,即病態(tài)性問題,僅靠單幅圖像無法得到唯一確定的三維恢復(fù)結(jié)果,如何利用一定的先驗知識和預(yù)標(biāo)定數(shù)據(jù)集,來指導(dǎo)和約束三維重建是一大難點。

      基于以上困難,國內(nèi)外許多研究成果給出了不同的解決方案和方法,概括起來包括:基于光照模型的方法、基于幾何圖元展布規(guī)律的方法和基于深度學(xué)習(xí)的方法。

      2 基于光照模型的方法

      2.1 基于紋理的形狀恢復(fù)方法

      從紋理恢復(fù)形狀(Shape from Texture,SfT)的方法,是由 Gibson 于 1950 年首次提出[9],它是一種根據(jù)物體表面紋理變化來推算表面形變情況,進(jìn)而恢復(fù)出物體三維結(jié)構(gòu)的方法。為了簡化模型使其可計算,通常假定物體表面在一個水平面上,此時該方法將問題轉(zhuǎn)變?yōu)楣浪阄矬w所在平面的法向量。之后,該方法逐漸從平面擴(kuò)展到光滑連續(xù)曲面[10]。

      應(yīng)用 SfT 方法必須滿足以下先驗條件:(1)紋理由規(guī)則的紋理單元組成[11],并假定這些單元具有完全一致的固定形狀(通常只有人工構(gòu)造的規(guī)則圖案才滿足該要求);(2)紋理分布具有均勻性[12],即紋理密度相同;(3)紋理圖像能夠轉(zhuǎn)換成基于頻域的表示[13];(4)紋理具有各向同性特性或隨機(jī)相位特性[13]。

      由于該方法限制條件嚴(yán)格,通用性弱,且紋理圖案極易受到光照、陰影的影響,導(dǎo)致其準(zhǔn)確性較低。該方法逐漸被基于明暗的形狀恢復(fù)方法所代替。

      2.2 基于明暗的形狀恢復(fù)方法

      基于明暗的形狀恢復(fù)(Shape from Shading,SfS)方法是計算機(jī)視覺領(lǐng)域中三維結(jié)構(gòu)恢復(fù)的重要方法之一。該方法最早由 Horn[14]于 1986 年提出,其基本過程是借助一定的成像模型,從單幅圖像的明暗變化出發(fā),根據(jù)表面點的亮度取決于入射光線和表面法線之間的角度這一物理定理,通過施加約束條件求解物體表面的梯度場,進(jìn)而由積分梯度的方式得到表面起伏高度值。基于 SfS 方法的系統(tǒng)具有設(shè)備簡單、分辨率高、適用性強(qiáng)等優(yōu)勢,在工業(yè)生產(chǎn)過程檢測[15]、醫(yī)學(xué)圖像分析與重建[16-17]、人臉與指紋等生物特征識別[18-19]、星球表面形貌重建[20]等領(lǐng)域得到廣泛的應(yīng)用。

      2.2.1 經(jīng)典的 SfS 方法

      由于物體表面的明暗極易受到光源、形狀、材質(zhì)特性,以及相機(jī)或視點的角度、距離、參數(shù)等因素的影響,因此經(jīng)典的 SfS 方法需滿足以下前提假設(shè)[14]:(1)表面微觀結(jié)構(gòu)需要抽象為一種朗伯特反射模型;(2)物體表面各點的光照反射特性一致,且反射系數(shù)已知;(3)光源為無限遠(yuǎn)處的點光源;(4)物體表面與相機(jī)距離較遠(yuǎn),成像幾何關(guān)系滿足正交投影。

      如圖 1 所示,由朗伯特反射模型可知,反射光的強(qiáng)度與入射光的強(qiáng)度,以及入射光與體表面法向量之間夾角的余弦值成正比[21],如公式(1)所示:

      圖1 朗伯特反射模型示意圖Fig.1 Lambertian reflection model

      由公式(1)~(3)可知,朗伯特反射模型可由公式(4)表示:

      根據(jù)建立正則化模型方式的不同,SfS 算法大致可分為最小值方法、演化方法、線性化方法和局部方法等 4 類典型算法。

      (1) 最小值方法

      (2) 演化方法

      演化方法的核心是利用動力學(xué)思想,將 SfS的泛函求解問題看作是一個 Hamilton 系統(tǒng)方程問題。當(dāng)給定初值或邊界條件時,該方程就轉(zhuǎn)化為一個柯西初值問題或狄利克雷邊界問題。這類問題通??梢岳锰卣骶€方法[25-26]、Viscosity 方法[27]、Level Sets 方法[28-29]等方法進(jìn)行求解。其中,確定圖像中唯一形狀的特征點是關(guān)鍵,該點是演化過程開始的起點。演化過程從起點開始,搜索鄰近點,找出其中遠(yuǎn)離光源方向的所有點,并從中篩選出離光源方向最近的點,再沿著該方向構(gòu)成的演化路徑計算圖像中每一點的高度值,從而得到整個表面的高度[30]。由于演化過程是關(guān)于時間可微的,故應(yīng)用演化方法求解 SfS 問題,實際上也隱含地利用了物體表面微觀結(jié)構(gòu)模型。

      (3)線性化方法

      線性化方法是指通過對反射函數(shù)作泰勒展開后,舍去其非線性項,將其轉(zhuǎn)化為線性問題進(jìn)行求解。該方法認(rèn)為在反射函數(shù)中,低階項占主要成份,舍去高階項后的結(jié)果與真實情況接近,且滿足泰勒展開的要求,從而間接要求物體表面的高低變化滿足連續(xù)緩慢的特性。因此,先將表面反射函數(shù)表示為表面梯度的函數(shù),并作泰勒展開,只保留常數(shù)項和一次項,兩邊同時進(jìn)行傅里葉變換,然后根據(jù)光源方向的傾角和偏角對其進(jìn)行改寫,再進(jìn)行逆傅里葉變換,即可得到物體表面的高度值[31]。

      (4) 局部化方法

      上述方法的求解過程是全局的,不能獨立得到物體表面的局部形狀表示。而局部化方法首先根據(jù)先驗知識假定物體表面微觀結(jié)構(gòu)是一個特定的形狀(如球形);然后將反射模型與物體微觀結(jié)構(gòu)模型聯(lián)合構(gòu)成形狀參數(shù)的線性偏微方程組,通過尋找圖像特征點,旋轉(zhuǎn)圖像使其與光源方向在圖像平面上的投影方向一致,計算在該坐標(biāo)系下表面點的傾角 γ 和偏角 θ;最后利用邊界條件迭代求解,即可直接確定物體的局部三維表面形狀[32]。

      綜上所述,經(jīng)典 SfS 方法的算法復(fù)雜度高,對初始環(huán)境尤其是光照條件限制嚴(yán)格。朗伯特反射模型本身存在缺陷——理想漫反射的條件在現(xiàn)實中幾乎無法滿足,以此為基礎(chǔ)的各種計算方法必然存在較大誤差。但是,該類方法為其他方法奠定了許多光學(xué)和計算機(jī)渲染的理論基礎(chǔ),如后改進(jìn)的 SfS 方法。

      2.2.2 后改進(jìn)的 SfS 方法

      經(jīng)典的 SfS 方法使用簡化的成像模型(如假設(shè)物體表面滿足理想反射、光源位于無限遠(yuǎn)處、相機(jī)遵循正交投影模型等),盡管降低了 SfS 方法的復(fù)雜性,但也直接導(dǎo)致了三維恢復(fù)結(jié)果的誤差較大。這是因為實際物體的表面并非理想的漫反射表面,而是既含有漫反射又含有鏡面反射的混合表面。尤其是當(dāng)相機(jī)距離物體表面較近時,相機(jī)不再滿足正交投影,而接近于透視投影,甚至還會發(fā)生陰影、遮擋等現(xiàn)象,從而對表面各點的亮度產(chǎn)生更大的干擾。同時,實際物體的表面材質(zhì)是非均勻、各向異性的,使得物體表面各點的光照反射特性不一致,反射系數(shù)也會隨著表面起伏高度和凹凸發(fā)生變化。近年來,國內(nèi)外諸多學(xué)者對經(jīng)典的 SfS 方法展開了不同方面的研究和改進(jìn),衍生出許多突破前提假設(shè)的后改進(jìn)的 SfS 方法。

      (1) 基于表面微觀結(jié)構(gòu)的方法

      經(jīng)典的 SfS 算法中一個最重要的前提假設(shè)是物體表面的光反射模型遵循朗伯特反射模型,該模型是一個高度簡化的理想模型,忽略了許多實際情況。因此,采用不同的表面微觀結(jié)構(gòu)模型和反射模型,盡可能地覆蓋多種光照情況,可以大大提高三維恢復(fù)結(jié)果的精確性。Ahmed 等[33-34]首次建立了 Ward 模型[35]下的 SfS 圖像輻照度方程,并利用 Lax-Friedrichs 算法[36]進(jìn)行了求解。Vogel 等[37-38]提出了透視投影下基于 Phong 模型[39]的混合表面 SfS 方法的研究,如圖 2 所示,同樣使用了 Lax-Friedrichs 算法進(jìn)行求解。Archinal 等[40]基于數(shù)字表面模型[41]利用月球軌道觀察相機(jī)捕捉到窄視角圖像,通過光電映射增強(qiáng)技術(shù),改進(jìn)了月球表面重建模型的細(xì)節(jié)。O’Hara 等[42]使用朗伯特反射模型和 Oren-Nayar 反射模型[43]的混合模型,基于小孔成像相機(jī)模型,實現(xiàn)了單圖像的火星地表重建。Yang 等[44]提出摒棄簡單的反射模型,將基于徑向基函數(shù)的模型擬合到數(shù)據(jù)中,其實驗結(jié)果相比于朗伯特反射模型有明顯提升。Camilli 等[45]研究了如何使一些非朗伯特模型應(yīng)用在 SfS 方法的適配性問題上,拓展了 SfS 方法的普適性。王國琿等[46]提出一種基于牛頓-拉弗森法的 Blinn-Phong 混合表面模型的三維恢復(fù)快速SfS 算法,相比于其他方法提高了求解效率。

      圖2 使用 SfS 方法恢復(fù)莫扎特臉模[38]Fig.2 Shape from shading on the Mozart face[38]

      (2) 基于光照反射率的方法

      物體表面的凹凸和高度,可根據(jù)表面點的亮度變化,通過不同的反射模型計算得到。均勻的光照反射率假定物體表面是光滑的,忽略了現(xiàn)實的非均勻性和各向異性。對不同情況的反射率進(jìn)行分類處理,有利于提高三維恢復(fù)的精度。Samaras 等[47]建立了具有分段恒定反射率的多視點 SfS 模型,并將其應(yīng)用于人臉重建,提高了人臉模型的精細(xì)程度。Capanna 等[48]使用最大似然估計方法來降低噪聲對不同材質(zhì)的反射率的敏感性,并將其應(yīng)用于重建 Lutetia 小行星中。Wu 等[49]使用單幅圖像和不同的約束條件,從低分辨率表面模型中恢復(fù)出不同的反射率對應(yīng)的不同形貌,結(jié)果表明可以達(dá)到和使用相對高分辨率圖像一樣的重建效果。

      (3) 基于光源或相機(jī)與物體距離的方法

      相機(jī)距離物體遠(yuǎn)近的不同直接決定后續(xù)計算使用正交投影還是透視投影,從而影響三維恢復(fù)的精度。Herbort 等[50]基于非朗伯特模型和可變反射率,通過主動距離掃描技術(shù),不斷改變相機(jī)和物體之間的距離,實現(xiàn)三維物體恢復(fù),同時增加距離懲罰項進(jìn)行優(yōu)化約束,保證其精度接近原始曲面,以提高三維恢復(fù)模型的細(xì)節(jié)。Liu 等[51]仔細(xì)分析了光照方向和光源與物體的距離對三維結(jié)構(gòu)恢復(fù)的影響,提出一種誤差預(yù)測模型。該模型揭示了光源與物體表面的距離和方位角如何影響三維恢復(fù)精度。實驗結(jié)果表明,在窄視角高分辨率相機(jī)采集的圖像中,其三維恢復(fù)結(jié)果優(yōu)于其他同時期的方法。

      相比于經(jīng)典的 SfS 方法,基于光源或相機(jī)與物體距離的方法在三維結(jié)構(gòu)恢復(fù)的結(jié)果上有明顯提升,可以根據(jù)不同的場景適應(yīng)不同的重建要求。但良好的重建結(jié)果依賴于準(zhǔn)確的先驗知識,包括對光照情況的綜合考慮、物體表面微觀結(jié)構(gòu)的精確建模、相機(jī)與視點的角度關(guān)系等。對于小范圍的室內(nèi)近距離單個物體,或結(jié)構(gòu)簡單的星球宏觀地貌等,SfS 方法的三維恢復(fù)效果較好,而對于大范圍的復(fù)雜室外場景,恢復(fù)效果較差。為了提高室外場景的三維恢復(fù)效果,SfS 方法逐漸被以多視圖幾何理論為基礎(chǔ)的運動結(jié)構(gòu)恢復(fù)(Structure from Motion,SfM)方法和同時定位與地圖生成(Simultaneous Localization And Mapping,SLAM)方法所取代,但這類方法不屬于基于單圖像范疇的三維結(jié)構(gòu)恢復(fù)方法。

      3 基于幾何圖元展布規(guī)律的方法

      自然界中的部分物體,尤其是人造物體具有明顯的幾何規(guī)律[52-53],如重復(fù)的紋理、對稱的結(jié)構(gòu)、規(guī)則的幾何拼接圖形、人造 CAD 模型等。借助幾何規(guī)律這一重要特性,通過對單幅圖像局部建模和全局拓展,就可以恢復(fù)出完整的三維模型。具體可分為利用二維幾何特征的方法和利用三維構(gòu)造模型的方法。

      3.1 基于二維幾何特征的方法

      基于二維幾何特征的方法是指一個三維模型映射在二維平面上的幾何圖形具有諸如對稱、重復(fù)等規(guī)律,通過將一個單位圖元旋轉(zhuǎn)、平移或縮放就可以反推出整個三維模型。

      該方法的第一步是定義和檢測這種規(guī)律,即需要對目標(biāo)形狀或預(yù)先訓(xùn)練的模型進(jìn)行強(qiáng)約束[54]。Wei 等[55]對此提出了一般對稱性的概念(包括平移對稱、旋轉(zhuǎn)對稱和反射對稱),Chertok[56]、Lee[57]和 Loy[58]在二維圖像的對稱性檢測方面也做了許多工作。這些定義和方法針對特定的目標(biāo)類(如人臉[54],人體[59]和汽車[60])或某些特定場景(如具有平面墻、天花板和地板的室內(nèi)場景[61],具有重復(fù)圖案的平面場景)取得了良好的效果。

      第二步要針對鄰近像素進(jìn)行強(qiáng)制光度匹配,使二維單位圖元重復(fù)拓展拼接形成三維模型的過程中,圖元之間的拼接處更加平滑自然。通常使用基于馬爾可夫隨機(jī)場(Markov Random Field,MRF)的立體優(yōu)化來強(qiáng)制匹配像素之間的光度一致性,使用一個平滑項來懲罰像素鄰域之間的不一致性[62-64]。

      第三步為了使圖元之間具有相互一致的深度值,還需要對三維模型的深度圖進(jìn)行建模。Zabih 等[65]定義多個圖像之間的交互集并強(qiáng)制可見性約束,Sun 等[66]使用遮擋項來懲罰遮擋,這間接地使深度貼圖保持了一致。

      基于上述 3 個重建步驟,許多學(xué)者提出了系統(tǒng)性框架。Wu 等[67]提出一種側(cè)重于利用圖元重復(fù)性的框架,該框架能通過輸入單幅圖像,自動檢測重復(fù)區(qū)域,并將其以圖像中稠密像素匹配的形式恢復(fù)出三維模型,如圖 3 所示。該匹配關(guān)系由一個區(qū)間圖表示,區(qū)間圖表示圖像中每個像素與其匹配像素之間的距離。為了獲得稠密的重復(fù)結(jié)構(gòu),該方法還提出了一個圖割來平衡高層次的幾何重復(fù)約束、低層次的光度一致性和空間平滑性約束,以消除重復(fù)拼接處的不一致性。Xue 等[68]提出一種側(cè)重于利用圖元對稱性縮小搜索空間的框架,通過輸入一個對稱分段平面物體的單幅圖像,尋找所有的對稱線匹配對,然后基于對稱線和平面線,通過 MRF 恢復(fù)出深度圖,相比于其他方法計算效率更高。

      圖3 基于重復(fù)圖元的單圖像重建[67]Fig.3 Repetition-based dense single-view reconstruction[67]

      相較于其他三維模型,中國古代建筑是一種典型的同時具備軸對稱和中心對稱特點的三維模型。王映輝教授團(tuán)隊針對此類問題進(jìn)行了詳細(xì)的研究[69],并提出了一種中國唐朝風(fēng)格的古建筑建模方法[70]。該方法只需要已知建筑物一個角的圖像,就可以根據(jù)其幾何特征規(guī)則恢復(fù)出完整的唐朝建筑三維模型,相比于其他方法具有數(shù)據(jù)量少、魯棒性強(qiáng)的特點?;谏鲜鼋7椒?,團(tuán)隊更進(jìn)一步提出一種基于構(gòu)件提取的室內(nèi)場景重建方法[71]。該方法對幾何圖元規(guī)律進(jìn)行了延伸和拓展,提出了模型構(gòu)件理論。首先,利用形狀檢測和平面分解方法提取室內(nèi)場景中基本形狀構(gòu)件,用基于邊界檢測方法及基于有向包圍盒的方法實現(xiàn)室內(nèi)場景中基本形狀構(gòu)件的擬合;然后,選擇基本形狀構(gòu)件集中最大的構(gòu)件作為基準(zhǔn)構(gòu)件,以基準(zhǔn)構(gòu)件為中心尋找最佳的組合構(gòu)件,對組合構(gòu)件與標(biāo)準(zhǔn)模型庫的標(biāo)準(zhǔn)模型逐一匹配,尋找匹配度最高的構(gòu)件組合,識別最佳組合構(gòu)件組成的物體,并利用標(biāo)準(zhǔn)模型庫中的對應(yīng)標(biāo)準(zhǔn)模型進(jìn)行替換;最后,完成室內(nèi)場景的重建。該方法豐富了二維幾何特征的種類和表達(dá)方式,保證了場景物體構(gòu)件提取的準(zhǔn)確性和場景物體的形狀完整性,并提高了室內(nèi)場景重建的準(zhǔn)確性。

      重復(fù)性和對稱性是一種簡單明確的先驗條件,只需知道一個圖元就可以根據(jù)規(guī)律重建出所有表面,大大減少了三維結(jié)構(gòu)恢復(fù)的難度。但是,特定在一個三維模型上的圖元無法用于處理另一個三維模型。理想的約束條件應(yīng)盡可能廣義,以適應(yīng)更多的對象,但是也應(yīng)盡可能嚴(yán)格,使問題收斂。

      3.2 基于三維構(gòu)造模型的方法

      現(xiàn)實中有許多物體是具有簡單幾何構(gòu)型的,如立方體、圓柱體等,也有許多物體是具有特殊固定形狀的,如人臉是由眼睛、鼻子、嘴巴、耳朵和面部構(gòu)成的,汽車是由底盤、車輪、車殼構(gòu)成的。這些模型的三維結(jié)構(gòu)清楚明確,只需通過對基本幾何體拼接組合即可得到一個更大的復(fù)雜幾何體。因此,在三維恢復(fù)過程中,使用特定的三維構(gòu)造模型代替通用的光照反射模型可以大大提高重建精度?;谌S構(gòu)造模型的方法由待表示對象的參數(shù)模型組成,通過尋找最佳擬合時的輸入圖像和三維模型投影之間的參數(shù)來實現(xiàn)重建。

      最早 Pentland 針對自然界中的常見物體提出了超二次曲面模型[72],為基于三維構(gòu)造模型的方法奠定了基礎(chǔ)。隨后 Jia[73]提出了廣義柱體的概念,并對所有柱類外形進(jìn)行詳細(xì)分類描述。Gupta 等[74]提出了針對方形物體的建模規(guī)則,如圖 4 所示,將模型針對不同的應(yīng)用場景進(jìn)一步細(xì)化分類,提高了重建精度。Xiao 等[75]隨后也提出了類似的建模規(guī)則。這些模型雖然都能對某種特定外形物體進(jìn)行描述,但各模型的局限性太大,導(dǎo)致其適用面較為狹窄。王映輝等[76]提出一種實現(xiàn)三維網(wǎng)格細(xì)化的可調(diào)多邊形方法,該方法首先通過將三角形的中心點映射到切線平面來生成映射點;然后將映射點按一定比例移動,逆時針連接,得到切平面上的可調(diào)多邊形;最后形成可調(diào)三角形和四邊形來填充可調(diào)多邊形之間的間隙。該方法生成的細(xì)分曲面可以根據(jù)不同的運動系數(shù)靈活調(diào)整,相較于傳統(tǒng)超二次曲面模型具有較強(qiáng)的魯棒性和有效性。

      圖4 基于三維模型解析圖的幾何重建[74]Fig.4 Reconstruction based on 3D parse graph[74]

      隨著 CAD 技術(shù)的不斷成熟,基于 CAD 模型的方法[77-78]逐漸涌現(xiàn)。該類方法通過建立一組對應(yīng)點描述模型,可以有效地確定物體的近似視點,從而粗略表示任意物體的近似外形。此外,還有基于 CAD 模型的非參數(shù)化重建的方法[79],但是該方法僅限于對預(yù)先分割好的在線商品圖像進(jìn)行三維恢復(fù),其局限性較大,究其原因是因為沒有對模型的各個組成部分進(jìn)行有效分割和內(nèi)部特征表示。王映輝等[80-81]提出一套多域物質(zhì)體數(shù)據(jù)內(nèi)部分界面提取方法和多域物質(zhì)體數(shù)據(jù)內(nèi)部結(jié)構(gòu)特征表達(dá)方法。該方法通過構(gòu)建有向骨架樹、提取骨架形狀特征和脊骨特征,借助樹形結(jié)構(gòu)拓?fù)溥M(jìn)行向量表示,實現(xiàn)了體數(shù)據(jù)分界面形狀特征的完整描述。實驗結(jié)果表明,該方法不僅能夠準(zhǔn)確表達(dá)三維恢復(fù)模型,同時還能清晰地分割和描述模型內(nèi)外的結(jié)構(gòu)關(guān)系,增強(qiáng)了模型細(xì)節(jié)的精確性。

      總體來看,基于幾何圖元展布規(guī)律的方法的先驗知識,在圖元或模型設(shè)計階段就已經(jīng)被設(shè)定好,可針對特定物體提供更多的先驗信息,因此能取得較好的重建效果。雖然這類方法很難擴(kuò)展到其他物體上,但因其應(yīng)用面廣泛,成為繼 SfS方法之后又一個重要的三維結(jié)構(gòu)恢復(fù)方法。

      4 基于深度學(xué)習(xí)的方法

      深度學(xué)習(xí)(Deep Learning)源于對人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)進(jìn)一步發(fā)展。本質(zhì)上它是一種特征學(xué)習(xí)方法,負(fù)責(zé)把低層次的原始數(shù)據(jù)通過一些簡單的、非線性的網(wǎng)絡(luò)模型轉(zhuǎn)化成為高層次的表達(dá)[82]。1986 年 Rumelhart等[83]提出反向傳播(Back Propagation,BP)算法,但由于該算法在梯度下降時會陷入局部極值,加之存在梯度消失、硬件算力不足等問題,未被大規(guī)模應(yīng)用。直到 2006 年,Hinton 等[84]提出一種新的深度神經(jīng)網(wǎng)絡(luò)模型,該模型利用預(yù)訓(xùn)練的方法緩解了局部極值問題,降低了深度神經(jīng)網(wǎng)絡(luò)的優(yōu)化難度和對計算機(jī)算力的要求,才使該類方法得以重新應(yīng)用。2012 年,在 ImageNet 圖像識別大賽中,Krizhevsky 等[85]采用深度學(xué)習(xí)模型 AlexNet 一舉奪冠。從此,深度學(xué)習(xí)受到國內(nèi)外業(yè)界學(xué)者的廣泛關(guān)注和應(yīng)用。隨著一些新的網(wǎng)絡(luò)結(jié)構(gòu)、訓(xùn)練模型、訓(xùn)練數(shù)據(jù)集的出現(xiàn),深度學(xué)習(xí)在語音識別[86-88]、自然語言處理[89-91]、圖像識別和分割[92-93]等多個領(lǐng)域都取得了顯著的效果。自 AlexNet 網(wǎng)絡(luò)發(fā)布以來,深度學(xué)習(xí)在三維數(shù)據(jù)的分類、識別和重建上也取得了較大的進(jìn)展[94-95]。目前,廣泛應(yīng)用的深度學(xué)習(xí)模型主要包括深度置信網(wǎng)絡(luò)(Deep Belief Network,DBN)[84,96]、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)[97]、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)[98]、生成對抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)[99]等。

      相較于二維圖像領(lǐng)域,深度學(xué)習(xí)在三維重建上的研究起步較晚,但自 2012 年以來也取得了較大進(jìn)展。其中,基于語義標(biāo)簽的方法是三維恢復(fù)深度學(xué)習(xí)方法得以應(yīng)用的重要前提,也是實現(xiàn)通過數(shù)據(jù)集訓(xùn)練三維恢復(fù)深度網(wǎng)絡(luò)的重要基礎(chǔ)。場景的語義理解對于尺度和三維結(jié)構(gòu)的感知起重要作用。基于語義標(biāo)簽的三維恢復(fù)方法是指從帶有幾何信息提示(如地平線、消失點、表面邊界等)的單幅圖像中生成空間上合理的場景三維恢復(fù)[100]。該方法通過了解像素或區(qū)域的語義類,可以很容易地實現(xiàn)深度和幾何約束(如“天空”距離較遠(yuǎn),“地面”是水平的),從而建立局部二維圖像和整體三維模型之間的映射關(guān)系。但是,要唯一確定絕對深度,還需要諸如紋理、相對深度、相機(jī)參數(shù)等額外信息。特別的,該方法非常依賴語義類的初始定義,語義類訓(xùn)練集的精準(zhǔn)與否直接影響最終的重建效果。

      目前,國際上公開的數(shù)據(jù)集包括PASCAL3D+[101]、ObjectNet3D[102]和 IKEA[103]等。這些數(shù)據(jù)集對多個類別的物體語義和位姿信息進(jìn)行預(yù)先人工標(biāo)注。公開數(shù)據(jù)集為各大深度學(xué)習(xí)算法提供了一個相同的訓(xùn)練起點和參考標(biāo)準(zhǔn),但是這些數(shù)據(jù)集也有其自身的局限性:(1)樣本數(shù)量不足,僅限于很少的對象類別和樣本;(2)只能從有限的標(biāo)簽字典中選擇一個標(biāo)簽來標(biāo)注模型,即使語義不夠準(zhǔn)確,也不能創(chuàng)造發(fā)明新的標(biāo)簽;(3)圖像和三維模型因為拍攝視角、相機(jī)畸變等因素導(dǎo)致不能完全匹配;(4)數(shù)據(jù)集之間對標(biāo)簽的尺度定義不統(tǒng)一,存在線段、平面、CAD模型等多種尺度。以上問題造成了深度學(xué)習(xí)方法在監(jiān)督程度上的差異,從而直接影響三維恢復(fù)質(zhì)量。根據(jù)實際應(yīng)用需要,深度學(xué)習(xí)方法通常分為有監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。

      4.1 有監(jiān)督學(xué)習(xí)

      Wu 等[104]建立 3D ShapeNets 網(wǎng)絡(luò),將三維幾何外形標(biāo)簽表示為三維體素上二值變量的概率分布,通過吉布斯采樣預(yù)測外形類型,實現(xiàn)填補未知空洞來完成重建。Kar 等[105]提出立體學(xué)習(xí)機(jī)系統(tǒng),使用逆投影變換,將二維圖像特征投影到三維模型網(wǎng)格中,利用單視點語義線索進(jìn)行三維恢復(fù)。該系統(tǒng)在簡化特征匹配過程的同時仍能保持較好的泛化性。Wu 等[106]提出 MarrNet 網(wǎng)絡(luò)模型,在端到端生成重建結(jié)果的網(wǎng)絡(luò)結(jié)構(gòu)中加入2.5D 草圖,增強(qiáng)了重建效果,使網(wǎng)絡(luò)可以針對不同類別的物體進(jìn)行三維重建。Tulsiani 等[107]利用射線一致性約束構(gòu)造了一個通用檢測器,通過學(xué)習(xí)單視點的三維結(jié)構(gòu)來訓(xùn)練多視點的幾何一致性,使得普通 CNN 網(wǎng)絡(luò)可以測量不同三維物體之間的外觀一致性。Kato 等[108]提出一種近似梯度渲染網(wǎng)格渲染器,并將其集成到神經(jīng)網(wǎng)絡(luò)中,經(jīng)過渲染器處理,使得神經(jīng)網(wǎng)絡(luò)可以通過輸入單幅二維輪廓圖像來監(jiān)督三維結(jié)構(gòu)重建過程。

      特別的,對于一些具有固定形貌的三維物體,有監(jiān)督學(xué)習(xí)可以極大幫助深度網(wǎng)絡(luò)快速收斂,提高三維重聚的精確性。下面具體以人臉模型和人體模型為例進(jìn)行簡單介紹。

      人臉具有明確的五官和高度的對稱性[109-110],且眼睛、眉毛、鼻子、嘴巴和耳朵等相對位置是固定的,深度學(xué)習(xí)網(wǎng)絡(luò)只需根據(jù)輸入的二維人臉圖像,進(jìn)行參數(shù)調(diào)整和模型變形,就能得到對應(yīng)的三維人臉模型。3D 主動形變模型(3D Morphable Models,3DMM)[111-113]正是對應(yīng)該思路的一種三維參數(shù)化模型,該模型通過利用原型人臉的大數(shù)據(jù)集進(jìn)行人臉識別和圖像編碼,尋求構(gòu)建基于圖像的二維人臉線性表示。實現(xiàn)該模型的最直接思路就是在線性空間中嵌入所有三維面部[114-116],或從大量的三維激光掃描圖像公開數(shù)據(jù)集中學(xué)習(xí)面部的密度函數(shù)參數(shù)[117-118]。借助 3DMM 人臉模型,Romdhani[119]提出了一種基于多特征的方法,該方法使用了非線性最小二乘優(yōu)化擬合,提高了恢復(fù)精度。Jourabloo[120]使用CNN 回歸來估計和更新 3DMM 模型參數(shù)。雖然這些方法可以實現(xiàn)針對人臉的高精度模板生成和精確的單圖像人臉重建,但是非常依賴圖像與模板模型之間詳細(xì)準(zhǔn)確的逐點匹配和復(fù)雜的參數(shù)擬合過程,以及大量的人臉數(shù)據(jù)的支持。

      為了簡化模型訓(xùn)練和參數(shù)擬合的復(fù)雜度,Castelan 等[121]和 Dovgard 等[122]利用面部特征對稱性,將所有模型的表面形狀和亮度融合到一個單一的耦合統(tǒng)計模型中,簡化了參數(shù)擬合的過程。這種方法可以生成更加精確的面部曲面輪廓,且當(dāng)新面孔和存儲的模板面孔之間形狀差異很小時,可以將新面孔表示為存儲的三維面孔的線性組合。但是在差異較大的情況下,需要調(diào)整模板以適應(yīng)特定形狀(如輸入的是笑臉時,數(shù)據(jù)庫應(yīng)包括各種笑臉形狀)。同時,該模型不能顯式地對表面亮度進(jìn)行建模,當(dāng)圖像明暗發(fā)生變化時會匹配失敗,特別是針對膚色變化時,這種失效十分普遍。

      Kemelmacher 等[123]提出并解決了一個用于正面圖像的非凸優(yōu)化問題,該方法使用深度圖和反射率圖代替普通的光照圖,并針對深度值和反射率值增加了對應(yīng)的損失函數(shù),提高深度學(xué)習(xí)網(wǎng)絡(luò)在不同亮度下的重建效果。Deng 等[124]提出一種利用 3DMM 模型的 R-Net、C-Net 的聯(lián)合網(wǎng)絡(luò)框架,如圖 5 所示。該網(wǎng)絡(luò)首先通過約束人臉表情、紋理、方位、光照等信息,利用魯棒的混合損失函數(shù)進(jìn)行弱監(jiān)督學(xué)習(xí),同時使用感知水平的信息作為置信度,結(jié)合圖像與模型的互補信息進(jìn)行形狀聚集,最終實現(xiàn)人臉重建。Xu 等[125]使用 3DMM 模型以及其他頭部區(qū)域的深度圖作為輸入,提出一種雙層網(wǎng)絡(luò)來重建頭部模型。該模型首先使用自重建方法在單個圖像上學(xué)習(xí)人臉形狀,然后使用立體圖像學(xué)習(xí)頭發(fā)和耳朵的幾何形狀,不僅提高了精度,而且保證了整體頭部幾何形狀的一致性。

      圖5 基于 R-Net、C-Net 的三維人臉精確重建[124]Fig.5 Accurate 3D Face Reconstruction With R-Net、C-Net[124]

      同理,人體也是一種具有固定特征的模型,人體三維恢復(fù)的任務(wù)是從單幅圖像中分析二維人體姿態(tài)[126-129],估計一個簡單的三維人體骨架[130-131],從而實現(xiàn)完整的三維姿態(tài)和三維人體模型的恢復(fù)。雖然這個問題在多相機(jī)和多視圖幾何理論下得到了很好的解決[132-133],但是對于單幅圖像,不確定的成像條件和有限的數(shù)據(jù)集使得該任務(wù)變得非常復(fù)雜。傳統(tǒng)基于優(yōu)化的方法[134-136]為單目姿態(tài)和形狀恢復(fù)提供了最可靠的解決方案。然而,由于運行時間慢、對初始化條件的依賴,以及陷入局部極小值等問題使得效果并不顯著。借助人體參數(shù)模型(Skinned Multi-Person Linear,SMPL)可直接從圖像中回歸姿勢和形狀,甚至特征點[135]、骨架點[137]、輪廓[137]、語義分割[138]或原始像素[139]。以 Kolotouros 等[140]的方法為例,該方法首先使用 SMPL 作為人體模型的模板引入網(wǎng)格;然后引入 GraphCNN[141]直接處理輸入的單幅圖像并提取特征點,隨后直接附著在 SMPL 模型的頂點坐標(biāo)圖結(jié)構(gòu)中以便繼續(xù)處理;最后每個頂點都將其在 SMPL 模型變形網(wǎng)格中的三維位置作為最終的輸出結(jié)果。該方法能直接恢復(fù)出人體的完整三維幾何模型,而無需顯式地求解預(yù)先指定的參數(shù)化空間。同時,在得到每個頂點的三維坐標(biāo)后,如果需要適配并預(yù)測符合特定的模型,只需要從當(dāng)前模型中反向回歸其參數(shù)即可。Jiang 等[142]提出一種基于 SMPL 參數(shù)模型和距離場的深度學(xué)習(xí)網(wǎng)絡(luò),能夠同時利用兩種損失函數(shù)參與網(wǎng)絡(luò)訓(xùn)練,生成更加準(zhǔn)確的人體姿態(tài)模型。Zhu 等[143]提出一種結(jié)合參數(shù)模型與自由形變的深度學(xué)習(xí)網(wǎng)絡(luò),該網(wǎng)絡(luò)利用身體關(guān)節(jié)、輪廓和每個像素著色信息的約束信息進(jìn)行分層網(wǎng)格變形優(yōu)化,不僅能恢復(fù)出完整人體模型,而且能實現(xiàn)精準(zhǔn)的紋理貼圖匹配。

      4.2 半監(jiān)督學(xué)習(xí)

      不同于直接使用三維模型數(shù)據(jù)集或三維參數(shù)模型數(shù)據(jù)集訓(xùn)練深度網(wǎng)絡(luò)求解絕對深度信息的有監(jiān)督學(xué)習(xí)方法,半監(jiān)督學(xué)習(xí)方法使用三維空間上的特征(如特征點、特征線段、特征面)作為語義標(biāo)簽,建立標(biāo)簽和深度信息的關(guān)聯(lián)性,從而實現(xiàn)三維模型恢復(fù)。

      Delage 等[144]利用室內(nèi)場景中的幾何線索(如天花板和墻壁的接縫),使用 MRF 重建墻壁、天花板和地板的相對位置。Hedau 等[145]利用相似的幾何線索恢復(fù)了雜亂房間的空間布局。這兩種方法對于簡單的室內(nèi)場景效果明顯,但是對房間結(jié)構(gòu)和房間布局有嚴(yán)格的要求,應(yīng)用十分有限。Gould 等[146]提出的場景分解模型證明了戶外場景中幾何信息和語義之間的強(qiáng)相關(guān)性。Hoiem 等[147]提出了一套語義松散的幾何集,定義諸如建筑物是垂直的,道路、草和水是水平的等概念,并構(gòu)建了一種簡單的三維恢復(fù)模型與之匹配,該模型可以通過“彈出”垂直區(qū)域來恢復(fù)結(jié)構(gòu)。Russell 等[148]采用一種更具語義動機(jī)的方法——利用詳細(xì)的人工標(biāo)定數(shù)據(jù)集,來分割和推斷區(qū)域和區(qū)域邊緣的幾何類別(如天空總是在盡可能遠(yuǎn)的深度,草地和道路形成支撐其他對象的地平面等),并且通過建立相對于地平面的支撐和附著關(guān)系來完成深度推斷。

      除了單純地使用數(shù)據(jù)集訓(xùn)練網(wǎng)絡(luò)之外,與傳統(tǒng)算法相結(jié)合的方法也可以幫助網(wǎng)絡(luò)更快地收斂。Haines 等[149]利用深度學(xué)習(xí)預(yù)測預(yù)分割區(qū)域的連續(xù)三維方向,并將區(qū)域平面檢測作為 MRF模型的優(yōu)化問題。Fouhey 等[150]首先檢測凸/凹邊、遮擋邊界、超像素及其方向,然后將分組問題表述為二元二次規(guī)劃問題。Heitz 等[151]將目標(biāo)檢測、多類圖像標(biāo)記和深度感知相結(jié)合。Liu 等[152]基于 Hetiz 的方法,將 MRF 和機(jī)器學(xué)習(xí)相結(jié)合。該方法首先使用一個學(xué)習(xí)好的多類圖像標(biāo)簽集來推斷圖像中每個像素的語義類,該標(biāo)簽集設(shè)置為:天空、樹、路、草、水、建筑、山和前景對象(前 7 類覆蓋了室外場景中的大部分背景區(qū)域,而最后一類負(fù)責(zé)標(biāo)記一組前景對象)。然后使用基于像素和超像素的機(jī)器學(xué)習(xí)網(wǎng)絡(luò),結(jié)合全局深度優(yōu)先、全局結(jié)構(gòu)特征等規(guī)則約束,實現(xiàn)了較好的重建結(jié)果,如圖 6 所示。Yang 等[153]將復(fù)雜的分割問題轉(zhuǎn)化為深度預(yù)測問題,不再顯示區(qū)分各個標(biāo)簽,并提出了一種不需要區(qū)分真實地面的深度學(xué)習(xí)網(wǎng)絡(luò)。然而,該方法受網(wǎng)絡(luò)架構(gòu)的影響,限制了預(yù)測平面的總數(shù)量,導(dǎo)致其在復(fù)雜場景中的性能下降。Liu 等[154]在 Yang 的方法基礎(chǔ)上,提出基于 Mask R-CNN[155]的實例分割框架,解決了這個問題。

      圖6 室外場景語義分類集[152]Fig.6 Outdoor scene semantic classification set[152]

      4.3 無監(jiān)督學(xué)習(xí)

      雖然基于有監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)的方法效果顯著,但構(gòu)建大規(guī)模全覆蓋的監(jiān)督訓(xùn)練數(shù)據(jù)集十分困難,而且重建結(jié)果特別依賴數(shù)據(jù)集的標(biāo)簽質(zhì)量。本質(zhì)上講,語義標(biāo)簽還是某種特定的人工圖像特征,實際過程離不開求解從圖像特征到深度的映射。盡管網(wǎng)絡(luò)可以隱式推理出上下文語義,但是重建結(jié)果的優(yōu)劣嚴(yán)重依賴語義集的設(shè)定,導(dǎo)致網(wǎng)絡(luò)的泛化性不足,使用場景有限。隨著研究的不斷深入,一些無監(jiān)督學(xué)習(xí)的方法逐漸被提出。

      Rezende 等[2]首次提出一種無監(jiān)督學(xué)習(xí)的三維重建網(wǎng)絡(luò)結(jié)構(gòu)。該網(wǎng)絡(luò)實現(xiàn)了無需三維模型形貌標(biāo)簽,就可以直接通過二維圖像進(jìn)行端到端的無監(jiān)督學(xué)習(xí)訓(xùn)練。雖然只適用于立方體和圓柱體等簡單形狀,但其證明了無監(jiān)督學(xué)習(xí)三維表征的可能。Choy 等[156]提出一種基于標(biāo)準(zhǔn)長短期記憶網(wǎng)絡(luò)(Long Short Term Memory,LSTM)的擴(kuò)展網(wǎng)絡(luò)結(jié)構(gòu)——三維循環(huán)重建神經(jīng)網(wǎng)絡(luò)(3D Recurrent Reconstruction Neural Network,3D-R2N2),并建立了大型 CAD 模型數(shù)據(jù)集 ModelNet。該網(wǎng)絡(luò)無需利用圖像分類標(biāo)簽進(jìn)行訓(xùn)練,就能很好地適應(yīng)缺乏紋理特征和寬基線特征的問題。雖然該網(wǎng)絡(luò)在重建細(xì)節(jié)方面存在缺失,但由于實現(xiàn)了在單個架構(gòu)中同時支持單視圖和多視圖重建,且實驗結(jié)果均優(yōu)于傳統(tǒng)方法,使其具有十分重要的意義。Girdhar 等[157]提出的 TL-Embedding Network 網(wǎng)絡(luò)首先在訓(xùn)練自編碼器時利用像素網(wǎng)格學(xué)習(xí)三維模型嵌入,然后通過 ConvNets 輸入二維圖像找到對應(yīng)的模型嵌入,最后經(jīng)過解碼器得到體素表示的三維重建模型。Yan 等[158]提出的透視變換網(wǎng)絡(luò)(Perspective Tansformer Nets)在傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)中加入透視變換,同時將在不同特定視角下的二維物體輪廓和對應(yīng)體素輪廓的距離作為新的損失函數(shù),因此在無監(jiān)督學(xué)習(xí)下取得了較好的泛化能力。Li 等[159]提出一種通過二維圖像和輪廓的集合來預(yù)測目標(biāo)對象的三維網(wǎng)格形狀和紋理的深度學(xué)習(xí)網(wǎng)絡(luò),該網(wǎng)絡(luò)將建模對象表示為可變形構(gòu)件圖像的集合,通過對大量可變性構(gòu)件圖像的分割,有效地加強(qiáng)了重建網(wǎng)格和原始圖像之間的語義一致性。由于該網(wǎng)絡(luò)不需要三維監(jiān)督、手動注釋關(guān)鍵點、對象的多視圖圖像或 3D 參數(shù)化模板,因此很容易推廣到?jīng)]有此類標(biāo)簽的各種對象類別。

      為了更好地利用二維圖像和三維模型之間的著色信息,同時減少二維圖像和三維模型之間匹配誤差導(dǎo)致的“塊狀重疊”問題,Chang[160]和 Hao[161]都提出直接從帶有紋理的合成 CAD 模型出發(fā),使用合成圖像訓(xùn)練深度模型以估計相機(jī)位姿和重建三維形狀。紋理 CAD 模型能夠表示任意方向和尺寸的曲面,并且借助紋理著色能夠捕捉到更加精細(xì)的細(xì)節(jié)。其關(guān)鍵在于深度學(xué)習(xí)網(wǎng)絡(luò)首先要訓(xùn)練無標(biāo)簽的二維圖片集,然后訓(xùn)練與之對應(yīng)的無標(biāo)簽的三維模型集,最后通過一定的懲罰函數(shù)將二者聯(lián)立,并在輸入一幅新圖像時匹配判斷。這類方法有兩個優(yōu)勢:(1)避免了人工定義模型和人工標(biāo)注可能帶來的錯誤,同時紋理 CAD 模型之間可以任意組合,生成幾乎無限量的具有精確真實姿態(tài)和三維模型的渲染訓(xùn)練圖像[162-163];(2)深度學(xué)習(xí)網(wǎng)絡(luò)可以應(yīng)對大量的外觀變化,對復(fù)雜建模的效果尤為明顯[164-165]。雖然紋理 CAD 模型在合成圖像(即人工構(gòu)造的紋理圖像,或人工構(gòu)造的紋理模型對應(yīng)映射的二維圖像)上有明顯的效果,但在應(yīng)用于自然圖像(即非合成圖像)時,性能有明顯下降[164]。為了克服這個問題,個別學(xué)者[166]嘗試在訓(xùn)練集中添加少量人工標(biāo)記的自然圖像來微調(diào)網(wǎng)絡(luò)參數(shù),但是人工標(biāo)簽又會引入由于標(biāo)注錯誤帶來的誤差。

      此外,一些學(xué)者嘗試?yán)?GAN 網(wǎng)絡(luò)進(jìn)行三維恢復(fù)[167-170]。其中,具有代表性的是 Wu 等[169]提出的 3D-VAE-GAN 網(wǎng)絡(luò)。該網(wǎng)絡(luò)首先通過變分自編碼網(wǎng)絡(luò)得到輸入二維圖像的潛在向量,然后通過 GAN 網(wǎng)絡(luò)的生成器得到重建物體。其優(yōu)點是可以從概率表征空間中采樣新的三維對象,并且判別器帶有三維物體識別的信息特征。實驗表明,與 TL-Embedding Network 的重建精度相比,3D-VAE-GAN 網(wǎng)絡(luò)取得了更好的效果。

      綜上所述,相較于傳統(tǒng)方法,深度學(xué)習(xí)具有無需人工描述規(guī)則和設(shè)定參數(shù)、數(shù)據(jù)處理量大等諸多優(yōu)勢,并取得了明顯成果。但深度學(xué)習(xí)也存在以下問題:(1)公共數(shù)據(jù)集較少。與目前千萬級的二維圖像數(shù)據(jù)集相比,三維模型公共數(shù)據(jù)集規(guī)模小、種類少,早期具有代表性的公開數(shù)據(jù)集如 PASCAL3D+[101]和 ObjectNet3D[102]已無法滿足實際需要。(2)重建分辨率及精度問題。網(wǎng)絡(luò)支持的重建物體分辨率通常是 32×32×32,且重建結(jié)果與真實模型對比,精度未達(dá)到 95% 以上,存在細(xì)節(jié)部分缺失嚴(yán)重的問題。但是三維相比于二維多了一個維度,若盲目增加分辨率會導(dǎo)致數(shù)據(jù)量呈指數(shù)級增長,極大降低計算效率。(3)單幅圖像重建的不確定問題。與傳統(tǒng)方法一樣,基于深度學(xué)習(xí)的方法在利用單幅圖像進(jìn)行三維恢復(fù)時,一幅圖像往往對應(yīng)多個不同的三維模型。這種不確定性反映在訓(xùn)練集中就是兩幅看起來相似的圖像可能導(dǎo)致完全不同的重建結(jié)果。目前,只能通過盡可能準(zhǔn)確的定義損失函數(shù)和外加約束條件來限制其結(jié)果的不確定性。

      5 總結(jié)與展望

      基于可見光單圖像的三維結(jié)構(gòu)恢復(fù)本身是一個不確定性問題。自 20 世紀(jì) 90 年代以來,國內(nèi)外許多學(xué)者提出了各種方法,如表 1 所示?;诠庹漳P偷姆椒ㄍㄟ^圖像的紋理和明暗關(guān)系,假設(shè)和建立物體表面的微觀結(jié)構(gòu)模型,構(gòu)建二維圖像和三維深度之間的對應(yīng)關(guān)系,實現(xiàn)三維結(jié)構(gòu)恢復(fù)。該方法在已知材質(zhì)反射率(即消除了材質(zhì)差異因素)的前提下,試圖從幾何結(jié)構(gòu)差異作為切入點進(jìn)行求解,但該方法極易受到實際環(huán)境的光線情況、相機(jī)視點和光照模型類型的影響,且計算量較大。基于幾何圖元展布規(guī)律的方法利用二維圖像或三維模型存在的幾何規(guī)律代替光照模型,通過平移、旋轉(zhuǎn)、縮放、重復(fù)等操作實現(xiàn)三維恢復(fù),從而回避了求解物體表面幾何結(jié)構(gòu)差異帶來的誤差問題,對于人造紋理和模型有明顯的優(yōu)勢,但正是這種先驗規(guī)律限制了該方法在其他不規(guī)則物體上的應(yīng)用,導(dǎo)致其適用面較窄。基于深度學(xué)習(xí)的方法利用深度網(wǎng)絡(luò)避免了傳統(tǒng)方法中人工定義關(guān)系和人工設(shè)定參數(shù)的局限性,配合有監(jiān)督、半監(jiān)督或無監(jiān)督的方法,實現(xiàn)了利用特征點、特征線段、特征面、特征模型等多維度的空間信息,根據(jù)輸入圖像直接得到對應(yīng)三維深度點的求解過程。并且基于幾何圖元展布規(guī)律的方法依賴海量數(shù)據(jù)的支撐,有效減小了圖像采集過程中可能帶來的誤差。但其缺點也顯而易見:非常依賴網(wǎng)絡(luò)架構(gòu)設(shè)計和訓(xùn)練數(shù)據(jù)集的質(zhì)量。雖然基于深度學(xué)習(xí)的方法比傳統(tǒng)方法有了明顯進(jìn)步,但是完全依賴深度學(xué)習(xí)方法的效果仍不盡如人意。對于病態(tài)性問題,只有將單幅圖像擴(kuò)展到多幅圖像,利用多視圖幾何理論才能盡可能地減小誤差。其中,SfM 和 SLAM 是多視圖幾何理論的兩種代表性方法,由于已經(jīng)超出了單幅圖像的討論范圍,敬請讀者自行查閱相關(guān)資料。

      表1 基于可見光單圖像三維結(jié)構(gòu)恢復(fù)方法對比Table 1 Comparison of 3D structure reconstruction methods based on visible light single image

      從影響因素的角度來看,物體自身的材質(zhì)差異和幾何結(jié)構(gòu)差異是決定三維恢復(fù)結(jié)果優(yōu)劣的根本原因,而圖像信息采集損失帶來的不確定性是其外部原因。從現(xiàn)有方法來看,無法通過數(shù)學(xué)計算來精準(zhǔn)求解三維結(jié)構(gòu),只能通過構(gòu)造合理的光照模型或?qū)ふ乙?guī)則的幾何圖元紋理來近似描述物體表面的微觀結(jié)構(gòu),在誤差允許的范圍內(nèi)縮小或忽略差異,亦或通過深度學(xué)習(xí)的方式,在網(wǎng)絡(luò)訓(xùn)練的時候,通過增加大量高精度、高分辨率圖像,以減少信息損失和不確定性,從而逼近真實物體的表面形貌。此外,采用多方法的融合統(tǒng)一框架將是解決上述問題的一種新的趨勢。2020年,Henderson 等[171]提出一種傳統(tǒng)方法和深度學(xué)習(xí)相結(jié)合的新型網(wǎng)絡(luò)框架。該框架解決了從單幅圖像中進(jìn)行三維恢復(fù),以及生成新的三維形狀樣本的問題。框架算法中不僅結(jié)合了傳統(tǒng)的光照模型、先驗?zāi)P偷姆椒?,而且同時支持無標(biāo)注數(shù)據(jù)集的學(xué)習(xí)和帶有語義標(biāo)簽的有監(jiān)督學(xué)習(xí)。結(jié)果表明,該算法能適應(yīng)單色光以及白光環(huán)境,可以自動調(diào)整陰影和輪廓在網(wǎng)絡(luò)中的權(quán)重,生成的模型具有更精細(xì)的表面細(xì)節(jié)和較強(qiáng)的魯棒性。這種集成優(yōu)勢是前文所述任何單一算法所無法實現(xiàn)的。

      綜上所述,基于可見光單圖像三維結(jié)構(gòu)恢復(fù)問題未來可以從以下幾方面發(fā)展和突破:

      (1)傳統(tǒng)方法與基于深度學(xué)習(xí)方法相結(jié)合

      現(xiàn)有基于深度學(xué)習(xí)方法相較于傳統(tǒng)方法已經(jīng)取得了明顯的效果,但是深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練非常依賴數(shù)據(jù)集(數(shù)據(jù)集的好壞直接影響網(wǎng)絡(luò)效果)。而基于可見光單圖像三維結(jié)構(gòu)恢復(fù)問題缺少相應(yīng)的海量標(biāo)準(zhǔn)數(shù)據(jù)集,使得網(wǎng)絡(luò)缺少泛化能力。傳統(tǒng)方法雖然計算復(fù)雜度高,但由于其通用性強(qiáng),目前仍然發(fā)揮不可缺少的作用。二者相結(jié)合,可以最大發(fā)揮其方法的優(yōu)勢,達(dá)到更好的重建效果。

      (2)基于 GAN 網(wǎng)絡(luò)或組合 GAN 網(wǎng)絡(luò)實現(xiàn)三維重建

      盡管 GAN 網(wǎng)絡(luò)本身的特性導(dǎo)致在訓(xùn)練過程中引入噪聲,使得訓(xùn)練結(jié)果不穩(wěn)定,但是這種方法對于缺乏大型標(biāo)準(zhǔn)數(shù)據(jù)集的情況仍然顯示出良好的潛力。此外,將 GAN 網(wǎng)絡(luò)視作形狀或輪廓先驗知識模型的一部分,可以很好地幫助網(wǎng)絡(luò)快速收斂,使其滿足特定問題場景的需要。

      (3)建立真實場景的大型標(biāo)準(zhǔn)訓(xùn)練數(shù)據(jù)集

      多數(shù)研究者選用純白背景或 CAD 模型渲染出的人工合成數(shù)據(jù)集進(jìn)行訓(xùn)練。這些數(shù)據(jù)集環(huán)境復(fù)雜,標(biāo)準(zhǔn)不一,與真實場景差異較大,且每個物體的外形復(fù)雜程度差異很大,不利于網(wǎng)絡(luò)的訓(xùn)練和最終實驗數(shù)據(jù)的對比,致使其網(wǎng)絡(luò)在真實環(huán)境中效果較弱。當(dāng)下迫切需要參照二維圖像領(lǐng)域構(gòu)建一些大型的標(biāo)準(zhǔn)數(shù)據(jù)集供大家測試和對比使用。

      總體而言,每種基于可見光單圖像三維結(jié)構(gòu)恢復(fù)方法在各自特定問題領(lǐng)域都取得了明顯的成果,但是每種方法的普適性較弱,對問題的初始條件要求嚴(yán)格。單純依靠某一種方法來解決恢復(fù)問題已經(jīng)變得越發(fā)困難,未來基于多種方法以適用于更加廣泛的通用場景的融合解決方案,特別是結(jié)合深度學(xué)習(xí)的途徑,是一個亟待研究的重點方向。

      猜你喜歡
      物體深度表面
      深度理解一元一次方程
      太陽表面平靜嗎
      深刻理解物體的平衡
      深度觀察
      深度觀察
      我們是怎樣看到物體的
      深度觀察
      3.《黑洞表面》(英/美)等
      新青年(2015年2期)2015-05-26 00:08:47
      為什么同一物體在世界各地重量不一樣?
      神回復(fù)
      意林(2014年17期)2014-09-23 17:02:14
      肇源县| 南充市| 银川市| 玛多县| 久治县| 乌兰浩特市| 库尔勒市| 彩票| 绍兴县| 阳春市| 开鲁县| 舞钢市| 合江县| 酒泉市| 景宁| 天峻县| 巫溪县| 柳州市| 平舆县| 南阳市| 亳州市| 宁化县| 威宁| 宁陕县| 兴安县| 铅山县| 滁州市| 佳木斯市| 太湖县| 肥乡县| 台中市| 新蔡县| 赤峰市| 元阳县| 许昌市| 勃利县| 和平区| 黎平县| 杨浦区| 建水县| 金秀|