陳純毅, 范曉輝, 胡小娟, 于海洋
(長春理工大學 計算機科學技術學院,吉林 長春 130022)
光場(Light Field,LF)成像可以捕獲到現實世界的四維信息[1](二維空間信息和二維角度信息),克服了傳統(tǒng)成像技術只能捕獲到二維空間信息的局限性,具有能在不同焦距下進行重投影的獨特優(yōu)勢,逐漸在工業(yè)探測、生命科學和虛擬現實等領域受到重視[2-4]。光場圖像的角度分辨率會直接影響三維重建、光場渲染等視覺應用的效果。然而,微透鏡陣列光場相機受到傳感器分辨率的限制,必須在空間分辨率和角度分辨率之間進行平衡。所以,提高光場圖像的空間分辨率和角度分辨率一直是光場成像的研究熱點。
光場角度超分辨重建(Angular Super-resolution Reconstruction,ASR)分為不基于深度信息的重建和基于深度信息的重建兩種方法。不基于深度信息的重建方法在沒有場景幾何信息的情況下直接對角度維度進行上采樣。Shi 等[5]通過優(yōu)化連續(xù)傅里葉域中的稀疏性進行光場重建。Vagharshakyan 等[6]提出了一種自適應迭代正則化算法,在剪切波域中利用對極平面圖像(Epipolar Plane Image, EPI)的稀疏表示來重建光場圖像。但是,這些傳統(tǒng)方法需要大量的輸入圖像。Yoon 等[7]采用深度學習方法重建高分辨率光場,利用相鄰的兩個進行空間上采樣后的圖像逐個重建中間視角圖像。該方法僅利用較少的角度信息,無法直接在任意位置合成新視圖。Wu等[8]將光場重建問題轉化為EPI 的角度域細節(jié)恢復問題,提出“模糊-恢復-去模糊”的框架。該方法有效地提高了遮擋區(qū)域及非朗伯表面的重建效果,但是需要重復執(zhí)行很多次。Wang 等[9-10]構建了偽4D 卷積神經網絡(Convolutional Neural Network, CNN),在3D EPI 上直接進行插值重建。Salem 等[11]將角度維度上采樣后的圖像堆棧輸入殘差通道注意力網絡,學習重要特征,恢復更多的紋理細節(jié)信息。由于沒有建模場景的幾何信息,這些方法都不能很好地處理更加稀疏采樣的輸入圖像。
基于深度信息的重建方法是指在重建過程中估計出所有視角的深度圖,然后利用深度圖將輸入圖像映射到新視角位置。Wanner 等[12]利用結構張量法估計視差圖,并通過能量函數懲罰映射圖像和真實圖像之間的誤差來合成新視圖,但這種方法必須在視點采樣足夠密集時才能達到合理的精度。Penner 等[13]在軟3D 重建過程中充分考慮了深度信息的不確定性,使這個框架同時適用于結構化和非結構化的輸入圖像。傳統(tǒng)方法一般聚焦于深度圖的精度。近年來,基于深度學習的方法得到了廣泛的應用。Kalantari 等[14]預定義一組深度等級,并將每個等級上所有映射圖像的均值和標準差作為手動提取到的特征輸入端到端的順序網絡,進行深度估計和顏色估計。該方法有效提高了重建光場圖像的質量,但是每次只能合成一個新視角圖像。Vadathya等[15]利用散焦圖像和聚焦圖像進行視差估計,并通過修復網絡修復遮擋造成的錯誤像素。Jin等[16]提出在空間域和角度域執(zhí)行交錯卷積的策略,有效提高了大基線光場的重建質量。Navarro 等[17]在每個新視角位置對映射圖像計算融合權重,并將其加權融合。Gul 等[18]在融合映射圖像時引入注意力機制,有效地處理了遮擋區(qū)域。Yun 等[19]提出基于多重感受野的分層特征提取方法,用于提高深度估計的準確度。上述方法在處理映射圖像時或只利用光場的空間信息,或交錯利用空間信息和角度信息,不利于提高光場圖像的重建質量。
光場圖像的重建質量與能否充分利用光場圖像的豐富信息有關。光場圖像的3D EPI 既包含空間信息,也包含角度信息[20],利用這一特點,本文提出融合3D EPI 的光場角度超分辨重建方法。該方法由3 部分組成:(1)深度估計模塊將輸入圖像按視差方向分為不同的圖像對,分別進行特征提取,提取到的特征用來無監(jiān)督地估計密集光場所有視角的深度圖;(2)圖像映射部分利用得到的深度圖將輸入圖像反向映射到每一個新視角位置,得到初始合成光場;(3)光場融合重建模塊分為兩個分支,分別從水平方向和垂直方向對初始合成光場的3D EPI 進行融合,得到水平方向和垂直方向的重建結果,再對兩個重建結果進行混合重建,得到最終的高角度分辨率光場圖像。該方法通過評估3D EPI 來引導光場融合,能夠在處理映射圖像時同時考慮空間信息和角度信息,使重建的光場圖像保持更好的細節(jié)信息及幾何一致性。
微透鏡陣列光場相機的成像原理如圖1 所示,將微透鏡陣列置于主透鏡的焦平面處,微透鏡可以將同一場景點不同方向的光線信息解耦,并記錄在對應位置的傳感器上,從而得到光線的空間信息和角度信息[21]。每個微透鏡捕獲一個場景點不同方向的光線信息,一個方向代表一個視角,視角的總數即為光場圖像的角度分辨率。光場圖像的空間分辨率是指捕獲的場景點的數量,即微透鏡的數量。在所有微透鏡中固定角度坐標,將對應的像素點全部提取,可得到光場圖像的一個視角圖像,即子孔徑圖像。
如圖2 所示,在光場圖像L(x,y,s,t)中,x和y表示二維空間坐標,s和t表示二維角度坐標。在水平方向,通過固定y軸坐標和t軸坐標,將x軸和s軸的像素點都提取出來,即可得到水平EPIEy?,t?(x,s)。只固定角度坐標t,將s軸的子孔徑圖像進行堆疊,即可得到水平3D EPIIt?(x,y,s)。在垂直方向執(zhí)行類似的操作即可得到 垂 直 EPIEx?,s?(y,t) 和 垂 直 3D EPIIs?(x,y,t)[20]。EPI 清晰地反映了水平方向或垂直方向上每個場景點在各個視角圖像中的移動軌跡,能夠體現光場圖像的幾何一致性。3D EPI包含光場圖像的二維空間信息和一維角度信息,EPI 包含光場圖像的一維空間信息和一維角度信息。
圖2 光場圖像及其3D EPI 與EPIFig.2 Light field image and its 3D EPI and EPI
對于4D 光場圖像L(x,y,s,t)[1],為了簡化數學表達式,二維空間坐標(x,y)用x來簡化表示,二維角度坐標(s,t)將用s來簡化表示,即將L(x,y,s,t)簡化表示為L(x,s)。光場圖像角度超分辨重建利用稀疏光場圖像L′(x,s′)重建密集光場圖像該問題可表示為:
其中f為光場圖像角度超分辨重建對應的映射函數。本文提取密集光場圖像4 個角的子孔徑圖像作為稀疏光場圖像,即輸入圖像。結合光場圖像的3D EPI 包含空間信息和角度信息的特點,提出一種融合3D EPI 的光場角度超分辨重建方法。該方法遵循基于深度信息的重建方法的一般步驟,即深度估計、圖像映射和光場融合重建,深度學習網絡框架如圖3 所示。深度估計模塊利用輸入圖像估計出密集光場所有視角的深度圖。這些深度圖可以把輸入圖像映射到每一個新視角位置,以合成初始光場。由于遮擋和深度圖的不精確性,映射后的圖像會產生幾何扭曲。因此在最后的光場融合部分,與一般的直接融合映射圖像的方法不同,本文的光場融合重建從水平和垂直兩個方向分別融合由不同的輸入圖像映射產生的初始光場的3D EPI,再將水平重建結果與垂直重建結果混合,獲得最終的高角度分辨率光場圖像。
圖3 融合3D EPI 的光場圖像角度超分辨重建網絡框架Fig.3 Architecture of light-field angular super-resolution reconstruction via fusing 3D EPIs
光場圖像具有規(guī)則的幾何一致性,視差與深度成反比,這為深度估計模塊無監(jiān)督地估計所有視角的深度圖提供了基礎。給定位置為s0的已知視角圖像L(x,s0),ds1(x)是位置為s1的待重建新視角圖像L(x,s1)的深度圖,則[12]:
深度估計模塊利用輸入圖像估計出密集光場所有視角的深度圖D(x,s),即:
其中fd為輸入圖像與深度圖之間的映射關系。
深度估計模塊在每個新視角位置生成對應景物的深度圖,利用深度圖將輸入圖像映射到新視角位置可以引入更多的場景信息,有利于減少大基線光場重建的偽影,提高光場重建的質量。光場圖像的多視角結構決定了它具有多個方向的視差。為了更好地估計輸入圖像與深度圖之間的映射關系,本文將輸入圖像分為水平、垂直和對角3 類圖像對(如圖4 所示),分別送入結構相同的網絡分支進行特征提取,學習不同方向的視差信息。稀疏光場本身就是密集光場的欠采樣,光場圖像4 個角的子孔徑圖像作為整個場景的邊緣視角,每個視角都包含重要的場景信息,特別是各個物體間的遮擋關系。所以,與Gul等[18]根據合成圖像的位置選取距離最近的3 幅輸入圖像組成3 個圖像對不同,本文利用4 幅輸入圖像組成6 個圖像對,充分利用所有輸入圖像的視差信息。
圖4 深度估計模塊Fig.4 Depth estimation module
深度估計模塊首先通過特征提取網絡對不同方向的圖像對分別提取像素匹配特征。視差具有方向性,這樣按視差方向進行特征提取的方法可以提取到更加精準的匹配特征,這些特征輸入到后續(xù)的深度估計網絡來生成深度圖。如圖4 所示,特征提取網絡分支類似于Epinet[22],圖像對首先通過1 個包含32 個3×3 卷積核的卷積層(Conv),然后連續(xù)通過3 個結構為“Conv-ReLU-Conv”的殘差塊(ResBlock),其中殘差塊的輸入作為殘差部分與輸出相加,且殘差塊中的卷積層同樣由32 個3×3 卷積核組成。特征提取完畢后,將6 個分支提取的特征按順序串聯到一起作為深度估計網絡的輸入。深度估計網絡由7 個卷積層組成,其中前2 個卷積層使用擴張率為2 的5×5 卷積,其余為3×3 卷積層。深度估計網絡除了最后一個卷積層外,其余每個卷積層后都跟一個ReLU 激活層。
圖像映射利用深度估計模塊得到的深度圖將輸入圖像映射到每個新視角位置。將位置為s′的輸入圖像L′(x,s′)映射到位置為s的新視角,得到映射圖像Ws′(x,s),這一過程可以表示為:
其中fw表示圖像映射過程。
由于有4 幅輸入圖像,每幅輸入圖像被分別映射到所有新視角,所以每個新視角會有4 幅映射圖像,即形成4 個初始合成光場,如圖5 所示。
圖5 四個初始合成光場Fig.5 Four initial synthetic light fields
光場融合重建模塊利用4 個初始合成光場生成最終的高角度分辨率光場圖像。與通常的直接融合所有映射圖像或構建修復網絡不同,本文通過評估4 個初始合成光場的3D EPI 來引導光場融合。光場融合重建步驟旨在從映射圖像中獲取正確的光場信息,這不僅要求每個視角圖像保持正確的空間信息,還要保證各視角間的幾何關系。Navarro 等[17]在每個新視角位置對來自不同輸入圖像的映射圖像的空間域進行卷積,確定不同映射圖像的融合權重,以保留正確的空間信息。Jin 等[16]考慮到不同視角之間的角度相關性,在對初始光場圖像的空間域卷積之后又增加了對角度域的卷積。但是光場圖像的空間信息和角度信息不是獨立的兩部分,它們之間存在密切的關聯,這個關聯體現在EPI 中反映物體移動軌跡的斜線上??紤]空間信息和角度信息可以使重建光場保持更好的幾何一致性,所以可以通過計算每個初始光場的EPI 對最終光場的EPI 的貢獻來融合初始光場,而3D EPI 比EPI 多了一維空間信息,有助于重建光場保持更好的細節(jié)信息,所以最終通過融合4 個初始合成光場的3D EPI來重建光場圖像。
光場融合重建模塊首先對4 個初始合成光場進行水平3D EPI 融合重建和垂直3D EPI 融合重建,再將水平重建結果和垂直重建結果進行混合重建,得到最終的光場圖像。這一過程可以表示為:
其中:Ws′(x,s)表示映射圖像,即初始合成光場;fh表示水平3D EPI 融合重建,fv表示垂直3D EPI融合重建,fb表示水平垂直混合重建。對4 個初始合成光場的角度坐標為t=1 的子孔徑圖像分別堆疊,得到如圖6 所示的4 個水平3D EPI。將這4 個水平3D EPI 分別輸入3D EPI 評估網絡,計算出各自對重建光場圖像的角度坐標為t=1的水平3D EPI 的貢獻,得到它們的融合權重,并進行加權融合,完成角度坐標為t=1 的水平重建。同理,對其余的水平3D EPI 進行融合,得到水平3D EPI 融合重建的光場圖像對垂直3D EPI 執(zhí)行上述操作,得到垂直3D EPI 融合重建的光場圖像最后,將和輸入2 個3D 卷積層進行混合重建,得到最終的重建光場圖像。其中,2 個3D 卷積層的卷積核尺寸分別為(5,3,3)和(3,3,3),步長分別為(4,1,1)和(1,1,1)。
圖6 4個初始合成光場的角度坐標t=1時的水平3D EPIFig.6 Horizontal 3D EPI at angular coordinate t=1 of four initial synthetic light fields
在每個新視角位置,若直接對4 幅映射圖像進行融合,那么每個像素點只有一個評價值,且只在空間域進行融合權重的計算。本文提出的3D EPI 融合方法通過水平重建和垂直重建,使每個像素點有兩個評價值,可以更好地保持細節(jié)信息,并且結合空間域和角度域來計算融合權重,有利于維持光場圖像的幾何一致性。
受Wu 等[23]的啟發(fā),3D EPI 評估網絡使用帶跳躍連接的編碼器-解碼器結構,如圖7 所示。編碼器由3 個卷積-池化層組成,每一個池化層都將圖像的分辨率降為原來的二分之一。解碼器由3個反卷積層組成,每個反卷積層都與對應的卷積層的高分辨率特征相連接,使解碼器能夠更好地捕捉細節(jié)信息。3D EPI 評估網絡的輸入是角度維度為7 的3D EPI,輸出是對應的7 個評分圖。對于4 個初始合成光場的角度坐標為t=1 的水平3D EPI,分別進行計算評分后,每個視角的4幅映射圖像都有對應的評分圖。接著通過Softmax 函數將每個視角位置的4 個評分圖映射到[0,1]之間,得到4 幅映射圖像的融合權重,并進行加權融合。對其余的每組3D EPI 都執(zhí)行相同的操作。
圖7 三維EPI 評估網絡Fig.7 Three-dimensional EPI evaluation network
與Jin 等[16]類似,本文提出的光場角度超分辨重建方法的損失函數l定義為:
其中l(wèi)d為深度估計損失函數。因為真實的光場深度圖很難獲取,所以通過度量初始合成光場與真實光場之間的差異來優(yōu)化深度圖,并且通過懲罰空間梯度對深度圖進行平滑約束。ld定義為:
其中:L(x,s)代表真實的高角度分辨率光場圖像,?x D(x,s)是深度圖D(x,s)的空間梯度。lb為融合重建損失函數,用于度量重建光場圖像與真實光場圖像的相似度,定義為:
其中:Ey,t(x,s)和Ex,s(y,t)分別表示真實光場的水平EPI 和垂直和分別表示重建光場的水平EPI 和垂直EPI,λ為le的權重,本文設置為1。
實驗使用的訓練集為HCI new[24]的20 個光場圖像,每個光場圖像的角度分辨率為9×9,空間分辨率為512×512。針對角度分辨率為2×2 的稀疏光場圖像進行角度超分辨重建,生成角度分辨率為7×7 的密集光場圖像。在制作訓練集時,將9×9 光場周圍一圈的視角剪裁掉,僅使用中間7×7 的子孔徑圖像,并且每個子孔徑圖像的空間分辨率被隨機剪裁為96×96,即使用7×7×96×96 的光場圖像作為密集光場圖像。實驗使用密集光場圖像的4 個角度坐標為(0,0),(0,6),(6,0),(6,6)的子孔徑圖像作為輸入圖像。
本文使用PyTorch 框架,在NVIDIA Ge-Force RTX 3050 上對提出的模型進行訓練。實驗使用Adam 優(yōu)化器(β1=0.9,β2=0.999)來訓練網絡,初始學習率設置為0.000 1,且每500 個周期衰減0.5 倍。
為了初步驗證本文方法是否能夠提高光場角度超分辨重建的質量,在HCI new[24]的測試集上對本文的重建結果與Yun 等[19]的重建結果進行比較,通過峰值信噪比(Peak Signal to Noise Ratio,PSNR)與結構相似性(Structural Similarity,SSIM)來定量評估光場的重建質量。實驗結果如表1 所示,可以看出本文方法的重建結果的PSNR 和SSIM 都較高,說明該方法能夠提高光場角度超分辨重建的質量。
表1 光場角度超分辨重建結果的比較Tab.1 Comparison of angular super-resolution reconstruction results on light field images
為了進一步分析本文方法的有效性及適用場景,選取lf-syn[14],RCA-LF[11],LFASR[16]3 種方法進行對比實驗。在對比實驗中,除了RCALF[11],其他方法都是基于深度信息的重建方法。公平起見,各個方法均使用相同的數據集重新訓練,且這些方法均使用各自論文提供的代碼和訓練模型。對比實驗分別在合成光場圖像和真實光場圖像上進行。
3.1.1 合成光場圖像
對于合成光場圖像,實驗使用HCI new[24]中的bedroom,bicycle,herbs,dishes 和HCI old[25]中的Buddha,Mona 來評估各個方法的重建結果。所有測試子孔徑圖像在評估時都被剪裁掉四周的22 pixels。圖8 展示了各方法在場景bedroom,bicycle 上的角度超分辨重建結果的中心視角圖像及其局部放大,也展示了局部放大部分的中心水平EPI。從圖中可以看出,lf-syn[14]的重建結果整體較為模糊,主要是因為該方法僅用相鄰的子孔徑圖像來生成中間圖像,利用的光場信息較少。該方法還十分耗時,重建一個場景大概需要3 h。RCA-LF[11]沒有利用深度信息,因此重建結果的整體性較差,如圖8(b)中EPI 的斜線有較多的錯誤。LFASR[16]通過EPI 損失函數約束重建結果的幾何一致性,重建結果的整體性更好,但是一些復雜的紋理部分會出現模糊。本文提出的角度超分辨方法在水平方向和垂直方向分別對3D EPI 進行整體融合,能夠更好地保持紋理細節(jié)信息,且重建光場的幾何一致性較好。表2 從定量角度展示了各方法的重建結果,可以看出,本文方法在大部分場景下表現出更好的性能。
表2 合成光場圖像上角度超分辨重建結果的比較Tab.2 Comparison of angular super-resolution reconstruction results on synthetic light field images
3.1.2 真實光場圖像
對于真實光場圖像,實驗選取Stanford Lytro Light Field[26]的Bikes 和Kalantari 等[14]的Rock和IMG_1528_eslf。在制作測試集時,先將這些光場的子孔徑圖像尺寸統(tǒng)一為540×360,為了更好地分析結果,所有測試光場的子孔徑圖像在評估時都被剪裁掉四周的22 pixel。圖9 展示了各方法在場景bikes_20_eslf,IMG_1528_eslf 上的角度超分辨重建結果的中心視角圖像及其局部放大,也展示了局部放大部分的中心水平EPI。真實光場圖像往往有著更復雜的遮擋關系,這更加考驗重建方法對深度關系的計算。lf-syn[14]在深度估計階段是手動提取特征,生成的深度圖不精確,重建場景有很多重影。RCA-LF[11]忽略幾何信息,直接對角度維度進行上采樣,導致遮擋邊緣出現模糊。相比于LFASR[16],本文方法從水平、垂直、對角方向分別提取視差特征,一定程度上提高了深度圖的精度,在主觀視覺上表現出更好的遮擋關系。表3 展示了各方法重建結果的PSNR 和SSIM,可以看出,本文方法在真實光場圖像上的重建效果優(yōu)于其他方法。
表3 真實光場圖像上角度超分辨重建結果的比較Tab.3 Comparison of angular super-resolution reconstruction results on real-world light field images
圖9 真實光場圖像的角度超分辨重建結果Fig.9 Angular super-resolution reconstruction results of real-world light field images
為了驗證水平3D EPI 融合重建分支和垂直3D EPI 融合重建分支的組合能否充分利用光場的高維信息,進而提高重建光場圖像的質量,對這兩個分支進行了消融實驗,其他部分保持不變。消融實驗(1):只保留水平3D EPI 融合重建分支;消融實驗(2):只保留垂直3D EPI 融合重建分支。實驗結果如表4 所示,只進行水平重建或垂直重建時的效果比較接近,這表明水平方向上的三維信息和垂直方向上的三維信息同等重要。本文方法將兩者組合起來,充分利用兩個方向上的高維信息,重建效果比單獨使用水平重建分支或單獨使用垂直重建分支的效果好。
表4 消融實驗的角度超分辨重建結果Tab.4 Angular super-resolution reconstruction results produced in ablation experiments
為了驗證深度估計模塊按不同視差方向分別提取特征能夠有效地提高深度圖的精度,還設計了消融實驗(3),即去掉特征提取部分,直接將輸入圖像輸入深度估計網絡,深度估計結果如表4 所示。從表4 可以看出,去掉特征提取部分后的重建效果比單分支融合重建還差,證明了按視差方向進行特征提取有利于提高深度估計的準確性,進而提高光場圖像的重建質量。
重建光場具有高角度分辨率,包含更多的場景信息,可以進行深度估計、重聚焦等光場應用。這里采用Epinet[22]的方法,利用本文方法的重建結果對光場圖像進行深度估計,結果如圖10 所示。從圖中可以看出,利用本文的重建結果能夠估計出場景的深度圖,且邊緣部分能夠保持清晰的結構。
圖10 利用本文重建結果預測的深度圖Fig.10 Depth map predicted by reconstruction results in this article
本文針對利用稀疏光場圖像重建密集光場圖像的問題,提出了融合3D EPI 的光場角度超分辨重建方法。該方法通過對輸入圖像提取不同方向的視差特征,有效地提高了深度估計的準確性,用生成的深度圖將輸入圖像映射到新視角位置,形成初始合成光場,最后從水平方向和垂直方向分別對初始合成光場的3D EPI 進行加權融合,再將兩個方向的融合結果進行混合重建,得到最終的高質量重建光場圖像。本文方法適用于用微透鏡陣列光場相機采樣的大基線稀疏光場圖像,可以提高光場角度超分辨重建的質量,在合成光場數據集和真實光場數據集上的重建效果均得到了提高,PSNR 值的提升幅度最高達1.99%,更好地保持了重建光場圖像的細節(jié)信息及幾何一致性,在遮擋區(qū)域展現出更好的重建效果。但是,光場圖像的采樣方式不止一種,對于用相機陣列采樣的光場圖像,其各視角之間的基線會更寬,本文方法的重建質量就較低。未來會繼續(xù)深入探索光場圖像包含的豐富信息,優(yōu)化本文方法,使該方法可以適用于相機陣列采樣的光場圖像。