陳 震 張道文 張聰炫 汪 洋
光流反映了圖像序列像素點亮度的時空域變化與圖像中物體運動及結(jié)構(gòu)的關(guān)系,其不僅包含了被觀察物體的運動參數(shù),而且攜帶豐富的三維結(jié)構(gòu)信息.因此,光流計算技術(shù)廣泛引用于各類高級視覺任務(wù),例如機器人視覺系統(tǒng)[1]、異常行為檢測[2]、無人機導(dǎo)航與避障[3]和醫(yī)學影像分析等[4].
20 世紀80 年代,Horn 等[5]首次提出光流概念和計算方法后,針對光流計算模型和優(yōu)化方法的研究不斷涌現(xiàn).根據(jù)研究路線的不同,光流計算技術(shù)研究可大致分為3 類: 1)變分光流計算技術(shù);2)圖像匹配光流計算技術(shù);3)深度學習光流計算技術(shù).在光流計算研究早期,受益于變分模型能夠產(chǎn)生稠密光流場且具有計算精度高、拓展性強等顯著優(yōu)點,變分光流計算技術(shù)成為主流方法.針對光照變化問題,Brox 等[6]提出基于圖像梯度的守恒假設(shè)模型,提高了亮度突變下數(shù)據(jù)項的可靠性.針對光流計算的魯棒性問題,Sun 等[7]提出基于非局部約束的光流估計模型,采用加權(quán)中值濾波在圖像金字塔各層消除溢出點對光流計算的影響.針對全局優(yōu)化模型對圖像噪聲敏感的問題,Drulea 等[8]設(shè)計全局與局部結(jié)合的優(yōu)化策略,有效提高了光流計算的抗噪性.針對傳統(tǒng)平滑模型易導(dǎo)致邊緣模糊的問題,Perona等[9]提出基于圖像結(jié)構(gòu)張量的光流擴散模型,通過控制光流在圖像邊緣不同方向的擴散程度抑制了邊緣模糊現(xiàn)象.針對運動邊界的過度分割問題,Weickert 等[10]提出基于光流驅(qū)動的各向異性擴散策略,使得光流結(jié)果更加體現(xiàn)運動邊緣細節(jié).鑒于圖像邊緣和運動邊界并不完全重合,Zimmer 等[11]聯(lián)合圖像梯度各項同性擴散與光流控制各向異性擴散策略設(shè)計自適應(yīng)平滑項,使得光流估計結(jié)果既貼合圖像邊緣又充分體現(xiàn)運動邊界.然而,由于該類方法需采用迭代運算最小化能量泛函,導(dǎo)致其時間消耗過大.
近年來,隨著深度學習理論與技術(shù)的快速發(fā)展,基于卷積神經(jīng)網(wǎng)絡(luò)的光流計算技術(shù)成為研究熱點.Dosovitskiy 等[12]首先構(gòu)建了基于有監(jiān)督學習的光流估計模型FlowNet,該研究驗證了通過卷積架構(gòu)直接估計原始圖像光流的可行性.針對FlowNet模型光流估計精度較低的問題,Ilg 等[13]采用網(wǎng)絡(luò)堆疊策略提高網(wǎng)絡(luò)深度,并設(shè)計FlowNetSD 模型估計小位移運動光流,大幅提高了網(wǎng)絡(luò)模型的光流預(yù)測精度.為降低網(wǎng)絡(luò)模型的復(fù)雜度,Ranjan 等[14]將空間金字塔與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合,通過圖像變形技術(shù)處理大位移運動,顯著減小了模型的尺寸和參數(shù)量.針對卷積操作易導(dǎo)致光流估計結(jié)果過于平滑的問題,Hui 等[15]將金字塔特征提取網(wǎng)絡(luò)與光流估計網(wǎng)絡(luò)分開處理,通過引入正則化項保護了光流的邊緣結(jié)構(gòu)信息.針對遮擋區(qū)域光流估計的可靠性問題,文獻[16]通過圖像序列前向與后向光流耦合圖像遮擋區(qū)域,并設(shè)計基于遮擋檢測的光流估計網(wǎng)絡(luò)模型,提高了運動遮擋圖像序列光流估計魯棒性.雖然深度學習光流模型在計算精度和效率等方面已取得突破性進展,但是該類方法通常需要大量標簽數(shù)據(jù)訓(xùn)練模型參數(shù),導(dǎo)致現(xiàn)階段難以直接應(yīng)用于現(xiàn)實場景的光流估計任務(wù).
圖像匹配光流計算技術(shù)是通過像素點匹配關(guān)系確定圖像運動場,因此對大位移運動具有較好的準確性和魯棒性.Brox 等[17]首先提出在光流估計能量泛函引入基于剛性描述子的匹配約束項,提高了剛性大位移運動場景下光流計算的準確性.針對傳統(tǒng)匹配算法在弱紋理區(qū)域難以有效匹配的問題,Weinzaepfel 等[18]利用交錯卷積與最大池化操作進行稠密采樣求解像素點匹配關(guān)系,有效提高了弱紋理區(qū)域的光流計算精度.針對非剛性大位移運動光流計算的準確性問題,張聰炫等[19]提出基于非剛性稠密匹配的大位移光流計算方法,有效提高了非剛性大位移運動場景下光流估計的精度與魯棒性.Hu 等[20]采用金字塔分層迭代優(yōu)化策略求解圖像局部塊匹配關(guān)系,顯著改善了光流估計的噪聲問題.針對光流計算在遮擋、運動邊界和非剛性運動等情況下易產(chǎn)生運動邊界模糊的問題,Revaud 等[21]采用圖像邊緣驅(qū)動的稠密插值策略初始化光流估計能量泛函,實驗證明該方法對大位移和運動遮擋具有很好的邊緣保護作用.針對稠密插值模型易受匹配噪聲影響的問題,Hu 等[22]提出基于分段濾波的超像素匹配光流估計方法,顯著降低了匹配噪聲對光流估計精度的影響.
現(xiàn)階段,圖像匹配光流計算方法已成為解決大位移運動光流計算準確性和可靠性問題的重要手段,但是該類方法在復(fù)雜場景、非剛性運動和運動模糊等圖像區(qū)域易產(chǎn)生錯誤匹配,導(dǎo)致光流估計效果不佳.針對以上問題,本文提出基于深度匹配的由稀疏到稠密大位移光流計算方法,首先利用深度匹配計算初始稀疏運動場,然后采用鄰域支持優(yōu)化模型剔除錯誤匹配像素點,獲得魯棒稀疏運動場;最后對稀疏運動場進行稠密插值并最小化能量泛函求解稠密光流.實驗結(jié)果表明本文方法具有較高的光流估計精度,尤其對大位移、非剛性運動以及運動遮擋等困難場景具有較好的魯棒性.
針對傳統(tǒng)匹配模型在非剛性形變和大位移運動區(qū)域易產(chǎn)生匹配錯誤的問題,Revaud 等[23]提出基于區(qū)域劃分的深度匹配方法,有效提高了非剛性形變和大位移運動區(qū)域的像素點匹配精度.如圖1所示,深度匹配首先將傳統(tǒng)采樣窗口劃分為N個子區(qū)域,然后根據(jù)子區(qū)域的相似性分別優(yōu)化各子區(qū)域的位置,進而利用子區(qū)域位置確定像素點的匹配關(guān)系.
圖1 基于區(qū)域劃分的深度匹配采樣窗口示意圖 ((a)參考幀采樣窗口;(b)傳統(tǒng)匹配方法采樣窗口;(c)深度匹配算法采樣窗口)Fig.1 Illustration of the deep matching sample window based on the regional division ((a) Sample window of the reference frame;(b) Sample window of the traditional matching method;(c) Sample window of the deep matching method)
假設(shè)I0和I1分別表示圖像序列相鄰兩幀圖像,首先將I0和I1分解為N個非重疊子區(qū)域,每個子區(qū)域由4 個相鄰像素點構(gòu)成,根據(jù)式(1)計算各子區(qū)域的匹配關(guān)系,即
其中,R與R′分別表示I0和I1中互相匹配的兩個子區(qū)域,表示I0和I1中的像素點描述子,Sim(R,R′)是根據(jù)區(qū)域相似性確定的子區(qū)域匹配關(guān)系.則深度匹配的實現(xiàn)過程主要包括以下兩步:首先,如圖2(a)所示,每四個相鄰的子區(qū)域經(jīng)金字塔不斷向上層聚合,確定I0和I1中更大的區(qū)域匹配關(guān)系,直到金字塔頂端;然后,如圖2(b)所示,定義相互匹配的區(qū)域中心像素點為匹配像素點,由金字塔頂層自上而下的檢索各層金字塔中像素點匹配關(guān)系,統(tǒng)計各層金字塔中匹配像素點坐標得到稀疏運動場.
圖2 深度匹配金字塔采樣示意圖 ((a)第1 幀子區(qū)域聚合;(b)第2 幀子區(qū)域聚合)Fig.2 Illustration of the pyramid sampling based deep matching ((a) Subregion polymerization of the first frame;(b) Subregion polymerization of the second frame)
鑒于深度匹配模型在非剛性形變和大位移運動區(qū)域相對傳統(tǒng)匹配方法具有更高的像素點匹配精度和可靠性,本文首先采用深度匹配模型計算圖像序列相鄰兩幀圖像的初始匹配結(jié)果.
雖然深度匹配能夠提高非剛性形變和大位移運動區(qū)域的像素點匹配精度,但是由于圖像中常常包含噪聲、光照變化等因素的干擾,導(dǎo)致其匹配結(jié)果可能存在錯誤匹配像素點.為了剔除初始匹配結(jié)果中的錯誤匹配像素點,本文采用基于運動統(tǒng)計策略的圖像匹配優(yōu)化方法對初始匹配結(jié)果進行優(yōu)化[24],能夠有效提高像素點匹配的準確性與可靠性.
假設(shè)相鄰兩幀圖像中運動是連續(xù)平滑的,那么圖像局部區(qū)域內(nèi)中心點與其鄰域像素點的運動應(yīng)一致,則與匹配像素點保持運動一致性的鄰域支持像素點數(shù)量可以表達為
其中,K表示與匹配像素點xi一起運動的鄰域個數(shù),a表示第1 幀圖像中任意局部區(qū)域,b是區(qū)域a在下一幀圖像中的對應(yīng)匹配區(qū)域,ak →bk表示相鄰兩幀圖像中與匹配像素點xi保持相同幾何關(guān)系的 第k對匹配區(qū)域,表示匹 配 區(qū) 域ak →bk內(nèi)互相匹配的像素點個數(shù).由于本文將深度匹配中各像素點匹配過程近似看作互不干擾的獨立事件,由此可知Si近似二項分布
其中,n表示匹配像素點xi各鄰域內(nèi)平均匹配像素點數(shù)量.pt=Dt+β(1-Dt)m/M表示a→b為正確匹配區(qū)域時,匹配區(qū)域a→b內(nèi)一對像素點互相匹配的概率;pf=β(1-Dt)m/M表示a→b為錯誤匹配區(qū)域時,匹配區(qū)域a→b內(nèi)一對像素點互相匹配的概率.式中,符號Dt表示深度匹配結(jié)果的匹配正確率,β表示概率參數(shù),m表示區(qū)域b中匹配像素點數(shù)量,M表示根據(jù)深度匹配計算的稀疏運動場中匹配像素點總數(shù).
由式(3)可知,正確匹配與錯誤匹配像素點的鄰域支持像素點數(shù)量具有很大差異性.因此,通過統(tǒng)計任意匹配像素點的鄰域支持像素點數(shù)量可以判斷該像素點是否匹配正確.本文使用標準差與期望值量化鄰域支持優(yōu)化模型對正確匹配像素點與錯誤匹配像素點的甄別力,可表示為
其中,P表示鄰域支持模型對匹配像素點的甄別力.由式(4)分析可得P值大小與各變量的變化關(guān)系如下所示:
由式(5)可知,隨著鄰域支持匹配像素點數(shù)量的增加,鄰域支持模型對正確匹配像素點與錯誤匹配像素點的甄別力可以擴展到無窮大.此外,鄰域支持模型的優(yōu)化能力還與深度匹配結(jié)果的匹配正確率相關(guān),正確率越高,優(yōu)化能力越強.因此,采用鄰域支持優(yōu)化模型剔除錯誤匹配像素點能夠有效提高稀疏運動場的匹配準確度與魯棒性.
對初始稀疏運動場進行鄰域支持優(yōu)化的目的是剔除錯誤匹配像素點,但是基于像素點的置信度估計會導(dǎo)致計算成本的顯著增加.為了降低計算成本,本文引入網(wǎng)格框架優(yōu)化鄰域支持模型,使得置信度估計獨立于圖像特征點,而僅與劃分的圖像網(wǎng)格數(shù)量相關(guān),以提高鄰域支持優(yōu)化模型的計算效率.
首先使用網(wǎng)格近似法,將連續(xù)兩幀圖像分別劃分為n×n的非重疊圖像網(wǎng)格.然后定義前后幀圖像中匹配像素點數(shù)量最多的網(wǎng)格為候選匹配網(wǎng)格,根據(jù)式(6)分別計算候選匹配網(wǎng)格的匹配置信度,即
其中,N表示劃分的非重疊圖像網(wǎng)格數(shù)量,True 表示圖像網(wǎng)格i與j匹配正確,False 表示圖像網(wǎng)格i與j匹配錯誤.是匹配網(wǎng)格判斷函數(shù),其中,nij表示圖像網(wǎng)格i與j相鄰網(wǎng)格內(nèi)匹配像素點的平均數(shù)量,α是閾值權(quán)重系數(shù).
根據(jù)網(wǎng)格匹配結(jié)果,本文將相鄰兩幀圖像中像素點坐標皆位于正確匹配網(wǎng)格內(nèi)的匹配像素點定義為匹配正確的像素點,并將其他匹配像素點剔除,獲得超魯棒稀疏運動場.圖3 分別展示了深度匹配模型與本文提出的基于鄰域支持的匹配模型針對KITTI 數(shù)據(jù)庫大位移運動圖像序列的運動場估計結(jié)果.從圖中可以看出,本文方法能夠有效剔除初始稀疏運動場中的錯誤匹配像素點對,具有計算精度高、魯棒性好等顯著優(yōu)點.
圖3 本文鄰域支持模型運動場優(yōu)化效果 (藍色標記符表示匹配正確像素點,紅色標記符表示匹配錯誤像素點)Fig.3 Optimization effect of the motion field by using the proposed neighborhood supporting model (The blue mark indicates the correct matching pixels,the red mark denotes the false matching pixels)
雖然根據(jù)網(wǎng)格化鄰域支持模型優(yōu)化得到的圖像序列運動場包含魯棒光流信息,但是該運動場是稀疏的.現(xiàn)有的圖像匹配光流計算方法通常根據(jù)像素點的歐氏距離進行插值,以獲取稠密光流場.但是由于傳統(tǒng)的插值模型僅考慮像素點的絕對距離,因此易導(dǎo)致插值結(jié)果出現(xiàn)圖像與運動邊界模糊的問題.為了保護光流結(jié)果的圖像與運動邊界特征,本文利用邊緣保護距離進行由稀疏到稠密插值.
根據(jù)局部權(quán)重仿射變換原理,采用式(8)對圖像序列稀疏運動場進行稠密插值計算光流場
其中,p表示第1 幀圖像中任意像素點,符號Ap與tp是像素點p的仿射變換參數(shù),可通過式(9)建立超定方程組求解.
其中,ρpm,p表示像素點pm與p之間所有可能路徑,C(ps) 表示運動邊緣檢測圖中像素ps的值,若ps位于運動邊緣則C(ps)的值極大,反之為零.由于每個像素點都基于其鄰近已知的匹配像素點進行插值,因此能有效保護運動邊界.
為了提高插值效率,本文首先根據(jù)式(10)對像素點進行聚類,將第1 幀圖像中所有像素點分配到距離最近的匹配像素點.然后查找距離任意像素點p最近的匹配像素點pm,并利用匹配像素點pm的仿射變換參數(shù)計算像素點p的第2 幀圖像對應(yīng)匹配像素點p′.以上操作僅需計算稀疏運動場中所有匹配像素點的仿射變換參數(shù),即可根據(jù)局部像素點聚類插值計算稠密運動場,降低了插值計算的復(fù)雜度.最后,為獲得平滑的稠密光流,采用式(11)中的能量泛函對稠密運動場進行全局優(yōu)化,得到最終的稠密光流結(jié)果.
式(11)中,w=(u,v)T表示估計光流,Ψ 是懲罰函數(shù),j0為符合亮度守恒假設(shè)的運動張量分量,γ為梯度守恒權(quán)重,jxy為符合梯度守恒的運動張量分量,?為平滑項局部平滑權(quán)重.
根據(jù)前文敘述,本文由稀疏到稠密光流估計方法的計算步驟如下:
步驟 1.輸入圖像序列相鄰兩幀圖像I0和I1;
步驟 2.將I0和I1分解為N個非重疊子區(qū)域,每個子區(qū)域由4 個相鄰像素點構(gòu)成,根據(jù)式(1)計算各子區(qū)域的匹配關(guān)系;
步驟 3.建立圖像金字塔,將相鄰子區(qū)域由金字塔底層向上層聚合,確定圖像I0和I1中更大的區(qū)域匹配關(guān)系,直到金字塔頂層;
步驟 4.定義相互匹配的區(qū)域中心像素點為匹配像素點,由金字塔頂層自上而下檢索各層金字塔中像素點匹配關(guān)系,得到初始稀疏運動場;
步驟 5.根據(jù)式(2)計算與匹配像素點保持運動一致性的鄰域支持像素點數(shù)量,并由式(3)甄別正確匹配與錯誤匹配像素點;
步驟 6.引入網(wǎng)格框架優(yōu)化模型,通過式(6)和式(7)剔除錯誤匹配網(wǎng)格中的像素點,求解魯棒稀疏運動場;
步驟 7.根據(jù)式(10)計算圖像匹配像素點之間的邊緣保護距離,根據(jù)邊緣保護距離進行像素點聚類,將圖像I0中所有像素點分配到其距離最近的匹配像素點;
步驟 8.根據(jù)式(9)建立超定方程組求解所有匹配像素點的仿射變換參數(shù);
步驟 9.通過式(8)進行由稀疏到稠密插值計算初始稠密運動場;
步驟 10.將初始稠密運動場代入式(11)中能量泛函進行全局優(yōu)化迭代,輸出最終的稠密光流結(jié)果.
分別采用MPI-Sintel 和KITTI 評價標準對本文方法光流估計效果進行綜合測試分析,光流計算結(jié)果評價指標如下:
MPI-Sintel 評價標準采用平均角誤差(Average angular error,AAE)和平均端點誤差(Average endpoint error,AEE)對光流估計結(jié)果進行量化評價,其中,AAE 反映估計光流整體偏離光流真實值的角度;AEE 反映估計光流整體偏離光流真實值的距離.
式中,(uE,vE)T表示光流估計結(jié)果,(uG,vG)T表示光流真實值,N表示圖中像素點數(shù)量.
KITTI 評價標準采用平均端點誤差(AEE)和異常值百分比(Percentage of outliers)對光流估計結(jié)果進行量化評價,異常值百分比表示光流估計值偏離真實值超過一定閾值的離群像素點占整幅圖像的百分比:
其中,NOC和ALL分別表示非遮擋區(qū)域與整幅圖像中像素點個數(shù),P(AEE1>3)表示光流平均端點誤差大于3 個像素的像素個數(shù),outnoc和outall分別表示非遮擋區(qū)域和包含遮擋區(qū)域光流異常值百分比.
為了驗證本文方法對大位移光流的估計精度,分別選取Classic+NL[7]、DeepFlow[18]、EpicFlow[21]和FlowNetS[12]等代表性光流計算方法進行量化對比與分析.其中Classic+NL 是典型的變分光流計算方法,其在光流估計過程中采用加權(quán)中值濾波消除金字塔分層光流計算產(chǎn)生的異常值,本文實驗設(shè)定其金字塔分層數(shù)為6 層.DeepFlow 是基于特征匹配與金字塔變形策略相結(jié)合的光流計算方法,本文在對比實驗中設(shè)定金字塔采樣系數(shù)為0.95.Epic-Flow 采用基于匹配像素點數(shù)量的分段剛性插值模型為光流初始化提供準確的先驗知識,本文實驗選取各匹配像素點的200 個鄰域匹配像素點計算插值參數(shù).FlowNetS 是基于卷積神經(jīng)網(wǎng)絡(luò)的深度學習光流計算模型,在具有大量訓(xùn)練數(shù)據(jù)的情況下能夠獲取較好的光流估計效果.
本文方法關(guān)鍵參數(shù)主要包括圖像初始化網(wǎng)格劃分數(shù)量N 和閾值權(quán)重系數(shù)α.本節(jié)以KITTI 數(shù)據(jù)集000016 序列和000017 序列的AEE 誤差為例,分別討論圖像網(wǎng)格劃分和閾值權(quán)重系數(shù)對光流估計結(jié)果的影響.
圖4 分別展示了不同圖像網(wǎng)格劃分數(shù)量和閾值權(quán)重系數(shù)時本文方法光流估計結(jié)果的AEE 誤差變化.從圖4(a)中可以看出,隨著圖像網(wǎng)格劃分數(shù)量的增加,本文方法光流誤差A(yù)EE 呈現(xiàn)先減小后增加的趨勢,這是由于隨著網(wǎng)格劃分數(shù)量的增加,網(wǎng)格框架對圖像的劃分變得更加細致,使得鄰域支持優(yōu)化模型更貼合局部運動平滑假設(shè).但是當網(wǎng)格劃分數(shù)量過多時,由于難以準確統(tǒng)計匹配像素點周圍的鄰域支持匹配像素點,導(dǎo)致光流估計精度下降.因此,本文設(shè)置圖像初始化網(wǎng)格劃分數(shù)量為14×14.從圖4(b)中可以看出,本文方法對閾值權(quán)重系數(shù)的變化并不敏感,僅當閾值權(quán)重系數(shù)過大時,會導(dǎo)致部分正確匹配像素點被誤判斷為錯誤匹配點,導(dǎo)致光流估計精度下降.因此,本文設(shè)定閾值權(quán)重系數(shù)α=10.
圖4 不同參數(shù)設(shè)置對本文光流估計精度的影響Fig.4 Variation of optical flow estimation results respect to different parameters
MPI-Sintel 數(shù)據(jù)庫測試圖像集包含非剛性形變、大位移、光照變化、復(fù)雜場景以及運動模糊等困難場景,因此是光流估計領(lǐng)域最具挑戰(zhàn)的評價數(shù)據(jù)庫之一.為了驗證本文方法針對非剛性形變和大位移運動等困難場景光流估計的準確性與魯棒性,利用MPI-Sintel 數(shù)據(jù)庫提供的23 個標準測試序列對本文方法以及各對比方法進行綜合測試.
表1 分別列出了本文方法與其他對比方法針對MPI-Sintel 測試圖像集的光流誤差對比結(jié)果.從表中可以看到,由于Classic+NL 算法僅采用金字塔分層策略優(yōu)化變分光流能量泛函,因此對非剛性形變和大位移運動較敏感,導(dǎo)致其光流估計誤差較大.DeepFlow 和EpicFlow 算法相對Classic +NL 算法在光流計算精度上有明顯提升,說明基于匹配策略的光流計算方法在非剛性形變與大位移運動場景具有更好的估計效果.受益于MPI-Sintel 數(shù)據(jù)庫提供了較充足的訓(xùn)練樣本,能夠滿足深度學習光流計算模型FlowNetS 的訓(xùn)練需求,該方法光流估計精度較高.本文方法光流估計精度最高,說明本文方法針對非剛性形變與大位移運動具有更好的光流估計準確性與魯棒性.
表1 MPI-Sintel 數(shù)據(jù)庫光流估計誤差對比Table 1 Comparison results of optical flow errors on MPI-Sintel database
為了對比分析本文方法和各對比方法針對非剛性大位移和運動遮擋場景的光流估計效果,表2 中分別列出了不同方法針對Ambush_5,Cave_2,Market_2,Market_5 和Temple_2 等包含大位移、運動遮擋和非剛性形變等困難運動場景圖像序列的光流誤差對比結(jié)果.從表中可以看出,Classic +NL 算法針對五組測試序列的平均誤差較大,說明該方法針對困難運動場景的光流估計效果較差.FlowNetS 方法的平均AAE 和AEE 誤差均最大,主要由于該方法在Ambush_5 和Cave_2 序列的誤差大幅高于其他方法,說明FlowNetS 算法針對非剛性大位移運動的光流估計效果較差.Deep-Flow 與EpicFlow 算法光流估計AEE 誤差較小,說明該類方法采用像素點匹配計算策略對大位移運動具有很好的定位作用.本文方法的平均誤差最小,僅針對Temple_2 序列的AEE 誤差略大于Deep-Flow 算法,但本文方法針對Cave_2,Market_5序列的AEE 誤差大幅小于DeepFlow 算法,且本文算法在其他所有測試序列均取得最優(yōu)表現(xiàn),說明本文方法針對非剛性大位移和運動遮擋場景具有更好的光流估計精度與魯棒性.
表2 非剛性大位移與運動遮擋圖像序列光流估計誤差對比Table 2 Comparison results of optical flow errors on the image sequences including non-rigidly large displacements and motion occlusions
圖5 分別展示了本文方法和各對比方法針對Ambush_5,Market_2,Market_5,Cave_2,Temple_2 等包含非剛性大位移與運動遮擋場景的圖像序列光流估計結(jié)果.從圖中可以看出,Classic+NL 算法在背景區(qū)域的光流計算效果較好,但是在非剛性形變和大位移運動區(qū)域光流估計結(jié)果存在明顯錯誤.EpicFlow 和DeepFlow 算法在大位移運動區(qū)域的光流估計效果優(yōu)于Classic+NL 算法,但是由于這兩種方法的匹配模型均是建立在剛性運動假設(shè)下,導(dǎo)致其在非剛性運動區(qū)域光流估計結(jié)果不準確.雖然FlowNetS 算法的光流估計精度較高,但該方法光流結(jié)果存在明顯的過度平滑現(xiàn)象,難以準確反映目標與場景的邊界.從圖中不難看出,本文方法光流估計效果較好,尤其在ambush_5 序列人物的頭部和手臂,market_2,market_5 人物的腿部,cave_2 序列人物的腿部和武器,temple_2序列飛行龍的翅膀等非剛性形變和大位移運動區(qū)域光流估計結(jié)果明顯優(yōu)于其他對比方法,說明本文方法針對非剛性形變和大位移運動等困難場景具有更高的光流估計精度與魯棒性.
圖5 非剛性大位移與運動遮擋圖像序列光流估計結(jié)果Fig.5 Optical flow results of the image sequences including non-rigidly large displacements and motion occlusions
KITTI 數(shù)據(jù)庫由德國卡爾斯魯厄理工學院和豐田美國技術(shù)研究院聯(lián)合創(chuàng)辦,用于評測立體匹配、光流、場景流、目標檢測、目標跟蹤等各類計算機視覺算法在車載現(xiàn)實場景下的表現(xiàn)性能.由于KITTI數(shù)據(jù)庫由包含強烈光照變化和大位移運動的真實場景圖像序列組成,因此是目前最具挑戰(zhàn)的光流評測數(shù)據(jù)庫之一.為了進一步驗證本文方法在現(xiàn)實場景下的光流估計準確性與可靠性,采用KITTI 數(shù)據(jù)庫提供的測試圖像序列對本文方法和各對比方法進行綜合測試分析.
表3 分別列出了本文方法與各對比方法針對KITTI 數(shù)據(jù)庫測試圖像序列的光流計算誤差統(tǒng)計結(jié)果.其中,AEEnoc表示圖像中非遮擋區(qū)域像素點的AEE 結(jié)果,AEEall表示圖像中所有像素點的AEE結(jié)果.可以看出,由于FlowNetS 算法沒有針對KITTI數(shù)據(jù)集進行訓(xùn)練,導(dǎo)致其誤差較大.DeepFlow 與EpicFlow 算法由于添加了像素點匹配信息,整體結(jié)果優(yōu)于Classic+NL 算法,但是由于部分區(qū)域存在像素點匹配不準確的原因,導(dǎo)致其精度低于本文方法.本文方法針對KITTI 測試序列各項評估指標均取得最優(yōu)表現(xiàn),說明本文方法具有更好的光流估計精度與魯棒性.
表3 KITTI 數(shù)據(jù)庫光流估計誤差對比Table 3 Comparison results of optical flow errors on KITTI database
圖6 分別展示了本文方法和各對比方法針對000008、000010、000023、000043、000059、000085等KITTI 數(shù)據(jù)庫測試圖像序列的光流誤差圖,圖中藍色到紅色表示光流誤差由小到大.從圖中可以看出,由于缺乏真實場景訓(xùn)練樣本,FlowNetS 算法誤差最大,說明基于深度學習的光流計算模型目前還難以應(yīng)用于沒有真實值的現(xiàn)實場景.Classic +NL 算法在背景區(qū)域的光流計算效果較好,但是針對發(fā)生大位移運動的車輛區(qū)域,光流估計效果較差.DeepFlow 和EpicFlow 算法相對Classic+NL 算法在大位移運動區(qū)域的光流計算精度有明顯提升,說明基于匹配策略的光流計算方法在大位移運動場景具有更好的估計效果.本文方法與其他方法相比,紅色的大誤差區(qū)域最少,光流估計效果最好.尤其在包含大位移運動的車輛區(qū)域,光流估計結(jié)果明顯優(yōu)于其他對比方法,說明本文方法針對包含非剛性形變和大位移運動的真實場景具有更高的光流估計精度與魯棒性.
圖6 KITTI 數(shù)據(jù)庫測試圖像序列光流誤差圖Fig.6 Optical flow error maps of KITTI dataset
為驗證本文方法提出的網(wǎng)格化鄰域支持匹配優(yōu)化、基于邊緣保護距離的由稀疏到稠密插值以及光流計算全局優(yōu)化對非剛性大位移和運動遮擋場景光流計算效果的提升作用,本文分別采用MPI-Sintel 數(shù)據(jù)庫提供Alley_2,Cave_4 和Market_6 圖像序列對本文方法進行消融實驗測試.表4 分別列出了本文方法和不同消融模型的AEE 誤差對比結(jié)果,其中,無匹配優(yōu)化表示本文方法去除網(wǎng)格化鄰域支持匹配優(yōu)化模型、無稠密插值表示本文方法去除基于邊緣保護距離的由稀疏到稠密插值模型、無全局優(yōu)化代表本文方法去除全局能量泛函優(yōu)化模型.從表4 中可以看出,去除匹配優(yōu)化、稠密插值以及全局優(yōu)化模型后會導(dǎo)致本文方法的光流估計精度出現(xiàn)不同程度的下降,說明本文提出的網(wǎng)格化鄰域支持匹配優(yōu)化策略、基于邊緣保護距離的由稀疏到稠密插值模型以及光流計算全局優(yōu)化方法對提高非剛性大位移運動和運動遮擋場景光流估計精度均有重要作用.
表4 本文方法消融實驗結(jié)果對比Table 4 Comparison results of the ablation experiment
圖7 分別展示了本文方法和不同消融模型針對Alley_2,Cave_4 和Market_6 圖像序列的光流計算結(jié)果.從圖中可以看出,去除網(wǎng)格化鄰域支持匹配優(yōu)化模型后本文方法在大位移運動區(qū)域的光流估計效果下降明顯,說明網(wǎng)格化鄰域支持匹配優(yōu)化能夠顯著提高大位移運動光流估計的精度與魯棒性.此外,去除基于邊緣保護距離的由稀疏到稠密插值模型后,光流計算結(jié)果存在明顯的邊緣模糊現(xiàn)象,說明本文提出的邊緣保護插值模型能夠有效改善光流估計的邊緣模糊問題.最后,去除全局優(yōu)化模型后,本文方法光流估計結(jié)果丟失了大量的運動與結(jié)構(gòu)信息,說明全局優(yōu)化模型能夠顯著提高光流估計的全局精度與效果.
圖7 MPI-Sintel 數(shù)據(jù)庫消融實驗光流圖Fig.7 Optical flow results of the ablation experiment tested on MPI-Sintel database
為了對本文方法與其他方法進行綜合對比分析,表5 分別列出了本文方法與其他對比方法針對MPI-Sintel 和KITTI 數(shù)據(jù)庫測試圖像集的平均時間消耗對比.
表5 本文方法與其他方法時間消耗對比(s)Table 5 Comparison of time consumption between the proposed method and the other approaches (s)
由表5 中不同方法的時間消耗對比結(jié)果可以看出,受益于卷積神經(jīng)網(wǎng)絡(luò)的實時計算優(yōu)勢,FlowNetS方法的時間消耗最小,計算效率最高.Classic +NL 算法由于采用金字塔分層變形策略優(yōu)化變分光流計算,導(dǎo)致其時間消耗最大,計算復(fù)雜度最高.DeepFlow 和EpicFlow 算法由于僅采用少量迭代運算對匹配運動場進行全局優(yōu)化,因此時間消耗低于本文方法.本文方法時間消耗大于FlowNetS,Deep-Flow 和EpicFlow 三種方法,但大幅少于Classic +NL 算法.在本文方法中,由于匹配優(yōu)化和稠密插值模型僅包含簡單的線性計算和邏輯運算,因此計算復(fù)雜度較低,時間消耗較小.為避免光流計算陷入局部最優(yōu),本文方法采用全局優(yōu)化模型對插值后的稠密運動場進行迭代更新,雖然全局優(yōu)化策略能夠提高光流估計的整體精度,但是由于采用大量迭代運算更新光流參數(shù),導(dǎo)致時間消耗較大、計算復(fù)雜度較高.
本文提出了一種基于深度匹配的由稀疏到稠密大位移運動光流計算方法.首先,使用深度匹配模型求解相鄰兩幀圖像間初始稀疏運動場;然后采用鄰域支持模型對初始運動場進行優(yōu)化獲得魯棒稀疏運動場;最后對稀疏運動場進行由稀疏到稠密插值,并根據(jù)全局能量泛函求解全局最優(yōu)化稠密光流.實驗結(jié)果表明本文方法具有較高的光流估計精度,尤其針對運動遮擋和非剛性大位移等困難運動場景具有更好的魯棒性和可靠性.
雖然本文方法針對大位移、運動遮擋與非剛性形變等困難場景圖像序列的光流估計精度優(yōu)于各對比光流計算方法,但是由于本文方法須對稠密光流進行全局迭代優(yōu)化,因此導(dǎo)致時間消耗較大.為提高本文方法的使用價值,后續(xù)將研究GPU 并行加速計算策略,在提高非剛性大位移運動光流估計精度的同時大幅減少時間消耗,盡可能滿足工程實際需求.