董 飛 馬源源
(陜西鐵路工程職業(yè)技術(shù)學(xué)院電氣與信息工程系 渭南 714000)
視頻去模糊技術(shù)取得了顯著進(jìn)展并得到了廣泛應(yīng)用[1]。然而,大多數(shù)去模糊方法都是針對(duì)單個(gè)圖像[2]開(kāi)發(fā),而對(duì)視頻去模糊[3]的關(guān)注則相對(duì)較少,其中模糊是由相機(jī)抖動(dòng)、物體運(yùn)動(dòng)和深度變化等因素造成。由于相互作用和復(fù)雜的運(yùn)動(dòng),傳統(tǒng)的均勻模糊[4]或非均勻模糊[5]模型無(wú)法很好地模擬視頻去模糊。同時(shí),由于大多數(shù)現(xiàn)有的視頻去模糊方法都是基于捕獲的靜態(tài)場(chǎng)景[6],這些方法不能處理由突然運(yùn)動(dòng)引起的模糊,并且通常會(huì)產(chǎn)生顯著偽影。
為了解決這些問(wèn)題,文獻(xiàn)[7]采用分割去模糊算法對(duì)視頻模糊進(jìn)行處理,但該算法需要精確的目標(biāo)分割來(lái)進(jìn)行核估計(jì)。文獻(xiàn)[8]采用運(yùn)動(dòng)變換去模糊算法對(duì)視頻模糊進(jìn)行處理,但該算法在很大程度上取決于是否可以跨幀提取清晰的圖像補(bǔ)丁進(jìn)行恢復(fù)。文獻(xiàn)[9]使用雙向光流來(lái)估計(jì)像素模糊內(nèi)核,但去模糊的結(jié)果仍然包含包含一些偽影。
本文在統(tǒng)一的框架內(nèi)同時(shí)解決語(yǔ)義分割、光流估計(jì)和視頻去模糊問(wèn)題,利用語(yǔ)義分割來(lái)考慮遮擋和模糊邊緣,以實(shí)現(xiàn)精確的光流估計(jì),并提出了像素非線性核(PWNLK)模型來(lái)近似視頻中的運(yùn)動(dòng)軌跡,其中模糊核是在非線性假設(shè)下由光流估計(jì)得到。研究表明,運(yùn)動(dòng)模糊不能簡(jiǎn)單地用光流來(lái)模擬,而光流的非線性假設(shè)對(duì)視頻去模糊具有重要意義。
視頻去模糊的主要問(wèn)題是從圖像中估計(jì)像素方式的模糊內(nèi)核。如圖2 所示,光流反映了相鄰幀之間像素的移動(dòng)線性方向,其實(shí)質(zhì)與運(yùn)動(dòng)軌跡不同。因此,單一地基于線性假設(shè)使用光流模擬運(yùn)動(dòng)模糊并不準(zhǔn)確。運(yùn)動(dòng)模糊軌跡通常呈現(xiàn)平滑性,其形狀可以通過(guò)二次函數(shù)來(lái)近似得到。為了模擬運(yùn)動(dòng)模糊軌跡t,本文使用以下參數(shù)建立PWNLK模型:
其中,f=(u,v)是相鄰幀的光流估計(jì),a,b 和c 是所要確定的參數(shù)。運(yùn)動(dòng)模糊軌跡可以用PWNLK模型很好地近似。將幀i 的像素x 處的每個(gè)核ki(x)參數(shù)化為雙向光流的二次函數(shù)[10]:
利用模糊核ki的參數(shù)化形式,則模糊幀yi可以表示為
其中,li表示第i 個(gè)潛在幀,ε 表示噪聲。基于模糊幀模型(3),本文提出了一種有效的視頻去模糊方法,并對(duì)算法進(jìn)行了詳細(xì)的分析。
基于PWNLK 模型(1),模糊幀模型(3)和標(biāo)準(zhǔn)的最大后驗(yàn)框架[11],本文的視頻去模型定義為
其中,fik=(uik,vik)和sik分別表示第i 幀的第k 層中的光流和分割。 Ed表示數(shù)據(jù)保真度項(xiàng),即去模糊幀li應(yīng)該與觀察幀yi一致。 Em表示編碼兩個(gè)假設(shè)的運(yùn)動(dòng)項(xiàng)。首先,如果相鄰像素屬于相同的語(yǔ)義分割層,則它們應(yīng)具有相似的運(yùn)動(dòng)。其次,來(lái)自每個(gè)層k 的像素應(yīng)該共享全局運(yùn)動(dòng)模型f(θik),其中θik隨時(shí)間變化并且取決于每個(gè)層k 的參數(shù)。 Et表示時(shí)間正則化項(xiàng),用于確保相鄰幀之間的亮度恒定。Es表示偽影和光流的空間正則化項(xiàng)。
文獻(xiàn)[11]表明,在數(shù)據(jù)保真度項(xiàng)中使用偽影和模糊圖像的梯度可以減少環(huán)形偽影。因此,本文的數(shù)據(jù)保真度項(xiàng)定義為
當(dāng)根據(jù)式(1)中的運(yùn)動(dòng)模糊軌跡計(jì)算模糊核ki時(shí),數(shù)據(jù)保真度項(xiàng)(5)涉及參數(shù)a,b 和c。為了獲得穩(wěn)定的解,本文需要調(diào)整這些運(yùn)動(dòng)模糊參數(shù)。Tikhonov 正則化在圖像去模糊中已經(jīng)得到了廣泛的應(yīng)用[6],然而運(yùn)動(dòng)模糊具有與光流類似的屬性。例如,如果估計(jì)的光流具有可分割特性,則估計(jì)的運(yùn)動(dòng)模糊將具有相同的屬性。即如果某些區(qū)域?fi=0,則可以得到?(aif2i +bifi+ci)=0?;谶@個(gè)假設(shè),可以得到bi=-2aifi。當(dāng)?fi=0 時(shí),fi應(yīng)為常數(shù)C 。利用此屬性可對(duì)參數(shù)a 和b 使用以下正則化:
其中,β 和γ 表示正則化項(xiàng)中每個(gè)項(xiàng)的權(quán)重。
運(yùn)動(dòng)項(xiàng)應(yīng)滿足以下兩個(gè)條件:1)像素的相同分割層sik應(yīng)共享全局運(yùn)動(dòng)模型f(θik);2)相同分割層sik中的相鄰像素應(yīng)具有相似的光流。因此,本文的運(yùn)動(dòng)項(xiàng)定義為
其中,Nx表示像素x 的四個(gè)最近鄰居,ρa(bǔ)ff表示魯棒懲罰函數(shù),其強(qiáng)制相同分割中的像素具有相同的仿射運(yùn)動(dòng)模型。此外,δ(*)表示指示函數(shù),即如果表達(dá)式為真,則等于1,否則,等于0。
空間正則化項(xiàng)旨在緩解不適定的逆問(wèn)題。本文假設(shè)空間正則化項(xiàng)應(yīng)滿足以下兩個(gè)條件:1)約束具有相同顏色的像素使其位于相同的分割層sik內(nèi);2)在潛在幀和光流中增強(qiáng)空間相關(guān)性。根據(jù)這些假設(shè),空間正則化項(xiàng)的定義如下:
其中,權(quán)重gi(x)表示邊緣圖[10],以保持邊緣處光流的不連續(xù)性。此外,ωx,r是x 和r 之間相似性的權(quán)重。類似于光流估計(jì)方法[6],本文將其定義為
其中,σ 為常數(shù)。對(duì)于給定的像素x,如果知道其他相鄰的像素r 具有與x 相似的顏色,則將它們?cè)O(shè)置為相同的分割。
人類視覺(jué)系統(tǒng)對(duì)視頻中出現(xiàn)的時(shí)間不一致很敏感。為了提高時(shí)間相關(guān)性,首先利用光流在局部時(shí)間窗口[i-N,i+N]中找到相鄰幀之間的對(duì)應(yīng)像素,并確保對(duì)應(yīng)像素平穩(wěn)變化。強(qiáng)制相鄰幀之間的對(duì)應(yīng)像素應(yīng)該屬于同一分割。因此,時(shí)間相關(guān)的定義是:
其中,n 表示第i 幀相鄰圖像的索引,μn是正則化項(xiàng)的權(quán)重。此外,x'=x+fi,i+n是根據(jù)運(yùn)動(dòng)fi,i+n的下一個(gè)第n 幀的對(duì)應(yīng)像素。本文使用式(10)中的L1范數(shù)正則化對(duì)異常值和遮擋進(jìn)行魯棒估計(jì)[10]。
在上述分析的基礎(chǔ)上,得到了所提出的視頻去模糊模型。雖然目標(biāo)函數(shù)是非凸的多變量函數(shù),但可以使用交替最小化方法[10]來(lái)求解。
利用光流f 、分割s 和參數(shù)a,b 和c,對(duì)li進(jìn)行問(wèn)題優(yōu)化:
與文獻(xiàn)[10]類似,本文使用原始對(duì)偶更新方法優(yōu)化潛在幀子問(wèn)題式(11)。
語(yǔ)義分割估計(jì)可以通過(guò)求解如下公式實(shí)現(xiàn):
本文使用文獻(xiàn)[12]中的方法優(yōu)化式(12)。語(yǔ)義分割區(qū)域?yàn)檫\(yùn)動(dòng)模糊目標(biāo)提供了潛在光流信息,其主要用于引導(dǎo)光流估計(jì),而不是直接在每個(gè)分割上去模糊。
在得到l 和s 之后,關(guān)于f 的優(yōu)化問(wèn)題可轉(zhuǎn)化為
本文使用文獻(xiàn)[10]和文獻(xiàn)[13]中的方法求解公式(13)。在得到fi后,利用它來(lái)估計(jì)基于非線性假設(shè)的模糊核,而不是直接用雙向光流作為模糊核。
對(duì)于每個(gè)模糊幀yi,可得到其相應(yīng)的清晰參考li及其雙向光流fi。利用每個(gè)圖像對(duì)和相應(yīng)的光流,分別求出運(yùn)動(dòng)模糊核ai、bi和ci的參數(shù)。
這是最小二乘最小化問(wèn)題,本文分別對(duì)參數(shù)a、b 和c 的閉式解。
與現(xiàn)有方法類似,本文使用帶有圖像金字塔[10]的粗糙Tofine方法來(lái)實(shí)現(xiàn)更好的性能。算法1給出了在圖像金字塔基礎(chǔ)上進(jìn)行視頻去模糊的主要步驟。
算法1 提出的視頻去模糊算法
輸入:模糊幀y,占空比τ ,初始化光流f 和語(yǔ)義分割s。
從粗略到精細(xì)圖像金字塔層級(jí)重復(fù)以下步驟:
1.通過(guò)最小化式(14)求解參數(shù)a、b 和c;
2.通過(guò)最小化式(13)求解光流f ;
3.通過(guò)式(2)求解基于PWNLK模型估計(jì)模糊內(nèi)核k ;
4.通過(guò)最小化式(11)求解潛在幀l;
5.通過(guò)最小化式(12)求解分割s;
輸出:潛在幀l,模糊核k ,光流f 和分割s
本文首先分析并展示了語(yǔ)義分割和PWNLK模型的結(jié)果。然后在合成視頻和現(xiàn)實(shí)世界模糊視頻上評(píng)估所提出的算法。本文將所提出的算法與基于運(yùn)動(dòng)變換[14]、均勻核[15]、分割核[16]和像素線性核[10]的方法進(jìn)行比較。
在所有實(shí)驗(yàn)中,本文設(shè)定參數(shù)λ=μn=250 ,β=γ=0.5λ,σ=7,N=2。將二次雙向光流的參數(shù)初始化為a=c=0,b=1。為了進(jìn)行公平比較,本文使用基于TV-L1的方法[17]初始化光流,具體步驟參照文獻(xiàn)[10]所示。本文還使用最先進(jìn)的語(yǔ)義分割方法[5]對(duì)圖像進(jìn)行分割,并根據(jù)所提出的算法對(duì)結(jié)果進(jìn)行優(yōu)化。此外,本文還使用文獻(xiàn)[10]中的方法估算相機(jī)占空比τ。
文獻(xiàn)[10]直接使用線性雙向光流來(lái)恢復(fù)清晰的圖像。由于視頻中的運(yùn)動(dòng)軌跡不同于光流,因此該方法的效果較差,如圖3 所示。圖3(a)給出了通過(guò)仿射變換生成模糊圖像的示例[16]。本文首先通過(guò)圖3(c)中基于分割核的方法[16]給出了消除模糊的結(jié)果。由于分割不準(zhǔn)確,大象邊界周圍存在明顯的偽影。如圖3(d)所示,實(shí)況光流(圖3(b))使用像素線性核方法[10]生成的恢復(fù)圖像含有顯著的環(huán)形偽影,這表明線性雙向光流不能很好地模擬運(yùn)動(dòng)模糊。
圖3 文獻(xiàn)[10]中線性假設(shè)的局限性
圖4 給出了能夠證明PWNLK 模型有效性的示例。本文使用相同的光流來(lái)估計(jì)像素方式的線性和非線性核。其中,每個(gè)像素的運(yùn)動(dòng)模糊的線性假設(shè)在實(shí)際圖像中不成立,如圖4(a)所示。對(duì)放大區(qū)域采用線性近似的運(yùn)動(dòng)模糊核估計(jì)幾乎呈現(xiàn)直線,相應(yīng)的去模糊結(jié)果在字母D 的直線上含有失真?zhèn)斡埃ㄟ^(guò)所提出的非線性近似方法估計(jì)的運(yùn)動(dòng)核的軌跡與實(shí)際運(yùn)動(dòng)模糊軌跡很好地吻合,相應(yīng)的去模糊圖像更清晰且偽影更少,如圖4(b)所示。這表明所提出的模糊模型(1)能較好地近似真實(shí)場(chǎng)景中的運(yùn)動(dòng)軌跡。
圖4 PWNLK分析
語(yǔ)義分割以多種方式改進(jìn)視頻去模糊,這是因?yàn)樗捎糜诠烙?jì)模糊核的光流。首先,語(yǔ)義分割可提供有關(guān)目標(biāo)邊界的區(qū)域信息。其次,當(dāng)不同目標(biāo)的移動(dòng)方式不同,語(yǔ)義分割可用于約束每個(gè)區(qū)域的光流估計(jì)。如圖5(b)所示,當(dāng)不使用語(yǔ)義分割時(shí),估計(jì)的光流在自行車周圍被過(guò)度平滑。因此,背景和道路區(qū)域的模糊結(jié)果被過(guò)度平滑。相比之下,所提出的算法的語(yǔ)義分割結(jié)果能夠很好地描述邊界,并且有助于生成準(zhǔn)確的光流。如圖5(f)所示,所提出的算法的去模糊圖像清晰,且具有細(xì)分割效果。
圖5 語(yǔ)義分割對(duì)去模糊的影響
此外,本文還進(jìn)行了更多的實(shí)驗(yàn)來(lái)檢驗(yàn)語(yǔ)義分割對(duì)光流估計(jì)的影響。盡管如圖6(a)所示初始化的分割不準(zhǔn)確,但所提出的算法可以精確地分割運(yùn)動(dòng)物體,如圖6(b)所示,并且可為光流估計(jì)提供更準(zhǔn)確的運(yùn)動(dòng)邊界信息,從而有助于視頻去模糊處理。
圖6 語(yǔ)義分割的定性分析
本文根據(jù)文獻(xiàn)[18,20]中關(guān)于真實(shí)序列的視頻去模糊方法[14,18~20]與所提出的算法進(jìn)行對(duì)比分析。首先將提出的算法與文獻(xiàn)[14]提出的基于變換的方法進(jìn)行比較。如圖7(b)的第一列所示,基于變換的方法不能恢復(fù)移動(dòng)自行車的模糊,這是由于物體運(yùn)動(dòng)較大并且附近的幀中沒(méi)有清晰的圖像。相比之下,所提出的算法能夠處理移動(dòng)物體造成的模糊,并生成清晰的圖像,如圖7(c)的第一列所示?;谧儞Q的方法不能處理大型攝像機(jī)捕捉的運(yùn)動(dòng)模糊,如圖7(b)第二列所示。這是由于這種基于轉(zhuǎn)換的方法引入了不正確的補(bǔ)丁匹配(如果沒(méi)有清晰的圖像或可用補(bǔ)?。?,因此,書本序列的恢復(fù)文本包含了顯著的失真?zhèn)斡?。相比之下,基于估?jì)光流的方法不需要清晰的圖像或補(bǔ)丁,并且模糊的結(jié)果在視覺(jué)上更達(dá)到清晰分辨,尤其是對(duì)于文本。
本文將所提出的算法與基于均勻核的多圖像去模糊方法進(jìn)行比較[15],如圖8 所示。在街道序列中,通過(guò)所提出的算法可以從去模糊圖像中清晰地識(shí)別出標(biāo)志牌和窗戶的結(jié)構(gòu),而基于多圖像的方法不能恢復(fù)這些細(xì)節(jié)。此外,所提出的算法可以恢復(fù)嬰兒序列中清晰的邊緣和細(xì)節(jié)。然而,基于多圖像的去模糊方法不能生成清晰的圖像。這是由于基于多圖像的方法估計(jì)出的均勻核不考慮具有非均勻模糊的復(fù)雜場(chǎng)景。同時(shí),這種多圖像去模糊方法的去模糊結(jié)果取決于相鄰幀的對(duì)齊是否準(zhǔn)確。
圖7 與基于變換方法的比較
圖8 基于均勻核方法的比較
所提出的方法與基于分割的視頻去模糊方法[16]的去模糊結(jié)果,如圖9 所示。雖然基于分割的去模糊方法生成的圖像很清晰,但由于分割不準(zhǔn)確,在圖像邊界周圍仍然包含一些失真?zhèn)蜗瘢鐖D9(b)中右下角的雜志邊界。相比之下,圖9(c)中的去模糊圖像表明,所提出的方法能夠恢復(fù)雜志的清晰邊緣。此外,文獻(xiàn)[16]在單詞“NEW”處的恢復(fù)與所提出的算法生成的結(jié)果相比更加模糊。
圖9 基于分割的視頻去模糊方法比較
所提出的方法與文獻(xiàn)[10]提出的基于像素線性核的視頻去模糊方法進(jìn)行比較,如圖10 所示?;谙袼鼐€性核的去模糊結(jié)果包含模糊的邊緣和失真?zhèn)斡埃鐖D10(b)所示。例如,由于內(nèi)核估計(jì)不準(zhǔn)確,圖10(b)第二列的指示牌左下角有失真?zhèn)斡?。相比之下,由于所提出的運(yùn)動(dòng)模糊模型能夠近似真實(shí)的運(yùn)動(dòng)模糊軌跡,恢復(fù)的圖像包含了精細(xì)的細(xì)節(jié)。其中,在圖10(c)中,利用所提出的算法,第一列和第二列中的去模糊字母更加清晰。
圖10 基于像素線性核的視頻去模糊方法比較
最后分析是否使用PWNLK模型和語(yǔ)義分割的去模糊結(jié)果,并與基于變換[14]、基于像素線性核[10]和基于深度學(xué)習(xí)[18]的視頻去模糊方法進(jìn)行比較,如圖11 所示?;谧儞Q的視頻去模糊方法[14]不能生成如圖11(c)和圖11(e)所示的清晰圖像。基于像素線性核方法[10]可以生成清晰的圖像,但道路區(qū)域被過(guò)于平滑,如圖11(d)所示。在圖11(f)中,道路區(qū)域可成功恢復(fù),但由于內(nèi)核估計(jì)不完善,輪胎周圍存在一些視覺(jué)偽影。圖11(g)給出了不執(zhí)行語(yǔ)義分割的模糊結(jié)果。雖然輪胎去模糊效果較好,但道路區(qū)域被過(guò)于平滑。與圖11(h)中的圖像相比,圖11(f)和圖11(g)的視覺(jué)質(zhì)量較低,這說(shuō)明了所提出的PWNLK模型(1)和語(yǔ)義分割正則化的重要性。
圖11 是否使用PWNLK模型和語(yǔ)義分割的去模糊結(jié)果
當(dāng)輸入視頻包含顯著的模糊以及錯(cuò)誤的初始分割時(shí),所提出的算法表現(xiàn)不佳,如圖12 所示。圖12(c)和圖12(d)分別是圖12(a)和圖12(b)的連續(xù)模糊幀的初始分割結(jié)果。由于式(8)和式(10)中假定的空間和時(shí)間約束在分割圖像中不成立,因此,圖12(e)中的最終分割結(jié)果不具有任何語(yǔ)義信息。此外,所提出的方法退化為文獻(xiàn)[10]中的傳統(tǒng)光流估計(jì),并產(chǎn)生類似的去模糊結(jié)果,如圖12(g)和圖12(h)所示。
圖12 局限性分析
本文利用語(yǔ)義分割和PWNLK模型提出了一種有效的視頻去模糊算法。所提出的分割算法將不同的運(yùn)動(dòng)模型應(yīng)用于不同的目標(biāo),這可以顯著改善光流估計(jì),尤其是在目標(biāo)邊界處。PWNLK 模型基于非線性假設(shè),能夠模擬運(yùn)動(dòng)模糊與光流之間的關(guān)系。此外,本文還分析了傳統(tǒng)的基于運(yùn)動(dòng)變換、均勻核、分割核和像素線性核無(wú)法模擬由相機(jī)抖動(dòng)、物體運(yùn)動(dòng)和深度變化的組合而產(chǎn)生的復(fù)雜空間變化模糊。在合成視頻和真實(shí)視頻中進(jìn)行的實(shí)驗(yàn)結(jié)果表明,所提出的算法在視頻去模糊方面優(yōu)于其他方法。