白雪松,葉劍飛
(黃山學院,安徽 黃山 245000)
受拍攝設(shè)備和外部環(huán)境的影響,采集的部分民俗體育記錄視頻內(nèi)容會因目標去除和恢復壓縮而損壞或丟失。缺陷視頻的搶救性修復方法被廣泛研究,采用殘差卷積注意力網(wǎng)絡(luò)提取相鄰幀之間的時空信息,可以對視頻幀的時空信息和低語義信息進行修補與恢復,但發(fā)現(xiàn)視頻中的紋理信息修補效果不佳,視頻修復效果有待提高[1]。多尺度特征融合算法通過迭代置信度的設(shè)置,可以消除圖像邊緣對破損區(qū)域的影響,實現(xiàn)視頻修復,但該方法未對視頻幀的紋理信息進行區(qū)分,導致修復效果不佳[2]?;谛〔ǚ治隼碚撔迯鸵曨l圖像中較復雜的水平和垂直條帶,可有效去除圖像中的文字,但該方法主要針對一般的視頻圖像損壞特征,無法處理動態(tài)紋理或運動物體[3]?;诟倪M的快速進行法(FMM)算法可以修復由Kinect相機采集的深度圖像中的大面積空洞,但該方法只限于Kinect相機采集的深度圖像,在應用于其他類型或來源的圖像時效果并不理想[4]。
本文利用小波變換算法提出一種視頻小波分析修復算法,對原始視頻幀進行關(guān)鍵點匹配及對齊操作,可以更好地處理因幀間運動導致的缺陷區(qū)域或運動模糊等問題??紤]了圖像序列之間的關(guān)聯(lián)性,通過檢測視頻缺陷區(qū)域,可以在修復過程中更加準確地定位,進一步提升修復效果。采用小波變換算法計算視頻像素點優(yōu)先權(quán),可以更好地處理視頻中的頻域特征,從而實現(xiàn)更準確、有效的修復。
相機的運動范圍大可能會導致視頻拍攝結(jié)果出現(xiàn)較大誤差,直接影響后續(xù)視頻的修復。使用局部模型對視頻幀進行對齊,將視頻圖像中的局部鄰域特征點與參考特征點進行匹配以獲得相似性,有效增加了特征點的數(shù)量,使視頻幀更加平滑,并基于圖像關(guān)鍵點匹配獲得幀對齊圖像。
使用簡化的針孔相機模型,將真實場景中記錄的對象視為位于金字塔區(qū)域的點,連接場點和相機光學中心的線在物理成像平面上的交點。將景點P與攝像機所在平面間的距離定義為z,則坐標值之間的關(guān)系為
(1)
式中:f表示相機焦距;(x0,y0)表示P點坐標;(x1,y1)表示投影點P′的坐標。
整理可得投影點P′在相機投影面上的坐標值為
(2)
式中(cx,cy)表示原點的平移坐標。
經(jīng)過對深度視頻的處理,可以從深度相機中獲得視頻幀及其對應的點云和表面法向量,將這些信息用于求解相機的姿態(tài),然后對兩幀圖像進行關(guān)鍵點匹配。當幀速率高時,相機拍攝的兩幀之間的間隔非常小,圖像信息的變化程度也小。所以可以在兩幀中的相同像素位置計算3D點之間的最短距離和單個像素法向量的長度差,并且將差值最小的點用作匹配該像素位置的關(guān)鍵點[5-6]。計算公式為
(3)
(4)
根據(jù)獲得的匹配點i和第i-1幀對應的法向量,計算匹配點所在的切平面之間的距離。計算公式為
(5)
式中Ωt表示所有匹配成功的像素點的集合。
圖像中的每個局部區(qū)域都被視為一個平面,因此每個區(qū)域都可以使用單位矩陣來描述其幾何變換[7],則局部區(qū)域的幾何變換可以表示為
(6)
式中:H*表示圖像像素的變換模型;x*表示局部鄰域?qū)c。
為了使局部鄰域?qū)c的坐標與全局像素點坐標相吻合,在此引入權(quán)重因子ω0,具體為
(7)
式中:h表示尺度參數(shù);N表示圖像像素點個數(shù);i表示像素點序號。
由于x*在其空間域I內(nèi)連續(xù)運動,其相應的尺度參數(shù)會發(fā)生平滑變化,從而使得當前區(qū)域內(nèi)的缺陷像素與其相鄰區(qū)域內(nèi)的無線像素存在高度一致性[8],因此將圖像空間域根據(jù)網(wǎng)格提取原理分割成C1×C2個網(wǎng)格,并以每個單元的中心作為參考點,扭曲兩幀圖像的像素,以更好地對齊。視頻幀對齊公式為
wj=exp(-‖x*-ω0‖2/σ2)
(8)
式中:wj表示第j個視頻幀匹配的源圖像中的坐標;σ表示像素變換因子。
通過變換像素點坐標系與相機坐標系,將視頻中相鄰兩幀的局部特征點與基準特征點進行匹配[9],基于匹配點的歐氏距離與法向量差異值計算匹配點的切面長度。結(jié)合權(quán)重因子項對視頻幀進行對齊,便于更好地修復視頻缺陷。
由于視頻幀之間的關(guān)系是相互依附的,所以對于視頻缺陷位置的定位可根據(jù)圖像序列之間的相關(guān)性進行檢測,進而完成破損區(qū)域的修復[10]。
假設(shè)有一長、寬和幀數(shù)分別為X、Y、T的視頻,其三維矩陣用G表示,對應的結(jié)構(gòu)圖為S,則疊加了掩碼m后受損的原始圖像的灰度圖Ig可表示為
Ig=I×S⊕G(wj-m)
(9)
式中:I表示原始圖像;⊕表示疊加運算符;wj表示視頻幀對齊項。
(10)
式中:Sin表示受損的結(jié)構(gòu)化灰度圖;Lx(p)表示圖像窗口的固有變差;Ly(p)表示圖像紋理向量。
對于紋理模糊的圖像,將重建損失定義為
(11)
式中C(p)表示置信度。
置信度的計算公式為
(12)
式中:D(p)表示數(shù)據(jù)項;γ0表示歸一化因子。
為確保待修復圖像的有用信息能夠在正確的方向上擴散[11],控制圖像信息擴散路徑的擴散方程為
(13)
式中:d(Wp,Vp)表示破損視頻未知區(qū)域;(Wp,Vp)表示破損時空塊的相似性度量;v表示像素分布方差。
假設(shè)Dx為視頻已知區(qū)域,Hx為視頻的待修復區(qū)域,則任一像素點的空間偏移量θ0可表示為
θ0=p0(Dx+Hx)/φ(p)
(14)
式中:p0表示像素收縮量;φ(p)表示衰減因子。
在處理高級特征時,風格因素是一個重要方面[12],通常使用平衡矩陣來描述這些特征,其計算公式為
(15)
式中:φi(x)表示特征圖形狀;Hi表示特征值。
由于視頻幀中的缺陷類型是隨機出現(xiàn)的,具有一定的不確定性,所以當前一幀出現(xiàn)噪聲時,后一幀也會出現(xiàn)噪聲,故而該位置的光流變化呈現(xiàn)異常[13]。缺陷位置的前向和后向光流的變化范圍較大,并且存在較強的跳躍現(xiàn)象[14]。所以根據(jù)圖像光流的變化規(guī)律,可以明確缺陷位置與灰度像素之間的關(guān)系?;谏鲜鲈?在圖像的已知區(qū)域中搜索用于修復的最佳輔助塊。該輔助塊表示為
Ψq=arg mind(Ψq,Ψq′)
(16)
式中d(Ψq,Ψq′)表示兩個塊的距離相似性。
假設(shè)x=[x,y]和x′=[x′,y′]是兩幀圖像I和I′之間的對應點,那么描述兩幀圖像間的正反向光流的關(guān)系為
(17)
式中:H0表示圖像時空信息矩陣;k0、E0分別表示圖像灰度差異項與平滑項。
將原視頻用一個與其尺寸和維度均相同的換階矩陣W表示,則判斷該視頻幀中坐標為(a,b,c)的點是否為缺陷點的判定公式為
(18)
(19)
式中:T1、T2分別表示當前像素點與前后幀灰度的差異;(a+U,y+V,c+1)表示視頻后一幀的位置;(a-U,y-V,c-1)表示視頻前一幀的位置;Tg表示灰度閾值。
當T1、T2均大于圖像的灰度閾值Tg時,將W(a,b,c)位置判定為缺陷點。
基于視頻幀對齊結(jié)果,計算圖像相鄰幀序列之間的關(guān)聯(lián)性,對圖像結(jié)構(gòu)進行重構(gòu)以生成受損的結(jié)構(gòu)化灰度圖像。根據(jù)紋理損失定義原理求取像素點的空間偏移量,結(jié)合缺陷處的光流變化定位圖像缺陷位置,為視頻修復奠定基礎(chǔ)。
基于缺陷定位結(jié)果,可將視頻圖像的時間連續(xù)性特征用于跟蹤和修復缺陷[15]。本文采用小波變換分析方法實現(xiàn)視頻缺陷的修復。使用小波變換算法修復視頻缺陷的過程主要在于小波基?(t)的選擇,小波基應滿足定義域中的緊支撐和容限條件,以最大限度降低計算復雜度。假設(shè)存在傅里葉變換為?′(t)的小波基,當?′(t)滿足以下允許條件時,就作為小波模型的小波基函數(shù),即
(20)
式中:ω1表示旋轉(zhuǎn)矩陣;R表示小波基函數(shù)定義域。
將?(t)經(jīng)數(shù)學變換后得到單一小波序列,即
(21)
式中a′、b′分別表示伸縮與平移因子。
實際應用中通常需要離散化小波的尺度參數(shù)a′、b′,將其擴展為固定值,則對應的離散化的諧波系數(shù)可表示為
A=D?+f(t)-1
(22)
式中f(t)-1表示傅立葉逆變換。
由于圖像屬于二維信號,因此使用現(xiàn)有的尺度函數(shù)建立缺陷定位的小波基模型來構(gòu)建所需的二維小波,即
Φ(Z)=[φ1(x,y)+φ2(x,y)]/A×W(a,b,c)
(23)
式中:φ1(x,y)、φ2(x,y)分別表示圖像一次與二次的分解結(jié)果;W(a,b,c)表示視頻圖像的缺陷位置。
使用二維小波計算邊界上每個中心像素塊的優(yōu)先級,并根據(jù)優(yōu)先級確定視頻的修復順序。優(yōu)先級函數(shù)為
Q(p)=Φ(Z)×R(p)×U(p)
(24)
式中R(p)、U(p)分別表示待修復塊中已知和未知像素的比例,具體表示為
(25)
式中:S′表示修復塊面積;Np表示破損區(qū)域邊界像素p的法向量;a表示圖像等照度線方向。
在通過最佳匹配塊中的像素修復待修復的塊之后,生成新的損壞邊界?;谛〔ɑ瘮?shù),更新圖像塊在新的損傷邊界上的置信度,即小波基的總能量函數(shù)的計算式為
(26)
式中:xp表示標簽圖像塊;I0表示標簽代價函數(shù);dp′表示圖像塊重疊部分的相似性。
根據(jù)上述分析,可以將修復問題轉(zhuǎn)化為對每個能量信號分配標簽從而使圖像信號的平滑項之和最小化的問題。受損視頻序列的計算公式為
(27)
式中YT、MT分別表示缺失像素值與掩碼像素值。
對于破損視頻,Ip、Iq分別表示像素點p和q的梯度向量。考慮到視頻的顏色信息和運動特征信息,對能夠反映圖像邊緣和紋理結(jié)構(gòu)信息的梯度變量進行約束,以改進圖像信號變量的搜索過程。將約束因子定義為
(28)
式中e表示信號偏移。
由以上計算可以看出,整個操作過程需要獲得半像素的梯度值和曲率值的疊加向量,將其離散化后獲得視頻缺陷的修復公式,即
(29)
在數(shù)值仿真時,首先確定視頻中的缺陷位置,接著確定待修復區(qū)域,則基于小波分析的視頻修復算法步驟為(1)讀取I和uD,以確定要修復的區(qū)域;(2)設(shè)置參數(shù)梯度和曲率值;(3)計算損壞的視頻序列;(4)對于(γ,λ),用式(29)進行迭代修復;(5)設(shè)置迭代次數(shù);(6)輸出修復后的圖像。
為了評估小波分析修復算法對于損壞視頻的修復性能,以某個民俗體育記錄視頻為例,設(shè)計多組實驗進行驗證。
某村莊在每年的八月八日舉辦鄉(xiāng)村籃球聯(lián)賽,其中融合了人們的日常生活和風俗習慣,是一項集體的、模塊化的、傳統(tǒng)的生活方式的體育活動。用于恢復的視頻數(shù)據(jù)集包括各種真實的受損村莊民間體育記錄視頻和公共DAVIS數(shù)據(jù)集。這兩類數(shù)據(jù)涉及多種復雜的場景,損傷類型各異,可以反映實驗結(jié)果的真實性。
實驗數(shù)據(jù)集由50個視頻、5 621幀組成,每個視頻包含一個對象或兩個空間連接的對象,每幀都具有像素級的精度。每個視頻的持續(xù)時間為4~8 s,平均視頻長度約為120幀。共有12 564個對象注釋,每個對象注釋都由專業(yè)人員手動分割。實驗中使用了一些帶有強烈民間色彩的體育錄制視頻的縮略圖,所有這些視頻的大小均為144×176像素。實驗中選擇的視頻包括背景和區(qū)域的整體運動目標,截取第30幀作為受損視頻幀的下一個視頻幀。
在預處理階段,在MATLAB 2016a上利用小波變換算法提取結(jié)構(gòu)圖和修復實驗。實驗采用的紋理大小參數(shù)σ=3。將修復模型運行在PyTorch V1 0.1、CUDNN V7上。實驗使用的硬件設(shè)備是Intel Assisted Core(TM)i7-8700@3.20GHzCPU、NVIDIA GTX 1080TiGPU。
由于視頻中的圖像數(shù)量較多,單幀圖像提供的信息有限,使得修復結(jié)果無法達到預期效果。考慮到視頻的時間相關(guān)性,將搜索區(qū)域擴展到幀前和幀后的N幀,并且2N+1幀搜索區(qū)域是共享的。在本文實驗中,取N=1。在比較各種方法時,確保所有實驗參數(shù)都相同。在測試階段,輸入視頻幀序列和輸出視頻幀序列均為11,同時,將輸入視頻幀的大小統(tǒng)一修改為432×240。
選取3個視頻中的3幀畫面,每一行為一個視頻幀序列,將待修復幀及其前后各2幀共5幀作為修復算法的破損圖像輸入,分別采用文獻[1]中的基殘差卷積注意力網(wǎng)絡(luò)算法(方法1)、文獻[2]中的多尺度特征融合算法(方法2)與本文方法對破損圖像進行處理修復(見圖1)。圖1(a)中,輸入幀圖像背景復雜且嚴重模糊,存在大量噪聲且分辨率較低,同時存在曝光和對比度失衡的問題。利用方法1對仿真破損視頻幀進行缺陷修復,圖像未缺失部分出現(xiàn)了明顯的修復痕跡,而對于需要修復的部分,產(chǎn)生畫面結(jié)構(gòu)不完整、像素重疊現(xiàn)象,原因是該方法主要適用于劃痕和大小斑塊較為完整的視頻修復,但對于模糊缺陷,由于缺少對視頻的去噪處理,使得修復結(jié)果保留了其中的顆粒噪聲,影響了修復效果(見圖1(b))。利用方法2對原始視頻進行修復時只使用了相鄰幀進行建模,不能實現(xiàn)對視頻的逐幀修復,視頻幀經(jīng)過修復后,細小部分的處理存在誤差,沒有很好地保留圖像的邊緣信息,且出現(xiàn)了階梯效應(見圖1(c))。利用本文方法修復缺陷視頻幀,修復后圖像的空間結(jié)構(gòu)相似性與時間連貫性更強,破損區(qū)域的結(jié)構(gòu)被完好修復,整體修復效果較好(見圖1(d))。主要是由于本文方法利用兩行掩膜原理,并結(jié)合小波變換算法,在擴展幀中尋找與破損幀紋理較為相似的結(jié)構(gòu)并進行匹配修復,使得修復效果更加符合人眼視覺效果。通過對比可以發(fā)現(xiàn),本文視頻修復算法能夠改善修復效果,修復后的圖像沒有修復痕跡,修復性能較好。
圖1 破損視頻修復結(jié)果對比
選取3個視頻中的2幀畫面,每一行為一個視頻幀序列,分別對每個視頻序列的中間視頻幀做人工破損標注,分別采用以上3種方法同時對視頻的前景和背景展開修復處理。評價不同修復方法性能的指標為均方誤差(MSE),其計算公式為
(30)
式中:A表示原始視頻;B表示修復后視頻;M、N分別表示視頻大小;i、j分別表示原始視頻與修復后視頻的像素點。
利用式(30)計算3種修復方法對視頻修復后的均方差值,結(jié)果越小,表明修復視頻與原始視頻的相似度越高,修復效果越好。為了更全面地評估修復方法對視頻的影響,選擇結(jié)構(gòu)相似性指數(shù)(SSIM)和峰值信噪比(PSNR)作為視覺感知質(zhì)量的評價指標。根據(jù)均值和方差計算亮度相似度,結(jié)合原始視頻和修復后視頻的結(jié)構(gòu)相似度指數(shù)計算SSIM值,通過MSE計算PSNR值。計算結(jié)果如表1所示。可以看出,本文方法在不同小波系數(shù)丟失率下都展現(xiàn)出較好的修復效果,均方誤差值較小,同時具有較高的SSIM和PSNR值。方法2在某些小波系數(shù)丟失率下表現(xiàn)出良好的修復效果,但在其他情況下的性能較差。方法1在大部分情況下的修復效果相對較差。說明本文設(shè)計方法優(yōu)于其他兩種方法,可以更有效地修復視頻,并保持較高的圖像質(zhì)量。
表1 視頻修復均方差結(jié)果對比
以小波變換算法為核心,提出了一種視頻修復技術(shù),充分利用視頻幀信息冗余特性,遍歷幀間修補塊,并通過構(gòu)建小波修復模型,實現(xiàn)視頻缺陷修復。實驗表明,本文方法對于民俗體育記錄視頻的各類缺陷均有較好的修復效果。在以后的研究中,將深入分析光流場對圖像缺陷修復的影響,以進一步提高修復效果。