李德財(cái),嚴(yán) 群,2*,姚劍敏,2,林志賢,董澤宇
(1.福州大學(xué) 物理與信息工程學(xué)院, 福建 福州 350108;2.晉江市博感電子科技有限公司, 福建 晉江 362200)
視頻修復(fù)旨在用視頻中時(shí)空相關(guān)的內(nèi)容來(lái)填充視頻序列中的缺失區(qū)域[1]。高質(zhì)量的視頻修復(fù)對(duì)損壞的視頻修復(fù)[2-3],未損壞的對(duì)象移除[4-5],視頻重新定向[6]和曝光不足或過(guò)度的視頻修復(fù)[7]等任務(wù)具有重要意義。高質(zhì)量的視頻修復(fù)仍然面臨著許多挑戰(zhàn),例如缺乏對(duì)視頻的高度理解[8]和高度的計(jì)算復(fù)雜性。大多數(shù)現(xiàn)有的視頻修復(fù)算法[9-14]遵循傳統(tǒng)的圖像修復(fù)方式,通過(guò)將問(wèn)題公式化為基于塊拼接的優(yōu)化任務(wù),通過(guò)采樣空間或空間-時(shí)間匹配來(lái)解決已知區(qū)域的最小化問(wèn)題。盡管有一些好的修復(fù)結(jié)果,但這些方法不能處理復(fù)雜運(yùn)動(dòng)的情況,且計(jì)算復(fù)雜度較高。
隨著深度卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展,深度視頻修復(fù)取得了重大進(jìn)展。其中使用3D卷積和遞歸網(wǎng)絡(luò)進(jìn)行視頻修復(fù)[15-16]越來(lái)越受到人們的關(guān)注。文獻(xiàn)[6]采用循環(huán)網(wǎng)絡(luò)來(lái)確保時(shí)間的一致性。文獻(xiàn)[16]首次提出將3D和2D全卷積網(wǎng)絡(luò)相結(jié)合來(lái)學(xué)習(xí)視頻的時(shí)間信息和空間細(xì)節(jié)。Xu等人[17-18]通過(guò)聯(lián)合估計(jì)空間特征和光流來(lái)提高性能。Chang等人提出了用于自由形式視頻修復(fù)的時(shí)態(tài)SN-PatchGAN[19]和時(shí)態(tài)移位模塊[20]。于冰等人[21]提出基于時(shí)空特征的生成對(duì)抗網(wǎng)絡(luò)進(jìn)行視頻修復(fù)。這些方法通常會(huì)從附近的幀中收集信息來(lái)填充丟失的區(qū)域,但由于有限的時(shí)間感受野,在每一幀上直接應(yīng)用圖像修復(fù)算法會(huì)導(dǎo)致時(shí)間偽影和抖動(dòng)。為解決上述挑戰(zhàn),目前最先進(jìn)的方法是應(yīng)用注意力模塊來(lái)捕捉長(zhǎng)距離幀的對(duì)應(yīng)關(guān)系,從而可以使用來(lái)自遠(yuǎn)處幀的內(nèi)容來(lái)填充目標(biāo)幀中的缺失區(qū)域[22-23]。文獻(xiàn)[22]是通過(guò)對(duì)視頻幀進(jìn)行加權(quán)求和來(lái)合成缺失的內(nèi)容,并進(jìn)行逐幀關(guān)注。文獻(xiàn)[23]通過(guò)逐像素的關(guān)注,從邊界向內(nèi)逐漸填充具有相似像素的缺失區(qū)域。雖然有較好的修復(fù)結(jié)果,但由于視頻中復(fù)雜的運(yùn)動(dòng)會(huì)引起明顯的外觀變化,導(dǎo)致修復(fù)幀的匹配效果較差,無(wú)法對(duì)復(fù)雜的空間信息進(jìn)行合理匹配。此外由于沒(méi)有對(duì)復(fù)雜的時(shí)間信息處理模塊進(jìn)行針對(duì)性?xún)?yōu)化,而是對(duì)所有視頻進(jìn)行逐幀處理,導(dǎo)致修復(fù)結(jié)果的時(shí)間一致性較差,而且需要較大的計(jì)算量和較長(zhǎng)的處理時(shí)間。
針對(duì)上述問(wèn)題,該文提出了一種基于殘差網(wǎng)絡(luò)[24]的卷積注意力網(wǎng)絡(luò)(RCAN)用以視頻修復(fù)。該網(wǎng)絡(luò)以視頻所有幀作為輸入,使用自注意力機(jī)制和全局注意力機(jī)制[25]來(lái)提取所有幀的時(shí)空特征信息,進(jìn)而對(duì)所有輸入幀進(jìn)行修復(fù)。此外殘差網(wǎng)絡(luò)的引入,能夠增強(qiáng)深度網(wǎng)絡(luò)的性能,提高網(wǎng)絡(luò)對(duì)所有幀的時(shí)空特征的學(xué)習(xí)能力,同時(shí)網(wǎng)絡(luò)采用時(shí)空對(duì)抗損失函數(shù)進(jìn)行優(yōu)化,提高模型泛化能力,實(shí)現(xiàn)時(shí)空一致的視頻修復(fù)。此外網(wǎng)絡(luò)還能夠高度自由地定義層數(shù)和參數(shù)量,降低計(jì)算復(fù)雜度,減少計(jì)算資源需求,加快網(wǎng)絡(luò)訓(xùn)練速度,大幅度提高實(shí)際應(yīng)用能力。
(1)
本文提出的殘差卷積注意力網(wǎng)絡(luò),以目標(biāo)幀的相鄰幀和遠(yuǎn)距離幀即視頻所有幀作為輸入,對(duì)所有視頻輸入幀進(jìn)行修復(fù)。通過(guò)將自注意力機(jī)制和全局注意力機(jī)制引入進(jìn)殘差網(wǎng)絡(luò)中,增強(qiáng)網(wǎng)絡(luò)對(duì)所有幀的空間及時(shí)間維度信息的學(xué)習(xí)能力,保持與相鄰幀以及遠(yuǎn)距離關(guān)鍵幀的時(shí)空一致,提高視頻修復(fù)效果。
圖1 殘差卷積注意力網(wǎng)絡(luò)結(jié)構(gòu)
殘差卷積注意力模塊由輕量型多頭自注意力機(jī)制,殘差前饋網(wǎng)絡(luò)以及殘差感知單元構(gòu)成,每部分具體描述如下。
2.2.1 輕量型多頭自注意力機(jī)制
自注意力機(jī)制由自注意層構(gòu)成,在自注意層中,輸入向量通過(guò)3個(gè)不同的投影矩陣轉(zhuǎn)換為3個(gè)不同的向量,即查詢(xún)向量q、鍵向量k與值向量v,各向量的維度相同。之后將不同輸入獲得的向量合為3個(gè)不同的矩陣Q、K和V,進(jìn)行放縮點(diǎn)積計(jì)算,具體以計(jì)算過(guò)程如下:
(2)
自注意層進(jìn)一步完善,形成了多頭自注意力機(jī)制。其中多頭自注意力機(jī)制進(jìn)行了h次放縮點(diǎn)積計(jì)算,使模型能夠在不同位置聯(lián)合關(guān)注來(lái)自不同表示子空間的信息。具體處理過(guò)程如下:
MultiHead(Q,K,V)=
Concat(head1,…,headh)WO,
(3)
其中headi=Attention(Qi,Ki,Vi),Wo是線(xiàn)性投影矩陣。多頭自注意力機(jī)制進(jìn)行放縮點(diǎn)積計(jì)算時(shí),會(huì)根據(jù)頭部的個(gè)數(shù)來(lái)動(dòng)態(tài)調(diào)整每個(gè)頭部的維度,以保持多頭自注意力機(jī)制的總計(jì)算量與全維單頭注意力機(jī)制的計(jì)算量相當(dāng),不增加其計(jì)算量。
為減少原始自注意力模塊的計(jì)算復(fù)雜度,本文采用了分塊處理,具體結(jié)構(gòu)如圖2所示。在自注意力網(wǎng)絡(luò)中通過(guò)卷積網(wǎng)絡(luò)映射出不同的空間,將特征圖分成不同的特征塊,將每個(gè)特征塊的特征空間劃分為成不同的特征塊,之后計(jì)算當(dāng)前圖像的注意力。分塊處理即將x∈H×W×C的圖像進(jìn)行處理,變成一系列xp∈N×(P2·C)的展平的2D塊的序列[27]。這個(gè)序列共有N=HW/P2個(gè)展平的2D塊,每個(gè)塊的維度是(P2·C),其中P是塊大小,C是通道數(shù)。進(jìn)行分塊處理,可以使網(wǎng)絡(luò)更關(guān)注低層次特征,提高對(duì)低層次特征的提取能力,同時(shí)局部圖像變小,可以降低計(jì)算量,提高模型速度。
圖2 輕量型多頭自注意力機(jī)制
2.2.2 殘差前饋網(wǎng)絡(luò)及殘差感知單元
殘差網(wǎng)絡(luò)是由一系列殘差塊組成的。殘差塊的引入可以解決網(wǎng)絡(luò)退化現(xiàn)象,在增加網(wǎng)絡(luò)層數(shù)時(shí),網(wǎng)絡(luò)不會(huì)發(fā)生退化,提高了網(wǎng)絡(luò)的性能。殘差塊的一個(gè)通用表示為:
xl+1=xl+F(xl,Wl),
(4)
其分為映射和殘差兩部分,恒等映射通過(guò)直連實(shí)現(xiàn),殘差部分通常由2~3個(gè)卷積組成。其中直連是深度殘差網(wǎng)絡(luò)中旁路的支線(xiàn),可以跳過(guò)一層或多層的連接,直接將輸入連接到后面的網(wǎng)絡(luò)層,使得后面的網(wǎng)絡(luò)層可以直接學(xué)習(xí)殘差,保留了信息的完整性和有效性。這種連接方式不會(huì)增加額外的參數(shù)計(jì)算復(fù)雜度,能夠簡(jiǎn)化學(xué)習(xí)目標(biāo)和難度,加速深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,提高深度網(wǎng)絡(luò)的性能。
本文提出的殘差前饋網(wǎng)絡(luò)在原始的前饋網(wǎng)絡(luò)基礎(chǔ)上添加殘差連接,并使用LeakyRelu作為激活函數(shù),通過(guò)改變連接方式來(lái)獲得更好的性能。具體結(jié)構(gòu)如圖3(a)所示,包含了一個(gè)擴(kuò)張層、深度卷積、投影層以及殘差連接結(jié)構(gòu)。
圖3 殘差前饋網(wǎng)絡(luò)與殘差感知單元
視覺(jué)任務(wù)中經(jīng)常使用旋轉(zhuǎn)與平移來(lái)增廣數(shù)據(jù),這些操作應(yīng)當(dāng)不能影響模型最終的結(jié)果。然而,Transformer中的絕對(duì)位置編碼會(huì)破壞該不變性。此外,Transformer忽略了塊內(nèi)的局部相關(guān)性與結(jié)構(gòu)信息。為緩解該限制,本文提出了殘差感知單元以提升局部信息,定義如下:
RPU(X)=DWConv(X)+X.
(5)
具體結(jié)構(gòu)如圖3(b)所示,由一個(gè)卷積核為1×3×3的3D卷積和一個(gè)殘差連接組成。
解碼模塊由反卷積的疊加并添加殘差連接構(gòu)成,具體結(jié)構(gòu)如圖4所示。先將殘差卷積注意力模塊的輸出進(jìn)行轉(zhuǎn)換處理,從T幀變成單幀進(jìn)行處理,然后進(jìn)行反卷積,卷積核大小為3×3,步長(zhǎng)為1,將通道數(shù)減半,輸入幀特征比例加倍,之后進(jìn)行3×3卷積,步長(zhǎng)為1,將通道數(shù)減半,最后進(jìn)行1×1卷積進(jìn)行投影。
圖4 解碼模塊
RCAN共包含5個(gè)解碼模塊,每個(gè)模塊通過(guò)反卷積將特征反向解碼,將輸入幀特征比例依次變?yōu)?/32,1/16,1/8,1/4,最后經(jīng)過(guò)Tanh激活函數(shù)得到完整的修復(fù)圖像。其中第2,3,4個(gè)解碼模塊與對(duì)應(yīng)的殘差卷積注意力模塊添加了殘差連接,將上一個(gè)解碼模塊的輸出與殘差卷積注意力模塊的輸出拼接在一起,然后輸入下一個(gè)解碼模塊。此外第一個(gè)解碼模塊與第五個(gè)解碼模塊的通道數(shù)有所不同,第一個(gè)解碼模塊通道數(shù)減半一次,由512降為256,而第五個(gè)解碼模塊通道數(shù)由32降為16再降為3。
選擇優(yōu)化目標(biāo)函數(shù)的原則是確保生成的視頻的像素重建精度、修復(fù)內(nèi)容的合理性及時(shí)空一致性。該文選擇像素級(jí)重建損失和時(shí)空對(duì)抗損失作為損失函數(shù)。在生成幀和原始幀之間計(jì)算L1,以此衡量每個(gè)像素的重建精度。目標(biāo)修復(fù)區(qū)域的L1表示為:
(6)
原始無(wú)空洞的有效區(qū)域的L1表示為:
(7)
由于對(duì)抗性訓(xùn)練有助于高質(zhì)量?jī)?nèi)容生成,該文借鑒使用了T-PatchGAN(Temporal Patch-GAN)[28]作為判別器。具體來(lái)說(shuō),T-PatchGAN由6層3D卷積層組成,其可以學(xué)習(xí)區(qū)分每個(gè)時(shí)空特征的真假,以便網(wǎng)絡(luò)更好地利用真實(shí)數(shù)據(jù)的時(shí)空信息和局部到全局的感知細(xì)節(jié)進(jìn)行重建。T-PatchGAN判別器的詳細(xì)優(yōu)化函數(shù)如下:
(8)
本文在其基礎(chǔ)上進(jìn)行改進(jìn),提出了時(shí)空對(duì)抗損失函數(shù),具體計(jì)算過(guò)程如下所示:
(9)
結(jié)合兩部分的總體損失函數(shù)為:
L=λrh·Lrh+λrv·Lrv+λadv·Ladv,
(10)
其中:λrh、λrv、λadv表示兩個(gè)像素級(jí)重建損失及時(shí)空對(duì)抗損失在網(wǎng)絡(luò)總體損失函數(shù)中的比重,通過(guò)調(diào)整比重參數(shù),可以更有針對(duì)性地調(diào)整網(wǎng)絡(luò)參數(shù),提高網(wǎng)絡(luò)訓(xùn)練的靈活性和網(wǎng)絡(luò)的泛化能力。一般情況下為了平衡時(shí)空對(duì)抗損失和重建損失,將損失權(quán)重設(shè)置為λrh=0.5,λrv=0.5,λadv=0.9。
該網(wǎng)絡(luò)使用YouTube-VOS[29]數(shù)據(jù)集進(jìn)行訓(xùn)練,訓(xùn)練使用數(shù)據(jù)集原始的數(shù)據(jù)分割方式,其中訓(xùn)練視頻3 471個(gè),驗(yàn)證視頻474個(gè),測(cè)試視頻508個(gè)。將視頻幀大小調(diào)整為384×192,然后對(duì)每個(gè)視頻幀進(jìn)行固定掩膜處理,之后對(duì)視頻幀進(jìn)行隨機(jī)旋轉(zhuǎn),提高網(wǎng)絡(luò)對(duì)視頻序列旋轉(zhuǎn)角度的魯棒性,最后將經(jīng)過(guò)處理后的視頻幀輸入到網(wǎng)絡(luò)中進(jìn)行訓(xùn)練。
該網(wǎng)絡(luò)使用4張NVIDIA RTX2080Ti顯卡進(jìn)行訓(xùn)練,使用Adam優(yōu)化器,初始學(xué)習(xí)率為1e-4,batch size為6,步數(shù)為50萬(wàn)步。此外還可以在DAVIS[30]數(shù)據(jù)集上訓(xùn)練,不過(guò)由于DAVIS數(shù)據(jù)集規(guī)模較小,一般是將在YouTube-VOS數(shù)據(jù)集上訓(xùn)練得到的模型來(lái)初始化模型,提高其訓(xùn)練速度和精度。
為了更公平合理地評(píng)估本文提出的模型,更好地與現(xiàn)有視頻修復(fù)模型進(jìn)行比較,本文采用了視頻修復(fù)中常用的DAVIS和YouTube-VOS數(shù)據(jù)集。其中DAVIS是面向?qū)嵗?jí)分割的數(shù)據(jù)集,共有50個(gè)視頻,3 455幀,每個(gè)視頻序列包含一個(gè)對(duì)象或者兩個(gè)空間連接的對(duì)象。視頻中的每一幀,都擁有像素級(jí)別的精度。YouTube-VOS是迄今為止最大、最全面的視頻對(duì)象分割數(shù)據(jù)集。YouTube-VOS包含94種類(lèi)別,4 453個(gè)YouTube視頻,每個(gè)視頻時(shí)長(zhǎng)約3~6 s,平均視頻長(zhǎng)度約為150幀,共有197 272個(gè)對(duì)象注釋?zhuān)總€(gè)對(duì)象由專(zhuān)業(yè)注釋員手動(dòng)分割。
本文使用兩種自由形式的掩膜進(jìn)行模型驗(yàn)證:一種是固定掩膜,用來(lái)模擬水印去除、空洞修復(fù)等應(yīng)用;另一種是動(dòng)態(tài)掩膜,用來(lái)模擬對(duì)象移除等應(yīng)用。固定掩膜是隨機(jī)生成不規(guī)則形狀的掩膜并將其應(yīng)用在整個(gè)視頻幀的固定區(qū)域,動(dòng)態(tài)掩膜是同一對(duì)象掩膜應(yīng)用在整個(gè)視頻幀中;但每一幀的掩膜區(qū)域不同,一般使用數(shù)據(jù)集中標(biāo)注的對(duì)象分割標(biāo)注數(shù)據(jù)。本文使用YouTube-VOS數(shù)據(jù)集進(jìn)行固定掩膜測(cè)試,使用DAVIS數(shù)據(jù)集進(jìn)行固定掩膜和移動(dòng)掩膜測(cè)試。
實(shí)驗(yàn)結(jié)果分析采用峰值信噪比(PSNR)、結(jié)構(gòu)相似性(SSIM)和 FID三種評(píng)價(jià)標(biāo)準(zhǔn)。其中PSNR是基于對(duì)應(yīng)像素點(diǎn)間誤差的圖像質(zhì)量評(píng)價(jià)方法,通過(guò)均方差進(jìn)行定義。其具體計(jì)算公式如式(11)所示:
(11)
(12)
SSIM基于原始圖像x和生成圖像y之間的亮度、對(duì)比度和結(jié)構(gòu)來(lái)進(jìn)行衡量。計(jì)算公式如式(13)所示:
(13)
其中μ是均值,σ是方差,c1、c2為兩個(gè)常數(shù),避免分母為零。
FID是計(jì)算原始圖像和生成圖像的特征向量之間距離的一種度量。計(jì)算公式如式(14)所示:
FID(x,g)=‖μx-μg‖+
(14)
其中:x為原始圖像,g為生成圖像,tr表示矩陣對(duì)角線(xiàn)的元素之和,μ是均值,∑是協(xié)方差。FID的數(shù)值越小,表示生成圖像的多樣性和質(zhì)量越好。
為了更好地驗(yàn)證RCAN模型視頻修復(fù)質(zhì)量的有效性,本文選擇將RCAN模型與4種現(xiàn)存主流模型進(jìn)行了對(duì)比。其中VINet[6]、DFVI[17]、LGTSM[31]是基于卷積神經(jīng)網(wǎng)絡(luò)或遞歸網(wǎng)絡(luò)的模型,能夠同時(shí)對(duì)所有幀進(jìn)行修復(fù),但只使用了相鄰幀沒(méi)有使用遠(yuǎn)距離幀建模。CPN[22]、OPN[23]是基于注意力的模型,對(duì)視頻逐幀修復(fù),使用了遠(yuǎn)距離幀建模,而對(duì)相鄰幀關(guān)注度不夠。本文提出的RCAN模型是在注意力的基礎(chǔ)上,使用視頻相鄰幀及遠(yuǎn)距離幀即視頻所有幀進(jìn)行建模,能夠同時(shí)對(duì)所有幀進(jìn)行修復(fù)。
本文使用YouTube-VOS測(cè)試集的508個(gè)視頻,并使用固定掩膜進(jìn)行模型驗(yàn)證。該網(wǎng)絡(luò)在YouTube-VOS數(shù)據(jù)集上的視頻修復(fù)結(jié)果與其他模型結(jié)果的比較如表1所示。與其他模型相比,該模型的PSNR為30.69 dB,SSIM為0.965,F(xiàn)ID為0.059,運(yùn)行時(shí)間為每幀0.85 s,遠(yuǎn)快于DFVI和LGTSM,內(nèi)存為6 742 MB,整體性能優(yōu)于其他模型。結(jié)果表明RCAN在像素級(jí)和整體感知上都有著更好的視頻修復(fù)質(zhì)量和較快的修復(fù)速度。
表1 RCAN與現(xiàn)有網(wǎng)絡(luò)在YouTube-VOS上的修復(fù)結(jié)果對(duì)比
為了更好地驗(yàn)證模型性能,實(shí)驗(yàn)還比較了不同模型的視覺(jué)效果,結(jié)果如圖5所示。圖5(a)是輸入幀,圖5(b)是LGTSM模型的結(jié)果,圖5(c)是CPN模型結(jié)果,圖5(d)是本文RCAN模型結(jié)果。其中第一行和第三行中框選區(qū)域?yàn)樾迯?fù)區(qū)域,第二行和第四行為放大的修復(fù)結(jié)果,通過(guò)對(duì)比放大的修復(fù)結(jié)果可知,RCAN的修復(fù)質(zhì)量更好,時(shí)空結(jié)構(gòu)更一致,修復(fù)內(nèi)容更完整。實(shí)驗(yàn)表明了RCAN模型在固定掩膜視頻修復(fù)中的有效性。
圖5 YouTube-VOS固定掩膜修復(fù)結(jié)果
此外為了更好地驗(yàn)證網(wǎng)絡(luò)的通用性,本文還在DAVIS數(shù)據(jù)集上使用固定掩膜以及移動(dòng)掩膜兩種方式進(jìn)行驗(yàn)證。固定掩膜驗(yàn)證結(jié)果如表2所示,PSNR為30.67 dB,SSIM為0.956,F(xiàn)ID為0.167,運(yùn)行時(shí)間為每幀0.69 s,內(nèi)存消耗為6 928 MB,整體性能優(yōu)于其他模型。數(shù)據(jù)顯示在DAVIS數(shù)據(jù)集上,本文模型取得了較高的修復(fù)精度和較快的修復(fù)速度。
表2 RCAN與現(xiàn)有網(wǎng)絡(luò)在DAVIS上的修復(fù)結(jié)果對(duì)比
使用固定掩膜及移動(dòng)掩膜兩種方式的定性修復(fù)結(jié)果如圖6所示,前兩行是固定掩膜測(cè)試,后兩行是移動(dòng)掩膜測(cè)試,圖6(a)是輸入幀,圖6(b)是LGTSM模型的結(jié)果,圖6(c)是CPN模型結(jié)果。圖6(d)是本文RCAN模型結(jié)果。對(duì)比發(fā)現(xiàn),本文模型結(jié)果空間結(jié)構(gòu)相似性和時(shí)間連貫性更強(qiáng),在復(fù)雜場(chǎng)景中也有很好的修復(fù)結(jié)果。
本文提出的RCAN模型將自注意力機(jī)制和全局注意力機(jī)制引入殘差網(wǎng)絡(luò)中,增強(qiáng)網(wǎng)絡(luò)對(duì)所有幀的空間及時(shí)間維度信息的學(xué)習(xí)能力,保持與相鄰幀以及遠(yuǎn)距離關(guān)鍵幀的時(shí)空一致,提高視頻修復(fù)效果。表3是殘差網(wǎng)絡(luò)加入注意力機(jī)制后在DAVIS數(shù)據(jù)集上的修復(fù)效果對(duì)比,修復(fù)圖像的PSNR和SSIM得到了大幅度的提升,分別提高了5.4 dB和0.04,F(xiàn)ID降低了0.075。結(jié)果表明引入注意力機(jī)制,網(wǎng)絡(luò)能夠關(guān)注到重要的特征并抑制無(wú)關(guān)的干擾特征,能夠關(guān)注到視頻所有幀的關(guān)鍵幀及相鄰幀和遠(yuǎn)距離幀的關(guān)鍵特征,從而提高了模型對(duì)所有幀的時(shí)空特征學(xué)習(xí)能力,提高了視頻修復(fù)效果。
表3 添加注意力機(jī)制修復(fù)結(jié)果對(duì)比
此外RCAN模型還可以高度自由地定義層數(shù)和參數(shù)量,通過(guò)控制殘差卷積注意力模塊的殘差層數(shù)來(lái)控制模型深度,以此來(lái)控制模型的復(fù)雜度和計(jì)算量。表4是網(wǎng)絡(luò)在不同殘差層數(shù)結(jié)構(gòu)的結(jié)果比較,數(shù)據(jù)顯示網(wǎng)絡(luò)層數(shù)越多,網(wǎng)絡(luò)的整體精度越高,但同時(shí)也提高了網(wǎng)絡(luò)的復(fù)雜度和計(jì)算量。在現(xiàn)實(shí)應(yīng)用中,可根據(jù)實(shí)際應(yīng)用情況的不同來(lái)定義和選擇網(wǎng)絡(luò)的層數(shù)和參數(shù)量,提高模型的實(shí)際應(yīng)用能力。
本文提出了一種新的用于視頻修復(fù)的殘差卷積注意力網(wǎng)絡(luò),通過(guò)將自注意力機(jī)制和全局注意力機(jī)制引入進(jìn)殘差網(wǎng)絡(luò)中,規(guī)避了卷積結(jié)構(gòu)由于其感受野而無(wú)法獲得全局信息的缺陷,并由此獲得更加強(qiáng)大的表達(dá)能力,增強(qiáng)了網(wǎng)絡(luò)對(duì)視頻輸入幀時(shí)空特征的學(xué)習(xí)能力以及泛化能力,提高了視頻修復(fù)質(zhì)量。同時(shí)結(jié)合時(shí)空對(duì)抗損失,提升修復(fù)內(nèi)容的真實(shí)性,提高了網(wǎng)絡(luò)的整體性能。此外網(wǎng)絡(luò)還能夠根據(jù)現(xiàn)實(shí)應(yīng)用中的實(shí)際情況自由地定義層數(shù)和參數(shù)量,來(lái)權(quán)衡網(wǎng)絡(luò)精度和速度,提高了模型的實(shí)際應(yīng)用能力。實(shí)驗(yàn)表明,本文提出的模型在YouTube-VOS和DAVIS數(shù)據(jù)集上的修復(fù)效果明顯優(yōu)于其他模型,對(duì)比DFVI模型,平均PSNR高出2.67 dB,SSIM高出0.044,F(xiàn)ID降低了12.98%,表明了殘差卷積注意力網(wǎng)絡(luò)在視頻修復(fù)中的有效性。