徐 健, 李新婷, 牛麗嬌
1(西安郵電大學(xué) 通信與信息工程學(xué)院, 西安 710121)
2(電子信息現(xiàn)場勘驗應(yīng)用技術(shù)公安部重點實驗室, 西安 710121)
隨著智能化產(chǎn)業(yè)的不斷發(fā)展, 視頻監(jiān)控以其直觀、準確、及時和信息內(nèi)容豐富而廣泛應(yīng)用于許多場合, 在安防系統(tǒng)中的重要性日益突出, 成為技術(shù)安全防范最有力的手段. 圖像超分辨率(super-resolution, SR)可以有效地提升視頻圖像質(zhì)量. 對低分辨率圖像本身進行高質(zhì)量的重建, 對于發(fā)現(xiàn)線索、拓展偵查手段和范圍、突破嫌疑人口供和證明犯罪具有重要作用. 隨著深度學(xué)習(xí)在圖像重建方面的發(fā)展, 基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)[1-3]的SR 方法取得了顯著的成果. 由于真實LR-HR 圖像對難以獲取,許多基于CNN 的SR 方法通常在人工合成的圖像對上進行訓(xùn)練, 例如對HR 圖像進行雙三次下采樣[4]得到的LR 圖像, 作為LR-HR 訓(xùn)練樣本對. 然而, 真實場景下的LR 圖像退化過程復(fù)雜未知, 與雙三次下采樣得到的LR 圖像的分布存在差異, 由人工合成的訓(xùn)練樣本訓(xùn)練的網(wǎng)絡(luò)往往不適用于真實LR 圖像的超分辨率.
盡管有越來越多的復(fù)雜退化模型模擬真實圖像的退化情況, 但與真實LR 圖像之間仍存在差異, 例如,Sun 等人[5]通過訓(xùn)練退化生成網(wǎng)絡(luò)來減小合成LR 和真實LR 圖像之間的域差, Guo 等人[6]提出對偶回歸網(wǎng)絡(luò)對真實LR 圖像附加約束, 通過對偶學(xué)習(xí)估計下采樣核. 為了使網(wǎng)絡(luò)適用于真實場景下的低分辨率圖像,Shocher 等人[7]提出一種無監(jiān)督零樣本超分辨率算法(zero-shot super-resolution, ZSSR), 該算法對輸入圖像進行下采樣, 訓(xùn)練網(wǎng)絡(luò)學(xué)習(xí)下采樣圖像到輸入圖像之間的映射, 待網(wǎng)絡(luò)收斂后, 對輸入圖像進行超分辨率,僅利用圖像內(nèi)部的重復(fù)相似性對網(wǎng)絡(luò)進行訓(xùn)練, 能處理任意模糊核下的真實LR 圖像, 普適性強, 但應(yīng)用于視頻偵查效果欠佳.
在真實場景下, 為了減小存儲與傳輸?shù)臄?shù)據(jù)量, 采集的低分辨率圖像都經(jīng)過壓縮, 因此都存在壓縮人工痕跡. 在JPEG (joint photographic experts group)[8]壓縮中, 由離散余弦變換(discrete cosine transform, DCT)將圖像從空域變換到頻域, 通過對DCT 系數(shù)進行量化編碼, 實現(xiàn)圖像壓縮, 為了壓縮數(shù)據(jù)量, DCT 系數(shù)僅保留低頻處的系數(shù). 由于缺乏高頻處的系數(shù), 圖像會出現(xiàn)振鈴似的人工痕跡. 在低分辨率圖像中, 由于JPEG 壓縮是分小塊進行的, 人眼的分辨率有限, 振鈴似的人工痕跡不是太明顯. 但是, 當?shù)头直媛蕡D像經(jīng)過超分辨率之后, 小塊變成了大塊, 人工痕跡也經(jīng)過了超分辨率, 導(dǎo)致人工痕跡非常明顯. 因此, 本文提出一種基于離散余弦變換和零樣本學(xué)習(xí)的圖像超分辨率算法, 從圖像壓縮原理出發(fā), 對低分辨率圖像進行DCT 變換, 取前幾個DCT 系數(shù). 在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時, 使網(wǎng)絡(luò)學(xué)習(xí)低分辨率圖像的前幾個DCT 系數(shù)與高分辨率圖像之間的映射, 避免超分辨率圖像中出現(xiàn)假紋理.
圖像壓縮是指去除圖像數(shù)據(jù)中的冗余信息, 在不影響視覺感官的基礎(chǔ)上節(jié)約計算機存儲. JPEG[8]是靜止圖像壓縮的最常見的一種方式, 其基本原理如圖1所示, 對圖像進行8×8 大小的分塊DCT 變換, DCT 系數(shù)反映出圖像塊中的能量分布情況, 對DCT 系數(shù)進行量化、編碼, 再進行逆DCT 變換得到壓縮后的圖像.其中, 低頻分量對應(yīng)于空域里圖像的低頻信息, 包含了圖像的大部分內(nèi)容, 且人眼對圖像中的低頻信息較為敏感; 高頻分量對應(yīng)于空域圖像中的細節(jié)信息, 去除高頻分量對于圖像的視覺影響不大, 盡管去除高頻分量后在8×8 的小方塊上會出現(xiàn)一些人工痕跡, 但是由于方塊較小, 這些人工痕跡并不明顯. 但是, 當圖像超分辨率后, 8×8 的小方塊會被放大, 這些壓縮產(chǎn)生的人工痕跡也會一起被放大, 超分辨率圖像出現(xiàn)假紋理, 影響圖像視覺效果.
圖1 JPEG 圖像壓縮算法的示意圖
ZSSR[7]是一種自監(jiān)督或無監(jiān)督算法, 用于學(xué)習(xí)圖像特有的內(nèi)部信息. 考慮到圖像內(nèi)部的重復(fù)相似性, 使用核估計的方法估計輸入圖像的退化核, 在輸入圖像上進行不同縮放因子的下采樣構(gòu)造成對訓(xùn)練樣本, 且通過在水平和垂直方向上旋轉(zhuǎn)、翻轉(zhuǎn)的方式增加訓(xùn)練樣本. 然后在增廣后的訓(xùn)練樣本上訓(xùn)練用于超分辨率的小型卷積神經(jīng)網(wǎng)絡(luò), 學(xué)習(xí)下采樣圖像與對應(yīng)高分辨率圖像間的映射, 經(jīng)過數(shù)千次的梯度更新后, 再對輸入圖像進行超分辨率測試, 得到超分辨率結(jié)果. 整個超分辨率過程不依賴于任何外部訓(xùn)練樣本或預(yù)訓(xùn)練過程,非理想條件下獲得的超分辨率圖像更接近真實場景的模糊、噪聲、人工痕跡等, 適用于任意模糊核生成的低分辨率圖像.
本文提出一種基于離散余弦變換和零樣本學(xué)習(xí)的圖像超分辨率算法, 具體結(jié)構(gòu)圖如圖2 所示, 結(jié)合圖像壓縮原理, 訓(xùn)練網(wǎng)絡(luò)學(xué)習(xí)輸入圖像的DCT 系數(shù)與高分辨率圖像之間的映射, 主要包含下采樣、頻域轉(zhuǎn)換、超分辨率3 個步驟. 本文算法采用ZSSR 為基礎(chǔ)框架,對下采樣圖像進行DCT 變換, 訓(xùn)練特定的小型CNN網(wǎng)絡(luò)學(xué)習(xí)下采樣圖像DCT 系數(shù)與對應(yīng)高分辨率圖像之間的映射關(guān)系, 實現(xiàn)壓縮圖像的超分辨率.
圖2 所提算法流程圖
將低分辨率圖像的DCT 系數(shù)輸入CNN 網(wǎng)絡(luò), 訓(xùn)練網(wǎng)絡(luò)學(xué)習(xí)低分辨率圖像IiLR,sons的DCT 系數(shù)與高分辨率圖像Ii HR,fathers之間的映射, 采用重建損失訓(xùn)練網(wǎng)絡(luò). 網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示, 采用全卷積網(wǎng)絡(luò), 8 個隱層,每層有64 個通道, 并在每層后面跟ReLU 激活函數(shù).訓(xùn)練網(wǎng)絡(luò)經(jīng)過數(shù)千次梯度更新后, 網(wǎng)絡(luò)收斂, 將輸入圖像ILR進行DCT 變換后, 由訓(xùn)練好的CNN 網(wǎng)絡(luò)進行超分辨率, 獲取的超分辨率結(jié)果不包含假紋理.
圖3 網(wǎng)絡(luò)結(jié)構(gòu)圖
本文算法的訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)都來自輸入圖像本身, 訓(xùn)練時采用Adam 優(yōu)化器[9], 初始化學(xué)習(xí)率為0.001, 定期對重建誤差進行線性擬合, 如果標準偏差比線性擬合的斜率大, 就把學(xué)習(xí)率除以10, 直到學(xué)習(xí)率降為10-6為止, 超分辨率倍數(shù)為2. 實驗環(huán)境為Ubuntu 20.04, 深度學(xué)習(xí)框架為TensorFlow 2.0, 32 GB 內(nèi)存主頻為DDR4 3 200 MHz, GPU 為NVIDIA GTX1080Ti.
在標準數(shù)據(jù)集Set5[10]、Set14[11]、BSD100[12]、Urban100[13]上進行了實驗測試分析, 使用零樣本超分辨率(zero-shot super-resolution, ZSSR)[7]、紋理遷移網(wǎng)絡(luò)超分辨率(learning texture Transformer network for image super-resolution, TTSR)[14]、深度交替網(wǎng)絡(luò)(deep alternating network, DAN)[15]、多尺度超分辨率(multiscale image super-resolution, MSWSR)[16]、殘差通道注意力網(wǎng)絡(luò)(residual channel attention networks, RCAN)[17]等5 種算法與本文算法進行2 倍放大的結(jié)果如表1 所示, 其中, Bicubic 為雙三次插值算法, ZSSR、TTSR 為無監(jiān)督算法, DAN、RCAN、MSWSR 為監(jiān)督算法.PSNR (peak signal-to-noise ratio)為峰值信噪比, SSIM(structural similarity) 為結(jié)構(gòu)相似度, 表中的數(shù)據(jù)為PSNR/SSIM 的平均值. 考慮到標準數(shù)據(jù)集中的人工合成低分辨率圖像為無損壓縮格式, 本文算法在訓(xùn)練時輸入為未量化的DCT 系數(shù), 由表1 可以看出, 本文算法的PSNR 值要高于ZSSR算法平均0.065 dB, 高于TTSR 算法平均0.885 dB. 有監(jiān)督的算法(例如DAN、RCAN 和MSWSR 等)均比無監(jiān)督的算法效果好, 但是無監(jiān)督的算法僅犧牲了一部分性能指標, 就可以避免長時間的學(xué)習(xí)過程, 大大降低了算法復(fù)雜度. 有監(jiān)督的算法通常需要針對不同的放大倍數(shù)分別進行參數(shù)訓(xùn)練(例如2 倍和3 倍放大需要分別訓(xùn)練神經(jīng)網(wǎng)絡(luò)),每一次訓(xùn)練都要消耗大量時間, 但是無監(jiān)督的算法能夠用于任何放大倍數(shù), 適應(yīng)性較強, 更適合實際應(yīng)用場合.
表1 不同算法在標準數(shù)據(jù)集上的PSNR/SSIM 結(jié)果
圖4 展示了對比算法與本文算法在標準數(shù)據(jù)集上的超分辨率結(jié)果圖, 圖4(a)為低分辨率圖像, 圖4(b)為原始高分辨率圖像, 圖4(c)為Bicubic 超分辨率結(jié)果,圖4(d)為ZSSR 超分辨率結(jié)果, 圖4(e)為TTSR 超分辨率結(jié)果, 圖4(f) 為DAN 超分辨率結(jié)果, 圖4(g) 為RCAN 超分辨率結(jié)果, 圖4(h)為MSWSR超分辨率結(jié)果, 圖4(i)為本文算法結(jié)果. 從圖中可見, 圖4(i)的視覺效果與圖4(d)和圖4(e)的視覺效果相接近, 這是因為標準數(shù)據(jù)上的圖像為無損壓縮圖像, 不包含人工壓縮痕跡,而本文算法雖然是針對壓縮圖像的超分辨率算法, 但在人工合成的低分辨率圖像上仍然具有良好的超分辨率效果. 為進一步驗證本文算法的有效性, 采用真實低分辨率圖像進行測試, 由于真實低分辨率圖像經(jīng)過了壓縮算法的處理, 本文算法分別選取包含3 個DCT 系數(shù)和1 個DCT 系數(shù)的系數(shù)矩陣對真實圖像進行超分辨率, 結(jié)果如圖5、圖6 所示, 圖5(a)和圖6(a)為真實低分辨率圖像,圖5(b) 和圖6(b) 為ZSSR 超分辨率結(jié)果, 圖5(c) 和圖6(c)為TTSR 超分辨率結(jié)果圖, 圖5(d)和圖6(d)為RCAN 超分辨率結(jié)果, 圖5(e)和圖6(e)為MSWSR 超分辨率結(jié)果, 圖5(f)和圖6(f)為本文算法保留一個系數(shù)的超分辨率結(jié)果, 圖5(g)和圖6(g)為本文算法保留3 個系數(shù)的超分辨率結(jié)果. 圖5 為人物圖, 可以看出與圖5(a)-圖5(f)相比, 圖5(g)中人物的額頭、下巴之類的部位的假紋理明顯減少. 圖6 為車牌圖像, 可以看出與圖6(a)-圖6(f)相比, 圖6(g)的后保險杠和車牌上的假紋理明顯減少, 車牌的輪廓和字符的邊緣也更清晰.
圖4 Set14 數(shù)據(jù)集超分辨率結(jié)果
圖5 真實LR 圖像(一)超分辨率結(jié)果
圖6 真實LR 圖像(二)超分辨率結(jié)果
基于CNN 的超分辨率網(wǎng)絡(luò)通常學(xué)習(xí)低分辨率圖像到高分辨率圖像的映射, 對于真實低分辨率圖像而言, 退化過程復(fù)雜未知, 且缺少對應(yīng)的高分辨率圖像.另外, 由于真實場景下的低分辨率圖像大都經(jīng)過壓縮算法的處理, 存在人工壓縮痕跡, 許多算法對真實低分辨率圖像進行超分辨率時會將壓縮痕跡放大, 導(dǎo)致超分辨率圖像出現(xiàn)假紋理. 在自監(jiān)督算法ZSSR 的基礎(chǔ)上, 本文提出一種基于離散余弦變換和零樣本學(xué)習(xí)的超分辨率算法, 對低分辨率圖像進行DCT 變換, 訓(xùn)練超分辨率網(wǎng)絡(luò)學(xué)習(xí)DCT 系數(shù)與高分辨率圖像之間的映射, 避免壓縮痕跡被放大. 觀察實驗結(jié)果可以看出,本文算法在無損壓縮的圖像上具有與最新無監(jiān)督算法相接近的性能, 在真實低分辨率圖像上, 能夠有效地減少假紋理, 獲得良好的視覺效果.