• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于雙重注意力機制的圖像超分辨重建算法

      2021-05-13 13:31:46趙思逸
      圖學學報 2021年2期
      關鍵詞:雙重注意力卷積

      李 彬,王 平,趙思逸

      基于雙重注意力機制的圖像超分辨重建算法

      李 彬1,王 平1,趙思逸2

      (1. 國防科技大學電子科學學院,湖南 長沙 410072; 2. 國防科技大學計算機學院,湖南 長沙 410072)

      近年來,卷積神經(jīng)網(wǎng)絡(CNN)在單幅圖像超分辨率重建領域(SISR)展現(xiàn)出良好效果。深度網(wǎng)絡可以在低分辨率圖像和高分辨率圖像之間建立復雜的映射,使得重建圖像質量相對傳統(tǒng)的方法取得巨大提升。由于現(xiàn)有SISR方法通過加深和加寬網(wǎng)絡結構以增大卷積核的感受野,在具有不同重要性的空間域和通道域采用均等處理的方法,因此會導致大量的計算資源浪費在不重要的特征上。為了解決此問題,算法通過雙重注意力模塊捕捉通道域與空間域隱含的權重信息,以更加高效的分配計算資源,加快網(wǎng)絡收斂,在網(wǎng)絡中通過殘差連接融合全局特征,不僅使得主干網(wǎng)絡可以集中學習圖像丟失的高頻信息流,同時可以通過有效的特征監(jiān)督加快網(wǎng)絡收斂,為緩解MAE損失函數(shù)存在的缺陷,在算法中引入了一種特殊的Huber loss函數(shù)。在主流數(shù)據(jù)集上的實驗結果表明,該算法相對現(xiàn)有的SISR算法在圖像重建精度上有了明顯的提高。

      單幅圖像超分辨;特征監(jiān)督;殘差連接;通道注意力機制;空間注意力機制

      單幅圖像超分辨率重建(single image super- resolution,SISR)是一個低水平的計算機視覺任務,其目標是利用低分辨率(low-resolution,LR)圖像,恢復出對應的高分辨率(high-resolution,HR)圖像。由于硬件設備和信息傳輸條件的限制,通常獲取到的多為LR圖像。SISR技術在不增加硬件成本的同時能有效提升圖像的成像質量,因而已經(jīng)在社會安全[1]、醫(yī)學成像[2]、軍事遙感[3]等領域取得廣泛應用。但由于LR圖像丟失了大量的高頻紋理信息,導致同一幅LR圖像,可能存在多個HR圖像與之對應,因而SISR是一個不適定的問題。目前已經(jīng)提出的超分辨算法主要有3類:基于插值的算法、基于重建的算法和基于學習的算法?;谏疃葘W習的圖像超分辨率重建算法是基于學習算法的一種,該算法以機器學習算法理論為基礎,通過建立輸入的LR圖像和對應的HR圖像的樣本數(shù)據(jù)庫,學習LR圖像與HR圖像之間對應的映射函數(shù)從而獲得有效的重建模型。DONG等[4]第一次將卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)引入圖像超分辨率重建領域,提出了SRCNN網(wǎng)絡算法,由于SRCNN算法建立了一種端對端模型,同時也展現(xiàn)出良好的重建效果,因而引起極大關注,目前已涌現(xiàn)出如VDSR[5],DRCN[6],DRRN[7]等網(wǎng)絡結構算法,已逐步發(fā)展成為該領域的主流算法。

      雖然深度網(wǎng)絡模型在圖像超分辨率重建領域取得了非常好的效果,但其仍然暴露出許多問題,制約著模型效果的提升:①大部分的CNN網(wǎng)絡模型主要通過加深網(wǎng)絡結構的深度,通過重復的卷積操作,增大卷積核感受野以捕捉長距離鄰域信息,使得圖像重建質量有較大提升。但是加深網(wǎng)絡結構往往會帶來較大的計算量,同時使得網(wǎng)絡優(yōu)化訓練難度加大;②現(xiàn)有的CNN網(wǎng)絡多是通過卷積操作提取圖像信號特征,對于各通道、位置特征采用均等處理辦法,但實際上各特征有不同的重要程度,均等處理使得網(wǎng)絡花費很多的計算資源在不重要的特征上;③隨著CNN網(wǎng)絡深度增加,不同的卷積層有不同大小的感受野,因而獲取到的特征信息存在差異性,僅利用最后卷積層輸出的特征映射實現(xiàn)重建任務,導致一部分可用信息被浪費。

      Senet[8]網(wǎng)絡將通道注意力機制引入深度神經(jīng)網(wǎng)絡,在卷積操作中輸出每個通道的特征由一個卷積核與輸入特征計算獲得,因而不同卷積核提取的特征重要性不盡相同,Senet構建了Squeeze和Excitation結構學習代表各通道重要性的權重值,通過學習到的權重值自適應地增強對重建任務有用的特征并抑制用處不大的特征。由于Senet結構可以將有限的計算資源合理地分配到更需要的運算中,因而可以在有限計算資源條件下有效提升網(wǎng)絡算法的學習能力,同時也適合構建輕量的網(wǎng)絡架構,因而獲得廣泛地應用。Non-local[9]也是一種構建注意力機制的方法,但在實際應用中,由于需要對兩兩像素點之間進行權重計算,因而帶來的大量的計算量,難以大規(guī)模在網(wǎng)絡結構中采用。RCAN[10]第一次將通道注意力機制引入到圖像超分辨率重建領域,使該算法展現(xiàn)出良好的重建效果。針對前面提到現(xiàn)有深度模型存在的一些缺陷,受RCAN算法的啟發(fā),本文提出了一個新穎的網(wǎng)絡結構算法,以解決現(xiàn)有網(wǎng)絡模型存在的問題。該算法通過構建一個基于通道注意力和空間注意力[11]的雙重注意力機制模塊(dual attention module,DAM),該模塊通過捕捉不同通道或空間位置特征重要性以獲取對應位置的權重參數(shù),從而自適應地根據(jù)通道內特征的重要程度分配計算資源以增強有用特征抑制無用特征,同時算法中通過長跳躍連接[12]構建特征監(jiān)督,將每個模塊輸出都自適應的用于圖像重建,既有效監(jiān)督每級模塊輸出,加快網(wǎng)絡收斂,也充分利用各級特征進行圖像重建,使得各分層特征能夠得到有效利用。本文的主要工作包括:

      (1) 提出一個新穎的基于雙重注意力機制的深度網(wǎng)絡算法實現(xiàn)圖像超分辨率重建。通過在基準數(shù)據(jù)集上進行對比實驗,驗證了該算法相對目前最先進的SISR算法有了明顯的效果提升。

      (2) 構建了包含DAM的殘差網(wǎng)絡塊。其包括2個基本的殘差塊和1個DAM。DAM模塊包括空間注意力機制和通道注意力機制??臻g注意力機制是通過自適應地學習不同空間位置像素的權重從而自適應地強化重要位置的特征,以對空間位置特征進行建模,通道注意力機制能夠自適應學習調整中間通道內重要特征而抑制無用特征,從而更加高效地利用計算資源進行有效計算,提高模型的有效性。

      (3) 構建了全局特征融合模塊,通過跳躍連接將各分層提取到的特征直接送入全局特征融合模塊。分層特征的引入使得本文模型能夠從淺層就加強特征監(jiān)督,促進網(wǎng)絡收斂,同時淺層信息也可以有效加強圖像重建效果,從而進一步強化圖像重建質量。

      1 殘差雙重注意力網(wǎng)絡(RDAN)

      1.1 網(wǎng)絡基本結構

      受RCAN算法的啟發(fā),本文提出了一個新穎的深度網(wǎng)絡算法稱為殘差雙重注意力網(wǎng)絡(residual dual attention network,RDAN),該網(wǎng)絡結構主要包括淺層特征提取模塊、基于雙重注意力機制的特征融合模塊、上采樣模塊和圖像重建模塊。用I表示網(wǎng)絡輸入,用I表示網(wǎng)絡輸出,在淺層特征提取模塊,網(wǎng)絡用一個卷積層提取輸入圖像I的特征,即

      其中,H(·)為簡單的單層卷積映射實現(xiàn)淺層特征提取。然后將淺層卷積提取到的特征作為基于雙重注意力機制特征融合模塊的輸入,通過基于雙重注意力機制特征融合模塊得到特征映射后的高維特征,即

      其中,H(·)為雙重注意力機制的特征融合模塊映射關系。該模塊通過對每個子模塊的特征進行融合得到新的高維特征,與現(xiàn)有的SISR方法相比,本文提出的雙重注意力機制的特征融合模塊使得網(wǎng)絡可以更加有效地利用所提取到的有用特征,抑制無用特征,從而使得網(wǎng)絡在不增加算力的同時能夠有效加深網(wǎng)絡的深度,從而增大卷積核的感受野。融合轉變后的特征作為上采樣模塊的輸入,通過亞像素卷積[13]的方法對輸入特征進行上采樣,得到尺度增大的特征映射,上采樣后的特征為

      其中,H(·)為上采樣操作;F為上采樣后輸出特征。目前在超分辨率重建領域常用的上采樣方式有插值操作[14]、反卷積操作[15]和亞像素卷積操作。亞像素卷積操作是一種像素重排的方式實現(xiàn)上采樣,這種重排像素的方式使得其相對反卷積操作,減少了需要學習的參數(shù)。因而為了使網(wǎng)絡在重建速率和精度方面達到較好結果,本文選擇通過亞像素卷積操作實現(xiàn)上采樣。最后通過一個簡單的卷積層將輸入特征轉化為彩色圖像對應的三通道的輸出圖像,即

      其中,H(·)為圖像重建模塊的映射函數(shù);H(·)為II的映射函數(shù)。

      1.2 雙重注意力機制的全局特征融合模塊

      在本文的網(wǎng)絡算法設計中,基于殘差雙重注意力機制特征融合的模塊(residual dual attention block,RDAB)是網(wǎng)絡中實現(xiàn)特征映射的主要結構。該模塊構建了殘差雙重注意力機制的全局特征融合結構,包括個雙重注意力組(dual attention group,DAG)和個跳躍結構,如圖1所示。每個DAG模塊的輸入經(jīng)過特征拼接后由瓶頸層(1×1卷積實現(xiàn))進行特征融合,有助于加強信息的流動,在有效降低特征通道數(shù)的同時也有助于提升重建圖像效果,每個DAG模塊包括個DAM和1個局部殘差結構,在DAG模塊中,殘差結構有效加強了低頻信息的傳遞。雙重注意力、跳躍連接以及特征融合的機制使得本文的網(wǎng)絡算法能夠在不引入更多參數(shù)時,可進一步提高網(wǎng)絡學習非線性映射的能力,從而獲得更佳的重建效果。

      為了更加充分地利用各分層提取到的特征,將每個DAG模塊的輸出進行融合,使得網(wǎng)絡能夠提取到更充分的特征信息以獲得更佳的重建效果。網(wǎng)絡模塊中第個DAG塊的輸出特征可表示為

      圖1 殘差雙重注意力機制的網(wǎng)絡結構

      其中,FF-1分別為第和第-1個DAG模塊的輸出映射,同時F-1也是第個DAG模塊的輸入;(·)為網(wǎng)絡中第個DAG模塊對應的函數(shù)映射。為了強化信息的流動,網(wǎng)絡中有效利用跳躍連接對分層特征進行拼接,通過瓶頸層實現(xiàn)特征融合,使得網(wǎng)絡能夠充分利用分層特征,實現(xiàn)更佳的重建效果。具體RDAB特征映射可表達為

      其中,(·)為將各DAG模塊輸出的特征映射進行拼接;(·)為將拼接后的特征融合壓縮,通過長跳躍連接將融合后的殘差特征與輸入特征F進行合并,使網(wǎng)絡更加關注殘差細節(jié)的學習。

      由于超分辨(super-resolution,SR)圖像與LR圖像在低頻信息方面基本一致,因而超分辨網(wǎng)絡更加關注恢復圖像的高頻細節(jié)和紋理部分。為了更好地利用LR圖像淺層特征包含的豐富的低頻圖像信息,在DAG模塊內部也構建了局部跳躍連接,使得低頻信號可以直接通過跳躍連接傳遞到模塊尾端,每個DAG模塊需堆疊了個DAM,第個DAG中的第個DAM可表達為

      其中,F,n和F,n-1分別為第個DAG模塊中的第個DAM塊和第-1個DAM塊的輸出映射,同時F,n-1也是該DAG模塊中第個DAM塊的輸入;,n(·)為第個DAG模塊中的第個DAM塊的映射函數(shù)。同樣為了加快信息的傳遞,網(wǎng)絡中構建了局部殘差連接。則第個DAG模塊可表達為

      其中,W為第個DAG模塊中最后一個卷積核的參數(shù),其余參數(shù)含義與前面保持一致,本文構建的每個DAM中都包含雙重注意力機制。

      1.3 雙重注意力機制

      早期的基于CNN的超分辨網(wǎng)絡結構主要關注點在提高網(wǎng)絡深度和寬度,對于網(wǎng)絡提取的特征在空間和通道間內采用的是均等的處理辦法。該方法使得對于不同的特征映射網(wǎng)絡缺乏必要的靈活性,因而實際工程任務中,極大地浪費了計算資源。注意力機制的提出,使得網(wǎng)絡能夠更多地關注對目標任務更加有用的信息特征,抑制無用的特征。從而使得計算資源可以更加科學地分配到特征映射過程中,因而可以在不增大計算量的同時進一步加深網(wǎng)絡深度。

      將注意力機制應用于SISR任務,目前已有部分網(wǎng)絡結構進行了探索,例如RCAN,SAN[16]等網(wǎng)絡結構通過注意力機制的應用使得SISR效果有了較大的提升。本文通過將空間注意力機制和通道注意力機制融合構建一個新的模塊,并將其命名為雙重注意力機制(dual attention,DA),進一步強化了SISR的效果,在基準數(shù)據(jù)集上與目前現(xiàn)有的SISR算法相比取得了更佳的重建質量。

      1.3.1 通道注意力機制

      為構建通道注意力機制,SE(squeeze-excitation)塊通過聚合通道內的特征映射獲得其描述,并利用通道全局描述有選擇地加強有用特征抑制無用特征。圖2(a)為Senet的通道注意力結構圖,圖2(b)為本文提出的通道注意力結構圖,在圖2(a)中,通過對輸入特征的每一個通道進行平均池化操作,假設輸入特征維度為××,則第個通道特征池化公式為

      通過觀察可以發(fā)現(xiàn),不同通道包含的特征信息存在差異性,因而具有不同的重要性,通過全局平均池化獲得每個特征圖對應的均值,及計算每幅特征圖的標準差。圖3通過4幅特征圖對比發(fā)現(xiàn),其對應的最大均值僅為最小均值的1.04倍,最大方差是最小方差的7倍,標準差也有2.6倍。由此認為標準差池化能為通道權重學習提供更加有效的信息。其表達式為

      其中,y為第個通道的標準差;(·)為全局標準差;z為第個通道的平均池化結果。為充分利用其信息,在圖2(b)中將全局平均池化和全局標準差池化的2個一維向量(C×1),通過特征拼接為二維矩陣(C×2),通過一個一維卷積操作將二維矩陣壓縮成一維向量,為進一步捕捉基于通道的依賴關系及對應的權重值,需要構建學習各通道間的非線性關系的網(wǎng)絡架構,以確保多個通道能被強化激活,從而有效學習非互斥的關系,因而本文采用了全連接的方式,并通過一個Sigmod[17]激活函數(shù)對權重值進行歸一化后將權重作用到輸入特征中。圖2(b)包括注意力機制部分和一個殘差結構,其注意力機制部分輸出特征可表示為

      其中,為通道注意力結構的輸出特征;和分別為經(jīng)過平均池化和標準差池化后的結果;(·)為特征拼接;(·)和(·)為RELU[18]函數(shù)和Sigmod激活函數(shù);W為一個一維卷積參數(shù),將通道池化后拼接的二維向量壓縮成一維;WW為卷積核的權重參數(shù),其表示對特征通道按衰減尺度進行壓縮和擴增。

      圖2 Senet和本文的通道注意力結構圖((a) Senet的通道注意力結構圖;(b)本文的通道注意力結構圖)

      圖3 卷積通道可視化結果

      1.3.2 空間注意力機制

      受Senet的啟發(fā),結合圖3可以發(fā)現(xiàn),不同通道之間存在不同的重要性,同樣空間上不同位置的紋理細節(jié)也各異,因而其具有不同的重要性,由此在網(wǎng)絡中構建和計算空間注意力機制時,需在網(wǎng)絡結構中分別沿通道軸進行平均池化和標準差池化,即

      本文將池化后的特征拼接經(jīng)二維卷積將通道數(shù)目壓縮為1,為了進一步減少計算量同時保證多個空間位置信息能夠被強化,本文通過卷積操作來實現(xiàn)空間權重信息的非線性映射,同時也使用Sigmod函數(shù)對計算的空間權重特征圖進行歸一化。圖4(a)為本文提出的空間注意力機制,包括注意力機制部分和一個殘差結構,注意力結構的輸出特征可表達為

      圖4 本文提出的空間和全局注意力結構圖((a)本文提出的空間注意力結構圖;(b)本文提出的全局注意力結構圖)

      最終,通過通道注意力和空間注意力機制的組合,構建了具有雙重注意力的網(wǎng)絡結構,如圖4(b)所示。空間注意力和通道注意力機制分別對空間位置像素和通道權重進行建模,將其組合對每個像素的位置權重進行建模,最后通過對應位置相乘將學習的權重值疊加到每一個對應的特征點位置,表達式為

      與結構層透水混凝土施工間隔超過10h,攤鋪前應對基層透水混凝土表面使用無機復合固化劑50倍加入稀釋噴涂基層透水混凝土表面。

      圖5為本文構建的雙重注意力模塊(DAM)的主體網(wǎng)絡結構,其包括卷積操作、雙重注意力結構和殘差連接,對于第個DAG中的第個DAM,其計算過程為

      其中,DAm,n(·)為映射函數(shù);Fm,n和Fm,n-1分別為模塊的輸出和輸入;和分別為前后2個卷積操作的參數(shù);s(·)為RELU激活函數(shù);Rm,n(·)為雙重注意力機制的映射函數(shù);Xm,n為網(wǎng)絡中間輸出。

      1.4 損失函數(shù)

      超分辨率重建的目的是使重建后的SR圖像I與真實圖像I盡可能接近,其為回歸問題,常用的損失函數(shù)有MAE(mean-absolute error)[19]、感知損失[20]、MSE(mean-square error)[19]等,基于MSE的損失函數(shù)對誤差進行平方操作,如果數(shù)據(jù)中存在離群點,將被賦予更大的權重值,而離群點往往為噪聲信息,因而犧牲了其他正常數(shù)據(jù)點的預測效果,降低了模型的魯棒性。Lapsrn[21]和IDN[22]的實驗證明了基于MAE的損失函數(shù)相對于基于MSE損失函數(shù)有更好的圖像重建效果。由于MAE損失函數(shù)中的梯度信息為一個固定值,當模型計算的損失較低時,其梯度值較大,模型易在一個區(qū)間振蕩,不利于網(wǎng)絡收斂,在損失為0時,損失函數(shù)無法求解梯度。為應對MAE損失函數(shù)存在的缺陷,本文利用特殊的Huber loss[23]損失函數(shù)來保持MAE損失函數(shù)的魯棒性,其可表示為

      本文網(wǎng)絡算法的損失函數(shù)為

      2 實驗設置及結果分析

      2.1 訓練數(shù)據(jù)和測試數(shù)據(jù)

      本文采用與RCAN,RDN,IDN等相同的訓練數(shù)據(jù)集和測試數(shù)據(jù)集進行比較。訓練數(shù)據(jù)采用DIV2K[24]數(shù)據(jù)集,其包含了豐富的場景和邊緣及紋理細節(jié)的800幅訓練圖像、100幅驗證圖像和100幅測試圖像。在訓練模型時,本文使用該數(shù)據(jù)集的800幅訓練圖像,為了避免在訓練過程中出現(xiàn)欠擬合現(xiàn)象[25],通過隨機旋轉90°,180°,270°和水平翻轉,進行了數(shù)據(jù)擴增[26],使其擴充為原來的8倍,以保證足夠的訓練數(shù)據(jù),同時解決不同傾斜角度的圖像重建問題。訓練數(shù)據(jù)中的LR圖像為通過雙三次插值下采樣的LR圖像。設置mini-batch為16,即每次訓練中,抽取16幅48×48的LR圖像的子圖及對應標簽圖像進行訓練。另采用常用基準數(shù)據(jù)集Set5[27]和Set14[28]作為測試數(shù)據(jù)集,其中Set5包含5幅不同風格類型的圖像,Set14包含14幅圖像。

      2.2 網(wǎng)絡超參數(shù)設置

      實驗的軟硬件條件見表1,在網(wǎng)絡結構中設置=10,=20,即主體的RDAN算法框架包括10個DAG模塊,而每個DAG模塊內又包含20個DAM模塊,從而構成了一個復雜的深度網(wǎng)絡算法結構。除了在通道注意力機制內通道壓縮和擴增及特征融合的瓶頸層采用1×1的卷積核,其余卷積核大小均為3×3,在空間注意力機制采用的卷積和反卷積的卷積核大小也為3×3,其步長為3。在網(wǎng)絡訓練過程,為使得中間特征映射的大小保持一致,網(wǎng)絡中應用了補0策略。除了空間注意力機制中使用1個卷積核濾波器,如圖4(a)所示,輸出特征為單通道特征映射,通道注意力機制中通道壓縮層采用了通道壓縮策略,壓縮倍數(shù)為=16,即采用/=4個卷積核,如圖2(b)所示,為確保最后一層輸出為彩色圖像,網(wǎng)絡輸出使用3個卷積核,其余結構均采用=64個卷積核,在上采樣結構中,與ESPCN一致,采用亞像素卷積層結構實現(xiàn)特征上采樣,從而獲得HR的彩色圖像。

      表1 實驗的軟硬件平臺

      網(wǎng)絡使用ADAM[29]優(yōu)化器,優(yōu)化參數(shù)為1=0.9,2=0.999,=10-8設置初始學習率為10-4,每2×105次迭代后學習率下降一半,每1 000次迭代后在Set5數(shù)據(jù)集上做一次測試,以直觀反映網(wǎng)絡的訓練效果,從而可以引導調整網(wǎng)絡超參數(shù)。實驗采用PSNR和SSIM[30]進行重建圖像的質量方法的比較,本文需將重建圖像轉換到YCbCr空間,并在Y通道進行評價對比。

      2.3 消融實驗

      對本文提出的幾個改進點進行消融實驗對比,以驗證本文方法的有效性及可行性。

      2.3.1 全局標準差池化及空間注意力機制的影響

      本文在未設置空間注意力機制,使用MAE損失函數(shù),無全局特征融合的基礎網(wǎng)絡框架上進行如下對比實驗:①網(wǎng)絡中只包括全局平均池化的通道注意力機制;②網(wǎng)絡中只包括全局標準差池化的通道注意力機制;③在①的基礎上繼續(xù)引入全局標準差池化,消融實驗結構見表2。

      表2 通道注意力中不同池化方式在Set5數(shù)據(jù)集4倍放大的比較

      注:√表示網(wǎng)絡算法中包括該模塊;×表示不包括該模塊。

      表2為Set5數(shù)據(jù)集4倍放大的評測指標對比,可以發(fā)現(xiàn)使用全局標準差池化相對于全局平均池化在PSNR指標上有0.02 dB的提升,說明本文提出的全局標準差池化相對于平均池化對通道權重學習具有更好的效果,通過自適應地將平均池化和標準差池化合并,網(wǎng)絡算法相對于僅有平均池化的算法有0.05 dB的提升,同時與僅有平均池化的算法需要的參數(shù)(16 M)相比僅僅增加0.4 M的參數(shù)。因而該結構的改進說明構建標準差池化有利于提升圖像重建質量。

      最后在Set5數(shù)據(jù)集上比較了構建雙重注意力機制的網(wǎng)絡算法與僅有通道注意力機制的算法和僅有空間注意力機制的算法進行實驗對比(表3),可以看到雙重注意力機制相對僅有空間或者通道注意力機制的算法均有0.04~0.07 dB的提升,也說明雙重注意力機制對于圖像超分辨率重建具有更好的效果。

      表3 雙重注意力機制與部分注意力機制在Set5數(shù)據(jù)集4倍放大的比較

      2.3.2 Huber loss損失函數(shù)和全局特征融合的影響

      為了證明提出的基于Huber loss的損失函數(shù)和全局特征融合對于圖像超分辨率重建具有更好的效果,算法與基于MAE的損失函數(shù)的模型和無全局特征融合的模型進行了比較。

      實驗結果見表4,可以看到損失函數(shù)相對于MAE損失函數(shù)在PSNR指標上有0.02 dB的提升;增加全局特征融合相對于無全局特征融合算法也有0.02 dB提升;本文提出的模型在Set5數(shù)據(jù)集4倍放大條件下可以獲得32.76 dB的峰值信噪比。

      表4 不同損失函數(shù)和特征融合在Set5數(shù)據(jù)集4倍放大的比較

      2.4 實驗結果

      為了說明本文方法的有效性,特與VDSR、EDSR[31],RDN[32],RCAN等算法在Set5和Set14數(shù)據(jù)集不同尺度(×2, ×3, ×4)超分辨率重建結果在PSNR和SSIM評測指標上進行比較,見表5,最優(yōu)結果加粗顯示。從表5結果可以看出,本文提出的超分辨率算法在Set5和Set14數(shù)據(jù)集上,不同尺度的超分辨結果在PSNR和SSIM評測指標上均優(yōu)于其他算法(PSNR和SSIM值越大,圖像重建效果越好)。為了進一步說明本文提出的算法在實際SR重建圖像具有好的效果,本文對Set5、Set14和Urban100的部分圖像進行了可視化的重建,挑選了Urban100數(shù)據(jù)集中的天花板(img_073)和Set5數(shù)據(jù)集中的蝴蝶(butterfly)的進行了4倍尺度SR重建圖像可視化,Urban100數(shù)據(jù)集中的高樓(img_062)和Set14數(shù)據(jù)集中書房(barbara)的進行了3倍尺度SR重建圖像可視化,并與目前現(xiàn)有的Bicubic, VDSR, RCAN等重建圖像進行比較,圖6為4倍SR重建結果,在img_073圖像中,對天花板重建細節(jié)進行比較,大多數(shù)的重建算法天花板的孔洞基本模糊,相對較好的RCAN算法的結果孔洞接近矩形,而實際孔洞應當為橢圓形,本文的重建結果不僅孔洞顯示較清晰,形狀也更接近橢圓。在butterfly圖像中大部分重建算法的結果均丟失了右上角一條淺白色向上的紋理,RCAN雖然恢復了一部分,但是也非常模糊,本文算法基本恢復出該細節(jié)紋理。圖7為3倍SR重建結果,本文對barbara中桌布的細節(jié)進行了對比,可以看到方格網(wǎng)狀的桌布在絕大多數(shù)的SR重建模型(如RCAN,RDN)中重建為線狀,EDSR雖然能保留一些方格狀的信息,但非常模糊,而本文算法能較好地恢復出桌布的網(wǎng)格信息,同時可清晰地展現(xiàn)。在img_062圖像的高樓重建細節(jié)中,大部分的算法未恢復出線狀的高樓細節(jié)紋理,同時產(chǎn)生了橫線的錯誤信息,而本文算法能較好地恢復出細節(jié)信息且不存在錯誤信息。通過定量和可視化的結果比較可知,本文提出的算法相對現(xiàn)有的超分辨率重建算法有了一定的提高。

      表5 不同超分辨率模型重建效果比較

      圖6 在Urban100和Set5數(shù)據(jù)集4倍超分辨重建可視化比較

      圖7 在Urban100和Set14數(shù)據(jù)集3倍超分辨重建可視化比較

      3 結束語

      本文針對現(xiàn)有的基于深度學習的圖像超分辨率重建算法中網(wǎng)絡特征由于對不同位置、不同通道的特征采用均等處理的方法,從而使得網(wǎng)絡將大量的計算資源浪費在不重要的特征上,受Senet結構啟發(fā),本文提出了基于雙重注意力機制的深度網(wǎng)絡超分辨算法,該算法構建并融合了通道注意力機制和空間注意力機制,從而可以有效獲取不同特征的權重值,使得網(wǎng)絡可以根據(jù)權重精準分配計算資源,在僅僅引入極少參數(shù)的同時有效提升了超分辨率重建的質量。特征監(jiān)督的引入使得網(wǎng)絡能夠對低維特征有效監(jiān)督,加快網(wǎng)絡收斂,針對MAE損失函數(shù)存在的局限性,引入一種特殊的Huber loss損失函數(shù),該損失函數(shù)可以實現(xiàn)在損失值較低時梯度遞減,從而提高網(wǎng)絡重建質量。實驗證明本文提出的超分辨率重建算法不僅在評價指標上有所提高,同時在視覺上也有較好的結果。

      [1] ZHANG L P, ZHANG H Y, SHEN H F, et al. A super-resolution reconstruction algorithm for surveillance images[J]. Signal Processing, 2010, 90(3): 848-859.

      [2] PELED S, YESHURUN Y. Superresolution in MRI: Application to human white matter fiber tract visualization by diffusion tensor imaging[J]. Magnetic Resonance in Medicine, 2001, 45(1): 29-35.

      [3] THORNTON M W, ATKINSON P M, HOLLAND D A. Sub-pixel mapping of rural land cover objects from fine spatial resolution satellite sensor imagery using super-resolution pixel-swapping[J]. International Journal of Remote Sensing, 2006, 27(3): 473-491.

      [4] DONG C, LOY C C, HE K M, et al. Learning a deep convolutional network for image super-resolution[M]// Computer Vision – ECCV 2014. Cham: Springer International Publishing, 2014: 184-199.

      [5] KIM J, LEE J K, LEE K M. Accurate image super-resolution using very deep convolutional networks[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 1646-1654.

      [6] KIM J, LEE J K, LEE K M. Deeply-recursive convolutional network for image super-resolution[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 1637-1645.

      [7] TAI Y, YANG J, LIU X M. Image super-resolution via deep recursive residual network[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 2790-2798.

      [8] HU J, SHEN L, ALBANIE S, et al. Squeeze-and-excitation networks[C]//IEEE Transactions on Pattern Analysis and Machine Intelligence. New York: IEEE Press, 2019: 2011-2023.

      [9] WANG X L, GIRSHICK R, GUPTA A, et al. Non-local neural networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 7794-7803.

      [10] ZHANG Y L, LI K P, LI K, et al. Image super-resolution using very deep residual channel attention networks[M]//Computer Vision – ECCV 2018. Cham: Springer International Publishing, 2018: 294-310.

      [11] WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[M]//Computer Vision – ECCV 2018. Cham: Springer International Publishing, 2018: 3-19.

      [12] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 770-778.

      [13] SHI W Z, CABALLERO J, HUSZáR F, et al. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 1874-1883.

      [14] FADNAVIS S. Image interpolation techniques in digital image processing: an overview[J]. International Journal of Engineering Research and Applications, 2014, 4(10): 70-73.

      [15] ZEILER M D, KRISHNAN D, TAYLOR G W, et al. Deconvolutional networks[C]//2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2010: 2528-2535.

      [16] DAI T, CAI J R, ZHANG Y B, et al. Second-order attention network for single image super-resolution[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2019: 11057-11066.

      [17] HAN J, MORAGA C. The influence of the sigmoid function parameters on the speed of backpropagation learning[M]// Lecture Notes in Computer Science. Heidelberg: Springer, 1995: 195-201.

      [18] GLOROT X, BORDES A, BENGIO Y. Deep sparse rectifier neural networks[C]//Proceedings of the 14th International Conference on Artificial Intelligence and Statistics. Heidelberg: Springer, 2011: 315-323.

      [19] WILLMOTT C J, MATSUURA K. Advantages of the mean absolute error (MAE) over the root mean square error (RMSE) in assessing average model performance[J]. Climate Research, 2005, 30: 79-82.

      [20] JOHNSON J, ALAHI A, FEI-FEI L. Perceptual losses for real-time style transfer and super-resolution[C]//European Conference on Computer Vision. Heidelberg: Springer, 2016: 694-711.

      [21] LAI W S, HUANG J B, AHUJA N, et al. Deep Laplacian pyramid networks for fast and accurate super-resolution[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 5835-5843.

      [22] HUI Z, WANG X M, GAO X B. Fast and accurate single image super-resolution via information distillation network[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 723-731.

      [23] ONARAN I, INCE N F, CETIN A E. Sparse spatial filter via a novel objective function minimization with smooth ?1 regularization[J]. Biomedical Signal Processing and Control, 2013, 8(3): 282-288.

      [24] TIMOFTE R, AGUSTSSON E, GOOL L V, et al. NTIRE 2017 challenge on single image super-resolution: methods and results[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Washington, DC: IEEE Computer Society Press, 2017: 114-125.

      [25] AALST W M P, RUBIN V, VERBEEK H M W, et al. Process mining: a two-step approach to balance between underfitting and overfitting[J]. Software & Systems Modeling, 2008, 9(1): 87-111.

      [26] SHORTEN C, KHOSHGOFTAAR T M. A survey on image data augmentation for deep learning[J]. Journal of Big Data, 2019, 6(1): 1-48.

      [27] BEVILACQUA M, ROUMY A, GUILLEMOT C, et al. Low-complexity single-image super-resolution based on nonnegative neighbor embedding[C]//Procedings of the British Machine Vision Conference 2012. British Machine Vision Association, 2012: 132-143.

      [28] ZEYDE R, ELAD M, PROTTER M. On single image scale-up using sparse-representations[M]//Curves and Surfaces. Heidelberg: Springer, 2012: 711-730.

      [29] KINGMA D P, BA J. Adam: a method for stochastic optimization[EB/OL]. [2021-03-12]. https://xueshu.baidu.com/ usercenter/paper/show?paperid=37a73866f09edd03830b234716447e4f&site=xueshu_se.

      [30] WANG Z, BOVIK A C, SHEIKH H R, et al. Image quality assessment: from error visibility to structural similarity[J]. IEEE Transactions on Image Processing, 2004, 13(4): 600-612.

      [31] LIM B, SON S, KIM H, et al. Enhanced deep residual networks for single image super-resolution[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). New York: IEEE Press, 2017: 1132-1140.

      [32] ZHANG Y L, TIAN Y P, KONG Y, et al. Residual dense network for image super-resolution[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 2472-2481.

      Image super-resolution reconstruction based on dual attention mechanism

      LI Bin1, WANG Ping1, ZHAO Si-yi2

      (1. College of Electronic Science and Technology, National University of Defense Technology, Changsha Hunan 410072, China; 2. College of Computer Science and Technology, National University of Defense Technology, Changsha Hunan 410072, China)

      In recent years, the convolutional neural network (CNN) has achieved desired results in the field of single image super-resolution (SISR). Deep networks can establish complex mapping between low-resolution and high-resolution images, considerably enhancing the quality of reconstructed images, compared with the traditional methods. Since the existing SISR methods mainly increase the receptive field of convolution kernels by deepening and widening the network structure, and employ equal processing methods in spatial domains and channel domains of varying importance, a large number of computing resources are wasted on unimportant features. In order to address the realistic problems of the existing models, the algorithm proposed in this paper captured implicit weight information in channel and space domains through dual attention modules, so as to allocate computing resources more effectively and speed up the network convergence. The fusion of global features through residual connections in this network not only focused on learning the high-frequency information of images that had been lost, but also accelerated the network convergence through effective feature supervision. In order to alleviate the defects of the MAE loss function, a special Huber loss function was introduced in the algorithm. The experimental results on benchmark show that the proposed algorithm can significantly improve the image reconstruction accuracy compared with the existent SISR methods.

      single image super-resolution; feature supervision; residual connection; channel attention; spatial attention

      TP 399

      10.11996/JG.j.2095-302X.2021020206

      A

      2095-302X(2021)02-0206-10

      2020-08-25;

      25 August,2020;

      2020-10-19

      19 October,2020

      李 彬(1991-),男,陜西渭南人,碩士研究生。主要研究方向為計算機視覺。E-mail:libin10@nudt.edu.cn

      LI Bin (1991-), male, master student. His main research interest covers computer vision. E-mail:libin10@nudt.edu.cn

      王 平(1976-),男,湖北公安人,研究員,博士,碩士生導師。主要研究方向為智能目標識別。E-mail:wangping@nudt.edu.cn

      WANG Ping (1976-), male, researcher, Ph.D. His main research interest covers intelligent target recognition. E-mail:wangping@nudt.edu.cn

      猜你喜歡
      雙重注意力卷積
      自然與成長的雙重變奏
      讓注意力“飛”回來
      基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
      化解“雙重目標”之困
      中國外匯(2019年7期)2019-07-13 05:44:56
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于傅里葉域卷積表示的目標跟蹤算法
      “揚眼”APP:讓注意力“變現(xiàn)”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      A Beautiful Way Of Looking At Things
      “雙重打擊”致恐龍滅絕
      一種基于卷積神經(jīng)網(wǎng)絡的性別識別方法
      電視技術(2014年19期)2014-03-11 15:38:20
      大竹县| 天祝| 麻江县| 江陵县| 景谷| 阜阳市| 新余市| 水城县| 泸西县| 潼关县| 琼海市| 象州县| 沅陵县| 新泰市| 隆子县| 江阴市| 华蓥市| 福鼎市| 青河县| 英超| 醴陵市| 白山市| 灵台县| 揭东县| 连云港市| 拜城县| 钦州市| 综艺| 南宁市| 陈巴尔虎旗| 兴化市| 曲靖市| 西藏| 鲁山县| 昌乐县| 莱州市| 嘉义市| 腾冲县| 平安县| 望都县| 禹州市|