杜宏偉,喬美麗,宋 剛,張云峰,包芳勛
1.山東財經(jīng)大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,濟南250014
2.山東省數(shù)字媒體技術(shù)重點實驗室,濟南250014
3.山東省教育招生考試院,濟南250011
4.山東大學(xué) 數(shù)學(xué)學(xué)院,濟南250100
圖像放大是指由低分辨率(Low Resolution,LR)圖像通過插值獲得高分辨率(High Resolution,HR)圖像的一種圖像處理技術(shù)[1]。從信號角度來說,插值是一個離散采樣點與插值核函數(shù)卷積的過程,如果一個信號是帶限信號,則此信號可以完全由采樣信號利用理想濾波器sinc 函數(shù)重建[2],但是sinc 函數(shù)只能通過近似來實現(xiàn)。早期的插值算法如最近鄰插值、雙線性插值、雙三次插值[3]和三次樣條插值[4]等都是近似sinc 函數(shù),它們相對簡單且易于實現(xiàn),但重建后的圖像會出現(xiàn)不同程度的鋸齒和模糊現(xiàn)象。
為此,學(xué)者們做了更深入的研究。一般來說,插值算法大致可分為離散方法和連續(xù)方法兩類。離散方法是指利用已知像素點通過某種變換確定未知像素點。文獻[5]提出一種新的邊緣指導(dǎo)的圖像插值方法(New Edge-Directed Interpolation,NEDI),該算法根據(jù)LR 與HR協(xié)方差系數(shù)的幾何對偶性計算出插值函數(shù)中的權(quán)重系數(shù),從而求出未知點的像素值。文獻[6]提出一種基于多方向濾波和數(shù)據(jù)融合的圖像插值方法(an edgeguided image interpolation algorithm via Directional Filtering and Data Fusion,DFDF),將每個待插點的鄰域分成兩個觀測子集,并從正交的兩個方向估計待插點的灰度值。文獻[7]提出了一種基于軟決策的圖像插值方法,其參數(shù)和數(shù)值估計采用最小二乘法。文獻[8]提出一種邊緣指導(dǎo)圖像插值方法,利用泰勒級數(shù)展開的近似方法,對于待插像素點沿其四個方向估計像素值?;诜蔷植繋缀蜗嗨菩院头较蛱荻?,文獻[9]對周圍像素點加權(quán)平均確定插值點像素值,根據(jù)正則化最小二乘法確定權(quán)重系數(shù)。以上這些算法能較好地保持插值圖像的空間相關(guān)性,且具有良好的主觀視覺質(zhì)量和圖像客觀質(zhì)量評價值。但是,這些圖像插值算法主要基于離散思想,不能夠?qū)D像進行任意倍數(shù)的放大,而且與傳統(tǒng)的方法相比,時間復(fù)雜度相對較高。雖然這些插值算法能夠把圖像邊緣部分處理地較好,但是在細節(jié)部分會出現(xiàn)走樣、噪聲等現(xiàn)象。
連續(xù)方法是指將圖像離散采樣數(shù)據(jù)轉(zhuǎn)換為連續(xù)的灰度曲面,然后確定未知像素點。文獻[10]提出了一種基于分段常張力基樣條的插值方法,與傳統(tǒng)的三次樣條方法相比,它可以有效避免圖像出現(xiàn)振鈴現(xiàn)象。文獻[11]使用圖像數(shù)據(jù)作為約束構(gòu)造擬合曲面來還原采樣過程?;跇?gòu)造的有理插值函數(shù),文獻[12-15]提出的插值模型能夠很好地刻畫圖像的結(jié)構(gòu),可以在插值數(shù)據(jù)不變的前提下通過調(diào)整參數(shù)獲得更好的圖像質(zhì)量,此類方法能夠有效保留圖像的細節(jié)信息。
近年來,深度學(xué)習(xí)作為人工智能方面的一個重要分支,得到人們的廣泛關(guān)注。目前基于學(xué)習(xí)的方法主要分為兩類:一類是基于圖像自身的學(xué)習(xí),一類是利用圖像外部信息的學(xué)習(xí)。前者根據(jù)圖像的自相似性進行圖像重建。將稀疏編碼與深度學(xué)習(xí)方法相結(jié)合,文獻[16]提出了一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的圖像超分辨重建算法(Cascaded Sparse Coding Network,CSCN)。此算法利用圖像自身的相似冗余信息,避免了圖像出現(xiàn)人工痕跡,但若LR中沒有足夠的冗余信息,此類算法會導(dǎo)致細節(jié)丟失。后者借助附加的圖像庫的信息進行圖像重建。文獻[17]通過端到端的方式學(xué)習(xí)LR 圖像與HR 圖像之間的映射關(guān)系,提出了一種基于全卷積神經(jīng)網(wǎng)絡(luò)的超分辨率算法(Super-Resolution Convolutional Neural Network,SRCNN),提高了重建效果。然而,該算法的重建效果取決于的訓(xùn)練的圖像庫,且訓(xùn)練時間較長。
圖像插值實際上是一個主客觀(人眼視覺感知和圖像)相統(tǒng)一的過程。根據(jù)人眼視覺感知特性,人眼更關(guān)注于圖像的邊緣區(qū)域而非平滑區(qū)域。文獻[18]提出了一種基于人眼對比敏感度的圖像增強算法,通過單一參數(shù)對圖像局部梯度的調(diào)節(jié)來增強局部圖像對比度。將對比度增強視為最優(yōu)化問題,通過感知約束最大化圖像的平均局部對比度,文獻[19]提出了一類新的人類視覺系統(tǒng)(Human Visual System,HVS)指導(dǎo)的以神經(jīng)網(wǎng)絡(luò)為技術(shù)支撐的自適應(yīng)插值方法。根據(jù)HVS 的特征建立了一個模糊決策系統(tǒng),把輸入圖像的像素分為人眼感知敏感類和非敏感類,不同的區(qū)域使用不同的插值手段。但此方法的局限性在于圖像像素的劃分方法與所用的插值方法不一致,這樣可能導(dǎo)致圖像內(nèi)在的自然屬性(非線性、多尺度特性、方向性)遭到破壞。在插值過程中,如果把人眼視覺特性、圖像區(qū)域劃分、圖像插值等融合在一個模型中,最大化保護圖像自然屬性,具有重要的理論意義。
本文把圖像插值與人眼視覺感知相結(jié)合,提出了一種自適應(yīng)視覺感知的圖像放大方法。根據(jù)圖像結(jié)構(gòu),構(gòu)造一類新的含有可調(diào)參數(shù)的有理函數(shù)插值模型,當(dāng)形狀參數(shù)都取1 時,此有理插值模型退化為多項式插值模型。該模型通過調(diào)節(jié)形狀參數(shù),可以獲得最佳的插值曲面?;诒疚臉?gòu)造的模型進行圖像插值,首先利用等值線方法將輸入圖像自適應(yīng)地劃分為邊緣區(qū)域和非邊緣(平滑)區(qū)域。然后,在圖像結(jié)構(gòu)簡單且人眼關(guān)注度低的平滑區(qū)域,采用多項式模型插值;在圖像結(jié)構(gòu)復(fù)雜且人眼關(guān)注度高的邊緣區(qū)域,采用有理模型插值,其形狀參數(shù)根據(jù)人眼視覺感知特性進行自適應(yīng)調(diào)節(jié)。最后,獲得高質(zhì)量的插值圖像。
令f(x,y)為平面區(qū)域Ω:[a,b;c,d]上的雙變量有理插值 函 數(shù),{(xi,yj,fi,j),i=1,2, …, n, n+1j;=1,2,… ,m,m+1}為Ω 上給定數(shù)據(jù)點集,fi,j=f(xi,yj)。對xy 平面上任何點 (x,y)∈[xi,xi+1;yj,yj+1],hi=xi+1-xi,θ=(x-xi)/hi,lj=yj+1-yj,η=y-yj/lj,對每個y=yj,j=1,2,… ,m+1,構(gòu)造x方向的插值曲線:
其中αi,j>0,且
在節(jié)點x1和xn處,偏導(dǎo)數(shù)定義為:
對每個點對(i,j);i=1,2, …,n-1和j=1,2, ,m-1,使用x 方向的插值函數(shù)(x)來定義上的有理插值函數(shù)Pi,j(x,y)如下:
其中
該插值函數(shù)由插值數(shù)據(jù)和形狀參數(shù)確定,形狀參數(shù)取值不同,表達形式也不相同,特別地,當(dāng)αi,j=βi,j=1時,該模型退化為多項式插值模型。
圖像可視為二維平面上的等距節(jié)點數(shù)據(jù)。給定一幅m×n的圖像Im,n,fi,j(0 ≤i ≤m-1,0 ≤j ≤n-1)是Im,n內(nèi)坐標為(i,j)的像素值,目的是得到圖1 中紅色像素點所在面片的數(shù)學(xué)表達式,從而確定圖像中的任一點fi,j的像素值。
圖1 有理插值模型
如圖1 所示,根據(jù)公式(5)定義的插值函數(shù)Pi,j(x,y),給 定12 個 像 素 點 fi,j-1,fi+1,j-1,fi-1,j,fi,j,fi+1,j,fi+2,j,,fi,j+1,fi+1,j+1,fi+2,j+1,fi,j+2,fi+1,j+2,可以構(gòu)造一個過4個像素點fi,j,fi+1,j,fi,j+1,fi+1,j+1的矩形面片。
性質(zhì)1 設(shè)Pi,j(x,y)為定義在[xi,xi+1;yj,yj+1]上的有理插值函數(shù),對于任意的正參數(shù)αi,j和βi,j,則
定理1 設(shè)為等距節(jié)點,即hi=(b-a)/n。若參數(shù) βi,j滿 足 βi,j=βi+1,j,i=1,2,… ,n-2,則 插 值 函 數(shù)Pi,j(x,y)在插值區(qū)間[x1,xn;y1,yn]上C2連續(xù)。
公式(5)定義的插值模型含有形狀參數(shù),插值曲面的形狀可以通過形狀參數(shù)來調(diào)節(jié)。但性質(zhì)1 給出了曲面的有界性質(zhì),即無論參數(shù)如何調(diào)整,曲面的變化都被約束在邊界內(nèi)。考慮到圖像灰度值[0,255]的限制,所以在調(diào)整曲面的過程中,曲面要同時滿足邊界約束和灰度范圍限制。與C1連續(xù)的有理插值函數(shù)相比,本文構(gòu)造的C2連續(xù)有理插值函數(shù)在插值面片的內(nèi)部和拼接處光滑性更好,可有效保持插值圖像清晰的邊緣結(jié)構(gòu)。
人眼對于空間不同對比度的敏感度符合韋伯定理。韋伯定理是指感覺的差別閾限與標準的刺激強度之比是一個常數(shù)。令C 為局部對比度增強閾值,?C 表示對比度感知變化,超出差別閾值,則?C 和C 滿足:
基于韋伯定理,通過自適應(yīng)調(diào)整公式(5)中的參數(shù)α,β 來改變曲面的梯度。插值區(qū)域的平均梯度表示為δ,若插值區(qū)域像素變化劇烈,δ就越大,意味著圖像梯度變化也越大。面片梯度grad( Pij( x,y ))表示為:
由以上公式可知,曲面的拉伸程度與曲面的梯度成正相關(guān)非線性關(guān)系。人類的視覺適應(yīng)具有S 型非線性特點,通常用Sigmoid 函數(shù)來刻畫[20]。Sigmoid 函數(shù)模型如下
其中,? 為最大值和最小值的差值,μx為S函數(shù)在x軸上的偏移,k 表示邊緣的傾斜程度,μy為S函數(shù)在y 軸上的偏移。如圖2 所示,Sigmoid 函數(shù)滿足人眼視覺特性且具有非線性[21],用它來表示δ與grad(Pi,j(x,y))的非線性、正相關(guān)關(guān)系。
圖2 Sigmoid型函數(shù)模型
用等值線方法對圖像進行邊緣檢測,檢測出來的平滑區(qū)域結(jié)構(gòu)相對簡單,采用多項式模型插值;邊緣區(qū)域結(jié)構(gòu)復(fù)雜,基于人眼對比敏感度準則對公式(5)自適應(yīng)調(diào)整αi,j和βi,j。
目前,經(jīng)典的邊緣檢測方法如Roberts算子、Laplace算子等可以利用圖像梯度將圖像的邊緣檢測出來。但是,Roberts 算子對圖像邊緣附近的區(qū)域內(nèi)產(chǎn)生較寬的響應(yīng),不能有效檢測到圖像的高頻細節(jié),處理后圖像缺失細節(jié)信息;Laplace 算子對孤立像素的響應(yīng)比對邊緣或線的響應(yīng)更強烈,所以處理后圖像會產(chǎn)生很多孤立點。以上檢測方法的結(jié)果不能很好地反映圖像的自然屬性。本文根據(jù)構(gòu)造的插值模型來選擇邊緣檢測方法,實現(xiàn)了圖像劃分與圖像插值的有機統(tǒng)一,最大化保護圖像的自然屬性。
根據(jù)等值線繪制原理,對每個插值單元繪制等值線。插值單元指圖1 中由[ ]i:i+1;j:j+1 圍成的矩形(即紅色像素點圍成的矩形)。存在等值線的插值單元為邊緣區(qū)域,否則為平滑區(qū)域。區(qū)域檢測的閾值應(yīng)能概括描述該插值單元的灰度信息,且信息相關(guān)性最大,所以選取插值單元上的4個像素點及其四鄰域點共12個像素點的均值作為自適應(yīng)區(qū)域檢測的閾值,即自適應(yīng)檢測閾值為:
令Δxm,n=fm,n-λ,m,n=0,1,根據(jù)等值線繪制原理,若Δxm,n是同號,則此插值單元屬于平滑區(qū)域,反之屬于邊緣區(qū)域。因此,可以利用等值線方法對圖像進行區(qū)域劃分。如圖3 所示,若在一個插值單元中四個頂角符號不同,則該插值單元屬于邊緣區(qū)域。圖3(a)中Δxm,n表示一個插值單元中對應(yīng)的四個頂點。(b)~(e)表示在一個插值單元中四個頂點的符號不同時的邊界檢測結(jié)果。圖4 為圖像邊緣檢測結(jié)果。其中,(a)是原圖像,(b)~(d)分別是圖像用等值線方法、Laplace算子和Roberts算子的邊緣檢測結(jié)果。可以看出,等值線方法可以有效地檢測到圖像的紋理和邊界。
圖3 基于正負號的紋理檢測
圖4 圖像邊緣檢測結(jié)果
對于平滑區(qū)域,采用多項式插值模型。對于邊緣區(qū)域,采用有理插值模型,形狀參數(shù)根據(jù)人眼視覺敏感度自適應(yīng)設(shè)置。
當(dāng)α 和β 都等于1 時,公式(5)就變成了多項式插值,表達式如下:
圖5 圖像插值示意圖
單元周圍12 個像素點構(gòu)造出該插值單元的曲面,確定插值點的灰度值,右圖為圖像插值后的示意圖。
其中,k 代表此S 型函數(shù)的陡峭程度,μδ代表S 型函數(shù)向δ 軸 正 方 向 移 動 的 距 離,max grad( Pi,j( x,y ))和min grad( Pi,j( x,y ))分別表示梯度的最大值和最小值。在2×2 的面片上,數(shù)值計算每一個像素點的梯度值,由此確定對應(yīng)最大、最小梯度值所在像素點的曲面坐標,將相應(yīng)坐標代入插值函數(shù),即可得到max grad( Pi,j( x,y ))、min grad( Pi,j( x,y ))。此時,F(xiàn)?是一個關(guān)于α、β 的二次函數(shù),其值是S型函數(shù)在梯度最大時的函數(shù)值。由曲面的有界性可知,一張面片的插值函數(shù)在閉區(qū)域上梯度有界。最后,根據(jù)F?的值確定α?、β?的取值。2×2面片上四個像素點梯度的數(shù)值計算公式為:
其中,G(r,s),r=i,i+1,s=j,j+1為像素點在(r,s)處的梯度值。
若在點( x?,y?)處Pi,j( x,y )取得最大值Pi,j?( x,y),且要 重 新 定 義 為 :
圖像的信息熵反映了圖像包含的信息量,圖像的信息熵越大,圖像的對比度就越高,圖像的視覺效果就越好,從表1 中可以看出,基于人眼視覺感知對形狀參數(shù)調(diào)節(jié)后,圖像的信息熵變大,圖像的視覺效果提高。
實驗選取9 幅標準測試圖像,如圖6 所示。采用隔行隔列下采樣,選取具有代表性的算法bicubic、NEDI[5]、DFDF[6]、RSAI[7]、SRCNN[17]、CBI[22]、DCCI[23]、A+[24]與 本文算法進行比較。下面主要從主、客觀效果和時間復(fù)雜度3個方面來測試本文算法的效果。
表2 給出了不同插值算法的客觀評價數(shù)據(jù):峰值信噪比(Peak Signal To Noise Ratio,PSNR)和結(jié)構(gòu)相似性(Structural Similarity Index,SSIM)。從表1 可以看出,與其他方法相比,本文提出的方法擁有最高平均PSNR和SSIM值,具有較強的競爭力。
表1 形狀參數(shù)自適應(yīng)調(diào)節(jié)后圖像信息熵值比較
圖6 標準測試圖像
圖7 ~圖11 提供了各插值算法的視覺效果比較,并將局部細節(jié)放大顯示。其中,圖7 和圖8 突出顯示了不同算法對圖像邊緣區(qū)域的重建效果,圖9、圖10 和圖11展示了對圖像紋理細節(jié)區(qū)域的刻畫效果。如圖7 所示,由bicubic、A+、SRCNN 重建的圖像出現(xiàn)了嚴重的鋸齒現(xiàn)象,RSAI、ICBI、DCCI和DFDF方法出現(xiàn)了模糊、鋸齒現(xiàn)象,本文算法和NEDI有效保持了圖像邊緣的光滑性。如圖8 所示,bicubic 出現(xiàn)了邊緣模糊現(xiàn)象,NEDI 算法出現(xiàn)了斑點噪聲,RSAI、A+和SRCNN 算法產(chǎn)生了不連續(xù)的條紋,ICBI 也出現(xiàn)了邊緣失真現(xiàn)象,其余各算法保持了清晰的邊緣。在處理圖像紋理細節(jié)方面,如圖9 所示,NEDI、RSAI、ICBI、DCCI 都出現(xiàn)了嚴重的扭曲變形、紋理錯亂現(xiàn)象,DFDF 算法也丟失了圖像細節(jié)信息,A+和SRCNN 出現(xiàn)了紋理變形、噪聲現(xiàn)象,不能有效保持圖像的結(jié)構(gòu)特征,本文方法有效地保持了圖像的結(jié)構(gòu)特征。從圖10 可以看出,本文算法較好地恢復(fù)了圖像的細節(jié),其余算法出現(xiàn)了不同程度的細節(jié)扭曲現(xiàn)象。圖11 是Barbara 圖像的局部細節(jié)展示(圖6 紅框標注的部分),從對桌布、桌腿等細節(jié)的重建效果來看,本文算法的視覺效果最好。因此,從圖像細節(jié)的刻畫效果來看,本文算法優(yōu)于其他算法。
表2 不同方法的PSNR和SSIM值比較
圖7 不同算法Girl對比圖
圖8 不同算法Fence對比圖
圖9 不同算法Wall對比圖
圖10 不同算法Raccoon對比圖
在實際的應(yīng)用中,不僅要求獲得好的圖像質(zhì)量,同時,圖像的處理速度也是非常重要的。從理論上分析,本文方法對一個插值面片進行插值包括自適應(yīng)區(qū)域劃分,構(gòu)造插值模型,形狀參數(shù)確定,它們都是簡單的代數(shù)運算,時間復(fù)雜度是O(1)。對于一個m×n大小的圖像,插值面片有(m-3)×(n-3)個,整幅圖像遍歷一遍時間復(fù)雜度是O(m×n-3m-3n+9),所以本文算法總的時間復(fù)雜度是3×O(1)×O(m×n-3m-3n+9)≈O(m?!羘)上述分析可以看出,本文算法的時間復(fù)雜度與多項式插值算法處于同一量級。如表3 所示,本文算法在保證圖像質(zhì)量的情況下,擁有較低的運行時間。
圖11 不同算法Barbara對比圖
表3 不同插值算法運行時間對比s
基于以上分析,bicubic總體上插值效果不及其他插值算法,尤其在圖像的邊緣區(qū)域。NEDI 算法是基于邊緣指導(dǎo)的插值算法,此方法可以保持圖像清晰的邊緣結(jié)構(gòu),而在處理紋理細節(jié)較多的區(qū)域時,會導(dǎo)致紋理扭曲、變形或產(chǎn)生噪點。DFDF 算法不會使圖像的紋理細節(jié)扭曲變形,但是視覺效果不理想,尤其在圖像的非邊緣區(qū)域容易出現(xiàn)細節(jié)信息丟失現(xiàn)象。RSAI算法在一定程度上保持了圖像的細節(jié)信息,而在圖像的邊緣區(qū)域容易產(chǎn)生鋸齒現(xiàn)象。ICBI 算法可以獲得較高的客觀評價數(shù)據(jù),但在圖像的紋理細節(jié)區(qū)域容易出現(xiàn)扭曲變形現(xiàn)象。DCCI 算法對圖像邊緣區(qū)域的重建效果較為理想,在圖像的紋理細節(jié)區(qū)域也容易出現(xiàn)扭曲變形現(xiàn)象。A+和SRCNN 算法的重建效果依賴于訓(xùn)練圖像庫,當(dāng)測試圖像與訓(xùn)練圖像不屬于同一類圖像庫時,容易產(chǎn)生紋理失真,邊緣鋸齒現(xiàn)象。相對于上述算法,在視覺效果上,本文算法保持了圖像原有的結(jié)構(gòu)信息,在客觀數(shù)據(jù)方面,PSNR提高了0.37~8.24 dB,且時間復(fù)雜度較低。
基于構(gòu)造的雙變量有理函數(shù)插值模型,本文提出了一種自適應(yīng)視覺感知的圖像放大算法。利用人眼視覺感知規(guī)律,對插值函數(shù)的形狀參數(shù)進行適應(yīng)性調(diào)節(jié),實現(xiàn)最優(yōu)插值。根據(jù)等值線繪制原理,提出等值線方法來檢測圖像的邊緣信息,基于構(gòu)造的插值模型選取邊緣檢測的閾值,將區(qū)域劃分與圖像插值融合在一個模型里,最大化保護圖像的自然屬性。因構(gòu)造的插值模型具有簡單的顯性表達式,本文算法具有較低的時間復(fù)雜度。實驗證明本文算法取得較好的主客觀效果。