沈怡靈,趙明哲,李強(qiáng)懿,李博涵,2,3
(1.南京航空航天大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 南京 210016;2.軟件新技術(shù)與產(chǎn)業(yè)化協(xié)同創(chuàng)新中心,江蘇 南京 210093;3.江蘇易圖地理信息科技股份有限公司,江蘇 揚(yáng)州 225009)
基于稀疏表示的二值圖像超分辨率重建算法
沈怡靈1,趙明哲1,李強(qiáng)懿1,李博涵1,2,3
(1.南京航空航天大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 南京 210016;2.軟件新技術(shù)與產(chǎn)業(yè)化協(xié)同創(chuàng)新中心,江蘇 南京 210093;3.江蘇易圖地理信息科技股份有限公司,江蘇 揚(yáng)州 225009)
目前,關(guān)于二值圖像的超分辨率重建的研究很少,而二值圖像應(yīng)用廣泛,低分辨率的二值圖像會導(dǎo)致對其識別困難。針對這一現(xiàn)狀,對基于稀疏表示的二值圖像的超分辨率重建進(jìn)行深入研究,提出了一種針對二值圖像的超分辨率重建算法。一方面,分析二值圖像具有的明顯特征,對其進(jìn)行針對性的邊緣特征及紋理特征的提取,以更精確地表示二值圖像的高頻信息,提供更多的先驗信息,提高二值圖像的重建質(zhì)量。另一方面,針對二值圖像中存在二維碼圖像、文本圖像等不同類型的圖像這一特點(diǎn),將聚類算法融合到字典學(xué)習(xí)中,使得學(xué)習(xí)得來的字典更適用于不同類型的二值圖像。實驗結(jié)果表明,提出的針對二值圖像的基于稀疏表示的超分辨率重建算法對二值圖像有很好的重建效果,對噪聲具有一定的魯棒性。
二值圖像;稀疏表示;超分辨率重建;特征提取;字典學(xué)習(xí)
圖像的超分辨率重建技術(shù)[1]就是要突破成像設(shè)備自身的分辨率的限制,通過輸入的一張或者多張低分辨率圖像,根據(jù)一些假設(shè)或者先驗知識等,通過算法重建出其對應(yīng)的高分辨率圖像,以期重建的圖像能恢復(fù)出更多的細(xì)節(jié)信息,跟原始的高分辨率圖像差距更小。該技術(shù)已廣泛應(yīng)用于各個領(lǐng)域。
二值圖像作為圖像中一種重要的類型,在實際應(yīng)用中頻繁出現(xiàn),例如二維碼圖像、條形碼圖像、文本圖像等,是二值圖像的典型代表。各類條碼在如今的生活中越來越普及,人們的生活已經(jīng)離不開手機(jī)掃碼這一方便快捷的方式,文本也是一類重要的信息獲取來源,都有著廣泛的應(yīng)用場景。而低分辨率的二值圖像會對其識別產(chǎn)生很大影響,因此,對二值圖像進(jìn)行超分辨率重建具有其重要意義。
近年來,學(xué)者們針對圖像的超分辨率重建這一問題提出了許多算法[2-4]。Yang等[5-6]提出了一種新的圖像超分辨率重建方法,采用稀疏表示理論,引領(lǐng)了圖像超分辨率重建算法的新潮流。自Yang的算法提出后,出現(xiàn)了很多基于稀疏表示的方法。Zeyde等[7]先單獨(dú)訓(xùn)練低分辨率字典,再根據(jù)稀疏表示推導(dǎo)出高分辨率字典,加快了重建的速度。Zhang等[8]提出了一種基于快速學(xué)習(xí)的超分辨率重建算法,通過學(xué)習(xí)雙字典,采用簡單的矩陣乘法代替稀疏重建步驟,使得計算更有效率。Dong等[9]引入稀疏編碼噪聲的概念,將目標(biāo)轉(zhuǎn)為抑制噪聲,提出了非局部集中稀疏表示(NCSR)模型。Liu等[10]提出了一種基于不同形態(tài)學(xué)正則化的稀疏表示算法。Peleg等[11]為了避免不變性假設(shè),采用基于稀疏表示的統(tǒng)計預(yù)測模型。Zhang等[12]提出一個基于結(jié)構(gòu)調(diào)整的稀疏表示的聯(lián)合超分辨率框架以改善重建效果。不過,以上基于稀疏表示的超分辨率重建算法都不是針對二值圖像,目前對于二值圖像的有針對性的研究較少,但是對二值圖像的超分辨率重建研究很有必要。
因此,針對這一現(xiàn)狀,對基于稀疏表示的二值圖像超分辨率重建進(jìn)行研究。需要指出的是,文中的二值圖像是廣義上的二值,指的是輸入的低分辨率圖像的像素灰度值集中分布在兩個區(qū)間段內(nèi)的圖像,而非傳統(tǒng)意義上的灰度值只有0和1兩種取值的二值圖像。
稀疏表示的基本思想[13]是自然信號可以通過預(yù)定義的原子來線性表示。設(shè)信號x∈Rn,可得:
(1)
其中,D∈Rn×L(n?L),D=[d1,d2,…,dL];di(i=1,2,…,L)為矩陣D的原子;α=[α1,α2,…,αL]T∈RL為稀疏表示向量。
稀疏表示問題就是要找出信號x最稀疏的表示,也就是α中的非零點(diǎn)最少的情況。因此,該問題可表述為:
min‖α‖0s.t.x=Dα
(2)
其中,‖·‖0計算L0范數(shù),即α中非零元素的個數(shù),α為x的稀疏表示,也稱為稀疏表示系數(shù);D為稀疏變換矩陣,也就是稀疏字典。
然而求解式(2)是個NP難問題,在足夠稀疏的條件下,L0范數(shù)和L1范數(shù)的優(yōu)化問題存在相同解[14],因此,式(2)可轉(zhuǎn)換為:
min‖α‖1s.t.x=Dα
(3)
其中,‖·‖1計算L1范數(shù),其結(jié)果為向量中所有元素的絕對值之和??紤]到實際中的噪聲問題,式(3)可轉(zhuǎn)化為:
(4)
其中,ε為噪聲或稀疏表示誤差。
式(4)也可以轉(zhuǎn)換為如下的正則化方式:
(5)
其中,μ為正則化參數(shù),用以平衡稀疏表示誤差和稀疏性。
因此,稀疏表示問題就是當(dāng)已知字典D時,求解信號x的最稀疏的系數(shù)α,這可以通過最大后驗概率估計、匹配追蹤、基追蹤、基于稀疏貝葉斯等算法來求解。
(6)
其中,DL為低分辨率二值圖像特征塊的字典,通過對大量的二值圖像訓(xùn)練樣本學(xué)習(xí)得到。
y=DHα*
(7)
其中,DH為高分辨率二值圖像的字典。
在得到每一個高分辨率二值圖像塊后,按照對應(yīng)位置進(jìn)行合成,就可以得到對應(yīng)的高分辨率二值圖像。
由于人眼對圖像的高頻信息較為敏感,低分辨率圖像的高頻信息對重建高分辨率圖像的高頻細(xì)節(jié)很重要,提取圖像特征塊是為了提取出圖像中較為重要的高頻部分,使得計算出的稀疏系數(shù)可以更好地對高分辨率圖像塊進(jìn)行重建。二值圖像主要包括二維碼圖像、條形碼圖像和文本圖像等,這些圖像都有清晰的邊緣特征和明顯的紋理特征。因此,文中主要通過這兩方面來對二值圖像特征進(jìn)行提取。
由于Kirsch算子[15]可以提供較為全面的邊緣信息,對邊緣的提取比較精準(zhǔn),具有很好的邊緣檢測效果,文中采用該算子來提取二值圖像的邊緣信息。
Kirsch算子采用8個方向的差分模板依次對圖像的3×3鄰域進(jìn)行對應(yīng)的8個方向的檢測,這8個方向中響應(yīng)的最大值即為該鄰域中心像素點(diǎn)上的邊緣強(qiáng)度,相應(yīng)的最大值的方向即為該像素的邊緣方向。
將Kirsch算子的8個模板作用于圖像塊上的結(jié)果分別記為K0,K1,…,K7,則該鄰域中心位置(x,y)處的邊緣強(qiáng)度為:
K(x,y)=max{Ki}(i=0,1,…,7)
(8)
通過式(8),即可提取二值圖像中每一點(diǎn)的邊緣信息。
局部二值模式(LBP)[16]可以很好地刻畫圖像的局部紋理特征,并通過不同鄰域位置點(diǎn)的不同權(quán)重將鄰域像素的空間位置關(guān)系考慮在內(nèi)。另外,LBP算子考慮3×3的圖像區(qū)域,針對圖像塊提取紋理特征,這與文中研究的需求一致。該算子還有魯棒性好、對光照變化不敏感等優(yōu)點(diǎn)。所以,采用LBP算子提取二值圖像的紋理特征。
LBP算子描述的是圖像的局部紋理信息,用該算子進(jìn)行特征提取的具體步驟為:
(1)設(shè)定窗口大小。通常LBP算子采用的窗口大小為3×3,也就是考慮一個像素的8鄰域;
(2)鄰域像素二值化。以窗口的中心點(diǎn)像素灰度值為閾值,比較該像素的8個鄰域像素與閾值的大小,像素值大于閾值的鄰域點(diǎn)標(biāo)記為1,反之標(biāo)記為0。如此,經(jīng)比較就可以得到8個值為0或1的標(biāo)記值;
(3)求解LBP值。對第2步中得到的8位標(biāo)記值進(jìn)行加權(quán)求和,即可得到這一窗口的LBP值。上文所述的對8位標(biāo)記值進(jìn)行加權(quán)求和可以理解為將8位標(biāo)記值組成的二進(jìn)制數(shù)轉(zhuǎn)化為十進(jìn)制數(shù)。
上述LBP值的計算可歸納為如下數(shù)學(xué)形式:
(9)
其中,(xc,yc)為窗口中心點(diǎn)的坐標(biāo);gc為中心點(diǎn)像素的灰度值;P為窗口內(nèi)除中心點(diǎn)外其余點(diǎn)的個數(shù),對于大小設(shè)定為3×3的窗口,P的值為8;gi(i=0,1,…,P-1)為中心點(diǎn)各個鄰域的灰度值。式(9)的結(jié)果即為點(diǎn)(xc,yc)處的LBP值。
對圖像中的每一個像素點(diǎn),通過式(9)求出LBP值,就可以得到基于LBP算子的圖像紋理特征。
除了上述的邊緣特征和紋理特征之外,還使用了水平和垂直兩個二階梯度算子,以進(jìn)一步對低分辨率二值圖像的特征進(jìn)行有效提取。這兩個二階梯度算子分別定義如下:
H1=[-1,0,2,0,-1]
(10)
H2=[-1,0,2,0,-1]T
(11)
通過Kirsch邊緣檢測算子、LBP算子及以上兩個二階梯度算子提取的二值圖像特征可以表示為:
(12)
由1.2節(jié)可知,在重建高分辨率二值圖像時,用了低分辨率二值圖像特征塊的稀疏表示系數(shù)α*。因此,要保證高、低分辨率二值圖像在通過高分辨率字典DH和低分辨率字典DL稀疏表示時的稀疏系數(shù)相同,可以通過對高、低分辨率圖像(特征)塊的聯(lián)合字典學(xué)習(xí)來實現(xiàn)。
(13)
(14)
其中,A為XL和YH的稀疏表示系數(shù)矩陣;DL和DH分別為對應(yīng)XL和YH的稀疏字典;μ為正則化參數(shù)。
然后,合并式(13)和式(14)可得:
(15)
其中,M和N分別為向量形式下高、低分辨率圖像(特征)塊的維數(shù)。
這樣,就將高、低分辨率字典統(tǒng)一到同一個稀疏編碼框架中,以保證稀疏表示系數(shù)的相同。式(15)可由K-SVD算法[17]求解。
由于二值圖像訓(xùn)練樣本中包含了二維碼圖像、條形碼圖像、文本圖像等不同類型的二值圖像,這些圖像的特征不盡相同,甚至對于同一種類型的圖像也有些許不同。比如不同模塊寬度的二維碼圖像之間就有差異。如果用同一個字典來表達(dá)這些不同類型的二值圖像是不夠準(zhǔn)確的,若對不同類型的圖像采用不同的字典,對重建二值圖像有積極作用。因此,為了讓稀疏字典更加合理、更有針對性,首先通過聚類算法將訓(xùn)練樣本中的二值圖像塊聚成K類,再對每一類中的樣本圖像塊分別進(jìn)行對應(yīng)的聚類子字典的學(xué)習(xí),由此產(chǎn)生針對K類二值圖像塊的K對高、低分辨率字典,用于二值圖像的超分辨率重建,以進(jìn)一步提高二值圖像重建的質(zhì)量。
K-means聚類算法具有復(fù)雜度低、處理數(shù)據(jù)效率高、算法收斂較快等顯著優(yōu)點(diǎn),可以用于處理較大的數(shù)據(jù)集。因此,文中采用該算法來對訓(xùn)練樣本集中的二值圖像塊進(jìn)行聚類。K-means聚類算法的基本思想是:首先隨機(jī)選取K個樣本來初始化聚類中心,隨后對樣本中的每一個數(shù)據(jù),依次判斷其屬于哪一類,然后更新聚類中心,如此不斷迭代直至收斂。
基于K-means聚類的字典學(xué)習(xí)方法的步驟如下:
(1)選取合適的二值圖像,作為字典學(xué)習(xí)的訓(xùn)練樣本,將這些二值圖像分成5×5大小的圖像塊;
(2)確定字典學(xué)習(xí)所需的圖像樣本塊數(shù)量,隨機(jī)選取該數(shù)量的高、低分辨率二值圖像樣本塊對;
(3)對圖像塊樣本集進(jìn)行K-means聚類,得到K個樣本子集;
(4)對每一個樣本子集,通過K-SVD算法進(jìn)行高、低分辨率字典的學(xué)習(xí),得到K對高、低分辨率字典。
基于該字典學(xué)習(xí)方法的二值圖像超分辨率重建的過程如下:
(1)將輸入的低分辨率二值圖像進(jìn)行特征提取,得到低分辨率圖像特征塊;
(2)對每一個低分辨率二值圖像特征塊:
求解其在K個低分辨率子字典下的稀疏表示系數(shù),以及到這K個聚類中心的距離;
通過該系數(shù)和對應(yīng)的高分辨率子字典,求解出對應(yīng)的K個高分辨率二值圖像塊;
將這K個高分辨率二值圖像塊加權(quán)合成一個高分辨率二值圖像塊,該結(jié)果即為重建出的對應(yīng)輸入的低分辨率二值圖像特征塊的高分辨率二值圖像塊。其中,權(quán)重系數(shù)即為步驟(1)中所求得的低分辨率二值圖像特征塊到各個聚類中心的距離的倒數(shù)。
(3)在循環(huán)完所有的低分辨率二值圖像塊,得到所有的對應(yīng)的高分辨率二值圖像塊后,將其合成高分辨率二值圖像。
為了驗證對二值圖像超分辨率重建的有效性,選擇Bicubic、Yang[6]和BP[18]三種算法對二值圖像超分辨率重建效果進(jìn)行對比。文中算法在實驗中的參數(shù)設(shè)置如下:稀疏字典的大小為256,訓(xùn)練樣本塊數(shù)量為10 000,聚類個數(shù)為3,正則化參數(shù)為0.15,圖像的放大倍數(shù)為2,即對輸入的低分辨率二值圖像的長寬都放大2倍,重建出其對應(yīng)的高分辨率二值圖像。
在實驗中,隨機(jī)選取了9張二值圖像作為實驗數(shù)據(jù),并標(biāo)記為圖像0到圖像8。其中,圖像0~2為二維碼圖像,圖像3~5為條形碼圖像,圖像6~8為文本圖像,選擇這幾種典型的二值圖像類型以驗證文中算法對二值圖像重建的效果。采取指標(biāo)峰值信噪比(PSNR)來評價算法對二值圖像的重建質(zhì)量。PSNR值越高,說明重建出的高分辨率圖像和原始的高分辨率圖像越接近,重建質(zhì)量越好。
實驗結(jié)果如表1所示。由于對訓(xùn)練樣本塊的選取是隨機(jī)的,所以對每一張二值圖像,都進(jìn)行了10次實驗,取10次結(jié)果的平均值,得來的結(jié)果更具代表性和準(zhǔn)確性。
表1 不同算法對二值圖像重建效果對比
從表1可知,文中算法在各類二值圖像上均取得了更好的效果,說明了該算法對二值圖像的超分辨率重建有著很強(qiáng)的針對性,重建質(zhì)量較好。
圖1展示了不同算法對同一幅文本圖像的超分辨率重建效果。
從圖1可以看出,Bicubic方法的結(jié)果較為模糊,Yang算法和BP算法結(jié)果相近,明顯優(yōu)于Bicubic,而文中算法對二值圖像的細(xì)節(jié)信息重建的更加完整,優(yōu)于其他算法,有更好的視覺效果。
圖1 結(jié)果對比
由于在實際情況中,圖像不可避免地會受到噪聲的影響,因此,算法對噪聲的魯棒性也是值得考慮的一個方面。選取二維碼圖像0,條形碼圖像3,文本圖像6進(jìn)行本次實驗,對輸入的低分辨率二值圖像施加均值為0,標(biāo)準(zhǔn)差為0~10的高斯噪聲,對這些不同程度的含噪二值圖像進(jìn)行超分辨率重建,結(jié)果如表2所示。
表2 重建含噪二值圖像效果對比
從實驗結(jié)果可知,隨著高斯噪聲程度的不斷增強(qiáng),Bicubic算法、Yang算法以及文中算法都有在一定程度(可接受)的下降,不過,都保持著較好的重建效果。對比其他方法,文中算法均保持著更高的PSNR值。PSNR指標(biāo)值的下降幅度不大,說明文中算法在抗噪聲這一方面的優(yōu)勢,對噪聲具有魯棒性。
提出了一種針對二值圖像的基于稀疏表示的超分辨率重建算法。通過提取二值圖像的邊緣特征和紋理特征,可以有效地重建二值圖像的高頻細(xì)節(jié)。另外,二值圖像中存在二維碼圖像、文本圖像等不同類型的圖像,針對這一特點(diǎn),提出了適用于二值圖像的字典學(xué)習(xí)方法,進(jìn)一步提高了二值圖像重建的效果。在對含噪二值圖像的重建上,該算法表現(xiàn)出了不錯的效果。但是仍存在不足之處,在提高二值圖像重建速度這一方面,還需進(jìn)一步的研究與探索。
[1] Ren C,He X,Teng Q,et al.Single image super-resolution using local geometric duality and non-local similarity[J].IEEE Transactions on Image Processing,2016,25(5):2168-2183.
[2] Li X,Lu X,Yuan H,et al.Geometry constrained sparse coding for single image super-resolution[C]//IEEE conference on computer vision and pattern recognition.[s.l.]:IEEE,2012:1648-1655.
[3] Dong W,Zhang D,Shi G.Centralized sparse representation for image restoration[C]//International conference on computer vision.[s.l.]:IEEE,2013.
[4] Zhang J,Zhao C,Xiong R,et al.Image super-resolution via dual-dictionary learning and sparse representation[C]//IEEE international symposium on circuits and systems.[s.l.]:IEEE,2012:1688-1691.
[5] Yang J,Wright J,Huang T,et al.Image super-resolution as sparse representation of raw image patches[C]//IEEE conference on computer vision and pattern recognition.[s.l.]:IEEE,2008:1-8.
[6] Yang J,Wright J,Huang T S,et al.Image super-resolution via sparse representation[J].IEEE Transactions on Image Processing,2010,19(11):2861-2873.
[7] Zeyde R,Elad M,Protter M.On single image scale-up using sparse-representations[C]//International conference on curves and surfaces.[s.l.]:[s.n.],2010:711-730.
[8] Zhang H,Zhang Y,Huang T S.Efficient sparse representationbased image super resolution via dual dictionary learning[C]//IEEE international conference on multimedia and expo.[s.l.]:IEEE,2011:1-6.
[9] Dong W,Zhang L,Shi G,et al.Nonlocally centralized sparse representation for image restoration[J].IEEE Transactions on Image Processing,2013,22(4):1620-1630.
[10] Liu W,Li S.Sparse representation with morphologic regularizations for single image super-resolution[J].Signal Processing,2014,98(5):410-422.
[11] Peleg T,Elad M.A statistical prediction model based on sparse representations for single image super-resolution[J].IEEE Transactions on Image Processing,2014,23(6):2569-2582.
[12] Zhang Y,Liu J,Yang W,et al.Image super-resolution based on structure-modulated sparse representation[J].IEEE Transactions on Image Processing,2015,24(9):2797-2810.
[13] Mairal J,Elad M,Sapiro G.Sparse representation for color image restoration[J].IEEE Transactions on Image Processing,2008,17(1):53-69.
[14] Candes E J,Tao T.Near-optimal signal recovery from random projections:universal encoding strategies?[J].IEEE Transactions on Information Theory,2006,52(12):5406-5425.
[15] Acharya T,Ray A K.Image processing: principles and applications[M].[s.l.]:John Wiley & Sons,2005.
[16] Ojala T,Pietikainen M,Maenpaa T.Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2002,24(7):971-987.
[17] Aharon M,Elad M,Bruckstein A.K-SVD:an algorithm for designing overcomplete dictionaries for sparse representation[J].IEEE Transactions on Signal Processing,2006,54(11):4311-4322.
[18] Polatkan G,Zhou M,Carin L,et al.A Bayesian nonparametric approach to image super-resolution[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(2):346-358.
ASuper-resolutionReconstructionAlgorithmforBinaryImageBasedonSparseRepresentation
SHEN Yi-ling1,ZHAO Ming-zhe1,LI Qiang-yi1,LI Bo-han1,2,3
(1.School of Computer Science and Technology,Nanjing University of Aeronautics and Astronautics,Nanjing 210016,China;2.Collaborative Innovation Center of Novel Software Technology and Industrialization,Nanjing 210093,China;3.Jiangsu E-Map Geographic Information Technology Co.,Ltd,Yangzhou 225009,China)
At present,there is little research on binary image super-resolution reconstruction.Binary image is widely used,but that of low-resolution will result in identification difficulties.In view of this,with deep research on binary image super-resolution reconstruction based on sparse representation,a super-resolution reconstruction algorithm for binary image is proposed.On the one hand,obvious features of the binary image are analyzed,and the edge and texture features of that are extracted to represent its high frequency information more accurately.Therefore,more priori information is provided,and the reconstructed quality of binary image is improved.On the other hand,for the different types in binary images,such as two-dimensional bar code and text,the clustering algorithm is integrated into dictionary learning,so that the learned dictionaries are more suitable for different types of binary image.Experimental results show that the proposed algorithm has a good effect in reconstruction for the binary image,with a certain robustness against noise.
binary image;sparse representation;super-resolution reconstruction;feature extraction;dictionary learning
TP301.6
A
1673-629X(2017)12-0043-05
10.3969/j.issn.1673-629X.2017.12.010
2016-12-28
2017-04-28 < class="emphasis_bold">網(wǎng)絡(luò)出版時間
時間:2017-08-01
國家自然科學(xué)基金資助項目(61375021);國家自然科學(xué)基金青年基金(41301407)
沈怡靈(1992-),女,碩士研究生,研究方向為數(shù)字圖像處理和模式識別。
http://kns.cnki.net/kcms/detail/61.1450.TP.20170801.1556.070.html