王 軒 孫權(quán)森 劉佶鑫
(1. 南京理工大學(xué)計算機科學(xué)與工程學(xué)院,南京, 210094;2. 南京郵電大學(xué)寬帶無線通信技術(shù)教育部工程研究中心,南京, 210003)
遙感圖像數(shù)據(jù)發(fā)展具有高分辨率、高光譜和多時相的趨勢,導(dǎo)致信息量的與日俱增,大大增加了存儲和傳輸?shù)拇鷥r。因而與普通成像相比,遙感成像對數(shù)據(jù)壓縮技術(shù)提出了更高的要求。為此,壓縮感知作為一種新理論被引入相關(guān)領(lǐng)域。壓縮感知理論[1]指出,只要信號是稀疏的或者在某一變換空間是稀疏的、可壓縮的,就可以以遠低于奈奎斯特頻率進行采樣,并能夠精確地重構(gòu)原始信號。因此,對遙感圖像采用壓縮感知理論進行圖像壓縮與重構(gòu)具有節(jié)約工作時間、節(jié)省存儲和傳輸代價的優(yōu)勢,僅需少量數(shù)據(jù)即可重構(gòu)原始的高分辨率遙感圖像。
根據(jù)Donoho和Candes等的理論[2],信號在字典下的表示系數(shù)越稀疏,則重構(gòu)質(zhì)量越高。因此,設(shè)計簡單、高效、通用性強和重構(gòu)圖像質(zhì)量高的字典學(xué)習(xí)算法十分重要,是目前主要研究方向之一。近年來稀疏編碼在信號和圖像處理領(lǐng)域應(yīng)用廣泛。文獻[3]給出了關(guān)于求稀疏解的方法,該方法試圖從一個典型的較大的過完備字典中找到一小部分最能表示一個特定信號的向量[4,5]。這些算法假設(shè)存在一個合適的字典矩陣具有一定的性質(zhì),以保證信號表示的稀疏性。確切地說,選擇一個字典矩陣對于解的稀疏性和信號表示的準確性有重要影響。
字典學(xué)習(xí)可提取樣本數(shù)據(jù)的內(nèi)部結(jié)構(gòu)特征,已被廣泛應(yīng)用于去噪[6]、特征提取[7]、模式識別與分類[8]以及壓縮感知等領(lǐng)域。Elad等采取了K-SVD(K-singular value decomposition)[9]的字典學(xué)習(xí)算法,采用超完備的冗余函數(shù)系統(tǒng)代替?zhèn)鹘y(tǒng)的正交基函數(shù),為信號自適應(yīng)地稀疏擴展提供了極大的靈活性。在重構(gòu)過程中采取正交匹配追蹤(Orthogonal matching pursuit,OMP)的方法[5],信號稀疏表示的重構(gòu)質(zhì)量上略有提升。在文獻[9]中,作者把K-SVD與包括MOD[10]在內(nèi)的其他字典學(xué)習(xí)算法在圖像壓縮和重建方面大量作對比。人臉識別是這種字典學(xué)習(xí)方法的另一應(yīng)用[11]。文獻[12-14]針對視頻壓縮、視頻編碼和聲吶圖像數(shù)據(jù)提出了字典學(xué)習(xí)和相應(yīng)的快速重構(gòu)方法。
本文針對不同地物的高分辨率遙感圖像,提出一種基于稀疏表示和典型地物字典學(xué)習(xí)的遙感圖像分塊壓縮重構(gòu)算法,使用K-SVD字典學(xué)習(xí)算法訓(xùn)練典型地物的字典。重構(gòu)過程首先對部分觀測數(shù)據(jù)迭代求解出稀疏表示原圖像的原子,然后優(yōu)先使用相鄰塊的部分原子求表示殘差,以減少迭代次數(shù)。該算法與其他字典如離散余弦變換(Discrete Cosine transform,DCT)、離散小波變換(Discrete wavelet transform, DWT)等壓縮重構(gòu)算法相比,保留了圖像的結(jié)構(gòu)信息,高效地重構(gòu)出遙感圖像。
壓縮感知理論要求,壓縮信號f必須在某個變換域是稀疏的,自然信號可以通過某種變換進行稀疏表示,即f=Dx,x為信號f在某種變換的稀疏表示,并有
y=Φf=ΦDx=Ψx
(1)
式中:Φ為觀測矩陣;y是稀疏信號x關(guān)于觀測矩陣的測量值。如果Φ滿足約束等距條件可以通過求解
(2)
的最優(yōu)范數(shù)問題來重構(gòu)稀疏信號x。接著通過下式恢復(fù)原始信號
(3)
通過對遙感圖像進行有效的隨機觀測,可將信息匯聚到少量的采樣數(shù)據(jù)中;同時,優(yōu)良的字典設(shè)計和重構(gòu)方法的選擇和能夠保證由少量的采樣數(shù)據(jù)恢復(fù)出原始的高分辨率遙感圖像。
目前,字典構(gòu)造方法一般分為兩種:解析方法和學(xué)習(xí)方法[15]?;诮馕龇椒?gòu)造的字典通過事先定義好的某種數(shù)學(xué)變換或調(diào)和分析方法來構(gòu)造, 字典中的每個原子可用數(shù)學(xué)函數(shù)或少量的參數(shù)來刻畫, 如離散余弦變換、小波變換等。該方法雖然構(gòu)造相對簡單, 計算復(fù)雜度低, 但原子的基本形狀固定, 原子的形態(tài)不夠豐富, 不能與圖像本身的復(fù)雜結(jié)構(gòu)最佳匹配。
近年來人們開始根據(jù)數(shù)據(jù)或信號本身來學(xué)習(xí)過完備字典, 這類字典中的原子與訓(xùn)練集中的信號本身相適應(yīng)。與基于解析方法的字典相比, 通過學(xué)習(xí)獲得的字典原子數(shù)量更多, 形態(tài)更豐富, 能更好地與信號或圖像本身的結(jié)構(gòu)匹配, 具有更稀疏的表示。
字典學(xué)習(xí)可提取樣本數(shù)據(jù)的內(nèi)部結(jié)構(gòu)特征。其學(xué)習(xí)方法一般可以通過優(yōu)化下式獲取,即
(4)
通過對某一類的圖像進行訓(xùn)練以獲得字典的方法,最典型的方法是K-SVD算法。K-SVD算法用來學(xué)習(xí)一個專用字典矩陣,最好地適應(yīng)一組訓(xùn)練集。K-SVD在現(xiàn)有的稀疏編碼追蹤方法中適應(yīng)性較強,可以用于表示數(shù)據(jù)。
該方法針對目標函數(shù)式(4),首先進行稀疏表示,即對固定字典D,計算的表示系數(shù)αi,有
(5)
(6)
(7)
壓縮感知信號重構(gòu)指的是由M次測量向量x重構(gòu)長度為N的稀疏信號y的過程[16]。可以通過求解最小范數(shù)問題加以解決,但最小范數(shù)是一個NP-hard問題,需要窮舉x中非零值所有的種排列可能。OMP[5]是一種貪婪迭代算法,其基本思想是在每一次的迭代過程中,從過完備原子庫里選擇與信號最匹配的原子來構(gòu)建稀疏逼近,并求出信號表示殘差,然后繼續(xù)選擇與信號殘差最為匹配的原子,通過遞歸地對已選擇原子集合進行正交化以保證迭代的最優(yōu)性,經(jīng)過一定次數(shù)的迭代,信號可以由一些原子線性表示。正交匹配追蹤算法以極大概率準確重構(gòu)信號,而且比最小范數(shù)法更快,在圖像重構(gòu)中應(yīng)用廣泛。
遙感圖像是傳感器所獲得信息的產(chǎn)物,是遙感探測目標的信息載體。針對不同類型地物的遙感圖像選擇最優(yōu)的稀疏表示方法,可以有效地提高遙感圖像重構(gòu)質(zhì)量,便于后期的信息提取工作。圖1是本文方法的流程圖,其中實線框內(nèi)部分為本方法主要內(nèi)容。
圖1 字典訓(xùn)練與圖像分塊重構(gòu)流程圖Fig.1 Picture of dictionary training and image block reconstruction
地球表面不同類型的地物在遙感影像上具有不同的影像特征,因而能夠在遙感影像上區(qū)分和識別不同的地物類型。其中,水域、農(nóng)田、山脈和城市等是陸地表面典型的地物類型,既有自然地物,也有人工改造形成的地物。水域?qū)μ柟馕?、反射和透射隨波長的變化而變化,總體上吸收大于反射和透射,灰度直方圖見圖2(a)。同時,由于水體表面總體上是平的,不同入射角的光線有不同的反射能力,遙感圖像上水體也會有不同的影像特征。農(nóng)田及植被在地表分布較廣,是地球生態(tài)系統(tǒng)的重要組成部分。農(nóng)田具有典型的波譜選擇性反射特性,在可見光反射率都比較低,灰度直方圖見圖2(b)。在遙感影像上,農(nóng)田的影像特征主要體現(xiàn)在色調(diào)、形狀和圖案等方面。農(nóng)田影像有人為造成的塊狀、條帶狀等幾何形態(tài)。不同質(zhì)地的山脈,其波譜特性不同。遙感圖像色調(diào)的深淺與山脈土壤有機質(zhì)含量、濕度大小和質(zhì)地粗細有關(guān)。有機質(zhì)含量高、濕度大且質(zhì)地細的色調(diào)較深。圖2(c)為一幅山脈圖像的灰度直方圖。城市既是人類最為集中的地域,又是一定地域的政治、經(jīng)濟和文化活動的中心。城市的影像特征表現(xiàn)在灰度、形狀及空間布局等方面,灰度直方圖見圖2(d)。城市構(gòu)成以房屋為主,兼有道路、植被和水體等,具有這些地物的全部波譜、形態(tài)、布局和圖形結(jié)構(gòu)等特征。房屋不同質(zhì)地的屋頂具有不同的波譜特征。石棉屋頂和塑料屋頂?shù)姆瓷渎瘦^高。
信號的最佳稀疏表示是壓縮感知理論應(yīng)用的基礎(chǔ)和前提,只有選擇合適的字典表示信號才能保證信號的稀疏度,從而保證信號的重構(gòu)精度。而遙感圖像內(nèi)容豐富、數(shù)據(jù)類型多且目標小,且包含了豐富的紋理信息,不同地物通常呈現(xiàn)獨特的多尺度特征。
針對2.1節(jié)中提到的水域、農(nóng)田、山脈和城市4種陸地上典型的地物類型,對訓(xùn)練集中的遙感圖像進行分類,構(gòu)建4組訓(xùn)練集,參考圖像如圖3所示。在每組訓(xùn)練集上使用K-SVD的字典學(xué)習(xí)方法,訓(xùn)練得到分類聯(lián)合字典,其中ω為字典類別數(shù)。
圖3 4類典型地物遙感圖像
圖4 分塊處理示意圖 Fig.4 Block processing schematic
由于對同一遙感圖像的局部區(qū)域的進行稀疏表示時,使用的過完備字典中的部分原子存在重復(fù)或相似??紤]將圖像分塊,首先對分塊圖像的部分塊的觀測值(圖4中灰色塊),從過完備字典中使用OMP貪婪迭代算法迭代求解出一組能稀疏表示的原子;對于其鄰域內(nèi)的觀測值(圖4中白色塊),先用這些原子中的一部分求稀疏表示殘差,再對殘差進行迭代求解得到剩余的稀疏表示原子。本文采用的是每3×3的9個塊中,先對中心的1塊求解,再根據(jù)其求解使用的原子優(yōu)先對其周圍鄰域的8個塊求表示殘差,進一步求解,大大提升了鄰域塊的重構(gòu)效率。如果擴大鄰域范圍,例如對5×5的25個塊為一組進行處理,效率將更高,但對重構(gòu)質(zhì)量有一定損失。
具體步驟如下:
(1) 遙感圖像壓縮感知觀測過程。
對原圖像f及觀測矩陣Φ進行分塊觀測,得到觀測值y(i,j為圖像塊的行、列號),即
yi,j=Φi,jfi,ji,j=1,2,…
(8)
(2) 遙感圖像塊重構(gòu)過程。
輸入:觀測矩陣Φ,典型地物的學(xué)習(xí)字典,稀疏度k,觀測值y,信號表示殘差最小值,圖像總塊數(shù)N,保留原子個數(shù)s(s 輸出:可以稀疏表示原圖像的原子索引集Λ。 步驟1:初始化殘差r=yi,j,索引集Λ0=? 步驟2:對行列號為y(i=3n+2,j=3n+2)的觀測值塊(圖5中灰色塊),找出殘差r和字典Dβ積中最大值所對應(yīng)的腳標λ (9) 更新索引集 Λt=Λt-1∪{λt} (10) 記錄下字典中找到的稀疏表示原圖像的原子集合 Φt=[Φt-1,dj] (11) 由最小二乘得到 (12) 更新殘差 (13) t=t+1,判斷是否滿足t≥k或r 步驟3: 處理步驟2中的觀測值塊(圖4中白色塊):y(i=3n+2,j=3n+2)的8個鄰域塊:y(i=3n+1,j=3n+1),y(i=3n+2,j=3n+1),y(i=3n+3,j=3n+1),y(i=3n+1,j=3n+2),y(i=3n+3,j=3n+2),y(i=3n+1,j=3n+3),(i=3n+2,j=3n+3),y(i=3n+3,j=3n+3),初始化稀疏表示原子集合Φ0和索引集Λ0,保留y(i=3n+2,j=3n+2)的s個原子及其索引 Φ0=Φs (14) Λ0=Λs (15) 計算殘差 (16) (17) 繼續(xù)查找原子,同步驟2。 若n 步驟4:由步驟2和步驟3中找到的索引集恢復(fù)原圖像塊,即 (18) 為了驗證本文方法針對典型地物的遙感圖像的重構(gòu)效果以及時間效率,分別用3種方法進行對比:使用固定的DCT字典與OMP重構(gòu)方法;未分類的遙感圖像訓(xùn)練的通用學(xué)習(xí)字典與OMP重構(gòu)方法;以及本文提出的4種典型地物的學(xué)習(xí)字典與鄰域分塊優(yōu)化重構(gòu)方法。對4類典型地物的遙感圖像構(gòu)建樣本集,包括水域、農(nóng)田、山脈和城市等4種陸地典型地物,并從中選出部分圖像進行測試。 首先從每類典型地物圖像中選取100幅像素為512×512的圖像作為訓(xùn)練集,分別進行K-SVD字典學(xué)習(xí),迭代次數(shù)30次,學(xué)習(xí)字典參數(shù)為:塊大小8×8,原子個數(shù)256,稀疏度10,得到4種典型地物的學(xué)習(xí)字典。用3種方法的字典對壓縮后的4類典型地物各10組測試數(shù)據(jù)數(shù)據(jù)進行重構(gòu),測試圖像大小1 024×1 024像素,相鄰塊取8個,重構(gòu)時保留的原子個數(shù)取9個。為了直觀地比較試驗結(jié)果,本文從測試集中選取了一幅山脈圖像展示了試驗效果。圖5(a)為輸入的測試圖像,圖5(b)為本方法重構(gòu)后的圖像??梢钥闯鲋庇^效果差別不大。 本文采用了峰值信噪比(Peak signal to noise ratio,PSNR)和結(jié)構(gòu)相似度索引(Structural similarity index measurement,SSIM)為遙感圖像重構(gòu)結(jié)果的圖像質(zhì)量評價指標。PSNR 值越大,SSIM 值越大,則重構(gòu)圖像與參考圖像就越接近,說明算法效果越好。用部分測試圖像運行結(jié)果繪制了兩項指標的曲線圖如圖6所示。 圖5 測試圖像與重構(gòu)圖像 圖6 DCT字典、通用學(xué)習(xí)字典及本文方法重構(gòu)效果曲線圖 圖7 DCT字典、通用學(xué)習(xí)字典及本文方法重構(gòu)時間曲線圖 Fig.7 Reconstruction time graph of DCT diction-ary, general dictionary and proposed method 可以看出本文方法采用典型地物的字典(紅色“*-”線)在重構(gòu)質(zhì)量上,PSNR與SSIM兩項指標較通用學(xué)習(xí)字典(藍色“—”線)有明顯提升。除樣本3,4(水域圖像)的重構(gòu)結(jié)果略低于DCT字典,其余樣本(農(nóng)田、山脈、城市圖像)與DCT字典(綠色“+-”線)相比略有提高。且PSNR均穩(wěn)定在28 dB以上。 圖7是3種方法的重構(gòu)時間,可以看出無論是DCT字典或通用學(xué)習(xí)字典,重構(gòu)時間在45 s以上。而本文方法(圖中紅色“*-”線)大大縮短了重構(gòu)時間,均在35 s以內(nèi),平均占DCT字典重構(gòu)時間的54.5%,效率較高。因此,本文的基于典型地物字典學(xué)習(xí)及鄰域分塊優(yōu)化的重構(gòu)方法較DCT字典和訓(xùn)練的K-SVD學(xué)習(xí)字典在重構(gòu)質(zhì)量上稍有提升,在重構(gòu)時間上優(yōu)勢較明顯。 基于遙感圖像的壓縮感知模型,本文針對現(xiàn)有的字典構(gòu)造方法及重構(gòu)方法中存在不同地物圖像重構(gòu)效果差別大,重構(gòu)時間有待提升等問題,提出了一種新的字典學(xué)習(xí)及分塊重構(gòu)方法。該方法在聯(lián)合字典學(xué)習(xí)的基礎(chǔ)上引入了分類字典的概念。依據(jù)4類典型地物的遙感圖像訓(xùn)練冗余字典。在重構(gòu)過程中,對鄰域圖像塊保留部分字典原子以提升重構(gòu)效率。實驗表明,本方法在保證重構(gòu)效果的同時,在重構(gòu)時間上有大幅提升。此外,本方法還可以通過調(diào)整相鄰塊數(shù)和保留原子個數(shù)來調(diào)整重構(gòu)時間或重構(gòu)圖像質(zhì)量,在通過觀測值選擇相應(yīng)字典方面是下一步研究的重點。 參考文獻: [1] Candes E J, Romberg J. Quantitative robust uncertainty principles and optimally sparse decompositions[J]. Foundations of Computational Mathematics, 2006, 6(2):227-254. [2] Donoho D L. Compressed sensing[J]. IEEE Transactions on Information Theory, 2006, 52(4):1289-1306. [3] Bruckstein A M, Elad M. From sparse solutions of systems of equations to sparse modeling of signals and images[J]. SIAM Review, 2009, 51(1): 34-81. [4] Chen S S, Donoho D L, Saunders M A. Atomic decomposition by basis pursuit[J]. SIAM Review, 2001, 43(1):33-61. [5] Tropp J A, Gilbert A C. Signal recovery from random measurements via orthogonal matching pursuit[J]. IEEE Transactions on Information Theory, 2008, 53(12):4655-4666. [6] Elad M, Aharon M. Image denoising via sparse and redundant representations over learned dictionaries[J]. IEEE Transactions on Image Processing, 2007, 15(12):3736-3745. [7] Ramirez I, Sprechmann P, Sapiro G. Classification and clustering via dictionary learning with structured incoherence and shared features[C]∥IEEE Conference on Computer Vision & Pattern Recognition (CVPR).[S.l.]:IEEE, 2010:3501-3508. [8] Jiang Z, Lin Z, Davis L S. Learning a discriminative dictionary for sparse coding via label consistent K-SVD[C]∥IEEE Conference on Computer Vision & Pattern Recognition (CVPR).[S.l.]:IEEE, 2011:1697-1704. [9] Aharon M, Elad M, Bruckstein A K. K-SVD: An algorithm for designing overcomplete dictionaries for sparse representation[J]. IEEE Transactions on Signal Processing, 2006, 54(11): 4311-4322. [10] Kreutz-Delgado K, Murray J F, Rao B D, et al. Dictionary learning algorithms for sparse representation[J]. Neural Computation, 2006, 15(2):349-396. [11] Zhang Q, Li B. Discriminative K-SVD for dictionary learning in face recognition[C]∥IEEE Conference on Computer Vision & Pattern Recognition (CVPR).[S.l.]:IEEE, 2010:2691-2698. [12] Chen H W, Kang L W, Lu C S. Dictionary learning-based distributed compressive video sensing[C]∥Picture Coding Symposium (PCS). Nagoya, Japan: [s.n.],2010:210-213. [13] Azimi-Sadjadi M R, Kopacz J, Klausner N. K-SVD dictionary learning using a fast OMP with applications[C]∥IEEE International Conference on Image Processing (ICIP).[S.l.]:IEEE, 2014:1599-1603. [14] 郭繼昌, 金卯亨嘉. 一種基于字典學(xué)習(xí)的壓縮感知視頻編解碼模型[J]. 數(shù)據(jù)采集與處理, 2015, 30(1):59-67. Guo Jicang, Jin Maohengjia. Dictionary learning-based compressive video sensing codec model[J]. Journal of Data Acquisition and Processing, 2015,30(1):59-67. [15] 練秋生, 石保順, 陳書貞. 字典學(xué)習(xí)模型、算法及其應(yīng)用研究進展[J]. 自動化學(xué)報, 2015, 41(2):240-260. Lian Qiusheng, Shi Baoshun, Chen Shuzhen. Research advances on dictionary learning models, algorithms and applications[J]. Acta Automatica Sinica, 2015, 41(2):240-260. [16] 李樹濤, 魏丹. 壓縮傳感綜述[J]. 自動化學(xué)報, 2009, 35(11):1369-1377. Li Shutao , Wei Dan. A survey on compressive sensing[J]. Acta Automatica Sinica, 2009, 35(11):1369-1377.3 實驗驗證
4 結(jié)束語