孫小芳
(閩江學院地理科學系,福州 350121)
稀疏表達又稱為稀疏分解,用冗余函數(shù)構(gòu)造稀疏字典,在影像融合中對高、低空間分辨率影像分別計算稀疏系數(shù),通過算法生成融合影像的融合稀疏系數(shù),進而結(jié)合稀疏字典完成影像稀疏融合[1]。基于稀疏思想的融合中,稀疏字典與融合稀疏系數(shù)的生成是2個研究重點。
稀疏字典從用途來看,可分成待融合影像的稀疏字典與融合結(jié)果影像的稀疏字典。待融合影像是指用于融合的高、低空間分辨率影像,該類字典的來源有2種:①將標準正交基級聯(lián)得到超完備字典,通常包括傅里葉變換、小波變換、離散余弦變換、Gabor濾波、曲線波以及輪廓波等,例如將同一空間位置對應的同方向跨尺度小波基函數(shù)的線性組合作為新的基函數(shù)[2];②通過待融合影像的樣本學習來構(gòu)造過完備字典,參與字典學習的樣本類型包括隨機選擇樣本[3]、基于影像分割或分類所產(chǎn)生的區(qū)域影像建立樣本[4]、基于隨機共振和自適應的稀疏域選擇樣本[5]及選擇純像元建立字典學習樣本[6]等。融合結(jié)果影像的字典除了各種標準正交基函數(shù)外,還包括以下3類:①采用多光譜影像字典,例如在MODIS與ETM+影像融合中,由MODIS影像提供融合影像的字典[6];②采用高空間分辨率影像字典,例如SPOT與TM影像融合中,融合字典由SPOT影像字典提供[7];③基于多光譜字典與高空間分辨率影像字典利用規(guī)則生成融合字典,該種融合字典生成的方法包括正則項建立優(yōu)化函數(shù)求融合字典[8-10]、對各種聚類子字典采用主成分分析(principal component analysis,PCA)方法構(gòu)造融合字典[11]、利用融合字典與高空間分辨率影像字典存在的權重關系及融合字典與多光譜字典存在的模糊濾波關系構(gòu)建融合字典[8]以及隨機選擇高空間分辨率影像與多光譜影像樣本建立聯(lián)合字典[3]。
目前字典的生成多數(shù)直接來源于影像樣本,但由于遙感影像的空間分辨率限制,在地物復雜地區(qū)大多數(shù)影像存在著混合像元問題,這使得字典的精度受到一定影響。2014年Huang等[6]利用MODIS影像中的純像元建立字典,但是MODIS影像中各種地類的純像元個數(shù)較少,影響了字典的應用效果。為了減少混合像元對字典建立的影響,本研究在像元線性分解影像中利用在線字典學習法建立字典,通過提取分解影像字典與全色影像字典的主成分分量建立PCA聯(lián)合稀疏字典,融合影像的稀疏系數(shù)采用非負矩陣分解(nonnegative matrix factor,NMF)融合多光譜影像與全色影像的稀疏系數(shù)生成。
利用盡量少的原子影像塊與非零值稀疏系數(shù)來完全或近似地表達原始影像的方式,就是影像稀疏表達。該種表達方式將影像投影到由稀疏字典組成的特征空間,影像的信息集中在較少的原子影像塊中,非零值稀疏系數(shù)表明了影像的內(nèi)部結(jié)構(gòu)及特征[12]?;诟叨确蔷€性逼近理論的稀疏表達公式中包含2個系數(shù):一是根據(jù)信號的特點構(gòu)造的原子庫即過完備字典D; 二是從字典中找到最佳線性組合所用到的稀疏系數(shù)α[13-14]。
y=D·α
(1)
由于實際處理的信號通常帶有噪聲,影像稀疏分解過程實際上是一種逼近過程,即
(2)
式中:yM為原始信號y的逼近信號;xr為殘差分量;dN為給定稀疏字典D∈RM×N中的一個原子;〈RNxrdN〉為信號在dN上的投影,構(gòu)成信號在稀疏字典D上的稀疏系數(shù)α;RMx對應殘差分量xr。
為了求解最優(yōu)α,且滿足殘差分量xr達到最小,將式(2)轉(zhuǎn)換為
(3)
式中:‖α‖0為α的l0范數(shù);αN為給定稀疏字典中的一個稀疏系數(shù);ΩΜ為稀疏字典大??;ε為誤差總和。式(3)表明在最小均方誤差約束條件下,求解稀疏系數(shù)的最少個數(shù)。由于l0范數(shù)的非凸性,為了求解這個NP-hard問題,學者通常用l1范數(shù)近似代替l0范數(shù)。
利用NMF算法將原始影像V分解成基向量W和權重系數(shù)矩陣H,當W的秩r與數(shù)據(jù)集的特征空間維數(shù)一致時,那么得到的W是對V最有效的體現(xiàn),既反映了影像V中最基本的特征,同時有效抑制了影像的噪聲。利用NMF的這種特性,可以完成NMF的影像融合。將待融合的影像按行優(yōu)先的方式存儲成V,即
(4)
式中:Ii為待融合的影像,i=1,2,…,m;M和N分別為每一幅待融合影像的行數(shù)和列數(shù),并令n=M×N,則有V∈Rn×m。V可近似分解為非負矩陣Wn×r與非負矩陣Hr×m的乘積[15]。本文的稀疏系數(shù)融合是采用逐個多光譜波段與全色波段進行融合,所以選取r=1,即W的維數(shù)為MN×1。融合時采用標準梯度下降法迭代規(guī)則求解W和H,由于V=W×H+δ,在每次迭代后計算誤差δ,若δ小于設定的值,則迭代終止。
本文融合算法的流程如圖1所示。
本研究改進了稀疏字典的生成方法,提出了利用不同地物的線性分解影像作為字典的來源影像。進行線性光譜分解時,所用到的純像元來源于純像元指數(shù)(pure pixel index,PPI)計算,再利用N維可視化器從PPI指數(shù)計算的像元中提取出感興趣區(qū)域(region of interest,ROI)純像元,作為線性光譜分解的端元。利用在線字典學習算法分別對各類地物分解影像進行處理,得到各類地物分解影像的稀疏字典,將每一幅分解影像稀疏字典與全色稀疏字典分別進行PCA處理并提取第一主成分分量作為PCA稀疏字典,并將8個PCA稀疏字典生成PCA聯(lián)合稀疏字典。利用PCA聯(lián)合稀疏字典與正交匹配追蹤(orthogonal matching pursuit,OMP)算法計算多光譜影像與全色影像的稀疏系數(shù),將每一幅多光譜影像的稀疏系數(shù)與全色影像的稀疏系數(shù)進行NMF融合,得到該波段融合影像的稀疏系數(shù),融合影像的稀疏系數(shù)與PCA聯(lián)合字典重構(gòu)生成融合影像。
采用2012年8月8日福建賽場的WorldView-2影像數(shù)據(jù)作為實驗數(shù)據(jù)。該數(shù)據(jù)擁有1個0.5 m空間分辨率的全色波段和8個2 m空間分辨率的多光譜波段,具體包括:海岸波段B1、紅光波段B2、藍光波段B3、紅邊波段B4、綠光波段B5、近紅外1波段B6、黃光波段B7和近紅外2波段B8。數(shù)據(jù)已完成輻射校正與幾何糾正,可以進行影像融合處理,實驗影像的大小為512像元×512像元。
在本研究中,稀疏字典的生成是基于地物分解影像。在利用PPI指數(shù)計算時,對所設定的參數(shù)進行調(diào)整,最終確定迭代次數(shù)為10 000次,閾值參數(shù)設為12,得到3 016個像元。PPI指數(shù)計算的結(jié)果給出了像元作為純像元的潛在性,但并沒有對純像元的類別做出判斷,這時就需要利用N維可視化器提取各類別的純像元。通過觀看各角度旋轉(zhuǎn),找出各方向散點圖的尖角,選出作為各種類別的純像元。本研究最終確定8種類別地物:水體、裸土、農(nóng)田、農(nóng)作物、林地、不可滲透表面、白色屋頂建筑和藍色屋頂建筑。將8類地物的純像元樣本作為線性分解的端元輸入,得到8種地物的像元分解影像。
進行稀疏字典計算時,先要確定稀疏字典的大小。本研究利用多光譜影像的稀疏分解與重構(gòu)來探討適合的稀疏字典矩陣大小。利用在線字典學習算法分別對8類地物的分解影像進行處理,得到8幅影像的稀疏字典,并將其聯(lián)合起來,組成聯(lián)合稀疏字典。一個字典原子的大小為8像元×8像元,在考慮計算機運行能力與影像稀疏分解及重構(gòu)精度問題的基礎上,探討合適的稀疏字典矩陣大小。設定各幅多光譜影像的字典個數(shù)分別為10,20,30,40,50和60,則對應的聯(lián)合字典的個數(shù)分別為80,160,240,320,400和480,利用該聯(lián)合字典與OMP算法分別計算各多光譜波段的稀疏系數(shù),利用稀疏系數(shù)與聯(lián)合字典重構(gòu)各多光譜波段,探討影像重構(gòu)均方根誤差(root mean square error,RMSE)與字典個數(shù)的關系,從而確定本研究的字典個數(shù)。
表1給出6種聯(lián)合稀疏字典的參數(shù)及8個波段重構(gòu)的平均RMSE,可以看出重構(gòu)影像平均RMSE從80個字典的0.099下降到480個字典的0.054。說明字典個數(shù)對重構(gòu)影像有著相關性影響,這從圖2中所表達的8個波段的重構(gòu)RMSE中也得到反映。綜合考慮運算效率與影像的重構(gòu)精度,本文選擇的聯(lián)合字典大小為480,即每個分解影像提供60個字典用于建立聯(lián)合字典。
表1 字典參數(shù)與重構(gòu)RMSE
圖2 各波段稀疏重構(gòu)RMSE
利用在線字典學習法生成8個分解影像的字典與全色影像字典。利用PCA算法計算各分解影像稀疏字典與全色稀疏字典,取第一主成分分量作為PCA聯(lián)合稀疏字典。圖3分別為直接利用8個分解影像的字典組成的聯(lián)合字典以及依次對8個分解影像進行處理后得到的PCA聯(lián)合稀疏字典。
(a) 聯(lián)合字典
(b) PCA聯(lián)合稀疏字典
影像的方差可以反映影像的信息量,比較PCA聯(lián)合稀疏字典與聯(lián)合字典的方差(表2)可知,經(jīng)過PCA處理得到的各影像字典及影像聯(lián)合字典的方差值均大于未經(jīng)PCA處理的字典,說明經(jīng)過PCA處理的字典融合進了全色影像字典的主要信息,從而保證PCA聯(lián)合稀疏字典能代表影像中主要特征。
表2 聯(lián)合字典與PCA聯(lián)合稀疏字典的方差比較
利用PCA聯(lián)合稀疏字典完成多光譜波段(圖4(a))與全色波段(圖4(b))的OMP計算,分別得到各個多光譜波段與全色波段的稀疏系數(shù)α。利用NMF融合算法計算每個多光譜波段與全色波段的融合系數(shù)α,即各個波段融合影像的系數(shù)α,將該數(shù)值乘以PCA聯(lián)合稀疏字典,得到各個融合波段,如圖4(c)。在完成本文提出的融合算法后,利用聯(lián)合字典進行多光譜與全色稀疏分解,將得到的系數(shù)α利用NMF算法進行融合,得到聯(lián)合字典的NMF融合影像,如圖4(d);同時為了對比分析本文方法與傳統(tǒng)方法的融合效果,分別完成小波融合與經(jīng)典的PCA影像融合,如圖4(e)與圖4(f)。從目視效果上看,本文提出的融合算法與圖4(a)多光譜影像色調(diào)較一致,保證了多光譜信息。融合影像的紋理層次豐富與圖4(b)全色影像清晰度接近,信息量增加,同時具有多光譜與高空間分辨率影像的特征。對比其他3種融合算法,本文方法所融合的地物光譜表現(xiàn)與實際情況接近,田地、水體和居民區(qū)更清晰可辨,更有力地表現(xiàn)了細節(jié)。
(a) 多光譜影像 (b) 全色影像 (c) PCA聯(lián)合稀疏字典NMF融合影像
(d) 聯(lián)合字典NMF融合影像 (e) 小波融合影像 (f) PCA融合影像
通過計算4幅融合影像的5種定量評價指標來比較本文方法與其他經(jīng)典方法的融合效果,具體如表3所示。
表3 融合評價指標
信息熵可以評價影像中信息量的多少,值越高,表示影像的信息越多??梢钥闯鯬CA聯(lián)合稀疏字典的NMF融合影像具有更多的信息,信息熵值在4種方法中最高。清晰度與空間頻率是通過相鄰像元的差別來反映影像的空間變化頻率,表現(xiàn)為細節(jié)的反映能力。相較于聯(lián)合字典NMF融合、小波融合與PCA融合,本文方法的這2個參數(shù)指標明顯更高,說明本文方法提高了融合影像的紋理細節(jié)信息,更加清晰地反映了地物的特征。扭曲程度與偏差指數(shù)反映融合影像與多光譜影像的差別程度,值越大說明與原始多光譜影像的差異越大。本文方法的這2個指標均小于其他3種融合方法,說明本文方法較好地保持了影像的光譜信息。
1)本研究提出分解地物影像字典與全色影像字典的第一主成分分量構(gòu)成PCA聯(lián)合稀疏字典。所生成的PCA聯(lián)合稀疏字典既能包含多光譜影像分解地物特征,也包含高空間分辨率影像特征。
2)利用重構(gòu)影像與原始影像的RMSE探討合適的字典個數(shù)。隨著字典個數(shù)的增加,重構(gòu)影像的誤差有明顯減小的趨勢??紤]到重構(gòu)影像的效率與計算機運算的限制,最終確定稀疏字典個數(shù)為480。
3)利用NMF融合確定融合影像的稀疏系數(shù)。該稀疏系數(shù)最大限度地保留2幅原始影像的信息。采用5種定量評價指標分析,本文提出的融合算法包含更多的信息,提高了融合影像的紋理細節(jié),并較好地保持了原始影像的多光譜特征。