楊素妨,曾紅春
(百色學(xué)院,廣西 百色 533000)
近年來,隨著空間技術(shù)的發(fā)展,影像空間分辨率不斷提高,影像數(shù)據(jù)量呈現(xiàn)爆發(fā)式增長,為國家數(shù)字城市規(guī)劃、地理國情監(jiān)測、智慧城市建設(shè)等提供數(shù)據(jù)保障。僅利用影像的光譜特征進行影像分類,未能充分挖掘影像的多種特征信息,因此影像的分類精度難以滿足要求。而將影像的多種特征與高性能的機器學(xué)習(xí)分類器結(jié)合的方法,已逐漸成為目前主流趨勢。
常用的分類器有決策樹、支撐向量機(support vector matchine,SVM)、隨機深林(random forest,RF)、極限學(xué)習(xí)機(extreme learning machine,ELM)等[1-3]。極限學(xué)習(xí)機具有訓(xùn)練簡便、結(jié)構(gòu)簡單,不需要調(diào)整隱含層參數(shù)信息,僅通過控制最小化訓(xùn)練誤差和輸出權(quán)重實現(xiàn)極限學(xué)習(xí)機分類器的生成,克服了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的容易陷入局部最小、訓(xùn)練速度慢的問題。楚恒等[4]提出多特征多核的ELM分類方法,該方法將影像對象的光譜、空間特征通過簡單多種核加權(quán)組合的方式進行融合,未能充分體現(xiàn)出不同特征在不同影像對象上的表達優(yōu)勢。王明常等[5]提出利用極限學(xué)習(xí)機對高分二號遙感影像進行分類,通過多種分類器分類結(jié)果的對比,分析極限學(xué)習(xí)機在高分二號遙感影像上的準確性能,結(jié)果表明該方法運行時間快、分類準確率高。Huang等[6]通過類比支持向量機的映射函數(shù)與極限學(xué)習(xí)機隱含層的特征映射,提出改進的核極限學(xué)習(xí)機分類器,為后續(xù)集成算法與極限學(xué)習(xí)機模型的結(jié)合提供一種思路。付瓊瑩等[7]提出一種選擇性極限學(xué)習(xí)機集成算法,提高了遙感影像的分類精度。韓敏等[8]提出基于互信息選擇集成的核極限學(xué)習(xí)機分類方法,但該方法僅利用影像的光譜信息進行分類,缺少多紋理信息的考慮。
鑒于此,為了充分挖掘影像的多特征信息,提高影像分類結(jié)果準確性與差異性平衡問題,本文提出融合多特征與互信息選擇集成多核極限學(xué)習(xí)機的影像分類方法。通過提取影像的光譜特征與局部紋理特征作為訓(xùn)練簡單、泛化能力強的核極限學(xué)習(xí)機的輸入,同時通過最大相關(guān)與最小冗余互信息準則對核極限學(xué)習(xí)機選擇性集成,確保最終集成的核極限學(xué)習(xí)機的輸出結(jié)果與真實分類結(jié)果的整體準確性,較好地平衡類間差異性。
由于高分辨遙感影像波段間存在大量的冗余信息,采用最小噪聲分離(minimum noise fraction,MNF)重新分配數(shù)據(jù)中存在的信息與噪聲,通過數(shù)據(jù)變換的方式將有效信息集中少量波段數(shù)據(jù)中。MNF變換的本質(zhì)是通過2次主成分分析(principal component analysis,PCA)[9]的疊加。為了進一步進行波譜處理,通過檢查最終特征值和相關(guān)圖像來判定數(shù)據(jù)的內(nèi)在維數(shù)。通過MNF影像變換處理,數(shù)據(jù)空間被分為二類:一部分是與較大特征值和相對應(yīng)的特征影像,其余部分是與近似相同的特征值相對應(yīng)以及噪聲占主導(dǎo)地位的影像。與PCA變換獲得的影像相比,MNF變換獲得的特征影像能有效地保留影像的特征信息,避免因信、噪分離對特征影像質(zhì)量的影響。
由于影像分辨率的提高,影像上的相鄰不同地物邊界清晰。文獻[10]研究發(fā)現(xiàn),采用LBP紋理特征能夠有效地表達地物邊界信息。因此,本文采用LBP特征來表達影像的局部紋理信息。LBP特征通過計算影像局部區(qū)域強度信息與中心點影像強度關(guān)系來表示該區(qū)域的局部紋理信息。由式(1)、式(2)計算LBP紋理特征。
(1)
其中
(2)
式中:gc為影像中心像素強度值;S(x)為關(guān)于x的分段函數(shù)。本文在提取LBP紋理特征時采用3×3的局部鄰域,gp為gc相鄰的8個方向的像素強度值。
極限學(xué)習(xí)機由輸入層、隱含層以及輸出層3部分組成。對于給定的訓(xùn)練樣本,通過不斷地優(yōu)化連接輸入層與隱含層間的輸入權(quán)重與偏置值,并在訓(xùn)練過程中保持不變。假定給定{xi,ci},i=1,2,…,N的訓(xùn)練樣本集,其中,xi為訓(xùn)練樣本的輸入值,ci為對應(yīng)的輸出值。設(shè)極限學(xué)習(xí)機存在h個隱含層節(jié)點,網(wǎng)絡(luò)輸出為f,g(*)為激活函數(shù),則極限學(xué)習(xí)機的輸入輸出模型可以表示為式(3)。
(3)
式中:輸入節(jié)點的輸出權(quán)值與第i個隱含層節(jié)點用βi表示;第i個隱含節(jié)點的輸入權(quán)值與輸入節(jié)點用ωi表示;第i個隱含節(jié)點的偏置值用bi表示。
(4)
輸出權(quán)值即可以表示為式(5)。
(5)
式中:H*為矩陣H的逆。
將支持向量機中的核函數(shù)映射的思路替換極限學(xué)習(xí)機中的隱含層[11],則核極限學(xué)習(xí)機可以表示為式(6)。
(6)
因此,核極限學(xué)習(xí)機的輸入輸出模型為式(7)。
(7)
定義極端學(xué)習(xí)機核矩陣為式(8)。
ΩELM=HHT
ΩELMi,j=h(xi)·h(xj)=K(xi,xj)
(8)
對應(yīng)的輸入輸出模型可以表示為式(9)。
(9)
隱含層的特征映射h(x)在核極限學(xué)習(xí)機中是未知的,但通常采用核K(μ,ν)(如K(μ,ν)=exp(-γ‖μ-ν‖2))進行計算,減少了因設(shè)置隱層節(jié)點數(shù)(特征空間的維數(shù))不合理帶來分類結(jié)果較差的影響。
因此,核極限學(xué)習(xí)機具有極限學(xué)習(xí)機與支持向量機有效分類的優(yōu)點。
在影像匹配、影像分類中,可以利用互信息衡量2個向量間的相關(guān)性。
文獻[12]提出利用互信息引導(dǎo)輸入變量與極限學(xué)習(xí)機模型,通過最大相關(guān)最小冗余信息原則[13]的方法優(yōu)化學(xué)習(xí)算法,然后對優(yōu)化的核極限學(xué)習(xí)機進行多核的選擇性集成。
本文提出融合多特征與互信息選擇集成多核極限學(xué)習(xí)機的影像分類方法,具體步驟如下。
步驟1:選取影像上的測試樣本數(shù)據(jù),提取影像的光譜特征與LBP紋理特征。為了保證像元的差異性,分別對光譜特征與LBP紋理特征進行歸一化處理,構(gòu)成影像的光譜-紋理復(fù)合特征。利用Bootstrap算法將用于訓(xùn)練的樣本數(shù)據(jù)隨機分成n組樣本量為L的訓(xùn)練樣本子集。S={xi,k,yi,k},xi,k∈Rd,yi,k∈R,i=1,2,…,n,k=1,2,…,L。
步驟2:利用訓(xùn)練樣本數(shù)據(jù)集S,確定核函數(shù)以及對應(yīng)的初始化參數(shù),獲得極限學(xué)習(xí)機核矩陣。
步驟3:通過核矩陣求解核極限學(xué)習(xí)機。
步驟4:迭代計算步驟2、步驟3,獲得m個核極限學(xué)習(xí)機分類模型。
步驟5:利用m個核極限學(xué)習(xí)機分類模型,在檢驗樣本數(shù)據(jù)上預(yù)測類別輸出。
步驟6:根據(jù)實際樣本值與m個核極限學(xué)習(xí)機分類模型,預(yù)測輸出值,并計算二者間的最大相關(guān)最小冗余信息。
步驟7:依據(jù)每個弱分類器的最大相關(guān)最小冗余信息進行m個子核極限學(xué)習(xí)機排序。
步驟8:不斷增加集成數(shù)量,對前m個子核極限學(xué)習(xí)機進行集成,通過投票算法獲得最終的影像分類結(jié)果。
通過引入互信息的最大相關(guān)最小冗余準則進行多核極限學(xué)習(xí)機影像分類,可以增加影像分類結(jié)果與真實結(jié)果間的相關(guān)性,同時減弱多個弱分類器間的冗余信息,達到充分利用各個分類器間的差異。采用最大相關(guān)最小冗余信息準則使得影像分類結(jié)果與真實結(jié)果間的相關(guān)性最大而冗余性最小,即獲得預(yù)測準確性高而相互間差異性較大的多核極限學(xué)習(xí)機,集成解決分類結(jié)果類間差異與分類精度不平衡問題,通過多種特征的融合充分挖掘影像的多種影像信息,提高最終的影像分類精度。
本文采用武漢大學(xué)計算視覺與攝影測量研究組發(fā)布的高分遙感影像數(shù)據(jù)集(GaoFen image dataset,GID),該數(shù)據(jù)集收集60多個不同城市的150幅高質(zhì)量的高分二號衛(wèi)星影像,覆蓋面積超過50 000 km2。隨機選取1組樣本數(shù)據(jù)進行訓(xùn)練與分類。將訓(xùn)練好的模型在2018年6月18日高分二號衛(wèi)星獲取的某地遙感影像數(shù)據(jù)上進行驗證測試(圖1)。該數(shù)據(jù)包含空間分辨率為1 m的全色影像數(shù)據(jù)與空間分辨率為4 m的多光譜影像數(shù)據(jù)。
圖1 高分二號影像
為驗證本文提出算法的有效性,將本文算法與支撐向量回歸(support vector regression,SVR)、極限學(xué)習(xí)機、核極限學(xué)習(xí)機(kernel extreme learning machine,KELM)的分類結(jié)果進行比較,對比不同算法的分類精度與Kappa系數(shù)。
在實際核極限學(xué)習(xí)機訓(xùn)練過程中,在GID數(shù)據(jù)集中進行樣本數(shù)據(jù)的隨機選取。選用核寬為10、正則化參數(shù)為10的高斯核為核極限學(xué)習(xí)機的核函數(shù)。訓(xùn)練樣本的70%用于訓(xùn)練模型,剩下的30%作為檢驗樣本,用于確定集成的核極限學(xué)習(xí)機個數(shù)。每次生成20個基核極限學(xué)習(xí)機進行選擇性集成。
圖2為核極限學(xué)習(xí)機在GID數(shù)據(jù)集的集成個數(shù)與分類精度的關(guān)系曲線。從圖2可以看出,本文提出的融合多特征與互信息選擇集成多核極限學(xué)習(xí)機的遙感影像分類方法對多個弱分類器進行排序,通過測試集成個數(shù)與分類精度的變化趨勢可知:分類精度隨著集成個數(shù)的增加先急速上升再緩慢下降最后趨于穩(wěn)定,在個數(shù)為7時分類精度最高的為94.16%;由于前期參與集成的弱分類器與真實分類結(jié)果存在較大的相關(guān)性且不同弱分類器間的冗余性相對較小,所以分類精度呈急速上升趨勢;隨著集成弱分類器數(shù)目的增加,引起分類結(jié)果惡化現(xiàn)象,說明引入互信息選擇集成多核極限學(xué)習(xí)機的優(yōu)越性。通過與SVR、ELM、KELM算法對比,驗證本文方法整體RMSE值較小,預(yù)測分類結(jié)果最好。集成個數(shù)在m=7時獲得預(yù)測分類結(jié)果最好,因此本文集成個數(shù)設(shè)置為7,對高分二號數(shù)據(jù)進行分類,驗證模型的準確性。
圖2 不同算法在GID數(shù)據(jù)集的集成個數(shù)與分類精度關(guān)系
為了進一步驗證所提算法的優(yōu)越性,將所提算法應(yīng)用于某地拍攝的高分二號數(shù)據(jù)進行分類實驗。分類結(jié)果見圖3,每種地物的分類結(jié)果精度統(tǒng)計見表1。
圖3 高分二號分類結(jié)果
表1 融合多特征與互信息選擇集成多核極限學(xué)習(xí)機分類精度 %
由表1可知,本文提出的分類模型對不同地物的分類精度較高。另外,將SVR、ELM、KELM算法以及采用單一光譜特征方法進行對比實驗,如表2所示。
表2 高分二號測試數(shù)據(jù)不同分類方法精度對比
由表2可以得出如下結(jié)論。
1)本文采用融合多種影像特征作為分類器的輸入進行影像分類相比于單一光譜特征作為分類器的輸入數(shù)據(jù)具有更高的分類精度。將光譜特征作為SVR、ELM分類器的輸入進行分類,其中分類精度較高的SVR分類器的精度為88.75%、Kappa系數(shù)為0.84,本文分類方法比SVR高3.28%,Kappa系數(shù)高0.06,這是由于本文融合了光譜特征與局部紋理特征,在特征提取階段充分利用影像分辨率高能夠表現(xiàn)局部信息特點,通過引入LBP局部紋理信息能較好地表達相鄰地物邊界信息及區(qū)分不同地物邊界,影像分類精度會有所提高。本文方法體現(xiàn)了多特征融合能充分挖掘遙感影像信息在分類應(yīng)用上的優(yōu)勢。
2)從不同特征表現(xiàn)來看,采用單一的LBP特征進行分類的精度比采用經(jīng)過MNF變換提取光譜特征的分類精度低2.34%、Kappa系數(shù)低0.03,僅使用LBP紋理特征時分類表現(xiàn)不好。就信息表達而言,局部紋理特征在處理邊緣細節(jié)信息時效果較好,通過在光譜特征中引入局部紋理特征,分類精度明顯較使用單一的光譜特征或單一紋理特征的效果好。從圖3分類結(jié)果圖可以看出,地物的邊緣細節(jié)得到了有效區(qū)分。
3)本文互信息選擇集成多核極限學(xué)習(xí)機分類模型,與KELM相比,分類精度高1.47%,Kappa系數(shù)高0.02;由于KELM缺少對多個弱分類器分類結(jié)果相關(guān)性的考慮,簡單的將多個弱分類器進行組合,分類結(jié)果較差,而引入互信息的最大相關(guān)最小冗余準則可以增加影像分類結(jié)果與真實結(jié)果間的相關(guān)性,同時減弱多個弱分類器間的冗余信息,達到充分利用各個分類器間的差異解決分類結(jié)果類間差異與精度不平衡的問題,從而提高影像分類結(jié)果的正確率。
針對遙感影像分類結(jié)果存在類間差異與分類精度不平衡問題,提出融合多特征與互信息選擇集成多核極限學(xué)習(xí)機分類方法。該方法能夠克服單一影像特征在高分二號影像上的分類局限性,充分利用LBP紋理特征區(qū)分不同地物邊界;結(jié)合信息論中的最大相關(guān)最小冗余策略,獲取與分類輸出結(jié)果最相關(guān)而相互之間冗余度最小的多核極限學(xué)習(xí)機,采用平均方法進行選擇性集成,科學(xué)地融合多個弱分類器的分類結(jié)果,提高影像的分類精度。但該方法缺少極限學(xué)習(xí)機不同核函數(shù)選擇對分類精度影響的考慮,這也是下一步的研究方向。