劉萬(wàn)軍, 李天慧, 曲海成
(遼寧工程技術(shù)大學(xué)軟件學(xué)院,葫蘆島 125105)
隨著衛(wèi)星遙感技術(shù)的不斷發(fā)展,高光譜圖像的獲取變得更加容易。相對(duì)于多光譜遙感,高光譜遙感能夠獲得大量的波段信息,這些波段信息被廣泛應(yīng)用于目標(biāo)探測(cè)、環(huán)境監(jiān)控和地物分類等方面[1],其中高光譜遙感圖像的分類問(wèn)題一直是國(guó)內(nèi)外學(xué)者研究的熱點(diǎn)。高光譜遙感圖像具有維數(shù)大和訓(xùn)練樣本數(shù)量少的特點(diǎn)[2],在小樣本圖像分類情況下,維數(shù)過(guò)大易導(dǎo)致分類任務(wù)變得復(fù)雜,分類精度會(huì)因?yàn)椴ǘ螖?shù)量的增加反而下降,從而產(chǎn)生Hughes現(xiàn)象[3]。其中支持向量機(jī)(support vector machine,SVM)的分類算法常用于解決此類問(wèn)題[4]。楊凱歌等[5]將隨機(jī)子空間集成法結(jié)合SVM提出優(yōu)化子空間SVM集成的分類算法,利用SVM對(duì)隨機(jī)子空間進(jìn)行聚類,根據(jù)J-M距離準(zhǔn)則對(duì)最優(yōu)分類器進(jìn)行集成,通過(guò)對(duì)比實(shí)驗(yàn)證明該算法可以有效地解決小樣本情況下的分類問(wèn)題;Persello等[6]通過(guò)對(duì)比主動(dòng)學(xué)習(xí)策略和半監(jiān)督學(xué)習(xí)方法的優(yōu)缺點(diǎn),結(jié)合2種方法應(yīng)用在SVM上,解決了小樣本情況下未知樣本標(biāo)注問(wèn)題。
此外,遷移學(xué)習(xí)通過(guò)對(duì)同領(lǐng)域或者跨領(lǐng)域進(jìn)行知識(shí)遷移也可以解決小樣本情況下的高光譜圖像分類問(wèn)題,當(dāng)源訓(xùn)練樣本集包含的帶標(biāo)簽樣本數(shù)量非常少時(shí),遷移學(xué)習(xí)將與源訓(xùn)練樣本集相似的樣本作為輔助樣本集,與源樣本集組成總訓(xùn)練樣本集完成目標(biāo)樣本集的分類、識(shí)別等任務(wù)[7]。吳田軍等[8]將遷移學(xué)習(xí)應(yīng)用在高光譜圖像分類的樣本選擇中,將歷史的地物信息遷移到新的圖像中,建立一種新的特征映射關(guān)系,從而實(shí)現(xiàn)對(duì)目標(biāo)高光譜圖像樣本的自動(dòng)分類;Zhou等[9]將遷移學(xué)習(xí)應(yīng)用在極限學(xué)習(xí)機(jī)中,并與最小二乘法結(jié)合,利用TrAdaboost算法的權(quán)重調(diào)整策略對(duì)樣本進(jìn)行分類,最后經(jīng)過(guò)對(duì)比實(shí)驗(yàn)證明了該算法的有效性。其中TrAdaboost算法是Dai等[10]提出的一種基于實(shí)例的遷移學(xué)習(xí)算法,對(duì)Adaboost算法進(jìn)行了改進(jìn),使之具有遷移能力,通過(guò)判別訓(xùn)練樣本的可利用價(jià)值調(diào)整樣本的權(quán)重,完成小樣本情況下的文本分類任務(wù)。
綜上所述,SVM和遷移學(xué)習(xí)分類算法都能夠很好地解決小樣本問(wèn)題。但對(duì)于高光譜圖像分類問(wèn)題,隨著訓(xùn)練樣本數(shù)目減少(小樣本情況),樣本維數(shù)大且存在冗余波段,相似類別樣本間的分類邊界變得模糊,導(dǎo)致分類精度大幅度降低。為了解決這個(gè)問(wèn)題,本文提出了基于Fisher準(zhǔn)則和TrAdaboost權(quán)重調(diào)整策略的H_TrAdaboost (Hyperspectral TrAdaboost)算法,利用Fisher準(zhǔn)則放大樣本間的差異,完成相似樣本的劃分;結(jié)合TrAdaboost權(quán)重調(diào)整策略,動(dòng)態(tài)調(diào)整樣本的權(quán)重,實(shí)現(xiàn)高光譜相似樣本的分類;最后,在AVIRIS高光譜數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),驗(yàn)證H_TrAdaboost算法的有效性。
1.1.1 遷移學(xué)習(xí)
傳統(tǒng)的機(jī)器學(xué)習(xí)方法對(duì)目標(biāo)樣本分類具有一定的前提條件,要求訓(xùn)練樣本和測(cè)試樣本必須符合相同的數(shù)據(jù)分布,并且需要足夠數(shù)量的訓(xùn)練樣本才能進(jìn)行學(xué)習(xí)。這導(dǎo)致了在小樣本情況下很多分類方法都不能取得很好的分類效果。遷移學(xué)習(xí)作為一種新的機(jī)器學(xué)習(xí)方法被提出,打破了傳統(tǒng)學(xué)習(xí)方法的束縛,可以通過(guò)確定輔助樣本集來(lái)解決樣本數(shù)量少的問(wèn)題。為了更加清晰地解釋遷移學(xué)習(xí),對(duì)樣本集進(jìn)行如下描述。
定義1:訓(xùn)練樣本數(shù)據(jù)集Da和Db
(1)
(2)
式中:Da表示輔助訓(xùn)練樣本數(shù)據(jù)集;Db表示源訓(xùn)練樣本數(shù)據(jù)集;Sa為Da的輔助樣本空間;Sb為Db的源樣本空間;M(x)表示一種映射關(guān)系,將樣本x映射到它所對(duì)應(yīng)的類別標(biāo)號(hào)上;{()}表示樣本和樣本對(duì)應(yīng)的類標(biāo)組成的數(shù)對(duì)集合。由于Da與Db來(lái)自于不同的類空間,表示數(shù)據(jù)分布是不相同的。
定義2:目標(biāo)樣本數(shù)據(jù)集Dt
(3)
根據(jù)以上定義,遷移學(xué)習(xí)解決的問(wèn)題可以描述為:源訓(xùn)練樣本集Db含有少量有標(biāo)簽樣本,不足以訓(xùn)練出一個(gè)適于分類目標(biāo)樣本集的分類器,此時(shí)利用遷移學(xué)習(xí),可以得到與Db相似的輔助訓(xùn)練集Da,最后合并Da與Db組成總訓(xùn)練集訓(xùn)練分類器,用于分類目標(biāo)樣本集Dt。
由于本文研究的高光譜數(shù)據(jù)集,具有樣本維數(shù)大、標(biāo)記樣本少的特點(diǎn),而遷移學(xué)習(xí)可以有效解決小樣本問(wèn)題。因此,利用遷移學(xué)習(xí),通過(guò)確定輔助樣本集,將有利于目標(biāo)分類的樣本遷移到訓(xùn)練樣本集中,從而擴(kuò)大總樣本數(shù)量,解決高光譜分類問(wèn)題中由于訓(xùn)練樣本過(guò)少導(dǎo)致的分類問(wèn)題。
1.1.2 SID_SA結(jié)合法
為了擴(kuò)大訓(xùn)練樣本集數(shù)量,需要一種合適的光譜相似度測(cè)量方法,確定輔助樣本集。常規(guī)方法有光譜角法(spectral angle mapping,SAM)和光譜信息散度法(spectral information divergence,SID)[11]。SAM的原理是將目標(biāo)光譜與測(cè)試光譜投影到空間中,計(jì)算其間的夾角,其值越小代表相似度越高。SID是一種基于信息論理念,通過(guò)計(jì)算信息熵來(lái)判斷光譜相似性的方法。而2種方法結(jié)合的SID_SA結(jié)合法[12]同時(shí)考慮到SAM和SID的優(yōu)點(diǎn),從光譜的形狀以及反射能量差異2方面入手,能有效計(jì)算光譜間的相似度。
假設(shè)x與y分別代表目標(biāo)光譜與測(cè)試光譜,長(zhǎng)度都為n1,則SID_SA結(jié)合法公式為
(4)
SID(x,y)=D(x‖y)+D(y‖x)
(5)
(6)
(7)
SID_SA(x,y)=SID(x,y)sin[SAM(x,y)] ,
(8)
式中SID_SA(x,y)是本文算法的光譜相似度度量值,值越小,證明光譜相似度越高,反之則說(shuō)明光譜間相似度低,因此通過(guò)對(duì)比各光譜間的SID_SA值,確定輔助樣本集。
1.2.1 問(wèn)題分析
為了更好地在小樣本條件下進(jìn)行相似地物類間分類,需要使用一種特征提取的方法,幫助放大樣本間的差距,提高分類精度。高光譜圖像特征提取方法常用的主成分分析法(principal components analysis,PCA)[13],是通過(guò)數(shù)學(xué)變換來(lái)壓縮波段達(dá)到提取特征的目的,容易改變高光譜圖像的光譜物理意義。而波段選擇的方法是從大量波段中選擇出利于分類的波段數(shù)據(jù),構(gòu)成一個(gè)波段子集,這樣不會(huì)破壞物理結(jié)構(gòu)而且可以達(dá)到數(shù)據(jù)降維的目的。因此本文在解決相似樣本劃分問(wèn)題時(shí)采用的是波段選擇的方法。
以美國(guó)印第安納州高光譜數(shù)據(jù)集為例進(jìn)行分析,從中選取名稱為corn-notill和corn-mintill的2類相似地物,分別從2類地物中隨機(jī)選取200個(gè)樣本點(diǎn),計(jì)算2類光譜均值和標(biāo)準(zhǔn)差。對(duì)比結(jié)果分別如圖1所示。
(a) 光譜均值 (b) 光譜標(biāo)準(zhǔn)差
從圖1中可以得知,2類樣本在B2—B57和B64—B76等波段上的可分性比較大,在B54—B63和B77—B103等波段上的可分性比較小。這說(shuō)明雖然相似樣本間的波段信息比較相近,但是樣本在各個(gè)波段上仍然具有可分性,如果在實(shí)驗(yàn)中對(duì)樣本的所有波段進(jìn)行相同的處理,則弱化了一些重要波段的信息。因此,在解決相似樣本劃分問(wèn)題中進(jìn)行波段選擇是必要的,需要秉承的原則是最大化樣本類間間距,最小化樣本類內(nèi)間距,最終選擇可分性強(qiáng)的波段組成最優(yōu)子集。Fisher準(zhǔn)則作為一種直觀有效的類別可分性判據(jù),是波段選擇的一個(gè)重要依據(jù),因此利用改進(jìn)的Fisher準(zhǔn)則可解決相似樣本可分性問(wèn)題。
1.2.2 改進(jìn)的Fisher準(zhǔn)則
改進(jìn)的Fisher準(zhǔn)則是對(duì)原始Fisher準(zhǔn)則中的距離度量方法由簡(jiǎn)單的歐氏距離變?yōu)轳R氏距離。其中馬氏距離是表示數(shù)據(jù)的協(xié)方差距離[14],在相似度對(duì)比過(guò)程中,歐氏距離計(jì)算2個(gè)樣本在空間上的直接距離,而馬氏距離考慮的是樣本數(shù)據(jù)各種特性之間的關(guān)系與差異,放大個(gè)體的影響。在不同的總體樣本下,馬氏距離的計(jì)算結(jié)果是不同的,更加適合用于相似樣本的劃分。因此本文采用基于馬氏距離的改進(jìn)Fisher準(zhǔn)則對(duì)樣本進(jìn)行可分性研究,具體計(jì)算公式為
(9)
式中:ai與aj分別代表2條光譜;d為馬氏距離。
根據(jù)最小化類內(nèi)間距、最大化類間間距的原則,可以得出改進(jìn)的Fisher準(zhǔn)則Jp為
(10)
(11)
(12)
(13)
類間可分性越大,SB的值越大;類內(nèi)可分性越小,Sw的值越小。因此通過(guò)最大化Jp可以得到類別可分性強(qiáng)的波段集合,從而嚴(yán)格控制了分類階段的樣本集輸入,為分類提供了足夠的且具有差別性的樣本集。
對(duì)于最后分類階段,由于每個(gè)訓(xùn)練樣本在分類過(guò)程中的可利用價(jià)值有所不同,因此在迭代訓(xùn)練過(guò)程中需要對(duì)每個(gè)樣本進(jìn)行不同的權(quán)重控制。原始的TrAdaboost算法是用于文本分類的,對(duì)樣本進(jìn)行權(quán)重分配時(shí),分別調(diào)整輔助訓(xùn)練樣本與源訓(xùn)練樣本的權(quán)值,達(dá)到較好的分類效果。而本文在解決高光譜相似樣本分類問(wèn)題時(shí),同樣考慮到不同樣本的權(quán)重問(wèn)題,因此采用TrAdaboost算法的權(quán)重調(diào)整策略對(duì)目標(biāo)樣本進(jìn)行分類。對(duì)于輔助訓(xùn)練樣本,基本思想是如果樣本被錯(cuò)誤分類,證明此樣本不利于分類,在下一次迭代過(guò)程中減少權(quán)重,主要通過(guò)參數(shù)βa實(shí)現(xiàn),即
βa=1/(1+2 lnn/N)
(14)
式中:n代表輔助樣本數(shù)量;N代表迭代次數(shù)。
對(duì)于源訓(xùn)練樣本,基本思想是如果樣本被錯(cuò)誤分類,在下一次迭代過(guò)程中通過(guò)增加權(quán)重來(lái)強(qiáng)調(diào)此樣本,更正分類模型,主要通過(guò)參數(shù)βb實(shí)現(xiàn),即
βb=εt/(1-εt)
(15)
式中εt為第t次迭代過(guò)程中分類器在源訓(xùn)練樣本上的錯(cuò)誤率。
綜上所述,如果在N次迭代過(guò)程中,分別對(duì)2個(gè)訓(xùn)練樣本集的權(quán)重進(jìn)行動(dòng)態(tài)調(diào)整,可以更好地完成小樣本情況下相似樣本分類任務(wù)。
H_TrAdaboost算法流程如圖2所示。
圖2 H_TrAdaboost算法流程
本文提出的H_TrAdaboost算法的要點(diǎn)是:首先,利用SID_SA結(jié)合法確定輔助樣本集;然后,根據(jù)改進(jìn)Fisher準(zhǔn)則對(duì)波段進(jìn)行可分性研究;最后,利用權(quán)重調(diào)整策略完成高光譜相似樣本分類。
1)根據(jù)小樣本的源訓(xùn)練樣本數(shù)據(jù)Db,采用SAM與SID相結(jié)合的方法計(jì)算光譜間相似值,SID_SA值越小證明光譜越相似,利用式(4)—(8)選擇出與Db相似度最大的樣本作為輔助樣本集Da,合并輔助訓(xùn)練樣本集Da與源訓(xùn)練樣本集Db為總訓(xùn)練樣本集Dt。并初始化樣本的權(quán)重,輔助訓(xùn)練樣本的初始權(quán)重設(shè)置為1/n,源訓(xùn)練樣本的初始權(quán)重設(shè)置為1/m,即
(16)
2)通過(guò)對(duì)高光譜相似地物的光譜特性進(jìn)行分析,得知每個(gè)波段的可分性不同,采用基于馬氏距離的改進(jìn)Fisher準(zhǔn)則,利用式(12)—(13)對(duì)總訓(xùn)練樣本Dt計(jì)算類內(nèi)間距,利用式(11)計(jì)算類間間距,最后通過(guò)最大化類間間距和最小化類內(nèi)間距,對(duì)波段進(jìn)行最終篩選,將可分性較強(qiáng)的波段組成一個(gè)子集,達(dá)到放大相似類別樣本光譜間差異的目的。
3)已知輔助樣本數(shù)量n以及迭代次數(shù)N,利用式(14)得到輔助樣本權(quán)重調(diào)整參數(shù)βa。
4)輸入總訓(xùn)練集,設(shè)置樣本權(quán)重為
(17)
(18)
式中Lt(xi)為樣本在第t次迭代后的分類結(jié)果。如果εt>0.5,則將εt設(shè)置為0.5,利用式(15)得到源訓(xùn)練樣本的權(quán)重調(diào)整參數(shù)βb。
5)設(shè)置迭代過(guò)程中訓(xùn)練樣本的權(quán)重更新策略,即
(19)
6)最終分類器設(shè)置為
(20)
式中:「?為向下求和;L(x)代表最終分類結(jié)果,如果分類正確分類器輸出1,分類錯(cuò)誤輸出0。
實(shí)驗(yàn)采用美國(guó)印第安納州實(shí)驗(yàn)區(qū)(Indian Pines)的高光譜遙感圖像數(shù)據(jù)集,通過(guò)AVIRIS采集獲得,包含了145×145個(gè)樣本點(diǎn),原始波段數(shù)有220個(gè),除去其中水汽吸收及低信噪比的波段,剩余200個(gè)波段將作為實(shí)驗(yàn)數(shù)據(jù)。原始圖像共有16種地物類別,真值圖如圖3所示。由于本文解決的是相似樣本分類問(wèn)題,且其中一些類別樣本數(shù)量不足,因此選取了其中滿足實(shí)驗(yàn)條件的8種地物類別,重新編號(hào)用于驗(yàn)證實(shí)驗(yàn),具體的樣本信息統(tǒng)計(jì)見(jiàn)表1。
圖3 Indian Pines數(shù)據(jù)集真值
表1 實(shí)驗(yàn)用Indian Pines數(shù)據(jù)集信息
為了驗(yàn)證H_TrAdaboost算法的有效性,將表1的數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)集,實(shí)驗(yàn)環(huán)境為Matlab2012b。實(shí)驗(yàn)過(guò)程中,采用隨機(jī)抽取的方式對(duì)源訓(xùn)練樣本和輔助訓(xùn)練樣本進(jìn)行選擇,實(shí)驗(yàn)中分類器參數(shù)C和gamma的數(shù)值通過(guò)十折交叉驗(yàn)證獲得。通過(guò)前期實(shí)驗(yàn)可以得出,當(dāng)源訓(xùn)練樣本集的樣本數(shù)量小于總訓(xùn)練樣本集的15%時(shí),相似地物分類問(wèn)題變得模糊,精度降低明顯,因此本文實(shí)驗(yàn)將低于總訓(xùn)練樣本集15%的定義為小樣本條件。首先進(jìn)行的實(shí)驗(yàn)是采用SID_SA方法確定輔助樣本,從樣本集中隨機(jī)選取200個(gè)樣本作為本部分實(shí)驗(yàn)數(shù)據(jù),實(shí)驗(yàn)得到各類地物之間的SID_SA值見(jiàn)表2。
表2 各類別之間的SID_SA值
從表2可以得知,每個(gè)類別的樣本都有與其相似的樣本,例如C1類與C2類、C5類間SID_SA值最小,為相似樣本集,同理C8類與C4類為相似樣本集,因此,通過(guò)對(duì)比波段間的SID_SA值可以得到最適合的相似樣本類別作為輔助樣本集。從實(shí)驗(yàn)樣本中隨機(jī)選取測(cè)試樣本1%的樣本點(diǎn)作為源訓(xùn)練樣本集,根據(jù)SID_SA算法確定輔助樣本進(jìn)行實(shí)驗(yàn)。將H_TrAdaboost算法與原始的TrAdaboost算法和SVM分類算法進(jìn)行比較,分類精度對(duì)比結(jié)果見(jiàn)表3。
表3 算法間的分類精度對(duì)比
從表3中可以看出,當(dāng)分類C1和C2類樣本時(shí),輔助樣本類別分別選取為C5與C6類時(shí),分類精度最高且提高較多;當(dāng)分類C1和C6類樣本時(shí),輔助樣本類別分別選取為C7與C2類時(shí),分類精度最高且提高較多;從而驗(yàn)證了SID_SA值越小,越適合做輔助樣本,幫助源訓(xùn)練樣本進(jìn)行分類。同時(shí),當(dāng)類別本身相似性很小的時(shí)候,例如C2和C8類的分類,3種分類算法的效果都很明顯,并且SVM算法、TrAdaboost算法與H_TrAdaboost算法分類精度呈上升趨勢(shì)。驗(yàn)證了TrAdaboost算法經(jīng)過(guò)數(shù)據(jù)處理后可以較好地應(yīng)用在高光譜數(shù)據(jù)上,分類精度比SVM有所提高,將H_TrAdaboost算法與原始的TrAdaboost算法相比,分類精度也有顯著提升,證明此算法在非相似樣本分類問(wèn)題上也具有較好的分類效果。
為了更直觀地表示本文算法的有效性,將不同算法對(duì)表3中幾種類別進(jìn)行分類,效果分別展示如表4所示。從表4的幾組對(duì)比圖中可以清晰地看出,對(duì)C1,C2,C5和 C6等相似類別進(jìn)行分類時(shí),H_TrAdaboost算法比SVM算法和TrAdaboost算法噪聲點(diǎn)更少,分類效果更明顯。
表4 各算法在不同樣本上的分類精度對(duì)比
為了進(jìn)一步驗(yàn)證本文算法在不同程度小樣本情況下對(duì)相似樣本的分類效果,將源訓(xùn)練樣本數(shù)量分別設(shè)置為占總樣本的1%,2%,3%,5%,10%,15%,對(duì)C1與C2類分類,輔助樣本選取C5與C6組成樣本1;對(duì)C1與C6類分類,輔助樣本選取C7與C2組成樣本2。則H_TrAadboost算法與TrAadboost算法和SVM分類算法的分類精度對(duì)比結(jié)果見(jiàn)表5與表6。為了便于比較各類算法在不同樣本數(shù)量下的分類效果,均采用相同的參數(shù)設(shè)置。
表5 樣本1上算法間的分類精度對(duì)比
表6 樣本2上算法間的分類精度對(duì)比
從表5與表6可以看出,樣本數(shù)量的大小對(duì)分類精度有所影響。當(dāng)源訓(xùn)練樣本數(shù)量不斷減少,分類精度隨之降低,即小樣本條件越苛刻,相似樣本分類效果越不明顯。但是實(shí)驗(yàn)結(jié)果表明,隨著源樣本數(shù)量的降低,本文提出的H_TrAdaboost算法對(duì)比原始的TrAdaboost算法以及SVM算法,在對(duì)相似樣本進(jìn)行分類時(shí),分類精度仍然高于其他分類算法,說(shuō)明基于改進(jìn)的Fisher準(zhǔn)則和TrAdaboost提出的算法,可以較好地解決分類問(wèn)題中的由于相似樣本導(dǎo)致分類精度低的問(wèn)題。
1)利用實(shí)例遷移思想,采用SID_SA結(jié)合法對(duì)高光譜波段進(jìn)行相似度度量,達(dá)到了確定輔助樣本集的目的,解決小樣本問(wèn)題。
2)改進(jìn)的Fisher準(zhǔn)則側(cè)重于高光譜數(shù)據(jù)整體特點(diǎn),利用該準(zhǔn)則從訓(xùn)練樣本中選擇可分性強(qiáng)的波段,達(dá)到放大相似樣本波段間差異的目的。
3)利用TrAdaboost算法的權(quán)重調(diào)整策略為樣本分配合理權(quán)重,最終通過(guò)實(shí)驗(yàn)表明,H_TrAdaboost算法可以很好地實(shí)現(xiàn)相似樣本的分類。
4)雖然本文算法對(duì)與相似地物分類精度上有了一定提高,但仍有可以改進(jìn)的地方。下一步的研究方向是考慮結(jié)合空間信息,從光譜的空間特征方面進(jìn)一步提升高光譜相似地物的分類精度問(wèn)題。