田 勛,汪西莉
(陜西師范大學(xué)計(jì)算機(jī)科學(xué)學(xué)院,陜西西安710062)
圖像分類在社會(huì)生產(chǎn)與日常生活中變得日益重要,無(wú)論是國(guó)防安全、醫(yī)療檢測(cè)、遙感分析還是交通監(jiān)控等領(lǐng)域,都離不開圖像分類。目前圖像分類已經(jīng)成為機(jī)器學(xué)習(xí)與模式識(shí)別的研究熱點(diǎn)之一。傳統(tǒng)的機(jī)器學(xué)習(xí)分為監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí),而半監(jiān)督學(xué)習(xí) SSL(Semi-Supervised Learning)[1]是監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)相結(jié)合的一種學(xué)習(xí)方法,它兼顧了監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)的優(yōu)點(diǎn),往往在少量標(biāo)記樣本與大量無(wú)標(biāo)記樣本的情況下進(jìn)行訓(xùn)練和分類,并且得到比較好的分類結(jié)果。對(duì)于圖像分類,大量標(biāo)記樣本會(huì)耗費(fèi)大量人力與時(shí)間,是不實(shí)際的,但圖像的無(wú)標(biāo)記樣本卻相對(duì)容易獲取,所以半監(jiān)督學(xué)習(xí)廣泛運(yùn)用于圖像分類當(dāng)中。
半監(jiān)督分類是指利用大量無(wú)標(biāo)記樣本信息來幫助訓(xùn)練,調(diào)整使用少量類別標(biāo)簽信息訓(xùn)練得到的分類器,使分類的準(zhǔn)確度提高。一般假設(shè)樣本xi∈Rm(i=1,2,3,…,n) ,其中m是樣本的維數(shù),n是樣本的個(gè)數(shù),yi為其類別標(biāo)記,L={(x1,y1),(x2,y2),…,(xl,yl)} 表示 l個(gè)有類別標(biāo)簽信息的樣本,U={xl+1,xl+2,…,xl+u} 表示 u 個(gè)無(wú)標(biāo)記樣本。通過大量無(wú)標(biāo)記樣本提供的分布信息有效彌補(bǔ)了少量有類別標(biāo)簽信息的不足,使分類器的訓(xùn)練更加充分。半監(jiān)督分類有四個(gè)不同的分支:基于生成式模型算法、基于差異的半監(jiān)督分類算法、基于判別式的半監(jiān)督分類算法、基于圖的半監(jiān)督分類算法。本文主要研究基于判別式的半監(jiān)督分類算法。
基于判別式的半監(jiān)督學(xué)習(xí)算法也被稱作基于低密度劃分的半監(jiān)督學(xué)習(xí)算法,同時(shí)使用類別標(biāo)簽信息與無(wú)標(biāo)記樣本信息訓(xùn)練分類器,使分類面在僅通過低密度樣本區(qū)域的情況下,樣本到分類面的距離間隔最大,如圖1所示。典型的基于判別式的半監(jiān)督學(xué)習(xí)算法就是半監(jiān)督支持向量機(jī)S3VM(Semi-Supervised Support Vector Machine)[2]。
1998年,Bennett等人提出了最初的半監(jiān)督支持向量機(jī)(S3VM),在傳統(tǒng)的支持向量機(jī) SVM(Support Vector Machine)基礎(chǔ)上,對(duì)無(wú)標(biāo)記樣本引入松弛項(xiàng),表示對(duì)于無(wú)標(biāo)記樣本錯(cuò)分的懲罰。同年,Vapnik和Sterin提出了直推式支持向量機(jī)TSVM(Transductive SVM),TSVM利用線性預(yù)測(cè)函數(shù)f(x)=wTx+b作為整個(gè)樣本空間上的分類邊界,其目標(biāo)函數(shù)為:
其中,w∈Rm,‖w‖是支持向量到分類超平面的距離,V(yi,f(xi))是損失函數(shù),l和u分別為有類別標(biāo)簽信息樣本和無(wú)標(biāo)記樣本的數(shù)量,C1與C2是有類別標(biāo)簽信息樣本和無(wú)標(biāo)記樣本損失權(quán)值,用于調(diào)整有類別標(biāo)簽信息樣本和無(wú)標(biāo)記樣本在目標(biāo)函數(shù)中的重要性。隨后科研人員不斷提出新的半監(jiān)督支持向量機(jī):拉普拉斯支持向量機(jī)(LapSVM)[3-5]、基于高斯混合模型核的半監(jiān)督支持向量機(jī)、基于譜聚類核的半監(jiān)督支持向量機(jī)、基于隨機(jī)游走核的半監(jiān)督支持向量機(jī)。
式(1)是非凸的,很難直接求解全局最優(yōu)解,一般情況下使用半定規(guī)劃SDP(Semi-Definite Programming)、梯度下降(Gradient Descent)、連續(xù)優(yōu)化CT(Continuation Techniques)、分支界定BB(Branch and Bround)、確定性模擬退火算法DA(Deterministic Annealing)等方法來求解。
為了提升半監(jiān)督支持向量機(jī)算法效率,Li等人[6]提出標(biāo)簽均值半監(jiān)督支持向量機(jī)meanS3VM(mean Semi-Supervised Support Vector Machine)。對(duì)比傳統(tǒng)的半監(jiān)督支持向量機(jī),meanS3VM算法并不直接使用每一個(gè)無(wú)標(biāo)記樣本的估計(jì)標(biāo)簽來訓(xùn)練分類器,而是使用無(wú)標(biāo)記樣本估計(jì)標(biāo)簽均值來訓(xùn)練分類器。對(duì)比半監(jiān)督SVM方法,meanS3VM算法僅僅使用樣本估計(jì)標(biāo)簽均值訓(xùn)練分類器,減少了訓(xùn)練分類器的約束條件,減少算法運(yùn)行時(shí)間。
meanS3VM算法最初用于數(shù)據(jù)集分類,針對(duì)圖像的光譜特征[7],將無(wú)標(biāo)記樣本預(yù)分為兩類,使用無(wú)標(biāo)記樣本的標(biāo)簽均值來訓(xùn)練分類器,對(duì)復(fù)雜圖像,類內(nèi)光譜信息差異較大,兩類的標(biāo)簽均值難以反映各類光譜信息的實(shí)際情況,而且對(duì)分類器的訓(xùn)練除了標(biāo)記樣本提供的信息外,只增加了無(wú)標(biāo)記樣本的標(biāo)簽均值信息,對(duì)訓(xùn)練分類器提供的信息較少。并且meanS3VM算法是隨機(jī)選取無(wú)標(biāo)記樣本的,所以無(wú)標(biāo)記樣本的標(biāo)簽均值會(huì)有很大的隨機(jī)性,影響算法的穩(wěn)定性。因此,本文提出聚類標(biāo)簽均值,針對(duì)圖像分類既提高分類精度,又提高分類器的穩(wěn)定性。
本文提出基于聚類標(biāo)簽均值的半監(jiān)督支持向量機(jī)算法,與傳統(tǒng)的半監(jiān)督支持向量機(jī)相比有很大優(yōu)勢(shì),比如S3VM算法對(duì)應(yīng)的是混合整數(shù)規(guī)劃問題,通常難以計(jì)算。TSVM雖然將規(guī)劃問題轉(zhuǎn)化成迭代求解,但是需要的迭代次數(shù)很多,算法運(yùn)行時(shí)間較長(zhǎng)。而LapSVM則需要計(jì)算一個(gè)n×n(n是標(biāo)記樣本與無(wú)標(biāo)記樣本數(shù)量之和)矩陣的逆,當(dāng)n的值過大時(shí),會(huì)造成內(nèi)存溢出。本文算法有利于表達(dá)圖像多樣的光譜特征,針對(duì)圖像,利用光譜特征分類,將無(wú)標(biāo)記樣本聚類成多類,利用多類的標(biāo)簽均值和有標(biāo)記樣本訓(xùn)練分類器,一方面提供更多類別信息,一方面和meanS3VM一樣加快訓(xùn)練速度,減小了求解難度。與meanS3VM相比,將標(biāo)簽均值間隔最大化約束條件改為聚類后多類的標(biāo)簽均值間隔最大化約束條件,是本文的創(chuàng)新點(diǎn),在實(shí)驗(yàn)中驗(yàn)證了這種改進(jìn)明顯提高了分類的正確率,而且聚類后多類的標(biāo)簽均值比meanS3VM兩類標(biāo)簽均值隨機(jī)性小,提高了算法的穩(wěn)定性。
半監(jiān)督支持向量機(jī)結(jié)合了監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)的優(yōu)點(diǎn),使用有少量標(biāo)記樣本和大量無(wú)標(biāo)記樣本設(shè)計(jì)分類器。在半監(jiān)督支持向量機(jī)的訓(xùn)練過程中,給定的訓(xùn)練樣本為一組有標(biāo)簽訓(xùn)練樣本集:L={(x1,y1),…,(xl,yl)},xi∈ Rd,yi∈ {+1,-1},和另一組無(wú)標(biāo)記樣本集:U={xl+1,xl+2,…,xl+u},其中l(wèi)和u分別為標(biāo)記和未標(biāo)記樣本數(shù)。半監(jiān)督支持向量機(jī)可以定義為形如式(2)的優(yōu)化問題:
其中,H 是再生核希爾伯特空間[8]; ξ={ξ1,ξ2,…,ξl+u},{ξ1,ξ2,…,ξl} 是標(biāo)記樣本的松弛變量,{ξl+1,ξl+2,…,ξl+u} 是無(wú)標(biāo)記樣本的松弛變量;參數(shù)C1需要人為設(shè)置,如果選擇較小的值,表示對(duì)標(biāo)記樣本錯(cuò)分比較容忍而更強(qiáng)調(diào)對(duì)正確分類的樣本的樣本間隔,相反,C1取較大值,則更強(qiáng)調(diào)對(duì)錯(cuò)分的懲罰;yi(w'φ(xi)+b) ≥1 - ξi,i=1,2,…,l是標(biāo)記樣本的約束條件;l+1,l+2,…,l+μ是無(wú)標(biāo)記樣本的約束條件;φ(xj)是將特征映射到高維空間的非線性映射函數(shù);參數(shù)C2與參數(shù)C1類似,C2的取值較小表示對(duì)無(wú)標(biāo)記樣本錯(cuò)分比較容忍而更強(qiáng)調(diào)對(duì)正確分類的樣本的樣本間隔,相反則更強(qiáng)調(diào)對(duì)錯(cuò)分的懲罰;最后一個(gè)約束條件是平衡約束條件,防止所有的無(wú)標(biāo)記樣本分為一類;r表示無(wú)標(biāo)記樣本中正類個(gè)數(shù)比負(fù)類個(gè)數(shù)多多少,根據(jù)具體情況設(shè)定r的值。
標(biāo)簽均值半監(jiān)督支持向量機(jī)算法簡(jiǎn)稱為meanS3VM算法,與傳統(tǒng)半監(jiān)督支持向量機(jī)(如式(2)所示)相比,它改變了無(wú)標(biāo)記樣本懲罰項(xiàng),以無(wú)標(biāo)記樣本的估計(jì)標(biāo)簽均值之間的間隔ρ最大化為目標(biāo),使用了標(biāo)簽均值這一個(gè)簡(jiǎn)單的統(tǒng)計(jì)量來訓(xùn)練分類器,數(shù)學(xué)表達(dá)如式(3)所示:
標(biāo)簽均值支持向量機(jī)最初被設(shè)計(jì)用于普通數(shù)據(jù)集分類,若用于圖像分類,存在分類正確率較低的問題。圖像分類需要考慮圖像的光譜特征,但meanS3VM算法只將無(wú)標(biāo)記樣本預(yù)分為兩類,計(jì)算兩類的預(yù)估標(biāo)簽均值,以預(yù)估標(biāo)簽均值間隔ρ最大化為目標(biāo)訓(xùn)練分類器。對(duì)于大量無(wú)標(biāo)記樣本,meanS3VM算法只使用了均值信息。而且傳統(tǒng)無(wú)標(biāo)記樣本的選取都是隨機(jī)的,無(wú)標(biāo)記樣本標(biāo)簽均值的隨機(jī)性比較大,顯然會(huì)影響算法的穩(wěn)定性。本文算法以如何增加有意義的標(biāo)簽均值約束條件,并提高算法的穩(wěn)定性為出發(fā)點(diǎn),提出一種改進(jìn)的標(biāo)簽均值支持向量機(jī)算法。該方法首先對(duì)所有無(wú)標(biāo)記樣本進(jìn)行聚類,假設(shè)聚類數(shù)為k,在每個(gè)類別中分別求取預(yù)估標(biāo)簽均值,利用一個(gè)基于間隔的框架使每類的預(yù)估標(biāo)簽均值之間的間隔最大化,使分類面到各個(gè)聚類中心的預(yù)估標(biāo)簽均值間隔盡可能大,達(dá)到適應(yīng)多類圖像分類任務(wù),并提高分類精度和結(jié)果穩(wěn)定性的目的。這時(shí)問題定義為:
其中,V= [V1,V2,…,Vk]是無(wú)標(biāo)記樣本聚類的結(jié)果。uh+與uh-分別為聚類后第h類中正類個(gè)數(shù)和負(fù)類個(gè)數(shù)。對(duì)該問題本文采用交替迭代方法求解,首先原最優(yōu)化問題可以轉(zhuǎn)化成如下的對(duì)偶問題[9]:
針對(duì)式(5),如果固定了d的取值,α的求解就是一個(gè)標(biāo)準(zhǔn)的二次規(guī)劃(Quadratic Programming)[10]問題。另一方面,如果固定 α的取值,使用KKT條件[11]可以求取w和b,并且式(5)被簡(jiǎn)化成式(6):
所以,本文算法是通過交替迭代方法求解,首先對(duì)無(wú)標(biāo)記樣本聚類;接著使用監(jiān)督SVM進(jìn)行預(yù)分類得到無(wú)標(biāo)記樣本的預(yù)分類標(biāo)簽d;固定d的取值,通過聚類結(jié)果與預(yù)分類標(biāo)簽d構(gòu)建約束條件,求解式(5)得到乘子α的取值;接著固定α值求解式(6)得出參數(shù)w和b的取值,用w和b的值再估計(jì)新的無(wú)標(biāo)記樣本的標(biāo)簽d';如果d等于d'停止迭代,否則繼續(xù)固定標(biāo)記樣本的標(biāo)簽d',通過聚類結(jié)果與預(yù)分類標(biāo)簽d'構(gòu)建約束條件,求解式(5)依次迭代。
本文的算法流程如下:
Step 1首先對(duì)u個(gè)無(wú)標(biāo)記樣本進(jìn)行K-means聚類,聚成k類。
Step 2使用SVM分類器對(duì)u個(gè)無(wú)標(biāo)記樣本預(yù)分類,得到預(yù)估標(biāo)簽d。
Step 3使用聚類信息與預(yù)估標(biāo)簽信息,求出聚類簇的標(biāo)簽均值,構(gòu)建2k個(gè)約束條件。
Step 4使用二次規(guī)劃求解式(5)優(yōu)化問題,求得新的α值。通過KKT條件,求解w和b。
Step 5使用w和b估計(jì)u個(gè)無(wú)標(biāo)記樣本新的標(biāo)簽d'。如果d'=d,停止迭代,否則跳轉(zhuǎn)Step3。
Step 6使用最終訓(xùn)練好的分類器對(duì)全圖分類,算法結(jié)束。
通過算法流程可以得出本文算法的時(shí)間復(fù)雜度和空間復(fù)雜度,由于K-means算法的時(shí)間復(fù)雜度為O(n),空間復(fù)雜度為O(n),二次規(guī)劃算法的時(shí)間復(fù)雜度為O(n2),空間復(fù)雜度為O(n2),又因?yàn)閗<<n,本文提出的聚類標(biāo)簽均值半監(jiān)督支持向量機(jī)的時(shí)間復(fù)雜度為:O(u)+O(n2) =O(n2),空間復(fù)雜度為:O(u)+O(n2)=O(n2),其中u是無(wú)標(biāo)記樣本的個(gè)數(shù)。
meanS3VM算法的參數(shù)有:針對(duì)標(biāo)記樣本的錯(cuò)分懲罰參數(shù)C1和針對(duì)無(wú)標(biāo)記樣本的錯(cuò)分懲罰參數(shù)C2。C1的大小決定了標(biāo)記樣本在訓(xùn)練分類器過程的重要性,C2的大小決定了無(wú)標(biāo)記樣本在訓(xùn)練分類器過程的重要性。還有高斯核函數(shù)k(x,y)=exp(-gamma*‖x-y‖2)的參數(shù)gamma。當(dāng)gamma→0時(shí),k(x,y)→1,只能得到一個(gè)近似于常函數(shù)的判決函數(shù)[12],對(duì)目標(biāo)與背景稍微復(fù)雜的圖像分類正確率較低。當(dāng)gamma→∞ 時(shí),k(x,y)→0,訓(xùn)練好的分類器推廣能力較差,測(cè)試樣本錯(cuò)分的情況比較普遍。參數(shù)ep是無(wú)標(biāo)記樣本正類數(shù)目的估計(jì)值,其值對(duì)分類器的分類正確率影響較大。本文改進(jìn)算法中,需要對(duì)無(wú)標(biāo)記樣本聚類,聚類數(shù)k值減小,則每類樣本數(shù)增多,聚類標(biāo)簽均值間隔約束條件減少。k值增大則相反,所以聚類數(shù)k的取值直接影響算法的性能。
為了研究本文算法是否增加了有意義的標(biāo)簽均值約束條件,并提高了算法的穩(wěn)定性,實(shí)驗(yàn)對(duì)象選擇目標(biāo)與背景復(fù)雜度不同的圖像,分別使用監(jiān)督SVM和半監(jiān)督meanS3VM以及本文算法進(jìn)行分類,并對(duì)比分析分類結(jié)果。程序使用 Matlab R2011a編寫,運(yùn)行在內(nèi)存為 4 GB,CPU為 Intel(R)Core(TM)i5-2400頻率為3.10 GHz的機(jī)器上。實(shí)驗(yàn)用圖都選自 Weizmann horse dataset[13],并且可以利用 Weizmann horse dataset給出的理想分類結(jié)果進(jìn)行對(duì)比評(píng)價(jià)。本文采用圖像分類中常用的像素分類正確率PCR(Pixel Classification Rate)來評(píng)價(jià)分類效果。
實(shí)驗(yàn)中,監(jiān)督SVM方法隨機(jī)選擇20個(gè)標(biāo)記樣本,其中正類與負(fù)類各10個(gè)來進(jìn)行分類器的訓(xùn)練,meanS3VM與本文算法在選好的20個(gè)標(biāo)記樣本基礎(chǔ)上,再隨機(jī)選擇200個(gè)無(wú)標(biāo)記樣本訓(xùn)練分類器,最終用訓(xùn)練好的分類器對(duì)全圖估計(jì)標(biāo)簽,得到分類結(jié)果。
實(shí)驗(yàn)中監(jiān)督SVM算法使用網(wǎng)上流行的工具包實(shí)現(xiàn),版本號(hào)為 libsvm-mat-2.83-1[14],核函數(shù)使用高斯核函數(shù),其中g(shù)amma的取值采用網(wǎng)格搜索法在 gamma=[1.0E -04:0.2E -04:1.0E -03]中尋找最優(yōu)值,參數(shù)C采用經(jīng)驗(yàn)取值1。
實(shí)驗(yàn)中meanS3VM算法的參數(shù)有C1與C2,C1的取值與監(jiān)督SVM算法的參數(shù)C的取值相同,C2采用經(jīng)驗(yàn)最優(yōu)值0.1。ep的選取:對(duì)無(wú)標(biāo)記樣本標(biāo)簽預(yù)估計(jì),假設(shè)正類數(shù)目為u+,然后再用網(wǎng)格搜索在ep= {u+-10:1:u++10}中尋找最優(yōu)值。gamma的取值采用網(wǎng)格搜索法在gamma=[1.0E- 04:0.2E - 04:1.0E - 03]中尋找最優(yōu)值。
本文的改進(jìn)算法中,聚類數(shù)k采用對(duì)不同圖像多次實(shí)驗(yàn)得到的一個(gè)經(jīng)驗(yàn)取值。在實(shí)驗(yàn)中,每幅圖像選取20個(gè)標(biāo)記樣本和200個(gè)無(wú)標(biāo)記樣本,實(shí)驗(yàn)中聚類數(shù)k的選取從2到8進(jìn)行實(shí)驗(yàn)。以實(shí)驗(yàn)中的“Horse008”和“Horse109”為例,分類正確率如表1所示。
Table 1 Impact of clustering number on algorithm accuracy表1 聚類數(shù)k對(duì)算法的正確率影響
從表1可以看出在聚類數(shù)為4時(shí)分類準(zhǔn)確率的值較高,所以實(shí)驗(yàn)中聚類數(shù)k初始取值為4,然后采用網(wǎng)格搜索法在k={2:1:6}中選擇最優(yōu)值。ep的選取:對(duì)無(wú)標(biāo)記樣本標(biāo)簽預(yù)估計(jì),假設(shè)正類數(shù)目為u+,然后再用網(wǎng)格搜索在ep={u+-10:1:u++10}中尋找最優(yōu)值。C1與 C2的取值與meanS3VM中的C1與C2取值相同。gamma的取值采用網(wǎng)格搜索法在gamma=[1.0E-04:0.2E-04:1.0E -03]中尋找最優(yōu)。
實(shí)驗(yàn)選取了有代表性的五幅圖作為結(jié)果展示,對(duì)于每幅圖像算法的參數(shù)尋優(yōu)后的結(jié)果如表2所示。
Table 2 Algorithm parameters表2 算法參數(shù)
監(jiān)督SVM算法、meanS3VM算法與本文算法的分類結(jié)果如圖2所示,各方法的運(yùn)行時(shí)間與分類正確率如表3所示。各方法的正確率對(duì)比圖如圖3所示。從表3可看出,因?yàn)樘砑恿藷o(wú)標(biāo)記樣本信息,所以meanS3VM與本文算法的分類正確率都高于監(jiān)督SVM算法。Horse008的背景與目標(biāo)都比較簡(jiǎn)單,選取的20個(gè)標(biāo)記樣本提供了大量的信息,而無(wú)標(biāo)記樣本的標(biāo)簽均值沒有提供額外的訓(xùn)練信息,所以針對(duì)Horse008,meanS3VM算法分類正確率與監(jiān)督SVM算法分類正確率相當(dāng),本文算法的分類正確率高于前兩種算法。監(jiān)督SVM算法不使用無(wú)標(biāo)記樣本,訓(xùn)練分類器時(shí)間最短,本文算法需要對(duì)無(wú)標(biāo)記樣本聚類再求聚類標(biāo)簽均值,所以時(shí)間會(huì)略高于meanS3VM算法,但是相比于分類器正確率的提高,本文算法的時(shí)間開銷可以接受。從圖3可以看出,本文算法對(duì)不同類型的圖像分類正確率都優(yōu)于meanS3VM算法,因?yàn)閷?duì)于圖像的光譜特征進(jìn)行聚類后,通過聚類均值標(biāo)簽間隔最大化約束,使得同一光譜特征的樣本點(diǎn)標(biāo)簽一致,提高了算法的分類正確率。
因?yàn)楸O(jiān)督SVM算法只使用標(biāo)記樣本來訓(xùn)練分類器,隨機(jī)選取無(wú)標(biāo)記樣本不會(huì)影響算法的分類結(jié)果。所以,僅僅對(duì)比meanS3VM算法與本文算法的穩(wěn)定性。先固定選取好的20個(gè)標(biāo)記樣本,隨機(jī)選取200個(gè)無(wú)標(biāo)記樣本進(jìn)行實(shí)驗(yàn),對(duì)每幅圖像進(jìn)行10次實(shí)驗(yàn),10次正確率的均值和方差如表4所示。meanS3VM算法與本文算法的穩(wěn)定性對(duì)比如圖4所示,從圖4可以看出,本文算法的穩(wěn)定性更優(yōu)。
Table 3 Classification accuracy and time efficiency of each method on horse dateset表3 Horse數(shù)據(jù)集上各方法分類正確率和時(shí)間效率
在Flower數(shù)據(jù)集上的分類結(jié)果如圖5和表5所示,參數(shù)的尋優(yōu)過程與4.1節(jié)類似,因?yàn)槠脑虮疚倪x取數(shù)據(jù)集中的三幅圖像進(jìn)行展示。如圖5所示,其中第一列圖像是待分類圖像,第二列圖像是理想分類結(jié)果,第三列圖像是監(jiān)督SVM分類結(jié)果,第四列圖像是meanSVM分類結(jié)果,第五列是本文算法分類結(jié)果。因?yàn)榫垲悩?biāo)簽均值約束利用了圖像的光譜特征訓(xùn)練分類超平面,分類的結(jié)果更加符合光譜特性,即光譜特性相似的樣本標(biāo)簽一致,這樣就會(huì)減少錯(cuò)分,提升算法的正確率,表5是各算法分類的正確率與時(shí)間效率。
Table 4 Stability tests表4 穩(wěn)定性實(shí)驗(yàn)
本文將meanS3VM算法的標(biāo)簽均值修改為聚類標(biāo)簽均值,并改變了原算法對(duì)無(wú)標(biāo)記樣本的懲罰項(xiàng)的約束條件,在訓(xùn)練分類器的過程中,首先對(duì)無(wú)標(biāo)記樣本聚類,在聚好的每個(gè)類別中分別求取預(yù)估標(biāo)簽均值,利用一個(gè)基于間隔的框架使每類的預(yù)估標(biāo)簽均值之間的間隔最大化。實(shí)驗(yàn)結(jié)果顯示,本文算法的分類正確率比meanS3VM算法的要高,而且在無(wú)標(biāo)記樣本隨機(jī)選取的情況下,本文算法的穩(wěn)定性也遠(yuǎn)遠(yuǎn)高于meanS3VM。今后將研究針對(duì)不同的圖像,根據(jù)圖像的光譜特征自適應(yīng)地得到聚類數(shù)k,以期可以適用于光譜特征更加復(fù)雜的遙感圖像分類中。
Table 5 Classification accuracy and time efficiency of each method on flower dataset表5 Flower數(shù)據(jù)集上各方法分類正確率和時(shí)間效率