張睿,楊義鑫,李陽,王家寶,苗壯,李航,王梓祺
陸軍工程大學(xué)指揮控制工程學(xué)院, 南京 210007
遙感場(chǎng)景分類是遙感圖像處理和分析的重要組成部分,在災(zāi)害探測(cè)、環(huán)境監(jiān)測(cè)以及地質(zhì)勘探等任務(wù)中發(fā)揮著十分重要的作用(Anwer等,2018;Tao等,2021)。早期,遙感場(chǎng)景分類一般利用圖像的手工特征構(gòu)建分類器(Cheng等,2014),如光譜特征、紋理特征和結(jié)構(gòu)特征等。手工特征提取模型需對(duì)遙感圖像進(jìn)行去噪、歸一化和特征降維等數(shù)據(jù)預(yù)處理,然后通過圖像編碼得到相應(yīng)的特征向量,最后利用分類器完成遙感圖像的分類(Wang等,2017;Zhu等,2017)?;谑止ぬ卣鞯倪b感圖像分類方法針對(duì)性較強(qiáng),能夠適應(yīng)特定類別的圖像特征,但是特征選擇會(huì)耗費(fèi)研究者的大量精力,且往往很難推廣到其他類別。
隨著人工智能技術(shù)不斷成熟以及硬件資源飛速發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)廣泛應(yīng)用于圖像分類、目標(biāo)識(shí)別以及目標(biāo)檢測(cè)等多個(gè)領(lǐng)域(Szegedy等,2015;Dong等,2020)。CNN對(duì)圖像的表征能力越來越強(qiáng),逐漸取代傳統(tǒng)手工特征模型成為主流方法(Cheng等,2020)。CNN由大量神經(jīng)元組成,本質(zhì)上是一種人類大腦的形式化表示(Krizhevsky等,2012)。神經(jīng)元中的權(quán)重與激活函數(shù)共同決定輸入的特征是否被響應(yīng),輸出結(jié)果又通過梯度反傳更新神經(jīng)元的權(quán)重,直到模型參數(shù)擬合(Simonyan和Zisserman,2015)。CNN通常利用大量數(shù)據(jù)以及相應(yīng)的標(biāo)簽不斷學(xué)習(xí)才能達(dá)到預(yù)期效果,在數(shù)據(jù)不足時(shí),模型很容易出現(xiàn)過擬合等問題(劉穎 等,2021)。因此,如何模擬人類學(xué)習(xí),進(jìn)而設(shè)計(jì)一種可以適應(yīng)小樣本數(shù)據(jù)的遙感場(chǎng)景分類模型具有十分重要的意義(季鼎城 等,2019)。
小樣本學(xué)習(xí)是指模型只需利用少量樣本訓(xùn)練即可達(dá)到相應(yīng)學(xué)習(xí)任務(wù)的要求。此外,一個(gè)性能較好的小樣本遙感圖像分類模型應(yīng)具備在基類上訓(xùn)練后,只通過少量樣本的學(xué)習(xí)就可以適應(yīng)新類別的能力(Wang等,2021;劉穎 等,2021)。當(dāng)前,小樣本學(xué)習(xí)算法大多遵循元學(xué)習(xí)(Sun等,2019)框架。元學(xué)習(xí)(meta-learning)是一種面向任務(wù)的學(xué)習(xí)方式(Finn等,2017;Lee等,2019;Bertinetto等,2019),在模型訓(xùn)練準(zhǔn)備階段,元學(xué)習(xí)會(huì)抽取不同樣本組成大量的子任務(wù)來增加訓(xùn)練復(fù)雜性。每個(gè)任務(wù)由元支撐集和元查詢兩部分組成,對(duì)應(yīng)于傳統(tǒng)深度學(xué)習(xí)中的訓(xùn)練和測(cè)試樣本(Sun等,2019)。
由于較好的靈活性和準(zhǔn)確性,目前基于度量的元學(xué)習(xí)模型(Yang等,2020)廣泛應(yīng)用于小樣本圖像分類任務(wù)。RS-MetaNet(remote sensing meta network)(Li等,2020)首先將基于度量的元學(xué)習(xí)引入到小樣本遙感場(chǎng)景圖像分類領(lǐng)域,在一定程度上緩解了樣本不足問題。針對(duì)遙感場(chǎng)景圖像分類任務(wù)中類內(nèi)距離大的問題,RS-MetaNet提出的平衡損失使模型學(xué)習(xí)到了更好的線性分割平面。Relation Net(Sung等,2018)同樣是一種基于度量的元學(xué)習(xí)模型,該模型使用深度非線性距離來度量元學(xué)習(xí)任務(wù)中待分類樣本與類別中心的距離。然而,由于無法理解特征之間的空間關(guān)系,現(xiàn)有方法的泛化能力依然不足。本文認(rèn)為造成這種泛化能力不足的原因主要是遙感圖像中一些類別的類間距離小,類內(nèi)距離大。雖然RS-MetaNet通過增加一個(gè)交叉熵?fù)p失來增加遙感圖像類間距離,但忽略了類內(nèi)樣本關(guān)系的學(xué)習(xí),在新類別上的泛化能力依然不足。
為解決以上問題,本文提出一種基于自監(jiān)督學(xué)習(xí)的小樣本遙感圖像場(chǎng)景分類方法。該方法在小樣本度量學(xué)習(xí)的基礎(chǔ)上,通過引入自監(jiān)督蒸餾學(xué)習(xí)和自監(jiān)督對(duì)比學(xué)習(xí)來解決原有模型泛化能力不足的問題。自監(jiān)督蒸餾學(xué)習(xí)利用老師網(wǎng)絡(luò)的軟標(biāo)簽作為學(xué)生網(wǎng)絡(luò)的監(jiān)督信息,為遙感圖像分類提供更加豐富的類內(nèi)類間關(guān)系信息。自監(jiān)督對(duì)比學(xué)習(xí)通過度量樣本在一個(gè)表示空間的相似性,為小樣本學(xué)習(xí)提供對(duì)比關(guān)系信息,使模型具有更強(qiáng)的泛化能力。
本文的創(chuàng)新點(diǎn)包括3個(gè)方面:1)提出雙學(xué)生蒸餾學(xué)習(xí)機(jī)制,將單一的硬標(biāo)簽替換成軟標(biāo)簽信息,使模型能夠?qū)W習(xí)到更豐富的類內(nèi)類間關(guān)系;2)改進(jìn)自監(jiān)督對(duì)比學(xué)習(xí)過程,通過度量?jī)蓚€(gè)學(xué)生模型的類中心距離構(gòu)建對(duì)比損失,使模型學(xué)習(xí)到一個(gè)更加明確的類間分界,從而提高模型的泛化能力;3)在NWPU-RESISC45(North Western Polytechnical University—remote sensing image scene classification)、AID(aerial image dataset)和UCMerced LandUse(UC merced land use dataset)3個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。結(jié)果表明,本文方法可以使模型學(xué)習(xí)到豐富的類內(nèi)類間關(guān)系,有效提升了小樣本遙感場(chǎng)景圖像分類模型的泛化能力。
傳統(tǒng)的遙感圖像分類模型將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集兩個(gè)子數(shù)據(jù)集(He等,2015),一般這兩個(gè)子數(shù)據(jù)集在類別上相同,在樣本上沒有交集。傳統(tǒng)的模型會(huì)對(duì)訓(xùn)練集上的數(shù)據(jù)進(jìn)行深度擬合,通過損失梯度逐步適應(yīng)當(dāng)前數(shù)據(jù)的特征分布。然而這限制了模型對(duì)新任務(wù)的拓展性,使模型失去對(duì)未知類別的鑒別能力。在實(shí)際應(yīng)用中,待分類的目標(biāo)也不一定屬于訓(xùn)練集,所以傳統(tǒng)的訓(xùn)練方法不適應(yīng)小樣本遙感圖像分類任務(wù)。
雖然元學(xué)習(xí)在一定程度上擺脫了對(duì)大數(shù)據(jù)的依賴,但是模型的泛化能力依然不強(qiáng)。原因主要是遙感圖像中一些類別的類間距離小、類內(nèi)距離大。本文提出使用自監(jiān)督蒸餾學(xué)習(xí)來解決這個(gè)問題,即利用老師網(wǎng)絡(luò)的軟標(biāo)簽作為學(xué)生網(wǎng)絡(luò)的監(jiān)督信息,這樣可以進(jìn)一步體現(xiàn)類間關(guān)系,有效減小類間距離不均衡對(duì)模型的影響。另外,為了進(jìn)一步增加模型的泛化能力,本文引入自監(jiān)督對(duì)比信息,使模型學(xué)習(xí)到一個(gè)更加明確的類間分界。
本文提出的小樣本遙感圖像分類模型主要包括數(shù)據(jù)預(yù)處理、特征提取和損失函數(shù)3個(gè)模塊。如圖1所示,該圖為3-way 1-shot任務(wù)的示意圖,模型由一個(gè)老師網(wǎng)絡(luò)和兩個(gè)學(xué)生網(wǎng)絡(luò)組成。在數(shù)據(jù)預(yù)處理階段,模型會(huì)依照元學(xué)習(xí)模式的樣本抽取規(guī)則,分別構(gòu)成元支撐集和元查詢集。
圖1 3-way 1-shot時(shí)本文方法網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Our framework for 3-way 1-shot task
學(xué)生網(wǎng)絡(luò)將支撐集S翻轉(zhuǎn)構(gòu)建一個(gè)新的支撐集S′,而后分別送入兩個(gè)學(xué)生網(wǎng)絡(luò)。特征提取函數(shù)是兩個(gè)共享參數(shù)的Conv-64網(wǎng)絡(luò)(Snell等,2017;Sung等,2018),分別為fφ1和fφ2,每個(gè)Conv-64網(wǎng)絡(luò)由4個(gè)卷積塊和2個(gè)最大化池化層構(gòu)成。兩個(gè)學(xué)生網(wǎng)絡(luò)的預(yù)測(cè)輸出會(huì)集成為一個(gè)結(jié)果用于計(jì)算損失。在損失函數(shù)方面,除了MSE (mean square error)損失,增加了用于自監(jiān)督蒸餾學(xué)習(xí)的KL(Kullback-Leibler)損失和自監(jiān)督對(duì)比損失。老師網(wǎng)絡(luò)可以通過KL損失指導(dǎo)學(xué)生學(xué)習(xí)到更好的參數(shù)。自監(jiān)督對(duì)比損失作用于類中心,可以指導(dǎo)模型判斷生成的類別中心是否符合分類的要求,即類內(nèi)距離要小、類間距離要大。
初始化:組合特征z、相似性分?jǐn)?shù)RelationScores
1)計(jì)算樣本特征;
(1)支撐集特征Is;
(2)查詢樣本特征Iq;
2)計(jì)算支撐集的每個(gè)類別中心P并與查詢樣本特征拼接;
foriin range(1,N):
zi=Concatenate(Pi,Iq)#拼接;
End for;
3)RelationScores=δ(z)#計(jì)算相似性分?jǐn)?shù);
4)returnRelationScores#返回相似性分?jǐn)?shù)。
(1)
(2)
在第2階段訓(xùn)練中,模型對(duì)雙學(xué)生網(wǎng)絡(luò)進(jìn)行訓(xùn)練。雙學(xué)生訓(xùn)練產(chǎn)生3個(gè)損失函數(shù),分別是小樣本度量學(xué)習(xí)的MSE損失、自監(jiān)督蒸餾學(xué)習(xí)的KL損失以及自監(jiān)督對(duì)比損失。
2.2.1 小樣本度量學(xué)習(xí)
小樣本度量學(xué)習(xí)的損失使用硬標(biāo)簽指導(dǎo)學(xué)生網(wǎng)絡(luò)訓(xùn)練,主要目的是指導(dǎo)原有元學(xué)習(xí)的訓(xùn)練,模型通過計(jì)算相似性分?jǐn)?shù)的損失值來更新模型的參數(shù)。
小樣本度量學(xué)習(xí)的訓(xùn)練過程與老師網(wǎng)絡(luò)學(xué)習(xí)過程相似。本文模型包括兩個(gè)學(xué)生網(wǎng)絡(luò),其特征提取函數(shù)分別為fφ1和fφ2,分類器分別為δs1和δs2。兩個(gè)學(xué)生網(wǎng)絡(luò)輸入的查詢樣本相同,但支撐集不相同,分別為S和S′。
(3)
(4)
式中,Ys1∈RC和Ys2∈RC代表兩個(gè)學(xué)生網(wǎng)絡(luò)各自計(jì)算出的相似性分?jǐn)?shù)。
與老師網(wǎng)絡(luò)計(jì)算損失不同,兩個(gè)學(xué)生網(wǎng)絡(luò)的輸出結(jié)果使用平均加權(quán)的方法融合為一個(gè)相似性分?jǐn)?shù),即
Ys=(Ys1+Ys2)/2
(5)
式中,Ys∈RC代表融合后的相似性分?jǐn)?shù)。與老師網(wǎng)絡(luò)相同,融合后的相似性分?jǐn)?shù)用于計(jì)算梯度損失更新fφ1、fφ2、δs1和δs2的參數(shù),即
(6)
2.2.2 自監(jiān)督蒸餾學(xué)習(xí)
蒸餾學(xué)習(xí)的最后一步是利用KL損失指導(dǎo)雙學(xué)生網(wǎng)絡(luò)的學(xué)習(xí)。KL損失是計(jì)算老師網(wǎng)絡(luò)和雙學(xué)生網(wǎng)絡(luò)輸出的相對(duì)熵。具體為
(7)
式中,τ1代表蒸餾學(xué)習(xí)的溫度系數(shù)。
KL散度可以度量?jī)蓚€(gè)網(wǎng)絡(luò)預(yù)測(cè)概率分布的相似程度。具體地,老師網(wǎng)絡(luò)預(yù)測(cè)的概率分布Yt可以看做一個(gè)置信度很高的基準(zhǔn),學(xué)生網(wǎng)絡(luò)預(yù)測(cè)的概率分布Ys的目標(biāo)是逼近老師網(wǎng)絡(luò)預(yù)測(cè)的概率分布Yt。當(dāng)兩者預(yù)測(cè)分布接近時(shí),蒸餾學(xué)習(xí)的KL損失值會(huì)變小,模型也逐漸收斂。
2.2.3 自監(jiān)督對(duì)比學(xué)習(xí)
自監(jiān)督對(duì)比學(xué)習(xí)(Hendrycks等,2019)通過度量?jī)蓚€(gè)類中心的距離來計(jì)算對(duì)比損失,從而增加模型的泛化能力。兩個(gè)學(xué)生產(chǎn)生的類中心標(biāo)簽兩兩對(duì)應(yīng),在計(jì)算對(duì)比損失時(shí),來自相同類別的類別中心互為正例樣本,否則互為負(fù)例樣本。
(8)
(9)
式中,τ2為對(duì)比損失溫度系數(shù)。
圖2 對(duì)比損失示意圖Fig.2 Structure of contrastive loss
對(duì)比損失的基本思想是利用來自兩個(gè)學(xué)生網(wǎng)絡(luò)的類別中心進(jìn)行相似性比較。從對(duì)比損失的表達(dá)式來看,正例數(shù)據(jù)之間的相似性分?jǐn)?shù)越接近,損失值越低。
本文將小樣本度量損失、自監(jiān)督蒸餾損失和自監(jiān)督對(duì)比損失統(tǒng)一成最終的損失L,通過最小化L使不同損失產(chǎn)生的梯度共同作用于梯度更新過程。模型最終的優(yōu)化目標(biāo)為
L=Ls+LKL+β×Lct
(10)
式中,β是超參數(shù)。
實(shí)驗(yàn)在遙感場(chǎng)景圖像分類常用的3個(gè)數(shù)據(jù)集UCMerced LandUse(Yang和Newsam,2010)、AID(Xia等,2017)和NWPU-RESISC45(Cheng等,2017)上進(jìn)行,評(píng)價(jià)指標(biāo)為分類精度。所有分類精度都在相同實(shí)驗(yàn)設(shè)定下使用3折交叉驗(yàn)證方法測(cè)試600次取平均得到,對(duì)比的任務(wù)為5-way 1-shot任務(wù)和5-way 5-shot任務(wù)。
UCMerced LandUse數(shù)據(jù)集是一個(gè)較小規(guī)模的遙感圖像分類標(biāo)準(zhǔn)數(shù)據(jù)集,包含21個(gè)不同的類別,每個(gè)類別有100幅航拍圖像。這些樣本由美國(guó)地質(zhì)勘查局從美國(guó)21個(gè)地區(qū)采集得到,樣本尺寸固定為256 × 256像素,空間分辨率為0.3 m。
AID數(shù)據(jù)集由武漢大學(xué)發(fā)布,包含30個(gè)場(chǎng)景類別,每個(gè)類別的樣本有220~240個(gè)不等。由于AID數(shù)據(jù)集來自谷歌地球,因此該數(shù)據(jù)集擁有多分辨率的特性,空間分辨率為8~0.5 m不等,樣本尺寸固定為600 × 600像素。
NWPU-RESISC45數(shù)據(jù)集由西北工業(yè)大學(xué)發(fā)布,是目前最大的遙感場(chǎng)景分類數(shù)據(jù)集,包含45個(gè)場(chǎng)景類別,每個(gè)類別有700個(gè)樣本。這些樣本從谷歌地球采集而來,樣本尺寸固定為256 × 256像素,空間分辨率為30~0.2 m。
實(shí)驗(yàn)時(shí),為了固定骨干網(wǎng)絡(luò),將所有樣本在數(shù)據(jù)預(yù)處理階段壓縮為84 × 84像素,并經(jīng)過數(shù)據(jù)標(biāo)準(zhǔn)化操作,查詢集Q的大小設(shè)置為8。本文采用ResNet-50為教師網(wǎng)絡(luò),4層CNN網(wǎng)絡(luò)為學(xué)生網(wǎng)絡(luò),所有網(wǎng)絡(luò)使用Adam優(yōu)化器訓(xùn)練50 000次。初始學(xué)習(xí)率設(shè)置為0.001,并在訓(xùn)練次數(shù)達(dá)到一半時(shí)減半。溫度系數(shù)τ1和τ2分別設(shè)置為5和0.2,超參數(shù)β設(shè)置為0.5。
為了驗(yàn)證本文方法的有效性,在3個(gè)標(biāo)準(zhǔn)遙感場(chǎng)景圖像分類數(shù)據(jù)集上與MAML(model-agnostic meta-learning)(Finn等,2017)、Prototypical Net(Snell等,2017)、RS-MetaNet(Li等,2020)和Relation Net*(Sung等,2018)等模型進(jìn)行對(duì)比分析。實(shí)驗(yàn)結(jié)果如表1所示。可以看出,本文方法的分類精度在3個(gè)數(shù)據(jù)集上都有一定提高,并超越了其他方法。其中,基于遷移學(xué)習(xí)的傳統(tǒng)遙感場(chǎng)景分類在5-way 1-shot任務(wù)上的精度普遍都低于30%,在5-way 5-shot任務(wù)上的精度依然很低。這說明傳統(tǒng)方法對(duì)未知類別的泛化能力較差。本文方法在相同條件下,在NWPU-RESISC45、AID和UCMerced LandUse數(shù)據(jù)集上的分類精度分別達(dá)到了72.72%±0.15%、68.62%±0.76%和68.21%±0.65%,比Relation Net*分別提高了4.43%、1.93%和0.68%。隨著可用標(biāo)簽的增加,本文方法的提升作用依然能夠保持,在5-way 5-shot條件下,本文方法的分類精度比Relation Net*分別提高了3.89%、2.99%和1.25%。實(shí)驗(yàn)結(jié)果表明,本文方法能夠進(jìn)一步消除類間噪聲,增加類間距離,從而提高模型的魯棒性。
表1 各種小樣本方法在3個(gè)數(shù)據(jù)集上分類精度對(duì)比Table 1 Comparison of classification precision of different few-shot learning methods on three datasets
圖3和圖4分別為本文方法和Relation Net*在AID和UCMerced LandUse數(shù)據(jù)集的混淆矩陣?;煜仃囀窃u(píng)價(jià)機(jī)器學(xué)習(xí)分類性能的一個(gè)指標(biāo),矩陣的行列分別表示真實(shí)樣本和預(yù)測(cè)樣本的標(biāo)簽?;煜仃嚹軌蝮w現(xiàn)模型分類結(jié)果的概率分布。
如圖3所示,由于類別“稀疏的住宅”與類別“公園”有一些相似性,因此模型分類上就會(huì)有一定的偏差。Relation Net*將類別“公園”分類到類別“稀疏的住宅”的錯(cuò)誤率為12%,反之則為13%。而本文方法的錯(cuò)誤率為7%和9%,分別下降了5%和4%。在UCMerced LandUse數(shù)據(jù)集上也有相同的結(jié)果,如圖4所示。這說明本文方法能夠使模型學(xué)習(xí)到類與類的邊界信息,拉大類與類之間的距離。
圖3 本文方法和Relation Net*在AID數(shù)據(jù)集的混淆矩陣Fig.3 Confusion matrices of Relation Net* and ours on the AID dataset((a)Relation Net*;(b)ours)
圖4 本文方法和Relation Net*在UCMerced LandUse數(shù)據(jù)集的混淆矩陣Fig.4 Confusion matrices of Relation Net* and ours on the UCMerced LandUse dataset((a)Relation Net*;(b)ours)
為了驗(yàn)證本文提出的蒸餾學(xué)習(xí)和對(duì)比損失兩個(gè)模塊對(duì)模型的影響,在3個(gè)數(shù)據(jù)集上執(zhí)行5-way 1-shot任務(wù)進(jìn)行消融實(shí)驗(yàn)。
對(duì)比實(shí)驗(yàn)一共5組,如表2所示。使用Relation Net*作為Baseline;“Baseline+雙學(xué)生”代表只使用兩個(gè)學(xué)生網(wǎng)絡(luò)訓(xùn)練;“Baseline+雙學(xué)生+蒸餾學(xué)習(xí)”代表使用兩個(gè)學(xué)生網(wǎng)絡(luò)并進(jìn)行蒸餾學(xué)習(xí);“Baseline+雙學(xué)生+對(duì)比損失”代表使用兩個(gè)學(xué)生網(wǎng)絡(luò)并使用對(duì)比損失;本文方法使用兩個(gè)學(xué)生網(wǎng)絡(luò)進(jìn)行蒸餾學(xué)習(xí)和對(duì)比損失。
從表2可以看出,在3個(gè)數(shù)據(jù)集上,本文提出的兩個(gè)模塊都有正向的結(jié)果。例如,在NWPU-RESISC45數(shù)據(jù)集上,Baseline的精度為68.35%±0.43%,引入雙學(xué)生網(wǎng)絡(luò)后精度提升幅度較小,但同時(shí)引入雙學(xué)生網(wǎng)絡(luò)和知識(shí)蒸餾,性能提升了1.52%,同時(shí)引入雙學(xué)生網(wǎng)絡(luò)和對(duì)比損失,性能提升了2.36%。本文方法同時(shí)采用雙學(xué)生網(wǎng)絡(luò)、蒸餾學(xué)習(xí)和對(duì)比損失,相對(duì)于Baseline性能提升了4.43%。另外,在AID和UCMerced LandUse兩個(gè)數(shù)據(jù)集上,相比于Baseline,本文方法的各個(gè)模塊均能帶來性能提升。消融實(shí)驗(yàn)表明,本文提出的兩個(gè)模塊能夠有效提升模型的性能。雖然兩個(gè)自監(jiān)督機(jī)制在UCMerced LandUse只有0.14%和0.33%的提升,但是本文方法可以將結(jié)果的方差從1.6%降到0.65%,這也說明本文模型更加魯棒。
表2 消融實(shí)驗(yàn)Table 2 Ablation experiments /%
分析蒸餾損失的溫度系數(shù)τ1、對(duì)比損失的溫度系數(shù)τ2以及超參數(shù)β對(duì)實(shí)驗(yàn)結(jié)果的影響。
在去掉對(duì)比損失模塊的條件下,驗(yàn)證不同溫度系數(shù)τ1對(duì)模型的影響,結(jié)果如圖5所示。當(dāng)溫度系數(shù)τ1= 1時(shí),模型使用老師網(wǎng)絡(luò)的預(yù)測(cè)標(biāo)簽的真值來指導(dǎo)學(xué)生網(wǎng)絡(luò)的學(xué)習(xí)。但是利用真值指導(dǎo)學(xué)生網(wǎng)絡(luò)學(xué)習(xí)會(huì)導(dǎo)致蒸餾損失的作用降低。當(dāng)τ1>1時(shí),不同的預(yù)測(cè)概率會(huì)被壓縮到一個(gè)更小的區(qū)間,使蒸餾損失的作用上升。當(dāng)τ1= 5時(shí),模型的精度最高。
圖5 溫度系數(shù)τ1的分析Fig.5 Temperature hyper-parameterτ1analysis
與蒸餾損失的溫度系數(shù)τ1不同,MOCO v2(momentum contrast v2)(Chen等,2020)指出溫度系數(shù)τ2通過歸一化至0~1之間可到達(dá)更好的效果。因此,在測(cè)試溫度系數(shù)τ2時(shí),只使用對(duì)比損失模塊,在0~1區(qū)間測(cè)試不同τ2取值對(duì)本文結(jié)果的影響,結(jié)果如圖6所示??梢钥闯?,當(dāng)τ2= 0.2時(shí),模型的精度最高。
超參數(shù)β用于控制對(duì)比損失在總損失的比重,它的取值在0.1~1之間,分別表示不同的比重。不同超參數(shù)β對(duì)應(yīng)的精度如圖6,當(dāng)β= 0.5時(shí),模型的精度最高。
圖6 溫度系數(shù)τ2和超參數(shù)β的分析Fig.6 Temperatureτ2and hyper-parameterβanalysis
本文提出在自監(jiān)督學(xué)習(xí)下使用雙學(xué)生蒸餾學(xué)習(xí)機(jī)制和自監(jiān)督對(duì)比學(xué)習(xí)機(jī)制進(jìn)一步提升小樣本遙感場(chǎng)景圖像分類問題。雙學(xué)生蒸餾學(xué)習(xí)機(jī)制將單一的硬標(biāo)簽替換成軟標(biāo)簽信息,使模型能夠?qū)W習(xí)到更豐富的類內(nèi)類間關(guān)系。自監(jiān)督對(duì)比學(xué)習(xí)機(jī)制通過度量?jī)蓚€(gè)學(xué)生模型的類中心距離構(gòu)建對(duì)比損失,使得模型學(xué)習(xí)到一個(gè)更加明確的類間分界,提高了模型的泛化能力。本文做了大量實(shí)驗(yàn)來說明兩個(gè)自監(jiān)督機(jī)制的有效性。首先,對(duì)比實(shí)驗(yàn)表明自監(jiān)督機(jī)制在5-way 1-shot任務(wù)和5-way 5-shot任務(wù)都能夠取得較好的效果。其次,混淆矩陣的結(jié)果表明本文方法可以有效提升相似類別的識(shí)別正確率。最后,通過消融實(shí)驗(yàn)表明兩種自監(jiān)督機(jī)制對(duì)模型的提升作用明顯。
目前,小樣本遙感場(chǎng)景圖像分類研究處在起步階段,專門研究這類任務(wù)的工作還很有限。本文工作只是初步探索了自監(jiān)督蒸餾和對(duì)比學(xué)習(xí)在該領(lǐng)域的可行性,下一步考慮將自監(jiān)督遷移學(xué)習(xí)任務(wù)與小樣本遙感場(chǎng)景圖像分類進(jìn)一步有效結(jié)合。