黃 露, 曾慶山
(鄭州大學(xué) 電氣工程學(xué)院 河南 鄭州 450001)
我們正處在一個(gè)飛速發(fā)展的大數(shù)據(jù)時(shí)代,每天各行各業(yè)都產(chǎn)生海量的圖像數(shù)據(jù)。數(shù)據(jù)規(guī)模的不斷增大,使得機(jī)器學(xué)習(xí)的模型能夠持續(xù)不斷地進(jìn)行訓(xùn)練和更新,從而提升模型的性能。傳統(tǒng)的機(jī)器學(xué)習(xí)和圖像處理中,通常假設(shè)訓(xùn)練集和測試數(shù)據(jù)集遵循相同的分布,而在實(shí)際視覺應(yīng)用中相同分布假設(shè)很難成立,諸如姿勢、光照、模糊和分辨率等許多因素都會(huì)導(dǎo)致特征分布發(fā)生改變,而重新標(biāo)注數(shù)據(jù)工作量較大,且成本較高,也就形成了大量的不同分布的訓(xùn)練數(shù)據(jù),如果棄之不用則會(huì)造成浪費(fèi)。如何充分有效地利用這些不同分布的訓(xùn)練數(shù)據(jù),成為計(jì)算機(jī)視覺研究中的一個(gè)具有挑戰(zhàn)性的問題。而遷移學(xué)習(xí)是針對(duì)此類問題的一種有效解決方法,能夠?qū)⒅R(shí)從標(biāo)記的源域轉(zhuǎn)移到目標(biāo)域,用來自舊域的標(biāo)記圖像來學(xué)習(xí)用于新域的精確分類器。
目前,遷移學(xué)習(xí)已經(jīng)成為人工智能領(lǐng)域的一個(gè)研究熱點(diǎn)。其基本方法可以歸納為4類[1],即基于特征、基于樣本、基于模型及基于關(guān)系的遷移。其中基于特征的遷移學(xué)習(xí)方法是指通過特征變換的方法,來盡可能地縮小源域與目標(biāo)域之間的分布差異,實(shí)現(xiàn)知識(shí)跨域的遷移[2-8]。文獻(xiàn)[2]提出遷移主成分分析(transfer component analysis,TCA),通過特征映射得到新的特征表示,以最大均值差異(maximum mean discrepancy,MMD)作為度量準(zhǔn)則,將領(lǐng)域間的邊緣分布差異最小化。由于TCA僅對(duì)域間邊緣分布進(jìn)行適配,故而有較大的應(yīng)用局限性。文獻(xiàn)[3]提出的聯(lián)合分布自適應(yīng)(joint distribution adaptation,JDA)在TCA的基礎(chǔ)上增加對(duì)源域和目標(biāo)域的條件概率進(jìn)行適配,聯(lián)合選擇特征和保留結(jié)構(gòu)性質(zhì),將域間差異進(jìn)一步縮小?;跇颖镜倪w移方法通常對(duì)樣本實(shí)例進(jìn)行加權(quán)[9-10],以此來削弱源域中與目標(biāo)任務(wù)無關(guān)的樣本的影響,不足之處是容易推導(dǎo)泛化誤差上界,應(yīng)用的局限性較大。基于模型的遷移方法則是利用不同域之間能夠共享的參數(shù)信息,來實(shí)現(xiàn)源域到目標(biāo)域的遷移。而基于關(guān)系的遷移學(xué)習(xí)方法關(guān)注的是不同域的樣本實(shí)例之間的關(guān)系,目前相關(guān)方面的研究較少。
本文提出的基于平衡概率分布和實(shí)例的遷移學(xué)習(xí)算法(balanced distribution adaptation and instance based transfer learning algorithm,BDAITL)是一種混合算法,結(jié)合了上述的基于特征和樣本實(shí)例這兩種基本的遷移算法。在多個(gè)真實(shí)數(shù)據(jù)集上進(jìn)行的多組相關(guān)實(shí)驗(yàn)表明,BDAITL算法模型泛化性能良好。
遷移學(xué)習(xí)就是把源域中學(xué)習(xí)到的知識(shí)遷移到目標(biāo)域,幫助目標(biāo)域進(jìn)行模型訓(xùn)練。領(lǐng)域和任務(wù)是遷移學(xué)習(xí)的兩個(gè)基本概念。下面從領(lǐng)域和任務(wù)的定義方面,對(duì)要解決的問題進(jìn)行描述[1]。
定義1領(lǐng)域D是遷移學(xué)習(xí)中進(jìn)行學(xué)習(xí)的主體,由特征空間χ和邊緣概率分布P(X)組成,可以表示為D={χ,P(X)},其中:特征矩陣X={x1,x2,…,xn}∈χ。領(lǐng)域與領(lǐng)域之間的不同一般有兩種情況,特征空間不同或邊緣概率分布不同。
定義2給定一個(gè)領(lǐng)域D,任務(wù)T定義為由類別空間Y和一個(gè)預(yù)測函數(shù)f(x)構(gòu)成,表示為T={Y,f(x)},其中類別標(biāo)簽y∈Y。
BDAITL算法從特征和樣本實(shí)例兩個(gè)層面進(jìn)行知識(shí)的遷移。首先,使用基于核的主成分分析法(Kernel principal component analysis,KPCA),采用非線性映射將源域與目標(biāo)域的高維數(shù)據(jù)映射到一個(gè)低維子特征空間。然后,在子空間內(nèi)采用MMD方法聯(lián)合匹配域間的邊緣分布和條件分布。與JDA直接忽略兩者之間重要性不同的是,BDAITL算法采用平衡因子來評(píng)估每個(gè)分布的重要性[4]。另外,JDA在適配條件分布時(shí),由于目標(biāo)域無標(biāo)簽,無法直接建模,采用了類條件概率來近似、隱含地假設(shè)每個(gè)域中該類的概率是相似的,而實(shí)際應(yīng)用中通常是不成立的。而BDAITL算法在適配條件分布時(shí),充分考慮類不平衡問題,采用加權(quán)來平衡每個(gè)域的類別比例,得出了更為穩(wěn)健的近似。最后,考慮源域中并不是所有的樣本實(shí)例都與目標(biāo)任務(wù)的訓(xùn)練有關(guān),采用L2,1范數(shù)將行稀疏性引入變換矩陣A,選擇源域中相關(guān)性高的實(shí)例進(jìn)行目標(biāo)任務(wù)模型的訓(xùn)練。BDAITL算法的具體過程在下文介紹。
首先,針對(duì)源域和目標(biāo)域特征維數(shù)過高的問題,對(duì)其進(jìn)行降維重構(gòu),最大限度地最小化領(lǐng)域間的分布差異,從而利于判別信息從源域到目標(biāo)域的遷移。記X=[Xs,Xt]=[x1,x2,…,xn]∈Rm×n表示源域和目標(biāo)域的所有樣本組成的矩陣,中心矩陣表示為H=I-(1/n)1,其中:m表示樣本維數(shù);n=ns+nt表示樣本總數(shù);1∈Rn×n表示元素全為1的矩陣。PCA的優(yōu)化目標(biāo)是找到正交變換V∈Rm×q,使樣本的協(xié)方差矩陣XHXT最大化,即
max tr(VTXHXTV), s.t.VTV=I,
(1)
其中:q為降維后特征子空間基向量的個(gè)數(shù);新的特征表示為Z=VTX。
本文使用KPCA方法對(duì)源域和目標(biāo)域數(shù)據(jù)降維。利用KPCA方法,應(yīng)用核映射X→Ψ(X)對(duì)PCA進(jìn)行非線性推廣,獲取數(shù)據(jù)的非線性特征,相應(yīng)的核矩陣為K=Ψ(t)TΨ(t)∈Rn×n,對(duì)式(1)進(jìn)行核化后可得
max tr(ATKHKTA), s.t.ATA=I,
(2)
其中:A∈Rn×q是變換矩陣;核化后的特征表示為Z=ATK。
其次,平衡概率分布。遷移學(xué)習(xí)需要解決的一個(gè)主要問題是減小源域與目標(biāo)域之間的分布差異,包括邊緣分布和條件分布,將不同的數(shù)據(jù)分布的距離拉近。本文采用MMD方法來最小化源域與目標(biāo)域之間的邊緣分布P(Xs)、P(Xt)以及條件分布P(ys/xs)、P(yt/xt)的距離。即
(3)
其中:μ∈[0,1]是平衡因子。當(dāng)μ→0時(shí),表示源域和目標(biāo)域數(shù)據(jù)本身存在較大的差異性,邊緣分布更重要;當(dāng)μ=0時(shí),即為TCA;當(dāng)μ→1時(shí),表示域間數(shù)據(jù)集有較高的相似性,條件分布適配更為重要;當(dāng)μ=0.5時(shí),即為JDA。也就是說,平衡因子根據(jù)實(shí)際數(shù)據(jù)分布的情況,來動(dòng)態(tài)調(diào)節(jié)每個(gè)分布的重要性。源域與目標(biāo)域邊緣概率分布的MMD距離計(jì)算如下,Mo是MMD矩陣,
(4)
(5)
適配源域與目標(biāo)域的條件概率分布時(shí),采用加權(quán)來平衡每個(gè)域的類別比例。具體為
(6)
其中:αs、αt表示權(quán)值。故源域與目標(biāo)域條件概率分布的MMD距離計(jì)算為
(7)
(8)
綜合式(2)、式(3)、式(7)和式(8),可得源域和目標(biāo)域的平衡概率分布
(1-μ)tr(ATKMoKTA)+μtr(ATKWcKTA),
(9)
最后,實(shí)例更新。源域中通常會(huì)存在一些特殊的樣本實(shí)例,對(duì)于訓(xùn)練目標(biāo)域的分類模型是沒有用的。由于變換矩陣A的每一行都對(duì)應(yīng)一個(gè)實(shí)例,基于它們與目標(biāo)實(shí)例的相關(guān)性,行稀疏性基本上可以促進(jìn)實(shí)例的自適應(yīng)加權(quán),實(shí)現(xiàn)更新學(xué)習(xí)。故本文對(duì)變換矩陣中與源域相關(guān)的部分As引入L2,1范數(shù)約束, 同時(shí)對(duì)與目標(biāo)域相關(guān)的部分At施加F范數(shù)約束,以保證模型是良好定義的。即
(10)
通過最小化式(10)使得式(2)最大化,與目標(biāo)實(shí)例相關(guān)(不相關(guān))的源域?qū)嵗蛔赃m應(yīng)地重新加權(quán),在新的特征表示Z=ATK中具有更大(更少)的重要性。
綜上所述,可得本文的最終優(yōu)化目標(biāo)
(11)
其中:λ是權(quán)衡特征匹配和實(shí)例重新加權(quán)的正則化參數(shù),能夠控制模型復(fù)雜度并保證模型正定。
式(11)所示目標(biāo)函數(shù)是一個(gè)帶有約束的最優(yōu)化問題,利用Lagrange法進(jìn)行求解,記
其中:ai是矩陣A的第i行。這樣將求解變換矩陣A歸結(jié)為求解特征分解,得到q個(gè)最小的特征向量。
為了研究和測試算法的性能,在不同的數(shù)據(jù)集上進(jìn)行測試實(shí)驗(yàn)。USPS和MNIST是包含0~9的手寫數(shù)字的標(biāo)準(zhǔn)數(shù)字識(shí)別數(shù)據(jù)集,分別包含訓(xùn)練圖像60 000幅和7 291幅以及測試圖像10 000幅和2 007幅,示例如圖1所示。office由3個(gè)對(duì)象域組成:amazon(在線電商圖像)、webcam(網(wǎng)絡(luò)攝像頭拍攝的低解析度圖像)、DSLR(單反相機(jī)拍攝的高清晰度圖像),共有4 652幅圖像,31個(gè)類別。caltech-256是對(duì)象識(shí)別的基準(zhǔn)數(shù)據(jù)集,共有30 607幅圖像,256個(gè)類別,示例如圖2所示。
圖1 MINST和USPS數(shù)據(jù)集圖片示例Figure 1 Example of MINST and USPS dataset
圖2 office和caltech-256數(shù)據(jù)集圖片示例Figure 2 Example of office and caltech-256 dataset
本文實(shí)驗(yàn)采用文獻(xiàn)[5]中的方法預(yù)處理數(shù)據(jù)集MNIST和USPS,以及文獻(xiàn)[6]中方法的預(yù)處理數(shù)據(jù)集office和caltech-256。其統(tǒng)計(jì)信息如表1所示,數(shù)據(jù)子集M和U分別作為源域和目標(biāo)域,可構(gòu)建M→U、U→M兩個(gè)跨域遷移學(xué)習(xí)任務(wù)。數(shù)據(jù)子集A、W、D和C中任意兩個(gè)作為源域和目標(biāo)域,可構(gòu)建12個(gè)跨域遷移學(xué)習(xí)任務(wù),記為:D→W、D→C、…、A→C。
表1 實(shí)驗(yàn)數(shù)據(jù)子集的統(tǒng)計(jì)信息Table 1 Dataset used in the experiment
實(shí)驗(yàn)驗(yàn)證環(huán)節(jié),將BDAITL方法與用于圖像分類問題的6種相關(guān)方法進(jìn)行了比較,即最近鄰算法(nearest neighbor,NN)、主成分分析法(principal component analysis,PCA)、TCA、基于核的測地流形法(geodesic flow kernel, GFK)、JDA以及轉(zhuǎn)移聯(lián)合匹配方法(transfer joint matching, TJM)。評(píng)價(jià)準(zhǔn)則是目標(biāo)域中的樣本分類準(zhǔn)確率(accuracy),具體計(jì)算為
如表2所示,BDAITL算法的分類準(zhǔn)確率相較于傳統(tǒng)方法NN和PCA有明顯的提升。與經(jīng)典遷移學(xué)習(xí)算法TCA、GFK、JDA、TJM相比,BDAITL算法的分類準(zhǔn)確率在大部分的跨域?qū)W習(xí)任務(wù)中有較大幅度的提高,其中在任務(wù)M→U中較其最佳基準(zhǔn)算法(GFK)提高了8.78%,這表明BDAITL算法在適配條件概率時(shí)采用加權(quán)來平衡每個(gè)域的類別比例對(duì)算法的性能提升是有效的,是平衡域之間不同類別分布的有效方法。同時(shí)實(shí)例的更新學(xué)習(xí)也能夠削弱一些不相關(guān)實(shí)例的影響,一定程度上提升了算法的性能。
表2 7種算法在14個(gè)遷移任務(wù)中的平均準(zhǔn)確率Table 2 Accuracy comparison of 7 algorithms on 14 cross-domain tasks
在本文的BDAITL算法的優(yōu)化模型中,設(shè)置了3個(gè)參數(shù),即平衡因子μ、正則化參數(shù)λ以及子空間緯度q。實(shí)驗(yàn)中通過保持其中兩個(gè)參數(shù)不變,改變第3個(gè)參數(shù)的值來觀察其對(duì)算法性能的影響。
平衡因子μ可以通過分別計(jì)算兩個(gè)領(lǐng)域數(shù)據(jù)的整體和局部的分布距離來近似給出。為了分析μ在不同的取值下對(duì)BDAITL算法性能的影響,取μ∈{0,0.1,0.2,…,0.9},實(shí)驗(yàn)結(jié)果如表3所示。從表中可以看出,不同的學(xué)習(xí)任務(wù)對(duì)于μ的取值敏感度不完全相同,如D→W、W→D、C→D、M→U、U→M分別在0.6、0.4、0.6、0.2、0.3時(shí)取得最大的分類準(zhǔn)確率,μ值越大說明適配條件概率分布越重要。它表明在不同的跨領(lǐng)域?qū)W習(xí)問題中,邊緣分布自適應(yīng)和條件分布自適應(yīng)并不是同等重要的,而μ起到了很好的平衡作用。
表3 μ的取值對(duì)BDAITL算法準(zhǔn)確率的影響Table 3 Influence of μ on the accuracy of the BDAITL algorithm
表4是q分別取20、40、60、80、100、140、180、220、260、300時(shí),BDAITL算法的分類準(zhǔn)確率的變化情況。從表中可以看出,不同的遷移學(xué)習(xí)任務(wù)在達(dá)到最優(yōu)性能時(shí),所對(duì)應(yīng)的q是不同的,即不同任務(wù)的最優(yōu)子空間緯度是不同的,如D→W、W→D、C→D、M→U、U→M的最優(yōu)子空間緯度分別是80、100、80、60、60。
正則化參數(shù)λ取值為λ∈{0.001,0.01,…,100}時(shí),對(duì)BDAITL算法性能的影響如表5所示??梢钥闯?,由于不同的遷移任務(wù)中源域與目標(biāo)域的樣本實(shí)例相差較大,導(dǎo)致不同的遷移學(xué)習(xí)任務(wù)在λ的不同取值下得到最優(yōu)分類性能,其中部分任務(wù)如D→W、W→D、C→D、M→U、U→M分別是在0.1、10、0.1、1、1時(shí)取得最優(yōu)性能。
表5 λ的取值對(duì)BDAITL算法準(zhǔn)確率的影響Table 5 Influence of λ on the accuracy of the BDAITL algorithm
本文提出基于平衡概率分布和實(shí)例的遷移學(xué)習(xí)算法,融合了特征選擇和實(shí)例更新兩種策略。它采用平衡因子來自適應(yīng)地調(diào)節(jié)邊緣和條件分布適應(yīng)的重要性,使用加權(quán)條件分布來處理域間的類不平衡問題,然后融合實(shí)例更新策略,進(jìn)一步提升算法的性能。在4個(gè)圖像數(shù)據(jù)集上的大量實(shí)驗(yàn)證明了該方法優(yōu)于其他幾種方法。但參數(shù)優(yōu)化方面仍有改進(jìn)的空間,在下一步的研究中將著重探索多參數(shù)優(yōu)化方法,以期進(jìn)一步提高算法的性能。未來將繼續(xù)探索遷移學(xué)習(xí)中針對(duì)類不平衡問題的處理方法,在傳遞式遷移學(xué)習(xí)和多源域遷移學(xué)習(xí)方向進(jìn)行深入研究。