和澤 郭輝
摘 要:機(jī)器學(xué)習(xí)通常要求訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)來(lái)源于同一特征空間并服從相同的分布,如果條件不滿足,則需就要重新收集訓(xùn)練數(shù)據(jù)并重新訓(xùn)練模型。遷移學(xué)習(xí)作為解決這一問(wèn)題的有效方法,其中基于數(shù)據(jù)分布的自適應(yīng)遷移學(xué)習(xí)已成為該領(lǐng)域主要的研究方向之一。為比較已有數(shù)據(jù)分布自適應(yīng)遷移學(xué)習(xí)算法性能,在3種公開(kāi)數(shù)據(jù)集Image-CLEF、Amazon Review、Office-Caltech上通過(guò)TCA、JDA、CORAL、GFK、BDA、EasyTL算法驗(yàn)證6種算法的有效性,并分析比較它們之間的性能差異。結(jié)果表明,6種遷移學(xué)習(xí)算法在Image-CLEF、Amazon Review、Office-Caltech數(shù)據(jù)集上遷移效果依次降低, EasyTL算法在3種數(shù)據(jù)集上表現(xiàn)良好。
關(guān)鍵詞:遷移學(xué)習(xí);數(shù)據(jù)分布自適應(yīng);算法比較;數(shù)據(jù)集
DOI:10. 11907/rjdk. 192292 開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
中圖分類(lèi)號(hào):TP301文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2020)008-0080-04
Abstract: In machine learning, training data and testing data are usually required to come from the space with same characteristics and follow the same distribution. If the conditions are not met, then the training data need to be re-collected and the model should also be retrained. However, transfer learning is an effective solution to this problem. For example, transfer learning which is based on data distribution adaptation has become one of the main research directions in this field. In order to compare the performance of transfer learning which is based on the existing data distribution adaptation , this paper verifies the effectiveness of six algorithms, including TCA, JDA, CORAL, GFK, BDA and EasyTL, which are applied to three public datasets. These three public datasets are Image-CLEF, Amazon Review and Office-Caltech. After that, the performance differences among them are analyzed and compared to draw conclusions that the migration effects of the six migration learning algorithms on the three public datasets are reduced in turn. But the EasyTL algorithm performs well on all three datasets.
Key Words: transfer learning; data distribution adaptation; algorithm comparison; data sets
0 引言
機(jī)器學(xué)習(xí)方法要求訓(xùn)練和測(cè)試樣本服從同一分布,如果分布不同或者訓(xùn)練樣本數(shù)量不足都會(huì)難以獲得可靠的分類(lèi)模型,這在很大程度上限制了機(jī)器學(xué)習(xí)的發(fā)展。遷移學(xué)習(xí)(Transfer Learning)可以很好地解決這一問(wèn)題,作為機(jī)器學(xué)習(xí)方法的一個(gè)重要分支,遷移學(xué)習(xí)將一個(gè)領(lǐng)域(源領(lǐng)域)的知識(shí)遷移到另一個(gè)相關(guān)領(lǐng)域(目標(biāo)領(lǐng)域),使得目標(biāo)領(lǐng)域能夠取得更好的學(xué)習(xí)效果[1]。
基于遷移內(nèi)容不同,可將遷移學(xué)習(xí)分為基于實(shí)例的遷移學(xué)習(xí)、基于特征的遷移學(xué)習(xí)、基于關(guān)系的遷移學(xué)習(xí)和基于模型的遷移學(xué)習(xí)4種類(lèi)型[2]。圖1給出了遷移學(xué)習(xí)的研究領(lǐng)域與常用分類(lèi)總結(jié)。
基于實(shí)例的遷移學(xué)習(xí)方法根據(jù)一定的權(quán)重生成規(guī)則,直接找出與目標(biāo)域數(shù)據(jù)相似度高的數(shù)據(jù),然后進(jìn)行訓(xùn)練學(xué)習(xí)?;陉P(guān)系的遷移學(xué)習(xí)方法利用兩個(gè)域之間存在的某種相似關(guān)系,通過(guò)源域?qū)W習(xí)邏輯關(guān)系網(wǎng)絡(luò)并運(yùn)用到目標(biāo)域數(shù)據(jù)上?;谀P偷倪w移學(xué)習(xí)假設(shè)源域和目標(biāo)域共享一些模型參數(shù),據(jù)此從源域和目標(biāo)域中找到它們之間共享的參數(shù)信息,進(jìn)而實(shí)現(xiàn)遷移學(xué)習(xí)?;谔卣鞯倪w移學(xué)習(xí)方法根據(jù)源域和目標(biāo)域存在的交叉特征,通過(guò)特征變換將兩個(gè)域的數(shù)據(jù)變換到同一特征空間,然后進(jìn)行傳統(tǒng)的機(jī)器學(xué)習(xí),通常特征維度較低、適用面廣,且穩(wěn)定可靠,因此基于特征的遷移學(xué)習(xí)方法得到深入研究和廣泛應(yīng)用。
數(shù)據(jù)分布自適應(yīng)遷移學(xué)習(xí)是基于特征遷移學(xué)習(xí)的常見(jiàn)方法之一。當(dāng)源域和目標(biāo)域的數(shù)據(jù)概率分布不同時(shí),該方法通過(guò)某種變換將分布不同的源域和目標(biāo)域映射到同一個(gè)特征空間中,并使兩者在該空間的分布盡可能相似。此時(shí),在特征空間中對(duì)源域訓(xùn)練的目標(biāo)函數(shù)就可直接遷移到目標(biāo)域上,從而提高目標(biāo)域分類(lèi)準(zhǔn)確率與可靠性?;跀?shù)據(jù)分布自適應(yīng)的遷移學(xué)習(xí)算法主要有如下幾種:遷移成分分析方法(TCA)、聯(lián)合分布適配方法(JDA)、平衡分配適配方法(BDA)、相關(guān)對(duì)齊方法(CORAL)、測(cè)地線流式核方法(GFK)以及簡(jiǎn)單遷移學(xué)習(xí)方法(EasyTL)。
遷移成分分析方法(Transfer Component Analysis,TCA)由Pan等[3]于2011年提出。它基于邊緣分布自適應(yīng),采用最大均值差異(Maximum Mean Discrepancy, MMD)[4]作為距離,將不同數(shù)據(jù)領(lǐng)域的分布差異最小化。然而,由于引入了最大均值差異MMD概念,TCA方法在進(jìn)行大矩陣偽逆和特征值計(jì)算時(shí)會(huì)耗費(fèi)大量資源。與此同時(shí),TCA僅考慮了邊緣分布適配但忽略了數(shù)據(jù)的條件分布。
TCA作為一種經(jīng)典遷移學(xué)習(xí)方法,許多學(xué)者對(duì)其進(jìn)行了多方面改進(jìn)。2012年Duan[5]在TCA中引入多核最大均值誤差(Multi Kernel-Maximum Mean Discrepancies,MK- MMD),用多核的思想對(duì)TCA進(jìn)行優(yōu)化;2014年,Tzeng[6]提出了DDC方法(Deep Domain Confusion)將MMD度量加入深度學(xué)習(xí)特征層的loss項(xiàng),用來(lái)減少源域和目標(biāo)域之間的差異;2015年龍明盛[7]擴(kuò)展了DDC方法,將 MMD換成 MK-MMD,并且進(jìn)行了多層 loss 計(jì)算。
基于數(shù)據(jù)集中固有低維結(jié)構(gòu)特點(diǎn),2012年Gong[8]提出測(cè)地線流式核方法(Geodesic Flow Kernel)。該方法將源域和目標(biāo)域映射到低維流型中,沿著該子空間流型找到一條路徑,將源域和目標(biāo)域連接起來(lái)。這樣就可以實(shí)現(xiàn)從源域到目標(biāo)域的變換。但是,GFK在高維空間中只對(duì)齊了子空間的基底,而沒(méi)有對(duì)齊投影點(diǎn)分布,同時(shí)在子空間投影和參數(shù)選擇中需要昂貴的資源。
2013年龍明盛[9]提出了聯(lián)合分布適配方法(Joint Distribution Adaptation)。該方法在邊緣條件分布中采用TCA方法,加入了條件分布概率計(jì)算,距離度量上仍采用MMD,應(yīng)用核方法可減少計(jì)算資源。JDA使用偽標(biāo)簽,為了提高其精度,應(yīng)用迭代方法將上一輪得到的標(biāo)簽當(dāng)作偽標(biāo)簽,逐步得到越來(lái)越好的偽標(biāo)簽,但這樣會(huì)導(dǎo)致運(yùn)行效率過(guò)低。 JDA只是簡(jiǎn)單地使用了邊緣分布和條件分布,并沒(méi)有考慮兩種分布在數(shù)據(jù)集上是否同等重要。
龍明盛[10]將 JDA 嵌入一個(gè)結(jié)構(gòu)風(fēng)險(xiǎn)最小化框架中,采用表示定理直接學(xué)習(xí)分類(lèi)器;2015年Hou[11]在JDA的基礎(chǔ)上改進(jìn)目標(biāo)域的優(yōu)化選擇;2017年Tahmoresnezhad[12]在JDA的優(yōu)化目標(biāo)中加入類(lèi)內(nèi)距和類(lèi)間距計(jì)算,提高了準(zhǔn)確度;同年,龍明盛[13]提出了聯(lián)合分布度量 JMMD(Joint Maximum Mean Discrepancy),將聯(lián)合分布加入到深度學(xué)習(xí)的優(yōu)化中。
針對(duì)目標(biāo)域無(wú)標(biāo)簽情況,2016年Sun[14]提出了一種無(wú)監(jiān)督自適應(yīng)的相關(guān)對(duì)齊方法(CORrelation ALignment)。CORAL方法通過(guò)對(duì)源域和目標(biāo)域進(jìn)行二階特征對(duì)齊,并在兩個(gè)領(lǐng)域的協(xié)方差矩陣上學(xué)習(xí)一個(gè)二階特征變換,使得源域和目標(biāo)域的特征距離最小。
同年,Sun[15]擴(kuò)展了CORAL,以學(xué)習(xí)一種非線性變換,該變換將對(duì)齊深度神經(jīng)網(wǎng)絡(luò)(Deep CORAL)中的激活層相關(guān)性。最終將該方法用在DNN上,并在標(biāo)準(zhǔn)基準(zhǔn)數(shù)據(jù)集上展現(xiàn)了更好的性能。
2017年Wang[16]等發(fā)現(xiàn),邊緣分布自適應(yīng)和條件分布自適應(yīng)并不是同等重要,于是在JDA基礎(chǔ)上,提出了平衡分配適配方法(Balanced Distribution Adaptation)。該方法可以自適應(yīng)地利用邊緣分布和條件分布差異的重要性。在BDA的基礎(chǔ)上,Wang也提出了一種新的加權(quán)平衡分布適配方法(W-BDA),以解決遷移學(xué)習(xí)中的類(lèi)不平衡問(wèn)題。W-BDA不僅考慮了域之間的分布自適應(yīng),而且自適應(yīng)地改變了每個(gè)類(lèi)的權(quán)重。但是,W-BDA算法由于對(duì)邊緣分布和條件分布加權(quán),導(dǎo)致算法運(yùn)行效率很低。
為解決密集的模型選擇和超參數(shù)調(diào)優(yōu)問(wèn)題,Wang[17]在2018年提出了簡(jiǎn)單遷移學(xué)習(xí)方法(Easy Transfer Learning)。該方法在域內(nèi)編程中引入概率標(biāo)注矩陣,簡(jiǎn)化和加快了超參數(shù)調(diào)優(yōu)過(guò)程,同時(shí)在域間對(duì)齊上采用簡(jiǎn)單高效的CORAL算法,提升了計(jì)算效率。EasyTL在性能和準(zhǔn)確度上明顯高于其它算法,但是EasyTL只是一個(gè)單標(biāo)簽的遷移學(xué)習(xí)算法,不適合多標(biāo)簽的遷移學(xué)習(xí)任務(wù)。
目前,遷移學(xué)習(xí)已經(jīng)廣泛應(yīng)用于自然語(yǔ)言處理、文本分類(lèi)以及視覺(jué)圖像處理等多個(gè)領(lǐng)域。潘?,|[18]針對(duì)自然語(yǔ)言處理中目標(biāo)任務(wù)領(lǐng)域語(yǔ)料規(guī)模非常有限的問(wèn)題,將傳統(tǒng)大規(guī)模詞料預(yù)訓(xùn)練的詞向量特征和遷移學(xué)習(xí)相結(jié)合,采用詞向量遷移學(xué)習(xí),解決了數(shù)據(jù)量不足的問(wèn)題;孟佳娜[19]提出了基于圖的遷移學(xué)習(xí)方法,將源域和目標(biāo)域構(gòu)建一個(gè)圖模型,用在未標(biāo)注樣本或只有少量標(biāo)注樣本的文本分類(lèi)上;蘇婷婷[20]將深度遷移學(xué)習(xí)用在花生葉部病害圖像上,將茶葉葉部病害數(shù)據(jù)遷移到花生葉部病害識(shí)別上,識(shí)別率有了明顯提高。
本文基于上述算法在多個(gè)不同數(shù)據(jù)集上的應(yīng)用表現(xiàn),系統(tǒng)分析、比較它們各自的性能特點(diǎn)。
1 實(shí)驗(yàn)設(shè)計(jì)
本實(shí)驗(yàn)將主要的遷移學(xué)習(xí)算法TCA、JDA、CORAL、GFK、BDA、EasyTL分別應(yīng)用在3種公開(kāi)的遷移學(xué)習(xí)數(shù)據(jù)集上,對(duì)比分析其遷移效果。這3種公開(kāi)遷移數(shù)據(jù)集分別為:①Amazon Review數(shù)據(jù)集,是一個(gè)情感分類(lèi)數(shù)據(jù)集,包含K(Kitchen)、D(DVDs)、E(Electronics)、B(Books)四個(gè)領(lǐng)域的正面和負(fù)面評(píng)價(jià)數(shù)據(jù);②Office-Caltech數(shù)據(jù)集,包括A(Amazon)、D(DSLR)、W(Webcam)、C(Caltech)四個(gè)領(lǐng)域,每個(gè)領(lǐng)域都有10個(gè)類(lèi);③Image-CLEF數(shù)據(jù)集,這是來(lái)自ImageCLEF 2014挑戰(zhàn)賽的數(shù)據(jù)集,包括12類(lèi)圖像,屬于3個(gè)領(lǐng)域:C(Caltech)、I(ImageNet)、P(Pascal) 。
實(shí)驗(yàn)建立在MATLAB和Python編程基礎(chǔ)上,針對(duì)6種算法、3個(gè)數(shù)據(jù)集進(jìn)行應(yīng)用設(shè)計(jì)開(kāi)發(fā)。數(shù)據(jù)集的每個(gè)領(lǐng)域都可互相遷移,以Amazon Review為例,K-D代表Kitchen作為源域數(shù)據(jù)、DVDs作為目標(biāo)數(shù)據(jù)進(jìn)行遷移。該數(shù)據(jù)存在4個(gè)領(lǐng)域,可產(chǎn)生12個(gè)遷移結(jié)果,下面對(duì)其進(jìn)行分析。
2 結(jié)果分析
本研究將TCA、JDA、CORAL、GFK、BDA、EasyTL算法分別在Amazon Review、Office-Caltech、Image-CLEF這3個(gè)數(shù)據(jù)集上遷移,并比較其準(zhǔn)確度。
在3種公開(kāi)數(shù)據(jù)集上的遷移結(jié)果如表1、表2、表3所示。從整體來(lái)看,上述6種遷移學(xué)習(xí)算法在數(shù)據(jù)分布相對(duì)平衡的Image-CLEF數(shù)據(jù)集上遷移效果最好,Amazon Review數(shù)據(jù)集次之,在數(shù)據(jù)分布不平衡的Office-Caltech數(shù)據(jù)集上表現(xiàn)最差。分析發(fā)現(xiàn),導(dǎo)致Office-Caltech效果不佳的原因主要為數(shù)據(jù)集中的源域包含較多不相關(guān)的樣本。
在遷移學(xué)習(xí)算法TCA的基礎(chǔ)上,JDA方法加入了邊緣分布和條件分布。因此其在3種數(shù)據(jù)集上的遷移效果都優(yōu)于TCA。
在遷移學(xué)習(xí)算法JDA基礎(chǔ)上,BDA方法加入了條件分布和邊緣分布的權(quán)重調(diào)節(jié)。將該算法應(yīng)用于Amazon Review數(shù)據(jù)集時(shí),相對(duì)于TCA、JDA算法,其遷移效果有明顯提高,但是在其它兩個(gè)數(shù)據(jù)集上并沒(méi)有取得理想的結(jié)果。
遷移學(xué)習(xí)算法EasyTL在3個(gè)數(shù)據(jù)集上的應(yīng)用效果最好,該算法包括域內(nèi)編程和域間對(duì)齊兩個(gè)步驟。域內(nèi)編程直接學(xué)習(xí)遷移學(xué)習(xí)問(wèn)題的遷移分類(lèi)器,為域內(nèi)對(duì)齊提供可靠的似然信息并引入概率標(biāo)注矩陣,域內(nèi)對(duì)齊加入非參數(shù)特征學(xué)習(xí)方法CORAL,這兩個(gè)措施切實(shí)提高了遷移準(zhǔn)確度。
3 結(jié)語(yǔ)
本文通過(guò)基于數(shù)據(jù)分布自適應(yīng)遷移學(xué)習(xí)算法TCA、JDA、CORAL、GFK、BDA、EasyTL分別在Image-CLEF、Amazon Review和Office-Caltech三種公開(kāi)數(shù)據(jù)集上的實(shí)驗(yàn),分析、驗(yàn)證并比較了6種主要遷移學(xué)習(xí)算法的性能特點(diǎn)與適用場(chǎng)景。后續(xù)將進(jìn)一步探究遷移學(xué)習(xí)算法應(yīng)用的準(zhǔn)確度與數(shù)據(jù)相似度之間可能存在的內(nèi)在關(guān)系。
參考文獻(xiàn):
[1] 胡凱,嚴(yán)昊,夏旻,等. 基于遷移學(xué)習(xí)的衛(wèi)星云圖云分類(lèi)[J]. 大氣科學(xué)學(xué)報(bào),2017,40(6):856-863.
[2] PAN S J, YANG Q. A survey on transfer learning[J]. ?IEEE Transactions on knowledge and data engineering,2009,22(10): 1345-1359.
[3] PAN S J, TSANG I W, KWOK J T, et al. Domain adaptation via transfer component analysis[J]. IEEE Transactions on Neural Networks, 2010, 22(2): 199-210.
[4] BORGWARDT K M, GRETTON A, RASCH M J, et al. Integrating structured biological data by kernel maximum mean discrepancy[J]. ?Bioinformatics, 2006, 22(14): e49-e57.
[5] DUAN L, TSANG I W, XU D. Domain transfer multiple kernel learning [J]. ?IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(3): 465-479.
[6] TZENG E, HOFFMAN J, ZHANG N, et al. Deep domain confusion: maximizing for domain invariance[J]. ?arXiv preprint arXiv,2014(9):1412-3474.
[7] LONG M, CAO Y, WANG J, et al. Learning transferable features with deep adaptation networks[J]. ?arXiv preprint arXiv,2015(6):1502-2791,.
[8] GONG B, SHI Y, SHA F, et al. Geodesic flow kernel for unsupervised domain adaptation[C]. 2012 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2012: 2066-2073.
[9] LONG M, WANG J, DING G, et al. Transfer feature learning with joint distribution adaptation[C]. Proceedings of the IEEE international conference on computer vision. 2013: 2200-2207.
[10] LONG M, WANG J, DING G, et al. Adaptation regularization: a general framework for transfer learning[J]. ?IEEE Transactions on Knowledge and Data Engineering, 2013, 26(5): 1076-1089.
[11] HOU C A, YEH Y R, WANG Y C F. An unsupervised domain adaptation approach for cross-domain visual classification[C]. 2015 12th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS). ?IEEE, 2015: 1-6.
[12] TAHMORESNEZHAD J, HASHEMI S. Visual domain adaptation via transfer feature learning[J]. ?Knowledge and Information Systems, 2017, 50(2): 585-605.
[13] LONG M, ZHU H, WANG J, et al. Deep transfer learning with joint adaptation networks[C]. Proceedings of the 34th International Conference on Machine Learning-Volume 70. JMLR. org, 2017: 2208-2217.
[14] SUN B, FENG J, SAENKO K. Return of frustratingly easy domain adaptation[C]. Thirtieth AAAI Conference on Artificial Intelligence,2016.
[15] SUN B, SAENKO K. Deep coral: correlation alignment for deep domain adaptation[C]. European Conference on Computer Vision. Springer, Cham, 2016: 443-450.
[16] WANG J, CHEN Y, HAO S, et al. Balanced distribution adaptation for transfer learning[C]. 2017 IEEE International Conference on Data Mining (ICDM). ?IEEE, 2017: 1129-1134.
[17] WANG J, CHEN Y, YU H, et al. Easy transfer learning by exploiting intra-domain structures[J]. ?arXiv preprint arXiv: 2019(8): 1376-1904.
[18] 潘?,|. ?遷移學(xué)習(xí)中預(yù)訓(xùn)練中文詞向量?jī)?yōu)化方法研究[D]. 北京:北京交通大學(xué),2018.
[19] 孟佳娜. 遷移學(xué)習(xí)在文本分類(lèi)中的應(yīng)用研究[D]. 大連:大連理工大學(xué),2011.
[20] 蘇婷婷,牟少敏,董萌萍,等. 深度遷移學(xué)習(xí)在花生葉部病害圖像識(shí)別中的應(yīng)用[J]. 山東農(nóng)業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2019(5):1-6.
(責(zé)任編輯:杜能鋼)