李 林,俞 璐,韓昌芝,喬平娟
(1.陸軍工程大學 通信工程學院,江蘇 南京 210007;2.陸軍工程大學 指揮控制工程學院,江蘇 南京 210007)
在當今大數(shù)據(jù)時代背景下,人工智能技術(shù)得到飛速發(fā)展,尤其是在計算機視覺、語音識別和自然語音處理等領域中,機器學習和深度學習算法依靠大數(shù)據(jù)技術(shù)強大的計算和存儲能力得到廣泛應用。然而,現(xiàn)實情況下收集并標注大規(guī)模訓練集樣本使得模型充分發(fā)揮其能力是十分困難的,獲取與訓練集具有相同分布的測試集樣本也是不切合實際的。此外,不同分布的樣本在同一訓練模型往往具有不同的預測結(jié)果,很難達到預想效果。
遷移學習旨在尋找源域和目標域中樣本、任務或者模型之間共有的相似性,并以此為知識進行學習,實現(xiàn)將源域知識遷移到目標域的目的,具有觸類旁通、舉一反三的效果。域適應是遷移學習領域中的代表性方法,同時也是其中的研究熱點和難點。域適應的核心是減小源域和目標域的分布差異,源域和目標域之間存在分布差異也歸因于分布不同的域之間存在的域偏移現(xiàn)象(Domain Shift)[1],研究域適應的重點在于充分挖掘并利用源域和目標域之間共同的域不變特性,使從源域中提取到的特征信息發(fā)揮更大作用,進而消除或減少域偏移的影響,并從已標記的源域?qū)W習到一個能很好地推廣到不同但相關(guān)的目標域的模型,從而實現(xiàn)對目標樣本的準確預測[2]。
多源域適應是對域適應的深化拓展,更具有實用性、必要性和挑戰(zhàn)性。早期的研究一般屬于單源域適應,然而,單源域適應有其不可避免的局限性,即在現(xiàn)實條件下獲取源域的方法和渠道多種多樣,這會導致各個源域之間具有不同程度的分布差異。多源域適應是將來自多個不同數(shù)據(jù)源或領域的數(shù)據(jù)進行聯(lián)合訓練,以提高模型的泛化能力和適應性。隨著研究者的探索,多源域適應算法[3-4]和理論[5-6]愈加成熟,更加符合現(xiàn)實需求,得到了廣泛應用[7-9]。
現(xiàn)有研究主要是對域適應的各種方法展開綜述,但缺少對多源域適應方法的綜述工作,因此,該文對其進行總結(jié)歸納。主要內(nèi)容如下:(1)系統(tǒng)地總結(jié)多源域適應的研究現(xiàn)狀和最新的研究進展。(2)從遷移學習的實現(xiàn)方法角度,將多源域適應劃分為基于分布差異的多源域適應、基于對抗的多源域適應、基于重構(gòu)的多源域適應、基于樣本生成的多源域適應和基于模型的多源域適應,比較各種方法的異同。(3)簡述當前常用數(shù)據(jù)集,對比多種數(shù)據(jù)集下各個多源域適應方法的識別效果。(4)簡述多源域方法在現(xiàn)實中的具體應用。(5)分析當前方法存在的問題和不足,以此為基礎探討未來可行的研究方向。
對多源域適應方法進行綜述前,本節(jié)主要介紹多源域適應的基本概念、形式化定義和當前研究現(xiàn)狀。
當具有標記的、服從不同分布的源域數(shù)量不止一個時,多源域適應方法更加貼合實際符合現(xiàn)實需求,能夠充分利用源域多樣性,充分提取多個源域的可遷移知識,因此研究多源域適應問題十分必要。圖1顯示了單源域適應方法和多源域適應方法的差異。多源領域自適應問題研究起源于A-SVM[10],該方法利用源特定分類器的集合來調(diào)整目標分類模型,并且已經(jīng)發(fā)明了各種淺層模型來解決多源領域自適應問題。文獻[3]對多源領域自適應問題的方法進行了歸納,梳理了相關(guān)理論和基礎算法。文獻[11]形成了一個解決多源域適應的通用框架,將多源域自適應問題的方法總結(jié)為隱式變換法和中間域生成法,隱式變換法是指對齊多個源域和目標域的特征或是減小其間的特征分布差異,具體分為基于分布差異的方法和基于對抗的方法,中間域生成法是指顯式地為每個源域生成與目標域分布相似的中間適應域,并用生成的域訓練任務模型。
圖1 單源域適應方法和多源域適應方法示意圖
研究多源域適應問題的背景基本設定為具有多個已標記的源域數(shù)據(jù)集,一個未標記的目標域數(shù)據(jù)集,并且所有源域和目標域具有相同的特征空間和標簽空間,因此研究的多源域適應方法大多是無監(jiān)督的、同構(gòu)的、在閉集上進行訓練的。早期多源域適應方法主要是在淺模型中的挖掘隱式特征和學習預分類器[12]。隨著深度神經(jīng)網(wǎng)絡可遷移性得到證明和應用,多源域適應方法與其相結(jié)合更能夠提取高層次的特征信息,更好地完成遷移任務。該文將根據(jù)深度神經(jīng)網(wǎng)絡中遷移方式的不同,將多源域適應方法分為:基于分布差異的多源域適應方法、基于對抗的多源域適應方法、基于樣本生成的多源域適應方法和基于模型的多源域適應方法。該文將對多源域適應方法研究的最新進展進行總結(jié)歸納。
基于分布差異的方法主要遵循學習共有特征、優(yōu)化特征表達、縮小多個源域和目標域特征分布的差距以及訓練分類器等步驟,逐步提升模型的遷移能力?;诜植疾町惖亩嘣从蜻m應方法通過減少多個源域與目標域之間的差異,使得多個源域與目標域的樣本盡量服從同一分布,消除域偏移帶來的影響,從而減小目標泛化誤差。
2.1.1 最大均值差異(Maximum Mean Discrepancy,MMD)
MMD是顯式測量源域和目標分布差異的度量方法,基于MMD的單源深度域適應方法運用相對成熟,領域適應神經(jīng)網(wǎng)絡(Domain Adaptive Neural Network,DaNN)、深度領域混淆方法(Deep Domain Confusion,DDC)先后將MMD方法應用于深度神經(jīng)網(wǎng)絡,計算出源域和目標域間的特征差異的MMD損失,使得源域特征和目標域特征更加相似。
Guo等[13]利用點到集合的距離度量關(guān)系進行建模,將MMD方法用于提取多個源域混合專家特征,以達到最小化源域和目標域邊緣分布的差異的目的。Zhu等[14]提出了一種同時對齊分布和分類器的多源領域自適應方法(Multiple Feature Spaces Adaptation Network,MFSAN)。MFSAN的網(wǎng)絡結(jié)構(gòu)共包括三部分:公共特征提取器F,領域特定的特征提取器H和領域特定的分類器C。首先對齊各個領域特定的特征,使用MMD的方法將不同的源域和目標域的分布對齊放在不同的特征空間中;其次,對齊各個源域的分類器,減小分類器輸出的差異,明確一致性正則項。模型總的損失函數(shù)包含三部分:分類損失Lcls、特征對齊損失Lmmd和一致性正則化項Ldisc,損失函數(shù)表示如下:
Ltotal=Lcls+λLmmd+γLdisc
(1)
2.1.2 矩距離
Peng等[15]利用計算各域之間的矩距離判斷域間差異,動態(tài)對齊特征分布的矩距離,以此提出多源域適應矩匹配網(wǎng)絡(Moment Matching for Multi-Source Domain Adaptation,M3SDA)。
Fu等[16]基于各域間的差異提出一種部分特征選擇對齊方法(Partial Feature Selection and Alignment,PFSA)。該方法利用多個源域與目標域的相似度出特征選擇向量,即從多個源域中部分選擇符合與目標域?qū)R的特征,通過最小化同一類別樣本聚類的損失、最大化不同類別之間的距離差異來聯(lián)合對齊所選特征。
2.1.3 Wasserstein距離
Wasserstein距離也被稱為推土機距離(Earth Mover’s Distance,EMD),用來計算兩個分布的相似程度,可以衡量源域樣本分布移動到目標域樣本分布時所需要移動的平均距離的最小值。
Li等[17]為便于在多個域間進行成對匹配操作,率先使用Wasserstein距離減小域間差異,并確定域間關(guān)系。Wu等[18]根據(jù)不同源域到目標域的條件Wasserstein距離計算不同源域的轉(zhuǎn)移權(quán)值,并使用傳遞的權(quán)重來重新加權(quán)源數(shù)據(jù),最終確定各源域在遷移過程中的比例。Wang等[19]構(gòu)造了一個類再平衡的Wasserstein空間(Class-rebalanced Wasserstein Distance,CRWD),考慮到各源域間類別差異,更好地利用標簽信息,減輕了類間樣本不平衡的影響,更精確地度量了多個域之間的差異。
2.1.4 混合距離
文獻[20]指出每種距離都有其獨特的物理含義,單一使用某種距離并不能確定多個源域和目標域間的差異,因此提出一種基于多種距離混合的DistanceNet模型。該模型使用L2距離、余弦距離、MMD、Fisher線性判別器和CORAL集成的方法。
混合距離定義為:
(2)
其中,k表示第k種距離,αk表示使用第k種距離的權(quán)重系數(shù)。模型損失函數(shù)表示為:
Ltotal=LXE+βDm(Xs,Xt)
(3)
其中,LXE為分類損失,β為正則化項系數(shù)。
2.1.5 圖準則方法
基于圖準則的方法主要是考慮領域分布結(jié)構(gòu),使用圖論的思想構(gòu)建一個表示源域和目標域的圖結(jié)構(gòu)。該方法將樣本視為點,樣本間相似度作為邊,數(shù)據(jù)集即為一個無向圖,通過計算不同節(jié)點之間的相似性來量化兩個領域之間的差異性。減小源域圖和目標域圖之間的差異可確定哪些特征可以被遷移,若源域圖和目標圖之間差異較小,則認為源域模型具有較好的泛化能力。
Wang等[21]以圖神經(jīng)網(wǎng)絡為基礎,設計一種基于圖模型的學習組合多源域自適應框架(Learning to Combine for Multi-Source Domain Adaptation,LtC-MSDA)。該框架通過聚合多個源域?qū)W習到的知識構(gòu)建知識圖,并以此為根據(jù)約束全局類別間的關(guān)系依賴性和局部各類別特征的緊密性,從而達到對目標域進行預測的目的。Xu等[22]在LtC-MSDA方法的基礎上進行優(yōu)化和改進,推導出條件隨機場多源域適應(Conditional Random Field for MSDA,CRF-MSDA)和馬爾可夫隨機場多源域適應(Markov Random Field for MSDA,MRF-MSDA)兩種不同類型的圖模型,有效解決多個源域和目標域組合建模的問題,明確各域?qū)嵗皖悇e間的依賴關(guān)系。
基于對抗的多源域適應方法是將對抗生成網(wǎng)絡(Generative Adversarial Network,GAN)[23]博弈的思想引入域適應問題中,其目的是特征提取器通過訓練可以學習到欺騙域判別器的域不變特征,域判別器通過訓練可以不斷提升鑒別源域和目標域樣本的能力?;趯沟姆椒ㄔ趩卧从蜻m應上較為成熟的方法有單對抗的方法,比如領域?qū)股窠?jīng)網(wǎng)絡(Domain Adversarial Neural Network,DANN)、對抗判別域適應(Adversarial Discriminative Domain Adaptation,ADDA),以及多對抗的方法,比如多對抗域適應(Multi-adversarial Domain Adaptation,MADA)、條件領域?qū)咕W(wǎng)絡(Conditional Domain Adversarial Networks,CDAN)。
多源域適應的方法與對抗的方法相結(jié)合,可以從多個源域樣本間提取與目標域樣本相同的域不變特征,保證了域不變特征的可靠性。文獻[24]提出一種深度雞尾酒網(wǎng)絡(Deep Cocktail Network, DCTN),采取多路對抗的方式混淆多個域判別器,使其無法判斷樣本來源,并使用加權(quán)組合的方式給予各源域混淆系數(shù),進而訓練各源域分類器。
Zhao等[25]基于理論[26]確定多源域的泛化邊界,在對抗網(wǎng)絡中加入任務學習部分,并以此為基礎構(gòu)建兩個版本的多源對抗網(wǎng)絡模型(Multi-Source Domain Adversarial Networks,MDAN)。Wang等[27]考慮到不同任務的特殊性,引入任務特定分類器,提出了一種任務特定多源域適應方法(Task-specific Multi-Source Domain Adaptation Method,TMDA)。Rakshit等[28]認為多源域間的類別相關(guān)性十分重要,由此提出了一種對抗訓練對齊的多個源域類別特征方法(Deep Adversarial Ensemble Learning,DAEL)。
基于分布差異的方法和基于對抗的方法大多都是對高級特征進行處理,卻忽略了樣本本身的原始特性?;跇颖旧傻亩嘣从蜻m應方法是指使用多個源域樣本生成帶有標簽的目標樣本,并使用生成樣本訓練網(wǎng)絡模型的方法。該方法不僅將問題轉(zhuǎn)化為有監(jiān)督的方法提高模型性能,還可以直觀地觀察到生成樣本與目標樣本的差異,具有很好的可解釋性。
基于樣本生成的多源域適應方法多運用生成對抗網(wǎng)絡(GAN)或是以GAN為基礎的改進模型。Russo等[29]使用CoGAN的方法訓練生成器,在像素層次上將目標域與每個源域進行對齊;Zhao等[30]使用CycleGAN的方法訓練生成器,設計子域判別器和跨域循環(huán)判別器,生成不同的適應域(Adapted Domain),將目標域與適應域的集合進行對齊;Lin等[31]將變分自編碼器(VAE)與CycleGAN相結(jié)合,把所有源域和目標域映射到同一特征空間,在此空間生成適應域,而后目標域與生成的適應域進行對齊。
Zhao等[32]設計了一種端到端模式的多源對抗域聚合網(wǎng)絡(Multi-Source Adversarial Domain Aggregation Network,MADAN)。首先,結(jié)合動態(tài)語義一致性的原則為每個源域生成相應的適應域;其次,設計子域聚合判別器和跨域周期判別器使不同的適應域更緊密地聚合;最后,將不同的適應域與目標域進行特征對齊。
隨著深度神經(jīng)網(wǎng)絡的發(fā)展,可以通過改變深度神經(jīng)網(wǎng)絡結(jié)構(gòu)的方法提升識別效率?;谀P偷亩嘣从蜻m應方法的核心思想是明確源域模型的哪部分有助于提高目標域模型性能。
文獻[33]從深度網(wǎng)絡結(jié)構(gòu)的角度考慮,提出一種多源域?qū)R層(Multi-Source DomaIn Alignment Layers,MS-DIAL)替換歸一化層的方法。該方法可以在任何給定網(wǎng)絡中嵌入域?qū)R層來減少多個源域和目標域之間的域偏移,因為除了嵌入的域?qū)R層之外,其他網(wǎng)絡參數(shù)都在所有域之間共享,因而節(jié)省了時間和空間。
Li等[34]設計了一種聚合殘差矩陣和靜態(tài)卷積矩陣建模的動態(tài)傳輸模型(Dynamic Residual Transfer,DRT)。該模型可以將多源域適應問題轉(zhuǎn)化為單源域適應,簡化了多源域與目標域之間的對齊。Deng等[35]認為每個源域的樣本具有細微的實例特性,因此設計了具有多尺度自適應卷積核的動態(tài)神經(jīng)網(wǎng)絡,提出一種動態(tài)實例域適應方法(Dynamic Instance Domain Adaptation,DIDA-Net),可以有效提取與領域無關(guān)的分類特征。
Nguyen等[36]提出了一種基于最優(yōu)傳輸和模仿學習理論的多源數(shù)據(jù)分析新模型(Optimal Transport for Student-Teacher Learning,MOST)。該方法由一個教師分類器和一個學生分類器組成,其中教師分類器利用多個源域內(nèi)的知識提取專家特征,因此目標域的學生分類器可以模仿源域的教師分類器進行預測分析。文獻[37]基于師生模型提出一種學生-教師集成多源域自適應(Student-Teacher Ensemble Multi-Source Domain Adaptation,STEM)模型。該模型使用共享的生成器學習到各源域的專家特征,并使用域判別器學習各源域?qū)<姨卣鞯念A測系數(shù)將多源域?qū)<姨卣鬟M行組合,而后對源域分類器進行訓練,形成一個多源教師網(wǎng)絡。結(jié)合對抗學習的思想,將多源教師網(wǎng)絡與目標域?qū)W生網(wǎng)絡映射到同一特征空間,因此目標域?qū)W生分類器可以有效模仿教師分類器進行分類預測。
本節(jié)對多源域適應方法進行了綜述,按照域適應實現(xiàn)方法的不同對多源域適應方法進行分類?;诜植疾町惖亩嘣从蜻m應方法是當前主流方法,可以使用不同的距離度量標準來量化不同分布之間的差異;基于對抗的多源域適應方法能夠準確對應多個源域和目標域間的關(guān)系,并據(jù)此進行分布對齊,取得了良好的遷移效果;基于樣本生成的多源域適應方法更加注重樣本本身的細粒度特征,通過生成有標記的樣本實現(xiàn)有監(jiān)督的域適應;基于模型的多源域適應方法充分利用深度網(wǎng)絡模型提取高級特征的能力和優(yōu)勢,從結(jié)構(gòu)上解決多個源域與目標域分布對齊的問題。
本節(jié)首先對多源域適應常用公開數(shù)據(jù)集進行介紹,隨后展示具有代表性的多源域適應方法在數(shù)據(jù)集上的性能。
本小節(jié)使用的公開數(shù)據(jù)集有:Digits-five[24],DomainNet[15]和Office-31[24]。
3.1.1 Digits-five
Digits-five由五位數(shù)據(jù)集組成:MNIST (mt),MNIST-M (mm), USPS (up), SVHN (sv),Synthetic Digits (sy)。每個域中有10個類,對應0至9的數(shù)字。實驗時,訓練集包括MNIST,MINST-M,SVHN和Synthetic Digits中25 000張圖像,測試集采集9 000張圖像。因為USPS數(shù)據(jù)集總共只包含9 298張圖像,所以將整個USPS數(shù)據(jù)集作為一個域。
3.1.2 DomainNet
DomainNet是六個不同領域的公共對象的數(shù)據(jù)集,在首次引入后就已成為MSDA中最具挑戰(zhàn)性的數(shù)據(jù)集。所有領域包括345類物品,大約60萬張圖片,如手鐲、飛機、鳥和大提琴。這些域包括Clipart (clp):剪貼畫圖像的集合;Real(rel):照片和真實世界的圖像;Sketch(skt):特定物體的草圖;Infograph(inf):帶有特定對象的信息圖圖像;Painting(pnt):以繪畫的形式對物體進行藝術(shù)描繪;Quickdraw(qdr):以繪畫和快速繪制的形式對物體進行藝術(shù)描繪。
3.1.3 Office-31
Office-31包含三個領域的31個對象類別:Amazon(A)、DSLR(D)和Webcam(W)。Amazon(A)域的樣本來自線上商家的網(wǎng)站,平均每個類包含90張圖像,總共包含2 817張圖像;DSLR(D)包含498張低噪聲高分辨率圖像(4 288×2 848);Webcam(W)顯示低分辨率的795張圖像(640×480)。
本小節(jié)在上述數(shù)據(jù)集上對具有代表性的多源域適應方法的識別性能進行分析,表1~3中實驗數(shù)據(jù)來自于原論文。
表1 在Digits-five上各多源域適應方法的準確率 %
表2 在DomainNet上不同多源域適應方法的準確率 %
表3 在Office-31上各多源域適應方法的準確率 %
多源域適應方法具有極為廣泛的應用價值,因此研究多源域適應問題具有十分重要的現(xiàn)實意義。
當前的多源域適應方法在計算機視覺(Computer Vision)領域應用較為成熟,不僅應用在圖像分類任務中,還可以應用在目標檢測(Object Detection)、語義分割(Semantic Segmentation)、人臉識別(Face Recognition)和行人再識別(Person Re-Identification)等任務中。第2節(jié)所述方法均可以用來對圖像進行識別和分類。文獻[8]率先將多源域適應方法應用到目標檢測任務中,針對不同層次特征信息不同的特點,提出了分層特征對齊的方法。文獻[30]結(jié)合語義分割任務特性,研究了不同域的圖像在語義上的相似性。
多源域適應方法可以有效解決自然語言處理(Natural Language Processing,NLP)中存在大量數(shù)據(jù)不足和訓練樣本、測試樣本特征分布不一致的問題,取得了較好的效果。文獻[20]基于NPL中的文本分類(Text Classification)任務,探索了不同距離對域之間相似性的影響。文獻[31]研究了面向視覺情感分類(Visual Sentiment Classification)的多源域適應問題,使用基于對抗的方法,將多個源域和目標域映射到一個統(tǒng)一的情感潛在空間,解決了單源域情感信息有限的問題。
除上述領域外,多源域適應方法以其能夠解決多種不同數(shù)據(jù)之間的差異和顯著提升模型泛化性的優(yōu)勢,廣泛應用在工業(yè)制造領域的工業(yè)質(zhì)量監(jiān)控、設備故障檢測等任務中,還可以應用在金融領域風險評估、信用評估等任務中。
當前研究多源域適應的背景約束性較強,多數(shù)仍是在源域和目標域樣本量充足、源域與目標域標簽空間已知且一致的條件下,復雜情況下的多源域適應方法值得深入研究。
在當今大數(shù)據(jù)時代,收集并標注的數(shù)據(jù)越來越多,不僅存在源域樣本處于多種特征空間的情況,而且會導致源域樣本的類別大大增加,此時目標域的標簽空間可能是源域標簽空間的子集。在此背景下,研究部分多源域適應(Partial Multi-Source Domain Adaption)問題尤為必要。
與上述部分多源域適應的背景相似,雖然獲取到源域樣本具有很多類別,但與目標域樣本分布相似的類別很少,這就會導致多個源域的樣本空間可能是目標域樣本空間的子集,即目標域中會存在源域中未知的私有類別,此類問題稱為開集多源域適應(Open-Set Multi-Source Domain Adaptation)。
域泛化(Domain Generalization,DG)是近幾年非常熱門的研究方向。域適應問題假設是有多個源域和目標域均可訪問,而域泛化是指目標域未知的,只有可用來訓練的源域數(shù)據(jù)。域泛化是對域適應的進一步擴展和深入,更具有挑戰(zhàn)性和實用性,但難度也大大增加,這就要求模型具有極強的泛化性能。
多源域適應主要研究源域樣本來源并不唯一且多個源域樣本之間特征分布存在差異的問題。該文結(jié)合多源域適應問題產(chǎn)生的背景,闡述其研究現(xiàn)狀,從遷移方式不同的角度對多源域適應方法進行分類,并歸納其中的代表性研究成果。最后,對多源域適應發(fā)展中面臨的主要問題進行描述分析和說明,對下階段的研究方向進行了展望和預測。