唐宋+葉茂+李旭冬
摘要:針對(duì)目前域自適應(yīng)目標(biāo)識(shí)別問題的學(xué)習(xí)方法,進(jìn)行系統(tǒng)總結(jié)。首先,提出目標(biāo)識(shí)別的兩個(gè)基本主題:基于域自適應(yīng)的目標(biāo)分類和目標(biāo)檢測(cè);然后,圍繞這兩個(gè)主題,從特征和樣本兩個(gè)角度,展開具體綜述。認(rèn)為對(duì)于域自適應(yīng)目標(biāo)分類,幾種算法的主要問題為:忽略了樣本所構(gòu)成的流形幾何結(jié)構(gòu),如果能利用幾何結(jié)構(gòu)來約束特征表達(dá),將有利于樣本特征魯棒性的提高。對(duì)于域自適應(yīng)目標(biāo)檢測(cè),其問題為:現(xiàn)有方法對(duì)源樣本和帶標(biāo)簽的目標(biāo)域樣本存在依賴,這一問題使得現(xiàn)有的方法很難適用于某些真實(shí)的應(yīng)用場(chǎng)景。
關(guān)鍵詞: 域自適應(yīng)學(xué)習(xí);目標(biāo)分類;目標(biāo)檢測(cè)
在計(jì)算機(jī)視覺領(lǐng)域,作為許多計(jì)算機(jī)視覺應(yīng)用的基礎(chǔ),目標(biāo)識(shí)別問題一直是相關(guān)研究的重點(diǎn)。2006年,G.E.Hiton提出深度學(xué)習(xí)以后,針對(duì)經(jīng)典的目標(biāo)識(shí)別問題(訓(xùn)練集和測(cè)試集概率分布相同),取得了重大進(jìn)展。基于域間分布差異的域自適應(yīng)目標(biāo)識(shí)別問題,已逐漸成為計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn)。對(duì)于該問題的研究具有重要的意義,主要體現(xiàn)在兩個(gè)方面:提高了分類器或檢測(cè)器的復(fù)用性,有效地增強(qiáng)了模型對(duì)新環(huán)境的適應(yīng)性;使得模型的訓(xùn)練過程能很大程度地獨(dú)立于應(yīng)用場(chǎng)景。因?yàn)樵谟?xùn)練模型時(shí),不再特別地考慮應(yīng)用場(chǎng)景的具體特點(diǎn),所以在訓(xùn)練階段可以借助諸如大數(shù)據(jù)等的優(yōu)勢(shì),預(yù)訓(xùn)練出具有較好泛化能力的模型。
1 域自適應(yīng)學(xué)習(xí)和目標(biāo)識(shí)別問題
域自適應(yīng)學(xué)習(xí)是遷移學(xué)習(xí)[1]的一個(gè)子類。對(duì)于域自適應(yīng)學(xué)習(xí),源域和目標(biāo)域的任務(wù)相同,但是,數(shù)據(jù)不同但相關(guān)。這類學(xué)習(xí)的核心任務(wù)是解決兩個(gè)域數(shù)據(jù)分布的差異問題,是遷移學(xué)習(xí)最基本的形式。
目標(biāo)識(shí)別問題包含狹義和廣義兩個(gè)層面:狹義是指目標(biāo)分類,其主要任務(wù)是將不同類別的物體彼此區(qū)分開;廣義是指目標(biāo)檢測(cè),要明確圖片中存不存在目標(biāo)物體?這些目標(biāo)物體的具體位置在哪里?目前,常用的目標(biāo)檢測(cè)思路大概大概有3種,它們分別為:
(1)滑動(dòng)窗口機(jī)制+分類器的檢測(cè)框架[2-3],檢測(cè)過程如圖1所示。因?yàn)榫哂袠O強(qiáng)的通用性,早期的檢測(cè)方法多采用該框架,目前該框架仍然發(fā)揮著重要的作用。但是,由滑動(dòng)窗口機(jī)制產(chǎn)生的候選檢測(cè)窗有時(shí)很難準(zhǔn)確地框定目標(biāo),容易造成漏報(bào)情況的發(fā)生。
(2)卷積神經(jīng)網(wǎng)絡(luò)(CNN)的回歸檢測(cè)框架[4-7],如圖2所示。該框架將測(cè)試圖片作為整體進(jìn)行認(rèn)知,不僅有效解決了第1種框架目標(biāo)丟失的問題,而且能方便地引入了上下文信息,取得了較好的檢測(cè)結(jié)果。但是,因該框架只適用于CNN,所以其通用性稍差,并且相對(duì)于其他方法,樣本標(biāo)記相對(duì)麻煩。
(3)基于區(qū)域分割的檢測(cè)框架。該框架由文獻(xiàn)[8-10]于2014年提出,大致檢測(cè)流程如圖3所示。首先,對(duì)輸入圖片采用選擇性搜索方法提取出區(qū)域候選框;然后,所有候選框縮放成固定大??;接著,利用CNN提取特征;最后,用支持向量機(jī)(SVM)進(jìn)行區(qū)域分類,并采用回歸的方法微調(diào)侯選框位置與大小。該框架主要的貢獻(xiàn)是去掉了窗口掃描,用聚類方式,對(duì)圖像進(jìn)行分割分組,得到多個(gè)侯選框的層次組。
通過以上介紹,可得出兩點(diǎn)結(jié)論:目標(biāo)分類是目標(biāo)檢測(cè)的基礎(chǔ)和前提;目標(biāo)檢測(cè)是目標(biāo)分類的擴(kuò)展,在目標(biāo)分類的基礎(chǔ)上引入不同的目標(biāo)定位方法就形成了不同的檢測(cè)思路。因此,針對(duì)目標(biāo)識(shí)別的相關(guān)研究需要兼顧目標(biāo)分類和目標(biāo)檢測(cè)這兩個(gè)層次。
基于上述分析,我們將域自適應(yīng)目標(biāo)識(shí)別問題細(xì)化為兩個(gè)基本研究主題:基于域自適應(yīng)的目標(biāo)分類和目標(biāo)檢測(cè)。為了聚焦討論重點(diǎn),在文章中,我們僅考慮只有一個(gè)源域的情形,而對(duì)多源域的情形則不做詳細(xì)的討論。
2 域自適應(yīng)目標(biāo)分類方法
現(xiàn)有域自適應(yīng)目標(biāo)分類方法可以分為:半監(jiān)督域自適應(yīng)方法和無監(jiān)督域自適應(yīng)方法。
2.1 半監(jiān)督領(lǐng)域自適應(yīng)方法
在這種場(chǎng)景中,源域中的樣本都含有標(biāo)簽信息,目標(biāo)域中的樣本只有一部分含有標(biāo)簽。這類方法的核心思想是利用源域和目標(biāo)域的標(biāo)簽信息,構(gòu)建源域和目標(biāo)域之間的關(guān)系。這些方法可分為基于特征和基于樣本兩類?;谔卣鞯陌氡O(jiān)督方法,比較代表性的論文有文獻(xiàn)[11]和[12]:文獻(xiàn)[11]提出了一種度量學(xué)習(xí)算法,該算法利用源域和目標(biāo)域中所有帶標(biāo)簽的樣本,學(xué)習(xí)一個(gè)線性變換,在該變換的作用下,所有樣本被映射到一個(gè)具有域不變特性的特征空間中;文獻(xiàn)[12]給出了一個(gè)字典學(xué)習(xí)算法,基于兩個(gè)域中帶標(biāo)簽的樣本,由該字典編碼的樣本特征同時(shí)具有域不變性和稀疏性。
基于樣本的半監(jiān)督方法,比較代表性的論文有文獻(xiàn)[13-17]:文獻(xiàn)[13]中提出利用標(biāo)記的目標(biāo)樣本,來確定被弱標(biāo)記的源域樣本的正確標(biāo)簽,然后基于這些有標(biāo)簽的源域和目標(biāo)域樣本,訓(xùn)練分類器;文獻(xiàn)[14]提出在傳統(tǒng)的Least-Squares SVM中引入了兩個(gè)新的正則化項(xiàng),一個(gè)利用了連續(xù)性假設(shè),另一個(gè)由帶標(biāo)記的目標(biāo)樣本構(gòu)成,以此來描述目標(biāo)分類器的經(jīng)驗(yàn)誤差;文獻(xiàn)[15-17]提出了基于Adaboost 的學(xué)習(xí)算法,在算法實(shí)現(xiàn)中,為了判別源樣本是否對(duì)目標(biāo)域?qū)W習(xí)有用,必須借助少量帶標(biāo)簽的目標(biāo)域樣本,來訓(xùn)練適用于目標(biāo)域的分類器,并將其作為判別器;文獻(xiàn)[18]總結(jié)了之前基于SVM實(shí)現(xiàn)知識(shí)遷移的方法,利用源領(lǐng)域獲得支持向量遷移知識(shí),并在此基礎(chǔ)上,設(shè)計(jì)了稱為Cross domain SVM的支持向量機(jī)模型,該方法需要目標(biāo)領(lǐng)域的部分樣本帶有類別標(biāo)簽。
2.2 無監(jiān)督領(lǐng)域自適應(yīng)方法
在這類方法中,只有源域中的樣本含有標(biāo)簽信息,而目標(biāo)域中的樣本沒有標(biāo)簽。與上述半監(jiān)督方法相比,無監(jiān)督方法難度更大。與半監(jiān)督方法相同,這些方法也可以歸納為基于特征和基于樣本兩類,為了敘述方便,將它們分別記為A類和B類。具體地,A類算法假設(shè)源域和目標(biāo)域的樣本能被映射到共享的隱藏特征空間,在這個(gè)空間中,源域樣本和目標(biāo)域樣本的特征概率分布差異很小。由這一思想衍生出兩種不同解決方案,分別記為A1和A2。
A1方案從直接刻畫該隱藏特征空間的角度切入問題(原理如圖4所示),假設(shè)源域和目標(biāo)域?qū)?yīng)的特征空間為同構(gòu)空間,而且在特征層面兩者存在一些共享的特征元素;該隱藏特征空間可以通過這些共享特征元素加以描述。對(duì)于這一思路,其核心是如何找到刻畫該隱藏特征空間的共享特征元素。比較代表性的論文有文獻(xiàn)[19-23]:文獻(xiàn)[19]提出了基于中樞特征的方法,通過提取最重要的中樞特征,形成輔助特征向量,最后分類器在原特征向量加上該輔助特征向量的空間內(nèi)重新學(xué)習(xí),該方法的問題在于當(dāng)目標(biāo)領(lǐng)域未知時(shí),無法選擇合適的中樞特征;基于類似思想,文獻(xiàn)[20-22]分別基于互聚類方法、降維方法以及多核學(xué)習(xí)的方法實(shí)現(xiàn)了分類器的遷移;文獻(xiàn)[23]利用跨域界標(biāo)樣本選擇過程,構(gòu)建域不變特征子空間。
A2方案則聚焦到源域和目標(biāo)域?qū)?yīng)的特征空間為異構(gòu)空間時(shí)的情形,其基本思想是通過學(xué)習(xí)一個(gè)變換關(guān)系將源領(lǐng)域與目標(biāo)領(lǐng)域特征空間映射到該隱藏特征空間(原理如圖5所示)。比較代表性的論文有文獻(xiàn)[24-29]:文獻(xiàn)[24]中提出利用多個(gè)視角的數(shù)據(jù)構(gòu)建翻譯器,通過這個(gè)翻譯器,實(shí)現(xiàn)源領(lǐng)域與目標(biāo)領(lǐng)域特征空間的映射;文獻(xiàn)[25]中提出通過非線性度量學(xué)習(xí)方法得到一個(gè)非對(duì)稱的特征空間映射;文獻(xiàn)[26]中提出將源領(lǐng)域與目標(biāo)領(lǐng)域樣本映射到同一子空間,通過SVM學(xué)習(xí),訓(xùn)練得到新的目標(biāo)分類器和特征空間的映射;文獻(xiàn)[27]中提出基于最大平均差異(MMD)概念,通過對(duì)源域和目標(biāo)域上的邊緣分布和條件分布進(jìn)行約束,來實(shí)現(xiàn)對(duì)變換矩陣的求解;文獻(xiàn)[28-29]中提出了基于深度模型的方法,其思想是借助深度模型強(qiáng)有力的特征抽象能力,通過多層網(wǎng)絡(luò)結(jié)構(gòu),在不斷降維抽象的同時(shí),不斷地彌合源域和目標(biāo)域概率分布的差異,在最高特征抽象層使兩個(gè)域之間的概率分布差異最小。
文獻(xiàn)[30-31]中提出了一類基于MMD的深度網(wǎng)絡(luò)方法。具體地,文獻(xiàn)[30]中設(shè)計(jì)的深度自適應(yīng)網(wǎng)絡(luò)(DAN)由兩部分構(gòu)成:首先,利用深度卷積網(wǎng)絡(luò)提取共享特征;然后,構(gòu)建兩個(gè)全鏈接子網(wǎng)絡(luò),來分別提取源域和目標(biāo)域的域特征,同時(shí),在這兩個(gè)子網(wǎng)絡(luò)中,逐層引入針對(duì)多核可變的最大平均差異(MK-MMD)最小化約束,從而實(shí)現(xiàn)向隱藏特征空間的映射?;陬愃频乃枷耄墨I(xiàn)[31]中將MMD、殘差網(wǎng)絡(luò)結(jié)合,使用熵最小化方法,提出了自適應(yīng)殘差遷移網(wǎng)絡(luò)。
最近,文獻(xiàn)[32]提出了一種更為自然的遷移方案:結(jié)合生成對(duì)抗網(wǎng)絡(luò)框架[33]與深度學(xué)習(xí)來解決領(lǐng)域自適應(yīng)(DA)問題,所提深度網(wǎng)絡(luò)能夠?qū)W到具有領(lǐng)域不變性的特征。文獻(xiàn)[34-35]則從傳統(tǒng)的核映射角度提出了基于特征的遷移方法,其基本思想是用高維特征空間來表示該隱藏特征空間,而源樣本和目標(biāo)域樣本在該高維空間的投影可以用核映射方法得到,基于這些投影點(diǎn)可以建立相應(yīng)的學(xué)習(xí)模型。
B類方法將樣本本身的特點(diǎn)作為解決問題的切入點(diǎn),大致可以分為兩類,分別記為B1和B2。具體地,B1類方法的基本思想如圖6所示(假設(shè)源域中的一部分樣本滿足目標(biāo)域概率分布),這類方法通常采用加權(quán)的方式,來篩選出滿足條件的源樣本,以此訓(xùn)練出適用于目標(biāo)域的分類器,因此其核心問題是如何求取這些加權(quán)系數(shù)。比較代表性的論文有文獻(xiàn)[36-38]:文獻(xiàn)[36]中提出了一個(gè)基于樣本加權(quán)的方法,使源域樣本的概率分布最大可能地匹配目標(biāo)域的概率分布,然后利用加權(quán)后的源域樣本和目標(biāo)域樣本完成遷移;文獻(xiàn)[37]則提出直接利用平均相似度的方法,直接將符合目標(biāo)域概率分布的源域樣本篩選出來;文獻(xiàn)[38-39]估計(jì)源領(lǐng)域與目標(biāo)領(lǐng)域樣本密度函數(shù),然后通過計(jì)算兩者之比,來獲得權(quán)重。為避免估計(jì)密度函數(shù),文獻(xiàn)[40]提出采用K-L散度估計(jì)該比值。
B2類方法的基本思想是:如果能有效刻畫源域到目標(biāo)域的遷移過程,那么源樣本空間則能以漸進(jìn)的方式,投影到目標(biāo)域空間,其原理如圖7所示。比較代表性的論文有文獻(xiàn)[41-46]:文獻(xiàn)[41]中提出利用流形對(duì)齊過程,學(xué)習(xí)從源樣本空間到目標(biāo)樣本空間的變換,實(shí)現(xiàn)源空間到目標(biāo)空間的投影;文獻(xiàn)[42]中提出假設(shè)源域樣本和目標(biāo)域樣本所構(gòu)成的空間是位于Grassman流形上的兩個(gè)不同的點(diǎn),在這個(gè)Grassman流形上,連接這兩個(gè)點(diǎn)的測(cè)地線描述了源域到目標(biāo)域的遷移過程,通過子空間插值可擬合出這條測(cè)地線,將樣本投影到這些子空間上,由所有這些投影所構(gòu)成的向量被作為樣本的特征,該文獻(xiàn)為域自適應(yīng)的問題提供了一個(gè)新的觀察角度;通過對(duì)測(cè)地線上子空間的積分,文獻(xiàn)[43]中提出了被稱為GFK的核方法;文獻(xiàn)[44]中提出可以按比例構(gòu)成測(cè)地線上子空間的樣本集,并利用這些樣本集訓(xùn)練得到基于深度模型分類器,相比之前的線性投影,樣本投影到每個(gè)子空間上的特征,具有更強(qiáng)的表達(dá)能力;文獻(xiàn)[45]中則提出通過增量學(xué)習(xí)的方式,為測(cè)地線上每個(gè)子空間建立相應(yīng)的字典,然后利用這些字典完成對(duì)樣本的編碼;文獻(xiàn)[46]則提出在Spline流形上對(duì)測(cè)地線進(jìn)行子空間的采樣。
3 域自適應(yīng)目標(biāo)檢測(cè)方法
目前,域自適應(yīng)學(xué)習(xí)在計(jì)算機(jī)視覺中的應(yīng)用中已有一些研究成果[47],但是關(guān)于域自適應(yīng)的目標(biāo)檢測(cè)方法研究并不是很多。現(xiàn)有的工作大致可以分為兩類:半監(jiān)督域自適應(yīng)目標(biāo)檢測(cè)方法和無監(jiān)督域自適應(yīng)目標(biāo)檢測(cè)方法。為方便敘述,它們被分別記為C和D。
3.1 半監(jiān)督域自適應(yīng)目標(biāo)檢測(cè)方法
在域自適應(yīng)目標(biāo)檢測(cè)問題中,半監(jiān)督是指:模型訓(xùn)練過程能夠從目標(biāo)應(yīng)用場(chǎng)景中獲得一些帶標(biāo)簽信息的樣本。這些方法幾乎都是基于特征的方法,其基本思想是通過帶標(biāo)簽的目標(biāo)域樣本,抽取跨域的特征(基本框架如圖8a)所示)。根據(jù)源領(lǐng)域是否額外引入大規(guī)模數(shù)據(jù)集,這類方法可被劃分為C1和C2兩個(gè)子類。
C1類方法是相對(duì)傳統(tǒng)的方案,在相應(yīng)的問題假設(shè)中,它們使用的源域數(shù)據(jù)集通常規(guī)模較小。比較有代表性的論文有文獻(xiàn)[48-50]:文獻(xiàn)[48]中提出首先利用卷積自編碼器在源域上預(yù)訓(xùn)練卷積核,然后基于帶標(biāo)簽的目標(biāo)域樣本,對(duì)上述卷積核進(jìn)行調(diào)諧(FT),使之適用于目標(biāo)域;文獻(xiàn)[49]提出面向一種車輛檢測(cè)的CNN方法,該方法保留源域和目標(biāo)域共享的卷積核的同時(shí),借助帶標(biāo)簽的目標(biāo)域樣本對(duì)非共享卷積核進(jìn)行更新;文獻(xiàn)[50]中提出通過對(duì)源領(lǐng)域特征遷移構(gòu)造弱分類器,并將每個(gè)弱分類器已學(xué)習(xí)好的權(quán)重根據(jù)目標(biāo)場(chǎng)景再學(xué)習(xí)調(diào)整,通過這種方式,能解決由于視角以及光照等造成的改變。
C2方法是最近才逐漸發(fā)展起來。這類方法利用在大數(shù)據(jù)上訓(xùn)練好的深度模型,來提取源樣本的深度特征,然后基于所得深度特征集合進(jìn)行算法設(shè)計(jì)。相比于傳統(tǒng)的C1類方法,這類方法檢測(cè)效果更好,主要有兩方面原因:一方面,有效融合了深度特征良好的區(qū)分能力和遷移能力;另一方面,可以方便地和其他算法框架相結(jié)合。比較有代表性的論文有文獻(xiàn)[8-10]、文獻(xiàn)[52-53]:文獻(xiàn)[8-10]提出并發(fā)展了一類基于區(qū)域分割的多類目標(biāo)檢測(cè)方法,這類方法通過已訓(xùn)練好的深度模型來取得特征[51],同時(shí)結(jié)合SVM方法來實(shí)現(xiàn)類別判定;文獻(xiàn)[52-53]中提出利用已訓(xùn)練好的深度模型對(duì)整個(gè)檢測(cè)場(chǎng)景提取深度特征,并結(jié)合長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)模型,提出基于序列分割的回歸檢測(cè)方法。
3.2 無監(jiān)督域自適應(yīng)目標(biāo)檢測(cè)方法
無監(jiān)督的含義是指目標(biāo)應(yīng)用場(chǎng)景不提供任何帶標(biāo)簽的樣本。這些方法幾乎都是基于實(shí)例的,也是目前學(xué)界使用較多的路線,它們大致可以分為兩類,分別記為D1和D2。
D1類方法基本思路是通過迭代的方式,從目標(biāo)域中挖掘有用信息,來重新訓(xùn)練原檢測(cè)器,其基本框架如圖8b)所示。比較有代表性的論文有文獻(xiàn)[54-61]:文獻(xiàn)[54]中提出通過一個(gè)基于外表特征的目標(biāo)檢測(cè)器,來設(shè)定置信度,將目標(biāo)場(chǎng)景中滿足置信度的正負(fù)樣本挑選出來,重新訓(xùn)練檢測(cè)器;文獻(xiàn)[55-56]利用互訓(xùn)練方法,迭代地訓(xùn)練基于不同特征的分類器;文獻(xiàn)[57]提出一種在線分類器學(xué)習(xí)算法,在每次迭代中,該算法通過背景差化技術(shù),對(duì)目標(biāo)場(chǎng)景檢測(cè)結(jié)果進(jìn)行自動(dòng)標(biāo)注,然后借助這些標(biāo)注結(jié)果重新訓(xùn)練原分類器;文獻(xiàn)[58]結(jié)合復(fù)雜網(wǎng)絡(luò),迭代學(xué)習(xí)目標(biāo)檢測(cè)器以及源領(lǐng)域和目標(biāo)領(lǐng)域樣本的權(quán)重;文獻(xiàn)[59-60]中基于圖的方法、上下文信息計(jì)算源領(lǐng)域和目標(biāo)領(lǐng)域樣本的置信度,通過融合置信度和上下文信息的SVM,不斷迭代訓(xùn)練樣本權(quán)重和置信度,取得較好的效果;與之類似,文獻(xiàn)[61]提出了一個(gè)基于深度CNN的方法,通過新增重建層和聚類層,實(shí)現(xiàn)了對(duì)多尺度場(chǎng)景特征和視覺模式的挖掘。
D2類方法是非迭代的方案。比較有代表性的論文有文獻(xiàn)[62-63]:文獻(xiàn)[62]提出了基于特征聯(lián)合學(xué)習(xí)的深度網(wǎng)絡(luò),該方法中首先基于源域樣本和目標(biāo)域樣本,通過棧式自編碼器(SAE),學(xué)習(xí)得到一個(gè)特征變換,將樣本映射到某特征空間,然后利用源域樣本的標(biāo)簽信息,訓(xùn)練得到基于該特征空間的SVM分類器;文獻(xiàn)[63]提出了針對(duì)監(jiān)測(cè)控制視頻的檢測(cè)器遷移方法,它的核心思想是通過視頻的時(shí)序線索來對(duì)隨機(jī)生成的候選圖像塊進(jìn)行篩選,然后利用過濾后的樣本訓(xùn)練新的分類器;文獻(xiàn)[64]提出一種基于神經(jīng)調(diào)控的檢測(cè)器遷移方法,該方法利用一個(gè)調(diào)控網(wǎng)絡(luò)對(duì)位于深度網(wǎng)絡(luò)末端的分類器,進(jìn)行自適應(yīng)地加權(quán)調(diào)整,為每一個(gè)目標(biāo)域樣本,生成專有的分類器。
4 問題和展望
對(duì)于域自適應(yīng)目標(biāo)分類,主要問題為:現(xiàn)有的方法要么基于概率匹配的思路(A類和B1類),要么從抽象流形這一個(gè)幾何觀點(diǎn)設(shè)計(jì)相關(guān)算法(B2類),它們都忽略了樣本本身所構(gòu)成的流形幾何結(jié)構(gòu)。事實(shí)上,樣本本身是存在某種幾何關(guān)系的,即所謂的流形結(jié)構(gòu)。大量與流形學(xué)習(xí)有關(guān)的工作[65-66]已經(jīng)證實(shí)了這一點(diǎn)。如果我們能利用這些幾何結(jié)構(gòu)來約束特征表達(dá),將有利于樣本特征魯棒性的提高。
對(duì)于域自適應(yīng)目標(biāo)檢測(cè),其問題為:現(xiàn)有方法為了遷移檢測(cè)器,要么要求目標(biāo)場(chǎng)景含有帶標(biāo)簽的樣本,來實(shí)現(xiàn)對(duì)源域知識(shí)的遷移(C類);要么需要保留全部源樣本,來實(shí)現(xiàn)對(duì)目標(biāo)場(chǎng)景挖掘信息的評(píng)估(D類)。換而言之,現(xiàn)有方法對(duì)源樣本和帶標(biāo)簽的目標(biāo)域樣本存在依賴。這一問題使得現(xiàn)有的方法很難適用于某些真實(shí)的應(yīng)用場(chǎng)景,這主要體現(xiàn)在3個(gè)方面:(1)有些真實(shí)場(chǎng)景很難獲取帶標(biāo)簽的樣本,特別是非結(jié)構(gòu)化的應(yīng)用環(huán)境;(2)大量硬件設(shè)備的計(jì)算能力和存儲(chǔ)空間都是有限的,基于所有源樣本進(jìn)行置信度評(píng)估不僅會(huì)造成額外的計(jì)算開銷,還會(huì)帶來巨大的存儲(chǔ)負(fù)擔(dān);(3)對(duì)具有動(dòng)態(tài)背景的場(chǎng)景并不適用。
5 結(jié)束語
近年來,許多學(xué)者針對(duì)域自適應(yīng)目標(biāo)識(shí)別問題,從理論和應(yīng)用方面展開研究,并取得很多成果。文章對(duì)現(xiàn)有的域自適應(yīng)目標(biāo)識(shí)別方法進(jìn)行了綜述:首先,我們分別介紹域自適應(yīng)學(xué)習(xí)和目標(biāo)識(shí)別,在此基礎(chǔ)上,將域自適應(yīng)目標(biāo)識(shí)別細(xì)化為域自適應(yīng)分類和域自適應(yīng)目標(biāo)檢測(cè)兩個(gè)基本問題;然后,以半監(jiān)督和無監(jiān)督為基本線索,分別對(duì)這兩個(gè)問題進(jìn)行了綜述,重點(diǎn)對(duì)各種方法的核心思想,以及發(fā)展脈絡(luò)進(jìn)行了梳理;最后,總結(jié)了現(xiàn)有方法所存在的問題。
參考文獻(xiàn)
[1] PAN J S, YANG Q. A Survey on Transfer Learning[J]. IEEE Transactions on Knowledge and Data Engineering (TKDE), 2010, 22(10):1345-1359. DOI: 10.1109/TKDE.2009.191
[2] HOWSE J. OpenCV Computer Vision with Python[M]. UK: Packt Publishing Ltd., 2013
[3] NEUBECK A, GOOL L V. Efficient Non-Maximum Suppression[C]//International Conference on Pattern Recognition (ICPR). China, 2006: 850-855
[4] SZEGEDY C, TOSHEV A, ERHAN D. Deep Neural Networks for Object Detection[C]// Annual Conference on Neural Information Processing Systems (NIPS).USA, 2013: 2553-2561
[5] GIRSHICK R, IANDOLA F, DARRELL T, et al. Deformable Part Models are Convolutional Neural Networks[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR), USA:IEEE, 2015: 437-446
[6] REDOM J, DIVVALA S, GIRSHICK R, et al. You Only Look Once: Unified, Real-Time Object Detection[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR), USA:IEEE, 2016:779-788
[7] FU M, XU P, LI X, et al. Fast Crowd Density Estimation with Convolutional Neural Networks[J].Engineering Applications of Artificial Intelligence, 2015, 43:81-88. DOI: 10.1016/j.engappai.2015.04.006
[8] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich Feature Hierarchies for Accurate Object Detectionand Semantic Segmentation[C]//IEEE Conference on Computer Vision and Pattern Recognition(CVPR). USA:IEEE, 2014:580-587
[9] GIRSHICK R. Fast R-CNN[C]//IEEE International Conference on Computer Vision (ICCV). USA: IEEE, 2015: 1440-1448
[10] REN S, HE K, GIRSHICK R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[C]//Annual Conference on Neural Information Processing Systems (NIPS). Canada: NIPS, 2015: 91-99
[11] KATE S, BRIAN K, MARIO F, et al. Adapting Visual Category Models to New Domains [C]//European Conference on Computer Vision (ECCV). Greece: ECCV, 2010:213-226
[12] QIU Q, PATEL V M, TURAGA P, et al. Domain Adaptive Dictionary Learning [C]// European Conference on Computer Vision (ECCV). Italy: ECCV, 2012, 631-645
[13] BERGAMO A, TORRESANI L. Exploiting Weakly-Labeled Web Images to Improve Object Classification: A Domain Adaptation Approach [J]. Annual Conference on Neural Information Processing Systems (NIPS), 2010:181-189
[14] DUAN L, TSANG I W, XU D, et al. Domain Adaptation from Multiple Sources Via Auxiliary Classifiers[C]//International Conference on Machine Learning (ICML). Canada: ICML, 2009:289-296
[15] DAI W, YANG Q, XUE G R, et al. Boosting for Transfer Learning[C]//International Conference on Machine Learning (ICML). USA: ICML, 2007: 193-200
[16] XU Z, SUN Z. Multi-View Transfer Learning with Adaboost [C]//International Conference on Tools with Artificial Intelligence (ICTAI). USA: ICTAI, 2011:399-402
[17] XU Z, SUN S. Multi-Source Transfer Learning with Multi-View Adaboost [C]//International Conference on Neural Information Processing (ICNIP). Qatar: ICNIP, 2012:332-339. DOI: 10.1007/978-3-642-34487-9_41
[18] JIANG W, ZAVESKY E, CHANG S F, et al. Cross-Domain Learning Methods for High-Level Visual Concept Classification[C]//IEEE International Conference on Image Processing (ICIP). USA:IEEE, 2008:161-164
[19] BLITER J, McDONALD R, PEREIRA F. Domain Adaptation with Structural Correspondence Learning[C]//Conference on Empirical Methods in Natural Language Processing (EMNLP). Australia: EMNLP, 2006:120-128
[20] DAI W, XUE G R, YANG Q, et al. Co-Clustering Based Classification for Out-of-Domain Documents[C]//International Conference on Knowledge Discovery and Data Mining (ICKDDM), USA: ICKDDM, 2007:210-219
[21] PAN S J, I. TSANG W, KWOK J T, et al. Domain Adaptation Via Transfer Component Analysis[J].IEEE Transactions on Neural Networks (TNN), 2011, 22(2):199-210
[22] DUAN L, TSANG I W, XU D. Domain Transfer Multiple Kernel Learning [J]. IEEE Transactions on Pattern Analysis & Machine Intelligence (PAMI), 2011, 34(99):1-1
[23] HUBERT T Y H, YEH Y R, WANG F Y C. Learning Cross-Domain Landmarks for Heterogeneous Domain Adaptation[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR), USA:IEEE, 2016:5081-5090
[24] DAI W, CHEN Y, XUE G R, et al. Translated Learning: Transfer Learning Across Different Feature Spaces[C]//Annual Conference on Neural Information Processing Systems (NIPS). Canada: NIPS, 2008:353-360
[25] KULIS B, SAENKO K, DARRELL T. What You Saw is Not What You Get: Domain Adaptation Using Asymmetric Kernel Transforms[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR).USA: CVPR, 2011:1785-1792. DOI: 10.1109/CVPR.2011.5995702
[26] DUAN L, XU D, TSANG I. Learning with Augmented Features for Heterogeneous Domain Adaptation [J]. Computer Science, 2012:711-718. DOI: 10.1109/TPAMI.2013.167
[27] LONG M, WANG J, DING G, et al. Transfer Feature Learning with Joint Distribution Adaptation[C]//IEEE International Conference on Computer Vision (ICCV). Australia: ICCV, 2013: 2200-2207. DOI: 10.1109/ICCV.2013.274
[28] M. Chen, Z. Xu, K. Weinberger, et al. Marginalized Denoising Autoencoders for Domain Adaptation[J]. Computer Science, 2012
[29] GLOROT X, BORDES A, BENGIO Y. Domain Adaptation for Large-Scale Sentiment Classification: A Deep Learning Approach[C]//International Conference of Machine Learning (ICML). USA:ICML, 2011:611-618
[30] LONG M J W, CAO Y, JORDAN M I. Learning Transferable Features with Deep Adaptation Networks[C]//International Conference on Machine Learning (ICML), France: ICML, 2015: 97-105
[31] LONG J W M, ZHUY H, JORDAN M I. Unsupervised Domain Adaptation with Residual Transfer Networks[C]//Annual Conference on Neural Information Processing Systems (NIPS). Spain: NIPS, 2016:10-18
[32] GANIN V L Y. Unsupervised Domain Adaptation by Back Propagation[C]//International Conference on Machine Learning (ICML). France: ICML, 2015:280-288
[33] GOODFELLOW I J, POUGETABADIE J, MIRZA M, et al. Generative Adversarial Networks[J]. Advances in Neural Information Processing Systems, 2014(3): 2672-2680
[34] SUN S, XU Z, YANG M. Transfer Learning with Part-Based Ensembles[C]//International Workshop on Multiple Classifier Systems. China: LNCS, 2013:271-282. DOI: 10.1007/978-3-642-38067-9_24
[35] TU W, SUN S. Crossdomain Representation-Learning Framework with Combination of Class Separate and Domain Merge Objectives[C]//International Workshop on Cross Domain Knowledge Discovery in Web and Social Network Mining. USA, 2012:18-25. DOI: 10.1145/2351333.2351336
[36] SCHOLKOPF B, PLATT J, HOFMANN T. Correcting Sample Selection Bias by Unlabeled Data[C]//Annual Conference on Neural Information Processing Systems (NIPS). Canada: NIPS, 2006: 601-608
[37] GONG B, GRAUMAN K, SHA F. Connecting the Dots with Landmarks: Discriminatively Learning Domain-Invariant Features for Unsupervised Domain Adaptation[C]//International Conference on Machine Learning (ICML). USA:ICML, 2013:222-230
[38] ZADROZNY B. Learning and Evaluating Classifiers Under Sample Selection Bias[C]//International Conference on Machine Learning (ICML).Canada: ICML, 2004: 114-122
[39] FAN W, DAVIDSON I, ZADROZNY B, et al. An Improved Categorization of Classifiers Sensitivity on Sample Selection Bias[C]//International Conference on Data Mining. USA, 2005:4-10
[40] SUGIYAMA M, NAKAJIMA S, KASHIMA H, et al. Direct Importance Estimation with Model Selection and Its Application to Covariate Shift Adaptation[C]//Annual Conference on Neural Information Processing Systems (NIPS). Canada: NIPS, 2008:1433-1440
[41] WANG C, MAHADEVAN S. Heterogeneous Domain Adaptation Using Manifold Alignment[C]//International Joint Conference on Artificial Intelligence (IJCAI), Spain: IJCAI, 2011:1541
[42] GOPALAN R, LI R, R. Chellappa. Domain Adaptation for Object Recognition: An Unsupervised Approach[C]//IEEE International Conference on Computer Vision (ICCV), Spain, 2011: 999-1006. DOI: 10.1109/ICCV.2011.6126344
[43] SHA F, SHI Y, GONG B, et al. Geodesic Flow Kernel for Unsupervised Domain Adaptation[C]//IEEE Conference on Computer Vision and Pattern Recognition(CVPR). USA:IEEE, 2012:2066-2073
[44] CHOPRA R G S, BALAKRISHNAN S. DLID: Deep Learning for Domain Adaptation by Interpolating Between Domains[C]//International Conference on Machine Learning (ICML) Workshop on Challenges in Representation Learning. USA: ICML, 2013
[45] NI J, QIU Q, CHELLAPPA R. Subspace Interpolation Via Dictionary Learning for Unsupervised Domain Adaptation[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR). USA:IEEE, 2013: 692-699
[46] CASEIRO R, HENRIQUES J F, MARTINS P, et al. Beyond the Shortest Path: Unsupervised Domain Adaptation by Sampling Subspaces Along the Spline Flow[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR). USA:IEEE, 2015:3846-3854. DOI: 10.1109/CVPR.2015.7299009
[47] DUAN L, XU D, TSANG W H, et al. Visual Event Recognition in Videos by Learning from Web Data[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR). USA: IEEE, 2010: 1959-1966. DOI: 10.1109/TPAMI.2011.265
[48] SERMANET P, KAVUKCUOGLU K, CHINTALA S, et al. Pedestrian Detection with Unsupervised Multistage Feature Learning[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR). USA:IEEE, 2013:3626-3633
[49] LI X, YE M, FU M, et al. Domain Adaption of Vehicle Detector Based on Convolutional Neural Networks [J]//International Journal of Control, Automation and Systems (IJCAS), 2015, 13(4):1020-1031. DOI: 10.1007/s12555-014-0119-z
[50] PANG J, HUANG Q, YAN S, et al. Transferring Boosted Detectors Towards Viewpoint and Scene Adaptiveness [J]. IEEE Transactions on Image Processing (TIP), 2011, 20(5):1388-1400
[51] DENG J, DONG W, SOCHER R, et al. ImageNet: A Large-Scale Hierarchical Image Database[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR). USA: IEEE, 2009: 248-255. DOI: 10.1109/CVPR.2009.5206848
[52] LI X, YE M, LIU D, et al. Memory-Based Object Detection in Surveillance Scenes[C]//IEEE International Conference on Multimedia and Expo (ICME). USA,IEEE, 2016:1-6. DOI: 10.1109/ICME.2016.7552920
[53] LI X, YE M, LIU Y, et al. Accurate Object Detection Using Memory-Based Models in Surveillance Scenes[J]. Pattern Recognition, 2017(67):73-84
[54] ROSENBERG C, HEBERT M, SCHNEIDERMAN H. Semi-Supervised Self-Training of Object Detection Models[C]//IEEE Workshop on Applications of Computer Vision/IEEE Workshop on Motion and Video Computing. USA:IEEE, 2005:29-36
[55] LEVIN A, VIOLA P, FREUND Y. Unsupervised Improvement of Visual Detectors Using Co-Training[C]//IEEE International Conference on Computer Vision (ICCV). USA: IEEE, 2003:626-633
[56] WU B, NEVATIA R. Improving Part Based Object Detection by Unsupervised, Online Boosting[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR). USA:IEEE, 2007:1-8
[57] NAIR V, CLARKJ J. An Unsupervised, Online Learning Framework for Moving Object Detection[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR). USA:IEEE, 2004: 317-324. DOI: 10.1109/CVPR.2004.34
[58] WANG M, WANG X. Automatic Adaptation of a Generic Pedestrian Detector to a Specific Traffic Scene[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR). USA:IEEE, 2011: 3401-3408. DOI: 10.1109/CVPR.2011.5995698
[59] WANG X, LI W, WANG M. Transferring a Generic Pedestrian Detector Towards Specific Scenes[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR). USA:IEEE, 2012:3274-3281
[60] WANG X, WANG M, LI W. Scene-Specific Pedestrian Detection for Static Video Surveillance[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence (PAMI), 2014, 36(2):361-74
[61] ZENG X, OUYANG W, WANG M, et al. Deep Learning of Scene-Specific Classifier for Pedestrian Detection[C]//European Conference on Computer Vision (ECCV). Switzerland:ECCV, 2014:472-487
[62] HTIKE K K, HOGG D. Unsupervised Detector Adaptation by Joint Dataset Feature Learning[C]//International Conference on Computer Vision and Graphics (ICCVG). Poland: ICCVG, 2014: 270-277
[63] HTIKE K K, Hogg D C. Efficient Non-Iterative Domain Adaptation of Pedestrian Detectors to Video Scenes[C]//IEEE International Conference on Pattern Recognition (ICPR). USA:IEEE, 2014:654-659. DOI: 10.1109/ICPR.2014.123
[64] TANG S, YE M, ZHU C, et al. Adaptive Pedestrian Detection Using Convolutional Neural Network with Dynamically Adjusted Classifier[J]. Journal of Electronic Imaging, 2017, 26(1): 013012
[65] ROWEIS S T, SAUL L K. Nonlinear Dimensionality Reduction by Locally Linear Embedding [J]. Science, 2000, 290(5500):2323-2326
[66] TENENBAUM J B, SILVA V D, LANGFORD J C. A Global Geometric Framework for Nonlinear Dimensionality Reduction[J]. Science, 2001, 290(5500):2319-2323