• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于參數(shù)字典的多源域自適應(yīng)學(xué)習(xí)算法

      2020-12-04 07:50:46鄭雄風(fēng)汪云云
      關(guān)鍵詞:源域字典分類

      鄭雄風(fēng),汪云云

      (1.南京郵電大學(xué) 計(jì)算機(jī)、軟件、網(wǎng)絡(luò)空間安全學(xué)院,江蘇 南京 210023; 2.江蘇省大數(shù)據(jù)安全與智能處理重點(diǎn)實(shí)驗(yàn)室(南京郵電大學(xué)),江蘇 南京 210023)

      0 引 言

      遷移學(xué)習(xí)利用相關(guān)的源域知識(shí)輔助目標(biāo)域?qū)W習(xí),以解決目標(biāo)域數(shù)據(jù)或數(shù)據(jù)標(biāo)簽稀缺的問題,目前已得到機(jī)器學(xué)習(xí)領(lǐng)域的廣泛關(guān)注。在推薦系統(tǒng)中,遷移學(xué)習(xí)利用評(píng)分完善的電影數(shù)據(jù)幫助推薦無(wú)評(píng)分記錄的書籍,解決冷啟動(dòng)問題;在室內(nèi)wifi定位中,借助遷移學(xué)習(xí),利用前時(shí)刻已有設(shè)備采集的信號(hào)數(shù)據(jù),幫助學(xué)習(xí)新設(shè)備和未來(lái)時(shí)刻產(chǎn)生的信號(hào)。其實(shí),遷移學(xué)習(xí)廣泛存在于人類活動(dòng)中,一個(gè)人學(xué)會(huì)了自行車,便很容易學(xué)會(huì)開電動(dòng)車;熟悉五子棋,則可將知識(shí)遷移到學(xué)習(xí)圍棋中。遷移學(xué)習(xí)的關(guān)鍵在于如何找到源領(lǐng)域和目標(biāo)領(lǐng)域間的相關(guān)性進(jìn)行遷移。

      近年來(lái),大量遷移學(xué)習(xí)方法被相繼提出[1-2]。根據(jù)所遷移知識(shí)形式的不同,現(xiàn)有遷移分類學(xué)習(xí)方法可大致分為4大類:(1)基于樣本[3-5]的遷移學(xué)習(xí)方法,通常采用對(duì)源域樣本采樣或加權(quán)的方式,選擇或側(cè)重與目標(biāo)域相關(guān)的樣本輔助目標(biāo)域?qū)W習(xí)。如TrAdaBoost[4]和域適應(yīng)支持向量機(jī)(domain adaptation support vector machine,DASVM)[6]等;(2)基于特征的遷移學(xué)習(xí)方法,關(guān)注并遷移源域特征或特征參數(shù)中的相關(guān)知識(shí),如特征增廣方法[7-8]、遷移成分分析(transfer component analysis,TCA)方法[9]和聯(lián)合域適應(yīng)(joint domain adaptation,JDA)方法[10]等;(3)基于模型的遷移學(xué)習(xí)方法,其假設(shè)源域和目標(biāo)域的模型參數(shù)之間存在一定的相似性或聯(lián)系,將源域模型參數(shù)遷移至目標(biāo)域中。如域適應(yīng)機(jī)(domain adaptation machine,DAM)[11]和域選擇機(jī)(domain selection machine,DSM)[12]等;(4)基于關(guān)系的遷移學(xué)習(xí)方法,實(shí)現(xiàn)關(guān)系型域間的知識(shí)遷移。在關(guān)系型域中,數(shù)據(jù)的呈現(xiàn)形式為關(guān)系而非獨(dú)立同分布的樣本,如社會(huì)網(wǎng)絡(luò)數(shù)據(jù)。在針對(duì)該類知識(shí)的遷移學(xué)習(xí)中,研究者們常采用統(tǒng)計(jì)關(guān)系型學(xué)習(xí)技術(shù)[13],如馬爾可夫邏輯網(wǎng)絡(luò)(Markov logic networks,MLNs)[14]。

      而根據(jù)源域個(gè)數(shù)的不同,遷移學(xué)習(xí)又可分為單源域和多源域?qū)W習(xí)。多源域自適應(yīng)學(xué)習(xí)旨在從多個(gè)源領(lǐng)域中挖掘相關(guān)知識(shí)以輔助目標(biāo)域的學(xué)習(xí)。目前多源域自適應(yīng)學(xué)習(xí)方法主要有兩類[15-19]:一是在遷移過(guò)程中對(duì)各源域賦予權(quán)重,描述各源域和目標(biāo)域間的相關(guān)性。Chattopadhyay等人[15]提出多源域加權(quán)方法(conditional probability based multi-source domain adaptation approach,CP-MDA),用于衡量各源域和目標(biāo)域的條件分布差異;Sun等人[16]利用各源域和目標(biāo)域間的邊緣分布差異對(duì)源域樣本進(jìn)行加權(quán),同時(shí)利用條件分布差異對(duì)各源域進(jìn)行加權(quán);Duan等人[11]在支持向量回歸模型中引入數(shù)據(jù)依賴的正則化項(xiàng),對(duì)各源域進(jìn)行選擇或加權(quán)。另一類則是通過(guò)多源域分類器集成進(jìn)行知識(shí)遷移。Schweikert等人[17]提出用于基因組序列分析的域自適應(yīng)方法,尋求各源域分類器和目標(biāo)域分類器間的凸組合;Sun等人[18]則提出多源域自適應(yīng)的動(dòng)態(tài)貝葉斯學(xué)習(xí)框架,利用無(wú)標(biāo)簽?zāi)繕?biāo)域數(shù)據(jù)上的拉普拉斯矩陣獲得各源域的先驗(yàn),并利用k近鄰距離計(jì)算似然。

      此外,隨著深度神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)的發(fā)展,遷移學(xué)習(xí)又可分為傳統(tǒng)遷移學(xué)習(xí)和深度遷移學(xué)習(xí)。Zhao等人[19]通過(guò)構(gòu)建一個(gè)新的泛化邊界,利用對(duì)抗神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)多個(gè)源域的知識(shí)遷移。Hoffman等人[20]將多個(gè)源域的交叉熵?fù)p失和其他損失分布加權(quán)組合。Zhang等人[21]從因果關(guān)系的角度研究多源域自適應(yīng)問題,通過(guò)考慮因果模型的不同模塊隨著多個(gè)域變化狀況,挖掘出合適的遷移知識(shí)。

      現(xiàn)有多源域自適應(yīng)學(xué)習(xí)方法通常僅關(guān)注各源域和目標(biāo)域間的知識(shí)遷移,并不考慮各源域間的知識(shí)共享和共性信息。即各源域的知識(shí)遷移是相互獨(dú)立的,源域間的相關(guān)性并沒有被考慮和利用。因此,該文嘗試?yán)酶髟从蜷g的相關(guān)性指導(dǎo)遷移學(xué)習(xí)。而字典學(xué)習(xí)可以挖掘數(shù)據(jù)的本質(zhì)特征,因此在多源域自適應(yīng)學(xué)習(xí)中利用字典學(xué)習(xí),挖掘各源域的共性信息,提出基于參數(shù)字典的多源域自適應(yīng)學(xué)習(xí)方法(multi-source domain adaption based on dictionary learning,DL_MSDA)。DL_MSDA通過(guò)學(xué)習(xí)多個(gè)源域模型參數(shù)的共享字典,挖掘各源域間的內(nèi)在關(guān)系,并將其遷移至目標(biāo)域模型參數(shù)的學(xué)習(xí)中,提升目標(biāo)域?qū)W習(xí)模型的準(zhǔn)確性與可靠性。

      1 相關(guān)工作

      1.1 域自適應(yīng)機(jī)

      Duan等人[11]提出域自適應(yīng)機(jī)DAM,通過(guò)最大均值差異(maximum mean discrepancy,MMD)衡量每個(gè)源域與目標(biāo)域間邊緣分布差異,并對(duì)各源域進(jìn)行加權(quán),約束目標(biāo)域的擬分類輸出與各源域?qū)δ繕?biāo)域分類輸出相近,如圖1所示。

      圖1 DAM算法原理

      在獲得各源域與目標(biāo)域間的相似性權(quán)值后,其目標(biāo)函數(shù)刻畫如下:

      (1)

      1.2 字典學(xué)習(xí)

      (2)

      2 算法框架

      2.1 問題定義

      2.2 算法模型

      2.2.1 基于目標(biāo)域數(shù)據(jù)的學(xué)習(xí)

      基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化理論和流形正則化約束,僅利用目標(biāo)域數(shù)據(jù)的學(xué)習(xí)模型構(gòu)建如下:

      minΩ(fT)+μVL(fT)+γMf(PT)

      (3)

      其中,Ω(fT)為用戶控制目標(biāo)域分類器復(fù)雜度,VL(fT)為目標(biāo)域有標(biāo)簽樣本的分類損失。第三項(xiàng)是流行正則化項(xiàng),用于刻畫數(shù)據(jù)分布的流形結(jié)構(gòu):

      (4)

      W是樣本相似性矩陣,其中元素為:

      (5)

      對(duì)于目標(biāo)域數(shù)據(jù)的學(xué)習(xí),其原理與半監(jiān)督學(xué)習(xí)一致,在確保有標(biāo)簽的樣本分類正確的同時(shí),保持無(wú)標(biāo)簽樣本數(shù)據(jù)的流行結(jié)構(gòu)。

      2.2.2 基于參數(shù)字典學(xué)習(xí)的知識(shí)遷移

      首先,對(duì)于每個(gè)源域?qū)W習(xí)一個(gè)分類器參數(shù)Ws∈Rd×c。為了更好地挖掘源域間的共享信息,對(duì)k個(gè)源參數(shù)學(xué)習(xí)共享字典D,并將其遷移至目標(biāo)域分類參數(shù)的學(xué)習(xí)中,指導(dǎo)目標(biāo)域分類,算法框架如下:

      (6)

      聯(lián)合式(3)和式(6),并基于平方損失函數(shù),提出基于參數(shù)字典的多源域自適應(yīng)學(xué)習(xí)框架:

      (7)

      同時(shí),采用非線性隨機(jī)傅里葉特征[22]對(duì)樣本進(jìn)行非線性映射,近似逼近非線性高斯核函數(shù)。對(duì)給定數(shù)據(jù)X,利用Bochner定理生成h維隨機(jī)特征:

      (8)

      2.3 算法優(yōu)化

      采用ADMM(alternating direction method of multipliers)[23]對(duì)式(7)中目標(biāo)函數(shù)進(jìn)行求解,即交替迭代方式優(yōu)化每個(gè)參數(shù)。

      (10)

      (11)

      (12)

      (13)

      基于FISTA (fast iterative shrinkage thresholding algorithm)[24],該問題為近端(proximal)正則化問題,可由下式迭代求解:

      (14)

      其中:

      (15)

      (16)

      其中,Sλγ(·)是軟閾值算子,且Sλγ(·)=sgn(x)·(|x|-λ)。

      算法流程如圖2所示。

      圖2 DL_MSDA算法流程

      3 實(shí)驗(yàn)結(jié)果與分析

      3.1 數(shù)據(jù)集和實(shí)驗(yàn)設(shè)置

      該文選擇了3組經(jīng)典多源數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),其中各個(gè)源域之間都滿足不同分布。

      3.1.1 Office+Caltech數(shù)據(jù)集

      Office數(shù)據(jù)集包含三組數(shù)據(jù)集:Amazon (Amazon購(gòu)物網(wǎng)站的商品圖像),Webcam(網(wǎng)絡(luò)相機(jī)拍攝的低分辨率圖像)和DSLR(數(shù)碼單反相機(jī)拍攝的高分辨率圖像)。Caltech也是常用的目標(biāo)識(shí)別數(shù)據(jù)集。每個(gè)數(shù)據(jù)集包含下列10類物體的圖像數(shù)據(jù):雙肩包、旅行自行車、計(jì)算器、耳機(jī)、電腦鍵盤、筆記本電腦、電腦顯示器、電腦鼠標(biāo)、咖啡杯和投影儀,且每類樣本數(shù)都不盡相同,數(shù)目在8到151之間,樣本總數(shù)為2 533。圖3顯示了各數(shù)據(jù)集中電腦顯示器的圖像。實(shí)驗(yàn)中提取出了每個(gè)域圖像的4 096維的DeCAF6特征,并將所有特征進(jìn)行了標(biāo)準(zhǔn)化處理。

      圖3 目標(biāo)識(shí)別數(shù)據(jù)中的電腦顯示器在不同數(shù)據(jù)集中的圖像

      3.1.2 PIE數(shù)據(jù)集

      PIE數(shù)據(jù)集包含68種共計(jì)11 554幅面部圖像,其中每幅圖像由32×32個(gè)像素構(gòu)成。采用了五個(gè)不同照明和姿勢(shì)條件下拍攝的面部圖像數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),使用SURF特征提取方法,并對(duì)特征進(jìn)行標(biāo)準(zhǔn)化處理。圖4展示了PIE數(shù)據(jù)集中姿勢(shì)的變化,分別是PIE05(左側(cè))、PIE07(向上的姿勢(shì))、PIE09(向下的姿勢(shì))、PIE27(前擺姿勢(shì))。

      圖4 不同姿勢(shì)下拍攝的面部圖像

      3.1.3 YalB數(shù)據(jù)集

      該數(shù)據(jù)集由不同光照條件下38人的2 414張面部圖像組成,每幅圖像分辨率是32×32。圖像的處理和文獻(xiàn)[23]中一樣,將數(shù)據(jù)集劃分為了五個(gè)子集(Y1-Y5,從第一行開始依次為Y1,Y2,Y3,Y4,Y5,見圖5)。子集1由正常光照條件下的266張圖像組成(每人7張圖像);子集2和3由受試者的12張圖像組成,表征輕微到中等的亮度變化;子集4(每人14張圖像)和子集5(每人19張圖像)體現(xiàn)了嚴(yán)重的光照變化。

      圖5 不同光照條件下的人臉樣本

      3.2 對(duì)比方法及參數(shù)設(shè)置

      實(shí)驗(yàn)中,源域樣本皆為有標(biāo)簽樣本,目標(biāo)域包含部分有標(biāo)簽樣本。將DL_MSDA與多源域自適應(yīng)學(xué)習(xí)算法DAM進(jìn)行了對(duì)比,其中DAM采用文獻(xiàn)[11]中的參數(shù)設(shè)置。此外,還采用SVMS和SVMT作為基礎(chǔ)對(duì)比方法,SVMS僅利用源域樣本學(xué)習(xí)并對(duì)目標(biāo)域分類,SVMT僅利用目標(biāo)域樣本進(jìn)行學(xué)習(xí)。對(duì)每個(gè)數(shù)據(jù)集組合,實(shí)驗(yàn)重復(fù)運(yùn)行了20次并取平均分類精度。

      DL_MSDA中源域參數(shù)模型可通過(guò)任意分類方法得到,如SVM、C4.5等。實(shí)驗(yàn)中,采用線性SVM結(jié)合傅里葉特征變換得到源域分類參數(shù)。對(duì)每個(gè)數(shù)據(jù)集,分別從目標(biāo)域的每個(gè)類中隨機(jī)選取1個(gè)樣本作有標(biāo)簽樣本,用于訓(xùn)練,其他樣本歸為無(wú)標(biāo)簽樣本,用于測(cè)試。實(shí)驗(yàn)中涉及5個(gè)參數(shù)取值為:α=1,β=5,λ=0.1,γ=30,μ=0.1。最大迭代次數(shù)設(shè)為100。

      3.3 實(shí)驗(yàn)結(jié)果

      表1給出了DL_MSDA與其他算法在不同源域-目標(biāo)域組合下的分類準(zhǔn)確率,其中每個(gè)數(shù)據(jù)集下最高準(zhǔn)確值加粗表示。表2和表3分別是PIE數(shù)據(jù)集和Yale B數(shù)據(jù)集上的分類性能。

      表1 Office+Caltech數(shù)據(jù)集上實(shí)驗(yàn)平均準(zhǔn)確率 %

      表2 PIE數(shù)據(jù)集上實(shí)驗(yàn)平均準(zhǔn)確率 %

      表3 Yale B數(shù)據(jù)集上實(shí)驗(yàn)平均準(zhǔn)確率 %

      3.4 參數(shù)分析

      本節(jié)對(duì)正則化參數(shù)α和β進(jìn)行實(shí)驗(yàn)分析,研究其對(duì)DL_MSDA性能的影響,從而分析源域相關(guān)知識(shí)對(duì)目標(biāo)域分類性能的影響。α,β的取值范圍為[0.000 1,0.001,0.01,0.1,1,5,10],λ的取值同α,其余參數(shù)值固定。圖6給出了Office+Caltech數(shù)據(jù)集上4種不同組合下DL_MSDA的性能圖。

      圖6 Office數(shù)據(jù)集中不同源域下的參數(shù)分析

      由圖6可看出,當(dāng)α和β取值趨近于0,僅利用目標(biāo)域數(shù)據(jù)進(jìn)行學(xué)習(xí);隨著α和β取值不斷增大,模型的分類準(zhǔn)確率有了明顯的提升,這表明DL_MSDA可以有效地從多個(gè)源域中學(xué)習(xí)到共享知識(shí)并幫助目標(biāo)域?qū)W習(xí)。但是當(dāng)α,β取值過(guò)大時(shí),模型由源域知識(shí)主導(dǎo),忽略了目標(biāo)域自身信息,因此分類準(zhǔn)確率也隨之降低。因此,用多個(gè)源域間的共享信息輔助目標(biāo)域數(shù)據(jù)學(xué)習(xí),可有效提升目標(biāo)域的學(xué)習(xí)性能。

      4 結(jié)束語(yǔ)

      提出的基于參數(shù)字典學(xué)習(xí)的多源域自適應(yīng)(DL_MSDA)學(xué)習(xí)框架,能夠有效利用多源域間的共享信息,解決目標(biāo)域僅有少量有標(biāo)簽樣本的多源域自適應(yīng)學(xué)習(xí)任務(wù)。字典學(xué)習(xí)較其他多源域自適應(yīng)學(xué)習(xí)框架可以更多地探索各個(gè)源域之間的共享信息,并把這些重要信息傳遞到目標(biāo)域分類模型的學(xué)習(xí)過(guò)程中。實(shí)驗(yàn)表明,DL_MSDA可有效提升目標(biāo)域分類模型的分類精度。DL_MSDA算法僅通過(guò)多個(gè)源域模型參數(shù)的共享字典進(jìn)行遷移,挖掘源域參數(shù)間的共享知識(shí),而后續(xù)工作將考慮從數(shù)據(jù)空間出發(fā),進(jìn)一步拆分字典為多源域共享字典和每個(gè)源域特有字典,在挖掘源域間的共享知識(shí)進(jìn)行遷移的同時(shí)減少負(fù)遷移,提升目標(biāo)域的學(xué)習(xí)性能。

      猜你喜歡
      源域字典分類
      多源域適應(yīng)方法綜述
      開心字典
      家教世界(2023年28期)2023-11-14 10:13:50
      開心字典
      家教世界(2023年25期)2023-10-09 02:11:56
      分類算一算
      分類討論求坐標(biāo)
      數(shù)據(jù)分析中的分類討論
      教你一招:數(shù)的分類
      我是小字典
      正版字典
      讀者(2016年14期)2016-06-29 17:25:50
      可遷移測(cè)度準(zhǔn)則下的協(xié)變量偏移修正多源集成方法
      安溪县| 永昌县| 四平市| 兰西县| 聊城市| 全椒县| 林芝县| 外汇| 高尔夫| 朝阳市| 西乌珠穆沁旗| 苍山县| 内乡县| 新乡市| 邵东县| 临武县| 合江县| 丹寨县| 桐梓县| 遂溪县| 湖北省| 南靖县| 舟曲县| 宁都县| 五寨县| 外汇| 柘荣县| 乌拉特后旗| 山东| 富顺县| 勃利县| 和平区| 苍梧县| 英德市| 多伦县| 大邑县| 景洪市| 公安县| 信宜市| 柞水县| 松原市|