廣東工業(yè)大學(xué)自動(dòng)化學(xué)院 林志全
多示例學(xué)習(xí)已應(yīng)用于許多場景,如圖像分類、惡意軟件分類、文檔分類、對(duì)象檢測等。在多示例學(xué)習(xí)中,訓(xùn)練數(shù)據(jù)集中的每個(gè)數(shù)據(jù)都是一個(gè)包,包由多個(gè)示例組成。包有類別標(biāo)簽,實(shí)例沒有類別標(biāo)簽。而學(xué)習(xí)的最終目標(biāo)是給出新包的類別預(yù)測。我們以圖像分類為例,每個(gè)圖像都被視為一個(gè)包,圖像被分成多個(gè)部分,每個(gè)部分可以看作是其中一個(gè)示例,對(duì)應(yīng)多個(gè)示例在袋子里。如果圖像是我們需要的圖像,那么這個(gè)包就是一個(gè)正包,具有此圖像特征的示例就是一個(gè)正示例。
傳統(tǒng)的分類學(xué)習(xí)方法,往往都是單個(gè)任務(wù)進(jìn)行。而在現(xiàn)實(shí)生活中,分類任務(wù)往往是多個(gè)相似任務(wù)一起進(jìn)行,對(duì)此研究人員提出來多任務(wù)學(xué)習(xí)(MTL)。通過共享相關(guān)任務(wù)之間的共同因素,可以使模型更好地對(duì)原始任務(wù)進(jìn)行總結(jié)從而提高任務(wù)的泛化能力,從而提升分類器的判別度。例如,S.Pan等人提出了FELMUG框架,分析了任務(wù)間特征的敏感性,并將圖數(shù)據(jù)分為子圖挖掘中的3個(gè)特征:公共特征、輔助特征和唯一特征,在圖數(shù)據(jù)分類上取得了很好的效果。
在多示例學(xué)習(xí)中,訓(xùn)練集由一組分類標(biāo)簽的包組成,如果包中至少含有一個(gè)正示例,則該包被標(biāo)記為正包。如果多示例包的所有示例都是負(fù)示例,則該包被標(biāo)記為負(fù)包。
(1)對(duì)于多示例學(xué)習(xí)中,我們用代表一組訓(xùn)練集,是包的集合,代表有N個(gè)包,其中BN代表第N個(gè)包,YN是包的標(biāo)簽,。包BN是示例的集合,其中bN是代表第N個(gè)示例,yN是示例的標(biāo)簽。
(2)對(duì)于多任務(wù)學(xué)習(xí),我們用T=1,2,…t代表t個(gè)任務(wù)。對(duì)于第t個(gè)任務(wù),來代表任務(wù)t的包的集合。
(3)我們利用基于單個(gè)示例的相似性,挑選每個(gè)包中,最有可能為正的示例。假設(shè)給定示例x和一個(gè)子集S,可以用公式來計(jì)算,x和子集S的相似度。
我們首先將多任務(wù)學(xué)習(xí)應(yīng)用到SVM中,假定第t個(gè)任務(wù)的方程為,在這種分類下,它的結(jié)果yit的結(jié)果是代表輸入xi的分類結(jié)果是正的還是負(fù)的。接著我們把多個(gè)任務(wù)結(jié)合起來形成一個(gè)新的目標(biāo)方程。考慮到任務(wù)是相互關(guān)聯(lián)的,我們使用通用功能、輔助功能和專有功能,表示wt的特征。
得到最終的目標(biāo)方程后,為了改善決策邊界和提高分類器的學(xué)習(xí)性能,我們采用了一種啟發(fā)式策略,一種基于交替優(yōu)化的方法來更新正候選。
第一步,選擇初始正例候選作為初始正候選,根據(jù)初步的正選正示例,去解決目標(biāo)方程,并得到原始拉格朗日乘子。
第二步,固定得到拉格朗日乘子α,正候選值更新如下:
第三步,重復(fù)以上2個(gè)步驟,直到滿足下面條件:
其中,F(xiàn)是目標(biāo)方程的求解,表示第k次迭代的目標(biāo)方程的解。而是自己設(shè)閾值,在實(shí)驗(yàn)中我們給予的值是0.01。
為了檢驗(yàn)本文提供的方案,我們利用5個(gè)多示例的數(shù)據(jù)集,Musk、Fox、tiger、Elephant去檢測本文方案的精確度,并用MI-SVM,EM-DD,F(xiàn)MT-MIL,MTML-MIL進(jìn)行比較實(shí)驗(yàn)。
表1 分類準(zhǔn)確度對(duì)比
實(shí)驗(yàn)結(jié)果由表1所示,結(jié)果表明:
(1)對(duì)比MI-SVM,EM-DD兩個(gè)多示例學(xué)習(xí),F(xiàn)MT-MIL,MTML-MIL以及我們提出的方法,有更好的分類結(jié)果。說明相對(duì)于多示例分類,多任務(wù)學(xué)習(xí)應(yīng)用于多示例學(xué)習(xí)時(shí),能得到更好的分類效果。
(2)我們的方法,相對(duì)于FMT-MIL和MTML-MIL,得到更好的分類效果,分類精度有顯著的提升,比其他模型能得到更好的性能。
結(jié)論:在本文中,我們在研究多示例學(xué)習(xí)中,充分考慮到多個(gè)相似任務(wù)之間的關(guān)系,提出了基于多示例的多任務(wù)學(xué)習(xí)方法。在多示例學(xué)習(xí)中,引入樹模型,和SVM分類器,將相似任務(wù)聯(lián)系起來,重構(gòu)目標(biāo)方程。由實(shí)驗(yàn)結(jié)果表明,我們提出的方法能夠獲得更好的分類結(jié)果,是有效可行的。