侯勇
摘 要 多實(shí)例學(xué)習(xí)作為一種典型的弱監(jiān)督學(xué)習(xí)方法,在計(jì)算機(jī)視覺(jué)、生物識(shí)別、自然語(yǔ)言處理等許多應(yīng)用中是有效的。本文提出了一種深度多實(shí)例學(xué)習(xí)算法,將神經(jīng)網(wǎng)絡(luò)與多實(shí)例算法集成。最后將所提出算法應(yīng)用于學(xué)生學(xué)習(xí)結(jié)果預(yù)測(cè),取得了良好的效果。
關(guān)鍵詞 多實(shí)例學(xué)習(xí);學(xué)習(xí)結(jié)果;預(yù)測(cè);MIL 池
1深度多實(shí)例學(xué)習(xí)算法
在諸多機(jī)器學(xué)習(xí)問(wèn)題中,如圖像分類,并假設(shè)圖像被清楚地表示類別(類)。但在許多實(shí)際應(yīng)用中,會(huì)有多個(gè)實(shí)例,并且僅給出該類別的一般說(shuō)明,這就是多實(shí)例學(xué)習(xí)(MIL)或基于弱注釋數(shù)據(jù)的監(jiān)督學(xué)習(xí)。計(jì)算病理學(xué)、乳房X光檢查或CT肺篩查等醫(yī)學(xué)成像中,通常單個(gè)標(biāo)簽(良性/惡性)或感興趣的區(qū)域(ROI)描述圖像,因此使用弱注釋圖像數(shù)據(jù)極為普遍。
MIL算法訓(xùn)練包實(shí)例,生成能夠預(yù)測(cè)包類別標(biāo)簽的模型,實(shí)現(xiàn)包標(biāo)簽的預(yù)測(cè)。在醫(yī)療診斷中,廣泛應(yīng)用MIL算法,通過(guò)發(fā)現(xiàn)關(guān)鍵實(shí)例,決定包標(biāo)簽。在醫(yī)學(xué)領(lǐng)域中,人們提出了各種不同的方法,實(shí)現(xiàn)包分類,如包相似性分類法,嵌入層低維表示分類法,集成實(shí)例級(jí)分類器響應(yīng)法等[1]。
本文中,我們提出了一種深度多實(shí)例學(xué)習(xí)算法-DMIL。DMIL分為Fc1-512 + ReLU,F(xiàn)c2-256 + ReLU,F(xiàn)c3-128 + ReLU,F(xiàn)c4-64 + ReLU,dropout (rate=0.38)(fc3),MIL-max pooling ,fc5-1 + sigm,一共6層,如表1所示。將該算法應(yīng)用于學(xué)生學(xué)習(xí)結(jié)果的預(yù)測(cè),取得了良好的效果。
所提出的DMIL 可表述為:
(1)
其中,在包Xi中,多個(gè)實(shí)例通過(guò)DMIL傳遞。DMIL由L層組成,每個(gè)圖層都由非線性變換組成,其中索引圖層??梢允莾?nèi)積(或完全連接)或修正的線性單位 (ReLU) [22]等操作的復(fù)合體。我們將實(shí)例的第層的輸出表示為。在第(L-2)層中的實(shí)例特征,表示為,實(shí)例概率是[0;1]范圍內(nèi)的標(biāo)量,表示為。在最后一層中,有一個(gè)MIL池層,該層將實(shí)例概率作為輸入和輸出包概率,表示為。
2學(xué)生學(xué)習(xí)結(jié)果預(yù)測(cè)
預(yù)學(xué)生學(xué)習(xí)結(jié)果在任何高等教育計(jì)劃中都起著至關(guān)重要的作用。學(xué)生學(xué)習(xí)結(jié)果可以使用可測(cè)量和不可測(cè)量的屬性進(jìn)行預(yù)測(cè)。所用的數(shù)據(jù)集如下表2所示。
表2描述了本工作中使用的數(shù)據(jù)。其中No_as_t:學(xué)生書寫作業(yè)數(shù)量;No_st_a:布置作業(yè)的學(xué)生數(shù);No_as:學(xué)生作業(yè)數(shù);No_qz:測(cè)驗(yàn)數(shù)量;No_qzt:解決測(cè)驗(yàn)所需的時(shí)間;Lab:實(shí)驗(yàn)次數(shù);No_t1:參加考試1的學(xué)生人數(shù);No_t2:參加考試2的學(xué)生人數(shù);score1:學(xué)生在考試1中得分;score2:學(xué)生在考試2中得分;TS_t:考試1和考試2的總分?jǐn)?shù);TS_a:作業(yè)總得分;TS_q:測(cè)驗(yàn)總得分;TS_lab:實(shí)驗(yàn)總得分;TotalE:除去實(shí)驗(yàn)總得數(shù);TotalA:上述分?jǐn)?shù)總和;結(jié)果:通過(guò)/未通過(guò)。
學(xué)生學(xué)號(hào)就是包的id號(hào),其他屬性被視為實(shí)例,結(jié)果屬性是目標(biāo)值。在預(yù)處理階段將刪除所有缺失的值,以便數(shù)據(jù)集已準(zhǔn)備好實(shí)現(xiàn)。各種MIL算法比較結(jié)果如表2所示。
3結(jié)束語(yǔ)
在本文中,提出了一種深度多實(shí)例學(xué)習(xí)算法-,該算法重點(diǎn)是對(duì)實(shí)例級(jí)標(biāo)簽的估計(jì) 。將所提出的算法應(yīng)用于學(xué)生學(xué)習(xí)結(jié)果的預(yù)測(cè)過(guò)程中,取得了卓越的效果。今后,將開發(fā)更有效的 MIL 池,并研究如何在數(shù)據(jù)有限的 MIL 中,訓(xùn)練更深入、更廣泛的深度多實(shí)例學(xué)習(xí)算法。
參考文獻(xiàn)
[1] Xiao Y,Liu B,Hao Z. A Sphere-Description-Based Approach for Multiple-Instance Learning[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2017,39(2):242-257.