袁夢奇 鮑秉坤
摘要 隨著圖像大數(shù)據(jù)的爆發(fā),特別是用戶貢獻數(shù)據(jù)的飛速增長,圖像樣本的語義內(nèi)容越來越豐富,標簽信息也隨之越來越復雜.因此圖像多標簽學習的研究是近年來學術(shù)圈和產(chǎn)業(yè)界的研究熱點之一,涌現(xiàn)了大量表現(xiàn)優(yōu)異的方法和技術(shù).基于此,本文將對近年來圖像多標簽學習上的研究成果進行總結(jié).首先,對多標簽學習進行簡單介紹,并詳述其主流方法的分類;隨后,針對目前大數(shù)據(jù)時代的數(shù)據(jù)特性,總結(jié)了多標簽學習面臨的新的技術(shù)難點及其對應的解決方案;最后,在應用層面上介紹了多標簽學習在醫(yī)學、計算機科學等領域的應用實例.
關(guān)鍵詞 多標簽學習;圖像標注;深度學習;大數(shù)據(jù)
中圖分類號TP391.41;TP183
文獻標志碼A
0 引言
多標簽學習最早起源于機器學習中的單標簽學習.圖像單標簽問題是指通過給定的一組樣本特征,來預測該樣本所屬的類別.比如給定一張動物圖片,來預測該動物是否是一條狗.然而,隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)存儲與處理能力得到了飛速的發(fā)展,人們對數(shù)據(jù)分析的要求也開始不斷提高.單標簽模型很難再刻畫大數(shù)據(jù)時代復雜的現(xiàn)實問題,因此多標簽問題誕生了.相比于單標簽學習,多標簽學習是通過一組樣本特征,來預測一張圖像對應多個輸出標簽是否準確.
近年來,涌現(xiàn)了大量表現(xiàn)優(yōu)異的圖像多標簽學習方法和技術(shù).本文將對這些研究成果進行歸納和總結(jié),為圖像多標簽學習的進一步研究提供參考.首先,本文基于對輸入樣本處理方法的不同,將圖像多標簽學習分為單例多標簽學習(Single-Instance Multi-Label Learning,SIML)和多例多標簽學習(Multi-Instance Multi-Label Learning,MIML).單例多標簽學習指將一整幅圖像看成一個實例,并直接依據(jù)圖像的整體可視特征(即單一實例的特征),學習其對應的標簽.而多例多標簽學習是通過將一幅圖像根據(jù)語義分割為多個區(qū)域塊(實例),對每個實例進行標簽學習.隨后,本文針對互聯(lián)網(wǎng)時代圖像數(shù)據(jù)含有大噪聲、數(shù)據(jù)體量大、關(guān)聯(lián)復雜這三大挑戰(zhàn),總結(jié)圖像多標簽學習面臨的技術(shù)難點,并介紹對應的解決方案.對于含大噪聲的圖像,如果直接訓練,訓練結(jié)果將會受到噪聲影響,需要首先進行降噪、復原等處理;對于海量數(shù)據(jù)的問題,將介紹哈希預處理或標簽嵌入等方法在降低算法的復雜度上的優(yōu)勢;對于圖像間關(guān)聯(lián)復雜方面的挑戰(zhàn),用雙標簽集或條件貝葉斯框架等方法刻畫各圖像間的關(guān)聯(lián),以提高圖像的標注性能.最后,介紹多標簽學習在多個領域上的應用.在醫(yī)學中,通過對患者CT圖像的多標簽學習,完成復雜的疾病監(jiān)測工作;在無人駕駛中,通過對路況圖像信息的多標簽學習,有效地幫助汽車處理復雜地形下的自動行駛工作.
本文的結(jié)構(gòu)如下:第1章闡述多標簽學習的基本概念及其分類;第2章,將針對多標簽學習算法在互聯(lián)網(wǎng)時代遇到的標簽噪聲大、數(shù)據(jù)體量大和標簽關(guān)聯(lián)復雜等挑戰(zhàn),整理和總結(jié)近年來的研究成果和進展;第3章,講述多標簽學習在醫(yī)學、計算機科學等領域的實際應用,并對多標簽學習未來的發(fā)展提出展望.
1 多標簽學習概述
本章首先介紹圖像多標簽學習的基本概念;隨后介紹兩類經(jīng)典的多標簽學習方法:單實例多標簽和多實例多標簽,并總結(jié)近年來各種分類下多標簽學習的研究成果.
1.1 基本概念
圖像多標簽學習又名圖像標注,是依據(jù)已知圖像內(nèi)容預測未知標簽對象的過程.如圖1,對于一張草原照片,可以把標簽設為樹、大象、獅子、草地等物體[1],通過輸入的圖片特征尋找預設的標簽是否存在,并進行標注.此外,圖像多標簽問題還具有三大特點.首先,大部分標簽都只與其對應的語義區(qū)域有關(guān),這稱為標簽局部性,如圖1中的獅子,只在圖像部分區(qū)域出現(xiàn);隨后,每個標簽間都可能存在某種聯(lián)系,這稱為標簽間的相似性,比如在海邊圖像上,沙灘和大海往往會同時存在;最后,每個標簽在不同圖像上的對應區(qū)域也可以不同,這稱為標簽內(nèi)的多樣性,比如天空在天氣晴朗、多云、下雨時的表現(xiàn)完全不同.
1.2 多標簽學習問題的分類
基于對輸入樣本處理方法的不同,本文將圖像的多標簽學習方法分為兩類:單例多標簽和多例多標簽.如圖2,單例多標簽學習指將一整幅圖像看成一個實例,并直接依據(jù)圖像中的可視特征對標簽進行標注的過程[1],如圖1中對大象、獅子、草地的標注.但現(xiàn)實中,圖片到標簽經(jīng)常存在一種輸入的模糊性,無法根據(jù)圖像中的可視特征直接標注標簽,因此多例多標簽學習出現(xiàn)了.多例多標簽學習指在一幅圖像中提取多個部分,每個部分稱作一個實例,并通過這些實例間的語義聯(lián)系對圖像進行多標簽學習的過程,如圖1中,如果需要標注的標簽是非洲,可以先將圖像分成樹、大象、獅子等實例,再通過學習這些實例完成圖像的標注.
圖像多標簽處理方法大致的演變?nèi)鐖D3所示.對于多標簽問題的處理,最簡單直觀的方法是2007年Tsoumakas等[2]提出的將多標簽分解為多個單標簽問題.但是,這種獨立對待每個標簽的方法忽略了標簽間的相關(guān)性,導致訓練效果欠佳.于是在2011年Read等[3]提出一種基于分類器鏈的方法,其通過概率的條件積來捕獲標簽的依賴性.然而,此方法在處理大量標簽時不僅會產(chǎn)生高計算成本,而且其捕獲標簽間相關(guān)性的能力也很有限.隨著機器學習等相關(guān)技術(shù)的快速發(fā)展,2013年Nam等[4]開始使用神經(jīng)網(wǎng)絡解決多標簽學習,它通過網(wǎng)絡內(nèi)部復雜的神經(jīng)結(jié)構(gòu)、權(quán)重損失函數(shù)來優(yōu)化訓練.隨著近幾年神經(jīng)網(wǎng)絡技術(shù)的更進,深度神經(jīng)網(wǎng)絡(Deep Neural Network,DNN)、循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Net-work,RNN)等更為復雜的神經(jīng)網(wǎng)絡開始被用于多標簽訓練.如基于視覺注意的RNN深度學習框架[5]、以人類行為為基礎的多層次深度卷積神經(jīng)網(wǎng)絡[6]、區(qū)域潛在語義依賴網(wǎng)絡模型[7]等方法.
1.2.1 單例多標簽處理方法
單例多標簽不需要對圖像的輸入特征分塊處理,所以其模型更簡單.而且在圖像標注中,很多直觀的多標簽問題都可由單例多標簽處理,比如圖1中直接標注圖像中的獅子.
對于單例多標簽學習,Li等[8]最先提出一種學習深度二進制編碼(DeepBe)的框架,通過將多標簽轉(zhuǎn)換為單個標簽來處理多標簽問題,并且通過集成策略,成功地提高了學習的穩(wěn)健性.但這種轉(zhuǎn)化過程,對小目標的多標簽圖像會很難處理.因此,Zhang等[7]利用了完全卷積定位架構(gòu),來定位可能包含多個高度依賴標簽的區(qū)域.此方法通過標簽相關(guān)性的使用,讓小區(qū)域的預測變得容易.但是這類方法并不能很好地處理標簽間的依賴關(guān)系,為此Markatopoulou等[6]提出了將多任務學習和多標簽學習相結(jié)合的處理思路.他們建立一種雙層次的深度卷積神經(jīng)網(wǎng)絡框架.在第一個層次上,以多任務學習為基礎,提出了一種基于稀疏線性組合來學習每個標簽的獨有特征;在第二個層次上,以結(jié)構(gòu)化輸出學習的思想為基礎,考慮標簽之間的相關(guān)性,其中每個層次都通過標準的卷積層實現(xiàn),并通過每個詞語之間的內(nèi)在聯(lián)系提高訓練效果.對于建模標簽的相關(guān)性,Chen等[5]還提出了一種基于遞歸神經(jīng)網(wǎng)絡的圖像多標簽分類模型,通過一個置信度排序的LSTM(Long Short Term Memory)模型對標簽的依賴性建模.
除了考慮標簽間相關(guān)性,He等[9]提出一種模仿人類行為的強化圖像多標簽學習方法.該方法允許增強學習代理通過充分利用圖像特征和先前的預測結(jié)果來按次序預測標簽,并在圖像從簡單到復雜的過程中進行標簽化.Li等[10]則提出了另一種基于成對排序的多標簽圖像分類法.其一方面使用了一種新的成對排序損失函數(shù),該函數(shù)處處光滑,因而更易于優(yōu)化;另一方面在模型中加入了一個標簽決策模塊,用于估計每個視覺對象的最佳置信閾值.此方法在基礎的成隊排序法上加以優(yōu)化,也可以達到不錯的圖像訓練效果.此外,在圖像多標簽學習中降低圖的成本也是一個很重要的工作,目前主要的方法是基于最大裕度法來學習邊緣權(quán)值.但不幸的是這些方法通常對損耗函數(shù)(如hamming損耗)提供的約束特別寬松.因此Behpour等[11]提出了一種基于最小代價圖割集的對抗性魯棒割集的方法,它將學習任務看作是預測者和標簽逼近者之間取極大極小值的博弈.
1.2.2 多例多標簽處理方法
在實際圖像標注問題中,只依據(jù)圖像的整體可視特征,很難得到準確的語義標簽.如圖1中的非洲標簽,直接看圖難以標注,需要先提取圖片中大象、獅子等實例,再通過分析這些實例間的語義關(guān)系才能分辨此圖像是否標注為非洲.這種先將圖像看作多個實例,隨后通過處理實例間的語義聯(lián)系對圖像進行標注的方法稱為多例多標簽學習.
針對多例多標簽的處理方法,最先Yang等[12]提出通過結(jié)合局部信息的方法來提高圖像辨別的能力.此方法首先從每個圖像中提取對象建議然后將每一幅圖像作為一個包,并將包中提取出的對象建議作為實例,從而把多標簽識別問題轉(zhuǎn)化為多類多實例學習問題.但這類方法難以處理多實例與多標簽間的聯(lián)系,因此Ding等[13]提出了一種同時考慮實例上下文和標簽上下文的圖像標注上下文感知MIML算法.作者首先引入多個圖來描述包中實例之間的復雜關(guān)系,并將這些圖進行融合,然后利用潛在的概念來包含類標簽之間的相互影響.此方法通過利用標簽間和實例間的相關(guān)性,來達到提升圖像分類性能的目的.
然而上述方法無法很好地利用圖像的額外信息,在圖像多標簽標注的訓練中,經(jīng)常可以獲得諸如邊界框、圖像標題和描述等附加信息,這些信息被稱為特權(quán)信息.于是Yang等[14]著眼于MIML學習中這些特權(quán)包的使用,提出一種雙流全卷積網(wǎng)絡,利用了現(xiàn)有的特權(quán)包,而不是難以獲得的特權(quán)實例,使該系統(tǒng)在實際應用中更具通用性和實用性.而對于圖片額外信息有缺失時,Zhu等[15]則提出一種利用有效的增廣拉格朗日優(yōu)化算法,用來發(fā)現(xiàn)多個新標簽.該算法具有一個與包相關(guān)的損失項和一個與包無關(guān)的聚類正則化項,這使得已知標簽和多個新標簽可以同時建模,從而達到了在有隱藏的測試數(shù)據(jù)中預測標簽的效果.
此外,Wang等[16]提出了另一種多例多標簽圖像的標注方法:通過開發(fā)一個重復記憶注意模塊來實現(xiàn)可解釋上下文的圖像多標簽學習.該模塊由兩個交替執(zhí)行的部分組成:第1部分是一個空間轉(zhuǎn)換層,用于從卷積特征圖中自由地定位需要注意區(qū)域;第2部分是一個LSTM子網(wǎng)絡,該子網(wǎng)絡用于連續(xù)地預測所定位區(qū)域的語義標記,并同時捕獲這些區(qū)域的全局相關(guān)性.此方法通過學習上下文和可解釋的區(qū)域的標簽相關(guān)性,讓多標簽分類的可辨別性得以提高.
2 多標簽學習面臨的新挑戰(zhàn)
在大數(shù)據(jù)時代,我們在享受大數(shù)據(jù)處理帶來的方便快捷的同時,也必須得面對大數(shù)據(jù)圖像處理的挑戰(zhàn).大數(shù)據(jù)下的圖像多標簽標注有三大特點,分別是標簽噪聲大、數(shù)據(jù)體量大和標簽關(guān)聯(lián)復雜.首先,如果直接訓練標簽含噪的圖像,訓練結(jié)果將會受到噪聲影響,因此需要進行降噪處理;隨后,針對海量數(shù)據(jù)的問題,需要設計計算復雜度較低的標注算法;最后,應合理利用標簽間的關(guān)聯(lián)關(guān)系,以提高圖像的標注性能.本章針對標簽噪聲大、數(shù)據(jù)體量大和標簽關(guān)聯(lián)復雜這三大挑戰(zhàn),分別介紹近年來多標簽學習的相關(guān)研究成果.
2.1 標簽噪聲大
對于大數(shù)據(jù)時代的多標簽問題,噪聲是很常見的,然而直接忽視噪聲往往會導致訓練效果很差,甚至無法識別圖像.因此有效地處理噪聲是多標簽問題中最先要面對的一個重要挑戰(zhàn).標簽大噪聲問題,可以分為三類:標簽有缺失、標簽含噪聲差錯、標簽分布不均衡.下文將依次介紹它們的處理方法.
1)針對標簽有缺失問題.由于在多標簽問題中對多個標簽精確地標注是昂貴和困難的,并且擁有完整標簽的數(shù)據(jù)很難獲得,所以如何解決含有缺失標簽的多標簽學習問題變得十分必要.Xie等[17]提出一種部分多標簽學習(Partial Multi-Label Learning,PML)的方法,作者給每個候選標簽一個置信值,以估計它是實例的基本真值標簽的可能性.而Yang等[18]則提出一種全局語義描述符和局部語義描述符相連接的語義表示方法,通過一個有效的語義描述符將圖像投影到語義空間.全局語義描述部分根據(jù)大規(guī)模數(shù)據(jù)集中的大量概念來描述“一般的圖像是什么”,而局部語義描述符通過對平均特定目標域中每個圖像的視覺鄰域標簽的提取,來描述“圖像具體看起來像什么”.最后通過將全局和局部語義描述符相結(jié)合,實現(xiàn)了更精確的語義表示.
2)針對標簽含噪聲差錯問題.在許多實際任務中,人為地標注所有標簽成本太高,這時標注器可能會粗略地為每個對象分配一組候選標簽,而對于這些候選標簽,出現(xiàn)噪聲差錯也是正常的.對于這種含噪聲差錯的多標簽問題,主要處理方法是部分多標簽學習法,而如何具體使用PML,每位學者也有自己的見解.Sun等[19]提出了一種基于低秩稀疏分解的局部多標簽學習方法,該方法能夠從觀測到的標簽矩陣中提取地面真值標簽矩陣,并在同時通過低秩稀疏分解方案學習預測模型.與此前的PML算法相比,該方法能夠去除不相關(guān)的標簽,避免了標簽噪聲帶來的負面影響.而Fang等[20]則提出了另一種基于可信標簽啟發(fā)的部分多標簽學習方法:粒子學習,其基本思想是從候選標簽集中提取可信的標簽來減輕假陽性標簽的負面影響,并將其作為可靠的標簽信息進行后續(xù)的模型歸納.
3)針對標簽分布不均衡問題.由于在二分類問題中,通常假設標簽正負類別相對均衡,然而實際應用中標簽類別不平衡的問題是非常常見的.比如員工體檢時不患病人數(shù)遠超患病人數(shù),產(chǎn)品檢測時合格產(chǎn)品數(shù)遠超不合格產(chǎn)品數(shù)等.對于這種分類的樣本,由于正例樣本出現(xiàn)的概率極低,直接訓練會產(chǎn)生嚴重的過擬合.因此,有必要對這類樣本采取特殊的處理方法.Chen等[21]提出了一種端到端可訓練網(wǎng)絡來解決多標記腦腫瘤分割中的標簽類間不平衡的問題,通過該網(wǎng)絡所具有的腫瘤區(qū)域池成分,來減輕非腫瘤區(qū)域的影響.然而,在多標簽學習問題中,標簽缺失和標簽不平衡問題經(jīng)常會同時存在.為了應對這種挑戰(zhàn),Wu等[22]提出了一個包含5個組成部分(標簽一致性、瞬時水平和類水平標簽光滑性,以及2種上下界)的傳導學習模型.前3個組件用于將標簽信息傳播到缺少信息的標簽,后2個組件用于處理2種類型的類不平衡問題.
2.2 數(shù)據(jù)體量大
隨著大數(shù)據(jù)時代的來臨,有關(guān)多標簽數(shù)據(jù)的存儲量得到了飛速的增長.當我們在享受大體量數(shù)據(jù)所帶來的大量重要信息的同時,也不得不面對大體量數(shù)據(jù)訓練困難的問題.如果不做特殊的預處理而直接訓練,可能會導致訓練復雜度過高,大大影響算法處理的能力.
目前,對于這種體量巨大的數(shù)據(jù)最有效的預處理方法是基于學習的哈希算法.哈希算法主要用于大體量下的圖像檢索工作,早期的有監(jiān)督哈希算法通常將每個圖像編碼為手工制作的視覺特征向量,然后通過學習哈希函數(shù)將這樣的特征向量映射為一段二進制代碼.近年來,隨著深度卷積網(wǎng)絡的迅猛發(fā)展,一種新興的有監(jiān)督哈希方法出現(xiàn)了,它是一種基于深度網(wǎng)絡的哈希方法,利用深度卷積網(wǎng)絡來學習圖像的哈希函數(shù)和鑒別特征表示.比如Huang等[23]提出的一種將輸入圖像編碼成二進制碼的深層結(jié)構(gòu),取名叫多標簽圖像目標位置感知哈希算法,其核心思想是學習一個二值,它可以識別圖像對象的近似位置.借助于這些物體的近似位置,來聚焦圖像物體的區(qū)域,并忽略背景區(qū)域,然后將此聚焦的特征表示編碼為二進制散列碼.Bao等[24]則提出一種積累圖像語義信息的大規(guī)模圖像標注方法.作者首先通過多圖像分割技術(shù)將每個圖像編碼為區(qū)域包;隨后,采用局部敏感哈希方法將圖像區(qū)域分割成多個桶,以此保證相似區(qū)域的高碰撞概率;最后,引入稀疏和區(qū)域感知的圖像相似矩陣有效地提高了圖像標注的性能.
除哈希算法外,還有其他一些處理大體量數(shù)據(jù)的圖像多標簽學習算法.Gupta等[25]從分布語義學的思想中得到啟發(fā),提出了一種基于標簽嵌入的大規(guī)模多標簽學習方法,該模型通過有效的基于梯度的方法預測這些嵌入,以便對新輸入進行注釋.Hu等[26]則提出了另一種具有非線性特征轉(zhuǎn)換的網(wǎng)絡結(jié)構(gòu).作者利用海量的數(shù)據(jù)集和帶驗證數(shù)據(jù)的小數(shù)據(jù)集來學習多標簽分類器,也取得了不錯的訓練結(jié)果.
2.3 關(guān)聯(lián)復雜
標簽間的相關(guān)性是多標簽一個重要的特點,通過標簽相關(guān)性的合理使用,可以很好地提高圖像多標簽學習的性能.在過去,處理多標簽相關(guān)性的方法大致有如下3種:第1種是利用附加信息來運用標簽間的相關(guān)性[27];第2種是不考慮數(shù)據(jù)只考慮標簽域中的信息來明確標簽間的關(guān)聯(lián)[28-29];第3種是利用從特征和標簽域獲得的信息處理[30-31].不過,近幾年又有許多新的利用相關(guān)性的思想被提出.其中主要的方法有:雙標簽集法[32]、基于協(xié)作的多標簽學習法[33]、基于圖像特征的處理方法[34-35]等.
關(guān)于雙標簽集的理論,是一種由Liu等[32]提出,旨在利用集內(nèi)和集間的標簽關(guān)系去解決多標簽學習問題的方法.作者首先對每個對象給予兩組標簽來表示相關(guān)性,接著提出一種基于boosting的框架來解決雙標簽集問題.其中雙標簽集的每個組保持一個樣本分布,通過使用兩個相互重用的基本分類器,讓每個標簽集利用嵌入在另一個標簽集中的信息,并通過樣本分布的聯(lián)合調(diào)整,使得一個模型上的錯誤可由另一個模型彌補,以此來利用集內(nèi)和集間的標簽關(guān)系.
協(xié)作的多標簽學習算法,是由Feng等[33]提出的一種新的多標簽學習方法.以前的方法大多將標簽相關(guān)性作為先驗知識,但這可能無法正確刻畫標簽之間的真實關(guān)系.而這種基于協(xié)作的多標簽學習則可以利用學習到的標簽相關(guān)性(標簽相關(guān)性矩陣)來擬合最終預測結(jié)果.
關(guān)于圖像特征的應用,是學者在利用多標簽相關(guān)性時容易忽略的一點.Li等[34]提出了一種條件圖形套索的方法來應對這些挑戰(zhàn).這是一種以圖像特征的結(jié)構(gòu)和參數(shù)學習為基礎的貝葉斯框架.將多標簽預測問題表述為推理問題,并用平均場變分法求解.關(guān)于圖像特征的處理,Jing等[35]提出另一種方法:標簽一致性正則化的多標簽字典學習和部分相同標簽嵌入法,作者在輸入、輸出兩個空間同時進行多標簽學習,從而提高了輸入特征空間的特征表示能力和輸出標簽空間的標簽傳播能力.
在處理多標簽相關(guān)性問題時,經(jīng)常需要面對的另一個挑戰(zhàn)是缺乏訓練數(shù)據(jù),而在許多實際應用中,具有可用標簽信息的對象數(shù)量經(jīng)常是非常有限的,此時一般的有監(jiān)督學習算法的性能可能會顯著下降.在此基礎上,Jing等[36]提出了一種半監(jiān)督奇異值分解法(Singular Value Decomposition,SVD),該方法適用于訓練數(shù)據(jù)量很小的情況下的多標簽學習.其主要思想是尋找從特征空間到低秩標簽空間的映射,并通過SVD低秩映射出的左/右奇異向量來顯式地描述標簽/特征分量向量.實驗結(jié)果表明,此方法也可以在數(shù)據(jù)量很少的的情況下,有效地挖掘和利用特征空間和標簽空間中的相關(guān)性.
3 多標簽學習的應用實例
在實際中,一幅圖像往往可同時屬于多個分類,需要用多個標簽進行標注.因此圖像多標簽可以很好地為很多實際問題建模.在醫(yī)學、人工智能、多媒體計算等諸多領域,將目標問題轉(zhuǎn)化為多標簽問題常常使得復雜的問題迎刃而解.
在醫(yī)學領域,很多疾病在多標簽的協(xié)助下都可以得到一定的處理.比如醫(yī)學的一大難題:腦腫瘤問題.腦腫瘤雖然不是常見疾病,但它嚴重危害了患者的健康,導致極高的死亡率.因為手動分割需要高度的專業(yè)知識并且非常耗時,所以基于多標簽理論的自動腦腫瘤分割技術(shù)將大大方便醫(yī)療診斷和治療計劃.在將腦腫瘤數(shù)據(jù)用多標簽表示后,通過Chen等[21]提出的一種端到端可訓練網(wǎng)絡,便可以很好地解決自動腦腫瘤分割問題.Mamani等[37]為了更好地處理胸部CT掃描圖中各器官的自動定位工作,提出一種基于卷積網(wǎng)絡的多標簽結(jié)構(gòu),通過多池化層的卷積神經(jīng)網(wǎng)絡處理,很好地解決了CT圖中器官的識別問題.
在人工智能、計算機視覺等方面,多標簽技術(shù)也有著相當重要的作用.比如在自動駕駛領域,智能汽車的路況識別工作主要是用多標簽模型來處理的.為了解決自動駕駛的道路場景識別工作,Chen等[38]為駕駛場景數(shù)據(jù)集提出了一種新的多標簽神經(jīng)網(wǎng)絡.該體系結(jié)構(gòu)利用混合標簽(同時包括多標簽和單標簽),其中多標簽主要用于多類別預測學習,而單標簽則用于對訓練過程中需要更仔細處理的小類別進行監(jiān)督學習,兩者協(xié)作構(gòu)建出道路識別模型.Sirirattanapol等[39]也在路況識別工作中有著獨到的見解,他們將多標簽卷積神經(jīng)網(wǎng)絡與現(xiàn)有的電視圖像結(jié)合起來,不需要專門為此類任務設計新的傳感器,從而提取出有雨、無雨、晴朗、黑暗、擁擠交通、非擁擠交通、潮濕道路和干燥道路等道路環(huán)境情況的組合,不但同時檢測多個事件而且降低了成本.
除此之外,多標簽還在圖像濾波[40]、視頻處理等方面起著重要的作用.雖然在過去十幾年科研工作者在圖像多標簽學習領域取得了很多驕人的成績,但是在新時期的發(fā)展背景下仍然有許多亟待解決的問題.首先,現(xiàn)實世界是復雜的,圖片難以將所有低概率事件完全列出,比如識別被故意涂鴉的汽車.如何以較高的準確性預測受到特殊干擾的圖像,始終是一個難題.其次,對于一幅圖像上有多個物體的情況,雖然已有許多方法通過語義來刻畫物體間的聯(lián)系,但精度依然有待提高,所以對于物體間關(guān)聯(lián)的刻畫依然是圖像多標簽學習的重點.
4 總結(jié)
近年來,隨著數(shù)據(jù)的快速增長,以及數(shù)據(jù)存儲能力的增強,多標簽問題的處理工作取得了不錯的發(fā)展.在醫(yī)學、計算機等領域,以前很多難以實現(xiàn)的工作,現(xiàn)在都可以通過建立多標簽模型,并用神經(jīng)網(wǎng)絡等技術(shù)進行處理.本文首先介紹了多標簽概念及其分類,接著分別從單例多標簽和多例多標簽兩個角度講述圖像多標簽的具體學習方法.隨后,本文詳細總結(jié)了在大數(shù)據(jù)時代標簽噪聲大、數(shù)據(jù)體量大和標簽關(guān)聯(lián)復雜這三大挑戰(zhàn)下,多標簽模型的搭建與處理工作,并構(gòu)建了一個有效地處理多標簽問題的算法指南,同時也為多標簽的進一步研究提供了參考.最后,本文簡單闡述了多標簽在醫(yī)學、計算機科學等領域的具體現(xiàn)實應用.
參考文獻
References
[1]Zhou Z H,Zhang M L,Huang S J,et al.Multi-instance multi-label learning[J].Artificial Intelligence,2012,176(1):2291-2320
[2]Tsoumakas G,Katakis I.Multi-label classification[J].International Journal of Data Warehousing and Mining,2007,3(3):1-13
[3]Read J,Pfahringer B,Holmes G,et al.Classifier chains for multi-label classification[J].Machine Learning,2011,85(3):333-359
[4]Nam J,Kim J,Gurevych I,et al.Large-scale multi-label text classification:revisiting neural networks[C]∥Joint European Conference on Machine Learning and Knowledge Discovery in Databases,2013:437-452
[5]Chen S F,Chen Y C,Yeh C K,et al.Order-free RNN with visual attention for multi-label classification[J].Proceedings of the AAAI Conference on Artificial Intelligence,2018,32:6714-6721
[6]Markatopoulou F,Mezaris V,Patras I.Implicit and explicit concept relations in deep neural networks for multi-label video/image annotation[J].IEEE Transactions on Circuits and Systems for Video Technology,2019,29(6):1631-1644
[7]Zhang J J,Wu Q,Shen C H,et al.Multilabel image classification with regional latent semantic dependencies[J].IEEE Transactions on Multimedia,2018,20(10):2801-2813
[8]Li C H,Kang Q,Ge G J,et al.DeepBE:learning deep binary encoding for multi-label classification[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW),2016:744-751
[9]He S Y,Xu C,Guo T Y,et al.Reinforced multi-label image classification by exploring curriculum[J].Proceedings of the AAAI Conference on Artificial Intelligence,2018,32:3183-3190
[10]Li Y C,Song Y L,Luo J B.Improving pairwise ranking for multi-label image classification[C]∥IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2017:1837-1845
[11]Behpour S,Xing W,Ziebart B D.ARC:adversarial robust cuts for semi-supervised and multi-label classification[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW),2018:1905-1907
[12]Yang H,Zhou J T,Zhang Y,et al.Exploit bounding box annotations for multi-label object recognition[C]∥IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2016:280-288
[13]Ding X M,Li B,Xiong W H,et al.Multi-instance multi-label learning combining hierarchical context and its application to image annotation[J].IEEE Transactions on Multimedia,2016,18(8):1616-1627
[14]Yang H,Zhou J T Y,Cai J F,et al.MIML-FCN+:multi-instance multi-label learning via fully convolutional networks with privileged information[C]∥IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2017:5996-6004
[15]Zhu Y,Ting K M,Zhou Z H.Discover multiple novel labels in multi-instance multi-label learning[J].Proceedings of the AAAI Conference on Artificial Intelligence,2017,31:2977-2984
[16]Wang Z X,Chen T S,Li G B,et al.Multi-label image recognition by recurrently discovering attentional regions[J].IEEE International Conference on Computer Vision (ICCV),2017:464-472
[17]Xie M K,Huang S J.Partial multi-label learning[J].Proceedings of the AAAI Conference on Artificial Intelligence,2018,32:4302-4309
[18]Yang H,Zhou J T,Cai J F.Improving multi-label learning with missing labels by structured semantic correlations[M]∥Computer Vision-ECCV 2016.Cham:Springer International Publishing,2016:835-851.DOI:10.1007/978-3-319-46448-0_50
[19]Sun L J,F(xiàn)eng S H,Wang T,et al.Partial multi-label learning by low-rank and sparse decomposition[J].Proceedings of the AAAI Conference on Artificial Intelligence,2019,33:5016-5023
[20]Fang J P,Zhang M L.Partial multi-label learning via credible label elicitation[J].Proceedings of the AAAI Conference on Artificial Intelligence,2019,33:3518-3525
[21]Chen X,Liew J H,Xiong W,et al.Focus,segment and erase:an efficient network for multi-label brain tumor segmentation[M]∥Computer Vision-ECCV 2018.Cham:Springer International Publishing,2018:674-689.DOI:10.1007/978-3-030-01261-8_40
[22]Wu B Y,Lyu S W,Ghanem B.Constrained submodular minimization for missing labels and class imbalance in multi-label learning[J].Proceedings of the AAAI Conference on Artificial Intelligence,2016,30:2229-2236
[23]Huang C Q,Yang S M,Pan Y,et al.Object-location-aware hashing for multi-label image retrieval via automatic mask learning[J].IEEE Transactions on Image Processing,2018,27(9):4490-4502
[24]Bao B K,Ni B B,Mu Y D,et al.Efficient region-aware large graph construction towards scalable multi-label propagation[J].Pattern Recognition,2011,44(3):598-606
[25]Gupta V,Wadbude R,Natarajan N,et al.Distributional semantics meets multi-label learning[J].Proceedings of the AAAI Conference on Artificial Intelligence,2019,33:3747-3754
[26]Hu M Y,Han H,Shan S G,et al.Multi-label learning from noisy labels with non-linear feature transformation[C]∥Asian Conference on Computer Vision,2019:404-419
[27]Bengio S,Weston J,Grangier D.Label embedding trees for large multi-class tasks[C]∥NIPS10 Proceedings of the 23rd International Conference on Neural Information Processing Systems,2010:163-171
[28]Dembczynski K,Cheng W,Hullermeier E.Bayes optimal multi-label classification via probabilistic classifier chains[C]∥International Conference on Machine Learning (ICML),2010:279-286
[29]TsoumakasG,Katakis I,Vlahavas I.Random k-labelsets for multilabel classification[J].IEEE Transactions on Knowledge and Data Engineering,2011,23(7):1079-1089
[30]Chen Y N,Lin H T.Feature-aware label space dimension reduction for multi-label classification[J].Advances in Neural Information Processing Systems,2012,2:1529-1537
[31]Li X,Zhao F P,Guo Y H.Conditional restricted boltzmann machines for multi-label learning with incomplete labels[C]∥Proceedings of the Eighteenth International Conference on Artificial Intelligence and Statistics,2015:635-643
[32]Liu C,Zhao P,Huang S J,et al.Dual set multi-label learning[J].Proceedings of the AAAI Conference on Artificial Intelligence,2018,32:3635-3642
[33]Feng L,An B,He S.Collaboration based multi-label learning[J].Proceedings of the AAAI Conference on Artificial Intelligence,2019,33:3550-3557
[34]Li Q,Qiao M Y,Bian W,et al.Conditional graphical lasso for multi-label image classification[C]∥IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2016:2977-2986
[35]Jing X Y,Wu F,Li Z Q,et al.Multi-label dictionary learning for image annotation[J].IEEE Transactions on Image Processing,2016,25(6):2712-2725
[36]Jing L P,Shen C Y,Yang L,et al.Multi-label classification by semi-supervised singular value decomposition[J].IEEE Transactions on Image Processing,2017,26(10):4612-4625
[37]Mamani G E H,Setio A A A,Ginneken B V,et al.Organ detection in thorax abdomen CT using multi-label convolutional neural networks[C]∥SPIE Medical Imaging,2017:1013416
[38]Chen L,Zhan W J,Tian W,et al.Deep integration:a multi-label architecture for road scene recognition[J].IEEE Transactions on Image Processing,2019,28(10):4883-4898
[39]Sirirattanapol C,Nagai M,Witayangkurn A,et al.Bangkok CCTV image through a road environment extraction system using multi-label convolutional neural network classification[J].ISPRS International Journal of Geo-Information,2019,8(3):128
[40]Dai L Q,Yuan M K,Li Z C,et al.Hardware-efficient guided image filtering for multi-label problem[C]∥IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2017:4905-4913
Abstract With the fast growing number of images,especially the user-generated ones,the semantic content of images become richer,and labels become more complex.Therefore,the study on image multi-label learning is one of the hot research areas in both academia and industry,and a large number of efficient methods have emerged in recent years.This paper surveys the existing work on image multi-label learning in recent years.Firstly,we briefly describe the concept of multi-label learning and introduce two types of methods,that is,single-instance multi-label learning and multi-instance multi-label learning.Then,we summarize three challenges on multi-label learning caused by the big data characteristics,and provide related work which can handle these challenges.Finally,we elaborate two applications on image recognition and automatic drive to show that multi-label learning techniques can be effective for many application scenarios.
Key words multi-label learning;image annotation;deep learning;big data