• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于漸進(jìn)對(duì)抗學(xué)習(xí)的弱監(jiān)督目標(biāo)定位

      2021-07-28 12:36:58羅漢武李文震潘富城琚小明
      關(guān)鍵詞:標(biāo)簽語義定位

      羅漢武,李文震,潘富城,琚小明

      1.國網(wǎng)內(nèi)蒙古東部電力有限公司,呼和浩特010010

      2.華東師范大學(xué) 軟件工程學(xué)院,上海200062

      目標(biāo)定位是計(jì)算機(jī)視覺領(lǐng)域中的一個(gè)基本組成部分,它旨在確定圖片中感興趣目標(biāo)的位置。伴隨著深度學(xué)習(xí)的爆炸式發(fā)展,目標(biāo)定位任務(wù)已經(jīng)取得了突破式的的進(jìn)展。諸如Faster RCNN[1]、YOLO[2]、SSD[3]、CornerNet[4]等一系列算法利用深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)合滑動(dòng)窗口和關(guān)鍵點(diǎn)的思想在定位精度和召回率上都取得了極大進(jìn)步。然而,目前最先進(jìn)的目標(biāo)定位模型都需要大量精細(xì)的類別標(biāo)簽和位置信息(如邊界框注釋和分割掩碼注釋)在全監(jiān)督的條件下才能訓(xùn)練。這些耗時(shí)耗力的精細(xì)標(biāo)注在實(shí)際應(yīng)用中往往很難獲取,而且標(biāo)注缺失嚴(yán)重,同時(shí)還存在數(shù)據(jù)量短缺的問題。這些問題無疑成為了深度學(xué)習(xí)大規(guī)模應(yīng)用的阻礙。為了解決這些問題,弱監(jiān)督目標(biāo)定位技術(shù)已經(jīng)引起越來越多的研究者關(guān)注。

      弱監(jiān)督目標(biāo)定位一直保持著相當(dāng)?shù)奶魬?zhàn)由于僅僅使用圖像級(jí)的標(biāo)注。它與全監(jiān)督學(xué)習(xí)的巨大鴻溝源于缺少位置注釋所造成的目標(biāo)定位的隨機(jī)性。如何利用弱注釋的數(shù)據(jù)挖掘潛在的語義信息成為弱監(jiān)督目標(biāo)定位的重點(diǎn)所在。目前解決弱監(jiān)督目標(biāo)定位的最常見方法是將弱監(jiān)督目標(biāo)定位問題描述為多實(shí)例學(xué)習(xí)(Multiple Instances Learning,MIL)。MIL將每個(gè)訓(xùn)練數(shù)據(jù)看作是一個(gè)“包”,將檢測目標(biāo)看做“包”中的一個(gè)個(gè)實(shí)例,在訓(xùn)練檢測器時(shí)迭代的挑選置信度最高的實(shí)例。在MIL中,大量的目標(biāo)提案(Object proposal)的選取是通過一些傳統(tǒng)的算法,例如selective search[5]、edge boxes[6]等完成的。但是當(dāng)面對(duì)大規(guī)模數(shù)據(jù)時(shí),這些算法選擇會(huì)帶來大量訓(xùn)練噪聲,造成MIL 學(xué)習(xí)困難,測試結(jié)果不理想。另一方面,MIL天然的非凸性質(zhì)造成這類方法對(duì)于模型初始化極其敏感,并且在訓(xùn)練中容易陷入局部最小值。為了解決這些問題,研究者們?cè)诟玫哪P统跏蓟椒╗7]、優(yōu)化策略[8]、經(jīng)驗(yàn)化正則[9]等方面均取得了一些成果。但是,在如何量化次優(yōu)解以及有效減少定位隨機(jī)性等方面,現(xiàn)有方法仍然沒有完全解決。

      最近,類激活映射(Class Activation Mappings,CAM)[10]方法從另一個(gè)全新視角描述了弱監(jiān)督目標(biāo)定位任務(wù)。這種方法直接利用了卷積網(wǎng)絡(luò)分類器學(xué)習(xí)到的具有辨別力的特征進(jìn)行目標(biāo)定位。它的關(guān)鍵思想是具有較高準(zhǔn)確率的分類器應(yīng)該觀察到了相應(yīng)目標(biāo)后才會(huì)做出相應(yīng)的分類決策。換句話說,具有辨別力的特征來自于相應(yīng)的目標(biāo)區(qū)域。然而,這種方法本質(zhì)的缺陷是分類器總是傾向于關(guān)注少部分最具辨別力的特征以此決定分類的結(jié)果,這種缺陷直接導(dǎo)致了定位圖總是僅僅覆蓋目標(biāo)最具有辨別力的一小部分,從而導(dǎo)致了定位錯(cuò)誤。為了覆蓋完整目標(biāo),對(duì)抗擦除技術(shù)(Adversarial Erase,AE)[11-15]已經(jīng)被廣泛應(yīng)用解決CAM的缺陷。這些技術(shù)之間的相似之處在于,它們防止模型僅依賴于最有區(qū)別的部分進(jìn)行分類,而是鼓勵(lì)模型也學(xué)習(xí)較少有區(qū)別的部分,從而可以盡可能地定位更精確的目標(biāo)邊界。

      本文將重點(diǎn)放在以CAM 為代表的新興方法上,而不是MIL。多個(gè)研究已經(jīng)表明,通過擦除最具辨別力的部分,對(duì)抗擦除技術(shù)可以有效捕捉完整的目標(biāo)。然而,一些缺點(diǎn)也不能忽視,對(duì)抗擦除技術(shù)對(duì)計(jì)算資源消耗巨大且過度擦除容易忽略小目標(biāo)。同時(shí),無論是多實(shí)例學(xué)習(xí)還是對(duì)抗擦除學(xué)習(xí),目前存在的方法總是直接利用大規(guī)模且有噪聲的數(shù)據(jù)集合中訓(xùn)練對(duì)象檢測器。由于數(shù)據(jù)集包含許多噪聲,這直接導(dǎo)致獲取正確的定位結(jié)果極具挑戰(zhàn)性。無法忽視的是,目前的手工注釋仍然存在很多主觀的偏見,一個(gè)典型的例子就是一張圖片的標(biāo)簽是魚,然而場景中包含人。這些主觀偏見同時(shí)也造成訓(xùn)練的不穩(wěn)定性。

      為了解決上文提及的一些缺陷,本文提出了漸進(jìn)對(duì)抗學(xué)習(xí)解決弱監(jiān)督目標(biāo)定位問題?;跐u進(jìn)對(duì)抗學(xué)習(xí),訓(xùn)練數(shù)據(jù)首先依據(jù)學(xué)習(xí)協(xié)議將數(shù)據(jù)分為數(shù)個(gè)不同級(jí)別從而反映數(shù)據(jù)從簡單到復(fù)雜的程度,例如簡單背景到復(fù)雜背景,單個(gè)目標(biāo)到多個(gè)目標(biāo)等。然后基于多標(biāo)簽分類網(wǎng)絡(luò)進(jìn)行弱監(jiān)督訓(xùn)練。為了提升網(wǎng)絡(luò)的魯棒性,提出相應(yīng)的對(duì)抗損失函數(shù)適應(yīng)弱監(jiān)督目標(biāo)定位。為了實(shí)現(xiàn)定位完整目標(biāo),利用金字塔對(duì)抗擦除機(jī)制逐層處理多個(gè)不同尺度的特征。從而在最后的定位圖中定位完整的目標(biāo)邊界。相較于同類型的對(duì)抗擦除學(xué)習(xí)方法,本文的對(duì)抗擦除學(xué)習(xí)將弱監(jiān)督定位從單目標(biāo)拓展到了多目標(biāo)定位,與同類型方法相比,其網(wǎng)絡(luò)結(jié)構(gòu)更加簡潔,消耗資源也相對(duì)較小。與其他具有代表性的弱監(jiān)督定位方法相比,實(shí)驗(yàn)結(jié)果充分表明了漸進(jìn)對(duì)抗學(xué)習(xí)能夠在弱監(jiān)督學(xué)習(xí)下完成精確的目標(biāo)定位,性能相較最先進(jìn)的算法具有競爭力。

      1 相關(guān)工作

      1.1 對(duì)抗擦除學(xué)習(xí)

      最近提出了數(shù)個(gè)弱監(jiān)督學(xué)習(xí)方法利用了對(duì)抗擦除學(xué)習(xí)發(fā)現(xiàn)完整的語義目標(biāo),以此定位精確的目標(biāo)邊界。Singh 等人[12]提出HaS(Hide-and-Seek)策略用于將圖片分割為多個(gè)網(wǎng)格塊然后隨機(jī)擦除某個(gè)塊,從而迫使神經(jīng)網(wǎng)絡(luò)可以關(guān)注目標(biāo)的不同部分,實(shí)現(xiàn)了弱監(jiān)督目標(biāo)定位。但是直接快速地隨機(jī)選擇策略導(dǎo)致的隨機(jī)性無法有效擦除最具辨別力的特征。與此同時(shí),Wei 等人[13]通過訓(xùn)練一個(gè)額外的分類網(wǎng)絡(luò)實(shí)現(xiàn)了對(duì)抗擦除,通過將已經(jīng)擦除部分辨別力特征的圖片訓(xùn)練另一個(gè)分支網(wǎng)絡(luò),然后將多個(gè)分支的定位圖融合從而定位完整的目標(biāo)。這種方法的一個(gè)不可忽視的缺點(diǎn)就是必須花費(fèi)更多的訓(xùn)練時(shí)間和計(jì)算資源來訓(xùn)練幾個(gè)獨(dú)立的網(wǎng)絡(luò)以獲得完整的目標(biāo)區(qū)域??紤]到這些問題,Zhang等人[14]提出了一種新穎的對(duì)抗互補(bǔ)學(xué)習(xí)方法(Adversarial Complementary Learning,ACoL)以端到端的弱監(jiān)督訓(xùn)練了一個(gè)精確的目標(biāo)定位網(wǎng)絡(luò)用于發(fā)現(xiàn)完整的語義目標(biāo)。然而,這種方法仍然需要訓(xùn)練額外的分類器。為了實(shí)現(xiàn)更有效的對(duì)抗擦除學(xué)習(xí),Choe等人[15]又提出了ADL(Attention-based Dropout Layer)層,一種輕量級(jí)但功能強(qiáng)大的方法,該方法利用自我注意機(jī)制來擦除對(duì)象的最有區(qū)別的部分。充分考慮上述方法的優(yōu)缺點(diǎn),盡管對(duì)抗擦除學(xué)習(xí)可以幫助網(wǎng)絡(luò)不僅僅關(guān)注一部分語義目標(biāo),然而對(duì)抗擦除學(xué)習(xí)存在過度擦除丟失語義目標(biāo)的現(xiàn)象,并且現(xiàn)有的對(duì)抗擦除方法往往只在一層特征圖上實(shí)現(xiàn)擦除,由于一層特征圖的信息有限,使用對(duì)抗擦除后往往很難挖掘完整的語義目標(biāo)。受最近在特征金字塔研究[16-19]突破的啟發(fā),對(duì)抗擦除可以不僅僅在同一層進(jìn)行,而采用多層特征圖逐層擦除的方式,通過有序的在擦除后對(duì)于特征進(jìn)行融合,既可以保證讓網(wǎng)絡(luò)不僅僅關(guān)注語義目標(biāo)的一部分,也可以保證語義信息不會(huì)被過度擦除,因此可以挖掘更多的語義信息,實(shí)現(xiàn)更高精度的目標(biāo)定位。因此本文提出金字塔對(duì)抗擦除機(jī)制,通過金字塔層次的對(duì)抗擦除方法,實(shí)現(xiàn)了擦除和融合兩個(gè)互補(bǔ)操作,既保證可以挖掘完整的語義目標(biāo)也可以保證語義信息不會(huì)被過度丟失,實(shí)現(xiàn)了端到端的目標(biāo)定位網(wǎng)絡(luò),有效解決了上述方法的一些缺點(diǎn)。

      1.2 漸進(jìn)自步學(xué)習(xí)

      受認(rèn)知科學(xué)的啟發(fā),Bengio等人[20]首次提出了課程學(xué)習(xí)(Curriculum Learning,CL)的概念。在CL中,通過從簡單到復(fù)雜逐漸將樣本納入訓(xùn)練中來學(xué)習(xí)模型。為了更好的解釋性,Kumar 等人[21]將CL 原則表述為稱為自步學(xué)習(xí)(SPL)的簡明優(yōu)化模型。最近,在計(jì)算機(jī)視覺領(lǐng)域已經(jīng)提出了數(shù)個(gè)自步學(xué)習(xí)算法,包括視覺追蹤[22]、圖像搜索[23]、目標(biāo)檢測[24-25]等。這些方法充分說明了通過將復(fù)雜問題分解為更簡單的問題可以在各種計(jì)算機(jī)視覺任務(wù)中獲得更好性能。本文的后續(xù)實(shí)驗(yàn)也充分說明了自步學(xué)習(xí)對(duì)于弱監(jiān)督的對(duì)象定位問題也是特別重要的。

      2 基于自步對(duì)抗學(xué)習(xí)的弱監(jiān)督目標(biāo)定位

      2.1 網(wǎng)絡(luò)架構(gòu)

      基于漸進(jìn)對(duì)抗學(xué)習(xí)的弱監(jiān)督目標(biāo)定位網(wǎng)絡(luò)的架構(gòu)如圖1所示,考慮到傳統(tǒng)的圖像分類問題總是假設(shè)每張圖片僅僅包含一個(gè)目標(biāo),這種假設(shè)導(dǎo)致使用圖像分類網(wǎng)絡(luò)僅在圖像級(jí)標(biāo)簽訓(xùn)練弱監(jiān)督目標(biāo)定位網(wǎng)絡(luò)存在天然的不適應(yīng)性。為了緩解這種不適應(yīng)性,本文將弱監(jiān)督目標(biāo)定位問題描述為多標(biāo)簽分類問題。同時(shí),考慮到現(xiàn)有的多標(biāo)簽分類網(wǎng)絡(luò)總是將每個(gè)標(biāo)簽的分布視為獨(dú)立的,這種策略對(duì)于多目標(biāo)分類是不適用的,因?yàn)楹芏嗄繕?biāo)之間存在內(nèi)在的上下文關(guān)系,例如騎自行車的人,人的空間位置是在自行車之上,這種上下文關(guān)系往往成為弱監(jiān)督定位多目標(biāo)很重要的因素,因此需要通過一些方式引入多目標(biāo)的這種上下文關(guān)聯(lián)應(yīng)用于目標(biāo)定位。本文提出對(duì)抗標(biāo)簽損失解決上述問題。對(duì)抗標(biāo)簽損失本質(zhì)上從正反兩個(gè)方面來進(jìn)行建模,及網(wǎng)絡(luò)不僅要預(yù)測圖片包含什么,還要預(yù)測圖片不包含什么,通過包含與不包含關(guān)系的建模,可以巧妙地打破傳統(tǒng)多標(biāo)簽分類網(wǎng)絡(luò)將各個(gè)標(biāo)簽建模為單獨(dú)分布的缺陷,更好地適應(yīng)多目標(biāo)弱監(jiān)督定位問題。

      具體來說,假設(shè)數(shù)據(jù)集有K類目標(biāo)以及N張訓(xùn)練集圖片。本文將訓(xùn)練集形式化定義為:?={(I(1),L(1)),(I(2),L(2)),…,(I(N),L(N))},這里I表示圖片數(shù)據(jù),L表示相應(yīng)的標(biāo)簽。L=[l1,l2,…,lK]T形式化為K維向量。每個(gè)l用1或者0表示是否相應(yīng)的目標(biāo)是否在圖片中出現(xiàn)。本文提出的對(duì)抗多標(biāo)簽損失如下。

      如圖1所示,在最后的分類階段,首先添加了一個(gè)正常的全連接層(FC layer),對(duì)應(yīng)的標(biāo)簽為L=[l1,l2,…,lK]T,然后,添加了一個(gè)相反的對(duì)抗分支(Adversarial FC layer),對(duì)應(yīng)一個(gè)對(duì)抗標(biāo)簽,定義如式(1):

      圖1 基于漸進(jìn)對(duì)抗學(xué)習(xí)的弱監(jiān)督定位框架

      這里每個(gè)L顯示是否圖片包括相應(yīng)的目標(biāo)。同樣的是,每個(gè)La表示是否圖片不包含相應(yīng)的目標(biāo)。為了計(jì)算最后的損失,對(duì)于輸入的圖片I,前向計(jì)算獲取最后的兩個(gè)K維向量輸出P(I)以及Pa(I),兩個(gè)輸出均通過sigmoid 函數(shù)實(shí)現(xiàn)了概率化處理。P(I)為FC layer的輸出,表示每個(gè)目標(biāo)出現(xiàn)的概率,Pa(I)為Adversarial FC layer的輸出,表示每個(gè)目標(biāo)不會(huì)出現(xiàn)的概率。對(duì)于某一張輸入圖片,對(duì)于第i類的損失可以定義為式(2):

      總損失通過對(duì)所有訓(xùn)練樣例以及所有類別進(jìn)行求和平均得到,如式(3)所示:

      與可挑選的其他損失函數(shù),例如二元邏輯回歸損失和多分類交叉熵?fù)p失等相比,本文提出的對(duì)抗多標(biāo)簽分類損失通過引入對(duì)抗分支,其可以充分考慮到不同目標(biāo)的上下文關(guān)系,因此本文的多標(biāo)簽分類網(wǎng)絡(luò)可以更好地適應(yīng)多目標(biāo)定位任務(wù),在實(shí)際訓(xùn)練中可以避免大量的訓(xùn)練噪聲使訓(xùn)練更穩(wěn)定。

      2.2 金字塔對(duì)抗擦除機(jī)制

      為了解決定位圖總是僅僅覆蓋目標(biāo)的一部分,無法定位完整目標(biāo)以及對(duì)抗擦除學(xué)習(xí)總是消耗太多計(jì)算資源的問題。受He等人提出的ResNet[26]以及FPN[16]啟發(fā),深度卷積神經(jīng)網(wǎng)絡(luò)通過多個(gè)網(wǎng)絡(luò)層計(jì)算了多層次的特征維度。從低維度到高緯度的語義信息天然構(gòu)成了金字塔形狀。從感受野的角度,隨著神經(jīng)網(wǎng)絡(luò)越來越深,其感受野也會(huì)越來越大,最后一層的感受野可以感受最具有辨別力的特征,這對(duì)于單純的圖形分類是有利的,然而遷移到目標(biāo)定位問題,就會(huì)產(chǎn)生無法定位完整目標(biāo)的問題。多個(gè)研究已經(jīng)表明,通過特征融合可以有效提升多個(gè)不同計(jì)算機(jī)視覺任務(wù)。為了解決弱監(jiān)督目標(biāo)定位問題,本文提出金字塔對(duì)抗擦除機(jī)制,通過在不同尺度的網(wǎng)絡(luò)層進(jìn)行對(duì)抗擦除并融合相應(yīng)語義信息,從而鼓勵(lì)最后一層的特征圖可以感受不同感受野的語義信息,最后可以定位完整目標(biāo)。

      本文的網(wǎng)絡(luò)結(jié)構(gòu)基于ResNet50,不同于以前提出的對(duì)抗擦除方法,本文逐步擦除{56×56,28×28,14×14,7×7}四個(gè)不同尺度的特征圖。考慮到Resnet 架構(gòu)中,多個(gè)層會(huì)產(chǎn)生相同大小的特征圖,本文將這些層稱為AE step。如圖2 所示,金字塔對(duì)抗擦除機(jī)制作用于AE step{1,2,3,4}。對(duì)于每一個(gè)AE step,令表示AE step i的第一層,表示AE step i的最后一層。將的每個(gè)值歸一化到[0,1]的輸出定義為。那么在中,最具辨別力的部分可以定義為特征圖一系列像素點(diǎn)的值大于給定閾值δ的部分。通過將其像素值置為0,從而擦除中最具辨別力的部分。單純地擦除無法鼓勵(lì)網(wǎng)絡(luò)發(fā)現(xiàn)目標(biāo)的不同部分,因此,本文使用跳遠(yuǎn)連接(skip connection)對(duì)擦除前和擦除后的相同大小的層進(jìn)行特征融合,令表示融合過的層,計(jì)算如式(4)所示。對(duì)和逐元素求最大值。

      圖2 金字塔對(duì)抗擦除機(jī)制

      在測試圖片階段,可以獲取最后一層的融合定位圖,將其調(diào)整和原始圖片一樣的大小。為了產(chǎn)生相應(yīng)的預(yù)測回歸框用于定位,通過固定的閾值分割前景和背景。然后尋找覆蓋前景像素中最大連接區(qū)域的邊界框,這可以生成對(duì)應(yīng)的回歸框。

      2.3 自步學(xué)習(xí)協(xié)議

      為了避免大規(guī)模數(shù)據(jù)級(jí)內(nèi)在的大量噪聲影響訓(xùn)練結(jié)果,本文提出了一個(gè)自步學(xué)習(xí)協(xié)議對(duì)訓(xùn)練集的圖片進(jìn)行了由簡單到復(fù)雜的排序。訓(xùn)練數(shù)據(jù)集包括ILSVRC 2012[27]and Pascal VOC 2007[28],為了從難到易挑選訓(xùn)練樣本。本文設(shè)計(jì)的排序協(xié)議通過衡量每張圖片視覺搜索的難度進(jìn)行排序。

      準(zhǔn)確地說,本文采用了多種圖像屬性綜合排序一張圖片的視覺搜索難度。例如雜亂背景、規(guī)模和位置、類別類型、遮擋和其他類型的噪音。不失一般性。本文與文獻(xiàn)[29]采用了一致的評(píng)估標(biāo)準(zhǔn)。包括注釋的目標(biāo)數(shù)、目標(biāo)占整張圖片的比例、不同目標(biāo)類的數(shù)量、目標(biāo)的截?cái)?、被遮擋目?biāo)的數(shù)量、已經(jīng)被標(biāo)注為檢測困難的目標(biāo)數(shù)量。這些標(biāo)準(zhǔn)通過Kendall’s τ[30]相關(guān)系數(shù)進(jìn)行了數(shù)字化。Kendall’s τ 是基于兩個(gè)變量之間不一致對(duì)的數(shù)量和一致對(duì)的數(shù)量之間的差異除以對(duì)總數(shù)而得出的序數(shù)數(shù)據(jù)的相關(guān)性度量。作為一種有效的措施,實(shí)際上可以對(duì)圖像難度進(jìn)行良好的度量。更多的細(xì)節(jié)可以參閱文獻(xiàn)[29]。

      值得注意的是,由于ILSVRC 2012 多用于圖像分類任務(wù),因此僅僅包含一個(gè)目標(biāo),因此ILSVRC 2012與包含多目標(biāo)的Pascall VOC 2007 使用自步學(xué)習(xí)協(xié)議進(jìn)行單獨(dú)排序。首先訓(xùn)練單目標(biāo)的ILSVRC 2012,然后接著訓(xùn)練多目標(biāo)的Pascal VOC 2007,這種自步學(xué)習(xí)過程對(duì)于提升訓(xùn)練穩(wěn)定性是極為重要的。

      3 實(shí)驗(yàn)和結(jié)果分析

      3.1 實(shí)驗(yàn)設(shè)置

      本文實(shí)驗(yàn)的訓(xùn)練和測試數(shù)據(jù)集是ILSVRC 2012和Pascal VOC2007 數(shù)據(jù)集,其中ILSVRC 2012 僅選取了與Pascal VOC數(shù)據(jù)集對(duì)應(yīng)的20類目標(biāo)。實(shí)驗(yàn)評(píng)估指標(biāo)根據(jù)數(shù)據(jù)集不同而有所不同。對(duì)于ILSVRC 2012測試集,本文采取Top1 誤差、Top5 誤差,具體表現(xiàn)為相應(yīng)的預(yù)測第一類的和前五類的分類和定位誤差。對(duì)于Pascal VOC 2007數(shù)據(jù)集,本文采用了弱監(jiān)督目標(biāo)定位的通用評(píng)估指標(biāo)CorLoc(Correct Localization,正確定位率)。其中CorLoc計(jì)算了測試圖片中預(yù)測回歸框與真實(shí)值大于等于0.5 IoU(Intersection over Union,交并比)的比例。最后,本文也可視化了部分Pascal VOC2007測試集的定位表現(xiàn)。

      3.2 對(duì)比實(shí)驗(yàn)分析

      本文選取了多個(gè)先進(jìn)的弱監(jiān)督目標(biāo)定位算法與本文的自步對(duì)抗學(xué)習(xí)算法進(jìn)行了對(duì)比。在ILSVRC 2012數(shù)據(jù)集測試中,選取了c-MWP[31]、ACoL[14]、ADL[15]三種算法進(jìn)行對(duì)比。在多目標(biāo)的Pascal VOC2007數(shù)據(jù)集測試中,選取了LCL[32]、WSDDN[33]、TS2C[34]、C-WSL[35]進(jìn)行了對(duì)比。為了逐步地比較不同組件對(duì)自步對(duì)抗學(xué)習(xí)的影響,本文使用了縮略詞表示自步對(duì)抗的每一步:

      (l)PAE(Pyramid Adversarial Erase):使用金字塔對(duì)抗機(jī)制。

      (2)AMCL(Adversarial Multi-label Classification Loss):使用多標(biāo)簽對(duì)抗損失。

      (3)SPL(Self-Paced Learning):使用自步學(xué)習(xí)協(xié)議。

      表1顯示了自步對(duì)抗學(xué)習(xí)與上述三種算法在ILSVRC 2012數(shù)據(jù)集上的弱監(jiān)督定位結(jié)果,用Top1誤差、Top5誤差表示,其數(shù)值越小表示結(jié)果越好。

      表1 ILSVRC 2012對(duì)比實(shí)驗(yàn) %

      正如表1 所示,隨著不同組件的應(yīng)用,自步對(duì)抗學(xué)習(xí)的Top1、Top5 的位置誤差和分類誤差逐步減少。其中自步學(xué)習(xí)對(duì)于整體的提升有很大貢獻(xiàn),因?yàn)樽圆綄W(xué)習(xí)保證了模型在強(qiáng)噪聲條件下可以平緩地學(xué)習(xí)挖掘語義目標(biāo),與其他三種算法對(duì)比,在最優(yōu)配置下,在Top1 位置誤差上,比ADL 低2.5 個(gè)百分點(diǎn),比ACoL 低5.3 個(gè)百分點(diǎn),比c_MWP低23.6個(gè)百分點(diǎn),體現(xiàn)了自步對(duì)抗學(xué)習(xí)在強(qiáng)噪聲和弱監(jiān)督下可以實(shí)現(xiàn)更有效的目標(biāo)定位,這得益于自步學(xué)習(xí)從簡單到復(fù)雜的學(xué)習(xí),保證了模型學(xué)習(xí)參數(shù)是的穩(wěn)定性。在Top5 位置誤差上,自步對(duì)抗學(xué)習(xí)仍然優(yōu)于其他算法,體現(xiàn)了算法在預(yù)測多個(gè)類別的穩(wěn)定性。同時(shí),與其他算法在位置誤差和分類誤差的權(quán)衡不同,漸進(jìn)對(duì)抗學(xué)習(xí)在穩(wěn)步提升定位精度的同時(shí)也減少了分類的誤差。

      漸進(jìn)對(duì)抗學(xué)習(xí)在弱監(jiān)督單目標(biāo)定位上實(shí)現(xiàn)了相當(dāng)?shù)姆€(wěn)定性和精度。為了驗(yàn)證算法在多目標(biāo)定位的效果,本文在VOC 2007 數(shù)據(jù)集上進(jìn)行的對(duì)比實(shí)驗(yàn)如表2 所示,主要指標(biāo)為CorLoc,檢測多張不同圖片的多個(gè)目標(biāo)。本文實(shí)現(xiàn)了平均61.3%的CorLoc。特別在“bird”“person”兩類上實(shí)現(xiàn)了最先進(jìn)的提升。本文的結(jié)果優(yōu)于LCL、WSDDN、TS2C 三種算法,僅次于C-WSL 算法。但是值得注意的是C-WSL 還使用了其他監(jiān)督信息用于訓(xùn)練。C-WSL算法利用每類對(duì)象的數(shù)目作為監(jiān)督從一組對(duì)象建議中識(shí)別正確的高得分對(duì)象框,而本文僅僅使用了圖像級(jí)別的監(jiān)督信息。

      如表1 和表2 所示,實(shí)驗(yàn)也評(píng)估了漸進(jìn)對(duì)抗學(xué)習(xí)不同組件的作用,從結(jié)果上來看,單純地使用PAE 的結(jié)果是比較差的,尤其在VOC2007 數(shù)據(jù)集上,僅僅達(dá)到了42.1%,遠(yuǎn)低于其他對(duì)比的算法。這與訓(xùn)練中的大量噪聲導(dǎo)致學(xué)習(xí)的模糊性是分不開的。強(qiáng)噪聲情況下,由于缺乏位置信息,盡管使用PAE 可以盡可能挖掘語義目標(biāo),但是由于存在多個(gè)語義目標(biāo),在網(wǎng)絡(luò)訓(xùn)練時(shí),語義目標(biāo)挖掘仍然存在較大的隨機(jī)性,因?yàn)锳MCL可以挖掘不同語義目標(biāo)的關(guān)系,同時(shí)也能提升學(xué)習(xí)單一語義目標(biāo)的效果。因此隨著AMCL的使用,兩個(gè)數(shù)據(jù)集上的評(píng)估結(jié)果都取得了比較明顯的提升。在VOC2007,CorLOC增加了7個(gè)百分點(diǎn)(42.1%到49.9%),SPL已經(jīng)在其他視覺任務(wù)上是一種有效的學(xué)習(xí)策略,使用SPL 后,CorLoc 實(shí)現(xiàn)了巨大的提升。

      表2 Pascal VOC 2007對(duì)比實(shí)驗(yàn)(CorLoc) %

      圖3用可視化的方式顯示了本文算法的定位效果,綠色邊框顯示了算法的定位框,紅色框顯示了真實(shí)定位框。可以看出漸進(jìn)對(duì)抗學(xué)習(xí)可以定位精確的目標(biāo)邊界,與真實(shí)邊框重合度較高。然而在數(shù)個(gè)類上的表現(xiàn)卻很難得到提升。例如“bottle”和“plant”兩個(gè)類的定位精度保持較低的水平。一個(gè)主要原因是這些類的大部分被遮擋和重疊,這導(dǎo)致目標(biāo)定位上的不完整或語義挖掘的不連續(xù),這些導(dǎo)致定位不準(zhǔn)確或者只定位到部分,毫無疑問,這些問題導(dǎo)致了更多的進(jìn)一步改進(jìn)的空間。

      圖3 弱監(jiān)督目標(biāo)定位效果圖

      4 結(jié)束語

      為了解決僅在圖像級(jí)標(biāo)簽完成目標(biāo)定位的問題,提出了一種基于漸進(jìn)對(duì)抗學(xué)習(xí)的弱監(jiān)督目標(biāo)定位算法。算法引入自步學(xué)習(xí)緩解大規(guī)模數(shù)據(jù)的噪聲影響,同時(shí)提出多標(biāo)簽對(duì)抗損失幫助多標(biāo)簽分類網(wǎng)絡(luò)更好地適應(yīng)弱監(jiān)督多目標(biāo)定位任務(wù),最后為了更好地定位完整目標(biāo),提出金字塔對(duì)抗擦除機(jī)制以定位更準(zhǔn)確的目標(biāo)邊界。實(shí)驗(yàn)結(jié)果表明該算法能有效提高在弱監(jiān)督目標(biāo)定位任務(wù)上的性能。然而,算法在密集目標(biāo)的表現(xiàn)仍然較差,下一步將繼續(xù)研究設(shè)計(jì)改善密集目標(biāo)和遮擋目標(biāo)的弱監(jiān)督目標(biāo)定位,通過使用自定錨框,增加細(xì)化網(wǎng)絡(luò)提升密集目標(biāo)的定位效果。

      猜你喜歡
      標(biāo)簽語義定位
      《導(dǎo)航定位與授時(shí)》征稿簡則
      語言與語義
      Smartrail4.0定位和控制
      無懼標(biāo)簽 Alfa Romeo Giulia 200HP
      車迷(2018年11期)2018-08-30 03:20:32
      不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
      海峽姐妹(2018年3期)2018-05-09 08:21:02
      找準(zhǔn)定位 砥礪前行
      “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
      標(biāo)簽化傷害了誰
      青年擇業(yè)要有準(zhǔn)確定位
      基于多進(jìn)制查詢樹的多標(biāo)簽識(shí)別方法
      卫辉市| 潍坊市| 铜梁县| 揭阳市| 禄劝| 宁河县| 满洲里市| 尉氏县| 华坪县| 腾冲县| 拜城县| 丰宁| 元阳县| 阳城县| 龙江县| 盘山县| 古田县| 含山县| 新兴县| 宜兰县| 石门县| 鞍山市| 保德县| 门头沟区| 杭州市| 揭西县| 翁源县| 昌邑市| 临邑县| 卢湾区| 浑源县| 东兰县| 泰来县| 甘孜县| 墨江| 桓仁| 罗江县| 明星| 磐石市| 富平县| 宜川县|