左保川,張 晴
上海應(yīng)用技術(shù)大學(xué) 計(jì)算機(jī)科學(xué)與信息工程學(xué)院,上海201418
顯著性檢測(cè)旨在通過模擬人類的視覺特征來提取人類感興趣的圖像顯著區(qū)域。檢測(cè)顯著性物體需要理解整個(gè)圖像以及圖像中物體的語義信息和詳細(xì)結(jié)構(gòu)。因此,顯著性檢測(cè)是計(jì)算機(jī)視覺中的一個(gè)基本且具有挑戰(zhàn)性的問題。在過去的十幾年里,隨著大數(shù)據(jù)和人工智能技術(shù)的快速發(fā)展,研究者們提出了很多經(jīng)典的顯著性檢測(cè)方法,可以應(yīng)用于多種計(jì)算機(jī)視覺任務(wù),例如目標(biāo)識(shí)別[1]、圖像壓縮[2]和圖像修復(fù)[3]。
傳統(tǒng)算法通常采用人工選擇特征的方法檢測(cè)和分割圖像中的顯著物體,基于局部或全局對(duì)比度[4-6],人為選擇基于像素或超像素級(jí)別的各種圖像特征(例如顏色、強(qiáng)度和直方圖),進(jìn)行顯著性計(jì)算。這些方法在簡(jiǎn)單的數(shù)據(jù)集上表現(xiàn)良好,但是當(dāng)圖像背景變得復(fù)雜時(shí)可能會(huì)檢測(cè)失敗,因?yàn)槿斯みx擇的低層特征無法有效捕獲圖像中隱藏的語義信息。此外,這些人為手動(dòng)選擇的特征大多是基于現(xiàn)有數(shù)據(jù)集的先驗(yàn)知識(shí),因此在面臨實(shí)際應(yīng)用中的復(fù)雜場(chǎng)景時(shí)往往不能取得令人滿意的檢測(cè)效果。近年來,研究人員在顯著性檢測(cè)方法中引入了卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN),它展示出了出色的特征表征和學(xué)習(xí)能力,可以自動(dòng)且有效學(xué)習(xí)圖像上下文信息。卷積神經(jīng)網(wǎng)絡(luò)[7]突破了傳統(tǒng)人工特征的性能局限,并且在檢測(cè)速度方面取得了很大的提升。隨后研究者們提出了全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Network,F(xiàn)CN)[8],把全連接層變?yōu)榫矸e層,進(jìn)一步促進(jìn)了顯著性檢測(cè)的發(fā)展,提供了一種更高效和更完善的網(wǎng)絡(luò)模型,實(shí)現(xiàn)了端到端的檢測(cè)。
現(xiàn)有研究成果[9-10]表明,CNN具有金字塔狀結(jié)構(gòu),較淺的卷積層輸出特征圖具有較大的分辨率,保留了豐富的細(xì)節(jié)信息,例如邊界和輪廓,較深的卷積層包含豐富的語義信息,并有助于定位顯著物體位置。據(jù)此,研究者們?cè)O(shè)計(jì)了多種用于顯著性檢測(cè)的網(wǎng)絡(luò)結(jié)構(gòu),其中基于特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,F(xiàn)PN)結(jié)構(gòu)的顯著性檢測(cè)模型受到廣泛關(guān)注,因?yàn)樗軌蛲ㄟ^自頂而下的路徑構(gòu)造多尺度多層次的特征圖。
盡管基于卷積神經(jīng)網(wǎng)絡(luò)的方法較傳統(tǒng)方法極大提升了算法檢測(cè)性能,但仍有許多方面值得進(jìn)一步研究與改進(jìn)。首先,采用FPN 結(jié)構(gòu)的模型,深層的語義信息以逐層傳遞方式傳遞到淺層,由粗至精更新顯著性圖,然而在這過程中,深層特征所包含的物體位置信息等語義特征也同時(shí)被逐層稀釋。其次,目標(biāo)物體具有不同的大小,單一尺度的卷積核并不能有效檢測(cè)出圖像中的所有物體。
受膨脹卷積[11]和感知結(jié)構(gòu)[12-14]的啟發(fā),本文設(shè)計(jì)了一種新的基于深層特征引導(dǎo)的顯著性物體檢測(cè)網(wǎng)絡(luò)模型,以特征金字塔網(wǎng)絡(luò)為基礎(chǔ),主要包括:全局特征生成模塊(GGM)、殘差模塊(RM)和引導(dǎo)流(GF)。首先,本模型的GGM 由多個(gè)膨脹卷積組成,可以支持感受野成倍的擴(kuò)大而不會(huì)降低分辨率和網(wǎng)絡(luò)收斂性,進(jìn)一步提取豐富的語義信息。RM 是通過不同卷積核的卷積操作所得到的卷積層組成,可以提取多尺度特征。同時(shí),在構(gòu)建自頂而下的路徑時(shí),通過GF將來自GGM和RM模塊的特征進(jìn)行融合,在每個(gè)側(cè)輸出補(bǔ)充來自GGM 的深層語義信息。此外,所提模型對(duì)每個(gè)側(cè)邊的輸出進(jìn)行監(jiān)督。本文模型與近年發(fā)表的主流方法的視覺比較結(jié)果如圖1所示。
圖1 視覺比較
概括的說,本文的主要貢獻(xiàn)如下:
(1)提出了一種基于特征引導(dǎo)的顯著性物體檢測(cè)網(wǎng)絡(luò)模型。首先,采用一個(gè)由膨脹卷積組成的全局特征提取模塊捕獲豐富的語義信息。然后,對(duì)于不同的側(cè)輸出,采用殘差模塊提取其多尺度特征。采用由粗至細(xì)方式,逐層更新顯著性圖。
(2)設(shè)計(jì)了一種連接方式,可以在建立自頂而下路徑的過程中,通過引導(dǎo)流來逐步融合兩個(gè)模塊所提取的特征,達(dá)到為淺層特征補(bǔ)充語義信息的作用。同時(shí)可以用深層語義信息幫助淺層特征準(zhǔn)確地定位顯著性物體的位置。
(3)與其他11種近年發(fā)表的主流模型相比,無論是定量還是定性評(píng)估,本文模型在5個(gè)廣泛應(yīng)用的公開數(shù)據(jù)集上取得了較好的檢測(cè)性能。
在過去的十年里,研究者們?cè)O(shè)計(jì)了許多顯著性檢測(cè)模型。開拓性工作可以追溯到文獻(xiàn)[5-6]。這些早期的顯著性物體檢測(cè)方法大多數(shù)是基于人為手動(dòng)選擇的特征,例如邊界背景[6]、顏色對(duì)比度[4]和中心先驗(yàn)[15]。這些方法對(duì)內(nèi)容簡(jiǎn)單的圖像具有較高的檢測(cè)性能。然而,手動(dòng)選擇特征和先驗(yàn)知識(shí)難以捕獲顯著性物體的高級(jí)語義信息。
與利用人為手動(dòng)選擇特征的傳統(tǒng)方法相比,基于卷積神經(jīng)網(wǎng)絡(luò)的方法在顯著目標(biāo)檢測(cè)中大大提升了系統(tǒng)性能。Li 等人[16]將圖像調(diào)整為三個(gè)不同的比例以提取多尺度特征,然后將這些顯著圖進(jìn)行匯總以獲得最終的預(yù)測(cè)圖。Wang等人[17]設(shè)計(jì)了一個(gè)神經(jīng)網(wǎng)絡(luò)以圖像塊作為輸入提取局部信息,并將這些特征與全局對(duì)比度信息進(jìn)行融合,用來描述整個(gè)圖像。Zhao等人[18]提出使用兩個(gè)獨(dú)立的卷積神經(jīng)網(wǎng)絡(luò),它可以同時(shí)提取局部和全局上下文信息,然后將它們進(jìn)行融合。Lee 等人[19]先用傳統(tǒng)方法提取低層次的啟發(fā)式特征(例如顏色對(duì)比度和Gabor響應(yīng)),然后和原始圖像一起作為卷積神經(jīng)網(wǎng)絡(luò)的輸入。上述方法很耗時(shí),因?yàn)樗鼈儗D像塊作為CNN 的輸入。此外,它們忽略了重要的圖像空間信息。
為了解決上述問題,相關(guān)研究者提出了基于全卷積神經(jīng)網(wǎng)絡(luò)的方法[20-21]。它實(shí)現(xiàn)了端到端的檢測(cè),并且FCN 的顯著性檢測(cè)方法可以捕獲更豐富的空間信息和多尺度信息,找到最佳的多尺度融合方法來解決由下采樣操作引起的尺度空間問題。Zhang等人[22]設(shè)計(jì)了一個(gè)混合的上采樣模塊,以減少反卷積操作引起的棋盤效應(yīng),并融合多層次卷積特征進(jìn)行顯著性檢測(cè)。Liu 等人[23]設(shè)計(jì)了一個(gè)兩階段網(wǎng)絡(luò),該網(wǎng)絡(luò)首先獲得粗略的顯著性預(yù)測(cè)圖,然后融合局部上下文信息以循環(huán)的方式且分層次的優(yōu)化它們。Hou等人[9]受整體嵌套邊緣檢測(cè)器(HED)[24]的啟發(fā)設(shè)計(jì)了一個(gè)短連接的方式對(duì)側(cè)輸出進(jìn)行逐步融合,然后進(jìn)行顯著性預(yù)測(cè)。Luo 等人[10]改進(jìn)了U形結(jié)構(gòu),并使用了多級(jí)上下文信息來準(zhǔn)確定位顯著物體的位置。Zhang等人[22]將注意力機(jī)制嵌入到U形網(wǎng)絡(luò)結(jié)構(gòu)中,以引導(dǎo)特征融合過程。Zhang 等人[25]利用一個(gè)雙向結(jié)構(gòu)在FCN提取的多層次和多尺度特征之間傳輸信息,以更好地預(yù)測(cè)顯著圖。Chen等人(RAS)[26]采用逆向注意力模型來迭代地優(yōu)化其側(cè)邊輸出。
與上述方法不同,本文的方法研究如何在FCN 的基礎(chǔ)上利用特征引導(dǎo)機(jī)制來提高性能。
研究人員在文獻(xiàn)[9,23,27-28]中指出,深層的語義信息有助于定位顯著性物體的位置,淺層和中層特征可以補(bǔ)充一些細(xì)節(jié)信息,以保證物體的完整性?;诖?,本文提出了新的顯著性物體檢測(cè)模型,利用全局特征準(zhǔn)確定位顯著物體位置,通過信息引導(dǎo)流將全局特征與側(cè)邊輸出的多尺度特征進(jìn)行融合。
本文提出的模型基于特征金字塔網(wǎng)絡(luò)[29],它是典型的U型結(jié)構(gòu),具有自底向上和自頂向下兩個(gè)路徑。由于它具有組合來自分類網(wǎng)絡(luò)的多層次特征[30-31]的能力,因此許多視覺任務(wù)采用了此類網(wǎng)絡(luò)結(jié)構(gòu)。本文所提模型結(jié)構(gòu)如圖2 所示,首先,全局特征生成模塊(GGM)建立在自底而上路徑的最頂部。在這個(gè)過程中,淺層會(huì)顯現(xiàn)出一個(gè)大致的物體輪廓,隨著網(wǎng)絡(luò)的加深,細(xì)節(jié)信息會(huì)丟失,深層卷積層輸出顯現(xiàn)出一個(gè)模糊的物體。融合深層信息和淺層信息可以突顯物體的完整性,因此,將由GGM 提取的信息通過引導(dǎo)流(GF)分配到各個(gè)層次的特征圖中,具體的方法是逐像素相加,這樣做可以便于定位不同層次特征圖中顯著性物體的位置。在進(jìn)行特征融合之前,利用殘差模塊(RM)通過不同卷積核大小的卷積運(yùn)算提取不同尺度的特征以進(jìn)行多層級(jí)特征增強(qiáng)。
圖2 模型架構(gòu)
FPN 在自頂向下的過程中可以逐步融合來自主干網(wǎng)絡(luò)的多層次和多尺度特征。因?yàn)樽皂敹碌穆窂浇⒃谧缘锥系闹鞲删W(wǎng)絡(luò)上,所以這種結(jié)構(gòu)的問題之一是深層的語義信息在傳輸?shù)降蛯訒r(shí)會(huì)逐漸被稀釋。研究表明,CNN經(jīng)驗(yàn)上的感受野比理論上要小得多,尤其是對(duì)于更深的層次。因此,對(duì)于輸入圖像,整個(gè)網(wǎng)絡(luò)的感受野不足以提取足夠的全局信息。另外,由于自頂向下的路徑中缺少深層語義信息,因此,本文提出了一種全局生成和特征引導(dǎo)流模塊,直接將深層特征與側(cè)輸出特征相互融合,準(zhǔn)確定位各個(gè)層次特征圖中的顯著性物體的位置,GGM模塊的詳細(xì)結(jié)構(gòu)如圖3所示。
圖3 全局引導(dǎo)模塊的詳細(xì)結(jié)構(gòu)
更具體地說,為了有效地捕獲輸入圖像的上下文信息,受SIFT 特征提取的啟發(fā)[32],本文利用膨脹卷積[33]獲得具有相同比例但不同感受野的特征圖。在卷積和池化的過程中卷積核的感受野是相對(duì)變大的,但是依然可以進(jìn)行進(jìn)一步的擴(kuò)大,提取更多信息。卷積核膨脹就是將卷積核擴(kuò)張到膨脹尺度約束的尺度中,并將原卷積核沒有占用的區(qū)域填充為零,這樣可以使輸出變得稠密,而且在不增加計(jì)算量的情況下,擴(kuò)大了卷積核的尺寸。將VGG-16中的conv5_3作為深層語義特征來提取全局信息。第一個(gè)分支利用卷積核大小為1×1 的卷積操作來降低維度,而接下來的三個(gè)分支則使用膨脹率分別為3、5和7的膨脹卷積捕獲多感受野的上下文信息。為了更好捕獲全局上下文信息,添加了全局最大池化操作作為額外的分支,然后結(jié)合來自不同分支的特征圖,采用3×3和1×1的卷積操作生成具有一個(gè)通道的特征圖作為全局特征輸出。
首先使用了一個(gè)類似于inception的結(jié)構(gòu),因?yàn)轱@著性物體檢測(cè)不針對(duì)特定目標(biāo),不同物體在不同圖像中所占的比例、位置都不盡相同,因此,很難為卷積運(yùn)算選擇合適的卷積核大小。因此,采用不同大小的多個(gè)卷積核分別對(duì)側(cè)輸出進(jìn)行卷積操作,從而提取多尺度的側(cè)輸出信息。
此外,受殘差網(wǎng)絡(luò)[30]啟發(fā),在上述結(jié)構(gòu)的基礎(chǔ)上,本文提出了一種殘差結(jié)構(gòu)模塊來提取多尺度特征。利用殘差結(jié)構(gòu)第一是為了加快訓(xùn)練時(shí)間,使模型收斂速度更快,第二是為了加強(qiáng)上下文之間的聯(lián)系,原始的卷積層經(jīng)過一系列操作后再與原始的卷積層融合可以提取更多細(xì)節(jié)信息,進(jìn)行進(jìn)一步的特征優(yōu)化和調(diào)整。殘差模塊的細(xì)節(jié)信息如圖4所示。卷積核大小會(huì)影響訓(xùn)練時(shí)間,為了保證模型的統(tǒng)一性且不增加過多的參數(shù),不宜采用過大的卷積核,因此,本模型以卷積層的最小尺寸為基礎(chǔ),采用三個(gè)具有不同卷積核大小(1×1,3×3,5×5)的卷積層在降維的同時(shí)生成三種特征圖。為了獲得多尺度的上下文信息,將這些特征圖和原始卷積層進(jìn)行結(jié)合,得到fcat,然后通過一個(gè)3×3 和一個(gè)1×1 卷積的運(yùn)算獲得只含有一個(gè)通道的特征圖。
圖4 殘差模塊的結(jié)構(gòu)
該模型的最終損失為所有側(cè)邊輸出損失的總和,由以下公式表示:
其中,lk表示第k個(gè)側(cè)輸出的損失,K表示輸出的總數(shù),αk是每個(gè)輸出的權(quán)重。在本文中,將每個(gè)側(cè)輸出的αk設(shè)置為1。
在本文中,選擇二值交叉熵?fù)p失函數(shù)作為模型的損失函數(shù),它是交叉熵?fù)p失函數(shù)的一個(gè)特例且是二分類問題中常用的一種損失函數(shù),顯著性檢測(cè)可以看做是一個(gè)二分類問題,其結(jié)果用0和1兩種類別來表示,0代表圖像背景,1 代表顯著性物體,模型會(huì)通過一個(gè)sigmoid 函數(shù)輸出概率值。概率值越大,表示該像素為顯著性物體的可能性越大。具體公式如下:
其中,H、W表示圖像的高度和寬度,Gxy∈(0,1)是像素(x,y)的真值圖標(biāo)簽,Sxy表示相應(yīng)的成為顯著性物體的概率。另外,通過雙線性插值法將6個(gè)顯著性預(yù)測(cè)圖上采樣到與真值圖相同的大小,最后,使用Sigmoid 函數(shù)將預(yù)測(cè)圖的值歸一化為[0,1]。
數(shù)據(jù)集:為了評(píng)估模型的性能,本模型在五個(gè)具有代表性的公開數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn),這些數(shù)據(jù)集包括ECSSD[34]、HKU-IS[35]、PASCAL-S[36]、DUT-OMRON[6]、DUTS-TE[37]。ECSSD 具有1 000 幅語義信息豐富的復(fù)雜結(jié)構(gòu)圖像。HKU-IS是一個(gè)較大的數(shù)據(jù)集,包含4 447幅復(fù)雜圖像,其中大多數(shù)具有兩個(gè)或多個(gè)顯著性物體。PASCAL-S 具有850 張背景和前景復(fù)雜的圖像。DUTOMRON 數(shù)據(jù)集包含5 168 張圖像,雖然大多數(shù)圖像只有一個(gè)顯著性物體但具有數(shù)百種不同的類別。DUTS-TE數(shù)據(jù)集由于其多樣性和數(shù)量龐大的特性,已廣泛應(yīng)用于相關(guān)的顯著性檢測(cè)模型。
評(píng)估指標(biāo):本文使用四個(gè)指標(biāo)評(píng)估模型性能:準(zhǔn)確率-召回率(PR)曲線、F-measure、ωF-measure和平均絕對(duì)誤差(MAE)。
顯著圖的準(zhǔn)確率和召回率是通過將預(yù)測(cè)圖與真值圖相比,預(yù)測(cè)圖中預(yù)測(cè)正確的像素所占的比例來計(jì)算的,從0 到255 的閾值得到一系列相對(duì)的準(zhǔn)確-召回值,繪制PR曲線。
F-measure可以評(píng)估顯著性圖的質(zhì)量,通過準(zhǔn)確率和召回率的加權(quán)調(diào)和平均得到:
其中,β2設(shè)置為0.3,和以前的論文[38]一樣。與Fβ類似,ωF-measure用Precisionω和Recallω的加權(quán)調(diào)和平均值計(jì)算。
MAE得分用來評(píng)估顯著圖S與真值圖G之間的平均像素差值:
本文分別選擇VGG-16[31]和Resnet[39]作為主干網(wǎng)絡(luò),使用DUTS-TR 數(shù)據(jù)集訓(xùn)練模型。在訓(xùn)練過程中,每個(gè)輸入圖像的大小均調(diào)整為320×320,除主干網(wǎng)外,其他卷積層均由Xavier 初始化[40],且使用Adam 優(yōu)化器[41]優(yōu)化本文的網(wǎng)絡(luò),并將一些超參數(shù)設(shè)置為默認(rèn)值,其中初始學(xué)習(xí)率為5E-5,權(quán)重衰減為5E-4。參照文獻(xiàn)[31]中的建議,本文模型在訓(xùn)練時(shí)未使用驗(yàn)證集,訓(xùn)練損失穩(wěn)定時(shí)停止訓(xùn)練。所有上采樣操作均使用雙線性插值的方法。本文所提的網(wǎng)絡(luò)模型在公開可用的框架Pytorch 0.4.0[42]上實(shí)現(xiàn)。
通過組合不同模式的GGM、RM 和GF 進(jìn)行消融實(shí)驗(yàn),以說明所提各模塊的有效性。表1顯示了在數(shù)據(jù)集ECSSD和DUTS-TE上的性能比較結(jié)果。
表1 在兩個(gè)流行數(shù)據(jù)集上的消融實(shí)驗(yàn)的對(duì)比結(jié)果
RM。簡(jiǎn)單地將RM嵌入基礎(chǔ)網(wǎng)絡(luò)中可以提高檢測(cè)性能。這可能是因?yàn)榕c原始卷積層相比,RM使用不同大小的卷積核擴(kuò)大了整個(gè)網(wǎng)絡(luò)的感受野,并且還表明FPN 結(jié)構(gòu)仍需要結(jié)合更多來自不同尺度和不同層次的特征圖。
RM+GF。在上述模型基礎(chǔ)上增加了信息引導(dǎo)流,但用普通的卷積核1×1 代替了GGM,并降成一個(gè)通道的特征圖。由于深層特征圖含有豐富的語義信息可以為淺層特征圖補(bǔ)充信息,因此檢測(cè)效果有所提升。
GGM+GF。GGM 和GF 的組合方式優(yōu)于前兩種情況。來自GGM的全局信息使模型能夠更加專注于顯著性物體的完整性,從而提高預(yù)測(cè)顯著圖的質(zhì)量。
GGM+RM+GF。這種組合方式可以進(jìn)一步提高整個(gè)網(wǎng)絡(luò)的性能。利用這些模塊可以使模型擁有準(zhǔn)確定位顯著性物體的位置和完善邊界信息的強(qiáng)大能力。圖5是可視化效果比較。
圖5 消融實(shí)驗(yàn)的視覺對(duì)比結(jié)果
本文所提模型與11種近年發(fā)表的主流方法進(jìn)行比較,包 括UCF[22]、RFCN[43]、DHS[23]、Amulet[44]、DCL[20]、NLDF[10]、DSS[9]、PAGRN[45]、C2S[46]、PiCANet[47]、RAS[26],其中UCF 是典型的編碼和解碼結(jié)構(gòu),只是用深層次特征生成最終的特征圖,缺少淺層的細(xì)節(jié)特征。DSS、DCL、DHS 和NLDF 先提取多尺度和多層次特征,然后用上采樣進(jìn)行逐層次融合生成最終的顯著圖。Amulet和C2S 加入了邊界約束,進(jìn)一步補(bǔ)充顯著圖的邊界信息。RAS 和PiCANet 則是在多尺度和多層次特征的基礎(chǔ)上加入了注意力機(jī)制。最后RFCN和PAGRN則是加入了循環(huán)結(jié)構(gòu),RFCN額外添加了先驗(yàn)圖作為引導(dǎo)信息,而PAGRN加入了注意力機(jī)制。這些模型都沒有注重深層特征的重要性。本文模型充分利用了深層的特征。
定量比較:表2是所提模型和主流方法在五個(gè)公開數(shù)據(jù)集上的比較結(jié)果。其中DCL、DSS兩個(gè)模型采用了全連接條件隨機(jī)場(chǎng)(CRF)的后處理技術(shù)。從表2中可以看到,本文模型的性能仍幾乎超過了所有模型,整體性能最佳。為了進(jìn)行更直觀的比較,本文還展示了在五個(gè)數(shù)據(jù)集上的PR曲線,如圖6所示??梢钥闯?,與其他經(jīng)典的方法相比,本文模型(紅色)的PR 曲線幾乎領(lǐng)先或持平于其他模型。在PASCAL-S數(shù)據(jù)集中,本文的準(zhǔn)確率和召回率略低于PAGRN 和PiCANet,可能是因?yàn)檫@兩個(gè)模型中加入了循環(huán)機(jī)制和注意力機(jī)制,但總體而言,本文模型預(yù)測(cè)的顯著性圖的質(zhì)量更高。
圖6 本文算法的PR曲線與經(jīng)典算法在5個(gè)數(shù)據(jù)集上的比較
表2 在5種基準(zhǔn)數(shù)據(jù)集上的性能比較
視覺比較:為了進(jìn)一步證明本文提出的模型的優(yōu)越性,在圖7 中展示了一些視覺比較結(jié)果。從頂部到底部,圖像的場(chǎng)景分別包括大物體、小物體、前景和背景之間的低對(duì)比度以及含有復(fù)雜的物體結(jié)構(gòu)。可以明顯看出,本文模型不僅可以預(yù)測(cè)正確且較完整的顯著性物體,而且可以保持清晰的邊界。
圖7 與經(jīng)典模型的視覺對(duì)比結(jié)果
本文提出了一種顯著性物體檢測(cè)模型,通過設(shè)計(jì)和實(shí)現(xiàn)全局特征生成模塊(GGM)和殘差模塊(RM),研究多尺度和多層次特征的提取與融合,尤其是深層語義信息的利用。實(shí)驗(yàn)結(jié)果表明,該模型可以在五個(gè)廣泛使用的基準(zhǔn)數(shù)據(jù)集較現(xiàn)有的主流網(wǎng)絡(luò)具有較好的檢測(cè)性能,此外,本文設(shè)計(jì)的模塊獨(dú)立于網(wǎng)絡(luò)結(jié)構(gòu),可以靈活地應(yīng)用于基于特征引導(dǎo)的模型。在以后的研究中,將探討注意力機(jī)制對(duì)顯著性檢測(cè)中不同通道和區(qū)域的影響。