摘要:顯著目標(biāo)檢測(cè)作為一個(gè)具有廣泛應(yīng)用的研究焦點(diǎn),其性能經(jīng)歷了從傳統(tǒng)模型到深度學(xué)習(xí)模型的飛躍。近期,圖神經(jīng)網(wǎng)絡(luò)(GNN) 由于能夠高效處理圖數(shù)據(jù)而被應(yīng)用于顯著目標(biāo)檢測(cè)領(lǐng)域,引領(lǐng)了該領(lǐng)域的前沿探索。本綜述總結(jié)了該領(lǐng)域的發(fā)展歷程,聚焦于GNN的應(yīng)用進(jìn)展,通過(guò)分類(lèi)展示其多樣化架構(gòu)及取得的成效,并介紹了主流數(shù)據(jù)集和評(píng)價(jià)標(biāo)準(zhǔn),為研究與實(shí)踐奠定基礎(chǔ)。此外,本文展望了GNN在此領(lǐng)域的潛在發(fā)展空間,旨在激發(fā)新的研究思路與創(chuàng)新技術(shù),指導(dǎo)學(xué)界進(jìn)一步進(jìn)步。
關(guān)鍵詞:圖神經(jīng)網(wǎng)絡(luò);顯著目標(biāo)檢測(cè);深度學(xué)習(xí);計(jì)算機(jī)視覺(jué)
中圖分類(lèi)號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2024)32-0016-04 開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID) :
0 引言
受初期靈長(zhǎng)目視覺(jué)系統(tǒng)行為與神經(jīng)結(jié)構(gòu)的啟發(fā),Litti等人[1]提出了一種視覺(jué)注意力機(jī)制,開(kāi)啟了計(jì)算機(jī)視覺(jué)中顯著對(duì)象檢測(cè)研究的篇章。自1998年起,顯著對(duì)象檢測(cè)方法可以明確地劃分為兩個(gè)階段:傳統(tǒng)策略階段和深度學(xué)習(xí)主導(dǎo)階段。
在傳統(tǒng)方法中,具體細(xì)分為以下幾類(lèi)[2]:
1) 基于塊的檢測(cè)模型。通過(guò)分析圖像的局部塊或區(qū)域來(lái)識(shí)別顯著對(duì)象,利用對(duì)比度、顏色差異和紋理特性等。他們通過(guò)引入不受網(wǎng)絡(luò)同質(zhì)性限制的塊級(jí)圖卷積網(wǎng)絡(luò)(BM-GCN) ,實(shí)現(xiàn)了“分類(lèi)聚合”的功能,自適應(yīng)學(xué)習(xí)不同類(lèi)型的鄰居聚合規(guī)則,取得了顯著成果[3]。
2) 基于區(qū)域的檢測(cè)模型。關(guān)注較大圖像區(qū)域,利用區(qū)域特征進(jìn)行顯著性分析,通常借助超像素分割等技術(shù)來(lái)加強(qiáng)目標(biāo)與背景的關(guān)聯(lián)理解。比如,Ren 等人[4]的研究,通過(guò)區(qū)域檢測(cè)模型與深度學(xué)習(xí)檢測(cè)網(wǎng)絡(luò)共享卷積特征,實(shí)現(xiàn)了近乎實(shí)時(shí)的檢測(cè)速度。
3) 融合外部引導(dǎo)的檢測(cè)模型。整合圖像外的信息,例如眼動(dòng)追蹤、深度線(xiàn)索、物體邊界等,增強(qiáng)內(nèi)部與外部信息的結(jié)合,提高檢測(cè)的準(zhǔn)確性與魯棒性。Liu等人[5]提出的像素級(jí)上下文注意力模型有效融合了局部與全局信息,優(yōu)化了檢測(cè)效果。
然而,這些基于塊、區(qū)域及外部引導(dǎo)的傳統(tǒng)模型也暴露了一些共性局限:
1) 全局上下文理解不足。過(guò)于集中在局部特征,忽視全局上下文。在復(fù)雜場(chǎng)景或目標(biāo)周?chē)蓴_過(guò)多的情況下,檢測(cè)效果容易下降。
2) 復(fù)雜背景適應(yīng)力弱。在面對(duì)多樣化背景或復(fù)雜場(chǎng)景時(shí),難以有效區(qū)分目標(biāo)與背景。
3) 尺寸與形態(tài)敏感性。對(duì)目標(biāo)的尺寸和形狀變化較為敏感,在處理多樣性目標(biāo)時(shí)穩(wěn)定性較差。
4) 手工特征依賴(lài)。部分依賴(lài)于預(yù)設(shè)特征,導(dǎo)致在復(fù)雜環(huán)境中的泛化能力受限。
5) 多模態(tài)處理局限。通常側(cè)重單一感官模式分析,對(duì)于圖像、文本等多模態(tài)數(shù)據(jù)的處理能力有限。
深度學(xué)習(xí)的興起為顯著目標(biāo)檢測(cè)帶來(lái)了革新,盡管初期面臨圖像復(fù)雜性等挑戰(zhàn),但全卷積網(wǎng)絡(luò)(FCN) 的引入標(biāo)志著像素級(jí)預(yù)測(cè)的新紀(jì)元,極大增強(qiáng)了對(duì)復(fù)雜場(chǎng)景的理解能力[6]。此后,進(jìn)階模型如CenterNet通過(guò)創(chuàng)新的中心點(diǎn)檢測(cè)策略,優(yōu)化了對(duì)小且被遮擋物體的檢測(cè)精度與效率[7];而DETR(Detection Transformer) 通過(guò)摒棄傳統(tǒng)錨框設(shè)計(jì),利用Transformer直接預(yù)測(cè)目標(biāo)位置與類(lèi)別,簡(jiǎn)化了檢測(cè)框架,同時(shí)強(qiáng)化了對(duì)重疊目標(biāo)的處理能力,為顯著目標(biāo)檢測(cè)提供了更加直觀且簡(jiǎn)化的方案[8]。
這一系列深度學(xué)習(xí)模型的演進(jìn),不僅豐富了顯著目標(biāo)檢測(cè)的理論與實(shí)踐,還不斷拓寬了技術(shù)邊界。特別是近年來(lái),圖神經(jīng)網(wǎng)絡(luò)(GNN) [9]作為研究的亮點(diǎn),憑借其在處理圖結(jié)構(gòu)數(shù)據(jù)中捕獲復(fù)雜關(guān)系和上下文信息的卓越能力,為顯著目標(biāo)檢測(cè)開(kāi)創(chuàng)了新途徑。GNN 通過(guò)構(gòu)建像素間的連接,精確定位目標(biāo)的上下文與空間結(jié)構(gòu),尤其在復(fù)雜場(chǎng)景下顯著提升了檢測(cè)的準(zhǔn)確性和魯棒性,為該領(lǐng)域的發(fā)展注入了新的活力與可能性。
1 圖神經(jīng)網(wǎng)絡(luò)
圖神經(jīng)網(wǎng)絡(luò)(GNN) 是計(jì)算機(jī)視覺(jué)中專(zhuān)為圖數(shù)據(jù)設(shè)計(jì)的強(qiáng)大工具,能夠有效分析由節(jié)點(diǎn)和邊構(gòu)成的網(wǎng)絡(luò),捕獲圖像內(nèi)部的復(fù)雜關(guān)系。其核心優(yōu)勢(shì)在于通過(guò)迭代聚合鄰居節(jié)點(diǎn)的信息來(lái)提煉高級(jí)特征表示,從而深入洞察全局及局部關(guān)聯(lián)。
主要GNN類(lèi)型包括:
1) 圖卷積網(wǎng)絡(luò) (GCN)。在圖上應(yīng)用卷積以提取特征,理解局部與全局信息[10]。
2) 圖注意力網(wǎng)絡(luò)。融合注意力機(jī)制,動(dòng)態(tài)聚焦于圖結(jié)構(gòu)中重要的部分,從而增強(qiáng)關(guān)系建模能力[11]。
3) 圖自編碼器。通過(guò)無(wú)監(jiān)督學(xué)習(xí)方式,通過(guò)壓縮和重構(gòu)來(lái)學(xué)習(xí)圖數(shù)據(jù)的低維表示,實(shí)現(xiàn)降維和特征提取[12]。
4) 圖生成網(wǎng)絡(luò)。用于生成特定結(jié)構(gòu)的圖數(shù)據(jù),適用于圖數(shù)據(jù)創(chuàng)造任務(wù)[13]。
接下來(lái),筆者將介紹圖神經(jīng)網(wǎng)絡(luò)在顯著目標(biāo)檢測(cè)中的應(yīng)用,并根據(jù)主要應(yīng)用的網(wǎng)絡(luò)進(jìn)行分類(lèi)。
2 基于GNN 的顯著目標(biāo)檢測(cè)方法
2.1 基于圖卷積進(jìn)行顯著目標(biāo)檢測(cè)
該部分著重于利用圖卷積的推理能力來(lái)建模區(qū)域關(guān)系,以提取顯著目標(biāo)特征[10]。在計(jì)算機(jī)視覺(jué)任務(wù)中,如分類(lèi)[14]、分割[15]及動(dòng)作識(shí)別[16],對(duì)長(zhǎng)距離、任意形狀的區(qū)域間關(guān)系進(jìn)行推理極為關(guān)鍵。盡管傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)(CNN) 能夠有效處理局部關(guān)系,但在捕獲全局和遠(yuǎn)距離關(guān)聯(lián)時(shí)效率較低,通常需要疊加多層來(lái)實(shí)現(xiàn)。為應(yīng)對(duì)這一挑戰(zhàn),DenseASPP[17]整合了多尺度特征以擴(kuò)大感受野,提高分割效果;同時(shí),CoT引入了創(chuàng)新的Transformer模塊,利用上下文指導(dǎo)動(dòng)態(tài)注意力學(xué)習(xí),增強(qiáng)了視覺(jué)表征能力。此外,由于圖神經(jīng)網(wǎng)絡(luò)(GNN) 能夠有效地把握全局圖像結(jié)構(gòu)與關(guān)系,其通過(guò)圖表示學(xué)習(xí)來(lái)連接區(qū)域間聯(lián)系,優(yōu)化全局上下文的利用,成為一個(gè)有效的解決方案。
2.1.1 圖推理
作為一種有效的解決方案,圖推理近年來(lái)在關(guān)系推斷方面受到越來(lái)越多的關(guān)注。圖模型如條件隨機(jī)場(chǎng)(CRFs) [18]在圖像分割中得到了成功應(yīng)用,而圖卷積網(wǎng)絡(luò)(GCNs) 在半監(jiān)督分類(lèi)[19]及通過(guò)捕捉對(duì)象間關(guān)系進(jìn)行的視頻識(shí)別中也展現(xiàn)出強(qiáng)大能力[20]。這些方法依賴(lài)于預(yù)訓(xùn)練的檢測(cè)器來(lái)識(shí)別對(duì)象。而與之相比,部分研究直接采用GCN進(jìn)行端到端訓(xùn)練,實(shí)現(xiàn)任意形狀的非相鄰遠(yuǎn)端區(qū)域間推理,無(wú)需獨(dú)立的對(duì)象檢測(cè)或額外的標(biāo)注[21]。這種方法涉及特征的全局聚合與交互空間的映射。通過(guò)GCN推理后,將關(guān)系感知特征映射回原空間,從而促進(jìn)如顯著目標(biāo)檢測(cè)等后續(xù)任務(wù)的執(zhí)行[22]。其大致框架如下:
1) 坐標(biāo)到交互空間轉(zhuǎn)換。首先,確立投影函數(shù),將原始特征映射至有利于全局推理的交互空間,特別是針對(duì)遠(yuǎn)隔和非重疊區(qū)域。
2) 圖卷積推理。在映射后,形成描述節(jié)點(diǎn)特征的圖,捕捉節(jié)點(diǎn)關(guān)系并轉(zhuǎn)化為節(jié)點(diǎn)特征互動(dòng)。利用圖卷積進(jìn)行高效分析,優(yōu)于高成本的特征連接或簡(jiǎn)單關(guān)系網(wǎng)絡(luò),通過(guò)全連通圖結(jié)構(gòu)學(xué)習(xí)節(jié)點(diǎn)間的權(quán)重,保持特征維度的一致性。
3) 反向映射。為了與標(biāo)準(zhǔn)CNN框架兼容,最后一步是將推理后的特征反投回原坐標(biāo)空間,以便后續(xù)卷積層利用增強(qiáng)的特征進(jìn)行決策。反向映射過(guò)程與正向映射相似。
2.1.2 關(guān)系推理
該模型的核心包括關(guān)系推理編碼器和多尺度注意力解碼器,旨在克服光學(xué)遙感圖像(RSIs) [23-25]中顯著物體檢測(cè)的難題,如復(fù)雜背景和尺度變化,并已取得顯著成果。具體如下:
1) 關(guān)系推理編碼器。面對(duì)檢測(cè)目標(biāo)的多樣性和尺度變化,模型利用目標(biāo)間的關(guān)系輔助檢測(cè),通過(guò)圖結(jié)構(gòu)將對(duì)象關(guān)系轉(zhuǎn)化為特征節(jié)點(diǎn)交互,實(shí)施關(guān)系推理。借鑒圖模型在視覺(jué)任務(wù)中的有效性,編碼器綜合空間與通道維度,分步進(jìn)行關(guān)系推理,先構(gòu)建空間推理特征,再據(jù)此進(jìn)行通道關(guān)系推理,深化內(nèi)部關(guān)系理解。
2) 多尺度注意力解碼器。解碼階段融合多級(jí)特征圖,旨在恢復(fù)不同尺度的顯著目標(biāo)。利用底層特征的高分辨率和細(xì)節(jié)優(yōu)勢(shì),結(jié)合多尺度與注意力機(jī)制,一方面應(yīng)對(duì)物體尺寸變化,另一方面篩選編碼階段的冗余信息。解碼器設(shè)計(jì)了兩種注意力策略:一是直接計(jì)算不同視野下的多尺度注意力圖并融合;二是先提取多尺度特征,再逐尺度計(jì)算注意力。
盡管成效顯著,該模型仍面臨挑戰(zhàn):完全識(shí)別突出物體、有效抑制非顯著高對(duì)比度物體,以及妥善處理復(fù)雜陰影,這些問(wèn)題需要在后續(xù)研究中持續(xù)優(yōu)化。
2.2 基于圖注意網(wǎng)絡(luò)進(jìn)行顯著目標(biāo)檢測(cè)
圖注意力網(wǎng)絡(luò)通過(guò)注意力機(jī)制聚焦關(guān)鍵節(jié)點(diǎn),增強(qiáng)特征捕捉能力。例如,DANet利用空間和通道注意力整合局部與全局特征[26],而金字塔注意力網(wǎng)絡(luò)[10]通過(guò)多級(jí)上下文聚合處理尺度變化,兩者均能促進(jìn)顯著目標(biāo)檢測(cè)。也有研究將幾種圖網(wǎng)絡(luò)融合以提升檢測(cè)性能,例如在[27]中創(chuàng)新性地引入了圖交互網(wǎng)絡(luò),結(jié)合圖結(jié)構(gòu)信息和圖卷積特征,提高了在場(chǎng)景中檢測(cè)顯著目標(biāo)的性能。另如ST-GCN[28]雖然主要用于動(dòng)作識(shí)別,但其時(shí)空建模能力對(duì)理解目標(biāo)運(yùn)動(dòng)模式和分布同樣寶貴。ST-GCN運(yùn)用GCN處理時(shí)空數(shù)據(jù),不僅捕獲空間關(guān)系和時(shí)序動(dòng)態(tài),還通過(guò)節(jié)點(diǎn)表示學(xué)習(xí)區(qū)分圖像或視頻中不同區(qū)域的特征,適應(yīng)不同尺度的特征分析,增強(qiáng)了在顯著目標(biāo)檢測(cè)中的位置和形狀識(shí)別,以及魯棒性和準(zhǔn)確性。
2.3 基于圖自編碼器進(jìn)行顯著目標(biāo)檢測(cè)
圖自編碼器通過(guò)學(xué)習(xí)圖數(shù)據(jù)的低維表示,有效壓縮和重構(gòu)特征,在顯著目標(biāo)檢測(cè)中捕捉深層結(jié)構(gòu)信息。研究結(jié)合圖卷積網(wǎng)絡(luò)與圖自編碼器,前者用于理解360°視XSoMlHpkC+fd29bFEVlRRA==頻中目標(biāo)的空間上下文,后者則學(xué)習(xí)低維特征以提取關(guān)鍵信息,優(yōu)化檢測(cè)效果。而文獻(xiàn)[29]中加入的圖注意力機(jī)制,使網(wǎng)絡(luò)能動(dòng)態(tài)聚焦3D場(chǎng)景中關(guān)鍵區(qū)域,精準(zhǔn)捕捉目標(biāo)特征,同時(shí)借助自編碼器提煉高級(jí)特征表示,增強(qiáng)了從3D數(shù)據(jù)中提取顯著特征的能力,整體提升了復(fù)雜場(chǎng)景下顯著目標(biāo)的檢測(cè)性能。這表明圖自編碼器與其他圖模型的融合,可極大促進(jìn)多場(chǎng)景下顯著目標(biāo)檢測(cè)的性能。
2.4 基于圖生成網(wǎng)絡(luò)進(jìn)行顯著目標(biāo)檢測(cè)
圖生成網(wǎng)絡(luò)憑借學(xué)習(xí)圖內(nèi)節(jié)點(diǎn)與邊的互動(dòng),革新了顯著目標(biāo)檢測(cè)領(lǐng)域,通過(guò)圖像生成強(qiáng)調(diào)目標(biāo),以節(jié)點(diǎn)代表像素或區(qū)域,邊定義彼此關(guān)聯(lián)。網(wǎng)絡(luò)設(shè)計(jì)圍繞節(jié)點(diǎn)和邊的定義及架構(gòu)搭建,利用生成過(guò)程區(qū)分并突出目標(biāo),借助圖結(jié)構(gòu)特征學(xué)習(xí)實(shí)現(xiàn)高效數(shù)據(jù)壓縮與高質(zhì)量重構(gòu),深化對(duì)目標(biāo)結(jié)構(gòu)特征的理解[13]。
為精確把握目標(biāo)空間分布及上下文,常結(jié)合圖卷積網(wǎng)絡(luò)(GCN) 來(lái)強(qiáng)化節(jié)點(diǎn)間聯(lián)系理解。另外,結(jié)合圖注意力機(jī)制,可使系統(tǒng)動(dòng)態(tài)聚焦圖的關(guān)鍵部分,精準(zhǔn)定位與描述顯著目標(biāo)。擴(kuò)展到3D場(chǎng)景,該方法通過(guò)自編碼器學(xué)習(xí)高階特征表示,從3D數(shù)據(jù)中提煉顯著特征,增強(qiáng)檢測(cè)效果與泛化能力。
總體來(lái)說(shuō),圖生成網(wǎng)絡(luò)利用圖論優(yōu)勢(shì),在多樣環(huán)境中展現(xiàn)了卓越的顯著目標(biāo)檢測(cè)能力,開(kāi)創(chuàng)了捕捉目標(biāo)特征的新途徑。
3 顯著目標(biāo)檢測(cè)數(shù)據(jù)集
3.1 數(shù)據(jù)集合
當(dāng)前的深度學(xué)習(xí)顯著目標(biāo)檢測(cè)技術(shù)高度依賴(lài)大規(guī)模數(shù)據(jù)集,如DUT-OMRON、DUTS、HKU-IS、ECSSD/ CSSD、SOD 及PASCAL-S 等,用以訓(xùn)練和評(píng)估模型。這些數(shù)據(jù)集的特點(diǎn)如下:
1) DUT-OMRON。包含5 168幅圖像,最大邊為400像素,背景復(fù)雜,含有多個(gè)顯著對(duì)象,標(biāo)注詳盡。
2) DUTS。包含10 553幅訓(xùn)練圖和5 019幅測(cè)試圖,源自ImageNet DET與SUN,場(chǎng)景豐富,適用于顯著性檢測(cè)。
3) HKU-IS。包含4 447幅圖像,全部帶有像素級(jí)顯著對(duì)象標(biāo)注,劃分為測(cè)試集和訓(xùn)練集。
4) ECSSD/CSSD。分別包含1 000幅和200幅復(fù)雜場(chǎng)景圖,含有像素級(jí)標(biāo)注,有助于學(xué)習(xí)顯著性特征。
5) SOD?;贐SD,包含300幅圖像,涵蓋7類(lèi)對(duì)象,專(zhuān)注于顯著邊界。
6) PASCAL-S。源于PASCAL VOC,包含850 幅圖像,具有二進(jìn)制標(biāo)注,用于評(píng)估顯著目標(biāo)檢測(cè)性能。
這些數(shù)據(jù)集共同推動(dòng)了顯著目標(biāo)檢測(cè)技術(shù)的發(fā)展,提供了多樣化和復(fù)雜的測(cè)試基準(zhǔn)。
3.2 評(píng)價(jià)指標(biāo)
為了評(píng)估性能,本節(jié)重點(diǎn)介紹以下廣泛使用的評(píng)價(jià)指標(biāo):精確率(PR) 、F分?jǐn)?shù)(F-Measure) 、平均絕對(duì)誤差(Mean Absolute Error,MAE) 、S分?jǐn)?shù)(S-Measure) 、PR 曲線(xiàn)(PR curves) 、E分?jǐn)?shù)(E-Measure) 。
1) 精確率(PR) 。精確率是輸出位置在給定的真值閾值距離內(nèi)的幀的百分比。在某些場(chǎng)景下,也可以使用最大精確率(MPR) 作為評(píng)價(jià)指標(biāo)。
2) F-分?jǐn)?shù)(F-Measure) 。融合準(zhǔn)確率與召回率,通過(guò)調(diào)和平均取得,反映綜合性能。
3) 平均絕對(duì)誤差(MAE) 。表示預(yù)測(cè)值和觀測(cè)值之間絕對(duì)誤差的平均值,通常越小越好。
4) S分?jǐn)?shù)(S-Measure) 。該指標(biāo)的計(jì)算涉及顯著性圖的結(jié)構(gòu)相似性和顯著性圖的區(qū)域相似性。具體形式可能因研究和實(shí)現(xiàn)而異。該指標(biāo)的取值范圍通常在0到1之間,其中1表示完美匹配。
5) PR曲線(xiàn)(PR curves) 。即以召回率(Recall) 為橫坐標(biāo),精確率為縱坐標(biāo)繪制而成的曲線(xiàn),通過(guò)調(diào)節(jié)分類(lèi)閾值,可以得到不同的召回率和精確率,從而得到PR曲線(xiàn)。
6) E分?jǐn)?shù)(E-Measure) 。綜合考慮了算法生成的顯著性圖與真實(shí)顯著性圖之間的結(jié)構(gòu)相似性、亮度一致性和顯著目標(biāo)的區(qū)域相似性。E-measure的計(jì)算公式和具體實(shí)現(xiàn)可能有一些變化,取決于研究和評(píng)估的具體設(shè)置。該指標(biāo)的取值范圍通常在0到1之間,其中1表示完美匹配。
4 總結(jié)
本文回顧了顯著目標(biāo)檢測(cè)的演進(jìn),包括從早期技術(shù)到近期深度學(xué)習(xí)技術(shù),并著重介紹了圖神經(jīng)網(wǎng)絡(luò)(GNN) 在此領(lǐng)域的應(yīng)用。文章首先概述了GNN的基本構(gòu)成,隨后分類(lèi)探討了其在顯著目標(biāo)檢測(cè)上的研究進(jìn)展,同時(shí)涵蓋了關(guān)鍵數(shù)據(jù)集與評(píng)價(jià)標(biāo)準(zhǔn)。
展望未來(lái),GNN在該領(lǐng)域的潛在研究方向包括:
1) 動(dòng)態(tài)圖處理。針對(duì)視頻數(shù)據(jù),研發(fā)適應(yīng)性強(qiáng)的GNN,實(shí)現(xiàn)實(shí)時(shí)圖分析預(yù)測(cè),提升視頻顯著目標(biāo)檢測(cè)的精度。
2) 不完整圖學(xué)習(xí)。研究處理圖數(shù)據(jù)缺失問(wèn)題的方法,恢復(fù)丟失信息,增強(qiáng)實(shí)際場(chǎng)景下的應(yīng)用能力。
3) 不確定性建模。探究GNN在捕捉顯著目標(biāo)不確定性上的潛力,以增強(qiáng)系統(tǒng)的魯棒性和可靠性。
這些方向有望推動(dòng)顯著目標(biāo)檢測(cè)技術(shù)的進(jìn)一步發(fā)展。
【通聯(lián)編輯:唐一東】