陳志武,成 曦,曾 黎,錢曉亮
鄭州輕工業(yè)大學(xué) 電氣信息工程學(xué)院,鄭州450002
隨著科技的發(fā)展與進(jìn)步,大量的多媒體產(chǎn)品被廣泛應(yīng)用于日常生活,比如電腦、照相機(jī)、智能手機(jī)等產(chǎn)品,因此產(chǎn)生了海量的圖像。在這其中,如何從海量圖像中篩選人們所需要的部分,顯得十分重要。作為計(jì)算機(jī)視覺的一個(gè)分支——協(xié)同顯著性檢測(cè),是模擬人類視覺注意機(jī)制,檢測(cè)一組相關(guān)圖像中公共顯著的目標(biāo)區(qū)域,實(shí)現(xiàn)對(duì)圖像的篩選和鑒別功能,大大減少了人力和存儲(chǔ)的成本。此外,它還被廣泛地應(yīng)用于其他計(jì)算機(jī)視覺任務(wù),如圖像分割[1]、圖像和視頻的檢索[2]、視頻壓縮[3]、目標(biāo)檢測(cè)[4]等領(lǐng)域。
在協(xié)同視覺顯著性檢測(cè)的研究中,研究者一直主要圍繞兩個(gè)關(guān)鍵性問題:一方面,獲取單幅的視覺顯著性特征(Intra-saliency);另一方面,挖掘一組相關(guān)圖像間的相似性[5](Inter-saliency)。早期傳統(tǒng)的協(xié)同視覺顯著性檢測(cè)方法,利用提取淺層特征對(duì)圖像中每個(gè)像素或區(qū)域進(jìn)行協(xié)同顯著程度的打分,從而推理協(xié)同顯著性的目標(biāo)或區(qū)域[6],這些淺層的特征包括顏色直方圖、梯度直方圖、尺度不變特征轉(zhuǎn)換描述符SIFT等手工特征和通過PCA、SPCA[7]、ICA[8]等算法產(chǎn)生的特征。后來研究人員發(fā)現(xiàn),傳統(tǒng)方法都存在一個(gè)共性問題:使用的淺層特征比較主觀,而且并不能有效描述圖像的信息,從而影響特征對(duì)后續(xù)組間顯著性的推理,引起檢測(cè)精度不佳的問題,尤其是當(dāng)圖像中存在復(fù)雜場(chǎng)景和前景與背景相似的情況,這一問題更加明顯。近年來,由于深度學(xué)習(xí)的出現(xiàn),協(xié)同視覺顯著性檢測(cè)得到快速發(fā)展,其檢測(cè)精度有了很大提升,具體體現(xiàn)在這兩個(gè)方面:其一,在特征方面,深度學(xué)習(xí)的方法可以利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)提取圖像的深層特征,這種深層特征具有更全面描述圖像的能力,從而解決傳統(tǒng)方法淺層特征過于主觀的問題;其二,在模型方面,深度學(xué)習(xí)促使視覺顯著性檢測(cè)領(lǐng)域產(chǎn)生大量?jī)?yōu)秀的CNN模型,此類模型能有效地解決協(xié)同顯著性研究中的一個(gè)關(guān)鍵性問題,即獲取單幅圖像顯著性特征,同時(shí)基于CNN模型的性能,在挖掘組間圖像相似性方面有較好的性能。
基于以上現(xiàn)狀,本文對(duì)現(xiàn)有流行的協(xié)同視覺顯著性檢測(cè)方法進(jìn)行相關(guān)研究。根據(jù)提取的圖像特征深淺程度,將其分為:采用淺層特征的方法(傳統(tǒng)的方法)和采用深層特征的方法(基于深度學(xué)習(xí)的方法),針對(duì)這兩類算法圍繞協(xié)同顯著性檢測(cè)的關(guān)鍵性兩個(gè)問題進(jìn)行介紹、實(shí)驗(yàn)分析和總結(jié)。
本文通過特征層次和模型構(gòu)建兩方面去分析和總結(jié)協(xié)同顯著性檢測(cè)方法的性能,其主要的貢獻(xiàn)如下:
首先,對(duì)現(xiàn)有的協(xié)同視覺顯著性檢測(cè)方法進(jìn)行分類介紹、分析和總結(jié)。
然后,在兩個(gè)數(shù)據(jù)庫上,對(duì)流行的協(xié)同顯著性檢測(cè)方法進(jìn)行定性和定量的實(shí)驗(yàn)對(duì)比,并進(jìn)行分析。
最后,總結(jié)了現(xiàn)階段協(xié)同視覺顯著性檢測(cè)方法存在的問題,提出了理論性的解決方案。同時(shí),對(duì)未來工作進(jìn)行展望。
協(xié)同視覺顯著性檢測(cè)是視覺顯著性檢測(cè)的一個(gè)重要分支,視覺顯著性檢測(cè)[9]是凸顯在一張圖像中顯著的目標(biāo)區(qū)域,而協(xié)同視覺顯著檢測(cè)捕捉的是一組圖像中共同顯著的目標(biāo)區(qū)域,通過對(duì)比發(fā)現(xiàn)協(xié)同顯著性檢測(cè)是一個(gè)更具有挑戰(zhàn)性的機(jī)器視覺任務(wù),具體的檢測(cè)差異形式如圖1所示。
圖1 顯著性檢測(cè)和協(xié)同顯著性檢測(cè)的真值圖對(duì)比Fig.1 Comparison of ground truth for saliency detection and co-saliency detection
協(xié)同顯著性檢測(cè)是衍生于顯著性檢測(cè),并在不同時(shí)期賦予其不同的定義形式。最早期的視覺顯著性是ITTI等[10]提出的,其定義是人眼注意機(jī)制的預(yù)測(cè)形式[11],其顯著圖是以顯著程度量值化形式呈現(xiàn)的。隨后視覺顯著性檢測(cè)視覺任務(wù)不斷延伸,則出現(xiàn)了最早的協(xié)同視覺顯著性檢測(cè)[12],Jacobs等將其定義為:在幾乎不變的場(chǎng)景中,去檢測(cè)在兩張圖像中引起局部差異變化的同一顯著目標(biāo)。后又被定義為:在一對(duì)相似的場(chǎng)景圖像中檢測(cè)出共同顯著的目標(biāo)[8,13]。再經(jīng)過多年的發(fā)展,研究者發(fā)現(xiàn)背景高度相似的要求限制了其適用性,而在不同的背景中更符合實(shí)際情況、并具有通用性。最后定義為,在一組相關(guān)圖像中,檢測(cè)共同顯著的目標(biāo)或區(qū)域[14]。
針對(duì)已有的協(xié)同視覺顯著性檢測(cè)方法,根據(jù)特征形式差異,將其分為兩大類:傳統(tǒng)的方法和基于深度學(xué)習(xí)的方法,并對(duì)這兩大類型方法進(jìn)行詳細(xì)的介紹和理論分析。
傳統(tǒng)的方法一般是基于淺層的特征進(jìn)行檢測(cè),淺層的特征包括:顏色直方圖、梯度直方圖、SIFT等手工特征和通過人為設(shè)計(jì)算法提取的特征。為了更清晰地介紹傳統(tǒng)方法,依據(jù)組間顯著性的策略差異,傳統(tǒng)的方法可再細(xì)分為:相似性對(duì)比方法、基于聚類的方法、基于秩分析的方法。這些傳統(tǒng)的方法取得了不錯(cuò)的檢測(cè)效果,并對(duì)后續(xù)的研究具有啟發(fā)式的意義,具體介紹如下。
2.1.1 基于線性相似性對(duì)比的方法
在早期的協(xié)同顯著性檢測(cè)中,一般是通過計(jì)算一組相關(guān)圖像間的手工特征相似性來描述組間圖像的顯著性。例如,Li等[13]提出最早線性相似性對(duì)比的方法來整合單幅和組間圖像的顯著性,其中的單幅顯著性特征是利用三種視覺顯著性的技術(shù)[10,15-16]來獲取,而組間顯著性是通過SimRank算法來計(jì)算圖像特征層的節(jié)點(diǎn)距離產(chǎn)生的。后來,研究者發(fā)現(xiàn)這種方法表征組間顯著性較弱。其中,Li等[14]對(duì)該線性融合的方法做了一些改進(jìn),他們采用金字塔特征間的兩兩相似度排序和最小生成樹匹配來衡量組間圖像的相似性。此外,為了更好計(jì)算一組相關(guān)圖像間相似性,Li等[17]構(gòu)思了一種單幅視覺顯著性檢測(cè)引導(dǎo)協(xié)同視覺顯著性檢測(cè)的方法,一方面通過已有顯著性模型去獲取圖像的單幅顯著性特征,另一方面通過不同查詢排序的方案獲取圖像間相似性,從而提高協(xié)同顯著性檢測(cè)的精度。但是,其特征線索依賴早期的顯著性檢測(cè)模型,限制了其檢測(cè)性能。此外,Liu等[18]構(gòu)建了一種基于分層分割的模型,通過區(qū)域的直方圖特征,更好地衡量各個(gè)區(qū)域的全局相似性。
2.1.2 基于聚類的方法
Fu等首次提出了一種基于聚類的檢測(cè)方法[19],利用聚類思想有效地學(xué)習(xí)單幅圖像的顯著性和多幅圖像間的顯著性。在此模型中,他們采用對(duì)比性線索、空間線索以及一致性線索來衡量聚類的顯著性特征,最終將單幅顯著性和多幅圖像顯著性融合產(chǎn)生最終協(xié)同顯著性圖。這種聚類的思想不僅簡(jiǎn)單,而且有效地提高檢測(cè)的精度。但是該方法嚴(yán)重依賴于自定義的手工設(shè)計(jì)線索,它們通常過于主觀,因此不能很好地推廣到實(shí)踐中遇到的各種場(chǎng)景。
2.1.3 基于秩分析的方法
研究者發(fā)現(xiàn)一組相關(guān)圖像中共同顯著目標(biāo)區(qū)域的直方圖矩陣具有相似的低秩特征,可以來表征組間的顯著性關(guān)系。于是,Cao等[20]提出了基于低秩矩陣近似和低秩矩陣恢復(fù)的方法,來衡量多種顯著性線索的自適應(yīng)權(quán)重,以突顯一組圖像中的共同顯著區(qū)域。由于該方法特征是單尺度的,存在對(duì)圖像表征能力不足的問題,使得在復(fù)雜的自然場(chǎng)景中無法捕捉到公共顯著性目標(biāo)。后來,Huang等[21]采取了一種新的改進(jìn)策略,通過多尺度超像素的低秩分析檢測(cè)出顯著性目標(biāo)區(qū)域,并利用自適應(yīng)融合單幅顯著性圖來產(chǎn)生協(xié)同顯著圖。此外,Li等[22]分別利用低秩矩陣恢復(fù)和顏色直方圖,去分別獲取區(qū)域級(jí)的顯著圖和圖像間一致性,引導(dǎo)像素級(jí)和區(qū)域級(jí)的相似度對(duì)比,從而得到協(xié)同顯著性圖。
上述三種類型的傳統(tǒng)方法利用淺層特征和人工設(shè)計(jì)的先驗(yàn)知識(shí),進(jìn)行協(xié)同顯著性推理,獲得令人滿意的檢測(cè)效果。然而,這種傳統(tǒng)的方法普遍存在一個(gè)共性問題[23-24],淺層的特征和先驗(yàn)知識(shí)線索往往是人工設(shè)計(jì)的、主觀的,對(duì)圖像的表征和推理能力不足,導(dǎo)致模型檢測(cè)不穩(wěn)定性的問題,有時(shí)甚至在比較復(fù)雜的場(chǎng)景中,模型檢測(cè)可能會(huì)失效。
基于深度學(xué)習(xí)的方法一般是利用CNN模型,學(xué)習(xí)一組圖像中的單幅和組間顯著性特征,再對(duì)兩種特征進(jìn)行融合,實(shí)現(xiàn)協(xié)同視覺顯著性檢測(cè)。由于基于深度學(xué)習(xí)的方法是通過CNN模型學(xué)習(xí)而獲取的深層特征,因此,該特征具有更好描述圖像信息的能力,彌補(bǔ)了傳統(tǒng)的方法中淺層特征過于主觀的缺點(diǎn)。此外,基于深度學(xué)習(xí)的方法依據(jù)在模型構(gòu)建中,特征提取模塊和推斷協(xié)同顯著性模塊是否相互分離,可將它們分為:非端到端的方法和端到端的方法,具體的介紹如下。
2.2.1 非端到端的方法
非端到端的方法一般是將圖像特征的提取模塊和推斷協(xié)同顯著性目標(biāo)模塊分為單獨(dú)的兩個(gè)部分,構(gòu)成是一個(gè)分步式檢測(cè)的模式。下面對(duì)現(xiàn)有流行的非端到端的檢測(cè)方法進(jìn)行具體介紹。
基于深度學(xué)習(xí)的非端到端方法有以下兩個(gè)特點(diǎn):其一,利用CNN模型獲取每幅圖像的深層特征;其二,通過人為設(shè)計(jì)的先驗(yàn)知識(shí)(相似性計(jì)算、聚類以及圖論等方法)去推理深層特征的組間顯著性關(guān)系,最后融合單幅和組間顯著性特征,去產(chǎn)生協(xié)同顯著性圖。例如,Zhang等[23]利用貝葉斯的方式去推理協(xié)同顯著性目標(biāo),首先利用CNN模型分別在單幅圖像和一組圖像中提取邊框級(jí)別的深度特征,然后通過貝葉斯方式計(jì)算單幅圖像的特性和相似性、組間圖像間的特性和相似性,來衡量圖像的協(xié)同顯著性得分,最后利用得分引導(dǎo)出超像素分割的協(xié)同顯著區(qū)域。但是,由于采用人為設(shè)計(jì)的先驗(yàn)知識(shí),對(duì)于組間顯著性關(guān)系推理具有主觀性,導(dǎo)致模型檢測(cè)不穩(wěn)定性的問題。后來,研究者在組間圖像相似性計(jì)算的方面,提出了不同的改進(jìn)策略。其中,Yao等[25]提出了一種基于兩階段多視點(diǎn)光譜旋轉(zhuǎn)聯(lián)合聚類的方法,通過結(jié)合多種互補(bǔ)特征的方式進(jìn)行兩階段聯(lián)合聚類,而且利用光譜旋轉(zhuǎn)不變量來保證最終聚類指標(biāo)矩陣的最優(yōu)解,從而增強(qiáng)組間顯著性的推導(dǎo)性能。而Zhang等[26]首次提出了一種自步多示例學(xué)習(xí)的模型,通過這種自步學(xué)習(xí)策略去模擬人類的學(xué)習(xí)機(jī)制,使檢測(cè)模型更加穩(wěn)健。對(duì)于圖論的策略,Hsu等[1]通過基于圖論的最優(yōu)解問題,去互補(bǔ)迭代的優(yōu)化協(xié)同分割和協(xié)同顯著性檢測(cè)性能,該迭代方式進(jìn)行區(qū)域級(jí)的自適應(yīng)顯著性融合和目標(biāo)分割,在兩個(gè)互補(bǔ)任務(wù)之間傳遞有用的信息,通過優(yōu)化迭代,參照目標(biāo)的分割,逐步清晰化協(xié)同顯著的各個(gè)區(qū)域,最后獲得整個(gè)協(xié)同顯著區(qū)域。此外,為了更好提高檢測(cè)的精度,提出了兩階段的由粗到細(xì)優(yōu)化策略,進(jìn)行協(xié)同顯著性檢測(cè)。Zhang等[27]提出一種掩模引導(dǎo)和多尺度標(biāo)簽平滑的全卷積網(wǎng)絡(luò),實(shí)現(xiàn)協(xié)同顯著性圖像由粗到細(xì)的精化過程,這種網(wǎng)絡(luò)既能更好地捕獲公共顯著目標(biāo),又能有效地抑制背景。Tsai等[28]采用一種新的兩階段策略,第一階段,通過無監(jiān)督的堆疊式自編碼器來評(píng)估圖像的前景一致性和前景、背景差異性,得到初步的協(xié)同顯著性圖;第二階段,構(gòu)建自訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)去解決初步檢測(cè)圖像的多尺度平滑問題,從而得到更清晰的協(xié)同顯著性圖。此外,Hsu等[29]通過無監(jiān)督學(xué)習(xí)覆蓋共同類別的圖像來實(shí)現(xiàn)協(xié)同顯著性檢測(cè),并提出了兩種無監(jiān)督損失函數(shù)來優(yōu)化模型的性能。
對(duì)于非端到端的模型,采用先特征提取、后特征推理的兩步驟方式,去挖掘組間的顯著性,取得不錯(cuò)的檢測(cè)效果。但存在著一個(gè)共性問題,特征提取模塊和推斷協(xié)同顯著性模塊是兩個(gè)獨(dú)立的過程,學(xué)習(xí)的特征未能定向地推理共同顯著區(qū)域,導(dǎo)致模型的次優(yōu)解問題。因此研究者對(duì)此得到啟發(fā),并進(jìn)行了后續(xù)的相關(guān)改進(jìn)。
2.2.2 端到端的方法
端到端的方法是特征提取模塊和推斷協(xié)同顯著性模塊整合到一起,進(jìn)行共同訓(xùn)練的檢測(cè)方法。相比于非端到端方法,此類方法具有更好的檢測(cè)性能,下面介紹一下主流的端到端方法。
一般的端到端方法是基于全卷積構(gòu)建的,通過注意力機(jī)制卷積、圖卷積以及類別語義等方式來增強(qiáng)組間圖像的顯著性推斷性能,并獲得了較高的檢測(cè)精度。最初的端到端模型是Wei等[30]提出的,他們構(gòu)建了一種成組圖像輸入和成組輸出的全卷積網(wǎng)絡(luò),其整個(gè)網(wǎng)絡(luò)分為信息共享的兩個(gè)分支,一個(gè)分支提取成組輸入圖像中每張的單幅顯著性特征,另一分支挖掘成組輸入圖像的組間顯著性特征,最后卷積融合產(chǎn)生協(xié)同顯著性圖。這種純粹全卷積的端到端網(wǎng)絡(luò)存在一個(gè)問題:協(xié)同顯著性推理采用特征來自于整個(gè)圖像的,而不是來自于公共顯著目標(biāo)區(qū)域,使得冗余的特征(非公共顯著性目標(biāo))影響其推理效果。該方法具有很大啟示作用,研究者在此基礎(chǔ)上進(jìn)行相關(guān)的改進(jìn)。其中,有研究者利用圖卷積來改進(jìn)全卷積網(wǎng)絡(luò)。例如,Jiang等[31]提出了一種結(jié)合圖卷積和卷積學(xué)習(xí)來評(píng)估協(xié)同顯著的框架,該框架通過自適應(yīng)學(xué)習(xí)超像素的圖像特征、結(jié)構(gòu)和標(biāo)記三種信息,進(jìn)行協(xié)同顯著性的評(píng)估。此外,為了更好地挖掘組間顯著性特征,利用注意力機(jī)制卷積進(jìn)行相關(guān)改進(jìn)。例如,Gao等[32]搭建一種新的協(xié)同注意機(jī)制全卷積框架,一方面賦予公共顯著目標(biāo)區(qū)域較大的注意力權(quán)重,另一方面分配背景和干擾區(qū)域較小的注意力權(quán)重,去提高最終檢測(cè)性能。Zhang等[33]搭建了基于注意力機(jī)制圖聚類的自適應(yīng)圖卷積框架,首先通過圖卷積網(wǎng)絡(luò)獲取圖像內(nèi)和圖像間的特征關(guān)系,然后利用注意力機(jī)制圖聚類的方法來無監(jiān)督捕獲公共顯著目標(biāo),最后利用解碼器產(chǎn)生協(xié)同顯著性圖。Li等[34]利用協(xié)同注意機(jī)制構(gòu)建了一個(gè)RCAU(Recurrent Co-Attention Unit)的網(wǎng)絡(luò)去逐步優(yōu)化協(xié)同顯著性檢測(cè)過程。
后來研究者發(fā)現(xiàn),組間顯著性是由共同顯著目標(biāo)的類別語義決定的,而不是由顏色、紋理、形狀決定的,所以將類別語義作為輔助監(jiān)督信息去提高檢測(cè)精度。其中,Zha等[35]提出了組間圖像類別語義和深度視覺特征推導(dǎo)協(xié)同顯著檢測(cè)的方法,該方法首先利用一組相關(guān)圖像具有相同類別的語義進(jìn)行監(jiān)督訓(xùn)練,然后將類別語義信息去引導(dǎo)多層次的深度視覺特征進(jìn)行檢測(cè)。Zhang等[36]提出了一種梯度引導(dǎo)協(xié)同顯著性檢測(cè)的框架,并通過拼圖策略擴(kuò)充標(biāo)注樣本,增強(qiáng)模型的泛化能力。Zhang等[37]構(gòu)建了一種協(xié)同聚合與分布的網(wǎng)絡(luò),分別獲取圖像間的組間和個(gè)體語義信息,通過解碼器進(jìn)行協(xié)同顯著性目標(biāo)預(yù)測(cè)。Jin等[38]采用了一種內(nèi)部顯著性關(guān)聯(lián)網(wǎng)絡(luò),首先通過現(xiàn)有的顯著性檢測(cè)方法提取顯著性內(nèi)部顯著信息,然后采用關(guān)聯(lián)融合模型描述每張圖像內(nèi)部特征,最后通過分類重組的自相關(guān)策略進(jìn)行優(yōu)化。Fan等[39]提出了CoEG-Net,采用協(xié)同注意投影策略來提高了模型的可擴(kuò)展性和穩(wěn)定性。Ren等[40]構(gòu)建了一種基于協(xié)同特征提取和高低特征融合的模型,集成了目標(biāo)圖像的協(xié)同特征和多層次單個(gè)特征,利用單個(gè)圖像內(nèi)部信息來豐富協(xié)同特征。此外,Qian等[41]提出了基于雙支流編碼器生成式對(duì)抗網(wǎng)絡(luò)挖掘intra-saliency和inter-saliency的之間關(guān)系,進(jìn)行協(xié)同顯著性檢測(cè)。Tang[42]采用Transformers模型提高檢測(cè)的穩(wěn)定性,并通過對(duì)比學(xué)習(xí)方案來有效地區(qū)分公共顯著目標(biāo)和背景。
上述的端到端的方法中,Wei等最初提出經(jīng)典的成組圖像輸入和成組輸出的純粹全卷積網(wǎng)絡(luò),具有啟發(fā)式的意義。后續(xù)研究者發(fā)現(xiàn),其推理共同顯著目標(biāo)的特征:不是來自于整個(gè)圖像,而是來自于圖像的顯著性的區(qū)域。整個(gè)圖像的特征具有冗余信息,會(huì)干擾檢測(cè)的效果。于是,通過協(xié)同類別的語義、圖卷積和注意機(jī)制的改進(jìn)策略,去提取來自顯著性區(qū)域的特征,從而提高檢測(cè)的精度。
將已有的協(xié)同視覺顯著性檢測(cè)方法在兩個(gè)流行的數(shù)據(jù)庫上進(jìn)行主觀和客觀的實(shí)驗(yàn)評(píng)估,并進(jìn)行定性分析。
3.1.1 數(shù)據(jù)集
為了對(duì)算法進(jìn)行全面的評(píng)估,目前協(xié)同顯著性檢測(cè)的數(shù)據(jù)集一共有5個(gè),分別為:Image pair[13]、MSRC-A[43]、MSRC-B[43]、iCoseg[44]和Cosal2015[23]。但由于受算法公布結(jié)果和代碼的限制,同時(shí)方便后續(xù)實(shí)驗(yàn)的對(duì)比,如表1所示,本文選擇最流行的兩個(gè)數(shù)據(jù)集:iCoseg和Cosal2015,下面對(duì)這兩個(gè)數(shù)據(jù)集進(jìn)行介紹。
表1 協(xié)同顯著性數(shù)據(jù)集Table 1 Datasets of co-saliency
3.1.2 評(píng)價(jià)指標(biāo)
iCoseg數(shù)據(jù)集一共有643張圖像,其包含38組不同類別,圖像標(biāo)簽是人工標(biāo)注的像素級(jí)、二值化標(biāo)簽。此外,數(shù)據(jù)集的前景包含多個(gè)目標(biāo),且前景目標(biāo)差異變化較小,背景簡(jiǎn)單而且相似。
Cosal2015數(shù)據(jù)集是由ILSVRC2014[45]和YouTube Video[46]的數(shù)據(jù)集篩選出來的圖像組成,該數(shù)據(jù)集一共有2 015張圖像,其中包含50張不同的類別,圖像的標(biāo)簽也是人工標(biāo)注的像素級(jí)、二值化的標(biāo)簽。在數(shù)據(jù)集的圖像中,其前景包含一個(gè)或者多個(gè)共同顯著性目標(biāo),內(nèi)容變化較大;而且圖像背景相對(duì)復(fù)雜,有些與前景相似,具有干擾性。因此該數(shù)據(jù)集是目前最具有挑戰(zhàn)性的數(shù)據(jù)集。
為了更全面和有效地評(píng)估現(xiàn)有的算法,本文采用現(xiàn)在廣泛使用的三種評(píng)價(jià)指標(biāo):F-measure[47-48]、S-measure[49]和MAE,三種指標(biāo)的詳細(xì)介紹如下。
F-measure是協(xié)同顯著性檢測(cè)中常用的衡量前景區(qū)域相似性的評(píng)價(jià)指標(biāo),它是一種圖像的準(zhǔn)確率和召回率的調(diào)和平均值,其中的準(zhǔn)確率和召回率是利用自適應(yīng)閾值法確定。F-measure的表達(dá)式為:
其中β為0.3[23],Precision和Recall表示準(zhǔn)確率和召回率的值。本文采用自適應(yīng)F-measure和最大值F-measure進(jìn)行評(píng)估性能。
S-measure是應(yīng)用于計(jì)算在預(yù)測(cè)圖和真值圖之間區(qū)域級(jí)和目標(biāo)級(jí)的結(jié)構(gòu)性度量,其可表示為:
其中,Sr和So分別表示在預(yù)測(cè)圖中基于區(qū)域級(jí)的結(jié)構(gòu)相似性和基于目標(biāo)級(jí)的結(jié)構(gòu)相似性,a為0.5[49]。
MAE是衡量預(yù)測(cè)圖和真值圖的像素級(jí)平均差值,其中預(yù)測(cè)圖和真值都被歸一化到[0,1],MAE可表示為:
其中,W和H分別表示為圖像的寬度和長(zhǎng)度,而F和G分別表示預(yù)測(cè)圖和真值圖。
值得注意的是:F-measure和S-measure的數(shù)值與檢測(cè)效果成正比,而MAE數(shù)值與檢測(cè)效果成反比。
3.1.3 實(shí)驗(yàn)細(xì)節(jié)
硬件配置:Intel?XeonE5-2650 v4@2.2 GHz×12 cores×2 CPU,NVIDIA TITAN RTX@24 GB×8 GPU,512 GB。
軟件配置:按照已公開代碼的默認(rèn)參數(shù)進(jìn)行設(shè)置,代碼實(shí)現(xiàn)的軟件平臺(tái)如表2所示。
根據(jù)現(xiàn)有算法,對(duì)已公布代碼或者檢測(cè)結(jié)果的算法進(jìn)行實(shí)驗(yàn)對(duì)比。如表2所示,一共17種算法,其中已公布代碼的算法分別為CBCS[19]、ESMG[17]、SACS(-R)[20]、GICD[36]、TSEGAN[41]和ICNet[38],而已公布檢測(cè)結(jié)果的算 法 分 別 為CSHS[18]、DARM[50]、RFPR[22]、LDAW[23]、ASPM[26]、IPTD[51]、AUM[52]、GW[30]、RCAN[34]、CSMG[27]、GCAGC[33]。
表2 對(duì)比的算法Table 2 Comparison algorithms
3.2.1 在iCoseg數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果與分析
將現(xiàn)有的流行算法在iCoseg數(shù)據(jù)集上進(jìn)行主觀和客觀的對(duì)比。
在iCoseg數(shù)據(jù)集中,對(duì)14種流行算法進(jìn)行主觀對(duì)比,其中傳統(tǒng)算法有7種,分別為CBCS、SACS、SACS-R、CSHS、ESMG、RFPR和DARM,基于深度學(xué)習(xí)的方法中,非端到端的算法3種,分別為IPTD、LDAW和ASPM;端到端的算法4種,分別為GCAGC、GICD、TSEGAN和ICNet。并由圖2所示,展示了在iCoseg數(shù)據(jù)集上的三組檢測(cè)結(jié)果,分別是:阿拉斯加棕熊、紅襪隊(duì)球員、風(fēng)車。在前景和背景差異較大的紅襪隊(duì)球員和風(fēng)車組中,端到端的方法檢測(cè)效果最好,而非端到端的算法比傳統(tǒng)方法在前景結(jié)構(gòu)和邊緣細(xì)節(jié)方面稍微強(qiáng)一點(diǎn);但是在場(chǎng)景復(fù)雜的阿拉斯加棕熊組中,端到端的方法檢測(cè)效果比較清晰,而另外兩種類型的檢測(cè)效果都不理想。
圖2 在iCoseg數(shù)據(jù)集上的主觀對(duì)比Fig.2 Subjective comparison on iCoseg dataset
此外,對(duì)上述的14種流行算法進(jìn)行客觀對(duì)比,如圖3所示,深度學(xué)習(xí)的方法的自適應(yīng)F-measure、最大F-measure和S-measure整體的值都比傳統(tǒng)的方法稍微高一些,對(duì)于MAE而言,深度學(xué)習(xí)方法的值比傳統(tǒng)方法的值低一些,再一次說明了基于深度學(xué)習(xí)的非端到端方法優(yōu)于傳統(tǒng)方法。
圖3 在iCoseg數(shù)據(jù)集上的定量對(duì)比Fig.3 Quantitative comparison on iCoseg dataset
通過主觀和客觀實(shí)驗(yàn)分析可得:(1)基于深度學(xué)習(xí)的方法比傳統(tǒng)方法性能好一些;(2)在基于深度學(xué)習(xí)的方法中,端到端方法比非端到端方法檢測(cè)性能好。特別在背景復(fù)雜和前景、背景相似的情況下,更加展示了端到端方法檢測(cè)性能的優(yōu)越性。
3.2.2 在Cosal2015數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果與分析
將現(xiàn)有的流行算法在Cosal2015數(shù)據(jù)集上進(jìn)行主觀和客觀的對(duì)比。
在具有挑戰(zhàn)性的數(shù)據(jù)集Cosal2015上,文中展示了其中三組的結(jié)果,分別為飛機(jī)、蘋果、斧子。對(duì)比的算法一共有13種,其中傳統(tǒng)算法有4種,分別為ESMG、CBCS、SACS、SACS-R;基于深度學(xué)習(xí)的方法有7種,其中非端到端的方法有2種,分別為AUW和LDAW;端到端的方法7種,分別為GW、RCAN、CSMG、GCAGC、GICD、TSEGAN和ICNet。從圖4中這三組的檢測(cè)結(jié)果來看,基于深度學(xué)習(xí)的端到端方法檢測(cè)最佳,基于深度學(xué)習(xí)的非端到端的方法次之,傳統(tǒng)方法最差。此外,在蘋果一組中,相比其他類型的算法,端到端的方法具有理想地區(qū)分前景和背景能力。例如,非端到端的方法在顯著目標(biāo)(蘋果和檸檬)中無法區(qū)分公共顯著的目標(biāo)(蘋果),而端到端方法GCAGC和ICNet能夠區(qū)分出公共顯著目標(biāo)。
圖4 在Cosal2015數(shù)據(jù)集上的主觀對(duì)比Fig.4 Subjective comparison on Cosal2015 dataset
針對(duì)上述的13種流行算法進(jìn)行定量對(duì)比,如圖5所示,發(fā)現(xiàn):從各種評(píng)價(jià)指標(biāo)得分來看,基于深度學(xué)習(xí)的方法比傳統(tǒng)的方法要好一些;在深度學(xué)習(xí)方法中,端到端的模型比非端到端的模型好。
圖5 在Cosal2015數(shù)據(jù)集上的定量對(duì)比Fig.5 Quantitative comparison on Cosal2015 dataset
通過實(shí)驗(yàn)對(duì)比,并分析出以下兩點(diǎn):(1)再次驗(yàn)證了基于深度學(xué)習(xí)的方法整體優(yōu)于比傳統(tǒng)的方法,而在基于深度學(xué)習(xí)的方法中,端到端的方法比非端到端的方法檢測(cè)效果更好;(2)在Cosal2015的評(píng)價(jià)指標(biāo)得分整體比iCoseg差一些,說明了Cosal2015數(shù)據(jù)集比iCoseg數(shù)據(jù)集更具挑戰(zhàn)性。
本文針對(duì)流行的協(xié)同顯著性算法進(jìn)行相關(guān)研究,一方面,根據(jù)采用特征類型的不同,將現(xiàn)有方法分為傳統(tǒng)方法和基于深度學(xué)習(xí)的方法,并根據(jù)獲取組間顯著性策略和模型架構(gòu)方式的不同,將兩大類方法進(jìn)行細(xì)分和介紹;另一方面,在兩個(gè)公開的數(shù)據(jù)集上,對(duì)流行算法進(jìn)行了主觀和定量實(shí)驗(yàn)對(duì)比和分析。綜合理論和實(shí)驗(yàn)分析,對(duì)現(xiàn)有方法進(jìn)行了逐類分析和總結(jié),如表3所示。此外,綜合各類方法的表現(xiàn),可得出以下兩個(gè)結(jié)論:
表3 協(xié)同顯著性檢測(cè)方法的分類總結(jié)Table 3 Analysis of co-saliency detection methods
(1)基于端到端的方法檢測(cè)性能優(yōu)于其他類型的方法,是當(dāng)前研究的主流。
(2)目前最佳性能的算法在Cosal2015數(shù)據(jù)集上的主要檢測(cè)指標(biāo)(S-measure)尚未達(dá)到90%,說明在公共顯著目標(biāo)的推理策略方面仍需突破性的研究。
雖然協(xié)同顯著性檢測(cè)方法近幾年取得了不錯(cuò)的進(jìn)展,但仍存在一些難點(diǎn)問題值得進(jìn)一步研究。本文認(rèn)為該領(lǐng)域后續(xù)可以在以下兩個(gè)方面開展研究工作:
(1)針對(duì)目前協(xié)同顯著性檢測(cè)數(shù)據(jù)集的規(guī)模有限和人工樣本標(biāo)注的成本極高的問題,利用基于深度學(xué)習(xí)的弱監(jiān)督和半監(jiān)督的策略進(jìn)行協(xié)同顯著檢測(cè),來緩解當(dāng)前樣本的問題。比如,利用已公開帶類別標(biāo)簽的數(shù)據(jù)進(jìn)行弱監(jiān)督的預(yù)訓(xùn)練,再用協(xié)同顯著性的弱標(biāo)簽樣本進(jìn)行微調(diào),最后進(jìn)行協(xié)同顯著性檢測(cè),通過弱監(jiān)督方式降低對(duì)協(xié)同顯著性像素級(jí)標(biāo)簽的依賴。
(2)缺乏一種適合協(xié)同顯著性檢測(cè)的評(píng)價(jià)指標(biāo),有效地衡量一組圖像間協(xié)同顯著性目標(biāo)的關(guān)系。而當(dāng)前的協(xié)同顯著性檢測(cè)評(píng)價(jià)指標(biāo)(F-measure、S-measure、E-measure和MAE)都是針對(duì)顯著性目標(biāo)檢測(cè)所設(shè)計(jì)的,只能對(duì)單幅圖像進(jìn)行顯著性評(píng)估,未能有效地評(píng)估一組圖像間公共顯著目標(biāo)的相似性。因此,如何為協(xié)同顯著性檢測(cè)設(shè)計(jì)合適的評(píng)價(jià)指標(biāo)成為一個(gè)懸而未決的問題。