• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      融合多重注意力機(jī)制的人眼注視點(diǎn)預(yù)測

      2022-12-21 03:23:46孔力胡學(xué)敏汪頂劉艷芳張龑陳龍
      中國圖象圖形學(xué)報(bào) 2022年12期
      關(guān)鍵詞:注視點(diǎn)人眼注意力

      孔力,胡學(xué)敏*,汪頂,劉艷芳,張龑,陳龍

      1. 湖北大學(xué)計(jì)算機(jī)與信息工程學(xué)院,武漢 430062; 2. 中山大學(xué)數(shù)據(jù)科學(xué)與計(jì)算機(jī)學(xué)院,廣州 510006

      0 引 言

      人眼在觀察畫面時(shí)會(huì)傾向于關(guān)注自己感興趣的區(qū)域,自動(dòng)忽略一些不重要區(qū)域,這種機(jī)制稱為視覺注意力機(jī)制(Borji,2021;Dorta等,2018)。王文冠等人(2019)提出,從人類生理機(jī)理的角度而言,人類的視覺注意力機(jī)制基于視網(wǎng)膜的特殊生理結(jié)構(gòu),即高分辨率的視網(wǎng)膜中央凹和較低分辨率的邊緣視網(wǎng)膜。視網(wǎng)膜的中央凹區(qū)域集中了絕大多數(shù)的視錐細(xì)胞,負(fù)責(zé)視力的高清成像。人們關(guān)注某一物體時(shí),通過轉(zhuǎn)動(dòng)眼球?qū)⒐饩€集中到中央凹,獲取顯著區(qū)域的更多細(xì)節(jié)而忽略其他不相關(guān)區(qū)域的信息??梢?,人類視覺注意力機(jī)制引導(dǎo)視網(wǎng)膜的生理結(jié)構(gòu)完成對場景信息的選擇性收集任務(wù),該機(jī)制可將有限的腦資源用于場景中重要信息的處理,是人類視覺高效率和高精度的基礎(chǔ)。

      顯著目標(biāo)檢測的任務(wù)通常分為顯著區(qū)域檢測和人眼注視點(diǎn)預(yù)測兩類(Oyama和Yamanaka,2018)。早期的人眼注視點(diǎn)預(yù)測往往是基于人工選擇特征方法(Valenti等,2009)。Zhang和Sclaroff(2016)利用在LAB色彩空間(lab color space)中獲得的一組特征生成最終的人眼注視概率圖。這類方法通常只關(guān)注圖像的低級特征或只關(guān)注圖像的高級特征,沒有將不同層次的特征結(jié)合起來。

      隨著深度神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺任務(wù)上的廣泛應(yīng)用,人們在顯著目標(biāo)檢測上使用了深度神經(jīng)網(wǎng)絡(luò)技術(shù)。Vig等人(2014)首次使用深度神經(jīng)網(wǎng)絡(luò)技術(shù)預(yù)測顯著概率圖。之后,人們開始關(guān)注如何有效增加模型深度來提高模型的表達(dá)能力。SALICON(saliency in context)(Huang等,2015)將不同分辨率的圖像輸入同一種神經(jīng)網(wǎng)絡(luò),然后組合這些分辨率圖像的高級特征進(jìn)行預(yù)測。Deepfix(Kruthiventi等,2017)使用空洞卷積技術(shù)進(jìn)行預(yù)測。上述一些方法直接使用主干網(wǎng)絡(luò)的高層特征預(yù)測顯著圖,或不加區(qū)分地聚合多級特征進(jìn)行預(yù)測,這些方法都未考慮特征之間的冗余,容易導(dǎo)致不佳的預(yù)測效果(何偉和潘晨,2022)。

      注意力機(jī)制的發(fā)展為人眼注視點(diǎn)預(yù)測提供了新的方向。SAM-Res(saliency attention model)(Cornia等,2018)提出了帶有注意力機(jī)制的長短期記憶(long short-term memory,LSTM)人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。DINet(dilated inception network)(Yang等,2020)將帶有空洞卷積的IncePtion網(wǎng)絡(luò)用于自下而上的人眼注視點(diǎn)預(yù)測。GazeGAN(gaze generative adversarial network)(Che等,2020)采用通道方向的注意力進(jìn)行人眼注視點(diǎn)預(yù)測。盡管這些方法取得了良好的性能,但仍然沒有考慮不同層特征對顯著目標(biāo)的貢獻(xiàn)差異。

      現(xiàn)有基于注意力機(jī)制的人眼注視點(diǎn)預(yù)測研究往往集中在空間級和通道級注意力的問題上,既忽視了不同層級之間特征的重要性對預(yù)測結(jié)果的影響,也沒有分析和融合空間、通道以及層級多種注意力機(jī)制的模型。此外,現(xiàn)有方法較少考慮人眼在觀察事物時(shí)的中心偏置問題,導(dǎo)致預(yù)測精度有限。本文基于ConvLSTM(convolutional LSTM)模型,將層注意力機(jī)制與空間、通道注意力機(jī)制相融合,提出一種多重注意力機(jī)制的網(wǎng)絡(luò)(multiple attention mechanism network, MAM-Net)進(jìn)行人眼注視點(diǎn)預(yù)測。本文主要工作有以下3點(diǎn):1)提出一種層注意力機(jī)制,并與空間、通道注意力機(jī)制相融合,提出基于ConvLSTM的多重注意力模型,從層級、空間和通道多個(gè)角度增強(qiáng)模型的表征能力;2)提出一種高斯學(xué)習(xí)模塊,根據(jù)當(dāng)前的特征信息自動(dòng)選擇合適的高斯模糊參數(shù),優(yōu)化人眼注視點(diǎn)預(yù)測概率圖,解決人眼視覺的中心偏置問題,提高預(yù)測效果;3)在公開數(shù)據(jù)集上進(jìn)行多項(xiàng)綜合性測試。結(jié)果顯示,本文方法在多數(shù)人眼注視點(diǎn)預(yù)測指標(biāo)上超過了現(xiàn)有主流模型。

      1 多重注意力機(jī)制與人眼注視點(diǎn)預(yù)測

      本文提出的基于多重注意力機(jī)制的人眼注視點(diǎn)預(yù)測模型主要分為3部分,即圖像特征提取模塊、多重注意力模塊和高斯學(xué)習(xí)模塊,如圖1所示。

      圖1 人眼注視點(diǎn)預(yù)測總體流程圖Fig.1 Overview of eye fixation prediction

      1.1 圖像特征提取模塊

      本文提出的MAM-Net中的特征提取模型以ResNet-50作為主干網(wǎng)絡(luò)。在不減小圖像尺寸和增加模型參數(shù)的情況下,為緩解傳統(tǒng)ResNet-50在顯著性預(yù)測中特征信息丟失問題,在傳統(tǒng)ResNet-50的基礎(chǔ)上進(jìn)行改進(jìn),設(shè)計(jì)了一種基于空洞卷積(Liu和Han,2018)的ResNet-50網(wǎng)絡(luò)。空洞殘差卷積網(wǎng)絡(luò)(dilated ResNet,DRN)的參數(shù)設(shè)置如表1所示。為表述方便,將第1個(gè)卷積塊記做M0,其余4個(gè)殘差卷積模塊分別記做M1、M2、M3和M4,選擇每個(gè)殘差模塊的最后一層結(jié)果作為特征圖。為兼顧模型大小與精確度,本文選取的特征圖數(shù)量為原網(wǎng)絡(luò)所提取的1/8。

      表1 基于空洞卷積的ResNet-50參數(shù)設(shè)置Table 1 Parameters in the ResNet-50 based on dilated convolution

      1.2 多重注意力模塊

      由于淺層特征對于顯著圖的細(xì)節(jié)十分重要,而深層特征提供了抽象的語義信息。所以,初始特征圖先經(jīng)過通道、空間注意力處理,再利用層注意力機(jī)制來優(yōu)化不同層之間的權(quán)重,能有效突出特征表達(dá),最后輸入ConvLSTM中生成初步預(yù)測的特征圖Q,該過程如圖2所示。

      圖2 MAM結(jié)構(gòu)Fig.2 Architecture of the MAM

      1.2.1 通道注意力機(jī)制設(shè)計(jì)

      通道注意力的目的是表達(dá)某層卷積中不同通道之間的特征重要性(Hu等,2020),本文設(shè)計(jì)的通道注意力機(jī)制如圖3中紅色虛線框所示。

      F∈RH×W×C為提取到的特征圖,其中F可看成F=[F1,F2, …,Fc],F(xiàn)i∈RH×W表示第i個(gè)通道,C為通道的數(shù)量。對F同時(shí)使用全局最大池化操作和全局平均池化操作,得

      Favg=FC(GA(F))

      (1)

      Fmax=FC(GM(F))

      (2)

      式中,F(xiàn)C為全連接層(fully connected)函數(shù),GA和GM分別表示全局平均池化(global average pooling)和全局最大池化(global max pooling)。Favg和Fmax分別表示平均池化和最大池化后進(jìn)行FC后的特征。將大小為R1×1×C的權(quán)重向量Favg和Fmax進(jìn)行對應(yīng)元素加和操作,經(jīng)由激活函數(shù)生成最終的通道注意力參數(shù)Mc,即

      Mc=σ(Favg+Fmax)

      (3)

      式中,σ表示sigmoid函數(shù)。

      Fc為通道注意力處理后的特征,具體過程為

      Fc=Mc?F

      (4)

      式中,?代表元素相乘。

      圖3 通道注意力與空間注意力模塊Fig.3 Channel-spatial attention aggregation module

      1.2.2 空間注意力機(jī)制設(shè)計(jì)

      空間注意力的目的是表達(dá)同一通道圖像的不同區(qū)域像素點(diǎn)之間的權(quán)重關(guān)系(Woo等,2018),本文設(shè)計(jì)的空間注意力結(jié)構(gòu)如圖3綠色虛線框所示。

      將特征圖Fc在通道維度上先后進(jìn)行平均池化和最大池化操作,得到Fa和Fm∈RH×W×1,具體為

      Fa=GA(Fc)

      (5)

      Fm=GM(Fc)

      (6)

      式中,F(xiàn)a和Fm分別為經(jīng)過平均池化和最大池化后的特征圖。

      為了將Fa和Fm基于通道維度融合成一個(gè)有效的特征圖,本文設(shè)計(jì)大小為7 × 7的卷積進(jìn)行卷積操作,使其降維為單通道,接著通過激活函數(shù)得到空間注意力的特征參數(shù)Ms,具體為

      Ms=σ(f7×7[Fa;Fm])

      (7)

      式中,f7×7[Fa;Fm]為卷積操作。

      Fcs∈RH×W×C為通道—空間注意力處理后的特征圖,過程為

      Fcs=Ms?Fc

      (8)

      1.2.3 層注意力機(jī)制設(shè)計(jì)

      由于不同層的特征表述的信息不同,信息的重要程度也不同,若無差別地處理不同特征會(huì)影響最終的預(yù)測效果。本文提出一種層注意力機(jī)制,如圖4所示。將各個(gè)層級劃分成獨(dú)立的塊,初始每一個(gè)獨(dú)立的塊有相同的層級注意力的權(quán)重,層注意力的權(quán)重可以表達(dá)相對高效的層級特征。通過通道和空間注意力模塊后的特征記為Xt=Fcs∈RL×H×W×C,其中L為MAM-Net中提取的特征層數(shù),C為當(dāng)前特征具有的通道數(shù),W和H分別對應(yīng)特征圖的寬度和高度。層注意力機(jī)制計(jì)算為

      Wt=G*Ht-1

      (9)

      St=softmax(Wt)?L

      (10)

      (11)

      式中,Ht-1是ConvLSTM在t-1時(shí)刻生成的隱藏狀態(tài),*代表卷積操作,G為卷積模塊,利用GA和FC來改變每一層的權(quán)重,Wt∈RL×1×1×1。St為RL×H×W×C的權(quán)重圖。將Xt乘以St作為層注意力機(jī)制的輸出結(jié)果,得到輸入ConvLSTM的數(shù)據(jù)。

      1.3 高斯學(xué)習(xí)模塊

      人眼觀察圖像時(shí)傾向于圖像中心部分,這種中心偏置行為往往導(dǎo)致實(shí)際的人眼注視點(diǎn)與預(yù)測算法得到的結(jié)果不一致(Liang和Hu,2015;Tatler,2007)。

      圖4 層注意力機(jī)制Fig.4 Layer attention

      本文提出一種高斯學(xué)習(xí)模塊,通過設(shè)置不同的高斯濾波核來處理初步人眼注視點(diǎn)圖Q,生成最終的人眼注視點(diǎn)預(yù)測圖。高斯學(xué)習(xí)模塊由高斯濾波層和卷積層組成,如圖5所示。圖5中,n為高斯濾波核的數(shù)量,本文中n=10,為經(jīng)驗(yàn)值。

      在高斯濾波層中,將特征圖Q分別經(jīng)過n個(gè)不同高斯核的模糊處理,得到一組濾波后的圖像{Q1,Q2, …,Qn}。高斯濾波核可具體表示為

      (12)

      圖5 高斯學(xué)習(xí)模塊結(jié)構(gòu)Fig.5 Gussian learning module

      圖6 不同γ取值的人眼注視點(diǎn)預(yù)測圖Fig.6 Saliency prediction probability in differentγ((a)original image;(b)fixation maps; (c)saliency maps;(d)γ = 0.01;(e)γ = 0.02;(f)γ = 0.04;(g)γ = 0.06;(h)γ = 0.08;(i)prediction)

      1.4 損失函數(shù)

      SAM-Res模型在人眼注視點(diǎn)預(yù)測中取得了較好的結(jié)果,本文損失函數(shù)系數(shù)參照該方法,采用一種組合的損失函數(shù),由3個(gè)不同的顯著性評估指標(biāo)線性組合而成,能夠有效平衡不同評估指標(biāo)。具體為

      L(y,yden,yfix)=-LNSS-2LCC+10LKLD

      (13)

      式中,LNSS、LCC和LKLD分別代表計(jì)算歸一化掃描路徑一致性(normalized scanpath saliency,NSS)、線性相關(guān)系數(shù)(linear correlation coefficient,CC)和相對熵(Kullback-Leibler divergence,KLD)3個(gè)指標(biāo)的損失函數(shù)。LNSS用來計(jì)算預(yù)測值與人眼注視點(diǎn)之間的損失,LCC和LKLD用來計(jì)算預(yù)測值與注視點(diǎn)概率圖之間的損失。yden是數(shù)據(jù)集標(biāo)注的人眼注視點(diǎn)概率圖標(biāo)簽,yfix是數(shù)據(jù)集標(biāo)注的人眼注視點(diǎn)二值圖標(biāo)簽。標(biāo)簽數(shù)據(jù)會(huì)被標(biāo)準(zhǔn)化為均值為0、標(biāo)準(zhǔn)差為1的數(shù)據(jù)分布,y為預(yù)測圖。

      2 實(shí)驗(yàn)與結(jié)果分析

      實(shí)驗(yàn)硬件GPU為GeForce GTX 1080TI 11 GB,CPU為Intel Core i7-7700K,深度學(xué)習(xí)框架選用 PyTorch。

      采用公開數(shù)據(jù)集SALICON(Huang等,2015)和MIT300/1003(Judd等,2009)作為本文的實(shí)驗(yàn)數(shù)據(jù)集。測試SALICON數(shù)據(jù)集時(shí),先采用在ImageNet上訓(xùn)練好的分類模型的參數(shù),然后在SALICON上進(jìn)行訓(xùn)練微調(diào)。測試MIT300/1003數(shù)據(jù)集時(shí),使用從SALICON數(shù)據(jù)集上訓(xùn)練好的模型進(jìn)行微調(diào)。實(shí)驗(yàn)選擇Adam作為優(yōu)化器,batch size設(shè)置為8,epoch設(shè)置為29,采用SAM模型中的損失函數(shù)作為訓(xùn)練過程的損失函數(shù)。

      用于衡量人眼注視點(diǎn)模型預(yù)測結(jié)果的方法主要包括線性相關(guān)系數(shù)CC、相似性測度(similarity metric,SIM)、信息增益(information gain,IG)、相對熵KLD、受試者工作特性曲線下面積(area under ROC curve,AUC)及其改進(jìn)版sAUC(shuffled AUC)、歸一化掃描路徑一致性NSS(Bylinskii等,2018)。其中,CC用來統(tǒng)計(jì)預(yù)測圖與真實(shí)顯著圖之間的線性相關(guān)性;SIM用來衡量預(yù)測圖與真實(shí)顯著圖的交叉分布,衡量二者分布匹配程度;IG能夠估算模型相對于使用中心偏置技巧的信息增量;KLD用來衡量顯著性預(yù)測結(jié)果與真值分布之間的距離;AUC用以將檢測顯著圖作為二值分類器與真值顯著圖進(jìn)行比較;sAUC為AUC的變體,為了消除使用中心偏置技巧效應(yīng)的影響,隨機(jī)從其他顯著圖中挑選負(fù)類樣本;NSS能夠衡量人眼注視點(diǎn)固定位置的平均歸一化顯著性。

      CC、NSS和AUC之間具有高相關(guān)性,稱為相似度量集群。CC、NSS、AUC、sAUC、SIM和IG指標(biāo)數(shù)值越高,表明預(yù)測效果越好,KLD指標(biāo)是衡量二者顯著區(qū)域分布距離,數(shù)值越低表示越好。不同指標(biāo)在人眼注視點(diǎn)預(yù)測中的作用不同,本文采用這些指標(biāo)對實(shí)驗(yàn)結(jié)果進(jìn)行評價(jià)。

      2.1 不同注意力機(jī)制的對比實(shí)驗(yàn)

      多重注意力機(jī)制是本文的核心,在主流的人眼注視點(diǎn)數(shù)據(jù)集SALICON上進(jìn)行注意力模型的對比實(shí)驗(yàn)。具體方法為分別添加不同的注意力機(jī)制,將各個(gè)模塊拆除分別進(jìn)行對比實(shí)驗(yàn)。將通道、空間和層注意力機(jī)制分別簡稱為CA (channel attention)、SA(spatial attention)和LA (layer attention),真值簡稱為GT(ground truth)。

      圖7為可視化實(shí)例,加入多重注意力機(jī)制后不僅能清晰地預(yù)測出目標(biāo)區(qū)域,而且能很好地抑制背景的影響。引入通道注意力機(jī)制,可以對圖像中特征的種類有所側(cè)重,更好地理解圖像中的內(nèi)容。

      表2為在不同注意力機(jī)制驗(yàn)證集上的結(jié)果對比。表2中CA的CC、AUC和NSS相較于無注意力機(jī)制分別提高0.014、0.009和0.048,說明層注意力能夠更好地理解圖像中的內(nèi)容,提高預(yù)測注視點(diǎn)的位置以及分布精度。SA+CA方法的CC、sAUC和NSS相較于只引入通道機(jī)制分別提高0.007、0.005和0.015,顯示圖像的空間位置信息得到更好區(qū)分。在引入層注意力后,區(qū)別于傳統(tǒng)的使用深層特征作為最后預(yù)測,添加層注意力機(jī)制能后,模型能更好地提取特征,達(dá)到更好的預(yù)測效果,相較于添加通道和空間注意力,CC、sAUC和NSS指標(biāo)分別提高了0.017、0.007和0.034,表明經(jīng)過層注意力機(jī)制處理后的特征圖與真實(shí)圖存在更多的相似位置。

      2.2 消融實(shí)驗(yàn)

      為測試本文提出的多重注意力機(jī)制、高斯學(xué)習(xí)和空洞卷積模塊對人眼注視點(diǎn)預(yù)測的影響。以ResNet-50為主干網(wǎng)絡(luò),在SALICON數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn)。ResNet為原始版本ResNet-50上添加一個(gè)上采樣層,使模型獲得與標(biāo)簽圖像同樣分辨率的預(yù)測人眼注視點(diǎn)結(jié)果圖;DRN是加了空洞卷積的Res-Net-50;DRN + MAM結(jié)構(gòu)是加了空洞卷積的ResNet-50模型結(jié)構(gòu)后,使用MAM結(jié)構(gòu)優(yōu)化提取的特征;DRN + GL是在DRN結(jié)構(gòu)后添加一個(gè)高斯學(xué)習(xí)(Gussian learning,GL)模塊來優(yōu)化人眼注視概率圖。本文提出的MAM-Net模型是在DRN + MAM的結(jié)構(gòu)上添加高斯學(xué)習(xí)模塊來優(yōu)化預(yù)測結(jié)果。

      圖7 不同注意力機(jī)制效果圖Fig.7 Result images of different attention mechanisms((a)original image;(b)ground truth;(c)SA + CA + LA;(d)no attention;(e)CA;(f)SA + CA))

      表2 不同注意力機(jī)制在SALICON驗(yàn)證集的結(jié)果對比Table 2 Comparative results of different attention mechanisms on the SALICON dataset

      圖8為消融實(shí)驗(yàn)中不同模型訓(xùn)練過程的損失函數(shù)曲線圖,為使曲線更加簡潔清晰,采用epoch作為橫坐標(biāo)??梢钥闯?,在訓(xùn)練后期,本文提出的MAM-Net模型和DRN + GL模型在損失值上比較接近,從20個(gè)epoch后變化穩(wěn)定,且比其他模型的損失值明顯更小。

      圖8 訓(xùn)練過程中不同模型的損失函數(shù)曲線圖Fig.8 Loss function curves of different models in the training process

      圖9為添加不同模塊的可視化結(jié)果。

      表3為5種獨(dú)立模型的對比結(jié)果。可以看出,MAM-Net結(jié)構(gòu)在SALICON驗(yàn)證集上有3項(xiàng)評價(jià)指標(biāo)超過了其他組合,分別是AUC、NSS和sAUC,本文將MAM-Net作為人眼注視點(diǎn)預(yù)測的最優(yōu)選擇。表3中DRN結(jié)構(gòu)相較于普通的ResNet-50結(jié)構(gòu)得到了更好的結(jié)果,可以得知在原始ResNet-50上添加空洞卷積能提高對顯著性位置的預(yù)測精度;添加MAM模塊后,各項(xiàng)指標(biāo)相較于DRN模型存在一定提升,在CC指標(biāo)上達(dá)到了0.894,優(yōu)于對比方法,表明MAM模塊使用的多重注意力能更有效地提高顯著圖分布的預(yù)測;從表3第3行和第5行的對比中可知高斯學(xué)習(xí)模塊能夠提高模型預(yù)測精度。MAM-Net的AUC、sAUC和NSS的評分比只添加了MAM的結(jié)構(gòu)分別高出0.004、0.007和0.032,表明高斯學(xué)習(xí)模塊使預(yù)測結(jié)果更接近于人眼注視點(diǎn)的真實(shí)分布。

      圖9 不同模塊處理結(jié)果圖Fig.9 Result images with different modules((a)original image;(b)ground truth;(c)plain ResNet;(d)Dilated + ResNet;(e)DRN + MAM;(f)DRN + GL;(g)MAM-Net(ours))

      表3 MAM-Net不同模塊驗(yàn)證集對比實(shí)驗(yàn)Table 3 Ablation analysis of MAM-Net validation sets

      2.3 主流模型對比實(shí)驗(yàn)

      為了驗(yàn)證MAM-Net模型的有效性,將本文方法與目前主流人眼注視點(diǎn)預(yù)測模型SAM-Res(Cornia等,2018)和DINet(Yang等,2020)進(jìn)行對比實(shí)驗(yàn),結(jié)果如表4所示??梢钥闯?,在SALICON數(shù)據(jù)集上,對比相似使用ConvLSTM結(jié)構(gòu)的SAM-Res和DINet模型,本文提出的基于多重注意力機(jī)制的方法在sAUC指標(biāo)上分別高出 0.3%和0.5%,在IG指標(biāo)上分別提高了6%和192%,在KLD評價(jià)指標(biāo)上分別提高了33%和53%,在3種模型對比中均達(dá)到了最優(yōu)結(jié)果。

      表4 不同模型在SALICON測試數(shù)據(jù)集的結(jié)果對比Table 4 Comparative results of different methods on the SALICON test dataset

      為了驗(yàn)證模型的泛化能力,在難度較大的MIT300/MIT1003數(shù)據(jù)集上與3種基于深度學(xué)習(xí)的模型DeepGazeI(Kümmerer等,2014)、eDN(ensemble of deep networks)(Vig等,2014)、GoogLeNetCAM(class activation map)(Mahdi和Qin,2019)和基于淺層學(xué)習(xí)的顯著性模型Judd(Judd等,2009),以及3個(gè)傳統(tǒng)的顯著性模型GBVS(graph-based visual saliency)(Harel等,2007)、LGS(local global saliency)(Borji和Itti,2012)和RC(region-based contrast)(Cheng等,2015)進(jìn)行對比,對比結(jié)果如表5所示。可以看出,本文提出的MAM-Net有良好表現(xiàn),CC指標(biāo)為0.58,表現(xiàn)最好,其他兩個(gè)指標(biāo)也與最好指標(biāo)相接近。

      表5 不同模型在MIT300/1003測試集上的結(jié)果對比Table 5 Comparative results of different methods on the MIT300/1003 test dataset

      使用中心偏置的方法可以提高模型在各項(xiàng)指標(biāo)上的評分。由于AUC指標(biāo)會(huì)受到中心偏置的影響,sAUC評價(jià)方法可有效提高AUC指標(biāo)的魯棒性。IG能夠估算模型相對于使用中心偏置技巧的信息增量。本文方法在sAUC、IG和KLD等指標(biāo)上比對比模型更好,體現(xiàn)了高斯學(xué)習(xí)模塊在預(yù)測中的作用。

      圖10和圖11為在SALICON和MIT300/1003數(shù)據(jù)集上的測試結(jié)果示例圖。可以看出,MAM-Net能夠預(yù)測人、面部、物體和其他主要的強(qiáng)顯著性區(qū)域。特別地,當(dāng)圖像中的強(qiáng)顯著性區(qū)域不明顯或圖像主體比較分散時(shí),如圖10第2、3、4行和圖11第3行,與對比方法相比較,MAM-Net能產(chǎn)生更為準(zhǔn)確的顯著性區(qū)域,與真實(shí)的人眼注視點(diǎn)更加接近。

      本文方法也存在一些局限性。如圖12所示,當(dāng)眾多物體集中在一幅圖像中,造成圖像中顯著性對象過于擁擠時(shí),本文方法和對比方法均難以取得較好的預(yù)測效果。

      圖10 SALICON數(shù)據(jù)集對比測試結(jié)果示例Fig.10 Comparative testing results on the SALICON dataset((a)original images;(b)ground truth;(c)DINet;(d)SAM-Res;(e)MAM-Net)

      圖11 MIT300/1003數(shù)據(jù)集對比測試結(jié)果示例Fig.11 Comparative testing results on the MIT300/1003 dataset((a)original images;(b)ground truth;(c)Judd;(d)GBVS;(e)MAM-Net)

      圖12 SALICON上的部分效果不佳示例Fig.12 Some poor cases on the SALICON datasets((a)original images;(b)ground truth;(c)DINet;(d)SAM-Res;(e)MAM-Net)

      3 結(jié) 論

      本文提出了一種融合多重注意力機(jī)制的人眼注視點(diǎn)預(yù)測方法。該方法以ResNet-50為主干網(wǎng)絡(luò),一方面通過通道和空間注意力機(jī)制優(yōu)化由ResNet-50提取的特征,用以增強(qiáng)圖像中的通道特征和空間特征;另一方面設(shè)計(jì)層注意力機(jī)制,有選擇地融合不同層間的特征,解決沒有充分利用圖像高低層特征的問題。此外,為了解決人眼觀察圖像產(chǎn)生的中心偏置的行為,提高模型預(yù)測性能,本文提出一種高斯學(xué)習(xí)模塊,通過設(shè)置不同的高斯核來優(yōu)化和生成更符合人眼注視規(guī)律的預(yù)測圖。實(shí)驗(yàn)結(jié)果表明,本文提出的基于MAM-Net的人眼注視點(diǎn)預(yù)測方法可以有效優(yōu)化視覺任務(wù)的特征圖,在圖像上準(zhǔn)確預(yù)測人眼的視覺區(qū)域。與SAM-Res和DINet等對比方法相比,在KLD和sAUC等多項(xiàng)評價(jià)指標(biāo)上取得更優(yōu)的結(jié)果。

      本文方法也存在一定的局限性。多重注意力機(jī)制可以有效提高人眼注視點(diǎn)的預(yù)測結(jié)果,但是在語義豐富的場景中,特別是眾多目標(biāo)集中在一起時(shí),造成圖像中顯著性對象過于擁擠,預(yù)測效果會(huì)明顯下降。在后續(xù)工作中,如何提高語義豐富圖像的特征表達(dá)能力和預(yù)測效果是首要研究目標(biāo)。此外,將人眼注視點(diǎn)預(yù)測與特定視覺任務(wù)相結(jié)合,例如基于視覺的自動(dòng)駕駛,是另一研究方向。

      猜你喜歡
      注視點(diǎn)人眼注意力
      眼動(dòng)儀技術(shù)在里院建筑特色分析中的應(yīng)用
      讓注意力“飛”回來
      基于超復(fù)數(shù)小波和圖像空域的卷積網(wǎng)絡(luò)融合注視點(diǎn)預(yù)測算法
      人眼X光
      快樂語文(2019年9期)2019-06-22 10:00:38
      人眼為什么能看到虛像
      射擊運(yùn)動(dòng)員的反向眼跳研究
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      閃瞎人眼的,還有唇
      優(yōu)雅(2016年12期)2017-02-28 21:32:58
      A Beautiful Way Of Looking At Things
      基于中央凹圖像顯著性和掃視傾向的注視點(diǎn)轉(zhuǎn)移預(yù)測模型
      芷江| 临邑县| 内黄县| 绿春县| 泽州县| 湖口县| 定兴县| 安乡县| 清河县| 比如县| 昌黎县| 永泰县| 琼海市| 台东市| 科技| 化德县| 神农架林区| 沁源县| 慈溪市| 仁化县| 德惠市| 沽源县| 酉阳| 怀仁县| 沙湾县| 江都市| 晋江市| 安仁县| 南江县| 灵璧县| 井冈山市| 安吉县| 双城市| 蛟河市| 和龙市| 宜兴市| 神池县| 库伦旗| 米林县| 漠河县| 吴堡县|