融合多重注意力機(jī)制的人眼注視點(diǎn)預(yù)測

2022-12-21 03:23:46孔力胡學(xué)敏汪頂劉艷芳張龑陳龍

中國圖象圖形學(xué)報(bào) 2022年12期

孔力，胡學(xué)敏*，汪頂，劉艷芳，張龑，陳龍

1. 湖北大學(xué)計(jì)算機(jī)與信息工程學(xué)院，武漢 430062； 2. 中山大學(xué)數(shù)據(jù)科學(xué)與計(jì)算機(jī)學(xué)院，廣州 510006

0 引言

人眼在觀察畫面時(shí)會(huì)傾向于關(guān)注自己感興趣的區(qū)域，自動(dòng)忽略一些不重要區(qū)域，這種機(jī)制稱為視覺注意力機(jī)制(Borji，2021；Dorta等，2018)。王文冠等人(2019)提出，從人類生理機(jī)理的角度而言，人類的視覺注意力機(jī)制基于視網(wǎng)膜的特殊生理結(jié)構(gòu)，即高分辨率的視網(wǎng)膜中央凹和較低分辨率的邊緣視網(wǎng)膜。視網(wǎng)膜的中央凹區(qū)域集中了絕大多數(shù)的視錐細(xì)胞，負(fù)責(zé)視力的高清成像。人們關(guān)注某一物體時(shí)，通過轉(zhuǎn)動(dòng)眼球?qū)⒐饩€集中到中央凹，獲取顯著區(qū)域的更多細(xì)節(jié)而忽略其他不相關(guān)區(qū)域的信息?？梢?，人類視覺注意力機(jī)制引導(dǎo)視網(wǎng)膜的生理結(jié)構(gòu)完成對場景信息的選擇性收集任務(wù)，該機(jī)制可將有限的腦資源用于場景中重要信息的處理，是人類視覺高效率和高精度的基礎(chǔ)。

顯著目標(biāo)檢測的任務(wù)通常分為顯著區(qū)域檢測和人眼注視點(diǎn)預(yù)測兩類(Oyama和Yamanaka，2018)。早期的人眼注視點(diǎn)預(yù)測往往是基于人工選擇特征方法(Valenti等，2009)。Zhang和Sclaroff(2016)利用在LAB色彩空間(lab color space)中獲得的一組特征生成最終的人眼注視概率圖。這類方法通常只關(guān)注圖像的低級特征或只關(guān)注圖像的高級特征，沒有將不同層次的特征結(jié)合起來。

隨著深度神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺任務(wù)上的廣泛應(yīng)用，人們在顯著目標(biāo)檢測上使用了深度神經(jīng)網(wǎng)絡(luò)技術(shù)。Vig等人(2014)首次使用深度神經(jīng)網(wǎng)絡(luò)技術(shù)預(yù)測顯著概率圖。之后，人們開始關(guān)注如何有效增加模型深度來提高模型的表達(dá)能力。SALICON(saliency in context)(Huang等，2015)將不同分辨率的圖像輸入同一種神經(jīng)網(wǎng)絡(luò)，然后組合這些分辨率圖像的高級特征進(jìn)行預(yù)測。Deepfix(Kruthiventi等，2017)使用空洞卷積技術(shù)進(jìn)行預(yù)測。上述一些方法直接使用主干網(wǎng)絡(luò)的高層特征預(yù)測顯著圖，或不加區(qū)分地聚合多級特征進(jìn)行預(yù)測，這些方法都未考慮特征之間的冗余，容易導(dǎo)致不佳的預(yù)測效果(何偉和潘晨，2022)。

注意力機(jī)制的發(fā)展為人眼注視點(diǎn)預(yù)測提供了新的方向。SAM-Res(saliency attention model)(Cornia等，2018)提出了帶有注意力機(jī)制的長短期記憶(long short-term memory，LSTM)人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。DINet(dilated inception network)(Yang等，2020)將帶有空洞卷積的IncePtion網(wǎng)絡(luò)用于自下而上的人眼注視點(diǎn)預(yù)測。GazeGAN(gaze generative adversarial network)(Che等，2020)采用通道方向的注意力進(jìn)行人眼注視點(diǎn)預(yù)測。盡管這些方法取得了良好的性能，但仍然沒有考慮不同層特征對顯著目標(biāo)的貢獻(xiàn)差異。

現(xiàn)有基于注意力機(jī)制的人眼注視點(diǎn)預(yù)測研究往往集中在空間級和通道級注意力的問題上，既忽視了不同層級之間特征的重要性對預(yù)測結(jié)果的影響，也沒有分析和融合空間、通道以及層級多種注意力機(jī)制的模型。此外，現(xiàn)有方法較少考慮人眼在觀察事物時(shí)的中心偏置問題，導(dǎo)致預(yù)測精度有限。本文基于ConvLSTM(convolutional LSTM)模型，將層注意力機(jī)制與空間、通道注意力機(jī)制相融合，提出一種多重注意力機(jī)制的網(wǎng)絡(luò)(multiple attention mechanism network, MAM-Net)進(jìn)行人眼注視點(diǎn)預(yù)測。本文主要工作有以下3點(diǎn)：1)提出一種層注意力機(jī)制，并與空間、通道注意力機(jī)制相融合，提出基于ConvLSTM的多重注意力模型，從層級、空間和通道多個(gè)角度增強(qiáng)模型的表征能力；2)提出一種高斯學(xué)習(xí)模塊，根據(jù)當(dāng)前的特征信息自動(dòng)選擇合適的高斯模糊參數(shù)，優(yōu)化人眼注視點(diǎn)預(yù)測概率圖，解決人眼視覺的中心偏置問題，提高預(yù)測效果；3)在公開數(shù)據(jù)集上進(jìn)行多項(xiàng)綜合性測試。結(jié)果顯示，本文方法在多數(shù)人眼注視點(diǎn)預(yù)測指標(biāo)上超過了現(xiàn)有主流模型。

1 多重注意力機(jī)制與人眼注視點(diǎn)預(yù)測

本文提出的基于多重注意力機(jī)制的人眼注視點(diǎn)預(yù)測模型主要分為3部分，即圖像特征提取模塊、多重注意力模塊和高斯學(xué)習(xí)模塊，如圖1所示。

圖1 人眼注視點(diǎn)預(yù)測總體流程圖Fig.1 Overview of eye fixation prediction

1.1 圖像特征提取模塊

本文提出的MAM-Net中的特征提取模型以ResNet-50作為主干網(wǎng)絡(luò)。在不減小圖像尺寸和增加模型參數(shù)的情況下，為緩解傳統(tǒng)ResNet-50在顯著性預(yù)測中特征信息丟失問題，在傳統(tǒng)ResNet-50的基礎(chǔ)上進(jìn)行改進(jìn)，設(shè)計(jì)了一種基于空洞卷積(Liu和Han，2018)的ResNet-50網(wǎng)絡(luò)。空洞殘差卷積網(wǎng)絡(luò)(dilated ResNet，DRN)的參數(shù)設(shè)置如表1所示。為表述方便，將第1個(gè)卷積塊記做M0，其余4個(gè)殘差卷積模塊分別記做M1、M2、M3和M4，選擇每個(gè)殘差模塊的最后一層結(jié)果作為特征圖。為兼顧模型大小與精確度，本文選取的特征圖數(shù)量為原網(wǎng)絡(luò)所提取的1/8。

表1 基于空洞卷積的ResNet-50參數(shù)設(shè)置Table 1 Parameters in the ResNet-50 based on dilated convolution

1.2 多重注意力模塊

由于淺層特征對于顯著圖的細(xì)節(jié)十分重要，而深層特征提供了抽象的語義信息。所以，初始特征圖先經(jīng)過通道、空間注意力處理，再利用層注意力機(jī)制來優(yōu)化不同層之間的權(quán)重，能有效突出特征表達(dá)，最后輸入ConvLSTM中生成初步預(yù)測的特征圖Q，該過程如圖2所示。

圖2 MAM結(jié)構(gòu)Fig.2 Architecture of the MAM

1.2.1 通道注意力機(jī)制設(shè)計(jì)

通道注意力的目的是表達(dá)某層卷積中不同通道之間的特征重要性(Hu等，2020)，本文設(shè)計(jì)的通道注意力機(jī)制如圖3中紅色虛線框所示。

F∈RH×W×C為提取到的特征圖，其中F可看成F=[F1,F2, …,Fc]，F(xiàn)i∈RH×W表示第i個(gè)通道，C為通道的數(shù)量。對F同時(shí)使用全局最大池化操作和全局平均池化操作，得

Favg=FC(GA(F))

(1)

Fmax=FC(GM(F))

(2)

式中，F(xiàn)C為全連接層(fully connected)函數(shù)，GA和GM分別表示全局平均池化(global average pooling)和全局最大池化(global max pooling)。Favg和Fmax分別表示平均池化和最大池化后進(jìn)行FC后的特征。將大小為R1×1×C的權(quán)重向量Favg和Fmax進(jìn)行對應(yīng)元素加和操作，經(jīng)由激活函數(shù)生成最終的通道注意力參數(shù)Mc，即

Mc=σ(Favg+Fmax)

(3)

式中，σ表示sigmoid函數(shù)。

Fc為通道注意力處理后的特征，具體過程為

Fc=Mc?F

(4)

式中，?代表元素相乘。

圖3 通道注意力與空間注意力模塊Fig.3 Channel-spatial attention aggregation module

1.2.2 空間注意力機(jī)制設(shè)計(jì)

空間注意力的目的是表達(dá)同一通道圖像的不同區(qū)域像素點(diǎn)之間的權(quán)重關(guān)系(Woo等，2018)，本文設(shè)計(jì)的空間注意力結(jié)構(gòu)如圖3綠色虛線框所示。

將特征圖Fc在通道維度上先后進(jìn)行平均池化和最大池化操作，得到Fa和Fm∈RH×W×1，具體為

Fa=GA(Fc)

(5)

Fm=GM(Fc)

(6)

式中，F(xiàn)a和Fm分別為經(jīng)過平均池化和最大池化后的特征圖。

為了將Fa和Fm基于通道維度融合成一個(gè)有效的特征圖，本文設(shè)計(jì)大小為7 × 7的卷積進(jìn)行卷積操作，使其降維為單通道，接著通過激活函數(shù)得到空間注意力的特征參數(shù)Ms，具體為

Ms=σ(f7×7[Fa;Fm])

(7)

式中，f7×7[Fa；Fm]為卷積操作。

Fcs∈RH×W×C為通道—空間注意力處理后的特征圖，過程為

Fcs=Ms?Fc

(8)

1.2.3 層注意力機(jī)制設(shè)計(jì)

由于不同層的特征表述的信息不同，信息的重要程度也不同，若無差別地處理不同特征會(huì)影響最終的預(yù)測效果。本文提出一種層注意力機(jī)制，如圖4所示。將各個(gè)層級劃分成獨(dú)立的塊，初始每一個(gè)獨(dú)立的塊有相同的層級注意力的權(quán)重，層注意力的權(quán)重可以表達(dá)相對高效的層級特征。通過通道和空間注意力模塊后的特征記為Xt=Fcs∈RL×H×W×C，其中L為MAM-Net中提取的特征層數(shù)，C為當(dāng)前特征具有的通道數(shù)，W和H分別對應(yīng)特征圖的寬度和高度。層注意力機(jī)制計(jì)算為

Wt=G*Ht-1

(9)

St=softmax(Wt)?L

(10)

(11)

式中，Ht-1是ConvLSTM在t-1時(shí)刻生成的隱藏狀態(tài)，*代表卷積操作，G為卷積模塊，利用GA和FC來改變每一層的權(quán)重，Wt∈RL×1×1×1。St為RL×H×W×C的權(quán)重圖。將Xt乘以St作為層注意力機(jī)制的輸出結(jié)果，得到輸入ConvLSTM的數(shù)據(jù)。

1.3 高斯學(xué)習(xí)模塊

人眼觀察圖像時(shí)傾向于圖像中心部分，這種中心偏置行為往往導(dǎo)致實(shí)際的人眼注視點(diǎn)與預(yù)測算法得到的結(jié)果不一致(Liang和Hu，2015；Tatler，2007)。

圖4 層注意力機(jī)制Fig.4 Layer attention

本文提出一種高斯學(xué)習(xí)模塊，通過設(shè)置不同的高斯濾波核來處理初步人眼注視點(diǎn)圖Q，生成最終的人眼注視點(diǎn)預(yù)測圖。高斯學(xué)習(xí)模塊由高斯濾波層和卷積層組成,如圖5所示。圖5中，n為高斯濾波核的數(shù)量，本文中n=10，為經(jīng)驗(yàn)值。

在高斯濾波層中，將特征圖Q分別經(jīng)過n個(gè)不同高斯核的模糊處理，得到一組濾波后的圖像{Q1,Q2, …,Qn}。高斯濾波核可具體表示為

(12)

圖5 高斯學(xué)習(xí)模塊結(jié)構(gòu)Fig.5 Gussian learning module

圖6 不同γ取值的人眼注視點(diǎn)預(yù)測圖Fig.6 Saliency prediction probability in differentγ((a)original image;(b)fixation maps; (c)saliency maps;(d)γ = 0.01;(e)γ = 0.02;(f)γ = 0.04;(g)γ = 0.06;(h)γ = 0.08;(i)prediction)

1.4 損失函數(shù)

SAM-Res模型在人眼注視點(diǎn)預(yù)測中取得了較好的結(jié)果，本文損失函數(shù)系數(shù)參照該方法，采用一種組合的損失函數(shù)，由3個(gè)不同的顯著性評估指標(biāo)線性組合而成，能夠有效平衡不同評估指標(biāo)。具體為

L(y,yden,yfix)=-LNSS-2LCC+10LKLD

(13)

式中，LNSS、LCC和LKLD分別代表計(jì)算歸一化掃描路徑一致性(normalized scanpath saliency，NSS)、線性相關(guān)系數(shù)(linear correlation coefficient，CC)和相對熵(Kullback-Leibler divergence，KLD)3個(gè)指標(biāo)的損失函數(shù)。LNSS用來計(jì)算預(yù)測值與人眼注視點(diǎn)之間的損失，LCC和LKLD用來計(jì)算預(yù)測值與注視點(diǎn)概率圖之間的損失。yden是數(shù)據(jù)集標(biāo)注的人眼注視點(diǎn)概率圖標(biāo)簽，yfix是數(shù)據(jù)集標(biāo)注的人眼注視點(diǎn)二值圖標(biāo)簽。標(biāo)簽數(shù)據(jù)會(huì)被標(biāo)準(zhǔn)化為均值為0、標(biāo)準(zhǔn)差為1的數(shù)據(jù)分布，y為預(yù)測圖。

2 實(shí)驗(yàn)與結(jié)果分析

實(shí)驗(yàn)硬件GPU為GeForce GTX 1080TI 11 GB，CPU為Intel Core i7-7700K，深度學(xué)習(xí)框架選用 PyTorch。

采用公開數(shù)據(jù)集SALICON(Huang等，2015)和MIT300/1003(Judd等，2009)作為本文的實(shí)驗(yàn)數(shù)據(jù)集。測試SALICON數(shù)據(jù)集時(shí)，先采用在ImageNet上訓(xùn)練好的分類模型的參數(shù)，然后在SALICON上進(jìn)行訓(xùn)練微調(diào)。測試MIT300/1003數(shù)據(jù)集時(shí)，使用從SALICON數(shù)據(jù)集上訓(xùn)練好的模型進(jìn)行微調(diào)。實(shí)驗(yàn)選擇Adam作為優(yōu)化器，batch size設(shè)置為8，epoch設(shè)置為29，采用SAM模型中的損失函數(shù)作為訓(xùn)練過程的損失函數(shù)。

用于衡量人眼注視點(diǎn)模型預(yù)測結(jié)果的方法主要包括線性相關(guān)系數(shù)CC、相似性測度(similarity metric，SIM)、信息增益(information gain，IG)、相對熵KLD、受試者工作特性曲線下面積(area under ROC curve，AUC)及其改進(jìn)版sAUC(shuffled AUC)、歸一化掃描路徑一致性NSS(Bylinskii等，2018)。其中，CC用來統(tǒng)計(jì)預(yù)測圖與真實(shí)顯著圖之間的線性相關(guān)性；SIM用來衡量預(yù)測圖與真實(shí)顯著圖的交叉分布，衡量二者分布匹配程度；IG能夠估算模型相對于使用中心偏置技巧的信息增量；KLD用來衡量顯著性預(yù)測結(jié)果與真值分布之間的距離；AUC用以將檢測顯著圖作為二值分類器與真值顯著圖進(jìn)行比較；sAUC為AUC的變體，為了消除使用中心偏置技巧效應(yīng)的影響，隨機(jī)從其他顯著圖中挑選負(fù)類樣本；NSS能夠衡量人眼注視點(diǎn)固定位置的平均歸一化顯著性。

CC、NSS和AUC之間具有高相關(guān)性，稱為相似度量集群。CC、NSS、AUC、sAUC、SIM和IG指標(biāo)數(shù)值越高，表明預(yù)測效果越好，KLD指標(biāo)是衡量二者顯著區(qū)域分布距離，數(shù)值越低表示越好。不同指標(biāo)在人眼注視點(diǎn)預(yù)測中的作用不同，本文采用這些指標(biāo)對實(shí)驗(yàn)結(jié)果進(jìn)行評價(jià)。

2.1 不同注意力機(jī)制的對比實(shí)驗(yàn)

多重注意力機(jī)制是本文的核心，在主流的人眼注視點(diǎn)數(shù)據(jù)集SALICON上進(jìn)行注意力模型的對比實(shí)驗(yàn)。具體方法為分別添加不同的注意力機(jī)制，將各個(gè)模塊拆除分別進(jìn)行對比實(shí)驗(yàn)。將通道、空間和層注意力機(jī)制分別簡稱為CA (channel attention)、SA(spatial attention)和LA (layer attention)，真值簡稱為GT(ground truth)。

圖7為可視化實(shí)例，加入多重注意力機(jī)制后不僅能清晰地預(yù)測出目標(biāo)區(qū)域，而且能很好地抑制背景的影響。引入通道注意力機(jī)制，可以對圖像中特征的種類有所側(cè)重，更好地理解圖像中的內(nèi)容。

表2為在不同注意力機(jī)制驗(yàn)證集上的結(jié)果對比。表2中CA的CC、AUC和NSS相較于無注意力機(jī)制分別提高0.014、0.009和0.048，說明層注意力能夠更好地理解圖像中的內(nèi)容，提高預(yù)測注視點(diǎn)的位置以及分布精度。SA+CA方法的CC、sAUC和NSS相較于只引入通道機(jī)制分別提高0.007、0.005和0.015，顯示圖像的空間位置信息得到更好區(qū)分。在引入層注意力后，區(qū)別于傳統(tǒng)的使用深層特征作為最后預(yù)測，添加層注意力機(jī)制能后，模型能更好地提取特征，達(dá)到更好的預(yù)測效果，相較于添加通道和空間注意力，CC、sAUC和NSS指標(biāo)分別提高了0.017、0.007和0.034，表明經(jīng)過層注意力機(jī)制處理后的特征圖與真實(shí)圖存在更多的相似位置。

2.2 消融實(shí)驗(yàn)

為測試本文提出的多重注意力機(jī)制、高斯學(xué)習(xí)和空洞卷積模塊對人眼注視點(diǎn)預(yù)測的影響。以ResNet-50為主干網(wǎng)絡(luò)，在SALICON數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn)。ResNet為原始版本ResNet-50上添加一個(gè)上采樣層，使模型獲得與標(biāo)簽圖像同樣分辨率的預(yù)測人眼注視點(diǎn)結(jié)果圖；DRN是加了空洞卷積的Res-Net-50；DRN + MAM結(jié)構(gòu)是加了空洞卷積的ResNet-50模型結(jié)構(gòu)后，使用MAM結(jié)構(gòu)優(yōu)化提取的特征；DRN + GL是在DRN結(jié)構(gòu)后添加一個(gè)高斯學(xué)習(xí)(Gussian learning，GL)模塊來優(yōu)化人眼注視概率圖。本文提出的MAM-Net模型是在DRN + MAM的結(jié)構(gòu)上添加高斯學(xué)習(xí)模塊來優(yōu)化預(yù)測結(jié)果。

圖7 不同注意力機(jī)制效果圖Fig.7 Result images of different attention mechanisms((a)original image；(b)ground truth；(c)SA + CA + LA;(d)no attention；(e)CA;(f)SA + CA))

表2 不同注意力機(jī)制在SALICON驗(yàn)證集的結(jié)果對比Table 2 Comparative results of different attention mechanisms on the SALICON dataset

圖8為消融實(shí)驗(yàn)中不同模型訓(xùn)練過程的損失函數(shù)曲線圖，為使曲線更加簡潔清晰，采用epoch作為橫坐標(biāo)?？梢钥闯?，在訓(xùn)練后期，本文提出的MAM-Net模型和DRN + GL模型在損失值上比較接近，從20個(gè)epoch后變化穩(wěn)定，且比其他模型的損失值明顯更小。

圖8 訓(xùn)練過程中不同模型的損失函數(shù)曲線圖Fig.8 Loss function curves of different models in the training process

圖9為添加不同模塊的可視化結(jié)果。

表3為5種獨(dú)立模型的對比結(jié)果。可以看出，MAM-Net結(jié)構(gòu)在SALICON驗(yàn)證集上有3項(xiàng)評價(jià)指標(biāo)超過了其他組合，分別是AUC、NSS和sAUC，本文將MAM-Net作為人眼注視點(diǎn)預(yù)測的最優(yōu)選擇。表3中DRN結(jié)構(gòu)相較于普通的ResNet-50結(jié)構(gòu)得到了更好的結(jié)果，可以得知在原始ResNet-50上添加空洞卷積能提高對顯著性位置的預(yù)測精度；添加MAM模塊后，各項(xiàng)指標(biāo)相較于DRN模型存在一定提升，在CC指標(biāo)上達(dá)到了0.894，優(yōu)于對比方法，表明MAM模塊使用的多重注意力能更有效地提高顯著圖分布的預(yù)測；從表3第3行和第5行的對比中可知高斯學(xué)習(xí)模塊能夠提高模型預(yù)測精度。MAM-Net的AUC、sAUC和NSS的評分比只添加了MAM的結(jié)構(gòu)分別高出0.004、0.007和0.032，表明高斯學(xué)習(xí)模塊使預(yù)測結(jié)果更接近于人眼注視點(diǎn)的真實(shí)分布。

圖9 不同模塊處理結(jié)果圖Fig.9 Result images with different modules((a)original image；(b)ground truth；(c)plain ResNet；(d)Dilated + ResNet；(e)DRN + MAM；(f)DRN + GL；(g)MAM-Net(ours))

表3 MAM-Net不同模塊驗(yàn)證集對比實(shí)驗(yàn)Table 3 Ablation analysis of MAM-Net validation sets

2.3 主流模型對比實(shí)驗(yàn)

為了驗(yàn)證MAM-Net模型的有效性，將本文方法與目前主流人眼注視點(diǎn)預(yù)測模型SAM-Res(Cornia等，2018)和DINet(Yang等，2020)進(jìn)行對比實(shí)驗(yàn)，結(jié)果如表4所示?？梢钥闯?，在SALICON數(shù)據(jù)集上，對比相似使用ConvLSTM結(jié)構(gòu)的SAM-Res和DINet模型，本文提出的基于多重注意力機(jī)制的方法在sAUC指標(biāo)上分別高出 0.3%和0.5%，在IG指標(biāo)上分別提高了6%和192%，在KLD評價(jià)指標(biāo)上分別提高了33%和53%，在3種模型對比中均達(dá)到了最優(yōu)結(jié)果。

表4 不同模型在SALICON測試數(shù)據(jù)集的結(jié)果對比Table 4 Comparative results of different methods on the SALICON test dataset

為了驗(yàn)證模型的泛化能力，在難度較大的MIT300/MIT1003數(shù)據(jù)集上與3種基于深度學(xué)習(xí)的模型DeepGazeI(Kümmerer等，2014)、eDN(ensemble of deep networks)(Vig等，2014)、GoogLeNetCAM(class activation map)(Mahdi和Qin，2019)和基于淺層學(xué)習(xí)的顯著性模型Judd(Judd等，2009)，以及3個(gè)傳統(tǒng)的顯著性模型GBVS(graph-based visual saliency)(Harel等，2007)、LGS(local global saliency)(Borji和Itti，2012)和RC(region-based contrast)(Cheng等，2015)進(jìn)行對比，對比結(jié)果如表5所示。可以看出，本文提出的MAM-Net有良好表現(xiàn)，CC指標(biāo)為0.58，表現(xiàn)最好，其他兩個(gè)指標(biāo)也與最好指標(biāo)相接近。

表5 不同模型在MIT300/1003測試集上的結(jié)果對比Table 5 Comparative results of different methods on the MIT300/1003 test dataset

使用中心偏置的方法可以提高模型在各項(xiàng)指標(biāo)上的評分。由于AUC指標(biāo)會(huì)受到中心偏置的影響，sAUC評價(jià)方法可有效提高AUC指標(biāo)的魯棒性。IG能夠估算模型相對于使用中心偏置技巧的信息增量。本文方法在sAUC、IG和KLD等指標(biāo)上比對比模型更好，體現(xiàn)了高斯學(xué)習(xí)模塊在預(yù)測中的作用。

圖10和圖11為在SALICON和MIT300/1003數(shù)據(jù)集上的測試結(jié)果示例圖。可以看出，MAM-Net能夠預(yù)測人、面部、物體和其他主要的強(qiáng)顯著性區(qū)域。特別地，當(dāng)圖像中的強(qiáng)顯著性區(qū)域不明顯或圖像主體比較分散時(shí)，如圖10第2、3、4行和圖11第3行，與對比方法相比較，MAM-Net能產(chǎn)生更為準(zhǔn)確的顯著性區(qū)域，與真實(shí)的人眼注視點(diǎn)更加接近。

本文方法也存在一些局限性。如圖12所示，當(dāng)眾多物體集中在一幅圖像中，造成圖像中顯著性對象過于擁擠時(shí)，本文方法和對比方法均難以取得較好的預(yù)測效果。

圖10 SALICON數(shù)據(jù)集對比測試結(jié)果示例Fig.10 Comparative testing results on the SALICON dataset((a)original images；(b)ground truth；(c)DINet；(d)SAM-Res；(e)MAM-Net)

圖11 MIT300/1003數(shù)據(jù)集對比測試結(jié)果示例Fig.11 Comparative testing results on the MIT300/1003 dataset((a)original images；(b)ground truth；(c)Judd；(d)GBVS；(e)MAM-Net)

圖12 SALICON上的部分效果不佳示例Fig.12 Some poor cases on the SALICON datasets((a)original images；(b)ground truth；(c)DINet；(d)SAM-Res；(e)MAM-Net)

3 結(jié) 論

本文提出了一種融合多重注意力機(jī)制的人眼注視點(diǎn)預(yù)測方法。該方法以ResNet-50為主干網(wǎng)絡(luò)，一方面通過通道和空間注意力機(jī)制優(yōu)化由ResNet-50提取的特征，用以增強(qiáng)圖像中的通道特征和空間特征；另一方面設(shè)計(jì)層注意力機(jī)制，有選擇地融合不同層間的特征，解決沒有充分利用圖像高低層特征的問題。此外，為了解決人眼觀察圖像產(chǎn)生的中心偏置的行為，提高模型預(yù)測性能，本文提出一種高斯學(xué)習(xí)模塊，通過設(shè)置不同的高斯核來優(yōu)化和生成更符合人眼注視規(guī)律的預(yù)測圖。實(shí)驗(yàn)結(jié)果表明，本文提出的基于MAM-Net的人眼注視點(diǎn)預(yù)測方法可以有效優(yōu)化視覺任務(wù)的特征圖，在圖像上準(zhǔn)確預(yù)測人眼的視覺區(qū)域。與SAM-Res和DINet等對比方法相比，在KLD和sAUC等多項(xiàng)評價(jià)指標(biāo)上取得更優(yōu)的結(jié)果。

本文方法也存在一定的局限性。多重注意力機(jī)制可以有效提高人眼注視點(diǎn)的預(yù)測結(jié)果，但是在語義豐富的場景中，特別是眾多目標(biāo)集中在一起時(shí)，造成圖像中顯著性對象過于擁擠，預(yù)測效果會(huì)明顯下降。在后續(xù)工作中，如何提高語義豐富圖像的特征表達(dá)能力和預(yù)測效果是首要研究目標(biāo)。此外，將人眼注視點(diǎn)預(yù)測與特定視覺任務(wù)相結(jié)合，例如基于視覺的自動(dòng)駕駛，是另一研究方向。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看