侯士江 侯英 馮希等
關(guān)鍵詞:注意力管理 眼動跟蹤 視點(diǎn)預(yù)測 產(chǎn)品設(shè)計(jì) 深度學(xué)習(xí)
中圖分類號:TB472 文獻(xiàn)標(biāo)識碼:A
文章編號:1003-0069(2022)07-0134-03
引言
當(dāng)面對復(fù)雜場景、大量信息涌入時,人的注意力會過濾掉過冗余信息,只關(guān)注圖像中的部分區(qū)域,人類的視覺系統(tǒng)能夠快速從場景中定位到具有辨識性和吸引力的目標(biāo),這種能力被稱為視覺注意機(jī)制。設(shè)計(jì)的關(guān)鍵目標(biāo)是傳達(dá)不同設(shè)計(jì)元素的相對重要性,以便觀者知道將注意力集中在何處,以及如何解釋設(shè)計(jì),即設(shè)計(jì)應(yīng)該提供有效的注意力管理[1]。
長期以來,設(shè)計(jì)師和研究人員一直在研究眼動跟蹤,以此作為理解圖像感知的線索。但是眼動測量過程比較耗時,在實(shí)際應(yīng)用中存在著諸多限制,對圖像眼動感知的預(yù)測研究已經(jīng)成為計(jì)算機(jī)視覺中的一個經(jīng)典課題。早期的自然圖像顯著性方法依賴于手工編碼特征,最近在大數(shù)據(jù)集上訓(xùn)練的深度學(xué)習(xí)方法的表現(xiàn)有了實(shí)質(zhì)性提升。然而,這些方法大多專門為分析自然圖像而開發(fā),未針對設(shè)計(jì)圖像進(jìn)行有效的訓(xùn)練。本研究關(guān)注設(shè)計(jì)領(lǐng)域的圖像重要性預(yù)測,并基于所開發(fā)的預(yù)測模型嘗試了多種設(shè)計(jì)應(yīng)用,對設(shè)計(jì)中注意力的影響因素進(jìn)行了分析和闡釋。
一、研究現(xiàn)狀
(一)設(shè)計(jì)中的注意力指向
注意是指主體的心理活動對一定對象存在指向和集中,具體來說,就是有機(jī)體對周圍環(huán)境刺激的選擇性知覺?!白⒁狻笔窃O(shè)計(jì)中的重要概念,能夠吸引消費(fèi)者的注意實(shí)現(xiàn)促銷功能[2]。
注意指向主要包括目的指向和刺激驅(qū)動捕獲。在目的指向設(shè)計(jì)中,設(shè)計(jì)師必須明確提供給用戶該產(chǎn)品最重要的信息,包括性能、結(jié)構(gòu)、材質(zhì)、使用方式等,提高設(shè)計(jì)說服力。如何給予用戶一定的視覺引導(dǎo),使之關(guān)注到預(yù)設(shè)信息是一項(xiàng)重要的工作。而在刺激驅(qū)動捕獲中,外界輸入的信息越強(qiáng)、越不穩(wěn)定、越難控制則越容易吸引人的注意。需要注意的是,長時間的注意之后會引起信息超載現(xiàn)象,因此,在具體設(shè)計(jì)中要遵循適度原則。
(二)基于視覺焦點(diǎn)的設(shè)計(jì)研究
當(dāng)前在設(shè)計(jì)領(lǐng)域單純聚焦于用戶視覺注意力機(jī)制的研究相對較少,更多是以捕捉用戶眼動的形式來呈現(xiàn),關(guān)注眼動跟蹤在視覺傳達(dá)、仿生設(shè)計(jì)、意象設(shè)計(jì)及設(shè)計(jì)評價領(lǐng)域的應(yīng)用。
吳丹等人[3]指出用戶視覺注意力與圖像情感相結(jié)合是當(dāng)前圖像情感研究發(fā)展的重要趨勢,構(gòu)建了基于視覺注意力的圖像情感研究框架;許永生等[4]通過模擬駕駛實(shí)驗(yàn)的形式,從視覺層、行為層、心理層三個維度分析駕駛員的注意力分配情況,總結(jié)界面布局設(shè)計(jì)原則,得到優(yōu)化設(shè)計(jì)方案;呂健等[5]在眼動跟蹤實(shí)驗(yàn)的基礎(chǔ)上提出一種面向產(chǎn)品造型風(fēng)格的用戶認(rèn)知模式及量化模型;孫元等[6]研究了眼動數(shù)據(jù)與FAHP相結(jié)合的產(chǎn)品感性認(rèn)知測量方法。
設(shè)計(jì)師和相關(guān)研究人員一直在借助設(shè)備(如眼動儀)進(jìn)行眼動和設(shè)計(jì)感知的研究,然而眼動設(shè)備價格昂貴,需要苛刻的實(shí)驗(yàn)室環(huán)境,并且會耗費(fèi)大量的人力物力,所以在實(shí)際應(yīng)用中受到了限制。而人工智能為設(shè)計(jì)感知提供了新的方向。
(三)顯著性檢測
顯著圖(Saliency Map)由Koch & Ullman提出,用一個概率分?jǐn)?shù)來衡量每個像素點(diǎn)的顯著程度,通過算法模仿人類的視覺注意來查找圖像或視頻中令人最感興趣的部分。
顯著性目標(biāo)檢測就是使用計(jì)算機(jī)去模擬視覺注意力分配機(jī)制,將注意力資源盡可能地分配到最重要的區(qū)域,從而實(shí)現(xiàn)對資源有效利用。其發(fā)展主要經(jīng)歷了三個階段:① Itti & Koch等首次提出顯著性計(jì)算方法開始,以Koch & Ullman算法為基礎(chǔ),基于圖像的顏色、紋理、方向特征的對比差異計(jì)算中心環(huán)繞差,然后通過融合多顯著性圖得到最終的預(yù)測圖;② Achanta、Cheng等認(rèn)為此類任務(wù)可以轉(zhuǎn)化為對圖像求二進(jìn)制分割的顯著性圖問題;③ 基于神經(jīng)網(wǎng)絡(luò)的顯著性檢測算法。這類算法減少了對先驗(yàn)知識的依賴,不需要復(fù)雜的人工特征標(biāo)記,因此得到廣泛使用?;谏窠?jīng)網(wǎng)絡(luò)的圖像顯著性目標(biāo)檢測的相關(guān)研究很多,其模型大多基于完全卷積神經(jīng)網(wǎng)絡(luò)(FullyConvolutional Networks,F(xiàn)CN)[7]或其變形體,并逐漸關(guān)注網(wǎng)絡(luò)淺層特征和高層特征之間的差異性。
二、圖像視點(diǎn)預(yù)測模型(IVPM)
對自然圖像的顯著性預(yù)測已變得相當(dāng)有效,而對設(shè)計(jì)元素的重要性預(yù)測卻鮮見研究。本文提出一種圖像視點(diǎn)預(yù)測模型(ImageViewpoint Prediction Model,IVPM),IVPM使用深度學(xué)習(xí)架構(gòu),并在通用的、反映人真實(shí)視覺認(rèn)知規(guī)律的圖形設(shè)計(jì)重要性(GraphicDesign Importance,GDI)標(biāo)記數(shù)據(jù)集[8]上進(jìn)行訓(xùn)練。該眾包數(shù)據(jù)集使用“重要性”一詞來描述設(shè)計(jì)元素的相對感知權(quán)重,圖像顯著性可看作是“重要性”的一種描述形式。IVPM模型吸納了真實(shí)人工標(biāo)記數(shù)據(jù)中的一些高級趨向,能正確加權(quán)不同設(shè)計(jì)元素的相對重要性(見圖1)。熱點(diǎn)圖中暖色表示更高的重要性,關(guān)注程度更高。
(一)數(shù)據(jù)收集
IVPM使用GDI數(shù)據(jù)集[8]進(jìn)行訓(xùn)練,該數(shù)據(jù)集包含F(xiàn)lickr的1 078個平面設(shè)計(jì)的真值(Ground Truth,GT)重要性標(biāo)記圖,并80%-20%分割將1 078張GDI圖像分為訓(xùn)練集(862張圖像)和測試集(216張圖像)。
(二)IVPM的損失函數(shù)及模型架構(gòu)
IVPM預(yù)測位圖圖像中每個像素位置上內(nèi)容的重要性。每個像素i輸出重要性預(yù)測Pi∈[0,1],其值越大表示重要性越高。
與在自然圖像上表現(xiàn)良好的顯著性模型類似,IVPM基于FCN架構(gòu)。給定每個像素i上的真值重要性Qi∈[0,1],在所有像素i=1,2,…,N上,優(yōu)化FCN模型參數(shù)Θ的sigmoid交叉熵?fù)p失:
式中,Pi=σ(fi(Θ))是FCN輸出fi(Θ)傳入sigmoid激活函數(shù)σ(x)=(1+exp(-x))-1所得出的重要性預(yù)測值。需要注意的是,該損失函數(shù)常用于二元分類,即Qi∈{0,1}。這里將其擴(kuò)展到實(shí)值Qi∈[0,1]。
在Caffe環(huán)境下,經(jīng)過連續(xù)池化,模型預(yù)測變?yōu)檩斎雸D像分辨率的1/32。為了提高預(yù)測的分辨率并捕獲更精細(xì)的細(xì)節(jié),按照Long等人[7]中的步驟添加來自較前層的跳躍連接以形成FCN-16s模型,實(shí)驗(yàn)發(fā)現(xiàn)FCN-16s(具有來自pool4的跳躍連接)相較FCN-32s模型捕捉到了更多細(xì)節(jié),改善了預(yù)測效果(由于樣本數(shù)有限,實(shí)驗(yàn)采用了經(jīng)過預(yù)訓(xùn)練的FCN-32s模型[9]初始化網(wǎng)絡(luò)參數(shù),并對其進(jìn)行微調(diào))。模型架構(gòu)如圖2所示。
(三)預(yù)測模型的評估
使用顯著性評估指標(biāo)Kullback-Leibler 散度(KL)和互相關(guān)(Cross Correlation,CC)來評估預(yù)測圖與GT重要性標(biāo)記圖之間的相似性。KL對錯誤預(yù)測進(jìn)行高度懲罰,因此未能預(yù)測到GT重要位置的稀疏圖將獲得較高的KL值(低分)。給定GT重要性圖Q和所預(yù)測的重要性圖P,KL值計(jì)算如下:
高CC得分、低KL得分說明預(yù)測效果良好。在測試圖像數(shù)據(jù)集上的實(shí)驗(yàn)中,CC平均得分為0.69,KL平均得分為0.33,顯示了不錯的性能。
(四)IVPM的時間性能分析
模型訓(xùn)練完成后,在Intel Core i7-10510U CPU、16G RAM配置筆記本電腦上的測試顯示,針對800×640像素的圖像僅需≈12s就能夠完成顯著圖和熱點(diǎn)圖的生成。神經(jīng)網(wǎng)絡(luò)的時間性能優(yōu)勢使得將IVPM集成到其他設(shè)計(jì)工具中成為可能,設(shè)計(jì)的每次更改迭代都能夠得到即時反饋。
三、基于IVPM的設(shè)計(jì)應(yīng)用
近年來的研究表明大腦利用眼球以1/10秒的速度獲取重要信息,而這些信息將服務(wù)于正在進(jìn)行的核心任務(wù)。如何讓用戶更容易發(fā)現(xiàn)我們的產(chǎn)品?如何讓商家更有效的廣告?如何讓我們的網(wǎng)頁和軟件更容易觸動用戶?這些都需要我們關(guān)注注意力的設(shè)計(jì)管理。
如表1所示,實(shí)驗(yàn)結(jié)果表明IVPM在自然圖像、海報(bào)設(shè)計(jì)、產(chǎn)品設(shè)計(jì)以及包裝設(shè)計(jì)等多種應(yīng)用中均有上佳預(yù)測表現(xiàn),顯示了出色的擴(kuò)展性能。在一些特定的設(shè)計(jì)研究如意象仿生設(shè)計(jì)中,明顯可以實(shí)現(xiàn)特征要素的辨識和交互式設(shè)計(jì)反饋。
四、設(shè)計(jì)圖的注意力影響因素
注意力的影響因素較多,可將其分為低層級屬性、高層級興趣和學(xué)習(xí)關(guān)聯(lián)。其中,低層級屬性主要關(guān)注圖像中特征的差異性,這也是本文的主要研究內(nèi)容之一;而高層級興趣和學(xué)習(xí)關(guān)聯(lián)顯然會影響注意力,并在IVPM智能預(yù)測中發(fā)揮作用,但其影響程度難以量化測量,故不做過多討論。
(一)低層級屬性
顯著性主要基于區(qū)域中特征密度的差異,較大的差異會產(chǎn)生更高的顯著性。因此,可以通過使用特征線索來引導(dǎo)注意:如果一個區(qū)域中存在獨(dú)特的特征,顯著性將很高,即使與其周圍的特征差異不大,仍然會被較快關(guān)注。通常,此類屬性包括:亮度(對比度)、顏色(色調(diào))、長度、寬度、方向(2D)、曲率(二維)、凹凸(3D)、運(yùn)動、閃爍等。
有趣的是,測試“小米”新舊LOGO發(fā)現(xiàn),如圖3所示,舊LOGO的視覺焦點(diǎn)更集中于中心的“mi”字樣,“mi”與外圍的方框呈分離狀態(tài),而在新LOGO中“mi”與周圍圓潤的框線更趨向?yàn)橐曂粋€整體。
在產(chǎn)品設(shè)計(jì)中,造型設(shè)計(jì)拓展了現(xiàn)代設(shè)計(jì)形態(tài),又相對符合當(dāng)代社會人們的審美需求,同時為材料選擇、結(jié)構(gòu)造型提供了無限可能,材質(zhì)、紋理和質(zhì)感、尺度、功能特征、工程特征等通常是注意力影響因素。如表2所示,標(biāo)識、按鈕、形態(tài)轉(zhuǎn)折、強(qiáng)對比區(qū)域(亮度、色彩、材質(zhì))、柵格/開孔、界面等經(jīng)常是引起注意力集中的重點(diǎn)部位,IVPM模型均能實(shí)現(xiàn)準(zhǔn)確預(yù)測,這為在設(shè)計(jì)過程中可實(shí)現(xiàn)交互式的視覺反饋提供了可行性。
(二)高層級興趣
注意力受被試興趣愛好的約束。如果被試對特定項(xiàng)的興趣足夠高,則這種高層級就會覆蓋低層級考慮。興趣必然涉及高級意識,盡管“興趣”具有相當(dāng)明確的主觀含義,但很難對其進(jìn)行客觀表述,有時會被場景中出乎意料的特征所捕獲。
(三)學(xué)習(xí)關(guān)聯(lián)
學(xué)習(xí)關(guān)聯(lián)可以被視為低層級和高層級機(jī)制的混合體,關(guān)聯(lián)形成依賴于學(xué)習(xí),也可能取決于觀者的文化背景。
結(jié)論
本文提出了用于預(yù)測視覺焦點(diǎn)的IVPM模型,能夠推廣到各種設(shè)計(jì)應(yīng)用,其快速時間性能使得用于交互式設(shè)計(jì)工具成為可能。該模型為設(shè)計(jì)師和觀者了解需要將注意力集中在何處,以及如何解釋設(shè)計(jì)提供了高效的解決方案。關(guān)于注意力影響因素的討論對相關(guān)領(lǐng)域的研究者和設(shè)計(jì)人員有一定的參考價值,希望能帶來更多的思考。
基于網(wǎng)絡(luò)攝像頭的眼動跟蹤方法的出現(xiàn),使得直接使用眼動數(shù)據(jù)訓(xùn)練模型變得可行。本文對注意力相關(guān)問題的討論還不全面,未來有可能會進(jìn)行更加深入的研究。