閆苗苗,鄭元林,戚永紅
(1.西安理工大學(xué) 印刷包裝工程學(xué)院,陜西 西安 710048;2.陜西省印刷包裝工程重點實驗室,陜西 西安 710048)
在這個高速發(fā)展的信息時代,人類對信息傳遞準確性的要求越來越高,圖像作為傳遞信息較為豐富有效的載體,已經(jīng)成為我們生活中必不可少的元素。據(jù)研究,人類對外界信息的感知約有83%來自于視覺感知,而其中70%~80%是以圖像形式獲得的。相對于其他信息,圖像作為傳播載體有著直觀、準確、高效等優(yōu)點。然而數(shù)字圖像在獲取、壓縮、處理、傳輸和再現(xiàn)的過程中,由于會受到不同種類的降質(zhì)[1],圖像會發(fā)生失真,無法達到圖像再現(xiàn)中“所見即所得”的目的,因此,一幅圖像是否滿足我們的視覺需求并較好地完成從原圖像到目標載體上的再現(xiàn),則需要一個好的圖像質(zhì)量評價的方法來進行評判和指導(dǎo)。
目前,圖像質(zhì)量評價的方法主要有主觀評價和客觀評價兩種[2]。根據(jù)對原始圖像信息的依賴程度,客觀質(zhì)量評價可分為全參考、部分參考和無參考三類。
由于一些傳統(tǒng)的圖像處理算法針對的是整幅圖像,忽略了人眼對圖像中不同區(qū)域的不同感受,因此在有些應(yīng)用場合算法并不是很準確。而實際上在不同的應(yīng)用中,圖像各部分區(qū)域具有不同的重要性,從而使得觀察者對各部分感受不盡相同。對人眼影響較大的區(qū)域稱為感興趣區(qū)域(Region of Interest,ROI),而相應(yīng)的其他區(qū)域則稱為非感興趣區(qū)域或背景區(qū)域(Background,BC)[3]。在一幅圖像中,感興趣區(qū)域最能影響觀察者的興趣,也最能表現(xiàn)圖像的內(nèi)容,因此當(dāng)圖像失真時,人眼往往對感興趣區(qū)域的失真更為敏感。
如圖1所示,(a)為Lenat圖的原圖,(b)為對(a)中除過臉部的區(qū)域進行高斯模糊得到的效果,(c)為對(a)中臉部區(qū)域進行同樣參數(shù)高斯模糊的效果。相比之下,人眼的感受為(c)圖的失真程度較大,而(b)圖的失真程度較小,因此將感興趣區(qū)域應(yīng)用到圖像質(zhì)量評價中去,將更能有針對性地對圖像質(zhì)量進行評價和分析。
圖1 Lenat圖的原圖及其不同區(qū)域的失真圖
人類觀察一幅圖像中的感興趣區(qū)域時,注意既是自上而下(Top-down),任務(wù)驅(qū)動的,也是自下而上(Bottom-up),圖像數(shù)據(jù)驅(qū)動的。即在觀察圖像時,該注意不僅由人的高層知識所控制,用由意志控制的與任務(wù)相關(guān)的方式來掃描場景(自上而下),也由外部刺激對人注意力的吸引所影響,用基于重要性的與任務(wù)無關(guān)的形式來掃描場景(自下而上)。
而在圖像數(shù)據(jù)庫建立方面,目前數(shù)據(jù)信息較為豐富完善的是MIT眼動數(shù)據(jù)庫和NUSEF數(shù)據(jù)庫。2009年,Tilke Judd等[4]建立了MIT眼動數(shù)據(jù)庫,該實驗得出人眼的注意力集中在屏幕中央25%的區(qū)域,如圖2所示,人眼對圖像的注視程度以圖像25%的區(qū)域為中心,依次向四周遞減。2010年,Subramanian Ramanathan等[5]建立了基于眼動數(shù)據(jù)的NUSEF數(shù)據(jù)庫,該數(shù)據(jù)庫將圖像按照語義學(xué)范疇分類。該實驗得出人類和哺乳動物肖像的臉部吸引著人眼大部分的注意力,特別是眼睛、鼻子和嘴巴的區(qū)域。包含有動作(讀、寫、看等)的圖像,其注視點在交互物體之間有著頻繁的轉(zhuǎn)移,動作發(fā)生者和動作接受者之間有著很多過渡的發(fā)生。
圖2 注意力分布權(quán)重圖
通過學(xué)習(xí)和參照MIT眼動數(shù)據(jù)庫以及NUSEF數(shù)據(jù)庫,本文在圖像質(zhì)量評價的方向上,進一步對圖像的眼動數(shù)據(jù)進行研究和分析,建立了一個基于人眼感興趣區(qū)域的圖像數(shù)據(jù)庫,為今后結(jié)合人眼感興趣區(qū)域的圖像質(zhì)量評價方法提供一些借鑒和參照。
本論文將所建數(shù)據(jù)庫命名為XROIEF數(shù)據(jù)庫(XUT Region of Interest eye fixation西安理工大學(xué)感興趣區(qū)域眼動數(shù)據(jù)庫)。在建立數(shù)據(jù)庫的實驗中使用了瑞典Tobii公司生產(chǎn)的Tobii X2-60眼動儀,被試者為30名年齡在20~35歲的本科生、研究生及教師,對55幅圖像進行觀察實驗,并使用Tobii眼動儀對眼動數(shù)據(jù)進行記錄。該數(shù)據(jù)庫中的55幅圖片分別選自IVC數(shù)據(jù)庫[6](9幅)、CSIQ數(shù)據(jù)庫[7](13幅)、Live數(shù)據(jù)庫[8-10](13幅),以及用于印刷的GB/T 18721-2002 CMYK標準彩色圖像數(shù)據(jù)庫和ISO 12640數(shù)據(jù)庫(20幅)。所有圖像均保證其像素在512*512以上,以確保用戶在觀看時可以完全理解圖像的內(nèi)容。表1所示為按圖像的來源所分類整合XROIEF數(shù)據(jù)庫中的所有原圖像。
為確保數(shù)據(jù)庫的全面性,XROIEF數(shù)據(jù)庫涵蓋了包含不同內(nèi)容的圖像。根據(jù)圖像的場景語義(圖像內(nèi)容)劃分,該數(shù)據(jù)庫的組成為:人物肖像圖(包、括雕塑)13幅,動物肖像圖6幅,風(fēng)景圖8幅,建筑物圖3幅,靜物圖20幅,動作圖5幅,具體如表2所示。
表1 XROIEF圖像數(shù)據(jù)庫原圖
表2 數(shù)據(jù)庫按圖像內(nèi)容的分類結(jié)果
在眼動實驗中,30名被試者在未被告知實驗意圖的前提下,自由觀看55幅隨機排序的圖像,以最小化外界因素對被試的心理干擾,從而確保實驗的典型性和準確性。實驗環(huán)境為普通的辦公環(huán)境,照明及實驗場地都無特殊限制。實驗所用圖像大小不一,分別以寬和高的像素為衡量標準,較小的有512*512像素、480*720像素,較大的有1280*1024像素和960*1200像素,由于顯示器需要滿足所有圖像按其原圖大小顯示,所以實驗選用Sumsung SyncMaster T220P顯示器,屏幕大小為22 in,分辨率為1920*1200,未做過色彩管理。將每幅圖像觀看的持續(xù)時間設(shè)定為5 s,每兩幅中間插入一幅為時1 s的灰色純色圖像(中心有定標符號),以降低上幅圖像對人眼的影響。該灰色圖像中心的定標符號意在將人眼的注視點從顯示器的周邊聚焦到中心,盡可能高質(zhì)量的記錄和提取有效的眼動數(shù)據(jù)。由于實驗所用圖像均不能覆蓋整個顯示器屏幕,因此圖像周圍部分以黑色顯示,盡可能少的干擾人眼對圖像的注視情況。為保證盡可能多并準確地采集到眼動數(shù)據(jù),觀察時,被試者與顯示屏幕的距離保持在45~90 cm之間。實驗所使用的眼動儀安裝于顯示器屏幕下方,體積小巧,連接簡單,擁有50 cm*36 cm的自由頭動范圍,其采樣率為60 Hz。對眼睛注視點進行校正時采用五點定標,定標完成后觀察者隨意觀看圖像,其注視點和掃視點,以及注視路徑和掃視路徑由眼動儀的紅外感受攝像頭記錄,并由其外接的處理器進行處理。經(jīng)過Tobii公司所研發(fā)的Tobii Studio軟件的計算,得到每個注視點的坐標和注視時長等有用數(shù)據(jù),以及圖像的熱點圖、集簇圖和注視圖等能直觀表現(xiàn)人眼感興趣區(qū)域的分析圖像。
該數(shù)據(jù)庫包括每幅圖像的蜂群圖、注視圖、熱點圖及集簇圖。對于數(shù)據(jù)庫中的所有圖片,經(jīng)過Tobii眼動儀的記錄和Tobii Studio軟件的計算,得出其相應(yīng)的熱點圖、集簇圖以及注視圖等,以數(shù)據(jù)庫XROIEF中的圖像1n為例,如圖3所示。
圖3(a)為注視圖(Gaze plot map),圖中不同大小的圓點記錄了被試者觀察該圖像時的注視點位置及其注視軌跡,圓點的大小表示注視時間,圓點越大,則表明注視時間越長,反之亦然。圓點中的數(shù)字則表示被試者觀察時的眼動順序,該圖為30名被試者觀察圖像時注視點的疊加。圖3(b)為該圖像的熱點圖(Heat Map),如圖所示其以熱點的形式直觀表現(xiàn)出了人眼對圖像的關(guān)注區(qū)域,熱點處的顏色深度表示人眼對該位置區(qū)域的關(guān)注程度,顏色越深表示人眼在該區(qū)域的注視點越多、注視時間越長,顏色深度之間包含很多過渡層次。圖3(c)中所示是該圖像的集簇圖(Cluster),如圖中所示,人眼對圖像的關(guān)注區(qū)域以不同顏色的不規(guī)則圖形所標注出,在生成集簇圖時,本文根據(jù)需要,在Tobii Studio軟件中將距離基準值(Distance Threshold)設(shè)置為15%(默認為50%),以劃分出較為精細并符合研究需要的集簇(關(guān)注區(qū)域)。將由注視點數(shù)據(jù)生成的集簇圖導(dǎo)入興趣區(qū)域AOIs(Areas of Interest)中去,可由此獲得不同興趣區(qū)域的注視點數(shù)據(jù),如該興趣區(qū)的注視時長、注視點個數(shù)、訪問時長、訪問次數(shù)及注視百分比等。其中,首次進入興趣區(qū)用時是指被試者第一次注視到一個興趣區(qū)所用的時間,時間計算開始于包含興趣區(qū)的圖像首次呈現(xiàn)時,結(jié)束于被試者的注視點出現(xiàn)在該興趣區(qū)時;首次進入前的注視點個數(shù)是指被試者在首個注視點進入興趣區(qū)之前的注視點個數(shù),是從包含興趣區(qū)的圖像呈現(xiàn)開始直到被試的注視點第一次出現(xiàn)在興趣區(qū)為止。首次進入用時越短,進入前的注視點個數(shù)越少,說明被試者對該興趣區(qū)越敏感,越易被此興趣區(qū)吸引,反之亦然。注視點持續(xù)時間指一個興趣區(qū)中所有注視點的持續(xù)時間之和;注視點個數(shù)指的是被試者在一個興趣區(qū)投入的注視點個數(shù);總訪問時間指訪問某個興趣區(qū)時所持續(xù)的時間總長。注視點持續(xù)、總訪問時間越長,注視點個數(shù)越多,則說明被試者對該區(qū)域越感興趣。注視百分比指注意到該興趣區(qū)域的人數(shù)占所有被試者人數(shù)的百分比,百分比越大,說明看到該興趣區(qū)域的人數(shù)越多。通過此數(shù)據(jù),可以進而進行興趣區(qū)域中眼動數(shù)據(jù)的統(tǒng)計和分析。圖4顯示了圖像1n集簇圖中新娘臉部Cluster2和新娘身后的背景Cluster7所在的具體位置及大小信息。
圖4 Cluster2和cluster7在圖1n的位置信息
表3所示為Tobii Studio軟件對Cluster2和Cluster7這兩個興趣區(qū)域所計算而得的部分眼動數(shù)據(jù),包括30人觀看圖片時各眼動數(shù)據(jù)的平均值(Mean)、最大值(Max)、最小值(Min)、總值(Sum)、中值(Median)以及標準差(Stedv)。由該表數(shù)據(jù)分析可知人眼對Cluster2的感興趣程度明顯比Cluster7高出很多。由此,通過對每幅圖注視點數(shù)據(jù)的整合分析,可以得到人眼對該圖的感興趣區(qū)域分布情況及感興趣程度。
表3 不同興趣區(qū)域眼動數(shù)據(jù)示例
分別對13幅人物圖像、6幅動物圖像、8幅風(fēng)景圖像、3幅建筑圖像、20幅靜物圖像和5幅動作圖像的眼動數(shù)據(jù)做統(tǒng)計分析,以下以人物圖像為例做數(shù)據(jù)統(tǒng)計及分析,其它類別的圖像與其分析方法相同。通過分析可得以下幾點。
1) 在描述人物的圖像中,人眼對人臉的感興趣程度最高。將13幅人物圖分為9幅單人圖和4幅多人圖,如表4所示,將9幅單人圖像中的人臉關(guān)注區(qū)域和圖像中除過人臉區(qū)域關(guān)注最多的興趣區(qū)域(次關(guān)注區(qū))分別做平均,選取以下指標的平均值(對30個被試者的眼動數(shù)據(jù)做平均)來做數(shù)據(jù)統(tǒng)計。如表4中數(shù)據(jù)所示,人臉區(qū)域的首次進入興趣區(qū)用時和首次進入前注視點個數(shù)均少于次關(guān)注區(qū)域,說明相較其它區(qū)域,人臉區(qū)域能夠更快吸引人眼的注意力;在注視點持續(xù)時間、注視點個數(shù)及總訪問時間上,人臉區(qū)域明顯多于次關(guān)注區(qū),這說明人眼對人臉區(qū)域關(guān)注最多,關(guān)注時間最長;在注視百分比上,97%的人關(guān)注到了人臉區(qū)域,而只有71%的人關(guān)注到了次關(guān)注平均區(qū),這說明關(guān)注人臉的人數(shù)最多,基本所有人都關(guān)注到了人臉區(qū)域。
表4 人臉區(qū)域與次關(guān)注區(qū)域的眼動數(shù)據(jù)均值對比
2) 當(dāng)圖像中包含有多個人物時,通過對各個人臉興趣區(qū)域的數(shù)據(jù)比較,可得出結(jié)論:人臉位置對關(guān)注度的影響最大,位置靠近圖像中央25%處的人臉受關(guān)注度最高,而兩邊的關(guān)注度則較低,其關(guān)注程度從中央25%處向四周遞減;其次是人臉膚色的影響,膚色與其周圍環(huán)境或衣服等的對比度(反差)越大,首次進入興趣區(qū)用時就越短,首次進入前的注視點個數(shù)越少,從而被試者對該人臉就越敏感,該人臉區(qū)域受關(guān)注程度就越高,而通過數(shù)據(jù)還發(fā)現(xiàn),人眼在膚色為白色的人臉區(qū)域注視時間相對黃色和黑色人臉較長,注視點個數(shù)較多。
3) 與人物圖像相似,對于動物圖像,人眼關(guān)注度最高,也就是最感興趣的是動物臉的區(qū)域,尤其是眼睛、鼻子和嘴巴等區(qū)域;對于包含面積較小的人物或動物的風(fēng)景圖像,人眼最感興趣的是含有人物和動物的興趣區(qū)域,其次由于位置的影響,人眼主要關(guān)注的是圖像中央25%的位置區(qū)域;再次是色彩和明度、對比度較大的位置區(qū)域。對于背景比較雜亂的風(fēng)景圖、靜物圖和建筑圖,影響最大的是位置因素,圖像中央25%處到四周關(guān)注程度遞減,其次則是色彩和明度、對比度較大的區(qū)域引起的人眼關(guān)注度也較高。對于有動作交互的圖像(如讀書的人與書),人眼最感興趣的是交互物體(如書和人),在交互物體上會有很多注視點,其之間有很多注視路徑和掃視路徑。
通過眼動實驗,本論文建立了基于視覺感興趣區(qū)域的XROIEF數(shù)據(jù)庫,該數(shù)據(jù)庫包含原圖像55幅,經(jīng)過眼動實驗所得的注視圖、蜂群圖、熱點圖、集簇圖各55幅,每幅集簇圖各集簇區(qū)域中的眼動數(shù)據(jù)(包括首次進入興趣區(qū)用時、首次進入前的注視點個數(shù)、首次注視時長、注視點持續(xù)時間、注視點個數(shù)、訪問時間、訪問次數(shù)及注視百分比等),以及觀察圖像時的注視點位置等信息(圖像的像素位置信息、左右眼到眼動儀的直線距離、左右眼掃視點在屏幕上的水平和垂直坐標等),上述數(shù)據(jù)信息均以圖像內(nèi)容為依據(jù),劃分為人物肖像圖、動物肖像圖、風(fēng)景圖、建筑物圖、靜物圖以及動作圖六種類別,分類整理記錄于Excel表格中,以便于以后查詢和進一步研究,并有利于以后擴展和分類管理數(shù)據(jù)庫。
表5所示為該數(shù)據(jù)庫所包含的數(shù)據(jù)信息。
表5 XROIEF數(shù)據(jù)庫的組成及其各部分所含信息
本文主要建立了基于視覺感興趣區(qū)域的XROIEF數(shù)據(jù)庫,數(shù)據(jù)庫包括原圖、蜂群圖、注視圖、熱點圖和集簇圖,以及其相應(yīng)的數(shù)據(jù)信息。
由于XROIEF數(shù)據(jù)庫中的圖像選擇是建立在圖像質(zhì)量評價的主流圖像數(shù)據(jù)庫以及用于印刷的標準圖像基礎(chǔ)之上的,因此對基于人眼感興趣區(qū)域的圖像質(zhì)量評價有著很大的參考價值。數(shù)字圖像在獲取、壓縮、處理、傳輸和重建的過程中,由于受到不同種類的降質(zhì),會產(chǎn)生壓縮、噪聲、模糊、對比度衰減等失真,而在印刷行業(yè)中,由于印刷環(huán)境、印刷材料及印刷設(shè)備等因素的影響,會造成印刷圖像的失真,有該數(shù)據(jù)庫中的眼動數(shù)據(jù)等作為參考,可以建立并進一步優(yōu)化圖像質(zhì)量評價模型,以對基于內(nèi)容的數(shù)字圖像質(zhì)量評價和印刷圖像質(zhì)量的在線評價做出一定的貢獻。
致謝:論文中的眼動實驗學(xué)術(shù)租賃了Tobii公司生產(chǎn)的Tobii X2-60眼動儀,在此特別感謝Tobii公司對該實驗的大力支持;特別感謝西安交通大學(xué)張昀博士給予的支持和幫助!
參考文獻:
[1]王保云.圖像質(zhì)量客觀評價技術(shù)研究[D].合肥:中國科學(xué)技術(shù)大學(xué),2010.
Wang Baoyun.Research on digital image objective quality assessment[D].Hefei: University of Science and Technology of China, 2010.
[2]劉書琴,毋立芳,宮玉,等.圖像質(zhì)量評價綜述[J].中國科技論文在線,2011,6(7):501-506.
Liu Shuqin,Wu Lifang, Gong Yu, et al.Overview of image quality assessment[J].Sciencepaper Online, 2011, 6(7): 501-506.
[3]楊琬,吳樂華,李淑云,等.基于感興趣區(qū)域的圖像質(zhì)量評價方法[J].計算機應(yīng)用,2008,28(5):1310-1312.
Yang Wan, Wu Lehua, Li Shuyun, et al.Method of image quality assessment based on region of interest[J].Computer Application, 2008, 28(5): 1310-1312.
[4]Judd Tilke, Ehinger Krista, Durand Fréd, et al.Learning to predict where humans look[C]∥2009 IEEE 12th international conference on Computer Vision.IEEE, 2009: 2106-2113.
[5]Ramanathan Subramanian, Katti Harish, Sebe Nicu, et al.An eye fixation database for saliency detection in images[C]∥Computer Vision-ECCV 2010.Springer, 2010:30-43.
[6]Ninassi Alexandre, Le Callet Patrick, Autrusseau Florent.Pseudo no reference image quality metric using perceptual data hiding[C]∥Electronic Imaging 2006.International Society for Optics and Photonics, 2006: 60570G-60570G-12.
[7]Larson Eric C, Chandler Damon M.Most apparent distortion: full-reference image quality assessment and the role of strategy[J].Journal of Electronic Imaging, 2010, 19(1): 011006-011006-21.
[8]Sheikh H R,Wang Z, Cormack L, et al.LIVE image quality assessment database release 2[EB/OL].http:∥live.ece.utexas.edu/research/quality,2013-12-18.
[9]Sheikh Hamid R, Sabir Muhammad F, Bovik Alan C.A statistical evaluation of recent full reference image quality assessment algorithms[J].IEEE Transactions on Image Processing, 2006, 15(11): 3440-3451.
[10]Wang Zhou, Bovik Alan C, Sheikh Hamid R, et al.Image quality assessment: From error visibility to structural similarity[J].IEEE Transactions on Image Processing, 2004, 13(4): 600-612.