• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      內(nèi)容感知的圖像重定向方法綜述

      2022-03-02 08:31:24郭迎春郝小可
      關(guān)鍵詞:重定向語(yǔ)義美學(xué)

      郭迎春,張 萌,郝小可

      河北工業(yè)大學(xué) 人工智能與數(shù)據(jù)科學(xué)學(xué)院,天津300400

      在計(jì)算機(jī)圖像處理和計(jì)算機(jī)圖形學(xué)中,圖像重定向是指對(duì)數(shù)字圖像的大小進(jìn)行調(diào)整,以此來(lái)適配不同顯示終端的長(zhǎng)寬比。隨著互聯(lián)網(wǎng)和5G 技術(shù)的迅速發(fā)展,無(wú)論是技術(shù)方面還是用戶(hù)體驗(yàn)方面都在不斷提升,除了設(shè)備性能不斷優(yōu)化外,顯示屏幕也在逐漸改進(jìn)來(lái)滿(mǎn)足人們的不同需求,如圖1 所示。面對(duì)不同的顯示屏幕大小,如何確保在屏幕的各種形態(tài)下,圖像內(nèi)容顯示既完整又美觀是研究者們面臨的又一新問(wèn)題,因此尋找一個(gè)合適的圖像重定向技術(shù)是十分重要的。當(dāng)圖像的長(zhǎng)寬比與顯示屏幕的長(zhǎng)寬比不匹配時(shí),利用圖像重定向技術(shù),改變圖像的尺寸大小來(lái)適應(yīng)顯示設(shè)備,從而可以提高顯示設(shè)備的利用率并優(yōu)化視覺(jué)終端的顯示效果[1]。

      圖1 不同顯示設(shè)備的圖像重定向Fig.1 Image retargeting results on different display devices

      傳統(tǒng)的圖像重定向方法主要包括均勻縮放和剪切。均勻縮放通過(guò)最近鄰域插值[2]、雙線(xiàn)性插值[3]等方法改變圖像大小,適用于目標(biāo)圖像與原始圖像變化比例不大的情況,且運(yùn)算速度快。當(dāng)這個(gè)變化比例較大時(shí),會(huì)出現(xiàn)明顯的拉伸或擠壓變形。剪切是通過(guò)去除不重要的區(qū)域獲得目標(biāo)圖像,方法簡(jiǎn)單但會(huì)導(dǎo)致圖像內(nèi)容顯示不完全,通常結(jié)合美學(xué)感知獲得具有高美感的圖像[4-11]。

      傳統(tǒng)的圖像重定向方法主要包括均勻縮放和剪切。均勻縮放通過(guò)最近鄰域插值[2]、雙線(xiàn)性插值[3]等方法改變圖像大小,適用于目標(biāo)圖像與原始圖像變化比例不大的情況,且運(yùn)算速度快。當(dāng)這個(gè)變化比例較大時(shí),會(huì)出現(xiàn)明顯的拉伸或擠壓變形。剪切是通過(guò)去除不重要的區(qū)域獲得目標(biāo)圖像,方法簡(jiǎn)單但會(huì)導(dǎo)致圖像內(nèi)容顯示不完全,通常結(jié)合美學(xué)感知獲得具有高美感的圖像[4-11]。

      基于內(nèi)容感知的圖像重定向是目前主流的方法。該方法根據(jù)圖像內(nèi)容使圖像變形盡量發(fā)生在非重要的區(qū)域,從而獲得更好的視覺(jué)效果,具有代表性的是基于內(nèi)容感知的圖像重定向[12],其特點(diǎn)是獲取重要度圖,根據(jù)重要度圖進(jìn)行重定向。重要度圖的獲取對(duì)于圖像重定向至關(guān)重要,而獲取符合人類(lèi)視覺(jué)感知的重要度圖是具有挑戰(zhàn)性的任務(wù)。

      隨著深度學(xué)習(xí)的發(fā)展,大量有標(biāo)注的數(shù)據(jù)為圖像重定向提供了新的研究途徑。然而基于深度神經(jīng)網(wǎng)絡(luò)的圖像重定向仍處于研究的初級(jí)階段,本文從圖像重定向的發(fā)展入手,對(duì)基于重要度圖和深度神經(jīng)網(wǎng)絡(luò)在圖像重定向領(lǐng)域的發(fā)展問(wèn)題進(jìn)行歸納總結(jié)。此外,還介紹了一些常用的數(shù)據(jù)集以及評(píng)價(jià)方法,并探討該領(lǐng)域在未來(lái)的研究方向。

      總體來(lái)說(shuō),本文主要有以下三方面貢獻(xiàn):

      (1)以重要度圖的獲取為線(xiàn)索,回顧了經(jīng)典圖像重定向方法的原理以及優(yōu)缺點(diǎn)。

      (2)詳細(xì)總結(jié)了基于深度神經(jīng)網(wǎng)絡(luò)的圖像重定向方法,雖然較傳統(tǒng)方法文獻(xiàn)數(shù)量較少,但是深度神經(jīng)網(wǎng)絡(luò)可以彌補(bǔ)手工特征的缺點(diǎn),更好地表示圖像語(yǔ)義結(jié)構(gòu),獲取更準(zhǔn)確的重定向圖像。

      (3)介紹了常用的圖像重定向數(shù)據(jù)集以及評(píng)價(jià)方法,針對(duì)現(xiàn)階段存在的問(wèn)題,簡(jiǎn)單探討了該領(lǐng)域未來(lái)的研究方向。

      1 基于重要度圖的圖像重定向方法

      圖像重定向技術(shù)對(duì)于長(zhǎng)寬比相同的顯示設(shè)備的重定向在現(xiàn)階段的發(fā)展較為成熟,比如對(duì)圖像進(jìn)行按比例均勻縮放,但對(duì)于長(zhǎng)寬比不同的圖像重定向技術(shù)還在探索階段。面對(duì)這樣的問(wèn)題,早期的方法是剪切或像素填充,剪切的方法容易造成圖像主體內(nèi)容丟失,填充的方法會(huì)影響圖像的美觀并且降低顯示設(shè)備的利用率。

      為彌補(bǔ)早期方法的缺點(diǎn),2007年Avidan和Shamir[12]首次提出基于內(nèi)容感知的圖像重定向方法。該方法專(zhuān)注于保護(hù)圖像主體內(nèi)容,首先檢測(cè)出圖像在視覺(jué)上重要的區(qū)域,從而獲得重要度圖,以此確定圖像中各個(gè)區(qū)域的重要程度;然后根據(jù)像素的重要程度進(jìn)行重定向處理,對(duì)重要度高的區(qū)域盡量保持不變或采取均勻縮放,將由于縱橫比改變所產(chǎn)生的形變盡可能隱藏在重要度較低的區(qū)域,這樣就可以保護(hù)圖像的主體區(qū)域,以此獲得較好的視覺(jué)效果。因此,基于內(nèi)容感知的圖像重定向技術(shù)可分為兩步:獲取圖像重要度圖和基于重要度圖的重定向。

      1.1 重要度圖的獲取

      圖像重要度圖反映的是人眼對(duì)圖像中不同內(nèi)容區(qū)域變化的敏感程度[13]。不同的觀察者有不同的主觀看法,并且不同的應(yīng)用場(chǎng)景也有不同的理解。在深度學(xué)習(xí)技術(shù)出現(xiàn)之前,大多是利用低層特征構(gòu)造重要度圖,通過(guò)手工特征進(jìn)行圖像重定向。該類(lèi)方法屬于無(wú)監(jiān)督學(xué)習(xí)方法,通常利用圖像梯度、顯著度、對(duì)比度等信息計(jì)算重要度圖。隨著深度學(xué)習(xí)的發(fā)展,基于深度學(xué)習(xí)的圖像重定向技術(shù)獲得了廣泛的研究。該類(lèi)方法大多屬于有監(jiān)督的方法,需要大量有標(biāo)注的數(shù)據(jù)集訓(xùn)練網(wǎng)絡(luò)。由于深度學(xué)習(xí)具有強(qiáng)大的表征能力,能夠彌補(bǔ)低層特征缺乏的高級(jí)語(yǔ)義信息,獲得圖像的語(yǔ)義特征,從而能夠準(zhǔn)確檢測(cè)出復(fù)雜場(chǎng)景的重要度圖。表1按照基于手工特征和基于深度學(xué)習(xí)方式歸納總結(jié)了多種獲取重要度圖的方法。

      表1 重要度圖獲取方法Table 1 Importance map acquisition method

      1.2 基于重要度圖的重定向技術(shù)

      基于重要度圖的重定向技術(shù)大致可分為三類(lèi):以線(xiàn)裁剪為代表的離散型重定向算法[12,17,28-33],以變形為代表的連續(xù)型重定向算法[14,16,34-41]和多操作重定向算法[42-47]。

      (1)離散型重定向算法

      線(xiàn)裁剪(seam carving,SC)[12]是最早的基于內(nèi)容感知的圖像重定向算法,主要分為計(jì)算像素的重要度和增刪裁剪線(xiàn)兩個(gè)步驟。本著保護(hù)高能量像素,增刪低能量像素的原則,該算法首先利用梯度圖獲得圖像重要度圖,然后采用動(dòng)態(tài)規(guī)劃算法找到累積能量最小的八連通路徑作為最佳裁剪線(xiàn),通過(guò)插入或刪除該裁剪線(xiàn)達(dá)到放大或縮小的目的。對(duì)于一幅大小為n×m的圖像,其垂直裁剪線(xiàn)S可表示為:

      式中,x(i)表示映射x:[1,…,m]→[1,…,n],S是一條從第一行到最后一行的八連通路徑。每條裁剪線(xiàn)S的能量計(jì)算由對(duì)應(yīng)像素的重要度決定,若像素(i,j)的重要度為e(i,j),則S的能量表示為,因此最優(yōu)裁剪線(xiàn)S*定義為S*=minE(S)。最優(yōu)裁剪線(xiàn)通過(guò)動(dòng)態(tài)規(guī)劃算法獲取,其中像素點(diǎn)(i,j)的累積能量M(i,j)可表示為:

      獲取累積能量圖后,在能量圖的最后一行找到最小累積能量的像素點(diǎn),然后向上進(jìn)行回溯,即可得到累積能量最小的最佳裁剪線(xiàn)。該算法能夠有效地實(shí)現(xiàn)長(zhǎng)寬比不同的圖像重定向,但其僅僅將梯度圖作為重要度圖的參考條件,沒(méi)有考慮當(dāng)圖像主體內(nèi)部平滑區(qū)域梯度值較小時(shí)裁剪線(xiàn)會(huì)大量穿過(guò)圖像主體區(qū)域的情況。由于裁剪線(xiàn)一般將最邊緣的行(列)累積能量最小的像素作為起點(diǎn),這會(huì)導(dǎo)致裁剪線(xiàn)穿過(guò)面積較小的重要區(qū)域或集中于一個(gè)區(qū)域生成,發(fā)生扭曲變形的情況。文獻(xiàn)[30]針對(duì)線(xiàn)裁剪算法對(duì)圖像過(guò)度裁剪造成的失真問(wèn)題,提出基于圖像分塊的線(xiàn)裁剪算法,將分塊的思想融入到線(xiàn)裁剪并優(yōu)化累積能量圖。為保護(hù)圖像內(nèi)容不丟失的同時(shí)還要保證圖像的視覺(jué)美感,文獻(xiàn)[48]引入美學(xué)原則來(lái)指導(dǎo)裁剪線(xiàn)的生成。離散型算法在圖像重定向的長(zhǎng)寬比變化不大時(shí),效果較好,但是當(dāng)目標(biāo)圖像的長(zhǎng)寬比變化過(guò)大時(shí),往往會(huì)丟失圖像的信息,造成圖像主體內(nèi)容扭曲變形。

      (2)連續(xù)型重定向算法

      以變形為代表的連續(xù)型重定向算法是將圖像分成網(wǎng)格,并計(jì)算各個(gè)網(wǎng)格內(nèi)像素的重要度值,在重要度值及邊界條件約束下,保障重要度值高的網(wǎng)格不發(fā)生形變或進(jìn)行均勻拉伸,而使形變發(fā)生在重要度值低的網(wǎng)格中。文獻(xiàn)[14,16,34-37]采用四邊形網(wǎng)格,文獻(xiàn)[38-41]采用三角形網(wǎng)格,其中Guo 等人[38]利用三角網(wǎng)格參數(shù)化,提出了基于顯著性的網(wǎng)格參數(shù)化重定向方法,旨在估量劃分的不同區(qū)域的目標(biāo)網(wǎng)格的邊長(zhǎng)。網(wǎng)格變形算法在圖像背景復(fù)雜時(shí),會(huì)使圖像重要區(qū)域在重定向過(guò)程中產(chǎn)生壓縮或拉伸等變形失真現(xiàn)象。為解決圖像保護(hù)不足的問(wèn)題,Du 等人[49]融合梯度值、顯著性、顏色等多種特征確定可變形空間,確定最優(yōu)變形尺寸,從而保護(hù)不可變形區(qū)域的內(nèi)容。谷香麗等人[50]運(yùn)用彈簧近似法控制網(wǎng)格變形,對(duì)三角形網(wǎng)格設(shè)置彈簧系統(tǒng),與已有的網(wǎng)格變形算法相比,效率變高。

      (3)多操作重定向算法

      早期的多操作重定向算法(multi-operator,MULTIOP)[42]是結(jié)合線(xiàn)裁剪、裁剪和縮放算法實(shí)現(xiàn)重定向。該算法考慮到對(duì)圖像的多種影響因素,如圖像內(nèi)容丟失程度、主體對(duì)象變形程度、圖像結(jié)構(gòu)損壞程度,然后折中選擇,確定各個(gè)操作算法的執(zhí)行順序和數(shù)量,保證圖像的整體效果不失真變形。MULTIOP算法比單一算法具有更好的泛化效果,不足之處是該算法時(shí)間花費(fèi)較長(zhǎng),而且大部分多操作算法的優(yōu)化過(guò)程并沒(méi)有找到最優(yōu)的結(jié)果,只是得到相對(duì)較優(yōu)的結(jié)果。因此,如何設(shè)計(jì)各種操作算法的順序以及操作時(shí)間是相對(duì)較難解決的問(wèn)題。表2 總結(jié)了三種典型的圖像重定向技術(shù)SC[12]、縮放和拉伸(scaleand-stretch,SNS)[16]以及MULTIOP[42]的優(yōu)缺點(diǎn)。

      表2 三類(lèi)典型圖像重定向方法的比較Table 2 Comparison of three typical image retargeting methods

      大多數(shù)基于內(nèi)容的重定向方法在獲取重要度圖時(shí),都使用加權(quán)結(jié)合的特征信息,例如梯度表示的邊緣信息,顏色代表的顏色對(duì)比度信息,顯著性定義的每個(gè)像素的重要性,但是在高層語(yǔ)義信息的表示,以及融合高層語(yǔ)義信息和低層細(xì)節(jié)信息方面還存在局限性。隨著深度學(xué)習(xí)的出現(xiàn),研究者嘗試將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用在圖像重定向領(lǐng)域。深度神經(jīng)網(wǎng)絡(luò)可以提取豐富的語(yǔ)義信息,并且能夠更好地表示圖像語(yǔ)義結(jié)構(gòu),這讓深度學(xué)習(xí)在圖像重定向領(lǐng)域中逐漸占有主導(dǎo)地位,因此近年來(lái)有大量相關(guān)研究成果涌現(xiàn)[18-26,51-52]。

      2 基于深度神經(jīng)網(wǎng)絡(luò)的圖像重定向方法

      基于手工特征的圖像重定向方法中重要度圖是由低層信息獲取,缺乏高層語(yǔ)義特征,通用性受到限制。因此,研究者利用深度神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì),通過(guò)網(wǎng)絡(luò)獲取圖像語(yǔ)義信息,彌補(bǔ)這一局限。大量實(shí)驗(yàn)證明[18-26],基于深度學(xué)習(xí)的圖像重定向方法無(wú)論是定性結(jié)果還是定量結(jié)果都超越了傳統(tǒng)方法。當(dāng)然,圖像重定向深度學(xué)習(xí)方法也經(jīng)歷了一個(gè)從簡(jiǎn)單到復(fù)雜的發(fā)展過(guò)程。起初研究者關(guān)注于利用神經(jīng)網(wǎng)絡(luò)改善圖像的重要度圖,雖然深度學(xué)習(xí)的研究工作大多屬于有監(jiān)督的學(xué)習(xí)范疇,但是圖像重定向研究者也在無(wú)監(jiān)督或弱監(jiān)督的方向上進(jìn)行嘗試。近年來(lái),隨著美學(xué)感知在計(jì)算機(jī)視覺(jué)領(lǐng)域中的應(yīng)用發(fā)展,一些結(jié)合美學(xué)質(zhì)量評(píng)估的圖像重定向方法被提出,這類(lèi)方法有的通過(guò)美學(xué)評(píng)價(jià)模型選出美學(xué)評(píng)分最高的區(qū)域進(jìn)行圖像裁剪[4,6-8],有的結(jié)合深度強(qiáng)化學(xué)習(xí)的思想[10-11],利用美學(xué)評(píng)價(jià)模型計(jì)算獎(jiǎng)勵(lì)分?jǐn)?shù),從而找到全局最優(yōu)的重定向結(jié)果。

      2.1 基于深度神經(jīng)網(wǎng)絡(luò)的圖像重定向算法

      基于深度神經(jīng)網(wǎng)絡(luò)的圖像重定向方法按照實(shí)現(xiàn)過(guò)程可分為四種類(lèi)型,分別為神經(jīng)網(wǎng)絡(luò)直接生成目標(biāo)圖像、生成對(duì)抗網(wǎng)絡(luò)生成目標(biāo)圖像、神經(jīng)網(wǎng)絡(luò)提取重要度圖進(jìn)行圖像重定向以及結(jié)合注視點(diǎn)Gaze進(jìn)行圖像重定向。表3對(duì)各類(lèi)代表性算法進(jìn)行總結(jié)。

      表3 基于深度神經(jīng)網(wǎng)絡(luò)的圖像重定向方法Table 3 Comparison of image retargeting methods based on deep neural network

      (1)神經(jīng)網(wǎng)絡(luò)直接生成目標(biāo)圖像

      Cho 等人首次將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于圖像重定向領(lǐng)域,提出了一種弱監(jiān)督和自監(jiān)督的深度卷積神經(jīng)網(wǎng)絡(luò)(weakly and self-supervised deep convolutional neural network,WSSDCNN)[18],通過(guò)輸入原圖像和目標(biāo)比例,讓網(wǎng)絡(luò)學(xué)習(xí)從原圖像到目標(biāo)網(wǎng)格的逐像素移位映射,從而輸出目標(biāo)圖像,實(shí)現(xiàn)了一種端到端的內(nèi)容感知圖像重定向框架,其中還隱含地學(xué)習(xí)圖像的注意力圖引導(dǎo)移位圖的生成。Arar 等人提出一種利用神經(jīng)網(wǎng)絡(luò)深層特征調(diào)整圖像的方法DNR(deep network resizing)[20],該方法在圖像特征空間中應(yīng)用線(xiàn)裁剪對(duì)圖像大小進(jìn)行調(diào)整,利用已訓(xùn)練的VGG19 網(wǎng)絡(luò)進(jìn)行圖像檢測(cè),再通過(guò)網(wǎng)格采樣層優(yōu)化圖像,減少偽影產(chǎn)生。同樣,為了在深度特征空間將原始圖像重定向到目標(biāo)長(zhǎng)寬比,Lin 等人提出深度圖像重定向方法(deep image retargeting,DeepIR)[23],設(shè)計(jì)一種利于保持語(yǔ)義結(jié)構(gòu)的均勻重采樣(uniform re-sampling,UrS)方法,通過(guò)逐步最近領(lǐng)域(nearest neighbor field,NNF)[53]融合方式,有效地將高層語(yǔ)義內(nèi)容和低層細(xì)節(jié)信息結(jié)合,實(shí)現(xiàn)由粗到細(xì)的圖像重構(gòu)結(jié)果。UrS的設(shè)計(jì)保留了深度網(wǎng)絡(luò)特征的重要語(yǔ)義信息,避免由于過(guò)度移除列/行像素而導(dǎo)致的內(nèi)容丟失、結(jié)構(gòu)混亂。由于大多數(shù)的深度學(xué)習(xí)需要帶有標(biāo)注的數(shù)據(jù)集進(jìn)行訓(xùn)練,Tan等人提出了一種無(wú)監(jiān)督雙循環(huán)深度學(xué)習(xí)網(wǎng)絡(luò)(deep cyclic image retargeting,CycleIR)[19],不需要任何注釋信息,將圖像進(jìn)行兩次重定向操作,生成與原圖同樣大小的圖像,引入循環(huán)感知一致性損失訓(xùn)練網(wǎng)絡(luò)。利用神經(jīng)網(wǎng)絡(luò)直接生成目標(biāo)圖像的流程圖如圖2所示。

      圖2 利用深度神經(jīng)網(wǎng)絡(luò)直接生成目標(biāo)圖像的流程圖Fig.2 Process of using deep neural networks to directly generate target images

      (2)生成對(duì)抗網(wǎng)絡(luò)

      生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)[54]作為一種生成模型,也可應(yīng)用在圖像重定向領(lǐng)域。Shocher等人利用GAN學(xué)習(xí)圖像內(nèi)部分布,提出InGAN(internal GAN)模型[51],如圖3,無(wú)需任何訓(xùn)練樣本,在單個(gè)輸入圖像上進(jìn)行訓(xùn)練,合成大量大小、形狀和長(zhǎng)寬比不同的新圖像,所有圖像都具有與輸入圖像相同的內(nèi)部分布,實(shí)現(xiàn)圖像的擴(kuò)充和拉伸。與InGAN不同的是,Mastan 等人提出深度上下文內(nèi)部學(xué)習(xí)的圖像重定向方法(deep contextual internal learning,DCIL)[52],同樣使用生成對(duì)抗網(wǎng)絡(luò),在損失計(jì)算上考慮到原圖像與目標(biāo)圖像之間上下文特征的差異,使生成器輸出的分布與自然圖像的分布相似。但是,這類(lèi)基于GAN 的重定向方法受限于每幅圖像都要經(jīng)過(guò)大量訓(xùn)練才能學(xué)到其內(nèi)部的分布情況,并且適用于紋理結(jié)構(gòu)連續(xù)的自然圖像。

      圖3 InGAN網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Architecture of InGAN

      (3)神經(jīng)網(wǎng)絡(luò)提取重要度圖

      如圖4,一些研究者利用神經(jīng)網(wǎng)絡(luò)檢測(cè)圖像重要度圖,再結(jié)合傳統(tǒng)重定向方法,如線(xiàn)裁剪、線(xiàn)性縮放、多操作、網(wǎng)格變形、像素融合[55]等生成目標(biāo)圖像。例如Song等人[21]利用編碼器解碼器結(jié)構(gòu)提取圖像深度能量圖,再結(jié)合線(xiàn)裁剪算法實(shí)現(xiàn)重定向;Wu 等人[22]提出結(jié)合深度神經(jīng)網(wǎng)絡(luò)的圖像變形方法,通過(guò)融合預(yù)訓(xùn)練網(wǎng)絡(luò)[56]生成的視覺(jué)重要度圖和前景掩碼圖來(lái)引導(dǎo)圖像變形。為保證重要度圖與人類(lèi)主觀感知保持一致,一些研究方法還結(jié)合顯著圖、圖像上下文和高級(jí)語(yǔ)義信息來(lái)檢測(cè)圖像中背景區(qū)域和前景區(qū)域。為保護(hù)始圖像的語(yǔ)義成分,Liu 等人提出了語(yǔ)義保持的深度圖像重定向框架(semantics preserving deep image retargeting,SP-DIR)[24]。該方法首先通過(guò)深度解析網(wǎng)絡(luò)提取多個(gè)語(yǔ)義分量圖,包括前景、上下文和背景,然后利用分類(lèi)引導(dǎo)融合網(wǎng)絡(luò)將各種語(yǔ)義分量圖融合成具有像素級(jí)重要度的語(yǔ)義合成圖,最后結(jié)合現(xiàn)有的重定向方法生成目標(biāo)圖像。設(shè)計(jì)的分類(lèi)引導(dǎo)融合網(wǎng)絡(luò)將圖像分類(lèi)為面向?qū)ο蠡蛎嫦驁?chǎng)景兩種類(lèi)別,并為不同類(lèi)別的圖像學(xué)習(xí)不同的融合參數(shù),保留了原始圖像的語(yǔ)義信息。Yan等人[25]提出了一種基于語(yǔ)義分割和像素融合的圖像重定向方法,采用預(yù)訓(xùn)練的RefineNet[57]生成高分辨的預(yù)測(cè)圖像,然后結(jié)合顯著圖獲取最終的重要度圖,最后采用像素融合方式得到目標(biāo)圖像。Ahmadi等人[26]考慮到圖像上下文對(duì)圖像語(yǔ)義部分的重要作用,提出一種混合型顯著性檢測(cè)方法,最終的顯著圖由基于顏色、基于對(duì)比度和基于語(yǔ)義分割的顯著圖線(xiàn)性組合獲得。其中語(yǔ)義分割網(wǎng)絡(luò)使用預(yù)先訓(xùn)練的PSPNet[58]將整個(gè)網(wǎng)絡(luò)分成編碼器和解碼器兩部分,編碼器提取的特征用于解碼器生成分割圖和上下文檢測(cè),考慮到不同的分割對(duì)象在不同的上下文語(yǔ)境中具有不同的重要性,因此根據(jù)檢測(cè)的像素類(lèi)別和所屬的上下文語(yǔ)境給圖像像素分配顯著值,最終利用像素融合的方法進(jìn)行圖像重定向。

      圖4 深度神經(jīng)網(wǎng)絡(luò)提取重要度圖引導(dǎo)圖像重定向的流程圖Fig.4 Process of using deep neural networks to obtain importance map to guide image retargeting

      (4)注視點(diǎn)

      生物學(xué)和心理學(xué)實(shí)驗(yàn)都表明,人類(lèi)在觀察一幅圖像時(shí),首先會(huì)聚焦在圖像中最顯著的區(qū)域,然后再將目光轉(zhuǎn)移到第二個(gè)區(qū)域。為更加符合人類(lèi)的視覺(jué)感知,考慮到人眼注意力分配情況,Zhou等人[1]提出了一種新的重定向框架,利用人眼的注視行為快速縮小照片,網(wǎng)絡(luò)模型如圖5。該模型首先利用幾何保持圖排序算法(geometry-preserved graph ranking)有效地選擇多個(gè)顯著目標(biāo)塊來(lái)模擬人眼注視移動(dòng)路徑(gaze shifting path,GSP);然后利用聚合的CNN網(wǎng)絡(luò)分層學(xué)習(xí)每個(gè)GSP的深度表示;在此基礎(chǔ)上,構(gòu)建出用于學(xué)習(xí)高質(zhì)量美學(xué)照片先驗(yàn)知識(shí)的概率模型[59]。同樣,Wang等人[27]提出一種感知引導(dǎo)的多通道視覺(jué)特征融合方法,利用簡(jiǎn)單線(xiàn)性迭代聚類(lèi)(simple linear iterative clustering,SLIC)[60]將圖像分割成超像素,用于構(gòu)造小圖,隨后通過(guò)所設(shè)計(jì)的稀疏約束算法選出最顯著的小圖并將它們連接起來(lái),形成GSP。GSP 的提出彌補(bǔ)了現(xiàn)有方法不能有效編碼人類(lèi)視覺(jué)機(jī)制的缺點(diǎn),它可以很好地反映人眼的注意力分配和選擇。

      圖5 結(jié)合Gaze的圖像重定向算法Fig.5 Gaze-based image retargeting method

      2.2 基于深度強(qiáng)化學(xué)習(xí)的多操作算法

      一般情況下,由于圖像中不同區(qū)域具有不同的特征,多操作圖像重定向比單操作算法具有更好的泛化效果。早期的MULTIOP[42]會(huì)有陷入局部最優(yōu)的可能性,并且時(shí)間復(fù)雜度按指數(shù)增長(zhǎng),效率低下。近年來(lái),研究者提出了基于深度強(qiáng)化學(xué)習(xí)的多操作算法,這類(lèi)方法既具有深度學(xué)習(xí)的感知能力,又具有強(qiáng)化學(xué)習(xí)的決策能力,可以直接獲取操作符的序列,而不用遍歷每一個(gè)操作符后再進(jìn)行選擇,大大減少了計(jì)算時(shí)間。下面將介紹兩種應(yīng)用深度強(qiáng)化學(xué)習(xí)的多操作算法。

      Zhou等人首次應(yīng)用深度強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)多操作的圖像重定向,提出了一種基于語(yǔ)義和美學(xué)感知的弱監(jiān)督多操作圖像重定向框架(aesthetics aware multi-operator image retargeting,SAMIR)[61]。與之前使用相似度測(cè)量的多操作算法不同,該模型利用語(yǔ)義和美學(xué)感知度量作為獎(jiǎng)勵(lì)函數(shù),保證圖像內(nèi)容不丟失以及重定向后的圖像具有高質(zhì)量的視覺(jué)效果。具體網(wǎng)絡(luò)模型如圖6所示,智能體根據(jù)全局特征和局部特征從動(dòng)作空間中選擇適合當(dāng)前的操作符,得到這一步的重定向圖像,再根據(jù)語(yǔ)義和美學(xué)度量計(jì)算當(dāng)前的獎(jiǎng)勵(lì),用來(lái)更新智能體,重復(fù)這個(gè)過(guò)程,直到達(dá)到目標(biāo)大小。其中語(yǔ)義感知度量采用PatchMatch[62-63]計(jì)算,美學(xué)度量用視圖查找網(wǎng)絡(luò)(view finding network,VFN)[4]計(jì)算美學(xué)得分。

      圖6 SAMIR網(wǎng)絡(luò)結(jié)構(gòu)Fig.6 Architecture of SAMIR

      在MULTIOP[42]中,定義了一種新的圖像雙向相似度測(cè)量指標(biāo)(bi-directional warping,BDW),但是基于深度強(qiáng)化學(xué)習(xí)的方法中不能直接采用BDW分?jǐn)?shù)作為獎(jiǎng)勵(lì)計(jì)算,因?yàn)槊糠鶊D像的BDW 評(píng)分差異很大。為解決這個(gè)問(wèn)題,Kajiura 等人[64]提出了一種自我博弈的獎(jiǎng)勵(lì)機(jī)制,通過(guò)讓智能體與它的副網(wǎng)絡(luò)進(jìn)行較量,即BDW分?jǐn)?shù)的比較,并根據(jù)勝利或失敗計(jì)算獎(jiǎng)勵(lì),這樣可以處理BDW 分?jǐn)?shù)差異大的問(wèn)題。另外,該方法提出了一個(gè)動(dòng)態(tài)改變選擇每個(gè)動(dòng)作權(quán)重的方法,根據(jù)選擇動(dòng)作的頻率改變損失的權(quán)重,讓相對(duì)強(qiáng)和相對(duì)弱的動(dòng)作的選擇概率相等,避免網(wǎng)絡(luò)一直選擇較強(qiáng)的動(dòng)作。在該方法中其他評(píng)估功能(如美學(xué)評(píng)估[65])也可以用作獎(jiǎng)勵(lì)。

      2.3 基于美學(xué)感知的圖像裁剪算法

      圖像裁剪常用于圖像編輯,其目的是通過(guò)去除圖像的外部區(qū)域改善圖像,試圖找到比輸入圖像更好的構(gòu)圖。一般來(lái)說(shuō),專(zhuān)業(yè)攝影師會(huì)用到一些構(gòu)圖技巧獲得高質(zhì)量的照片,如黃金比例、三分法、視覺(jué)平衡和簡(jiǎn)潔。然而建立計(jì)算機(jī)模型模擬這些技術(shù)產(chǎn)生高質(zhì)量的照片是一個(gè)具有挑戰(zhàn)性的任務(wù)。

      早期研究者利用這些專(zhuān)業(yè)技巧改善圖像構(gòu)圖[66-70],但是從這些文獻(xiàn)中可以看出,傳統(tǒng)方法非常依賴(lài)研究者對(duì)攝影領(lǐng)域知識(shí)的理解,這將限制他們的工作進(jìn)展。由于深度學(xué)習(xí)的快速發(fā)展和新提出的大規(guī)模數(shù)據(jù)集,利用卷積神經(jīng)網(wǎng)絡(luò)完成圖像裁剪的研究不斷涌現(xiàn),這些方法可分為基于注意力的裁剪方法和基于美學(xué)感知的裁剪方法。基于注意力的裁剪方法[5,71-72]是在原始圖像中找到視覺(jué)上最顯著的區(qū)域,然后對(duì)候選框進(jìn)行排序,這樣可以保證最終的裁剪圖像中保留原有的主體內(nèi)容。然而這些方法只是單一地考慮注意力,未考慮圖像構(gòu)成,可能無(wú)法產(chǎn)生視覺(jué)上高質(zhì)量的裁剪圖像,因此研究者加入美學(xué)感知的思想,試圖從輸入圖像中找到視覺(jué)上令人愉悅的裁剪窗口,利用提取的圖像特征評(píng)估圖像美學(xué)分?jǐn)?shù)。本節(jié)將介紹幾種代表性的基于美學(xué)感知的圖像裁剪方法,表4對(duì)這些方法進(jìn)行總結(jié)。

      表4 基于美學(xué)感知的圖像裁剪算法總結(jié)Table 4 Summary of aesthetic-aware image cropping algorithms

      (1)滑動(dòng)窗口策略

      基于滑動(dòng)窗口策略的圖像裁剪方法一般分為兩階段,如圖7,第一階段通過(guò)滑動(dòng)窗口策略提取多個(gè)裁剪候選框,第二階段對(duì)每個(gè)裁剪候選框圖像進(jìn)行美學(xué)評(píng)估,選出美學(xué)得分最高的候選框圖像作為最終裁剪圖像。Chen等人考慮到專(zhuān)業(yè)攝影師拍出的照片一般具備較好的構(gòu)圖,而如果從專(zhuān)業(yè)圖像中隨機(jī)裁剪一塊,就會(huì)影響原來(lái)圖像的構(gòu)圖,因此原圖在構(gòu)圖方面的分?jǐn)?shù)應(yīng)該高于隨機(jī)裁剪的圖像?;谶@樣的假設(shè),他們提出視圖查找網(wǎng)絡(luò)VFN[4],如圖8,利用Hinge 損失實(shí)現(xiàn)網(wǎng)絡(luò)訓(xùn)練,如式(3):

      圖7 采取滑動(dòng)窗口策略的圖像裁剪流程圖Fig.7 Flow chart of image cropping with sliding window

      圖8 VFN網(wǎng)絡(luò)結(jié)構(gòu)Fig.8 Architecture of VFN

      其中,Ij、表示原始圖像及其對(duì)應(yīng)的裁剪圖像,Φ(Ij)、Φ()表示原始圖像及其對(duì)應(yīng)裁剪圖像的美學(xué)分?jǐn)?shù),g為間隙參數(shù),表示Φ(Ij)、Φ(之間的最小距離。該模型只能知道圖像構(gòu)圖的好壞,無(wú)法自動(dòng)從原圖中裁剪出構(gòu)圖好的裁剪圖,因此在裁剪方面,采用的是滑動(dòng)窗口策略,根據(jù)網(wǎng)絡(luò)輸出的分?jǐn)?shù)決定最終美學(xué)分?jǐn)?shù)高的裁剪框。

      (2)注意力感知策略

      基于滑動(dòng)窗口的圖像裁剪方法通過(guò)反復(fù)計(jì)算所有滑動(dòng)窗口的美學(xué)得分才能確定最優(yōu)的裁剪窗口,這樣的方式耗時(shí)嚴(yán)重,效率低下。Wang 等人設(shè)計(jì)了一種基于深度學(xué)習(xí)的注意力矩形框預(yù)測(cè)和美學(xué)質(zhì)量分類(lèi)的級(jí)聯(lián)模型(attention box prediction and aesthetics assessment,ABP-AA)[6]。該方法不需要通過(guò)滑動(dòng)窗口搜索圖像域內(nèi)所有可能的位置,而是通過(guò)注意力預(yù)測(cè)網(wǎng)絡(luò)初步確定一個(gè)包含重要內(nèi)容的區(qū)域,縮小裁剪候選框的搜索范圍,時(shí)間效率有所提高。這種基于注意力感知的圖像裁剪方法(如圖9)采取由“確定”到“調(diào)整”的方式進(jìn)行裁剪,通過(guò)ABP網(wǎng)絡(luò)生成注意力矩形框作為初始矩形框,然后在其周?chē)梢唤M裁剪候選框,再由AA網(wǎng)絡(luò)評(píng)判出美學(xué)質(zhì)量最高的候選框作為最終的裁剪區(qū)域。

      圖9 采取注意力感知的圖像裁剪流程圖Fig.9 Flow chart of image cropping with attention-aware

      (3)回歸網(wǎng)絡(luò)策略

      無(wú)論是基于滑動(dòng)窗口的裁剪方法還是基于注意力感知的裁剪方法,它們?cè)诙鄠€(gè)候選框提取和美學(xué)評(píng)估的問(wèn)題上效率低下。為學(xué)習(xí)和分析視覺(jué)顯著性區(qū)域與圖像美學(xué)區(qū)域之間的關(guān)系,Lu等人[7]設(shè)計(jì)了一個(gè)用于圖像裁剪的回歸神經(jīng)網(wǎng)絡(luò),如圖10。該方法首先檢測(cè)圖像中的顯著區(qū)域,利用文獻(xiàn)[5]提出的方法尋找圖像中包含感興趣對(duì)象的最優(yōu)初始裁剪框,然后將具有視覺(jué)顯著性的初始裁剪圖像輸入到基于VGG16[74]的回歸網(wǎng)絡(luò)中,預(yù)測(cè)出坐標(biāo)偏移因子,得到最終的裁剪區(qū)域。與其他提取多個(gè)候選框的方法不同的是,該方法只產(chǎn)生一個(gè)包含感興趣對(duì)象的裁剪框,并直接從回歸網(wǎng)絡(luò)中獲取美學(xué)質(zhì)量高的裁剪框,大大提高了時(shí)間效率。

      圖10 采取回歸網(wǎng)絡(luò)策略的圖像裁剪流程圖Fig.10 Flow chart of image cropping with regression network

      同樣,Lu等人[8]提出的基于深度學(xué)習(xí)的端到端圖像自動(dòng)裁剪框架也是利用深度神經(jīng)網(wǎng)絡(luò)提取圖像的顯著特征圖,確定圖像中包含感興趣對(duì)象的候選裁剪區(qū)域,然后利用回歸網(wǎng)絡(luò)得到最終的裁剪矩形框。值得注意的是,文章汲取傳統(tǒng)數(shù)字圖像處理方法的優(yōu)點(diǎn),在生成的顯著特征圖后加入軟二值化層(soft binarization layer),通過(guò)這一層,可以增強(qiáng)顯著性的效果。

      (4)弱監(jiān)督學(xué)習(xí)策略

      Lu等人提出一種基于圖像分布的弱監(jiān)督圖像裁剪框架[73],該框架利用高質(zhì)量美學(xué)圖像與裁剪圖像的似然分布差異來(lái)指導(dǎo)裁剪框坐標(biāo)的預(yù)測(cè)訓(xùn)練,無(wú)需裁剪框的標(biāo)注信息。另外,該框架還加入顯著性損失,確保網(wǎng)絡(luò)更多地關(guān)注圖像中視覺(jué)顯著的區(qū)域。Li 等人將圖像裁剪過(guò)程設(shè)計(jì)為序列決策的過(guò)程,提出了一個(gè)弱監(jiān)督的美學(xué)感知深度強(qiáng)化學(xué)習(xí)框架(aesthetics aware reinforcement learning,A2-RL)[10],并通過(guò)美學(xué)評(píng)估模型計(jì)算獎(jiǎng)勵(lì)分?jǐn)?shù),網(wǎng)絡(luò)模型如圖11 所示。該模型是第一個(gè)基于深度強(qiáng)化學(xué)習(xí)的圖像自動(dòng)裁剪方法,根據(jù)決策子網(wǎng)絡(luò)輸出的概率分布從動(dòng)作空間中選擇對(duì)應(yīng)的操作算子,利用新得到的裁剪框的美學(xué)分?jǐn)?shù)和上一步得到的裁剪框的美學(xué)分?jǐn)?shù)之間的差值計(jì)算該操作獲得的獎(jiǎng)勵(lì),從而讓獎(jiǎng)勵(lì)函數(shù)引導(dǎo)智能體在每一次迭代中找到令人滿(mǎn)意的裁剪框。因此,它不需要依賴(lài)滑動(dòng)窗口策略,可以在數(shù)步或十幾步內(nèi)完成裁剪過(guò)程,大大減少運(yùn)行時(shí)間,并且可以獲得任意尺寸位置的裁剪窗口。

      圖11 A2-RL網(wǎng)絡(luò)結(jié)構(gòu)Fig.11 Architecture of A2-RL

      Li等人在A2-RL模型上進(jìn)行改進(jìn),提出了一個(gè)快速美學(xué)感知的對(duì)抗強(qiáng)化學(xué)習(xí)框架(fast aesthetics-aware adversarial reinforcement learning,F(xiàn)ast A3RL)[11]。與之前不同的是,F(xiàn)ast A3RL模型是對(duì)提取的特征圖執(zhí)行動(dòng)作空間中的裁剪操作,并且加入對(duì)抗學(xué)習(xí)的思想,即同時(shí)訓(xùn)練裁剪網(wǎng)絡(luò)和美學(xué)評(píng)估網(wǎng)絡(luò),讓美學(xué)評(píng)估網(wǎng)絡(luò)對(duì)裁剪后的圖像輸出較低的美學(xué)分?jǐn)?shù),讓裁剪網(wǎng)絡(luò)嘗試輸出得分較高的裁剪圖像,形成對(duì)抗學(xué)習(xí)。

      3 實(shí)驗(yàn)評(píng)價(jià)方法

      圖像重定向技術(shù)的目標(biāo)是使調(diào)整后的圖像達(dá)到與原始圖像相同的人類(lèi)視覺(jué)美學(xué)要求,雖然圖像質(zhì)量評(píng)價(jià)方法已經(jīng)相對(duì)成熟,但是圖像重定向質(zhì)量評(píng)價(jià)仍處于起步階段[75]。一般地,圖像重定向質(zhì)量評(píng)價(jià)方法可分為兩類(lèi):主觀評(píng)價(jià)方法和客觀評(píng)價(jià)方法。

      3.1 主觀評(píng)價(jià)方法

      主觀評(píng)價(jià)方法依靠人的主觀感覺(jué)評(píng)判圖像的質(zhì)量,不同的人對(duì)圖像質(zhì)量的感知也不同[76]。為定性地評(píng)價(jià)重定向圖像的質(zhì)量,研究者除了視覺(jué)比較同一幅圖像的不同重定向目標(biāo)圖像外,還采取用戶(hù)調(diào)查的方式進(jìn)行定性評(píng)價(jià)。用戶(hù)調(diào)查一般會(huì)將不同的重定向方法進(jìn)行兩兩比較,具體方法是每幅圖像根據(jù)不同的重定向方法生成對(duì)應(yīng)的目標(biāo)圖像,并且在同一時(shí)間給志愿者展示同一幅圖像的兩種重定向結(jié)果圖,讓志愿者在一定的時(shí)間內(nèi)從中選出質(zhì)量高的一幅,根據(jù)最后的比較結(jié)果看哪種方法更符合人類(lèi)的視覺(jué)觀感。還有的研究者要求志愿者在觀察評(píng)價(jià)時(shí),從五個(gè)質(zhì)量等級(jí)中選擇一個(gè)等級(jí)來(lái)評(píng)價(jià)重定向圖像,這五個(gè)評(píng)價(jià)等級(jí)包括壞、差、合格、好、優(yōu)秀。

      3.2 客觀評(píng)價(jià)方法

      3.2.1 基于重定向圖像的評(píng)價(jià)指標(biāo)

      (1)FRR(feature remain ratio)[23]:該指標(biāo)測(cè)量的是重定向圖像在深度特征中的保留比例,計(jì)算如式(4),其中FO、FR分別代表原始圖像和重定向圖像,F(xiàn)RR 值越大,表示圖像質(zhì)量越好。

      (2)FD(feature dissimilarity)[23]:該指標(biāo)計(jì)算的是在特征空間中原始圖像和重定向圖像之間的平方差,如式(5)。FD值越小,表示圖像質(zhì)量越好。

      (3)結(jié)構(gòu)相似性SSIM(structural similarity)[77]:該指標(biāo)用來(lái)衡量?jī)煞鶊D像的相似程度,它分別從亮度、對(duì)比度、結(jié)構(gòu)三方面對(duì)圖像進(jìn)行相似度評(píng)估,如式(6),其中α、β、γ均大于0。在實(shí)際應(yīng)用中,SSIM 簡(jiǎn)化表達(dá)式如式(7),其中x、y分別表示參考圖像和測(cè)試圖像,μ、σ分別表示圖像的均值和標(biāo)準(zhǔn)差,σxy表示參考圖像和測(cè)試圖像的協(xié)方差,C1、C2表示常數(shù)。SSIM分值越大,說(shuō)明兩幅圖像的相似度越高。在文獻(xiàn)[27]中,研究者提出了一種改進(jìn)的SSIM 指標(biāo)計(jì)算方式,如式(8),與之前方式不同的是,該公式加入深度特征比較,圖像深度特征計(jì)算如式(9)。

      (4)IoU(intersection over union):該指標(biāo)常用來(lái)評(píng)估算法的裁剪精度,計(jì)算如式(10),其中C表示真實(shí)裁剪區(qū)域,C′表示預(yù)測(cè)的裁剪區(qū)域。IoU的值越大說(shuō)明裁剪的窗口與真實(shí)裁剪窗口越接近,即裁剪效果越好。

      (5)BDE(boundary displacement error):該指標(biāo)用來(lái)評(píng)估裁剪窗口與真實(shí)裁剪窗口四條邊之間的距離,如式(11),其中Bi與分別表示真實(shí)裁剪窗口和預(yù)測(cè)裁剪窗口的邊界坐標(biāo)。BDE 值越小說(shuō)明預(yù)測(cè)的裁剪窗口與真實(shí)窗口越接近,即裁剪效果越好。

      (6)排序比較:為驗(yàn)證重定向方法的有效性,研究者提出了一種排序比較的方法,根據(jù)重定向圖像的客觀評(píng)價(jià)指標(biāo)分?jǐn)?shù)對(duì)重定向方法進(jìn)行降序排序。對(duì)于一幅圖像,指標(biāo)分?jǐn)?shù)最好的重定向方法排名第一,以此類(lèi)推,根據(jù)排名給每一種方法進(jìn)行打分(1 為最好,往后越來(lái)越差),然后將采取同一種方法的所有圖像的分?jǐn)?shù)相加,進(jìn)行比較,數(shù)字越小說(shuō)明排名越高,即重定向效果越好。有的研究者會(huì)計(jì)算各排序得分的均值和標(biāo)準(zhǔn)差,然后比較不同方法排序順序的平均值和標(biāo)準(zhǔn)差,均值最小和標(biāo)準(zhǔn)差最小的重定向方法越優(yōu)秀和穩(wěn)定。

      重定向技術(shù)的發(fā)展離不開(kāi)重定向客觀評(píng)價(jià)方法的發(fā)展,為衡量不同重定向方法的重定向效果,研究者提出了一些重定向質(zhì)量評(píng)價(jià)算法。例如MULTIOP[42]中提出采用雙向相似度BDW 來(lái)度量圖像間的相似性,計(jì)算如式(12),式中S和T分別表示原始圖像和目標(biāo)圖像,Si和Ti分別表示原始圖像和目標(biāo)圖像的第i行,h表示圖像的高度,A-DTW 是一種非對(duì)稱(chēng)動(dòng)態(tài)時(shí)間變形算法(一種度量?jī)蓚€(gè)1D 信號(hào)或時(shí)間序列之間相似性的算法)。BDW 分?jǐn)?shù)反映的是原始圖像與目標(biāo)圖像之間的差值,即目標(biāo)圖像中有多少不屬于原始圖像的內(nèi)容信息以及目標(biāo)圖像對(duì)原始圖像內(nèi)容信息保留的完整程度,該方法測(cè)量每一行/列之間的相似性,然后將最大對(duì)齊誤差作為度量距離。其他方法,如SIFT-flow[78]、ARS(aspect ratio similarity)[79]、MLF(multiple-level feature)[80]、BDS(bidirectional similarity)[81]、EH(edge histogram)[82]、CL(color layout)[83]常作為客觀評(píng)價(jià)指標(biāo)來(lái)評(píng)估不同的重定向方法。具體的,SIFT-flow 在兩幅圖像之間匹配密集采樣的像素級(jí)SIFT 特征;ARS 可以觀察出圖像在重定向過(guò)程中的幾何變化;MLF利用縱寬比相似度、邊緣組相似度等多級(jí)特征衡量圖像質(zhì)量的退化;BDS為雙向相似度,通過(guò)設(shè)計(jì)的優(yōu)化函數(shù)來(lái)滿(mǎn)足不同大小圖像的雙向相似性度量,當(dāng)BDS 值較大時(shí)表明目標(biāo)圖像中包含盡可能多的原始圖像信息,盡可能少地引入新的偽影;EH 是一種用來(lái)捕獲圖像邊緣特征的方法,先將圖像劃分為小圖并計(jì)算小圖的邊緣直方圖,再進(jìn)行歸一化,最后計(jì)算圖像的直方圖;CL 則是一種提取圖像局部顏色特征的方法,能夠反映圖像顏色的空間分布,具有計(jì)算成本低,匹配計(jì)算速度快,識(shí)別準(zhǔn)確率高等優(yōu)點(diǎn)。

      3.2.2 基于語(yǔ)義分類(lèi)的評(píng)價(jià)指標(biāo)

      在圖像重定向任務(wù)中,為定量確認(rèn)重定向后的圖像中主體內(nèi)容是否保存完好,采用語(yǔ)義分類(lèi)相關(guān)的評(píng)價(jià)指標(biāo)來(lái)評(píng)估重定向圖像的質(zhì)量。例如平均精度均值(mean average precision,mAP)是多標(biāo)簽圖像分類(lèi)任務(wù)中常用的評(píng)測(cè)指標(biāo),用于評(píng)估重定向前后圖像的分類(lèi)精度,利用所有類(lèi)別的平均精度值求和后再除以所有類(lèi)別的數(shù)目來(lái)計(jì)算,如式(13)~(15)。

      此外,在DNR模型中,為了評(píng)估重定向操作對(duì)語(yǔ)義細(xì)節(jié)的保留情況,Arar 等人[20]計(jì)算語(yǔ)義分?jǐn)?shù)(semantic score,SS),即比較重定向前后圖像經(jīng)過(guò)VGG19 網(wǎng)絡(luò)層的激活程度,如式(16),其中Fi(I)、Fi(O)分別表示原始圖像和重定向圖像。如果重定向操作破壞了語(yǔ)義區(qū)域,原始圖像的激活值會(huì)增加,那么這個(gè)分值會(huì)低,反之,這個(gè)分值會(huì)增大。

      3.2.3 基于顯著性的評(píng)價(jià)指標(biāo)

      通常顯著性檢測(cè)相關(guān)的評(píng)價(jià)指標(biāo)也被用來(lái)評(píng)估網(wǎng)絡(luò)預(yù)測(cè)的重要度圖。例如:EMD 距離(earth mover’s distance),是一種度量距離的指標(biāo),用于測(cè)量?jī)蓚€(gè)分布之間的距離;皮爾遜相關(guān)系數(shù)(pearsons linear correlation coefficient,CC),用于評(píng)估預(yù)測(cè)圖與真實(shí)圖之間的線(xiàn)性關(guān)系,CC指標(biāo)越大說(shuō)明該模型性能越好;KL散度(Kullback-Leibler divergence),用于衡量預(yù)測(cè)圖和真實(shí)圖間概率分布的差異,當(dāng)兩個(gè)分布相同時(shí),該指標(biāo)為0,反之,該指標(biāo)會(huì)增大;直方圖交叉核(histogram intersection),常用于評(píng)估兩個(gè)離散概率分布(直方圖)的相似度;平均絕對(duì)誤差(mean absolute error,MAE),用于計(jì)算預(yù)測(cè)圖和真實(shí)圖對(duì)應(yīng)位置的差值,是最常用的評(píng)估指標(biāo),MAE分值越小說(shuō)明該算法的性能越好。

      3.2.4 GSP評(píng)估

      在基于人眼注視點(diǎn)的重定向方法中[1,27],為評(píng)估預(yù)測(cè)的人眼轉(zhuǎn)移路徑與真實(shí)的人眼轉(zhuǎn)移路徑是否一致,研究者設(shè)計(jì)一種評(píng)價(jià)方法度量人眼轉(zhuǎn)移路徑與預(yù)測(cè)的人眼轉(zhuǎn)移路徑的重疊率。一般使用眼動(dòng)儀EyeLink II2記錄觀察者的注視路徑,然后沿著這條注視路徑將所有的分割區(qū)域連接起來(lái),得到真實(shí)的人眼轉(zhuǎn)移路徑。重疊率計(jì)算如式(17)。

      4 相關(guān)數(shù)據(jù)集介紹

      因?yàn)樯疃壬窠?jīng)網(wǎng)絡(luò)的訓(xùn)練依賴(lài)大量訓(xùn)練數(shù)據(jù),所以圖像重定向研究從基于手工特征的傳統(tǒng)方法發(fā)展到基于深度學(xué)習(xí)的方法離不開(kāi)重定向數(shù)據(jù)集的發(fā)展。下面將介紹目前常用于深度學(xué)習(xí)方法的數(shù)據(jù)集。

      4.1 圖像重定向數(shù)據(jù)集

      (1)RetargetMe[84]:該數(shù)據(jù)集是圖像重定向質(zhì)量評(píng)估(image retargeting quality assessment,IRQA)第一個(gè)發(fā)布的基準(zhǔn)數(shù)據(jù)集,共包含80幅圖像,其中37幅圖像用于用戶(hù)研究,屬性包含線(xiàn)條/邊、人/臉、紋理、前景目標(biāo)、幾何結(jié)構(gòu)以及對(duì)稱(chēng)性,并且這37幅圖像使用8種不同的重定向方法,生成對(duì)應(yīng)的8 種重定向結(jié)果,重定向方法包括CR(cropping)、SCL(scaling)、SC、MULTIOP、SM[32]、SNS[16]、SV[85]、和WARP[86],選擇的重定向比例為原圖像高度或?qū)挾鹊?0%或75%。該數(shù)據(jù)集的圖像主觀評(píng)價(jià)方案是以配對(duì)比較的方式[87]進(jìn)行,每次展示同一幅圖像的兩種不同重定向方法的結(jié)果圖像,由測(cè)評(píng)者投票選出質(zhì)量更好的圖像,每種重定向結(jié)果的主觀評(píng)分由受歡迎程度即測(cè)評(píng)者投票記錄確定,選擇的客觀評(píng)價(jià)指標(biāo)為BDS、BDW、EH、CL。

      (2)CUHK[88]:該數(shù)據(jù)集共收錄57 幅原圖像以及對(duì)應(yīng)的171 幅重定向圖像,包含的圖像屬性有人/臉、清晰的前景目標(biāo)、自然場(chǎng)景(包括平滑或紋理)、幾何結(jié)構(gòu),數(shù)據(jù)集中每幅原圖像采用3 種不同的重定向方法,生成3種重定向結(jié)果。這3 種重定向方法從10 種具有代表性的方法中隨機(jī)選擇,包括RetargetMe數(shù)據(jù)集中使用的8種方法以及SCSC(optimized seam carving and scale)[43]和ENER(energy-based deformation)[14],重定向比例為原圖像高度或?qū)挾鹊?0%或75%。該數(shù)據(jù)集選擇的主觀評(píng)價(jià)方案與RetargetMe 數(shù)據(jù)集使用的配對(duì)比較方案不同,該數(shù)據(jù)集采用5 種離散質(zhì)量評(píng)測(cè)表(例如壞、差、合格、好、優(yōu)秀)為每幅圖像進(jìn)行主觀評(píng)分,得到每幅圖像的平均主觀分?jǐn)?shù)(mean opinion score,MOS),選擇的客觀評(píng)價(jià)指標(biāo)為EMD、BDS、EH、SIFT-flow。

      (3)NRID[89]:該數(shù)據(jù)集包含35 幅原圖像,并且每幅圖像采用5種重定向方法,包括MULTIOP、SCL、SC、SM和WARP,重定向比例為原圖像高度或?qū)挾鹊?5%。該數(shù)據(jù)集的主觀評(píng)價(jià)方案與RetargetMe 數(shù)據(jù)集中的評(píng)價(jià)方案一樣。此外提出了一種有效的客觀度量方法來(lái)評(píng)估重定向圖像的視覺(jué)質(zhì)量,該度量是基于圖像的SIFTflow[78]向量場(chǎng)的局部方差來(lái)測(cè)量圖像前后的幾何失真,還結(jié)合了基于顯著圖評(píng)估的信息損失。實(shí)驗(yàn)結(jié)果表明,所提出的客觀度量方法與主觀排名高度一致。

      上述圖像數(shù)據(jù)集的總結(jié)如表5,包括數(shù)據(jù)集中原圖像的數(shù)量、重定向比例、重定向圖像數(shù)量、重定向算法、主觀評(píng)價(jià)方法。還有一些數(shù)據(jù)集,如顯著性檢測(cè)的數(shù)據(jù)集HKU-IS[90]、語(yǔ)義分割的數(shù)據(jù)集Pascal VOC 2007[91]、美學(xué)評(píng)估的數(shù)據(jù)集AVA[92],也常用于訓(xùn)練網(wǎng)絡(luò)。

      表5 常見(jiàn)圖像重定向數(shù)據(jù)集Table 5 Summary of common image retargeting datasets

      4.2 圖像裁剪數(shù)據(jù)集

      (1)CUHK-ICD(CUHK image cropping dataset)[70]:該數(shù)據(jù)集是由香港中文大學(xué)發(fā)布的專(zhuān)門(mén)用于圖像裁剪的數(shù)據(jù)集,共包含950幅圖像,涵蓋各種圖像類(lèi)別,包括動(dòng)物、建筑、人類(lèi)、風(fēng)景、夜景、植物和靜物,每幅圖像都由3位專(zhuān)業(yè)攝影師手動(dòng)裁剪,因此形成3個(gè)標(biāo)注數(shù)據(jù)集。

      (2)FCD(Flickr cropping dataset)[93]:該數(shù)據(jù)集中的每幅圖像都是從Flickr上下載后經(jīng)過(guò)人工篩選得到的,共包含1 743 幅經(jīng)過(guò)人工標(biāo)記裁剪窗口的圖像以及31 430 對(duì)與原始圖像相匹配的裁剪圖像對(duì)。在FCD 數(shù)據(jù)集中,有兩種類(lèi)型的注釋?zhuān)翰眉舸翱谝约芭判?,以大約4∶1的比例將1 743幅圖像分為訓(xùn)練集和測(cè)試集,因此有348幅測(cè)試圖像用來(lái)評(píng)估圖像裁剪的性能。

      (3)HCD(human crop dataset)[94]:該數(shù)據(jù)集共包含500幅測(cè)試圖像,每幅圖像由10位專(zhuān)業(yè)人士進(jìn)行裁剪標(biāo)注。HCD 中對(duì)每幅圖像的注釋比前兩個(gè)數(shù)據(jù)集多,因此評(píng)價(jià)指標(biāo)有些不同,一般將預(yù)測(cè)的裁剪窗口與10 個(gè)GroundTruth窗口進(jìn)行指標(biāo)計(jì)算,選擇最大的作為結(jié)果。

      5 代表性算法總結(jié)

      本章將對(duì)上述提到的基于深度學(xué)習(xí)重定向方法進(jìn)行總結(jié),包括文獻(xiàn)的發(fā)布時(shí)間、使用的測(cè)試數(shù)據(jù)集、采用的評(píng)價(jià)方法、模型的優(yōu)缺點(diǎn)。

      基于深度神經(jīng)網(wǎng)絡(luò)的圖像重定向算法總結(jié)如表6。采用深度神經(jīng)網(wǎng)絡(luò)提取深度特征直接引導(dǎo)圖像重定向的算法有WSSDCNN[18]、DNR[20]、DeepIR[23]、CycleIR[19]。其中WSSDCNN 是第一個(gè)采用深度網(wǎng)絡(luò)解決內(nèi)容感知圖像重定向的方法,由于人為設(shè)置卷積核的大小,不能輸入任意大小的圖像。DNR利用已訓(xùn)練的VGG19網(wǎng)絡(luò)進(jìn)行圖像檢測(cè),獲取圖像重要區(qū)域,在圖像特征空間中應(yīng)用線(xiàn)裁剪對(duì)圖像大小進(jìn)行調(diào)整,當(dāng)VGG19 網(wǎng)絡(luò)不能提供準(zhǔn)確的重要區(qū)域時(shí),重要目標(biāo)的不同區(qū)域仍然具有較低的像素值,可能導(dǎo)致最終的結(jié)果目標(biāo)失真。另外與其他深度學(xué)習(xí)方法相比,該方法借鑒線(xiàn)裁剪的方法,重定向同一幅圖像的處理時(shí)間花費(fèi)也很大。DeepIR中設(shè)計(jì)的UrS 方法避免了由于過(guò)度移除列/行像素導(dǎo)致的內(nèi)容丟失,結(jié)構(gòu)混亂,但是圖像重建過(guò)程中耗費(fèi)時(shí)間長(zhǎng)。CycleIR 不需要任何注釋信息,將圖像進(jìn)行兩次重定向操作,生成與原圖同樣大小的圖像,但是當(dāng)背景與主體對(duì)比度較低時(shí),獲取的重要度圖不準(zhǔn)確而導(dǎo)致重定向結(jié)果不佳。隨著GAN 生成效果的提升,研究者將圖像重定向問(wèn)題轉(zhuǎn)化成分布匹配問(wèn)題,利用GAN 學(xué)習(xí)圖像內(nèi)部的分布情況,實(shí)現(xiàn)圖像的擴(kuò)充和拉伸,例如InGAN[51]、DCIL[52],但該類(lèi)方法適用于紋理結(jié)構(gòu)連續(xù)的自然圖像,并且受限于每幅圖像都要經(jīng)過(guò)大量訓(xùn)練,網(wǎng)絡(luò)才能學(xué)到其內(nèi)部的分布情況。

      表6 基于深度神經(jīng)網(wǎng)絡(luò)的圖像重定向算法總結(jié)Table 6 Summary of image retargeting algorithms based on deep neural network

      另外,利用深度神經(jīng)網(wǎng)絡(luò)提取重要度圖再進(jìn)行圖像重定向操作的算法還有很多,如Song等人[21]、Wu等人[22]利用深度網(wǎng)絡(luò)獲取視覺(jué)重要圖從而引導(dǎo)圖像重定向,但預(yù)訓(xùn)練的VGG網(wǎng)絡(luò)性能的好壞限制該類(lèi)方法獲取視覺(jué)重要度圖的準(zhǔn)確度,當(dāng)重要區(qū)域太大或者過(guò)于分散時(shí),提取的重要度圖不能完全將重要目標(biāo)分割出來(lái),因此會(huì)產(chǎn)生不準(zhǔn)確的重要區(qū)域語(yǔ)義信息。還有一些方法,如SP-DIR[24]、Yan 等人[25]、Ahmadi 等人[26]的模型不僅僅考慮低級(jí)特征,還結(jié)合語(yǔ)義、上下文等信息構(gòu)造重要度圖。其中,Yan 等人的方法將顯著圖與語(yǔ)義分割圖進(jìn)行融合,但對(duì)于多目標(biāo)復(fù)雜場(chǎng)景的圖像,顯著對(duì)象的重要性會(huì)分散在背景區(qū)域的分割對(duì)象中,可能導(dǎo)致結(jié)果圖像的顯著目標(biāo)失真。Ahmadi等人的方法考慮到不同的分割對(duì)象在不同的上下文語(yǔ)境中具有不同的重要性,因此根據(jù)檢測(cè)的像素類(lèi)別和所屬的上下文語(yǔ)境給圖像像素分配顯著值,然而由于同一列分配的比例因子相同,從上一列到下一列可能會(huì)發(fā)生突然變化,導(dǎo)致直線(xiàn)發(fā)生扭曲,圖像結(jié)構(gòu)易發(fā)生形變。為更加符合人類(lèi)的視覺(jué)機(jī)制,Zhou 等人[1]、Wang 等人[27]結(jié)合GSP 構(gòu)建顯著區(qū)域,GSP 的提出彌補(bǔ)了現(xiàn)有方法不能有效編碼人類(lèi)視覺(jué)機(jī)制的缺點(diǎn),它可以很好地反映人眼的注意力分配和選擇。此類(lèi)方法利用CNN 體系結(jié)構(gòu)來(lái)深度表示GSP,最后通過(guò)建立概率模型學(xué)習(xí)專(zhuān)業(yè)圖像的先驗(yàn)知識(shí),然而該類(lèi)方法選擇前5個(gè)顯著小圖構(gòu)建GSP,對(duì)于多目標(biāo)復(fù)雜的圖像,當(dāng)顯著區(qū)域多于5 時(shí),可能導(dǎo)致結(jié)果中少部分目標(biāo)存在失真現(xiàn)象。

      基于深度強(qiáng)化學(xué)習(xí)的多操作算法總結(jié)如表7。雖然早期的MULTIOP算法仍然可以與現(xiàn)在最先進(jìn)的方法相媲美,但MULTIOP 算法需要大量的時(shí)間生成多個(gè)操作算子的結(jié)果才能找到操作算子的最佳組合,而基于深度強(qiáng)化學(xué)習(xí)的多操作算法大大減少了MULTIOP算法的時(shí)間花費(fèi)。SAMIR[61]是第一個(gè)應(yīng)用深度強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)多操作的算法。Kajiura等人[64]不僅采用深度強(qiáng)化學(xué)習(xí),還加入自我博弈機(jī)制以及動(dòng)態(tài)改變動(dòng)作選擇權(quán)重的方法,根據(jù)勝敗計(jì)算獎(jiǎng)勵(lì)實(shí)現(xiàn)快速有效的多操作方法。同時(shí)以上兩種方法都可以將美學(xué)感知評(píng)估用作獎(jiǎng)勵(lì)來(lái)指導(dǎo)智能體的優(yōu)化以及動(dòng)作因子的選擇,以獲得高質(zhì)量的重定向結(jié)果。但是多操作中的裁剪方法會(huì)導(dǎo)致圖像內(nèi)容顯示不完整,獲取的結(jié)果少部分會(huì)出現(xiàn)周?chē)繕?biāo)內(nèi)容丟失的情況,并且每次同一幅圖像測(cè)試時(shí)選擇的動(dòng)作序列不相同,因此也無(wú)法保證每次選擇的操作因子序列是全局最優(yōu)的。

      表7 基于深度強(qiáng)化學(xué)習(xí)的多操作重定向算法總結(jié)Table 7 Summary of multi-operation retargeting algorithms based on deep reinforcement learning

      基于美學(xué)感知的圖像裁剪算法總結(jié)如表8。采用滑動(dòng)窗口策略的算法耗時(shí)太長(zhǎng),效率低下,如VFN[4]通常預(yù)設(shè)置大小和比例對(duì)整個(gè)圖像進(jìn)行掃描,提取豐富的候選框,然后再對(duì)每個(gè)候選框進(jìn)行美學(xué)評(píng)估,選擇得分高的作為最優(yōu)的裁剪結(jié)果。后來(lái)研究者采用“確定-調(diào)整”的方式縮小提取候選框的空間,提出基于注意力感知的圖像裁剪模型,如ABP-AA[6],通常先經(jīng)過(guò)視覺(jué)顯著性檢測(cè)確定初始裁剪框,再對(duì)周?chē)鷧^(qū)域進(jìn)行掃描和美學(xué)評(píng)估,大大縮小了候選框的搜索范圍。也有一些如Lu 等人的方法[7-8],利用回歸網(wǎng)絡(luò)直接輸出預(yù)測(cè)的坐標(biāo)因子,這些方法遠(yuǎn)遠(yuǎn)小于傳統(tǒng)裁剪方法所需的候選框的數(shù)量。也有一些研究者提出弱監(jiān)督的裁剪框架,無(wú)需邊界框去監(jiān)督,如Lu等人[73]、Fast A3RL[11]、A2-RL[10],其中后兩個(gè)模型加入深度強(qiáng)化學(xué)習(xí)的思想,根據(jù)決策子網(wǎng)絡(luò)輸出的概率分布從動(dòng)作空間中選擇對(duì)應(yīng)的操作算子,采用美學(xué)分?jǐn)?shù)計(jì)算操作獲得的獎(jiǎng)勵(lì),從而讓獎(jiǎng)勵(lì)函數(shù)引導(dǎo)智能體在每一次迭代中找到令人滿(mǎn)意的裁剪框。另外,本文也總結(jié)了這9 種算法在CUHK-ICD、FCD、HCD 數(shù)據(jù)集上的裁剪性能,如表9 所示,使用兩個(gè)有代表性的質(zhì)量評(píng)價(jià)指標(biāo),即IoU、BDE來(lái)定量比較不同的裁剪方法。

      表8 基于美學(xué)感知的圖像裁剪算法總結(jié)Table 8 Summary of image cropping algorithms based on aesthetic-aware

      表9 基于美學(xué)感知的圖像裁剪算法在CUHK-ICD、FCD、HCD數(shù)據(jù)集上的比較Table 9 Comparison of aesthetic-aware image cropping algorithms on CUHK-ICD,F(xiàn)CD and HCD datasets

      6 總結(jié)與展望

      深度學(xué)習(xí)的迅速發(fā)展,有力地推動(dòng)了圖像重定向技術(shù)的研究。本文詳細(xì)介紹了近5 年幾種典型的基于深度學(xué)習(xí)的圖像重定向方法,這些方法有的結(jié)合傳統(tǒng)的重定向技術(shù),有的利用深度神經(jīng)網(wǎng)絡(luò)直接生成重定向結(jié)果。它們通過(guò)改進(jìn)重要度圖對(duì)圖像進(jìn)行調(diào)整,在現(xiàn)有圖像低層信息的基礎(chǔ)上,不僅結(jié)合高級(jí)語(yǔ)義信息和上下文信息獲取視覺(jué)顯著區(qū)域,還考慮到結(jié)合人眼轉(zhuǎn)移路徑、美學(xué)評(píng)價(jià)來(lái)鑒別圖像重要區(qū)域,獲取符合人類(lèi)視覺(jué)感知的高質(zhì)量圖像。

      但任何的方法都有優(yōu)缺點(diǎn),例如在CycleIR 模型[19]中,當(dāng)生成的圖像效果不好時(shí),產(chǎn)生失敗的原因有兩點(diǎn):背景與主體的對(duì)比度較低,模型將背景區(qū)域劃分為視覺(jué)重要區(qū)域;視覺(jué)重要區(qū)域缺乏關(guān)注,只檢測(cè)出部分視覺(jué)重要內(nèi)容,因此該類(lèi)方法適合背景與主體對(duì)比度大、主體明顯的圖像。在根據(jù)重要度圖分配縮放因子的方法[26]中,通常為同一列的像素分配相同的縮放因子,容易導(dǎo)致某一列到下一列的縮放因子發(fā)生突變,線(xiàn)性區(qū)域扭曲偏移,因此該類(lèi)重定向方法不適合包含大量線(xiàn)性結(jié)構(gòu)的圖像。

      從上述文獻(xiàn)中來(lái)看,目前還沒(méi)有一種通用性強(qiáng)的圖像重定向方法,要想讓圖像重定向技術(shù)走向成熟,依然還有一些需要解決的問(wèn)題。關(guān)于未來(lái)的研究方向,可以從以下幾方面進(jìn)行考慮:

      (1)采用其他學(xué)習(xí)方法。大多數(shù)基于深度學(xué)習(xí)的重定向方法都是采用弱監(jiān)督或自監(jiān)督的方式訓(xùn)練網(wǎng)絡(luò),例如WSSDCNN 是第一個(gè)采用深度網(wǎng)絡(luò)解決內(nèi)容感知圖像重定向的方法,使用圖像及其像素級(jí)注釋計(jì)算內(nèi)容損失和結(jié)構(gòu)損失達(dá)到訓(xùn)練網(wǎng)絡(luò)的目的。有的方法采用無(wú)監(jiān)督的方式,如CycleIR將圖像進(jìn)行兩次重定向操作,通過(guò)引入循環(huán)感知一致性損失訓(xùn)練網(wǎng)絡(luò),無(wú)需任何圖像注釋信息。深度學(xué)習(xí)初期由于缺乏用于訓(xùn)練深度模型的圖像重定向數(shù)據(jù)集,還沒(méi)有將監(jiān)督方式應(yīng)用在重定向領(lǐng)域。因?yàn)闃?gòu)造帶有注釋的重定向圖像,需要采集大量圖像,標(biāo)注數(shù)據(jù)集的代價(jià)也很高,而最近文獻(xiàn)[95]提出了一種解決方案,在多種重定向方法的結(jié)果基礎(chǔ)上,使用IRQA算法,創(chuàng)建了一個(gè)新的用于重定向任務(wù)的數(shù)據(jù)集,該方法的提出讓監(jiān)督方式應(yīng)用在重定向領(lǐng)域成為了可能,實(shí)現(xiàn)了圖像在特征空間中得到精準(zhǔn)訓(xùn)練。另外,結(jié)合強(qiáng)化學(xué)習(xí)也是一種新的嘗試領(lǐng)域。強(qiáng)化學(xué)習(xí)任務(wù)可表述為馬爾科夫決策過(guò)程,通過(guò)不斷“試錯(cuò)”進(jìn)行探索式學(xué)習(xí),具有很強(qiáng)的決策能力,不需要特定的數(shù)據(jù),只需要根據(jù)獎(jiǎng)勵(lì)或懲罰來(lái)學(xué)習(xí)新的知識(shí),更加適應(yīng)環(huán)境。而深度網(wǎng)絡(luò)在圖像處理領(lǐng)域取得了一定的成功,但其缺乏一定的決策能力,將其感知能力和強(qiáng)化學(xué)習(xí)的決策能力相結(jié)合來(lái)處理圖像數(shù)據(jù)的感知決策成為很多研究者的研究方向?;谏疃葟?qiáng)化學(xué)習(xí)的重定向技術(shù)已經(jīng)有了一些研究工作,例如文獻(xiàn)[10,11,61,64]等,這類(lèi)方法無(wú)論是多操作算法還是裁剪算法,都是根據(jù)決策網(wǎng)絡(luò)輸出的概率分布從動(dòng)作空間中選擇對(duì)應(yīng)的操作算子,利用新得到的圖像計(jì)算獎(jiǎng)勵(lì)因子,從而引導(dǎo)智能體在每一次迭代中得到滿(mǎn)意的結(jié)果,最終的效果很大程度上取決于動(dòng)作空間的操作算子,操作算子性能越好,最終效果也會(huì)越好。不過(guò)強(qiáng)化學(xué)習(xí)通常需要計(jì)算獎(jiǎng)勵(lì)來(lái)引導(dǎo)智能體向“正確”的方向發(fā)展,在上述文獻(xiàn)中,有的采用語(yǔ)義感知計(jì)算獎(jiǎng)勵(lì)函數(shù),有的采用美學(xué)感知計(jì)算獎(jiǎng)勵(lì),有的借助BDW分?jǐn)?shù)差異計(jì)算獎(jiǎng)勵(lì),但是通過(guò)實(shí)驗(yàn)測(cè)試可以發(fā)現(xiàn),輸入同一幅圖像得到的操作序列是不同的,無(wú)法保證每次選擇的操作因子序列是全局最優(yōu)的。因此,設(shè)計(jì)一個(gè)獎(jiǎng)勵(lì)函數(shù)來(lái)引導(dǎo)未來(lái)行動(dòng),同時(shí)還要保證智能體可以不斷地優(yōu)化學(xué)習(xí)避免陷入局部最優(yōu)是一件具有挑戰(zhàn)的事情。

      (2)對(duì)重要度圖的改進(jìn)?,F(xiàn)有的圖像重定向方法在處理簡(jiǎn)單場(chǎng)景或單一目標(biāo)的圖像上效果不錯(cuò),但是在處理具有多個(gè)目標(biāo)的復(fù)雜圖像時(shí),大多數(shù)檢測(cè)方法平等地給予不同顯著目標(biāo)相等的顯著值,無(wú)法區(qū)分不同目標(biāo)的重要程度,出現(xiàn)重要區(qū)域不是丟失就是把背景區(qū)域劃分為重要區(qū)域的情況,導(dǎo)致重定向結(jié)果中次顯著目標(biāo)或面積小的顯著目標(biāo)保護(hù)不周、結(jié)構(gòu)變形的情況。但事實(shí)上,人類(lèi)在觀看復(fù)雜場(chǎng)景的圖像時(shí),注意力會(huì)優(yōu)先聚焦于最顯著的目標(biāo),其次關(guān)注到第二顯著目標(biāo),以此類(lèi)推。針對(duì)多目標(biāo)圖像,文獻(xiàn)[96]通過(guò)設(shè)計(jì)的實(shí)例級(jí)相對(duì)顯著性排序模型來(lái)獲取圖像的重要區(qū)域,再利用線(xiàn)裁剪算法進(jìn)行圖像重定向。其中實(shí)例級(jí)相對(duì)顯著性排序模型先通過(guò)改進(jìn)實(shí)例分割網(wǎng)絡(luò)獲取目標(biāo),然后增加圖卷積的網(wǎng)絡(luò)用于預(yù)測(cè)目標(biāo)顯著性排名,得到的顯著性排名圖能夠很好地反映不同顯著目標(biāo)的重要性。實(shí)驗(yàn)結(jié)果表明,這種方式獲取的重定向結(jié)果中最顯著的目標(biāo)保存較好,變形較少,而較不顯著的目標(biāo)先發(fā)生變形或者在目標(biāo)比例較大的情況下被刪除。另外,可以采用人眼注意圖,同樣考慮到人類(lèi)視覺(jué)注意力的優(yōu)先級(jí)分配問(wèn)題,可以在原有視覺(jué)重要度圖的基礎(chǔ)上結(jié)合人眼注意圖,利用兩者的互補(bǔ)性提升重要度圖的檢測(cè)質(zhì)量。但是如何建模人眼注意圖符合真實(shí)人眼注意路徑以及如何將兩者有效結(jié)合起來(lái),也是值得探究的問(wèn)題。

      (3)圖像重定向與美學(xué)評(píng)價(jià)相結(jié)合。目前大多數(shù)的圖像重定向方法重點(diǎn)關(guān)注圖像內(nèi)容的保護(hù),忽略了圖像美學(xué)對(duì)于重定向結(jié)果的影響。一方面現(xiàn)有的基于美學(xué)感知的圖像重定向技術(shù)大多只應(yīng)用在圖像裁剪上,而裁剪會(huì)導(dǎo)致圖像語(yǔ)義內(nèi)容不完整,另一方面美學(xué)評(píng)價(jià)是一種人類(lèi)主觀感知而不是客觀評(píng)價(jià),由計(jì)算機(jī)建模人類(lèi)的美學(xué)感知也是一大難題。文獻(xiàn)[97]提出一種結(jié)合美學(xué)的圖像重定向方法,通過(guò)主干網(wǎng)絡(luò)獲取多層級(jí)的圖像美學(xué)特征,再由注意力機(jī)制自適應(yīng)地融合得到圖像的美學(xué)信息,在此基礎(chǔ)上與圖像顯著圖、直線(xiàn)檢測(cè)圖、梯度圖進(jìn)行融合生成重要度圖來(lái)指導(dǎo)圖像多操作算法。實(shí)驗(yàn)結(jié)果表明,結(jié)合美學(xué)信息能很好地保護(hù)圖像的整體美學(xué)結(jié)構(gòu),生成的重定向圖像既保留了原始圖像的語(yǔ)義內(nèi)容,又保證較高的視覺(jué)質(zhì)量。不過(guò),美學(xué)特征難以適應(yīng)不同類(lèi)別的圖像,因此建立一個(gè)適用于不同圖像類(lèi)別,并且兼顧圖像語(yǔ)義和美學(xué)感知的重定向方法也是一大挑戰(zhàn)。

      (4)采用輕量級(jí)網(wǎng)絡(luò)模型。深度學(xué)習(xí)方法采用神經(jīng)網(wǎng)絡(luò)作為基礎(chǔ)網(wǎng)絡(luò),并且需要大量數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)訓(xùn)練,時(shí)間復(fù)雜度高??紤]到重定向移動(dòng)端的需求,如何設(shè)計(jì)一種輕量級(jí)的網(wǎng)絡(luò)模型,使得圖像重定向方法更加簡(jiǎn)便快捷,也是研究人員未來(lái)的研究方向。近年來(lái)一些輕量級(jí)網(wǎng)絡(luò)如MobileNet、ShuffleNet 和Xception 等的出現(xiàn),為輕量級(jí)網(wǎng)絡(luò)的圖像重定向提供了實(shí)現(xiàn)的可行性,相比于傳統(tǒng)的深度模型,在保證準(zhǔn)確率的前提下,通過(guò)不同于傳統(tǒng)的卷積方式來(lái)減少網(wǎng)絡(luò)的參數(shù),滿(mǎn)足實(shí)時(shí)性的需求。

      猜你喜歡
      重定向語(yǔ)義美學(xué)
      仝仺美學(xué)館
      杭州(2023年3期)2023-04-03 07:22:36
      盤(pán)中的意式美學(xué)
      美食(2022年2期)2022-04-19 12:56:08
      語(yǔ)言與語(yǔ)義
      解決安卓文件夾亂象
      重復(fù)壓裂裂縫重定向的措施研究
      4G偽基站的監(jiān)測(cè)定位與規(guī)避協(xié)同分析
      純白美學(xué)
      Coco薇(2017年8期)2017-08-03 02:01:37
      “上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
      “妝”飾美學(xué)
      Coco薇(2015年5期)2016-03-29 23:16:36
      認(rèn)知范疇模糊與語(yǔ)義模糊
      大埔县| 四平市| 岚皋县| 宿松县| 周至县| 南溪县| 文成县| 沭阳县| 宜丰县| 三台县| 长丰县| 天台县| 马公市| 美姑县| 栖霞市| 云浮市| 浙江省| 沾益县| 台安县| 安乡县| 册亨县| 虹口区| 达拉特旗| 上虞市| 台南市| 汽车| 阳春市| 禄丰县| 平罗县| 怀安县| 盐津县| 拉萨市| 泰兴市| 靖边县| 龙里县| 柳河县| 苍梧县| 香港 | 吉林省| 伊春市| 集安市|