王偉凝 王勵 趙明權(quán) 蔡成加 師婷婷 徐向民
?
基于并行深度卷積神經(jīng)網(wǎng)絡(luò)的圖像美感分類
王偉凝1王勵1趙明權(quán)1蔡成加1師婷婷1徐向民1
隨著計算機(jī)和社交網(wǎng)絡(luò)的飛速發(fā)展,圖像美感的自動評價產(chǎn)生了越來越大的需求并受到了廣泛關(guān)注.由于圖像美感評價的主觀性和復(fù)雜性,傳統(tǒng)的手工特征和局部特征方法難以全面表征圖像的美感特點,并準(zhǔn)確量化或建模.本文提出一種并行深度卷積神經(jīng)網(wǎng)絡(luò)的圖像美感分類方法,從同一圖像的不同角度出發(fā),利用深度學(xué)習(xí)網(wǎng)絡(luò)自動完成特征學(xué)習(xí),得到更為全面的圖像美感特征描述;然后利用支持向量機(jī)訓(xùn)練特征并建立分類器,實現(xiàn)圖像美感分類.通過在兩個主流的圖像美感數(shù)據(jù)庫上的實驗顯示,本文方法與目前已有的其他算法對比,獲得了更好的分類準(zhǔn)確率.
圖像美感評估,深度卷積神經(jīng)網(wǎng)絡(luò),并行卷積神經(jīng)網(wǎng)絡(luò),特征提取
引用格式王偉凝,王勵,趙明權(quán),蔡成加,師婷婷,徐向民.基于并行深度卷積神經(jīng)網(wǎng)絡(luò)的圖像美感分類.自動化學(xué)報,2016,42(6):904-914
近年來,隨著社交網(wǎng)絡(luò)的普及和發(fā)展,數(shù)字圖像數(shù)量激增.每天被上傳和分享的圖像都不計其數(shù),大規(guī)模圖像的自動管理需求越來越大.人們往往傾向于將高質(zhì)量的照片留存下來.近些年,從美感的角度來評價圖像質(zhì)量受到了越來越廣泛的關(guān)注[1].目前,圖像的自動美感評估已有許多應(yīng)用.例如,在圖像檢索方面,美感質(zhì)量成為排序算法的重要參考之一;在圖像美學(xué)優(yōu)化方面,美感評價具有重要的指導(dǎo)意義[2];在人機(jī)交互方面,圖像美感有利于建立和諧的人機(jī)交互系統(tǒng)[3-4].
美學(xué)是以藝術(shù)為主要對象,研究美、丑等審美范疇和人的審美意識、美感經(jīng)驗、美的創(chuàng)造、發(fā)展及其規(guī)律的科學(xué)[1].圖像美感可以定義為人們在觀察圖像時的美學(xué)感受[3].美感評估是希望通過計算機(jī),模擬人類的感知來判斷圖像的美感,實現(xiàn)對圖像進(jìn)行美感高低分類,或者對圖像的美感程度給出評分.在計算機(jī)視覺領(lǐng)域,由于人類美感活動的復(fù)雜性和主觀性,美感質(zhì)量評估研究具有相當(dāng)?shù)奶魬?zhàn)性.美感感知受到文化、時代、地域、個人主觀喜好等的影響.但總的說來,人類的美感感受和判斷還是具有很大的共性.無數(shù)繪畫、攝影和藝術(shù)作品作為人類共同的審美財富受到人們的廣泛欣賞和喜愛.
在圖像美感評價研究中,早期研究者們通過提取圖像的相關(guān)美學(xué)特征,再利用機(jī)器學(xué)習(xí)方法來訓(xùn)練分類器,對圖像進(jìn)行高低美感分類.美學(xué)特征的有效提取對分類結(jié)果至關(guān)重要.研究者們對美學(xué)特征做了大量的研究,從人類的審美習(xí)慣和經(jīng)驗出發(fā),借鑒攝影、藝術(shù)、繪畫等領(lǐng)域的美感規(guī)則,考慮人類的視覺注意機(jī)制等,從圖像中提取了各類美學(xué)特征[4-9].Tong等[5]率先提取了許多低層的基本圖像特征,如顏色直方圖、圖像能量等.然而這些特征缺乏美感相關(guān)性.Datta等[6]則提取了56維包括與圖像美感較為相關(guān)的低層特征和基于美感規(guī)則的高層特征(如景深、三分法則等).Ke等[8]也設(shè)計了高層美學(xué)特征,用更少的特征數(shù)取得了更好的效果.通過對主體區(qū)域的研究,Tang等[9]利用區(qū)域特征和全局特征來進(jìn)行圖像美感評價,取得了很好的效果.這些手工特征在圖像美感評價中都取得了一定的效果,促進(jìn)了圖像美感評價的發(fā)展進(jìn)步.然而,圖像的構(gòu)圖規(guī)則和美學(xué)規(guī)律千變?nèi)f化,在工程上難以被準(zhǔn)確地建模和量化;人工提取的美學(xué)特征往往是從圖像的一個小角度出發(fā),難以全面地表達(dá)圖像美感;且一些高層美學(xué)特征往往只是對美學(xué)規(guī)則的近似[10].這些都已成為圖像美學(xué)特征提取中的瓶頸.
為了克服傳統(tǒng)手工特征(Handcrafted features)設(shè)計存在的問題,一些研究者嘗試用局部特征(Generic features)[11-12]來評估圖像美感質(zhì)量.這些特征能夠詳細(xì)描述圖像的局部信息和細(xì)節(jié),例如Marchesotti等[11]利用Bag-of-Visual-Words局部特征;Guo等[12]對圖像的SIFT特征進(jìn)行LLC (Locality-constrained linear coding)編碼,并結(jié)合手工特征,都取得了一定的效果.然而,局部特征應(yīng)用于圖像美感分析時,存在較大的局限性.例如,它忽略了圖像的色彩信息,而圖像色彩對其美感非常重要;同時也忽略了全局信息,因此難以從整體的構(gòu)圖或美感規(guī)律上來表達(dá)圖像.另外,各類局部特征大都是提取SIFT特征后通過不同的編碼得到,特征設(shè)計的思路沒有本質(zhì)性的突破,難以較大地提升分類準(zhǔn)確率.
近幾年,深度學(xué)習(xí)方法的出現(xiàn),在機(jī)器學(xué)習(xí)和特征學(xué)習(xí)方面引發(fā)了一場革命.與傳統(tǒng)的機(jī)器學(xué)習(xí)方法不同,深度學(xué)習(xí)無需人工提取特征,其網(wǎng)絡(luò)可以根據(jù)輸入自動學(xué)習(xí)特征,在解決許多傳統(tǒng)人工智能,包括計算機(jī)視覺問題上有突破性進(jìn)展,如圖像分類、物體識別、人臉識別等[13-15].其在物體分類任務(wù)中帶來的準(zhǔn)確率的顯著提升是深度卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural networks,CNN)獲得人們的廣泛關(guān)注的里程碑.深度學(xué)習(xí)網(wǎng)絡(luò)利用大量的原始樣本數(shù)據(jù),充分利用隱藏層逐層深入地學(xué)習(xí)圖像的抽象信息,更全面直接地獲取圖像特征.通過對特征的分析和從其卓越的效果可以看出,深度網(wǎng)絡(luò)中學(xué)習(xí)的特征能更好地表達(dá)圖像的不同類別信息.數(shù)字圖像是以矩陣來描述的,卷積神經(jīng)網(wǎng)絡(luò)能更好地從局部信息塊出發(fā),進(jìn)而描述圖像的整體結(jié)構(gòu),故在計算機(jī)視覺領(lǐng)域,深度學(xué)習(xí)方法中大多采用卷積神經(jīng)網(wǎng)絡(luò)來解決問題.
2014年以來,學(xué)者們開始嘗試將深度學(xué)習(xí)用于圖像美感分類問題.Lu等[10]同時考慮了圖像的局部視角和全局視角來設(shè)計卷積神經(jīng)網(wǎng)絡(luò),并將圖像的風(fēng)格和語義標(biāo)簽用于美感質(zhì)量評價.Dong等[16]利用大型圖像物體分類與檢測數(shù)據(jù)庫訓(xùn)練得到的深度學(xué)習(xí)網(wǎng)絡(luò)模型來提取圖像特征,基于這些特征訓(xùn)練一個兩類支持向量機(jī)(Support vector machine,SVM)分類器,對圖像進(jìn)行高低美感分類.另一方面,Dong等[17]還進(jìn)一步將上面的深度學(xué)習(xí)網(wǎng)絡(luò)特征和手工特征進(jìn)行了特征融合,用于SVM分類器,取得了較好的效果.總的來說,利用深度學(xué)習(xí)網(wǎng)絡(luò)解決圖像美感評估問題還只是剛剛起步,還有很多內(nèi)容值得研究探索和發(fā)展,分類效果也有待進(jìn)一步提高.
本文嘗試使用深度學(xué)習(xí)方法進(jìn)行圖像美感評估.我們認(rèn)為在組建圖像美感分類問題的深度學(xué)習(xí)網(wǎng)絡(luò)時,有以下三個問題值得考慮:
1)深度學(xué)習(xí)網(wǎng)絡(luò)能否學(xué)習(xí)出圖像美學(xué)特征?
現(xiàn)有傳統(tǒng)方法提取的美學(xué)特征在不同程度上存在有效性低、冗余性大、魯棒性低的問題,圖像美感分類的效果受到限制[17].深度學(xué)習(xí)網(wǎng)絡(luò)是模擬生物視覺系統(tǒng)進(jìn)行設(shè)計的,具有較強(qiáng)的圖像理解能力.
深度學(xué)習(xí)網(wǎng)絡(luò)在圖像物體分類問題上取得了很好的效果.其可以從原始圖像中自動學(xué)習(xí)出包含豐富語義信息的特征矩陣,這些信息很好地表達(dá)了圖像中的物體類別信息.從已有圖像物體分類的研究成果來看[13],深度學(xué)習(xí)網(wǎng)絡(luò)自動學(xué)習(xí)到的特征,比手工特征或局部特征的分類準(zhǔn)確率更高.
圖像美感分類和圖像物體分類都是對圖像矩陣進(jìn)行分析,從中獲取圖像類別間共性和個性的特征,以求最大化地區(qū)分不同類別.我們認(rèn)為,深度網(wǎng)絡(luò)提取的圖像信息中,必定也包含了圖像美感質(zhì)量的內(nèi)容,利用深度學(xué)習(xí)網(wǎng)絡(luò)學(xué)習(xí)美學(xué)特征,是圖像美感評估的一個發(fā)展方向.
2)如何解決深度學(xué)習(xí)網(wǎng)絡(luò)的學(xué)習(xí)能力與圖像美感數(shù)據(jù)庫數(shù)據(jù)量偏小的矛盾?
已有的深度學(xué)習(xí)應(yīng)用研究指出[14],深度學(xué)習(xí)網(wǎng)絡(luò)適用于解決數(shù)據(jù)量大的復(fù)雜問題,例如ILSVRC競賽中的圖像分類問題,其是一個包含120萬幅圖像1000個物體類別的分類問題,圖像數(shù)量大,類別多,采用卷積神經(jīng)網(wǎng)絡(luò)能比傳統(tǒng)方法取得更好的效果.
然而在圖像美感分類問題上,圖像庫的樣本數(shù)量和類別劃分難以達(dá)到以上要求.原因如下:a)在圖像美感數(shù)據(jù)庫構(gòu)建時,每幅圖像需要一定數(shù)量的人群對美感進(jìn)行評分,工作量很大,超大的數(shù)據(jù)庫難以獲??;b)美感評價有一定的模糊性,難以劃分出更多的類別.圖像美感分類一般只涉及到美和不美的二分類問題.若根據(jù)0~10的評分范圍從低美感到高美感細(xì)化為10類,類別也不多,且類別分?jǐn)?shù)接近的圖像美感差別較小,會引入較大噪聲,不利于分類.
如何在數(shù)據(jù)量受限,且類別數(shù)量少的情況下,有效發(fā)揮深度學(xué)習(xí)網(wǎng)絡(luò)在圖像美感分析任務(wù)中的作用,是值得我們思考的一個問題.
3)如何得到較為全面的圖像美學(xué)特征?
不同的圖像,影響美感的主要刺激各不相同,可能是顏色,可能是構(gòu)圖,可能是亮度,也可能是紋理等.這也導(dǎo)致了手工特征和局部特征進(jìn)行美感分類的一大瓶頸,即不能全面地表征圖像.因此如何從不同角度更全面地挖掘圖像信息,提取圖像特征,使圖像美感分類器具有更廣泛的適用性,是圖像美感分類的一個重要的發(fā)展方向.
深度學(xué)習(xí)網(wǎng)絡(luò)可以根據(jù)輸入自動學(xué)習(xí)特征,輸入什么,網(wǎng)絡(luò)就學(xué)習(xí)什么特征.這意味著輸入源對于深度學(xué)習(xí)網(wǎng)絡(luò)非常重要,輸入源不同,網(wǎng)絡(luò)學(xué)習(xí)到的信息不同.數(shù)字圖像有不同的編碼表達(dá)形式,從不同角度展示圖像.將同一圖像的不同表示矩陣輸入到并行的深度卷積神經(jīng)網(wǎng)絡(luò)中,可以聯(lián)合圖像的不同方面信息,更全面地獲取圖像特征.
針對上述思考,本文提出一種并行深度卷積神經(jīng)網(wǎng)絡(luò)用于圖像美感分類的方法,利用深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行特征學(xué)習(xí),進(jìn)行了以下嘗試.1)我們利用大規(guī)模圖像分類和識別數(shù)據(jù)庫ImageNet[18]訓(xùn)練得到的模型,參與本文深度學(xué)習(xí)網(wǎng)絡(luò)模型的權(quán)值初始化,使我們的模型包含更豐富的圖像信息,解決圖像美感數(shù)據(jù)庫數(shù)據(jù)量小,類別少,難以發(fā)揮深度學(xué)習(xí)網(wǎng)絡(luò)優(yōu)勢的問題.2)從同一圖像的不同角度出發(fā),我們設(shè)計了并行的深度卷積神經(jīng)網(wǎng)絡(luò),進(jìn)行圖像美學(xué)特征學(xué)習(xí);3)將特征進(jìn)行結(jié)合,利用支持向量機(jī)(SVM)訓(xùn)練圖像高低美感分類器,實現(xiàn)了圖像美感分類.
我們探索了不同的網(wǎng)絡(luò)并行結(jié)構(gòu),最后綜合考慮美感分類效果和算法復(fù)雜度,提出一種雙路并行深度卷積神經(jīng)網(wǎng)絡(luò)的圖像美感分類方法,在圖像美感的兩個重要的數(shù)據(jù)庫上都取得了很好的效果.
本文的章節(jié)安排如下:第1節(jié)介紹本文方法的總體結(jié)構(gòu);第2節(jié)介紹本文并行深度卷積神經(jīng)網(wǎng)絡(luò)方法的具體實現(xiàn),包括單路卷積神經(jīng)網(wǎng)絡(luò)的設(shè)計,并行結(jié)構(gòu)設(shè)計等;第3節(jié)是網(wǎng)絡(luò)結(jié)構(gòu)實驗結(jié)果與分析;第4節(jié)是本文方法的圖像美感分類效果與現(xiàn)有方法的分析對比;第5節(jié)是總結(jié)與展望.
本文提出的并行深度卷積神經(jīng)網(wǎng)絡(luò)方法的整體框架如圖1所示.
圖1中,有兩個并行的深度卷積神經(jīng)網(wǎng)絡(luò),它們的網(wǎng)絡(luò)結(jié)構(gòu)相同,輸入不同,分別進(jìn)行圖像美學(xué)特征學(xué)習(xí),最后合并特征建立分類器.
圖1 本文方法的整體框架Fig.1 The overall framework of the method in this paper
每個單路深度卷積神經(jīng)網(wǎng)絡(luò),包括5個卷積層,6個全連接層,第5個全連接層輸出一個256維的列向量,即我們要提取的特征向量.網(wǎng)絡(luò)具體結(jié)構(gòu)設(shè)計思路見第2.1節(jié).
并行網(wǎng)絡(luò)的輸入分別為:1)原圖像縮放到寬和高都為256像素的圖像矩陣;2)圖像的HSV變換的V通道矩陣;具體介紹見第2.2節(jié).
將訓(xùn)練集中的圖像分別轉(zhuǎn)換為以上兩種輸入形式,輸入到單路卷積神經(jīng)網(wǎng)絡(luò)中訓(xùn)練得到網(wǎng)絡(luò)模型.然后對每幅圖像分別利用每一路的網(wǎng)絡(luò)模型提取第5個全連接層的特征,并將特征結(jié)合起來,則每幅圖像得到一個512維的特征.利用支持向量機(jī)(SVM)對這些特征進(jìn)行訓(xùn)練,得到最終的圖像美感分類器.
在訓(xùn)練完成后,系統(tǒng)對于一幅新圖像的輸入,先按上述兩種輸入形式做變換,得到網(wǎng)絡(luò)的輸入矩陣.然后分別利用每一路卷積神經(jīng)網(wǎng)絡(luò)的模型提取圖像特征,將特征合并得到512維特征,再經(jīng)過圖像美感分類器進(jìn)行分類,自動得到高或低美感評價結(jié)果.
2.1單路卷積神經(jīng)網(wǎng)絡(luò)設(shè)計
針對圖像美感數(shù)據(jù)庫圖像數(shù)據(jù)少和復(fù)雜性低的問題,我們將大型圖像數(shù)據(jù)庫訓(xùn)練出來的網(wǎng)絡(luò)模型的一部分,遷移到我們的美感評價網(wǎng)絡(luò)中,以其訓(xùn)練所得的參數(shù)作為我們網(wǎng)絡(luò)的參數(shù)初始值,以使網(wǎng)絡(luò)能在已包含圖像基本信息的基礎(chǔ)上學(xué)習(xí)美學(xué)質(zhì)量信息.
深度卷積神經(jīng)網(wǎng)絡(luò)方法由Krizhevsky等[13]于2012年首次提出,其在一年一度著名的ImageNet大規(guī)模計算機(jī)視覺識別挑戰(zhàn)賽(ImageNet Large Scale Visual Recognition Challenge,ILSVRC)的大型圖像分類數(shù)據(jù)庫上的分類效果上取得了非常大的進(jìn)步,具有里程碑式的意義.這個圖像分類數(shù)據(jù)庫中的圖像來自于目前世界上圖像識別最大的數(shù)據(jù)庫ImageNet,根據(jù)圖像中物體種類的不同分為1000個類,包含約120萬幅圖像.這樣的復(fù)雜任務(wù)使得訓(xùn)練出來的深度學(xué)習(xí)網(wǎng)絡(luò)可以學(xué)習(xí)到足夠多的圖像信息來更好地解析表達(dá)圖像.
美感分類與圖像分類問題具有較好的相關(guān)性,已有的圖像美感評估研究顯示[19],在基于內(nèi)容的圖像檢索和分類中有效的一些低層特征或者語義特征,對于圖像美感分類都發(fā)揮了較好的作用.因此我們可以合理地假設(shè)已完成ImageNet數(shù)據(jù)庫訓(xùn)練的圖像物體分類網(wǎng)絡(luò)模型[13],具有提取復(fù)雜圖像特征的能力,可以作為圖像美學(xué)特征提取的基礎(chǔ).并且,文獻(xiàn)[13]的網(wǎng)絡(luò)是目前已有圖像分類任務(wù)模型中較為簡潔的一個網(wǎng)絡(luò)結(jié)構(gòu),為我們組建并拓展美感深度學(xué)習(xí)網(wǎng)絡(luò)提供了便利.
本文的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計是在文獻(xiàn)[13]網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上,進(jìn)行了適應(yīng)性的擴(kuò)展.我們采用文獻(xiàn)[13]網(wǎng)絡(luò)結(jié)構(gòu)的前6層,并就本文的算法思路添加了5層全連接層.具體如下:
本文網(wǎng)絡(luò)的前6層具體為:第1層為卷積層,有96個卷積核,大小為11×11×3;第2層為卷積層,有256個卷積核,大小為5×5×48;第3層為卷積層,有384個核,大小為3×3×256;第4層為卷積層,有384個核,大小為3×3×192;第5層為卷積層,有256個核,大小為3×3×192;第6層為全連接層,有4096個輸出.這些卷積層間的池化層和歸一化層的設(shè)置,以及層間的連接與文獻(xiàn)[13]的結(jié)構(gòu)相同.
為了適應(yīng)本文的算法思路,我們對單路卷積神經(jīng)網(wǎng)絡(luò)接下來的全連接層進(jìn)行了探索和設(shè)計.由于后面要對特征進(jìn)行聯(lián)合處理,則每一路卷積神經(jīng)網(wǎng)絡(luò)的特征向量個數(shù)不宜過多,一方面不利于特征聯(lián)合,另一方面會造成特征信息冗余,反而影響分類效果.所以我們對第7層及之后的全連接層的層數(shù)和輸出進(jìn)行了探索(詳見第3節(jié)表2),最終設(shè)計了一個11層的深度卷積神經(jīng)網(wǎng)絡(luò),如圖2所示.
圖2 單路卷積神經(jīng)網(wǎng)絡(luò)Fig.2 Single column convolutional neural networks
第7層全連接層,有2048個輸出;第8層全連接層,有1024個輸出;第9層全連接層,有512個輸出;第10層全連接層,有256個輸出;第11層全連接層的輸出個數(shù)和類別輸出個數(shù)相同,均為2.考慮到網(wǎng)絡(luò)層數(shù)越深,其特征信息的代表性越強(qiáng),因此我們將提取第10層全連接層的特征作為圖像的特征向量.
該網(wǎng)絡(luò)結(jié)構(gòu)的輸入圖像大小為256像素×256像素.這兩個數(shù)值分別是寬度和高度.圖像數(shù)據(jù)被隨機(jī)裁剪出10個227像素×227像素大小的圖像,保證這些輸入能盡量覆蓋到一幅圖像的全部區(qū)域.
在網(wǎng)絡(luò)參數(shù)初始化階段,我們的做法為:利用文獻(xiàn)[13]的深度網(wǎng)絡(luò)訓(xùn)練圖像分類數(shù)據(jù)庫得到的網(wǎng)絡(luò)模型的前5層卷積層和第6層全連接層的網(wǎng)絡(luò)參數(shù),參與本文深度卷積神經(jīng)網(wǎng)絡(luò)中對應(yīng)網(wǎng)絡(luò)層的參數(shù)初始化.而本文網(wǎng)絡(luò)的第7層至第11層網(wǎng)絡(luò)層的參數(shù)則采用隨機(jī)初始化.這是因為卷積層特征代表的是圖像的特征信息,隨著卷積層層數(shù)的加深,特征信息不斷抽象.而全連接層可以理解為是一維列向量對卷積層特征圖的總結(jié)變換,不同類別圖像區(qū)別較大,針對性強(qiáng).總的來說,網(wǎng)絡(luò)層數(shù)越深,其參數(shù)與既定分類任務(wù)越相關(guān);而網(wǎng)絡(luò)層數(shù)越淺,其參數(shù)對特征表達(dá)來說越具體.所以,我們利用文獻(xiàn)[13]的深度網(wǎng)絡(luò)訓(xùn)練圖像分類數(shù)據(jù)庫得到的網(wǎng)絡(luò)模型參與本文網(wǎng)絡(luò)前6層的參數(shù)初始化.
訓(xùn)練網(wǎng)絡(luò)時,網(wǎng)絡(luò)中的參數(shù)隨輸出和樣本標(biāo)簽計算所得的損失函數(shù)不斷更新.我們將前6個網(wǎng)絡(luò)層的學(xué)習(xí)率設(shè)為0.001,后面的網(wǎng)絡(luò)層的學(xué)習(xí)率設(shè)為0.005,以使隨機(jī)初始化的全連接層參數(shù)更新比其他層快.學(xué)習(xí)率隨著迭代次數(shù)的增加都會有規(guī)律地減少,具體設(shè)置與訓(xùn)練數(shù)據(jù)集的樣本數(shù)和訓(xùn)練中的梯度下降算法有關(guān).
2.2并行網(wǎng)絡(luò)的輸入
影響圖像美感的因素是多方面的,構(gòu)圖、色彩、亮度、紋理、復(fù)雜度等對圖像美感都有影響.對同一幅圖像,不同因素對其美感質(zhì)量的影響程度是不同的.如圖3所示,色彩是影響圖3(a)美感的主要因素,構(gòu)圖是影響圖3(b)美感的主要因素,亮度是影響圖3(c)美感的主要因素,紋理是影響圖3(d)美感的主要因素.圖像的編碼方式有多種,每種方式都側(cè)重圖像的不同方面的描述.將同一幅圖像不同的表達(dá)形式輸入到深度學(xué)習(xí)網(wǎng)絡(luò)中,網(wǎng)絡(luò)學(xué)習(xí)到的特征信息不同.將這些特征聯(lián)合起來,可以更全面地表達(dá)圖像信息.于是,我們從圖像的構(gòu)圖、色彩、飽和度、亮度、紋理細(xì)節(jié)等方面考慮并行卷積神經(jīng)網(wǎng)絡(luò)的輸入,具體做法如下:
圖3 影響圖像美感的主要因素示例Fig.3 The main factors affecting aesthetics of images
1)Normal:RGB圖像從不同顏色分量混合的角度以色彩來表示圖像.由于網(wǎng)絡(luò)要求輸入是寬高相同的圖像,因此我們把RGB圖像縮放到256像素×256像素的大小作為網(wǎng)絡(luò)的輸入.
2)Resize:若圖像本來的寬高不同,直接對圖像進(jìn)行縮放,會改變圖像原來的尺寸比例,導(dǎo)致圖像產(chǎn)生畸變,這對圖像美感會造成一定的影響.我們采取以下做法:把圖像的長邊固定變換到256,短邊則按長邊的變換比例進(jìn)行變換,圖像中空余出來的位置則用0填充.
3)H、S、V:HSV圖像的H、S和V三個通道分別代表圖像的色度、飽和度和亮度信息,和RGB圖像的三通道代表的意義區(qū)別較大.我們將RGB圖像轉(zhuǎn)換為HSV圖像,并把HSV圖像的單個通道矩陣取出,即H通道圖像矩陣、S通道圖像矩陣、V通道圖像矩陣,分別作為深度學(xué)習(xí)網(wǎng)絡(luò)的輸入.
4)Daubechies:圖像能量中含有豐富的邊緣、輪廓信息,圖像的小波系數(shù)包含豐富的能量信息.已有圖像美感分類相關(guān)的論文通過圖像的Daubechies小波變換,對小波系數(shù)進(jìn)行建模計算得到圖像高層美學(xué)特征[3,6].本文中,我們將圖像進(jìn)行Daubechies小波變換,取其第1層小波系數(shù)矩陣作為我們深度學(xué)習(xí)網(wǎng)絡(luò)的輸入.
各種圖像輸入示例如圖4.為了驗證并確定哪些輸入以及幾層并行組合是有效的,我們利用這些不同形式的圖像矩陣作為單路卷積神經(jīng)網(wǎng)絡(luò)的輸入,組建了并行卷積神經(jīng)網(wǎng)絡(luò).分別進(jìn)行了多種不同輸入的網(wǎng)絡(luò)并行實驗(詳見第3.2節(jié)),得到了多種輸入并行下的分類結(jié)果.最后從算法的分類準(zhǔn)確率和算法復(fù)雜度方面綜合考慮,選擇Normal和V共同組建了雙路并行卷積神經(jīng)網(wǎng)絡(luò).
圖4 卷積神經(jīng)網(wǎng)絡(luò)的不同圖像輸入形式示例Fig.4 Examples of different types of input images of convolutional neural networks
2.3特征結(jié)合與圖像分類
我們分別將以上圖像矩陣輸入到深度卷積神經(jīng)網(wǎng)絡(luò)中,進(jìn)行訓(xùn)練得到相應(yīng)的網(wǎng)絡(luò)模型.對每一幅圖像分別利用以上模型提取第10層(全連接層)的特征向量,將這些特征向量進(jìn)行組合,得到完整的圖像美學(xué)特征.
由于不同的特征組合會導(dǎo)致特征數(shù)量不同,也考慮到在各美感圖庫中特征和圖像數(shù)量變化較大,我們使用泛化性能較好的支持向量機(jī)(SVM)機(jī)器學(xué)習(xí)方法對這些組合特征進(jìn)行學(xué)習(xí),得到最終的圖像美感分類器.
為了評估本文方法的有效性,我們分別在AVA[20]和CUHKPQ[9]兩個不同的圖像美感數(shù)據(jù)庫上進(jìn)行了實驗,本節(jié)給出實驗結(jié)果與分析.
3.1圖像美感分類數(shù)據(jù)庫
AVA數(shù)據(jù)庫和CUHKPQ數(shù)據(jù)庫是在圖像美感分類中的常用數(shù)據(jù)庫,其中的圖像都是來自受歡迎的社交網(wǎng)站中人們共享的圖像.圖5是AVA數(shù)據(jù)庫和CUHKPQ數(shù)據(jù)庫中的高美感和低美感圖像示例.
圖5 數(shù)據(jù)庫中高美感和低美感圖像示例Fig.5 Examples of high aesthetic images and low aesthetic images of datasets
3.1.1AVA數(shù)據(jù)庫
AVA[20]是一個包含超過25萬幅來自社交圖片分享網(wǎng)站www.dpchallenge.com的圖像的大規(guī)模數(shù)據(jù)庫.每幅圖像采集了平均210個用戶對圖像的主觀美感評分,評分范圍是1~10分.這些評分者包含各種群體,不分性別、年齡和專業(yè)限制,保證了評分的客觀性和廣泛代表性.每幅圖像各用戶評分的平均值作為圖像的美感評分標(biāo)簽,分?jǐn)?shù)越高,代表圖像的美感越高.文獻(xiàn)[20]提供了AVA數(shù)據(jù)庫中圖像的網(wǎng)絡(luò)鏈接供我們下載,據(jù)此我們共收集了255529幅圖像構(gòu)成本文的AVA數(shù)據(jù)庫.
我們對圖像的美感評分進(jìn)行排序,利用以下兩種方式對數(shù)據(jù)庫進(jìn)行高低美感類別劃分.
1)AVA1.為了減少圖像樣本噪聲和增加高低美感樣本的類間距離,我們按照Dong等[16]的做法,挑選圖像數(shù)據(jù)庫中前10%高分的圖像作為高美感圖像,并挑選前10%低分的圖像作為低美感圖像,高低美感圖像分別有25532幅.然后隨機(jī)選取高低美感類圖像中的一半作為訓(xùn)練集,另一半作為測試集.下文我們以AVA1表示此圖庫.
2)AVA2.按照AVA數(shù)據(jù)庫[20]給出的訓(xùn)練和測試數(shù)據(jù)集的劃分,得到235599幅圖像作為訓(xùn)練數(shù)據(jù)集,19930幅圖像作為測試數(shù)據(jù)集.按照AVA數(shù)據(jù)庫[20]和Lu等[10]的做法,以5分為界,將訓(xùn)練集和測試集中的圖像劃分為高美感和低美感兩個類別.美學(xué)評分為5分以上的歸類為高美感圖像,美學(xué)評分為5分以下的歸類為低美感圖像.如此,我們得到180856幅高美感圖像和74673幅低美感圖像.其中,訓(xùn)練集包含高美感圖像166689幅,低美感圖像68910幅;測試集包含高美感圖像14167幅,低美感圖像5763幅.下文我們以AVA2表示此圖庫.
3.1.2CUHKPQ數(shù)據(jù)庫
CUHKPQ是一個包含17673幅來自專業(yè)攝影網(wǎng)站圖像的數(shù)據(jù)庫[9].且根據(jù)圖像場景分成了7個類別,分別為Animal、Plant、Static、Architecture、Landscape、Human和Night.在數(shù)據(jù)庫構(gòu)建時,每幅網(wǎng)絡(luò)圖像由10個用戶進(jìn)行高低美感的二分類評價,有8個或以上的用戶給出評價相同的圖像才選入數(shù)據(jù)庫.這有效地減少了圖像庫的噪聲.
本文在CUHKPQ各場景類別圖庫和包含各類別所有圖像的總圖庫(Overall)上進(jìn)行實驗.為了方便圖像美感分類方法的比較,本文參照文獻(xiàn)[9,12,16]的方法,將各類別圖庫中一半的高美感圖像和一半的低美感圖像作為訓(xùn)練集,另一半作為測試集.
3.2并行深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)實驗
3.2.1單路卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
為了更好地適應(yīng)本文并行卷積神經(jīng)網(wǎng)絡(luò)特征的合并,即減少單路網(wǎng)絡(luò)的特征向量的維度,以減少特征的冗余性和算法的復(fù)雜度,同時又要保證單路卷積神經(jīng)網(wǎng)絡(luò)模型對輸入圖庫的分類性能,本節(jié)主要探討本文單路卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)設(shè)計.
網(wǎng)絡(luò)結(jié)構(gòu)的5層卷積層是不變的,與文獻(xiàn)[13]網(wǎng)絡(luò)結(jié)構(gòu)的卷積層同.我們主要對全連接層的層數(shù)和輸出特征值的個數(shù)進(jìn)行了設(shè)計,并在AVA1數(shù)據(jù)集上進(jìn)行了實驗,結(jié)果如表1所示.
表1 不同結(jié)構(gòu)單路卷積神經(jīng)網(wǎng)絡(luò)的分類準(zhǔn)確率Table 1 Classification accuracy of single column convolutional neural networks with different structures
表1中,每種網(wǎng)絡(luò)結(jié)構(gòu)包含的層用“√”表示,F(xiàn)c表示全連接層,下面的數(shù)值表示該全連接層的輸出特征值個數(shù).
表1顯示,全連接層層數(shù)的增加對美感分類效果的影響差別不大.Arch2只有3層的結(jié)構(gòu)可以獲得最高的準(zhǔn)確率83.73%,但得到的特征維數(shù)太高(1024維),不利于后期處理.綜合考慮準(zhǔn)確率和特征維數(shù),本文選擇Arch4作為我們的單路卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu).在Arch4中,第10層的輸出特征值個數(shù)為256,特征維數(shù)適當(dāng),有利于特征合并.
3.2.2并行網(wǎng)絡(luò)結(jié)構(gòu)
本節(jié)主要探索最有效的并行網(wǎng)絡(luò)結(jié)構(gòu),即將第2.2節(jié)中哪些圖像矩陣輸入到并行網(wǎng)絡(luò)中并進(jìn)行組合,能更好地學(xué)習(xí)圖像美感信息,得到更好的美感分類效果.
首先對各種單路網(wǎng)絡(luò)輸入進(jìn)行實驗.我們利用AVA1數(shù)據(jù)集,分別將第2.2節(jié)提出的各種圖像矩陣輸入到單路深度卷積神經(jīng)網(wǎng)絡(luò)中,進(jìn)行圖像美感分類的訓(xùn)練和測試,得到了以下分類準(zhǔn)確率,如表2所示.
可以看出:1)將圖像直接縮放到寬高分別為256像素的圖像的處理,美感分類的準(zhǔn)確率最高,為83.28%;2)取HSV圖像的一個通道V的矩陣,能達(dá)到82.99%的準(zhǔn)確率;3)Daubechies小波系數(shù)矩陣能達(dá)到81.60%的準(zhǔn)確率.可見,圖像的顏色、能量、亮度都是影響圖像美感的重要因素.
接著,我們確定哪些輸入組合效果最好.我們利用各個單路深度卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練出來的模型,提取圖像的特征,將各路特征進(jìn)行組合,利用SVM進(jìn)行訓(xùn)練和測試.各種特征組合方式的分類準(zhǔn)確率如表3所示,其中,每種組合方式所包含的特征類型用“√”表示.
表2 不同輸入的單路卷積神經(jīng)網(wǎng)絡(luò)的分類準(zhǔn)確率Table 2 Classification accuracy of single column convolutional neural networks with different inputs
表3 各種特征組合方式的分類準(zhǔn)確率Table 3 Classification accuracy of various features combination
由以上結(jié)果可以看出:1)將特征組合的圖像美感分類準(zhǔn)確率都比原單路特征的分類準(zhǔn)確率有所提升.2)將從Normal和V輸入矩陣所提取的特征組合能達(dá)到85.00%的準(zhǔn)確率(第5種).3)從表3中可以看出,第10種特征組合方式所得的美感分類準(zhǔn)確率最高,為85.94%.但其特征維數(shù)也較高,為1280維.這導(dǎo)致了算法復(fù)雜度的提高,與第5種特征組合方式相比,特征維數(shù)增加了一倍以上,而準(zhǔn)確率沒有很大的提高.4)第6、7、8種特征組合方式,分別為Normal、H、V進(jìn)行組合;Normal、S、V進(jìn)行組合;Normal、V、Daubechies進(jìn)行組合,特征維數(shù)都為768,比第5種特征組合方式稍高,圖像美感分類準(zhǔn)確率也比第5種特征組合方式稍高.但Daubechies圖像矩陣的算法復(fù)雜度較其他圖像矩陣大.
在樣本數(shù)量有限的數(shù)據(jù)庫中,特征維數(shù)過高,不利于模式識別問題的解決.在有時間效率要求的情況下,算法復(fù)雜度會影響算法的實際應(yīng)用.本文綜合考慮圖像美感分類準(zhǔn)確率、算法復(fù)雜度和對圖像美感數(shù)據(jù)庫的適用性問題,最終選定第5種特征組合方案,即將Normal和V作為輸入的兩路深度卷積神經(jīng)網(wǎng)絡(luò)所提取的圖像美感特征進(jìn)行組合.在實際圖像美感分類應(yīng)用的過程中,如果時間效率允許,且圖像美感訓(xùn)練數(shù)據(jù)充足,可以考慮采用第6、7、8種特征組合方案.
本節(jié)中我們展示本文方法在上文所述圖像美感分類數(shù)據(jù)庫上的效果,并與傳統(tǒng)手工特征、局部特征提取方法和現(xiàn)有深度學(xué)習(xí)圖像美感分類方法的分類效果進(jìn)行比較.
4.1AVA數(shù)據(jù)庫實驗結(jié)果與對比
4.1.1AVA1數(shù)據(jù)庫
在AVA1數(shù)據(jù)庫中,為了方便圖像美感分類算法的對比,訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集的設(shè)置與文獻(xiàn)[16]相同.我們利用本文算法,用訓(xùn)練集中高、低美感圖像各12766幅訓(xùn)練得到美感分類器,并對測試數(shù)據(jù)集中高、低美感的圖像各12766幅進(jìn)行圖像美感分類實驗.與現(xiàn)有方法的對比結(jié)果如表4所示.
表4 AVA1數(shù)據(jù)庫的實驗結(jié)果及與現(xiàn)有方法的對比Table 4 The experimental results of the AVA1 datasetsand comparison with existing methods
從表4可以看到,本文方法的圖像美感分類準(zhǔn)確率最高,為85%.即高于手工特征的方法[6,8],也高于Marchesotti等[11]的局部特征的方法.即使是最新的深度學(xué)習(xí)方法的運用,也比Dong等[16]的方法的準(zhǔn)確率高約1.5%.總體來說,深度學(xué)習(xí)的方法要比傳統(tǒng)特征提取的方法性能更好.
4.1.2AVA2數(shù)據(jù)庫
在利用深度學(xué)習(xí)方法進(jìn)行圖像美學(xué)分類的課題中,Lu等[10]也進(jìn)行了研究.因此,我們在AVA2數(shù)據(jù)庫上利用本文的圖像美感分類算法進(jìn)行實驗,并與Lu等[10]的方法進(jìn)行了對比,結(jié)果如表5所示.
表5 AVA2數(shù)據(jù)庫的實驗結(jié)果及與現(xiàn)有方法的對比Table 5 The experimental results of the AVA2 datasets and comparison with existing methods
由表5中的實驗數(shù)據(jù)可以看出,本文方法的分類準(zhǔn)確率比Lu等[10]方法的高.
總的來說,深度學(xué)習(xí)方法要比傳統(tǒng)手工特征方法的圖像美感分類性能更好.而本文方法在兩種AVA數(shù)據(jù)庫的實驗中,圖像美感分類的效果最好.
4.2CUHKPQ數(shù)據(jù)庫實驗結(jié)果與對比
對CUHKPQ圖像美感數(shù)據(jù)庫,我們分別在7個不同場景類別以及總圖庫上利用本文算法進(jìn)行了實驗.先利用數(shù)據(jù)集對深度卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,確定網(wǎng)絡(luò)模型參數(shù)后,提取圖像特征并組合,再利用SVM算法訓(xùn)練圖像美感分類器,對測試數(shù)據(jù)集圖像進(jìn)行圖像美感分類得到最終的分類準(zhǔn)確率.
為了與其他的圖像美感分類方法進(jìn)行對比,本文按照文獻(xiàn)[9]、文獻(xiàn)[12]和文獻(xiàn)[16]的做法,隨機(jī)選取數(shù)據(jù)庫中一半的高美感圖像和低美感圖像作為訓(xùn)練數(shù)據(jù)集,另一半圖像作為測試數(shù)據(jù)集.為保證實驗結(jié)果的客觀性,我們重復(fù)10次實驗,取10次實驗圖像美感分類準(zhǔn)確率的平均值作為最終的分類準(zhǔn)確率.
圖像美感分類準(zhǔn)確率以及與傳統(tǒng)手工特征、局部特征及現(xiàn)有深度學(xué)習(xí)方法對比的結(jié)果,如表6所示.
在表6中,本文方法與手工特征提取方法[8-9]、局部特征提取方法[12]以及已有的深度學(xué)習(xí)網(wǎng)絡(luò)方法[16],進(jìn)行了比較.
在總圖庫(Overall)上,本文方法的圖像美感分類準(zhǔn)確率最高,達(dá)到了93.95%.與手動特征方法比較,本文方法明顯高于早期的手動特征方法[8],比Tang等[9]方法的準(zhǔn)確率高近2%.與局部特征方法的比較上,比Guo等[12]方法的準(zhǔn)確率高約3%.在與Dong等[16]的最新深度學(xué)習(xí)方法的比較上,效果也更好,高約2%.
在CUHKPQ各場景類別圖庫的圖像美感分類準(zhǔn)確率上,除了在3個類別(Architecture、Human、Landscape)的準(zhǔn)確率上稍稍低于Tang等[9]的結(jié)果之外,本文方法均高于其他方法.由于深度學(xué)習(xí)方法一般采用較深層次的網(wǎng)絡(luò)結(jié)構(gòu)對數(shù)據(jù)進(jìn)行分析,則對樣本數(shù)據(jù)的數(shù)據(jù)量有一定要求,深度學(xué)習(xí)方法擅長處理大量樣本數(shù)據(jù)的分析問題.CUHKPQ圖庫的各單類別圖庫樣本數(shù)量偏少,且不同類別的樣本數(shù)量存在不平衡的問題,深度學(xué)習(xí)方法不能很好地發(fā)揮優(yōu)勢.
綜上所述,在多個數(shù)據(jù)庫上的圖像美感分類實驗結(jié)果表明,本文提出的并行卷積神經(jīng)網(wǎng)絡(luò)的圖像美感分類方法,比傳統(tǒng)的手工特征、局部特征和現(xiàn)有的深度學(xué)習(xí)方法有更好的美感分類效果.
本文從影響圖像美感的不同角度出發(fā),對圖像的描述矩陣、深度卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和并行深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行了研究,提出一種雙路并行深度卷積神經(jīng)網(wǎng)絡(luò),應(yīng)用于圖像美感分類問題.
表6 CUHKPQ各類別圖庫和總圖庫的實驗結(jié)果及現(xiàn)有方法的對比Table 6 The experimental results of the CUHKPQ datasets and comparison with existing methods
深度學(xué)習(xí)網(wǎng)絡(luò)解決了傳統(tǒng)手工特征和局部特征難以對圖像美學(xué)特征量化建模的問題,可以直接從圖像中學(xué)習(xí)得到美學(xué)特征.本文利用深度學(xué)習(xí)網(wǎng)絡(luò)的特征學(xué)習(xí)能力,綜合考慮影響圖像美感的顏色、亮度、構(gòu)圖等信息,設(shè)計了并行深度卷積神經(jīng)網(wǎng)絡(luò),借用了大規(guī)模圖像分類數(shù)據(jù)集訓(xùn)練所得的模型中所包含的圖像信息,設(shè)計了不同的圖像描述矩陣作為網(wǎng)絡(luò)的輸入,最后將特征有效組合.主要貢獻(xiàn)如下:1)利用大規(guī)模圖像分類和識別數(shù)據(jù)庫ImageNet訓(xùn)練得到的模型[13],參與本文深度學(xué)習(xí)網(wǎng)絡(luò)模型的權(quán)值初始化,以解決當(dāng)圖像美感數(shù)據(jù)集中的樣本數(shù)量不足時,深度學(xué)習(xí)網(wǎng)絡(luò)的特征學(xué)習(xí)能力受到限制的問題;2)對圖像設(shè)計了不同的網(wǎng)絡(luò)輸入表達(dá)矩陣,以從影響圖像美感的不同方面考慮,更全面地學(xué)習(xí)圖像美感特征.從實驗結(jié)果分析與對比來看,本文算法取得了比圖像美感評價中現(xiàn)有的傳統(tǒng)手工特征、局部特征或深度學(xué)習(xí)方法更好的美感分類效果.
當(dāng)然,并行深度卷積神經(jīng)網(wǎng)絡(luò)用于圖像美感評價研究也還存在一些可以思考和發(fā)展的地方,例如:更好的圖像表達(dá)形式、更合理有效的特征組合方式、在深度學(xué)習(xí)網(wǎng)絡(luò)中利用顯著區(qū)域[21]等.又如怎樣能使深度學(xué)習(xí)網(wǎng)絡(luò)學(xué)習(xí)到不同場景下圖像的美感信息,讓網(wǎng)絡(luò)有更廣泛的針對性和適用性,這些都是我們接下來的研究發(fā)展方向.
References
1 Wang Wei-Ning,Yi Jing-Jian,He Qian-Hua.Review for computational image aesthetics.Journal of Image and Graphics,2012,17(8):893-901(王偉凝,蟻靜緘,賀前華.可計算圖像美學(xué)研究進(jìn)展.中國圖象圖形學(xué)報,2012,17(8):893-901)
2 Wang Wei-Ning,Liu Jian-Cong,Xu Xiang-Min,Jiang Yi-Zi,Wang Li.Aesthetic enhancement of images based on photography composition guidelines.Journal of South China University of Technology(Natural Science Edition),2015,43(5):51-58(王偉凝,劉劍聰,徐向民,姜怡孜,王勵.基于構(gòu)圖規(guī)則的圖像美學(xué)優(yōu)化.華南理工大學(xué)學(xué)報(自然科學(xué)版),2015,43(5):51-58)
3 Wang Wei-Ning,Yi Jing-Jian,Xu Xiang-Min,Wang Li. Computational aesthetics of image classification and evaluation.Journal of Computer-Aided Design&Computer Graphics,2014,26(7):1075-1083(王偉凝,蟻靜緘,徐向民,王勵.可計算的圖像美學(xué)分類與評估.計算機(jī)輔助設(shè)計與圖形學(xué)學(xué)報,2014,26(7):1075-1083)
4 Wang W N,Cai D,Wang L,Huang Q H,Xu X M,Li X L. Synthesized computational aesthetic evaluation of photos. Neurocomputing,2016,172:244-252
5 Tong H H,Li M J,Zhang H J,He J R,Zhang C S.Classification of digital photos taken by photographers or home users.In:Proceedings of the 5th Pacific Rim Conference on Multimedia.Tokyo,Japan:Springer,2004.198-205
6 Datta R,Joshi D,Li J,Wang J Z.Studying aesthetics in photographic images using a computational approach.In: Proceedings of the 9th European Conference on Computer Vision.Graz,Austria:Springer,2006.288-301
7 Wang W N,Zhao W J,Cai C J,Huang J X,Xu X M,Li L.An efficient image aesthetic analysis system using Hadoop.Signal Processing:Image Communication,2015,39:499-508
8 Ke Y,Tang X O,Jing F.The design of high-level features for photo quality assessment.In:Proceedings of the 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.New York,USA:IEEE,2006.419-426
9 Tang X O,Luo W,Wang X G.Content-based photo quality assessment.IEEE Transactions on Multimedia,2013,15(8):1930-1943
10 Lu X,Lin Z,Jin H L,Yang J C,Wang J Z.Rating image aesthetics using deep learning.IEEE Transactions on Multimedia,2015,17(11):2021-2034
11 Marchesotti L,Perronnin F,Larlus D,Csurka G.Assessing the aesthetic quality of photographs using generic image descriptors.In:Proceedings of the 2011 IEEE International Conference on Computer Vision.Barcelona,Spain:IEEE,2011.1784-1791
12 Guo L H,Xiong Y C,Huang Q H,Li X L.Image esthetic assessment using both hand-crafting and semantic features. Neurocomputing,2014,143:14-26
13 Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks.In:Proceedings of the 26th Annual Conference on Neural Information Processing Systems 2012.Lake Tahoe,USA:Curran Associates,Inc.,2012.1097-1105
14 Sun Y,Wang X G,Tang X O.Deep learning face representation from predicting 10000 classes.In:Proceedings of the 27th IEEE Conference on Computer Vision and Pattern Recognition.Columbus,USA:IEEE,2014.1891-1898
15 Lee H,Grosse R,Ranganath R,Ng A Y.Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations.In:Proceedings of the 26th Annual International Conference on Machine Learning.Montreal,Canada:ACM,2009.609-616
16 Dong Z,Shen X,Li H Q,Tian X M.Photo quality assessment with DCNN that understands image well.In:Proceedings of the 21st International Conference on MultiMedia Modeling.Sydney,Australia:Springer International Publishing,2015.524-535
17 Dong Z,Tian X M.Multi-level photo quality assessment with multi-view features.Neurocomputing,2015,168:308 -319
18 Deng J,Dong W,Socher R,Li L J,Li K,Li F F.ImageNet:a large-scale hierarchical image database.In:Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition.Miami,USA:IEEE,2009.248-255
19 Yin W,Mei T,Chen C W.Assessing photo quality with geo-context and crowdsourced photos.In:Proceedings of the 2012 IEEE Visual Communications and Image Processing.San Diego,USA:IEEE,2012.1-6
20 Murray N,Marchesotti L,Perronnin F.AVA:a large-scale database for aesthetic visual analysis.In:Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition.Providence,USA:IEEE,2012.2408-2415
21 Wang W N,Cai D,Xu X M,Liew A W C.Visual saliency detection based on region descriptors and prior knowledge.Signal Processing:Image Communication,2014,29(3):424-433
王偉凝華南理工大學(xué)電子與信息學(xué)院副教授.2005年獲得華南理工大學(xué)通信與信息系統(tǒng)專業(yè)博士學(xué)位.主要研究方向為圖像處理與模式識別,計算機(jī)視覺,機(jī)器學(xué)習(xí).
E-mail:wnwang@scut.edu.cn
(WANG Wei-NingAssociate professor at the School of Electronic and Information Engineering,South China University of Technology.She received her Ph.D.degree from South China University of Technology in 2005.Her research interest covers image processing,pattern recognition,computer vision,and machine learning.)
王 勵華南理工大學(xué)電子與信息學(xué)院碩士研究生.主要研究方向為圖像處理,機(jī)器學(xué)習(xí)與計算機(jī)視覺.
E-mail:li-wang72@163.com
(WANG LiMaster student at the School of Electronic and Information Engineering,South China University of Technology.Her research interest covers image processing,machine learning,and computer vision.)
趙明權(quán)華南理工大學(xué)電子與信息學(xué)院碩士研究生.主要研究方向為計算機(jī)視覺,機(jī)器學(xué)習(xí).
E-mail:yomzhao@gmail.com
(ZHAO Ming-QuanMaster student at the School of Electronic and Information Engineering,South China University of Technology.His research interest covers computer vision and machine learning.)
蔡成加華南理工大學(xué)電子與信息學(xué)院碩士研究生.主要研究方向為圖像處理,機(jī)器學(xué)習(xí)和計算機(jī)視覺.
E-mail:caichgjia@163.com
(CAI Cheng-JiaMaster student at the School of Electronic and Information Engineering,South China University of Technology.His research interest covers image processing,machine learning,and computer vision.)
師婷婷華南理工大學(xué)電子與信息學(xué)院碩士研究生.2015年獲鄭州大學(xué)電子信息科學(xué)與技術(shù)學(xué)士學(xué)位.主要研究方向為圖像處理,計算機(jī)視覺與模式識別.
E-mail:eestt-ll@mail.scut.edu.cn
(SHI Ting-TingMaster student at the School of Electronic and Information Engineering,South China University of Technology.She received her bachelor degree from Zhengzhou University in 2015.Her research interest covers image processing,computer vision,and pattern recognition.)
徐向民華南理工大學(xué)電子與信息學(xué)院教授.2001年獲華南理工大學(xué)電子與信息學(xué)院博士學(xué)位.主要研究方向為圖像/視頻處理,人機(jī)交互,計算機(jī)視覺與機(jī)器學(xué)習(xí).本文通信作者.
E-mail:xmxu@scut.edu.cn
(XU Xiang-MinProfessor at the School of Electronic and Information Engineering,South China University of Technology.He received his Ph.D.degree from the School of Electronic and Information Engineering,South China University of Technology in 2001.His research interest covers image/video processing,human-computer interaction,computer vision,and machine learning.Corresponding author of this paper.)
Image Aesthetic Classification Using Parallel Deep Convolutional Neural Networks
WANG Wei-Ning1WANG Li1ZHAO Ming-Quan1CAI Cheng-Jia1SHI Ting-Ting1XU Xiang-Min1
With the rapid development of computers and social networks,automatic image aesthetic evaluation is in demand and has attracted more and more attention recently.Since the complexity and subjectivity of image aesthetic evaluation task,the traditional handcrafted features and generic image descriptors are hard to represent the overall aesthetic character of images.It is difficult for them to quantify and model the image aesthetics exactly.In this paper,a new method of image classification based on parallel deep convolutional neural networks is proposed.We use parallel deep learning networks to automatically complete feature extraction and acquire more comprehensive description of image aesthetics from different views.Then a support vector machine(SVM)classifier is built with the aesthetic features to accomplish image aesthetic classification.Experiments on two most frequently used databases of image aesthetics demonstrate that our proposed method achieves better results than other exsiting methods.
Image aesthetic assessment,deep convolutional neural networks,parallel convolutional neural networks,features extraction
10.16383/j.aas.2016.c150718
Wang Wei-Ning,Wang Li,Zhao Ming-Quan,Cai Cheng-Jia,Shi Ting-Ting,Xu Xiang-Min.Image aesthetic classification using parallel deep convolutional neural networks.Acta Automatica Sinica,2016,42(6):904-914
2015-10-31錄用日期2016-02-27
Manuscript received October 31,2015;accepted February 27,2016
國家自然科學(xué)基金(61171142,61401161),廣東省自然科學(xué)基金(201 5A030313212),廣東省前沿與關(guān)鍵技術(shù)創(chuàng)新專項資金(重大科技專項)(2014B010111003,2014B010111006)資助
Supported by National Natural Science Foundation of China (61171142,61401161),Natural Science Foundation of Guandong Province(2015A030313212),and Guandong Frontier and Key Technological Innovation Special Funds(Grant Scientific and Technological Project)(2014B010111003,2014B010111006)
本文責(zé)任編委柯登峰
Recommended by Associate Editor KE Deng-Feng
1.華南理工大學(xué)電子與信息學(xué)院廣州510641
1.School of Electronic and Information Engineering,South China University of Technology,Guangzhou 510641