• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種基于分層特征學(xué)習(xí)的標(biāo)簽一致K-SVD圖像分類方法

      2016-08-10 07:27:56郭繼昌
      關(guān)鍵詞:池化字典標(biāo)簽

      王 博, 郭繼昌, 張 艷

      (天津大學(xué) 電子信息工程學(xué)院,天津 300072)

      ?

      一種基于分層特征學(xué)習(xí)的標(biāo)簽一致K-SVD圖像分類方法

      王 博, 郭繼昌*, 張 艷

      (天津大學(xué) 電子信息工程學(xué)院,天津 300072)

      為更好提取信息豐富的圖像表示,提出了一種基于分層特征學(xué)習(xí)的標(biāo)簽一致K-SVD圖像分類方法。首先,對基于灰度或RGB類型的圖像進(jìn)行稠密的塊采樣,然后利用分層正交匹配追蹤獲取圖像特征,代替?zhèn)鹘y(tǒng)的基于SIFT描述子結(jié)合空間金字塔池化的方式。在引入標(biāo)簽一致性約束后,利用K-SVD算法對已獲取特征進(jìn)行判別式字典的學(xué)習(xí),同時得到了最優(yōu)的線性分類器。實驗結(jié)果表明,該方法在Caltech101、Oxford Flowers 和UIUC-Sports 3類數(shù)據(jù)集中,分類準(zhǔn)確率分別達(dá)到了76.7%、84.9%和87.1%,優(yōu)于其他算法。

      圖像表示; 分層特征學(xué)習(xí); K-SVD; 圖像分類

      MR subject classification: 68U10

      近年來,對于圖像分類任務(wù),新的監(jiān)督字典學(xué)習(xí)方法更加有效[1-2]。這類算法在訓(xùn)練字典時,將判別標(biāo)準(zhǔn)或分類誤差直接引入需要優(yōu)化的目標(biāo)函數(shù)中[3]。其中,利用K-SVD進(jìn)行優(yōu)化,同時包含標(biāo)簽一致約束和最優(yōu)分類性能標(biāo)準(zhǔn)的算法備受關(guān)注。但是,這種標(biāo)簽一致K-SVD方法[4]仍使用基于尺度不變特征變換(SIFT)的空間金字塔特征進(jìn)行稀疏編碼。

      隨著深度學(xué)習(xí)的快速發(fā)展,一種建立在原始像素級基礎(chǔ)上的完全自動的分層特征學(xué)習(xí)結(jié)構(gòu),在圖像表示上體現(xiàn)出更優(yōu)的性能[5-7]。文獻(xiàn)[8]使用帶有非負(fù)約束和選擇性的分層反卷積網(wǎng)絡(luò)(deconvolutional network, DN)結(jié)構(gòu)進(jìn)行特征學(xué)習(xí),但訓(xùn)練層數(shù)較多,計算復(fù)雜度高。文獻(xiàn)[9]證明了一種基于分層正交匹配追蹤(hierarchical orthogonal matching pursuit,OMP)的圖像表示學(xué)習(xí)算法,在分類性能上大幅超越了基于空間金字塔匹配(spatial pyramid matching,SPM)和DN的方法,但需對灰度和RGB類型的圖像均進(jìn)行稠密的塊采樣,以保證提取的圖像表示包含豐富的信息,時間開銷較大。

      針對以上問題,本文提出了僅利用灰度或RGB類型的圖像進(jìn)行稠密的塊采樣,結(jié)合K-SVD和OMP對塊級特征分層訓(xùn)練,利用標(biāo)簽一致K-SVD方法對提取的圖像特征學(xué)習(xí)判別式字典和最優(yōu)線性分類器;并對Caltech101、 Oxford Flowers 和UIUC-Sports基準(zhǔn)數(shù)據(jù)集進(jìn)行驗證,分類準(zhǔn)確率分別達(dá)到76.7%、85.2%和87.1%,優(yōu)于其他先進(jìn)算法。

      1 基于分層特征學(xué)習(xí)的圖像分類模型

      圖像分類作為圖像、視頻檢索以及機(jī)器人視覺的基本任務(wù)之一,根據(jù)不同屬性,將圖像劃分到預(yù)設(shè)的類別中。相對非監(jiān)督字典學(xué)習(xí)方法,監(jiān)督字典學(xué)習(xí)不僅考慮圖像重構(gòu)問題,而且利用了訓(xùn)練集中圖像的類別信息。標(biāo)簽一致K-SVD是一種典型的將圖像標(biāo)簽作為監(jiān)督信息的方法,把重構(gòu)和分類誤差引入目標(biāo)函數(shù),通過K-SVD算法進(jìn)行優(yōu)化,同時學(xué)習(xí)到一個判別式字典和一個多類線性分類器。由于來自同類的圖像生成了近似的稀疏表示,因此該方法具有良好的分類性能。

      但是,在標(biāo)簽一致K-SVD方法中,采用對基于SIFT描述子和SPM算法提取的特征進(jìn)行稀疏編碼,一定程度上限制了該模型的性能。在此基礎(chǔ)上,本文提出一種基于分層特征學(xué)習(xí)的圖像分類模型,如圖1所示。

      圖1 基于分層特征學(xué)習(xí)的圖像分類模型

      其中,相對于基追蹤(basis pursuit,BP)或欠定系統(tǒng)局灶解法(focal underdetermined system solver,FOCUSS),利用OMP得到的稀疏表示更為高效[10]。空間金字塔池化與稀疏表示結(jié)合后的優(yōu)良性能已在文獻(xiàn)[11]中得到了理論和實踐的分析與證明。對比度歸一化可以得到更低冗余的表示,令對比度差異較大的塊特征更易被區(qū)分,差異較小的更易被歸為同一類。通過分層地學(xué)習(xí)來自像素級的圖像特征,最終可以獲得一個完整的帶有類標(biāo)簽的特征矩陣。因其中的特征向量都具有較高維度,所以采用快速主成分分析的方法進(jìn)行降維,并對降維后的特征矩陣學(xué)習(xí)判別式字典與線性分類器,然后進(jìn)行圖像分類。

      2 分層特征提取結(jié)構(gòu)

      在上述圖像分類模型中,依照貪婪地逐層非監(jiān)督訓(xùn)練原則進(jìn)行分層特征提取。文獻(xiàn)[12]描述了一種典型的兩層深度網(wǎng)絡(luò)結(jié)構(gòu),在這種深度學(xué)習(xí)算法中,每個對應(yīng)于獨立原子的大小為(n-m+1)×(n-m+1)的二維網(wǎng)格都被稱為特征圖。本文采用的分層特征提取深度結(jié)構(gòu)如圖2所示,假定圖像是由n×n像素點組成,其中單層特征圖均被棧式堆疊。

      圖2展示了三維的深度結(jié)構(gòu),包含OMP算法作為編碼器,并利用空間金字塔最大池化策略的深度網(wǎng)絡(luò)主要包含以下4步:

      (1)第一層特征提取時,采用m×m尺寸的感受野,因使用稠密的采樣方案,其間隔設(shè)定為1。通過K-SVD訓(xùn)練可以得到含有D1個原子的字典。接著,利用高效的OMP獲得了形如(n-m+1)×(n-m+1)×D1的棧式特征圖。

      (2)對鄰近的s×s空間塊,采用取最大值的池化策略,然后生成形如[(n-m+1)/s]×[(n-m+1)/s]×D1的池化表示。

      圖2分層特征提取結(jié)構(gòu)

      Fig.2The architecture of hierarchical feature extraction

      (3)在全部D1個特征圖上,繼續(xù)使用稠密塊采樣方法,利用尺寸大小為j×j的感受野,其間隔仍設(shè)定為1,經(jīng)過多層的塊級采樣,生成的第二層特征維度變?yōu)閖×j×D1,特征數(shù)量變?yōu)?/p>

      {[n-m+1)/s]-j+1}×{[n-m+1)/s]×

      D1-j+1}。

      結(jié)合K-SVD方法進(jìn)行訓(xùn)練,可以得到含有D2個原子的字典,D2>D1,然后通過OMP算法得到了第二層的特征圖表示,形如

      {[(n-m+1)/s]-j+1}×{[(n-m+1)/s]×

      D1-j+1}×D2。

      (4)利用空間金字塔最大池化方法得到最終的級聯(lián)圖像特征。

      其中,用于稀疏編碼的K-SVD算法可具體描述如下:令X為b維輸入信號集,即X=[x1,x2,…,xN]∈Rb×N。學(xué)習(xí)帶有P個原子的用于稀疏表示的可重構(gòu)字典,通過解決下面的優(yōu)化問題實現(xiàn):

      (1)

      其中D=[d1,d2,…,dP]∈Rb×P是學(xué)習(xí)的字典,C=[c1,c2,…,cN]∈RP×N為輸入信號的稀疏表示,M是相應(yīng)的稀疏度,亦即稀疏系數(shù)中非零元素的個數(shù)。給定D后,可以利用高效的OMP算法計算稀疏近似解,其需解決以下優(yōu)化問題:

      (2)

      然而,根據(jù)統(tǒng)一的字典D對大規(guī)模信號集進(jìn)行稀疏編碼時,必須考慮預(yù)計算的問題以節(jié)省計算開銷。在式(2)優(yōu)化問題中,原子選擇的步驟最為耗時,因此實踐中通常采用批處理OMP(BOMP)的方式。BOMP只要考慮DTr,而無需明確計算殘差r或稀疏表示c。設(shè)γ=DTr,γ0=DTx,G=DTD,可得

      (3)

      其中,GII表示行與列都由I索引的矩陣。那么,僅預(yù)計算γ0和G即可,用于升級步驟的計算開銷大幅減低。關(guān)于BOMP算法的流程如下:

      批處理OMP算法

      輸入:D、x、M

      輸出:c

      初始化:x=0,I=?,γ0=DTx,G=DTD

      循環(huán)至終止條件(t=1∶M)

      I=I∪θ

      升級γ:γ=γ0-GIcI

      3 判別式字典學(xué)習(xí)

      為取得平衡的重構(gòu)和判別性,并最終同時學(xué)習(xí)到多類線性分類器,標(biāo)簽一致K-SVD方法需在字典的原子和類標(biāo)簽之間保持明確的一致性。這種利用監(jiān)督信息的字典學(xué)習(xí)方法,是將判別式稀疏編碼誤差和分類誤差作為正則項引入到目標(biāo)函數(shù)中。所以(1)式變?yōu)槿缦滦问剑?/p>

      K-SVD是一種高度靈活的且可與任何追蹤方法進(jìn)行結(jié)合的算法[10]。K-SVD基于迭代的方式可以高效地獲得相應(yīng)目標(biāo)函數(shù)的最優(yōu)解。為此,(3)式可重新表示為

      s.t.?i,‖ci‖0≤M。

      (5)

      實際上,目標(biāo)函數(shù)(4)等價于以下形式:

      (6)

      (7)

      (8)

      標(biāo)簽一致KSVD算法

      輸入:X、T、R、M、K、、α、β

      輸出:D、L、A

      利用K-SVD搜尋(5)式的最優(yōu)解,升級D′

      從D′中獲取D、L、A。

      4 實驗結(jié)果與分析

      本節(jié)中,采用CPU主頻為3.1 GHz,Windows 7 64位操作系統(tǒng)及Matlab 2010b平臺進(jìn)行實驗。利用本文提出的基于分層特征學(xué)習(xí)的標(biāo)簽一致K-SVD算法,3組實驗分別對Caltech101、Oxford Flowers 和UIUC-Sports 3個常用基準(zhǔn)測試集進(jìn)行圖像分類的測試。

      本文訓(xùn)練一種具有雙層結(jié)構(gòu)的深度網(wǎng)絡(luò)用于特征學(xué)習(xí),對Caltech101和UIUC-Sports測試集只進(jìn)行灰度圖像的稠密塊采樣,而對Oxford Flowers測試集只進(jìn)行RGB圖像的稠密塊采樣。第一層學(xué)習(xí)中,字典原子個數(shù)被設(shè)定為100,采樣塊尺寸設(shè)為6×6,OMP-5用于編碼,即稀疏系數(shù)中至多有5個非零元素。然后利用尺寸為4×4的感受野對特征取最大值池化,得到用于第二層編碼的特征矩陣。第二層學(xué)習(xí)中,訓(xùn)練一個原子個數(shù)為1 000的字典,采樣塊尺寸設(shè)為5×5,采用稀疏度為10的OMP進(jìn)行編碼。其中金字塔空間池化的三級子區(qū)域分別設(shè)置為1×1,2×2,3×3。所有用于測試的圖像最大尺寸均被設(shè)定為300。

      4.1Caltech101分類數(shù)據(jù)集

      Caltech101是一個極具挑戰(zhàn)性的目標(biāo)分類數(shù)據(jù)集,包括102類,共9 144張圖像。除了背景類以外,還有飛機(jī)、車輛、動物等類別。為了保證公平的測試條件,依據(jù)常規(guī)實驗設(shè)定,本文將隨機(jī)抽取30幅圖像用于訓(xùn)練集,其余圖像用于測試集。實驗結(jié)果是取10次的平均分類準(zhǔn)確率。本文算法與其他先進(jìn)算法對比的結(jié)果如表1所示。

      表1 Caltech101數(shù)據(jù)集分類準(zhǔn)確率

      首先,可以發(fā)現(xiàn)本文算法在分類準(zhǔn)確率上大幅優(yōu)于基于SIFT描述子進(jìn)行特征提取的單層稀疏編碼方法,如ScSPM[13]和LLC[14]。其次,相對幾種分層特征學(xué)習(xí)方法,如DNNS[8]、HSC[5]、HSSL[7],本文算法的分類性能最大提高了3.4%。最后,本文方法超越了利用SIFT描述子結(jié)合空間金字塔池化方式提取特征的LC-KSVD2算法[4],最大提高了3.1%。此外,在降維實驗中,分別選擇3 000和6 000兩種不同維度,實驗結(jié)果表明,特征維度較低會嚴(yán)重影響分類準(zhǔn)確率。而當(dāng)實驗中選擇更高維度時,運算效率會嚴(yán)重下降。

      4.2Oxford Flowers分類數(shù)據(jù)集

      Oxford Flowers包括17類,共計1 360張圖像。雖然屬于小規(guī)模的數(shù)據(jù)集,但這個關(guān)于鮮花的基準(zhǔn)庫中,花朵表現(xiàn)出的類內(nèi)差異甚至?xí)笥陬愰g差異,且存在不同類型花朵間極其相似的情況,因此該數(shù)據(jù)集也具有一定挑戰(zhàn)性。根據(jù)常規(guī)實驗設(shè)定,為確保公正性,隨機(jī)抽取60幅用于訓(xùn)練的圖像,其余用于測試。在進(jìn)行10次實驗后取平均分類準(zhǔn)確率作為最終結(jié)果。通過表2可以看出,本文算法的分類準(zhǔn)確率高出另一種基于顯著性的分層學(xué)習(xí)方法(HSSL)[7]8.7%。同時,相對一種先進(jìn)的基于共生異構(gòu)性特征(Color-CoHOG,CoHD)的方法[15],本文算法亦在分類準(zhǔn)確率上超越6%。

      表2 Oxford Flowers數(shù)據(jù)集分類準(zhǔn)確率

      4.3UIUC-Sports分類數(shù)據(jù)集

      在完成了針對目標(biāo)數(shù)據(jù)集的測試后,本文對一個靜態(tài)事件類數(shù)據(jù)集UIUC-Sports進(jìn)行實驗。該數(shù)據(jù)集包括8類,共計1 579張圖像。因為該數(shù)據(jù)集中的圖像均帶有復(fù)雜的背景,且每類圖像的尺寸及內(nèi)容差異較大,所以也具有較高的挑戰(zhàn)性。 為了保證公平的測試條件,依然根據(jù)常規(guī)實驗設(shè)定,即從每類中隨機(jī)抽取70張作為訓(xùn)練圖像,60張用于測試。表3給出了分類準(zhǔn)確率對照結(jié)果。本文算法的分類準(zhǔn)確率高于目標(biāo)庫(OB)方法[16]10.8%,同時優(yōu)于自適應(yīng)高斯模型(AGM)[17]和拉普拉斯稀疏編碼(LSC)[18]。此外,相比分層匹配追蹤的算法(HMP)[9],本文方法在小規(guī)模UIUC-Sports事件類數(shù)據(jù)集上表現(xiàn)出1.4%的優(yōu)勢。

      表3 UIUC-Sports數(shù)據(jù)集分類準(zhǔn)確率

      5 結(jié)論

      本文提出了一種基于分層特征學(xué)習(xí)的標(biāo)簽一致K-SVD圖像分類方法,它能夠利用灰度或RGB類型圖像,稠密地一次性進(jìn)行塊采樣,避免了時間開銷較大的缺點。同時,基于分層特征學(xué)習(xí)的方法取代了傳統(tǒng)的基于SIFT描述子結(jié)合空間金字塔池化的方式,獲得了更優(yōu)的圖像表示。因此,在僅使用由標(biāo)簽一致K-SVD學(xué)習(xí)的線性分類器情況下,依然取得了較高的圖像分類準(zhǔn)確率。實驗結(jié)果表明,本文算法性能優(yōu)于分層圖像表示學(xué)習(xí)、基于SIFT的稀疏表示以及其他基于先進(jìn)算法的模型。

      [1] MAIRAL J,BACH F, PONCE J.Task-driven dictionary learning[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(4): 791-804.

      [2] YANG M, ZHANG L, FENG X C, et al.Fisher discrimination dictionary learning for sparse representation[C]//Proceedings of IEEE International Conference on Computer Vision. Barcelona:IEEE, 2011:543-550.

      [3] ZHANG Q, LI B X. Discriminative K-SVD for dictionary learning in face recognition[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. San Francisco:IEEE,2010: 2691-2698.

      [4] JIANG Z L, LIN Z, DAVIS L S. Label consistent K-SVD: learning a discriminative dictionary for recognition [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(11):2651-2664.

      [5] YU K, LIN Y Q, LAFFERTY J.Learning image representations from the pixel level via hierarchical sparse coding[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Providence:IEEE, 2011: 1713-1720.

      [6] BO L F, REN X F, FOX D. Multipath sparse coding using hierarchical matching pursuit[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Portland:IEEE, 2013: 660-667.

      [7] YANG J M, YANG M H. Learning hierarchical image representation with sparsity,saliency and locality[C]//Proceedings of the British Machine Vision Conference. Dundee, 2011: 19.1-19.11.

      [8] LIU B Y,LIU J, BAI X, et al. Regularized hierarchical feature learning with non-negative sparsity and selectivity for image classification [C]//Proceedings of the 22nd International Conference on Pattern Recognition.Stockholm, 2014: 4293-4298.

      [9] BO L F, REN X F, FOX D.Hierarchical matching pursuit for image classification: architecture and fast algorithms[C]//Advances in Neural Information Processing Systems 24. Granada, 2011: 1-9.

      [10] AHARON M, ELAD M, BRUCKSTEIN A.K-SVD: an algorithm for designing overcomplete dictionaries for sparse representation[J]. IEEE Transactions on Signal Processing, 2006, 54 (11): 4311-4322.

      [11] BOUREAN Y L,BACH F,LECUN Y, et al. Learning mid-level features for recognition [C]// Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. San Francisco:IEEE, 2010: 2559-2566.

      [12] COATES A, NG A Y.Selecting receptive fields in deep networks[C]//Advances in Neural Information Processing Systems 24. Granada, 2011: 1-9.

      [13] YANG J C, YU K, GONG Y H, et al. Linear spatial pyramid matching using sparse coding for image classification[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Miami, 2009: 1794-1801.

      [14] WANG J J, YANG J C, YU K, et al. Locality-constrained linear coding for image classification [C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. San Francisco:IEEE, 2010: 3360-3367.

      [15] SATOSHI I, SUSUMU K.Object classification using heterogeneous co-occurrence features [C]//Proceedings of the 11th European Conference on Computer Vision. Heraklion,2010: 209-222.

      [16] LI L J, SU H, XING E P, et al. Object Bank: A high-level image representation for scene classification and semantic feature sparsification[C]//Advances in Neural Information Processing Systems 23.Vancouver,2010: 1-9.

      [17] DIXIT M, RASIWASIA N, VASCONCELOS N.Adapted gaussian models for image classification [C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Providence:IEEE, 2011: 937-943.

      [18] GAO S H, TSANG I W, CHIA L T, et al. Local features are not lonely-laplacian sparse coding for image classification[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. San Francisco:IEEE, 2010: 3555-3561.

      〔責(zé)任編輯宋軼文〕

      An image categorization approach based on hierarchical feature learning and label consistent K-SVD

      WANG Bo, GUO Jichang*, ZHANG Yan

      (School of Electronic Information Engineering, Tianjin University, Tianjin 300072, China)

      In order to extract image representation including useful information, a method is proposed based on hierarchical feature learning and label consistent K-SVD. Firstly, a great number of patches are densely sampled only from grey or RGB type of images. Secondly, image features are generated using hierarchical orthogonal matching pursuit instead of traditional pattern based on scale invariant feature transform (SIFT) descriptor combined with spatial pyramid pooling. With a label consistency constraint, a discriminative dictionary is learned by K-SVD algorithm employing the acquired features, as well as an optimal linear classifier. The experiments on Caltech101, Oxford Flowers and UIUC-Sports benchmark datasets show that the proposed method can achieve 76.7%, 84.9% and 87.1% respectively in terms of classification accuracy, which performs better than other algorithms.

      image representation; hierarchical feature learning; K-SVD; image categorization

      1672-4291(2016)04-0017-06

      10.15983/j.cnki.jsnu.2016.04.145

      2015-08-18

      高等學(xué)校博士學(xué)科點專項科研基金(20120032110034); 天津市自然科學(xué)基金(15JCYBJC15500)

      郭繼昌,男,教授,博士。E-mail: jcguo@tju.edu.cn.

      TP391.4

      A

      猜你喜歡
      池化字典標(biāo)簽
      基于緊湊型雙線性網(wǎng)絡(luò)的野生茵識別方法研究
      無線電工程(2024年8期)2024-09-16 00:00:00
      開心字典
      家教世界(2023年28期)2023-11-14 10:13:50
      開心字典
      家教世界(2023年25期)2023-10-09 02:11:56
      基于Sobel算子的池化算法設(shè)計
      卷積神經(jīng)網(wǎng)絡(luò)中的自適應(yīng)加權(quán)池化
      基于卷積神經(jīng)網(wǎng)絡(luò)和池化算法的表情識別研究
      無懼標(biāo)簽 Alfa Romeo Giulia 200HP
      車迷(2018年11期)2018-08-30 03:20:32
      不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
      海峽姐妹(2018年3期)2018-05-09 08:21:02
      我是小字典
      正版字典
      讀者(2016年14期)2016-06-29 17:25:50
      延庆县| 深州市| 霍林郭勒市| 农安县| 武定县| 石棉县| 综艺| 龙井市| 文水县| 徐闻县| 玉环县| 绵竹市| 阿瓦提县| 成都市| 报价| 五寨县| 余姚市| 红河县| 宁夏| 康定县| 海原县| 浑源县| 桦南县| 安徽省| 嘉善县| 日照市| 德惠市| 老河口市| 肇源县| 四子王旗| 娱乐| 石家庄市| 巩义市| 吉木萨尔县| 苗栗县| 宜良县| 巨野县| 安康市| 昭苏县| 城口县| 大庆市|