基于雙流混合變換CNN特征的圖像分類與識別

2015-12-05 07:09:25湯鵬杰譚云蘭李金忠

井岡山大學學報(自然科學版) 2015年5期

湯鵬杰，譚云蘭，李金忠，譚彬

*湯鵬杰1，譚云蘭2，李金忠2，譚彬2

(1.井岡山大學數(shù)理學院，江西，吉安 343009；2.井岡山大學電子與信息工程學院，江西，吉安 343009）

具有表達能力及可辨別性更強的特征是圖像分類與識別技術的關鍵。深度CNN特征經(jīng)過多次中間非線性變換，特征魯棒性更強，在圖像分類與識別領域已取得重大進展。但傳統(tǒng)的CNN模型只增加變換層次，下層變換依賴于上層輸出結果，因此其中間特征冗余度較低，最終得到的特征向量信息豐富程度不夠。本文提出一種基于雙流混合變換的CNN模型——DTM-CNN 。該模型首先使用不同大小的感受野卷積核提取圖像不同的中間特征，然后在多次深度變換時，對中間特征進行混合流動，經(jīng)過多次混合變換，最終得到1024維的特征向量，并使用Softmax回歸函數(shù)對其分類。實驗結果表明，該模型經(jīng)過多次卷積、池化及激活變換，提取的特征更加抽象、語義及結構信息更加豐富，對圖像具有更強的表達能力及辨別性，因此圖像分類及識別性能優(yōu)越。

圖像分類；識別；雙流混合；CNN

0 引言

基于內(nèi)容的圖像分類與識別技術是計算機視覺領域的核心技術，在圖像檢索、目標檢測及視頻理解分析等方面有著重要應用。以往經(jīng)典的做法是首先提取圖像的特征，然后對特征進行編碼，得到能夠表達圖像的特征向量，最后使用分類器對特征向量進行分類。在整個過程中，表達圖像的特征向量是提高分類與識別精度的關鍵。傳統(tǒng)的方法是根據(jù)圖像的顏色、紋理及形狀信息等手工設計特征，如根據(jù)顏色信息而設計的顏色直方圖特征、根據(jù)紋理信息而設計的LBP（Local Binary Pattern，局部二值模式）特征[1]、基于梯度信息而設計的HOG（Histogram of Oriented Gradient，梯度方向直方圖）特征[2]和SIFT（Scale Invariant Feature Transform，尺度不變特征變換）特征[3]等。基于這些特征的圖像分類與識別方法在取得巨大成功的同時，也存在著很多缺點，如特征表達能力不強，圖像中物體的結構信息及語義信息丟失等問題； BoW/BoF（Bag of Words/Bag of Features，詞袋）模型[4]和FV（Fisher Vector）編碼方法[5]通過對特征進行聚類，提高了特征的表達能力；基于BoW/BoF而設計的SPM（Spatial Pyramid Match，空間金字塔匹配）技術[6]將不同分辨率下的特征向量組合在一起，對解決圖像結構信息丟失問題效果顯著。從視覺技術發(fā)展的過程來看，對于圖像內(nèi)容和特征的非線性變換越來越復雜，變換層次越來越多；而隨著深度的不斷增加，其分類和識別效果也越來越好。同時，視覺生理學也證明，人腦是一個高度復雜的深度變換系統(tǒng)，低層特征經(jīng)過一系列非線性變換被編碼成高層特征，從低層到高層其特征表達越來越抽象，結構和語義信息越來越豐富。但傳統(tǒng)的手工特征由于其使用的低層特征較為單一，提取特征的粒度較粗，甚至方法存在先天缺陷，導致難以真正對其進行深度變換和編碼，編碼后的特征表達能力有限。

基于CNN（Convolution Neural Network，卷積神經(jīng)網(wǎng)絡）技術的圖像分類與識別模型由于其從原始圖像直接提取特征，中間經(jīng)過多次卷積、池化（降采樣）及非線性變換操作，擬合了一個參數(shù)規(guī)模巨大且高度復雜的非線性函數(shù)，完整的模擬了人眼視覺發(fā)現(xiàn)的原理，其提取的特征包含了豐富的結構和語義信息，表達能力強，性能優(yōu)越，在多個數(shù)據(jù)集上的實驗證明，其性能遠遠超越傳統(tǒng)的方法。鑒于CNN強大的表現(xiàn)能力，其已經(jīng)成為當前計算機視覺領域的研究熱點和主流技術之一。本文在當前Alex-Net[7]和ZFCNN[8]模型基礎上，提出了一種DTM-CNN網(wǎng)絡模型（Deep Two stream Mixed CNN features，深度雙流混合CNN特征），通過模擬人眼視覺發(fā)現(xiàn)的視神經(jīng)交叉原理，使用兩條不同的深度變換流，提取更為豐富的圖像特征信息；同時通過減少頂層全連接的神經(jīng)元個數(shù)，控制網(wǎng)絡規(guī)模，與同類其他主流模型相比，其神經(jīng)元個數(shù)更少，運算復雜度更低。實驗證明，該模型對于圖像分類與識別效果顯著，明顯超過了當前其他幾個常用模型。

1 相關工作

自Mcculloch和Pitts提出神經(jīng)元的數(shù)學模型以來，已經(jīng)出現(xiàn)了眾多的ANN（Artificial Neural Network，人工神經(jīng)網(wǎng)絡）模型，其中BP（Back Propagation，反向傳播）網(wǎng)絡以其堅實的理論基礎和優(yōu)越的性能已經(jīng)成為ANN的主流模型。但BP網(wǎng)絡也存在著梯度彌散的致命缺陷[9]，若網(wǎng)絡中存在多個隱層，當誤差反向傳播到輸入層時，其誤差能量已經(jīng)變得極其微弱，難以起到調(diào)整網(wǎng)絡權值和偏置的作用。由于構建網(wǎng)絡復雜，沒有統(tǒng)一的模型設計規(guī)則，也使得眾多研究人員對ANN持懷疑態(tài)度，使得ANN技術發(fā)展一度陷入瓶頸。LeCun等人在90年代提出了基于CNN的LeNet5模型[10]，用于識別圖片中的手寫字體；它通過對圖像進行兩次卷積和池化操作提取圖像特征，使用Softmax回歸函數(shù)對特征進行分類識別，其識別精度達到了商用級別。但由于當時硬件計算性能限制，其更深層次的特征變換沒能實現(xiàn)。Hinton于2006年提出了深度學習的概念，并設計了DBN（Deep Belief Network，深度信念網(wǎng)絡）模型[11-12]，通過堆疊多個RBM（Restricted Boltzmann Machine，限制玻爾茲曼機），并使用逐層訓練的方法，使得對于特征的深度變換成為現(xiàn)實。但RBM訓練復雜，運算復雜度高，對于大規(guī)模的圖像數(shù)據(jù)分類與識別任務難以在常規(guī)硬件條件下完成。Krizhevsky和Hinton等人結合深度學習思想和CNN技術，設計了Alex-Net深度模型[7]，它使用了5個卷積層、3個池化層和兩個全連接層構建整個網(wǎng)絡，神經(jīng)元個數(shù)和參數(shù)規(guī)模分別達到了0.66 M和62 M；在Imagenet2012數(shù)據(jù)集上，通過使用兩塊GPU進行并行訓練，其得到的模型在測試集上使得Top5的正確率達到84.7%，超過當時性能最好的SIFT+FV模型10%以上。Krizhevsky 和Hinton的工作使人們意識到了基于CNN的深度模型在計算機視覺領域的巨大潛力。Zeiler等人通過對使用Alex-Net模型提取的各層特征進行可視化，發(fā)現(xiàn)該模型中的第一個卷積層沒有對圖像的原始信息提取完全，使得后續(xù)的卷積操作所得到的特征存在先天表達能力不足的缺陷；他們通過對Alex-Net的底層卷積層進行修改，得到了ZFCNN網(wǎng)絡模型[8]，在Imagenet數(shù)據(jù)集上的實驗證明，該模型使得分類精度得到了小部分提升。但由于減小了底層卷積核的大小和步長，使得ZFCNN的神經(jīng)元個數(shù)比Alex-Net增加了一倍以上。為了進一步提高分類精度，Simonyan和Zisserman等人設計了VGG16和VGG19超深度模型[13]，其卷積層分別達到了13層和16層，其中VGG19在Imagenet測試集上Top5的分類精度達到了93.2%；但該模型的神經(jīng)元及參數(shù)規(guī)模非常巨大，在VGG19中其分別達到了14.8M和144M。相比來說，Szegedy C等人設計的GoogLeNet模型雖然層數(shù)更多，但由于其控制了每個卷積層的卷積核大小及特征圖個數(shù)，神經(jīng)元及參數(shù)個數(shù)更少，且其分類性能比VGG19更優(yōu)。在小圖像識別中，Lin等人提出了NIN（Network In Network，網(wǎng)中網(wǎng)）模型[14]，它在每次池化之前經(jīng)過多次卷積，盡量提取更豐富的圖像特征，且每次卷積時，保證特征圖的大小不變；在Cifar10和Cifar100數(shù)據(jù)集上，NIN模型分類識別精度分別達到了92%和64.3%。但這種在池化之前連續(xù)多次卷積的方法與每次卷積時增加特征圖的個數(shù)是等價的，導致網(wǎng)絡中神經(jīng)元個數(shù)在600 K以上，是相同配置下Alex-Net模型的2倍以上。

綜合以上各種深度模型可以發(fā)現(xiàn)，為了提取更加抽象的特征，各模型層次越來越多，神經(jīng)元個數(shù)越來越多，而每個神經(jīng)元則是由一次卷積運算而得到，因此，其模型運算復雜度越來越高。本文所提出DTM-CNN在Alex-Net和ZFCNN的基礎上，在提取兩條深度CNN特征的過程中，在每次卷積運算和池化之后，對提取的臨時特征進行混合交叉，混合后的特征作為下一次卷積運算和池化的輸入。該模型在CalTech101[15]、CalTech256[16]和Scene15[17]三個數(shù)據(jù)集上，其分類識別性能顯著，尤其是在CalTech101和CalTech256上，其性能明顯超越當前其他幾個同類主流模型。

2 DTM-CNN

2.1 問題描述與模型設計

在CNN中，通過設計卷積核（權值矩陣）來模擬人眼中局部感受野；對于一張圖像在一次卷積運算時其使用同一個卷積核，通過這種權值共享的方式減少連接和參數(shù)個數(shù)。由于每個卷積核只能提取圖像的某一類特征，因此為了得到更多的圖像信息，需要在一個卷積層中同時設計多個卷積核，最終生成多張?zhí)卣鲌D；然后使用非線性函數(shù)對特征圖中的信息進行激活和抑制，增強特征圖中信息的對比度；為了進一步減少神經(jīng)元和參數(shù)個數(shù)，同時也為了提取特征圖中更具代表性的信息，需要設計池化核對各特征圖使用均值池化或最大值池化操作進行降采樣。經(jīng)過多次“卷積—激活—池化”操作，得到能夠描述整張圖像的特征向量。整個網(wǎng)絡模型使用有監(jiān)督的學習機制，在訓練時，通過前向操作提取圖像特征，通過對誤差進行反向傳播對卷積核和池化核及其偏置進行更新，以更好的擬合訓練集數(shù)據(jù)。

如圖1所示， DTM-CNN模型中，對于一張圖像，使用Stream A和Stream B兩個變換流提取圖像的深度特征。在Stream A中，其配置和Alex-Net完全相同，Stream B中，其第一個卷積層的卷積核由11×11變?yōu)?×7，其步長保持不變，這樣能夠使卷積后得到的特征圖大小相同，便于下一步的池化和特征混合操作，同時由于Stream B中使用的卷積核更小，因此能夠提取更加豐富的特征；經(jīng)過一次池化操作之后，將兩組臨時特征進行交叉混合，并作為下一個卷積層的輸入；同理，在每次卷積運算和池化之后，都對生成的臨時特征進行交叉混合，但在兩個變換流的最后一個池化層，取消兩個流的臨時特征混合，分別直接連接到一個全連接層；在兩個流的兩個全連接層之間再次分別交叉混合，并輸入到各自的下一個全連接層中；在Stream A和Stream B之后，將得到的兩組特征進行組合連接，送入頂層全連接層中，最終得到一個1024維的特征向量，并將其作為分類的依據(jù)。在分類時，仍然使用Softmax回歸函數(shù)，對每個特征計算其屬于某一類的置信度，其置信度最大的特征向量對應其屬于某類圖像的標簽。為了控制參數(shù)規(guī)模，模型將兩個變換流中的每個全連接層神經(jīng)元個數(shù)由原來的4096變?yōu)?048。模型各層中的參數(shù)配置如表1所示。

表1 DTM-CNN模型各層配置參數(shù)

圖1 DTM-CNN模型

2.2 模型原理與分析

整個網(wǎng)絡模型可形式化定義為：

(1)式中，W為權值矩陣，為偏置，為輸入向量，為樣本類別標簽，為非線性變換函數(shù)（激活函數(shù)），需要特別指出的是，是經(jīng)由上一層變換函數(shù)所得到；整個網(wǎng)絡的前向計算屬于逐次迭代過程，每次迭代需要經(jīng)過一次或多次卷積、池化和歸一化操作。

網(wǎng)絡模型的目標函數(shù)可描述為以下(2)式：

(2)式中，為最后一個全連接層中神經(jīng)元個數(shù)，為損失(誤差)函數(shù)，(k)為第個神經(jīng)元的輸入，(k)為第個神經(jīng)元的輸出；對于頂層連接層的某個神經(jīng)元來說，使用如下(3)式表示其損失函數(shù)。

式(3)中為懲罰因子，為網(wǎng)絡總層數(shù)，s為其中一條變換流中網(wǎng)絡的第神經(jīng)元個數(shù)層，t為第+1層神經(jīng)元個數(shù)。整個網(wǎng)絡模型的目標是調(diào)整W和，使得達到最小或收斂，一般使用BP算法進行誤差修正；z為第個神經(jīng)元經(jīng)過函數(shù)變換的輸出，z是對應標簽。函數(shù)采用ReLU（Rectified Linear Unit，線性修正單元），其函數(shù)形式如(4)式所示：

其中在不同的操作中，形式有所不同，在全連接層，的形式為：

與函數(shù)和函數(shù)相比，ReLU具有運算復雜度低、收斂速度快的優(yōu)點，同時能夠使變換后的數(shù)據(jù)具有更好的稀疏性。在大規(guī)模圖像分類與識別中，為加速收斂過程，優(yōu)化時一般使用隨機梯度下降算法對權值和偏置進行更新。其更新公式可使用簡單的鏈式求導法則，如(6)式所示（式中為學習率）：

由于是多層網(wǎng)絡，應對各卷積層的權值矩陣及偏置進行迭代優(yōu)化；在前向傳播時，其卷積層運算如(7)式所示：

(7)式中，x為該層卷積核所對應大小的特征圖塊，M為所選的第張?zhí)卣鲌D，k為該卷積層第特征圖所對應卷積核，b為該特征圖的偏置。經(jīng)過卷積的特征圖在池化時一般不做激活。

對誤差進行逐層反向傳播時，為防止梯度彌散，需要保證各層中的誤差之和保持一致。若池化層的上一層為卷積層，且池化時使用最大值池化，則應首先對該池化層進行反池化操作，讀取池化層中相應位置數(shù)據(jù)在卷積層的對應位置，然后將對應求導后的激活輸出與之做點積求和，卷積層中其他相應位置置為0；求得卷積層誤差矩陣之后，將其求和并與乘性偏置（）相乘，即得到偏置的更新項；在求取卷積核矩陣的更新項時，首先將卷積誤差矩陣與與本池化層神經(jīng)元相連的卷積特征圖進行點積求和，再將其與相乘。其形式化描述如(8)式所示[18]：

(8)式中為本層特征圖中神經(jīng)節(jié)點所在位置，p為上層特征圖與本層卷積核相對應大小的塊，為誤差矩陣，其形式化定義為：

上述(9)式中，(.)為反池化操作，若池化層核大小為2×2，池化步長為2，()=1，其誤差矩陣計算過程如圖2所示（‘●’為點積運算符，‘*’為卷積運算符）。

圖2 卷積層誤差矩陣計算過程

設計CNN網(wǎng)絡模型，通常要考慮整個網(wǎng)絡的神經(jīng)元個數(shù)及參數(shù)規(guī)模，神經(jīng)元個數(shù)決定了模型的時間復雜度，同時對存儲空間也有一定影響，參數(shù)規(guī)模反映了模型的空間復雜度和訓練出來的模型大小，因此，在保證足夠深度的情況下，應盡量減少神經(jīng)元個數(shù)及參數(shù)規(guī)模。各層神經(jīng)元個數(shù)主要由輸出特征圖個數(shù)及其大小所決定，而卷積核大小及卷積步長則決定了特征圖的大小，若要控制神經(jīng)元個數(shù)，則應該增大卷積核的大小及步長，但過大的卷積核及步長會使得提取的圖像信息過于粗糙，不利于下層卷積的特征提取，因此，需要在神經(jīng)元個數(shù)與信息提取粒度之間做平衡。參數(shù)規(guī)模則是由輸入特征圖個數(shù)，輸出特征圖個數(shù)、卷積核及池化核大小所共同決定，但各層特征圖個數(shù)則決定了信息提取的豐富程度，因此在控制參數(shù)規(guī)模時，也應綜合考慮各參數(shù)之間的平衡。表2比較了DTM-CNN及當前其他幾個同類模型的神經(jīng)元個數(shù)及參數(shù)。

表2 各深度模型神經(jīng)元個數(shù)及參數(shù)規(guī)模

從表2中可以看出，在控制神經(jīng)元個數(shù)方面，由于DTM-CNN模型采用基于Alex-Net模型的卷積核大小和步長，但又采用了雙流變換的結構，因此，其神經(jīng)元個數(shù)是Alex-Net的兩倍，但均少于其他幾個模型，僅是VGG19模型的8.9%；而在控制參數(shù)規(guī)模時，目前則GoogLeNet模型做的最好，整個模型參數(shù)僅為6.8 M左右，其訓練出來的模型大小約為55 M，DTM-CNN模型大小約為其4倍。

3 實驗設置與分析

3.1 實驗設置

為檢驗模型效果，我們采用了CalTech256、CalTech101和Scene15三個數(shù)據(jù)集對其進行實驗驗證，同時在相同實驗配置下，對其他幾個模型上做對比實驗。在CalTech256數(shù)據(jù)集上，我們在每類中隨機選取60張圖像作為訓練數(shù)據(jù)，數(shù)據(jù)集中剩余其他圖像作為測試數(shù)據(jù)；在CalTech101數(shù)據(jù)集上，從每類中隨機選取30張圖像作為訓練數(shù)據(jù)，剩余其他圖像作為測試數(shù)據(jù)；在Scene15數(shù)據(jù)集上，從每類圖像中隨機選取100張圖像進行訓練，其他圖像作為測試數(shù)據(jù)。實驗時，首先對圖像進行預處理，所有圖像分辨率均縮放至256×256，然后使用數(shù)據(jù)擴增（Data_augment）技術擴展訓練集，同時對圖像進行減均值處理；在對模型進行初始化時，使用高斯隨機數(shù)對卷積核矩陣進行填充，其標準差設置為0.1；初始化偏置值為0.1。整個實驗模型在Caffe平臺[19]上部署，并使用GPU加速訓練過程；模型其他訓練參數(shù)如表3所示。

表3 模型訓練參數(shù)設置

在對Scene15數(shù)據(jù)集進行訓練時，由于數(shù)據(jù)集樣本較少，其Dropout ratio設置為0.9，釋放全連接層中更多的權值連接，減少訓練中對參數(shù)的調(diào)整次數(shù)，防止過擬合現(xiàn)象的發(fā)生；其他數(shù)據(jù)集中，其值設置為0.5；在訓練完畢之后，對得到的模型進行微調(diào)，微調(diào)迭代次數(shù)設置為20萬次，在三個數(shù)據(jù)集上的實驗證明，經(jīng)過微調(diào)的模型其性能能夠提升1%左右。

3.2 實驗結果及分析

我們在三個數(shù)據(jù)集上分別測試了Alex-Net、GoogLeNet及DTM-CNN三個模型，而ZFCNN由于模型神經(jīng)元及參數(shù)規(guī)模巨大，硬件要求較高，未做測試，其結果由文獻[8]所提供。在CalTech256數(shù)據(jù)集上，DTM-CNN模型的分類及識別錯誤率（Top1）比GoogLeNet模型降低了近2%，比Alex-Net模型降低了近10%；在CalTech101數(shù)據(jù)集上，DTM-CNN模型性能（Top1）比GoogLeNet提升了近10%，同時也遠遠超過Alex-Net與ZFCNN模型；但在Scene15數(shù)據(jù)集上，DTM-CNN模型性能與其他兩個模型相比，其提升并不明顯，在Top1上與GoogLeNet模型幾乎持平。這是因為Scene15數(shù)據(jù)集樣本較少，其訓練集中樣本總量僅為1.5K，不足以擬合模型中的大量參數(shù)，極易發(fā)生過擬合現(xiàn)象，而GoogLeNet模型參數(shù)較少，因此其表現(xiàn)更為優(yōu)。但在運算復雜度上，DTM-CNN模型僅為GoogLeNet模型的1/4左右，因此，其訓練及收斂速度更快。

表4 各深度模型在CalTech256數(shù)據(jù)集上的錯誤率

表5 各深度模型在CalTech101數(shù)據(jù)集上的錯誤率

表6 各深度模型在Scene15數(shù)據(jù)集上的錯誤率

4 結論及展望

深度學習技術已在語音識別、圖像分類、目標檢測等領域取得巨大成功，其針對各種應用所開發(fā)的深度模型性能遠遠超過了傳統(tǒng)方法；基于CNN的深度學習技術以其優(yōu)越的性能表現(xiàn)已經(jīng)成為深度學習的研究主流。本文在Alex-Net模型基礎上，提出并設計了一種DTM-CNN模型。該模型通過兩條CNN變換流提取圖像的不同特征，并在特征傳遞時，對其交叉混合，最終得到的特征向量維度更低，可辨別性更強。實驗證明，該模型與其他幾個同類模型相比，運算復雜度更低，性能更優(yōu)。同時，雙流變換混合的思路也為在不同應用中設計深度模型時提供了一條新的思路。

深度模型一般參數(shù)規(guī)模巨大，在沒有足夠訓練數(shù)據(jù)的情況下，容易發(fā)生過擬合現(xiàn)象。本文所設計的DTM-CNN模型參數(shù)較多，但深度變換層次較少，其特征表達能力有限，雖然在CalTech256和CalTech101兩個數(shù)據(jù)集上性能表現(xiàn)優(yōu)越，但還沒有在超大規(guī)模數(shù)據(jù)集（如Imagenet）上進行驗證。因此，本課題的下一步工作將從兩個方面進行，首先是在大規(guī)模數(shù)據(jù)集上驗證模型性能，其次是對模型進行深度擴展，增強模型特征的抽象及表達能力。

致謝：感謝同濟大學計算機系MIC實驗室的王瀚漓老師和肖波、左凌軒等同學，他們提供的實驗設備及諸多建設性建議使得模型設計和實驗能夠順利進行。

[1] Ojala T, Pietikainen M, Harwood D. A comparative study of texture measures with classification based on feature distributions[C]. Pattern Recognition. 1996:51- 59.

[2] Dalal N, Triggs B. Histograms of oriented gradients for human detection[C]. IEEE Computer Society Conference on Computer Vision and Pattern Recognition(CVPR), 2005:886-893.

[3] Lowe D G. Distinctive Image Features from Scale-Invariant Keypoints[J]. International Journal of Computer Vision, 2004, 60(2):91-110.

[4] Grauman K, Darrell T. The Pyramid Match Kernel: Discriminative Classification with Sets of Image Features[C]. Proceedings of IEEE Computer Society, 2005:1458-1465.

[5] Perronnin F, Sánchez J, Mensink T. Improving the Fisher Kernel for Large-Scale Image Classification[J]. Lecture Notes in Computer Science, 2010, 6314:143-156.

[6] Lazebnik S. et al. Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories[C]. IEEE Computer Society Conference on Computer Vision and Pattern Recognition(CVPR), 2006:2169-2178.

[7] Krizhevsky A, Sutskever I, Hinton G E. ImageNet Classification with Deep Convolutional Neural Networks[C]. Advances in Neural Information Processing Systems(NIPS), 2012:2012.

[8] Zeiler M D, Fergus R. Visualizing and Understanding Convolutional Networks[J]. Lecture Notes in Computer Science, 2014:818-833.

[9] Schmidhuber J. Deep Learning in Neural Networks: An Overview[J]. Neural Networks the Official Journal of the International Neural Network Society, 2014, 61:85–117.

[10] LeCun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[C]. Proceedings of the IEEE, 1998, 86(11):2278 - 2324.

[11] Hinton G E. Salakhutdinov. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786):504-507.

[12] Hinton G E, Osindero S. A Fast Learning Algorithm for Deep Belief Nets[J]. Neural Computation, 2006, 18(7):1527 - 1554.

[13] Simonyan K, Zisserman A, Simonyan K, et al. Very Deep Convolutional Networks for Large-Scale Image Recognition[J]. Eprint Arxiv, 2014.

[14] Min L, Qiang C, Shuicheng Y. Network In Network[C]//International Conference on Learning Representation(ICLR), 2014.

[15] Griffin G, Holub A, Perona P. Caltech-256 Object Category Dataset[J]. California Institute of Technology, 2007.

[16] Fei-Fei L, Fergus R, Perona P. Learning generative visual models from few training examples: An incremental Bayesian approach tested on 101 object categories[J]. Computer Vision & Image Understanding, 2007, 106(1):178.

[17] Fei-Fei L, Perona P. A Bayesian Hierarchical Model for Learning Natural Scene Categories[C]. Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05) - Volume 2 - Volume 02. IEEE Computer Society, 2005:524-531.

[18] Bouvrie J. Notes on Convolutional Neural Networks[J]. Neural Nets, 2006.

[19] Jia Y, Shelhamer E, Donahue J, et al. Caffe: Convolutional Architecture for Fast Feature Embedding[J]. Eprint Arxiv, 2014.

IMAGE CLASSIFICATION AND RECOGNITION BASED ON DEEP TWO STREAM MIXED CNN FEATURES

*TANG Peng-jie1, TAN Yun-lan2, LI Jin-zhong2, TAN bin2

(1. School of Mathematics and Physics, Jinggangshan University,Ji’an,Jiangxi 343009,China;2. School of Electronics and Information Engineering, Jinggangshan University, Ji’an, Jiangxi 343009, China)

It is very important for image classification and recognition that the feature is more discriminative and has power representation ability. The deep CNN feature is more robust than other features because of its more non-linear transformation, and great breakthrough has obtained in the field of image classification and recognition based on the CNN. However, in the traditional CNN model, there just increase the transformation layers, and the posterior layer relies on the prior layer. As a result, the intermediate feature has low redundancy, and there is no enough information in the feature. In this paper, we propose a novel CNN model based on two stream and mixed transform. In this model, the intermediate feature is extracted via using different convolution kernels firstly. And then, the mixed feature is generated and flows forward when the deep transform is executed. Finally, we get a 1024D feature vector and classify it with the Softmax regression function. The experiment demonstrates that the feature extracted by the model is more abstract and has richer structural and semantic information via convolution, pooling and activation transformation repeatedly. And so, it has better performance for classification and recognition than other same models.

image classification; recognition; two stream mixed transformation; CNN

1674-8085(2015)05-0053-07

TP391.4

10.3969/j.issn.1674-8085.2015.05.011

2015-05-13；修改日期：2015-07-14

江西省教育廳科技計劃項目(GJJ14561)；井岡山大學科研基金項目（JZ14012）

*湯鵬杰(1983-)，男，河南鄲城人，講師，博士生，主要研究領域為多媒體智能計算(E-mail:5tangpengjie@#edu.cn);

譚云蘭(1972-)，女，江西新干人，副教授，博士生，主要研究領域為圖像處理、虛擬現(xiàn)實(E-mail: tanyunlan@163.com.);

李金忠(1976-)，男，江西吉水人，副教授，博士生，主要研究領域為大數(shù)據(jù)、機器學習等(E-mail:leezhong2005@126.com);

譚彬(1982-)，女，湖南常寧人，講師，博士生，主要研究領域為無線編碼、機器學習等(E-mail:jatanbin@163.com).