• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      融合全局與局部特征的深度卷積神經(jīng)網(wǎng)絡(luò)算法

      2022-05-17 06:02:04程衛(wèi)月張雪琴林克正
      計(jì)算機(jī)與生活 2022年5期
      關(guān)鍵詞:識(shí)別率卷積局部

      程衛(wèi)月,張雪琴,林克正,李 驁

      1.黑龍江工商學(xué)院,哈爾濱150025

      2.哈爾濱理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,哈爾濱150080

      表情是人類(lèi)在交際中傳達(dá)情感的重要載體,研究表明,55%的情感或意向信息是通過(guò)面部表情傳達(dá)的,面部表情包括六種基本情緒:快樂(lè)、悲傷、憤怒、驚訝、厭惡和恐懼。面部表情識(shí)別旨在讓機(jī)器來(lái)識(shí)別預(yù)測(cè)這六種表情。

      隨著機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的迅速發(fā)展,基于深度神經(jīng)網(wǎng)絡(luò)的方法被應(yīng)用到面部表情識(shí)別中,相比于傳統(tǒng)方法,如人工標(biāo)注、淺層學(xué)習(xí)等,深度神經(jīng)網(wǎng)絡(luò)具有良好的自學(xué)習(xí)能力、并行處理能力和較高的分類(lèi)精度。手工特征提取方法具有光照魯棒性和尺度不變性,如方向梯度直方圖、局部二值模式(local binary pattern,LBP)、尺度不變特征變換和Gabor變換等,它們側(cè)重于關(guān)注人臉的主要組成部分:眼睛、眉毛、鼻子和嘴巴等?;诰矸e神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)的人臉表情識(shí)別方法,大多強(qiáng)調(diào)表情的完整性,從整體圖像中提取特征,忽略局部區(qū)域的細(xì)粒度信息。例如,Shin 等人提出通過(guò)訓(xùn)練20 多個(gè)不同的卷積神經(jīng)網(wǎng)絡(luò),尋找具有較強(qiáng)面部表情識(shí)別能力的CNN 結(jié)構(gòu),平均識(shí)別率達(dá)到59.93%。

      近年來(lái),在圖像分類(lèi)領(lǐng)域已經(jīng)有學(xué)者使用手工特征與深度特征融合。例如,Connie 等人將傳統(tǒng)尺度不變特征變換與CNN 提取的特征相結(jié)合,進(jìn)一步提高面部表情識(shí)別的性能;Zou 等人將Gabor 特征與深度特征融合,在姿態(tài)變化的人臉中表現(xiàn)出較好的識(shí)別率。

      為提高人臉表情識(shí)別率,獲取更有效的面部表情特征,提出融合全局與局部特征的深度卷積神經(jīng)網(wǎng)絡(luò)算法(deep convolutional neural network algorithm fusing global and local features,GL-DCNN),其網(wǎng)絡(luò)結(jié)構(gòu)由兩個(gè)CNN 分支組成:第一個(gè)分支采用改進(jìn)的VGG19(visual geometry group)網(wǎng)絡(luò),提取出人臉的整體特征;第二分支主要對(duì)紋理特征進(jìn)行處理,為減少光照等噪音的干擾,采用中心對(duì)稱局部二值模式(central symmetric local binary pattern,CSLBP)算法,該算法可以大幅度降低處理時(shí)間,同時(shí)有很強(qiáng)的抗噪能力,將處理后的特征輸入到自主設(shè)計(jì)的淺層CNN 中訓(xùn)練。將兩個(gè)分支輸出的特征進(jìn)行加權(quán)融合,最后使用softmax 分類(lèi)器完成人臉表情分類(lèi)任務(wù)。

      1 深度學(xué)習(xí)與特征提取

      1.1 卷積神經(jīng)網(wǎng)絡(luò)模型

      典型的卷積神經(jīng)網(wǎng)絡(luò)通常包含三種基本操作,即卷積、池化和全連接,通過(guò)對(duì)圖像不斷地進(jìn)行卷積和池化運(yùn)算,在保留人臉重要信息的情況下,提取出不同尺度的抽象特征。卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖如圖1所示。

      圖1 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Structure of convolutional neural network

      卷積層(convolutional layer)是CNN 的核心,它主要對(duì)圖像特征進(jìn)行提取,當(dāng)數(shù)據(jù)輸入時(shí),卷積層利用不同尺度的卷積核對(duì)數(shù)據(jù)進(jìn)行卷積操作,將輸出值經(jīng)過(guò)激活函數(shù)進(jìn)行非線性變換,得到當(dāng)前層的特征,運(yùn)算如式(1)所示。

      池化層(pooling layer)在CNN 中的主要作用是對(duì)上一層卷積層的特征進(jìn)行降維。它可以有效地減少計(jì)算量,特別是避免了過(guò)多特征所造成的溢出現(xiàn)象。最大池函數(shù)如式(2)所示,它將圖像大小下采樣為原尺寸的1/。

      在全連接層(full connection layer)中,實(shí)現(xiàn)了從特征到類(lèi)別的轉(zhuǎn)換,全連接層用于綜合前向提取的特征,將卷積層或池化層的局部信息與類(lèi)別判別相結(jié)合。由于其全連通特性,一般全連通層也具有最多的參數(shù)。從卷積層提取特征后,將網(wǎng)絡(luò)連接到全連接層,既可以提高網(wǎng)絡(luò)的特征提取能力,又可以限制網(wǎng)絡(luò)的規(guī)模。每個(gè)神經(jīng)元的輸出如式(3)所示:

      其中,為前一層神經(jīng)元數(shù)量;是第層與前層的連接強(qiáng)度;是偏置;(·)是激活函數(shù)。

      Dropout 層也是CNN 的常用結(jié)構(gòu),Dropout 是一種正則化技術(shù),用于減少過(guò)擬合,在每次訓(xùn)練時(shí),隨機(jī)減少單元之間的連接,在完整的網(wǎng)絡(luò)中隨機(jī)采樣一個(gè)網(wǎng)絡(luò),只更新采樣網(wǎng)絡(luò)的參數(shù),這樣可以提高網(wǎng)絡(luò)的泛化能力。

      采用反向傳播和隨機(jī)梯度下降法(stochastic gradient descent,SGD)對(duì)模型進(jìn)行優(yōu)化,用一小部分?jǐn)?shù)據(jù)就可以對(duì)參數(shù)進(jìn)行一次更新,這個(gè)數(shù)據(jù)遠(yuǎn)小于訓(xùn)練樣本,這有效地提高了訓(xùn)練速度,用于解決訓(xùn)練數(shù)據(jù)量過(guò)大的問(wèn)題。隨機(jī)梯度下降法的迭代更新過(guò)程如算法1 所示。

      SGD 訓(xùn)練迭代算法

      1.2 CSLBP 算法

      CSLBP 算法的主要思想:比較以中心像素點(diǎn)為中心對(duì)稱的鄰域值對(duì),對(duì)比兩者像素點(diǎn)灰度值之間的大小,當(dāng)差值大于等于0 時(shí),二進(jìn)制編碼為1,否則為0。并將二進(jìn)制值轉(zhuǎn)換為十進(jìn)制的CSLBP 值。CSLBP 僅產(chǎn)生/2 個(gè)二進(jìn)制模式,當(dāng)使用直方圖來(lái)描述局部紋理特征時(shí),CSLBP 的直方圖維數(shù)為2,低于局部二值模式(LBP)的直方圖維數(shù)2,極大地降低了特征維數(shù),節(jié)省了存儲(chǔ)空間。這種算子可以表達(dá)圖像局部紋理的空間結(jié)構(gòu),對(duì)光照變化具有一定的魯棒性,并且計(jì)算復(fù)雜度較低。CSLBP 算法的編碼規(guī)則定義如式(4)、式(5)所示。

      圖2 8 鄰域像素下CSLBP 計(jì)算實(shí)例Fig.2 Computing examples of CSLBP in 8 neighborhood pixels

      2 GL-DCNN 算法

      2.1 GL-DCNN 模型

      用兩個(gè)分支CNN 來(lái)提取人臉表情特征,一個(gè)分支處理全局特征,另一個(gè)提取局部特征。對(duì)于全局分支CNN 采用改進(jìn)的VGG19網(wǎng)絡(luò)模型,VGG19網(wǎng)絡(luò)模型在淺層CNN 的基礎(chǔ)上,增加幾個(gè)卷積層,由于加入卷積層比加入全連接層更有利于圖像分類(lèi),VGG19網(wǎng)絡(luò)模型比淺層卷積神經(jīng)網(wǎng)絡(luò)更容易克服面部表情多樣性和復(fù)雜性的不足,最終達(dá)到更好的分類(lèi)精度。VGG19 網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示。

      圖3 VGG19 網(wǎng)絡(luò)模型Fig.3 VGG19 network model

      VGG19 網(wǎng)絡(luò)模型采用的是3×3 卷積核、2×2 池化核,激活函數(shù)采用ReLU,如式(6)所示。

      網(wǎng)絡(luò)的輸入是一個(gè)灰度圖像,為64×64 像素。它包含5 個(gè)最大池化層,在每個(gè)最大池化操作之后添加一個(gè)Dropout層,Dropout率為0.25。

      VGGNet(visual geometry group net)由大型圖像數(shù)據(jù)庫(kù)ImageNet 訓(xùn)練而成,它有很強(qiáng)的學(xué)習(xí)深度特性的能力。為了減少訓(xùn)練時(shí)間,提高網(wǎng)絡(luò)訓(xùn)練的效率,采用遷移學(xué)習(xí)的方法,用經(jīng)過(guò)訓(xùn)練的VGG19 網(wǎng)絡(luò)作為本模型的預(yù)訓(xùn)練模型,對(duì)VGG19 網(wǎng)絡(luò)模型的結(jié)構(gòu)進(jìn)行優(yōu)化。由于人臉表情識(shí)別輸出6 種情緒,即6 個(gè)類(lèi)別,設(shè)置第一個(gè)全連接層為500,最后一個(gè)設(shè)置為6,這樣就減少了網(wǎng)絡(luò)參數(shù),降低了計(jì)算復(fù)雜度。

      為解決訓(xùn)練過(guò)程中神經(jīng)網(wǎng)絡(luò)參數(shù)多導(dǎo)致的過(guò)擬合問(wèn)題,在每個(gè)池化層及最后的全連接層還使用Dropout方法。Dropout多用于池化與全連接層后,參數(shù)常設(shè)置為0.5 左右,它的原理如圖4 所示。圖4 左邊為正常的全連接層,右邊為經(jīng)過(guò)使用Dropout 后的全連接層??梢钥闯?,Dropout 可以對(duì)全連接中的某些節(jié)點(diǎn)進(jìn)行選擇性失活,按照一定的概率讓一些隱藏的神經(jīng)元節(jié)點(diǎn)暫時(shí)失去作用,從而減少實(shí)際訓(xùn)練參數(shù),有效避免過(guò)擬合現(xiàn)象。

      圖4 Dropout原理圖Fig.4 Schematic diagram of Dropout

      對(duì)于局部特征分支的CNN,構(gòu)造一個(gè)淺層卷積神經(jīng)網(wǎng)絡(luò)來(lái)提取局部特征。首先,使用CSLBP 算法對(duì)輸入的圖像進(jìn)行一次特征提取,獲取圖像的局部紋理特征;其次,將其輸入淺層神經(jīng)網(wǎng)絡(luò),讓其自動(dòng)地從CSLBP 圖像中提取與表情相關(guān)的特征。淺層神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)如圖1 所示,具體的參數(shù)設(shè)計(jì)為:第一個(gè)卷積層使用64 個(gè)濾波器對(duì)輸入的人臉CSLBP 圖像進(jìn)行濾波,使用的是7×7 卷積核,輸出64 張64×64像素的圖像,之后是2×2 池化核操作對(duì)圖像進(jìn)行下采樣。第二個(gè)卷積層使用256 個(gè)3×3 卷積核來(lái)映射前一層,接著使用2×2 池化核操作。之后輸出到一個(gè)包含500 個(gè)神經(jīng)元的全連接層,全連接層使用Dropout操作來(lái)防止過(guò)擬合,設(shè)置Dropout=0.5。

      2.2 分支特征加權(quán)融合

      第一個(gè)分支經(jīng)過(guò)VGG19模型得到特征向量1,第二個(gè)分支經(jīng)過(guò)CSLBP 局部神經(jīng)網(wǎng)絡(luò)模型得到特征向量2 。對(duì)1 和2 采用兩個(gè)級(jí)聯(lián)的全連接層對(duì)其進(jìn)行降維,對(duì)1 和2,分別設(shè)其兩個(gè)級(jí)聯(lián)的節(jié)點(diǎn)個(gè)數(shù)為500 和6,如式(7)、式(8)所示。

      其中,1_1 與2_1 表示第一層全連接層,1_2 與2_2 表示第二層全連接層。

      降維后的加權(quán)融合網(wǎng)絡(luò)如圖5所示,其中CSLBP_CNN 表示CSLBP 局部神經(jīng)網(wǎng)絡(luò)模型。

      圖5 加權(quán)融合網(wǎng)絡(luò)Fig.5 Weighted fusion network

      降維之后,1_2 與2_2 采用加權(quán)融合方法構(gòu)造融合后的特征向量,v(=1,2,…,6)的構(gòu)造方法如式(9)所示。

      其中,為權(quán)值系數(shù),用來(lái)調(diào)節(jié)兩個(gè)分支的比重,用交叉驗(yàn)證法對(duì)進(jìn)行了實(shí)驗(yàn)計(jì)算,發(fā)現(xiàn)取0.7 時(shí)網(wǎng)絡(luò)表現(xiàn)較好。

      在融合特征向量的基礎(chǔ)上,采用維度為6 的softmax 分類(lèi)器對(duì)表情進(jìn)行分類(lèi)。在softmax 中,將分為類(lèi)的概率表達(dá)式如式(10)所示。

      其中,=1,2,…,。與的值都在(0,1)范圍內(nèi),對(duì)于給定輸入且=1,2,…,(=6),=的概率用矩陣形式表示如式(11)所示。

      其中,(=|)是在輸入為的情況下類(lèi)別為的概率。式(10)中的每一個(gè)元素都對(duì)應(yīng)于一個(gè)唯一的表達(dá)式類(lèi),是以元素值最大的類(lèi)為預(yù)測(cè)類(lèi)。因此,模型的損失函數(shù)可表示為式(12)。

      其中,Z表示真實(shí)標(biāo)簽,y表示softmax 函數(shù)的輸出。

      2.3 GL-DCNN 模型框架設(shè)計(jì)

      在改進(jìn)的VGG19 和淺層卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)基礎(chǔ)上提出GL-DCNN 算法,算法的總體框架如圖6 所示。

      圖6 GL-DCNN 模型Fig.6 GL-DCNN model

      圖6 中,人臉圖像經(jīng)過(guò)預(yù)處理后,獲得64×64 像素的人臉灰度圖,同時(shí)送入兩個(gè)分支,其中一個(gè)在送入卷積神經(jīng)網(wǎng)絡(luò)時(shí)會(huì)進(jìn)行CSLBP 處理提取局部紋理特征,VGG19 和淺層卷積神經(jīng)網(wǎng)絡(luò)部分參數(shù)如表1和表2 所示。

      表1 CNN 的網(wǎng)絡(luò)配置Table 1 Configuration of CNN

      表2 改進(jìn)的VGG19 網(wǎng)絡(luò)配置Table 2 Configuration of improved VGG19

      整體分支專(zhuān)注于從整個(gè)圖像中提取抽象表示,而局部分支專(zhuān)注于提取特定區(qū)域的紋理信息,這兩個(gè)分支的聚合不僅增加了特征提取的數(shù)量,而且提高了模型的表達(dá)能力。特征提取之后對(duì)雙分支人臉圖像的輸出進(jìn)行加權(quán)融合,最后對(duì)融合結(jié)果進(jìn)行softmax 分類(lèi),預(yù)測(cè)當(dāng)前的面部表情。

      3 實(shí)驗(yàn)結(jié)果與分析

      3.1 實(shí)驗(yàn)環(huán)境及數(shù)據(jù)預(yù)處理

      實(shí)驗(yàn)中使用的實(shí)驗(yàn)平臺(tái):CPU 主頻為3.7 GHz,內(nèi)存為32 GB,Nvidia Ge Force GTX 980Ti GPU,操作系統(tǒng)為Windows 10,64 位,編程語(yǔ)言為Matlab 和Python3.6,模型訓(xùn)練框架為T(mén)ensorflow,開(kāi)發(fā)工具為Matlab 2017R 和PyCharm。

      實(shí)驗(yàn)采用JAFFE 數(shù)據(jù)集和CK+數(shù)據(jù)集,用以評(píng)估算法的性能。實(shí)驗(yàn)之前,將圖像統(tǒng)一為64×64 像素大小,并將所有圖像進(jìn)行歸一化處理,利用CSLBP算法處理兩個(gè)數(shù)據(jù)庫(kù)中的人臉表情圖像。

      CK+數(shù)據(jù)集共包含123 個(gè)人的327 張有標(biāo)簽的表情圖像,包括Angry(生氣)、Disgust(厭惡)、Fear(恐懼)、Happy(高興)、Sad(悲傷)、Surprise(驚訝)和Contempt(輕蔑)。為了和JAFFE 數(shù)據(jù)集的表情對(duì)應(yīng),將輕蔑的表情去掉,剩309 張圖片。圖7 為CK+數(shù)據(jù)集上6 種表情的示例圖像。

      圖7 CK+數(shù)據(jù)集中6 種表情的示例圖像Fig.7 Sample images of 6 expressions in CK+dataset

      JAFFE 數(shù)據(jù)集包含10 名日本女性的213 幅圖像,每個(gè)人每種表情有3 至4 張,每個(gè)人有7 種表情,包含Angry(生氣)、Neutral(中性)、Disgust(厭惡)、Fear(恐懼)、Happy(高興)、Sad(悲傷)和Surprise(驚訝)。實(shí)驗(yàn)中只選取6 種表情的183 張圖片,圖8 展示了JAFFE 數(shù)據(jù)庫(kù)中的樣本。表3 是兩個(gè)數(shù)據(jù)庫(kù)中6 類(lèi)表情的數(shù)量分布。

      圖8 JAFFE 數(shù)據(jù)集中6 種表情的示例圖像Fig.8 Sample images of 6 expressions in JAFFE dataset

      表3 CK+與JAFFE 數(shù)據(jù)集的6 類(lèi)表情數(shù)量分布Table 3 Number distribution of 6 types of expressions in CK+and JAFFE datasets

      3.2 結(jié)果與分析

      對(duì)每個(gè)數(shù)據(jù)集,選擇憤怒、厭惡、恐懼、快樂(lè)、悲傷和驚訝這6類(lèi)基本表情作為分類(lèi)任務(wù)的目標(biāo)。CK+數(shù)據(jù)集中使用數(shù)據(jù)增強(qiáng)法將數(shù)據(jù)擴(kuò)充到原始圖像的5 倍進(jìn)行訓(xùn)練,JAFFE 數(shù)據(jù)集中數(shù)據(jù)擴(kuò)充10 倍進(jìn)行實(shí)驗(yàn),兩個(gè)數(shù)據(jù)集都采用十折交叉驗(yàn)證,每個(gè)批量設(shè)置為64,初始學(xué)習(xí)率設(shè)置為0.01。

      圖9 為CK+數(shù)據(jù)集在GL-DCNN 模型上實(shí)驗(yàn)的混淆矩陣,它的每一列代表了分類(lèi)器預(yù)測(cè)得到的類(lèi)別,每一行代表了數(shù)據(jù)的真實(shí)歸屬類(lèi)別。

      圖9 GL-DCNN 方法在CK+數(shù)據(jù)集上的混淆矩陣Fig.9 Confusion matrix of GL-DCNN method on CK+dataset

      由圖9 可看出,該方法對(duì)于Happy 表情最容易識(shí)別,識(shí)別率達(dá)到98%。從表3 可以看到,Happy 表情的樣本數(shù)量并不是最多的,說(shuō)明GL-DCNN 算法對(duì)紋理特征的學(xué)習(xí)是十分有效的,預(yù)測(cè)結(jié)果不會(huì)偏向于樣本數(shù)量多的數(shù)據(jù)。Surprise 表情的識(shí)別率達(dá)到97%,因?yàn)樗谋砬楦鋸垼卣鞲菀讓W(xué)習(xí),所以Surprise 表情的識(shí)別率也較高。Disgust與Sad 會(huì)被混淆,在識(shí)別中會(huì)導(dǎo)致錯(cuò)誤,可能是因?yàn)樗鼈兊谋砬橛邢嗨浦?,尤其是嘴的部分。?duì)于Fear 表情相對(duì)識(shí)別較弱,一是因?yàn)闃颖緮?shù)較少,可學(xué)到的特征相對(duì)較少,但是正確識(shí)別率也達(dá)到92%左右,說(shuō)明網(wǎng)絡(luò)中融入的局部特征分支是可以提高圖像的表達(dá)能力。對(duì)于一個(gè)不均勻分布的樣本集,GL-DCNN 的正確識(shí)別率在92%~98%之間,說(shuō)明GL-DCNN 能有效識(shí)別表情在外觀上的變化。

      圖10 為JAFFE 數(shù)據(jù)集在GL-DCNN 模型上實(shí)驗(yàn)的混淆矩陣。

      圖10 GL-DCNN 方法在JAFFE 數(shù)據(jù)集上的混淆矩陣Fig.10 Confusion matrix of GL-DCNN method on JAFFE dataset

      由圖10可看出,GL-DCNN識(shí)別Anger 表情和Happy 表情的效果最好,識(shí)別率都達(dá)到了96%,因?yàn)楦吲d或者生氣的表情特征較其他特征更為容易判斷;其次對(duì)Surprise 表情的識(shí)別率達(dá)到94%左右,有3%的數(shù)據(jù)被錯(cuò)誤預(yù)測(cè)為Happy,主要由于Happy 表情和Surprise 表情都有張大嘴的動(dòng)作,增加訓(xùn)練樣本數(shù)量可以提高識(shí)別率;對(duì)恐懼的識(shí)別明顯低于其他分類(lèi),但也能達(dá)到89%左右,其中有將近5%的樣本被錯(cuò)誤分為驚訝,可能兩種表情在幾個(gè)面部區(qū)域上動(dòng)作幅度相似。但是對(duì)于厭惡與悲傷這兩個(gè)表情的分類(lèi)容易互相干擾,經(jīng)常將厭惡分類(lèi)為悲傷或者悲傷分為厭惡,可能是訓(xùn)練時(shí)使用的樣本較少。對(duì)于一個(gè)均勻分布的樣本集,GL-DCNN 也有較好的表現(xiàn),識(shí)別率高達(dá)96%,說(shuō)明GL-DCNN 對(duì)整體特征和局部特征的學(xué)習(xí)是十分有效的。

      實(shí)驗(yàn)中對(duì)比的算法主要有人工提取特征的方法、CNN+LBP 算法、單模態(tài)CNN 模型、VGG16 模型、卷積神經(jīng)網(wǎng)絡(luò)融合SIFT 特征,實(shí)驗(yàn)結(jié)果如表4所示。

      表4 不同算法在CK+與JAFFE數(shù)據(jù)集上識(shí)別性能比較Table 4 Comparison of recognition performance of different algorithms on CK+and JAFFE datasets

      由表4 可以得出,首先GL-DCNN 方法從整體上是優(yōu)于其他算法的,尤其在JAFFE 數(shù)據(jù)集上,識(shí)別率高于其他方法3~6 個(gè)百分點(diǎn),GL-DCNN 與人工特征提取方法相比較,無(wú)論在結(jié)果上,還是時(shí)間復(fù)雜度上,都表現(xiàn)出較好性能。單模態(tài)CNN 方法只是單純地將人臉灰度圖像輸入神經(jīng)網(wǎng)絡(luò)中訓(xùn)練,相比簡(jiǎn)單CNN 模型與LBP 結(jié)合的人臉識(shí)別方法,GL-DCNN 既關(guān)注樣本的整體信息,也關(guān)注局部的紋理信息,因此會(huì)有更好的識(shí)別效果。VGG16 模型盡管在識(shí)別方面表現(xiàn)出了較好的性能,但是相比GL-DCNN 提出的方法識(shí)別率略低。這也說(shuō)明了自動(dòng)學(xué)習(xí)的深度特征能很好地用來(lái)識(shí)別和分類(lèi),再加上對(duì)于局部特征的補(bǔ)充,使得整體模型有了更好的識(shí)別率,由此可見(jiàn)對(duì)于局部學(xué)習(xí)的方法確實(shí)有利于提高分類(lèi)的效果。另外樣本是用數(shù)據(jù)增強(qiáng)法擴(kuò)充的,因此樣本中包含有旋轉(zhuǎn)變化的圖像,利用CSLBP 算法對(duì)旋轉(zhuǎn)不變具有魯棒性優(yōu)勢(shì),并和深度網(wǎng)絡(luò)結(jié)合,使得整體的識(shí)別效果有了提高,但是在時(shí)間復(fù)雜度上略顯不足。

      表5 給出用CPU 和GPU 遍歷一個(gè)訓(xùn)練樣本集所需時(shí)間和識(shí)別率的對(duì)比。從表5 可以看出,在識(shí)別率差不多的情況下,訓(xùn)練時(shí)間上,GPU 所用時(shí)間遠(yuǎn)少于CPU,主要因?yàn)镚PU 可以并行處理數(shù)據(jù)。

      表5 使用CPU 和GPU 的訓(xùn)練時(shí)間和識(shí)別率比較Table 5 Comparison of training time and recognition rate using CPU and GPU

      4 結(jié)束語(yǔ)

      本文針對(duì)傳統(tǒng)CNN 存在僅從整個(gè)圖像中提取特征而忽略了有效的局部細(xì)節(jié)信息的問(wèn)題,提出了一種融合全局與局部特征的深度卷積神經(jīng)網(wǎng)絡(luò)算法。采用了兩個(gè)網(wǎng)絡(luò)模型分別提取全局與局部信息進(jìn)行特征融合:一方面,基于遷移學(xué)習(xí)的方法,使用已訓(xùn)練好的VGG19 模型進(jìn)行全局特征提取,降低了網(wǎng)絡(luò)的訓(xùn)練時(shí)間;另一方面,在訓(xùn)練階段引入CSLBP 局部學(xué)習(xí)方法,增加了網(wǎng)絡(luò)處理特征時(shí)的多樣性,實(shí)現(xiàn)了特征互補(bǔ),使整體模型在分類(lèi)時(shí)表現(xiàn)出明顯優(yōu)勢(shì)。實(shí)驗(yàn)中使用的是CK+、JAFFE 數(shù)據(jù)集,圖片數(shù)量相對(duì)不足,而且不同類(lèi)別的樣本數(shù)目也存在差距,卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練依賴大量的數(shù)據(jù),如果數(shù)據(jù)太少,容易產(chǎn)生過(guò)擬合問(wèn)題。進(jìn)一步工作將研究應(yīng)用在較小樣本上的網(wǎng)絡(luò)模型。

      猜你喜歡
      識(shí)別率卷積局部
      局部分解 巧妙求值
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      非局部AB-NLS方程的雙線性B?cklund和Darboux變換與非線性波
      基于類(lèi)圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測(cè)
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于真耳分析的助聽(tīng)器配戴者言語(yǔ)可懂度指數(shù)與言語(yǔ)識(shí)別率的關(guān)系
      提升高速公路MTC二次抓拍車(chē)牌識(shí)別率方案研究
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      局部遮光器
      吳觀真漆畫(huà)作品選
      农安县| 海淀区| 紫金县| 崇文区| 九龙城区| 绥滨县| 青州市| 确山县| 宁津县| 郓城县| 涟水县| 莫力| 揭西县| 黄冈市| 涟水县| 凤冈县| 丰台区| 乌拉特中旗| 长泰县| 天门市| 阿拉善盟| 外汇| 高要市| 仲巴县| 荃湾区| 涪陵区| 华宁县| 桦甸市| 伊川县| 驻马店市| 河北省| 临猗县| 东莞市| 格尔木市| 栾川县| 南部县| 伽师县| 诏安县| 吴旗县| 涿州市| 察雅县|