• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于深度學習模型的圖像識別應(yīng)用研究

      2020-12-16 09:11:26張寶燕
      山西電子技術(shù) 2020年6期
      關(guān)鍵詞:圖像識別卷積神經(jīng)網(wǎng)絡(luò)

      張寶燕

      (晉中學院,山西 晉中 030600)

      0 引言

      如今,圖像識別由于其廣泛的應(yīng)用而成為一個重要的研究領(lǐng)域。對于手寫分類等圖像識別問題,特征提取的好壞對提取結(jié)果至關(guān)重要。針對手寫體字符識別問題,Huang等人[1]從筆畫中提取出字符的結(jié)構(gòu)特征,并將其用于手寫體字符的識別。Rui等人[2]采用形態(tài)學方法改進字符的局部特征,然后利用PCA提取字符的特征。這些方法都需要手動從圖像中提取特征。模型的預測能力對建模者的先驗知識有很強的依賴性。在計算機視覺領(lǐng)域,由于特征向量的高維性,手工特征提取非常繁瑣和不切實際[3]。

      近年來,大多數(shù)分類和回歸機器學習方法都是淺層學習算法。復雜函數(shù)難以有效地表示,對于復雜的分類問題,其泛化能力有限[4,5]。

      為了克服淺層表示和人工提取特征的問題,Hinton等人在2006年提出了深度學習[6]。深度學習的本質(zhì)是通過建立多層模型并用大量的數(shù)據(jù)對其進行訓練來實現(xiàn)自我學習。深度學習方法是一種具有多層表示的表示學習方法,通過組合簡單但非線性的模塊,每個模塊將一個級別的表示轉(zhuǎn)換為更高、更抽象的表示。有了足夠多的這樣的變換組合,就可以學習非常復雜的函數(shù)[7]。

      1 卷積神經(jīng)網(wǎng)絡(luò)

      1.1 卷積神經(jīng)網(wǎng)絡(luò)模型介紹

      圖1是一個簡單的卷積神經(jīng)網(wǎng)絡(luò)模型。第一層是輸入層,輸入的圖像直接輸入到輸入層。第二層是BN層,它主要是對卷積層提取到的特征進行歸一化處理。可以改善流經(jīng)網(wǎng)絡(luò)的梯度,允許更大的學習率以及大幅提高模型的訓練速度。第三層是池化層,它計算輸入要素圖的局部平均值或最大值,主要作用是進行特征降維,壓縮數(shù)據(jù)和參數(shù)的數(shù)量,減小過擬合,同時提高模型的容錯性。接下來的卷積層,BN層和池化層以相同的方式運行。最后輸出層是全連接層,輸出神經(jīng)元的最大值是最終分類器的結(jié)果。

      圖1 卷積神經(jīng)網(wǎng)絡(luò)模型

      1.2 卷積神經(jīng)網(wǎng)絡(luò)理論

      卷積層使用卷積核對輸入信號的局部區(qū)域執(zhí)行卷積運算,從而產(chǎn)生相應(yīng)的特性。權(quán)重共享是卷積層的最重要特征,這意味著當每個卷積窗口遍歷整個圖像時,卷積窗口的參數(shù)是固定的。這樣可以避免因參數(shù)爆炸而導致的過擬合現(xiàn)象,并減少系統(tǒng)訓練網(wǎng)絡(luò)所需的內(nèi)存。以第一層為例。如前所述,要素圖中的所有單位共享相同的權(quán)重集和相同的偏差,因此它們在輸入的所有可能位置上都保留相同的要素。卷積過程描述為:

      (1)

      批量歸一化(BN)層旨在減少內(nèi)部協(xié)方差的偏移,加快深度神經(jīng)網(wǎng)絡(luò)的訓練過程,提高網(wǎng)絡(luò)訓練效率并增強網(wǎng)絡(luò)泛化能力。轉(zhuǎn)換過程描述為:

      (2)

      式中,γl(i)和βl(i)分別是BN層的標度和偏移量,zl(i,j)是BN層的輸出,ε是保證數(shù)值不為零的常數(shù)項。

      在CNN體系結(jié)構(gòu)中,通常在批處理規(guī)范化層之后添加池化層。神經(jīng)網(wǎng)絡(luò)操作的主要目的是降低采集層的參數(shù),本文選擇的最大池化層轉(zhuǎn)換描述為:

      (3)

      通過反向傳播算法和隨機梯度下降算法訓練搭建的卷積神經(jīng)網(wǎng)絡(luò)。我們假設(shè)訓練樣本總數(shù)為N,則CNN的損失函數(shù)可以表示為:

      (4)

      損失函數(shù)相對于卷積核系數(shù)和偏差的梯度為:

      (5)

      (6)

      2 實驗驗證

      2.1 實驗數(shù)據(jù)

      我們選擇MNIST手寫數(shù)字數(shù)據(jù)庫來比較深度學習的性能。MNIST數(shù)據(jù)集來自美國國家標準與技術(shù)研究所,整個數(shù)據(jù)集由來自250個不同人手寫的數(shù)字構(gòu)成,其中50%是高中學生,50%來自人口普查局的工作人員,這說明了數(shù)據(jù)很分散,可以充分驗證模型的識別能力。MNIST包含60 000個訓練樣本和10 000個測試樣本,圖像大小為28×28。一些來自MNIST手寫數(shù)據(jù)庫的真實樣本集如圖2所示。

      圖2 MNIST數(shù)據(jù)庫部分真實樣本

      2.2 實驗結(jié)果對比

      首先為了驗證不同卷積核個數(shù)對卷積神經(jīng)網(wǎng)絡(luò)識別精度的影響,以及為了觀察卷積內(nèi)核的數(shù)量如何影響整體性能,我們選擇了三種不同的卷積神經(jīng)網(wǎng)絡(luò):784-4-12,784-8-24,784-16-48。其中784是輸入數(shù)據(jù)的維數(shù)。中間的兩個數(shù)字分別為第一個卷積層和第二個卷積層的內(nèi)核數(shù)。三個不同卷積神經(jīng)網(wǎng)絡(luò)的識別精度如表1所示,當預測值與地面真實性之間的均方誤差小于0.001時,我們假設(shè)網(wǎng)絡(luò)達到收斂。從表1中我們可以看出,MNIST數(shù)據(jù)庫上三個CNN的準確率非常的高,均達到了九十五以上。取得上述結(jié)果的原因是MNIST數(shù)據(jù)庫中包含有大量的訓練樣本,足夠卷積神經(jīng)網(wǎng)絡(luò)提取到充分的關(guān)鍵特征。

      表1 不同卷積核數(shù)量的卷積神經(jīng)網(wǎng)絡(luò)結(jié)果對比

      由表1的對比結(jié)果可知,當內(nèi)核數(shù)從4、12增加到8、24再增加到16、48時,基于MNIST數(shù)據(jù)集的準確率不斷增加,從最初的97.31%增加到97.48%,最后增加到97.71%。上述的對比結(jié)果表明,如果訓練樣本的數(shù)量能夠完全滿足學習方法的要求,則隨著核數(shù)的增加,從CNN提取的特征數(shù)量將增加,并且CNN的識別性能會越來越好。

      為了充分驗證卷積神經(jīng)網(wǎng)絡(luò)的識別效果,本文選擇利用人工神經(jīng)網(wǎng)絡(luò)以及深度置信網(wǎng)絡(luò)進行對比,其中人工神經(jīng)網(wǎng)絡(luò)為淺層神經(jīng)網(wǎng)絡(luò),深度置信網(wǎng)絡(luò)為深度學習網(wǎng)絡(luò),可以充分驗證所搭建卷積神經(jīng)網(wǎng)絡(luò)的圖像識別能力。其中,在該組實驗中,卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)為784-16-48,學習率為0.01,人工神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)為784-100-10,學習率為0.05,深度置信網(wǎng)絡(luò)的結(jié)構(gòu)為784-150-100-10,學習率為0.1。實驗結(jié)果對比如表2所示。圖3展示了所有網(wǎng)絡(luò)的錯誤率隨著迭代次數(shù)的變換情況。

      圖3 網(wǎng)絡(luò)的錯誤率隨著迭代次數(shù)的變化結(jié)果

      表2 所有模型的識別對比結(jié)果

      實驗結(jié)果表明,與淺層人工神經(jīng)網(wǎng)絡(luò)相比,CNN和DBN在MNIST數(shù)據(jù)庫都具有較高的準確率。此外,深度學習可以主動學習數(shù)據(jù)的固有特征,而不是手動提取特征。但是,深度學習在實際應(yīng)用中的成功取決于標記的數(shù)據(jù)。比較表2中的實驗結(jié)果,我們可以了解DBN和CNN之間的主要區(qū)別:DBN屬于無監(jiān)督學習方法,是一種生成深度模型;而CNN屬于監(jiān)督學習方法,是一種歧視深度模型。DBN通常適用于一維數(shù)據(jù)建模,如語音;,而CNN更適用于二維數(shù)據(jù)建模,如圖像。CNN本質(zhì)上是輸入和輸出的映射。它可以學習很多映射關(guān)系,不需要任何精確的數(shù)學表達式,而DBN則需要建立可見和隱藏單元之間的聯(lián)合概率分布,以及可見和隱藏單元的邊際概率分布。從實驗結(jié)果可知,在圖像識別方面,CNN擁有著得天獨厚的優(yōu)勢。

      2.3 結(jié)果可視化

      為了直觀地理解所提出的卷積神經(jīng)網(wǎng)絡(luò)的特征學習過程,利用t分布隨機鄰居嵌入(t-SNE)對不同迭代步數(shù)階段學習到的深度特征進行網(wǎng)絡(luò)可視化。本文總共選取了最初狀態(tài)、迭代十次、迭代五十次以及最終迭代得到的深度特征,如圖4所示。

      圖4 可視化結(jié)果

      從圖4可知,原始數(shù)據(jù)的十種類別隨機的混合在一起,很難清晰地將其分開。當?shù)沃?,比最初的原始?shù)據(jù)辨識度稍微好些,但仍然很難直接將其分開。隨著迭代的繼續(xù)進行,當達到五十次后,十種類別的辨識度更高了,基本可以分開,當達到最終迭代效果后,所有類別都可以完全清晰地分開。這體現(xiàn)了卷積神經(jīng)網(wǎng)絡(luò)隨著迭代的不斷進行,學習到的特征也越來越有代表性。

      3 結(jié)論

      本文將深度學習應(yīng)用于實詞手寫字符識別,獲得了良好的圖像識別性能。通過比較實驗結(jié)果,分析了卷積神經(jīng)網(wǎng)絡(luò)的特征提取過程。深度學習可以通過深度非線性網(wǎng)絡(luò)模型來近似復雜函數(shù)。它不僅避免了手動提取特征的繁重工作,而且更好地描述了數(shù)據(jù)的潛在信息。未來我們將進一步研究深度學習的優(yōu)化,并將其應(yīng)用于更復雜的圖像識別問題。

      猜你喜歡
      圖像識別卷積神經(jīng)網(wǎng)絡(luò)
      基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
      神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
      電子制作(2019年19期)2019-11-23 08:42:00
      基于Resnet-50的貓狗圖像識別
      電子制作(2019年16期)2019-09-27 09:34:50
      高速公路圖像識別技術(shù)應(yīng)用探討
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      圖像識別在物聯(lián)網(wǎng)上的應(yīng)用
      電子制作(2018年19期)2018-11-14 02:37:04
      圖像識別在水質(zhì)檢測中的應(yīng)用
      電子制作(2018年14期)2018-08-21 01:38:16
      基于傅里葉域卷積表示的目標跟蹤算法
      基于神經(jīng)網(wǎng)絡(luò)的拉矯機控制模型建立
      重型機械(2016年1期)2016-03-01 03:42:04
      復數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
      青铜峡市| 云和县| 梅州市| 平利县| 萝北县| 东辽县| 临漳县| 普兰店市| 长汀县| 来宾市| 大荔县| 温宿县| 岳阳县| 城口县| 昌都县| 巩义市| 济源市| 鄄城县| 宁阳县| 淄博市| 盱眙县| 平定县| 屏东市| 平安县| 阿拉尔市| 吉木萨尔县| 视频| 日喀则市| 边坝县| 安图县| 二连浩特市| 永福县| 汝城县| 南涧| 安平县| 嵊州市| 响水县| 五寨县| 遂平县| 鄯善县| 潞西市|