• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于多尺度主線方向特征的DBN分類方法

      2015-10-20 09:13:46強,李
      電視技術 2015年15期
      關鍵詞:訓練樣本主線識別率

      高 強,李 倩

      (華北電力大學電氣與電子工程學院,河北保定071003)

      圖像分類是根據(jù)圖像具有的某種屬性將其劃分到預先設定的不同類別中[1]。如何能提高圖像分類的準確性,最核心的問題是對圖像的有效表達。因此,特征的構建和提取一直受到廣泛關注。近些年來常用的特征提取方法有SIFT[2]、HOG、LBP[3]、Gabor[4]等,但不能反映圖像最本質(zhì)的特征。深度學習能通過無監(jiān)督的方式讓機器自動地從樣本中提取到表征這些樣本的低層、高層特征,從而使學習到的特征更具有推廣性和表達力。

      深度信念網(wǎng)絡(Deep Belief Network,DBN)作為深度學習的一種模型。自從Hinton等人[5]提出基于DBN的貪婪逐層訓練算法之后,DBN作為一種無監(jiān)督特征學習復雜層次概率模型的方法,已成功應用于語音識別[6]、手寫字體識別[7]、人臉識別[8]、遙感圖像分類[9]和垃圾郵件過濾[10]等領域中。然而,進一步提升DBN模型的分類性能,提高算法的正確識別率仍是需要解決的根本問題。提升性能最簡單和直接的方法就是通過增加DBN網(wǎng)絡的隱含層數(shù)或每個隱含層神經(jīng)元數(shù)來實現(xiàn)。但文獻[11-12]研究發(fā)現(xiàn)當DBN中的隱含層數(shù)和神經(jīng)元數(shù)目達到一定峰值后,再增加數(shù)目并不會提升識別性能,反而導致整個 DBN網(wǎng)絡訓練時間過長。文獻[13]從DBN網(wǎng)絡結構著手,提出一種由DBN串聯(lián)而成的層次結構深度信念網(wǎng)絡方法,進而提升DBN的性能。文獻[14]通過把卷積神經(jīng)網(wǎng)絡的局部感受野引入到DBN的單層中,把DBN的單層分成多個子RBM,提出一種改進的深度信念網(wǎng)絡,用于有效提高識別率。文獻[15]提出了基于Gabor小波和RBM的二次特征提取,來獲取具有更好分類性質(zhì)的特征。文獻[16]通過將瓶頸結構與DBN結合實現(xiàn)了有效提高語音識別率的目的。

      因此,DBN的性能仍有進一步提升的空間。鑒于DBN的可視層輸入是將一個圖像矩陣一維向量化,輸入信息僅包含幅度信息,沒有充分考慮到圖像的二維結構信息。本文通過在DBN可視層輸入端加入多尺度主線方向(Multi-Scale Main Direction,MSMD)信息的方法(簡稱 MSMD-DBN),增加有效信息的維度,進而提升DBN的性能。實驗結果表明,該算法可以有效提高圖像分類的正確識別率。

      1 深度信念網(wǎng)絡

      DBN是一種概率生成模型,由多層受限玻爾茲曼機(Restricted Boltzmann Machine,RBM)單元組成。DBN的結構如圖1所示。

      圖1 DBN的結構圖

      1.1 受限玻爾茲曼機

      一個典型的RBM子模塊結構圖是由可視層和隱含層兩層神經(jīng)元構成的,每層有若干個節(jié)點,層內(nèi)節(jié)點無連接,不同層之間的節(jié)點依靠權值系數(shù)矩陣來連接。各層之間的權重值是采用無監(jiān)督的貪心算法獲取的。

      RBM是一種能量模型,其可視層和隱含層的聯(lián)合組態(tài)能量表示為

      式中:θ=(W,a,b),為 RBM 模型中的3個參數(shù);wij是可視層節(jié)點i與隱含層節(jié)點j之間的連接權重值;ai和bj分別是可視層第i個節(jié)點、隱含層第j個節(jié)點的偏置值;vi和hj分別是可視層第i個節(jié)點、隱含層第j個節(jié)點的狀態(tài)值。對應于可視層神經(jīng)元和隱含層神經(jīng)元的相應映射概率分布為

      式中:σ是Sigmoid函數(shù)。RBM采用迭代的方式進行訓練,訓練的目標在于學習出參數(shù)θ=(W,a,b)的值,以擬合給定的訓練數(shù)據(jù)。參數(shù)θ可以通過最大化對數(shù)似然函數(shù)得到,最大化似然函數(shù)常用的數(shù)值方法是梯度上升。參數(shù)θ=(W,a,b)的迭代公式為

      式中:η為預訓練的學習率,L為目標函數(shù)。采用Hinton提出的對比散度(CD)算法對重構數(shù)據(jù)進行近似擬采樣,可得各參數(shù)的更新規(guī)則為

      式中:〈·〉data為訓練樣本集所定義的分布之上的數(shù)學期望;〈·〉recon為重構后的模型所定義的分布上的期望。

      1.2 DBN算法的訓練學習過程

      通過式(5)~式(7)這樣一個非監(jiān)督的預訓練過程就可以將一個RBM調(diào)整到合適的初始值,然后再將多個RBM自底向上組合建立DBN模型,最后通過使交叉熵最小,采用BP算法對整個網(wǎng)絡進行監(jiān)督式學習,最終建立DBN。

      具體過程歸納為兩步:

      1)無監(jiān)督預訓練。DBN模型采用無標簽的數(shù)據(jù),以重構誤差為目標函數(shù),基于CD-k的快速學習算法逐層地訓練每個RBM來獲得可視層和隱含層的偏置值,以及可視層和隱層間的權值。

      2)有監(jiān)督微調(diào)。DBN模型采用帶標簽的數(shù)據(jù),以交叉熵為目標函數(shù),利用共軛梯度算法訓練分類器,并實現(xiàn)整個DBN網(wǎng)絡參數(shù)的優(yōu)化調(diào)整。

      2 MSMD-DBN算法

      DBN的輸入端是將圖像二維矩陣轉化成一維向量輸入到可視層中,然后通過逐層的學習訓練提取特征。提取特征的精細程度直接影響后續(xù)圖像分類識別的性能,甚至決定成敗。本文正是從特征提取角度著手,在保證原有信息不丟失的情況下,通過增加多尺度主線方向(MSMD)特征的方法,增加有用信息的維度,有效補償DBN模型自身的缺點,提升DBN性能。簡稱這種算法為MSMD-DBN。

      2.1 多尺度主線方向信息的特征提取

      為了能提升DBN的性能,提高分類器的分類精度。提取特征的有效性非常關鍵。當用所有的特征進行分類訓練時,會取得一個較高的錯誤識別率;而僅使用關鍵特征變量,則得到的分類器性能較好[17]。本文的核心思想是在原有DBN輸入信息的基礎上,提取主線方向信息中的關鍵特征,即主線方向特征。并通過選擇不同的尺度,獲取更多的局部信息和全局信息。具體步驟如下:

      1)計算圖像的方向投影值。假設樣本圖像的大小是m×m,選取圖像左上角的區(qū)域塊,大小為d×d(d為奇數(shù)),以1個像素為步長,向右或向下平移,得到(m-d+1)×(m-d+1)個區(qū)域塊。再對區(qū)域塊的像素值進行歸一化處理。

      以一個尺度為d的區(qū)域塊為例,將經(jīng)過區(qū)域塊中心點的垂直方向的直線作為基準,以π/dr的角度為間隔,逆時針旋轉得到dr條直線,則每條直線與正方向的夾角分別為π/dr,2π/dr,…,(dr-1)π/dr,π。計算每一條直線所經(jīng)過的區(qū)域塊的像素值,并將這d個像素值累加求和作為該區(qū)域塊在某個方向上的投影值Rθ。

      改變角度θ就可以得到該區(qū)域塊在dr個方向上的投影值。向右或向下移動區(qū)域塊,就可以得到(m-d+1)×(md+1)個區(qū)域塊在dr個方向上的投影值。

      2)根據(jù)不同方向上的投影值,計算線方向圖和能量圖。

      將步驟1)中得到的dr個投影值放在一個1行dr列的矩陣里,矩陣記為R1×n;選取矩陣R中的最小值,將該最小值記為r,并記錄對應的列號(n)。線方向圖和能量圖的計算規(guī)則如下

      式中:D為線方向圖;E為能量圖;dr為選取方向的個數(shù);x和y分別是尺度為d的某個區(qū)域塊的中心點在原圖像中對應的橫、縱坐標。

      移動區(qū)域塊,利用式(8)~式(9)就可以計算出不同位置點(x,y)對應的線方向值 D(x,y)和能量值 E(x,y),進而得到整個線方向圖D和能量圖E。

      3)計算能量圖E的二值圖Eb。將能量圖中的所有能量值按從大到小排序,并選取某個合適的能量值作為門限值M,對能量圖進行二值化,規(guī)則如下

      4)計算能量二值圖Eb的方向分離圖EAb和EBb,規(guī)則如下

      5)以3×3區(qū)域為最小單位,刪除EAb,EBb中連通區(qū)域的面積(Si,i=1,2,…,n)小于 P 的線條,將去掉雜線后的方向分離圖(LA,LB)合并為主線能量圖。即

      同理,計算得到LB

      式中:PL為主線能量圖。

      6)簡化步驟2)中的線方向圖D,提取主線方向信息:提取主線方向信息,即記錄主線能量圖PL像素值為1的位置,并保留線方向圖D的此位置,其余位置置于0。即

      式中:Ld(x,y)為主線方向特征圖。

      采用以上步驟得到的多尺度主線方向信息,與傳統(tǒng)DBN方法中輸入的灰度信息,兩兩獨立,互不相關,因此,能最大程度地反映原始訓練樣本圖像所包含的信息[18]。

      2.2 MSMD-DBN算法及模型

      增加DBN可視層輸入端信息的維度有助于提高圖像分類的正確識別率。借助此思想把第2.1節(jié)提出的多尺度主線方向特征提取的方法與DBN模型結合,得到基于多尺度主線方向信息的DBN二次訓練模型,即MSMD-DBN模型。其基本模型結構如圖2所示。

      圖2 MSMD-DBN算法模型圖

      根據(jù)圖2的模型結構,該算法的訓練學習過程如下:

      1)根據(jù)第2.1節(jié)的多尺度主線方向信息特征提取方法,獲得訓練樣本集的多尺度主線方向信息;

      2)將訓練樣本圖像特征與1)中得到的多尺度主線方向特征作為可視層的輸入來訓練第一個RBM,每個RBM的輸出作為下一個RBM的輸入數(shù)據(jù),用來訓練RBM,類似這樣,利用無監(jiān)督預訓練算法逐層訓練獲得網(wǎng)絡參數(shù)值;

      3)當逐層學習完成一組堆疊的RBM后,即將參數(shù)調(diào)整到一個比較合適的初始值后,再利用有監(jiān)督微調(diào)方法對整個網(wǎng)絡進行優(yōu)化。

      該算法在保證原有輸入信息的前提下,通過添加多尺度主線方向信息的方法,增加輸入端信息的維度,提升DBN的性能,使RBM更好地擬合數(shù)據(jù),提取到更本質(zhì)的特征,進而提高圖像分類的有效正確識別率。

      3 基于MSMD-DBN算法的分類實驗

      為了驗證本文提出的MSMD-DBN算法模型識別性能的有效性,實驗選用CIFAR-10和MNIST數(shù)據(jù)庫來進行測試,并與傳統(tǒng)DBN算法以及文獻[15]提出的Gabor小波與RBM二次特征提取方法進行對比。

      3.1 CIFAR-10數(shù)據(jù)庫上的實驗

      實驗以CIFAR-10數(shù)據(jù)庫為例,選取飛機、汽車和鳥三類圖像,每類包括6 000幅,分辨率為32×32。從每類中隨機抽取5 000幅圖像作為訓練樣本集,另外1 000幅組成測試樣本集。該實驗中,主線方向信息特征提取方法中采用3×3和9×9這2個尺度空間,12個方向,門限值M=280,DBN的結構設置為:4028-300-300-800,RBM無監(jiān)督預訓練和DBN有監(jiān)督微調(diào)中的迭代次數(shù)都設置為50次。

      實驗中用到的部分訓練樣本集和用3×3尺度空間提取到的對應的主線方向特征圖分別如圖3和圖4所示。

      圖3 部分訓練樣本集

      圖4 圖3對應的主線方向特征圖

      為了驗證本文算法的有效性,本實驗采用3種算法在CIFAR-10數(shù)據(jù)庫上進行測試,性能指標包括訓練樣本正確識別率和測試樣本正確識別率。其中,文獻[15]的算法采用4個方向的Gabor濾波器組。

      實驗1以飛機和鳥為實驗對象進行分類,實驗2以飛機、汽車以及鳥這3類圖像為實驗對象進行分類,3種算法的實驗結果比較分別如表1、表2所示。

      表1 實驗1的分類性能比較

      表2 實驗2的分類性能比較

      由表1和表2可知,相比于傳統(tǒng)DBN算法,本文算法正確識別率有明顯的提高,提高了11%左右;相比文獻[15]也有一定的提高。這是因為本文的MSMD-DBN算法在輸入端添加了更多的有效局部、全局主線方向信息,增加了輸入信息的維度,使得提取到的特征更具有代表性。

      為了進一步綜合評價該算法,表3給出了不同算法在實驗1中的耗時對比。

      下面例子左邊是某賣家客戶信息(姓名、年齡),要求運行后輸出用戶顯示信息的C#代碼段。右邊圖引入面向?qū)ο蠓诸惥幊谈鞣N模塊類組成字段及方法函數(shù)的圖解描述(代碼模塊化)。見圖4。

      表3 算法耗時比較

      從運行結果可以看出,本文算法由于增加了信息的維度,相對于傳統(tǒng)DBN算法,耗時較長,但相比于文獻[15]的算法運行效率明顯提高。綜合考慮分類性能和耗時,本文算法相比于其他算法,既能保證一定的運行效率,又能提高識別性能。

      3.2 MNIST數(shù)據(jù)庫上的實驗

      實驗以MNIST手寫字體數(shù)據(jù)庫為例,選取數(shù)字0,3和8等3類圖像進行分類測試。從數(shù)字0中隨機選取5 900幅圖像作為訓練樣本集,900幅圖像作為測試樣本集;從數(shù)字3中隨機選取6 100幅圖像作為訓練樣本集,1 000幅圖像作為測試樣本集;從數(shù)字8中隨機選取5 800幅圖像作為訓練樣本集,900幅圖像作為測試樣本集。所有樣本圖像的分辨率為28×28。

      該實驗中,主線方向信息特征提取方法中采用3×3的尺度空間,12個方向,門限值 M=190,DBN的結構設置為:1568-500-300-800,RBM無監(jiān)督預訓練和DBN有監(jiān)督微調(diào)中的迭代次數(shù)都設置為30次。

      實驗中用到的部分訓練樣本集和提取到的對應的主線方向特征圖分別如圖5和圖6所示。

      圖5 部分訓練樣本集

      圖6 圖5對應的主線方向特征圖

      圖7 重構誤差曲線

      為了進一步比較和數(shù)據(jù)分析,本實驗采用3種算法對MNIST數(shù)據(jù)庫中的數(shù)字0,3,8進行分類測試,文獻[15]的算法同樣采用4個方向的Gabor濾波器組。實驗結果比較如表4所示。

      表4 3種算法的分類性能比較

      從表4的運行結果可以看出,本文算法相比傳統(tǒng)DBN算法,正確識別率有一定的提高,而文獻[15]的算法對手寫字體分類性能不能起到改善作用。

      4 小結

      本文提出了一種基于多尺度主線方向特征的深度信念網(wǎng)絡圖像分類算法(MSMD-DBN)。在DBN可視層輸入端加入主線方向信息,增加有用信息的維度,可有效補償DBN模型自身無空間結構信息的缺點,進而提升DBN的性能,提高圖像分類的正確識別率。在CIFAR-10和MNIST兩個數(shù)據(jù)庫上的實驗也同樣驗證了MSMD-DBN算法的有效性。如何選擇合適的門限值,并從理論上研究確定門限值的準則,進一步提取到更具有代表性的主線方向特征,將是下一步的研究重點。

      [1]亓曉振,王慶.一種基于稀疏編碼的多核學習圖像分類方法[J].電子學報,2012,40(4):773-779.

      [2]黨建武,宗巖,王陽萍.基于SIFT特征檢測的圖像拼接優(yōu)化算法研究[J].計算機應用研究,2012,29(1):329-332.

      [3]袁寶華,王歡,任明武.基于完整LBP特征的人臉識別[J].計算機應用研究,2012,29(4):1557-1559.

      [4]張剛,馬宗民.一種采用Gabor小波的紋理特征提取方法[J].中國圖象圖形學報,2010,15(2):247-254.

      [5] HINTON G E,OSINDERO S,TEH Y W.A fast learning algorithm for deep belief nets[J].Neural Computation,2006,18(7):1527-1554.

      [6]陳碩.深度學習神經(jīng)網(wǎng)絡在語音識別中的應用研究[D].廣州:華南理工大學,2013.

      [7] JI Nannan,ZHANG Jiangshe,ZHANG Chunxia.A sparse-response deep belief network based on rate distortion theory[J].Pattern Recognition,2014,47(9):3179-3191.

      [8] LIN Miaozhen,XIN Fan.Low resolution face recognition with pose variations using deep belief networks[C]//Proc.2011 4th International Congress on Image and Signal Processing.Shanghai:CISP,2011:1522-1526.

      [9]呂啟,竇勇,牛新,等.基于DBN模型的遙感圖像分類[J].計算機研究與發(fā)展,2014,51(9):1911-1918.

      [10]孫勁光,蔣金葉,孟祥福,等.深度置信網(wǎng)絡在垃圾郵件過濾中的應用[J].計算機應用,2014,34(4):1122-1125.

      [11] MOHAMED A,DAHL G E,HINTON G.Acoustic modeling using deep belief networks[J].IEEE Trans.Audio,Speech and Language Processing,2012,20(1):14-22.

      [12] DAHL G E,DONG Y,LI D,et al.Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition[J].IEEE Trans.Audio,Speech and Language Processing,2012,20(1):30-42.

      [13]王一,楊俊安,劉輝,等.一種基于層次結構深度信念網(wǎng)絡的音素識別方法[J].應用科學學報,2014,32(5):515-522.

      [14]呂剛,郝平,盛建榮.一種改進的深度神經(jīng)網(wǎng)絡在小圖像分類中的應用研究[J].計算機應用與軟件,2014,31(4):182-184.

      [15]柴瑞敏,曹振基.基于Gabor小波與深度信念網(wǎng)絡的人臉識別方法[J].計算機應用,2014,34(9):2590-2594.

      [16]李晉徽,楊俊安,王一.一種新的基于瓶頸深度信念網(wǎng)絡的特征提取方法及其在語種識別中的應用[J].計算機科學,2014,41(3):263-266.

      [17]毋媛媛,刁智華,王會丹,等.作物病害圖像形狀特征提取研究[J].農(nóng)機化研究,2015,37(1):64-67.

      [18]方晨,楊葉,伍書劍.主成分分析和聚類分析在軟件重構中的應用[J].計算機工程與設計,2009,30(2):366-367.

      猜你喜歡
      訓練樣本主線識別率
      基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測
      計算機工程(2020年3期)2020-03-19 12:24:50
      人工智能
      人物報道的多維思考、主線聚焦與故事呈現(xiàn)
      活力(2019年17期)2019-11-26 00:42:32
      更加突出主線 落實四個到位 推動主題教育取得實實在在成效
      當代陜西(2019年15期)2019-09-02 01:51:52
      基于真耳分析的助聽器配戴者言語可懂度指數(shù)與言語識別率的關系
      提升高速公路MTC二次抓拍車牌識別率方案研究
      數(shù)字主線
      寬帶光譜成像系統(tǒng)最優(yōu)訓練樣本選擇方法研究
      融合原始樣本和虛擬樣本的人臉識別算法
      電視技術(2016年9期)2016-10-17 09:13:41
      基于稀疏重構的機載雷達訓練樣本挑選方法
      兖州市| 聂荣县| 惠安县| 土默特左旗| 凉城县| 班戈县| 邢台县| 桃江县| 新兴县| 南和县| 宜宾市| 黔东| 隆林| 辽阳县| 逊克县| 昭苏县| 石首市| 邢台市| 蕲春县| 吉林省| 齐河县| 河源市| 光泽县| 清水县| 石阡县| 讷河市| 门源| 阿克苏市| 烟台市| 外汇| 沙雅县| 安西县| 三台县| 富川| 报价| 介休市| 中阳县| 和硕县| 旌德县| 岳普湖县| 二手房|