◆李曉旭
結(jié)合Alexnet和極限學(xué)習(xí)機的網(wǎng)絡(luò)模型的研究
◆李曉旭
(瓦房店市融媒體中心 遼寧 116300)
本文提出一種Alexnet與極限學(xué)習(xí)機相結(jié)合的網(wǎng)絡(luò)模型。Alexnet是一種很好的特征提取器,但是大量的網(wǎng)絡(luò)參數(shù)集中在后三層用作分類的全連接層中,同時要在調(diào)整和訓(xùn)練參數(shù)上花費大量時間,而極限學(xué)習(xí)機具有訓(xùn)練參數(shù)少,學(xué)習(xí)速度快的優(yōu)點,所以本文運用Alexnet進行特征提取,再用極限學(xué)習(xí)機對圖片進行分類,結(jié)合了Alexnet和ELM的優(yōu)點。本文方法能在CIFAR10數(shù)據(jù)集上有效分類,同時節(jié)省訓(xùn)練時間。
Alexnet;極限學(xué)習(xí)機;特征提取
自2006年以來,深度學(xué)習(xí)持續(xù)升溫,其本質(zhì)就是深層次的神經(jīng)網(wǎng)絡(luò),其興起經(jīng)歷了起起落落,2012年,Alexnet網(wǎng)絡(luò)模型的問世使計算機視覺領(lǐng)域出現(xiàn)了翻天覆地的變化,在語義分割[1]、文本識別[2]、圖像分類[3]、人臉識別[4]、目標(biāo)檢測[5]等領(lǐng)域都有所突破。主要是因為神經(jīng)網(wǎng)絡(luò)完成了自動提取特征和分類器的工作,卷積神經(jīng)網(wǎng)絡(luò)的最后一層可以看作一個線性分類器,存在一定局限性。趙靚等運用卷積神經(jīng)網(wǎng)絡(luò)來提取船舶圖像特征,運用支持向量機對軍艦、客船、漁船和帆船進行分類[6]。隨著分類器的發(fā)展,極限學(xué)習(xí)機也應(yīng)用到許多領(lǐng)域,黃等[7]運用極限學(xué)習(xí)機進行滾動軸承故障識別,吳莉等[8]用極限學(xué)習(xí)機對配電線路臺風(fēng)滅損進行預(yù)測,都取得了很好的效果。本文將Alexnet和極限學(xué)習(xí)機結(jié)合,最大程度發(fā)揮其各自優(yōu)點,在分類準(zhǔn)確率小幅度提高的前提下,大大減少訓(xùn)練時間。
隨著深度學(xué)習(xí)逐步走向成熟,卷積神經(jīng)網(wǎng)絡(luò)在機器視覺和圖像處理領(lǐng)域應(yīng)用越來越廣泛,最早的卷積神經(jīng)網(wǎng)絡(luò)(CNN)誕生于20世紀(jì)60年代,它是一類具有深度結(jié)構(gòu)并包含卷積計算的前饋神經(jīng)網(wǎng)絡(luò),它的基本結(jié)構(gòu)包括輸入、卷積、池化、全連接和輸出。2012年,Alexnet問世,AlexNet是由Krizhevsky[9]等人創(chuàng)造,此模型的出現(xiàn)掀起了深度學(xué)習(xí)的研究熱潮。Alexnet模型是擁有五個卷積層和三個全連接層共八層的一個網(wǎng)絡(luò)結(jié)構(gòu)模型,第一和第二層使用了卷積、Relu、最大池化、局部響應(yīng)歸一化操作,第三、四層使用了卷積和Relu操作,第五層使用了卷積、Relu和最大池化操作,六、七、八層是全連接層。
卷積層先對圖片進行局部感知,主要是通過卷積核來實現(xiàn)的,再對局部進行綜合操作,進而得到全局信息。圖片方陣先經(jīng)過卷積核濾波,再加上偏置常量,然后利用激活函數(shù)激活,生成特征圖,卷積的計算公式如式1所示。
式(1)的卷積表達式中:Y為輸出特征圖,W為卷積核權(quán)值,X為輸入特征圖,b是偏置常量,*表示卷積操作,(·)表示激活函數(shù),本文使用的激活函數(shù)是Relu。
池化層也叫降采樣層或子采樣,通常是在卷積層后面,是用來降低對卷積層獲得的特征圖的維度,在有效減少網(wǎng)絡(luò)參數(shù)的同時能夠減小過擬合的產(chǎn)生,池化層將特征圖通過式2的計算得到相應(yīng)的特征圖。
Z為輸出特征圖,Y為輸入特征圖,為池化方法。主要的池化方法有重疊池化、平均池化、金字塔池化和最大池化,Alexnet模型中的池化方法是最大池化操作。
在經(jīng)過五個卷積層和三個池化層后,Alexnet連接三個全連接層進行匯合,但是在Alexnet中引入了dropout機制,即以0.5的概率把每個隱藏的神經(jīng)元的輸出設(shè)置為零,減少了神經(jīng)元的復(fù)雜的共同適應(yīng),提高模型的泛化能力。對于分類問題,最后一層輸出層多數(shù)使用softmax進行邏輯回歸分類,返回輸入對象所屬某一類別的概率。
圖1 Alexnet網(wǎng)絡(luò)結(jié)構(gòu)圖
其中為神經(jīng)網(wǎng)絡(luò)隱層節(jié)點的輸出,是期望輸出[12]。
(4)
式4、5中為輸入層與隱藏層之間的權(quán)矩陣;為隱單元的閾值,()是激活函數(shù)。
概括極限學(xué)習(xí)機的學(xué)習(xí)方法主要分為三步:
極限學(xué)習(xí)機的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 極限學(xué)習(xí)機結(jié)構(gòu)圖
卷積神經(jīng)網(wǎng)絡(luò)的全連接層起到“分類器”的作用,采用梯度下降的方法調(diào)整權(quán)值[13],全連接層參數(shù)量占整個Alexnet網(wǎng)絡(luò)模型的參數(shù)量的90%左右,存在參數(shù)冗余的現(xiàn)象,通過前五層的卷積池化操作可以很好地提取圖片特征,但是它并不是一個好的分類器。極限學(xué)習(xí)機采用隨機的輸入層權(quán)值和偏差,輸出層的權(quán)重由廣義逆矩陣直接計算得到,不用像神將網(wǎng)絡(luò)的梯度算法迭代反復(fù)調(diào)整更新,它具有訓(xùn)練參數(shù)少、速度快的優(yōu)點。所以本文保留Alexnet的前六層結(jié)構(gòu),將第六層(全連接層的第一層)得到的特征向量作為極限學(xué)習(xí)機的輸入,兩者的結(jié)合充分運用了Alexnet提取特征的能力和極限學(xué)習(xí)機訓(xùn)練速度快的優(yōu)點。
圖3顯示了Alexnet和極限學(xué)習(xí)機的結(jié)合方式,主要分為兩部分:
第一部分,特征提取,運用Alexnet的八層網(wǎng)絡(luò)結(jié)構(gòu),通過訓(xùn)練樣本得到網(wǎng)絡(luò)的各層參數(shù),保持前六層的參數(shù)不變,第六層(全連接層)將前五層的特征展平成一維向量,并將提取的特征加以提取整合。相當(dāng)于把Alexnet的前六層看做一個特征提取器。
第二部分,極限學(xué)習(xí)機的分類,將上一步提取到的特征向量作為極限學(xué)習(xí)機的輸入,搭建ELM模型,并依據(jù)其訓(xùn)練公式(6)計算其參數(shù),最終完成整個網(wǎng)絡(luò)的訓(xùn)練過程。
圖3 Alexnet-ELM模型
本文用的是經(jīng)典的深度學(xué)習(xí)CIFAR-10數(shù)據(jù)集,由10類32×32的彩色圖片組成,包括貓、鹿、狗、馬、鳥類、蛙類、飛機、汽車、船、卡車10類,此數(shù)據(jù)集有60000張圖片,每類6000張,其中50000張用作訓(xùn)練,構(gòu)成5個batch,10000張用作測試,單獨一個batch。
實驗在Tensorflow環(huán)境下的Keras框架完成,網(wǎng)絡(luò)每層具體參數(shù)為:輸入層的圖像為32×32×3,卷積核大小為11×11,滑動步長為4,輸出96個特征圖,第一、二層都是用大小為5×5的卷積核,輸出256個特征圖,第三、四層使用3×3的卷積核,輸出384個特征子圖,第五層采用3×3大小的卷積核,產(chǎn)生256個特征圖,第六層全連接層將特征圖拉直成一維特征向量。然后隨機產(chǎn)生極限學(xué)習(xí)機的參數(shù)W和b,隱層神經(jīng)元個數(shù)為1024,使用Adam優(yōu)化算法,此時,所有參數(shù)設(shè)置完畢,進行網(wǎng)絡(luò)訓(xùn)練和測試。分別用Alexnet和本文的模型進行對實驗,實驗結(jié)果如表1所示。
表1 模型分類結(jié)果
模型分類精度訓(xùn)練時間/min測試時間/min Alexnet88.32%234.5 Alexnet-ELM88.75%112
實驗結(jié)果表明:本文的網(wǎng)絡(luò)模型使分類準(zhǔn)確率提高了0.43%,訓(xùn)練時間和測試時間大大減少,主要是由于不用學(xué)習(xí)大量參數(shù),此方法更加省時省力。
本文提出并實現(xiàn)了一種Alexnet和極限學(xué)習(xí)機相結(jié)合的快速自動分類方法,Alexnet本身需要進行大量的迭代訓(xùn)練,達到最佳的穩(wěn)定識別狀態(tài),此過程耗時并且對硬件要求比較高。本文結(jié)合Alexnet強大的提取特征的能力和極限學(xué)習(xí)機快速分類的優(yōu)點,使訓(xùn)練時間縮短一倍。在后續(xù)試驗中,可以使用優(yōu)化算法(蝙蝠優(yōu)化算法)來優(yōu)化極限學(xué)習(xí)機的初始化,可能將分類的準(zhǔn)確度進一步提高。
[1]J. Long,E. Shelhamer,T. Darrell. Fully convolutional networks for semantic segmentation[C].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2015: 3431-3440.
[2]M. Liao,B. Shi,X. Bai,et al. Textboxes:A fast text detector with a single deep neural net-work[C]. Thirty-First AAAI Conference on Artificial Intelligence,2017:4161-4167.
[3]S.Wang,C.Manning. Fast dropout training[C]. International Conference on Machine Learning,2013:118-126.
[4]O. M. Parkhi,A. Vedaldi,A. Zisserman,et al. Deep face recognition[C]. British Machine VisionConference,2015:6.
[5]J. Ding,B. Chen,H. Liu,et al. Convolutional neural network with data augmentation for SARtarget recognition[J]. IEEE Geoscience and Remote Sensing Letters,2016,13(3): 364-368.
[6]趙亮,王曉峰,袁逸濤.基于深度卷積神經(jīng)網(wǎng)絡(luò)的船舶識別方法研究[J]. 艦船科學(xué)技術(shù),2016,38(15):119-123.
[7]黃重謙. 基于多隱層小波卷積極限學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的滾動軸承故障識別[J/OL].工礦自動化:1-7[2021-05-25]. https://doi.org/10.13272/j.issn.1671-251x.2020110036.
[8]吳莉,林珍,江灝,等. 融合模糊評價與極限學(xué)習(xí)機的配電線路臺風(fēng)災(zāi)損預(yù)測[J/OL]. 福州大學(xué)學(xué)報(自然科學(xué)版):1-7[2021-05-25]. http://kns.cnki.net/kcms/detail/35.1337.N.20210517.0911.020.html.
[9]KRIZHEVSKY,STUSKEVERI,HINTONGE.Image Net classification with deep convolutional neuralnetworks[C].Proceedings of the Advances in Neural Information Processing Systems. South Lake Tahoe,US:2012:1097-1105.
[10]曹瑞鵬.基于ELM 自編碼器改進的高光譜圖像特征學(xué)習(xí)算法研究[D].武漢:華中科技大學(xué),2019.
[11]HUANG G B,ZHU Q Y,SIEW C K. Extreme learning ma-chine:theory and applications[J].Neurocomputing,2006,70(1/3):489-501.
[12]余丹,吳小俊. 一種卷積神經(jīng)網(wǎng)絡(luò)和極限學(xué)習(xí)機相結(jié)合的人臉識別方法[J].Journal of Data Acquisition andProcessing,2016,31(5):996-1003.
[13]李耀龍,張永科,羅鎮(zhèn)寶.應(yīng)用深度卷積神經(jīng)網(wǎng)絡(luò)的機場及機場內(nèi)飛機目標(biāo)識別技[J]. 重慶理工大學(xué)學(xué)報(自然科學(xué)),2018(3):210-216.