洪奇峰 施偉斌 吳迪 羅力源
摘要:隨著移動(dòng)互聯(lián)網(wǎng)與硬件處理器技術(shù)的不斷發(fā)展,海量數(shù)據(jù)處理與計(jì)算能力不斷提高,深度學(xué)習(xí)備受關(guān)注。卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)模型中最重要的一種結(jié)構(gòu),可用于目標(biāo)特征提取。介紹了為提高卷積神經(jīng)網(wǎng)絡(luò)性能,不斷增加卷積網(wǎng)絡(luò)深度的模型,以及因此帶來的新問題和解決方法。
關(guān)鍵詞:深度神經(jīng)網(wǎng)絡(luò):特征提?。耗繕?biāo)識(shí)別:網(wǎng)絡(luò)結(jié)構(gòu)
DOI: 10.11907/rjdk.191659
開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
中圖分類號(hào):TP3-0
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1672-7800(2020)004-0084-05
Review of the Development of Deep Convolutional Neural Network Model
HONG Qi-feng, SHI Wei-bing, WU Di, LUO Li-y uan
(School of Optical-Electrical and Co mputer Erzgineering , University of Sh angh.ai for Science and Technology,Shangh ai 200093.China )Abstract: With the continuous developmenf of' mobile Internet. hardware processor and other aspects, and the continuous improve-ment of massive data and computing power, deep learning has attracted more and more attention of the world. Especially after LeeSedol foughf against Alphago, it attracted worldwide attenfion. Convolutional neural network is the most important structure in deeplearning model. which is used to extract target features. With the continuous development of the deep learning field , this paper intro-duces the improvement of the perf'ormance of' the convolutional neural network. the convolutional network models with increasingdepth,as well as the new problems and their solutions.Key Words : deep neural network;feature extraction; object identification; network structure
O 引言
卷積神經(jīng)網(wǎng)絡(luò)( Convolution Neural Network,CNN)用于特征提取,從最早期的尺度不變特征變換…(Scale invariantfeature transform,SIFT)、Harr、方向梯度直方圖[2](Histo-gram of oriented gradients,HOG)演化發(fā)展至今。1998年LeCun[3]提出LeNet-5,將卷積與神經(jīng)網(wǎng)絡(luò)結(jié)合在一起,這是一個(gè)劃時(shí)代、影響深遠(yuǎn)的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),卷積和池化兩個(gè)全新概念由此提出。其后隨著深度學(xué)習(xí)理論的發(fā)展,2012年Alex Krizhevshvy[4]提出AlexNet,這是一個(gè)8層深的卷積神經(jīng)網(wǎng)絡(luò),該模型一舉奪下2012年ImageNet比賽冠軍。白AlexNet之后,研究者從不同網(wǎng)絡(luò)結(jié)構(gòu)出發(fā),陸續(xù)提出了各種性能越來越好的卷積神經(jīng)網(wǎng)絡(luò)模型,其中比較著名的有計(jì)算機(jī)視覺幾何組(Visual Geometry Group,VG-GNet)、GoogLeNet、深度殘差網(wǎng)絡(luò)(Deep Residual network,ResNet)等[5-7]
1 VGG模型
CNN模型基礎(chǔ)架構(gòu)如圖l所示,從圖1可以看出,CNN模型是由一系列層不斷堆疊而成的,模型中的每一層都代表一種數(shù)學(xué)運(yùn)算,如卷積、全連接是線性運(yùn)算,池化、激活是非線性運(yùn)算。
VGG模型于2014年由牛津大學(xué)VGG研究組提出,與AlexNet類似,也是一種卷積神經(jīng)網(wǎng)絡(luò),在AlexNet的基礎(chǔ)上,旨在通過加深網(wǎng)絡(luò)提高性能。該模型在2014年ILS-VRC定位和分類兩個(gè)比賽上分別取得了第一名和第二名。與之前的網(wǎng)絡(luò)結(jié)構(gòu)相比,VGG模型錯(cuò)誤率大幅下降。同時(shí),該模型拓展性很強(qiáng),遷移到其它圖片數(shù)據(jù)上的泛化性非常好。除應(yīng)用于最常見的特征提取(Feature Extractor)外,還被廣泛應(yīng)用于圖像協(xié)同定位(C o-localization)、物體候選框生成、細(xì)粒度圖像定位( Fine-grained Object Local-ization)等方面。
VGGNet核心思想是利用較小的卷積核不斷堆疊增加網(wǎng)絡(luò)深度,以此提升整個(gè)網(wǎng)絡(luò)架構(gòu)性能。VGG網(wǎng)絡(luò)結(jié)構(gòu)非常簡(jiǎn)潔,整個(gè)網(wǎng)絡(luò)全都使用同樣大小的卷積核與最大池化核,利用卷積層與最大池化層不斷堆疊的方式,組合成II-19層深的卷積神經(jīng)網(wǎng)絡(luò)。
VGGNet各級(jí)別網(wǎng)絡(luò)結(jié)構(gòu)如表1所示,VGGNet有5段卷積,每段卷積包含1-4個(gè)卷積層,每段卷積后面接一個(gè)最大池化層用來縮小feature map尺寸和增強(qiáng)特征,后面有3個(gè)全連接層,前兩層均有4096個(gè)通道,第3層共1000個(gè)通道,對(duì)應(yīng)l000個(gè)標(biāo)簽類別,最后一層為Softmax層。
2.3 Inception V3
Inception V3[12]相對(duì)Inception V2沒有顯著改進(jìn),只是對(duì)原有網(wǎng)絡(luò)模型結(jié)構(gòu)進(jìn)行卷積分解,用兩個(gè)較小的卷積核l*n和n*1代替n*n,比如將7*7分解成l*7和7*l。優(yōu)點(diǎn)是增加了網(wǎng)絡(luò)非線性,減少過擬合與參數(shù)數(shù)量。其網(wǎng)絡(luò)模型結(jié)構(gòu)如圖5所示。 3 殘差網(wǎng)絡(luò)ResNet
白AlexNet之后,卷積神經(jīng)網(wǎng)絡(luò)不斷加深,網(wǎng)絡(luò)擬合能力越來越強(qiáng),但網(wǎng)絡(luò)訓(xùn)練誤差變大卻是極不正常的。簡(jiǎn)單地堆疊網(wǎng)絡(luò)層深度沒有實(shí)質(zhì)性作用,反而會(huì)使反向傳播產(chǎn)生多個(gè)問題。反向傳播的梯度計(jì)算是在上一層基礎(chǔ)上進(jìn)行的,網(wǎng)絡(luò)深度加深會(huì)使梯度復(fù)乘,使梯度在多層反向傳播時(shí)越來越小,最終導(dǎo)致梯度消失。因此網(wǎng)絡(luò)層數(shù)越多,訓(xùn)練誤差越大。
殘差網(wǎng)絡(luò)通過在標(biāo)準(zhǔn)的前饋神經(jīng)網(wǎng)絡(luò)上增加一個(gè)跳躍從而繞過一些層,實(shí)現(xiàn)快捷連接(Shortcut Connection),解決了以上問題。
3.1 高速路神經(jīng)網(wǎng)絡(luò)
殘差網(wǎng)絡(luò)創(chuàng)新點(diǎn)在于引進(jìn)了恒等快捷鏈接(IdentitvShortcut C onnection),其設(shè)計(jì)是受瑞士教授Schmidhuher[13]提出的高速路神經(jīng)網(wǎng)絡(luò)(HighWay Network)啟發(fā)。一般情況下認(rèn)為增加網(wǎng)絡(luò)深度可在一定情況下提高網(wǎng)絡(luò)性能,但伴隨著網(wǎng)絡(luò)深度的增加,其訓(xùn)練難度也越來越大。Schmid -huber教授根據(jù)白己在1997年構(gòu)建的長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short Term Memorv Network.LSTM)[14]中的門機(jī)制(gate)原理設(shè)計(jì)了HighWay Network。LSTM中的門結(jié)構(gòu)負(fù)責(zé)控制某一單元的信息量,HighWay Network可通過類似LSTM中的門控單元控制網(wǎng)絡(luò)中的信息流,即學(xué)習(xí)原始信息應(yīng)保留的比例。
高速路神經(jīng)網(wǎng)絡(luò)的出現(xiàn)解決了深層神經(jīng)網(wǎng)絡(luò)難以訓(xùn)練的難題。假設(shè)常規(guī)卷積神經(jīng)網(wǎng)絡(luò)有K層,其中第i層(i∈l,2,…,K)的輸入為X。卷積神經(jīng)網(wǎng)絡(luò)每層的激活函數(shù)均對(duì)輸入X進(jìn)行非線性映射變換,為了表述簡(jiǎn)單,本文忽略層數(shù)和偏置,則輸出與輸入之間的關(guān)系為:
v=H(X,WH)(1)
高速路神經(jīng)網(wǎng)絡(luò)修改了每一層的激活函數(shù),在此基礎(chǔ)上允許保留一定的原始輸入X,則式(1)變?yōu)椋?/p>
v=H(X,WH).T(X,WT)+X.C(X,Wc)(2)
其中T為變換系數(shù),C為保留系數(shù)。令C=1-T,則:
y=H(X,WH).T(X,WT)+X.(1-T(X,WT》(3)
改進(jìn)后的網(wǎng)絡(luò)層比原始網(wǎng)絡(luò)層靈活了很多,針對(duì)特定變換系數(shù),式(2)變?yōu)椋?/p>
一定比例的上一層信息可不經(jīng)過矩陣乘法和非線性變換直接到達(dá)下一層,該結(jié)構(gòu)仿佛是一條信息高速公路,因此命名為高速路神經(jīng)網(wǎng)絡(luò)??梢园l(fā)現(xiàn)當(dāng)變換系數(shù)T=O時(shí),輸出y與輸入X為恒等映射v=X。
3.2 ResNet模型結(jié)構(gòu)
圖6是論文中的原圖,通過圖6可以發(fā)現(xiàn),普通的卷積神經(jīng)網(wǎng)絡(luò)隨著深度的增加,準(zhǔn)確率達(dá)到飽和后迅速下降,隨之出現(xiàn)了網(wǎng)絡(luò)越深、錯(cuò)誤率越高的退化現(xiàn)象。這是由網(wǎng)絡(luò)增加過多層數(shù)造成的。
為了解決退化現(xiàn)象,殘差網(wǎng)絡(luò)引入了恒等快捷鏈接的核心思想,對(duì)于一個(gè)準(zhǔn)確率已經(jīng)接近飽和且較淺的神經(jīng)網(wǎng)絡(luò),在后面加上幾個(gè)恒等快捷映射(v=X)時(shí),錯(cuò)誤率不會(huì)因此增加,即網(wǎng)絡(luò)深度的增加不會(huì)引起訓(xùn)練誤差上升。加入恒等快捷連接的ResNet也與HighWay Network -樣,將原始輸入信息直接傳輸?shù)胶竺妗?/p>
卷積神經(jīng)網(wǎng)絡(luò)某一層輸入為X,在經(jīng)過網(wǎng)絡(luò)傳輸處理之后,得到的期望輸出是H(X)。與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)不同,殘差網(wǎng)絡(luò)引進(jìn)恒等快捷連接,構(gòu)造了殘差模塊。如圖7所示,直接將輸入X傳人輸出中并作為下一層的初始結(jié)果,則此時(shí)目標(biāo)函數(shù)為:
殘差模塊的引入改變了網(wǎng)絡(luò)學(xué)習(xí)目標(biāo),使其不再學(xué)習(xí)一個(gè)完整的輸出H(X),而是學(xué)習(xí)輸出與輸入之間的差別,即殘差。圖8左側(cè)是殘差函數(shù),右側(cè)為對(duì)輸入的恒等映射,這兩支路徑經(jīng)過簡(jiǎn)單的整合(對(duì)應(yīng)元素相加)后,再經(jīng)過非線性變換(激活函數(shù)),最后形成一個(gè)完整的殘差網(wǎng)絡(luò)模塊。
殘差網(wǎng)絡(luò)有很多旁路的支線直接將上一層網(wǎng)絡(luò)的輸出連接到下一層或下面多層網(wǎng)絡(luò)中,這種連接方式被稱為快捷( Shortcut)或跳躍連接(Skip Connections)。
在一個(gè)殘差網(wǎng)絡(luò)模塊中,一般快捷連接會(huì)跳躍2-3層甚至更多,但如果僅跳躍一層則意義不大,實(shí)驗(yàn)效果也不理想,因?yàn)?-3層可以提供更多的非線性,擬合更復(fù)雜的F(X)。圖8左側(cè)是兩層殘差學(xué)習(xí)模塊,由兩個(gè)輸出通道數(shù)一致(殘差網(wǎng)絡(luò)是輸出減去輸入,這要求輸出與輸入的維度由保持一致)的3*3卷積網(wǎng)絡(luò)堆疊而成。但這種殘差網(wǎng)絡(luò)模塊在實(shí)際中并不是十分有效。右側(cè)是3層學(xué)習(xí)模塊,依次由1*1、3*3、l*l這3個(gè)卷積層構(gòu)成。先用I*l的卷積降維(通道數(shù)降低)后,再作3*3卷積,最后用l*l的卷積提升特征通道數(shù)。
殘差網(wǎng)絡(luò)解決了因?yàn)榫矸e網(wǎng)絡(luò)深度持續(xù)加深而導(dǎo)致的退化問題,在殘差網(wǎng)絡(luò)提出不久之后,Google融合ResNet和Inception V3版本,得到Inception V4[15]和Incep -tion-ResNet-V2[16],創(chuàng)造了在ImageNet數(shù)據(jù)集上TOP-5錯(cuò)誤率3.08%的新低。
4 結(jié)語
本文回顧了卷積神經(jīng)網(wǎng)絡(luò)模型在近年的發(fā)展,該模型已成為深度學(xué)習(xí)在圖像與白然語言處理等[17-20]領(lǐng)域最重要的研究對(duì)象,常用的CNN模型總結(jié)如表3所示。
CNN模型研究者致力于不斷提升模型計(jì)算效率與識(shí)別精度,面對(duì)不同數(shù)據(jù)集的泛化能力,近期還涌現(xiàn)出DenseNet[21]、DPN[22](Dual Path Network),MobileNet v2[23]等模型。隨著人T智能的不斷發(fā)展及應(yīng)用場(chǎng)景的不斷拓展,用戶對(duì)CNN模型的要求也會(huì)越來越高,CNN必將遇到各種新挑戰(zhàn),今后很長(zhǎng)一段時(shí)間內(nèi)卷積神經(jīng)網(wǎng)絡(luò)依然是深度學(xué)習(xí)領(lǐng)域研究重點(diǎn)。
[1]LOWE D G. Distinctive image features from scale-invariant key-points [J].International Journal of Computer Vision, 2004 . 60 (2) :91-110.
[2]DALAI N , TRIGCS B. Histograms of oriented gradients for human de-tection [c] . IEEE Conference on Computer Vision and Pattern Recog-nitinn.2005.1:886-893.
[3]LECLN Y. BOTTOU L, BENClO Y, et al. Gradient-hase learning ap-plied to document recognition [Jl. Proceedings of the IEEE,1998. 86(11) : 2278-2324.
[4]KRIZHEVSKY A, SUTSKEVER I, HINTON G. Imagenet classifica-tion with deep convolutional neural networks[Cl. ProceedinCs of theAdvances in Neural Information Processing Systems, 2012: 1097-1 105.
[5]SIMONYAN K, ZISSERMAN A. Very deep comnlutional networks forlarge-scale image recognition [DB/OL]. https://arxiv.org/pdf/1409.1556.pdf
[6]SZEGEDY C,LILT W,JIA Y Q,et al. Going deeper,vith convolutions[C]. Proceedings of the IEEE Conferenc.e on Computer Visinn and Pat- tern Recognition.2015: 1-9.
[7]HE K, ZHANG X. REN S,et al. Deep residual learning for image recognition [c]. Proceedings of the IEEE conference on computer ri-sion and pattern recognition. 2016:770-778.
[8]LIhr M, CHEW Q, YAN S Network in network[C]International Con-ference on Learning Representations, 2014: 1-10
[9]黃文堅(jiān),唐源.TensorFlow實(shí)戰(zhàn)[M].北京:電子工業(yè)出版社,2017.
[10]IOFFE S, SZECEDY C.Batch norrnalization: ac:celerating deep net-work training by reducing internal cox'ariate shift[C] InternatinnalConference nn International Conference on Machine Learning. JMLR.org, 2015:1-9.
[11]BECK 0,PL RWINS H. Com-nlutional neural net works with hatchnormalization for classifying hi-hat, snare. and bass percussionsound samplesEC].Proceedings of the Audio Mosth, 2016:111-115.
[12]SZECEDY C. VANHOLiCKE V, IOFFE S,et al. Rethinking the In-ception architecture for computer rision[C]. Proceedings of theIEEE Conference on Computer Vision and Pattern Recognition,2016:2818-2826.
[13]RLPESH K S,GREFF K. JURGEhr S. Training very deep networks[C]. Proceedings of the Conference and yrorkshop on Neural Information Processing Systems,2017: 2377-2385
[14]HOCHREITER S,SCHMIDHL: BER J. Long short-term memory [J].Neural Computation,1997,9(8):1735-1780
[15]SZEGEDY C. IOFFE S,VANHOLCKE V. et al. Inception-v4, In-ception-Resnet and the impact of residual connections on learning[C]. Processdings of AAAl Conference on Artificial Intelligence,2017:4-12.
[16]XIE S, CIRSHICK R,DOLLAR P, et al. Aggregated residu al transfor-mations for deep neural networks[C].Pmceedings of the IEEE Con-ference on Computer Vision and Pattern Recognition, 2017:5987-5995.
[17]吳漢釗基于孿生卷積神經(jīng)網(wǎng)絡(luò)的人臉追蹤[J].計(jì)算機(jī)工程與應(yīng)用,2018, 54( 14): 175-179.
[18]龐亮,蘭艷艷,徐君,等深度文本匹配綜述[j].計(jì)算機(jī)學(xué)報(bào),2017.40(4):985-1003.
[19] 李味味,章新友,仵倚,等.基于BP神經(jīng)網(wǎng)絡(luò)中藥復(fù)方功效的預(yù)測(cè)研究[J].中醫(yī)藥導(dǎo)報(bào),2016.22 16):38-41.
[20]高學(xué),王有旺基于CNN和隨機(jī)彈性形變的相似手寫漢字識(shí)別[J].華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2014(1):72-76.
[21] HUANG G,LIU Z. MAATEN L V D,et al. Denselv connected convo-lutional networks[C].Proceedings of the IEEE Conference on Com-puter Vision and Pattern Recognitinn, 2017: 1-9.
[22]CHEN Y, LI J, XIAO H. et al. Dual path networks[C]. Proceedingsof the IEEE Conference on Computer Vision and Pattern Recogni-tion.2017:4470-4478
[23]SANDIER M, HOWARD A. ZHU M. et al. MobilehretV2: invertedresiduals and linear bottlenecks[C].2018 IEEE/CVF Conference onComputer Vision and Pattern Recognition, 2018: 1-14
(責(zé)任編輯:江艷)
收稿日期:2019-05-27
作者簡(jiǎn)介:洪奇峰(1992-),男,上海理工大學(xué)光電信息與計(jì)算機(jī)工程學(xué)院碩士研究生,研究方向?yàn)樯疃葘W(xué)習(xí)、目標(biāo)檢測(cè);施偉斌(1967-),男,上海理工大學(xué)光電信息與計(jì)算機(jī)工程學(xué)院副教授,研究方向?yàn)闊o線傳感器網(wǎng)絡(luò)、通信協(xié)議;吳迪(1995-),男,上海理工大學(xué)光電信息與計(jì)算機(jī)工程學(xué)院碩士研究生,研究方向?yàn)榭垢蓴_通信協(xié)議;羅力源(1996-),女,上海理工大學(xué)光電信息與計(jì)算機(jī)工程學(xué)院碩士研究生,研究方向?yàn)榈凸耐ㄐ拧?/p>