黃 燦
(92124部隊 遼寧 大連 116021)
2012年可謂人工智能圖像識別發(fā)展的一個重要里程碑。之前人們?yōu)樽非髨D像識別算法的準確性做出了不懈的努力,但是其錯誤率卻一直居高不下,保持在26%左右,這一水平導(dǎo)致圖像識別技術(shù)無法有效走出實驗室。但是在2012年的視覺挑戰(zhàn)賽(ILSVRC,Image Net Large Scale Visual Recognition Challenge)上,Krizhevsky等人采用了八層深度卷積神經(jīng)網(wǎng)絡(luò)的計算方法贏得了該大賽的管冠軍,其精確度超過第二名11%,這一壓倒性的優(yōu)勢,決定了卷及神經(jīng)網(wǎng)絡(luò)在圖像識別領(lǐng)域的研究,必然成為未來的主要趨勢。
就目前算法的發(fā)展狀況而言,卷及神經(jīng)網(wǎng)絡(luò)作為當前在圖像識別領(lǐng)域的主流算法,被諸多工作團隊所廣泛接受,而對于圖像識別的研究重點,也從尋找更為優(yōu)秀的算法,轉(zhuǎn)移到了對卷積神經(jīng)網(wǎng)絡(luò)算法本身的優(yōu)化上,并且在應(yīng)用領(lǐng)域,也在近年取得了長足進展。從卷積神經(jīng)網(wǎng)絡(luò)自身的角度考慮,其在卷積層之間采用了共享參數(shù),使得計算過程中對于計算資源的占用大大縮小,同時也在訓(xùn)練參數(shù)方面實現(xiàn)了有效的簡化,提升了整體運算過程的效率。除此以外,此種計算方式幾乎不需要對圖像展開預(yù)處理或者特征值提取操作,這也成為卷積神經(jīng)網(wǎng)絡(luò)在圖像識別領(lǐng)域優(yōu)于其他算法的顯著之處。但是卷積神經(jīng)網(wǎng)絡(luò)算法也存在諸多弱點,例如傳統(tǒng)的算法本身并未能對算法展開深入挖掘,對應(yīng)的卷積核偏大,算法結(jié)構(gòu)層數(shù)較少等,都會造成此種算法的優(yōu)勢未能有效發(fā)揮,這些也就成為了當前在該領(lǐng)域中進行改進研究的工作重點。
作為深度學(xué)習(xí)領(lǐng)域的常用算法,卷積神經(jīng)網(wǎng)絡(luò)屬于常用算法,其發(fā)展基于人體視覺系統(tǒng)工作模式提出,其經(jīng)典的模型包括卷及神經(jīng)層、Rectified Linear Units層、Pooling層以及規(guī)范化層總共四個層級。想要切實對卷積神經(jīng)網(wǎng)絡(luò)的算法實現(xiàn)優(yōu)化和改進,首先需要從基礎(chǔ)的角度加強認識。
在算法框架體系之下,卷積神經(jīng)層負責(zé)對圖像中的每個點展開卷積計算,并且將卷積核作為訓(xùn)練參數(shù)展開工作。在圖像識別算法中,卷積的實際意義是指輸出圖像中的每個點都是由輸入圖像的對應(yīng)位置的小區(qū)域的像素通過加權(quán)平均所得,而這個區(qū)域即為卷積核。在計算機的處理過程中,卷積核為正方形,其邊長決定了對于圖像特征值的提取效果。一般來說,卷積核越大,對于圖像特征值獲取的效果越好,但是對應(yīng)地,需要訓(xùn)練的參數(shù)就越多,因此會應(yīng)當?shù)竭\算能力,進一步影響到圖像識別的整體效率。與之對應(yīng),卷積核越小,圖像識別過程中的精細程度就會有所提升,但是想要獲取到同樣水平的圖像特征,只能依賴更多的計算層數(shù)。并且較小的卷積核意味著在計算中會存在更多的Rectified Linear Units層,在識別能力上也會因此更強。因此在當前用于圖像識別環(huán)境中的卷積神經(jīng)網(wǎng)絡(luò)算法,多采用3×3或者5×5尺寸的卷積核展開工作。而Rectified Linear Units層則負責(zé)實現(xiàn)神經(jīng)網(wǎng)絡(luò)的激活函數(shù)控制,多為Rectified函數(shù)。Rectified Linear Units層的引入,能夠有效減少訓(xùn)練時間,提升整體算法性能。在輸入圖像經(jīng)過了這樣兩個層級的處理之后,其中的沒一個像素點都包括了周圍區(qū)域的相關(guān)信息,這帶來了較多的信息冗余,而為了提升算法的性能和魯棒性,就需要對圖像展開二次采樣,并且形成新的圖像。在二次采樣的過程中,需要對區(qū)域進行重新劃分,如果劃分區(qū)域彼此之間存在重疊,則成為Overlapping Pooling,否則被稱作為Non-overlapping Pooling,Pooling層的稱謂因此而來。這一層不需要訓(xùn)練,并且比較常見的做法是采用可以重疊的,取最大值的Pooling算法,用以對過度擬合展開適當控制。最后,規(guī)范化層,即規(guī)范化神經(jīng)層(Normalization Layer),其價值在于提升圖像的對比性,通常通過計算圖像的對比“平均值”,來對圖像的每個像素展開調(diào)整,使得圖像的主體部分能夠和背景更加具有區(qū)分度。這一個層面在圖像識別中并非必不可少,因此只有當卷積核較大的時候,才會引入這一層級展開加工。
首先,網(wǎng)絡(luò)深度對于卷積神經(jīng)網(wǎng)絡(luò)而言至關(guān)重要。作為卷積神經(jīng)網(wǎng)絡(luò)計算過程中最終的參數(shù)之一,其直接與需要訓(xùn)練的參數(shù)有關(guān),更加與圖像識別的正確率密切聯(lián)系。但是從整體效率的角度看,深度的提升并不會帶來參數(shù)的大幅度增加,但是正確率卻因此有著顯著提升。因此在卷積神經(jīng)網(wǎng)絡(luò)環(huán)境中,網(wǎng)絡(luò)層數(shù)通過會超過普通神經(jīng)網(wǎng)絡(luò),但也會對實際運算過程進行監(jiān)督,查看具體應(yīng)用情況。
其次,卷積神經(jīng)網(wǎng)絡(luò)算法中的結(jié)構(gòu)同樣不容忽視。之前的一些研究中多采用較大的卷積核,雖然這樣做能夠更好獲取到圖像特征,但是會造成需要訓(xùn)練的參數(shù)增加,進一步限制了整體算法的性能。當前為了改善運算效率,多采用較小的卷積核,并且為了能夠方便地調(diào)整算法,并兼顧算法的拓展性,引入的結(jié)構(gòu)應(yīng)當可以直接疊加而不必引入新的神經(jīng)層。實際工作中可以選擇多個神經(jīng)層共同參與運算,每個卷積層之后均包含有對應(yīng)的Rectified Linear Units層,處于中間的層級多采用3×3或者5×5尺寸的卷積核,兩端則多為1×1卷積核,使得與使用任何卷積核的神經(jīng)層都可以直接相連,保持整體良好的融合特征。
最后,卷積神經(jīng)網(wǎng)絡(luò)的整體結(jié)構(gòu),也成為影響其工作效率和效果的重要因素。一個比較典型的做法,是首先對輸入的圖像展開一個大卷積核神經(jīng)層加工,確保訓(xùn)練時間得到控制的同時有效降低錯誤率。并且可以考慮以全連接型的神經(jīng)網(wǎng)絡(luò)和Softmax回歸作為算法結(jié)構(gòu)的結(jié)尾,輸出概率最高的幾個處理結(jié)果,便于衡量算法準確率。
對于卷積神經(jīng)網(wǎng)絡(luò)在圖像識別領(lǐng)域的應(yīng)用而言,一方面需要深入分析該種算法的內(nèi)在特征,另一個方面則需要關(guān)注不同類別不同環(huán)境中產(chǎn)生的圖像本身的特征,必要的情況下綜合其他算法作為輔助,提升卷積神經(jīng)網(wǎng)絡(luò)識別的整體效果。
[1] Alex Krizhevsky,Ilya Sutskever, Geoff Hinton.Imagenet classification with deep con-volutional neural networks[J]. Advances in Neural Information Processing Systems 25,2012:1106-1114.
[2] DH Hubel,TN Wiesel.Receptive fields,binocular interaction,and functional architecture in the cat's visual cortex[J].Journal of Physiology(London),1962,160:106-154.
[3] K.Fukushima,Neocognitron:A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position[J].Biological Cybernetics,1980,36:193-202.