朱健
(江西理工大學(xué)土木與測(cè)繪工程學(xué)院 江西省贛州市 341000)
相關(guān)學(xué)者對(duì)于生物體內(nèi)的自然感知機(jī)制進(jìn)行研究并受到啟發(fā),設(shè)計(jì)出了卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型。在19世紀(jì)60年代,Hubel等對(duì)動(dòng)物視覺皮層中的細(xì)胞負(fù)責(zé)檢測(cè)感受野的相關(guān)研究。在此基礎(chǔ)上,日本科學(xué)家Fukushima在19世紀(jì)后期提出了神經(jīng)認(rèn)知機(jī)的相關(guān)理論方法。 經(jīng)歷了計(jì)算機(jī)技術(shù)的飛速發(fā)展時(shí)期,越來越多有關(guān)學(xué)者對(duì)卷積神經(jīng)網(wǎng)絡(luò)展開相關(guān)研究,提出了許多的卷積神經(jīng)網(wǎng)絡(luò)模型,例如,在19世紀(jì)末期, LeCun提出了卷積神經(jīng)網(wǎng)絡(luò)中的一個(gè)經(jīng)典模型--LENET5模型,使得卷積神經(jīng)網(wǎng)絡(luò)相關(guān)理論開始正式成型,在2014年期間,隨著VGG模型的提出,有關(guān)學(xué)者證明了該模型相對(duì)于AlexNet更加節(jié)省空間。與此同時(shí),Yi Sun和Taigman Y對(duì)LFW數(shù)據(jù)庫(kù)進(jìn)行分析得到結(jié)果的基礎(chǔ)之上,提出了DeepFace和DeepID 兩個(gè)模型,并將上述模型成功應(yīng)用于人臉識(shí)別和人臉認(rèn)證兩個(gè)實(shí)驗(yàn)中,得到實(shí)驗(yàn)結(jié)果的精確率為 99.75%。遷移學(xué)習(xí)作為一種新興的機(jī)器學(xué)習(xí)技術(shù),它是根據(jù)已經(jīng)學(xué)習(xí)到的相關(guān)知識(shí)對(duì)相關(guān)問題解決起到一定作用的一種學(xué)習(xí)方法,當(dāng)前相關(guān)學(xué)者對(duì)于遷移學(xué)習(xí)的如何定義分類的標(biāo)準(zhǔn)不一,目前有關(guān)遷移學(xué)習(xí)的分類主要分為基于樣本、特征、參數(shù)以及相關(guān)性的遷移學(xué)習(xí)。例如,文獻(xiàn)通過對(duì)遷移學(xué)習(xí)方法進(jìn)行總結(jié)歸納,并以實(shí)例集作為集合,從而實(shí)現(xiàn)對(duì)整體的管理以及不同方面的權(quán)重進(jìn)行調(diào)整。文獻(xiàn)為了提高源和目標(biāo)領(lǐng)域之間的特征分布性,將最大化平均差異考慮到遷移學(xué)習(xí)的應(yīng)用中,并取得了不錯(cuò)的效果。文獻(xiàn)對(duì)室內(nèi)Wi-Fi定位不同所產(chǎn)生的影響,利用隱馬爾可夫模型,對(duì)不同條件下的室內(nèi)進(jìn)行相關(guān)研究。圖像作為人類認(rèn)知世界的基礎(chǔ),其給人類帶來的信息量遠(yuǎn)比傳統(tǒng)的文字要多,因此其在學(xué)術(shù)界應(yīng)用廣闊,例如目標(biāo)識(shí)別、圖像分割等等。在傳統(tǒng)的機(jī)器學(xué)習(xí)方法中應(yīng)用于圖像分類的也有很多,例如:支持向量機(jī)、小波神經(jīng)網(wǎng)絡(luò),但上述方法在進(jìn)行圖像分類之前,需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,包括灰度轉(zhuǎn)換、特征提取等等,必然加大了在進(jìn)行圖像分類過程中的工作量,同時(shí)所得到的分類結(jié)果也沒有卷積神經(jīng)網(wǎng)絡(luò)好。因此,本文針對(duì)VGG16這種大型卷積神經(jīng)網(wǎng)絡(luò),應(yīng)用遷移學(xué)習(xí)的思想,在保留其基本結(jié)構(gòu)的基礎(chǔ)之上,設(shè)計(jì)一種小型卷積神經(jīng)網(wǎng)絡(luò)VGG-6,并將其應(yīng)用于自己通過對(duì)長(zhǎng)沙市的遙感影像進(jìn)行語(yǔ)義分割制作得到的長(zhǎng)沙市城市用地分類數(shù)據(jù)集中進(jìn)行分類訓(xùn)練,通過設(shè)計(jì)不同類型VGG-6的網(wǎng)絡(luò)結(jié)構(gòu)并將其與LENET-5模型進(jìn)行對(duì)比,綜合考慮模型對(duì)數(shù)據(jù)集進(jìn)行訓(xùn)練的運(yùn)行時(shí)間以及分類精度,最終得到適合該數(shù)據(jù)集的VGG-6網(wǎng)絡(luò)結(jié)構(gòu)的相關(guān)模型參數(shù)。
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)作為深度學(xué)習(xí)相關(guān)研究領(lǐng)域中的被得到廣泛使用的一種神經(jīng)網(wǎng)絡(luò),主要應(yīng)用于圖像處理、文本識(shí)別等相關(guān)研究領(lǐng)域。它主要由輸入層、卷積層、池化層以及全連接層等結(jié)構(gòu)組成,其中卷積層和池化層,它們的主要作用將網(wǎng)絡(luò)輸入的數(shù)據(jù)集中的相關(guān)特征進(jìn)行提取,全連接層主要對(duì)數(shù)據(jù)集的結(jié)果進(jìn)行分類。
2.1.1 卷積層
卷積層作為卷積神經(jīng)網(wǎng)絡(luò)的重要模塊,通過在卷積層中組合不同類別的卷積核,實(shí)現(xiàn)對(duì)數(shù)據(jù)集中的圖像區(qū)域內(nèi)的像素進(jìn)行卷積計(jì)算,進(jìn)而對(duì)數(shù)據(jù)集中的特征進(jìn)行提取。卷積核類別的不同,提取得到的特征變量也不同,使用高級(jí)別的卷積核對(duì)輸入數(shù)據(jù)集的輸入特征進(jìn)行提取,可以得到數(shù)據(jù)集的高維特征,使用低級(jí)別的卷積核對(duì)輸入數(shù)據(jù)集的輸入特征進(jìn)行提取可以獲得數(shù)據(jù)集的低維特征,其表達(dá)式為:
2.1.2 池化層
在卷積操作結(jié)束后得到一張張不同值的特征圖,但數(shù)據(jù)量依舊很大,因此為了防止過擬合產(chǎn)生,利用池化層對(duì)數(shù)據(jù)集進(jìn)行池化操作,增強(qiáng)模型對(duì)數(shù)據(jù)集的適應(yīng)能力。池化主要分為兩種:平均池化和最大池化。在進(jìn)行池化操作的過程中,雖然數(shù)據(jù)的維度降低會(huì)導(dǎo)致?lián)p失部分?jǐn)?shù)據(jù),但數(shù)據(jù)特征的平移不變性使得統(tǒng)計(jì)量仍然可以對(duì)區(qū)域特征進(jìn)行描述,其表達(dá)式為:
2.1.3 全連接層
在結(jié)束整個(gè)卷積神經(jīng)網(wǎng)絡(luò)中的卷積和池化操作以后,考慮到網(wǎng)絡(luò)中存在的大量網(wǎng)絡(luò)參數(shù),為了簡(jiǎn)化數(shù)據(jù)計(jì)算,全連接層之間通過全連接的方式進(jìn)行連接,整合卷積層和池化層提取得到的特征進(jìn)一步提取高層次的特征信息,并會(huì)用具有非線性的激活函數(shù)來提升整個(gè)網(wǎng)絡(luò)的性能,其表達(dá)式為:
VGGNet是由牛津大學(xué)的K.Simonyan和A.Zisserman提出的繼Alexnet后隱含層數(shù)增加的深度卷積神經(jīng)網(wǎng)絡(luò),學(xué)者們通過對(duì)VGG模型展開相關(guān)研究發(fā)現(xiàn),通過增加小卷積核以及隱含層數(shù)能有效提高整個(gè)網(wǎng)絡(luò)的預(yù)測(cè)精度,與此同時(shí)網(wǎng)絡(luò)的訓(xùn)練時(shí)間相對(duì)于Alexnet大幅度減少。目前VGGNet主要有VGG16和VGG19兩種結(jié)構(gòu),這兩種類型的VGG網(wǎng)絡(luò)結(jié)構(gòu)中的卷積層都有3×3以及步長(zhǎng)為1的卷積核,同時(shí)也包含了5層的最大池化層以及3層全連接層,前兩層的通道數(shù)總和為4096,最后一層網(wǎng)絡(luò)的輸出結(jié)果為1000個(gè)類別。VGG16模型的具體網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1:VGG16模型結(jié)構(gòu)圖
從圖1中可以看出,輸入到網(wǎng)絡(luò)結(jié)構(gòu)的數(shù)據(jù)集先經(jīng)過預(yù)處理再輸入到網(wǎng)絡(luò)結(jié)構(gòu)中的卷積層,其中由輸入層輸入到卷積層的數(shù)據(jù)集中的圖像大小為224×224×3,再經(jīng)過網(wǎng)絡(luò)中的13個(gè)卷積層、4個(gè)最大池化層以及3個(gè)全連接層,此時(shí)VGG16的網(wǎng)絡(luò)參數(shù)數(shù)量已非常大,是一個(gè)深度大型網(wǎng)絡(luò),事實(shí)證明網(wǎng)絡(luò)深度越深能提高預(yù)測(cè)結(jié)果的精度,這個(gè)結(jié)論是受AlexNet網(wǎng)絡(luò)的啟發(fā),Alex.等也在文章也提到了這個(gè)問題,VGG16也驗(yàn)證了這個(gè)結(jié)論。
本文構(gòu)建的VGG小型卷積神經(jīng)網(wǎng)絡(luò)模型,簡(jiǎn)稱VGG-6,其主體框架還是VGG16,保留了VGG16結(jié)構(gòu)中的四個(gè)卷積模塊、兩個(gè)最大池化模塊以及兩個(gè)全連接模塊,在模型進(jìn)行訓(xùn)練之前,先運(yùn)用遷移學(xué)習(xí)思想把模型輸入到最大池化層之間的結(jié)構(gòu)進(jìn)行凍結(jié),保留VGG16原有模式,使新模型只需訓(xùn)練新加入的部分權(quán)重,這個(gè)模型網(wǎng)絡(luò)結(jié)構(gòu)中有兩個(gè)相同的模塊構(gòu)成,每個(gè)模塊的結(jié)構(gòu)中含有兩層卷積層、一個(gè)最大池化層以及一層Dropout層,兩個(gè)模塊的后面緊跟著兩層全連接層分別為全連接層1和Softmax層,網(wǎng)絡(luò)的總體結(jié)構(gòu)如圖2所示。
圖2:VGG-6網(wǎng)絡(luò)結(jié)構(gòu)圖
本文所使用的數(shù)據(jù)集為長(zhǎng)沙市城市用地分類數(shù)據(jù)集,該數(shù)據(jù)集首先通過對(duì)長(zhǎng)沙市的遙感影像進(jìn)行分類,得到分為兩類城市用地以及非城市用地的數(shù)據(jù)影像,其次,對(duì)分類結(jié)果中的影像進(jìn)行提取分割,并通過對(duì)分割結(jié)果得到的影像進(jìn)行語(yǔ)義標(biāo)注,將結(jié)果中為城市用地的影像標(biāo)注為1,非城市用地的影像標(biāo)注為0,通過對(duì)語(yǔ)義標(biāo)注的結(jié)果進(jìn)行整合得到了長(zhǎng)沙市的城市用地分類數(shù)據(jù)集,該數(shù)據(jù)集中包含城市用地影像的數(shù)量為3600個(gè),其他用地影像數(shù)量為25200個(gè),數(shù)據(jù)集制作過程中的采樣窗口大小為20×20。
為了驗(yàn)證本文提出的VGG-6模型的分類能力,本文在模型參數(shù)方面選取不同的模型參數(shù)構(gòu)建3種不同類別的VGG-6模型,其中VGG-6-1模型主要由兩個(gè)模塊組成,其中每個(gè)模塊包括兩層卷積層以及一層最大池化層,在VGG-6-1中它主要由兩個(gè)模塊構(gòu)成,其中一個(gè)模塊是由16個(gè)3×3大小的卷積核以及32個(gè)3×3大小的卷積核組成的兩層卷積層和一層最大池化層所構(gòu)成,然后通過兩個(gè)該模塊進(jìn)行堆疊就形成了VGG-6-1的網(wǎng)絡(luò)結(jié)構(gòu);VGG-6-2是由24個(gè)3×3大小的卷積核以及48個(gè)3×3大小的卷積核組成的兩層卷積層和一層最大池化層組成它的一個(gè)模塊,并通過兩個(gè)該模塊堆疊形成的;VGG-6-3是由32個(gè)3×3大小的卷積核以及64個(gè)3×3大小的卷積核組成的兩層卷積層和一層最大池化層組成它的一個(gè)模塊,并通過兩個(gè)該模塊堆疊形成的。為了更進(jìn)一步的對(duì)比模型的分類能力,因此本文還選取的LENET-5模型作為對(duì)比模型,用于驗(yàn)證本文模型的分類精度。為了保證模型對(duì)比結(jié)果的有效性,將VGG-6網(wǎng)絡(luò)模型與LENET-5網(wǎng)絡(luò)模型中的部分相關(guān)參數(shù)進(jìn)行統(tǒng)一設(shè)置,將模型參數(shù)中的學(xué)習(xí)率設(shè)置為0.01、慣性系數(shù)設(shè)置為0.5以及每次訓(xùn)練的圖像個(gè)數(shù)為20。通過對(duì)上述模型進(jìn)行試驗(yàn),發(fā)現(xiàn)模型的迭代次數(shù)至少要80次模型才能收斂,因此本文對(duì)上述模型的迭代次數(shù)設(shè)置為100次。在完成上述工作之后,結(jié)合表1中模型的各項(xiàng)網(wǎng)絡(luò)參數(shù),將上述模型應(yīng)用于數(shù)據(jù)集的分類訓(xùn)練中,得到各模型的訓(xùn)練曲線如圖3所示,從圖中可以看出各模型的分類精度隨著訓(xùn)練次數(shù)的增加,其變化趨勢(shì)也逐步穩(wěn)定。
圖3:模型訓(xùn)練圖
為了更進(jìn)一步的分析上述模型的分類效果,從表1中可以看出VGG-6-1模型、VGG-6-2模型、VGG-6-3模型隨著模型的卷積核數(shù)量增加,模型的對(duì)數(shù)據(jù)集訓(xùn)練的運(yùn)行時(shí)間也開始增加。為了進(jìn)一步探究模型復(fù)雜程度的增加是否會(huì)對(duì)模型分類精度產(chǎn)生一定的影響,因此本文分別對(duì)VGG-6-1模型、VGG-6-2模型、VGG-6-3模型進(jìn)行數(shù)據(jù)集分類訓(xùn)練,從分類精度以及模型運(yùn)行時(shí)間兩個(gè)方面進(jìn)行統(tǒng)計(jì)得到結(jié)果如表2所示,從表2中可以看出,隨著模型復(fù)雜度的增加,會(huì)導(dǎo)致模型訓(xùn)練耗時(shí)上升,但對(duì)數(shù)據(jù)集分類精度的影響不顯著,從模型的運(yùn)行結(jié)果來看,VGG-6-1其模擬精度為99.44%,運(yùn)行時(shí)間為88.91S、VGG-6-2的分類精度為99.58%,運(yùn)行時(shí)間為107.88S、VGG-6-3的分類精度為99.44%,運(yùn)行時(shí)間為120.09S以及LENET5的分類精度為99.15%,運(yùn)行時(shí)間為77.65S。從中可以看出VGG-6-2模型的分類精度最高以及本文所設(shè)計(jì)的三種網(wǎng)絡(luò)結(jié)構(gòu)均在分類精度上相對(duì)于傳統(tǒng)的LENET5有所提升,但隨著精度的提升其運(yùn)行時(shí)間也會(huì)增加,因此綜合考慮模型的分類精度和運(yùn)行時(shí)間,因此本文得到模擬分類結(jié)果較好的網(wǎng)絡(luò)為VGG-6-2模型。
表1:不同類型VGG-6模型參數(shù)
表2:不同網(wǎng)絡(luò)模型的分類精度和運(yùn)行時(shí)間
首先針對(duì)VGG這種大型卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于小樣本中的圖像分類問題,應(yīng)用遷移學(xué)習(xí)的思想在保留VGG16模型基本結(jié)構(gòu)的基礎(chǔ)之上設(shè)計(jì)出一種小型卷積神經(jīng)網(wǎng)絡(luò)VGG-6并將其用于小樣本圖像的圖像分類中,從本文所設(shè)計(jì)的VGG-6模型中可以看出,該模型對(duì)于長(zhǎng)沙市城市用地分類數(shù)據(jù)集的訓(xùn)練結(jié)果,綜合考慮模型的分類精度以及運(yùn)行時(shí)間,不難看出本文所設(shè)計(jì)的模型在各方面的結(jié)果都要優(yōu)于傳統(tǒng)的LENET5,雖然模型由于卷積核數(shù)量的增長(zhǎng)導(dǎo)致網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜度增加進(jìn)而導(dǎo)致模型在運(yùn)行時(shí)間上耗時(shí)更長(zhǎng),但分類精度相對(duì)于LENET5卻有所提升,并得到了用于長(zhǎng)沙市城市用地分類數(shù)據(jù)集中分類的卷積神經(jīng)網(wǎng)絡(luò)模型為VGG-6-2模型,其模型的具體參數(shù)是由兩個(gè)相同的模塊構(gòu)成模型的主要結(jié)構(gòu),在模型中的每個(gè)模塊,其基本結(jié)構(gòu)為兩層卷積層和一層最大池化層,其中卷積層的參數(shù)為32個(gè)3×3大小的卷積核以及64個(gè)3×3大小的卷積核組成。