肖和平, 趙宇恒, 米素娟
(1.湖南省交通運(yùn)輸廳科技信息中心, 湖南 長(zhǎng)沙 410015;2.中國(guó)地質(zhì)大學(xué)(武漢)地理與信息工程學(xué)院, 湖北 武漢 430074; 3.中國(guó)交通通信信息中心, 北京 100011)
當(dāng)前,遙感信息技術(shù)在交通網(wǎng)絡(luò)建設(shè)與監(jiān)管中的應(yīng)用日益廣泛,如何從海量遙感影像數(shù)據(jù)中對(duì)橋梁、港口、機(jī)場(chǎng)、車站等重要交通設(shè)施場(chǎng)景進(jìn)行計(jì)算機(jī)自動(dòng)圖像特征提取,并將提取的設(shè)施場(chǎng)景圖像特征輸入分類算法模型,實(shí)現(xiàn)目標(biāo)設(shè)施的準(zhǔn)確分類與識(shí)別、及時(shí)獲取各類交通設(shè)施狀況,是智能化交通建設(shè)監(jiān)管的難點(diǎn)問(wèn)題,也是實(shí)現(xiàn)交通網(wǎng)絡(luò)數(shù)字化、智能化,建立交通網(wǎng)絡(luò)模型的重要技術(shù)之一,對(duì)綜合交通網(wǎng)絡(luò)布局、智慧交通建設(shè)等方面都具有重要的理論意義和實(shí)踐應(yīng)用價(jià)值[1-3]。近年來(lái),國(guó)內(nèi)外學(xué)者基于圖像紋理、形狀、顏色等低層特征和知識(shí)、語(yǔ)義等高層特征的提取,以及特征學(xué)習(xí)的方法,針對(duì)橋梁、機(jī)場(chǎng)、港口等某種交通目標(biāo)的識(shí)別與檢測(cè)進(jìn)行了一定研究,如Huertas等[4]對(duì)航拍圖像的紋理特征進(jìn)行提取,實(shí)現(xiàn)機(jī)場(chǎng)綜合體跑道的自動(dòng)檢測(cè);毛玲等[5]提出了一種復(fù)合線索視覺(jué)注意模型,利用高分辨率光學(xué)遙感圖像的港口多尺度低層特征和知識(shí)線索高層特征,實(shí)現(xiàn)了港口檢測(cè);Lu等[6]基于高空間分辨率遙感HSR(High Spatial Resolution)影像提取機(jī)場(chǎng)目標(biāo)。韓曉青等[7]提取地物邊緣輪廓,并結(jié)合SURF(Speed Up Robust Features)檢測(cè)到圖像中的機(jī)場(chǎng)目標(biāo);常永雷等[8]分析高分辨率遙感SAR影像的統(tǒng)計(jì)特征和橋梁特征,提出了一種新的橋梁自動(dòng)識(shí)別方法;秦偉鋒[9]基于層次化處理方法進(jìn)行了機(jī)場(chǎng)跑道及停機(jī)坪輪廓自動(dòng)提取,并綜合運(yùn)用Hough變換、數(shù)學(xué)形態(tài)學(xué)等多種圖像處理算法,完成了對(duì)機(jī)場(chǎng)目標(biāo)的識(shí)別;張志龍等[10]提出一種基于內(nèi)港岸線特征譜的方法識(shí)別港口。上述研究取得了較好的進(jìn)展,但基于低層特征進(jìn)行目標(biāo)識(shí)別與分類有一定的應(yīng)用限制,其識(shí)別精度也較低,且特征提取過(guò)程中由于圖像質(zhì)量、背景復(fù)雜程度及提取算法等都會(huì)影響識(shí)別精度,存在較大的不確定性[11]。
20世紀(jì)80年代,Rumelhart等[12]首次提出反向傳播算法,為機(jī)器學(xué)習(xí)的發(fā)展奠定了良好基礎(chǔ)。隨后,基于支持向量機(jī)(Support Vector Machine, SVM)、Boosting等淺層學(xué)習(xí)算法的應(yīng)用取得較好的效果,如Bhattacharya等[13]基于改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)完成道路目標(biāo)的檢測(cè);馬洪超等[14]以機(jī)場(chǎng)為研究對(duì)象,采用改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)作為算法工具識(shí)別機(jī)場(chǎng);Lv等[15]提出一種用模糊支持向量機(jī)對(duì)圖像進(jìn)行分類,再對(duì)所有分類的區(qū)塊構(gòu)建距離空間,通過(guò)在距離空間中設(shè)定閾值來(lái)定位橋梁。而支持向量機(jī)、僅含一層隱層的神經(jīng)網(wǎng)等一些淺層學(xué)習(xí)結(jié)構(gòu)的機(jī)器學(xué)習(xí)方法,在有限的樣本數(shù)量和計(jì)算單元對(duì)復(fù)雜函數(shù)的表示存在明顯不足,在復(fù)雜的分類問(wèn)題上更難以有效地表現(xiàn)性能和泛化能力[16],且基于反向傳播算法的BP神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過(guò)程中容易出現(xiàn)梯度消失現(xiàn)象,并在增加網(wǎng)絡(luò)層數(shù)后會(huì)出現(xiàn)過(guò)擬合問(wèn)題[17]。
近年來(lái),與淺層結(jié)構(gòu)相對(duì)應(yīng)的深度學(xué)習(xí)進(jìn)入快速發(fā)展階段,Hinton等[18]提出深層網(wǎng)絡(luò)訓(xùn)練中梯度消失的解決方案;Yosinski等[19]提出遷移學(xué)習(xí)方法,結(jié)合目前最大的圖像識(shí)別數(shù)據(jù)庫(kù)ImageNet構(gòu)建深度學(xué)習(xí)模型框架,有效解決小樣本數(shù)據(jù)訓(xùn)練模型易產(chǎn)生的過(guò)擬合問(wèn)題,且大大縮減模型訓(xùn)練時(shí)間;Zhang等[20]基于耦合卷積神經(jīng)網(wǎng)絡(luò)的弱監(jiān)督學(xué)習(xí)檢測(cè)機(jī)場(chǎng)目標(biāo);Cheng等[21]采用高空間分辨率遙感影像VHR(Very High Resolution),結(jié)合自動(dòng)編碼器的方法提取出了機(jī)場(chǎng)、道路等交通目標(biāo);楊淼等[22]基于卷積神經(jīng)網(wǎng)絡(luò)對(duì)港口進(jìn)行識(shí)別;牛新等[23]采用遷移學(xué)習(xí)方法在有標(biāo)簽樣本稀缺的情況下有效構(gòu)建深度網(wǎng)絡(luò),并利用目標(biāo)先驗(yàn)知識(shí)對(duì)潛在目標(biāo)進(jìn)行高效提取,可在秒級(jí)時(shí)間對(duì)機(jī)場(chǎng)進(jìn)行識(shí)別。大量研究表明基于深度學(xué)習(xí)在交通設(shè)施目標(biāo)的檢測(cè)應(yīng)用中精度較高,檢測(cè)效果良好,基于深度學(xué)習(xí)的交通設(shè)施目標(biāo)檢測(cè)成為研究熱點(diǎn)。
從上述研究現(xiàn)狀分析中可以看出,目前針對(duì)特定交通目標(biāo)檢測(cè)與識(shí)別的研究取得了一定進(jìn)展,但如何對(duì)機(jī)場(chǎng)、橋梁、港口、火車站、停車場(chǎng)等綜合交通設(shè)施場(chǎng)景進(jìn)行識(shí)別與分類還有待深入研究。在綜合交通設(shè)施場(chǎng)景中,相同交通設(shè)施目標(biāo)在場(chǎng)景上往往存在較大的差異,同時(shí)一些交通設(shè)施目標(biāo)與非交通設(shè)施在場(chǎng)景上又存在極大的相似性,且有些不同的交通設(shè)施目標(biāo)在場(chǎng)景上也會(huì)出現(xiàn)一定的相似性,這無(wú)疑給綜合交通設(shè)施目標(biāo)場(chǎng)景的識(shí)別與分類帶來(lái)了較大難度。而綜合交通設(shè)施場(chǎng)景自動(dòng)分類與識(shí)別對(duì)于交通網(wǎng)絡(luò)的規(guī)劃與布局、城市的結(jié)構(gòu)優(yōu)化與發(fā)展等具有重要的價(jià)值。
鑒于深度學(xué)習(xí)方法在圖像分類識(shí)別領(lǐng)域的潛在優(yōu)勢(shì)和廣泛應(yīng)用前景,本文采用Caffe框架中的CaffeNet模型進(jìn)行綜合交通設(shè)施的分類與識(shí)別。CaffeNet模型具有模塊化設(shè)置,便于擴(kuò)展新的任務(wù),能高效處理海量數(shù)據(jù),同時(shí)又具有極高的識(shí)別精度等優(yōu)勢(shì)。數(shù)據(jù)集使用遙感圖像場(chǎng)景分類的AID(Aerial Image Data)數(shù)據(jù)集[24],并根據(jù)遷移學(xué)習(xí)的思想,基于ImageNet圖像庫(kù)預(yù)訓(xùn)練出的CaffeNet模型進(jìn)行特征提取,然后將特征輸入到SVM分類器進(jìn)行分類識(shí)別。研究結(jié)果證明:相較于基于VGG-16、GoogleNet這2種深度學(xué)習(xí)模型以及典型的基于顏色直方圖特征提取、局部二值化特征提取和尺度不變特征提取等方法,基于CaffeNet模型的方法在機(jī)場(chǎng)、橋梁、港口、停車場(chǎng)及火車站等目標(biāo)的分類與識(shí)別中,性能最穩(wěn)定,具有最高的分類精度,對(duì)各類交通設(shè)施目標(biāo)的識(shí)別率均達(dá)到了90%以上,可以有效實(shí)現(xiàn)對(duì)綜合交通設(shè)施場(chǎng)景的高精度分類與識(shí)別。
深度學(xué)習(xí)CaffeNet模型是一種卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network)方法,卷積神經(jīng)網(wǎng)絡(luò)是一類包含卷積計(jì)算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò),是深度學(xué)習(xí)的主要方法之一[25]。CaffeNet為卷積神經(jīng)網(wǎng)絡(luò)的一個(gè)開(kāi)源框架,具有速度快、模塊化、開(kāi)放性等優(yōu)點(diǎn)。圖像輸入CaffeNet模型后經(jīng)過(guò)卷積層、池化層、激活函數(shù)、全連接層的處理,獲得特征向量,并將結(jié)果輸出到分類器中進(jìn)行分類。其中卷積層是對(duì)圖像的濾波計(jì)算過(guò)程,卷積運(yùn)算如公式(1)所示。
g(x,y)=f(x,y)*w(i,j)=
(1)
式中:f(x,y)為圖像中x行y列的灰度值;w為卷積核即濾波器。
卷積層是卷積神經(jīng)網(wǎng)絡(luò)的重要組成之一,用于提取圖像特征。卷積層采用一系列可訓(xùn)練的卷積核對(duì)上一層輸出數(shù)據(jù)進(jìn)行卷積運(yùn)算,并用一個(gè)非線性函數(shù)將卷積結(jié)果變換到某一個(gè)限定范圍內(nèi),從而使模型具有非線性特征。卷積層計(jì)算如式(2)所示。
(2)
通過(guò)卷積層獲取的特征維數(shù)一般較大,易出現(xiàn)過(guò)擬合,故使用池化層對(duì)輸入圖像進(jìn)行降采樣處理。池化層對(duì)輸入特征圖像的相鄰像素之間進(jìn)行取平均或求最大值,以降低特征圖的分辨率。池化層的計(jì)算如式(3)所示。
(3)
CaffeNet模型采用ReLU(Rectified Linear Units)激活函數(shù),能夠有效緩解梯度彌散問(wèn)題,從而直接以監(jiān)督的方式訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)[26]。ReLU的具體形式如式(4)所示。
(4)
全連接層一般出現(xiàn)在網(wǎng)絡(luò)的末端,但并不是必須的,可以是沒(méi)有或多個(gè)。全連接層的每一個(gè)神經(jīng)元都與前一層的所有神經(jīng)元相連接,它的主要作用是將二維特征圖轉(zhuǎn)換成一維向量,便于輸出層進(jìn)行分類。輸出層是卷積神經(jīng)網(wǎng)絡(luò)最后一層,它的作用是對(duì)輸入的一維向量進(jìn)行分類。輸出層相當(dāng)于一個(gè)分類器,本文采用SVM分類器。輸出層與前一層也是采用全連接形式,輸出也是一個(gè)一維向量,維數(shù)等于分類數(shù)目。
實(shí)驗(yàn)數(shù)據(jù)采用AID數(shù)據(jù)集中的機(jī)場(chǎng)、橋梁、停車場(chǎng)、港口、火車站等5類交通設(shè)施場(chǎng)景圖像,其中機(jī)場(chǎng)場(chǎng)景圖像360幅,橋梁場(chǎng)景圖像360幅、停車場(chǎng)場(chǎng)景圖像390幅,港口場(chǎng)景圖像380幅,火車站場(chǎng)景圖像260幅;同時(shí)選取非交通設(shè)施場(chǎng)景圖像800幅。圖像的空間分辨率為0.5~8 m/像元。實(shí)驗(yàn)中,采用隨機(jī)抽樣方法,從每類場(chǎng)景圖像中選取50%的圖像作為訓(xùn)練數(shù)據(jù)集,另外50%的圖像作為測(cè)試數(shù)據(jù)集,圖1為圖像實(shí)驗(yàn)數(shù)據(jù)示例。
采用的分類方法由CaffeNet深度學(xué)習(xí)模型與支持向量機(jī)(SVM)分類器構(gòu)成,為解決基于CaffeNet模型用于綜合交通設(shè)施場(chǎng)景分類識(shí)別時(shí)需要大量帶標(biāo)簽預(yù)訓(xùn)練樣本的問(wèn)題,根據(jù)遷移學(xué)習(xí)的思路,采用基于ImageNet圖像庫(kù)預(yù)訓(xùn)練的CaffeNet模型,進(jìn)行綜合交通設(shè)施場(chǎng)景圖像的特征提取,避免了小樣本數(shù)據(jù)訓(xùn)練模型可能產(chǎn)生的過(guò)擬合問(wèn)題,同時(shí)縮減了模型訓(xùn)練時(shí)間。在CaffeNet模型中,圖像經(jīng)過(guò)卷積、池化、局部歸一化操作后,以特征圖的形式輸入全連接層中,然后將全連接后得到的一維特征向量輸入至SVM分類器中進(jìn)行分類。采用的CaffeNet模型結(jié)構(gòu)如圖2所示,圖中Ci為卷積層,Si為池化層,Relu為激活函數(shù),fc1為全連接層,共5個(gè)卷積層,3個(gè)池化層,1個(gè)全連接層。輸入場(chǎng)景圖像大小為227像元×227像元,通過(guò)上述卷積、池化等操作后,最后全連接為一維4 096單元的特征向量,并將該向量輸入SVM分類器中。
圖1 綜合交通設(shè)施場(chǎng)景圖像實(shí)驗(yàn)數(shù)據(jù)示例
圖2 基于深度學(xué)習(xí)CafeNet模型方法的特征提取與分類流程圖
實(shí)驗(yàn)過(guò)程中,首先基于CaffeNet模型針對(duì)所有綜合交通設(shè)施場(chǎng)景圖像及非交通設(shè)施場(chǎng)景圖像數(shù)據(jù)集進(jìn)行抽象特征提??;并將其中訓(xùn)練數(shù)據(jù)集的抽象特征輸入SVM分類器,對(duì)SVM分類器進(jìn)行訓(xùn)練;然后將測(cè)試樣本集的抽象特征數(shù)據(jù)輸入訓(xùn)練后的SVM分類器,進(jìn)行分類。
為驗(yàn)證方法的可重復(fù)性和有效性,在分類識(shí)別實(shí)驗(yàn)中進(jìn)行反復(fù)測(cè)試,共完成4 800次實(shí)驗(yàn),每次實(shí)驗(yàn)均將樣本庫(kù)中每一類交通設(shè)施場(chǎng)景圖像的訓(xùn)練樣本與測(cè)試樣本進(jìn)行隨機(jī)分配,各占50%。圖3為基于CaffeNet深度學(xué)習(xí)模型針對(duì)綜合交通設(shè)施目標(biāo)的4 800次實(shí)驗(yàn)分類精度折線圖。通過(guò)4 800次實(shí)驗(yàn),可以看出該算法分類精度穩(wěn)定在一定范圍內(nèi),并呈現(xiàn)出圍繞某一具體值(圖中黑線所指示的值)上下波動(dòng)的趨勢(shì),該中心值的分類精度為93.8%,即為采用CaffeNet網(wǎng)絡(luò)進(jìn)行綜合交通設(shè)施目標(biāo)分類的平均精度。圖4為基于CaffeNet網(wǎng)絡(luò)深度學(xué)習(xí)分類算法針對(duì)不同類別交通設(shè)施場(chǎng)景的識(shí)別精度。其中,針對(duì)停車場(chǎng)的識(shí)別精度最高,為98.5%;機(jī)場(chǎng)的識(shí)別精度相對(duì)最低,為90.6%。通過(guò)對(duì)分類結(jié)果圖例進(jìn)行分析,由于非交通設(shè)施中存在許多與機(jī)場(chǎng)場(chǎng)景特征近似的圖像,導(dǎo)致部分非交通設(shè)施場(chǎng)景圖像被誤判為機(jī)場(chǎng)場(chǎng)景。
圖3 基于深度學(xué)習(xí)CaffeNet模型方法的分類精度隨實(shí)驗(yàn)次數(shù)變化曲線
圖4 基于深度學(xué)習(xí)CaffeNet模型方法的綜合交通設(shè)施場(chǎng)景分類實(shí)驗(yàn)結(jié)果
同時(shí),在實(shí)驗(yàn)中將基于CaffeNet模型的分類方法與基于VGG-16和GoogleNet這2種深度學(xué)習(xí)模型以及基于顏色直方圖特征提取算法(Color Histogram, CH)、局部二值化特征提取算法(Local Binary Patterns, LBP)和尺度不變特征提取算法(Scale-invariant Feature Transform,SIFT)進(jìn)行了對(duì)比研究。其中VGG-16和GoogleNet都是基于卷積神經(jīng)網(wǎng)絡(luò)原理的深度學(xué)習(xí)模型,均由卷積層、池化層、全連接層組成,本研究選用的VGG-16模型包括12個(gè)卷積層以及8個(gè)全連接層,其基本原理是通過(guò)增加網(wǎng)絡(luò)的層數(shù)優(yōu)化特征提取效果;GoogleNet模型是一種全新的深度學(xué)習(xí)模型,該模型不僅增加網(wǎng)絡(luò)層數(shù),還增加了網(wǎng)絡(luò)中神經(jīng)元數(shù),從寬度與深度2個(gè)方面對(duì)網(wǎng)絡(luò)的尺寸進(jìn)行提升,進(jìn)而提升模型的特征提取能力。而SIFT、CH以及LBP這3種特征提取算法基于圖像中待識(shí)別場(chǎng)景的顏色、紋理、結(jié)構(gòu)等低層特征,是目前常用的典型特征提取算法。本文采用上述方法對(duì)圖像場(chǎng)景目標(biāo)進(jìn)行特征提取,再利用SVM分類器對(duì)測(cè)試集圖像進(jìn)行分類,并與CaffeNet模型進(jìn)行對(duì)比分析,分類比較結(jié)果如表1所示。
表1 基于不同方法的場(chǎng)景分類結(jié)果精度對(duì)比模型類別不同場(chǎng)景的精度/%機(jī)場(chǎng)橋梁停車場(chǎng)港口火車站平均值CaffeNet90.693.998.592.193.893.8VGG-1690.697.897.994.282.792.6GoogleNet86.191.797.991.688.591.2CH61.728.968.758.941.552.0LBP10.07.248.243.716.225.1SIFT1.10.036.927.425.418.2
由表1可以看出,基于深度學(xué)習(xí)模型的場(chǎng)景分類具有精度高、結(jié)果穩(wěn)定的優(yōu)點(diǎn): 其中VGG-16模型方法的平均分類精度值為92.6%,GoogleNet模型的平均分類精度值為91.2%,CaffeNet模型的分類方法在3類方法中最優(yōu),其平均分類精度達(dá)到了93.8%,而且針對(duì)機(jī)場(chǎng)、橋梁、停車場(chǎng)、港口、火車站等交通設(shè)施相對(duì)都較穩(wěn)定,識(shí)別精度均在90%以上?;诘蛯犹卣鞯腃H、LBP、SIFT這3種方法相對(duì)于深度學(xué)習(xí)的方法而言,準(zhǔn)確率低且分類精度不穩(wěn)定。其中,基于CH特征提取的方法相對(duì)較好,平均識(shí)別精度達(dá)到52%,而基于LBP和SIFT特征提取方法的平均分類精度僅為25.1%和18.2%,且SIFT算法基本無(wú)法識(shí)別機(jī)場(chǎng)與橋梁等交通場(chǎng)景設(shè)施。
利用CaffeNet深度學(xué)習(xí)模型與支持向量機(jī)(SVM)分類器,實(shí)現(xiàn)了對(duì)綜合交通設(shè)施場(chǎng)景目標(biāo)的識(shí)別與分類?;贑affeNet模型,采用AID數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù),通過(guò)多層卷積、池化、全連接等過(guò)程提取機(jī)場(chǎng)、橋梁、停車場(chǎng)、港口、火車站等交通設(shè)施場(chǎng)景圖像的特征向量,并將提取的特征向量輸入SVM分類器實(shí)現(xiàn)綜合交通設(shè)施場(chǎng)景的分類,對(duì)上述5類綜合交通設(shè)施場(chǎng)景的平均分類精度為93.8%,所有交通設(shè)施的場(chǎng)景分類結(jié)果均在90%以上,其中針對(duì)停車場(chǎng)的分類精度最高,達(dá)到了98.5%。同時(shí),選取VGG-16與GoogleNet兩種深度學(xué)習(xí)模型以及SIFT、LBP、CH這3種基于低層特征的特征提取算法與基于CaffeNet模型的方法進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果顯示基于CaffeNet模型的方法識(shí)別精度最高,算法的穩(wěn)定性最強(qiáng)?;谏疃葘W(xué)習(xí)CaffeNet模型的綜合交通設(shè)施場(chǎng)景分類,能夠?qū)崿F(xiàn)機(jī)場(chǎng)、橋梁、停車場(chǎng)、港口、火車站等場(chǎng)景圖像的較高精度識(shí)別,為未來(lái)城市規(guī)劃、交通網(wǎng)絡(luò)布局以及智慧城市發(fā)展提供了一定技術(shù)支撐。