張 裕,楊海濤,袁春慧
(航天工程大學 a.研究生管理大隊; b.航天遙感室, 北京 101416)
航天遙感技術是一種通過衛(wèi)星對地觀測獲取遙感圖像信息數(shù)據(jù)的技術,這些圖像數(shù)據(jù)在各領域都發(fā)揮著不可或缺的作用。遙感圖像分類主要是根據(jù)地面物體電磁波輻射在遙感圖像上的特征,判斷識別地面物體的屬性,進而為目標檢測與識別等其他應用提供輔助信息,也可以作為最終結(jié)果提供基礎地理信息用于地圖繪測、搶險救災、軍事偵察等領域。遙感圖像分類是遙感技術應用的一個重要環(huán)節(jié)。
在過去的幾十年里,各方面學者對遙感圖像的分類有著諸多研究,提出了許多分類方法,按是否需要選取標記樣本可將分類方法分為監(jiān)督分類和非監(jiān)督分類。根據(jù)最小分類單元可將分類方法分為基于像元的分類、基于對象的分類,以及基于混合像元分解的分類。此外,不同類型的遙感圖像(多光譜遙感圖像、高光譜遙感圖像、合成孔徑雷達圖像)分類方法也不盡相同。本文主要從特征空間的角度對各分類方法進行歸類介紹。由于目標分類通常是在特征空間中進行的,因此特征的表達與學習是實現(xiàn)目標分類的關鍵。根據(jù)表達和學習特征的方式,可將現(xiàn)有的遙感圖像分類方法大致分為三類:基于人工特征描述的分類方法、基于機器學習的分類方法和基于深度學習的分類方法。需要注意的是,這三類方法并沒有嚴格的區(qū)分界線,相互之間互有重疊和借鑒。
早期的圖像分類主要是基于人工提取的圖像特征進行分類。這些方法主要是依靠有大量專業(yè)領域知識和實踐經(jīng)驗的專家來設計各種圖像特征,例如顏色、形狀、紋理、光譜信息等等,這些特征包含了大量可用于目標分類的有用信息。幾個最具代表性的人工描述特征包括顏色直方圖、紋理特征、方向梯度直方圖和尺度不變特征變換。
1) 顏色直方圖
顏色直方圖(Color histograms)[1]能簡單描述一幅圖像中顏色的分布,即不同顏色在整個圖像中所占的比例,是圖像檢索和圖像分類中常用的視覺特征[2]。顏色直方圖易于計算,且具有很好的平移和旋轉(zhuǎn)不變性。其缺點在于無法描述圖像中顏色的分布及每種色彩所處的空間位置,即不能傳達空間信息。此外,顏色直方圖對光照變化和量化誤差也很敏感。
2) 紋理特征
紋理特征(Texture features)也是一種全局特征,它描述了圖像或圖像區(qū)域所對應目標的表面性質(zhì)。其中灰度共生矩陣(GLCM),Gabor特征和局部二值模式(Local binary patterns LBP)等被廣泛應用于遙感圖像分類[2]。紋理特征對于識別具有明顯紋理特征的目標圖像非常有用。其主要缺點在于當圖像的分辨率、目標光照情況發(fā)生變化時,目標圖像紋理可能會產(chǎn)生較大偏差,影響分類效果。
3) 方向梯度直方圖
方向梯度直方圖(Histogram of Oriented Gradient,HOG)是一種圖像局部紋理特征。它通過計算和統(tǒng)計圖像局部區(qū)域的方向梯度直方圖構成圖像特征,由于HOG是在圖像的局部區(qū)域操作,因此它對圖像幾何形變和光照變化能保持較好的不變性,它已經(jīng)在許多圖像分類任務中取得了巨大的成功[3]。其缺點在于計算過程冗長,對噪點特別敏感。
4) 尺度不變特征變換
尺度不變特征變換(Scale-invariant feature transform,SIFT)[4],是一種局部特征描述子,它通過確定關鍵點周圍的梯度信息描述子區(qū)域。SIFT特征檢測的主要步驟是:a尺度空間極值檢測,通過微分函數(shù)識別圖中興趣點;b關鍵點定位,在候選位置上確定模型和尺度;c方向確定,根據(jù)圖像的局部梯度,為每個關鍵點分配一個或多個方向;d關鍵點描述,在關鍵點的鄰域內(nèi)測量圖像的局部梯度,進而生成相應特征描述。提取的特征將用于目標分類與識別。SIFT所提取的圖像特征是局部特征,具有尺度和旋轉(zhuǎn)不變性,對亮度變化、視角變化、仿射變化及噪聲也有一定程度的穩(wěn)定性。當特征點不多時,算法處理速度也相對較快,適于在海量特征數(shù)據(jù)中進行快速、準確的匹配。但SIFT是一種只利用到灰度性質(zhì)的算法,無法識別圖像的色彩信息。當目標圖像形狀相似時,分類錯誤率較高。
基于人工特征描述的分類方法具有直觀、易于理解的優(yōu)點。顏色直方圖和紋理特征描述了整個目標圖像在特定方面的統(tǒng)計學特性,因而可以直接輸入分類器用于目標分類。而HOG特征和SIFT描述子通常用來作為構建全局圖像特征的構建塊,例如視覺詞袋(Bag-of-Visual-Words,BoVW)模型[5]和基于HOG特征塊的模型[6]。以上方法在一定程度上解決了遙感圖像分類問題。隨著遙感技術的迅速發(fā)展,遙感圖像分辨率越來越高,圖像中大量細節(jié)的出現(xiàn)使得單一特征難以全面表達目標對象,多特征融合的方法開始用于遙感圖像分類。多特征融合的方法對改善分類效果有所幫助,但如何有效組合特征以使分類效果最優(yōu)仍未解決。此外,基于人工特征描述的分類方法特征的設計依賴于相關專業(yè)知識和經(jīng)驗,在面對復雜圖像時,這些特征的描述能力十分有限。
近年來,建立在概率統(tǒng)計基礎上的機器學習為遙感圖像分類提供了許多可行方法。典型的機器學習方法包括支持向量機、決策樹、主成分分析法、k均值聚類和稀疏表示等。
1) 支持向量機
支持向量機(Support Vector Machine,SVM)是一種監(jiān)督學習方法,它通過引入核函數(shù)的概念在高維特征空間解算最優(yōu)化問題,進而尋找最優(yōu)分類超平面,解決復雜數(shù)據(jù)分類問題。近年來在遙感圖像識別分類問題中有著較多的應用。文獻[7]研究了SVM在建筑物分類中的應用,分類精度達到了90%。文獻[8]用Canny邊緣檢測算子,去除短線和曲線,用Hough變換檢測長直線,最后利用SVM實現(xiàn)了機場跑道的識別。此外還有許多基于SVM的改進方法,文獻[9]構造一個半監(jiān)督SVM分類器的集合來解決遙感圖像分類問題。文獻[10]利用最小二乘支持向量機對目標區(qū)地質(zhì)巖性進行分類。在實際應用中,SVM具有穩(wěn)定、易用等特點,但其在解決多類目標分類問題中表現(xiàn)較差,如何正確選擇核函數(shù)也沒有相關的理論依據(jù)。
2) 決策樹
決策樹(Decision Tree)是一種歸納推理的分類方法,通過對圖像光譜、顏色、空間等信息定義規(guī)則,從中心節(jié)點出發(fā),對圖像各類信息值進行比較,得出新的分支,通過更新規(guī)則得到新的決策樹,直到滿足分類要求,最終的節(jié)點即為分類結(jié)果。近年來有基于決策樹算法改進的隨機森林模型[11]以及CART決策樹[12]陸續(xù)用于遙感圖像分類。決策樹算法易于理解,可操作性高,能夠處理多輸出問題。其缺點在于泛化能力太差,在處理高維數(shù)據(jù)時表現(xiàn)不佳。
3) 主成分分析法
主成分分析法(Principal Components Analysis,PCA)通過一個線性變化把目標數(shù)據(jù)變換轉(zhuǎn)成另一組不相關的變量,并將新的變量按照方差依次遞減的順序排列。主成分分析法通過保留低階主成分,忽略高階主成分做到減少數(shù)據(jù)的維數(shù),保存了數(shù)據(jù)中對方差貢獻最大的特征。該算法是一種無監(jiān)督訓練的簡單模型,能夠?qū)W習到用于多類圖像分類任務的不變特征進而進行目標分類[13-14]。其缺點在于PCA是線性運算,無法獲得更多的抽象表示,因而其特征的描述能力是有限的。
4)k均值聚類
k均值聚類(K-means)是一種矢量化方法,旨在將一組數(shù)據(jù)項劃分為k個集群,并將相似的對象歸到同一個集群中。該算法運算步驟如下:a隨機生成k個初始點作為質(zhì)心;b將數(shù)據(jù)集中的數(shù)據(jù)按照距離質(zhì)心的遠近分到各個群集中;c將各個集群中的數(shù)據(jù)求平均值,作為新的質(zhì)心,重復上一步,直到所有的集群不再改變時終止。由于其簡單性,K-means被廣泛用于無監(jiān)督的遙感圖像分類。典型的例子是基于BoVW的方法[15-16],其中視覺字典(碼本)是通過在一組本地特征上執(zhí)行k均值聚類運算得到的。K-means算法易于理解,復雜度低,能夠在短時間內(nèi)處理海量的數(shù)據(jù),聚類效果尚可。缺點在于對噪聲和離群點敏感,在算法運行前需要先確認K值,但目前并沒有明確理論指導確定K值,而且其分類結(jié)果不一定是全局最優(yōu)值。
5) 稀疏表示
稀疏表示(Sparse representation)[17]是一種無監(jiān)督學習方法,其目的是在給定的超完備字典中用盡可能少的原子表示圖像信號,從而獲得圖像更為簡潔的特征表示,方便對圖像進行分類處理。最近,許多學者將稀疏編碼方法用于遙感圖像的目標分類。文獻[18]介紹了一種基于稀疏表示的改進分類方法并討論了使用稀疏矢量重建圖像進行分類;文獻[19]采用稀疏表達來進行特征描述,結(jié)合支持向量機對目標進行檢測。在實際應用中,稀疏表示具有計算速度快、自適應性強以及能高性能表示結(jié)果等優(yōu)點。其主要難點在于如何構建完備字典。
在實際應用中,上述基于機器學習的分類方法在遙感圖像分類任務中取得了良好的效果,尤其是與基于人工特征描述的分類方法相比。但隨著遙感技術的進步,遙感圖像信息呈現(xiàn)海量增長的趨勢,目標樣本的數(shù)量和多樣性也急劇增加,上述機器學習的分類方法屬于淺層學習網(wǎng)絡,很難建立復雜的函數(shù)表示,不能適應復雜樣本的遙感圖像分類。
深度學習(deep learning)作為機器學習算法中的一個新興技術,其動機在于建立模擬人腦進行分析學習的神經(jīng)網(wǎng)絡,它能通過海量的訓練數(shù)據(jù)和具有很多隱藏層的深度模型學習更有用的特征,最終提升分類的準確性。近年來深度學習在圖像分類應用中取得了令人矚目的成績,越來越多的學者開始將深度學習應用于遙感圖像處理中。幾種常用的深度學習方法包括自動編碼器、卷積神經(jīng)網(wǎng)絡、深度信念網(wǎng)絡和針對小訓練樣本的遷移學習。
1) 自動編碼器
自動編碼器(AutoEncoder,AE)[20]是一種無監(jiān)督的學習算法,主要用于數(shù)據(jù)的降維或者特征的提取。這種算法的思想是將神經(jīng)網(wǎng)絡的隱藏層看成是編碼器和解碼器。編碼器將圖像數(shù)據(jù)映射到特征空間,解碼器將數(shù)據(jù)映射回數(shù)據(jù)空間,從而對輸入數(shù)據(jù)進行重構。自動編碼器非常適合處理高維數(shù)據(jù),在樣本數(shù)較多的情況下,分類效果明顯高于SVM等傳統(tǒng)分類方法。近年來已成功應用于圖像分類[21],特別是基于自動編碼器改進的去噪自編碼器 (DAE)[22]和棧式自編碼器SAE,在遙感圖像分類任務中取得了良好的分類效果。自動編碼器的缺點在于模型的泛化能力較差,即當測試樣本和訓練樣本不符合同一分布時,分類效果欠佳。
2) 卷積神經(jīng)網(wǎng)絡
卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)[23]是模仿人類視覺大腦皮層機理建立的網(wǎng)絡。一個典型的CNN由輸入層、卷積層(Convolutional Layer)、池化層(Pooling Layer)和全連接層(Full Connected Layer)、輸出層構成,CNN的下層通常學習基本特征,隨著網(wǎng)絡深度的增加,特征變得更加復雜并且被分層構建。全連接層在CNN網(wǎng)絡的末端,從前層的分層輸出中學習復雜的非線性函數(shù)提取抽象特征,最終通過一個分類器進行分類。近年來,CNN在圖像分類處理領域取得了巨大的成功。比較成熟的CNN模型包括AlexNet、VGG、GoogleNet、ResNet等。CNN在遙感圖像分類中也有著廣泛的應用[24-25]。CNN的主要缺點在于需要大數(shù)據(jù)量的訓練集來學習確定各層網(wǎng)絡參數(shù)。同時,隨著網(wǎng)絡層數(shù)的增加,容易出現(xiàn)局部最優(yōu)及過擬合。
3) 深度信念網(wǎng)絡
深度信念網(wǎng)絡(Deep Belief Network,DBN)由Hinton等人提出[26]。它由多個受限玻爾茲曼機(Restricted Boltzman Machine,RBM一種可以用來對各種數(shù)據(jù)進行建模的概率生成模型,基本功能與AE類似)和反向傳播(BP)網(wǎng)絡組成。DBN通過訓練其神經(jīng)元間的權重,可以讓整個神經(jīng)網(wǎng)絡按照最大概率生成訓練數(shù)據(jù)。其訓練過程是采用非監(jiān)督方式自下而上通過每層的RBM學習無標簽樣本提取圖像特征,在DBN的最后一層連接一個分類器,接收 RBM 的輸出特征向量作為它的輸入特征向量,有監(jiān)督地訓練分類器,最后用反向傳播算法微調(diào)整個DBN,以達到一個較好的分類水平。DBN通過對各RBM層進行單獨訓練完成整個網(wǎng)絡的訓練,提升了網(wǎng)絡的訓練速度,使系統(tǒng)對復雜數(shù)據(jù)分類問題的處理能力有較大提升,并且克服了直接對深度神經(jīng)網(wǎng)絡進行訓練時容易出現(xiàn)局部最優(yōu)等問題。DBN在多項遙感圖像分類實驗中分類精度達到80%以上[27-28]。DBN的缺點在于模型不能明確不同類別之間的最優(yōu)分類面,所以在分類任務中,分類精度可能沒有判別模型高,此外DNB還要求輸入數(shù)據(jù)具有平移不變性,并且不適當?shù)膮?shù)選擇會導致學習收斂于局部最優(yōu)解。
4) 遷移學習
遷移學習是指將一個分類問題上訓練好的模型經(jīng)過調(diào)整和優(yōu)化使其能適用于另一個分類問題。深度學習網(wǎng)絡的訓練需要大量的訓練樣本,目前常見的幾個遙感圖像數(shù)據(jù)集包括Indian pines、kennedy Space Center、 Pavia City Center 、Salinas等。隨著網(wǎng)絡的加深加寬,這些數(shù)據(jù)集的分類精度趨于飽和,逐漸不能滿足訓練要求。遷移學習旨在解決訓練數(shù)據(jù)不足的問題,近年來,有學者利用遷移學習解決遙感圖像數(shù)據(jù)集不足的問題[29]。但當傳感器類型發(fā)生變化或者成像區(qū)域不同時,分類效果極差[30]。
深度學習的出現(xiàn),顯著地提升了遙感圖像分類的效果。一方面,與需要大量專業(yè)知識和經(jīng)驗的人工特征描述的分類方法相比,深度學能通過深層架構自動學習數(shù)據(jù)特征,這是深度學習方法的關鍵優(yōu)勢;另一方面,與常用的淺層機器學習模型相比,由多個處理層組成的深度學習模型可以學習到更強大的具有多個抽象層次的數(shù)據(jù)特征,這些抽象的深層特征更適用于語義級別的目標分類。隨著計算機計算能力的進步,深度學習網(wǎng)絡結(jié)構往更深、更寬方向發(fā)展,但如何選擇合適的網(wǎng)絡結(jié)構和參數(shù)以達到最優(yōu)的分類效果仍是亟待解決的問題,對各隱藏層提取的抽象特征的物理含義也缺乏明確的解釋,同時,缺乏有效的訓練數(shù)據(jù)集也是制約分類精度提升的瓶頸。
基于人工特征描述的分類方法在早期為遙感圖像的分類提供了解決方案,隨后建立在概率統(tǒng)計基礎上的機器學習進一步提高了分類精度。深度學習出現(xiàn),使人們不再需要完全依賴人類專家去設計特征,并且使分類精度有了質(zhì)的飛躍,但深度網(wǎng)絡建??梢暬щy和數(shù)據(jù)集的缺乏制約了分類精度的進一步提高。未來將更加快速準確地確定深度學習的網(wǎng)絡結(jié)構和參數(shù)。在實際應用中,深度學習系統(tǒng)的深度和寬度對分類效果有明顯的影響,更深更寬的網(wǎng)絡可以挖掘出數(shù)據(jù)中更為抽象的特征表示,提高分類效能,但過大的網(wǎng)絡模型又會增大訓練消耗,降低訓練效率,還可能會降低網(wǎng)絡的泛化性,出現(xiàn)過擬合的現(xiàn)象。如何在保證分類效果的同時有效地縮減網(wǎng)絡的復雜度,也是當前研究的熱點之一。隨著科技的進步,各類型數(shù)據(jù)呈現(xiàn)海量增長的趨勢,也可以考慮將多類型傳感器、智能終端、社交網(wǎng)站等多源異構數(shù)據(jù)融合進行遙感圖像分類處理。多源異構數(shù)據(jù)能夠能從不同的方面提供目標圖像特征和信息。不同特征和信息的融合,既保留了參與融合的多特征的有效鑒別信息,又在一定程度上避免了單一數(shù)據(jù)的不確定性,令分類結(jié)果更加可靠,使遙感圖像目標分類的結(jié)果更加全面準確。