劉 揚(yáng),付征葉,鄭逢斌
(1.河南大學(xué)空間信息處理實(shí)驗(yàn)室,河南開封475004;2.河南大學(xué)環(huán)境與規(guī)劃學(xué)院,河南開封475004;3.河南大學(xué)計(jì)算機(jī)與信息工程學(xué)院,河南開封475004;4.河南大學(xué)軟件學(xué)院,河南開封475004)
基于神經(jīng)認(rèn)知計(jì)算模型的高分辨率遙感圖像場景分類
劉 揚(yáng)1,2,3,付征葉4,鄭逢斌1,3
(1.河南大學(xué)空間信息處理實(shí)驗(yàn)室,河南開封475004;2.河南大學(xué)環(huán)境與規(guī)劃學(xué)院,河南開封475004;3.河南大學(xué)計(jì)算機(jī)與信息工程學(xué)院,河南開封475004;4.河南大學(xué)軟件學(xué)院,河南開封475004)
通過大腦對外界環(huán)境感知的神經(jīng)結(jié)構(gòu)與認(rèn)知功能的相關(guān)研究,構(gòu)建仿腦的媒體神經(jīng)認(rèn)知計(jì)算(multimedia neural cognitive computing,MNCC)模型。該模型模擬了感官的信息感知、新皮層功能柱的認(rèn)知功能、丘腦的注意控制結(jié)構(gòu)、海馬體的記憶存儲(chǔ)和邊緣系統(tǒng)的情緒控制環(huán)路等大腦基本的神經(jīng)結(jié)構(gòu)和認(rèn)知功能。在此基礎(chǔ)上,構(gòu)建基于MNCC的高分辨率遙感圖像場景分類算法。首先,圖像經(jīng)仿射變換后切分為若干圖塊,通過深度神經(jīng)網(wǎng)絡(luò)提取圖塊的稀疏激活特征,采用概率主題模型獲取圖塊初始場景類別,并利用圖塊分類錯(cuò)誤信息反饋控制場景顯著區(qū)特征的提??;其次,根據(jù)圖塊的上下文獲取場景語義的時(shí)空特征,并在此基礎(chǔ)上進(jìn)行圖塊分類和場景預(yù)分類;最后,用場景預(yù)分類誤差構(gòu)造獎(jiǎng)懲函數(shù),控制和選擇深度神經(jīng)網(wǎng)絡(luò)中場景區(qū)分度較大的稀疏激活特征,并通過增量式強(qiáng)化集成學(xué)習(xí),獲得最后的場景分類。在兩個(gè)標(biāo)準(zhǔn)的高分辨率遙感圖像數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,MNCC算法具備較好場景分類結(jié)果。
媒體神經(jīng)認(rèn)知計(jì)算;遙感場景分類;深度神經(jīng)網(wǎng)絡(luò);稀疏激活特征;概率主題模型;增量式強(qiáng)化集成學(xué)習(xí)
場景分類是學(xué)習(xí)和發(fā)現(xiàn)圖像與場景語義內(nèi)容標(biāo)簽的一個(gè)映射過程。按照感知數(shù)據(jù)源可將場景分類劃分為視覺場景分類和聽覺場景分類兩種常見感覺類型的場景。源于機(jī)器視覺的視覺場景分類研究,根據(jù)特征提取的層次一般又可分為低層特征描述和中層特征描述的兩大主流方法;根據(jù)語義分類標(biāo)簽的設(shè)置情況又有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)之分。低層特征描述常采用場景圖像的顏色描述[1]、基于對象的特征描述[2]、方向梯度[3]及密度特征描述[4]、特征點(diǎn)描述[56]、變換域的紋理描述[7]等。全局的低層特征往往無法反映局部對象,在此基礎(chǔ)上,考慮局部低層特征描述[8]、多局部特征融合[9]以及集成學(xué)習(xí)[10]來提高場景分類的識(shí)別率。
由于低層特征描述往往泛化性能差,難用于處理訓(xùn)練集以外的圖像分類,目前場景分類算法大部分集中在基于中層語義建模的場景分類。中層語義是低層特征的一種聚集和整合,具體包括語義的屬性、對象和局部語義概念(如語義主題模型、稀疏表示)等,其本質(zhì)是基于統(tǒng)計(jì)分布建立低層特征與語義的聯(lián)系?;谝曈X詞袋(bag of VisTerm,Bo V)模型的場景分類是目前廣泛采用的中層語義算法。Bo V模型無需分析場景具體目標(biāo)組成,根據(jù)場景低層特征統(tǒng)計(jì)特性建立視覺單詞,然后利用文本相關(guān)模型來處理圖像內(nèi)容的表示[11]??紤]圖像空間關(guān)系[12]、尺度和層次關(guān)系[13]、上下文關(guān)系[14]可獲得有效的描述場景的視覺單詞。
與經(jīng)典的采用統(tǒng)計(jì)直方圖特性提取空間語義相比,基于概率主題模型(probabilistic topic model,PTM)的Bo V可采用無監(jiān)督方法簡潔地表示復(fù)雜語義的概率分布。采用PTM可對視詞進(jìn)行降維,并用學(xué)到的中層語義的主題特征替代原有低層特征,以減少高層語義與底層圖像特征的語義映射復(fù)雜度。PTM和變分推理是處理不確定性和復(fù)雜性問題的有力工具,具有雄厚的數(shù)理基礎(chǔ)。概率圖常見的概率潛在語義分析(probabilistic latent semantic analysis,p LSA)模型[15]和隱狄利克雷分配(latent Dirichlet allocation,LDA)模型[16]都是將特征向量降維到潛在語義空間的生成模型。此外,考慮視詞的空間共生關(guān)系和上下文關(guān)系,將有助于提升場景結(jié)構(gòu)語義的解釋[17]。但目前BoV模型的視詞數(shù)量設(shè)置多少為宜尚無定論,且生成對象也往往與訓(xùn)練樣本有較大相關(guān)度,而這是影響算法魯棒性的重要因素。
針對傳統(tǒng)BoV模型缺乏空間語義描述、字典學(xué)習(xí)和特征編碼的不足,基于稀疏編碼的BoV模型可減輕特征編碼的自適應(yīng)問題,并減少字典長度對分類性能的敏感度。稀疏表示是對大腦皮層編碼神經(jīng)生理機(jī)制的模擬,稀疏編碼尋找一組超完備基向量來高效地表示樣本數(shù)據(jù)語義,是一種無監(jiān)督學(xué)習(xí)方法?;谟斜O(jiān)督子空間建模、多層次和多尺度稀疏表示的場景分類[18]在處理高維圖像分類具有一定的優(yōu)勢。
模擬大腦層次結(jié)構(gòu)的深度網(wǎng)絡(luò)在圖像分類、語音識(shí)別和文本處理也取得顯著成果。深度學(xué)習(xí)對低層數(shù)據(jù)先采用無監(jiān)督的預(yù)訓(xùn)練多層神經(jīng)網(wǎng)絡(luò),形成屬性、類別或特征的中層語義的抽象表示,在此基礎(chǔ)上再通過監(jiān)督分類器訓(xùn)練發(fā)現(xiàn)高層語義特征描述。相關(guān)研究表明,基于深度卷積神經(jīng)網(wǎng)絡(luò)的圖像分類方法[19]可有效減輕圖像幾何變形所造成的分類效果不好和過學(xué)習(xí)問題的影響。
中層語義場景分類在一定程度上緩解語義鴻溝的問題,但對場景尺度變化、傳感器拍攝角度和時(shí)空差異、語義對象組合變化往往缺乏有效措施。稀疏編碼和深度學(xué)習(xí)較高的算法復(fù)雜度是制約其在遙感圖像場景分類進(jìn)一步應(yīng)用的重要因素。尤其是對高分辨率遙感圖像的場景分類這一特殊的大數(shù)據(jù)量、場景對象構(gòu)造復(fù)雜的特殊問題,其算法的魯棒性差、復(fù)雜度高問題仍然有較大的提升空間。本文在分析大腦的神經(jīng)認(rèn)知計(jì)算機(jī)理的基礎(chǔ)上,基于深度學(xué)習(xí)的神經(jīng)計(jì)算理論和基于概率統(tǒng)計(jì)學(xué)習(xí)的認(rèn)知計(jì)算架構(gòu),建立了媒體的認(rèn)知神經(jīng)計(jì)算(multimedia neural cognitive computing,MNCC)模型,并在此基礎(chǔ)上實(shí)現(xiàn)高分辨率遙感圖像的場景分類算法。
MNCC旨在探索非結(jié)構(gòu)化、海量多模態(tài)、復(fù)雜時(shí)空分布的多媒體信息處理的語義鴻溝和維度災(zāi)難問題的解決方案。在宏觀的系統(tǒng)行為層面上,MNCC利用認(rèn)知計(jì)算探索大腦信息加工的機(jī)理和認(rèn)知過程;在微觀的生理機(jī)理層面上,MNCC研究神經(jīng)網(wǎng)絡(luò)機(jī)制,模擬生物神經(jīng)系統(tǒng)的結(jié)構(gòu)特征和生物神經(jīng)信息的處理機(jī)理。MNCC建立感覺媒體信息處理的可計(jì)算模型,實(shí)現(xiàn)表示媒體內(nèi)容分析和處理的仿腦算法。
1.1 MNCC模型描述
腦的功能與結(jié)構(gòu)是目前已知最為復(fù)雜的系統(tǒng),為簡化設(shè)計(jì),圖1示意了根據(jù)人腦連接組計(jì)劃宏觀連接研究、活動(dòng)圖項(xiàng)目功能性的連接研究以及人類大腦模擬項(xiàng)目最新公布數(shù)據(jù)構(gòu)造的認(rèn)知功能及神經(jīng)系統(tǒng)的基本結(jié)構(gòu)。神經(jīng)科學(xué)和認(rèn)知科學(xué)研究認(rèn)為,端腦的新皮層是認(rèn)知智能處理重要部分,丘腦是信息進(jìn)出及選擇性注意的控制開關(guān),海馬體及邊緣系統(tǒng)是記憶及情緒控制器。
在此基礎(chǔ)上,本文建立了一種仿腦的基于MNCC的場景分類模型。模型采用仿射變換后的圖像Iab經(jīng)分塊后訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)來提取媒體的深度網(wǎng)絡(luò)的激活稀疏特征SparseFeature;通過顯著性控制提取選擇性注意特征Saliency Feature,再由PTM提取圖塊的顯著區(qū)若干主題Topic Feature;進(jìn)一步采用增量式多分類器(iKNN,iPGM,iDBN)集成,獲得主題的圖塊類別SubClassfication;圖塊類別按照時(shí)間上下文(圖塊按照顯著度大小時(shí)序掃描的先后)和空間上下文(原圖顯著圖在分塊后的空間鄰域關(guān)系)進(jìn)行時(shí)空組合,通過增量式多分類器(iNB,iSVM)集成獲得場景分類Category。而在訓(xùn)練時(shí),由獲得的場景預(yù)分類誤差構(gòu)造Reward獎(jiǎng)懲函數(shù),實(shí)現(xiàn)分類特征的增強(qiáng)學(xué)習(xí)。
圖1 大腦的神經(jīng)認(rèn)知計(jì)算框架
模型具體可用如下映射描述:
MNCC:<Iab,an,sm,ssl,STC,Reward,
式中,Iab為仿射圖像子塊;an為iDBN激活特征;sm為圖像的視覺顯著圖;ssl為圖塊類別;STC為場景時(shí)空上下文描述;Reward為獎(jiǎng)懲函數(shù);Train Label為場景增量集成分類結(jié)果;Category為圖像人工類別語義標(biāo)注。如圖2所示,MNCC模型的信息處理包括以下7個(gè)基本過程。
圖2 基于MNCC的場景分類模型
步驟1圖像分塊與仿射預(yù)處理
Affine:Img→Iabk
步驟2基于深度神經(jīng)網(wǎng)絡(luò)的稀疏激活特征提取
iDBN:igk→ank
步驟3注意顯著區(qū)的反饋控制和選擇
Attention:<Rewardk,igk,erBlk>→smk
步驟4特征增強(qiáng)學(xué)習(xí)
Reinforcement:<slk,erGl>→Rewardk
步驟5基于作者主題模型的圖塊分類
iATM:ssk→sslk
步驟6圖塊的時(shí)空上下文語義計(jì)算Memory:<slk,smk>→<STC>
步驟7圖塊分類和場景分類的增量集成
IBoosting:<sslk,igk,STC,Train Labeli>→
<Train Labe li+1>
1.2 圖像分塊與仿射預(yù)處理
為了實(shí)現(xiàn)使圖像的提取特征具備放縮、旋轉(zhuǎn)和平移的不變性,先對原始圖像Img進(jìn)行仿射變換得圖像
式中,tl(λ)為平移矢量;zm(δ)為放縮因子;rt(θ)為旋轉(zhuǎn)矩陣。其次對仿射圖像做分塊處理,設(shè)圖像塊大小為bk×bk,如圖3所示,重疊分塊的塊重疊面積為塊大小的bk2/4。第k塊仿射圖像為
圖3 仿射圖像的分塊處理
考慮到不同波段對場景的貢獻(xiàn),分別對可見光圖像RGB 3波段分別執(zhí)行上述預(yù)處理。
一張圖像最后獲得如圖4所示的訓(xùn)練圖像。這樣做的原因是由于后續(xù)處理的深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練參數(shù)較多,需要海量的大數(shù)據(jù)進(jìn)行訓(xùn)練。當(dāng)訓(xùn)練的數(shù)據(jù)量充足,其參數(shù)調(diào)優(yōu)較易進(jìn)行;而訓(xùn)練數(shù)據(jù)量少時(shí),較多的網(wǎng)絡(luò)參數(shù)易產(chǎn)生過擬合的問題。
1.3 基于深度神經(jīng)網(wǎng)絡(luò)的特征提取
深度學(xué)習(xí)是相對淺層學(xué)習(xí)而言的一種新興的機(jī)器學(xué)習(xí)手段。相比傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)的BP算法和淺層學(xué)習(xí)模型算法(如SVM,Boosting方法)而言,淺層模型依賴于人工特征的抽取,模型注重的是分類和預(yù)測,其抽取特征的好壞將直接影響系統(tǒng)的性能。深度模型強(qiáng)調(diào)多層架構(gòu),利用逐層初始化,減少梯度彌散,通過對大數(shù)據(jù)學(xué)習(xí),解決大量網(wǎng)絡(luò)參數(shù)的非凸優(yōu)化問題。深度模型常見有受限波爾茲曼機(jī)(restricted Boltzmann machine,RBM)、深度信念網(wǎng)絡(luò)(deep belief networks,DBN),卷積神經(jīng)網(wǎng)絡(luò)(convolution neuralnetworks,CNN)、自動(dòng)編碼器(auto-encoder)。這里采用增量棧式稀疏自編碼神經(jīng)網(wǎng)絡(luò)(incremental stacked sparse auto encoders,iSSAE),通過預(yù)訓(xùn)練提取參數(shù)去初始化增量式深度信念網(wǎng)絡(luò)(incremental deep belief networks,iDBN)。iSSAE是一種可用于高維數(shù)據(jù)降維無監(jiān)督特征學(xué)習(xí)多層的前向神經(jīng)網(wǎng)絡(luò)。其每層損失函數(shù)為
式中,輸入樣本用ig表示圖塊矩陣Iab拉伸而成的向量;hl為隱層輸出;KL為散度;稀疏約束項(xiàng)中ρj為第j個(gè)隱層神經(jīng)元的激活率。初始用非監(jiān)督學(xué)習(xí)特征通過編碼器使重構(gòu)誤差最小,用本層編碼器產(chǎn)生特征去訓(xùn)練下一層,這樣逐層訓(xùn)練獲得網(wǎng)絡(luò)權(quán)重后去初始化第L層的前饋網(wǎng)絡(luò)的權(quán)重nwi,j。設(shè)po為預(yù)期值,yo為輸出值,網(wǎng)絡(luò)誤差函數(shù)為er,η為學(xué)習(xí)率,利用BP算法的梯度下降求權(quán)值的變化及誤差的反向傳播,修正和精調(diào)權(quán)重nwi,j。
圖4 圖塊的分塊仿射處理
1.4 深度神經(jīng)網(wǎng)絡(luò)的神經(jīng)元激活特征提取
由于多層網(wǎng)絡(luò)算法復(fù)雜度較高,當(dāng)網(wǎng)絡(luò)層次增加,網(wǎng)絡(luò)規(guī)模大,訓(xùn)練樣本多,網(wǎng)絡(luò)收斂非常緩慢。由于網(wǎng)絡(luò)初始化時(shí)采用了iSSAE的權(quán)重,在經(jīng)過BP微調(diào)后,net的神經(jīng)元激活情況將能反應(yīng)樣本自身的類別信息。
為提高效率,這里采用未充分訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)iDBN的net神經(jīng)元對訓(xùn)練樣本的激活數(shù)據(jù)作為顯著性特征[19]提取的數(shù)據(jù)源,圖5示意了iDBN每層神經(jīng)元激活情況。
圖5 iDBN的激活神經(jīng)元
第nl層神經(jīng)元激活值為
式中,n Af(·)為神經(jīng)元激活函數(shù);Reward為特征顯著性獎(jiǎng)懲控制函數(shù);sm為顯著性控制函數(shù);ig(nl)為第nl層神經(jīng)元輸入ig;nw為網(wǎng)絡(luò)權(quán)重。
1.5 顯著區(qū)的反饋與特征的增強(qiáng)學(xué)習(xí)
顯著性控制通過提取圖像塊的低頻差分邊緣信息產(chǎn)生視覺顯著圖sm,這里采用譜殘差方法提取顯著圖:
式中,erBl是用于控制顯著區(qū)的圖塊分類錯(cuò)誤率;F(·)和F-1(·)描述傅里葉變換及逆變換;G(·)是高斯平滑濾波函數(shù);Hn是進(jìn)行均值濾波的n×n方陣;和A分別是傅里葉變換相位譜和振幅譜;和分別是傅里葉變換的虛部和實(shí)部;Λ是譜殘差。由于深度網(wǎng)絡(luò)訓(xùn)練需要較長訓(xùn)練時(shí)間才能收斂,為了加快訓(xùn)練速度,在有限的訓(xùn)練次數(shù)情況下,模型采用增強(qiáng)學(xué)習(xí)的反饋機(jī)制,根據(jù)結(jié)果調(diào)整顯著區(qū)的特征權(quán)重,獎(jiǎng)懲函數(shù)設(shè)計(jì)為
式中,ε為增強(qiáng)閾值參數(shù),ε∈(0,1),默認(rèn)ε=0.5;erGl為圖像場景分類錯(cuò)誤率;nl為網(wǎng)絡(luò)層級(jí),且N≥nl;top Diff通過排序選擇異類間區(qū)分度最大,且同類間區(qū)分度最小的前top N個(gè)an。
1.6 基于作者主題模型的圖塊分類
圖模型是采用圖來表達(dá)變量之間的概率相關(guān)關(guān)系的基于貝葉斯規(guī)則的概率模型。圖模型經(jīng)典方法包括基于有向無環(huán)圖表達(dá)因果關(guān)系的貝葉斯網(wǎng)絡(luò),基于無向圖來表達(dá)變量間的相互作用的馬爾可夫隨機(jī)場,以及在文本分類和圖像處理廣泛應(yīng)用的PTM。PTM將文檔理解成若干隱含主題組合而成,隱含主題是文檔中的特定詞匯的一種概率分布。與iSSAE類似,PTM也是生成模型,可通過參數(shù)估計(jì)尋找一個(gè)多項(xiàng)式分布的低維主題集合。由于網(wǎng)絡(luò)神經(jīng)元個(gè)數(shù)較多,直接作為分類特征相對比較困難,為此采用PTM模擬皮層的認(rèn)知推理過程。
如圖6所示,這里采用基于BoV的增量式作者主題模型(incremental author topic model,iATM)對特征做進(jìn)一步分類,iATM是一種將生成模型與判別模型相結(jié)合對有監(jiān)督LDA模型。為方便描述,設(shè)tp為主題Topic,ss和vt分別表示圖塊類別SubSceneLabel和圖塊的視詞,即iATM中的作者author和單詞word;為將神經(jīng)元an激活特征運(yùn)用于iATM,先將an歸一化到[0,1]區(qū)間,并放大100倍,再向下取整得
圖6 作者主題模型
設(shè)tpi=j(luò),ssi=k代表圖塊Iab中第i個(gè)視詞分配給第j個(gè)主題和第k個(gè)圖塊類別。vti=m代表第i個(gè)視詞是詞典中第m個(gè)詞匯,tp-i,ss-i代表除第i個(gè)視詞之外其余視詞的主題和圖塊類別的分配。通過Gibbs采樣,對于每個(gè)視詞,根據(jù)下面公式為其采樣圖塊類別ss和主題tp,其中φm,j,θk,j分別表示對Θ和Φ分布的估算。
1.7 圖塊的場景時(shí)空上下文計(jì)算
由于一幅原始的訓(xùn)練圖像進(jìn)行仿射變換后被分成若干圖塊。根據(jù)顯著性與選擇性注意關(guān)系:每個(gè)圖塊按照顯著度逆序排列將構(gòu)成注意轉(zhuǎn)移的時(shí)序關(guān)系;圖塊的空間領(lǐng)域關(guān)系則構(gòu)成空間上下文關(guān)系。二者共同構(gòu)成一幅圖像場景內(nèi)對象的時(shí)空上下文。為便于計(jì)算,設(shè)圖塊的類別數(shù)為K,取塊平均顯著度最高的前N塊圖塊,每個(gè)圖塊的8鄰域圖塊類別作為圖像場景對象的空間特征描述:
SCi=<NumBs(sl1),NumBs(sl2),…,NumBs(slK)>
(17)
式中,NumBs(sli)是統(tǒng)計(jì)當(dāng)前3×3圖塊中類別為sli的塊個(gè)數(shù)。各圖塊按照顯著度均值大小逆序構(gòu)成注意的時(shí)序轉(zhuǎn)移序列。選擇前N個(gè)注意塊,每個(gè)注意塊取前驅(qū)和后繼2個(gè)圖塊的8鄰域類別的直方圖作為圖像場景對象注意轉(zhuǎn)移的時(shí)間描述。若當(dāng)前為顯著度最大的第一圖塊(i=1),則只統(tǒng)計(jì)其顯著度后繼(i=2)的8鄰域圖塊的類別的直方圖;若當(dāng)前為最后一塊(i=N),則只統(tǒng)計(jì)其顯著度前驅(qū)(i=N-1)的8鄰域圖塊的類別的直方圖;對于其他情況,同時(shí)統(tǒng)計(jì)顯著度前驅(qū)i-1和顯著度后繼i-1的8鄰域圖塊的類別構(gòu)成時(shí)序特征描述:
式中,NumBt(sli)是統(tǒng)計(jì)當(dāng)前塊前驅(qū)和后繼兩個(gè)3×3圖塊中類別為sli的塊個(gè)數(shù)。最后將圖像場景對象的空間特征描述SC和時(shí)序特征描述TC組合構(gòu)成2K維描述每塊圖像的時(shí)空上下文信息。取前N塊顯著度最高的圖像塊構(gòu)成序列N×2K維矩陣STC:
圖7為一幅圖像場景顯著對象B點(diǎn)與前驅(qū)A和后繼B的時(shí)空關(guān)系,STC記錄了圖像的時(shí)空上下文特征,可避免BoV模型的上下文無關(guān)的缺點(diǎn),為下一步場景計(jì)算提供基礎(chǔ)。
1.8 圖塊分類和場景分類的增量集成
增量學(xué)習(xí)方法指能不斷從環(huán)境新樣本學(xué)習(xí)新知識(shí),并能保留大部分已學(xué)習(xí)知識(shí)。增量學(xué)習(xí)與在線學(xué)習(xí)非常相似。與批量學(xué)習(xí)算法不同的是,一般認(rèn)為增量學(xué)習(xí)不需重復(fù)處理已處理數(shù)據(jù)和學(xué)習(xí)新類別,學(xué)習(xí)新知識(shí)能且保留前期學(xué)習(xí)大部分知識(shí),即可漸進(jìn)地從新數(shù)據(jù)學(xué)習(xí)新知識(shí)。
由于算法在實(shí)現(xiàn)圖塊的分類采用了iDBN、iKNN和iATM 3種增量學(xué)習(xí)分類器,而最后的場景分類采用了基于Bo V的iNB和時(shí)空相關(guān)性的iSVM 2種增量學(xué)習(xí)分類器。二者分類結(jié)果都需要采用集成學(xué)習(xí)思想獲得最后分類結(jié)果。首先把圖塊Iabk的iATM分類結(jié)果ssliATM(ank)、iKNN分類結(jié)果ssliKNN(ank)及iDBN分類結(jié)果ssliDBN(igk)采用概率分布加權(quán)集成為圖塊分類結(jié)果
圖7 圖像場景的時(shí)空上下文描述示意
場景分類先分別采用iSVM進(jìn)行時(shí)空相關(guān)性場景分類和基于Bo V的iNB進(jìn)行場景分類:
式中,STC為場景時(shí)空上下文的N×2K維特征;Bov Hist為圖像全部圖塊類別的統(tǒng)計(jì)直方圖;SLiSVM(sl)為iSVM場景分類結(jié)果,SLBoV(sl)為iNB場景分類結(jié)果。最后整幅圖像基于分類器性能增量加權(quán)集成,設(shè)wtc為性能權(quán)重,場景分類結(jié)果Train Label為
圖8示意了基于MNCC模型的遙感圖像場景分類的訓(xùn)練算法數(shù)據(jù)處理流程,具體訓(xùn)練和測試算法如下。
圖8 場景分類處理流程
2.1 基于MNCC場景分類的訓(xùn)練算法
輸入<Img Traini,Train Labeli>,i∈[1,N],N為訓(xùn)練數(shù)據(jù)組數(shù)
輸出MNCC模型參數(shù):iDBN,iKNN,iATM,iNB,iSVM
設(shè)置初始的圖塊分類誤差erBl為0,場景分類誤差erGl為0;
While(挑選待訓(xùn)練<ImgTraini,Train Labeli>≠φ)
{
步驟1根據(jù)圖像分塊與仿射預(yù)處理映射Affine:ImgTrain→Iabk,轉(zhuǎn)換仿射圖塊為矢量igk;
步驟2基于映射iDBN:igk→ank訓(xùn)練獲得深度神經(jīng)網(wǎng)絡(luò)稀疏激活特征ank;
步驟3由選擇性注意Attention:<Rewardk,igk,erBlk>→smk獲得顯著區(qū)smk;
步驟4根據(jù)增強(qiáng)學(xué)習(xí)Reinforcement:<slk,erGl>→Rewardk獲得特征的反饋增強(qiáng)參數(shù)Rewardk;
步驟5由作者主題模型iATM、iDNN和iKNN計(jì)算圖塊分類ssliATM、ssliKNN和ssliDBN,獲得3種分類器參數(shù)iATM,iKNN和iDBN,然后集成圖塊分類slk,并計(jì)算圖塊分類錯(cuò)誤率erBl;
步驟6由映射Memory:<slk,smk>→<STC>計(jì)算圖塊對象的時(shí)空上下文STC;
步驟7由場景集成映射IBoosting:<sslk,igk,STC>→<PreTrain Label>獲得場景預(yù)分類標(biāo)簽,并計(jì)算圖像分類錯(cuò)誤率erGl。
}
由場景分類增量式集成映射IBoosting:<sslk,igk,STC,PreTrain Label>→<Train Label>獲得最后場景。
2.2 基于MNCC場景分類的測試算法
輸入ImgTest,Label,MNCC模型參數(shù)(iDBN,iKNN,iATM,iNB,iSVM)
輸出Test Label,Accuracy
步驟1圖像進(jìn)行分塊預(yù)處理Block:Img Test→Ibk,拉伸圖塊為矢量igk;
步驟2由iDBN參數(shù)計(jì)算深度神經(jīng)網(wǎng)絡(luò)的稀疏激活特征ank;
步驟3由iDBN,iKNN,iATM參數(shù)計(jì)算子圖塊的預(yù)分類ssliATM,ssliKNN,ssliDBN,并集成圖塊預(yù)分類結(jié)果slk;
步驟4設(shè)圖塊初始分類錯(cuò)誤率erBl為0,由原始圖像Img Test計(jì)算顯著區(qū)smk;
步驟5由映射Memory:<slk,smk>→<STC>計(jì)算圖塊對象的時(shí)空上下文STC;
步驟6由場景分類集成映射Boosting:<sslk,igk>→<TrainLabel>計(jì)算最后場景類別,并計(jì)算場景分類錯(cuò)誤率。
3.1 實(shí)驗(yàn)數(shù)據(jù)集
(1)MNIST手寫數(shù)字識(shí)別數(shù)據(jù)集(http:∥yann.lecun.com/exdb/mnist/)。由于手寫數(shù)字識(shí)別MNIST數(shù)據(jù)集圖像結(jié)構(gòu)語義相對簡單,在本文中用其驗(yàn)證MNCC模型的一些基本參數(shù)。MNIST數(shù)據(jù)集含有手寫阿拉伯?dāng)?shù)字0~9的60 000個(gè)訓(xùn)練數(shù)據(jù)集和10 000個(gè)測試數(shù)據(jù)集兩種圖像,圖像灰度級(jí)為8,分辨率為28像素×28像素,共784維的向量表征。
(2)武漢大學(xué)高分衛(wèi)星遙感圖像場景(high-resolution satellite scene,HRSS)數(shù)據(jù)集(http:∥dsp.whu.edu.cn/cn/staff/yw/HRSscene.html)。HRSS數(shù)據(jù)集源于Google Earth,共包括19類場景的RGB可見光高分遙感圖像。其中每一類場景含有大約50多幅圖像,共計(jì)1 005幅3波段的高分遙感圖像,圖像分辨率600像素×600像素,空間分辨率約為1 m。實(shí)驗(yàn)隨機(jī)選擇每類30幅作為訓(xùn)練集,其余作為測試集。
(3)加州大學(xué)默塞德土地利用遙感圖像(university of California Merced land use,UCMLU)數(shù)據(jù)集(http:∥vision.ucmerced.edu/datasets/landuse.html)。UCMLU數(shù)據(jù)集包含共21類土地利用3波段的高分遙感圖像,圖像分辨率256像素×256像素,每類包含100幅圖像,總計(jì)2 100幅圖像。實(shí)驗(yàn)隨機(jī)選擇每類40幅作為訓(xùn)練集,其余作為測試集。
3.2 模型參數(shù)設(shè)置與性能影響
為便于計(jì)算,將HRSS和UCMLU兩個(gè)數(shù)據(jù)集的RGB圖像的3個(gè)波段數(shù)據(jù)分別統(tǒng)一地降采樣為120像素× 120像素,圖塊劃分為28像素×28像素。由于模型包含大量參數(shù),不同參數(shù)對模型性能有較大的影響,下面就模型的各個(gè)部分參數(shù)進(jìn)行實(shí)驗(yàn)和調(diào)整。
3.2.1 分塊與仿射參數(shù)
圖像分塊目的是實(shí)現(xiàn)場景的內(nèi)容分析,分塊大小直接影響稀疏字典的容量,而大容量的字典學(xué)習(xí)需要更多訓(xùn)練樣本和訓(xùn)練時(shí)間。仿射變換的目的是使提取的稀疏特征更具備魯棒性,在稀少樣本的情況下,通過仿射變化可獲取不同位置多角度和多尺度的訓(xùn)練樣本。
圖9顯示了HRSS數(shù)據(jù)集里橋梁Br G、住宅區(qū)Rs T和山區(qū)Mo T 3類6個(gè)圖像的仿射變換及分塊情況,然后統(tǒng)一降采樣為28像素×28像素圖塊,最后拉伸為784維矢量。仿射變換和分塊情況如圖9所示。其中圖9(g)的分塊大小為100、塊重疊度為100/50=50%;圖9(h)的分塊大小為32、塊重疊度為32/20=16%;圖9(i)的分塊大小為100、塊重疊度為100/50=50%、平移參數(shù)為50、旋轉(zhuǎn)角度為45°~135°、放縮比例為1.2。分塊越大,塊覆蓋度越小,特征的整體性較好有利于大尺度目標(biāo)識(shí)別;分塊越小,塊覆蓋度越大,有利于局部特征提取,對小目標(biāo)效果較好。
圖9 圖像分塊與仿射變換
3.2.2 用于稀疏激活特征提取的iSSAE和iDBN參數(shù)設(shè)置
由于深度架構(gòu)有利于特征提取,但隨著網(wǎng)絡(luò)層數(shù)越多,網(wǎng)絡(luò)神經(jīng)元個(gè)數(shù)增加,達(dá)到網(wǎng)絡(luò)收斂的訓(xùn)練次數(shù)將增加。此外對于固定的訓(xùn)練次數(shù),網(wǎng)絡(luò)的學(xué)習(xí)率和沖量因子是制約特征提取的重要參數(shù)。學(xué)習(xí)率影響著網(wǎng)絡(luò)收斂的速度,甚至影響網(wǎng)絡(luò)能否收斂,學(xué)習(xí)率設(shè)置偏小可以保證網(wǎng)絡(luò)收斂,但是收斂較慢;相反,學(xué)習(xí)率設(shè)置過大則有可能使網(wǎng)絡(luò)訓(xùn)練不收斂,影響識(shí)別效果。在滿足場景類別識(shí)別的情況下,增加隱含層節(jié)點(diǎn)的個(gè)數(shù)對于場景識(shí)別率的影響一般不大,但是節(jié)點(diǎn)個(gè)數(shù)過多會(huì)增加運(yùn)算量,造成訓(xùn)練收斂時(shí)長增加。實(shí)驗(yàn)設(shè)置網(wǎng)絡(luò)層數(shù)layer=6、每層神經(jīng)元個(gè)數(shù)Num=[100 80 60 40 60 80]、學(xué)習(xí)率alpha=0.1、沖量因子momentum=0.01、訓(xùn)練次數(shù)numepochs=500。
3.2.3 特征提取的顯著區(qū)反饋控制和增強(qiáng)學(xué)習(xí)參數(shù)設(shè)置
圖塊分類錯(cuò)誤率erBl對顯著度影響情況如圖10(a)所示。區(qū)域顯著性受控于圖塊的分類誤差,誤差越大注意度越大。特征選擇top N=|an|/10;圖10(b)和圖10(c)顯示了ε=0.5時(shí),場景分類錯(cuò)誤率erGl對不同iDBN層數(shù)的獎(jiǎng)懲影響。當(dāng)圖像場景分類錯(cuò)誤率較大時(shí)(erGl>ε),iDBN的層數(shù)越高獲得獎(jiǎng)懲權(quán)重越小,且場景分類錯(cuò)誤率越大,獎(jiǎng)懲權(quán)重越大;當(dāng)圖像場景分類錯(cuò)誤率較小時(shí)(erGl<ε),iDBN的層數(shù)越高獲得獎(jiǎng)懲權(quán)重越大,且場景分類錯(cuò)誤率越小,獎(jiǎng)懲權(quán)重越大。
圖10 特征顯著區(qū)增強(qiáng)和反饋
3.2.4 主題數(shù)量對iATM圖塊分類影響
圖11顯示了主題數(shù)量對圖塊iATM分類影響,其中6類圖塊大小為28像素×28像素,迭代次數(shù)N=500,主題分布的Dirichlet先驗(yàn)的超參數(shù)取|tp|/50和Φ取200/|vt|。由圖可見當(dāng)主題數(shù)量設(shè)置|tp|=100時(shí),分類準(zhǔn)確度趨于較高的穩(wěn)定區(qū)間。主題數(shù)量是原始特征降維后的中間描述,對一般算法而言,主題數(shù)量設(shè)置過大會(huì)引起效率下降,且算法復(fù)雜度增加;而主題設(shè)置數(shù)量過小則提取的中間描述無法反映場景的內(nèi)在特征。
圖11 主題數(shù)量對圖塊iATM分類影響
3.2.5 圖塊分類集成和場景分類集成權(quán)重設(shè)置
由于圖塊的分類采用iDBN,iATM和iKNN 3種分類器的概率分布加權(quán)進(jìn)行集成,其中iATM和iKNN是在iDBN的激活神經(jīng)元的稀疏特征基礎(chǔ)上進(jìn)一步分類,當(dāng)iDBN訓(xùn)練沒有收斂時(shí),iATM和iKNN可相互彌補(bǔ),進(jìn)一步彌補(bǔ)iDBN的缺陷,而iKNN是一種簡單而穩(wěn)健的分類器,支持增量學(xué)習(xí)、能對超多邊形的復(fù)雜決策空間建模,但其模型過于簡單,特征維度增加會(huì)導(dǎo)致計(jì)算量劇增,需大規(guī)模存儲(chǔ)支持。iATM可對數(shù)據(jù)進(jìn)行降維,采用的主題特征可有效縮小語義鴻溝問題。但是由于其假定各主題是獨(dú)立的,這與實(shí)際情況并不相符,且一般不能根據(jù)場景類別數(shù)量自適應(yīng)地設(shè)置主題數(shù)量,因此iATM的分類參數(shù)設(shè)置一般較困難。
根據(jù)分類器性能,場景分類采用基于時(shí)空相關(guān)性的iSVM場景分類和基于Bo V的iNB場景分類結(jié)果進(jìn)行加權(quán)集成。由于基于Bo V的iNB場景分類是上下文無關(guān)的,時(shí)空相關(guān)性的iSVM場景分類是考慮時(shí)空上下文的,二者權(quán)重不同將影響場景分類的結(jié)果。Bo V的iNB場景分類器權(quán)重增加,對應(yīng)紋理場景分類(如牧場MeD、山區(qū)Mo T)有利,時(shí)空相關(guān)性的iSVM場景分類器權(quán)重增加,則對于多目標(biāo)對象的復(fù)雜場景(如機(jī)場AiP、港口Po T)或大型目標(biāo)(如橋梁Br G、池塘PoD)場景分類有利。
3.3 場景分類算法結(jié)果
為驗(yàn)證模型的增量學(xué)習(xí)能力,選擇MNIST數(shù)據(jù)集的10個(gè)手寫阿拉伯?dāng)?shù)字進(jìn)行分類實(shí)驗(yàn)。這里數(shù)字圖像不進(jìn)行分塊處理和仿射處理,將60 000個(gè)訓(xùn)練樣本分120個(gè)批次,每次500個(gè)圖像進(jìn)行增量訓(xùn)練。
圖12為算法隨訓(xùn)練樣本數(shù)量逐漸遞增,分類準(zhǔn)確度的變化情況。從圖中可見MNCC模型的算法具備漸進(jìn)地從新數(shù)據(jù)學(xué)習(xí)類別特征的功能,隨著訓(xùn)練樣本的新增,樣本的測試準(zhǔn)確率呈現(xiàn)逐漸提升趨勢。實(shí)驗(yàn)也發(fā)現(xiàn)增量學(xué)習(xí)在訓(xùn)練時(shí)間上和內(nèi)存需求量大大減少。與不采用增量學(xué)習(xí)算法相比,最終的平均分類準(zhǔn)確度變化不大,基于增量學(xué)習(xí)的MNCC算法最終平均分類準(zhǔn)確度可達(dá)99.58%
圖12 MNCC算法中MNIST數(shù)據(jù)集的增量學(xué)習(xí)性能
圖13 MNCC算法中在數(shù)據(jù)集的場景分類準(zhǔn)確度
圖13為MNCC算法在數(shù)據(jù)集HRSS和數(shù)據(jù)集UCMLU進(jìn)行遙感場景分類情況(其中圖中的圖標(biāo)為從本類場景選擇的一幅訓(xùn)練的圖像作為本場景代表,柱的高度為本場景的分類準(zhǔn)確度)。在19類場景的HRSS數(shù)據(jù)集中場景Beach(BeC),F(xiàn)orest(FoE)和Port(Po T)取得較高的分類準(zhǔn)確度,場景Meadow(MeD),Industrial(In T)和Residential(Rs T)分類準(zhǔn)確度低,平均分類準(zhǔn)確度84.73%;在21類場景的UCMLU數(shù)據(jù)集分類準(zhǔn)確度高的有Forest(FoE),Agricultural(Ar L),River(RiV)和Mobilehomepark(MhP),分類準(zhǔn)確度低的有Sparseresidential(Sp R),Golfcourse(GoC)和Runway(RuW),平均分類準(zhǔn)確度88.26%。
兩個(gè)遙感數(shù)據(jù)集的相同語義的類別中Forest(FoE),Beach(BeC)識(shí)別準(zhǔn)確度相差不大,而其余4類River(RiV)和Parking(Pk G);Overpass(VaS)和Viaduct(VaS),Agricultural(Ar L)和Farmland(Ar L)識(shí)別準(zhǔn)確度變化較大。圖14顯示了MNCC算法數(shù)據(jù)集HRSS和數(shù)據(jù)集UCMLU遙感場景的分類混淆矩陣。整體上看MNCC對于對象紋理單一,差異性小的場景(如海濱BeC、森林FoE、農(nóng)田Ar L)分類準(zhǔn)確度高。對語義對象復(fù)雜,而圖像差異性大,需要間接解釋的場景(如高爾夫球場GoC、跑道Ru W、稀疏居民點(diǎn)Sp R)分類準(zhǔn)確度低。場景本身存在二義性(如工業(yè)區(qū)In T和居民區(qū)Rs T,草地MeD和河流RiV)也是造成誤分的重要原因。
表1~表3顯示了不同算法在MNIST、HRSS和UCMLU數(shù)據(jù)集的分類準(zhǔn)確度。MNCC不分塊和仿射變換。其中MNIST數(shù)據(jù)集實(shí)驗(yàn)選取類別數(shù)為10;UCMLU數(shù)據(jù)集實(shí)驗(yàn)選取類別數(shù)為21;HRSS數(shù)據(jù)集對MNCC算法選取類別數(shù)為19,其他算法選取類別數(shù)均為12。
圖14 場景分類混淆矩陣
表1 算法在MNIST數(shù)據(jù)集的分類準(zhǔn)確度 %
表2 算法在HRSS數(shù)據(jù)集的分類準(zhǔn)確度 %
表3 算法在UCMLU數(shù)據(jù)集的分類準(zhǔn)確度 %
由于MNIST數(shù)據(jù)集是手寫體阿拉伯?dāng)?shù)字,其圖像的語義內(nèi)容和對象復(fù)雜度明顯要比遙感場景小,而HRSS和UCMLU數(shù)據(jù)集屬于高分辨率遙感影像,MNIST實(shí)驗(yàn)結(jié)果中整體平均分類準(zhǔn)確度明顯要比HRSS和UCMLU數(shù)據(jù)集高。
由于MNCC模型設(shè)計(jì)考慮了神經(jīng)結(jié)構(gòu)的分層處理,利用稀疏激活的特征基于概率推理進(jìn)行分類,模型的這種仿腦機(jī)理是算法精度提升的保證。實(shí)驗(yàn)發(fā)現(xiàn)MNCC算法在UCMLU數(shù)據(jù)集場景要比在HRSS數(shù)據(jù)集分類準(zhǔn)確度高3.5%。雖然UCMLU數(shù)據(jù)集多了2個(gè)場景,但UCMLU數(shù)據(jù)集的訓(xùn)練數(shù)據(jù)(2 100)也遠(yuǎn)大于HRSS數(shù)據(jù)集(1 005),可見MNCC算法準(zhǔn)確度提升需要訓(xùn)練數(shù)據(jù)的增加。一般而言,待分類場景越多,深度網(wǎng)絡(luò)和概率計(jì)算達(dá)到指定分類準(zhǔn)確度所需的訓(xùn)練樣本也越多,實(shí)驗(yàn)也表明MNCC模型具備一定的大數(shù)據(jù)分析和處理能力。由于Mncc Train訓(xùn)練算法對圖像分塊和仿射預(yù)處理,模型對測試圖像的平移、放縮、旋轉(zhuǎn)具備一定魯棒性,但算法復(fù)雜度較高,下面就MNCC模型訓(xùn)練及測試,分析其算法復(fù)雜度。
3.4 MNCC場景分類算法復(fù)雜度分析
Mncc Train訓(xùn)練算法和MnccTest測試算法的復(fù)雜度主要集中在主題模型iATM、深度神經(jīng)網(wǎng)絡(luò)iSSAE和iDBN。具體對于Mncc Train算法的步驟2和步驟5,Mncc Test算法的步驟2和步驟3。
設(shè)訓(xùn)練樣本總數(shù)量為s、增量樣本為r,iATM變量個(gè)數(shù)為n,采用Gibbs抽樣技術(shù)對iATM的變量進(jìn)行抽樣,則對iATM中所有結(jié)點(diǎn)抽樣一次的復(fù)雜度為O(sn),iATM算法Gibbs抽樣m次的復(fù)雜度為O(msn)。若深度神經(jīng)網(wǎng)絡(luò)有d個(gè)參數(shù),iSSAE和iDBN有h層,則iSSAE算法復(fù)雜度為O(shd3+sd3)=O(shd3),iDBN算法復(fù)雜度為O(sh2h+sd3)=O(sd3)(一般情況h?d)。常規(guī)Mncc Train批處理算法總體復(fù)雜度為O(smn+shd3+sh2h+sd3)=O(smn+shd3),而采用增量學(xué)習(xí)的Mncc Train算法復(fù)雜度為O(rmn+rhd3),在本質(zhì)上并未減少算法復(fù)雜度,但由于單次訓(xùn)練的樣本數(shù)量r遠(yuǎn)小于s,因此有效地降低了學(xué)習(xí)過程的計(jì)算復(fù)雜度。而Mncc Test總體算法復(fù)雜度為O(mn+2h)。在整體上Mncc Train算法復(fù)雜度要遠(yuǎn)高于Mncc Test算法復(fù)雜度,這在一定程度上與仿生學(xué)意義上的學(xué)習(xí)和分類的生物特性是一致的。
本文分析場景分類相關(guān)領(lǐng)域研究的熱點(diǎn)和存在的問題,在大腦對感知外界環(huán)境的神經(jīng)結(jié)構(gòu)與認(rèn)知功能的相關(guān)研究基礎(chǔ)上,構(gòu)建仿腦的MNCC模型,并實(shí)現(xiàn)基于MNCC的高分辨率遙感圖像場景分類算法。實(shí)驗(yàn)并分析了模型相關(guān)參數(shù)設(shè)置對算法性能的影響。在標(biāo)準(zhǔn)高分辨率遙感圖像場景數(shù)據(jù)集上的分類實(shí)驗(yàn)結(jié)果表明,本算法在分類準(zhǔn)確度上與所列方法相比表現(xiàn)出明顯的優(yōu)勢。雖然增量學(xué)習(xí)可顯著地降低算法的運(yùn)行時(shí)間,但MNCC算法本身尚有較大的并行處理的改進(jìn)空間,進(jìn)一步工作我們將研究基于集群計(jì)算、多核運(yùn)算和GPU提升算法性能,并將其運(yùn)用于高分辨率SAR圖像的場景分類中。
參考文獻(xiàn):
[1]Van de Sande K E A,Gevers T,Snoek C G M.Evaluating color descriptors for object and scene recognition[J].IEEE Trans.on Pattern Analysis and Machine Intelligence,2010,32(9):1582- 1596.
[2]Li L J,Su H,Lim Y,et al.Objects as attributes for scene classification[M]∥Kutulakos K N.Trends and topics in computer vision.Berlin Heidelberg:Springer,2012:57- 69.
[3]Zhou L,Hu D W,Zhou Z T.Scene recognition combining structural and textural features[J].Science China-Information Sciences,2013,56(7):1- 14.
[4]Cheriyadat A M.Unsupervised feature learning for aerial scene classification[J].IEEE Trans.on Geoscience and Remote Sensing,2014,52(1):439- 451.
[5]Nanni L,Lumini A.Heterogeneous bag-of-features for object/scene recognition[J].Applied Soft Computing,2013,13(4):2171- 2178.
[6]Han P,Xu J S,Zhao A J.Target classification using SIFT sequence scale invariants[J].Journal of Systems Engineering and Electronics,2012,23(5):633- 639.
[7]Qian X M,Guo D P,Hou X S,et al.HWVP:hierarchical wavelet packet descriptors and their applications in scene categorization and semantic concept retrieval[J].Multimedia Tools and Applications,2014,69(3):897- 920.
[8]Ryu H,Chung W K.Scene recognition with omnidirectional images in low-textured environments[J].Electronics Letters,2014,50(5):368- 369.
[9]Yu J,Tao D C,Rui Y,et al.Pairwise constraints based multiview features fusion for scene classification[J].Pattern Recognition,2013,46(2):483- 496.
[10]Qian X M,Tang Y Y,Yan Z,et al.ISABoost:a weak classifier inner structure adjusting based AdaBoost algorithm-ISABoost based application in scene categorization[J].Neurocomputing,2013,103:104- 113.
[11]Zhao L J,Tang P,Huo L Z.A 2-D wavelet decomposition-based bag-of-visual-words model for land-use scene classification[J].International Journal of Remote Sensing,2014,35(6):2296- 2310.
[12]Shabou A,LeBorgne H.Locality-constrained and spatially regularized coding for scene categorization[C]∥Proc.of the IEEE Conference on Computer Vision and Pattern Recognition,2012:3618- 3625.
[13]Zhou L,Zhou Z T,Hu D W.Scene classification using a multiresolution bag-of-features model[J].Pattern Recognition,2013,46(1):424- 433.
[14]Bolovinou A,Pratikakis I,Perantonis S.Bag of spatio-visual words for context inference in scene classification[J].Pattern Recognition,2013,46(3):1039- 1053.
[15]Fan Y H,Qin S Y.Optimizing decision for scene classification based on latent semantic analysis[J].Journal of Computer-Aided Design&Computer Graphics,2013,25(2):175- 182.(范玉華,秦世引.基于潛在語義分析的場景分類優(yōu)化決策方法[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2013,25(2):175- 182.)
[16]Kusumaningrum R,Wei H,Manurung R,et al.Integrated visual vocabulary in latent Dirichlet allocation-based scene classification for IKONOS image[J].Journal of Applied Remote Sensing,2014,8(1):3690- 3708.
[17]Xu K,Yang W,Chen L J,et al.Satel lite image scene categorization based on topic models[J].Geomatics and Information Science of Wuhan University,2011,36(5):540- 543.(徐侃,楊文,陳麗君,等.利用主題模型的遙感圖像場景分類[J].武漢大學(xué)學(xué)報(bào)(信息科學(xué)版),2011,36(5):540- 543.)
[18]Dai D X,Yang W.Satellite image classification via two-layer sparse coding with biased image representation[J].IEEE Geoscience and Remote Sensing Letters,2011,8(1):173- 176.
[19]Gong Y,Wang L,Guo R,et al.Multi-scale orderless pooling of deep convolutional activation features[C]∥Proc.of the European Conference on Computer Vision,2014:392- 407.
[20]Belongie S,Malik J,Puzicha J.Shape matching and object recognition using shape contexts[J].IEEE Trans.on Pattern Analysis and Machine Intelligence,2002,24(4):509- 522.
[21]Kégl B,Busa-Fekete R.Boosting products of base classifiers[C]∥Proc.of the 26th Annual International Conference on Machine Learning,2009:497- 504.
[22]LeCun Y,Bottou L,Bengio Y,et al.Gradient-based learning applied to document recognition[J].Proc.of the IEEE,1998,86(11):2278- 2324.
[23]Dan C C,Ueli M,Luca M G,et al.Deep big simple neural nets excel on handwritten digit recognition[J].Neural Computation,2010,22(12):1- 14.
[24]Yang Y,Newsam S.Bag-of-visual-words and spatial extensions for land-use classification[C]∥Proc.of the 18th SIGSPATIAL International Conference on Advances in Geographic Information Systems,2010:270- 279.
[25]Zheng X W,Sun X,F(xiàn)u K,et al.Automatic annotation of satellite images via multifeature joint sparse coding with spatial relation constraint[J].IEEE Geoscience and Remote Sensing Letters,2013,10(4):652- 656.
[26]Risojevic V,Babic Z.Aerial image classification using structural texture similarity[C]∥Proc.of the IEEE International Symposium on Signal Processing and Information Technology,2011:190- 195.
鄭逢斌(1963- ),通信作者,男,教授,博士研究生導(dǎo)師,博士,主要研究方向?yàn)榭臻g信息處理、自然語言處理。
E-mail:zhengfb@henu.edu.cn
Scene classification of high-resolution remote sensing image based on multimedia neural cognitive computing
LIU Yang1,2,3,F(xiàn)U Zheng-ye4,ZHENG Feng-bin1,3
(1.Laboratory of Spatial Information Processing,Henan University,Kaifeng 475004,China;2.College of Environment and Planning,Henan University,Kaifeng 475004,China;3.College of Computer Science and Information Engineering,Henan University,Kaifeng 475004,China;4.College of Software,Henan University,Kaifeng 475004,China)
According to the related research of the brain of neural structures and cognitive function which apperceive the external environment,the brain-like model of multimedia neural cognitive computing(MNCC)is built.The model simulates the basic neural structures and the cognition of brain,such as the sensory information perception,the cognition of the neocortex column,the attention control structure of the thalamus,the hippocampus memory and emotional control circuits of the limbic system,and a scene classification MNCC-based algorithm for high-resolution remote sensing images is established.Firstly,the algorithm extracts sparse activation features of the deep neural network from the sub-blocks image after affine transformation,and gets initial category of the sub-blocks image with the probability topic model,then controls features extraction of the saliency area by sub-block classification error.Secondly,the temporal-spatial features of scene semantic are acquired by sub-blocks context,then sub-blocks categorization and scene pre-classification are processed to obtain initial scene labels.Finally,the scene pre-classification error is used for construction rewards function to control and select the most discrimination sparse activation features of deep neural network,and the final scene label is ob-___tained by the incremental reinforced ensemble learning algorithm.Experiment results show that the MNCC al-gorithm presented in this paper has better performance of scene classification on the two standard high-resolution remote sensing scene datasets.
multimedia neural cognitive computing(MNCC);remote sensing scene classification;deep neural networks;sparse activation feature;probabilistic topic model;incremental reinforced ensemble learning
TP 391.41
A
10.3969/j.issn.1001-506X.2015.11.31
劉 揚(yáng)(1971- ),男,副教授,碩士研究生導(dǎo)師,博士研究生,主要研究方向?yàn)槊襟w神經(jīng)認(rèn)知計(jì)算、時(shí)空信息高性能計(jì)算。
E-mail:ly.sci.art@gmail.com
付征葉(1963- ),女,講師,碩士,主要研究方向?yàn)榭臻g數(shù)據(jù)處理。
E-mail:fuzhy@henu.edu.cn
1001-506X(2015)11-2623-11
2014- 08- 15;
2015- 04- 09;網(wǎng)絡(luò)優(yōu)先出版日期:2015- 07- 06。
網(wǎng)絡(luò)優(yōu)先出版地址:http://www.cnki.net/kcms/detail/11.2422.TN.20150706.1705.013.html
國家自然科學(xué)基金(61305042,61202098);河南省教育廳科學(xué)技術(shù)研究重點(diǎn)項(xiàng)目(13A520071)資助課題