唐家琳
(西北工業(yè)大學(xué)啟迪中學(xué),陜西咸陽(yáng),712000)
人工智能發(fā)展關(guān)系著未來(lái),近年來(lái)黨和政府對(duì)人工智能越來(lái)越重視,然而人工智能發(fā)展是一個(gè)十分曲折的歷程,從20世紀(jì)50年代以來(lái),隨著科技的飛速發(fā)展,自1936年,阿蘭·圖靈的兩篇論文開(kāi)始,為計(jì)算機(jī)開(kāi)創(chuàng)了理論先河;又有1940年,維納發(fā)現(xiàn)的人工智能核心-反饋,1955年,約翰·麥卡錫第一次提出“人工智能”一詞,從此人工智能一詞出現(xiàn)在了人們視野之中。21世紀(jì)開(kāi)始世界進(jìn)入數(shù)字化時(shí)代,人們也隨科技的進(jìn)步而進(jìn)入了一個(gè)日新月異的全新世界,隨之而來(lái)的出現(xiàn)了許多問(wèn)題,如:社會(huì)人口老齡化,勞動(dòng)力成本上升,大量信息沖擊。人們對(duì)家庭服務(wù)機(jī)器人和人工智能的需求已迫在眉睫。隨著計(jì)算機(jī)的運(yùn)算速度的提高與網(wǎng)絡(luò)的日益完善,給人工智能提供了一個(gè)良好的發(fā)展基礎(chǔ)。深度學(xué)習(xí)是人工智能目前的一個(gè)重要方向,深度學(xué)習(xí)局部描述符廣泛應(yīng)用于計(jì)算機(jī)視覺(jué)領(lǐng)域和圖像理解領(lǐng)域。相比較傳統(tǒng)手工局部描述符,深度學(xué)習(xí)局部描述符經(jīng)深度學(xué)習(xí)提取到的描述符精度高,而傳統(tǒng)手工局部描述符精度不高,這會(huì)導(dǎo)致之后計(jì)算出現(xiàn)偏差甚至出現(xiàn)錯(cuò)誤。而現(xiàn)今大多數(shù)SLAM主要應(yīng)用傳統(tǒng)手工局部描述符,它的精度達(dá)不到很高,基于這一問(wèn)題我們準(zhǔn)備利用一個(gè)深度學(xué)習(xí)提取到的描述符來(lái)代替?zhèn)鹘y(tǒng)手工局部描述符,這樣會(huì)大大提高視覺(jué)精度。
同時(shí)定位與建圖(Simultaneous Localization And Mapping)其目的在于讓機(jī)器人了解周?chē)h(huán)境,并且知道自己在環(huán)境中的位置。然而,目前已經(jīng)存在的SLAM系統(tǒng)都是基于傳統(tǒng)手工提取的描述符,這種方法不僅浪費(fèi)了大量的空間,而且效率極低,對(duì)于光照等變化也不夠魯棒。此外,其構(gòu)建的地圖沒(méi)有包含語(yǔ)義等更多的信息。因此我們準(zhǔn)備構(gòu)造一個(gè)基于深度學(xué)習(xí)的slam系統(tǒng)以提高性能,首先通過(guò)深度學(xué)習(xí)提取局部描述符。在回環(huán)檢測(cè)的部分使用基于深度學(xué)習(xí)的場(chǎng)景識(shí)別,摒棄BOW(Bag of words)的方式。在構(gòu)建地圖的階段,我們采用了全卷積網(wǎng)絡(luò)進(jìn)行圖像語(yǔ)義分割,然后將分割結(jié)果映射到地圖中,這樣構(gòu)建的語(yǔ)義地圖可以為后續(xù)的機(jī)器人導(dǎo)航提供更多的信息。
我們通過(guò)查閱文獻(xiàn)和資料發(fā)現(xiàn)對(duì)人工智能機(jī)器人需求量較大的是家庭服務(wù)機(jī)器人,可見(jiàn)家庭服務(wù)機(jī)器人的基于深度學(xué)習(xí)的局部描述符研究尤為重要。文中寫(xiě)出來(lái)其他描述符的局限性,同時(shí)也寫(xiě)出來(lái)基于深度學(xué)習(xí)的局部描述符相比較其他描述符的優(yōu)點(diǎn),在提出設(shè)計(jì)原理的基礎(chǔ)上詳細(xì)分析了具體的實(shí)現(xiàn)途徑和技術(shù)路線。
局部特征描述符現(xiàn)今的運(yùn)用是非常廣泛的,如基于梯度的描述符SIFT(Scale-invariant feature transform)特征描述符是現(xiàn)今運(yùn)用最廣泛也是現(xiàn)今最主流的局部空間描述符。
SIFT 已成功用于圖像分類、圖像致密對(duì)應(yīng)、目標(biāo)檢索、機(jī)器人導(dǎo)航等領(lǐng)域。但是SIFT還有許多問(wèn)題,如:SIFT描述符高緯度,SIFT描述符計(jì)算復(fù)雜度高,SIFT描述符計(jì)算速度較慢等。Ke 和 Sukthankar PCA-SIFT 描述符,很好的解決了SIFT描述符的高維度問(wèn)題;針對(duì)SIFT描述符計(jì)算復(fù)雜高,Bay等人提出了SURF(Speed Up Robust Features)描述符,解決SIFT描述符運(yùn)算速度較慢的問(wèn)題;Mikolajczyk等人提出的GLOH描述符,使得提取局部描述符的魯棒性與辨別性都有了很大的提升。
二進(jìn)制描述符,具有計(jì)算簡(jiǎn)單,速度較快,所需處存容量少的特點(diǎn),現(xiàn)今此描述符受到很多關(guān)于計(jì)算機(jī)視覺(jué)領(lǐng)域研究者的關(guān)注。Calonder 等人提出了二進(jìn)制魯棒獨(dú)立描述符( BRIEF)。之后Galvezlopez等人又提出利用BRIEF描述符識(shí)別位置的移動(dòng)機(jī)器人。但二進(jìn)制魯棒獨(dú)立描述符不具備旋轉(zhuǎn)不變性以及其強(qiáng)度對(duì)位置采樣策略?;诖藛?wèn)題,Rublee等人提出了基于BRIEF 的ORB( oriented fast and rotatedBRIEF)二進(jìn)制描述符。這個(gè)描述符很好的解決了上述問(wèn)題,后經(jīng)大量的訓(xùn)練以及對(duì)性能的評(píng)估,得到一個(gè)結(jié)論:[1]在大的旋轉(zhuǎn)和和幾何變化條件下,BRIEF 的性能要低于ORB和BRISK描述符。后Alahi等人提出額FREAK( fast retina keypoint)描述符。對(duì)此類描述符在新的視角上給出了分析和解釋的Ziegler等人,他們認(rèn)為:此類描述符都是在序相關(guān)性上的 Hash 方法。對(duì)于此,他們提出了一種新方法: 局部一致對(duì)比圖像描述符( LUCID)。
由于目前利用手動(dòng)設(shè)計(jì)出來(lái)的描述符很難確定參數(shù)配置,手動(dòng)設(shè)計(jì)出的描述符很難同時(shí)具備較高的不變性、緊密型和獨(dú)特性。近些年來(lái)局部不變描述符研究領(lǐng)域的一大熱點(diǎn)是研究學(xué)者把機(jī)器學(xué)習(xí)的方法用于描述符的設(shè)計(jì)。
視覺(jué)里程計(jì)(Visual Odometry,VO)在基于視覺(jué)傳感器的SLAM系統(tǒng)里,視覺(jué)里程計(jì)又被稱為SLAM前端,視覺(jué)里程主要通過(guò)計(jì)算相鄰圖像之間的相對(duì)運(yùn)動(dòng),給出在當(dāng)前時(shí)刻相機(jī)對(duì)于給定的坐標(biāo)系中的姿態(tài)并且恢復(fù)周?chē)h(huán)境的空間結(jié)構(gòu)。目前,現(xiàn)在主流的實(shí)現(xiàn)視覺(jué)里程的方法主要有兩種:第一種是“不基于提取特征的直接法”;第二種是“基于提取特征的特征點(diǎn)法”。其中的代表為L(zhǎng)SD-SLAM(Large-Scale Direct Monocular SLAM)和ORB-SLAM的前端模塊。由于在場(chǎng)景光照發(fā)生改變或者時(shí)間的變化會(huì)導(dǎo)致直接法的失敗。而對(duì)于特征點(diǎn)來(lái)講特征點(diǎn)法對(duì)光照的變化具有一定的魯棒性,可以很好的解決這一問(wèn)題。
Siamese網(wǎng)絡(luò)結(jié)構(gòu)為兩個(gè)完全相同的網(wǎng)絡(luò),且它們的權(quán)值一樣。神經(jīng)網(wǎng)絡(luò)要經(jīng)過(guò)一個(gè)訓(xùn)練,例如:在室內(nèi)隨機(jī)選取許多的圖像,提取圖像中的特征點(diǎn),隨機(jī)的通過(guò)兩個(gè)網(wǎng)絡(luò)相同權(quán)值共享的網(wǎng)絡(luò),得到兩組描述符,算它們之間的距離,求出損失函數(shù),若特征點(diǎn)相似,其之間距離較小,損失函數(shù)值為1;若特征點(diǎn)相似,其之間距離較大,即dij大于α,則損失函數(shù)值為max0,α-dij,使dij大于α,減小損失函數(shù)值,讓其趨近于零。提取大量特征點(diǎn)對(duì)損失函數(shù)進(jìn)行訓(xùn)練,使相似點(diǎn)的距離小于不相似點(diǎn)的距離,基于此識(shí)別出相似描述符。
圖1 局部描述符提取網(wǎng)絡(luò)架構(gòu)
圖1中紅色和綠色為輸入局部圖像,fθ為網(wǎng)絡(luò)的一個(gè)擬合函數(shù)。例如上圖中,輸入已知的圖像,形成局部描述符。紅色輸入相似度差的圖像,減小損失函數(shù)值;綠色的是相似度較高的圖像,提高損失函數(shù)值;使其相似點(diǎn)的距離小于不相似點(diǎn)的距離,基于此訓(xùn)練識(shí)別相似的局部描述符。
損失函數(shù)(Loss function)通常如下所示:
L表示損失函數(shù),dij表示i和j之間的距離,如果sij=1,即為同類,損失為0;如果sij=0,即損失為max(0,α- dij )。
鉸鏈損失(hinge loss)是線性損失函數(shù)的常見(jiàn)類型,鉸鏈損失這一叫法來(lái)自其函數(shù)圖像,如圖2所示。其函數(shù)圖像為一個(gè)折線。
圖2 鉸鏈損失函數(shù)圖像
人工神經(jīng)網(wǎng)絡(luò)(Arti fi cial Neural Network,ANN),他是一個(gè)模仿模仿生物神經(jīng)網(wǎng)絡(luò)一個(gè)理論模型,和神經(jīng)系統(tǒng)一樣,他也是由許多神經(jīng)元一樣的帶有權(quán)值的神經(jīng)元,動(dòng)物的神經(jīng)網(wǎng)絡(luò)是由大量的神經(jīng)元連接而成,人工神經(jīng)網(wǎng)絡(luò)利用大量的神經(jīng)單元來(lái)模擬出動(dòng)物一樣的神經(jīng)網(wǎng)絡(luò),人工神經(jīng)網(wǎng)絡(luò)中神經(jīng)單元的權(quán)值大小可以很好的模擬出動(dòng)物神經(jīng)網(wǎng)絡(luò)中的抑制或者興奮狀態(tài)。其結(jié)構(gòu)如圖3所示。
圖中的圓為神經(jīng)單元,每個(gè)神經(jīng)單元之間的連接都有一個(gè)權(quán)重。人工神經(jīng)網(wǎng)絡(luò)的完善需要經(jīng)過(guò)大量訓(xùn)練,首先利用大量具備標(biāo)簽的樣本集去訓(xùn)練人工神經(jīng)網(wǎng)絡(luò),然后根據(jù)人工神經(jīng)網(wǎng)絡(luò)的輸出值與輸入進(jìn)去的具備標(biāo)簽的樣本集之間的誤差來(lái)修正人工神經(jīng)網(wǎng)絡(luò)中的參數(shù)值,使人工神經(jīng)網(wǎng)絡(luò)的誤差更小。
圖3 一般的人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型
深度學(xué)習(xí)技術(shù)(Unsupervised Feature Learning)是目前最主要的運(yùn)用于機(jī)器學(xué)習(xí)領(lǐng)域的十分熱門(mén)的一個(gè)方法,也是機(jī)器學(xué)習(xí)學(xué)科中的重要組成部分,機(jī)器學(xué)習(xí)的主要目的是可以讓計(jì)算機(jī)模擬出像人一樣的學(xué)習(xí)能力,從而獲得新的知識(shí)或者完成識(shí)別和預(yù)測(cè)等工作[2]。在過(guò)去的機(jī)器學(xué)習(xí)領(lǐng)域存在著許多問(wèn)題,比如以前的特征提取主要靠的是人工的手動(dòng)提取來(lái)完成的,因?yàn)槿斯ぬ崛√卣鼽c(diǎn)需要耗費(fèi)大量的時(shí)間和人力物力,而且要求提取的人有十分豐富的專業(yè)性知識(shí)和經(jīng)驗(yàn)。
而基于深度學(xué)習(xí)的機(jī)器學(xué)習(xí)就很好的解決了上述的問(wèn)題,它是一種不需要人為參與的特征學(xué)習(xí)的方法。深度學(xué)習(xí)的主要思想是:使用多層神經(jīng)來(lái)表示輸入的數(shù)據(jù)。
利用計(jì)算機(jī)視覺(jué)技術(shù)來(lái)模仿人類感知能力的一個(gè)最核心問(wèn)題就是: 如何對(duì)所要識(shí)別的物體進(jìn)行表示[3]。而基于深度學(xué)習(xí)的局部描述符,為解決上述問(wèn)題提供了一個(gè)很好的手段。
本文主要通過(guò)介紹并提出其他描述符的不足,和基于深度學(xué)習(xí)的局部描述符之間進(jìn)行對(duì)比,比較出基于深度學(xué)習(xí)的描述符與傳統(tǒng)描述符之間的優(yōu)點(diǎn)。通對(duì)比證明出基于深度學(xué)習(xí)的局部描述符相比較傳統(tǒng)描述符來(lái)講在魯棒性、辨別性和實(shí)用性都有很大的提高。近些年來(lái)比較主流的深度學(xué)習(xí)很好的解決了傳統(tǒng)手工局部描述符精度較低的問(wèn)題。深度學(xué)習(xí)是利用模擬生物神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行分析學(xué)習(xí)的一個(gè)神經(jīng)網(wǎng)絡(luò)。深度學(xué)習(xí)模擬類似人的大腦分層思維,形成本身具有的分層結(jié)構(gòu)。所以利用深度學(xué)習(xí)來(lái)提取局部描述符是完全可行的。
為了驗(yàn)證本文基于深度學(xué)習(xí)來(lái)提取局部描述符的過(guò)程,本文通過(guò)代表進(jìn)行這一過(guò)程的描述,即人工神經(jīng)網(wǎng)絡(luò)和Siamese Network的訓(xùn)練。
本文提出了基于深度學(xué)習(xí)提取到的局部描述符,很好的解決了目前以手工提取局部描述符的精度不高的問(wèn)題,但只是進(jìn)行了理論分析和模型的構(gòu)建,并沒(méi)有進(jìn)行實(shí)際的實(shí)驗(yàn)進(jìn)行檢驗(yàn)與驗(yàn)證,在未來(lái)可以結(jié)合實(shí)際的實(shí)驗(yàn)的結(jié)果來(lái)對(duì)這一研究進(jìn)行檢驗(yàn)與驗(yàn)證,可以對(duì)這一審計(jì)再一次研究和突破。盡管目前局部圖像描述符的研究取得了很大的進(jìn)步,但仍存在很多挑戰(zhàn)和發(fā)展機(jī)遇。