阮曉鋼 柴 潔 武 悅 張曉平 黃 靜
環(huán)境認(rèn)知和導(dǎo)航是智能移動機器人必備的技能[1-2].人和動物可以在復(fù)雜環(huán)境中進(jìn)行環(huán)境認(rèn)知和導(dǎo)航,如覓食、歸巢等[3],而目前移動機器人的認(rèn)知和導(dǎo)航能力不足以達(dá)到動物的水平,因此,模擬動物的神經(jīng)結(jié)構(gòu)和認(rèn)知機制,使機器人更加智能地進(jìn)行環(huán)境認(rèn)知和導(dǎo)航得到了越來越多的關(guān)注[4-7].一方面,用數(shù)學(xué)模型或人工智能算法輔助傳統(tǒng)神經(jīng)科學(xué)研究來驗證大腦運作的多種假設(shè)理論,可以促進(jìn)我們對動物環(huán)境認(rèn)知心理和導(dǎo)航行為的理解;另一方面,動物的環(huán)境認(rèn)知和導(dǎo)航機制為開發(fā)機器人的類腦空間認(rèn)知模型提供了一個很好的視角,可以幫助我們設(shè)計和構(gòu)造像動物一樣進(jìn)行自主環(huán)境認(rèn)知的智能移動機器人[8-10].
嚙齒類動物出色的導(dǎo)航能力,其原因長期以來假設(shè)為是內(nèi)部神經(jīng)空間的類地圖的表達(dá),也就是環(huán)境認(rèn)知地圖.美國行為心理學(xué)家Tolman[11]發(fā)現(xiàn)老鼠能在沒有強化因素的情況下自由探索并學(xué)會迷宮的布局,初次提出認(rèn)知地圖(Cognitive map) 的概念,認(rèn)為老鼠能利用對空間環(huán)境的內(nèi)在表達(dá)進(jìn)行環(huán)境的認(rèn)知與記憶.之后,O'keefe 等[12]發(fā)現(xiàn),當(dāng)老鼠處于某一特定位置時,大腦海馬體中有若干個神經(jīng)細(xì)胞會一直處于活躍狀態(tài);而當(dāng)其從這一位置離開,其他神經(jīng)細(xì)胞則會變得活躍,這些細(xì)胞稱為位置細(xì)胞(Place cells).位置細(xì)胞實時編碼老鼠在環(huán)境中的位置信息,從而在老鼠大腦內(nèi)部產(chǎn)生一個對其所在空間環(huán)境的拓?fù)浔磉_(dá),提供了以非自我為中心的認(rèn)知地圖(Allocentric cognitive map)[13].研究表明,在海馬CA3 區(qū)域的位置細(xì)胞能形成對環(huán)境的獨立表征[14].此外,海馬體能夠存儲大量的場景,并在相同場景出現(xiàn)的時候進(jìn)行場景復(fù)現(xiàn),從而指導(dǎo)人或動物的導(dǎo)航行為.
從老鼠環(huán)境認(rèn)知的機制中獲得啟發(fā),研究人員通過對老鼠大腦認(rèn)知機理進(jìn)行建模,進(jìn)一步探究動物的環(huán)境認(rèn)知機理,并用于指導(dǎo)機器人環(huán)境認(rèn)知與導(dǎo)航[15-16].Tolman 經(jīng)典迷宮實驗,包括T 巷迷宮實驗(T-alley maze)、T 高架迷宮實驗(T-elevated maze)、放射迷宮實驗(Radial maze)、老鼠繞道實驗(Tolman detour task)等,是對老鼠環(huán)境認(rèn)知行為的探討.其中,繞道實驗(Detour task)用于研究不同的認(rèn)知技能,如洞察力(Insight)、抑制控制(Inhibitory control)、路徑規(guī)劃(Route planning)等[17],其特點在于,更近的目標(biāo)會產(chǎn)生更強的吸引力,使動物在遇到障礙物時很難擺脫認(rèn)為的最短路徑而進(jìn)行繞道.構(gòu)建老鼠大腦的數(shù)學(xué)模型或神經(jīng)網(wǎng)絡(luò)模型,用機器人對老鼠繞道實驗進(jìn)行再現(xiàn)得到了各國研究者們的關(guān)注[18].Schmajuk 等[19]提出可以存儲空間位置和時間事件連接的遞歸聯(lián)結(jié)網(wǎng)絡(luò)(Recurrent associative networks)來構(gòu)建空間和時間認(rèn)知地圖,能在Tolman 繞道實驗中通過選擇正確的子目標(biāo)最終到達(dá)目標(biāo)點,但其沒有給出認(rèn)知地圖的形成過程與形象展示.Martinet 等[20]建立了一個可以為空間學(xué)習(xí)和行動規(guī)劃提供分布式信息的前額皮質(zhì)網(wǎng)絡(luò)模型,展示了前額皮質(zhì)柱能夠從冗余的海馬輸入中學(xué)習(xí)到稀疏的拓?fù)?度量表示,再現(xiàn)Tolman 繞道實驗并說明老鼠的認(rèn)知洞察能力得益于老鼠大腦神經(jīng)機制.Gao 等[21]提出了一種基于基底神經(jīng)節(jié)的運動學(xué)習(xí)模型,從基底神經(jīng)節(jié)中強化學(xué)習(xí)的動作-評價機制著手再現(xiàn)了Tolman 迷宮繞道實驗,但并未涉及認(rèn)知地圖的形成機制.
2011 年,Alvernhe 等[22]用電生理學(xué)方式對Tolman 繞道實驗中的局部重映射進(jìn)行研究,認(rèn)為位置細(xì)胞的局部重映射反映了迷宮局部結(jié)構(gòu)的更新,使得老鼠在遇到熟悉的道路被阻斷或被阻斷的道路重新連通等情況時可以選擇最優(yōu)路徑.此外,自組織圖被認(rèn)為是最接近人腦或生物神經(jīng)系統(tǒng)的模型,其表現(xiàn)出了神經(jīng)細(xì)胞群的拓?fù)涮卣饔成潢P(guān)系,這與海馬體位置細(xì)胞放電的機理非常相似.動態(tài)增長的自組織圖可以在不需要預(yù)先指定其大小的情況下進(jìn)行拓?fù)溆成?,具有較好的環(huán)境映射效果[23-24].
基于此,本文結(jié)合位置細(xì)胞和自組織圖的特性,建立動態(tài)增減位置細(xì)胞認(rèn)知地圖模型 (Dynamic growing and pruning place cells-based cognitive map model,DGP-PCCMM),該模型使機器人通過與環(huán)境的交互激活可達(dá)點的位置細(xì)胞,構(gòu)建并更新位置細(xì)胞認(rèn)知地圖;以構(gòu)建的認(rèn)知地圖作為輸入,運用位置細(xì)胞序列規(guī)劃算法,進(jìn)行機器人實時導(dǎo)航.本文的認(rèn)知地圖構(gòu)建方法具有以下優(yōu)點:1) 具有類腦仿生特性與一定的生物合理性;2) 能夠適應(yīng)動態(tài)環(huán)境(如門的開閉);3) 能夠降低建圖的復(fù)雜性.實驗結(jié)果表明,DGP-PCCMM 能動態(tài)構(gòu)建和更新認(rèn)知地圖,能初步完成對Tolman 老鼠繞道實驗的再現(xiàn),體現(xiàn)了其自組織與自學(xué)習(xí)特性.此外,本文進(jìn)行了與柵格地圖、動態(tài)窗口法的對比實驗和與其他認(rèn)知地圖模型的討論分析.結(jié)果表明,本文方法在所構(gòu)建地圖的簡潔性、完整性和對環(huán)境中動態(tài)障礙適應(yīng)性方面更有優(yōu)勢.
DGP-PCCMM 具有如圖1 所示類似自組織圖的“感知—響應(yīng)”結(jié)構(gòu),由感知層和響應(yīng)層組成,或稱由感知輸入層和海馬體位置細(xì)胞認(rèn)知地圖形成層組成.感知輸入層VI中的點如同機體感受器,從外部環(huán)境中獲得機器人的位置信息、場景圖像、障礙物信息等;海馬體位置細(xì)胞認(rèn)知地圖形成層VO,如同老鼠大腦皮質(zhì)中海馬記憶區(qū),用來形成位置細(xì)胞認(rèn)知地圖.VO層中的每個節(jié)點對應(yīng)不同位置點處激活的位置細(xì)胞,節(jié)點之間的連線對應(yīng)于位置細(xì)胞之間的連接關(guān)系.機器人在環(huán)境中的某個特定位置處,都有對應(yīng)的獲勝位置細(xì)胞激活,同時,該獲勝位置細(xì)胞還記憶了場景圖像信息,以便在下次經(jīng)過時進(jìn)行有效識別.
圖1 DGP-PCCMM 的“感知—響應(yīng)”框架Fig.1 The“sense-response”structure of DGP-PCCMM
位置細(xì)胞認(rèn)知地圖形成過程中會涉及到一些相關(guān)概念,在此提前進(jìn)行說明如下,并繪制其之間連接關(guān)系圖如圖2 所示.
圖2 各概念及其之間相互關(guān)系Fig.2 Concepts and their associations
1) 認(rèn)知地圖形成層中的神經(jīng)元不同于位置細(xì)胞.機器人每經(jīng)過一個位置x,都會對應(yīng)一個能使認(rèn)知層神經(jīng)元輸出最大的神經(jīng)元vi(x),vi(x)便是感知層輸入x的獲勝神經(jīng)元;獲勝神經(jīng)元會對應(yīng)一個前饋聯(lián)結(jié)權(quán)值wj,wj即為對應(yīng)輸入x的激活的位置細(xì)胞.
2) 前饋聯(lián)結(jié)關(guān)系矩陣等價于位置細(xì)胞矩陣,都用W表示,記錄N個激活的位置細(xì)胞的位置信息.
3) 連接關(guān)系矩陣E記錄各位置細(xì)胞之間的連通性,在位置細(xì)胞增長過程中形成,并能通過動態(tài)縮減機制更新.
4) 位置細(xì)胞矩陣W和連接關(guān)系矩陣E共同組成位置細(xì)胞認(rèn)知地圖G.
為體現(xiàn)機器人與環(huán)境交互過程中位置細(xì)胞動態(tài)增長的特性,基于上述“感知—響應(yīng)”框架,首先構(gòu)建以位置細(xì)胞為頂點,以位置細(xì)胞之間連接關(guān)系為邊的動態(tài)增長認(rèn)知地圖,其構(gòu)建步驟如下.
動態(tài)增長認(rèn)知地圖構(gòu)建流程如圖3 所示.
認(rèn)知地圖與人工神經(jīng)網(wǎng)絡(luò)類似,是一個由輸入空間到輸出空間的映射,即由環(huán)境感知到認(rèn)知地圖的映射.模型中,由前饋突觸權(quán)重向量構(gòu)成的集合構(gòu)成映像輸出空間的節(jié)點,即獲得位置細(xì)胞矩陣W;并能在此過程中獲得位置細(xì)胞鄰接矩陣E;從而獲得認(rèn)知地圖G={W,E}.
圖3 動態(tài)增長認(rèn)知地圖構(gòu)建流程圖Fig.3 The flow chart of dynamic growing cognitive map
為使認(rèn)知地圖模型能夠適應(yīng)動態(tài)環(huán)境,即在遇到動態(tài)障礙物時能動態(tài)更新認(rèn)知地圖,我們設(shè)計了認(rèn)知地圖的動態(tài)縮減機制.此處的動態(tài)障礙物是指,在初次訪問某位置時不存在,而在第2 次訪問相同位置時出現(xiàn)的障礙物.認(rèn)知地圖動態(tài)縮減機制的基本原則是:機器人在導(dǎo)航過程中檢測到動態(tài)障礙物時,將當(dāng)前位置細(xì)胞與即將到達(dá)的位置細(xì)胞之間的連接關(guān)系變?yōu)?0,認(rèn)為兩者之間的距離變?yōu)闊o窮大,并對認(rèn)知地圖的連接關(guān)系矩陣E進(jìn)行實時縮減與更新.之后調(diào)整機器人位姿至可行方向,應(yīng)用第2節(jié)介紹的位置細(xì)胞序列規(guī)劃算法重新進(jìn)行序列規(guī)劃,并指導(dǎo)機器人導(dǎo)航.值得一提的是,由于機器人探測到障礙物時只能觀察到距離障礙物表面的距離,并不能得知障礙物的厚度信息,故不能刪除即將到達(dá)的位置細(xì)胞,而只是將其之間的連接關(guān)系變?yōu)?.
基于位置細(xì)胞認(rèn)知地圖的移動機器人路徑規(guī)劃與導(dǎo)航,可分為三大部分內(nèi)容:定位、構(gòu)圖和決策.當(dāng)給定一個導(dǎo)航任務(wù)后,首先對機器人當(dāng)前位置進(jìn)行定位;其次,將感知輸入層得到的機器人位置信息輸入到認(rèn)知地圖形成層,根據(jù)DGP-PCCMM 進(jìn)行認(rèn)知地圖的構(gòu)建和更新;接著,利用位置細(xì)胞序列規(guī)劃算法進(jìn)行行為決策,指導(dǎo)機器人導(dǎo)航.機器人每行進(jìn)一步,判斷是否到達(dá)目標(biāo)場景,如果到達(dá)目標(biāo),則機器人對認(rèn)知地圖及場景信息進(jìn)行記憶,導(dǎo)航結(jié)束;如果沒到達(dá)目標(biāo),則重新對當(dāng)前位置和目標(biāo)位置進(jìn)行定位,根據(jù)認(rèn)知地圖進(jìn)行行為決策,直至到達(dá)目標(biāo)點,結(jié)束導(dǎo)航.機器人導(dǎo)航框圖如圖4所示,本文主要研究獲得精確定位信息后的認(rèn)知地圖構(gòu)建和行為決策部分的內(nèi)容,用粗虛線框表示.
為實現(xiàn)基于認(rèn)知地圖的路徑規(guī)劃與導(dǎo)航,提出位置細(xì)胞序列規(guī)劃算法.從動物導(dǎo)航有目標(biāo)取向性獲得啟發(fā),定義導(dǎo)航中的負(fù)取向函數(shù)為當(dāng)前位置細(xì)胞經(jīng)相鄰位置細(xì)胞到目標(biāo)點位置細(xì)胞的能量消耗.所經(jīng)過的路徑越長,能量消耗越多,負(fù)取向函數(shù)值越大.因此在導(dǎo)航時,選擇負(fù)取向函數(shù)值最小的相鄰位置細(xì)胞作為下一步的運動方向.機器人每到達(dá)一個位置,對應(yīng)一個位置細(xì)胞激活,計算一次負(fù)取向函數(shù),獲得機器人下一步的運動方向,行進(jìn)一個步長后更新當(dāng)前位置細(xì)胞并將其加入導(dǎo)航路徑,如此迭代直到到達(dá)目標(biāo)點位置細(xì)胞,最終可以獲得從起始點位置細(xì)胞到目標(biāo)點位置細(xì)胞的位置細(xì)胞序列P,從而實現(xiàn)導(dǎo)航.算法流程圖如圖5 所示.
圖4 機器人導(dǎo)航框圖Fig.4 The diagram of robot navigation
圖5 位置細(xì)胞序列規(guī)劃算法Fig.5 The sequence planning algorithm of place cells
檢驗機器人是否具有智能的一個方法是令其完成與動物相類似的任務(wù),例如用機器人再現(xiàn)老鼠實驗.老鼠的繞道取食行為使其能適應(yīng)環(huán)境的變化,提高其存活的幾率,且這種繞道取食行為是由后天學(xué)習(xí)獲得.認(rèn)知模型結(jié)果與動物實驗結(jié)果的契合度對比是評價、判斷和比較認(rèn)知模型的最廣泛的方法[25].本文研究了能動態(tài)增減的位置細(xì)胞認(rèn)知地圖模型 DGP-PCCMM.為驗證該學(xué)習(xí)模型的正確性,本文對Tolman 老鼠迷宮中的繞道實驗進(jìn)行再現(xiàn),首先對繞道實驗進(jìn)行介紹,之后介紹機器人再現(xiàn)繞道實驗仿真環(huán)境的設(shè)計,最后給出實驗結(jié)果.
1930 年,Tolman 設(shè)計了三迷宮實驗用于研究老鼠的繞道行為智能;1964 年,Maier 團(tuán)隊將Tolman 實驗進(jìn)行簡化,本文采用簡化后的Tolman 迷宮環(huán)境[26],如圖6 所示.Tolman 老鼠繞道實驗分為兩個階段,環(huán)境探索階段和覓食導(dǎo)航階段.在環(huán)境探索階段,通過分別在離三叉路口不遠(yuǎn)的地方設(shè)置障礙來迫使老鼠從三條不同路徑中選擇一條來達(dá)到目標(biāo),最短路徑和中間路徑共享一個在最長路徑中沒有的公共路徑.在覓食導(dǎo)航階段,老鼠會首先選擇通往目標(biāo)點的最短路徑Route 1;當(dāng)發(fā)現(xiàn)A處障礙后,老鼠會選擇中間路徑Route 2;當(dāng)發(fā)現(xiàn)在最短和中間路徑的公共部分有障礙即障礙B時,它們會選擇最長的路徑Route 3,而不是選擇中間路徑,從而證明它們知道被阻塞的部分同時屬于最短路徑和中間路徑.
圖6 Tolman 老鼠繞道實驗迷宮環(huán)境Fig.6 Maze environment of Tolman detour task
Tolman 認(rèn)為在老鼠大腦中存在認(rèn)知地圖,當(dāng)在迷宮中尋找目標(biāo)時,即使在迷宮中的任意點看不到全局環(huán)境,但能根據(jù)認(rèn)知地圖進(jìn)行行為決策,選擇最優(yōu)路徑進(jìn)行導(dǎo)航.
本文實驗對象是輪式圓形機器人,半徑為2.5 cm,運動線速度v=2.5 cm/s,機器人通過左右兩輪WL和WR的差動驅(qū)動行走,通過改變方向輪WD朝向可以實現(xiàn)任意角度的轉(zhuǎn)向,其俯視示意圖如圖7 所示.從老鼠感知系統(tǒng)獲得啟發(fā),本文假設(shè)可以獲得機器人精確的位置信息,作為認(rèn)知地圖形成層VO的輸入;配備8 個測距傳感器均勻分布在圓形機身用于探測與障礙物之間的距離,測距范圍為 1~ 10 cm.本文仿真環(huán)境尺寸參考文獻(xiàn)[22]中的Tolman 迷宮環(huán)境,尺寸為 130 cm×130 cm,其中灰色代表障礙物,白色代表通路,通路寬度為 10 cm,如圖8 所示.
圖7 輪式圓形機器人俯視圖Fig.7 Top view of wheeled circular robot
圖8 Tolman 迷宮仿真環(huán)境Fig.8 The simulation environment of Tolman maze
實驗 1.認(rèn)知地圖構(gòu)建過程
首先讓機器人漫游環(huán)境,以(35,5)為起點,每經(jīng)過一個步長都采集位置信息、場景信息和障礙信息,邊漫游邊構(gòu)建認(rèn)知地圖.考慮到機器人自身尺寸,在仿真實驗采集樣本點的過程中,首先將墻邊界進(jìn)行膨脹化處理,機器人所處的位置中心離邊界的距離一定大于機器人的半徑,此處設(shè)置為3 cm.設(shè)置機器人隨機搜索的行進(jìn)步長dstep為 5 cm.初始實驗參數(shù)設(shè)置見表1.
分別采集1 000 和2 000 個能遍歷整個迷宮環(huán)境的位置點及相應(yīng)的場景記憶信息,每有25 個位置細(xì)胞激活就記錄一次認(rèn)知地圖,可以得到以下的認(rèn)知地圖的構(gòu)建過程,分別展示于圖9 和圖10.圖中圓點為機器人所經(jīng)過的位置記錄,星號表示生成的位置細(xì)胞.機器人剛開始只有一個位置細(xì)胞激活,隨著機器人探索環(huán)境獲得可達(dá)位置點的增多,所激活的位置細(xì)胞也逐漸增多,最終只用了少量的位置細(xì)胞就可以映射整個迷宮環(huán)境.如圖9和圖10 所示,當(dāng)有1 000 個可達(dá)位置點時,共有90 個位置細(xì)胞激活過;當(dāng)有2 000 個可達(dá)位置點時,共有93 個位置細(xì)胞激活過.機器人在隨機探索環(huán)境的過程中,所激活的位置細(xì)胞個數(shù)不斷增多,表明其對環(huán)境的認(rèn)知程度逐漸增強,最終能自組織地形成整體環(huán)境的認(rèn)知地圖.
表1 DGP-PCCMM 初始參數(shù)設(shè)置Table 1 Initial simulation parameters for DGP-PCCMM
圖11 展示了位置細(xì)胞個數(shù)N隨學(xué)習(xí)次數(shù)n的變化情況,圖例中nm表示最大學(xué)習(xí)次數(shù).實線和點劃線表示學(xué)習(xí)次數(shù)分別為1 000 和2 000 時,位置細(xì)胞個數(shù)的變化.由圖11 可知,在初始階段只有一個位置細(xì)胞激活;隨著與環(huán)境交互次數(shù)的增多,激活過的位置細(xì)胞個數(shù)不斷增加;當(dāng)機器人基本遍歷環(huán)境后,認(rèn)知地圖中的激活過的位置細(xì)胞個數(shù)大體一致;之后繼續(xù)遍歷環(huán)境,位置細(xì)胞的個數(shù)變化不大.值得一提的是,由于老鼠在迷宮中屬于探索式運動,經(jīng)常出現(xiàn)折返現(xiàn)象,故對環(huán)境的認(rèn)知也是漸進(jìn)的.
圖9 認(rèn)知地圖構(gòu)建過程(nm=1 000)Fig.9 The formation process of cognitive map(nm=1 000)
圖10 認(rèn)知地圖構(gòu)建過程(nm=2 000)Fig.10 The formation process of cognitive map(nm=2 000)
圖11 位置細(xì)胞個數(shù)隨學(xué)習(xí)次數(shù)變化情況Fig.11 The number of place cells changing with the number of learning times
實驗 2.再現(xiàn)Tolman 老鼠繞道實驗
上述實驗闡明基于位置細(xì)胞的認(rèn)知地圖是如何自組織構(gòu)建出來的.在這個實驗中,我們使用已構(gòu)建好的認(rèn)知地圖進(jìn)行Tolman 繞道實驗的再現(xiàn),所用迷宮環(huán)境如圖8.起始點設(shè)置在(35,5),目標(biāo)點設(shè)置在(35,125).實驗分為三部分,首先進(jìn)行門A和B都打開情況下的導(dǎo)航,其次是門A關(guān)閉門B打開情況下的導(dǎo)航,最后是門A打開而門B關(guān)閉情況下的繞道行為再現(xiàn).
首先在起始點根據(jù)位置細(xì)胞序列規(guī)劃算法得到一條初始全局最優(yōu)位置細(xì)胞序列,機器人根據(jù)所規(guī)劃的位置細(xì)胞序列向目標(biāo)點位置細(xì)胞行進(jìn);在行進(jìn)過程中,當(dāng)環(huán)境感知模塊檢測到當(dāng)前場景與記憶中的場景信息不匹配時,啟動認(rèn)知地圖動態(tài)縮減機制,更新位置細(xì)胞之間的連接關(guān)系,得到更新后的認(rèn)知地圖;調(diào)整機器人位姿,重新進(jìn)行位置細(xì)胞序列規(guī)劃選擇行進(jìn)方向,最終到達(dá)目標(biāo)點.
圖12 門A 和門B 都打開情況下的導(dǎo)航Fig.12 Navigation with door A and door B open
圖13 門A 關(guān)閉門B 打開情況下的導(dǎo)航Fig.13 Navigation with door A closed and door B open
圖12~ 14 為再現(xiàn)Tolman 繞道實驗結(jié)果圖,其中,星號表示激活的位置細(xì)胞,星號及其之間的細(xì)線表示得到的認(rèn)知地圖,方塊表示起點,五角星表示目標(biāo)點,粗線表示根據(jù)位置細(xì)胞規(guī)劃算法得到的導(dǎo)航路徑.圖12 為門A和B都打開的情況,此時機器人選取最短路徑Route1 作為導(dǎo)航路徑.圖13為門A關(guān)閉而門B打開的情況,開始時機器人在起始點繼續(xù)沿著Route 1 前進(jìn),當(dāng)檢測到A處障礙物,啟動認(rèn)知地圖動態(tài)縮減機制,將當(dāng)前位置細(xì)胞與下一位置細(xì)胞之間的連接關(guān)系設(shè)為0;機器人位姿調(diào)轉(zhuǎn)180°方向,重新進(jìn)行位置細(xì)胞序列規(guī)劃,可以看到機器人選擇中間路徑到達(dá)目標(biāo)點;在下次導(dǎo)航時,由于認(rèn)知地圖已經(jīng)更新,機器人直接選擇Route 2到達(dá)目標(biāo)點.同理,當(dāng)門A打開而門B關(guān)閉時,最終機器人將學(xué)習(xí)到選擇Route 3 進(jìn)行導(dǎo)航,如圖14 所示.
圖14 門A 打開門B 關(guān)閉情況下的導(dǎo)航Fig.14 Navigation with door A open and door B closed
仿真結(jié)果表明,移動機器人能夠在與環(huán)境交互的過程中感知環(huán)境并在遇到動態(tài)障礙物時動態(tài)更新認(rèn)知地圖;同時基于所構(gòu)建的位置細(xì)胞認(rèn)知地圖,利用位置細(xì)胞序列規(guī)劃可以獲得最優(yōu)導(dǎo)航路徑,從而實現(xiàn)對Tolman 繞道實驗的再現(xiàn).
機器人建圖一直是機器人和人工智能領(lǐng)域的一個非?;钴S的研究領(lǐng)域,主要解決通過移動機器人獲取物理環(huán)境空間模型的問題.在20 世紀(jì)80 年代到90 年代早期,機器人建圖主要分為柵格地圖和拓?fù)涞貓D兩種方法.柵格地圖采集環(huán)境的幾何特性,而拓?fù)涞貓D側(cè)重描述不同位置之間的連接[27].同步定位與地圖構(gòu)建(Simultaneous localization and mapping,SLAM)問題從1986 年提出后逐漸興起[28],側(cè)重于工程實踐研究.之后,隨著位置細(xì)胞、網(wǎng)格細(xì)胞、頭朝向細(xì)胞等與環(huán)境認(rèn)知和導(dǎo)航相關(guān)細(xì)胞的發(fā)現(xiàn),仿生建圖研究逐漸成為新的研究潮流,主要以探索動物環(huán)境認(rèn)知機理和構(gòu)建更智能的移動機器人為目的[15,29],側(cè)重于仿生理論研究.本文屬于仿生建圖研究的范疇.下面將本文的認(rèn)知地圖與幾種經(jīng)典的建圖方法進(jìn)行對比討論分析.
柵格地圖是常用的地圖表示方法,其優(yōu)點在于建模簡單、易于更新和處理,但隨著地圖范圍擴大,所需要的存儲空間將會大大提升.近年來,自適應(yīng)柵格地圖表示方法被提出,能根據(jù)環(huán)境自適應(yīng)調(diào)整柵格大小,從而有效節(jié)省存儲空間,如基于四叉樹的自適應(yīng)柵格地圖創(chuàng)建方法.然而,自適應(yīng)柵格地圖僅適用于靜態(tài)環(huán)境,在障礙物密度差異大的環(huán)境中效果明顯;在障礙密度差異小且障礙物較多的環(huán)境中,其優(yōu)勢不突出[30].本文模型不僅具有類腦仿生特性和生物合理性,而且經(jīng)實驗驗證,在所構(gòu)建地圖的簡潔性和對環(huán)境中動態(tài)障礙的適應(yīng)性方面更有優(yōu)勢.
1) 在所構(gòu)建地圖簡潔性方面的對比
為進(jìn)行對比分析,本文分別采用四叉樹自適應(yīng)柵格建圖法和本文方法對Hairpin 迷宮進(jìn)行建圖.Hairpin 迷宮為如圖15 所示的 70 cm×70 cm 的靜態(tài)室內(nèi)環(huán)境.在標(biāo)準(zhǔn)的四叉樹柵格建圖中,環(huán)境地圖分割方法是將整個未知環(huán)境切分成4 個節(jié)點樹,確定子?xùn)鸥裰心男顟B(tài)是空置或被占據(jù)的,哪些狀態(tài)是未知的,然后將未知柵格進(jìn)一步劃分為4 個小節(jié)點樹,指導(dǎo)整個地圖搜索完畢并滿足精度要求,則建圖完成.基于四叉樹的柵格地圖在一定程度上解決了傳統(tǒng)柵格占用海量存儲空間的問題,但該方法對應(yīng)用環(huán)境有要求,在障礙密度差異小且障礙物較多的環(huán)境中,優(yōu)勢不突出[30].本文認(rèn)為,Tolman迷宮屬于障礙密度差異大且障礙物較多的環(huán)境,Hair pin 迷宮屬于障礙密度差異小且障礙物較多的環(huán)境.
圖15 Hairpin 迷宮Fig.15 Hairpin maze
圖16 四叉樹柵格地圖Fig.16 Occupancy grids based on quadtree
圖16 是構(gòu)建的四叉樹柵格地圖,圖16(a)和圖16(b)分別為采用四叉樹柵格建圖法對Tolman迷宮和Hairpin 迷宮進(jìn)行建圖的結(jié)果.圖17 是本文方法構(gòu)建的認(rèn)知地圖,圖17(a)和圖17(b)分別為采用本文方法對Tolman 迷宮和Hairpin 迷宮進(jìn)行建圖的結(jié)果.從仿真結(jié)果圖可以定性地看出,本文認(rèn)知地圖構(gòu)建整個環(huán)境所需要的位置細(xì)胞數(shù)比四叉樹柵格地圖所需要的柵格數(shù)要少.對實驗結(jié)果做定量分析,以四叉樹柵格建圖法形成的大柵格計數(shù),構(gòu)建Tolman迷宮地圖需要的柵格數(shù)大于196,構(gòu)建Hairpin 迷宮地圖需要的柵格數(shù)大于256.而以本文認(rèn)知地圖建圖法構(gòu)建Tolman 迷宮僅需要90個位置細(xì)胞,構(gòu)建Hairpin 迷宮地圖僅需要65 個位置細(xì)胞,比四叉樹柵格地圖更簡潔.四叉樹柵格地圖和本文認(rèn)知地圖的性能指標(biāo)對比如表2 所示.此處需要說明的是,Tolman 迷宮地圖的尺寸為130 cm×130 cm,而Hairpin 迷宮地圖的尺寸是70 cm×70 cm,所以構(gòu)建Tolman 迷宮所形成的位置細(xì)胞個數(shù)比構(gòu)建Hairpin 迷宮多.此外,本文建圖過程與海馬體的一次學(xué)習(xí)或快速學(xué)習(xí)機制[31]相吻合,本文地圖生成過程更符合動物對環(huán)境的認(rèn)知過程.
2) 在對動態(tài)障礙適應(yīng)性方面的對比
圖17 本文方法構(gòu)建的認(rèn)知地圖Fig.17 Cognitive maps based on methods of this paper
表2 本文與四叉樹柵格對比Table 2 Comparison between occupancy grids based on quadtree and DGP-PCCMM
對動態(tài)障礙的適應(yīng)性是機器人環(huán)境認(rèn)知的重要內(nèi)容.文獻(xiàn)[30]表明,四叉樹柵格地圖法較適合于對靜態(tài)環(huán)境的建圖,如果環(huán)境發(fā)生變化,則需要重新進(jìn)行四叉樹柵格建圖,對動態(tài)變化的適應(yīng)性較弱.人工勢場法、遺傳算法、蟻群算法、動態(tài)窗口法等都有一定的局部避障能力[32-33].其中,動態(tài)窗口法是近年來較常用的一種局部路徑規(guī)劃方法,對動態(tài)變化有良好的適應(yīng)性,能夠?qū)崟r避障,但其不能有效利用學(xué)習(xí)到的先驗信息,導(dǎo)致耗時較長,且其無法考慮路徑的全局最優(yōu)性,時常會陷入局部最優(yōu)[33-34].本文方法能在與環(huán)境的交互中學(xué)習(xí)到環(huán)境的地圖信息,并在之后的導(dǎo)航中能利用學(xué)習(xí)到的認(rèn)知地圖指導(dǎo)導(dǎo)航,耗時短且能實現(xiàn)全局最優(yōu).為對比動態(tài)窗口法和本文方法對動態(tài)障礙的適應(yīng)性,將這兩種方法分別用于在Tolman 迷宮的導(dǎo)航實驗,并在圖18中展示兩者的導(dǎo)航結(jié)果,其中實線和虛線分別表示動態(tài)窗口法和本文方法得到的路線.在18(c)門A打開而門B關(guān)閉的情況下,動態(tài)窗口法會由于避障而出現(xiàn)繞遠(yuǎn)路或陷入局部最優(yōu)的現(xiàn)象,并且在多次導(dǎo)航后并不會學(xué)習(xí)到環(huán)境的地圖信息,導(dǎo)致每次導(dǎo)航都會繞遠(yuǎn)路.而在本文方法中,機器人在第一次發(fā)現(xiàn)臨時障礙后,會及時更新認(rèn)知地圖,從而在之后的導(dǎo)航中能采用規(guī)劃出的全局最優(yōu)路徑.兩種方法的性能指標(biāo)對比表如表3 所示,其中,T1、T2 和T3 分別表示圖18(a)、18(b)和18(c)的情況.由表3 可知,在T1 和T2 情況下,兩種方法都能近似最優(yōu)地進(jìn)行導(dǎo)航,本文由于根據(jù)認(rèn)知地圖進(jìn)行導(dǎo)航,運行時間相對較短.在T3 情況下,采用動態(tài)窗口法由于繞遠(yuǎn)路和陷入局部最優(yōu),運行時間相對很長,T3 的運行時間比T1 增長了約5 倍,而采用本文方法運行時間只比T1 時增長了約2.5 倍.本文認(rèn)知地圖構(gòu)建方法的一大優(yōu)點在于在遇到動態(tài)障礙時可以利用已有的認(rèn)知地圖,從而在下次導(dǎo)航時直接使用學(xué)習(xí)后的認(rèn)知地圖進(jìn)行導(dǎo)航,避免了重新學(xué)習(xí)環(huán)境信息的時間浪費.
圖18 動態(tài)窗口法和本文方法導(dǎo)航結(jié)果對比圖Fig.18 Comparation of navigation results between dynamic window approach and DGP-PCCMM
表3 本文與動態(tài)窗口法對比Table 3 Comparison between dynamic window approach and our method
Martinet 等[20]提出了前額皮質(zhì)柱神經(jīng)網(wǎng)絡(luò)模型,通過構(gòu)建位置細(xì)胞和皮質(zhì)柱的分層網(wǎng)絡(luò)再現(xiàn)Tolman 繞道實驗.文獻(xiàn)[20]和本文都能對繞道實驗進(jìn)行再現(xiàn),文獻(xiàn)[20]展示了皮質(zhì)柱網(wǎng)絡(luò)結(jié)構(gòu)從海馬輸入中學(xué)習(xí)稀疏的拓?fù)涠攘勘硎?,而本文?cè)重基于海馬體位置細(xì)胞進(jìn)行認(rèn)知地圖的構(gòu)建與更新,屬于對老鼠空間導(dǎo)航機制的不同研究方向的探索.
Erdem 等[35]提出了基于前向軌跡探針的目標(biāo)導(dǎo)向的空間導(dǎo)航模型.通過隨機探索,可以創(chuàng)建由位置細(xì)胞和前額皮質(zhì)細(xì)胞組成的地圖,實現(xiàn)目標(biāo)導(dǎo)向的行為.然而,正如文獻(xiàn)[35]的討論中所說,何時引入位置細(xì)胞來表達(dá)空間環(huán)境的位置信息是一個重要的問題,文獻(xiàn)[35]中的位置細(xì)胞是通過特定的偽隨機方法來產(chǎn)生的,存在不能很好表達(dá)環(huán)境的問題.本文采用類似自組織圖的“感知—響應(yīng)”結(jié)構(gòu),通過競爭與動態(tài)增長獲得位置細(xì)胞,可以實現(xiàn)對環(huán)境的良好表達(dá),兩種方法獲得的認(rèn)知地圖如圖19 所示,圖19(a)為文獻(xiàn)[35]得到的認(rèn)知地圖,其中圓圈表示位置細(xì)胞,虛線表示得到的導(dǎo)航路徑;圖19(b)為本文方法得到的認(rèn)知地圖,其中星號表示位置細(xì)胞,星號及其之間的連線表示得到的認(rèn)知地圖.通過圖19 可知,文獻(xiàn)[35]得到的認(rèn)知地圖在某些位置處沒有位置細(xì)胞表示,如最左邊一列,而在某些位置處有多余的位置細(xì)胞表示,如從左邊數(shù)第三列可行通路,不能生成對整個環(huán)境的完整表達(dá);相比較而言,本文方法可以獲得對整個環(huán)境的一個均勻完整的表達(dá),很好地解決了文獻(xiàn)[35]提出的如何引入位置細(xì)胞來表達(dá)空間環(huán)境這一重要問題.
圖19 Erdem 認(rèn)知地圖與本文認(rèn)知地圖對比Fig.19 Comparison between different cognitive maps
概括來說,本文認(rèn)知地圖構(gòu)建方法有以下優(yōu)點:1) 具有類腦仿生特性與一定的生物合理性.與柵格地圖和一般的拓?fù)涞貓D相比,本文認(rèn)知地圖的構(gòu)建和更新過程與海馬體的一次學(xué)習(xí)或快速學(xué)習(xí)機制相一致,更符合動物對環(huán)境的認(rèn)知過程.2) 能夠適應(yīng)動態(tài)環(huán)境(如門的開閉).與動態(tài)窗口法相比,在遇到動態(tài)障礙后,本文方法能動態(tài)更新認(rèn)知地圖,并利用學(xué)習(xí)到的認(rèn)知地圖指導(dǎo)導(dǎo)航,耗時短且能實現(xiàn)全局最優(yōu).3) 能夠降低建圖的復(fù)雜性,并通過構(gòu)建Tolman 迷宮、Hairpin 迷宮地圖進(jìn)行驗證.與四叉樹柵格地圖相比,本文方法不僅適用于障礙密度差異大的環(huán)境,而且在障礙分布差異小且障礙物較多的環(huán)境中也表現(xiàn)出較好的性能.
本文用機器人再現(xiàn)動物繞道實驗,是通過仿生使機器人更加智能化的一個初步探索.本文受海馬體位置細(xì)胞在特定位置放電的啟發(fā),通過構(gòu)建動態(tài)增減的位置細(xì)胞認(rèn)知地圖,再現(xiàn)了Tolman 老鼠繞道實驗.目前研究的重點集中在對認(rèn)知地圖的構(gòu)建上,所提出的構(gòu)建方法具有以下優(yōu)點:1) 具有類腦仿生特性與一定的生物合理性;2) 能夠適應(yīng)動態(tài)環(huán)境(如門的開閉);3) 能夠降低建圖的復(fù)雜性.實驗結(jié)果表明,機器人漫游和導(dǎo)航的過程中能動態(tài)形成和更新認(rèn)知地圖,能像Tolman 老鼠那樣,利用認(rèn)知地圖進(jìn)行自主環(huán)境探索、認(rèn)知與導(dǎo)航,完成繞道取食.
本文屬于對動物導(dǎo)航過程中大腦運作機制的一個探索,對海馬體位置細(xì)胞的建模是后續(xù)研究動物導(dǎo)航過程中可能涉及到的內(nèi)嗅皮層、丘腦、紋狀體等之間聯(lián)合建模的基礎(chǔ).本文簡單表明了海馬體位置細(xì)胞的場景記憶功能,對機器人場景記憶的仿生建模有待進(jìn)一步的研究.將來期望進(jìn)一步完善機器人對Tolman 繞道實驗的再現(xiàn),使機器人實現(xiàn)更仿生(如將障礙物撤除后機器人重新發(fā)現(xiàn)捷徑等)的環(huán)境認(rèn)知.