郝大鵬,傅衛(wèi)平,王雯
(1.西安理工大學(xué) 機(jī)械與精密儀器工程學(xué)院,陜西 西安 710048;2.西安航空學(xué)院 理學(xué)院,陜西 西安 710077)
基于學(xué)習(xí)自動機(jī)的移動機(jī)器人導(dǎo)航行為協(xié)調(diào)控制
郝大鵬1,2,傅衛(wèi)平1,王雯1
(1.西安理工大學(xué) 機(jī)械與精密儀器工程學(xué)院,陜西 西安 710048;2.西安航空學(xué)院 理學(xué)院,陜西 西安 710077)
針對移動機(jī)器人導(dǎo)航控制中的行為協(xié)調(diào)問題,提出了一種學(xué)習(xí)速率可控的學(xué)習(xí)自動機(jī)。該方法將機(jī)器人與障礙物之間的接觸時間變化作為獎懲信號,通過主動控制機(jī)器人線速度來調(diào)節(jié)學(xué)習(xí)決策時間,根據(jù)環(huán)境動態(tài)特性調(diào)整行為動機(jī),并通過學(xué)習(xí)決策時間和行為動機(jī)控制共同控制學(xué)習(xí)速率,保證機(jī)器人在學(xué)習(xí)決策時間內(nèi)完成導(dǎo)航行為的協(xié)調(diào)執(zhí)行。仿真證實提出的學(xué)習(xí)自動機(jī)應(yīng)用于移動機(jī)器人導(dǎo)航控制是可行的,與動力學(xué)分岔控制方法對比,在未知動態(tài)環(huán)境中進(jìn)行導(dǎo)航行為協(xié)調(diào)控制,提出方法的安全性更高。
移動機(jī)器人; 行為動力學(xué)方法; 行為協(xié)調(diào); 學(xué)習(xí)自動機(jī)
行為動力學(xué)導(dǎo)航方法是一種基于行為的移動機(jī)器人導(dǎo)航方法,具有很高的自治性和魯棒性[1-2],該方法已取得了一些研究成果,例如,郝大鵬[3]提出跟隨吸引子控制律解決線速度受限問題;Monteiro[4]利用該方法實現(xiàn)了多機(jī)器人編隊問題;雷艷敏[5]、郝大鵬[6-7]等分別針對該方法在動態(tài)未知環(huán)境中導(dǎo)航安全問題提出了解決方案。
經(jīng)典行為動力學(xué)方法[1]通過線性疊加方式完成整體行為輸出。線性疊加存在行為相互抵消的問題,針對該問題,Large[8]和Ijspeert[9]分別提出了動力學(xué)分岔控制方法調(diào)節(jié)行為競爭輸出,但這些方法都沒有融入學(xué)習(xí)策略,不能很好地適應(yīng)動態(tài)未知環(huán)境。
本文針對行為動力學(xué)導(dǎo)航方法,提出一種帶有行為動機(jī)機(jī)制的學(xué)習(xí)自動機(jī),可以動態(tài)調(diào)節(jié)學(xué)習(xí)自動機(jī)的學(xué)習(xí)速率,完成避障行為之間的協(xié)調(diào)輸出,避免避障行為之間相互抵消。仿真結(jié)果表明本文方法在動態(tài)未知環(huán)境下進(jìn)行導(dǎo)航控制比Large[8]提出的動力學(xué)分岔控制方法更加安全。
行為動力學(xué)導(dǎo)航方法通過航向角和線速度控制移動機(jī)器人導(dǎo)航,根據(jù)文獻(xiàn)[1,6-7],給出航向角和線速度控制的描述方法。
航向角控制包括趨向目標(biāo)行為和避障行為,趨向目標(biāo)行為表示為:
(1)
式中,θ為機(jī)器人的航向角,θ0為目標(biāo)和機(jī)器人連線與x軸的夾角,λ0為航向角控制強(qiáng)度。
避障行為表示為:
(2)
(3)
其中i∈N+(正自然數(shù)),ψi是障礙物i和機(jī)器人連線與x軸的夾角,Δψi是障礙物i遮蔽機(jī)器人視野產(chǎn)生的角度,Rrobot為機(jī)器人的半徑,di為機(jī)器人與障礙物i的距離。
以上變量的幾何表示如圖1所示。
線速度控制表示為:
當(dāng)未感知到障礙物時,
dv/dt=-γ0(v-V0)
(4)
當(dāng)感知到障礙物時,
(5)
學(xué)習(xí)自動機(jī)[10](Learning automata,LA)是一種重要的基于學(xué)習(xí)策略的行為選擇方法。該方法具有計算復(fù)雜度低、通用性強(qiáng)等特點,已被廣泛地應(yīng)用于無線認(rèn)知網(wǎng)絡(luò)控制[11]、能源控制[12]、股票投資[13]等領(lǐng)域。但經(jīng)典學(xué)習(xí)自動機(jī)存在行為收斂速度慢等問題,本文提出一種學(xué)習(xí)速率可控的學(xué)習(xí)自動機(jī),可以根據(jù)環(huán)境變化動態(tài)調(diào)節(jié)學(xué)習(xí)自動機(jī)的學(xué)習(xí)速率,改善了學(xué)習(xí)自動機(jī)實時控制能力。
2.1 學(xué)習(xí)自動機(jī)框架
行為動力學(xué)方法設(shè)計的導(dǎo)航行為包括趨向目標(biāo)行為和避障行為,學(xué)習(xí)自動機(jī)可以作為導(dǎo)航行為協(xié)調(diào)選擇控制器。
初始時刻,學(xué)習(xí)自動機(jī)選擇趨向目標(biāo)行為控制機(jī)器人奔向目標(biāo);當(dāng)機(jī)器人感知環(huán)境中障礙物時,學(xué)習(xí)自動機(jī)根據(jù)機(jī)器人與環(huán)境的交互信息選擇恰當(dāng)避障行為;當(dāng)危險解除時,學(xué)習(xí)自動機(jī)將選擇趨向目標(biāo)行為控制機(jī)器人繼續(xù)奔向目標(biāo)。
選擇恰當(dāng)?shù)谋苷闲袨槭窃O(shè)計學(xué)習(xí)自動機(jī)的重點。在學(xué)習(xí)自動機(jī)選擇避障行為時應(yīng)該注意:第一,時間控制,即學(xué)習(xí)自動機(jī)必須在機(jī)器人陷入不可避免碰撞狀態(tài)前完成避障行為選擇;第二,潛在危險控制,即學(xué)習(xí)自動機(jī)在選擇瞬時最佳行為更新執(zhí)行概率的同時,應(yīng)注意潛在危險。
根據(jù)以上分析,本文提出的學(xué)習(xí)自動機(jī)相對于經(jīng)典學(xué)習(xí)自動機(jī)增加了決策時間控制和行為動機(jī)控制(潛在危險控制),如圖2所示。學(xué)習(xí)策略在學(xué)習(xí)自動機(jī)與環(huán)境交互過程中,首先計算行為選擇所需時間限制,根據(jù)環(huán)境的動態(tài)變化更新行為動機(jī),確定學(xué)習(xí)自動機(jī)當(dāng)前學(xué)習(xí)速率,之后更新行為執(zhí)行的概率。
2.2 學(xué)習(xí)自動機(jī)建模
學(xué)習(xí)自動機(jī)一般可以定義為六元組,其中I為環(huán)境感知,A為行為集,S為行為狀態(tài)集,O為行為執(zhí)行函數(shù),R為獎懲信息,ξ為狀態(tài)過渡函數(shù)。
環(huán)境感知I存儲著環(huán)境反饋信息,是行為選擇的依據(jù)。針對導(dǎo)航問題,本文將機(jī)器人與障礙物的接觸時間[7]作為導(dǎo)航環(huán)境信息,用于描述障礙物危險程度。觀察圖1,第t次采樣時刻機(jī)器人與障礙物i的接觸時間Ti(t)為:
(6)
式中vi為障礙物i的瞬時速度。
利用式(6)計算時,存在Ti(t)=∞的情況,表示障礙物i對于機(jī)器人不存在危險。
環(huán)境感知I表示為:
(7)
向量I[t,·],t∈{1,…,m}為環(huán)境感知I的行向量,存儲著第t次采樣時所有障礙物的接觸時間,Ti(t)為I[t,·]的第i個分量,i∈{1,…,n},是第t次采樣時刻機(jī)器人與障礙物i的接觸時間。I[·,i]為環(huán)境感知I的列向量,存儲著障礙物i的接觸時間歷史。
存在第t次采樣時,首次感知到障礙物i的情況,此時環(huán)境感知I增加新列,并規(guī)定:[Ti(1),…,Ti(t-1)]=∞,表示第1到第t-1次采樣時障礙物i不存在危險。
為了避免環(huán)境感知矩陣I的列無限增長,規(guī)定當(dāng)某個障礙物持續(xù)一定時間(該時間為常值)對機(jī)器人不存在危險時,I[·,i]將從環(huán)境感知I中剔除。
行為集A[a0,a1,a2,…,an]為機(jī)器人導(dǎo)航行為,包括始終存在的趨向目標(biāo)行為a0及避障行為a1~an,行為由上節(jié)提出行為動力學(xué)導(dǎo)航方法實現(xiàn)。
當(dāng)行為執(zhí)行概率為1時,該行為將被執(zhí)行,可以定義行為執(zhí)行函數(shù)O為:
(8)
學(xué)習(xí)自動機(jī)根據(jù)環(huán)境給予的瞬時獎懲信息完成行為狀態(tài)過渡,本文采用P型環(huán)境,即獎懲為離散值0或1,其中1為獎勵,0為懲罰。
獎懲信息向量R[0,…,n]為行為的瞬時獎懲信息,其中R(0)為趨向目標(biāo)行為的瞬時獎懲信息,R(i),i∈{1,…,n}為避障行為的瞬時獎懲信息。
趨向目標(biāo)行為與避障行為的特點不同,獎懲方式也不同。對于趨向目標(biāo)行為而言:
(9)
式(9)表示在第t次采樣時刻,如果任意障礙物i對機(jī)器人危險解除時,趨向目標(biāo)行為獲得獎勵。
對于避障行為而言:
(10)
D(t)=argmin(I(t,·))
(11)
(12)
式中i∈{1,…,n},D(t)為第t次采樣時刻接觸時間最小的障礙物編號;V(t)是最小的接觸時間。式(10)表示在第t次采樣時刻,最危險的障礙物獲得獎勵。
行為狀態(tài)S[P0,P1,…,Pn]根據(jù)獎懲信息向量R[0,…,n]的變化而改變。任意采樣時刻,首先更新趨向目標(biāo)行為的行為狀態(tài),之后再更新避障行為的行為狀態(tài)。提出的狀態(tài)過渡函數(shù)ξ為:
當(dāng)R0(t)=1時,
(13)
式中k∈{1,…,n},且Tk(t-1)≠∞,Tk(t)=∞。
當(dāng)R0(t)=0時,
(14)
式(13)和(14)描述了趨向目標(biāo)行為狀態(tài)的更新方式,即在障礙物危險解除時,該行為的執(zhí)行概率立即分配給趨向目標(biāo)行為,保證趨向目標(biāo)行為狀態(tài)可以獲得更新。
對于避障行為狀態(tài)的更新,采取傳統(tǒng)學(xué)習(xí)自動機(jī)的追擊學(xué)習(xí)(pursuit learning)策略[14]實現(xiàn),該算法可以保證行為選擇是ε最優(yōu)(ε-optimality)的。
當(dāng)Ri(t)=1時,
(15)
當(dāng)Ri(t)=0時,
(16)
其中i∈{1,…,n},且i≠k,Pi(t-1)≠0,κ是學(xué)習(xí)速率。
2.3 決策時間及行為動機(jī)控制
狀態(tài)過渡函數(shù)ξ的核心部分是避障行為狀態(tài)更新。學(xué)習(xí)自動機(jī)必須在機(jī)器人與障礙物發(fā)生碰撞前完成行為選擇。本文提出決策時間和行為動機(jī)控制動態(tài)調(diào)節(jié)學(xué)習(xí)自動機(jī)的學(xué)習(xí)速率κ,保證學(xué)習(xí)自動機(jī)的實時性。
決策時間控制實時計算學(xué)習(xí)自動機(jī)的決策時間范圍。首先,環(huán)境中存在接觸時間較大障礙物,此障礙物對機(jī)器人的危險較小,根據(jù)環(huán)境需要設(shè)定一時間Tallowable作為允許接觸時間,當(dāng)障礙物的接觸時間大于Tallowable時,認(rèn)為該障礙物不存在危險。
其次,學(xué)習(xí)自動機(jī)必須在機(jī)器人陷入不可避免碰撞狀態(tài)[14-15]之前完成避障行為的選擇。
(17)
(18)
行為動機(jī)控制目標(biāo)是評價環(huán)境中障礙物危險的動態(tài)變化。
觀察環(huán)境感知歷史I[·,i],存在接觸時間加速變化的情況,可以利用行為動機(jī)描述危險的動態(tài)變化。
當(dāng)?shù)趖次采樣時刻,Ti(t)≠∞,且接觸時間歷史I[·,i]中第t次采樣之前的k次接觸時間都不為無窮大時,k≥1,即:
Ti(t)=Ti(t-1)=…=Tk(t-k)=∞
表示連續(xù)k+1次傳感器采樣,障礙物i都存在危險,則行為動機(jī)M可以表示為:
(19)
式(15)表示如果第t次采樣之前障礙物存在連續(xù)危險時,行為動機(jī)累積接觸時間的變化率。
學(xué)習(xí)速率κ可以通過提出的決策時間控制和行為動機(jī)控制共同調(diào)節(jié),即:
(20)
當(dāng)障礙物i獲得獎勵,則根據(jù)式(20)計算κi(t),作為此刻式(15)、(16)行為狀態(tài)更新的瞬時學(xué)習(xí)速率。圖3是學(xué)習(xí)速率κi(t)隨決策時間和行為動機(jī)變化的示意圖。
根據(jù)以上分析,給出本文提出的學(xué)習(xí)自動機(jī)主體算法。
ALGORITHM
初始化:
t=0
A=[a0],初始時僅有趨向目標(biāo)行為
S=[p0=1],初始時趨向目標(biāo)行為狀態(tài)為1
Loop
利用式(8)執(zhí)行行為
傳感器感知環(huán)境
IF感知障礙物
對感知的n個障礙物編號
利用式(6)計算Ti
利用式(7)更新環(huán)境感知I
A=[a0]+[a1,…,an]
End IF
利用式(9)和式(10)計算環(huán)境獎懲信息R
利用式(13)和(14)更新行為狀態(tài)
利用式(17)計算行為決策時間
利用式(19)計算行為動機(jī)M
利用式(20)計算瞬時學(xué)習(xí)速率κ
利用式(15)、(16)更新行為狀態(tài)
t=t+1
End Loop,直到機(jī)器人到達(dá)目標(biāo)
END ALGORITHM
仿真環(huán)境為50 m×50 m的正方形平面。環(huán)境中包括4個障礙物,圓形靜態(tài)障礙物1初始位置為(20 m,20 m),半徑為2 m;圓形靜態(tài)障礙物2初始位置為(30 m,28 m),半徑為2 m。圓形動態(tài)障礙物1位于(28 m,35 m),半徑為2 m,線速度為2 m/s,運(yùn)動方向為-90°;圓形動態(tài)障礙物2位于(35 m,40 m),半徑為2 m,線速度為1 m/s,運(yùn)動方向為120°。圓形目標(biāo)位于(40 m,35 m),半徑為2 m。圓形機(jī)器人初始位置為(10 m,5 m),半徑為2 m,初始航向角為120°,初始線速度為3 m/s。行為動力學(xué)導(dǎo)航模型參數(shù)包括λ0=0.5,λi=1,γ0=0.4,γi=1.2。本文提出方法仿真機(jī)器人運(yùn)動軌跡如圖4所示,參考文獻(xiàn)[8]仿真機(jī)器人運(yùn)動軌跡圖5所示,圖6給出了本文提出方法與參考文獻(xiàn)方法行為協(xié)調(diào)的時間序列圖。
[8]在利用行為動力學(xué)方法導(dǎo)航時并未增加線速度控制,本文在仿真時為其增加了與本文相同的行為動力學(xué)速度控制。
觀察圖4,本文提出的學(xué)習(xí)自動機(jī)在避開動態(tài)障礙物1和2時,由于動態(tài)障礙物1和2的線速度不同,對機(jī)器人的威脅不同,對動態(tài)障礙物1的行為動機(jī)快速增大,使得學(xué)習(xí)自動機(jī)的學(xué)習(xí)速率也快速增大,促使機(jī)器人在距離動態(tài)障礙物1較遠(yuǎn)的位置便開始執(zhí)行對該障礙物的避障行為,而對動態(tài)障礙物2的學(xué)習(xí)速率增長得很慢,該行為的執(zhí)行概率始終未達(dá)到1,所以并未執(zhí)行避障行為,而執(zhí)行的是趨向目標(biāo)行為,機(jī)器人保持3 m/s的線速度越過動態(tài)障礙物2。觀察圖5,參考文獻(xiàn)[8]提出的方法在動態(tài)障礙物1和2相遇時,避障行為競爭輸出最大,始終未選擇合適障礙物避障,最終與障礙物1發(fā)生碰撞。
本文提出的學(xué)習(xí)自動機(jī)與經(jīng)典學(xué)習(xí)自動機(jī)[10]相比,增加了決策時間及行為動機(jī)控制,并利用它們調(diào)節(jié)學(xué)習(xí)自動機(jī)的學(xué)習(xí)速率,通過仿真證實提出的方法可以應(yīng)用于實時性較強(qiáng)的未知環(huán)境移動機(jī)器人動態(tài)導(dǎo)航控制。但在未知環(huán)境中障礙物的運(yùn)動通常是任意的,故而在本文提出的學(xué)習(xí)自動機(jī)基礎(chǔ)上增加障礙物運(yùn)動模式識別是進(jìn)一步研究的方向。
參考文獻(xiàn):
[1]Bicho E, Mallet P, Sch?ner G. Target representation on an autonomous vehicle with low-level sensors [J]. The International Journal of Robotics Research, 2000, 19(5):424-447.
[2]Warren W H. The dynamics of perception and action [J]. Psychological Review, 2006,113(2):358-389.
[3]郝大鵬, 傅衛(wèi)平, 楊世強(qiáng). 移動機(jī)器人行為動力學(xué)導(dǎo)航方法研究 [J]. 機(jī)械科學(xué)與技術(shù), 2013, 32(10): 1488-1491. Hao Dapeng, Fu Weiping, Yang Shiqiang. Study on the navigation method of behavior dynamics in mobile robot [J]. Mechanical Science and Techonolgy for Aerospace Engineering, 2013, 32(10): 1488-1491.
[4]Monteiro S, Bicho E. Attractor dynamics approach to formation control: theory and application [J]. Autonomous Robots, 2010,29(3):331-355.
[5]雷艷敏, 朱齊丹, 馮志彬. 基于速度障礙和行為動力學(xué)的動態(tài)路徑規(guī)劃 [J]. 華中科技大學(xué)學(xué)報: 自然科學(xué)版, 2011, 39(4): 15-19. Lei Yanmin, Zhu Qidan, Feng Zhibin. Dynamic path planning using velocity obstacles and behavior dynamics.[J]. Journal of Huazhong University of Science and Technology(Natural Science Edition), 2011, 39(4): 15-19.
[6]郝大鵬, 傅衛(wèi)平, 王雯. 基于行為動力學(xué)的移動機(jī)器人安全導(dǎo)航方法 [J]. 系統(tǒng)工程與電子技術(shù), 2014, 36(1): 136-142. Hao Dapeng, Fu Weiping, Wang Wen. Mobile robot safe navigation base on behavior dynamics [J]. Systems Engineering and Electronics, 2014, 36(1): 136-142.
[7]郝大鵬, 傅衛(wèi)平, 王雯. 基于接觸時間的移動機(jī)器人安全導(dǎo)航 [J]. 計算機(jī)應(yīng)用, 2014, 34(4): 1209-1212. Hao Dapeng, Fu Weiping, Wang Wen. Mobile robot safety navigation based on time to cantact [J]. Journal of Computer Applications, 2014, 34(4): 1209-1212.
[8]Large E W, Christensen H I, Bajcsy R. Scaling the dynamic approach to path planning and control: competition among behavioral constraints [J]. The International Journal of Robotics Research, 1999, 18(1): 37-58.
[9]Ijspeert A J, Nakanishi J, Hoffmann H, et al. Dynamical movement primitives: learning attractor models for motor behaviors [J]. Neural Computation, 2013, 25(2): 328-373.
[10]Thathachar M. Learning systems: stochastic automata models [J]. Defence Science Journal, 1985, 35(3): 361-366.
[11]Golestanian M, Iranmanesh S, Ghazizadeh R, et al. A learning automata based spectrum prediction technique for cognitive radio networks [J]. Science and Education, 2014, 2(3): 93-97.
[12]Zhu J, Jiang P, Gu W, et al. Finite action-set learning automata for economic dispatch considering electric vehicles and renewable energy sources [J]. Energies, 2014, 7(7): 4629-4647.
[13]Mozafari M, Alizadeh R. A cellular learning automata model of investment behavior in the stock market [J]. Neurocomputing, 2013, (122): 470-479.
[14]Lefèvre S, Vasquez D, Laugier C. A survey on motion prediction and risk assessment for intelligent vehicles [J]. Robomech Journal, 2014, 1(1): 1-14.
[15]Fraichard T, Kuffner J J. Guaranteeing motion safety for robots [J]. Autonomous Robots, 2012, 32(3): 173-175.
(責(zé)任編輯 王衛(wèi)勛)
Behavior coordination control based on mobile robot navigation of learning automata
HAO Dapeng1,2,FU Weiping1,WANG Wen1
(1.Faculty of Mechanical and Precision Instrument Engineering, Xi’an University of Technology, Xi’an 710048, China; 2.School of Science, Xi’an Aeronautical University, Xi’an 710077, China)
With an aim at behavior coordination problem in the mobile robot navigation control, this paper suggests a kind of learning automata with the controllable rate. The learning automata uses the contact time variation between the robot and obstacles as the reward and penalty signals to regulate the learning and decision time through the active control over robot linear velocity and to adjust the behavior intension in terms of environ dynamic behaviors and to control over the shared management learning rate through the learning decision time and the behavior intension control, whereby ensuring that the robot can complete the coordination implementation of navigation behaviors within the learning decision time. The simulation results indicate that the learning automata suggested in this paper in applying to the navigation control by mobile robot is feasible, and in comparison with the dynamic bifurcation control method, its safety in unknown dynamic environ to carry out navigation behavior coordination control is much higher.
mobile robot; behavior dynamics method; behavior coordination; learning automata
1006-4710(2015)03-0310-06
2014-11-28
國家自然科學(xué)基金資助項目(10872160,51275407,51475365);陜西省自然科學(xué)基礎(chǔ)研究計劃重點資助項目(2011JZ012)。
郝大鵬,男,博士生,講師,研究方向為機(jī)器人行為動力學(xué)導(dǎo)航控制。E-mail:haodpwork@163.com。
傅衛(wèi)平,男,博士,教授,主要研究方向為智能機(jī)器人控制、現(xiàn)代物流系統(tǒng)工程與技術(shù)、智能車輛控制理論與技術(shù)。E-mail:weipingf@xaut.edu.cn。
TP24
A