魏瑞軒, 何仁珂, 張啟瑞, 許卓凡, 趙曉林
(空軍工程大學(xué) 航空航天工程學(xué)院,陜西,西安 710038)
?
基于Skinner理論的無人機(jī)應(yīng)急威脅規(guī)避方法
魏瑞軒, 何仁珂, 張啟瑞, 許卓凡, 趙曉林
(空軍工程大學(xué) 航空航天工程學(xué)院,陜西,西安 710038)
對(duì)于突發(fā)緊急威脅情況,常規(guī)的無人機(jī)規(guī)避方法在實(shí)時(shí)性和適用性方面存在不足. 在研究生物體條件反射機(jī)制的基礎(chǔ)上,將無人機(jī)應(yīng)急規(guī)避行為理解為在外界威脅刺激下的一種應(yīng)激性,提出了基于威脅緊迫度的Skinner理論. 模擬飛行員在緊急防撞情況下的拉桿動(dòng)作,將階躍信號(hào)作為無人機(jī)應(yīng)急動(dòng)作指令,運(yùn)用動(dòng)作評(píng)價(jià)算法計(jì)算輸出最佳策略. 采用Skinner理論和統(tǒng)計(jì)學(xué)方法進(jìn)行在線訓(xùn)練,形成威脅狀態(tài)與規(guī)避動(dòng)作的匹配,從而建立完整的條件反射過程. 實(shí)驗(yàn)結(jié)果表明,基于Skinner理論的規(guī)避方法對(duì)突發(fā)威脅情況具備有效的規(guī)避能力.
無人機(jī);條件反射;威脅規(guī)避;應(yīng)急機(jī)制
威脅規(guī)避常用的模式是感知-規(guī)避(sense & avoid, S&A),方法包括:解算制導(dǎo)律的方法、實(shí)時(shí)路徑規(guī)劃的方法、基于決策的方法等[1-2]. 這些方法的計(jì)算復(fù)雜度是無人機(jī)威脅規(guī)避產(chǎn)生延時(shí)的主要因素. 計(jì)算延時(shí)將影響無人機(jī)威脅規(guī)避的機(jī)動(dòng)時(shí)機(jī),從而大大降低面臨威脅情況下本機(jī)的生存率. 對(duì)于突發(fā)威脅,考慮到無人機(jī)與威脅相對(duì)運(yùn)動(dòng)速度大、傳感器探測(cè)范圍有限,無人機(jī)威脅規(guī)避所允許的延時(shí)條件極為苛刻. 因此,應(yīng)急威脅規(guī)避機(jī)制必須能在極短時(shí)間內(nèi)做出機(jī)動(dòng),優(yōu)先確保無人機(jī)安全,而非優(yōu)先考慮規(guī)避決策的優(yōu)化問題. 無人機(jī)應(yīng)急威脅規(guī)避可以類似理解為本機(jī)安全受外界刺激所做出的反應(yīng),研究無人機(jī)突發(fā)威脅下的應(yīng)激(irritability)機(jī)制對(duì)于解決應(yīng)急威脅規(guī)避問題很有借鑒意義. Skinner 操作條件反射(operant conditioning,OC)理論[3],提出了通過訓(xùn)練不斷強(qiáng)化動(dòng)作的條件反射機(jī)制,以動(dòng)作-強(qiáng)化刺激-動(dòng)作的方式進(jìn)行強(qiáng)化訓(xùn)練. 近來年,該理念在機(jī)器人領(lǐng)域進(jìn)行了應(yīng)用性研究[4-5].
針對(duì)面向突發(fā)威脅的無人機(jī)應(yīng)急規(guī)避問題,本文將Skinner理論框架與無人機(jī)威脅規(guī)避策略相結(jié)合,提出了從感知到規(guī)避的條件反射式應(yīng)急機(jī)制. 用本機(jī)與威脅的相對(duì)位置度量威脅緊迫度,以此模擬外界刺激信號(hào);類比飛行員在緊急避撞狀態(tài)下的機(jī)動(dòng)動(dòng)作,以階躍信號(hào)作為無人機(jī)指令做大幅度規(guī)避機(jī)動(dòng). 借鑒Monte Carlo方法和模擬退火(simulated annealing, SA)算法,通過不斷訓(xùn)練強(qiáng)化刺激到動(dòng)作的映射,實(shí)現(xiàn)從感知到規(guī)避的條件反射.
Skinner理論根據(jù)感受器感知外界刺激做出相應(yīng)動(dòng)作,通過動(dòng)作產(chǎn)生的狀態(tài)進(jìn)行動(dòng)作選取的調(diào)整. 為模擬條件反射的外界刺激,用威脅緊迫度來度量無人機(jī)面臨的威脅程度,以此作為刺激信息和動(dòng)作評(píng)價(jià)信息. 然后以隨機(jī)方式選擇取動(dòng)作,對(duì)機(jī)動(dòng)后本機(jī)與威脅的相對(duì)距離判斷規(guī)避效果,用統(tǒng)計(jì)學(xué)方法進(jìn)行概率的調(diào)節(jié). 同時(shí),在事件記憶機(jī)制中用增量多層判別回歸樹(incremental hierarchical discriminant regression, IHDR)方法將訓(xùn)練的知識(shí)“經(jīng)驗(yàn)”進(jìn)行存儲(chǔ),使威脅環(huán)境類型與規(guī)避動(dòng)作形成匹配映射關(guān)系.
1.1 威脅緊迫度定義
無人機(jī)規(guī)避的動(dòng)機(jī)來自于威脅的逼近,本文以威脅緊迫度表示. 相對(duì)于無人機(jī),威脅的位置可以表示為
(1)
式中:P(t)為t時(shí)刻威脅i的位置;P(0)為威脅i的初始位置,vi為威脅i的速度;vu為無人機(jī)u的速度
(2)
式中ψu(yù)(t)為無人機(jī)的偏航角. 無人機(jī)威脅規(guī)避的安全性由相對(duì)距離決定,當(dāng)威脅逼近設(shè)定的無人機(jī)安全距離時(shí),危險(xiǎn)系數(shù)高,反之則低. 在傳感器探測(cè)范圍內(nèi),相鄰的探測(cè)時(shí)間本機(jī)與威脅相對(duì)距離越小,威脅度越大. 威脅緊迫度定義為
L(t,t+1)=1-ΔP(t,t+1)ddefP>ddef
其他, (3)
式中:ddef為定義的規(guī)避距離;ΔP(t,t+1)為相鄰時(shí)刻的相對(duì)距離變化量. 當(dāng)相對(duì)距離大于規(guī)避距離時(shí),認(rèn)為無人機(jī)安全;反之,相對(duì)距離越小,威脅緊迫度越大. 威脅緊迫度描述了無人機(jī)在威脅狀態(tài)下的規(guī)避動(dòng)機(jī).
1.2 操作條件反射算法
Skinner自動(dòng)機(jī)定義如下
(4)
式中:t為時(shí)間;s為狀態(tài)集;o為動(dòng)作集;M為動(dòng)機(jī);F:s(t)×o(t)→s(t+1)表示狀態(tài)轉(zhuǎn)移;G:s(t)→o(t)表示動(dòng)作選擇;A表示Skinner算法.
動(dòng)機(jī)M決定了本體在某一情況下是否進(jìn)行動(dòng)作,與強(qiáng)化訓(xùn)練中動(dòng)作概率選擇的增減有關(guān). 狀態(tài)轉(zhuǎn)移F是動(dòng)作引起的狀態(tài)變化s(t)→s(t+1),由無人機(jī)在威脅狀態(tài)下規(guī)避機(jī)動(dòng)產(chǎn)生的結(jié)果. 這一過程可產(chǎn)生對(duì)動(dòng)作的評(píng)價(jià),即根據(jù)狀態(tài)變化測(cè)量本機(jī)與威脅的相對(duì)距離,以此評(píng)價(jià)上一時(shí)刻動(dòng)作o(t)是否合理,并在下一時(shí)刻對(duì)動(dòng)作概率進(jìn)行調(diào)整. 動(dòng)作選擇G是基于Monte Carlo方法的概率式選擇機(jī)制,是強(qiáng)化訓(xùn)練的重要環(huán)節(jié). 強(qiáng)化分為正強(qiáng)化和負(fù)強(qiáng)化,表現(xiàn)為狀態(tài)與動(dòng)作之間映射概率的增減. 當(dāng)前動(dòng)作引起下一時(shí)刻狀態(tài)符合預(yù)期時(shí),則概率增加;反之減小. 對(duì)于無人機(jī)威脅規(guī)避,預(yù)期由威脅緊迫度L(t,t+1)來衡量,當(dāng)規(guī)避動(dòng)作導(dǎo)致下一時(shí)刻L減小時(shí),則概率增加,反之減小. 本文采用Metropolis函數(shù)進(jìn)行定義
(5)
1.3 事件記憶機(jī)制
通過Skinner方法進(jìn)行強(qiáng)化訓(xùn)練所產(chǎn)生的無人機(jī)威脅規(guī)避行為,將作為知識(shí)“經(jīng)驗(yàn)”進(jìn)行存儲(chǔ). 隨著訓(xùn)練的不斷增多,信息量越來越大,知識(shí)庫也隨之增大. 如何對(duì)知識(shí)進(jìn)行有效組織和存儲(chǔ),對(duì)無人機(jī)在面臨威脅情況下進(jìn)行快速地行為檢索和匹配至關(guān)重要. 本文用IHDR方法作為事件記憶機(jī)制算法,進(jìn)行知識(shí)存儲(chǔ).
IHDR方法以根節(jié)點(diǎn)到葉節(jié)點(diǎn)的樹狀存儲(chǔ)結(jié)構(gòu)完成知識(shí)的分類回歸,可較好地處理高維空間的聚類問題. 對(duì)于一個(gè)訓(xùn)練樣本(xt,yt),t=0,1,2…,先進(jìn)行輸出空間y聚類,再映射到輸入空間x實(shí)現(xiàn)二次聚類. 一個(gè)節(jié)點(diǎn)處在樹中的位置越深,其x簇變化量越小,當(dāng)節(jié)點(diǎn)的樣本量足夠小時(shí),則該節(jié)點(diǎn)可以作為分裂為一個(gè)葉節(jié)點(diǎn). 對(duì)于無人機(jī)威脅環(huán)境,輸入空間用于描述威脅與本機(jī)的狀態(tài)信息,由相對(duì)位置P(t),速度v確定. 輸出空間用于描述無人機(jī)控制指令ψd(t). 映射定義為
(6)
知識(shí)存儲(chǔ)具體步驟參見文獻(xiàn)[6].
在突發(fā)威脅的緊急情況下,無人機(jī)威脅規(guī)避應(yīng)首先考慮規(guī)避后本機(jī)的安全,兼顧規(guī)避策略的最優(yōu)問題. 應(yīng)急機(jī)動(dòng)具有突發(fā)性特點(diǎn),往往由一次性動(dòng)作完成. 采用文獻(xiàn)[7-8]的線性化模型,模擬飛行器在突發(fā)威脅情況下的“拉桿”動(dòng)作,將階躍信號(hào)作為無人機(jī)規(guī)避機(jī)動(dòng)指令. 假設(shè)對(duì)偏航角控制施加一個(gè)階躍信號(hào)ψd(t),其響應(yīng)曲線ψ0(t)主要由調(diào)節(jié)階段和穩(wěn)定階段構(gòu)成. 上升時(shí)間為Δtr,最大振幅為Amax,偏航角改變量Δψ. 定義歸一化響應(yīng)為
(7)
式中:ψ(t)為時(shí)刻t的偏轉(zhuǎn)角;ψi為初始偏轉(zhuǎn)角;Δψ為指令偏轉(zhuǎn)角與初始偏轉(zhuǎn)角的差. 上升時(shí)間和最大振幅可以被指令信號(hào)表示,其線性化模型為
(8)
(9)
(10)
(11)
(12)
針對(duì)突發(fā)威脅情況,首先進(jìn)行在線無人機(jī)威脅規(guī)避訓(xùn)練,使無人機(jī)形成威脅與動(dòng)作的映射關(guān)系,并具備條件反射式應(yīng)急規(guī)避能力;然后分別在單一威脅場(chǎng)景、連續(xù)威脅和地形威脅場(chǎng)景下進(jìn)行測(cè)試. 仿真實(shí)驗(yàn)條件:軟件Matlab 7.0;計(jì)算機(jī)配置:Windows XP操作系統(tǒng),CPU為Inter Core i3,主頻3.3 GHz.
3.1 威脅規(guī)避訓(xùn)練
威脅分別從無人機(jī)探測(cè)范圍邊界的左側(cè)、正前、正下、左前、右前、左下、右下方向以100 m/s的速度直線飛行. 場(chǎng)景編號(hào)分別為1,2,3,4,5,6,7. 本機(jī)速度14 m/s,安全距離50 m,最高溫度θ為1 000 ℃,k為常數(shù)1.
如圖1所示,每個(gè)點(diǎn)表示一次訓(xùn)練,按時(shí)間先后順序,訓(xùn)練從高溫狀態(tài)到冷卻狀態(tài). 由于采用對(duì)數(shù)表示,訓(xùn)練次數(shù)分布并不均勻. 對(duì)于不同威脅場(chǎng)景,溫度下降狀態(tài)不一樣,訓(xùn)練次數(shù)與溫度下降狀態(tài)變化相關(guān),通過反復(fù)大量訓(xùn)練都呈現(xiàn)出從高溫到冷卻的一般性趨勢(shì). 表明Skinner機(jī)制可以通過訓(xùn)練,根據(jù)規(guī)避情況來不斷調(diào)整威脅類型與動(dòng)作的匹配,從而實(shí)現(xiàn)最佳映射.
3.2 動(dòng)態(tài)突發(fā)威脅規(guī)避
通過訓(xùn)練,無人機(jī)具備了一定的威脅規(guī)避應(yīng)急反應(yīng)能力. 為測(cè)試對(duì)于一般性威脅的反應(yīng)表現(xiàn),分別設(shè)置單一威脅規(guī)避場(chǎng)景和連續(xù)威脅規(guī)避場(chǎng)景進(jìn)行仿真實(shí)驗(yàn).
單一威脅規(guī)避仿真場(chǎng)景如圖2,圖3所示.
在單一威脅規(guī)避仿真場(chǎng)景中,本機(jī)速度25 m/s,威脅速度100 m/s. 威脅沿直線飛行,與本機(jī)在第0 s同時(shí)啟動(dòng),在第20 s進(jìn)入本機(jī)規(guī)避范圍,本機(jī)立即做出規(guī)避動(dòng)作. 從參數(shù)中可以看出,規(guī)避時(shí)無人機(jī)作大幅度機(jī)動(dòng),在較短時(shí)間內(nèi)偏離原航向,動(dòng)作幅值在允許范圍內(nèi). 約在60 s時(shí)航向基本穩(wěn)定,航線與原航線直線投影平行距離約為50 m,表明經(jīng)過訓(xùn)練后的Skinner機(jī)制無人機(jī)能根據(jù)威脅狀態(tài),在短時(shí)間內(nèi)以較優(yōu)動(dòng)作進(jìn)行規(guī)避.
連續(xù)威脅規(guī)避仿真場(chǎng)景如圖4,圖5所示.
在連續(xù)威脅規(guī)避仿真場(chǎng)景中,本機(jī)速度為28 m/s,威脅1速度70 m/s,威脅2速度100 m/s. 威脅1與本機(jī)在第0 s同時(shí)啟動(dòng). 第32 s威脅1進(jìn)入本機(jī)規(guī)避范圍,本機(jī)做出第一次規(guī)避動(dòng)作,本機(jī)立即做大幅度機(jī)動(dòng). 約在第79 s進(jìn)入穩(wěn)定狀態(tài),穩(wěn)定后航線與原航線直線投影平行距離小于50 m. 威脅2在第86 s啟動(dòng),在第116 s進(jìn)入本機(jī)規(guī)避范圍,本機(jī)做第二次規(guī)避. 150 s后進(jìn)入穩(wěn)定狀態(tài),穩(wěn)定后航線與原航線直線投影平行距離小于20 m. 表明Skinner機(jī)制的方法具備連續(xù)威脅規(guī)避的能力.
3.3 地形威脅規(guī)避
針對(duì)現(xiàn)實(shí)任務(wù)環(huán)境中存在的多種威脅類型,設(shè)置包括地形在內(nèi)的動(dòng)靜態(tài)威脅場(chǎng)景,測(cè)試算法對(duì)復(fù)雜威脅環(huán)境的適用性. 具體參數(shù)如表1.
威脅1啟動(dòng)時(shí)間第0 s,威脅2啟動(dòng)時(shí)間第46 s,本機(jī)啟動(dòng)時(shí)間第40 s. 如圖6,圖7所示,第43.3 s威脅1進(jìn)入規(guī)避范圍,無人機(jī)做第一次規(guī)避機(jī)動(dòng),向山峰1方向靠近. 第50.8 s山峰1進(jìn)入規(guī)避范圍,無人機(jī)做第二次規(guī)避機(jī)動(dòng),根據(jù)威脅范圍,第二次機(jī)動(dòng)偏航角明顯小于第一次. 第56.8 s先后遭遇威脅2和山峰2,按威脅緊迫度算法,以距離優(yōu)先原則選擇最近的威脅2做規(guī)避機(jī)動(dòng),同時(shí)導(dǎo)致與山峰2距離增大,威脅緊迫度降低,無需再進(jìn)行重復(fù)機(jī)動(dòng). 無人機(jī)可以實(shí)現(xiàn)對(duì)復(fù)雜動(dòng)靜態(tài)威脅進(jìn)行有效規(guī)避.
表1 初始參數(shù)
研究了生物體條件反射機(jī)理,并結(jié)合威脅規(guī)避特點(diǎn),將威脅狀態(tài)作為刺激條件,提出基于威脅緊迫度的Skinner理論. 并將Skinner理論與底層控制算法相結(jié)合,將規(guī)避效果作為評(píng)價(jià)指標(biāo)對(duì)無人機(jī)進(jìn)行應(yīng)急規(guī)避訓(xùn)練,從而使其具備一般性的應(yīng)急規(guī)避能力. 本文的不足之處在于,退火過程需要進(jìn)行反復(fù)大量的訓(xùn)練,將造成訓(xùn)練時(shí)間大幅延長(zhǎng). 下一步將改進(jìn)基于統(tǒng)計(jì)學(xué)的方法,使訓(xùn)練過程以較快速度實(shí)現(xiàn)退火.
[1] Alonso-Mora J, Naegeli T, Siegwart R, et al. Collision avoidance for aerial vehicles in multi-agent scenarios[J]. Autonomous Robot, 2015,39(1):101-121.
[2] Bertuccelli L F, Wu A, How J P. Robust adaptive Markov decision processes: planning with model uncertainty[J]. IEEE Control Systems, 2012,32(5):96-109.
[3] Wolf R, Heisenberg M. Basic organization of operant-behavior as revealed in drosophila flight orientation[J]. Journal of Comparative Physiology A, 1991,169(6):699-705.
[4] 任紅格,阮曉鋼.Skinner 操作條件反射的一種仿生學(xué)習(xí)算法與機(jī)器人控制[J].機(jī)器人,2010,32(1):132-137.
Ren Hongge, Ruan Xiaogang. A bionic learning algorithm based on Skinner’s operant conditioning and control of robot[J]. Robot, 2010,32(1):132-137.(in Chinese)
[5] Ren H G, Ruan X G. The Skinner automaton: a psychological model formalizing the theory of operant conditioning[J]. Science China: Technological Sciences, 2013,56(11):2745-2761.
[6] Weng J, Hwang W. Incremental hierarchical discriminant regression[J]. IEEE Transaction on Neural Networks, 2013,56(11):2745-2761.
[7] Melega M, Lazarus S, Lone M, et al. Autonomous sense & avoid capabilities based on aircraft performances estimation[J]. Journal of Aerospace Engineering,2012:1-26.
[8] Melega M, Lazarus S, Savvaris A, et al. Multiple threats sense and avoid algorithm for static and dynamic obstacles[J]. Journal of Intelligent & Robotic Systems,2015,77:215-228.
(責(zé)任編輯:李兵)
Skinner-Based Emergency Collision Avoidance Mechanism for UAV
WEI Rui-xuan, HE Ren-ke, ZHANG Qi-rui, XU Zhuo-fan, ZHAO Xiao-lin
(Institute of Aeronatics and Astronautics Engineering, Air Force Engineering University, Xi’an, Shaanxi 710038, China)
The urgent threat collision condition is hazardous for UAV, it is difficult for traditional methods to ensure safety due to the poor performance in real-time and applicability. Conformed to operant conditioning theory, the urgent collision avoidance behavior of UAV could be regarded as irritability in the outside stimulatory, and then the improved Skinner theory based on threat level was proposed. A step command was used as control signal, which was similar with pilot’s maneuver in the urgent threat collision condition, and performances estimation algorithm was applied to output optimized strategy. On-line training was conducted based on Skinner theory and statistics to map the threat condition and maneuver, then all the elements of operant conditioning model were completed. The result shows that, the proposed method can handle urgent threat collision well.
UAV; operant conditioning; collision avoidance; emergency mechanism
2016-03-09
國家自然科學(xué)基金資助項(xiàng)目(61573373,61503405)
魏瑞軒(1968—),男,博士,教授, E-mail:lnzrds@163.com.
V 279.2
A
1001-0645(2016)06-0620-05
10.15918/j.tbit1001-0645.2016.06.013