• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于事件驅(qū)動(dòng)的無人機(jī)強(qiáng)化學(xué)習(xí)避障研究

      2019-09-10 08:03:04唐博文王智文胡振寰
      關(guān)鍵詞:強(qiáng)化學(xué)習(xí)避障

      唐博文 王智文 胡振寰

      摘? ?要:強(qiáng)化學(xué)習(xí)方法在避障研究中應(yīng)用廣泛,針對(duì)其需要消耗大量的計(jì)算資源問題,本文提出一種基于事件驅(qū)動(dòng)的無人機(jī)強(qiáng)化學(xué)習(xí)避障算法.通過在強(qiáng)化學(xué)習(xí)中加入事件驅(qū)動(dòng)的觸發(fā)機(jī)制,減少無人機(jī)的動(dòng)作決策的同時(shí)找到最優(yōu)路徑,既可以保證性能,又可以降低系統(tǒng)的通信頻率.實(shí)驗(yàn)的仿真結(jié)果表明,該算法可以在學(xué)習(xí)過程中減少對(duì)計(jì)算資源的消耗,并且完成避障任務(wù)的同時(shí)可以明顯加快收斂速度.

      關(guān)鍵詞:事件驅(qū)動(dòng);強(qiáng)化學(xué)習(xí);避障;Q-learning

      中圖分類號(hào):TP18? ? ? ? ? ? ? ? ? DOI :10.16375/j.cnki.cn45‐1395/t.2019.01.015

      0? ? 引言

      隨著無人機(jī)在工業(yè)、軍事及生活等諸多領(lǐng)域的廣泛應(yīng)用[1-2],人們對(duì)其智能化的要求也越來越高,無人機(jī)的避障研究越來越被重視.強(qiáng)化學(xué)習(xí)理論是在觀察生物物種的行為學(xué)習(xí)基礎(chǔ)上發(fā)展起來的[3],可以應(yīng)用在無人機(jī)避障算法中.文獻(xiàn)[4]使用神經(jīng)網(wǎng)絡(luò)(NNs)來進(jìn)行強(qiáng)化學(xué)習(xí),在學(xué)習(xí)的過程中事件觸發(fā)機(jī)制被設(shè)計(jì)為估計(jì)NN權(quán)重的函數(shù).這種設(shè)計(jì)背后的基本原理是在初始學(xué)習(xí)期間增加事件,以促進(jìn)學(xué)習(xí).文獻(xiàn)[5]提出了一種基于混合學(xué)習(xí)方案的近似動(dòng)態(tài)規(guī)劃與在線探索相結(jié)合的不確定輸入仿射非線性子系統(tǒng)與事件觸發(fā)狀態(tài)反饋的分布式控制方案.將在線控制框架中的探索與標(biāo)識(shí)符相結(jié)合,以降低總體計(jì)算成本,但是在最初的在線學(xué)習(xí)階段需要額外的計(jì)算.通過調(diào)節(jié)系統(tǒng)狀態(tài)和NN權(quán)重估計(jì)誤差來實(shí)現(xiàn)局部一致的最終有界結(jié)果.強(qiáng)化學(xué)習(xí)需要強(qiáng)大計(jì)算能力作為支撐,如何減少學(xué)習(xí)中的計(jì)算量,是本文研究的重要內(nèi)容,在此基礎(chǔ)上本文提出基于事件驅(qū)動(dòng)的無人機(jī)強(qiáng)化學(xué)習(xí)避障算法.

      事件觸發(fā)機(jī)制被設(shè)計(jì)為估計(jì)權(quán)重的函數(shù).這種設(shè)計(jì)背后的基本原理是在初始學(xué)習(xí)期間增加事件,以促進(jìn)學(xué)習(xí).文獻(xiàn)[6]提出了分布式事件觸發(fā)算法解決一階多智能體系統(tǒng)的環(huán)形編隊(duì)問題.當(dāng)執(zhí)行器信號(hào)必須經(jīng)由公共通信網(wǎng)絡(luò)頻繁交換時(shí),處理器使用率、能耗和通信帶寬方面效率低下的挑戰(zhàn)會(huì)隨著這些情況而增加.因此考慮一種替代控制方式,即事件觸發(fā)控制(ETC),它已經(jīng)在早期工作中提出并進(jìn)一步研究[7-8].文獻(xiàn)[9]報(bào)道了事件觸發(fā)協(xié)議在降低通信頻率和控制更新方面的成功應(yīng)用.文獻(xiàn)[10]討論了在處理包括干擾、時(shí)延和網(wǎng)絡(luò)丟包在內(nèi)的實(shí)際影響時(shí)的事件觸發(fā)機(jī)制.文獻(xiàn)[11]研究了時(shí)間相關(guān)的事件觸發(fā)函數(shù),其中每個(gè)代理只需要它自己的確切信息,而不需要其周圍環(huán)境.文獻(xiàn)[12]通過在隨機(jī)設(shè)置中建立一個(gè)積分不等式,導(dǎo)出了一個(gè)標(biāo)準(zhǔn)用于根據(jù)線性矩陣不等式的解來計(jì)算合適的事件觸發(fā)控制器.

      目前,把事件驅(qū)動(dòng)和強(qiáng)化學(xué)習(xí)結(jié)合的研究相對(duì)較少.因此引入事件觸發(fā)控制方案可以減少網(wǎng)絡(luò)負(fù)載的數(shù)量[8],信號(hào)是否被采樣取決于系統(tǒng)狀態(tài)的某種事件觸發(fā)條件,而不是時(shí)間流逝[13-15].有關(guān)事件觸發(fā)控制的大量結(jié)果已經(jīng)推導(dǎo)出來[16-22].事件觸發(fā)控制的一個(gè)顯著特點(diǎn)是,通過連續(xù)監(jiān)測瞬時(shí)系統(tǒng)狀態(tài)或通過在線/離線計(jì)算預(yù)測某些與狀態(tài)相關(guān)的功能的值,確定下一個(gè)采樣時(shí)刻.文獻(xiàn)[23]采用一個(gè)評(píng)論者網(wǎng)絡(luò)的Q學(xué)習(xí)框架來近似最優(yōu)成本和一個(gè)零階保持行為網(wǎng)絡(luò)來逼近最優(yōu)控制.本文提出了基于事件驅(qū)動(dòng)的無人機(jī)強(qiáng)化學(xué)習(xí)避障算法,將基于事件驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)運(yùn)用到無人機(jī)避障領(lǐng)域中,在避障的同時(shí)優(yōu)化了算法的資源消耗.

      1? ? 強(qiáng)化學(xué)習(xí)介紹

      1.1? ?強(qiáng)化學(xué)習(xí)

      強(qiáng)化學(xué)習(xí)(Reinforcement learning)不同于機(jī)器學(xué)習(xí)中的另外兩類學(xué)習(xí)方法(監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)),其基本思想是借鑒人類學(xué)習(xí)的過程,讓智能體(Agent)通過不斷試錯(cuò)來尋找最優(yōu)策略,即累計(jì)回報(bào)最大,因此需要設(shè)置每種狀態(tài)及行動(dòng)對(duì)應(yīng)的回報(bào).

      強(qiáng)化學(xué)習(xí)包含4個(gè)主要元素:環(huán)境(Environment)、狀態(tài)(State)、回報(bào)(Reward)、行動(dòng)(Action).在每個(gè)時(shí)間點(diǎn)t,智能體都會(huì)從可以選擇的行動(dòng)集合A中選擇一個(gè)行動(dòng)執(zhí)行.這個(gè)行動(dòng)集合可以是連續(xù)的也可以是離散的.根據(jù)圖1,在t時(shí)刻,st表示無人機(jī)當(dāng)前的狀態(tài),αt表示無人機(jī)當(dāng)前動(dòng)作,[rt表示當(dāng)前獎(jiǎng)賞值].狀態(tài)和動(dòng)作之間存在映射關(guān)系,也就是一個(gè)狀態(tài)可以對(duì)應(yīng)一個(gè)動(dòng)作,或者對(duì)應(yīng)不同動(dòng)作的概率(通常用概率來表示,概率最高的就是最值得執(zhí)行的動(dòng)作).狀態(tài)與動(dòng)作的關(guān)系其實(shí)就是輸入與輸出的關(guān)系,而狀態(tài)到動(dòng)作的映射過程被稱為策略(Policy).即強(qiáng)化學(xué)習(xí)的目標(biāo)就是找到最優(yōu)策略使得累計(jì)回報(bào)和最大.

      1.2? ?Q-learning

      Q-table的行和列分別表示狀態(tài)和行動(dòng)的值,Q-table的值[Q(s,a)]用來衡量當(dāng)前狀態(tài)采取行動(dòng)到底有多好.在訓(xùn)練的過程中,可以用式(1)貝爾曼方程去更新Q-table.

      基于Q-learning的避障算法通過嘗試各種不同的行動(dòng)來找到最優(yōu)策略,因此帶來了一個(gè)很大的問題,那就是算法可能需要遍歷所有可能的行動(dòng),從而消耗大量的資源.

      2? ? 基于事件驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)

      事件驅(qū)動(dòng)機(jī)制已經(jīng)被證明可以有效減小大規(guī)模網(wǎng)絡(luò)的通信量.根據(jù)已有研究成果,事件驅(qū)動(dòng)條件設(shè)計(jì)主要分為兩類:狀態(tài)相關(guān)和狀態(tài)無關(guān).其主要做法都是通過檢測無人機(jī)采樣前后狀態(tài)的偏差值大小,判斷是否滿足事件驅(qū)動(dòng)條件,來決定間歇性的更新控制輸入,減小控制器與多智能體系統(tǒng)的通信頻率和計(jì)算量.綜合以上分析,區(qū)別于傳統(tǒng)的多智能體強(qiáng)化學(xué)習(xí)算法,在資源有限的情況下,考慮將事件驅(qū)動(dòng)和強(qiáng)化學(xué)習(xí)相結(jié)合,側(cè)重于事件驅(qū)動(dòng)在強(qiáng)化學(xué)習(xí)策略方面的研究.

      基于事件驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)過程不同于經(jīng)典的強(qiáng)化學(xué)習(xí),首先需要根據(jù)觸發(fā)函數(shù)來判斷事件是否被觸發(fā),在沒有被觸發(fā)情況下,將直接選用上一個(gè)Q值的動(dòng)作當(dāng)作當(dāng)前的Q的動(dòng)作.

      3? ? 仿真結(jié)果及分析

      為了驗(yàn)證本文提出算法和基于強(qiáng)化學(xué)習(xí)的無人機(jī)避障算法的性能,在Windows10操作系統(tǒng)下利用matlab2014a軟件進(jìn)行仿真實(shí)驗(yàn).首先設(shè)置一個(gè)20×20的迷宮環(huán)境(如圖2所示),圖2對(duì)應(yīng)的Q值如圖3所示.假設(shè)圖2中無人機(jī)從綠點(diǎn)出發(fā)飛行到紅點(diǎn)結(jié)束,每個(gè)位置飛行都有上下左右4種行動(dòng)(圖2中的箭頭所示)可以選擇.在探索環(huán)境時(shí),如果碰到障礙物,會(huì)給予一個(gè)很高的懲罰(-50),并且在每次行動(dòng)過后對(duì)迭代的狀態(tài)進(jìn)行評(píng)分,如果無人機(jī)已經(jīng)飛抵終點(diǎn),則取消給予懲罰,如果沒有到達(dá)終點(diǎn),給予-1的懲罰,以此來不斷選取回報(bào)最高的動(dòng)作.在無人機(jī)到達(dá)終點(diǎn)前重復(fù)上述步驟,直到步數(shù)確定,可以收斂為止.

      圖4和圖5分別對(duì)應(yīng)于本文提出算法和基于強(qiáng)化學(xué)習(xí)的無人機(jī)避障算法的迭代次數(shù).對(duì)比圖4和圖5,可以看出,基于事件驅(qū)動(dòng)的無人機(jī)強(qiáng)化學(xué)習(xí)避障算法相比僅包含強(qiáng)化學(xué)習(xí)的無人機(jī)避障算法,收斂速度更快,計(jì)算量更少.為了評(píng)估3個(gè)主要參數(shù)對(duì)本文提出算法的整體計(jì)算量的影響,采用改變其中一個(gè)參數(shù)并保持另外兩個(gè)參數(shù)不變進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表1所示.

      從表1可以看出保持兩個(gè)參數(shù)不變,只改變一個(gè)參數(shù)時(shí),算法的優(yōu)化率有很大的不同.當(dāng)學(xué)習(xí)率為0.3、折扣因子為1、增益系數(shù)為0.002時(shí),算法的優(yōu)化率較好,較原算法減少了198 982次計(jì)算,優(yōu)化率達(dá)到66.3%;當(dāng)學(xué)習(xí)率低于0.28時(shí),雖然運(yùn)算次數(shù)有很大的減少,但結(jié)果會(huì)出現(xiàn)不收斂的情況.

      為了更好地模擬真實(shí)環(huán)境,通過在地圖中設(shè)置各種不同的障礙物,如圖6的長條迷宮環(huán)境,圖10的梯形迷宮環(huán)境,圖14的十字形迷宮環(huán)境,然后在這3種不同環(huán)境中應(yīng)用無人機(jī)強(qiáng)化學(xué)習(xí)的避障算法和本文提出的基于事件驅(qū)動(dòng)的無人機(jī)強(qiáng)化學(xué)習(xí)避障算法進(jìn)行實(shí)驗(yàn).圖6、圖10、圖14對(duì)應(yīng)的實(shí)驗(yàn)結(jié)果分別如圖7—圖9、圖11—圖13和圖15—圖17所示.從對(duì)比實(shí)驗(yàn)的迭代次數(shù)圖中可以發(fā)現(xiàn):引入事件驅(qū)動(dòng)的控制機(jī)制后,無人機(jī)對(duì)于避障動(dòng)作的策略不需要按照固定的周期來決策;通過事件驅(qū)動(dòng)條件更新無人機(jī)的避障行動(dòng),有效降低了無人機(jī)避障動(dòng)作決策的頻率以及對(duì)計(jì)算資源的消耗.因此,可以得出本算法具有搜索策略速度快、決策量少的優(yōu)勢.

      4? ? 結(jié)論

      本文提出了一種基于事件驅(qū)動(dòng)的無人機(jī)強(qiáng)化學(xué)習(xí)避障算法,側(cè)重于解決普通強(qiáng)化學(xué)習(xí)運(yùn)算次數(shù)過多的問題.通過加入事件驅(qū)動(dòng),使得算法在相同時(shí)間內(nèi)可以明顯降低數(shù)據(jù)的通信次數(shù),并且分析了該算法的主要參數(shù)對(duì)計(jì)算量優(yōu)化的影響.通過仿真實(shí)驗(yàn)說明了該算法可以在學(xué)習(xí)過程中減少策略遍歷次數(shù),解決了強(qiáng)化學(xué)習(xí)無人機(jī)避障算法運(yùn)算次數(shù)過多的問題.

      參考文獻(xiàn)

      [1]? ? 徐亞妮,羅文廣,張亮.基于EPGA的四軸飛行器控制系統(tǒng)設(shè)計(jì)[J]. 廣西科技大學(xué)學(xué)報(bào),2018,29(3):50-56.

      [2]? ? 陳艷,李春貴,胡波.一種改進(jìn)的田間導(dǎo)航特征點(diǎn)提取算法[J]. 廣西科技大學(xué)學(xué)報(bào),2018,29(3):71-76.

      [3]? ? NARAYANAN V,JAGANNATHAN S. Event-triggered distributed control of nonlinear interconnected systems using online reinforcement learning with exploration [J]. IEEE Transactions on Cybernetics ,2018,48(9):2510-2519.

      [4]? ? SUTTON R S,BARTO A G. Reinforcement learning:an introduction[M]. Cambridge,MA,USA: MIT Press,1998.

      [5]? ? SAHOO A,XU H,JAGANNATHAN S. Neural network-based adaptive event-triggered control of nonlinear continuous-time systems[C].2013 IEEE International Symposium on Intelligent Control (ISIC),2013:35-40.

      [6]? ? WEN J Y,WANG C,XIE G M. Asynchronous distributed event-triggered circle formation of multi-agent systems[J].Neurocomputing,2018,295:118-126.

      [7]? ? ASTROM K J,BO B. Comparison of periodic and event based sampling for first order stochastic systems[C]. Proceedings of IFAC World Congress,1999,83:301-306.

      [8]? ? TABUADA P. Event-triggered real-time scheduling of stabilizing control tasks[J]. IEEE Transactions on Automatic Control,2007,52(9):1680-1685.

      [9]? ? DIMAROGONAS D V,F(xiàn)RAZZOLI E,JOHANSSON K H. Distributed event-triggered control for multi-agent systems[J]. IEEE Transactions on Automatic Control,2012,57(5):1291-1297.

      [10]? WANG X F,LEMMON M. Event-triggering in distributed networked control systems[J]. IEEE Transactions on Automatic Control,2011,56(3):586-601.

      [11]? SEYBOTH G S,DIMAROGONAS D V,JOHANSSON K H. Event-based broadcasting for multi-agent average consensus[J]. Automatica,2013,49(1):245-252.

      [12]? WANG J,ZHANG X M,LIN Y F,et al. Event-triggered dissipative control for networked stochastic systems under non-uniform sampling [J]. Information Sciences,2018,447:216-228.

      [13]? GUO G,WENS X. Protocol Sequence and control co-design for a collection of networked control systems[J].International Journal of Robust and Nonlinear Control,2015,26(3):489-508.

      [14]? GUO G,LU Z B,SHI P. Event-driven actuators:to zero or to hold?[J].International Journal of Robust and Nonlinear Control,2014,24(17):2761-2773.

      [15]? GUO G,DING L,HAN Q L. A distributed event-triggered transmission strategy for sampled-data consensus of multi-agent systems[J]. Automatica,2014,50(5):1489-1496.

      [16]? DING D R,WANG Z D,DWC H,et al.Observer-based event-triggering consensus control for multiagent systems with lossy sensors and cyber-attacks[J]. IEEE Transactions on Cybernetics,2017,47(8):1936-1947.

      [17]? DONKERS M C F,HEEMELS W P M H. Output-based event-triggered control with guaranteed-gain and improved and decentralized event-triggering[J].IEEE Transactions on Automatic Control,2012,57(6):1362-1376.

      [18]? FITER C,HETEL L,PERRUQUETTI W,et al. A robust stability framework for LTI systems with time-varying sampling[J] Automatica,2015,54:56-64.

      [19]? HU L,WANG Z D,HAN Q L,et al. Event-based input and state estimation for linear discrete time-varying systems [J]. International Journal of Conrtrol, 2018,91(1):101-113.

      [20]? PENG C,HAN Q L. On designing a novel self-triggered sampling scheme for networked control systems with data losses and communication delays[J]. IEEE Transactions on Industrial Electronics,2015,63(2):1239-1248.

      [21]? WANG X F,LEMMON M D. Self-triggered feedback control systems with finite-gain stability[J].IEEE Transactions on Automatic Control,2009,54(3):452-467.

      [22]? ZOU L,WANG Z D,ZHOU D H. Event-based control and filtering of networked systems:a survey[J]. International Journal of Automation & Computing,2017,14(3):239-253.

      [23]? VAMVOUDAKIS K G,F(xiàn)ERRAZ H. Model-free event-triggered control algorithm for continuous-time linear systems with optimal performance [J]. Automatica,2018,87:412-420.

      猜你喜歡
      強(qiáng)化學(xué)習(xí)避障
      基于強(qiáng)化學(xué)習(xí)的在線訂單配送時(shí)隙運(yùn)能分配
      論“以讀促寫”在初中英語寫作教學(xué)中的應(yīng)用
      智能交通車流自動(dòng)導(dǎo)引系統(tǒng)
      基于LabVIEW的自主巡航與遙控雙功能智能小車研發(fā)
      基于HC—SR04超聲波傳感器的智能避障小車設(shè)計(jì)
      基于STM32芯片的移動(dòng)機(jī)器人的避障研究
      分布式系統(tǒng)中基于非合作博弈的調(diào)度算法
      基于“STC80C51單片機(jī)”的智能小車系統(tǒng)的設(shè)計(jì)
      孟州市| 扶沟县| 瑞昌市| 大庆市| 抚松县| 临夏市| 泗洪县| 潼关县| 永兴县| 读书| 青州市| 皮山县| 噶尔县| 华蓥市| 集贤县| 营山县| 焉耆| 刚察县| 夏邑县| 类乌齐县| 林西县| 汶上县| 闽侯县| 凯里市| 尼勒克县| 分宜县| 巴南区| 沾益县| 灵丘县| 威信县| 长顺县| 祁连县| 吐鲁番市| 湖北省| 岳阳市| 漾濞| 金乡县| 上蔡县| 奉节县| 夏河县| 讷河市|