姚江毅,張 陽(yáng),李雄偉,王艷超
(陸軍工程大學(xué)石家莊校區(qū) 裝備模擬訓(xùn)練中心,石家莊 050003)
計(jì)算機(jī)生成兵力(computer generated force,CGF)指的是由計(jì)算機(jī)創(chuàng)建并能對(duì)其全部或部分動(dòng)作和行為實(shí)施自主控制或指導(dǎo)的虛擬作戰(zhàn)兵力對(duì)象,構(gòu)建CGF的核心任務(wù)是對(duì)戰(zhàn)場(chǎng)環(huán)境中作戰(zhàn)實(shí)體的行為進(jìn)行建模。CGF路徑規(guī)劃是CGF行為建模中的重要環(huán)節(jié),既是任務(wù)規(guī)劃、協(xié)同等行為的基礎(chǔ),又是機(jī)動(dòng)、沖擊等動(dòng)作的前提,因此研究CGF路徑規(guī)劃問(wèn)題對(duì)CGF行為建模具有重要意義?,F(xiàn)有路徑規(guī)劃問(wèn)題常采用遺傳算法、蟻群算法、粒子群算法、A算法以及人工勢(shì)場(chǎng)法等方法進(jìn)行研究。但現(xiàn)有方法在路徑規(guī)劃的過(guò)程中通常要求環(huán)境模型是完全可知的,需要提前獲取全局精確信息,而復(fù)雜多變的戰(zhàn)場(chǎng)環(huán)境要求CGF實(shí)體能夠針對(duì)環(huán)境變化實(shí)時(shí)生成應(yīng)對(duì)策略,因此將現(xiàn)有方法直接應(yīng)用到CGF路徑規(guī)劃中具有一定局限性。
強(qiáng)化學(xué)習(xí)不需要完備的先驗(yàn)知識(shí),學(xué)習(xí)者面對(duì)陌生環(huán)境能夠通過(guò)與環(huán)境的動(dòng)態(tài)交互自主獲得最優(yōu)行為策略,因此將強(qiáng)化學(xué)習(xí)應(yīng)用到CGF路徑規(guī)劃中具有一定優(yōu)勢(shì)。本文針對(duì)軍用仿真系統(tǒng)中CGF實(shí)體路徑規(guī)劃問(wèn)題進(jìn)行研究,基于紅藍(lán)對(duì)抗系統(tǒng)構(gòu)建直升機(jī)CGF突襲雷達(dá)陣地模型,結(jié)合人工勢(shì)場(chǎng)原理構(gòu)建動(dòng)態(tài)獎(jiǎng)賞函數(shù)對(duì)強(qiáng)化學(xué)習(xí)SARSA算法進(jìn)行改進(jìn)。實(shí)驗(yàn)表明改進(jìn)SARSA算法性能有明顯提升,能夠?yàn)橹鄙龣C(jī)CGF規(guī)劃出安全路徑。
某紅藍(lán)對(duì)抗系統(tǒng)中包含以下作戰(zhàn)單元:
1) 藍(lán)方直升機(jī)CGF:搭載有射程為8 km的空地導(dǎo)彈,告警裝置能夠捕獲雷達(dá)波束從而判斷自身是否被雷達(dá)鎖定。藍(lán)方CGF的任務(wù)是突襲50 km以外的紅方雷達(dá)陣地,其飛行過(guò)程墜機(jī)概率與飛行高度相關(guān),可表示為
(1)
由于軍用直升機(jī)墜機(jī)概率數(shù)據(jù)通常是保密的,式(1)采用的是簡(jiǎn)化后的概率模型。
2) 紅方雷達(dá)陣地:陣地包含雷達(dá)和防空武器系統(tǒng),防空導(dǎo)彈的射程為10 km。紅方受訓(xùn)人員可以操控雷達(dá)及時(shí)發(fā)現(xiàn)藍(lán)方CGF并鎖定,待藍(lán)方CGF進(jìn)入防空導(dǎo)彈射程后將其擊毀。已知雷達(dá)偵測(cè)半徑最大為45 km,由于受到地面反射雜波以及探測(cè)角度等因素的影響,通常雷達(dá)難以探測(cè)到低空飛行的目標(biāo),雷達(dá)能夠探測(cè)到藍(lán)方CGF的概率與藍(lán)方CGF同雷達(dá)間距離以及藍(lán)方CGF的飛行高度均相關(guān),具體可表示為
(2)
由式(2)可得雷達(dá)探測(cè)概率模型如圖1所示。
圖1 雷達(dá)探測(cè)概率模型示意圖
紅藍(lán)對(duì)抗系統(tǒng)中,藍(lán)方直升機(jī)CGF是紅方受訓(xùn)人員的打擊對(duì)象,理想的藍(lán)方CGF應(yīng)具有足夠的智能性,能夠隨著紅方受訓(xùn)人員的訓(xùn)練水平提升而提高自身能力,從而進(jìn)一步砥礪受訓(xùn)人員。目前藍(lán)方CGF建模通常采用有限狀態(tài)機(jī)、行為樹(shù)、規(guī)則腳本等知識(shí)工程方法,構(gòu)建的藍(lán)方CGF行為方式相對(duì)固定,紅方人員經(jīng)過(guò)多次觀察后便能掌握其行動(dòng)規(guī)律,不利于進(jìn)一步訓(xùn)練。此次研究目的是結(jié)合強(qiáng)化學(xué)習(xí)算法使藍(lán)方直升機(jī)CGF擁有自主學(xué)習(xí)能力,能夠根據(jù)系統(tǒng)環(huán)境信息平衡墜機(jī)概率和雷達(dá)探測(cè)概率,選取適當(dāng)高度飛行自主規(guī)劃出突襲安全路徑,從而提高其智能性。
假設(shè)紅藍(lán)雙方攻擊時(shí)均能保證百分百命中率,則藍(lán)方勝利的條件是至少飛抵距紅方雷達(dá)陣地8 km的空域,并且在飛行過(guò)程中藍(lán)方CGF應(yīng)避免被紅方雷達(dá)偵測(cè)到。據(jù)圖1可知,藍(lán)方CGF在雷達(dá)探測(cè)范圍之外飛行時(shí)不會(huì)被發(fā)現(xiàn),在雷達(dá)探測(cè)范圍內(nèi)時(shí),如果在0.2 km以下高度飛行也能夠躲避雷達(dá)探測(cè)。因此,藍(lán)方CGF可以利用圖中探測(cè)概率較低的區(qū)域進(jìn)行突襲。
對(duì)戰(zhàn)場(chǎng)環(huán)境建模是CGF路徑規(guī)劃的前提。戰(zhàn)場(chǎng)建模是將戰(zhàn)場(chǎng)環(huán)境中與CGF路徑規(guī)劃相關(guān)的元素抽象為適合算法輸入的內(nèi)部模型信息,從而將戰(zhàn)場(chǎng)區(qū)域劃分為可通行區(qū)域和不可通行區(qū)域。將戰(zhàn)場(chǎng)空間柵格化是研究路徑規(guī)劃問(wèn)題常用的方式之一,柵格化可以將戰(zhàn)場(chǎng)空間中的連續(xù)信息離散化,便于強(qiáng)化學(xué)習(xí)算法的輸入,且離散化后的信息便于存儲(chǔ)和維護(hù),本文采用柵格法進(jìn)行戰(zhàn)場(chǎng)環(huán)境建模,具體建模情況如下。
結(jié)合系統(tǒng)信息,采用50×10的柵格對(duì)戰(zhàn)場(chǎng)環(huán)境進(jìn)行仿真,利用二維直角坐標(biāo)即可確定戰(zhàn)場(chǎng)環(huán)境中相關(guān)元素空間位置,并對(duì)每個(gè)柵格從左至右,從上到下依次標(biāo)號(hào)得到圖2。
圖2 柵格戰(zhàn)場(chǎng)環(huán)境示意圖
圖2中每個(gè)柵格包含飛行高度和飛行距離二維信息,方格內(nèi)隱含雷達(dá)探測(cè)概率和環(huán)境影響因素等。藍(lán)方直升機(jī)CGF在柵格內(nèi)運(yùn)動(dòng)方向?yàn)榍啊⒑?、上、?個(gè)方向,飛行過(guò)程中如果被紅方雷達(dá)偵察到或發(fā)生墜機(jī)事件則視為任務(wù)失敗,若藍(lán)方CGF和紅方雷達(dá)陣地距離小于8 km則視為突襲成功。
強(qiáng)化學(xué)習(xí)是從環(huán)境狀態(tài)到動(dòng)作映射的學(xué)習(xí),目的是讓智能體(Agent)的動(dòng)作從環(huán)境中獲得的累積獎(jiǎng)賞最大,從而學(xué)習(xí)到最優(yōu)策略。在強(qiáng)化學(xué)習(xí)算法中,SARSA算法是一種采用實(shí)際值進(jìn)行迭代更新的在線學(xué)習(xí)算法。SARSA算法迭代更新時(shí)需要借助五元組(,,+1,+1,+1)進(jìn)行,其中表示當(dāng)前狀態(tài);表示當(dāng)前狀態(tài)下選擇的動(dòng)作;+1是選擇動(dòng)作后獲得的獎(jiǎng)賞;+1和+1則分別代表后續(xù)的狀態(tài)和動(dòng)作,具體更新方式如下:
(,)=(,)+(+1+(+1,+1)-(,))
(3)
式中(,)表示狀態(tài)下選擇動(dòng)作的期望獎(jiǎng)賞值(表 1),∈(0,1]為學(xué)習(xí)率,用來(lái)控制學(xué)習(xí)過(guò)程中未來(lái)獎(jiǎng)賞的占比,∈(0,1)為衰減因子,表示未來(lái)獎(jiǎng)賞的衰減,隨著和的增大,算法收斂速度會(huì)加快,但是震蕩也會(huì)增大。對(duì)于式(3),如果每個(gè)狀態(tài)和動(dòng)作被無(wú)限訪問(wèn),且參數(shù)取合適值,那么值就會(huì)最終收斂到固定值。
按照上述迭代公式,算法會(huì)形成狀態(tài)與動(dòng)作對(duì)應(yīng)的Q表,最終Agent可按照Q表根據(jù)貪婪策略來(lái)進(jìn)行動(dòng)作決策。貪婪策略定義探索因子,當(dāng)隨機(jī)數(shù)大于,Agent隨機(jī)選擇可選動(dòng)作;而隨機(jī)數(shù)小于時(shí),Agent基于Q表選擇當(dāng)前狀態(tài)下對(duì)應(yīng)獎(jiǎng)賞最大的動(dòng)作,因此隨著增大,Agent會(huì)變得愈發(fā)“短視”,不利于進(jìn)一步探索次優(yōu)動(dòng)作。對(duì)于參數(shù)、和的取值,要根據(jù)實(shí)際情況經(jīng)過(guò)探索最終確定。表1為4個(gè)狀態(tài)、2個(gè)動(dòng)作的Agent生成的Q表示例。
表1 Q表Table 1 Q table
為使SARSA算法順利更新,需要設(shè)置合適的獎(jiǎng)賞集合,通常情況下設(shè)置Agent完成任務(wù)時(shí)獲得獎(jiǎng)賞,其他狀態(tài)則無(wú)獎(jiǎng)賞。對(duì)于此次研究,系統(tǒng)中直升機(jī)CGF(Agent)從初始狀態(tài)開(kāi)始探索時(shí)存在探索狀態(tài)空間爆炸的問(wèn)題,假設(shè)最簡(jiǎn)單的情況下,Agent需要50個(gè)狀態(tài)步到達(dá)目標(biāo)空域,每走一步均可做4種選擇,因此50步可做出的選擇組合為4,如果采用上述獎(jiǎng)賞設(shè)置方法,則僅在Agent到達(dá)目標(biāo)區(qū)域時(shí)的狀態(tài)步才會(huì)獲得獎(jiǎng)賞,在此之前的49個(gè)狀態(tài)步均為無(wú)效狀態(tài),這種獎(jiǎng)賞設(shè)置方式會(huì)導(dǎo)致算法收斂困難。
對(duì)于上述問(wèn)題,可以通過(guò)獎(jiǎng)勵(lì)塑造方式來(lái)解決。獎(jiǎng)勵(lì)塑造指的是利用先驗(yàn)人工知識(shí)來(lái)設(shè)計(jì)附加獎(jiǎng)勵(lì)函數(shù)從而引導(dǎo)Agent完成期望任務(wù)。由先驗(yàn)知識(shí)可知,此次模型中直升機(jī)CGF(Agent)的后退和上升高度動(dòng)作是相對(duì)無(wú)效的動(dòng)作,結(jié)合獎(jiǎng)勵(lì)塑造的思想可以對(duì)這2個(gè)方向的動(dòng)作進(jìn)行約束,并且在Agent每完成一個(gè)狀態(tài)轉(zhuǎn)換且自身安全時(shí)都給予獎(jiǎng)賞,如果完成狀態(tài)轉(zhuǎn)換后發(fā)生墜機(jī)或者被敵方雷達(dá)發(fā)現(xiàn)則給予懲罰,這種獎(jiǎng)賞規(guī)則能夠克服稀疏獎(jiǎng)勵(lì)引起的系統(tǒng)發(fā)散問(wèn)題。但是引入人工先驗(yàn)知識(shí)容易使算法陷入局部最優(yōu),且人工設(shè)計(jì)獎(jiǎng)賞函數(shù)的過(guò)程繁瑣效率較低,為了進(jìn)一步優(yōu)化解決方式,本文將結(jié)合人工勢(shì)場(chǎng)法原理構(gòu)建動(dòng)態(tài)獎(jiǎng)賞函數(shù)對(duì)SARSA算法進(jìn)行改進(jìn)。
人工勢(shì)場(chǎng)指的是戰(zhàn)場(chǎng)空間在障礙物和目標(biāo)點(diǎn)的共同作用下會(huì)形成一個(gè)虛擬力場(chǎng),其中障礙物會(huì)被斥力勢(shì)場(chǎng)所包圍,其產(chǎn)生的排斥力會(huì)隨著Agent與障礙物距離的減小而增大,排斥力的方向是背離障礙物的,而目標(biāo)點(diǎn)則會(huì)被引力勢(shì)場(chǎng)所包圍,其產(chǎn)生的吸引力會(huì)隨著Agent與目標(biāo)位置的接近而減小,吸引力的方向則指向目標(biāo)點(diǎn)。最后將戰(zhàn)場(chǎng)空間中的障礙物和目標(biāo)點(diǎn)所產(chǎn)生的勢(shì)能求和,沿著勢(shì)能函數(shù)梯度下降的方向就可以規(guī)劃出無(wú)碰路徑。
結(jié)合上述原理,引入動(dòng)態(tài)獎(jiǎng)賞機(jī)構(gòu)對(duì)SARSA算法進(jìn)行改進(jìn)。對(duì)于SARSA算法,假設(shè)目標(biāo)點(diǎn)對(duì)Agent既有引力作用也有斥力作用,且引力隨著Agent 與目標(biāo)位置的接近而增大,斥力則隨著Agent與目標(biāo)位置的接近而減小,可引入動(dòng)態(tài)獎(jiǎng)賞機(jī)構(gòu)將目標(biāo)點(diǎn)對(duì)Agent引力與斥力作用分別轉(zhuǎn)化為Agent執(zhí)行動(dòng)作后得到的獎(jiǎng)賞和受到的懲罰,引入動(dòng)態(tài)獎(jiǎng)賞函數(shù):
(4)
式中:∈(0,∞)為獎(jiǎng)賞系數(shù),為當(dāng)前狀態(tài)時(shí)Agent和目標(biāo)距離,+1為后續(xù)狀態(tài)Agent和目標(biāo)距離,為取值大于任意位置Agent和目標(biāo)距離最大值的常數(shù)。
由式(4)可知,在Agent每次位置發(fā)生變化后,如果離目標(biāo)更近,則可獲得獎(jiǎng)賞,如果離目標(biāo)更遠(yuǎn),則會(huì)受到懲罰(負(fù)獎(jiǎng)賞),這與強(qiáng)化學(xué)習(xí)的基本原理一致。分析獎(jiǎng)賞函數(shù)可知,Agent與目標(biāo)位置較遠(yuǎn)時(shí),在負(fù)獎(jiǎng)賞的約束下會(huì)快速向目標(biāo)點(diǎn)靠近,而隨著Agent靠近目標(biāo)點(diǎn),負(fù)獎(jiǎng)賞的約束能力逐漸減弱,正獎(jiǎng)賞的激勵(lì)作用增強(qiáng),Agent可以在靠近目標(biāo)點(diǎn)得同時(shí)適當(dāng)探索次優(yōu)動(dòng)作(采取次優(yōu)動(dòng)作不會(huì)受到大力度懲罰),從而順利規(guī)劃出最優(yōu)路徑。改進(jìn)SARSA算法學(xué)習(xí)框圖如圖3。
圖3 改進(jìn)SARSA算法學(xué)習(xí)框圖
改進(jìn)SARSA算法的主要改變是在Agent的學(xué)習(xí)過(guò)程中引入動(dòng)態(tài)獎(jiǎng)賞機(jī)構(gòu),Agent執(zhí)行動(dòng)作后并不會(huì)立即得到獎(jiǎng)賞,而是需要待獎(jiǎng)賞機(jī)構(gòu)結(jié)合環(huán)境信息和Agent的狀態(tài)變化情況生成實(shí)時(shí)獎(jiǎng)賞,生成的獎(jiǎng)賞值能夠反映出Agent當(dāng)前狀態(tài)與任務(wù)目標(biāo)之間的關(guān)系。與采取獎(jiǎng)勵(lì)塑造方式人工設(shè)計(jì)得獎(jiǎng)賞函數(shù)相比,此次改進(jìn)能夠簡(jiǎn)化獎(jiǎng)賞函數(shù)設(shè)計(jì)過(guò)程,提高效率,且動(dòng)態(tài)獎(jiǎng)賞函數(shù)繼承了人工勢(shì)場(chǎng)法良好平滑得控制性能,相對(duì)人工設(shè)計(jì)的固定獎(jiǎng)賞而言能夠根據(jù)連續(xù)預(yù)估得代價(jià)場(chǎng)信息進(jìn)行優(yōu)化搜索,從而具有更為平滑的獎(jiǎng)賞累積過(guò)程。改進(jìn)SARSA算法具體流程如算法1所示:
1改進(jìn)SARSA算法
1) 初始化:(,)=0,?(,)∈×
2) repeat (對(duì)于每一個(gè)迭代回合)
3) 初始化狀態(tài)
4) 狀態(tài)下,根據(jù)貪婪策略選擇動(dòng)作
5) repeat (對(duì)于回合中的每一步)
6) 采取動(dòng)作,獲得后續(xù)狀態(tài)+1
7) 比較狀態(tài)和狀態(tài)+1獲得獎(jiǎng)賞+1
8) 在狀態(tài)+1下,根據(jù)貪婪策略選擇動(dòng)作+1
9)(,)=(,)+(+1+(+1,+1)-(,))
10)←+1,←+1
11) end repeat (為終止?fàn)顟B(tài))
12) end repeat (訓(xùn)練結(jié)束)
13) 輸出Q表
為了驗(yàn)證改進(jìn)SARSA算法性能,基于本文構(gòu)建的模型環(huán)境選擇傳統(tǒng)SARSA算法和改進(jìn)SARSA算法進(jìn)行對(duì)比實(shí)驗(yàn)。結(jié)合柵格戰(zhàn)場(chǎng),將Agent當(dāng)前狀態(tài)(飛行高度、飛行距離、是否墜機(jī)和是否被雷達(dá)偵察到)做為算法輸入,直升機(jī)CGF(Agent)在柵格內(nèi)運(yùn)動(dòng)方向?yàn)榍?、后、上、?個(gè)方向,分別用F、B、U、D表示,這樣此次訓(xùn)練形成的Q表容量為500×4,Agent起始位置在(1,1.0)處,雷達(dá)位置為(50,0.1)。按照算法1流程,算法完成初始化得到Q表后,結(jié)合當(dāng)前Agent狀態(tài)信息根據(jù)貪婪策略選擇相應(yīng)動(dòng)作,動(dòng)作執(zhí)行完畢得到對(duì)應(yīng)獎(jiǎng)賞對(duì)Q表進(jìn)行更新,待迭代完成得到經(jīng)過(guò)訓(xùn)練的Q表,Agent依據(jù)訓(xùn)練過(guò)的Q表行動(dòng)便能得到規(guī)劃路徑。此次對(duì)比實(shí)驗(yàn)的目的是驗(yàn)證改進(jìn)SARSA算法性能,因此2種算法均采用相同參數(shù),其中學(xué)習(xí)率為0.01,衰減因子為0.1,探索因子為0.9,傳統(tǒng)SARSA算法獎(jiǎng)賞函數(shù)表示為
(5)
改進(jìn)SARSA算法獎(jiǎng)賞函數(shù)表示為
(6)
式中: failure代表直升機(jī)CGF墜機(jī)或者被雷達(dá)發(fā)現(xiàn),success和safety分別代表直升機(jī)CGF完成任務(wù)以及自身安全,對(duì)比式(5)和式(6)可知傳統(tǒng)SARSA算法通過(guò)獎(jiǎng)勵(lì)塑造方式對(duì)Agent動(dòng)作進(jìn)行了約束,改進(jìn)SARSA則采用了動(dòng)態(tài)獎(jiǎng)賞。在上述參數(shù)下分別對(duì)2種算法進(jìn)行1 000次迭代訓(xùn)練,選擇算法收斂時(shí)所需迭代次數(shù)和經(jīng)過(guò)訓(xùn)練CGF完成任務(wù)的成功率兩個(gè)指標(biāo)對(duì)算法優(yōu)劣進(jìn)行評(píng)價(jià)。為消除實(shí)驗(yàn)誤差,每種算法各進(jìn)行5次實(shí)驗(yàn),并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行平均處理,得到表2、表3。
表2 算法收斂所需迭代次數(shù)
表3 完成任務(wù)成功率
對(duì)比實(shí)驗(yàn)結(jié)果可知,收斂所需迭代次數(shù)方面,改進(jìn)SARSA算法收斂時(shí)所需迭代次數(shù)是傳統(tǒng)SARSA算法的一半,能夠以更少迭代次數(shù)收斂。完成任務(wù)成功率方面,經(jīng)過(guò)1 000次迭代,改進(jìn)SARSA算法完成任務(wù)成功率平均為84%,傳統(tǒng)SARSA僅為72%,成功率提升12%,表明改進(jìn)SARSA算法擁有更好的訓(xùn)練效果。
改進(jìn)SARSA算法收斂速度快的原因在于路徑規(guī)劃時(shí),獎(jiǎng)賞機(jī)構(gòu)能夠根據(jù)Agent狀態(tài)實(shí)時(shí)生成動(dòng)態(tài)獎(jiǎng)賞,激勵(lì)A(yù)gent快速向目標(biāo)位置靠攏,提高了算法訓(xùn)練效率。在動(dòng)態(tài)獎(jiǎng)賞的作用下,改進(jìn)SARSA算法能夠綜合環(huán)境信息,探索出最優(yōu)飛行高度進(jìn)行突襲,從而有效提高完成任務(wù)的成功率。
為了使Agent能夠充分利用模型環(huán)境信息,利用改進(jìn)SARSA算法對(duì)Agent進(jìn)行十萬(wàn)次訓(xùn)練,訓(xùn)練結(jié)果如圖5所示,圖5中橫坐標(biāo)為算法迭代次數(shù),縱坐標(biāo)為直升機(jī)CGF(Agent)完成突襲任務(wù)的成功率。由圖5可知經(jīng)過(guò)10萬(wàn)次訓(xùn)練Agent完成突襲任務(wù)的成功率能夠穩(wěn)定在95%以上,能夠滿足作戰(zhàn)仿真需求。訓(xùn)練完成之后,將直升機(jī)CGF(Agent)完成突襲任務(wù)經(jīng)過(guò)的坐標(biāo)位置輸出,便可繪制出路徑規(guī)劃結(jié)果,同人工規(guī)劃的結(jié)果一起作圖得到圖6。
圖5 100 000次訓(xùn)練結(jié)果曲線
圖6 規(guī)劃路徑曲線
圖6中橫坐標(biāo)代表飛行距離,縱坐標(biāo)代表飛行高度,人工路徑是根據(jù)已知模型信息人為規(guī)定的安全路徑,智能路徑則是經(jīng)過(guò)算法訓(xùn)練的Agent完成突襲任務(wù)時(shí)經(jīng)過(guò)的路徑。由圖可知,經(jīng)過(guò)訓(xùn)練后直升機(jī)CGF(Agent)在飛抵紅方雷達(dá)邊界前(5 km處)能夠主動(dòng)下降飛行高度從而避免被雷達(dá)偵察到,之后選擇安全高度(0.1~0.2 km)飛行,且在飛行過(guò)程中通過(guò)衡量因飛行高度過(guò)低而導(dǎo)致墜機(jī)概率增加和因飛行高度過(guò)高而被雷達(dá)偵察到事件之間的關(guān)系,從而采取最優(yōu)飛行高度進(jìn)行突襲,飛行過(guò)程中能夠主動(dòng)變換飛行高度進(jìn)一步優(yōu)化自身行動(dòng),最終順利完成突襲任務(wù)。對(duì)比分析可知,人工規(guī)劃的路徑相對(duì)固定靈活性差,容易被紅方掌握規(guī)律后進(jìn)行針對(duì)性打擊,智能規(guī)劃路徑則更為靈活,能夠結(jié)合環(huán)境信息實(shí)時(shí)規(guī)劃出安全路徑,從而不容易被紅方針對(duì)。
改進(jìn)SARSA算法相對(duì)傳統(tǒng)SARSA算法有著更優(yōu)異的性能,算法收斂速度以及任務(wù)完成率都有明顯提升。改進(jìn)SARSA算法實(shí)時(shí)性好,能夠使直升機(jī)CGF順利規(guī)劃出安全路徑,且生成的路徑比人工規(guī)劃路徑更靈活。