99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

<tfoot id="wwwww"><noscript id="wwwww"></noscript></tfoot>

<noscript id="wwwww"><dd id="wwwww"></dd></noscript>

<noscript id="wwwww"></noscript>

<nav id="wwwww"></nav>

?

基于多組并行深度Q網(wǎng)絡(luò)的連續(xù)空間追逃博弈算法

2021-05-06 07:49:40劉冰雁葉雄兵岳智宏董獻(xiàn)洲張其揚(yáng)

兵工學(xué)報 2021年3期

關(guān)鍵詞：微分神經(jīng)網(wǎng)絡(luò)函數(shù)

劉冰雁，葉雄兵，岳智宏，董獻(xiàn)洲，張其揚(yáng)

(1.軍事科學(xué)院，北京 100091； 2.32032部隊(duì)，北京 100094)

0 引言

以追捕者視角看待的追逃博弈(PEG)問題[1]，是在僅知自身狀態(tài)和逃逸者當(dāng)前有限狀態(tài)、未知逃逸者未來行為策略的條件下采取最優(yōu)行為，并最終完成追捕任務(wù)的一個動態(tài)博弈過程。該問題是最優(yōu)控制與動態(tài)博弈的深度融合，現(xiàn)已在戰(zhàn)車追捕[2]、戰(zhàn)斗機(jī)格斗[3]、導(dǎo)彈攔截[4]以及航天器交會[5]等軍事應(yīng)用場景中被重點(diǎn)關(guān)注。

PEG問題中的逃逸者，除了在一個連續(xù)且動態(tài)變化的空間環(huán)境中活動外，還具有典型的非合作性，即有信息層面不溝通、機(jī)動行為不配合、先驗(yàn)知識不完備等特性[5]。針對此類軍事場景中常出現(xiàn)的雙方連續(xù)動態(tài)沖突、對抗博弈問題，可通過微分對策[6-7]進(jìn)行數(shù)學(xué)描述。這類追捕- 逃逸微分博弈是微分對策的一種應(yīng)用，最初由Isaacs[1]提出，近年被廣泛運(yùn)用到諸多領(lǐng)域。例如，文獻(xiàn)[8-9]根據(jù)機(jī)器人追捕問題的具體情況，通過分析追逃雙方的不同狀態(tài)及形勢，建立了追捕者與逃逸者的微分博弈描述式。文獻(xiàn)[10]將高速機(jī)動目標(biāo)攔截末制導(dǎo)過程抽象為以視線角速率和燃料消耗為性能指標(biāo)的零和微分博弈問題，設(shè)計了一種微分對策制導(dǎo)律，以表述對目標(biāo)的攔截策略。文獻(xiàn)[11-12]在主動防御飛行器制導(dǎo)問題研究中，運(yùn)用微分對策理論對對抗雙方的制導(dǎo)律進(jìn)行了描述與設(shè)計。文獻(xiàn)[13]在三維空間中多智能體參與的PEG問題研究中，利用微分對策設(shè)計了防御器和逃逸器的最優(yōu)控制策略。文獻(xiàn)[14]為獲得追逃雙方在對策條件下的最優(yōu)策略，運(yùn)用微分博弈對航天器的整個追逃過程進(jìn)行了數(shù)學(xué)描述。但在利用微分對策描述PEG問題過程中，由于會面臨多目標(biāo)求解、方程復(fù)雜度以及約束非線性等諸多難題，導(dǎo)致其求解過程一直較為棘手[15]。

當(dāng)前，強(qiáng)化學(xué)習(xí)技術(shù)[16]在有效結(jié)合深度學(xué)習(xí)[17]后得到了進(jìn)一步發(fā)展，為微分對策問題提供了更好的解決方案，并受到各領(lǐng)域廣泛關(guān)注[18-19]。例如，針對實(shí)時對抗微分對策問題，Deepmind科研團(tuán)隊(duì)利用深度學(xué)習(xí)展現(xiàn)了強(qiáng)大的信息處理和決策能力，之后又結(jié)合強(qiáng)化學(xué)習(xí)技術(shù)以提升實(shí)時對抗和動態(tài)博弈能力，使其自主對抗決策能力接近人智水平[20]。文獻(xiàn)[21]闡述了軍事智能博弈對抗的發(fā)展需求和概念內(nèi)涵，分析了基于強(qiáng)化學(xué)習(xí)的博弈對抗特點(diǎn)，展望了智能博弈對抗技術(shù)的發(fā)展方向。文獻(xiàn)[22]在交通網(wǎng)絡(luò)信號控制領(lǐng)域研究中，融入博弈論的混合策略納什均衡概念，改進(jìn)IA-MARL的決策過程，提出了一種考慮博弈的多智能體強(qiáng)化學(xué)習(xí)框架，有效降低了車輛在不飽和且交通需求不均衡和波動的城市路網(wǎng)中的單位行程時間和單位車均延誤。文獻(xiàn)[23]針對無人機(jī)通信網(wǎng)絡(luò)中的干擾對抗問題，考慮無人機(jī)網(wǎng)絡(luò)節(jié)點(diǎn)的動態(tài)特性，將干擾器視為分層博弈領(lǐng)導(dǎo)者無人機(jī)用戶視為分層博弈跟隨者，提出一種基于分層博弈的自適應(yīng)頻譜接入優(yōu)化機(jī)制，智能地調(diào)整信道選擇從而獲得了良好的吞吐量性能。因此，基于深度強(qiáng)化學(xué)習(xí)的技術(shù)性突破，對解決高動態(tài)、不確定以及復(fù)雜環(huán)境下的微分對策問題，將具有重要的理論意義和應(yīng)用價值[24-27]。

在空中格斗、導(dǎo)彈攔截、戰(zhàn)車追擊以及空間非合作目標(biāo)交會等軍事對抗中，追捕者試圖在最短時間內(nèi)追上逃逸者，而逃逸者則試圖盡可能避開追捕者的現(xiàn)實(shí)問題，是典型的雙方對抗博弈問題。本文在運(yùn)用強(qiáng)化學(xué)習(xí)解決此類PEG問題過程中，針對傳統(tǒng)Q-learning應(yīng)對連續(xù)空間存在維數(shù)災(zāi)難問題，構(gòu)建了Takagi-Sugeno-Kang(TSK)模糊推理模型表征連續(xù)空間行為；針對離散動作集自學(xué)復(fù)雜且耗時問題，設(shè)計了多組并行的深度Q網(wǎng)絡(luò)(DQN)算法，從而達(dá)成以較短學(xué)習(xí)時間、在連續(xù)空間快速完成追捕任務(wù)的研究目標(biāo)。

1 連續(xù)空間的TSK模糊推理模型

PEG問題通常出現(xiàn)在連續(xù)空間，但傳統(tǒng)強(qiáng)化學(xué)習(xí)可能會由于其狀態(tài)連續(xù)性、多維并存而存在維數(shù)災(zāi)難問題[28]。為有效避免這一問題，本文依據(jù)“模糊推理是一種可以任何精度逼近任意非線性函數(shù)的萬能逼近器”[29]的結(jié)論，通過構(gòu)建一個TSK模糊推理模型來表征連續(xù)空間，并將其作為強(qiáng)化學(xué)習(xí)中的一部分。

通過零階TSK模糊推理模型[30]，結(jié)合隸屬函數(shù)[31]表征連續(xù)狀態(tài)行為空間，經(jīng)過IF-THEN規(guī)則獲得模糊集到輸出連續(xù)線性函數(shù)之間的模糊映射關(guān)系[32]為

(1)

對于模糊模型的輸出，可利用加權(quán)平均去模糊化技術(shù)將模糊量轉(zhuǎn)換成精確量[34]：

(2)

(3)

圖1所示為輸入量為2、隸屬函數(shù)個數(shù)為3的TSK模糊推理模型。推廣到一般情況，假設(shè)以n個連續(xù)空間行為變量xi為輸入。對每個xi通過y個隸屬函數(shù)，再經(jīng)過去模糊處理后輸出精確值U.

圖1 TSK模糊推理模型Fig.1 TSK fuzzy inference model

第2層網(wǎng)絡(luò)中，采取直積推理[35]，即分別在L(L=yn)個運(yùn)算節(jié)點(diǎn)對各隸屬度進(jìn)行交叉相乘運(yùn)算：

(4)

第3層網(wǎng)絡(luò)中，進(jìn)行加權(quán)平均去模糊化處理，歸一隸屬度為

(5)

(6)

第5層網(wǎng)絡(luò)中，累計各節(jié)點(diǎn)，便可實(shí)現(xiàn)(2)式所示的去模糊化效果：

(7)

2 基于多組并行DQN的PEG

強(qiáng)化學(xué)習(xí)直接運(yùn)用于TSK模糊推理模型，會面臨行為數(shù)量與映射規(guī)則的組合增長問題，將大大削弱離散化處理后的行為控制決策能力。為此，本文構(gòu)建多組、并行的DQN網(wǎng)絡(luò)架構(gòu)，設(shè)計PEG強(qiáng)化學(xué)習(xí)算法，提出追捕者與逃逸者的博弈交互訓(xùn)練步驟，在未知逃逸策略、行為動作的條件下，實(shí)現(xiàn)最優(yōu)追捕行為的自主生成。

2.1 多組并行DQN網(wǎng)絡(luò)架構(gòu)

連續(xù)狀態(tài)空間和行為空間，經(jīng)過TSK模糊推理模型處理，依L條規(guī)則根據(jù)(5)式計算，獲得L項(xiàng)歸一化直積推理值。其間，構(gòu)建多組并行的DQN網(wǎng)絡(luò)架構(gòu)，為基于TSK模糊推理預(yù)處理的追逃微分策略問題生成全局連續(xù)行為。

由此，依據(jù)TSK模糊推理模型中的L條規(guī)則，建立L組DQN網(wǎng)絡(luò)，對PEG策略進(jìn)行自主學(xué)習(xí)。多組并行DQN網(wǎng)絡(luò)，是在單個神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上增加了多個并行神經(jīng)網(wǎng)絡(luò)。與單組神經(jīng)網(wǎng)絡(luò)[36]類似，并行神經(jīng)網(wǎng)絡(luò)在與環(huán)境的不斷交互中自主學(xué)習(xí)并提升行為決策能力，通過在網(wǎng)絡(luò)中加入博弈和反饋機(jī)制，使多組并行DQN網(wǎng)絡(luò)具有更強(qiáng)的自主性、靈活性和協(xié)調(diào)性等特點(diǎn)，具備更強(qiáng)的學(xué)習(xí)、推理和自組織能力。

多組并行DQN基本架構(gòu)如圖2所示。其中，與L條IF-THEN模糊規(guī)則相對應(yīng)的離散動作集a={a1，a2，…，aL}，經(jīng)過多組并行的神經(jīng)網(wǎng)絡(luò)計算，獲得離散動作的狀態(tài)行為函數(shù)(簡稱為q函數(shù))，再經(jīng)過PEG強(qiáng)化學(xué)習(xí)算法以及加權(quán)平均去模糊處理，便可獲得該狀態(tài)下的輸出行為U.

圖2 多組并行DQN基本架構(gòu)Fig.2 Basic framework of multi-group DQN

2.2 PEG強(qiáng)化學(xué)習(xí)算法

為運(yùn)用多組并行DQN架構(gòu)解決連續(xù)空間PEG問題，需要對模糊規(guī)則稍作調(diào)整，用al替換(1)式中的cl. 在運(yùn)用加權(quán)平均去模糊化技術(shù)之前，依據(jù)輸入量為n、隸屬函數(shù)個數(shù)為y的TSK模糊推理模型，進(jìn)行L(L=yn)條IF-THEN模糊規(guī)則映射：

(8)

式中：al為追捕者離散動作集a中對應(yīng)于規(guī)則l的動作。

為了有效解決強(qiáng)化學(xué)習(xí)中的探索與利用問題，即持續(xù)使用當(dāng)前最優(yōu)策略保持高回報的同時，敢于嘗試一些新的行為以求更大地獎勵，對行為al采取ε-greedy貪婪策略[25]。該策略定義追捕者以ε的概率在動作集中隨機(jī)選取，以1-ε的概率選擇一個最優(yōu)動作。

(9)

式中：q(S，al)為規(guī)則和追捕者動作al∈a下的關(guān)聯(lián)q函數(shù)。

根據(jù)(2)式，t時刻追捕者所采取的全局連續(xù)行為可表示為

(10)

(11)

為了彌補(bǔ)DQN算法存在的獎勵偏見問題，本文提出一種競爭網(wǎng)絡(luò)取代經(jīng)典算法中的單輸出網(wǎng)絡(luò)模型，以提升神經(jīng)網(wǎng)絡(luò)訓(xùn)練效果，加快收斂速度。將q函數(shù)的神經(jīng)網(wǎng)絡(luò)全連接層分解為一個狀態(tài)函數(shù)vt(S)和一個優(yōu)勢函數(shù)ot(S,al)，再通過全連接合并，有

qt(S,al)=vt(S)+ot(S,al).

(12)

利用優(yōu)勢函數(shù)期望值為0這一特性[37]，用優(yōu)勢函數(shù)ot(S,al)減去當(dāng)前狀態(tài)下所有動作優(yōu)勢函數(shù)的均值，以控制優(yōu)勢函數(shù)的期望，進(jìn)而(12)式修改為

(13)

DQN架構(gòu)中，在獎懲值的牽引下為實(shí)現(xiàn)反饋?zhàn)灾鲗W(xué)習(xí)，定義了時間差分誤差函數(shù)：

(14)

式中：γ為折扣因子,γ∈[0,1]；Rt+1為t+1時刻可獲得的獎懲值。

通過神經(jīng)網(wǎng)絡(luò)迭代，更新q函數(shù)，有

(15)

式中：η為強(qiáng)化學(xué)習(xí)速率。

2.3 PEG交互過程

在追捕者與逃逸者的PEG交互過程中，追捕者當(dāng)前行為的確定需要TSK模糊推理模型中離散動作集a={a1,a2,…,aL}的參與。運(yùn)用多組并行DQN架構(gòu)，可實(shí)現(xiàn)離散動作al的并行自主學(xué)習(xí)，在獲得最優(yōu)動作的同時提升運(yùn)行時效。與此同時，多組神經(jīng)網(wǎng)絡(luò)并行部署，極大提升了離散動作的獨(dú)立學(xué)習(xí)能力，增強(qiáng)了算法對環(huán)境探索的能力。

為使追捕者獲得高效的追擊行為策略，限定一次回合中最大時間步個數(shù)為M. 同時，為真實(shí)反映追捕者與逃逸者的PEG過程，隨機(jī)初始化逃逸者初始位置、狀態(tài)以及逃逸策略。在多次訓(xùn)練中，1輪PEG交互過程如圖3所示。

圖3 PEG交互流程圖Fig.3 Flow chart of pursuit-evasion game interaction

具體交互訓(xùn)練步驟如下：

步驟1隨機(jī)初始化逃逸者位置狀態(tài)P，設(shè)定逃逸者行為方式與逃逸策略；初始化追捕者位置狀態(tài)S，定義追捕者追捕方式及行為邊界條件；初始化系統(tǒng)變量“回合數(shù)”=0、“完成”=0.

步驟2根據(jù)追捕者位置狀態(tài)S定義TSK模糊推理模型輸入量n，設(shè)定隸屬函數(shù)y. 依據(jù)模糊規(guī)則數(shù)，定義L(L=yn)組DQN網(wǎng)絡(luò)，并對各網(wǎng)絡(luò)的q函數(shù)進(jìn)行隨機(jī)初始化。

步驟4分別在與第l={1,2,…,L}條規(guī)則所對應(yīng)的DQN網(wǎng)絡(luò)中，根據(jù)(9)式選取動作al(l=1,2,…,L)。

步驟6計算追捕者與逃逸者的歐氏距離，判斷是否滿足捕獲條件。若滿足，則令變量“完成”=1并轉(zhuǎn)步驟11；若不滿足，則執(zhí)行步驟7.

步驟7令變量“完成”=0，依據(jù)策略逃逸者選擇對自身最佳的行動方向，并移至下一狀態(tài)P+1.

步驟9各組DQN網(wǎng)絡(luò)中，依據(jù)(12)式～(15)式，以回報值rl為牽引，采取一定的學(xué)習(xí)率η，更新q(S,al)函數(shù)。

步驟10判斷變量“回合數(shù)”是否大于最大行動步數(shù)M. 若“回合數(shù)”>M，則轉(zhuǎn)步驟11；否則，“回合數(shù)”數(shù)量加1并轉(zhuǎn)步驟3.

步驟11結(jié)束本輪PEG交互過程。

3 仿真分析

以四輪智能戰(zhàn)車PEG問題為例設(shè)計仿真環(huán)境與運(yùn)動模型，運(yùn)用本文算法進(jìn)行仿真實(shí)驗(yàn)，并與其他算法結(jié)果相比對，以驗(yàn)證本論文算法的有效性。

3.1 PEG仿真環(huán)境

PEG過程中，追捕者試圖在最短時間內(nèi)追上逃逸者，而逃逸者則試圖盡可能避開追捕者。為了使仿真結(jié)果盡可能反映真實(shí)情況，需要提前構(gòu)建仿真環(huán)境以及追捕者與逃逸者的運(yùn)動模型。

假設(shè)整個追逃環(huán)境是無障礙的，追捕者與逃逸者均不知道對方下一步的行為選擇，二者均可根據(jù)當(dāng)前狀態(tài)采取對自身最有利的行為，只有當(dāng)逃逸者處于追捕者捕獲范圍或者“回合數(shù)”達(dá)到最大時間步M，本輪博弈交互過程結(jié)束。

如圖4所示，以四輪智能戰(zhàn)車PEG問題[39]為例，構(gòu)建追捕者p與逃逸者e. 圖4中，xp、yp為追捕者當(dāng)前的笛卡爾坐標(biāo)；xe、ye為逃逸者當(dāng)前的笛卡爾坐標(biāo)；vp、ve分別為追捕者與逃逸者速度，且定義追捕者快于逃逸者；θp、θe分別為追捕者與逃逸者的運(yùn)動方向；Lp、Le分別為追捕者與逃逸者的軸距。

圖4 追捕者和逃逸者的運(yùn)動模型Fig.4 Motion model of pursuer and runaway

設(shè)追捕者和逃逸者的運(yùn)動模型分別為

(16)

(17)

式中：up與ue分別為追捕者與逃逸者采取的轉(zhuǎn)向角，up∈[-upmax,upmax]、ue∈[-uemax,uemax]，upmax、uemax分別為追捕者與逃逸者的最大轉(zhuǎn)向角；設(shè)定追捕者機(jī)動性能差于逃逸者，即upmax

由此，追捕者p和逃逸者e之間的角度差φ為

(18)

(19)

式中：φ′為上一狀態(tài)的角度差；T為采樣時間。

追捕者p和逃逸者e之間的歐氏距離d為

(20)

在PEG過程中，追捕者p的目標(biāo)是在最短時間內(nèi)追上逃逸者e；而逃逸者e的目標(biāo)是使得追捕時間最大化并避免被追上。只有當(dāng)逃逸者e位于追捕者p捕獲半徑l內(nèi)，即d≤l時，追捕任務(wù)才算完成。

追捕者p采取的策略是使得與逃逸者e之間的角度差φ趨于0，由此將多組并行DQN架構(gòu)中的回報函數(shù)定義為

rl=2e-φ2-1, ?l∈[1,L],

(21)

追捕者p在連續(xù)空間可采取如下行為：

(22)

逃逸者e選取對其最有利的逃逸策略，且不以追捕者p的意志為轉(zhuǎn)移。借鑒文獻(xiàn)[40-41]結(jié)論，逃逸者e將采用以下兩種策略使得與追捕者p之間的距離最大化：

1)若二者之間歐氏距離d大于特定距離D,則逃逸者e將采取如下行為：

(23)

2)若二者之間歐氏距離d小于特定距離D，則逃逸者e則將采取更高機(jī)動性的行為，即

ue=θp-θe+π.

(24)

3.2 算例仿真

仿真實(shí)驗(yàn)在1.6 GHz、1.8 GHz雙核CPU、8G RAM計算硬件上，運(yùn)用PyCharm仿真編譯環(huán)境進(jìn)行。設(shè)定1輪episode中時間步個數(shù)M=360，采樣時間T=0.1 s. 設(shè)定追捕者p的初始位置(xp,yp)=(0 m,0 m)，初始方向θp=0°，恒定追捕速度vp=1 m/s，捕獲半徑l=0.1 m，軸距Lp=0.3 m，轉(zhuǎn)向角范圍up∈[-0.5°,0.5°]。隨機(jī)初始化逃逸者位置(xe,ye)，初始方向θe=0°，恒定逃逸速度ve=0.5 m/s，逃逸策略中特定距離D=3 m，軸距Le=0.3 m，轉(zhuǎn)向角ue∈[-1°,1°]。多組并行DQN架構(gòu)中，采用的神經(jīng)網(wǎng)絡(luò)層數(shù)為5，隱藏層神經(jīng)元個數(shù)為10，激活函數(shù)為sigmoid，探索率ε=0.3，折扣因子γ=0.9，學(xué)習(xí)速率η=0.3.

運(yùn)用本文所提算法進(jìn)行仿真實(shí)驗(yàn)，與Q-learning算法[42]、基于資格跡的強(qiáng)化學(xué)習(xí)算法[33]以及基于獎勵的遺傳算法[43]實(shí)驗(yàn)結(jié)果進(jìn)行比對。各算法在經(jīng)過100次自主學(xué)習(xí)后，均能完成追捕任務(wù)，捕獲時間和訓(xùn)練時間如表1所示。其中，Q-learning算法由于需要鏈?zhǔn)酱鎯Χ鄠€特征向量以及同時迭代更新多張Q表，導(dǎo)致其自主學(xué)習(xí)耗時較長；基于資格跡的強(qiáng)化學(xué)習(xí)算法將時序差分法和蒙特卡洛法相統(tǒng)一，只需要追蹤一個跡向量，不再需要存儲多個特征向量，大大縮減了自主學(xué)習(xí)時間，但其短期記憶特性延長了實(shí)際追捕時間；基于獎勵的遺傳算法，雖具有較高的實(shí)際應(yīng)用性能，但卻以更長的自主訓(xùn)練時耗為代價[43]；本文所提算法，在充分發(fā)揮強(qiáng)化學(xué)習(xí)算法自主尋優(yōu)優(yōu)勢的同時，運(yùn)用多組神經(jīng)網(wǎng)絡(luò)對進(jìn)行并行訓(xùn)練，大大縮減了自主學(xué)習(xí)耗時，并能確保在較短時間內(nèi)完成追捕任務(wù)。

表1 不同算法完成捕獲任務(wù)的耗時Tab.1 Elapsed time of different algorithms to complete the capture task s

圖5展示了當(dāng)逃逸者初始位置為(5 m，5 m)時運(yùn)用本文所提算法，分別經(jīng)過自主學(xué)習(xí)0次、50次和100次后的PEG過程。圖6和圖7分別展現(xiàn)了3種情況下PEG過程中，追捕者與逃逸者之間距離及角度差的空間變化情況。其中，如圖5(a)所示，當(dāng)算法不經(jīng)學(xué)習(xí)直接應(yīng)用于該P(yáng)EG問題，追捕者雖以角度差趨于零為行動目標(biāo)，但由于其q函數(shù)隨機(jī)生成，且沒有任何先驗(yàn)知識，導(dǎo)致角度差上下來回浮動，與逃逸者距離卻越來越大，不能完成任務(wù)。如圖5(b)所示，當(dāng)算法經(jīng)過50次自主學(xué)習(xí)后，追捕者能夠朝著追捕者方向逼近，途中逃逸者采取更為靈活的規(guī)避策略，致使與追捕者角度差陡增，追捕者在緊急轉(zhuǎn)向后順利完成追捕任務(wù)。如圖5(c)所示，當(dāng)算法獲得更多的學(xué)習(xí)次數(shù)后，能夠更好地處理逃逸者規(guī)避行為，自主選取更為有利的行動方向，從而大大提升了任務(wù)完成效果。

圖6 追捕者與逃逸者之間的距離變化Fig.6 Distance between pursuer and runaway

圖7 追捕者與逃逸者之間的角度差變化Fig.7 Angle difference between pursuer and runaway

4 結(jié)論

本文提出一種自主學(xué)習(xí)時間少、問題應(yīng)用耗時短的PEG算法，實(shí)現(xiàn)了追捕者在連續(xù)空間最優(yōu)追捕行為的自主生成。通過構(gòu)建TSK模糊推理模型以表征連續(xù)行為空間，構(gòu)建多組并行的DQN架構(gòu)，設(shè)計基于DQN的PEG算法，提出追捕者與逃逸者在連續(xù)空間博弈交互的訓(xùn)練步驟，從而有效地避免了傳統(tǒng)強(qiáng)化學(xué)習(xí)應(yīng)對連續(xù)空間所可能存在的維數(shù)災(zāi)難不足，實(shí)現(xiàn)了最優(yōu)追捕行為的自主生成，有效解決了離散動作集自學(xué)習(xí)復(fù)雜且耗時的問題。連續(xù)空間PEG方法不僅能夠完成連續(xù)空間PEG任務(wù)，還能隨著學(xué)習(xí)次數(shù)增加不斷提升問題處理能力，滿足動態(tài)實(shí)時博弈需求，對于解決其他領(lǐng)域的PEG問題同樣具有借鑒意義。

猜你喜歡

微分神經(jīng)網(wǎng)絡(luò)函數(shù)

二次函數(shù)

新世紀(jì)智能(數(shù)學(xué)備考)(2021年9期)2021-11-24 01:14:34

第3講 “函數(shù)”復(fù)習(xí)精講

中學(xué)生數(shù)理化·中考版(2021年3期)2021-07-22 07:41:30

擬微分算子在Hp(ω)上的有界性

數(shù)學(xué)物理學(xué)報(2021年2期)2021-06-09 08:54:26

二次函數(shù)

新世紀(jì)智能(數(shù)學(xué)備考)(2020年9期)2021-01-04 00:25:12

函數(shù)備考精講

中學(xué)生數(shù)理化(高中版.高考數(shù)學(xué))(2020年9期)2020-10-28 08:43:52

上下解反向的脈沖微分包含解的存在性

數(shù)學(xué)物理學(xué)報(2019年5期)2019-11-29 07:46:34

神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究

電子制作(2019年19期)2019-11-23 08:42:00

借助微分探求連續(xù)函數(shù)的極值點(diǎn)

廣東技術(shù)師范大學(xué)學(xué)報(2016年5期)2016-08-22 09:07:22

基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立

重型機(jī)械(2016年1期)2016-03-01 03:42:04

復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用

大連工業(yè)大學(xué)學(xué)報(2015年4期)2015-12-11 04:06:52

兵工學(xué)報2021年3期

兵工學(xué)報的其它文章: 基于廣義隨機(jī)有色Petri網(wǎng)的測試性建模方法; 自然地物假目標(biāo)的有效引偏空域及應(yīng)用; 結(jié)構(gòu)可靠性分析的自適應(yīng)共軛非線性近似方法; 多基地雷達(dá)組網(wǎng)布站優(yōu)化方法; 基于碼載偏離度的改進(jìn)自適應(yīng)Hatch濾波算法; 不同強(qiáng)度混凝土及鋼筋對鋼筋混凝土柱抗爆性能的影響

偃师市| 博乐市| 砚山县| 花莲县| 新津县| 潜山县| 松原市| 堆龙德庆县| 定安县| 巍山| 克山县| 海安县| 沭阳县| 华安县| 新乡县| 绥宁县| 确山县| 秭归县| 商水县| 平阴县| 汤原县| 涿州市| 灵武市| 延边| 井陉县| 米脂县| 宁河县| 万山特区| 尖扎县| 岳普湖县| 乡宁县| 庄浪县| 新和县| 栾城县| 浮梁县| 曲麻莱县| 浪卡子县| 深泽县| 宁乡县| 五家渠市| 朝阳市|

<tfoot id="0www0"></tfoot>

<nav id="0www0"><sup id="0www0"></sup></nav>

<tfoot id="0www0"></tfoot>

<nav id="0www0"></nav>

<nav id="0www0"></nav>

<nav id="0www0"><sup id="0www0"></sup></nav>

<tfoot id="0www0"><noscript id="0www0"></noscript></tfoot>