改進(jìn)型DDPG算法的多智能體編隊(duì)控制與仿真

2023-07-17 21:45:11景永年耿雙雙向瑤文家燕

廣西科技大學(xué)學(xué)報(bào) 2023年3期

關(guān)鍵詞：避障強(qiáng)化學(xué)習(xí)深度學(xué)習(xí)

景永年耿雙雙向瑤文家燕

摘要：針對(duì)多智能體系統(tǒng)編隊(duì)在路徑規(guī)劃過程中隊(duì)形不穩(wěn)定、獲取路徑時(shí)間較慢以及在避障過程中存在與障礙物距離較近的問題，本文采用角度距離度量的方式對(duì)多智能體進(jìn)行編隊(duì)，通過改變傳統(tǒng)的由起始點(diǎn)到達(dá)終點(diǎn)避障過程所形成的路徑規(guī)劃方法，弱化起始點(diǎn)和終點(diǎn)概念，添加路徑中點(diǎn)的方式，使智能體同時(shí)從起點(diǎn)以及終點(diǎn)向中點(diǎn)移動(dòng)，形成由起點(diǎn)指向中點(diǎn)、終點(diǎn)指向中點(diǎn)的2條路徑。將獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)為同號(hào)智能體相碰為正向獎(jiǎng)勵(lì)，異號(hào)智能體相碰以及智能體（同號(hào)智能體和異號(hào)智能體）與障礙物之間相碰均為負(fù)向獎(jiǎng)勵(lì)。在搭建的靜態(tài)和動(dòng)態(tài)障礙物2種仿真環(huán)境下分別進(jìn)行可變?nèi)萘矿w驗(yàn)池深度確定性策略梯度算法（deep deterministic policy gradient -variable capacity experience pool， DDPG-vcep）驗(yàn)證，并對(duì)比不同訓(xùn)練次數(shù)下的獎(jiǎng)賞值。仿真結(jié)果表明，改進(jìn)后的DDPG編隊(duì)算法較傳統(tǒng)DDPG算法節(jié)約了路徑獲取時(shí)間，編隊(duì)避障的效果更加明顯。

關(guān)鍵詞：深度學(xué)習(xí)；強(qiáng)化學(xué)習(xí)；深度確定性策略梯度算法（DDPG算法）；多智能體；編隊(duì)控制；避障

中圖分類號(hào)：TP273 DOI：10.16375/j.cnki.cn45-1395/t.2023.03.009

0 引言

隨著多智能體系統(tǒng)在軍事和民用領(lǐng)域上的應(yīng)用越來越廣泛，其中多智能體系統(tǒng)之間的協(xié)作或協(xié)調(diào)問題受到了越來越多的關(guān)注，在衛(wèi)星群協(xié)同控制、無人機(jī)編隊(duì)控制、多機(jī)器人系統(tǒng)分布式優(yōu)化、自動(dòng)化公路系統(tǒng)調(diào)度等領(lǐng)域有著廣泛的應(yīng)用[1-4]。

在多智能體群體中，編隊(duì)控制是最基本、最重要的研究課題之一，它要求一組智能體保持預(yù)定的隊(duì)形在期望的軌跡上運(yùn)動(dòng)，也可以看作是所有的自治智能體通過協(xié)作來完成共同的任務(wù)。因此，多智能體編隊(duì)可以廣泛應(yīng)用于航空航天、工業(yè)、娛樂等領(lǐng)域[5-7]。隨著理論研究的深入和現(xiàn)實(shí)應(yīng)用需求的增加，圍繞多智能體編隊(duì)控制的研究越來越結(jié)合實(shí)際工況約束?，F(xiàn)有的編隊(duì)控制方法主要是針對(duì)確定性多智能體系統(tǒng)，不考慮任何隨機(jī)干擾。然而多智能體通信中經(jīng)常受到各種隨機(jī)噪聲的干擾，如熱噪聲、信道衰落和編解碼過程中的量化效應(yīng)[8-12]，因此，隨機(jī)動(dòng)態(tài)模型比確定性模型更能準(zhǔn)確地描述實(shí)際的多智能體系統(tǒng)。為確定性系統(tǒng)開發(fā)的許多控制技術(shù)已成功地?cái)U(kuò)展到隨機(jī)動(dòng)態(tài)系統(tǒng)，但由于高維度問題[13]，這些技術(shù)無法直接應(yīng)用于多智能體系統(tǒng)控制中。近年來，隨著深度強(qiáng)化學(xué)習(xí)方法在多智能體系統(tǒng)編隊(duì)控制的深入研究，為解決維度高的問題提供了新思路。

深度確定性策略梯度（deep deterministic policy gradient，DDPG）算法是一種只適用于連續(xù)動(dòng)作空間的off-policy算法，是深度Q-Learning算法在連續(xù)動(dòng)作空間中的擴(kuò)展。本文在傳統(tǒng)的DDPG算法的基礎(chǔ)上進(jìn)行改進(jìn)，在多智能體編隊(duì)避障過程出現(xiàn)“局部困擾”和獲得避障路徑效率低的情況下，結(jié)合雙向搜索以及改進(jìn)獎(jiǎng)勵(lì)函數(shù)解決多智能體編隊(duì)避障控制問題。

1 整體框架

在傳統(tǒng)的深度強(qiáng)化學(xué)習(xí)算法DDPG基礎(chǔ)上研究多智能體系統(tǒng)編隊(duì)整體框架，如圖1所示，主要由4個(gè)模塊構(gòu)成。

1）環(huán)境建模模塊：設(shè)置智能體需要訓(xùn)練的環(huán)境，包括多智能體的起始點(diǎn)位置、中點(diǎn)位置、障礙物位置等。

2）多智能體系統(tǒng)模塊：由多個(gè)智能體構(gòu)成，本實(shí)驗(yàn)設(shè)置的是4個(gè)智能體。多智能體系統(tǒng)設(shè)置的是智能體本身的一些參數(shù)，包括轉(zhuǎn)角、移動(dòng)速度等。

3）基于改進(jìn)的DDPG算法的多智能體系統(tǒng)編隊(duì)控制算法模塊：該模塊中涉及到的改進(jìn)算法是在DDPG算法基礎(chǔ)上作了獎(jiǎng)勵(lì)函數(shù)以及智能體編隊(duì)方式、智能體起點(diǎn)中點(diǎn)設(shè)置的改進(jìn)。

4）任務(wù)分配（編隊(duì)）模塊：每個(gè)智能體在保持自身與其他智能體相對(duì)位置的情況下，構(gòu)建成菱形編隊(duì)到達(dá)中點(diǎn)位置，遇到障礙物會(huì)切換隊(duì)形，并重新設(shè)置智能體之間的相對(duì)距離，形成一字型繞過障礙物。

1.1 環(huán)境建模

多智能體避障所構(gòu)建的環(huán)境如圖2所示，環(huán)境地圖較為簡(jiǎn)單。所建環(huán)境大小為10×10，其中地圖中的數(shù)字由小到大分別對(duì)應(yīng)的是智能體可行使區(qū)域、障礙物位置、智能體所在位置、中點(diǎn)位置。在二維坐標(biāo)平面分別在（1，2）、（1，3）、（2，2）、（2，3）位置處設(shè)立智能體的初始位置；在二維坐標(biāo)平面（5，5）、（5，6）、（6，5）、（6，6）位置處建立第一次由起始位置所到達(dá)的中點(diǎn)位置；在二維坐標(biāo)平面（8，7）、（8，8）、（9，7）、（9，8）位置處建立4個(gè)智能體的第二次起點(diǎn)位置；重點(diǎn)設(shè)立的障礙物在二維平面坐標(biāo)的中點(diǎn)位置附近，目的是干擾智能體到達(dá)中點(diǎn)，驗(yàn)證改進(jìn)算法的可行性。

1.2 任務(wù)分配

任務(wù)分配是多智能體系統(tǒng)編隊(duì)中必須應(yīng)用到的。本文研究的多智能體編隊(duì)控制的任務(wù)分配問題是：在環(huán)境中有4個(gè)智能體，每個(gè)智能體對(duì)應(yīng)的任務(wù)分配為從起點(diǎn)以一定的隊(duì)形到達(dá)對(duì)應(yīng)的目標(biāo)點(diǎn)，此為任務(wù)分配一；對(duì)于任務(wù)分配二，要求4個(gè)智能體從目標(biāo)點(diǎn)出發(fā)按照相同的隊(duì)形到達(dá)起點(diǎn)，在遇到障礙物時(shí)變換隊(duì)形越過障礙物，最終實(shí)現(xiàn)任務(wù)一與任務(wù)二的統(tǒng)一，在中點(diǎn)處重合，形成一條完整的避障路徑，以達(dá)到獲取避障路徑效率最快的目的。

1.3 多Agent編隊(duì)控制算法

本文采用的多智能體系統(tǒng)編隊(duì)控制方法是多智能體首先在障礙物環(huán)境中有一個(gè)起始位置，然后按照智能體之間設(shè)置的安全距離進(jìn)行菱形編隊(duì)，向著中點(diǎn)方向進(jìn)行移動(dòng)，在移動(dòng)過程中若遇到障礙物則進(jìn)行編隊(duì)重構(gòu)，形成一字型，繞過障礙物，之后恢復(fù)菱形編隊(duì)到達(dá)中點(diǎn)。與同類型編隊(duì)算法不同的是，本文算法新添加了一重反方向的編隊(duì)，中點(diǎn)位置沒有發(fā)生改變，從第一次多智能體到達(dá)的目標(biāo)點(diǎn)為起點(diǎn)向著中點(diǎn)進(jìn)行編隊(duì)前行。最終二者會(huì)形成一條完整的避障路徑，會(huì)在避障效率上大大減少訓(xùn)練時(shí)間。

1.3.1 菱形編隊(duì)

多智能體采用菱形編隊(duì)的示意圖如圖3所示。其中黑色方塊代表的是智能體[P1]、[P2]、[P3]、[P4]，對(duì)應(yīng)位置坐標(biāo)分別為[（x1，y1）]、[（x2，y2）]、[（x3，y3）]、[（x4，y4）]。智能體[P1]、[P2]之間的夾角為[θ1]，智能體[P2]、[P3]之間的夾角為[θ2]，智能體[P3]、[P4]之間的夾角為[θ3]。通過采用角度距離的測(cè)量方式保持智能體間的相對(duì)距離，形成菱形編隊(duì)。

角度距離度量的是智能體之間的方向，角度度量的距離更多的是衡量在各個(gè)維度上的比例差異，和絕對(duì)距離數(shù)值關(guān)系不大。其中一個(gè)特點(diǎn)是在智能體與原點(diǎn)連線上的角度距離不變，因此單獨(dú)2個(gè)智能體避障時(shí)不宜采用角度距離的方式限制它們之間的相對(duì)位置。但本文采用4個(gè)智能體進(jìn)行編隊(duì)，角度距離度量可以使智能體之間產(chǎn)生菱形編隊(duì)。由于直接計(jì)算智能體之間的夾角比較困難，可采用[arccosθ]來代替[θ]角的計(jì)算，具體計(jì)算公式如式（1）—式（4）所示：

研究表明[17]，如果獎(jiǎng)賞值設(shè)置過小，會(huì)導(dǎo)致智能體在訓(xùn)練過程中所得到的獎(jiǎng)勵(lì)變化不大，使得智能體在到達(dá)目標(biāo)點(diǎn)的過程中效率變低；如果獎(jiǎng)賞值設(shè)置過大，而對(duì)應(yīng)懲罰太小，則會(huì)導(dǎo)致智能體在進(jìn)行避障探索中出現(xiàn)無作為的現(xiàn)象，即無法獲得大的獎(jiǎng)勵(lì)，智能體將會(huì)在原位置保持不動(dòng)，使整個(gè)路徑規(guī)劃緩慢。基于文獻(xiàn)[17]，將式（9）、式（10）中的數(shù)值設(shè)置為100。將改進(jìn)后的獎(jiǎng)賞函數(shù)值設(shè)置為100的目的有二：其一為與對(duì)比仿真算法保持一致；其二是使獎(jiǎng)賞值與懲罰保持在合理區(qū)間，使得智能體快速到達(dá)目標(biāo)點(diǎn)。

3 數(shù)值仿真分析

為了使算法學(xué)習(xí)到的策略更吻合真實(shí)環(huán)境下多智能體系統(tǒng)編隊(duì)避障，使用Python語言與pyglet數(shù)據(jù)庫(kù)搭建了仿真環(huán)境模型，最大程度地還原真實(shí)環(huán)境信息。本文仿真環(huán)境模型搭建以及算法實(shí)驗(yàn)驗(yàn)證所使用的計(jì)算機(jī)配置為：編程語言Python3.6.0，深度學(xué)習(xí)框架Tensorflow2.0.0，pyglet、numpy、matplotlib等數(shù)據(jù)庫(kù)。

3.1 靜態(tài)障礙物環(huán)境下仿真

圖8為驗(yàn)證改進(jìn)算法的多智能體系統(tǒng)避障環(huán)境。設(shè)置環(huán)境地圖大小為[400×400]的二維空間，采用柵格法模擬環(huán)境。黑色的圓形部分代表障礙物，其大小不一；4個(gè)綠色的三角構(gòu)成的是同構(gòu)智能體，其大小設(shè)置為每個(gè)邊長(zhǎng)為[L=5]，速度設(shè)置為[v=1]；紅色的三角位置分別代表每個(gè)智能體需要到達(dá)的中點(diǎn)位置，其坐標(biāo)由起點(diǎn)和終點(diǎn)的位置決定，其中橫縱坐標(biāo)僅表示智能體和障礙物的相對(duì)位置信息，計(jì)算公式為[xend-xstart/2，] [yend-ystart/2]。

仿真實(shí)驗(yàn)以4個(gè)智能體為例，仿真結(jié)果如圖9所示。

圖9所示為多智能體系統(tǒng)采用改進(jìn)的DDPG算法與編隊(duì)隊(duì)形切換方法結(jié)合后在靜態(tài)障礙物環(huán)境下的避障仿真圖。從圖9（a）—（f）中可以看出，多智能體的起始位置隨機(jī)變化，將智能體以菱形隊(duì)形編隊(duì)并設(shè)置其初始位置，設(shè)置移動(dòng)速度[v=1]向中點(diǎn)移動(dòng)，在移動(dòng)的過程中遇到障礙物時(shí)，為保障智能體能安全繞過障礙物，并縮小智能體間的相對(duì)空間，以“一”字隊(duì)形繞開障礙物，然后恢復(fù)到菱形編隊(duì)到達(dá)中點(diǎn)位置。從圖9（g）—（l）中可以看出，多智能體設(shè)置移動(dòng)速度[v=-1]向中點(diǎn)移動(dòng)，其移動(dòng)過程為鏡像下的起點(diǎn)向中點(diǎn)移動(dòng)。當(dāng)智能體同時(shí)進(jìn)行如圖9（a）—（f）和圖9（g）—（l）所示的訓(xùn)練時(shí)，所獲得的多智能體編隊(duì)避障路徑時(shí)間將減少近50%。為驗(yàn)證改進(jìn)的DDPG算法以及編隊(duì)算法的通用性，設(shè)置了多智能體在動(dòng)態(tài)障礙物環(huán)境下的仿真實(shí)驗(yàn)。

3.2 動(dòng)態(tài)障礙物環(huán)境下仿真

在圖8搭建的靜態(tài)障礙物環(huán)境基礎(chǔ)上，添加了2個(gè)動(dòng)態(tài)障礙物，其在不同時(shí)刻下的狀態(tài)圖如圖10所示。動(dòng)態(tài)障礙物以[v=1]的速度分別在[X=150]處和[X=300]處向豎直方向上下移動(dòng)，其移動(dòng)規(guī)則設(shè)置為：在設(shè)置的平面內(nèi)進(jìn)行移動(dòng)時(shí)不與靜態(tài)障礙物發(fā)生碰撞，這樣可以維持整個(gè)搭建環(huán)境的穩(wěn)定性。

多智能體系統(tǒng)采用改進(jìn)的DDPG算法與編隊(duì)隊(duì)形切換方法結(jié)合后在動(dòng)態(tài)障礙物環(huán)境下的避障仿真圖如圖11所示。

從圖11（a）—（f）中可以看出，將智能體以菱形隊(duì)形編隊(duì)并設(shè)置其初始位置，設(shè)置移動(dòng)速度[v=1]向中點(diǎn)移動(dòng)，在移動(dòng)的過程中遇到動(dòng)態(tài)障礙物時(shí)，為保障智能體能安全繞過障礙物，縮小智能體間的相對(duì)空間，以“一”字隊(duì)形繞開障礙物，然后恢復(fù)到菱形編隊(duì)到達(dá)中點(diǎn)位置。從圖11（g）—（l）中可以看出，多智能體設(shè)置移動(dòng)速度為[v=-1]向中點(diǎn)移動(dòng)，其移動(dòng)過程與鏡像下的多智能體起點(diǎn)向中點(diǎn)移動(dòng)不同，當(dāng)遇到在[X=300]位置處上下移動(dòng)的動(dòng)態(tài)障礙物時(shí)，多智能體會(huì)通過隊(duì)形切換方式轉(zhuǎn)換成“一”字形隊(duì)形，繞開障礙物，之后恢復(fù)菱形隊(duì)形向中點(diǎn)移動(dòng)。當(dāng)智能體同時(shí)進(jìn)行如圖11（a）—（f）和圖11（g）—（l）所示的訓(xùn)練時(shí)，所獲得的多智能體編隊(duì)避障路徑時(shí)間將會(huì)減少。結(jié)合靜態(tài)障礙物環(huán)境以及動(dòng)態(tài)障礙物環(huán)境下的仿真驗(yàn)證的結(jié)果，可以得出：改進(jìn)的DDPG算法在結(jié)合編隊(duì)隊(duì)形切換方法使用時(shí)，具有通用性以及在獲取避障路徑時(shí)的高效性。

4 對(duì)比實(shí)驗(yàn)與分析

為了驗(yàn)證改進(jìn)DDPG算法的有效性，以本文構(gòu)建的路徑規(guī)劃仿真環(huán)境為實(shí)驗(yàn)平臺(tái)，通過對(duì)改進(jìn)的DDPG算法與其他同類型的智能避障算法在不同訓(xùn)練次數(shù)下的比較來驗(yàn)證改進(jìn)算法在編隊(duì)避障過程中的高效性。仿真結(jié)果如圖12所示，其中縱坐標(biāo)表示智能體在避障環(huán)境中獲得的獎(jiǎng)賞值，[memory_][size=2 000]，[r=0.9]。

圖12（a）—（e）為算法DDPG-nature、DDPG-other以及本文的改進(jìn)DDPG算法（DDPG-vcep）在不同訓(xùn)練次數(shù)時(shí)的獎(jiǎng)賞對(duì)比，其中DDPG-nature[18]指?jìng)鹘y(tǒng)的深度確定性策略梯度算法，DDPG-other為Zong等[19]提出的DDPG改進(jìn)算法，DDPG-vcep是本文提出的對(duì)DDPG算法中的獎(jiǎng)勵(lì)函數(shù)采用稀疏函數(shù)設(shè)計(jì)的方法，vcep是可變?nèi)萘矿w驗(yàn)池（variable capacity experience pool）。由圖12可以得出如下結(jié)論：

1）從整個(gè)訓(xùn)練過程可以看出，采用本文改進(jìn)算法的智能體在避障環(huán)境中獲得的獎(jiǎng)賞值均處于領(lǐng)先地位，較其他同類型的智能避障算法的優(yōu)勢(shì)明顯。

2）在前期訓(xùn)練過程中可以看出，在訓(xùn)練步數(shù)較少的情況下所獲得的獎(jiǎng)勵(lì)較小，說明多智能體系統(tǒng)編隊(duì)的避障效果不理想。但隨著訓(xùn)練步數(shù)的不斷增多，訓(xùn)練效果越來越突出，編隊(duì)避障效果越來越好。

3）從整個(gè)訓(xùn)練步數(shù)可以看出，在步數(shù)為2 000步之后，使用改進(jìn)的算法訓(xùn)練智能體，獎(jiǎng)勵(lì)將不發(fā)生變化，而使用其他同類型的算法，獎(jiǎng)勵(lì)卻依然增加，說明改進(jìn)后的編隊(duì)避障算法收斂速度更快，獲得的避障路徑效率更高。

5 結(jié)論

本文以傳統(tǒng)的DDPG算法為基礎(chǔ)，分別對(duì)多智能體編隊(duì)方式和算法獎(jiǎng)勵(lì)函數(shù)以及多智能體編隊(duì)算法進(jìn)行改進(jìn)，通過對(duì)多智能體模型進(jìn)行起始點(diǎn)同色編號(hào)，對(duì)DDPG算法中的獎(jiǎng)勵(lì)函數(shù)采用稀疏函數(shù)設(shè)計(jì)的方法，提出一種改進(jìn)的DDPG算法；通過采用角度度量的方式，使多智能體編隊(duì)時(shí)的穩(wěn)定性更高；在本文建立的障礙物環(huán)境中將該算法與其他典型算法進(jìn)行對(duì)比實(shí)驗(yàn)，得到驗(yàn)證結(jié)果。實(shí)驗(yàn)結(jié)果表明，與其他同類型的智能避障算法相比，改進(jìn)后的算法在訓(xùn)練步數(shù)較少時(shí)獲得獎(jiǎng)勵(lì)較小，但隨著訓(xùn)練步數(shù)的增加，獎(jiǎng)勵(lì)會(huì)逐漸增加，且訓(xùn)練步數(shù)在到達(dá)一定數(shù)量之后將不再變化，說明其收斂速度更快，獲得避障的路徑效率更高。但本研究?jī)H涉及二維地圖環(huán)境中的多智能體系統(tǒng)編隊(duì)避障控制，缺乏三維立體的算法驗(yàn)證，下一步將拓展研究范圍，建立復(fù)雜的三維立體仿真環(huán)境，進(jìn)一步研究該避障算法的適用性。

參考文獻(xiàn)

[1] 顧大強(qiáng)，鄭文鋼.多移動(dòng)機(jī)器人協(xié)同搬運(yùn)技術(shù)綜述[J].智能系統(tǒng)學(xué)報(bào)，2019，14（1）：20-27.

[2] 劉延棟.基于DDPG強(qiáng)化學(xué)習(xí)的移動(dòng)機(jī)器人路徑規(guī)劃[D].呼和浩特：內(nèi)蒙古工業(yè)大學(xué)，2019.

[3] 楊帆.多移動(dòng)機(jī)器人編隊(duì)控制與協(xié)作運(yùn)輸研究[D].上海：華東理工大學(xué)，2011.

[4] 班林林.多移動(dòng)機(jī)器人群體協(xié)同編隊(duì)與路徑規(guī)劃[D].北京：北京交通大學(xué)，2018.

[5] KARTAL Y，SUBBARAO K，GANS N R， et al. Distributed backstepping based control of multiple UAV formation flight subject to time delays[J]. IET Control Theory and Applications，2020，14（12）：1628-1638.

[6] 霍祥.基于自適應(yīng)控制的機(jī)器人軌跡跟蹤算法研究[D].哈爾濱：哈爾濱工業(yè)大學(xué)，2019.

[7] ZHANG W X，MA L，LI X N.Multi-agent reinforcement learning based on local communication[J].Cluster Computing，2019，22（6）：15357-15366.

[8] 楊繼明，朱先睿.一類非線性最優(yōu)控制問題的間斷有限元方法[J].湖南工程學(xué)院學(xué)報(bào)（自然科學(xué)版），2017，27（3）：37-39.

[9] 徐鵬，謝廣明，文家燕，等.事件驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)多智能體編隊(duì)控制[J].智能系統(tǒng)學(xué)報(bào)，2019，14（1）：93-98.

[10] 王文欣，葉洪濤，羅文廣，等.事件觸發(fā)機(jī)制下多智能體系統(tǒng)的非對(duì)稱二分一致性[J].廣西科技大學(xué)學(xué)報(bào)，2021，32（4）：28-34.

[11] 唐博文，王智文，胡振寰.基于事件驅(qū)動(dòng)的無人機(jī)強(qiáng)化學(xué)習(xí)避障研究[J].廣西科技大學(xué)學(xué)報(bào)，2019，30（1）：96-102，117.

[12] 賈丙佳，李平.復(fù)雜環(huán)境下移動(dòng)機(jī)器人路徑規(guī)劃算法[J].華僑大學(xué)學(xué)報(bào)（自然科學(xué)版），2021，42（1）：103-112.

[13] 鄧小豪，侯進(jìn)，譚光鴻，等.基于強(qiáng)化學(xué)習(xí)的多目標(biāo)車輛跟隨決策算法[J].控制與決策，2021，36（10）：2497-2503.

[14] 李文超.移動(dòng)機(jī)器人環(huán)境建模與路徑規(guī)劃方法研究[D].邯鄲：河北工程大學(xué)，2019.

[15] JOHNSON J D，LI J H，CHEN Z S.Reinforcement learning：an introduction[J].Neurocomputing，2000，35（1-4）：205-206.

[16] SILVER D，LEVER G，HEESS N，et al.Deterministic policy gradient algorithms[C]//International Conference on Machine Learning，2014：387-395.

[17] PROENCA H，NEVES J C.Deep-PRWIS：periocular recognition without the iris and sclera using deep learning frameworks[J]. IEEE Transactions on Information Forensics and Security，2018，13（4）：888-896.

[18] XING X R，DING H W，LIANG Z G，et al.Robot path planner based on deep reinforcement learning and the seeker optimization algorithm[J].Mechatronics，2022，88：102918.

[19] ZONG X P，XU G Y，YU G Z，et al.Obstacle avoidance for self-driving vehicle with reinforcement learning[J].SAE International Journal of Passenger Cars-Electronic and Electrical Systems，2017，11（1）：30-39.

Multi-agent formation control and simulation based on improved DDPG algorithm

JING Yongnian1，2， GENG Shuangshuang1，3， XIANG Yao1，3， WEN Jiayan*1，3，4

（1. School of Automation， Guangxi University of Science and Technology， Liuzhou 545616， China;

2. Black Sesame Technologies Company Limited， Shenzhen 518055， China;

3. Research Center for Intelligent Cooperation and Cross-application，Guangxi University of Science and Technology， Liuzhou 545616， China;

4. Guangxi Key Laboratory of Automobile Components and Vehicle Technology， Guangxi University of Science and Technology， Liuzhou 545616， China）

Abstract： In view of the problems of unstable formation in the path planning process， slow time to obtain path， and close distance to obstacles in the process of obstacle avoidance， in this paper， the method of angular distance measurement is used to form multiple agents， and by changing the traditional path planning method formed by the obstacle avoidance process from the start point to the end point， weakening the concept of start point and end point， and adding the path midpoint， the agent moves from the start point and the end point to the midpoint at the same time， forming two paths from the start point to the midpoint and the end point to the midpoint. The reward function is designed to meet agents of the same number as a positive reward， and the collision of different agents and the collision between agents（agents of the same number and different agents）and obstacles are all negative rewards. The deep deterministic policy gradient-variable capacity experience pool（DDPG-vcep）algorithm is verified respectively in the static and dynamic obstacle simulation environments， and the reward values under different training times are compared. The simulation results show that compared with the traditional DDPG algorithm， the improved DDPG formation algorithm saves the path acquisition time and has a more obvious obstacle avoidance effect.

Key words： deep learning; reinforcement learning; deep deterministic policy gradient algorithm（DDPG algorithm）; multi-agent; formation control; obstacle avoidance

（責(zé)任編輯：黎婭）

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

改進(jìn)型DDPG算法的多智能體編隊(duì)控制與仿真