胡鵬林, 潘泉, 郭亞寧, 趙春暉
(西北工業(yè)大學(xué) 自動化學(xué)院, 陜西 西安 710129)
多智能體系統(tǒng)由多個同構(gòu)或異構(gòu)的智能體構(gòu)成,通過與環(huán)境之間的交互,共同完成單個智能體由于能力不夠而無法完成的復(fù)雜任務(wù)。由于多智能體系統(tǒng)的魯棒性、可靠性、靈活性等獨特優(yōu)勢,在航空航天、工業(yè)生產(chǎn)、交通運輸?shù)阮I(lǐng)域獲得了深入研究和廣泛應(yīng)用[1-3]。編隊控制是指智能體在運動過程中,通過建立、保持、變換智能體的空間構(gòu)型,在克服干擾約束的同時完成特殊的任務(wù)規(guī)劃,保證編隊的安全性和高效性。編隊控制作為多智能體系統(tǒng)的重要研究內(nèi)容之一,在軍事和民用領(lǐng)域有著廣泛應(yīng)用。
在多智能體編隊控制算法的發(fā)展過程中,出現(xiàn)了多種控制算法,主要有基于行為的方法、虛擬結(jié)構(gòu)的方法、領(lǐng)航者-跟隨者方法、一致性理論等多種控制理論與方法?;谛袨榉ㄊ悄7伦匀唤绲膭游镄袨檫M(jìn)行編隊控制,一般采用魯棒的分布式控制,具有很強的擴(kuò)展能力。例如,基于大雁[4]、鴿子[5]、魚群[6]等生物,提出了大量的編隊控制算法。虛擬結(jié)構(gòu)法采用虛擬的剛體結(jié)構(gòu)描述多智能體編隊構(gòu)型,通過相對誤差進(jìn)行控制,具有很高的控制精度。例如,基于虛擬結(jié)構(gòu)法的無人機(jī)編隊控制[7]、無人船編隊控制[8]、多機(jī)器人編隊控制[9]。領(lǐng)航者-跟隨者算法將智能體分為領(lǐng)航者和跟隨者,雙方之間保持一定距離,保證編隊的穩(wěn)定和安全?;陬I(lǐng)航者-跟隨者算法研究了無人機(jī)編隊控制[10]、無人船編隊控制[11]、三維空間中編隊控制問題[12]。一致性理論是將圖論和代數(shù)理論結(jié)合,通過處理系統(tǒng)誤差實現(xiàn)編隊控制,例如,基于一致性理論實現(xiàn)無人機(jī)的編隊和避障控制[13],以及使得非對稱移動機(jī)器人能夠以期望的編隊構(gòu)型移動[14]。
上述多智能體編隊控制算法通常需要精確的數(shù)學(xué)模型來設(shè)計控制律,在實際應(yīng)用中,由于傳感器誤差、環(huán)境干擾等隨機(jī)因素,通常難以獲得精確模型,給多智能體編隊控制造成巨大困難。
強化學(xué)習(xí)(reinforcement learning,RL)不需要太多先驗知識和精確的數(shù)學(xué)模型,成為解決智能體系統(tǒng)控制問題的重要途徑[15]。例如,將Q-learning和策略梯度算法結(jié)合,提出了多層結(jié)構(gòu)的編隊控制算法,使得機(jī)器人能夠?qū)崿F(xiàn)設(shè)定的編隊構(gòu)型[16]。通過自適應(yīng)Q-learning算法,實現(xiàn)了障礙環(huán)境中編隊控制[17]。通過基于RL的多智能體編隊控制框架,消除了建模和控制器設(shè)計的繁瑣工作,解決了復(fù)雜環(huán)境中編隊控制問題[18]。傳統(tǒng)的強化學(xué)習(xí)算法不僅需要大量的樣本進(jìn)行訓(xùn)練,還要求訓(xùn)練和測試數(shù)據(jù)屬于同一個域,隨著智能體數(shù)量的增加,狀態(tài)空間呈指數(shù)增長,給存儲空間和計算能力帶來巨大挑戰(zhàn)。
遷移強化學(xué)習(xí)(transfer reinforcement learning,TRL)從簡單的源任務(wù)中獲得知識,求解更復(fù)雜的目標(biāo)任務(wù),并且任務(wù)之間相似程度越高,知識的傳遞就更加容易,從而提高系統(tǒng)的學(xué)習(xí)效率[19]。按照學(xué)習(xí)方法可以分為基于樣本的遷移、基于模型的遷移、基于特征的遷移,以及基于關(guān)系的遷移等多種模式[20]。除了計算機(jī)視覺、文本分類、自然語言處理等傳統(tǒng)領(lǐng)域外,遷移強化學(xué)習(xí)逐漸應(yīng)用在許多新興的領(lǐng)域。在醫(yī)學(xué)圖像領(lǐng)域,由于醫(yī)學(xué)圖像的標(biāo)記通常依賴于有經(jīng)驗的醫(yī)生,因此,收集足夠的訓(xùn)練數(shù)據(jù)是非常昂貴和困難的,遷移學(xué)習(xí)技術(shù)能很好地幫助醫(yī)學(xué)影像分析[21-22]。在生物信息學(xué)領(lǐng)域,生物體之間的組成發(fā)生了變化,但其功能可能保持不變,可以借助遷移學(xué)習(xí)算法來進(jìn)行生物序列的分析[23-24]。在交通運輸領(lǐng)域,遷移學(xué)習(xí)可以幫助電子監(jiān)控系統(tǒng)進(jìn)行交通場景圖像的理解,以及駕駛員行為的建模[25-26]。在個性化推薦系統(tǒng)領(lǐng)域,往往訓(xùn)練數(shù)據(jù)是稀疏的,遷移學(xué)習(xí)算法可以利用來自其他推薦系統(tǒng)的數(shù)據(jù)來幫助構(gòu)建目標(biāo)推薦系統(tǒng)[27-28]。
本文基于遷移強化學(xué)習(xí)算法,研究了復(fù)雜障礙環(huán)境下多智能體編隊控制問題。在訓(xùn)練過程中,利用值函數(shù)近似算法,解決了任務(wù)規(guī)模不斷擴(kuò)大帶來的存儲和計算問題。采用高斯混合模型(Gaussian mixture model,GMM)對源任務(wù)進(jìn)行聚類分析,避免出現(xiàn)負(fù)遷移現(xiàn)象,提高了遷移強化學(xué)習(xí)效率。文章內(nèi)容安排如下:第1節(jié)介紹智能體模型和求解問題的數(shù)學(xué)描述,第2節(jié)介紹基于遷移強化學(xué)習(xí)的多智能體編隊控制算法,第3節(jié)通過仿真實驗驗證了算法的有效性,第4節(jié)給出全文總結(jié)與未來研究方向。
多智能體編隊控制系統(tǒng)由N個智能體組成,智能體通過復(fù)雜的障礙物環(huán)境,保持一定的隊形到達(dá)目標(biāo)點,同時保證智能體不發(fā)生碰撞。智能體i的模型為
xi(t+1)=xi(t)+vcos(Δφi(t))
yi(t+1)=yi(t)+vsin(Δφi(t))
(1)
式中:i∈N={1,2,…,N},v代表智能體的移動速度;φi(t)∈[0,2π]表示t時刻智能體i的航向角,即智能體i的移動方向與x坐標(biāo)軸正方向的夾角,為了避免出現(xiàn)較大的轉(zhuǎn)彎動作,航向角增量Δφi(t)滿足
(2)
用si(t)=[xi(t),yi(t)]表示t時刻智能體i的坐標(biāo)位置,障礙物集合為No={1,2,…,l}。
在多智能體編隊中,最優(yōu)性能指標(biāo)不是單個智能體的策略達(dá)到最優(yōu),而是整個編隊的策略達(dá)到最優(yōu),即編隊中智能體之間構(gòu)成合作博弈關(guān)系,因此,將多智能體控制任務(wù)描述為馬爾科夫博弈過程
Γ={S,A,π,R,V}
(3)
(4)
式中,γ表示折扣因子。
由于在學(xué)習(xí)過程中,獎勵函數(shù)的作用非常重要,定義智能體i∈N的獎勵函數(shù)Ri為
(5)
(6)
(7)
(8)
(9)
式中,ww為常系數(shù)。在多智能體編隊中,智能體i和其他智能體之間進(jìn)行交互,因此,智能體i的性能指標(biāo)由自身和其他智能體共同決定,用π-i表述其他智能體的策略,在考慮其他智能體的策略時,智能體i的性能指標(biāo)為
(10)
則最優(yōu)價值函數(shù)為
(11)
多智能體博弈的策略取決于環(huán)境中智能體的聯(lián)合行為,在其他智能體策略保持不變的情況下,智能體i在狀態(tài)si的策略
(12)
(13)
則(12)式為智能體i的Nash均衡策略,基于Nash均衡策略的價值函數(shù)為
(14)
在多智能體編隊過程中,采用價值函數(shù)
(15)
(16)
綜上,多智能體編隊控制問題可以描述為
(17)
通過前文獲得了多智能體編隊控制問題的數(shù)學(xué)描述以及優(yōu)化目標(biāo)。為了應(yīng)對復(fù)雜的多智能體編隊環(huán)境,提升強化學(xué)習(xí)速度以及泛化能力,本文引入遷移強化學(xué)習(xí)算法。如圖1所示,遷移強化學(xué)習(xí)涉及到源任務(wù)和目標(biāo)任務(wù)。
圖1 遷移強化學(xué)習(xí)示意圖
基于馬爾科夫博弈的描述,多智能體編隊控制可以分解為源任務(wù)Ms={Ns,Ss,As,Rs}和目標(biāo)任務(wù)Mt={Nt,St,At,Rt}2個子任務(wù)。遷移強化學(xué)習(xí)過程包括2個階段,首先是知識遷移階段At,根據(jù)目標(biāo)任務(wù)Ug和源任務(wù)Us之間的相關(guān)性生成合適的知識遷移模型Ut
At:Us×Ug→Ut
(18)
其次是學(xué)習(xí)階段Al,結(jié)合遷移模型Ut和目標(biāo)任務(wù)Ug,實現(xiàn)目標(biāo)任務(wù)的學(xué)習(xí)
Al:Ut×Ug→Ug
(19)
下面從源任務(wù)和目標(biāo)任務(wù)學(xué)習(xí)兩方面進(jìn)行論述。
在源任務(wù)學(xué)習(xí)中,為了突出遷移強化學(xué)習(xí)對訓(xùn)練速度的提升作用,采用Q-Learning算法進(jìn)行源任務(wù)訓(xùn)練,基于值函數(shù)近似方法,避免Q表格帶來的大規(guī)模存儲問題。根據(jù)(15)式智能體i的值函數(shù)為
(20)
值函數(shù)可以用線性函數(shù)表述為
(21)
式中:φi(si(t))=[φi1(s),…,φim(s)]∈Rm×1是由智能體i的狀態(tài)構(gòu)成的m維特征向量;T表示矩陣的轉(zhuǎn)置,用wi=[wi1,…,wim]∈Rm×1表示聯(lián)合權(quán)重向量,使用含有參數(shù)wi的值函數(shù)表示其真值為
(22)
(23)
求參數(shù)wi使得(23)式最小,根據(jù)最小二乘算法有
(24)
式中
對權(quán)重系數(shù)的收斂性進(jìn)行分析,根據(jù)(21)和(24)式有
(25)
(26)
設(shè)ρ,ψ,C均為正數(shù),φt為持續(xù)激勵信號,滿足
(27)
(28)
證明根據(jù)(25)式有
(29)
選擇函數(shù)Lt
(30)
將(26)式代入(30)式有
(31)
因此得到
(32)
λmin(G-1)ΦΦT≤ΦG-1ΦT
(33)
根據(jù)正定矩陣性質(zhì)有
(34)
根據(jù)(26)式有
(35)
(36)
結(jié)合(30)、(32)、(33)、(36)式有
(37)
化簡后有
(38)
綜上,得到
(39)
取(28)式中的ξ為
(40)
則(28)式成立,wi呈指數(shù)收斂,證明完畢。
根據(jù)Bellman最優(yōu)性原理,對價值函數(shù)進(jìn)行更新,智能體i的最優(yōu)值函數(shù)為
(41)
最優(yōu)動作選擇策略為
(42)
完成基于值函數(shù)近似的源任務(wù)訓(xùn)練。
在獲得源任務(wù)之后,將所有源任務(wù)的知識遷移到同一個智能體時,由于任務(wù)之間的差異化會導(dǎo)致負(fù)遷移。因此將大量訓(xùn)練好的源任務(wù)數(shù)據(jù)進(jìn)行歸類處理,選擇與目標(biāo)任務(wù)差異最小的源任務(wù),可以有效避免負(fù)遷移現(xiàn)象。本文選用GMM算法對源任務(wù)狀態(tài)進(jìn)行聚類分析,假設(shè)在本文中策略的相似性可以通過相應(yīng)的值函數(shù)來反映,即在相同的獎勵函數(shù)下,價值函數(shù)相似的策略,智能體的運動軌跡是平行或者重合的。
(43)
式中,πi(a|sj)表示在源任務(wù)狀態(tài)sj執(zhí)行動作a的概率,通過(44)式將值函數(shù)映射到集合yi
(44)
設(shè)n′為源任務(wù)中的分類數(shù)量,在獲得源任務(wù)樣本Y=(y1,y2,…,yn′)之后,執(zhí)行GMM算法
(45)
式中:n為目標(biāo)任務(wù)中智能體數(shù)量;αk為高斯混合系數(shù);(μk,Σk)為高斯分布的期望和方差。通過最大似然函數(shù)(46)式估計(45)式的參數(shù)
(46)
(46)式的對數(shù)似然函數(shù)為
(47)
(48)
式中,ζjk表示樣本yj中元素的后驗概率密度
(49)
(50)
通過聚類可以得到n′個高斯分布,將源任務(wù)狀態(tài)劃分為多個集合,每個集合中的策略是相似的,避免多個具有競爭關(guān)系的策略傳遞給同一個目標(biāo)任務(wù)而引起負(fù)遷移現(xiàn)象。
遷移學(xué)習(xí)的關(guān)鍵是源任務(wù)與目標(biāo)任務(wù)之間的相似性,2個任務(wù)相似程度越高,遷移學(xué)習(xí)效果越好。在獲得n′個具有高斯分布的源任務(wù)集合后,通過康托洛維奇距離度量聚類任務(wù)和目標(biāo)任務(wù)之間的相似程度。計算聚類任務(wù)Ms和目標(biāo)任務(wù)Mg兩者之間的康托洛維奇距離D(Ss,Sg)為
式中:|Ss|,|Sg|表示狀態(tài)空間的大小;ηij表示si和sj之間距離d(si,sj)的權(quán)重值為
(52)
式中,r(si,ai),r(sj,aj)表示獎勵值,c∈(0,1)。
根據(jù)任務(wù)之間的距離度量,選擇與目標(biāo)任務(wù)距離最近的源任務(wù)類,假設(shè)其中有m個源任務(wù),對目標(biāo)任務(wù)Mg中智能體i的值函數(shù)進(jìn)行初始化
(53)
因此,得到基于遷移強化學(xué)習(xí)的多智能體編隊控制算法流程如下:
1) 初始化目標(biāo)任務(wù)Mt,源任務(wù)Ms,狀態(tài)基函數(shù)φ(s),權(quán)重向量w=1,迭代次數(shù)T,最大搜索步數(shù)M,折扣因子γ,收斂因子ε。
2) 源任務(wù)學(xué)習(xí):
3) Fork=1∶Tdo
4) 根據(jù)(42)式選擇動作a
5) Forl=1∶Mdo
6) 執(zhí)行a,得到下一狀態(tài)s′和獎勵r
7) 在狀態(tài)s′執(zhí)行(42)式
8) 更新狀態(tài)和動作s←s′,a←a′
9) 根據(jù)(24)式更新ws
10) 如果s=sg,‖wt+1-wt‖2<ε進(jìn)行下一次迭代
11) End for
12) 目標(biāo)任務(wù)學(xué)習(xí):
13) 根據(jù)(45)式對源任務(wù)狀態(tài)進(jìn)行GMM聚類分析
14) 根據(jù)(51)式選擇m個較優(yōu)的源任務(wù)狀態(tài)
15) 根據(jù)(53)式初始化目標(biāo)任務(wù)中智能體的值函數(shù)
16) 執(zhí)行2)~10)進(jìn)行訓(xùn)練任務(wù),得到策略π*
本節(jié)驗證在二維狀態(tài)空間中遷移強化學(xué)習(xí)的有效性。智能體最大速度v=0.3 m/s在35 m×35 m的矩形區(qū)域運動,用半徑為1 m的圓表示智能體和障礙物。根據(jù)(5)式設(shè)計獎勵函數(shù),具體參數(shù)設(shè)置為:ds=do=dg=1 m,r1=-50,r2=-10,r3=-10,r4=-5,
wg=10,ww=25。學(xué)習(xí)參數(shù)設(shè)置為:γ=0.95,T=500,M=5 000,ε=0.1。選擇多項式形式的狀態(tài)基函數(shù)如(54)式所示。
對應(yīng)系數(shù)為wi(t)=[wi1,wi2,…,wi27]。
源任務(wù)中智能體的起始點為[5,5],[5,25],[25,5],對應(yīng)的目標(biāo)點為[30,30],[15,20],[30,15],障礙物為[10,20],[15,15],[20,5],[20,28],[25,20],[30,10]。智能體路徑軌跡如圖2a)所示,方形代表起始點,五星代表終點。所有智能體能夠在復(fù)雜環(huán)境中,無碰撞地從起始點移動到對應(yīng)的目標(biāo)點位置,得到較優(yōu)的源任務(wù)學(xué)習(xí)樣本。
圖2 遷移學(xué)習(xí)效果對比
目標(biāo)任務(wù)中智能體的起始點為[5,5],[17,30],[30,5],對應(yīng)的目標(biāo)點為[30,30],[17,5],[5,30],障礙物為[10,10],[15,25],[20,15]。遷移學(xué)習(xí)前后智能體運動軌跡如圖2b)所示,虛線和實線分別表示智能體遷移學(xué)習(xí)之前和之后的路徑軌跡,可以看出后者的路徑軌跡明顯優(yōu)于前者,且安全到達(dá)各自設(shè)定的目標(biāo)點。為了驗證遷移學(xué)習(xí)效果,在不同的目標(biāo)環(huán)境中,進(jìn)行了50次重復(fù)實驗,然后求取平均值,對遷移前后所有智能體到達(dá)目標(biāo)點的總路徑、總時長以及成功率進(jìn)行對比分析,成功率以在規(guī)定時間內(nèi)是否到達(dá)目標(biāo)來判定,通過圖3可以看出,遷移學(xué)習(xí)之后的路徑長度明顯小于遷移之前的長度,并且用時較少,成功率也有所提高。
圖3 遷移強化學(xué)習(xí)前后的結(jié)果對比柱狀圖
圖4展示了任務(wù)之間的相似性對于迭代次數(shù)及獎勵值的影響,橫坐標(biāo)表示源任務(wù)和目標(biāo)任務(wù)間的距離,散點表示每次實驗的結(jié)果,并進(jìn)行了曲線擬合。可以看出迭代次數(shù)隨著任務(wù)之間距離的增加而增加,并且隨著距離的增加,智能體獲得的平均獎勵值變小。由此可以得出任務(wù)之間的相似性越高,遷移效果越好,同時也說明采用GMM算法選擇與目標(biāo)任務(wù)差異最小的源任務(wù)進(jìn)行遷移能夠有效避免負(fù)遷移問題。
圖4 任務(wù)相似性對遷移學(xué)習(xí)結(jié)果的影響
在目標(biāo)任務(wù)的基礎(chǔ)上,設(shè)置障礙物為[10,10],[10,18],[15,25],[17,20],[25,10],驗證遷移強化學(xué)習(xí)算法的避障防撞性能,設(shè)置ds=0.5 m。智能體避障與防撞過程如圖5所示,每個智能體都到達(dá)了指定的目標(biāo)點位置。圖5b)展示了智能體之間的規(guī)避過程。避障過程中智能體之間的距離如圖6所示,均滿足設(shè)定的安全距離,沒有發(fā)生碰撞,保證了智能體的安全運動。關(guān)于迭代次數(shù)和權(quán)重系數(shù)w的收斂性在文獻(xiàn)[29]中有詳細(xì)的實驗分析。
圖5 多智能體避障與防撞過程(T表示步數(shù))
圖6 智能體避障過程相互之間的距離
用4個智能體進(jìn)行編隊控制仿真,編隊任務(wù)中智能體的起始點為[4.5,26],[5,10],[12,3],[30,5],設(shè)置對應(yīng)的目標(biāo)點為[28,30],[30,27.5],[32,30],[30,32.5],障礙物為[11,15],[15,23.5],[16,9],[25,10.5],[26.5,23.5]。每個智能體在訓(xùn)練過程中找到各自合適的目標(biāo)位置,形成對角線長度分別是4 m和5 m的菱形編隊,然后保持編隊形式運動到目標(biāo)位置,智能體運動軌跡如圖7所示。
圖7 多智能體編隊控制過程運動軌跡(T表示步數(shù))
在圖7b)中,障礙物O1和O2之間的距離為7.8 m,不滿足智能體2和智能體3之間9 m的避障要求,因此智能體無法穿越障礙物形成的狹窄通道,只能從兩邊繞行。相反障礙物O1和O3之間的距離為9.4 m,滿足避障要求,因此智能體1和智能體2從障礙物中間通過。同時從圖7b)中可以看出,智能體1選擇p1位置的獎勵最大,但是為了保證編隊整體的性能最優(yōu),智能體1選擇了p2位置,而智能體2選擇了p1位置,驗證了Nash均衡編隊策略的有效性。圖8描述了編隊過程中智能體之間的距離變化,智能體之間的距離均滿足設(shè)定的安全距離,在任務(wù)完成后智能體間的距離分別是4.9,3.9,3.1 m,符合設(shè)計的編隊距離。
圖8 智能體編隊過程相互之間的距離
為了驗證本文提出的遷移強化學(xué)習(xí)算法的實時性能和可靠性,基于Gazebo仿真平臺,選用四旋翼無人機(jī)對算法有效性進(jìn)行驗證。硬件配置為英特爾i7-9700、GeForce RTX 3090,操作系統(tǒng)采用Ubuntu-18.04。場景大小設(shè)置為30 m×30 m,最大飛行速度v=1 m/s,飛行高度統(tǒng)一為2 m,8架無人機(jī)通過中心計算機(jī)共享全局信息,信息更新頻率為10 Hz。如圖9所示,不同形狀的障礙物均可以抽象為長方體,因此用大小為1.5 m×1.5 m×2 m的長方體表示障礙物。預(yù)設(shè)無人機(jī)之間形成以坐標(biāo)(15,15)為中心,半徑為6 m的圓。
圖9 不同障礙物的抽象表示
圖10展示了無人機(jī)編隊過程中關(guān)鍵時刻的截圖,從圖10a)可以看出無人機(jī)分2組從兩邊向著場景中心位置移動;圖10b)中無人機(jī)通過障礙物形成的通道,進(jìn)行避障飛行;圖10c)中無人機(jī)形成初步聚集狀態(tài),但是無人機(jī)的航向沒有統(tǒng)一,是雜亂無序的,不具備編隊能力;圖10d)中無人機(jī)的航向呈順時針方向飛行,通過航向箭頭可以看出,無人機(jī)均沿著設(shè)定圓的切線方向移動,從而驗證了提出的算法能夠使得無人機(jī)形成符合設(shè)定條件的圓形編隊。圖11展示了無人機(jī)的飛行軌跡曲線,形成符合條件的圓形軌跡。
圖10 基于無人機(jī)的遷移強化學(xué)習(xí)算法仿真
圖11 無人機(jī)飛行軌跡
為了驗證算法的實時性和可靠性,設(shè)計了多組實驗,具體場景設(shè)置如表1所示,每組實驗重復(fù)進(jìn)行25次,并對數(shù)據(jù)進(jìn)行統(tǒng)計分析。設(shè)定編隊過程在120 s內(nèi)完成,如果超出設(shè)定的時間閾值或者出現(xiàn)其他故障,則判定編隊過程失敗。通過分析編隊形成的時間以及成功率,可以發(fā)現(xiàn)障礙物數(shù)量的增加對編隊成功率的影響較小,當(dāng)無人機(jī)的數(shù)量增加時,編隊時間明顯增加,同時成功率也降低。但是,4種場景的編隊時間和成功率都在可接受的范圍內(nèi),因此文章提出的算法具有較好的實時性和較高的可靠性。圖12展示了4種場景中無人機(jī)形成圓形編隊時的截圖。
表1 基于遷移強化學(xué)習(xí)的無人機(jī)編隊多種場景設(shè)置
圖12 多種場景無人機(jī)的遷移強化學(xué)習(xí)算法仿真
針對復(fù)雜障礙環(huán)境下多智能體編隊控制問題,本文提出了一種基于遷移強化學(xué)習(xí)的編隊控制算法?;谠O(shè)計的獎勵函數(shù),采用Nash均衡價值函數(shù)保證了多智能體編隊系統(tǒng)的整體性能最優(yōu)。利用值函數(shù)近似方法進(jìn)行源任務(wù)學(xué)習(xí),推導(dǎo)了權(quán)重更新公式,通過收斂性分析證明了參數(shù)更新呈指數(shù)收斂。在目標(biāo)任務(wù)學(xué)習(xí)階段,通過GMM算法對源任務(wù)進(jìn)行聚類分析,基于康托洛維奇距離選擇較優(yōu)的源任務(wù)進(jìn)行目標(biāo)任務(wù)學(xué)習(xí),避免了負(fù)遷移問題,提高了多智能體編隊控制的效率。仿真實驗對比分析了遷移前后的運動軌跡,證明了算法的有效性。通過編隊任務(wù)仿真,實現(xiàn)了避障約束下的多智能體編隊控制任務(wù),在Gazebo平臺,基于無人機(jī)模型進(jìn)行了仿真分析,證明了算法的實時性和可移植性。未來的研究將設(shè)計更加精細(xì)的獎勵函數(shù),讓獎勵函數(shù)在接近最優(yōu)解時大幅度增加,可以幫助學(xué)習(xí)算法快速收斂到最優(yōu)解??紤]將本文提出的遷移學(xué)習(xí)算法從二維環(huán)境拓展到三維環(huán)境,模擬更加復(fù)雜的現(xiàn)實環(huán)境,同時通過時間約束或者增加燃料成本的懲罰來限制智能體的行動選擇。