摘 要:在受損的多智能體自組網(wǎng)中,在維持現(xiàn)有連通結(jié)構(gòu)的前提下快速恢復(fù)全連通極具挑戰(zhàn)性。為此,提出一種基于子網(wǎng)融合的多智能體系統(tǒng)自組網(wǎng)連通性恢復(fù)方法。首先,該方法設(shè)計(jì)基于網(wǎng)絡(luò)故障探測(cè)的子網(wǎng)劃分算法來確定系統(tǒng)中的故障節(jié)點(diǎn)以及子網(wǎng)割裂情況。其次,該方法在子網(wǎng)內(nèi)部署領(lǐng)航-追隨者的主從移動(dòng)模型,從而維持子網(wǎng)內(nèi)部的穩(wěn)定性。最后,該方法設(shè)計(jì)基于強(qiáng)化學(xué)習(xí)的子網(wǎng)融合算法,根據(jù)建立強(qiáng)化學(xué)習(xí)模型來進(jìn)行領(lǐng)航者選舉,依據(jù)智能體移動(dòng)距離和智能體能量消耗設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù),引導(dǎo)子網(wǎng)完成周期性領(lǐng)航者選舉的動(dòng)作,領(lǐng)航者帶領(lǐng)追隨者移動(dòng)實(shí)現(xiàn)子網(wǎng)之間的融合,從而實(shí)現(xiàn)全網(wǎng)連通性恢復(fù)。實(shí)驗(yàn)結(jié)果表明,相比于現(xiàn)有方法,該方法在實(shí)現(xiàn)連通恢復(fù)時(shí)所需的時(shí)間平均減少了11.3%,系統(tǒng)所產(chǎn)生的能量消耗平均降低了10.58%,證明該方法在效率和能耗方面更具優(yōu)勢(shì)。
關(guān)鍵詞:多智能體系統(tǒng); 連通性恢復(fù); 領(lǐng)航-追隨者; 強(qiáng)化學(xué)習(xí)
中圖分類號(hào):TP393.03 文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001-3695(2024)10-036-3135-06
doi:10.19734/j.issn.1001-3695.2024.03.0040
Self-organized network connectivity recovery method for multi-agentsystem based on subnet fusion
He Xingyua,b, Yu Pingpinga, Yang Guisonga
(a.School of Optical-Electrical & Computer Engineering, b.College of Communication & Art Design, University of Shanghai for Science & Technology, Shanghai 200093, China)
Abstract:It is challenging to quickly restore full connectivity in a damaged multi-agent self-organizing network while maintaining the residual connectivity structure. Therefore, this paper proposed a connectivity restoring method based on subnet fusion for self-organized networks in multi-agent systems. Firstly, the method designed a subnet partition algorithm based on network fault detection, to identify faulty nodes and subnet fragmentation in the system. Secondly, the method deployed a leader-follower mobility model within each subnet to maintain the residual network connectivity. Finally, the method designed a reinforcement learning-based subnet fusion algorithm for leader election, where elected leaders periodically according to a reward function related to mobility distance and energy consumption, being responsible for guiding their followers to move for fusion between subnets. The experimental results show that this method reduces average restoration time by 11.3% and decreases energy consumption by 10.58%, demonstrating its advantages in efficiency and energy usage.
Key words:multi-agent system; connectivity restoration; leader-follower; reinforcement learning
0 引言
多智能體系統(tǒng)因具備較高的自適應(yīng)性,在眾多實(shí)際場(chǎng)景中得到應(yīng)用,如交通管理[1]、災(zāi)害救援[2]、物流配送[3]。多智能體群智協(xié)同是其系統(tǒng)效率和智能化水平提升的關(guān)鍵,且是建立在多智能體系統(tǒng)網(wǎng)絡(luò)的穩(wěn)定連通性基礎(chǔ)之上,連通的重要性體現(xiàn)在信息傳遞與共享[4]、協(xié)作[5]以及系統(tǒng)的穩(wěn)定可靠性上[6]。但在實(shí)際應(yīng)用中,由于智能體自身的能耗有限或者來自外部環(huán)境的破壞,多智能體系統(tǒng)中會(huì)出現(xiàn)部分節(jié)點(diǎn)故障或死亡的情況,從而導(dǎo)致系統(tǒng)網(wǎng)絡(luò)的連通性被破壞,割裂成多個(gè)無(wú)法連通的子網(wǎng)。針對(duì)上述情況,現(xiàn)有研究主要從兩個(gè)方面對(duì)多智能體系統(tǒng)的網(wǎng)絡(luò)連通性進(jìn)行恢復(fù):部署額外的中繼節(jié)點(diǎn)以及重新部署健康節(jié)點(diǎn)兩種方法。
部署額外的中繼節(jié)點(diǎn)方法是通過向損壞網(wǎng)絡(luò)系統(tǒng)中的關(guān)鍵位置派遣新的中繼節(jié)點(diǎn)。文獻(xiàn)[7]通過基于虛擬力量的接力動(dòng)作和利用分區(qū)領(lǐng)導(dǎo)者之間的博弈論來部署額外的中繼節(jié)點(diǎn)。文獻(xiàn)[8]通過使用無(wú)人機(jī)群向孤立的地面網(wǎng)絡(luò)補(bǔ)充空中無(wú)線鏈路來修復(fù)網(wǎng)絡(luò),從空中執(zhí)行網(wǎng)絡(luò)探測(cè),并找出部署后可顯著恢復(fù)本地和全局路由性能的關(guān)鍵點(diǎn),文獻(xiàn)[9]提出了一種新的多無(wú)人機(jī)網(wǎng)絡(luò)壽命增強(qiáng)恢復(fù)方法,該方法不僅提供了一種路由解決方案,而且還提供了一種故障安全方法。
重新部署健康節(jié)點(diǎn)是重新對(duì)現(xiàn)有健康節(jié)點(diǎn)進(jìn)行路徑規(guī)劃、排序等方式實(shí)現(xiàn)網(wǎng)絡(luò)連通性恢復(fù)。文獻(xiàn)[10]采用分區(qū)檢測(cè)方法,快速使傳感器意識(shí)到網(wǎng)絡(luò)中的分區(qū),傳感器利用存儲(chǔ)在每個(gè)傳感器處的到匯聚節(jié)點(diǎn)的先前路由信息并利用傳感器移動(dòng)性來聯(lián)合分區(qū)恢復(fù)數(shù)據(jù)通信。文獻(xiàn)[11]通過模糊邏輯在健康節(jié)點(diǎn)中選擇最佳恢復(fù)團(tuán)隊(duì)達(dá)到恢復(fù)連通的目的,文獻(xiàn)[12]通過開發(fā)健康節(jié)點(diǎn)中的最佳p循環(huán)恢復(fù)模型來實(shí)現(xiàn)網(wǎng)絡(luò)恢復(fù)。文獻(xiàn)[13]研究了無(wú)人機(jī)群網(wǎng)絡(luò)在不可預(yù)測(cè)外部破壞下快速重建通信連通性所需要的自愈問題。針對(duì)一次性外部破壞和一般化外部破壞,提出了可在線查找無(wú)人機(jī)群網(wǎng)絡(luò)恢復(fù)拓?fù)涞膱D卷積神經(jīng)網(wǎng)絡(luò)和基于GCN的軌跡規(guī)劃算法,使無(wú)人機(jī)群在自愈過程中重建連通性。
上述第一類方法不需要調(diào)整已有的連通結(jié)構(gòu),相對(duì)簡(jiǎn)單,但需要相對(duì)長(zhǎng)的額外節(jié)點(diǎn)部署時(shí)間,不能對(duì)網(wǎng)絡(luò)進(jìn)行實(shí)時(shí)修復(fù),在實(shí)時(shí)性要求高的任務(wù)場(chǎng)景無(wú)法適用。相反地,第二類方法則可以在網(wǎng)絡(luò)故障后立即作出網(wǎng)絡(luò)連通性恢復(fù)響應(yīng),但其復(fù)雜性更大,具體來說,主要面臨兩大挑戰(zhàn):a)在調(diào)整健康節(jié)點(diǎn)位置的同時(shí)維持其原有的連通性;b)要兼顧網(wǎng)絡(luò)連通性恢復(fù)的開銷和速度。
本文主要對(duì)第二類方法展開研究。針對(duì)該類方法的第一個(gè)挑戰(zhàn),本文將在健康節(jié)點(diǎn)組成的子網(wǎng)內(nèi)引入領(lǐng)航-追隨者[14]模式來保持子網(wǎng)已有的連通性。領(lǐng)航-追隨者模式是編隊(duì)控制中的一種常用方法,其將團(tuán)隊(duì)中的一個(gè)智能體指定為領(lǐng)航者統(tǒng)一調(diào)度其余作為追隨者的智能體的行動(dòng),以維持團(tuán)隊(duì)的內(nèi)部穩(wěn)定,例如文獻(xiàn)[15]提出了一種領(lǐng)航-追隨者無(wú)人機(jī)編隊(duì)控制規(guī)律,將控制和通信約束以平衡的方式結(jié)合在一起,實(shí)現(xiàn)無(wú)人機(jī)編隊(duì),又例如文獻(xiàn)[16]通過優(yōu)化網(wǎng)絡(luò)中領(lǐng)航者和跟隨者之間協(xié)調(diào)控制的代價(jià)函數(shù)來獲得智能體的控制輸入,保證領(lǐng)航者和跟隨者之間的共識(shí)。
針對(duì)第二類方法的第二個(gè)挑戰(zhàn),本文將利用強(qiáng)化學(xué)習(xí)[17]方法來優(yōu)化多智能體系統(tǒng)網(wǎng)絡(luò)連通性恢復(fù)過程中的效率和開銷。強(qiáng)化學(xué)習(xí)是智能體以“試錯(cuò)”的方式進(jìn)行學(xué)習(xí),通過與環(huán)境進(jìn)行交互獲得的獎(jiǎng)賞從而指導(dǎo)行為,該方法已被應(yīng)用于多智能體系統(tǒng)的協(xié)同以完成通信來執(zhí)行任務(wù),例如文獻(xiàn)[18]采用Actor-Critic強(qiáng)化學(xué)習(xí)方法解決智能體之間沒有通信的情況下達(dá)到共識(shí)的目的。又例如文獻(xiàn)[19]提出了災(zāi)害應(yīng)急場(chǎng)景下基于多智能體深度強(qiáng)化學(xué)習(xí)的任務(wù)卸載策略,避免動(dòng)作空間大量無(wú)用的搜索。
目前,并沒有相關(guān)研究將領(lǐng)航-跟隨者模式以及強(qiáng)化學(xué)習(xí)方法共同引入網(wǎng)絡(luò)連通性恢復(fù)過程中?;谏鲜鰳?gòu)思,本文提出了一種基于子網(wǎng)融合的多智能體系統(tǒng)自組網(wǎng)連通性恢復(fù)方法。該方法首先設(shè)計(jì)基于網(wǎng)絡(luò)故障探測(cè)的子網(wǎng)劃分算法來確定系統(tǒng)中的故障節(jié)點(diǎn)以及子網(wǎng)劃分情況,進(jìn)而在子網(wǎng)內(nèi)部部署領(lǐng)航-追隨者的移動(dòng)模型。最后,該方法設(shè)計(jì)基于強(qiáng)化學(xué)習(xí)的子網(wǎng)融合算法,根據(jù)建立強(qiáng)化學(xué)習(xí)模型來進(jìn)行領(lǐng)航者選舉,依據(jù)智能體移動(dòng)距離和智能體能量消耗設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù),引導(dǎo)子網(wǎng)完成周期性領(lǐng)航者選舉的動(dòng)作,領(lǐng)航者帶領(lǐng)追隨者移動(dòng)實(shí)現(xiàn)子網(wǎng)之間的融合,從而實(shí)現(xiàn)全網(wǎng)連通性恢復(fù)。本文的主要貢獻(xiàn)如下:
a)為了在調(diào)整健康節(jié)點(diǎn)位置的同時(shí)維持其原有的連通性,首先,本文設(shè)計(jì)基于網(wǎng)絡(luò)故障探測(cè)的子網(wǎng)劃分方法來確定系統(tǒng)中的故障以及子網(wǎng)割裂情況;然后,在子網(wǎng)中采用領(lǐng)航-追隨者移動(dòng)控制模型。每個(gè)智能體從引發(fā)子網(wǎng)割裂的故障消息中找出故障節(jié)點(diǎn)的鄰居節(jié)點(diǎn),將它們中位于其他子網(wǎng)的節(jié)點(diǎn)其放入候選子目標(biāo)列表。在實(shí)現(xiàn)網(wǎng)絡(luò)連通恢復(fù)的過程中,領(lǐng)航者會(huì)收集到子網(wǎng)追隨者反饋的環(huán)境信息(其他子網(wǎng)的智能體,即陌生智能體的位置信息),并將其放入候選子目標(biāo)列表。領(lǐng)航者選擇候選子目標(biāo)列表中距離自身最近的智能體作為移動(dòng)子目標(biāo),同時(shí),領(lǐng)航者負(fù)責(zé)收集追隨者信息和廣播子網(wǎng)狀態(tài)信息,追隨者向領(lǐng)航者反饋?zhàn)陨硭綔y(cè)的環(huán)境狀態(tài),并且根據(jù)鄰居的移動(dòng)方向均值來更新更新自身的移動(dòng)方向,從而兼顧了連通性恢復(fù)的運(yùn)行控制和子網(wǎng)內(nèi)部連通性的維持。
b)為了兼顧網(wǎng)絡(luò)連通性恢復(fù)的開銷和速度,本文設(shè)計(jì)了用于領(lǐng)航者選舉的強(qiáng)化學(xué)習(xí)模型,依據(jù)領(lǐng)航者的能量消耗設(shè)置個(gè)體獎(jiǎng)勵(lì)以及子網(wǎng)中智能體與子目標(biāo)的距離平均值設(shè)置全局獎(jiǎng)勵(lì),使得子網(wǎng)周期性完成一次領(lǐng)航者選舉的動(dòng)作,選舉結(jié)果由當(dāng)前領(lǐng)航者廣播給追隨者,新的領(lǐng)航者將帶領(lǐng)追隨者朝著新的子目標(biāo)移動(dòng)。此外,本文設(shè)計(jì)了基于子網(wǎng)融合的連通性恢復(fù)算法,即在子網(wǎng)移動(dòng)的過程中,通過周期性更新子網(wǎng)狀態(tài)和候選子目標(biāo)列表,領(lǐng)航者即時(shí)廣播狀態(tài)信息和子目標(biāo)信息來促進(jìn)子網(wǎng)進(jìn)行融合,從而實(shí)現(xiàn)網(wǎng)絡(luò)連通性恢復(fù)。
1 系統(tǒng)模型
本文構(gòu)建了一個(gè)多智能體系統(tǒng),包括I個(gè)智能體,表示為A={A1,A2,…,Ai,…,AI},其中第i個(gè)智能體表示為Ai(1<i<I),智能體Ai是具有感知、計(jì)算、存儲(chǔ)、通信能力的無(wú)人車、無(wú)人機(jī)或機(jī)器人,其初始能量為Ei。智能體對(duì)應(yīng)的位置集合為L(zhǎng)={L1,L2,…,Li,…,LI},Li表示智能體Ai的位置。每個(gè)智能體有固定的探測(cè)半徑R1和通信半徑R2(R1>R2)。
每個(gè)智能體周期性與鄰居智能體交換鄰居列表(時(shí)間周期為Δt)。智能體Ai的鄰居列表定義為Aneighbori={A1i,A2i,…,Aδi},其中Ai的第n個(gè)鄰居智能體用Ani表示。每個(gè)智能體可以通過收集其他智能體的鄰居列表來計(jì)算和更新全網(wǎng)的連通性矩陣C,如式(1)所示。
C=CA1,A1…CA1,Ai2…CA1,AICAi1,A1…CAi1,Ai2…CAi1,AICAI,A1…CAI,Ai2…CAI,AI(1)
在矩陣C中,智能體Ai1和Ai2之間的連通性度量用CAi1,Ai2表示,通過式(2)計(jì)算獲得。
CAi1,Ai2=∑I-1w=1cwij(2)
cwij為任意兩個(gè)智能體Ai和Aj之間的w跳連通性度量,由式(3)迭代計(jì)算獲得。
cwij=∑Iy=1cw-1iyc1yj(3)
當(dāng)w=1時(shí),cwij為任意智能體Ai和Aj之間的直接連通度量,可通過分析鄰居關(guān)系直接獲得,若cwij=1,則智能體Ai和Aj之間存在w跳連通,否則不連通。
2 基于網(wǎng)絡(luò)故障探測(cè)的子網(wǎng)劃分
為了判斷故障智能體是否導(dǎo)致網(wǎng)絡(luò)割裂,本文設(shè)計(jì)基于網(wǎng)絡(luò)故障探測(cè)的子網(wǎng)劃分算法,如算法1所示。在算法1中,智能體Ai向鄰居智能體發(fā)送鄰居列表交互請(qǐng)求后,如果在時(shí)間間隔Δt內(nèi)未收到鄰居智能體Aj的請(qǐng)求確認(rèn),則認(rèn)為智能體Aj發(fā)生故障。在探測(cè)到智能體Aj發(fā)生故障后,智能體Ai會(huì)更新鄰居列表,并通過式(2)(3)更新全網(wǎng)的連通性矩陣C,根據(jù)該矩陣C判斷網(wǎng)絡(luò)是否發(fā)生割裂,以及根據(jù)該矩陣C從智能體Aj的鄰居表中與自身仍然連通的智能體,將自身和這些智能體放入網(wǎng)絡(luò)故障處理候選者列表Aci。
當(dāng)智能體Ai根據(jù)矩陣C發(fā)現(xiàn)智能體Aj的故障沒有引發(fā)網(wǎng)絡(luò)割裂,如果自身的中介度為Aci中最小的(智能體Ai的中心度為其到所在子網(wǎng)其他節(jié)點(diǎn)的最小跳數(shù)和),則需要自身作為故障處理者負(fù)責(zé)將子網(wǎng)號(hào)不變的故障消息Mimsg沿著最短路徑廣播給其所在子網(wǎng)的其他智能體,否則不做任何處理。
當(dāng)智能體Ai發(fā)現(xiàn)智能體Aj的故障引發(fā)了網(wǎng)絡(luò)割裂,如果自身比Aci其他故障處理候選者距離Aj更近,則需要作為故障處理者生成包含自身位置和故障探測(cè)時(shí)間的新子網(wǎng)號(hào),并將包含該新子網(wǎng)號(hào)的故障信息Mimsg沿著最短路徑廣播給所在子網(wǎng)的其他智能體,否則不做任何處理。
為了對(duì)因節(jié)點(diǎn)故障導(dǎo)致網(wǎng)絡(luò)割裂而形成的各個(gè)子網(wǎng)進(jìn)行唯一標(biāo)識(shí),本文將處理網(wǎng)絡(luò)割裂的智能體位置和其探測(cè)到網(wǎng)絡(luò)割裂的時(shí)間定義為新產(chǎn)生的子網(wǎng)號(hào)。如圖1所示,故障消息Mimsg由以下幾部分組成:消息發(fā)送者Ai,消息接收者Aρ(Aρ為Ai所在子網(wǎng)的其他智能體),子網(wǎng)號(hào)NtAi(t表示子網(wǎng)劃分時(shí)間,Ai表示子網(wǎng)割裂的故障處理者),故障智能體Aj的ID、位置Lj以及鄰居列表Anj。
算法1 基于故障探測(cè)的子網(wǎng)劃分算法
輸入:連通矩陣C,故障智能體Aj。
輸出:子網(wǎng)號(hào)NtAi。
a)智能體Ai根據(jù)故障智能體Aj更新鄰居列表,同時(shí)通過式(2)(3)更新連通矩陣C;
b)獲取Aj的鄰居表中與Ai存在鏈路的智能體集合Aci;
c)if網(wǎng)絡(luò)未發(fā)生割裂then
d) if智能體Ai為Aci中中心度最小的節(jié)點(diǎn) then:
e) 廣播子網(wǎng)號(hào)未變化的故障消息Mimsg;
f) end if ;
g)else 網(wǎng)絡(luò)發(fā)生割裂then
h)智能體Ai為Aci中距離故障智能體Aj最近的智能體, 將自身位置和探測(cè)到故障智能體Aj的時(shí)間定義為新子網(wǎng)號(hào)NtAi,廣播包含新子網(wǎng)號(hào)NtAi的故障消息Mimsg;
i)end if;
本文將以圖2的場(chǎng)景為例對(duì)上述算法1進(jìn)行詳細(xì)說明。在圖2中,智能體A1~A10之間周期性交互鄰居信息,某時(shí)刻,A2、A5、A6和A10無(wú)法在規(guī)定時(shí)間間隔內(nèi)接收到A1的鄰居消息確認(rèn),即檢測(cè)到智能體A1故障。A2、A5、A6和A10分別通過式(2)(3)來計(jì)算更新全網(wǎng)連通矩陣,判斷網(wǎng)絡(luò)已經(jīng)發(fā)生割裂。由于智能體A2和A5相連通且A2比A5離故障節(jié)點(diǎn)A1更近,則A2會(huì)生成新的子網(wǎng)號(hào)NtA2,并把包含NtA2的故障消息MA2msg發(fā)送給A3、A4以及A5。A6和A10與A1的其他鄰居節(jié)點(diǎn)都不相連通,則各自生成子網(wǎng)號(hào)NtA6和NtA10,并將子網(wǎng)號(hào)NtA6和NtA10分別發(fā)送給A7、A8和A9。
3 基于強(qiáng)化學(xué)習(xí)的子網(wǎng)融合
3.1 子網(wǎng)中領(lǐng)航者和追隨者定義
1)功能角色 在廣播故障消息結(jié)束后,每個(gè)子網(wǎng)會(huì)啟動(dòng)領(lǐng)航-追隨者模式來實(shí)現(xiàn)網(wǎng)絡(luò)連通性恢復(fù)。每個(gè)子網(wǎng)中會(huì)周期性選舉出一個(gè)智能體擔(dān)任領(lǐng)航者,其余智能體則為追隨者,領(lǐng)航者引導(dǎo)追隨者移動(dòng)尋找與其他子網(wǎng)的融合機(jī)會(huì),在移動(dòng)過程中,領(lǐng)航者通過強(qiáng)化學(xué)習(xí)模型得出下一次的領(lǐng)航者選舉決策,將決策結(jié)果在子網(wǎng)內(nèi)廣播。本文設(shè)置領(lǐng)航者選舉時(shí)間間隔為Δt,即時(shí)間間隔Δt內(nèi)更新一次子網(wǎng)狀態(tài)。在子網(wǎng)NtAi中第k次選舉后的領(lǐng)航者標(biāo)記為leadertAi(k),追隨者定義為follower(g)tAi(k),即子網(wǎng)NtAi第k次選舉后的第g個(gè)追隨者智能體。
2)子目標(biāo) 每個(gè)智能體從引發(fā)子網(wǎng)割裂的故障消息中找出故障節(jié)點(diǎn)的鄰居節(jié)點(diǎn),將它們中位于其他子網(wǎng)的節(jié)點(diǎn)其放入候選子目標(biāo)列表。在實(shí)現(xiàn)網(wǎng)絡(luò)連通恢復(fù)的過程中,領(lǐng)航者會(huì)收集到子網(wǎng)追隨者反饋的環(huán)境信息(其他子網(wǎng)的智能體,即陌生智能體的位置信息),將其放入候選子目標(biāo)列表,并將更新后的候選子目標(biāo)列表廣播給其他追隨者。子網(wǎng)中的領(lǐng)航者將從候選子目標(biāo)列表中選擇距離自己最近的候選子目標(biāo)作為實(shí)際子目標(biāo),并帶領(lǐng)追隨者朝著實(shí)際子目標(biāo)的位置移動(dòng)。將子網(wǎng)NtAi中第k次選舉后的實(shí)際子目標(biāo)定義為TARtAi(k)。
3)移動(dòng)模型 在移動(dòng)過程中,領(lǐng)航者會(huì)根據(jù)當(dāng)前子目標(biāo)的位置進(jìn)行移動(dòng),追隨者則結(jié)合領(lǐng)航者共享的子網(wǎng)狀態(tài)和鄰居智能體的運(yùn)動(dòng)方向來更新自身的運(yùn)動(dòng)方向。本文以子網(wǎng)為例說明領(lǐng)航者和追隨者之間的移動(dòng)模型。在子網(wǎng)NtAi的移動(dòng)過程中,其領(lǐng)航者智能體NtAi會(huì)通過移動(dòng)子目標(biāo)的位置獲得移動(dòng)方向θleadertAi(k),其計(jì)算如下:
θleadertAi(k)=atan2(dy,dx)TARtAi(k)(4)
(dy,dx)TARtAi(k)表示當(dāng)前子網(wǎng)的移動(dòng)子目標(biāo)所在的位置,系統(tǒng)中所有智能體速度都為vei。追隨者follower(g)tAi(k+1)的移動(dòng)方向更新計(jì)算如下:
θf(wàn)ollower(g)(k+1)=〈θf(wàn)ollower(g)(k)〉Γ(5)
其中:〈θf(wàn)ollower(g)(k)〉Γ表示子網(wǎng)NtAi中追隨者follower(g)tAi(k+1)的所有鄰居智能體上一輪移動(dòng)方向的平均值,可由下式計(jì)算:
〈θf(wàn)ollower(g)(k)〉Γ=arctan∑j∈Γi(k)sin〈θf(wàn)ollower(j)(k)〉∑j∈Γi(k)cos〈θf(wàn)ollower(j)(k)〉(6)
3.2 基于強(qiáng)化學(xué)習(xí)的子網(wǎng)領(lǐng)航者選舉
為了提升網(wǎng)絡(luò)連通性恢復(fù)效率,本文提出用于子網(wǎng)領(lǐng)航者選舉的強(qiáng)化學(xué)習(xí)模型(圖3),該模型在子網(wǎng)內(nèi)部的每個(gè)智能體上部署,當(dāng)前輪被選為領(lǐng)航者的智能體通過觀察環(huán)境中位于其他子網(wǎng)的陌生智能體作為候選移動(dòng)子目標(biāo),然后在與移動(dòng)開銷相關(guān)的獎(jiǎng)勵(lì)函數(shù)引導(dǎo)下作出下一輪的領(lǐng)航者選擇決策,并且領(lǐng)航者帶領(lǐng)追隨者向著移動(dòng)子目標(biāo)移動(dòng),直至與其他子網(wǎng)發(fā)生融合。強(qiáng)化學(xué)習(xí)模型的具體定義如下:
a)狀態(tài)。子網(wǎng)NtAi中智能體的狀態(tài)信息包含子網(wǎng)號(hào)、當(dāng)前子目標(biāo)、子網(wǎng)中的所有智能體的位置和能量信息,以及候選子目標(biāo)集合,例如第k輪領(lǐng)航者選舉中的狀態(tài)信息定義如下:
s(k)=[NtAi(k),PtAi(k),EtAi(k),TARtAi(k),tartAi(k)](7)
其中:NtAi(k)表示在第k次領(lǐng)航者選舉時(shí)的子網(wǎng)號(hào);PtAi(k)表示子網(wǎng)NtAi所有智能體在第k次領(lǐng)航者選舉時(shí)的位置信息集合;EtAi(k)表示子網(wǎng)NtAi中所有智能體在第k次領(lǐng)航者選舉時(shí)的剩余能量集合;TARtAi(k)表示第k次領(lǐng)航者選舉時(shí)的子目標(biāo);tartAi(k)表示第k次領(lǐng)航者選舉時(shí)的候選子目標(biāo)集合。
b)動(dòng)作。從子網(wǎng)智能體集合中選擇下一輪的領(lǐng)航者,定義為
a(k)=AuNtAi,AuNtAi∈AUNtAi(8)
其中:AUNtAi表示子網(wǎng)NtAi中智能體的集合;AuNtAi表示集合中第u個(gè)智能體。領(lǐng)航者的動(dòng)作是自主選擇,追隨者的動(dòng)作是由領(lǐng)航者廣播告知。
c)獎(jiǎng)勵(lì)。本文通過設(shè)置獎(jiǎng)勵(lì)函數(shù)引導(dǎo)子網(wǎng)選舉合適的領(lǐng)航者,獎(jiǎng)勵(lì)函數(shù)定義為r(k),表示第k輪選舉所獲得的獎(jiǎng)勵(lì),計(jì)算如下:
r(k)=λr1(k)+μr2(k)(9)
其中:λ和μ分別代表獎(jiǎng)勵(lì)值r1(k)和獎(jiǎng)勵(lì)值r2(k)在總獎(jiǎng)勵(lì)值的占比權(quán)重,兩者和為1。r1(k)為第k輪選舉的領(lǐng)航者能量相關(guān)的獎(jiǎng)勵(lì),通過第k輪領(lǐng)航者的剩余能量與子網(wǎng)中所有智能體的平均能量差值計(jì)算得出,具體如式(10)所示。在第k輪結(jié)束時(shí),子網(wǎng)中智能體平均剩余能量定義為Eκt,Ai,領(lǐng)航者智能體Ai的當(dāng)前剩余能量為Eki。
r1(k)=Eki-Eκt,AiEi(10)
r2(k)是與第k輪選舉后移動(dòng)子目標(biāo)位置相關(guān)的獎(jiǎng)勵(lì),根據(jù)第k輪選舉后所有智能體距離移動(dòng)子目標(biāo)的總距離與第k-1輪子網(wǎng)中所有智能體距離移動(dòng)子目標(biāo)的總距離的差值計(jì)算得出,具體如式(11)所示。其中dktar是第k輪選舉后所有智能體距離移動(dòng)子目標(biāo)的總距離,dk-1tar是第k-1輪子網(wǎng)中所有智能體距離移動(dòng)子目標(biāo)的總距離。
r2(k)=-(dktar-dk-1tar)R2(11)
其中:獎(jiǎng)勵(lì)r1(k)的設(shè)計(jì)考慮到了領(lǐng)航者智能體因信息的收集與廣播將消耗比其他智能體更多的能耗;獎(jiǎng)勵(lì)r2(k)的設(shè)計(jì)是為了降低連通性恢復(fù)的開銷。
3.3 子網(wǎng)融合
為了促進(jìn)子網(wǎng)融合來實(shí)現(xiàn)整個(gè)多智能體系統(tǒng)的網(wǎng)絡(luò)全連通,本文提出基于強(qiáng)化學(xué)習(xí)的子網(wǎng)融合算法,如算法2所示。在算法2中,在基于故障探測(cè)的子網(wǎng)劃分過程結(jié)束之后,各子網(wǎng)探測(cè)到故障智能體并啟動(dòng)領(lǐng)航-追隨者模式進(jìn)行移動(dòng),在子網(wǎng)移動(dòng)過程中,間隔時(shí)間Δt內(nèi)更新當(dāng)前子網(wǎng)的狀態(tài)和子網(wǎng)連通矩陣,若子網(wǎng)內(nèi)有智能體探測(cè)到陌生智能體,則將探測(cè)到的信息反饋給當(dāng)前領(lǐng)航者,并將探測(cè)到的智能體信息存入候選子目標(biāo)列表中,領(lǐng)航者根據(jù)追隨者所反饋的信息更新子網(wǎng)狀態(tài)信息,并進(jìn)行下一輪領(lǐng)航者選舉決策以及將決策結(jié)果廣播給子網(wǎng)中其他智能體。當(dāng)選的領(lǐng)航者在帶領(lǐng)追隨者移動(dòng)的過程中不斷更新全網(wǎng)連通性矩陣C,通過分析該矩陣探測(cè)新故障以及子網(wǎng)融合事件的發(fā)生。若探測(cè)到子網(wǎng)中出現(xiàn)新故障,則直接重啟該算法;如果探測(cè)到發(fā)生子網(wǎng)融合,則更新子網(wǎng)號(hào)(新的子網(wǎng)號(hào)由融合時(shí)間以及融合處能量最高的節(jié)點(diǎn)決定),并更新移動(dòng)候選子目標(biāo)列表(將移動(dòng)子目候選列表中融合進(jìn)新子網(wǎng)的智能體刪除,在新子網(wǎng)內(nèi)交互移動(dòng)子目候選列表信息,然后再重啟該算法)。
算法2 基于強(qiáng)化學(xué)習(xí)的子網(wǎng)融合算法
輸入:子網(wǎng)割裂的故障消息以及新子網(wǎng)號(hào)。
輸出:全網(wǎng)連通矩陣C。
a)初始化子網(wǎng)狀態(tài);
b)for間隔時(shí)間Δt do
c) 更新子網(wǎng)狀態(tài)信息;
d) 基于強(qiáng)化學(xué)習(xí)的領(lǐng)航者選舉;
e) 若被選舉為領(lǐng)航者則帶領(lǐng)子網(wǎng)中追隨者朝著子目標(biāo)移動(dòng),否則作為追隨者;
f)將子網(wǎng)中智能體探測(cè)到的陌生智能體存入候選子目標(biāo)列表;
g)if子網(wǎng)內(nèi)部發(fā)生新的割裂故障then
h) 返回步驟a);
i)else if子網(wǎng)發(fā)生融合then
j) 更新全網(wǎng)連通性矩陣C;
k)更新子網(wǎng)號(hào)和候選子目標(biāo)列表;
l)在新的子網(wǎng)中交換候選子目標(biāo)列表;
m)連通矩陣C顯示全網(wǎng)未全連通,間隔時(shí)間Δt結(jié)束返回至步驟c);
n) end if;
o)end for;
4 強(qiáng)化學(xué)習(xí)模型的求解
本文采用多智能體深度確定性策略梯度算法(multi-agent deep deterministic policy gradient,MADDPG)[20]對(duì)本文強(qiáng)化學(xué)習(xí)模型求解。MADDPG算法使用Actor-Critic基本框架,采用深度神經(jīng)網(wǎng)絡(luò)作為策略網(wǎng)絡(luò)和動(dòng)作價(jià)值函數(shù)的近似,使用隨機(jī)梯度法訓(xùn)練策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)模型中的參數(shù)。在訓(xùn)練本文定義的模型時(shí)需要將動(dòng)作連續(xù)化,輸入的是子網(wǎng)中所有智能體的位置信息、所有智能體的剩余能量、候選子目標(biāo)列表以及當(dāng)前子目標(biāo),輸出的是選舉出的領(lǐng)導(dǎo)者智能體及子目標(biāo)位置。
算法3 基于MADDPG的強(qiáng)化學(xué)習(xí)模型求解算法
a)for episode=1 to M do:
b) 初始化一個(gè)用于動(dòng)作探索的隨機(jī)過程Φ;
c) 獲得初始觀察狀態(tài)s(k);
d) for t=1 to T do:
e) ai=μθi(oi)+Φt;
f)執(zhí)行動(dòng)作a=(a1,…,aΦ),得到獎(jiǎng)勵(lì)r(k)和下一個(gè)狀態(tài)s(k+1);
g)數(shù)據(jù)[s(k),a(k),r(k),s(k+1)]存入經(jīng)驗(yàn)池D;
h)s(k)←s(k+1)
i)for agent i=1 to I do:
j) 從D中隨機(jī)抽取一個(gè)數(shù)目值為S的樣本集合[s(k)j,a(k)j,r(k)j,s(k+1)j];
k) yi=rji+γQμ′i[s(k+1)j,a(k+1)1,…,a(k+1)1|a(k+1)w=μ(k+1)w(σjw)
l)最小化損失函數(shù)L來更新Critic網(wǎng)絡(luò);
m)L(θi)=1S∑j(yj-Qμi(sj,aj1,…,ajI))2;
n)采用策略梯度更新Actor策略網(wǎng)絡(luò);
o)θiJ≈1S∑jθiμi(oji)aiQμi(sj,aj1,…,ai,…,ajI)|ai=μi(oji);
p)若智能體Ai為本輪子網(wǎng)中的領(lǐng)航者, 更新智能體Ai的目標(biāo)網(wǎng)絡(luò);
r)θ(k+1)i←τθ(k)i+(1-τ)θ(k+1)i;
s) end for;
t)end for;
5 實(shí)驗(yàn)及分析
為了評(píng)估本文算法的性能優(yōu)劣,在Python實(shí)驗(yàn)環(huán)境中,本文首先對(duì)獎(jiǎng)勵(lì)值收斂性進(jìn)行了對(duì)比和驗(yàn)證,之后再通過與現(xiàn)有的方法在時(shí)間和能耗兩個(gè)方面進(jìn)行對(duì)比分析。實(shí)驗(yàn)的主要參數(shù)設(shè)置如表1所示。
5.1 本文算法性能分析
本文算法考慮到智能體之間的相互作用和協(xié)作,智能體共享一個(gè)全局的Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)來學(xué)習(xí),在選擇動(dòng)作時(shí)兼顧其他智能體的動(dòng)作和狀態(tài),使用一個(gè)集中的動(dòng)作-價(jià)值函數(shù)來評(píng)估聯(lián)合動(dòng)作的價(jià)值。此外,本文算法的經(jīng)驗(yàn)池允許智能體共享和重復(fù)使用經(jīng)驗(yàn),智能體可以從其他智能體的經(jīng)驗(yàn)中學(xué)習(xí),并且可以通過經(jīng)驗(yàn)回放緩沖區(qū)中的樣本來減少訓(xùn)練過程中的樣本相關(guān)性,這種經(jīng)驗(yàn)共享有助于提高智能體學(xué)習(xí)效率。為了評(píng)估本文算法的特性,在實(shí)驗(yàn)過程中以深度確定性策略梯度(DDPG)算法、貪婪算法(Greedy)以及隨機(jī)算法(Random)作為獎(jiǎng)勵(lì)收斂對(duì)比,三種方法分別部署在單個(gè)智能體上,通過觀察本文算法與三種算法的獎(jiǎng)勵(lì)值以及獎(jiǎng)勵(lì)收斂情況來評(píng)估本文算法在訓(xùn)練智能體學(xué)習(xí)方面的性能。DDPG中的Actor-Critic網(wǎng)絡(luò)是單個(gè)智能體的,它使用一個(gè)單獨(dú)的動(dòng)作-價(jià)值函數(shù)來評(píng)估當(dāng)前智能體的動(dòng)作價(jià)值,并根據(jù)評(píng)估出的價(jià)值更新策略。貪婪算法通過每次選擇當(dāng)前最優(yōu)的解決方案來逐步構(gòu)建問題的解決過程,它不會(huì)進(jìn)行回溯或全局優(yōu)化,只關(guān)注當(dāng)前步驟的最優(yōu)選擇。隨機(jī)算法則通過在每一步使用隨機(jī)選擇的方法作出決策,通過概率分析,對(duì)算法的平均性能進(jìn)行評(píng)估。
從圖4可以得出,通過設(shè)置2 000輪訓(xùn)練迭代過程,本文算法和DDPG的算法性能對(duì)于本文研究都展現(xiàn)出較好的效果,但相比于本文算法,DDPG獎(jiǎng)勵(lì)收斂的值略小于本文算法,并且趨于收斂的迭代次數(shù)也要略多于本文算法,而貪婪算法和隨機(jī)算法則達(dá)不到收斂效果。
5.2 對(duì)比算法及實(shí)驗(yàn)指標(biāo)
為了體現(xiàn)實(shí)驗(yàn)結(jié)果的客觀性和準(zhǔn)確性,本文以文獻(xiàn)[11,12]中的兩種方法作為對(duì)比,對(duì)比算法具體如下:
a)分布式節(jié)點(diǎn)重定位算法(CoRFL)。CoRFL算法通過模糊邏輯在分區(qū)的健康節(jié)點(diǎn)中選擇節(jié)點(diǎn)來組成恢復(fù)團(tuán)隊(duì)實(shí)現(xiàn)與部署中心(CoD)的通信,從而實(shí)現(xiàn)全網(wǎng)連通性恢復(fù)。
b)p循環(huán)恢復(fù)算法(p-cycle)。p-cycle網(wǎng)絡(luò)恢復(fù)模型考慮到網(wǎng)絡(luò)資源利用率和保護(hù)網(wǎng)絡(luò)免受故障影響,通過提供環(huán)形恢復(fù)速度為網(wǎng)絡(luò)提供足夠的保護(hù)。
為了驗(yàn)證本文算法對(duì)本文場(chǎng)景應(yīng)用的有效性,從系統(tǒng)總消耗對(duì)本文算法和兩種對(duì)比算法進(jìn)行評(píng)估。其中系統(tǒng)平均總消耗可以細(xì)分為平均時(shí)延和平均能量消耗兩項(xiàng)指標(biāo),系統(tǒng)平均時(shí)延是由在完成連通性恢復(fù)過程系統(tǒng)需求的總時(shí)間除以子網(wǎng)分區(qū)數(shù)量得出;系統(tǒng)平均能量消耗是由在完成連通性恢復(fù)過程中系統(tǒng)產(chǎn)生的總消耗除以子網(wǎng)分區(qū)數(shù)量得出。
5.3 對(duì)比實(shí)驗(yàn)結(jié)果與分析
本文算法與對(duì)比算法的系統(tǒng)平均時(shí)延消耗如圖5所示。由圖5可知,隨著系統(tǒng)中子網(wǎng)數(shù)量的不斷增加,本文算法與兩種對(duì)比算法的時(shí)延消耗都逐漸增大,p-cycle算法在子網(wǎng)數(shù)量規(guī)模增大的過程中,系統(tǒng)消耗時(shí)長(zhǎng)增幅也逐漸增大。CoRFL算法的消耗時(shí)長(zhǎng)在小規(guī)模系統(tǒng)應(yīng)用中表現(xiàn)效果尚佳,但對(duì)于大規(guī)模系統(tǒng)所耗費(fèi)時(shí)間逐漸增多。在子網(wǎng)數(shù)量從5增加到25時(shí),本文算法的時(shí)延消耗增加值大約為500,并且其耗費(fèi)時(shí)長(zhǎng)的漲幅也隨著子網(wǎng)數(shù)量增加表現(xiàn)出縮小的趨勢(shì),因此本文算法在實(shí)現(xiàn)連通性恢復(fù)時(shí)所耗費(fèi)的時(shí)間方面均優(yōu)于兩種對(duì)比算法,并且隨著系統(tǒng)規(guī)模的增大,本文算法與兩種對(duì)比算法所耗費(fèi)時(shí)間的差值也有所增大。
本文算法與兩種對(duì)比算法的系統(tǒng)平均能量消耗如圖6所示。由圖可知,在實(shí)現(xiàn)連通恢復(fù)過程中四種方法的系統(tǒng)平均能量消耗值都隨著系統(tǒng)中智能體數(shù)量的增加變化幅度較大,p-cycle在實(shí)現(xiàn)網(wǎng)絡(luò)連通恢復(fù)過程中的智能體能量消耗值明顯高于其他三種方法。在子網(wǎng)數(shù)量規(guī)模較小時(shí),本文算法以及CoRFL所產(chǎn)生的系統(tǒng)消耗相差不大,但隨著子網(wǎng)數(shù)量的增多,CoRFL和本文算法消耗的能量增幅較小,并且本文算法在大規(guī)模子網(wǎng)系統(tǒng)中所產(chǎn)生的能量消耗小于CoRFL,因此在能量消耗方面,本文算法優(yōu)于兩種對(duì)比算法。
為了展現(xiàn)本文算法相較于兩種對(duì)比算法在實(shí)現(xiàn)連通恢復(fù)過程中的效率優(yōu)勢(shì),圖7展示了本文算法連通性恢復(fù)過程結(jié)束時(shí)與其他兩種算法的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)對(duì)比(圖中節(jié)點(diǎn)則代表智能體)。由圖7可以得出,本文算法相比于兩種對(duì)比算法,更早完成網(wǎng)絡(luò)全連通恢復(fù),在相同的恢復(fù)時(shí)間內(nèi),本文算法已實(shí)現(xiàn)全部連通,不存在割裂子網(wǎng),而兩種對(duì)比算法均存在不同程度的割裂情況,未達(dá)到全連通恢復(fù)的效果。在恢復(fù)的過程中,CoRFL算法更多考慮對(duì)節(jié)點(diǎn)進(jìn)行路徑規(guī)劃和編隊(duì),其所實(shí)現(xiàn)的連通性恢復(fù)更趨向于形成一條通信鏈路。p-cycle算法在實(shí)現(xiàn)連通恢復(fù)的過程中更多考慮避障,節(jié)點(diǎn)間會(huì)保持最大的安全距離。
此外,由于本文設(shè)置的獎(jiǎng)勵(lì)函數(shù)由領(lǐng)航者的剩余能量和與子目標(biāo)距離兩部分組成,通過設(shè)置獎(jiǎng)勵(lì)函數(shù)不同部分的參數(shù)來得到最終智能體在時(shí)延和能量?jī)刹糠值南闹担鐖D8所示。λ是針對(duì)能量消耗所設(shè)置的獎(jiǎng)勵(lì)參數(shù),按[0,1]進(jìn)行取值,可以觀察到,隨著λ參數(shù)的增大,系統(tǒng)完成連通性恢復(fù)所消耗的能量和時(shí)間都出現(xiàn)了先減小后增大的趨勢(shì)。在過度追求能耗獎(jiǎng)勵(lì)的時(shí)候,子網(wǎng)會(huì)更貪心地選擇剩余能量較多的智能體作為領(lǐng)航者,忽視了對(duì)移動(dòng)子目標(biāo)的探索,從而增加了系統(tǒng)恢復(fù)所消耗的時(shí)間,造成系統(tǒng)產(chǎn)生的總能量增加。同樣,在過度追求恢復(fù)時(shí)間時(shí),在進(jìn)行領(lǐng)航者切換時(shí)忽略了智能體本身所剩余的能量,會(huì)導(dǎo)致網(wǎng)絡(luò)恢復(fù)過程中產(chǎn)生較多的故障智能體,這也為系統(tǒng)的連通性恢復(fù)帶來了阻礙,從而增加了系統(tǒng)恢復(fù)所需的時(shí)間。因此,本文所設(shè)計(jì)的兩個(gè)部分獎(jiǎng)勵(lì):能耗獎(jiǎng)勵(lì)和距離獎(jiǎng)勵(lì)函數(shù),是息息相關(guān)的,兩者呈現(xiàn)出同樣的變化趨勢(shì),只有在兩者權(quán)重相同的時(shí)候,才能使系統(tǒng)實(shí)現(xiàn)網(wǎng)絡(luò)連通性恢復(fù)所產(chǎn)生的能量消耗和時(shí)間消耗達(dá)到最優(yōu)的效果。
6 結(jié)束語(yǔ)
為了實(shí)現(xiàn)多智能體網(wǎng)絡(luò)中的連通性恢復(fù),本文通過在分區(qū)中選擇健康節(jié)點(diǎn)的方式,提出了一種領(lǐng)航-追隨者模式的網(wǎng)絡(luò)連通性恢復(fù)方法。首先,通過智能體周期性信息交互確定網(wǎng)絡(luò)中的故障區(qū)域以及子網(wǎng)劃分情況;然后,結(jié)合子網(wǎng)在融合過程中會(huì)產(chǎn)生的網(wǎng)絡(luò)開銷等提出了基于強(qiáng)化學(xué)習(xí)的領(lǐng)航-追隨者恢復(fù)機(jī)制,各子網(wǎng)之間呈現(xiàn)分布式,子網(wǎng)內(nèi)部采用領(lǐng)航-追隨者模式,通過強(qiáng)化學(xué)習(xí)不斷去探索更優(yōu)的恢復(fù)策略,選舉出每一輪的最佳領(lǐng)航者。最后,提出子網(wǎng)融合來實(shí)現(xiàn)全網(wǎng)連通恢復(fù),在子網(wǎng)連通矩陣發(fā)生改變時(shí)判斷是否達(dá)成全網(wǎng)連通,從而實(shí)現(xiàn)全網(wǎng)連通的結(jié)果。實(shí)驗(yàn)結(jié)果表明,本文方法不僅能有效恢復(fù)網(wǎng)絡(luò)連通,更適用于較大的網(wǎng)絡(luò)系統(tǒng)的連通性恢復(fù)。在未來的工作中,將考慮任務(wù)環(huán)境下的多智能體網(wǎng)絡(luò)連通性恢復(fù),節(jié)點(diǎn)移動(dòng)不僅要考慮到實(shí)現(xiàn)連通,更要兼顧環(huán)境中的任務(wù)完成情況。同時(shí),將考慮網(wǎng)絡(luò)擁塞、網(wǎng)絡(luò)異常流量等因素對(duì)網(wǎng)絡(luò)連通恢復(fù)的影響。
參考文獻(xiàn):
[1]Xu Jianyou, Zhang Zhichao, Zhang Shuo, et al. An improved traffic signal control method based on multi-agent reinforcement learning[C]//Proc of the 40th Chinese Control Conference. Piscataway, NJ: IEEE Press, 2021: 6612-6616.
[2]Majima T, Takadama K, Watanabe D, et al. Application of multi agent system and transition matrix analysis to logistics system for equal distribution under disaster situation[C]//Proc of the 58th Annual Conference of the Society of Instrument and Control Engineers of Japan. Piscataway, NJ: IEEE Press, 2019: 108-114.
[3]Zhang Jiawei, Chang Cheng, Zeng Xianlin, et al. Multi-agent DRL-based lane change with right-of-way collaboration awareness[J]. IEEE Trans on Intelligent Transportation Systems, 2022, 24(1): 854-869.
[4]Wang Jie, Li Shaoyuan, Zou Yuanyuan. Connectivity-maintaining consensus of multi-agent systems with communication management based on predictive control strategy[J]. IEEE/CAA Journal of Automatica Sinica, 2023, 10(3): 700-710.
[5]ElHamamsy A, Aghili F, Aghdam A. Connectivity preservation and collision avoidance in multi-agent systems using model predictive control[J]. IEEE Trans on Network Science and Engineering, 2023, 10(3): 1779-1791.
[6]Zhou Ruimin, Ji Wenqian, Xu Qingzheng, et al. Collision avoidance and connectivity preservation for time-varying formation of second-order multi-agent systems with a dynamic leader[J]. IEEE Access, 2022, 10: 31714-31722.
[7]Akkaya K, Senturk I F, Vemulapalli S. Handling large-scale node failures in mobile sensor/robot networks[J]. Journal of Network and Computer Applications, 2013, 36(1): 195-210.
[8]Park S Y, Shin C S, Jeong D, et al. DroneNetX: network reconstruction through connectivity probing and relay deployment by multiple UAVs in Ad hoc networks[J]. IEEE Trans on Vehicular Techno-logy, 2018, 67(11): 11192-11207.
[9]Bashir N, Boudjit S, Saidi M Y. A distributed anticipatory life-enhancing recovery approach for unmanned aerial vehicular networks[C]//Proc of the 18th IEEE Annual Consumer Communications & Networking Conference. Piscataway, NJ: IEEE Press, 2021: 1-7.
[10]Senturk I F, Akkaya K, Yilmaz S. Relay placement for restoring connectivity in partitioned wireless sensor networks under limited information[J]. Ad hoc Networks, 2014, 13: 487-503.
[11]Baroudi U, Aldarwbi M, Younis M. Energy-aware connectivity restoration mechanism for cyber-physical systems of networked sensors and robots[J]. IEEE Systems Journal, 2020, 14(3): 3093-3104.
[12]Awoyemi B S, Alfa A S, Maharaj B T. Network restoration in wireless sensor networks for next-generation applications[J]. IEEE Sensors Journal, 2019, 19(18): 8352-8363.
[13]Mou Zhiyu, Gao Feifei, Liu Jun, et al. Resilient UAV swarm communications with graph convolutional neural network[J]. IEEE Journal on Selected Areas in Communications, 2021, 40(1): 393-411.
[14]Sader M, Wang Fuyong, Liu Zhongxin, et al. Distributed fuzzy fault-tolerant consensus of leader-follower multi-agent systems with mismatched uncertainties[J]. Journal of Systems Engineering and Electronics, 2021, 32(5): 1031-1040.
[15]Mukherjee S, Namuduri K. Formation control of UAVs for connectivity maintenance and collision avoidance[C]//Proc of IEEE National Aerospace and Electronics Conference. Piscataway, NJ: IEEE Press, 2019: 126-130.
[16]Cao Lei, Liu Guoping, Zhang Dawei. A leader-follower formation strategy for networked multi-agent systems based on the PI predictive control method[C]//Proc of the 40th Chinese Control Conference. Piscataway, NJ: IEEE Press,2021: 4763-4768.
[17]Liu Chunming, Xu Xin, Hu Dewen. Multiobjective reinforcement learning: a comprehensive overview[J]. IEEE Trans on Systems, Man, and Cybernetics: Systems, 2014, 45(3): 385-398.
[18]Kandath H, Senthilnath J, Sundaram S. Mutli-agent consensus under communication failure using actor-critic reinforcement learning[C]//Proc of IEEE Symposium Series on Computational Intelligence. Piscataway, NJ: IEEE Press, 2018: 1461-1465.
[19]米德昌, 王霄, 李夢(mèng)麗, 等. 災(zāi)害應(yīng)急場(chǎng)景下基于多智能體深度強(qiáng)化學(xué)習(xí)的任務(wù)卸載策略[J]. 計(jì)算機(jī)應(yīng)用研究, 2023, 40(12): 3766-3771,3777. (Mi Dechang, Wang Xiao, Li Mengli, et al. Task offloading strategy based on multi-agent deep reinforcement learning in disaster emergency scenarios[J]. Application Research of Computers, 2023, 40(12): 3766-3771,3777.)
[20]Zhao Maomao, Zhang Shaojie, Jiang Bin. Multi-agent cooperative attacker-defender-target task decision based on PF-MADDPG[C]//Proc of the 6th International Symposium on Autonomous Systems. Piscataway, NJ: IEEE Press, 2023: 1-6.