王鑒威,李學(xué)華,陳碩
(北京信息科技大學(xué) 現(xiàn)代測(cè)控技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,北京 100101)
隨著物聯(lián)網(wǎng)技術(shù)不斷發(fā)展以及第五代移動(dòng)通信技術(shù)大規(guī)模商用,越來越多的計(jì)算密集型應(yīng)用對(duì)時(shí)延具有較強(qiáng)的敏感度,對(duì)設(shè)備的計(jì)算能力提出了較高的要求。移動(dòng)邊緣計(jì)算(mobile edge computing,MEC)通過在移動(dòng)網(wǎng)絡(luò)邊緣部署計(jì)算和存儲(chǔ)資源,可以有效地給予用戶超低延時(shí)和高帶寬的網(wǎng)絡(luò)服務(wù)解決方案[1]。
然而,現(xiàn)有MEC服務(wù)器部署往往依賴地面通信基礎(chǔ)服務(wù)設(shè)施。在偏遠(yuǎn)區(qū)域或緊急情況下,難以滿足移動(dòng)用戶的通信需求。無人機(jī)(unmanned aerial vehicle,UAV)因其靈活度高、移動(dòng)性強(qiáng)和部署成本低等特點(diǎn)[2],可以在空中建立移動(dòng)通信基站為地面移動(dòng)設(shè)備提供通信服務(wù),依靠視距(light of sight,LoS)傳輸信道[3]以及靈活部署位置獲取最佳信道條件等優(yōu)勢(shì),構(gòu)筑空-地一體的通信網(wǎng)絡(luò)。
雖然無人機(jī)能夠通過自身移動(dòng)性,靈活規(guī)劃無人機(jī)軌跡進(jìn)行MEC服務(wù),但是無人機(jī)輔助移動(dòng)邊緣計(jì)算仍存在諸多挑戰(zhàn)。一方面,傳統(tǒng)計(jì)算卸載方案,將計(jì)算任務(wù)全部卸載到邊緣服務(wù)器上執(zhí)行,舍棄了地面設(shè)備端的計(jì)算資源,沒有充分利用場(chǎng)景內(nèi)的算力;另一方面,傳統(tǒng)研究采用單個(gè)無人機(jī)對(duì)地面用戶進(jìn)行移動(dòng)邊緣計(jì)算服務(wù),相比于多個(gè)無人機(jī)對(duì)地面用戶服務(wù)的效率較低。如今,多無人機(jī)軌跡規(guī)劃算法已有大量的研究。如文獻(xiàn)[4],為最小化平均相應(yīng)時(shí)間,采用粒子群優(yōu)化算法與遺傳算法算子相結(jié)合的方式來優(yōu)化無人機(jī)部署。文獻(xiàn)[5]在資源分配凸優(yōu)化和組合無人機(jī)分組優(yōu)化方案的耦合步驟中,通過調(diào)控優(yōu)化無人機(jī)發(fā)射功率、計(jì)算資源分配,在最大化資源利用率的同時(shí)最大限度減少無人機(jī)傳輸能量和計(jì)算能量消耗。
然而,上述方法難以真正應(yīng)用于實(shí)際場(chǎng)景[6]。一方面,用戶位置、無人機(jī)-用戶信道狀況等用戶側(cè)信息常常無法獲得或提前預(yù)測(cè);另一方面,實(shí)際通信環(huán)境通常較復(fù)雜,無法準(zhǔn)確建模。因此,在無法提前掌握環(huán)境信息的場(chǎng)景下進(jìn)行無人機(jī)軌跡規(guī)劃是亟需解決的關(guān)鍵技術(shù)。
近年來,多智能體強(qiáng)化學(xué)習(xí)(multi-agent reinforcement learning,MARL)已成為熱門研究課題。多智能體強(qiáng)化學(xué)習(xí)可以基于分布式架構(gòu)的無人機(jī)通信網(wǎng)絡(luò),提供一種有效的智能資源管理解決方案,特別是在一些無人機(jī)只能獲取局部本地信息的真實(shí)場(chǎng)景下。如文獻(xiàn)[7],當(dāng)環(huán)境動(dòng)態(tài)和部分可觀察時(shí),基于多智能體強(qiáng)化學(xué)習(xí)設(shè)計(jì)多無人機(jī)在多重約束下學(xué)習(xí)最優(yōu)軌跡規(guī)劃策略。文獻(xiàn)[8]采用多智能體強(qiáng)化學(xué)習(xí)框架,每個(gè)智能體根據(jù)局部觀察學(xué)習(xí),所有智能體獨(dú)立地執(zhí)行決策算法。分布式架構(gòu)有效地降低了計(jì)算的復(fù)雜性。然而,在經(jīng)典的分布式學(xué)習(xí)方法中,大多數(shù)智能體的決策都是局部的。這些代理之間相互獨(dú)立、缺乏信息共享,難以實(shí)現(xiàn)全局最優(yōu)結(jié)果。此外,即使有些方案在智能體間進(jìn)行了信息交互,但此類方法沒有考慮用戶數(shù)據(jù)的隱私性,會(huì)對(duì)用戶通信數(shù)據(jù)的安全構(gòu)成威脅。
聯(lián)邦學(xué)習(xí)(federated learning,FL)作為一種分布式機(jī)器學(xué)習(xí)算法,將訓(xùn)練數(shù)據(jù)保存在本地設(shè)備,通過匯總本地模型更新到云服務(wù)器,學(xué)習(xí)得到全局模型,可同時(shí)實(shí)現(xiàn)隱私保護(hù)和信息共享。Wang等[9]在多無人機(jī)網(wǎng)絡(luò)采用聯(lián)邦學(xué)習(xí)框架,無需將原始敏感數(shù)據(jù)傳至服務(wù)器,在保護(hù)用戶設(shè)備隱私的同時(shí)節(jié)省無人機(jī)有限的計(jì)算和通信資源。余雪勇等[10]面對(duì)感知數(shù)據(jù)隱私安全問題,采用聯(lián)邦學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的激勵(lì)機(jī)制相結(jié)合的方式促進(jìn)高質(zhì)量模型共享,提高了無人機(jī)的實(shí)用性并保障了隱私保護(hù)。從上述文獻(xiàn)能夠看出,聯(lián)邦學(xué)習(xí)既能夠?qū)崿F(xiàn)用戶間的信息共享,又很好地彌補(bǔ)了傳統(tǒng)分布式架構(gòu)在隱私安全方面的缺陷。
因此,本文提出了一種移動(dòng)邊緣計(jì)算場(chǎng)景下基于聯(lián)邦深度強(qiáng)化學(xué)習(xí)的多無人機(jī)軌跡規(guī)劃算法,有效地解決了無人機(jī)輔助移動(dòng)邊緣計(jì)算場(chǎng)景中地面用戶設(shè)備時(shí)延敏感、無人機(jī)卸載服務(wù)不均衡的情況。本算法結(jié)合了聯(lián)邦學(xué)習(xí)與雙延遲深度確定性策略梯度(twin delayed deep deterministic policy gradient,TD3)算法,既實(shí)現(xiàn)了在環(huán)境信息無法預(yù)知的情況下進(jìn)行路徑規(guī)劃,又確保了信息共享以實(shí)現(xiàn)全局最優(yōu),同時(shí)保護(hù)了無人機(jī)的數(shù)據(jù)隱私。
將無人機(jī)的飛行時(shí)間劃分為T個(gè)時(shí)隙,每個(gè)時(shí)隙長(zhǎng)度為τ。無人機(jī)以固定安全高度H在目標(biāo)區(qū)域上空飛行,第m(m=1,2,…,M)架無人機(jī)的飛行坐標(biāo)為[Xm(t),Ym(t),H],其中Xm(t)、Ym(t)分別為無人機(jī)m在第t(t=1,2,…,T)時(shí)隙的橫、縱坐標(biāo)。令dm,t和θm,t分別為無人機(jī)在t時(shí)隙的飛行距離和水平方向角度,且滿足dmax為無人機(jī)單位時(shí)隙內(nèi)最大飛行距離。因此第m架無人機(jī)在第t時(shí)隙的橫縱坐標(biāo)分別為
圖1 無人機(jī)輔助移動(dòng)邊緣計(jì)算系統(tǒng)模型Fig.1 UAV aided mobile edge computing system model
(1)
為保證無人機(jī)在飛行過程中的安全,限定邊界,防止無人機(jī)飛出任務(wù)區(qū)域,即0≤Xm(t)≤Xmax和0≤Ym(t)≤Ymax,其中Xmax和Ymax為該區(qū)域的長(zhǎng)度和寬度。多無人機(jī)協(xié)同工作時(shí),為避免無人機(jī)之間出現(xiàn)碰撞造成損失,需得到無人機(jī)m與無人機(jī)m′之間的距離,表示如下:
(2)
設(shè)置無人機(jī)m與無人機(jī)m′之間的最小距離為Rm,并滿足:
Rm,m′,t≥Rm
(3)
對(duì)于空對(duì)地信道,當(dāng)無人機(jī)在一定高度上時(shí),地面用戶n與無人機(jī)m之間的傳播條件可以近似為由視距鏈路[12]主導(dǎo)的自由空間路徑損耗模型[13]。因此,無人機(jī)m和地面用戶設(shè)備n之間的信道功率增益可以被量化為
(4)
式中:h0為參考距離d0=1 m時(shí)無線信道內(nèi)的信道增益大小;dn,m,t為第n個(gè)地面用戶與第m架無人機(jī)之間的距離。利用歐幾里得坐標(biāo)系表示為
(5)
因此,第n個(gè)地面用戶與第m架無人機(jī)之間的數(shù)據(jù)傳輸速率[14]可以進(jìn)一步表示為
(6)
式中:B為信道的帶寬,本文設(shè)定所有無人機(jī)通過頻分多址(frequency division multiple access,FDMA)的方式為所有地面用戶提供同等帶寬分配的服務(wù);Pn為用戶設(shè)備n的傳輸功率;σ2為信道中的背景噪聲功率。
同時(shí)考慮到傳輸距離損耗和不同信道之間的干擾,設(shè)定無人機(jī)可為地面用戶提供計(jì)算卸載的最大傳輸距離,即覆蓋范圍為Rmax,并滿足如下覆蓋范圍約束:
dn,m,t≤Rmax
(7)
本文假定,每個(gè)地面用戶均可選擇本地計(jì)算或部分卸載至無人機(jī)進(jìn)行輔助計(jì)算。同時(shí),無人機(jī)可為覆蓋范圍內(nèi)的任意地面用戶提供比例卸載服務(wù)。卸載比例αn,m,t∈[0,1],αn,m,t=0表示完全卸載至無人機(jī)m進(jìn)行計(jì)算,αn,m,t=1表示由地面用戶進(jìn)行計(jì)算。為簡(jiǎn)化數(shù)據(jù)分割難度,同一時(shí)隙內(nèi)單個(gè)地面用戶設(shè)備規(guī)定只能與一架無人機(jī)關(guān)聯(lián)進(jìn)行計(jì)算卸載。
在任意時(shí)隙t,各地面用戶設(shè)備均會(huì)產(chǎn)生一個(gè)待處理的計(jì)算密集型任務(wù)Sn,t,并假設(shè)終端設(shè)備產(chǎn)生的任務(wù)數(shù)據(jù)均可逐位獨(dú)立并可按任意比例進(jìn)行劃分,定義為
Sn,t={Dn,t,Fn,t}
(8)
式中:Dn,t為待處理的數(shù)據(jù)量;Fn,t為執(zhí)行此任務(wù)所需的CPU周期總數(shù)。
1.3.1 地面用戶本地計(jì)算
(9)
式中:fn,t為用戶設(shè)備處理器的CPU計(jì)算頻率。
1.3.2 地面用戶設(shè)備卸載到無人機(jī)
(10)
在無人機(jī)端任務(wù)的執(zhí)行時(shí)間可以表示為
(11)
式中:fm,t為無人機(jī)服務(wù)器的CPU計(jì)算頻率。
由于無人機(jī)端計(jì)算處理結(jié)束后產(chǎn)生的數(shù)據(jù)結(jié)果通常較小,因此忽略數(shù)據(jù)回傳時(shí)延。
1.3.3 對(duì)于單個(gè)地面用戶設(shè)備的總時(shí)延
雖然終端設(shè)備可以同時(shí)將任務(wù)卸載到無人機(jī),但各終端設(shè)備卸載的任務(wù)在無人機(jī)上為串行執(zhí)行,故需要排隊(duì)處理,采用先進(jìn)先出(first input first output,FIFO)方式對(duì)終端設(shè)備卸載到無人機(jī)的數(shù)據(jù)進(jìn)行處理。無人機(jī)計(jì)算卸載時(shí)延由傳輸時(shí)延、等待和計(jì)算時(shí)延構(gòu)成。
因?yàn)椴扇×瞬糠中遁d的方式,充分利用了無人機(jī)端和地面用戶設(shè)備端的計(jì)算資源。因此,對(duì)于單個(gè)地面用戶,在計(jì)算總時(shí)延時(shí)需要并行考慮這兩端的時(shí)延。對(duì)每一個(gè)地面用戶設(shè)備所產(chǎn)生的待計(jì)算任務(wù)工作時(shí)延Tn,t為
(12)
最后,為了保障所有地面用戶設(shè)備的計(jì)算能夠在規(guī)定時(shí)間內(nèi)完成,還規(guī)定了每個(gè)時(shí)隙內(nèi)的最大任務(wù)時(shí)間Tmax,并滿足:
Tn,t (13) (14) 為了同時(shí)兼顧地面用戶任務(wù)處理時(shí)延以及無人機(jī)服務(wù)地面用戶的公平性,本文提出了多無人機(jī)輔助移動(dòng)邊緣計(jì)算系統(tǒng)中的聯(lián)合優(yōu)化問題,通過聯(lián)合優(yōu)化無人機(jī)的軌跡和計(jì)算卸載決策,使服務(wù)公平性和任務(wù)計(jì)算時(shí)延的加權(quán)和最大化。用β代表權(quán)重系數(shù),最終優(yōu)化問題可以描述如下: (15) 在本節(jié)中,提出一種融合聯(lián)邦學(xué)習(xí)和雙延遲深度確定性策略梯度(FL-TD3)的算法,解決移動(dòng)邊緣計(jì)算中多無人機(jī)軌跡規(guī)劃問題。由于在環(huán)境中沒有可以獲取全局信息的中央控制器,每架無人機(jī)只能根據(jù)自身傳感器獲取環(huán)境中的相關(guān)信息,而無法得知其他無人機(jī)的相關(guān)信息。各無人機(jī)分別與環(huán)境交互,依據(jù)自身觀察到的局部信息獲取動(dòng)作獎(jiǎng)勵(lì)值,得到相應(yīng)策略。這種訓(xùn)練方式使無人機(jī)獲取信息不夠全面,根據(jù)這些局部信息學(xué)習(xí)得到的策略容易陷入局部最優(yōu)。因此,為了保證不陷入局部最優(yōu)解,需要對(duì)無人機(jī)進(jìn)行一定的協(xié)作來實(shí)現(xiàn)信息共享,從而達(dá)到全局最優(yōu)。 為保證訓(xùn)練效果,本文用聯(lián)邦深度強(qiáng)化學(xué)習(xí)的方式對(duì)無人機(jī)輔助移動(dòng)邊緣計(jì)算進(jìn)行訓(xùn)練,如圖2所示。 圖2 基于聯(lián)邦深度強(qiáng)化學(xué)習(xí)算法框架Fig.2 Framework of federated deep reinforcement learning algorithm 首先,無人機(jī)根據(jù)自身情況與環(huán)境進(jìn)行交互,訓(xùn)練得到局部最優(yōu)策略;然后,為保證多無人機(jī)決策不陷入局部最優(yōu)解,定期將無人機(jī)訓(xùn)練所得局部模型傳輸至云服務(wù)器進(jìn)行聯(lián)邦學(xué)習(xí)中心聚合,之后再將聚合所得模型下發(fā)回各無人機(jī)。與集中式架構(gòu)的中央控制器決策方案相比,云服務(wù)器不進(jìn)行全局模型訓(xùn)練,僅通過更新模型參數(shù)的方式實(shí)現(xiàn)無人機(jī)之間的信息共享。無人機(jī)重復(fù)上述學(xué)習(xí)方式,直至收斂完成訓(xùn)練。這樣,無人機(jī)就可以直接根據(jù)環(huán)境信息生成相應(yīng)的部署和資源分配決策,無需將大量數(shù)據(jù)傳輸至云服務(wù)器在云端集中訓(xùn)練,極大縮減數(shù)據(jù)傳輸量以及訓(xùn)練復(fù)雜度。 在此算法中,每架無人機(jī)作為一個(gè)智能體,每個(gè)智能體可以進(jìn)行獨(dú)立學(xué)習(xí),根據(jù)當(dāng)前環(huán)境狀態(tài)確定下一步的動(dòng)作。無人機(jī)的軌跡位置狀態(tài)和計(jì)算卸載服務(wù)狀態(tài)都具有馬爾可夫性質(zhì),即下一個(gè)時(shí)刻的狀態(tài)只與當(dāng)前狀態(tài)有關(guān),與之前的狀態(tài)均無關(guān)。因此,這樣的優(yōu)化問題可以被建立為離散時(shí)間馬爾可夫決策過程(Markov decision process,MDP)。在數(shù)學(xué)上,將MDP重新定義為三元組(sm,am,rm)。其中,sm和am分別代表無人機(jī)m的狀態(tài)空間和動(dòng)作空間,rm代表無人機(jī)m在當(dāng)前狀態(tài)sm做出動(dòng)作am的獎(jiǎng)勵(lì)函數(shù)。 因此可以定義每個(gè)智能體在t時(shí)隙的狀態(tài)、動(dòng)作、獎(jiǎng)勵(lì)函數(shù)如下: 2)動(dòng)作am(t)。定義在t時(shí)隙無人機(jī)m的飛行位移和卸載比例am(t)={dm,t,θm,t,αn,m,t} 。 3)獎(jiǎng)勵(lì)函數(shù)rm(t)。定義獎(jiǎng)勵(lì)函數(shù)為 (16) 式中:pr為無人機(jī)m飛出限定范圍的懲罰;pm為無人機(jī)m與其他無人機(jī)相撞的懲罰。 綜上所述,每架無人機(jī)都可以根據(jù)當(dāng)前的環(huán)境狀態(tài)信息做出相應(yīng)的執(zhí)行策略。根據(jù)多架無人機(jī)的聯(lián)合動(dòng)作將環(huán)境更新到下一狀態(tài),同時(shí)每架無人機(jī)得到相應(yīng)的獎(jiǎng)勵(lì)。每架無人機(jī)通過試錯(cuò)的方法不斷地與環(huán)境交互,最終學(xué)習(xí)到一個(gè)最優(yōu)的策略π(s),使其能夠做出最優(yōu)決策,得到長(zhǎng)期獎(jiǎng)勵(lì)最大化,可以將長(zhǎng)期獎(jiǎng)勵(lì)定義為 (17) 式中:r(·)為獎(jiǎng)勵(lì)函數(shù);γ為獎(jiǎng)勵(lì)的折扣因子,γ∈(0,1)。 深度強(qiáng)化學(xué)習(xí)因其加強(qiáng)了神經(jīng)網(wǎng)絡(luò)的層級(jí),可用于處理無人機(jī)更加復(fù)雜的的控制問題。使用深度神經(jīng)網(wǎng)絡(luò)的輸出近似擬合未來獎(jiǎng)勵(lì)的期望值Q(s,a),Q(s,a)是在狀態(tài)s中執(zhí)行動(dòng)作a,以取得獎(jiǎng)勵(lì)的預(yù)期收益。連續(xù)性動(dòng)作控制算法包括深度確定性策略梯度(deep deterministic policy gradient,DDPG)算法和TD3算法,通過最小化損失函數(shù)更新神經(jīng)網(wǎng)絡(luò)的參數(shù)θ獲得更準(zhǔn)確的Q值,提升智能體的性能。 TD3作為一種連續(xù)動(dòng)作控制算法,在智能控制領(lǐng)域擁有良好的效果。與同為連續(xù)動(dòng)作空間控制算法的DDPG相比,這一經(jīng)典算法解決了高估誤差問題。TD3使用3種技術(shù)對(duì)這個(gè)問題進(jìn)行優(yōu)化。 首先,TD3算法采用兩套Critic網(wǎng)絡(luò)及Critic Target網(wǎng)絡(luò),對(duì)于每次更新,選取較小的Q值。 其次,采用延遲更新策略,當(dāng)模型的價(jià)值函數(shù)產(chǎn)生較大變化時(shí),才會(huì)更新其策略;否則,不會(huì)更新。這樣可降低價(jià)值估計(jì)的差異,產(chǎn)生更好的策略,在更新時(shí)可以獲得更穩(wěn)定的性能。 最后,采用目標(biāo)策略正則化減少方差增加,因?yàn)樵诟翪ritic網(wǎng)絡(luò)時(shí),確定性策略的學(xué)習(xí)目標(biāo)容易受到函數(shù)近似值誤差的影響,導(dǎo)致目標(biāo)的方差增加。此外,TD3的動(dòng)作輸出會(huì)受到噪聲影響,我們通過平均訓(xùn)練批次中的噪聲平滑估計(jì)值。所添加的噪聲服從正態(tài)分布,并且對(duì)采樣的噪聲進(jìn)行適當(dāng)裁剪,使動(dòng)作更接近原始動(dòng)作。 從以上所述可以看到,在每架無人機(jī)上分別部署了基于TD3的無人機(jī)輔助移動(dòng)邊緣計(jì)算軌跡規(guī)劃算法。每架無人機(jī)分別根據(jù)自身所處環(huán)境學(xué)得局部最優(yōu)策略。然而,本文的場(chǎng)景設(shè)置為多無人機(jī)協(xié)作共同服務(wù)地面用戶,如果單架無人機(jī)只追求自身的獎(jiǎng)勵(lì)最大化,會(huì)影響其他無人機(jī)的訓(xùn)練結(jié)果。而在此項(xiàng)任務(wù)當(dāng)中無人機(jī)相互之間處于合作關(guān)系而非獨(dú)立或者競(jìng)爭(zhēng)的關(guān)系,那么應(yīng)當(dāng)設(shè)計(jì)出一種能夠在全局的角度下最優(yōu)結(jié)果,而非單架無人機(jī)局部最優(yōu)。因此,本文引入聯(lián)邦學(xué)習(xí)框架,從而達(dá)到多無人機(jī)協(xié)同過程中的全局最優(yōu)。 采用聯(lián)邦平均(federated averaging,FedAvg)的方式對(duì)深度強(qiáng)化學(xué)習(xí)模型進(jìn)行平均聚合,按式(18)更新: (18) 式中:θglobal為全局網(wǎng)絡(luò)模型參數(shù);θm為無人機(jī)上部署的局部模型參數(shù)。 在聯(lián)邦深度強(qiáng)化學(xué)習(xí)框架下,模型訓(xùn)練僅在各無人機(jī)端利用私有數(shù)據(jù)進(jìn)行訓(xùn)練,而中心服務(wù)器只進(jìn)行模型聚合。與傳統(tǒng)的集中式學(xué)習(xí)相比,本方案并沒有將所有數(shù)據(jù)傳至中心服務(wù)器進(jìn)行集中式訓(xùn)練,既降低了訓(xùn)練復(fù)雜度又保護(hù)了數(shù)據(jù)隱私。 在本文提出的移動(dòng)邊緣計(jì)算中基于聯(lián)邦深度強(qiáng)化學(xué)習(xí)的無人機(jī)輔助軌跡規(guī)劃方案中,無人機(jī)是聯(lián)邦學(xué)習(xí)框架中客戶端學(xué)習(xí)與訓(xùn)練的主體,基站配屬的服務(wù)器是聯(lián)邦學(xué)習(xí)框架中的云端。每架無人機(jī)都被建模為一個(gè)智能體,可以進(jìn)行獨(dú)立的探索和學(xué)習(xí)。算法將聯(lián)邦學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)相結(jié)合,組成多智能體協(xié)作通信網(wǎng)絡(luò)。具體過程如算法1所示。 該算法分為3個(gè)部分。首先,初始化整個(gè)多無人機(jī)通信環(huán)境和每架無人機(jī)的網(wǎng)絡(luò)參數(shù)。之后,每架無人機(jī)通過與環(huán)境交互獲得狀態(tài)信息。無人機(jī)根據(jù)神經(jīng)網(wǎng)絡(luò)的輸出結(jié)果執(zhí)行動(dòng)作,獲得相應(yīng)的獎(jiǎng)勵(lì)和下一個(gè)狀態(tài)。重復(fù)無人機(jī)與環(huán)境交互達(dá)到一定次數(shù)后,將學(xué)習(xí)所得網(wǎng)絡(luò)模型參數(shù)傳輸至FL云服務(wù)器。最后,FL云服務(wù)器在特定周期得到各無人機(jī)上傳的網(wǎng)絡(luò)模型參數(shù)。云服務(wù)器聚合各局部模型參數(shù)并生成新的全局模型參數(shù),再下發(fā)回各無人機(jī)繼續(xù)訓(xùn)練。重復(fù)上述訓(xùn)練過程,直到達(dá)到迭代次數(shù)為止。 算法1:移動(dòng)邊緣計(jì)算中基于聯(lián)邦深度強(qiáng)化學(xué)習(xí)的多無人機(jī)軌跡規(guī)劃算法1.建立環(huán)境和算法參數(shù);2.for all UAV m,m∈Mdo3. 初始化回放緩存 m。4. 初始化Critic網(wǎng)絡(luò)Qmθ1、Qmθ2和Actor網(wǎng)絡(luò)πm?,以及隨機(jī)參數(shù)θm1、θm2、?m。5.初始化Critic Target網(wǎng)絡(luò)Qm,Targetθ1、Qm,Targetθ2和Ac-tor Target網(wǎng)絡(luò)θm,Targetπ?,以及模型參數(shù):θm,Target1θm1、θm,Target2θm2、?m,Target1?m。6.end for7.forp=1 to emaxdo8. 初始化環(huán)境以及全局狀態(tài)S(t);9. fort=1 to Tdo10. for all UAV m,m∈M do11. 從FL中心服務(wù)器獲取全局權(quán)重θglobal;12. 獲取狀態(tài)sm(t)同時(shí)依據(jù)模型策略選 取動(dòng)作; 13. end for14. 根據(jù)所有無人機(jī)的聯(lián)合動(dòng)作A(t)更新最新 的全局狀態(tài)S(t+1);15. for all UAV m,m∈Mdo16. 獲取新的狀態(tài)值sm(t)以及相應(yīng)的獎(jiǎng)勵(lì) rm(t);17. 存儲(chǔ)(sm(t),am(t),rm(t),sm(t+1))到 回放緩存 m中;18. 從回放緩存 m中隨機(jī)采樣過渡的小批 量樣本(sj,aji,rji,s′j);19. 通過目標(biāo)值ym計(jì)算最小化損失函數(shù),更 新Critic網(wǎng)絡(luò)的權(quán)重θm1、θm2: θmi←argminθmiN-1∑(ym-Qmθi(s,a))2 ?i∈1,220. Ift mod 3 then21. 更新Actor網(wǎng)絡(luò)的權(quán)重 ?m: Δ?mJ(?m)=N-1∑ΔaQmθmi(s,a)a=πm?(s)Δ?mπ?m(s)22. 更新Actor Target網(wǎng)絡(luò)和Critic Target 網(wǎng)絡(luò)的權(quán)重: θm,Targeti←τθmi+(1-τ)θm,Target ?i∈1,2 ?m,Target←τ?m+(1-τ)?m,Target?i∈1,223. End if24. 發(fā)送模型權(quán)重θm1、θm2、?m到聯(lián)邦學(xué)習(xí)中心 服務(wù)器;25. end for26. 聯(lián)邦學(xué)習(xí)云服務(wù)器對(duì)所有無人機(jī)的權(quán)重進(jìn) 行平均,以更新全局權(quán)重θglobal;27. end for28.end for 本節(jié)通過實(shí)驗(yàn)仿真說明移動(dòng)邊緣計(jì)算中基于聯(lián)邦深度強(qiáng)化學(xué)習(xí)的多無人機(jī)軌跡規(guī)劃算法的性能。首先,描述系統(tǒng)模型參數(shù)設(shè)置。其次,分析仿真結(jié)果以及性能,并與其他算法進(jìn)行性能比較。 設(shè)定150 m×150 m的任務(wù)區(qū)域,部署3架無人機(jī)以及20個(gè)地面用戶隨機(jī)分布在任務(wù)區(qū)域內(nèi),如果無人機(jī)飛出限定區(qū)域?qū)⒈粡?qiáng)制返回。為了簡(jiǎn)化無人機(jī)飛行環(huán)境,設(shè)置無人機(jī)飛行高度為15 m。3架無人機(jī)的起始位置分別為[20,20]、[20,120]、[120,120] m。在此區(qū)域內(nèi)部署隨機(jī)分布的20個(gè)地面用戶,每個(gè)地面用戶在各時(shí)隙開始時(shí)均會(huì)產(chǎn)生一個(gè)數(shù)據(jù)大小為D以及每比特需要CPU輪數(shù)為F的待處理計(jì)算密集型任務(wù)Sn,t。具體相關(guān)參數(shù)見表1。 表1 系統(tǒng)模型與優(yōu)化模型參數(shù)Table 1 System model and optimization model parameters 為分析本文算法性能,與其他3種算法進(jìn)行對(duì)比: 1)分布式雙延遲深度確定性策略梯度(distributed twin delayed deep deterministic policy gradient,DIS-TD3)[15]多無人機(jī)輔助移動(dòng)邊緣計(jì)算算法:部署多架無人機(jī),采用分布式架構(gòu),TD3算法獨(dú)立部署在各無人機(jī)上僅依靠自身局部信息訓(xùn)練學(xué)習(xí),最終做出決策。 2)雙延遲深度確定性策略梯度單無人機(jī)輔助移動(dòng)邊緣計(jì)算(single UAV twin delayed deep deterministic policy gradient,SINGLE-TD3)[16]算法:僅使用單個(gè)無人機(jī),利用雙延遲深度確定性策略梯度算法對(duì)無人機(jī)進(jìn)行軌跡規(guī)劃。 3)在地面用戶設(shè)備本地執(zhí)行所有計(jì)算任務(wù),簡(jiǎn)稱為L(zhǎng)OCAL-ONLY:無人機(jī)不參與計(jì)算任務(wù),僅依靠地面用戶自身對(duì)產(chǎn)生的計(jì)算任務(wù)進(jìn)行處理。 首先,描述多無人機(jī)輔助移動(dòng)邊緣計(jì)算的軌跡,如圖3。在150 m×150 m的規(guī)定范圍內(nèi)部署了3架無人機(jī)以及20個(gè)地面用戶隨機(jī)分布在任務(wù)區(qū)域內(nèi),圓點(diǎn)代表地面用戶的位置,菱形、三角形、十字形分別為3架無人機(jī)的軌跡。 圖3 各地面用戶位置分布及無人機(jī)軌跡Fig.3 Location distribution of ground users and drone trajectories 從圖3可以看出,因計(jì)算卸載覆蓋范圍有限,無人機(jī)必須移動(dòng)位置以保證服務(wù)更多地面用戶,從而提高服務(wù)地面用戶公平性。同時(shí)為減小卸載到無人機(jī)計(jì)算任務(wù)的傳輸時(shí)延,無人機(jī)盡可能貼近地面用戶以減小傳輸距離。所有無人機(jī)都在一定區(qū)域內(nèi)飛行,無人機(jī)1聚集在左下,貼近地面用戶聚集處。無人機(jī)3從右上逐漸遷移至右下,以服務(wù)更多用戶。 圖4為FL-TD3的收斂性能。本文共部署了3架無人機(jī)協(xié)同對(duì)地面用戶設(shè)備進(jìn)行計(jì)算卸載服務(wù)。收斂性能描述了訓(xùn)練過程中3架無人機(jī)的總獎(jiǎng)勵(lì)值變化。剛開始總獎(jiǎng)勵(lì)持續(xù)增加,到1 000次左右逐漸趨于平緩,經(jīng)過約2 800次訓(xùn)練后趨于收斂。 圖4 FL-TD3算法收斂情況Fig.4 Convergence of FL-TD3 algorithm 圖5為系統(tǒng)中服務(wù)公平性和時(shí)延累計(jì)隨時(shí)隙變化的仿真結(jié)果。在整個(gè)多無人機(jī)輔助計(jì)算卸載過程中,共設(shè)置了10個(gè)時(shí)隙為地面用戶提供服務(wù)。其中,為了對(duì)比優(yōu)化問題中權(quán)重系數(shù)β對(duì)性能的影響,在本文提出的FL-TD3上設(shè)立權(quán)重系數(shù)為β=0.3的對(duì)比算法,即圖中的FL-TD3-0.3算法,對(duì)比權(quán)重系數(shù)對(duì)公平性和時(shí)延性能的影響。在圖5(a)中,所有算法的公平性均隨著時(shí)隙的增長(zhǎng)而升高。這是因?yàn)殡S著時(shí)隙的增長(zhǎng)無人機(jī)不斷增加對(duì)地面用戶的計(jì)算卸載數(shù)量,從而使服務(wù)公平性不斷增高。圖5(b)為時(shí)延的累計(jì),它隨著時(shí)隙的增長(zhǎng)不斷升高。首先,FL-TD3-0.3相比FL-TD3的公平性較差而時(shí)延較好,這是因?yàn)楫?dāng)權(quán)重系數(shù)β變小時(shí),算法將更重視對(duì)時(shí)延的優(yōu)化而減輕對(duì)公平性的注重。因此FL-TD3-0.3的時(shí)延優(yōu)于其他所有算法。還可以看出,因?yàn)镕L-TD3-0.3權(quán)重系數(shù)β較小,隨著時(shí)隙的增長(zhǎng),FL-TD3-0.3的公平性相比于另兩個(gè)多無人機(jī)算法的差距越來越大。其次,本文提出的FL-TD3算法優(yōu)于DIS-TD3算法,這是因?yàn)楸狙芯繉⒙?lián)邦學(xué)習(xí)融入了多智能體深度強(qiáng)化學(xué)習(xí)框架中,聯(lián)邦學(xué)習(xí)的加入讓無人機(jī)之間能夠信息共享,因此性能更優(yōu)。最后,分析無人機(jī)數(shù)量對(duì)服務(wù)性能的影響,單無人機(jī)與多無人機(jī)相對(duì)比,僅依靠單個(gè)無人機(jī)對(duì)地面用戶進(jìn)行計(jì)算卸載任務(wù)服務(wù),能夠看出其性能低于多無人機(jī)算法。LOCAL-ONLY算法不能充分利用整個(gè)系統(tǒng)的計(jì)算資源,性能在所有算法中最差。 圖5 公平性和時(shí)延累計(jì)隨時(shí)隙變化Fig.5 Fairness and delay accumulation vary with time slots 圖6展示了在無人機(jī)不同覆蓋范圍Rmax下,各算法的服務(wù)公平性和時(shí)延對(duì)比。其中地面用戶數(shù)量恒定為20個(gè)。同樣,本文為了對(duì)比優(yōu)化問題中權(quán)重系數(shù)β對(duì)性能的影響,設(shè)置了對(duì)比算法FL-TD3-0.3。 圖6 公平性與總時(shí)延隨無人機(jī)覆蓋范圍變化Fig.6 Fairness and total latency vary with drone coverage 由圖6可以看出,當(dāng)無人機(jī)的覆蓋范圍增大時(shí),所有算法的性能隨之更優(yōu)。具體來說,公平性均隨覆蓋范圍的增大而變好;FL-TD3算法、FL-TD3-0.3、DIS-TD3的時(shí)延均隨覆蓋范圍的增大而減短。這是因?yàn)殡S著無人機(jī)覆蓋范圍的增大,無人機(jī)能夠在單個(gè)時(shí)隙內(nèi)覆蓋更多地面用戶,從而豐富了無人機(jī)部署位置的多樣性,最終提高了無人機(jī)服務(wù)地面用戶的整體性能。相比本文提出的算法FL-TD3,隨著覆蓋范圍變化,FL-TD3-0.3始終保持著公平性較差而時(shí)延較好的趨勢(shì),這是因?yàn)槠錂?quán)重系數(shù)β較小,使公平性的權(quán)重降低而時(shí)延的權(quán)重更高。本文提出的FL-TD3算法因其融入了聯(lián)邦學(xué)習(xí)框架,使無人機(jī)之間能夠?qū)崿F(xiàn)信息共享。隨著覆蓋范圍的增大,FL-TD3性能始終優(yōu)于DIS-TD3算法。SINGLE-TD3算法覆蓋范圍在15~25 m區(qū)間時(shí),可以看到時(shí)延能夠隨覆蓋范圍增大而降低。然而在30~45 m之間,時(shí)延幾乎不變,只有微弱的降低,這是因?yàn)閱蝹€(gè)無人機(jī)無法在一個(gè)時(shí)隙內(nèi)卸載過多地面用戶,這會(huì)造成計(jì)算任務(wù)大量排隊(duì),使計(jì)算時(shí)延超過本地計(jì)算時(shí)間,無人機(jī)不再拓展更多計(jì)算卸載任務(wù),所以在此區(qū)間內(nèi)時(shí)延變化不大。對(duì)比其他算法,SINGLE-TD3的公平性、時(shí)延性能雖然能夠隨著覆蓋范圍的增大而變優(yōu),但是由于其無人機(jī)數(shù)量局限性,其性能差于所有多無人機(jī)算法。LOCAL-ONLY算法不能充分利用整個(gè)系統(tǒng)的計(jì)算資源,性能在所有算法中最差。 本文研究了多無人機(jī)輔助移動(dòng)邊緣計(jì)算的軌跡規(guī)劃問題。針對(duì)計(jì)算密集型應(yīng)用對(duì)時(shí)延具有較強(qiáng)的敏感性,采取將地面用戶部分任務(wù)卸載到無人機(jī)上進(jìn)行輔助計(jì)算。本文采用了一種聯(lián)合優(yōu)化策略,將無人機(jī)軌跡和任務(wù)卸載比例作為優(yōu)化目標(biāo),旨在最大化任務(wù)時(shí)延和服務(wù)公平性的加權(quán)和,以確保在服務(wù)地面用戶的過程中,最小化時(shí)延的同時(shí)兼顧無人機(jī)服務(wù)地面公平性。為實(shí)現(xiàn)多無人機(jī)能夠協(xié)同對(duì)地面用戶進(jìn)行計(jì)算卸載服務(wù),本文將聯(lián)邦學(xué)習(xí)融入多智能體深度強(qiáng)化學(xué)習(xí)算法中,達(dá)到信息交互的目的。通過聯(lián)邦學(xué)習(xí)非隱私數(shù)據(jù)共享的機(jī)制,既實(shí)現(xiàn)了多無人機(jī)間的信息共享使學(xué)習(xí)效果達(dá)到全局最優(yōu),又保障了數(shù)據(jù)隱私。仿真結(jié)果表明,與無信息交互的多智能體深度強(qiáng)化學(xué)習(xí)相比,本文提出的算法在無人機(jī)服務(wù)公平性和時(shí)延上具有更好的性能。1.4 問題描述
2 算法設(shè)計(jì)
3 仿真結(jié)果和分析
3.1 仿真設(shè)計(jì)環(huán)境參數(shù)和算法超參數(shù)設(shè)置
3.2 仿真性能分析
4 結(jié)束語