• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于DRL的無人機(jī)輔助邊緣計算服務(wù)質(zhì)量優(yōu)化

      2022-07-22 13:37:12敬樂天賈向東曹肖攀萬妮妮殷家祥
      信號處理 2022年6期
      關(guān)鍵詞:新鮮度時隙優(yōu)化

      敬樂天 賈向東,2 曹肖攀 萬妮妮 殷家祥

      (1.西北師范大學(xué)計算機(jī)科學(xué)與工程學(xué)院,甘肅蘭州 730070;2.南京郵電大學(xué)江蘇省無線通信重點實驗室,江蘇南京 210003;3.中電萬維信息技術(shù)有限責(zé)任公司中電萬維研究院,甘肅蘭州 730030)

      1 引言

      隨著物聯(lián)網(wǎng)技術(shù)的快速發(fā)展,移動設(shè)備在人們生活中的應(yīng)用呈爆炸式增長,其需要處理的任務(wù)例如虛擬現(xiàn)實或物聯(lián)網(wǎng)應(yīng)用程序等需要大量的計算資源。而移動邊緣計算(Mobile Edge Computing,MEC)用于在網(wǎng)絡(luò)邊緣卸載任務(wù),它的應(yīng)用可以有效減輕用戶的負(fù)擔(dān),更好地為用戶提供服務(wù)[1]。隨著MEC的發(fā)展,人們提出了許多方法來提高計算性能,盡管開發(fā)了地面MEC 系統(tǒng)架構(gòu),但仍然存在未解決的問題,如服務(wù)器移動性較差和安全性問題等,因此出現(xiàn)了無人機(jī)(Unmanned Aerial Vehicle,UAV)輔助MEC來解決這些問題[2]。

      從用戶的角度來看,MEC 中最大的缺點是用戶的服務(wù)質(zhì)量(Quality of Service,QoS)難以保證[3]。在UAV 輔助MEC 系統(tǒng)中,文獻(xiàn)[4]在滿足物聯(lián)網(wǎng)設(shè)備QoS 的前提下,提出了一種高效的迭代算法聯(lián)合優(yōu)化系統(tǒng)中的資源分配和UAV 的懸停時間,以最大限度地減少UAV 的能耗。文獻(xiàn)[5]在UAV 電量和QoS 約束下,使用整數(shù)規(guī)劃和連續(xù)凸優(yōu)化方法優(yōu)化了用戶級聯(lián)方案、UAV 軌跡和用戶傳輸功率,以在UAV 輔助MEC 系統(tǒng)中最大化卸載任務(wù)總和。然而,傳統(tǒng)的方法如迭代算法和凸優(yōu)化等,往往需要大量的迭代計算,且不能找到關(guān)鍵問題的最優(yōu)解,這導(dǎo)致了UAV 輔助MEC 系統(tǒng)中的優(yōu)化方法往往“缺乏智能”。隨著AI技術(shù)的不斷發(fā)展,越來越多的智能方法被用來解決UAV 輔助MEC 系統(tǒng)中的優(yōu)化問題。文獻(xiàn)[6]中提出了一種基于Q 學(xué)習(xí)的智能資源分配算法,該算法能夠使UAV 在保證用戶QoS 的情況下智能地做出資源分配決策,同時最大限度的減少總資源消耗。在實際的MEC網(wǎng)絡(luò)中,用戶數(shù)量往往較多且網(wǎng)絡(luò)環(huán)境相對復(fù)雜,這會使得狀態(tài)、動作空間的個數(shù)隨著用戶數(shù)量的增加而增加,在維度較大的Q 表中尋找最優(yōu)策略會變得困難,因此Q 學(xué)習(xí)算法往往變得不再適用。由于控制決策和資源優(yōu)化的優(yōu)勢,深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)被廣泛認(rèn)為是解決問題的理想工具,通過DRL 代理能夠?qū)W習(xí)網(wǎng)絡(luò)環(huán)境,這有利于代理更準(zhǔn)確的做出控制決策,此外,DRL 由于通過集成強(qiáng)化學(xué)習(xí)提高了處理速度,因此DRL 更適用于大規(guī)模網(wǎng)絡(luò)[7]。文獻(xiàn)[8]中提出了一種基于DRL 的方案,在UAV 能量有限的情況下實現(xiàn)了最大化用戶吞吐量,一定程度上提高了MEC 的QoS。文獻(xiàn)[9]在考慮地面用戶移動性的情況下為了保證用戶的QoS,提出了一種基于DRL的算法,使得能量有限的UAV 能夠根據(jù)用戶位置的動態(tài)規(guī)劃其飛行軌跡以提高系統(tǒng)的總吞吐量,然而文獻(xiàn)[8-9]提出的UAV輔助MEC 系統(tǒng)中,UAV 的飛行高度固定不變導(dǎo)致其只能在固定高度飛行,不能夠很好的發(fā)揮UAV 的優(yōu)勢。

      為了衡量更新信息的新鮮度,信息年齡(Age of Information,AoI)最近已成為衡量QoS 性能指標(biāo)的新維度[10]。文獻(xiàn)[11]在MEC 系統(tǒng)中研究了如何調(diào)度一組數(shù)據(jù)包的傳輸和計算來最小化平均AoI。文獻(xiàn)[12]研究了MEC 系統(tǒng)中計算密集型數(shù)據(jù)的AoI,并考慮了兩種計算方案:本地計算和MEC服務(wù)器遠(yuǎn)程計算,導(dǎo)出了本地和遠(yuǎn)程計算的平均AoI,并給出了遠(yuǎn)程計算優(yōu)于本地計算的區(qū)域。文獻(xiàn)[13]結(jié)合AoI 提出一種任務(wù)新鮮度的度量方法,且根據(jù)任務(wù)新鮮度進(jìn)一步引入一種新的QoS 評價指標(biāo),提出了基于DRL 的算法來優(yōu)化MEC 系統(tǒng)中的QoS。然而,文獻(xiàn)[11-13]只是考慮了傳統(tǒng)地面MEC 系統(tǒng)中信息的新鮮度,并沒有考慮UAV 輔助MEC 系統(tǒng)中信息的新鮮度。

      基于以上討論,本文引入文獻(xiàn)[13]中任務(wù)新鮮度的度量方法,用任務(wù)延遲來表示任務(wù)新鮮度,提出一種新的QoS 計算方法,研究使用基于DRL 的方法來提高UAV 輔助MEC 系統(tǒng)中用戶的QoS。首先分析了UAV 輔助MEC 系統(tǒng)中的任務(wù)延遲并給出了QoS 優(yōu)化問題表達(dá)式,其次,將最大化QoS 的問題建模為一個無轉(zhuǎn)移概率的馬爾可夫決策過程(Markov Decision Process,MDP),并定義了該過程中UAV 的狀態(tài)空間、動作空間和獎勵函數(shù);最后UAV 利用強(qiáng)化學(xué)習(xí)在線學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)線下訓(xùn)練不斷與環(huán)境進(jìn)行交互來尋找最優(yōu)飛行軌跡以及卸載方案為地面用戶進(jìn)行服務(wù)以提高QoS。仿真結(jié)果表明所提算法有效提高了UAV 為地面用戶服務(wù)過程中的QoS且提高了任務(wù)新鮮度。

      2 系統(tǒng)模型

      如圖1所示,本文考慮了由K個地面用戶和單個UAV所組成的UAV輔助MEC系統(tǒng)。其中,K個地面用戶隨機(jī)分布在地面上的一個區(qū)域內(nèi),第k(k∈{1,2,…,K})個地面用戶的位置為wk=(xk,yk)。地面用戶的可以將計算任務(wù)進(jìn)行本地執(zhí)行,也可以將計算任務(wù)卸載到空中的UAV 令其上面的移動邊緣服務(wù)器(Mobile Edge Server,MES)執(zhí)行。UAV 整個飛行過程中所需時隙總數(shù)為N,在第n(n∈{1,2,…,N})個時隙中根據(jù)第k個地面用戶的任務(wù)卸載指示onk來判斷任務(wù)的執(zhí)行方式,其中onk∈O?{0,1},當(dāng)onk=0 時,第k個地面用戶將計算任務(wù)本地執(zhí)行,當(dāng)onk=1時,第k個地面用戶將計算任務(wù)卸載到UAV 上執(zhí)行。第n個時隙中第k個地面用戶產(chǎn)生的任務(wù)數(shù)量Unk隨機(jī),每個任務(wù)的比特數(shù)固定為Nb,且在時隙n內(nèi)卸載到UAV 上的任務(wù)遵循先來先服務(wù)(First Come First Service,F(xiàn)CFS)原則。在任務(wù)密集型的場景中,UAV 在一個時隙內(nèi)需要處理來自地面用戶卸載的任務(wù),在此時隙內(nèi)UAV在空中懸停來接收并完成任務(wù),最后將計算結(jié)果返回給它所服務(wù)的地面用戶,然后在下一個時隙飛往下一個位置繼續(xù)為地面用戶提供服務(wù)。

      在水平方位上,假設(shè)UAV 在大小相同的I個空中單元上飛行,I個單元中心坐標(biāo)的集合為相鄰兩個單元在X軸和Y軸方向上的距離分別為xd和yd。L0為UAV 在水平方位上的初始位置,Ln為UAV 在第n個時隙所處的單元的水平位置,因此UAV 在整個飛行過程中水平方位上的軌跡為{L0,L1,…,Ln,…,LN}。在垂直方位上,UAV 最小和最大飛行高度分別為Hmin和Hmax,假設(shè)UAV 可以在J個不同的高度飛行,J個不同高度的集合為G?{G1,…,Gj,…,GJ},其中G1=Hmin且GJ=Hmax,連續(xù)兩個不同高度在Z軸方向上的距離為UAV 的初始高度設(shè)為H0,第n個時隙的高度為Hn,因此UAV在整個飛行過程中垂直方位的高度為{H0,H1,…,Hn,…,HN}。假設(shè)UAV初始位置為F0=(L0,H0),在第n個時隙時所處空中位置為Fn=(Ln,Hn),則UAV 在整個飛行過程中的軌跡為{F0,F(xiàn)1,…,F(xiàn)n,…,F(xiàn)N}。

      在第n個時隙內(nèi)UAV 到第k個地面用戶到之間的距離為:

      考慮到UAV 具有較高的飛行高度,假設(shè)UAV和地面用戶之間可以建模為視距鏈路(Line of Sight,LoS),因此在第n個時隙內(nèi)UAV 到第k個地面用戶之間的信道增益為[14]:

      其中β0為UAV 與用戶之間距離為1 m 時的信道功率增益。

      因此,第n個時隙內(nèi)UAV 和第k個地面用戶之間的數(shù)據(jù)傳輸速率為:

      其中B為無線信道的帶寬,pk為第k個地面用戶的發(fā)射功率,σ2為加性高斯白噪聲功率。

      3 任務(wù)延遲及QoS分析

      本節(jié)首先定義了任務(wù)延遲來表示任務(wù)新鮮度,其中,任務(wù)延遲越低,任務(wù)新鮮度越高。在任務(wù)延遲的基礎(chǔ)上,進(jìn)一步引入了一種新的QoS評價指標(biāo),并給出了優(yōu)化問題表達(dá)式及相關(guān)約束條件。

      3.1 任務(wù)延遲分析

      在進(jìn)行計算卸載時,時間延遲是指卸載數(shù)據(jù)到MEC 計算節(jié)點的傳輸時間、在MEC 計算節(jié)點處的執(zhí)行處理時間、接收來自MEC計算節(jié)點處理的數(shù)據(jù)結(jié)果的傳輸時間三者之和[3]。由于計算結(jié)果的大小遠(yuǎn)小于原始任務(wù),因此計算結(jié)果返回時間可以忽略不計[15]。

      本文中在第n個時隙內(nèi),如果第k個地面用戶需要將任務(wù)卸載到UAV 上進(jìn)行處理即onk=1 時,UAV計算完成所有任務(wù)需要三部分延遲:

      其中bnk為第n個時隙內(nèi)第k個地面用戶卸載任務(wù)的比特數(shù),且bnk=UnkNb。

      卸載到UAV 的任務(wù)遵循FCFS 處理原則,每次只能處理一個地面用戶卸載的任務(wù),因此卸載的任務(wù)所需的排隊等待延遲為任務(wù)開始處理時間減去任務(wù)到達(dá)時間。

      其中,C為計算每一比特任務(wù)所需的CPU 周期數(shù),fu為UAV上MES的處理能力[17]。

      本文將第n個時隙內(nèi)第k個地面用戶產(chǎn)生任務(wù)延遲定義為:

      其中,當(dāng)onk=0時,表示第k個地面用戶本地執(zhí)行計算任務(wù),因此將任務(wù)延遲記為零。由上面的式子可以看出,任務(wù)延遲由三個因素決定,前兩種主要取決于用戶生成任務(wù)的數(shù)量,而第三種會受到任務(wù)卸載策略、服務(wù)器處理能力及信道條件等多方面的影響。如果地面用戶卸載到UAV 的任務(wù)數(shù)量增加,任務(wù)的通信延遲和處理延遲會增加,由于服務(wù)器處理能力有限,且地面用戶與UAV 距離改變導(dǎo)致的信道傳輸速率的改變會使得排隊等待延遲也增加,因此,所有延遲的增加將導(dǎo)致完成任務(wù)需要耗費更多的時間,可以看出定義的任務(wù)延遲能夠很好地涵蓋對QoS產(chǎn)生主要影響的延遲因素。

      綜上所述,第n個時隙內(nèi)所有地面用戶產(chǎn)生任務(wù)的任務(wù)總延遲為:

      3.2 QoS分析

      當(dāng)?shù)孛嬗脩粼O(shè)備上運行如網(wǎng)絡(luò)游戲、視頻會議、虛擬現(xiàn)實等計算密集型和時間敏感型應(yīng)用時,UAV 需要為一片區(qū)域內(nèi)的多個地面用戶提供服務(wù),因此需要在較短的時間內(nèi)處理大量地面用戶設(shè)備卸載的任務(wù)以提升地面用戶的QoS。

      根據(jù)以上任務(wù)延遲的定義,進(jìn)一步引入了一種新的QoS 評價指標(biāo)。將第n個時隙內(nèi)的QoS 定義為UAV所處理的任務(wù)的比特數(shù)與任務(wù)延遲之比[13]:

      本文將此QoS 作為優(yōu)化目標(biāo),力求在短時間內(nèi)處理大量的任務(wù),所以目標(biāo)優(yōu)化問題可以表述為:

      其中,(9.1)、(9.2)、(9.3)為UAV 在水平范圍和垂直范圍飛行的空間約束,(9.4)為UAV 在每個時隙內(nèi)最低服務(wù)要求約束,Dmin為UAV 在每個時隙內(nèi)最少需要處理任務(wù)的比特數(shù),(9.5)為任務(wù)卸載約束,保證任務(wù)只能被地面用戶本地執(zhí)行或者卸載到UAV上的MES執(zhí)行。在下一節(jié)中,將提出一種基于DRL的QoS優(yōu)化方案來解決問題(9)。

      4 基于DRL的QoS優(yōu)化方案

      本節(jié)首先介紹強(qiáng)化學(xué)習(xí)中MDP的基本要素,然后提出了基于DDQN的QoS最大化算法。

      4.1 MDP基本要素

      MDP 是一種對代理與動態(tài)環(huán)境交互過程進(jìn)行數(shù)學(xué)建模的方法。在本文場景中,UAV 不需要任何關(guān)于環(huán)境的先驗信息,只能從環(huán)境狀態(tài)中獲取因果信息,所以模型中轉(zhuǎn)移概率是未知的,因此本文把UAV 最大化QoS 的過程建模為一個無轉(zhuǎn)移概率的MDP,且它是無模型的?;谀P偷腄RL 算法需要花費很長的時間來得到精確的模型,特別是在狀態(tài)動作空間很大的情況下,而無模型的DRL 算法與基于模型的DRL 算法相比不需要精確的MDP 模型[18]。下面依次對MDP 的三要素,即狀態(tài)空間、動作空間和獎勵函數(shù)分別進(jìn)行定義。

      (a)狀態(tài)空間:

      UAV 在第n個時隙內(nèi)的狀態(tài)為它的位置,因此,UAV在第n個時隙的狀態(tài)sn為:

      其中S為UAV的狀態(tài)空間。

      (b)動作空間:

      第n個時隙內(nèi),水平方向上UAV 可以向東、西、南、北四個方向飛行,也可以在水平方向上保持不動,假設(shè)ln∈L ?{E,W,S,N,I}為UAV 在第n個時隙水平方向的飛行動作,其中E,W,S,N 分別表示向東、西、南、北方向飛行,I 表示在水平方向上保持不動,因此UAV 在第n個時隙水平方向上的位置可以表示為[19]:

      在垂直方向上,UAV 可以上升、下降,也可以保持高度不變,假設(shè)hn∈H ?{A,D,I}為UAV 在第n個時隙垂直方向的飛行動作,其中A,D 分別表示在垂直方向上和向下飛行,I 表示在垂直方向上保持高度不變,因此第n個時隙內(nèi)UAV 在垂直方向上的動作為:

      此外,UAV 的動作還包括地面用戶的卸載指示onk,因此UAV在第n個時隙內(nèi)的動作an為:

      其中A為UAV的動作空間。

      (c)獎勵函數(shù):

      UAV 為地面用戶執(zhí)行卸載的任務(wù)時,需要獲得一定的獎勵,以提高地面用戶的QoS 并引導(dǎo)UAV 更好地服務(wù),因此將獎勵函數(shù)設(shè)置為地面用戶的QoS,在第n個時隙內(nèi)的獎勵函數(shù)Rn具體定義如下:

      同時,每個時隙內(nèi)如果UAV 超過規(guī)定的飛行空間,獎勵Rn會減去一個定值Rp以對UAV 做出相應(yīng)的懲罰。

      4.2 基于DDQN的QoS最大化算法

      和基于深度Q 網(wǎng)絡(luò)(Deep Q Network,DQN)算法中的神經(jīng)網(wǎng)絡(luò)一樣,本文所提基于雙深度Q 網(wǎng)絡(luò)(Double DQN,DDQN)的QoS 最大化算法中構(gòu)建了兩個結(jié)構(gòu)完全相同但是參數(shù)不同的網(wǎng)絡(luò):當(dāng)前值網(wǎng)絡(luò)和目標(biāo)值網(wǎng)絡(luò)。其中當(dāng)前值網(wǎng)絡(luò)的參數(shù)實時進(jìn)行更新,而目標(biāo)值網(wǎng)絡(luò)的參數(shù)每隔一段時間進(jìn)行更新,這樣可以增加訓(xùn)練過程的穩(wěn)定性。同時加入回放記憶單元來解決數(shù)據(jù)關(guān)聯(lián)性問題,把每個時間段UAV 與環(huán)境交互得到的記憶存儲到回放記憶單元中,訓(xùn)練時隨機(jī)拿出一部分樣本來訓(xùn)練。算法中需要損失函數(shù)L(θ)來更新當(dāng)前值網(wǎng)絡(luò)的參數(shù),將其定義為:

      其中θ-表示目標(biāo)值網(wǎng)絡(luò)的參數(shù),γ為折扣因子??梢钥闯鲈谟嬎氵^程中采用的是這意味著會出現(xiàn)過高估計的問題,為了解決DQN 中可能存在的過高估計問題,在DDQN 中,采用了新的方式計算目標(biāo)值網(wǎng)絡(luò)輸出,即利用當(dāng)前值網(wǎng)絡(luò)估計目標(biāo)值網(wǎng)絡(luò)中使得Q(sn+1,a;θ-)最大的動作值:

      最后,根據(jù)計算的損失函數(shù)L(θ),使用梯度下降反向更新當(dāng)前值網(wǎng)絡(luò)參數(shù)θ。

      在基于DDQN 算法中,Q值的更新滿足貝爾曼方程:

      其中α表示學(xué)習(xí)率,用來控制Q值更新的速度。

      圖2為所提算法的框架圖,其主要由環(huán)境、回放記憶單元、當(dāng)前值網(wǎng)絡(luò)、目標(biāo)值網(wǎng)絡(luò)和損失函數(shù)五大模塊構(gòu)成。算法運行時首先初始化回放記憶單元,將狀態(tài)s輸入當(dāng)前值網(wǎng)絡(luò),并使用ε-貪婪策略進(jìn)行動作選擇。本文所提算法中使用的ε-貪婪策略與一般的ε-貪婪策略不同,算法中為ε設(shè)置一個遞減值,在算法剛開始時,將ε值設(shè)置較大,隨著算法不斷進(jìn)行,代理學(xué)習(xí)的越來越好,逐漸減小ε的值,以減少隨機(jī)選取動作的概率,這樣使得學(xué)習(xí)的過程更加穩(wěn)定。在選擇了動作a之后,在狀態(tài)s下執(zhí)行所選的動作,進(jìn)入到新狀態(tài)s′,并接收獎勵R;然后把記憶存儲在回放記憶單元中,從回放記憶單元中抽取隨機(jī)批次的記憶,計算損失函數(shù)。最后執(zhí)行梯度下降使損失函數(shù)最小化,更新當(dāng)前值網(wǎng)絡(luò)參數(shù)θ以及新的狀態(tài),隔一定步數(shù)之后,拷貝當(dāng)前值網(wǎng)絡(luò)參數(shù)到目標(biāo)值網(wǎng)絡(luò)中,重復(fù)以上步驟N個回合。

      本文所提出的基于DDQN 的QoS最大化算法流程如算法1所示。

      算法1基于DDQN的QoS最大化算法

      輸入UAV初始位置

      輸出一個飛行周期內(nèi)使得地面用戶QoS最大的UAV飛行軌跡

      5 仿真結(jié)果及分析

      仿真考慮了在地面1000 m × 1000 m 范圍內(nèi)存在6個地面用戶的模型,使用Python3.7和TensorFlow框架對UAV 的飛行軌跡及卸載方案進(jìn)行了仿真,其中,算法的迭代次數(shù)為70 次,UAV 在每次迭代中總時隙數(shù)為400,其他參數(shù)設(shè)置如表1 所示。此外,將基于DQN 的QoS 最大化算法和傳統(tǒng)的旅行商問題(Traveling Salesman Problem,TSP)算法作為對比實驗進(jìn)行分析。TSP 算法中,UAV 在飛行過程中采取隨機(jī)服務(wù)的方案,即每個時隙中隨機(jī)選取地面用戶并為其提供計算服務(wù),且在飛行過程中UAV 的高度固定為200 m。

      表1 仿真參數(shù)Tab.1 Simulation parameters

      圖3、圖4分別為三種不同算法下UAV二維和三維飛行軌跡對比圖。由圖3可以看出,在水平方向上,采用TSP算法的UAV從起點出發(fā),選取最短路徑飛行并為地面用戶提供計算服務(wù),而采用本文所提算法時UAV則采取接近于TSP算法的飛行軌跡為地面用戶提供服務(wù),對比之下,基于DQN的算法下UAV很大程度上偏離最短飛行軌跡。由圖4可以看出,本文所提算法下UAV在垂直方向上能夠自適應(yīng)的調(diào)整其飛行高度,這意味著UAV 能夠更加接近地面用戶來減少服務(wù)過程中的延遲,更有效地提高地面用戶的QoS。

      圖5 為不同算法下UAV 在后30 次迭代中地面用戶的平均QoS對比圖,可以看出在開始的時隙中,由于距離地面用戶較遠(yuǎn),地面用戶的QoS較小,隨著UAV 繼續(xù)飛行靠近地面用戶并學(xué)習(xí)到更優(yōu)的卸載方案,地面用戶的QoS 逐步增加,相比于基于DQN的算法和傳統(tǒng)的TSP 算法,本文所提算法能夠有效提高地面用戶的QoS。

      圖6 為不同算法下任務(wù)總延遲對比,基于DQN和基于DDQN 的算法在開始時需要不斷的學(xué)習(xí)來適應(yīng)環(huán)境,因此在開始的迭代中,兩種算法下地面用戶所需處理任務(wù)的總延遲較高,在不斷地學(xué)習(xí)后,任務(wù)總延遲趨于平穩(wěn)。而TSP 算法由于不需要進(jìn)行學(xué)習(xí)網(wǎng)絡(luò)環(huán)境,因此TSP 算法下的任務(wù)總延遲始終保持較為平穩(wěn)的值。可以看出,在一定迭代次數(shù)的學(xué)習(xí)之后,本文所提算法下地面用戶所需要處理任務(wù)的總延遲明顯低于其他兩種算法,所提算法能夠很好的提高地面用戶所需處理任務(wù)的新鮮度。

      圖7為基于DQN算法和基于DDQN算法的Q值對比,可以看出在剛開始的時隙中,由于需要學(xué)習(xí)新的環(huán)境,因此兩種算法的Q值不斷增加,之后趨于穩(wěn)定,且相比于所提算法,基于DQN 算法擁有較高的Q值,這與4.2節(jié)中的分析吻合,并進(jìn)一步證明了所提算法能夠有效解決基于DQN 算法中出現(xiàn)的過高估計的問題,使得UAV 能夠更好的學(xué)習(xí)尋找最優(yōu)飛行軌跡以及卸載方案為地面用戶提供服務(wù)。

      6 結(jié)論

      在UAV 輔助MEC系統(tǒng)中,基于DRL研究了UAV 搭載MES為地面用戶進(jìn)行服務(wù)時的QoS。本文最后給出了所提算法與其他兩種算法的對比,仿真結(jié)果表明所提算法可以優(yōu)化UAV 的飛行軌跡以及卸載方案,并有效提高UAV 為地面用戶服務(wù)過程中的QoS且提高所需處理任務(wù)的新鮮度。下一步將在考慮地面用戶移動性的基礎(chǔ)上,研究多UAV 輔助MEC系統(tǒng)中的服務(wù)安全問題。

      猜你喜歡
      新鮮度時隙優(yōu)化
      超限高層建筑結(jié)構(gòu)設(shè)計與優(yōu)化思考
      民用建筑防煙排煙設(shè)計優(yōu)化探討
      關(guān)于優(yōu)化消防安全告知承諾的一些思考
      一道優(yōu)化題的幾何解法
      復(fù)用段單節(jié)點失效造成業(yè)務(wù)時隙錯連處理
      一種高速通信系統(tǒng)動態(tài)時隙分配設(shè)計
      時隙寬度約束下網(wǎng)絡(luò)零售配送時隙定價研究
      基于TDMA的無沖突動態(tài)時隙分配算法
      基于TTI的冷鮮羊肉新鮮度研究
      不同新鮮度金槍魚肉蒸煮品質(zhì)的研究
      屏山县| 龙里县| 金溪县| 台湾省| 任丘市| 汪清县| 松桃| 瑞昌市| 永定县| 丰县| 旬阳县| 崇阳县| 临颍县| 西和县| 宾阳县| 陆河县| 石门县| 申扎县| 响水县| 辛集市| 尚志市| 南华县| 仙游县| 射阳县| 苍溪县| 米脂县| 商丘市| 余庆县| 蕉岭县| 临桂县| 泰来县| 台州市| 新巴尔虎左旗| 西宁市| 阿克陶县| 怀安县| 林周县| 凤城市| 万州区| 恭城| 阿克陶县|