• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      移動邊緣計算網(wǎng)絡(luò)中基于DQN的能效性卸載決策及無線資源分配

      2022-02-17 07:59:08郭艷艷
      測試技術(shù)學(xué)報 2022年1期
      關(guān)鍵詞:資源分配隊列能效

      高 云, 郭艷艷, 衛(wèi) 霞

      (山西大學(xué) 物理電子工程學(xué)院, 山西 太原 030006)

      0 引 言

      隨著通信技術(shù)的高速發(fā)展, 移動設(shè)備有限的計算能力、 存儲空間和電池壽命等難以滿足復(fù)雜移動應(yīng)用的低時延、 高可靠性需求[1]. 近年來興起的移動邊緣計算(Mobile Edge Computing, MEC)技術(shù)能夠?qū)⒁苿討?yīng)用中的計算任務(wù)轉(zhuǎn)移到鄰近設(shè)備的網(wǎng)絡(luò)邊緣, 有效地降低本地服務(wù)器的處理壓力, 并避免回傳和核心網(wǎng)絡(luò)中的延遲[2]. 然而, 由于通信過程中無線環(huán)境的復(fù)雜性, 致使計算任務(wù)通過無線鏈路上傳到MEC服務(wù)器時容易造成無線資源利用率低和丟包等問題. 因此, 如何在保證應(yīng)用需求的前提下, 找到一種最優(yōu)的卸載決策和資源分配策略, 具有重要的研究價值.

      近年來, 已有許多學(xué)者圍繞MEC系統(tǒng)中卸載策略和資源優(yōu)化問題進(jìn)行了相關(guān)研究. 文獻(xiàn)[3-5]中, 通過近似最優(yōu)迭代資源分配算法得到系統(tǒng)能耗最小化的卸載決策和資源分配策略; 文獻(xiàn)[6-7], 為解決移動設(shè)備端的任務(wù)隊列動態(tài)數(shù)據(jù)包卸載問題, 采用李雅普諾夫優(yōu)化方法獲得系統(tǒng)穩(wěn)定性與長期卸載收益兼顧的卸載策略. 近年來, 深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning, DRL)被廣泛地應(yīng)用到MEC網(wǎng)絡(luò)中, 用于解決卸載決策和資源分配問題. 文獻(xiàn)[8-10]中, 將發(fā)射功率離散化后采用深度Q學(xué)習(xí)(Deep Q-network, DQN)算法進(jìn)行功率分配, 而文獻(xiàn)[11]中采用深度確定性策略梯度(Deep Deterministic Policy Gradient, DDPG)算法解決連續(xù)功率變量分配問題. 然而, 現(xiàn)有的MEC卸載決策和資源分配研究中, 在建立優(yōu)化模型并對相關(guān)參數(shù)進(jìn)行聯(lián)合優(yōu)化時, 沒有考慮這些參數(shù)之間的內(nèi)在聯(lián)系, 導(dǎo)致優(yōu)化模型復(fù)雜, 實現(xiàn)困難.

      針對上述問題, 本文在多種移動設(shè)備、 單個移動邊緣計算服務(wù)器場景下, 考慮計算任務(wù)隊列穩(wěn)定和時延限制、 移動設(shè)備的最大發(fā)射功率限制等條件, 構(gòu)建以系統(tǒng)長期平均能耗最小化為目標(biāo)的優(yōu)化模型. 然后, 將計算任務(wù)的卸載決策、 計算資源分配、 上行信道分配和設(shè)備發(fā)射功率分配的優(yōu)化問題簡化為上行信道和發(fā)射功率分配的聯(lián)合優(yōu)化問題. 由于信道狀態(tài)和任務(wù)隊列變化的馬爾可夫?qū)傩訹12], 將動態(tài)MEC網(wǎng)絡(luò)中系統(tǒng)平均能耗最小化的問題轉(zhuǎn)化為長期獎勵值最大化的問題, 利用DQN算法獲取最優(yōu)的資源分配策略, 進(jìn)而得到計算任務(wù)抵達(dá)率與系統(tǒng)能效及數(shù)據(jù)處理率之間的內(nèi)在關(guān)系.

      1 系統(tǒng)模型和問題構(gòu)建

      1.1 系統(tǒng)模型

      本文構(gòu)建的MEC網(wǎng)絡(luò)模型包括1個MEC服務(wù)器、 1個基站及N個不同類型的移動設(shè)備. 基站和移動設(shè)備均配置單個天線, 且兩者之間采用正交頻分多址接入方式, 在K個信道進(jìn)行數(shù)據(jù)傳輸, 基站與MEC服務(wù)器之間通過光纖連接, 所以忽略它們之間的傳輸延時. 移動設(shè)備的計算任務(wù)可以在本地處理, 也可以通過基站卸載到MEC服務(wù)器上處理.

      Bn(t)=max{Bn(t-1)+Ln(t)-

      νn(t)-Dn(t),0},

      (1)

      (2)

      1.2 系統(tǒng)能耗優(yōu)化問題構(gòu)建

      MEC系統(tǒng)能耗包括設(shè)備本地處理數(shù)據(jù)能耗、 設(shè)備上傳數(shù)據(jù)所需能耗和MEC服務(wù)器處理數(shù)據(jù)能耗. 在時隙t內(nèi), 移動設(shè)備n本地處理數(shù)據(jù)的能耗

      (3)

      式中:ξ1是常數(shù)因子, 由移動設(shè)備的處理能力決定[13]. 上傳數(shù)據(jù)所需能耗

      (4)

      (5)

      在時隙t內(nèi), 系統(tǒng)總能耗為

      (6)

      為了最小化系統(tǒng)長期平均能量消耗并保持?jǐn)?shù)據(jù)隊列穩(wěn)定, 該系統(tǒng)的優(yōu)化模型為

      (7)

      2 基于DQN的無線資源優(yōu)化算法

      2.1 DQN原理

      DQN的目標(biāo)是找到最優(yōu)的策略, 使長期獎勵最大化[16]. 基于當(dāng)前的狀態(tài),s(t)選擇動作a(t)=π(s(t)), 得到即時獎勵r(t), 同時狀態(tài)s(t)轉(zhuǎn)移到下一狀態(tài)s(t+1), 再基于新的狀態(tài)繼續(xù)與環(huán)境進(jìn)行交互, 持續(xù)該過程以得到最大的長期獎勵.t時隙累計衰減獎勵的表達(dá)式為

      (8)

      式中:E[·]表示均值;λ∈[0,1]為獎勵衰減因子. 最優(yōu)策略π*的表達(dá)式為

      (9)

      在MEC網(wǎng)絡(luò)中, 數(shù)據(jù)隊列的變化和無線信道的衰落均具有馬爾可夫?qū)傩? 根據(jù)馬爾可夫的性質(zhì), 下一時刻的狀態(tài)僅與當(dāng)前狀態(tài)相關(guān), 而與之前時刻的狀態(tài)無關(guān), 所以式(8)以遞歸方式更新值函數(shù)Q, 其表達(dá)式為

      Q(s(t),a(t))=Q(s(t),a(t))+δ(r(t)+

      λmaxQ(s(t+1),a(t+1))-Q(s(t),a(t))),

      (10)

      式中:δ為學(xué)習(xí)率.

      2.2 DQN結(jié)構(gòu)

      DQN包含兩個結(jié)構(gòu)相同的深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN), DNN包含一層隱藏層, 兩層全連接層. 其中一個DNN為評估Q網(wǎng)絡(luò), 用于擬合值函數(shù)Q, 其表達(dá)式為

      Q(s(t),a(t);θ)≈Q*(s(t),a(t)),

      (11)

      式中:θ為評估Q網(wǎng)絡(luò)的權(quán)重參數(shù). 另一個DNN為目標(biāo)Q網(wǎng)絡(luò), 用于獲得目標(biāo)Q值.目標(biāo)網(wǎng)絡(luò)的Q值定義為

      λmaxQ(s(t+1),a(t+1);θ-),

      (12)

      式中:θ-為目標(biāo)Q網(wǎng)絡(luò)的權(quán)重參數(shù).

      在學(xué)習(xí)階段, 將每次和環(huán)境交互得到的獎勵與狀態(tài)更新情況以(s(t),a(t),r(t),s(t+1))的形式存放在經(jīng)驗池中[17], 當(dāng)經(jīng)驗池中存儲的樣本量大于隨機(jī)抽樣的樣本量時開始訓(xùn)練.在訓(xùn)練階段, 從經(jīng)驗池中隨機(jī)抽取小批樣本(si,ai,ri,si+1), 將si作為評估Q網(wǎng)絡(luò)的輸入, (ri,si+1)作為目標(biāo)Q網(wǎng)絡(luò)的輸入. 每一步訓(xùn)練中, DQN通過最小化損失函數(shù)來更新神經(jīng)網(wǎng)絡(luò)的參數(shù), 損失函數(shù)的表達(dá)式為

      (13)

      根據(jù)當(dāng)前從經(jīng)驗池中抽取的樣本來計算評估網(wǎng)絡(luò)參數(shù)θ的梯度?θ, 再使用自適應(yīng)估計(Adaptive Moment Estimation, Adam)算法更新評估Q網(wǎng)絡(luò)的參數(shù)θ.目標(biāo)Q網(wǎng)絡(luò)的參數(shù)θ-是通過每隔一段時間將評估Q網(wǎng)絡(luò)的參數(shù)θ直接賦值的方式更新.

      3 仿真分析

      3.1 仿真參數(shù)設(shè)置

      仿真中主要的環(huán)境參數(shù)設(shè)置見表 1.

      表 1 參數(shù)配置

      神經(jīng)網(wǎng)絡(luò)隱藏層數(shù)為1, 該層含256個節(jié)點, 使用線性整流函數(shù)(Rectified Linear Unit, ReLU) 作為非線性激活函數(shù);ε-貪心策略中的ε線性選擇從0~0.9; 神經(jīng)網(wǎng)絡(luò)的參數(shù)更新過程中, 學(xué)習(xí)率δ為8e-5, 經(jīng)驗池的大小為900, 從經(jīng)驗池中每批次采樣128個樣本, 學(xué)習(xí)間隔步長為5, 目標(biāo)網(wǎng)絡(luò)參數(shù)更新的頻率為30. 訓(xùn)練步長為200個回合, 每回合包括500個時隙.

      1.2 性能分析

      圖 1 顯示了DQN算法的迭代收斂過程. 在該仿真過程中, 用戶數(shù)N=5, 從圖 1 中可以看出, 該算法在經(jīng)過30 000多次迭代后逐漸收斂, 證明該算法在保持隊列穩(wěn)定約束條件下合理分配資源是可行的.

      圖 1 DQN算法損失函數(shù)系Fig.1 The convergence speeds of the DQN algorithm

      本文將DQN算法與“本地執(zhí)行”和“隨機(jī)選擇”算法進(jìn)行比較. “本地執(zhí)行”是指計算任務(wù)的數(shù)據(jù)隊列只能在設(shè)備本地處理; “隨機(jī)選擇”是指計算任務(wù)的數(shù)據(jù)隊列隨機(jī)選擇在設(shè)備本地處理, 或者M(jìn)EC端處理. 圖 2 描述了計算任務(wù)的數(shù)據(jù)平均抵達(dá)率與系統(tǒng)平均能效和數(shù)據(jù)量處理率之間的關(guān)系.

      圖 2 系統(tǒng)平均能效和數(shù)據(jù)處理率與平均抵達(dá)率關(guān)系Fig.2 Average energy-efficiency and packet computingratio against packet arrival ratio

      圖 3 描述了計算任務(wù)的平均抵達(dá)率為 1.5 kb/Ts, 系統(tǒng)平均能效和用戶數(shù)之間的關(guān)系. 從圖中可以看出, 隨著用戶數(shù)的增加, 3種算法的系統(tǒng)平均能效均在增加, 而本文提出的DQN算法的系統(tǒng)平均能效優(yōu)于其他兩種算法.

      圖 3 系統(tǒng)平均能效和用戶數(shù)關(guān)系Fig.3 Average energy-efficiency versus the number of users

      4 結(jié) 論

      本文將MEC網(wǎng)絡(luò)中計算任務(wù)的卸載決策及資源分配問題轉(zhuǎn)化為無線信道和功率分配的聯(lián)合優(yōu)化問題, 在保證移動設(shè)備的計算任務(wù)隊列穩(wěn)定和時延限制、 最大發(fā)射功率限制等約束條件下, 通過DQN算法實現(xiàn)了使系統(tǒng)平均能耗最小的資源分配策略. 仿真結(jié)果表明, 與本地執(zhí)行和隨機(jī)選擇算法相比, 本文所提出的算法可以有效地提高系統(tǒng)的能效及數(shù)據(jù)量處理率.

      猜你喜歡
      資源分配隊列能效
      新研究揭示新冠疫情對資源分配的影響 精讀
      英語文摘(2020年10期)2020-11-26 08:12:20
      隊列里的小秘密
      基于多隊列切換的SDN擁塞控制*
      軟件(2020年3期)2020-04-20 00:58:44
      上海:穩(wěn)中有進(jìn) 能效趨優(yōu)
      在隊列里
      一種基于價格競爭的D2D通信資源分配算法
      豐田加速駛?cè)胱詣玉{駛隊列
      關(guān)注能效
      淺談實現(xiàn)高能效制造的未來發(fā)展趨勢
      自動化博覽(2014年6期)2014-02-28 22:32:07
      OFDMA系統(tǒng)中容量最大化的資源分配算法
      奉新县| 广南县| 信阳市| 芜湖市| 瑞昌市| 红安县| 德保县| 太和县| 沙坪坝区| 仪陇县| 武义县| 高安市| 肥城市| 青冈县| 尼勒克县| 乐山市| 澄迈县| 舒兰市| 苏尼特右旗| 库伦旗| 二连浩特市| 锡林浩特市| 黎城县| 武宁县| 绥滨县| 胶南市| 高雄市| 中山市| 商洛市| 洪湖市| 芜湖县| 遵义县| 库车县| 石屏县| 滦南县| 白水县| 兴海县| 同德县| 凯里市| 板桥市| 温泉县|