基于深度Q網(wǎng)絡(luò)的多目標(biāo)任務(wù)卸載算法

2022-07-05 10:10:46鄧世權(quán)葉緒國

計算機(jī)應(yīng)用 2022年6期

鄧世權(quán)，葉緒國

鄧世權(quán)1，葉緒國2*

（1.凱里學(xué)院大數(shù)據(jù)工程學(xué)院，貴州凱里 556011； 2.凱里學(xué)院理學(xué)院，貴州凱里 556011）（*通信作者電子郵箱yexuguo2008@126.com）

在移動邊緣計算（MEC）中，計算資源和電池容量有限的移動設(shè)備（MD）可卸載自身計算密集型應(yīng)用到邊緣服務(wù)器上執(zhí)行，這樣不僅可以提高M(jìn)D計算能力，也能降低能耗。然而，不合理的任務(wù)卸載決策不但會延長應(yīng)用完成時間，而且會大量增加能耗，進(jìn)而降低用戶體驗。鑒于此，首先分析MD的移動性和任務(wù)間的順序依賴關(guān)系，建立動態(tài)MEC網(wǎng)絡(luò)下的以應(yīng)用完成時間和能源消耗最小為優(yōu)化目標(biāo)的多目標(biāo)任務(wù)卸載問題模型；然后，設(shè)計求解該問題的馬爾可夫決策過程（MDP）模型，包括狀態(tài)空間、動作空間和獎勵函數(shù)，并提出基于深度Q網(wǎng)絡(luò)（DQN）的多目標(biāo)任務(wù)卸載算法（MTOA-DQN），該算法采用一條軌跡作為經(jīng)驗池的最小單元來改進(jìn)原始的DQN算法。在多種測試場景下，MTOA-DQN的性能在累積獎勵和Cost方面均優(yōu)于三種對比算法（基于分解的多目標(biāo)進(jìn)化算法（MOEA/D）、自適應(yīng)的DAG任務(wù)調(diào)度算法（ADTS）和原始的DQN算法），驗證了該算法的有效性和可靠性。

移動邊緣計算；任務(wù)卸載；完成時間；能源消耗；強(qiáng)化學(xué)習(xí)

0 引言

隨著5G、物聯(lián)網(wǎng)等技術(shù)的不斷演進(jìn)，移動設(shè)備（Mobile Device， MD）正迅速成為世界上規(guī)模最大的人工智能平臺，人們已進(jìn)入了一個由汽車、高清攝像頭、可穿戴設(shè)備、智能手機(jī)等物聯(lián)網(wǎng)設(shè)備組成的物物相聯(lián)的時代［1-2］。種類繁多的新型應(yīng)用也層出不窮，如人臉識別、云游戲、虛擬現(xiàn)實（Virtual Reality， VR）/增強(qiáng)現(xiàn)實（Augmented Reality， AR）等，此類應(yīng)用在占用大量計算和存儲資源的同時，也對時效性提出了更高需求。然而，MD的兩個關(guān)鍵技術(shù)問題嚴(yán)重制約了移動互聯(lián)網(wǎng)的發(fā)展：一是為了MD的便攜性，在設(shè)計時需考慮其尺寸、重量和散熱等問題，導(dǎo)致MD計算能力無法與同等價位的臺式設(shè)備相提并論，在應(yīng)對VR/AR等時延敏感型應(yīng)用時顯得力不從心，延長了應(yīng)用的響應(yīng)時間，降低用戶體驗質(zhì)量（Quality of Experience， QoE）；二是長久以來難以突破的電池技術(shù)也限制了QoE，特別是在運(yùn)行云游戲、視頻直播等應(yīng)用時，大量消耗續(xù)航能力有限的MD電池能量［3-4］，降低了該類應(yīng)用在MD上部署的可能性。

為了解決上述問題，移動邊緣計算（Mobile Edge Computing， MEC）［5-6］應(yīng)運(yùn)而生，它將IT服務(wù)環(huán)境和云計算技術(shù)在網(wǎng)絡(luò)邊緣相結(jié)合，提高邊緣網(wǎng)絡(luò)的計算能力和存儲能力，這不僅減少了網(wǎng)絡(luò)操作，還降低了服務(wù)時延，為用戶提供了超低時延和高帶寬的網(wǎng)絡(luò)服務(wù)解決方案，保障了用戶的QoE。因此，MD利用MEC技術(shù)可卸載其計算任務(wù)到邊緣服務(wù)器上執(zhí)行，在提高M(jìn)D計算能力的同時，也降低了能源消耗，該過程稱為計算卸載［7］。

當(dāng)前，隨著代碼分解和并行計算的蓬勃發(fā)展，MD待處理的應(yīng)用可被建模成一個有向無環(huán)圖（Directed Acyclic Graph， DAG），即應(yīng)用被分解成多個任務(wù)，且任務(wù)間存在順序依賴關(guān)系。這樣的分解方式可實現(xiàn)細(xì)粒度的任務(wù)卸載，使任務(wù)在本地和邊緣服務(wù)器上并行處理成為可能。然而，不合理的卸載決策不僅延長應(yīng)用完成時間，也大量消耗MD電池能量。另外，任務(wù)間的順序依賴關(guān)系對最優(yōu)卸載方案的求解也帶來了巨大挑戰(zhàn)。

深度強(qiáng)化學(xué)習(xí)（Deep Reinforcement Learning， DRL）將強(qiáng)化學(xué)習(xí)（Reinforcement Learning， RL）的高決策能力和深度神經(jīng)網(wǎng)絡(luò)（Deep Neural Network， DNN）的強(qiáng)表示能力有機(jī)結(jié)合［8-9］。承載了DRL算法的智能體不斷與環(huán)境交互，可主動學(xué)習(xí)在不同環(huán)境狀態(tài)下采取的最佳動作（即策略），從而最大化長期累積獎勵。借助DNN超凡的表示能力，可有效應(yīng)對復(fù)雜、動態(tài)的網(wǎng)絡(luò)環(huán)境，因此能夠擬合最優(yōu)策略（卸載決策）。DRL被廣泛應(yīng)用于復(fù)雜的工程優(yōu)化和機(jī)器人控制問題中，并已在面向DAG的任務(wù)卸載問題中嶄露頭角［10-12］。鑒于此，本文提出基于深度Q網(wǎng)絡(luò)（Deep Q-Network， DQN）的多目標(biāo)任務(wù)卸載算法（Multi-objective Task Offloading Algorithm based on DQN， MTOA-DQN）來最小化應(yīng)用完成時間和MD電池能源消耗。本文的主要工作包括以下三個方面：

1）考慮MD的移動性和任務(wù)間的順序依賴關(guān)系，建立動態(tài)MEC網(wǎng)絡(luò)下的多目標(biāo)任務(wù)卸載問題模型，以最小化應(yīng)用完成時間和MD電池能源消耗為優(yōu)化目標(biāo)。該模型首次在具有多邊緣服務(wù)器的MEC系統(tǒng)中研究了依賴性任務(wù)的卸載問題。

2）針對以上建模問題，設(shè)計了相應(yīng)的馬爾可夫決策過程（Markov Decision Process， MDP），包括狀態(tài)空間、動作空間和獎勵函數(shù)。提出基于DQN的多目標(biāo)任務(wù)卸載算法MTOA-DQN，該算法將一條軌跡作為經(jīng)驗池的最小單元，保證了抽樣數(shù)據(jù)的完整性，進(jìn)而提高算法收斂性能。

3）對于新建模的任務(wù)卸載問題，不存在基準(zhǔn)測試集，因此隨機(jī)生成多種測試場景對本文算法進(jìn)行性能評估。在累積獎勵和Cost方面，本文算法均優(yōu)于基于分解的多目標(biāo)進(jìn)化算法（MultiObjective Evolutionary Algorithm based on Decomposition， MOEA/D）、自適應(yīng)的DAG任務(wù)調(diào)度（Adaptive DAG Tasks Scheduling， ADTS）算法和原始DQN算法。

1 相關(guān)工作

MD采用MEC下的計算卸載技術(shù)可將其計算密集型或時延敏感型應(yīng)用卸載到邊緣服務(wù)器上執(zhí)行，用于輔助計算和續(xù)航能力有限的MD，以支撐該類應(yīng)用在MD上的部署。因此，國內(nèi)外學(xué)者針對怎樣在MD和邊緣服務(wù)器之間卸載任務(wù)，以及在減少應(yīng)用完成時間的同時盡可能降低MD能耗等問題進(jìn)行了一系列研究。

Lin等［13］研究了移動云計算（Mobile Cloud Computing，MCC）網(wǎng)絡(luò)中的任務(wù)調(diào)度問題，提出基于動態(tài)電壓頻率調(diào)節(jié)（Dynamic Voltage and Frequency Scaling， DVFS）技術(shù)的任務(wù)調(diào)度算法來最小化應(yīng)用完成時間和MD能源消耗。Mahmoodi等［14］介紹了無線感知的聯(lián)合任務(wù)調(diào)度和計算卸載算法，可確定應(yīng)用中每個任務(wù)的執(zhí)行位置和調(diào)度順序，通過MD和云端的并行計算來縮短應(yīng)用完成時間。周業(yè)茂等［15］提出了移動云計算下基于延時傳輸?shù)亩嗄繕?biāo)工作流調(diào)度算法，該算法基于非支配排序遺傳算法（Nondominated Sort Genetic Algorithm， NSGA-Ⅱ）設(shè)計了工作流的執(zhí)行位置和執(zhí)行順序的編碼策略。Song等［16］研究了應(yīng)用完成時間和MD能源消耗之間的權(quán)衡，并建模為多目標(biāo)計算卸載問題，提出了一種基于分解的多目標(biāo)進(jìn)化算法MOEA/D；但他們所考慮的MEC環(huán)境是靜態(tài)的，并未考慮MD的移動性。楊天等［17］提出一種面向多用戶的任務(wù)卸載與資源分配算法，以MEC系統(tǒng)的總成本最小為優(yōu)化目標(biāo)，但未考慮任務(wù)間的順序依賴關(guān)系。Yang等［18］提出了一種綜合框架，允許MD卸載任務(wù)到云端或邊緣服務(wù)上執(zhí)行，將該卸載問題建模為能源開銷最小化問題，并提出了一種輕量級線性規(guī)劃算法。Wu等［19］針對DAG調(diào)度問題，設(shè)計了相應(yīng)的MDP模型，并提出了基于策略梯度DRL的自適應(yīng)的DAG任務(wù)調(diào)度（ADTS）算法來最小化應(yīng)用完成時間。詹文翰等［20］提出了基于近端策略優(yōu)化（Proximal Policy Optimization）的計算卸載調(diào)度方法來最小化應(yīng)用完成時間。Yan等［21］研究了MEC系統(tǒng)下的應(yīng)用任務(wù)卸載，提出了基于Actor-Critic架構(gòu)的DRL來確定每個任務(wù)執(zhí)行位置和分配MD計算功率，從而減少應(yīng)用完成時間。

上述研究工作中，大多數(shù)考慮的MEC網(wǎng)絡(luò)環(huán)境是靜態(tài)的，例如，在MD執(zhí)行應(yīng)用過程中，其地理位置保持不變。然而，在真實網(wǎng)絡(luò)環(huán)境中，動態(tài)性和不確定性是MEC網(wǎng)絡(luò)的關(guān)鍵特征，如MD的移動性和無線信道的變化性。此外，已有研究工作要么最小化應(yīng)用時間，要么最小化MD能源消耗，鮮有兼顧兩者。基于以上分析，本文研究動態(tài)MEC網(wǎng)絡(luò)環(huán)境下的多目標(biāo)任務(wù)卸載問題，并滿足任務(wù)間的順序依賴關(guān)系，同時最小化應(yīng)用完成時間和MD能源消耗。

2 系統(tǒng)模型

圖1 MEC系統(tǒng)示意圖

圖2 一個應(yīng)用的DAG

表1 主要符號匯總

MD在執(zhí)行應(yīng)用階段，迅速移動導(dǎo)致其地理位置發(fā)生變化，我們假定卸載不同任務(wù)時MD可動態(tài)移動，但卸載任務(wù)過程中MD地理位置保持不變。下面介紹本地計算、邊緣計算和問題描述。

2.1 本地計算

相應(yīng)地，本地執(zhí)行消耗的電池能量為：

其中是依賴于芯片結(jié)構(gòu)的有效電容系數(shù)。

2.2 邊緣計算

邊緣計算模型是基于文獻(xiàn)［13］中的云計算模型，但存在兩點(diǎn)不同之處：首先本文模型考慮了多個邊緣服務(wù)器共存的密集型網(wǎng)絡(luò)場景；其次本文模型邊緣服務(wù)器的計算能力隨時間動態(tài)變化。

進(jìn)一步可得MD發(fā)送任務(wù)v的輸入數(shù)據(jù)所消耗的電池能量為：

綜上所述，MD卸載任務(wù)v到邊緣服務(wù)器上執(zhí)行的總時延通過式（12）計算得到，而對應(yīng)的總能耗通過式（13）計算。

2.3 問題描述

基于本地和邊緣計算，并通過式（14）計算出應(yīng)用的完成時間：

MD執(zhí)行應(yīng)用的總能耗為執(zhí)行所有任務(wù)產(chǎn)生的能耗和，即：

3 算法設(shè)計

通過式（17）和（18）可遞歸地計算出應(yīng)用中每個任務(wù)的優(yōu)先級，然后對每個任務(wù)的優(yōu)先級進(jìn)行降序排序，得到所有任務(wù)的執(zhí)行順序，表示為：

3.1 MDP模型

1）狀態(tài)空間：

2）動作空間：

3.2 基于DQN的多目標(biāo)任務(wù)卸載算法

基于3.1節(jié)構(gòu)建的MDP模型，構(gòu)建基于DQN的多目標(biāo)任務(wù)卸載算法（MTOA-DQN），如算法1所示。

算法1 MTOA-DQN。

輸入 MD的應(yīng)用；

12） End For

21） End For

23） End For

4 實驗與結(jié)果分析

4.1 算法收斂性

4.2 完整性能比較

為驗證MTOA-DQN對原始DQN改進(jìn)的有效性，首先與DQN進(jìn)行性能比較，圖4展示了DQN和MTOA-DQN的累積獎勵曲線。顯然，在三個測試場景下，本文MTOA-DQN的性能要優(yōu)于原始的DQN，驗證了MTOA-DQN的有效性。在DQN中，經(jīng)驗池中的數(shù)據(jù)以一個時間步的轉(zhuǎn)移樣本作為最小單元，而本文的多目標(biāo)任務(wù)卸載問題在一個回合結(jié)束之后才能將應(yīng)用中的所有任務(wù)調(diào)度完成，因此這樣的存儲方式不再適用本文問題。為了解決該問題，MTOA-DQN將一個回合之后產(chǎn)生的軌跡作為經(jīng)驗池中的最小單元，注意一條軌跡代表對多目標(biāo)任務(wù)卸載問題的一次求解，體現(xiàn)了數(shù)據(jù)的完整性，有助于網(wǎng)絡(luò)的訓(xùn)練，因此本文的MTOA-DQN比原始DQN更適應(yīng)網(wǎng)絡(luò)的動態(tài)變化。

對于應(yīng)用的總開銷（即優(yōu)化目標(biāo)（）），比較了以下四種算法：

1）基于分解的多目標(biāo)進(jìn)化算法（MOEA/D）［16］：該算法同時優(yōu)化任務(wù)平均處理時延和設(shè)備平均能耗，獲得多組Pareto支配解。

2）自適應(yīng)的DAG任務(wù)調(diào)度（ADTS）算法［19］：該算法是基于REINFORCE的強(qiáng)化學(xué)習(xí)方法，旨在最小化應(yīng)用完成時間。

3）原始的DQN算法［9］：采用神經(jīng)網(wǎng)絡(luò)來逼近Q值，經(jīng)驗池中元素以一個時間步產(chǎn)生的數(shù)據(jù)作為最小單元。

4）MTOA-DQN：本文改進(jìn)的DQN，經(jīng)驗池中元素以一個回合產(chǎn)生的數(shù)據(jù)作為最小單元。

為了比較的公平性，MOEA/D的參數(shù)設(shè)置遵循原文獻(xiàn)［16］的設(shè)置方法，即種群規(guī)模和最大迭代次數(shù)分別為100和100，鄰居個數(shù)為10，變異概率為0.01。在所有實驗中，每種算法獨(dú)立運(yùn)行20次，統(tǒng)計算法每次獲得的最優(yōu)Cost值，因此每種算法存在20個最優(yōu)值，最后計算這20個值的平均值。

圖5為四種算法運(yùn)行20次獲得的最優(yōu)Cost值的箱線圖，圖中縱坐標(biāo)為算法獲得的最優(yōu)Cost值。從圖中可看出，MOTA-DQN在三個測試場景下的“箱子”均處于圖的最下側(cè)，表明該算法獲得了最小的Cost值，能同時最小化應(yīng)用完成時間和MD能耗。三種基于RL的方法均優(yōu)于MOEA/D，這是因為MOEA/D只能解決靜態(tài)MEC網(wǎng)絡(luò)下的多目標(biāo)任務(wù)卸載問題，并不能適應(yīng)MD的移動性，這驗證了RL可較好地處理動態(tài)MEC網(wǎng)絡(luò)環(huán)境下的問題。在RL算法中，DQN是基于值函數(shù)的方法，ADTS是基于策略的方法，根據(jù)實驗可知，DQN優(yōu)于ADTS，這反映了基于值函數(shù)的方法能更好地處理本文的問題，這就是為什么本文改進(jìn)DQN算法來處理多目標(biāo)任務(wù)卸載問題。另一方面，ADTS僅優(yōu)化了應(yīng)用完成時間，并未考慮MD能耗指標(biāo)，從而導(dǎo)致較高的Cost值。

圖3 不同參數(shù)下的累積獎勵

圖4 不同任務(wù)規(guī)模N下兩種DQN的累積獎勵

圖5 不同任務(wù)規(guī)模N下四種算法的箱線圖

表2展示了四種算法在三個測試場景上運(yùn)行20次后獲得的平均Cost值。顯然，MOTA-DQN獲得了最小的Cost值，也表明本文算法的性能最佳。

表2 不同任務(wù)規(guī)模N的Cost平均值比較

綜上所述，在處理動態(tài)MEC網(wǎng)絡(luò)下的多目標(biāo)任務(wù)卸載問題上，與MOEA/D、ADTS和DQN相比，本文的MTOA-DQN表現(xiàn)更優(yōu)，能同時最小化應(yīng)用完成時間和MD電池能源消耗。

5 結(jié)語

任務(wù)卸載問題是MEC網(wǎng)絡(luò)中的重要研究內(nèi)容，做卸載決策時的一個關(guān)鍵問題是怎樣同時最小化MD的應(yīng)用完成時間和電池能源消耗。鑒于此，本文建立了基于MEC網(wǎng)絡(luò)的多目標(biāo)任務(wù)卸載問題，考慮了MD的移動性和任務(wù)間的順序依賴關(guān)系；然后，分析應(yīng)用和MD相關(guān)信息，設(shè)計MDP模型，并提出了基于DQN的多目標(biāo)任務(wù)卸載算法MTOA-DQN來同時優(yōu)化所關(guān)注的兩個目標(biāo)。MTOA-DQN算法將一個回合產(chǎn)生的軌跡作為其經(jīng)驗池中數(shù)據(jù)的最小單元，該方法能保證數(shù)據(jù)集的完整性。實驗結(jié)果表明，在三種不同任務(wù)數(shù)規(guī)模應(yīng)用場景下，與MOEA/D、ADTS和原始的DQN相比，MTOA-DQN能獲得最小Cost值，從而能最小化MD的應(yīng)用完成時間和電池能源消耗，提升用戶體驗質(zhì)量。

[1] LI L L， LIU Z F， TSENG M L， et al. Enhancing the Lithium-ion battery life predictability using a hybrid method［J］. Applied Soft Computing， 2019， 74： 110-121.

[2] ATAT R， LIU L J， CHEN H， et al. Enabling cyber-physical communication in 5G cellular networks： challenges， spatial spectrum sensing， and cyber-security［J］. IET Cyber-Physical Systems： Theory and Applications， 2017， 2（1）： 49-54.

[3] LI C L， ZHU L Y， TANG H L， et al. Mobile user behavior based topology formation and optimization in ad hoc mobile cloud［J］. Journal of Systems and Software， 2019， 148： 132-147.

[4] NOVAK E， TANG Z F， LI Q. Ultrasound proximity networking on smart mobile devices for IoT applications［J］. IEEE Internet of Things Journal， 2019， 6（1）： 399-409.

[5] MAO Y Y， YOU C S， ZHANG J， et al. A survey on mobile edge computing： the communication perspective［J］. IEEE Communications Surveys and Tutorials， 2017， 19（4）： 2322-2358.

[6] WANG S， ZHANG X， ZHANG Y， et al. A survey on mobile edge networks： convergence of computing， caching and communications［J］. IEEE Access， 2017， 5： 6757-6779.

[7] ABBAS N， ZHANG Y， TAHERKORDI A， et al. Mobile edge computing： a survey［J］. IEEE Internet of Things Journal， 2018， 5（1）： 450-465.

[8] KENESHLOO Y， SHI T， RAMAKRISHNAN N， et al. Deep reinforcement learning for sequence-to-sequence models［J］. IEEE Transactions on Neural Networks and Learning Systems， 2020， 31（7）： 2469-2489.

[9] MNIH V， KAVUKCUOGLU K， SILVER D， et al. Human-level control through deep reinforcement learning［J］. Nature， 2015， 518（7540）： 529-533.

[10] LUONG N C， HOANG D T， GONG S M， et al. Applications of deep reinforcement learning in communications and networking： a survey［J］. IEEE Communications Surveys and Tutorials，2019， 21（4）： 3133-3174.

[11] KIRAN B R， SOBH I， TALPAERT V， et al. Deep reinforcement learning for autonomous driving： a survey［J/OL］. IEEE Transactions on Intelligent Transportation Systems. （2021-01-23）［2022-06-20］. https：//arxiv.org/pdf/2002.00444v2.pdf.

[12] WAN Z Q， JIANG C， FAHAD M， et al. Robot-assisted pedestrian regulation based on deep reinforcement learning［J］. IEEE Transactions on Cybernetics， 2020， 50（4）： 1669-1682.

[13] LIN X， WANG Y Z， XIE Q， et al. Task scheduling with dynamic voltage and frequency scaling for energy minimization in the mobile cloud computing environment［J］. IEEE Transactions on Services Computing， 2015， 8（2）： 175-186.

[14] MAHMOODI S E， UMA R N， SUBBALAKSHMI K P. Optimal joint scheduling and cloud offloading for mobile applications［J］. IEEE Transactions on Cloud Computing， 2019， 7（2）： 301-313.

[15] 周業(yè)茂，李忠金，葛季棟，等. 移動云計算中基于延時傳輸?shù)亩嗄繕?biāo)工作流調(diào)度［J］. 軟件學(xué)報， 2018， 29（11）： 3306-3325.（ZHOU Y M， LI Z J， GE J D， et al. Multi-objective workflow scheduling based on delay transmission in mobile cloud computing［J］. Journal of Software， 2018， 29（11）： 3306-3325.）

[16] SONG F H， XING H L， LUO S X， et al. A multiobjective computation offloading algorithm for mobile-edge computing［J］. IEEE Internet of Things Journal， 2020， 7（9）： 8780-8799.

[17] 楊天，楊軍. 移動邊緣計算中的卸載決策與資源分配策略［J］. 計算機(jī)工程， 2021， 47（2）： 19-25.（YANG T， YANG J. Offloading decision and resource allocation strategy in mobile edge computing［J］. Computer Engineering， 2021， 47（2）： 19-25.）

[18] YANG L， ZHONG C Y， YANG Q H， et al. Task offloading for directed acyclic graph applications based on edge computing in Industrial Internet［J］. Information Sciences， 2020， 540： 51-68.

[19] WU Q， WU Z W， ZHUANG Y H， et al. Adaptive DAG tasks scheduling with deep reinforcement learning［C］// Proceedings of the 2018 International Conference on Algorithms and Architectures for Parallel Processing， LNTCS 11335. Cham： Springer， 2018： 477-490.

[20] 詹文翰，王瑾，朱清新，等. 移動邊緣計算中基于深度強(qiáng)化學(xué)習(xí)的計算卸載調(diào)度方法［J］. 計算機(jī)應(yīng)用研究， 2021， 38（1）： 241-245， 263.（ZHAN W H， WANG J， ZHU Q X， et al. Deep reinforcement learning based offloading scheduling in mobile edge computing［J］. Application Research of Computers， 2021， 38（1）： 241-245， 263.）

[21] YAN J， BI S Z， ZHANG Y J A. Offloading and resource allocation with general task graph in mobile edge computing： a deep reinforcement learning approach［J］. IEEE Transactions on Wireless Communications， 2020， 19（8）： 5404-5419.

Multi-objective task offloading algorithm based on deep Q-network

DENG Shiquan1， YE Xuguo2*

（1，，556011，；2，，556011，）

For the Mobile Device （MD） with limited computing resources and battery capacity in Mobile Edge Computing （MEC）， its computing capacity can be enhanced and its energy consumption can be reduced through offloading its own computing-intensive applications to the edge server. However， unreasonable task offloading strategy will bring a bad experience for users since it will increase the application completion time and energy consumption. To overcome above challenge， firstly， a multi-objective task offloading problem model with minimizing the application completion time and energy consumption as optimization targets was built in the dynamic MEC network via analyzing the mobility of the mobile device and the sequential dependencies between tasks. Then， a Markov Decision Process （MDP） model， including state space， action space， and reward function， was designed to solve this problem， and a Multi-Objective Task Offloading Algorithm based on Deep Q-Network （MTOA-DQN） was proposed， which uses a trajectory as the smallest unit of the experience buffer to improve the original DQN. The proposed MTOA-DQN outperforms three comparison algorithms including MultiObjective Evolutionary Algorithm based on Decomposition （MOEA/D）， Adaptive DAG （Directed Acyclic Graph） Tasks Scheduling （ADTS） and original DQN in terms of cumulative reward and cost in a number of test scenarios， verifying the effectiveness and reliability of the algorithm.

Mobile Edge Computing (MEC); task offloading; completion time; energy consumption; Reinforcement Learning (RL)

This work is partially supported by National Natural Science Foundation of China （11961038）， Science and Technology Project of Education Department of Guizhou Province （［2017］333）.

DENG Shiquan， born in 1981， M. S.， associate professor. His research interests include intelligent information processing， edge computing， computational intelligence.

YE Xuguo， born in 1982， Ph. D.， professor. His research interests include time series analysis， financial analysis， computational intelligence.

TP391.9

1001-9081（2022）06-1668-07

10.11772/j.issn.1001-9081.2021061367

2021?08?02；

2021?08?15；

2021?09?28。

國家自然科學(xué)基金資助項目（11961038）；貴州省教育廳科技項目（［2017］333）。

鄧世權(quán)（1981—），男，貴州江口人，副教授，碩士，CCF會員，主要研究方向：智能信息處理、邊緣計算、計算智能；葉緒國（1982—），男，安徽霍邱人，教授，博士，主要研究方向：時間序列分析、金融分析、計算智能。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

基于深度Q網(wǎng)絡(luò)的多目標(biāo)任務(wù)卸載算法

0 引言

1 相關(guān)工作

2 系統(tǒng)模型

2.1 本地計算

2.2 邊緣計算

2.3 問題描述

3 算法設(shè)計

3.1 MDP模型

3.2 基于DQN的多目標(biāo)任務(wù)卸載算法

4 實驗與結(jié)果分析

4.1 算法收斂性

4.2 完整性能比較

5 結(jié)語