天地融合網(wǎng)絡(luò)中基于深度強(qiáng)化學(xué)習(xí)的計(jì)算卸載算法研究

2024-12-26 00:00:00王從羽羅志勇

無線電通信技術(shù) 2024年6期

摘要：隨著近地軌道（ＬｏｗＥａｒｔｈＯｒｂｉｔ，ＬＥＯ）衛(wèi)星網(wǎng)絡(luò)和移動(dòng)邊緣計(jì)算（ＭｏｂｉｌｅＥｄｇｅＣｏｍｐｕｔｉｎｇ，ＭＥＣ）技術(shù)的發(fā)展，通過在ＬＥＯ衛(wèi)星上部署ＭＥＣ服務(wù)器，可以為缺乏計(jì)算資源的偏遠(yuǎn)地區(qū)提供計(jì)算卸載服務(wù)。然而，隨著地面用戶數(shù)量的不斷增加，天地融合網(wǎng)絡(luò)中的計(jì)算卸載場景變得越發(fā)復(fù)雜?，F(xiàn)有研究難以應(yīng)對任務(wù)復(fù)雜、到達(dá)率較高的場景，針對上述問題，在現(xiàn)有算法的基礎(chǔ)上，提出了一種基于深度強(qiáng)化學(xué)習(xí)（ＤｅｅｐＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ，ＤＲＬ）的并行計(jì)算卸載（ＤＲＬ-ｂａｓｅｄＰａｒａｌｌｅｌＣｏｍｐｕｔａｔｉｏｎＯｆｆｌｏａｄｉｎｇ，ＤＰＣＯ）算法。該算法以最小化計(jì)算卸載平均時(shí)延為優(yōu)化目標(biāo)進(jìn)行建模，考慮了阿姆達(dá)爾定律對計(jì)算性能的影響，并對星上服務(wù)器的計(jì)算資源進(jìn)行劃分，以實(shí)現(xiàn)多任務(wù)并行處理的功能。此外，ＤＰＣＯ算法將模型轉(zhuǎn)換為馬爾可夫決策過程（ＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ，ＭＤＰ），并使用Ａ２Ｃ（ＡｄｖａｎｔａｇｅＡｃｔｏｒ-Ｃｒｉｔｉｃ）算法對其進(jìn)行求解。通過仿真實(shí)驗(yàn)驗(yàn)證了ＤＰＣＯ算法性能，結(jié)果表明該算法有效地解決了現(xiàn)有算法的缺陷，可為天地融合網(wǎng)絡(luò)中的計(jì)算卸載算法設(shè)計(jì)提供參考和幫助。

關(guān)鍵詞：計(jì)算卸載；移動(dòng)邊緣計(jì)算；天地融合網(wǎng)絡(luò)；深度強(qiáng)化學(xué)習(xí)

中圖分類號：ＴＮ９２７文獻(xiàn)標(biāo)志碼：Ａ開放科學(xué)（資源服務(wù)）標(biāo)識碼（ＯＳＩＤ）：

文章編號：１００３－３１１４（２０２４）０６－１１７７－０７

０引言

隨著通信技術(shù)的不斷發(fā)展，各種終端設(shè)備之間的頻繁交互顯著增加了對計(jì)算資源的需求［１］。然而，由于終端設(shè)備的計(jì)算能力有限，用戶難以快速完成海量數(shù)據(jù)的計(jì)算任務(wù)。因此，近年來移動(dòng)計(jì)算范式從集中式的云計(jì)算［２］向移動(dòng)邊緣計(jì)算（ＭｏｂｉｌｅＥｄｇｅＣｏｍｐｕｔｉｎｇ，ＭＥＣ）［３－５］轉(zhuǎn)變。ＭＥＣ在傳統(tǒng)云計(jì)算的基礎(chǔ)上，將計(jì)算能力下沉至邊緣，使其更接近用戶的無線接入網(wǎng)絡(luò)。這種方法使得計(jì)算密集型和時(shí)延敏感型應(yīng)用能夠在資源有限的設(shè)備上得以執(zhí)行。與傳統(tǒng)云計(jì)算相比，ＭＥＣ具備了更好的可擴(kuò)展性、可靠性和時(shí)延性能［６］。

隨著天地融合網(wǎng)絡(luò)的發(fā)展，越來越多的學(xué)者開始關(guān)注如何利用衛(wèi)星網(wǎng)絡(luò)中的資源［７－８］。通過利用近地軌道（ＬｏｗＥａｒｔｈＯｒｂｉｔ，ＬＥＯ）衛(wèi)星網(wǎng)絡(luò)的全覆蓋能力，在ＬＥＯ衛(wèi)星節(jié)點(diǎn)上部署計(jì)算服務(wù)器，可以將計(jì)算任務(wù)卸載到衛(wèi)星節(jié)點(diǎn)上。這種方法可以為偏遠(yuǎn)地區(qū)的用戶提供計(jì)算卸載服務(wù)，并顯著減少了任務(wù)處理的時(shí)延。

然而，有限的衛(wèi)星資源和地面用戶日益增長的需求使卸載場景變得越發(fā)復(fù)雜，如何設(shè)計(jì)出高效可靠的計(jì)算卸載算法成為了研究的重點(diǎn)。為充分利用ＬＥＯ衛(wèi)星網(wǎng)絡(luò)中的通信和計(jì)算資源，Ｚｈａｎｇ等［９］提出了一種動(dòng)態(tài)網(wǎng)絡(luò)功能虛擬化技術(shù)來整合衛(wèi)星網(wǎng)絡(luò)的資源。在衛(wèi)星編排器中增加動(dòng)態(tài)資源監(jiān)視器，以實(shí)現(xiàn)對網(wǎng)絡(luò)資源信息的實(shí)時(shí)監(jiān)控。這些信息隨后被傳送給用戶和ＭＥＣ服務(wù)器，用于調(diào)整它們的運(yùn)行策略。

Ｈａｏ等［１０］研究了ＬＥＯ衛(wèi)星ＭＥＣ網(wǎng)絡(luò)中計(jì)算卸載、無線資源分配和緩存設(shè)置的聯(lián)合優(yōu)化問題，其目標(biāo)是最小化所有地面物聯(lián)網(wǎng)設(shè)備的總時(shí)延，同時(shí)確保滿足能量、計(jì)算和緩存約束。為解決這個(gè)混合整數(shù)和非凸問題，提出了一種基于拉格朗日對偶分解的算法來獲得閉式最優(yōu)解；然后提出了一種啟發(fā)式算法以降低計(jì)算復(fù)雜度。然而，該算法沒有考慮任務(wù)排隊(duì)時(shí)延，不能準(zhǔn)確表示處于繁忙狀態(tài)下的衛(wèi)星計(jì)算卸載場景。

Ｌｉｎ等［１１］將ＭＥＣ服務(wù)器上多優(yōu)先級任務(wù)的排隊(duì)時(shí)延納入了考慮，其算法優(yōu)化目標(biāo)是在能耗約束下最小化任務(wù)端到端總時(shí)延，將其建模為一個(gè)混合整數(shù)非線性規(guī)劃問題，并設(shè)計(jì)了基于深度強(qiáng)化學(xué)習(xí)（ＤｅｅｐＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ，ＤＲＬ）的動(dòng)態(tài)任務(wù)卸載（ＤＲＬｂａｓｅｄＤｙｎａｍｉｃＴａｓｋＯｆｆｌｏａｄｉｎｇ，ＤＤＴＯ）算法，可以有效減小任務(wù)處理的總時(shí)延。然而，ＤＤＴＯ算法在單個(gè)ＭＥＣ服務(wù)器上只能同時(shí)計(jì)算一個(gè)任務(wù)，無法實(shí)現(xiàn)多任務(wù)并行計(jì)算。此外，它并未考慮阿姆達(dá)爾定律［１２］對計(jì)算速率的約束，可能導(dǎo)致衛(wèi)星服務(wù)器的計(jì)算資源無法得到充分利用。

為解決上述問題，本文提出了一種基于ＤＲＬ的并行計(jì)算卸載（ＤＲＬｂａｓｅｄＰａｒａｌｌｅｌＣｏｍｐｕｔａｔｉｏｎＯｆｆｌｏａｄｉｎｇ，ＤＰＣＯ）算法。首先，在天地融合網(wǎng)絡(luò)場景中對計(jì)算卸載問題進(jìn)行了建模，并將優(yōu)化目標(biāo)設(shè)置為最小化任務(wù)計(jì)算卸載平均時(shí)延。然后，在建模過程中，考慮了阿姆達(dá)爾定律對計(jì)算性能的影響，并對ＭＥＣ服務(wù)器的計(jì)算資源進(jìn)行劃分，以實(shí)現(xiàn)多任務(wù)的并行處理。在將模型轉(zhuǎn)換為馬爾可夫決策過程（ＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ，ＭＤＰ）時(shí)，將動(dòng)作空間設(shè)置為離散形式，提升了算法的收斂速度。最后，使用Ａ２Ｃ（ＡｄｖａｎｔａｇｅＡｃｔｏｒＣｒｉｔｉｃ）算法求解計(jì)算卸載策略和資源分配策略的優(yōu)化問題。通過仿真測試評估了ＤＰＣＯ算法的性能，與現(xiàn)有算法相比，ＤＰＣＯ顯著減少了任務(wù)的計(jì)算卸載平均時(shí)延，并在特定場景中展示出更加顯著的優(yōu)化效果。

１天地融合網(wǎng)絡(luò)計(jì)算卸載模型

本文提出了一個(gè)天地融合網(wǎng)絡(luò)計(jì)算卸載場景的系統(tǒng)模型，如圖１所示。該模型由搭載ＭＥＣ服務(wù)器的ＬＥＯ衛(wèi)星組成，可以為地面用戶提供計(jì)算卸載服務(wù)。在天地融合網(wǎng)絡(luò)中設(shè)有Ｍ顆衛(wèi)星，每顆衛(wèi)星攜帶一個(gè)ＭＥＣ服務(wù)器，記作集合Ｓ＝｛ｓ１，ｓ２，…，ｓＭ｝，可為覆蓋區(qū)域內(nèi)的Ｎ個(gè)地面用戶提供服務(wù)，用戶集合記作Ｕ＝｛ｕ１，ｕ２，…，ｕＮ｝。在時(shí)隙ｔ開始時(shí)，每個(gè)用戶ｕｎ生成待處理的任務(wù)集合Ｍｎ（ｔ）＝｛ωｎ（ｔ），ｚｎ（ｔ），ｐｒｉｎ（ｔ）｝，其中ωｎ（ｔ）表示任務(wù)計(jì)算量；ｚｎ（ｔ）表示任務(wù)數(shù)據(jù)量；ｐｒｉｎ（ｔ）表示任務(wù)優(yōu)先級，且定義ｐｒｉｎ（ｔ）∈［１，２，…，ＰＲＩＮ］。

綜上所述，當(dāng)任務(wù)被卸載到衛(wèi)星ＭＥＣ服務(wù)器時(shí)，總的計(jì)算時(shí)延可以表示為：

ｄＣｎ，ｍ（ｔ）＝ｄＰｎ，ｍ（ｔ）＋ｄＱｎ，ｍ（ｔ）。（１３）

１．３計(jì)算卸載問題建模

本文的優(yōu)化目標(biāo)是在一定的能耗約束下，最小化任務(wù)的平均計(jì)算卸載平均時(shí)延。基于前文構(gòu)建的模型，該優(yōu)化問題可表示為：

式中：Ｅｉ表示用戶ｕｉ的電池容量，ｓｉ（ｔ）∈｛０，１｝定義為一個(gè)二元變量。具體來說，當(dāng)任務(wù)被卸載到衛(wèi)星ＭＥＣ服務(wù)器時(shí)，ｓｉ（ｔ）＝１；當(dāng)任務(wù)執(zhí)行本地計(jì)算時(shí)，ｓｉ（ｔ）＝０。

優(yōu)化函數(shù)的含義為：在時(shí)間周期Ｔ內(nèi)，最小化任務(wù)的計(jì)算卸載平均時(shí)延。約束條件規(guī)定了用戶的本地計(jì)算能耗和總傳輸能耗在周期Ｔ內(nèi)不得超過電池容量。該優(yōu)化目標(biāo)是一個(gè)ＮＰｈａｒｄ問題，可通過將其建模為一個(gè)ＭＤＰ來進(jìn)行求解。

２ＤＰＣＯ算法介紹

２．１基于ＭＤＰ的任務(wù)卸載問題設(shè)計(jì)

ＭＤＰ是序列隨機(jī)決策問題的模型，因此被廣泛用于自主代理通過動(dòng)作影響其周圍環(huán)境的應(yīng)用［１７］。

本文將ＭＤＰ定義為一個(gè)四元組opy＝｛Ｓ，Ａ，Ｐ，Ｒ｝，其中Ｓ和Ａ分別表示狀態(tài)空間和動(dòng)作空間，Ｐ表示狀態(tài)轉(zhuǎn)移函數(shù)，Ｒ表示獎(jiǎng)勵(lì)函數(shù)?；谏瞎?jié)所描述的優(yōu)化問題，可構(gòu)建ＭＤＰ模型如下：

① 狀態(tài)空間。記為ｓ（ｔ），表示智能體（ａｇｅｎｔ）在每個(gè)時(shí)隙ｔ可以觀測到的狀態(tài)信息的集合。在本文的模型中是指任務(wù)和ＭＥＣ服務(wù)器的參數(shù)信息：

ｓ（ｔ）＝｛ｚ（ｔ），ｗ（ｔ），ｆＳ（ｔ），ｐｒｉｎ（ｔ）｝。（１６）

② 動(dòng)作空間。記為ａ（ｔ），表示智能體基于觀測到的狀態(tài)信息ｓ（ｔ）可能采取的動(dòng)作集合：

ａ（ｔ）＝｛［ａｎ（ｔ）］１×Ｎ，［ｋｍ（ｔ）］１×Ｍ｝１×（Ｎ＋Ｍ）。（１７）

③ 獎(jiǎng)勵(lì)函數(shù)。獎(jiǎng)勵(lì)函數(shù)ｒ（ｔ）表示在狀態(tài)ｓ（ｔ）下采取動(dòng)作ａ（ｔ）所獲得的獎(jiǎng)勵(lì)。

在ＭＤＰ問題中，設(shè)置合理的獎(jiǎng)勵(lì)函數(shù)是解決問題的基礎(chǔ)。獎(jiǎng)勵(lì)函數(shù)通常設(shè)定為在不滿足約束時(shí)取極小值，而本文的優(yōu)化目標(biāo)是最小化計(jì)算卸載平均時(shí)延。因此，當(dāng)約束滿足時(shí)，將平均時(shí)延取負(fù)值作為獎(jiǎng)勵(lì)函數(shù)。相反，如果約束未滿足，則取一個(gè)極小值作為獎(jiǎng)勵(lì)函數(shù)，以保持模型的科學(xué)嚴(yán)謹(jǐn)性。獎(jiǎng)勵(lì)函數(shù)ｒ（ｔ）定義為：

２．２ＤＰＣＯ算法設(shè)計(jì)

為解決上述ＭＤＰ問題，設(shè)計(jì)了一種ＤＰＣＯ算法。在多種經(jīng)典的ＤＲＬ方法中，選擇使用Ａ２Ｃ算法［１８］。這是因?yàn)椋粒玻?算法對計(jì)算能力需求較低，并且在處理較大狀態(tài)空間時(shí)有著優(yōu)秀的性能，特別適用于計(jì)算資源有限且復(fù)雜的天地融合網(wǎng)絡(luò)計(jì)算卸載場景。

ＤＰＣＯ算法的狀態(tài)空間、動(dòng)作空間和獎(jiǎng)勵(lì)函數(shù)的建模方法已在前文進(jìn)行了詳細(xì)介紹。將動(dòng)作空間策略性地建模為離散形式，可以加快ＤＰＣＯ算法的收斂速度，使其更好地適配ＬＥＯ衛(wèi)星高動(dòng)態(tài)性的特點(diǎn)。

將當(dāng)前狀態(tài)和動(dòng)作分別表示為向量形式ｓｔ，ａｔ，并將策略網(wǎng)絡(luò)記其為πθ，其以當(dāng)前狀態(tài)ｓｔ作為輸入，輸出策略π（ａｔｓｔ；θ）。將價(jià)值網(wǎng)絡(luò)記為Ｖω，以當(dāng)前狀態(tài)ｓｔ和策略作為輸入，輸出預(yù)期獎(jiǎng)勵(lì)Ｖπ（ｓｔ）。在訓(xùn)練過程中，通過網(wǎng)絡(luò)的輸出迭代更新策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)的參數(shù)θ 和ω。

動(dòng)作－價(jià)值函數(shù)表示為Ｑπ（ｓｔ，ａｔ）＝Ｅπ ［Ｒｔ｜ｓｔ＝ｓ，ａｔ＝ａ］，其含義為在狀態(tài)ｓｔ下采取動(dòng)作ａｔ獲得的預(yù)期累計(jì)收益。狀態(tài)－價(jià)值函數(shù)表示為Ｖπ（ｓｔ）＝Ｅπ［Ｒｔ｜ｓｔ＝ｓ，πｔ＝ π］，其含義為在狀態(tài)ｓｔ下遵循策略πｔ獲得的預(yù)期累計(jì)收益。Ａ２Ｃ算法的優(yōu)勢函數(shù)定義為：

Ａπ（ｓｔ，ａｔ）Ｑπ（ｓｔ，ａｔ）－Ｖπ（ｓｔ）＝ｒ＋γＶπ（ｓｔ＋１）－Ｖπ（ｓｔ）。（２０）

由于狀態(tài)－價(jià)值函數(shù)無法直接觀測，必須通過一個(gè)參數(shù)化網(wǎng)絡(luò)進(jìn)行估計(jì)，記為Ｖω。該網(wǎng)絡(luò)通過時(shí)序差分（ＴｅｍｐｏｒａｌＤｉｆｆｅｒｅｎｃｅ，ＴＤ）算法進(jìn)行更新。計(jì)算出ＴＤ誤差后，使用均方誤差（ＭｅａｎＳｑｕａｒｅｄＥｒｒｏｒ，ＭＳＥ）準(zhǔn)則最小化ＴＤ誤差，從而實(shí)現(xiàn)網(wǎng)絡(luò)參數(shù)的更新。

ＤＰＣＯ算法的偽代碼如算法１所示。

３仿真結(jié)果分析

３．１仿真實(shí)驗(yàn)設(shè)置

本次仿真在Ｐｙｔｈｏｎ３．９環(huán)境下進(jìn)行。ＤＰＣＯ算法的系統(tǒng)模型已在前文中進(jìn)行了詳細(xì)介紹。在ＤＰＣＯ算法中，策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)均設(shè)置為４層，包括一個(gè)輸入層、一個(gè)輸出層和兩個(gè)隱藏層。策略網(wǎng)絡(luò)隱藏層中的神經(jīng)元數(shù)量分別為２０４８和１０２４，而價(jià)值網(wǎng)絡(luò)隱藏層中的神經(jīng)元數(shù)量分別為１０２４和５１２。使用Ｇｉｇａｃｙｃｌｅ（ＧＣ）作為任務(wù)計(jì)算量的單位。仿真實(shí)驗(yàn)中的其他參數(shù)如表１所示。

３．２算法收斂性分析

對Ａ２Ｃ算法和近端策略優(yōu)化（ＰｒｏｘｉｍａｌＰｏｌｉｃｙＯｐｔｉｍｉｚａｔｉｏｎ，ＰＰＯ）［１９］兩種算法常用的強(qiáng)化學(xué)習(xí)算法的收斂速度進(jìn)行分析，如圖２所示。當(dāng)二者收斂到相同的平均時(shí)延時(shí)，Ａ２Ｃ算法僅需要２０００個(gè)Ｅｐｉｓｏｄｅ，而ＰＰＯ算法則需要２００００個(gè)Ｅｐｉｓｏｄｅ，因此，基于Ａ２Ｃ的ＤＰＣＯ算法可以大大提高計(jì)算卸載的效率。

學(xué)習(xí)率對ＤＰＣＯ算法收斂性的影響如圖３所示，當(dāng)學(xué)習(xí)率為０．０１時(shí)，平均時(shí)延曲線收斂到２．１ｓ；當(dāng)學(xué)習(xí)率為０．００１時(shí)，平均時(shí)延曲線在２０００個(gè)Ｅｐｉｓｏｄｅ后收斂到０．５ｓ。當(dāng)學(xué)習(xí)率為０．０００１時(shí)，平均時(shí)延曲線在２００００個(gè)Ｅｐｉｓｏｄｅ后收斂到０．５ｓ。結(jié)果表明，過高的學(xué)習(xí)率雖然可以加快收斂速度，但可能導(dǎo)致算法陷入局部最優(yōu)而無法達(dá)到全局最優(yōu)。反之，如果學(xué)習(xí)率過低，收斂速度將過于緩慢，從而降低算法的效率。

３．３算法性能對比測試

本節(jié)從任務(wù)計(jì)算量、數(shù)據(jù)量和到達(dá)率３個(gè)方面對算法平均時(shí)延進(jìn)行評估，并將ＤＰＣＯ算法與３種不同計(jì)算卸載算法進(jìn)行比較。① ＤＤＴＯ算法：一種基于ＤＲＬ的彈性衛(wèi)星網(wǎng)絡(luò)邊緣卸載策略。② 隨機(jī)卸載算法：將任務(wù)隨機(jī)卸載到衛(wèi)星服務(wù)器。③ 本地卸載算法：任務(wù)在本地設(shè)備上進(jìn)行處理。

３．３．１任務(wù)計(jì)算量對計(jì)算卸載性能的影響

任務(wù)到達(dá)率設(shè)定為每分鐘１０８個(gè)，任務(wù)數(shù)據(jù)量遵循均值為４Ｍｂｉｔ的正態(tài)分布。仿真結(jié)果如圖４所示，ＤＰＣＯ算法相比于ＤＤＴＯ、隨機(jī)卸載和本地卸載算法，分別減少了２５％、５９％和８１％的平均時(shí)延。此外，當(dāng)任務(wù)計(jì)算量較小時(shí)，ＤＰＣＯ算法相較于ＤＤＴＯ算法的時(shí)延性能優(yōu)勢更加明顯，最高可減少４８％。而在任務(wù)計(jì)算量較大時(shí)，ＤＰＣＯ算法也能保證與ＤＤＴＯ算法相當(dāng)?shù)男阅堋?/p>

上述結(jié)果表明，ＤＰＣＯ算法在處理低計(jì)算需求任務(wù)時(shí)，能夠有效克服現(xiàn)有計(jì)算卸載算法的性能限制。同時(shí)，ＤＰＣＯ算法在其他場景中也能保證出色的性能。

３．３．２任務(wù)數(shù)據(jù)量對計(jì)算卸載性能的影響

任務(wù)到達(dá)率設(shè)定為每分鐘１０８個(gè)，任務(wù)計(jì)算量遵循均值為３．５ＧＣ的正態(tài)分布。仿真結(jié)果如圖５所示，與ＤＤＴＯ算法、隨機(jī)卸載和本地卸載算法相比，ＤＰＣＯ算法的平均時(shí)延分別降低了４１％、５８％和８０％。

３．３．３任務(wù)到達(dá)率對計(jì)算卸載性能的影響

任務(wù)數(shù)據(jù)量設(shè)置為遵循均值為４Ｍｂｉｔ的正態(tài)分布，任務(wù)計(jì)算量遵循均值為３．５ＧＣ的正態(tài)分布，仿真結(jié)果如圖６所示。隨著到達(dá)率的增加，ＤＤＴＯ算法的平均時(shí)延迅速上升，而ＤＰＣＯ算法的時(shí)延保持相對穩(wěn)定。這種穩(wěn)定性得益于ＤＰＣＯ算法能夠動(dòng)態(tài)地將ＭＥＣ服務(wù)器的計(jì)算資源劃分為多個(gè)邏輯子服務(wù)器，從而實(shí)現(xiàn)單個(gè)ＭＥＣ服務(wù)器上的并行計(jì)算，減少了任務(wù)排隊(duì)時(shí)延。

４結(jié)束語

本文提出了一種ＤＰＣＯ算法，對天地融合網(wǎng)絡(luò)中的計(jì)算卸載問題進(jìn)行建模，優(yōu)化目標(biāo)為最小化計(jì)算卸載平均時(shí)延?？紤]了阿姆達(dá)爾定律對計(jì)算性能的影響，并將服務(wù)器劃分為多個(gè)邏輯子服務(wù)器，以實(shí)現(xiàn)多任務(wù)并行處理；將問題轉(zhuǎn)化為ＭＤＰ，并將動(dòng)作空間設(shè)計(jì)為離散形式，以提高模型的收斂速度；使用Ａ２Ｃ算法解決計(jì)算卸載和資源分配策略的優(yōu)化問題。仿真結(jié)果表明，ＤＰＣＯ算法在任務(wù)計(jì)算卸載平均時(shí)延方面的性能顯著優(yōu)于ＤＤＴＯ、隨機(jī)卸載和本地卸載算法?？偠灾?，ＤＰＣＯ算法有效地解決了現(xiàn)有算法中的性能缺陷，尤其是在任務(wù)到達(dá)率高且計(jì)算要求較低的場景中有著不錯(cuò)的表現(xiàn)，可以為天地融合網(wǎng)絡(luò)中的計(jì)算卸載算法設(shè)計(jì)提供參考和幫助。

參考文獻(xiàn)

［１］施巍松，孫輝，曹杰，等．邊緣計(jì)算：萬物互聯(lián)時(shí)代新型計(jì)算模型［Ｊ］．計(jì)算機(jī)研究與發(fā)展，２０１７，５４（５）：９０７－９２４．

［２］陳全，鄧倩妮．云計(jì)算及其關(guān)鍵技術(shù)［Ｊ］．計(jì)算機(jī)應(yīng)用，２００９，２９（９）：２５６２－２５６７．

［３］謝人超，廉曉飛，賈慶民，等．移動(dòng)邊緣計(jì)算卸載技術(shù)綜述［Ｊ］．通信學(xué)報(bào)，２０１８，３９（１１）：１３８－１５５．

［４］李子姝，謝人超，孫禮，等．移動(dòng)邊緣計(jì)算綜述［Ｊ］．電信科學(xué)，２０１８，３４（１）：８７－１０１．

［５］ＭＡＯＹＹ，ＹＯＵＣＳ，ＺＨＡＮＧＪ，ｅｔａｌ．ＡＳｕｒｖｅｙｏｎＭｏｂｉｌｅＥｄｇｅＣｏｍｐｕｔｉｎｇ：ＴｈｅＣｏｍｍｕｎｉｃａｔｉｏｎＰｅｒｓｐｅｃｔｉｖｅ［Ｊ］．ＩＥＥＥＣｏｍｍｕｎｉｃａｔｉｏｎｓＳｕｒｖｅｙｓ＆Ｔｕｔｏｒｉａｌｓ，２０１７，１９（４）：２３２２－２３５８．

［６］ＭＥＨＲＡＢＩＭ，ＹＯＵＤＨ，ＬＡＴＺＫＯＶ，ｅｔａｌ．ＤｅｖｉｃｅｅｎｈａｎｃｅｄＭＥＣ：ＭｕｌｔｉａｃｃｅｓｓＥｄｇｅＣｏｍｐｕｔｉｎｇ（ＭＥＣ）ＡｉｄｅｄｂｙＥｎｄＤｅｖｉｃｅＣｏｍｐｕｔａｔｉｏｎａｎｄＣａｃｈｉｎｇ：ＡＳｕｒｖｅｙ［Ｊ］．ＩＥＥＥＡｃｃｅｓｓ，２０１９，７：１６６０７９－１６６１０８．

［７］唐琴琴，謝人超，劉旭，等．融合ＭＥＣ的星地協(xié)同網(wǎng)絡(luò)：架構(gòu)、關(guān)鍵技術(shù)與挑戰(zhàn)［Ｊ］．通信學(xué)報(bào)，２０２０，４１（４）：１６２－１８１．

［８］唐清清，李斌．面向空天地一體化網(wǎng)絡(luò)的移動(dòng)邊緣計(jì)算技術(shù)［Ｊ］．無線電通信技術(shù)，２０２１，４７（１）：２７－３５．

［９］ＺＨＡＮＧＺＪ，ＺＨＡＮＧＷＹ，ＴＳＥＮＧＦＨ．ＳａｔｅｌｌｉｔｅＭｏｂｉｌｅＥｄｇｅＣｏｍｐｕｔｉｎｇ：ＩｍｐｒｏｖｉｎｇＱｏＳｏｆＨｉｇｈｓｐｅｅｄＳａｔｅｌｌｉｔｅＴｅｒｒｅｓｔｒｉａｌＮｅｔｗｏｒｋｓＵｓｉｎｇＥｄｇｅＣｏｍｐｕｔｉｎｇＴｅｃｈｎｉｑｕｅｓ［Ｊ］．ＩＥＥＥＮｅｔｗｏｒｋ，２０１９，３３（１）：７０－７６．

［１０］ＨＡＯＹＹ，ＳＯＮＧＺＹ，ＺＨＥＮＧＺ，ｅｔａｌ．ＪｏｉｎｔＣｏｍｍｕｎｉｃａｔｉｏｎ，Ｃｏｍｐｕｔｉｎｇ，ａｎｄＣａｃｈｉｎｇＲｅｓｏｕｒｃｅＡｌｌｏｃａｔｉｏｎｉｎＬＥＯＳａｔｅｌｌｉｔｅＭＥＣＮｅｔｗｏｒｋｓ［Ｊ］．ＩＥＥＥＡｃｃｅｓｓ，２０２３，１１：６７０８－６７１６．

［１１］ＬＩＮＴＨ，ＬＵＯＺＹ．ＡＨｉｇｈｐｅｒｆｏｒｍａｎｃｅＤＲＬｂａｓｅｄＭｏｂｉｌｅＥｄｇｅＯｆｆｌｏａｄｉｎｇｆｏｒＥｌａｓｔｉｃＳａｔｅｌｌｉｔｅＮｅｔｗｏｒｋ［Ｃ］∥２０２２ＷｏｒｋｓｈｏｐｏｎＥｌｅｃｔｒｏｎｉｃｓＣｏｍｍｕｎｉｃａｔｉｏｎＥｎｇｉｎｅｅｒｉｎｇ．Ｂｅｌｌｉｎｇｈａｍ：ＳＰＩＥ，２０２３，１２７２０：５５－６９．

［１２］ＡＭＤＡＨＬＧＭ．ＶａｌｉｄｉｔｙｏｆｔｈｅＳｉｎｇｌｅＰｒｏｃｅｓｓｏｒＡｐｐｒｏａｃｈｔｏＡｃｈｉｅｖｉｎｇＬａｒｇｅＳｃａｌｅＣｏｍｐｕｔｉｎｇＣａｐａｂｉｌｉｔｉｅｓ［Ｃ］∥ＡＦＩＰＳＣｏｎｆｅｒｅｎｃｅＰｒｏｃｅｅｄｉｎｇｓ．Ｒｅｓｔｏｎ：ＡＦＩＰＳＰｒｅｓｓ，１９６７：４８３－４８５．

［１３］ＭＵＮＯＺＯ，ＰＡＳＣＵＡＬＩＳＥＲＴＥＡ，ＶＩＤＡＬＪ．ＯｐｔｉｍｉｚａｔｉｏｎｏｆＲａｄｉｏａｎｄＣｏｍｐｕｔａｔｉｏｎａｌＲｅｓｏｕｒｃｅｓｆｏｒＥｎｅｒｇｙＥｆｆｉｃｉｅｎｃｙｉｎＬａｔｅｎｃｙｃｏｎｓｔｒａｉｎｅｄＡｐｐｌｉｃａｔｉｏｎＯｆｆｌｏａｄｉｎｇ［Ｊ］．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＶｅｈｉｃｕｌａｒＴｅｃｈｎｏｌｏｇｙ，２０１４，６４（１０）：４７３８－４７５５．

［１４］ＰＩＮＥＬＬＣ，ＰＲＯＬＦＳ，ＢＨＵＩＹＡＮＭＺＨ，ｅｔａｌ．ＲｅｃｅｉｖｅｒＡｒｃｈｉｔｅｃｔｕｒｅｓｆｏｒＰｏｓｉｔｉｏｎｉｎｇｗｉｔｈＬｏｗＥａｒｔｈＯｒｂｉｔＳａｔｅｌｌｉｔｅＳｉｇｎａｌｓ：ＡＳｕｒｖｅｙ［Ｊ］．ＥＵＲＡＳＩＰＪｏｕｒｎａｌｏｎＡｄｖａｎｃｅｓｉｎＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，２０２３，２０２３（１）：６０．

［１５］ＹＵＥＰＹ，ＡＮＪＰ，ＺＨＡＮＧＪＫ，ｅｔａｌ．ＬｏｗＥａｒｔｈＯｒｂｉｔＳａｔｅｌｌｉｔｅＳｅｃｕｒｉｔｙａｎｄＲｅｌｉａｂｉｌｉｔｙ：Ｉｓｓｕｅｓ，Ｓｏｌｕｔｉｏｎｓ，ａｎｄｔｈｅＲｏａｄＡｈｅａｄ［Ｊ］．ＩＥＥＥＣｏｍｍｕｎｉｃａｔｉｏｎｓＳｕｒｖｅｙｓ＆Ｔｕｔｏｒｉａｌｓ，２０２３，２５（３）：１６０４－１６５２．

［１６］ＭＩＳＨＲＡＭＲ，ＤＡＳＨＢＢ，ＧＯＳＷＡＭＩＶ，ｅｔａｌ．ＡＮｅｗＴａｓｋＯｆｆｌｏａｄｉｎｇＳｃｈｅｍｅｆｏｒＧｅｏｓｐａｔｉａｌＦｏｇＣｏｍｐｕｔｉｎｇＥｎｖｉｒｏｎｍｅｎｔＵｓｉｎｇＭ／Ｍ／ＣＱｕｅｕｅｉｎｇＡｐｐｒｏａｃｈ［Ｃ］∥ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｄｖａｎｃｅｓａｎｄＡｐｐｌｉｃａｔｉｏｎｓｏｆＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅａｎｄＭａｃｈｉｎｅＬｅａｒｎｉｎｇ．Ｓｉｎｇａｐｏｒｅ：ＳｐｒｉｎｇｅｒＮａｔｕｒｅＳｉｎｇａｐｏｒｅ，２０２２：１０５－１１３．

［１７］ＳＨＡＮＩＧ，ＨＥＣＫＥＲＭＡＮＤ，ＢＲＡＦＭＡＮＲＩ，ｅｔａｌ．ＡｎＭＤＰｂａｓｅｄＲｅｃｏｍｍｅｎｄｅｒＳｙｓｔｅｍ［Ｊ］．ＪｏｕｒｎａｌｏｆＭａｃｈｉｎｅＬｅａｒｎｉｎｇＲｅｓｅａｒｃｈ，２００５，６（９）：１２６５－１２９５．

［１８］ＭＮＩＨＶ，ＢＡＤＩＡＡＰ，ＭＩＲＺＡＭ，ｅｔａｌ．ＡｓｙｎｃｈｒｏｎｏｕｓＭｅｔｈｏｄｓｆｏｒＤｅｅｐＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ［Ｃ］∥Ｔｈｅ３３ｒｄＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ．ＮｅｗＹｏｒｋ：ＰＭＬＲ，２０１６：１９２８－１９３７．

［１９］ＳＣＨＵＬＭＡＮＪ，ＷＯＬＳＫＩＦ，ＤＨＡＲＩＷＡＬＰ，ｅｔａｌ．ＰｒｏｘｉｍａｌＰｏｌｉｃｙＯｐｔｉｍｉｚａｔｉｏｎＡｌｇｏｒｉｔｈｍｓ［ＥＢ／ＯＬ］．（２０１７－０７－２０）［２０２４－０７－２８］．ｈｔｔｐｓ：∥ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１７０７．０６３４７．

作者簡介：

王從羽男，（２０００—），碩士研究生。主要研究方向：邊緣計(jì)算卸載。

（*通信作者）羅志勇男，（１９７３—），博士，教授，博士生導(dǎo)師。主要研究方向：衛(wèi)星互聯(lián)網(wǎng)一體化融合、無線通感算融合賦能技術(shù)、通信人工智能應(yīng)用。

基金項(xiàng)目：國家重點(diǎn)研發(fā)計(jì)劃（２０２３ＹＦＢ２９０４７０１）；廣東省基礎(chǔ)與應(yīng)用基礎(chǔ)研究基金（２０２３Ｂ１５１５１２００９３）；廣東省重點(diǎn)研發(fā)計(jì)劃（２０２４Ｂ０１０１０２０００６）；深圳市重點(diǎn)項(xiàng)目（ＫＪＺＤ２０２３０９２８１１２７５９００２）