• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      天地融合網(wǎng)絡(luò)中基于深度強(qiáng)化學(xué)習(xí)的計(jì)算卸載算法研究

      2024-12-26 00:00:00王從羽羅志勇
      無線電通信技術(shù) 2024年6期
      關(guān)鍵詞:深度強(qiáng)化學(xué)習(xí)

      摘 要:隨著近地軌道(Low Earth Orbit,LEO)衛(wèi)星網(wǎng)絡(luò)和移動(dòng)邊緣計(jì)算(Mobile Edge Computing,MEC)技術(shù)的發(fā)展,通過在LEO 衛(wèi)星上部署MEC 服務(wù)器,可以為缺乏計(jì)算資源的偏遠(yuǎn)地區(qū)提供計(jì)算卸載服務(wù)。然而,隨著地面用戶數(shù)量的不斷增加,天地融合網(wǎng)絡(luò)中的計(jì)算卸載場景變得越發(fā)復(fù)雜?,F(xiàn)有研究難以應(yīng)對任務(wù)復(fù)雜、到達(dá)率較高的場景,針對上述問題,在現(xiàn)有算法的基礎(chǔ)上,提出了一種基于深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)的并行計(jì)算卸載(DRL-based Parallel Computation Offloading,DPCO)算法。該算法以最小化計(jì)算卸載平均時(shí)延為優(yōu)化目標(biāo)進(jìn)行建模,考慮了阿姆達(dá)爾定律對計(jì)算性能的影響,并對星上服務(wù)器的計(jì)算資源進(jìn)行劃分,以實(shí)現(xiàn)多任務(wù)并行處理的功能。此外,DPCO 算法將模型轉(zhuǎn)換為馬爾可夫決策過程(Markov Decision Process,MDP),并使用A2C(Advantage Actor-Critic)算法對其進(jìn)行求解。通過仿真實(shí)驗(yàn)驗(yàn)證了DPCO 算法性能,結(jié)果表明該算法有效地解決了現(xiàn)有算法的缺陷,可為天地融合網(wǎng)絡(luò)中的計(jì)算卸載算法設(shè)計(jì)提供參考和幫助。

      關(guān)鍵詞:計(jì)算卸載;移動(dòng)邊緣計(jì)算;天地融合網(wǎng)絡(luò);深度強(qiáng)化學(xué)習(xí)

      中圖分類號:TN927 文獻(xiàn)標(biāo)志碼:A 開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):

      文章編號:1003-3114(2024)06-1177-07

      0 引言

      隨著通信技術(shù)的不斷發(fā)展,各種終端設(shè)備之間的頻繁交互顯著增加了對計(jì)算資源的需求[1]。然而,由于終端設(shè)備的計(jì)算能力有限,用戶難以快速完成海量數(shù)據(jù)的計(jì)算任務(wù)。因此,近年來移動(dòng)計(jì)算范式從集中式的云計(jì)算[2]向移動(dòng)邊緣計(jì)算(MobileEdge Computing,MEC)[3-5]轉(zhuǎn)變。MEC 在傳統(tǒng)云計(jì)算的基礎(chǔ)上,將計(jì)算能力下沉至邊緣,使其更接近用戶的無線接入網(wǎng)絡(luò)。這種方法使得計(jì)算密集型和時(shí)延敏感型應(yīng)用能夠在資源有限的設(shè)備上得以執(zhí)行。與傳統(tǒng)云計(jì)算相比,MEC 具備了更好的可擴(kuò)展性、可靠性和時(shí)延性能[6]。

      隨著天地融合網(wǎng)絡(luò)的發(fā)展,越來越多的學(xué)者開始關(guān)注如何利用衛(wèi)星網(wǎng)絡(luò)中的資源[7-8]。通過利用近地軌道(Low Earth Orbit,LEO)衛(wèi)星網(wǎng)絡(luò)的全覆蓋能力,在LEO 衛(wèi)星節(jié)點(diǎn)上部署計(jì)算服務(wù)器,可以將計(jì)算任務(wù)卸載到衛(wèi)星節(jié)點(diǎn)上。這種方法可以為偏遠(yuǎn)地區(qū)的用戶提供計(jì)算卸載服務(wù),并顯著減少了任務(wù)處理的時(shí)延。

      然而,有限的衛(wèi)星資源和地面用戶日益增長的需求使卸載場景變得越發(fā)復(fù)雜,如何設(shè)計(jì)出高效可靠的計(jì)算卸載算法成為了研究的重點(diǎn)。為充分利用LEO 衛(wèi)星網(wǎng)絡(luò)中的通信和計(jì)算資源,Zhang 等[9]提出了一種動(dòng)態(tài)網(wǎng)絡(luò)功能虛擬化技術(shù)來整合衛(wèi)星網(wǎng)絡(luò)的資源。在衛(wèi)星編排器中增加動(dòng)態(tài)資源監(jiān)視器,以實(shí)現(xiàn)對網(wǎng)絡(luò)資源信息的實(shí)時(shí)監(jiān)控。這些信息隨后被傳送給用戶和MEC 服務(wù)器,用于調(diào)整它們的運(yùn)行策略。

      Hao 等[10]研究了LEO 衛(wèi)星MEC 網(wǎng)絡(luò)中計(jì)算卸載、無線資源分配和緩存設(shè)置的聯(lián)合優(yōu)化問題,其目標(biāo)是最小化所有地面物聯(lián)網(wǎng)設(shè)備的總時(shí)延,同時(shí)確保滿足能量、計(jì)算和緩存約束。為解決這個(gè)混合整數(shù)和非凸問題,提出了一種基于拉格朗日對偶分解的算法來獲得閉式最優(yōu)解;然后提出了一種啟發(fā)式算法以降低計(jì)算復(fù)雜度。然而,該算法沒有考慮任務(wù)排隊(duì)時(shí)延,不能準(zhǔn)確表示處于繁忙狀態(tài)下的衛(wèi)星計(jì)算卸載場景。

      Lin 等[11]將MEC 服務(wù)器上多優(yōu)先級任務(wù)的排隊(duì)時(shí)延納入了考慮,其算法優(yōu)化目標(biāo)是在能耗約束下最小化任務(wù)端到端總時(shí)延,將其建模為一個(gè)混合整數(shù)非線性規(guī)劃問題,并設(shè)計(jì)了基于深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)的動(dòng)態(tài)任務(wù)卸載(DRLbased Dynamic Task Offloading,DDTO)算法,可以有效減小任務(wù)處理的總時(shí)延。然而,DDTO算法在單個(gè)MEC 服務(wù)器上只能同時(shí)計(jì)算一個(gè)任務(wù),無法實(shí)現(xiàn)多任務(wù)并行計(jì)算。此外,它并未考慮阿姆達(dá)爾定律[12]對計(jì)算速率的約束,可能導(dǎo)致衛(wèi)星服務(wù)器的計(jì)算資源無法得到充分利用。

      為解決上述問題,本文提出了一種基于DRL 的并行計(jì)算卸載(DRLbased Parallel Computation Offloading,DPCO)算法。首先,在天地融合網(wǎng)絡(luò)場景中對計(jì)算卸載問題進(jìn)行了建模,并將優(yōu)化目標(biāo)設(shè)置為最小化任務(wù)計(jì)算卸載平均時(shí)延。然后,在建模過程中,考慮了阿姆達(dá)爾定律對計(jì)算性能的影響,并對MEC 服務(wù)器的計(jì)算資源進(jìn)行劃分,以實(shí)現(xiàn)多任務(wù)的并行處理。在將模型轉(zhuǎn)換為馬爾可夫決策過程(Markov DecisionProcess,MDP)時(shí),將動(dòng)作空間設(shè)置為離散形式,提升了算法的收斂速度。最后,使用A2C(AdvantageActorCritic)算法求解計(jì)算卸載策略和資源分配策略的優(yōu)化問題。通過仿真測試評估了DPCO 算法的性能,與現(xiàn)有算法相比,DPCO 顯著減少了任務(wù)的計(jì)算卸載平均時(shí)延,并在特定場景中展示出更加顯著的優(yōu)化效果。

      1 天地融合網(wǎng)絡(luò)計(jì)算卸載模型

      本文提出了一個(gè)天地融合網(wǎng)絡(luò)計(jì)算卸載場景的系統(tǒng)模型,如圖1 所示。該模型由搭載MEC 服務(wù)器的LEO 衛(wèi)星組成,可以為地面用戶提供計(jì)算卸載服務(wù)。在天地融合網(wǎng)絡(luò)中設(shè)有M 顆衛(wèi)星,每顆衛(wèi)星攜帶一個(gè)MEC 服務(wù)器,記作集合S={s1,s2,…,sM},可為覆蓋區(qū)域內(nèi)的N 個(gè)地面用戶提供服務(wù),用戶集合記作U={u1,u2,…,uN}。在時(shí)隙t 開始時(shí),每個(gè)用戶un 生成待處理的任務(wù)集合Mn(t)= {ωn(t),zn(t),prin(t)},其中ωn(t)表示任務(wù)計(jì)算量;zn(t)表示任務(wù)數(shù)據(jù)量;prin (t )表示任務(wù)優(yōu)先級,且定義prin(t)∈[1,2,…,PRIN]。

      綜上所述,當(dāng)任務(wù)被卸載到衛(wèi)星MEC 服務(wù)器時(shí),總的計(jì)算時(shí)延可以表示為:

      dCn,m(t)= dPn,m(t)+dQn,m(t)。(13)

      1. 3 計(jì)算卸載問題建模

      本文的優(yōu)化目標(biāo)是在一定的能耗約束下,最小化任務(wù)的平均計(jì)算卸載平均時(shí)延。基于前文構(gòu)建的模型,該優(yōu)化問題可表示為:

      式中:Ei 表示用戶ui 的電池容量,si(t)∈{0,1}定義為一個(gè)二元變量。具體來說,當(dāng)任務(wù)被卸載到衛(wèi)星MEC 服務(wù)器時(shí),si(t)= 1;當(dāng)任務(wù)執(zhí)行本地計(jì)算時(shí),si(t)= 0。

      優(yōu)化函數(shù)的含義為:在時(shí)間周期T 內(nèi),最小化任務(wù)的計(jì)算卸載平均時(shí)延。約束條件規(guī)定了用戶的本地計(jì)算能耗和總傳輸能耗在周期T 內(nèi)不得超過電池容量。該優(yōu)化目標(biāo)是一個(gè)NPhard 問題,可通過將其建模為一個(gè)MDP 來進(jìn)行求解。

      2 DPCO 算法介紹

      2. 1 基于MDP 的任務(wù)卸載問題設(shè)計(jì)

      MDP 是序列隨機(jī)決策問題的模型,因此被廣泛用于自主代理通過動(dòng)作影響其周圍環(huán)境的應(yīng)用[17]。

      本文將MDP 定義為一個(gè)四元組opy={S,A,P,R},其中S 和A 分別表示狀態(tài)空間和動(dòng)作空間,P 表示狀態(tài)轉(zhuǎn)移函數(shù),R 表示獎(jiǎng)勵(lì)函數(shù)?;谏瞎?jié)所描述的優(yōu)化問題,可構(gòu)建MDP 模型如下:

      ① 狀態(tài)空間。記為s(t),表示智能體(agent)在每個(gè)時(shí)隙t 可以觀測到的狀態(tài)信息的集合。在本文的模型中是指任務(wù)和MEC 服務(wù)器的參數(shù)信息:

      s(t)= {z(t),w(t),f S(t),prin(t)}。(16)

      ② 動(dòng)作空間。記為a(t),表示智能體基于觀測到的狀態(tài)信息s(t)可能采取的動(dòng)作集合:

      a(t)= {[an(t)]1×N,[km(t)]1×M}1×(N+M)。(17)

      ③ 獎(jiǎng)勵(lì)函數(shù)。獎(jiǎng)勵(lì)函數(shù)r(t)表示在狀態(tài)s(t)下采取動(dòng)作a(t)所獲得的獎(jiǎng)勵(lì)。

      在MDP 問題中,設(shè)置合理的獎(jiǎng)勵(lì)函數(shù)是解決問題的基礎(chǔ)。獎(jiǎng)勵(lì)函數(shù)通常設(shè)定為在不滿足約束時(shí)取極小值,而本文的優(yōu)化目標(biāo)是最小化計(jì)算卸載平均時(shí)延。因此,當(dāng)約束滿足時(shí),將平均時(shí)延取負(fù)值作為獎(jiǎng)勵(lì)函數(shù)。相反,如果約束未滿足,則取一個(gè)極小值作為獎(jiǎng)勵(lì)函數(shù),以保持模型的科學(xué)嚴(yán)謹(jǐn)性。獎(jiǎng)勵(lì)函數(shù)r(t)定義為:

      2. 2 DPCO 算法設(shè)計(jì)

      為解決上述MDP 問題,設(shè)計(jì)了一種DPCO 算法。在多種經(jīng)典的DRL 方法中,選擇使用A2C 算法[18]。這是因?yàn)椋粒玻?算法對計(jì)算能力需求較低,并且在處理較大狀態(tài)空間時(shí)有著優(yōu)秀的性能,特別適用于計(jì)算資源有限且復(fù)雜的天地融合網(wǎng)絡(luò)計(jì)算卸載場景。

      DPCO 算法的狀態(tài)空間、動(dòng)作空間和獎(jiǎng)勵(lì)函數(shù)的建模方法已在前文進(jìn)行了詳細(xì)介紹。將動(dòng)作空間策略性地建模為離散形式,可以加快DPCO 算法的收斂速度,使其更好地適配LEO 衛(wèi)星高動(dòng)態(tài)性的特點(diǎn)。

      將當(dāng)前狀態(tài)和動(dòng)作分別表示為向量形式st,at,并將策略網(wǎng)絡(luò)記其為πθ,其以當(dāng)前狀態(tài)st 作為輸入,輸出策略π(at st;θ)。將價(jià)值網(wǎng)絡(luò)記為Vω,以當(dāng)前狀態(tài)st 和策略作為輸入,輸出預(yù)期獎(jiǎng)勵(lì)Vπ(st)。在訓(xùn)練過程中,通過網(wǎng)絡(luò)的輸出迭代更新策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)的參數(shù)θ 和ω。

      動(dòng)作-價(jià)值函數(shù)表示為Qπ(st,at)= Eπ [Rt | st =s,at =a],其含義為在狀態(tài)st 下采取動(dòng)作at 獲得的預(yù)期累計(jì)收益。狀態(tài)-價(jià)值函數(shù)表示為Vπ(st)=Eπ[Rt | st = s,πt = π],其含義為在狀態(tài)st 下遵循策略πt 獲得的預(yù)期累計(jì)收益。A2C 算法的優(yōu)勢函數(shù)定義為:

      Aπ(st,at)Qπ(st,at)-Vπ(st)= r+γVπ(st+1)-Vπ(st)。(20)

      由于狀態(tài)-價(jià)值函數(shù)無法直接觀測,必須通過一個(gè)參數(shù)化網(wǎng)絡(luò)進(jìn)行估計(jì),記為Vω。該網(wǎng)絡(luò)通過時(shí)序差分(Temporal Difference,TD)算法進(jìn)行更新。計(jì)算出TD 誤差后,使用均方誤差(Mean SquaredError,MSE)準(zhǔn)則最小化TD 誤差,從而實(shí)現(xiàn)網(wǎng)絡(luò)參數(shù)的更新。

      DPCO 算法的偽代碼如算法1 所示。

      3 仿真結(jié)果分析

      3. 1 仿真實(shí)驗(yàn)設(shè)置

      本次仿真在Python 3. 9 環(huán)境下進(jìn)行。DPCO 算法的系統(tǒng)模型已在前文中進(jìn)行了詳細(xì)介紹。在DPCO 算法中,策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)均設(shè)置為4 層,包括一個(gè)輸入層、一個(gè)輸出層和兩個(gè)隱藏層。策略網(wǎng)絡(luò)隱藏層中的神經(jīng)元數(shù)量分別為2 048 和1 024,而價(jià)值網(wǎng)絡(luò)隱藏層中的神經(jīng)元數(shù)量分別為1 024 和512。使用Gigacycle(GC)作為任務(wù)計(jì)算量的單位。仿真實(shí)驗(yàn)中的其他參數(shù)如表1 所示。

      3. 2 算法收斂性分析

      對A2C 算法和近端策略優(yōu)化(Proximal PolicyOptimization,PPO)[19]兩種算法常用的強(qiáng)化學(xué)習(xí)算法的收斂速度進(jìn)行分析,如圖2 所示。當(dāng)二者收斂到相同的平均時(shí)延時(shí),A2C 算法僅需要2 000 個(gè)Episode,而PPO 算法則需要20 000 個(gè)Episode,因此,基于A2C 的DPCO 算法可以大大提高計(jì)算卸載的效率。

      學(xué)習(xí)率對DPCO 算法收斂性的影響如圖3 所示,當(dāng)學(xué)習(xí)率為0. 01 時(shí),平均時(shí)延曲線收斂到2. 1 s;當(dāng)學(xué)習(xí)率為0. 001 時(shí),平均時(shí)延曲線在2 000 個(gè)Episode后收斂到0. 5 s。當(dāng)學(xué)習(xí)率為0. 000 1 時(shí),平均時(shí)延曲線在20 000 個(gè)Episode 后收斂到0. 5 s。結(jié)果表明,過高的學(xué)習(xí)率雖然可以加快收斂速度,但可能導(dǎo)致算法陷入局部最優(yōu)而無法達(dá)到全局最優(yōu)。反之,如果學(xué)習(xí)率過低,收斂速度將過于緩慢,從而降低算法的效率。

      3. 3 算法性能對比測試

      本節(jié)從任務(wù)計(jì)算量、數(shù)據(jù)量和到達(dá)率3 個(gè)方面對算法平均時(shí)延進(jìn)行評估,并將DPCO 算法與3 種不同計(jì)算卸載算法進(jìn)行比較。① DDTO 算法:一種基于DRL 的彈性衛(wèi)星網(wǎng)絡(luò)邊緣卸載策略。② 隨機(jī)卸載算法:將任務(wù)隨機(jī)卸載到衛(wèi)星服務(wù)器。③ 本地卸載算法:任務(wù)在本地設(shè)備上進(jìn)行處理。

      3. 3. 1 任務(wù)計(jì)算量對計(jì)算卸載性能的影響

      任務(wù)到達(dá)率設(shè)定為每分鐘108 個(gè),任務(wù)數(shù)據(jù)量遵循均值為4 Mbit 的正態(tài)分布。仿真結(jié)果如圖4 所示,DPCO 算法相比于DDTO、隨機(jī)卸載和本地卸載算法,分別減少了25% 、59% 和81% 的平均時(shí)延。此外,當(dāng)任務(wù)計(jì)算量較小時(shí),DPCO 算法相較于DDTO 算法的時(shí)延性能優(yōu)勢更加明顯,最高可減少48% 。而在任務(wù)計(jì)算量較大時(shí),DPCO 算法也能保證與DDTO 算法相當(dāng)?shù)男阅堋?/p>

      上述結(jié)果表明,DPCO 算法在處理低計(jì)算需求任務(wù)時(shí),能夠有效克服現(xiàn)有計(jì)算卸載算法的性能限制。同時(shí),DPCO 算法在其他場景中也能保證出色的性能。

      3. 3. 2 任務(wù)數(shù)據(jù)量對計(jì)算卸載性能的影響

      任務(wù)到達(dá)率設(shè)定為每分鐘108 個(gè),任務(wù)計(jì)算量遵循均值為3. 5 GC 的正態(tài)分布。仿真結(jié)果如圖5所示,與DDTO 算法、隨機(jī)卸載和本地卸載算法相比,DPCO 算法的平均時(shí)延分別降低了41% 、58%和80% 。

      3. 3. 3 任務(wù)到達(dá)率對計(jì)算卸載性能的影響

      任務(wù)數(shù)據(jù)量設(shè)置為遵循均值為4 Mbit 的正態(tài)分布,任務(wù)計(jì)算量遵循均值為3. 5 GC 的正態(tài)分布,仿真結(jié)果如圖6 所示。隨著到達(dá)率的增加,DDTO算法的平均時(shí)延迅速上升,而DPCO 算法的時(shí)延保持相對穩(wěn)定。這種穩(wěn)定性得益于DPCO 算法能夠動(dòng)態(tài)地將MEC 服務(wù)器的計(jì)算資源劃分為多個(gè)邏輯子服務(wù)器,從而實(shí)現(xiàn)單個(gè)MEC 服務(wù)器上的并行計(jì)算,減少了任務(wù)排隊(duì)時(shí)延。

      4 結(jié)束語

      本文提出了一種DPCO 算法,對天地融合網(wǎng)絡(luò)中的計(jì)算卸載問題進(jìn)行建模,優(yōu)化目標(biāo)為最小化計(jì)算卸載平均時(shí)延??紤]了阿姆達(dá)爾定律對計(jì)算性能的影響,并將服務(wù)器劃分為多個(gè)邏輯子服務(wù)器,以實(shí)現(xiàn)多任務(wù)并行處理;將問題轉(zhuǎn)化為MDP,并將動(dòng)作空間設(shè)計(jì)為離散形式,以提高模型的收斂速度;使用A2C 算法解決計(jì)算卸載和資源分配策略的優(yōu)化問題。仿真結(jié)果表明,DPCO 算法在任務(wù)計(jì)算卸載平均時(shí)延方面的性能顯著優(yōu)于DDTO、隨機(jī)卸載和本地卸載算法??偠灾?,DPCO 算法有效地解決了現(xiàn)有算法中的性能缺陷,尤其是在任務(wù)到達(dá)率高且計(jì)算要求較低的場景中有著不錯(cuò)的表現(xiàn),可以為天地融合網(wǎng)絡(luò)中的計(jì)算卸載算法設(shè)計(jì)提供參考和幫助。

      參考文獻(xiàn)

      [1] 施巍松,孫輝,曹杰,等. 邊緣計(jì)算:萬物互聯(lián)時(shí)代新型計(jì)算模型[J]. 計(jì)算機(jī)研究與發(fā)展,2017,54 (5):907-924.

      [2] 陳全,鄧倩妮. 云計(jì)算及其關(guān)鍵技術(shù)[J]. 計(jì)算機(jī)應(yīng)用,2009,29(9):2562-2567.

      [3] 謝人超,廉曉飛,賈慶民,等. 移動(dòng)邊緣計(jì)算卸載技術(shù)綜述[J]. 通信學(xué)報(bào),2018,39(11):138-155.

      [4] 李子姝,謝人超,孫禮,等. 移動(dòng)邊緣計(jì)算綜述[J]. 電信科學(xué),2018,34(1):87-101.

      [5] MAO Y Y,YOU C S,ZHANG J,et al. A Survey on MobileEdge Computing:The Communication Perspective [J].IEEE Communications Surveys & Tutorials,2017,19(4):2322-2358.

      [6] MEHRABI M,YOU D H,LATZKO V,et al. Deviceenhanced MEC:Multiaccess Edge Computing (MEC)Aided by End Device Computation and Caching:A Survey[J]. IEEE Access,2019,7:166079-166108.

      [7] 唐琴琴,謝人超,劉旭,等. 融合MEC 的星地協(xié)同網(wǎng)絡(luò):架構(gòu)、關(guān)鍵技術(shù)與挑戰(zhàn)[J]. 通信學(xué)報(bào),2020,41(4):162-181.

      [8] 唐清清,李斌. 面向空天地一體化網(wǎng)絡(luò)的移動(dòng)邊緣計(jì)算技術(shù)[J]. 無線電通信技術(shù),2021,47(1):27-35.

      [9] ZHANG Z J,ZHANG W Y,TSENG F H. Satellite MobileEdge Computing:Improving QoS of Highspeed SatelliteTerrestrial Networks Using Edge Computing Techniques[J]. IEEE Network,2019,33(1):70-76.

      [10]HAO Y Y,SONG Z Y,ZHENG Z,et al. Joint Communication,Computing,and Caching Resource Allocation in LEOSatellite MEC Networks [J]. IEEE Access,2023,11:6708-6716.

      [11]LIN T H,LUO Z Y. A Highperformance DRLbased Mobile Edge Offloading for Elastic Satellite Network[C]∥2022 Workshop on Electronics Communication Engineering.Bellingham:SPIE,2023,12720:55-69.

      [12]AMDAHL G M. Validity of the Single Processor Approachto Achieving Large Scale Computing Capabilities[C]∥AFIPS Conference Proceedings. Reston:AFIPS Press,1967:483-485.

      [13]MUNOZ O,PASCUALISERTE A,VIDAL J. Optimizationof Radio and Computational Resources for Energy Efficiency in Latencyconstrained Application Offloading[J].IEEE Transactions on Vehicular Technology,2014,64(10):4738-4755.

      [14]PINELL C,PROL F S,BHUIYAN M Z H,et al. ReceiverArchitectures for Positioning with Low Earth OrbitSatellite Signals:A Survey[J]. EURASIP Journal on Advances in Signal Processing,2023,2023(1):60.

      [15] YUE P Y,AN J P,ZHANG J K,et al. Low Earth OrbitSatellite Security and Reliability:Issues,Solutions,and theRoad Ahead[J]. IEEE Communications Surveys & Tutorials,2023,25(3):1604-1652.

      [16]MISHRA M R,DASH B B,GOSWAMI V,et al. A NewTask Offloading Scheme for Geospatial Fog ComputingEnvironment Using M/ M/ C Queueing Approach[C]∥International Conference on Advances and Applications ofArtificial Intelligence and Machine Learning. Singapore:Springer Nature Singapore,2022:105-113.

      [17]SHANI G,HECKERMAN D,BRAFMAN R I,et al. AnMDPbased Recommender System[J]. Journal of MachineLearning Research,2005,6(9):1265-1295.

      [18]MNIH V,BADIA A P,MIRZA M,et al. AsynchronousMethods for Deep Reinforcement Learning[C]∥The 33rdInternational Conference on Machine Learning. New York:PMLR,2016:1928-1937.

      [19]SCHULMAN J,WOLSKI F,DHARIWAL P,et al. ProximalPolicy Optimization Algorithms[EB/ OL]. (2017-07-20)[2024-07-28]. https:∥arxiv. org/ abs/1707. 06347.

      作者簡介:

      王從羽 男,(2000—),碩士研究生。主要研究方向:邊緣計(jì)算卸載。

      (*通信作者)羅志勇 男,(1973—),博士,教授,博士生導(dǎo)師。主要研究方向:衛(wèi)星互聯(lián)網(wǎng)一體化融合、無線通感算融合賦能技術(shù)、通信人工智能應(yīng)用。

      基金項(xiàng)目:國家重點(diǎn)研發(fā)計(jì)劃(2023YFB2904701 );廣東省基礎(chǔ)與應(yīng)用基礎(chǔ)研究基金(2023B1515120093 );廣東省重點(diǎn)研發(fā)計(jì)劃(2024B0101020006);深圳市重點(diǎn)項(xiàng)目(KJZD20230928112759002)

      猜你喜歡
      深度強(qiáng)化學(xué)習(xí)
      基于DDPG算法的路徑規(guī)劃研究
      基于深度強(qiáng)化學(xué)習(xí)的木材缺陷圖像重構(gòu)及質(zhì)量評價(jià)模型研究
      基于深度強(qiáng)化學(xué)習(xí)與圖像智能識別的輸電線路在線監(jiān)測系統(tǒng)
      基于云控制的業(yè)務(wù)服務(wù)機(jī)器人系統(tǒng)設(shè)計(jì)
      人工智能深度強(qiáng)化學(xué)習(xí)的原理與核心技術(shù)探究
      基于人工智能的無人機(jī)區(qū)域偵察方法研究現(xiàn)狀與發(fā)展
      基于策略梯度算法的工作量證明中挖礦困境研究
      基于深度強(qiáng)化學(xué)習(xí)的圖像修復(fù)算法設(shè)計(jì)
      關(guān)于人工智能阿法元綜述
      商情(2019年14期)2019-06-15 10:20:13
      深度強(qiáng)化學(xué)習(xí)研究進(jìn)展
      桐柏县| 静乐县| 安顺市| 东兴市| 农安县| 琼海市| 禹州市| 合山市| 察隅县| 新绛县| 宜兰县| 乐平市| 江津市| 隆化县| 太白县| 山东省| 广平县| 桑日县| 屯留县| 天峨县| 沙坪坝区| 长武县| 集贤县| 崇州市| 汪清县| 万山特区| 多伦县| 德惠市| 昌吉市| 东莞市| 香格里拉县| 新泰市| 灌云县| 峨山| 遂川县| 镇平县| 德化县| 南宁市| 都安| 许昌市| 嘉定区|