• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      用于計(jì)算和傳輸?shù)膭?dòng)態(tài)星間路由策略

      2024-12-26 00:00:00許柳飛羅志勇
      無(wú)線電通信技術(shù) 2024年6期
      關(guān)鍵詞:深度強(qiáng)化學(xué)習(xí)

      摘 要:針對(duì)低地球軌道(Low Earth Orbit,LEO)衛(wèi)星網(wǎng)絡(luò)具有拓?fù)渥兓?、網(wǎng)絡(luò)節(jié)點(diǎn)多和節(jié)點(diǎn)資源狀態(tài)變化等特點(diǎn),提出了一種用于計(jì)算和傳輸?shù)男情g路由策略。該策略使用改進(jìn)的圖卷積網(wǎng)絡(luò)(EnhancedGraph ConvolutionalNetwork,EGCN)提取衛(wèi)星網(wǎng)絡(luò)的時(shí)空特征并生成節(jié)點(diǎn)的隱藏狀態(tài)。將其作為深度強(qiáng)化學(xué)習(xí)(Deep ReinforcementLearning,DRL)模型的輸入,DRL 智能體感知下一跳節(jié)點(diǎn)的關(guān)鍵信息,從而更好地做出決策。仿真結(jié)果表明,與以前的方法相比,提出的方法提高了網(wǎng)絡(luò)的總吞吐量,降低了端到端傳輸延遲。

      關(guān)鍵詞:星間路由策略;動(dòng)態(tài)衛(wèi)星網(wǎng)絡(luò);深度強(qiáng)化學(xué)習(xí);圖卷積神經(jīng)網(wǎng)絡(luò)

      中圖分類號(hào):TN919. 23 文獻(xiàn)標(biāo)志碼:A 開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):

      文章編號(hào):1003-3114(2024)06-1153-07

      0 引言

      目前,多個(gè)國(guó)家正在部署低地球軌道(LowEarth Orbit,LEO)衛(wèi)星巨型星座,即擁有數(shù)百到數(shù)萬(wàn)顆LEO 衛(wèi)星以提供全球低時(shí)延高帶寬互聯(lián)網(wǎng)。隨著星上技術(shù)的飛速發(fā)展,衛(wèi)星將擁有更強(qiáng)大的計(jì)算資源來(lái)支持在軌數(shù)據(jù)處理,以在軌道上提供公共云服務(wù)。

      衛(wèi)星計(jì)算的概念是計(jì)算資源部署在衛(wèi)星上以實(shí)現(xiàn)在軌自主、遙感、邊緣計(jì)算等新范式,因此具備計(jì)算資源的衛(wèi)星組成的網(wǎng)絡(luò)又稱為星云算網(wǎng)。首先,星云算網(wǎng)中具有計(jì)算能力的衛(wèi)星能夠?qū)崿F(xiàn)在軌自主操作,減少對(duì)地面段的依賴。其次,隨著星座規(guī)模的增大,太空原始數(shù)據(jù)呈爆炸式增長(zhǎng),又因?yàn)樾堑劓溌穾捰邢薅鴮?dǎo)致數(shù)據(jù)無(wú)法及時(shí)下載。具有計(jì)算能力的衛(wèi)星可以對(duì)原始數(shù)據(jù)進(jìn)行處理,識(shí)別并傳輸感興趣的特征,從而提高傳輸效率并降低星地鏈路的帶寬利用率。最后,先進(jìn)的星載計(jì)算平臺(tái)將衛(wèi)星轉(zhuǎn)化為復(fù)雜的數(shù)據(jù)處理基礎(chǔ)設(shè)施,并使太空中的公共云服務(wù)能夠像在地面上一樣提供服務(wù)。

      LEO 衛(wèi)星巨型星座是一種新型的基礎(chǔ)設(shè)施,由數(shù)千顆衛(wèi)星組成,每顆衛(wèi)星相對(duì)于地球和其他衛(wèi)星都以高速移動(dòng)。例如,在550 km 高度的衛(wèi)星必須保持27 000 km/ h 的速度才能維持其軌道。然而,星云算網(wǎng)仍面臨以下挑戰(zhàn):① 受發(fā)射因素和體積限制,單顆衛(wèi)星的計(jì)算資源存在上限;② 由于地表用戶分布存在差異,業(yè)務(wù)請(qǐng)求分布不均勻;③ LEO 衛(wèi)星相對(duì)地面高速移動(dòng),因此其網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)具有快速變化的特點(diǎn);④ 星地和星間傳播時(shí)延較大,如何降低業(yè)務(wù)延遲引起了網(wǎng)絡(luò)研究者的極大興趣。

      基于上述挑戰(zhàn)分析,考慮可能存在業(yè)務(wù)分布不均、單顆衛(wèi)星算力較低導(dǎo)致時(shí)延過(guò)大甚至擁塞的情況,學(xué)術(shù)界對(duì)此提出了用于計(jì)算和傳輸?shù)膭?dòng)態(tài)星間路由機(jī)制[1],通過(guò)星間鏈路將業(yè)務(wù)從資源緊張的衛(wèi)星轉(zhuǎn)移到其他衛(wèi)星來(lái)輔助計(jì)算。由于衛(wèi)星網(wǎng)絡(luò)快速變化的拓?fù)浣Y(jié)構(gòu)和星間傳播時(shí)延不可忽略,星間傳輸計(jì)算業(yè)務(wù)要考慮動(dòng)態(tài)拓?fù)浜蜁r(shí)延以及星上算力對(duì)業(yè)務(wù)性能的影響[2]。如何在高動(dòng)態(tài)的星云算網(wǎng)中高效地處理計(jì)算業(yè)務(wù),是實(shí)現(xiàn)大規(guī)模星上計(jì)算和多星協(xié)作需要解決的重要問(wèn)題之一,具有較高的研究?jī)r(jià)值。

      1 相關(guān)工作

      面對(duì)星云算網(wǎng),如何基于計(jì)算和傳輸對(duì)業(yè)務(wù)性能進(jìn)行優(yōu)化,學(xué)術(shù)界展開了廣泛研究。文獻(xiàn)[3-5]利用了啟發(fā)式解決方案。張茜[3]考慮動(dòng)態(tài)時(shí)變衛(wèi)星網(wǎng)絡(luò)的資源約束和可見時(shí)間窗約束等,并提出基于遺傳算法的星間計(jì)算任務(wù)卸載算法,以提高計(jì)算效能。呼延?等[4]將傳統(tǒng)的衛(wèi)星數(shù)據(jù)傳輸系統(tǒng)與星上智能處理相結(jié)合,提出一種遙感衛(wèi)星高速數(shù)據(jù)傳輸框架。馬步云等[5]針對(duì)當(dāng)前星地?cái)?shù)據(jù)處理模式中存在的高傳輸時(shí)延問(wèn)題,提出將基于算力路由的低時(shí)延在軌協(xié)同計(jì)算問(wèn)題轉(zhuǎn)化為業(yè)務(wù)圖到網(wǎng)絡(luò)圖的映射問(wèn)題。然而,這些基于規(guī)則的啟發(fā)式方法無(wú)法捕捉到網(wǎng)絡(luò)環(huán)境的復(fù)雜特征,因此難以進(jìn)一步改進(jìn)[6]。為突破上述局限,深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)得到了廣泛應(yīng)用,并對(duì)其展開了越來(lái)越多的研究[7-10]。曹素芝等[11]針對(duì)星地融合網(wǎng)絡(luò)面臨的復(fù)雜路由問(wèn)題,提出了基于DRL 的星上路由機(jī)制訓(xùn)練與部署方案。唐斯琪等[12]針對(duì)強(qiáng)化學(xué)習(xí)方法在星云算網(wǎng)領(lǐng)域的局限性和面臨的挑戰(zhàn),提出了一種基于微調(diào)的模型遷移機(jī)制。汪昊等[13]考慮衛(wèi)星網(wǎng)絡(luò)拓?fù)浜托情g鏈路的可用帶寬、傳播時(shí)延等約束,構(gòu)建衛(wèi)星網(wǎng)絡(luò)狀態(tài)用于基于強(qiáng)化學(xué)習(xí)的LEO 衛(wèi)星網(wǎng)絡(luò)動(dòng)態(tài)路由算法。由于DRL 是一種通過(guò)與環(huán)境(如動(dòng)態(tài)衛(wèi)星網(wǎng)絡(luò))交互來(lái)優(yōu)化策略(如星間路由策略)[14]的工具,與基于規(guī)則的啟發(fā)式相比,它應(yīng)該能夠捕獲更多的環(huán)境特征[15],從而輔助DRL 智能體做出更好的決策。

      2 LEO 衛(wèi)星網(wǎng)絡(luò)系統(tǒng)

      LEO 星座坐標(biāo)如圖1 所示??紤]到動(dòng)態(tài)衛(wèi)星網(wǎng)絡(luò)場(chǎng)景,LEO 衛(wèi)星網(wǎng)絡(luò)(LEO Satellite Network,LSN)系統(tǒng)的網(wǎng)絡(luò)拓?fù)溆糜邢驁DG(V,E)表示,V 和E 分別表示衛(wèi)星和星間鏈路的集合。整個(gè)衛(wèi)星網(wǎng)絡(luò)由N 個(gè)圓形軌道組成,每個(gè)軌道上有M 顆衛(wèi)星。軌道上的LEO 衛(wèi)星以及同一軌道上的衛(wèi)星均勻分布。在該系統(tǒng)中,每顆LEO 衛(wèi)星通過(guò)星內(nèi)鏈路連接同一軌道的前一顆和后一顆衛(wèi)星,通過(guò)星間鏈路連接相鄰軌道的衛(wèi)星。星座兩側(cè)的衛(wèi)星運(yùn)動(dòng)方向相反,導(dǎo)致星間鏈路連接的兩顆衛(wèi)星之間的距離變化迅速,星間鏈路的連接斷斷續(xù)續(xù)。

      2. 1 流量模型

      LSN 系統(tǒng)中存在隨機(jī)加入的計(jì)算請(qǐng)求[16],并且每個(gè)請(qǐng)求的到達(dá)滿足參數(shù)為λ 的泊松過(guò)程[17]。將第i 個(gè)請(qǐng)求定義為元組TR(src,ci,di),其中src 表示源節(jié)點(diǎn);ci 表示計(jì)算能力,即計(jì)算1 bit 所需要的計(jì)算資源,單位為周期/ 比特;di 表示請(qǐng)求的數(shù)據(jù)大小,單位為bit。計(jì)算請(qǐng)求被定義為傳輸和計(jì)算的最小單元,并被路由到計(jì)算節(jié)點(diǎn)進(jìn)行處理,因此每條路徑上只有一個(gè)計(jì)算節(jié)點(diǎn)。另外,計(jì)算請(qǐng)求必須在一定時(shí)間內(nèi)被處理,然后離開網(wǎng)絡(luò);否則,該請(qǐng)求被視為拒絕處理。

      2. 2 時(shí)延模型

      星間鏈路的傳輸延遲由傳輸時(shí)延、傳播時(shí)延和計(jì)算時(shí)延組成。在動(dòng)態(tài)LSN 系統(tǒng)中,如果兩兩衛(wèi)星,即{u,v| u,v∈V}滿足建立星間鏈路的條件,則該衛(wèi)星對(duì)之間的歐幾里得距離表示為:

      式中:(xu,yu,zu)表示節(jié)點(diǎn)u 的空間位置。

      由于衛(wèi)星間通信主要受自由空間路徑損耗和加性高斯白噪聲的影響,兩兩衛(wèi)星之間的載噪比可表示為:

      式中:Pt 為發(fā)射功率,Gt 和Gr 分別為發(fā)射天線增益和接收天線增益,k 為玻爾茲曼常數(shù),τ 為熱噪聲,單位K;B 為信道帶寬,單位Hz;f 為載波頻率,c 為光速。因此,計(jì)算請(qǐng)求無(wú)干擾環(huán)境的星間鏈路上的傳輸時(shí)延定義為:

      忽略傳輸過(guò)程中較小的距離變化,計(jì)算請(qǐng)求在星間鏈路上的傳播時(shí)延定義為:

      Tprop =duv/c 。(4)

      計(jì)算節(jié)點(diǎn)處的計(jì)算時(shí)延定義為:

      Tcom = ci/Cn, (5)

      式中:Cn 為計(jì)算節(jié)點(diǎn)為每個(gè)請(qǐng)求提供的最大計(jì)算能力。

      2. 3 優(yōu)化問(wèn)題

      動(dòng)態(tài)星間路由策略的目的在于找到從源節(jié)點(diǎn)u到計(jì)算節(jié)點(diǎn)v 的最優(yōu)路徑,從而降低計(jì)算請(qǐng)求的平均傳輸延遲并提高總吞吐量。整個(gè)過(guò)程[18]可以劃分為:① 尋找從源節(jié)點(diǎn)到下一跳節(jié)點(diǎn)的傳輸邊,用于傳輸計(jì)算請(qǐng)求的數(shù)據(jù);② 如果下一跳節(jié)點(diǎn)的計(jì)算資源滿足請(qǐng)求需要,則將該節(jié)點(diǎn)視為計(jì)算節(jié)點(diǎn)并處理數(shù)據(jù),否則重復(fù)過(guò)程①。這樣,動(dòng)態(tài)星間路由策略的優(yōu)化過(guò)程就是找到與特定計(jì)算節(jié)點(diǎn)相關(guān)聯(lián)的最短傳輸路徑,并找到與該優(yōu)化傳輸路徑相對(duì)應(yīng)的最優(yōu)計(jì)算節(jié)點(diǎn)。

      動(dòng)態(tài)星間路由策略對(duì)于LSN 系統(tǒng)來(lái)說(shuō)是一項(xiàng)具有挑戰(zhàn)的任務(wù)。有效的路由策略不僅要識(shí)別受時(shí)變傳輸延遲和計(jì)算資源波動(dòng)影響的衛(wèi)星網(wǎng)絡(luò)上的關(guān)鍵資源,還要處理未來(lái)請(qǐng)求生成中的不確定性?;趶?qiáng)化學(xué)習(xí)的方法適合處理這種復(fù)雜狀態(tài),并考慮潛在的未來(lái)影響。故在DRL 框架中,有一個(gè)智能體,其目標(biāo)是為每個(gè)計(jì)算請(qǐng)求實(shí)時(shí)選擇最優(yōu)的下一跳節(jié)點(diǎn)。而智能體的學(xué)習(xí)過(guò)程是由一個(gè)目標(biāo)函數(shù)控制的,該目標(biāo)函數(shù)的目的是最小化傳輸延遲、最大化總吞吐量。

      對(duì)于基于機(jī)器學(xué)習(xí)的問(wèn)題,數(shù)據(jù)和特征決定性能上限,而模型和算法只能接近這個(gè)極限。因此,在基于強(qiáng)化學(xué)習(xí)的框架中,輸入狀態(tài)表示和特征提取必不可少,但在文獻(xiàn)中并沒(méi)有得到很好的研究。前文介紹了一些工作的簡(jiǎn)單狀態(tài)表示和特征提取,然而,由于時(shí)變的LSN 拓?fù)浣Y(jié)構(gòu)和波動(dòng)變化的星上計(jì)算資源,上述文獻(xiàn)的特征提取可能不足以用于DRL智能體的學(xué)習(xí)。因此,本文提出了一種基于改進(jìn)的圖卷積網(wǎng)絡(luò)(EnhancedGraph Convolutional Network,EGCN)的感知狀態(tài)表示,通過(guò)捕捉衛(wèi)星網(wǎng)絡(luò)結(jié)構(gòu)的動(dòng)態(tài)演變和計(jì)算資源波動(dòng)的規(guī)律,從而確保DRL 智能體依據(jù)這些實(shí)時(shí)且精確的信息做出更加準(zhǔn)確的決策。下面通過(guò)考慮星間路由問(wèn)題的具體特征,設(shè)計(jì)動(dòng)態(tài)衛(wèi)星網(wǎng)絡(luò)的特征提取和強(qiáng)化學(xué)習(xí)框架的狀態(tài)表示。

      3 基于DRL 的下一跳節(jié)點(diǎn)的選擇機(jī)制

      本節(jié)詳細(xì)描述強(qiáng)化學(xué)習(xí)模型的關(guān)鍵元素(狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì))。由于神經(jīng)網(wǎng)絡(luò)參數(shù)化的智能體被訓(xùn)練來(lái)完成狀態(tài)到動(dòng)作的映射。因此,狀態(tài)應(yīng)該攜帶足夠的信息來(lái)學(xué)習(xí)這種映射。為了獲取足夠的信息,提出使用EGCN 來(lái)提取動(dòng)態(tài)衛(wèi)星網(wǎng)絡(luò)的特征。

      3. 1 基于EGCN 的狀態(tài)表示

      動(dòng)態(tài)衛(wèi)星網(wǎng)絡(luò)的狀態(tài)表示應(yīng)該由星上鏈路的傳輸時(shí)延、節(jié)點(diǎn)的算力資源以及節(jié)點(diǎn)的發(fā)送容量和承載容量來(lái)定義。由于衛(wèi)星網(wǎng)絡(luò)是一種拓?fù)浣Y(jié)構(gòu),因此其節(jié)點(diǎn)和鏈路上的特征不能直接用向量或矩陣表示。

      3. 1. 1 圖卷積網(wǎng)絡(luò)模型

      衛(wèi)星網(wǎng)絡(luò)通常被建模為圖形,節(jié)點(diǎn)表示衛(wèi)星,邊表示衛(wèi)星之間的連接。鄰接矩陣為A,特征矩陣為X。一層圖卷積網(wǎng)絡(luò)(Graph Convolutional Network,GCN)卷積操作如圖2 所示,GCN 通過(guò)一階鄰域捕獲節(jié)點(diǎn)的空間特征,然后通過(guò)多個(gè)卷積層累加高階空間特征,可以表示為:

      式中:A ~ = A+IN 表示加了自連接的鄰接矩陣,D ~ 為度矩陣,D ~ii = ΣNj = 1A ~ij ,D ~ - 12 ~A ~ ~D ~ - 12 表示預(yù)處理,W(l)為權(quán)重矩陣,σ 為激活函數(shù),H(l)為第l 層的特征矩陣。

      由式(6)可知,GCN 模型可以從網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)中學(xué)習(xí)空間特征。當(dāng)前節(jié)點(diǎn)作為中心,一層的GCN卷積操作能夠獲取周圍鄰居節(jié)點(diǎn)的特征,GCN 可以通過(guò)疊加多個(gè)卷積層來(lái)捕獲多跳節(jié)點(diǎn)的空間特征。

      3. 1. 2 改進(jìn)方法

      對(duì)于下一跳節(jié)點(diǎn)的選擇問(wèn)題,星間鏈路上的傳輸時(shí)延與路由性能密切相關(guān)。而GCN 模型只能處理節(jié)點(diǎn)的特征信息、鏈路的連接關(guān)系以及鏈路的單一權(quán)重信息,無(wú)法對(duì)衛(wèi)星網(wǎng)絡(luò)中鏈路的多屬性參數(shù)(即計(jì)算請(qǐng)求在不同時(shí)刻的同一衛(wèi)星對(duì)之間的星間鏈路上的傳輸時(shí)延不同)進(jìn)行分析。為了具體描述鏈路信息,本文根據(jù)節(jié)點(diǎn)間的關(guān)系增加“虛”節(jié)點(diǎn)來(lái)表示鏈路特征,通過(guò)聚合“虛”節(jié)點(diǎn)特征并合并到下一跳節(jié)點(diǎn)特征中。這樣,鏈路信息就成為節(jié)點(diǎn)特征向量的一部分。為了捕捉衛(wèi)星網(wǎng)絡(luò)上節(jié)點(diǎn)和鏈路信息的時(shí)間特征,提出先在特征矩陣X 上使用遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)來(lái)有效學(xué)習(xí)星上資源以及星間鏈路傳輸時(shí)延的動(dòng)態(tài)變化規(guī)律。RNN 通過(guò)考慮時(shí)間t-1 的隱藏狀態(tài)zt-1 和當(dāng)前信息作為輸入xt 來(lái)計(jì)算時(shí)間t 的狀態(tài)并作為輸出ot,即:

      zt =g1(U×xt +Y×zt-1), (7)

      ot =g2(V×zt), (8)

      式中:U、V、Y 為可訓(xùn)練矩陣,g1、g2 為激活函數(shù)。

      通過(guò)這種方式,模型能夠保留歷史信息并捕捉時(shí)間依賴性,同時(shí)仍結(jié)合當(dāng)前時(shí)刻的信息。RNN 提取時(shí)間特征如圖3 所示。

      3. 2 動(dòng)作空間和獎(jiǎng)勵(lì)函數(shù)

      當(dāng)計(jì)算請(qǐng)求到達(dá)當(dāng)前節(jié)點(diǎn)時(shí),智能體將根據(jù)K 個(gè)候選相鄰節(jié)點(diǎn)選擇下一跳節(jié)點(diǎn)。因此,動(dòng)作被定義為at∈A={1,2,…,K},A 為候選相鄰節(jié)點(diǎn)的集合。即使在小型網(wǎng)絡(luò)中,候選節(jié)點(diǎn)的數(shù)量也會(huì)導(dǎo)致高維的動(dòng)作空間。相關(guān)研究表明[15],K 個(gè)候選節(jié)點(diǎn)與性能的關(guān)系更大,所以K 的數(shù)量不需要很大。因此,每個(gè)當(dāng)前節(jié)點(diǎn)從 Ko K=5p 個(gè)最近的節(jié)點(diǎn)中選擇下一跳節(jié)點(diǎn)(按每跳距離長(zhǎng)度衡量)。

      智能體根據(jù)從外部環(huán)境接收的獎(jiǎng)勵(lì)不斷更新參數(shù)來(lái)提高性能。通常,一個(gè)成功的動(dòng)作被認(rèn)為是好的,因此環(huán)境返回一個(gè)正的即時(shí)獎(jiǎng)勵(lì),以加強(qiáng)當(dāng)前動(dòng)作被選擇的概率。并且,為了盡量減少失敗動(dòng)作出現(xiàn)的概率,環(huán)境會(huì)返回一個(gè)負(fù)獎(jiǎng)勵(lì)并讓智能體探索替代動(dòng)作。然而,獎(jiǎng)勵(lì)函數(shù)并不是“正確”行為的明確指標(biāo),而是向智能體反饋當(dāng)前動(dòng)作很好。智能體的目標(biāo)是最大化長(zhǎng)期獎(jiǎng)勵(lì),比如,折扣累積獎(jiǎng)勵(lì)。為了實(shí)現(xiàn)這一點(diǎn),智能體可能會(huì)放棄具有最佳瞬時(shí)獎(jiǎng)勵(lì)的行為以獲得更好的長(zhǎng)期績(jī)效,因此獎(jiǎng)勵(lì)函數(shù)可以指導(dǎo)動(dòng)態(tài)星間路由策略的優(yōu)化方向。為了研究特征提取的重要性,將獎(jiǎng)勵(lì)函數(shù)定義為一個(gè)二元變量rt∈{-1,1},本文提出的方法期望最小化傳輸延遲、最大化總吞吐量。

      3. 3 基于A3C 的訓(xùn)練過(guò)程

      異步優(yōu)勢(shì)動(dòng)作評(píng)價(jià)(Asynchronous AdvantageActorCritic,A3C)算法屬于典型的DRL 算法,它有許多并行運(yùn)行的局部學(xué)習(xí)者,如圖4 所示。其中,策略函數(shù)和值函數(shù)分別采用兩個(gè)神經(jīng)網(wǎng)絡(luò),即策略網(wǎng)絡(luò)π(at |st;θ)和價(jià)值網(wǎng)絡(luò)V(st;θv)。對(duì)每個(gè)學(xué)習(xí)者的策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)設(shè)置了特定的參數(shù),分別為θ′和θ′v 。

      策略函數(shù)和價(jià)值函數(shù)由每個(gè)學(xué)習(xí)者以異步方式更新。對(duì)于每個(gè)學(xué)習(xí)者,每集都進(jìn)行更新,包括T 個(gè)連續(xù)動(dòng)作(時(shí)間步長(zhǎng)t0 ~ t0 +T-1)。局部學(xué)習(xí)者的參數(shù)首先由θ′←θ、θ′v ←θv 進(jìn)行刷新。經(jīng)過(guò)一集的訓(xùn)練后,全局參數(shù)由式(10)給出的最小批量(批量大小為T)梯度上升或下降更新,即:

      4 性能分析

      本文通過(guò)在SNET99 和SNET198 兩個(gè)衛(wèi)星網(wǎng)絡(luò)上仿真對(duì)提出的方法進(jìn)行評(píng)估,衛(wèi)星網(wǎng)絡(luò)參數(shù)如表1 所示。

      4. 1 仿真參數(shù)

      關(guān)鍵參數(shù)如表2 所示。計(jì)算請(qǐng)求根據(jù)泊松過(guò)程生成,源節(jié)點(diǎn)是從均勻分布的所有衛(wèi)星節(jié)點(diǎn)中隨機(jī)選擇。

      策略網(wǎng)絡(luò)使用softmax 輸出,價(jià)值網(wǎng)絡(luò)使用線性輸出,所有非輸出層都由ReLU 激活。在訓(xùn)練過(guò)程中使用小批量梯度下降和Adam 優(yōu)化器。

      本文提出的方法被命名為“EGCN+DRL”??杀容^的方法包括隨機(jī)路徑路由“RP”(即從鄰居節(jié)點(diǎn)集中隨機(jī)選擇下一跳)、最短路徑路由“SP”(即選擇最近的鄰居節(jié)點(diǎn)作為下一跳)和基于圖卷積神經(jīng)網(wǎng)絡(luò)和強(qiáng)化學(xué)習(xí)模型的方法“GCN+DRL”。

      4. 2 不同拓?fù)湎碌木W(wǎng)絡(luò)吞吐量結(jié)果

      在兩個(gè)衛(wèi)星網(wǎng)絡(luò)上進(jìn)行仿真實(shí)驗(yàn),以驗(yàn)證提出的方法在不同拓?fù)浣Y(jié)果中的適用性。訓(xùn)練過(guò)程中不同網(wǎng)絡(luò)負(fù)載下LEO 衛(wèi)星網(wǎng)絡(luò)的總體吞吐量如圖5所示。

      隨著網(wǎng)絡(luò)負(fù)載的增加,各種算法的總吞吐量也在增加。可以看出,所有基于DRL 的方法都優(yōu)于基于啟發(fā)式的方法,顯示了基于強(qiáng)化學(xué)習(xí)方法的有效性。此外,“EGCN+DRL”在提高網(wǎng)絡(luò)吞吐量方面的性能優(yōu)于其他3 種方法。將“EGCN+DRL”相對(duì)于比較方法的總吞吐量提升定義為:

      P=SEGCN+DRL -S比較方法/S比較方法, (12)

      式中:P 為一段時(shí)間內(nèi)網(wǎng)絡(luò)的總吞吐量提升百分比。與圖5 (a)中的“RP”“SP”和“GCN +DRL”相比,“EGCN+DRL”的網(wǎng)絡(luò)吞吐量分別提高了13. 48% ,12. 27% 和1. 44% 。在圖5 (b)中進(jìn)行了類似的觀察。

      4. 3 不同拓?fù)湎碌钠骄鶄鬏斞舆t結(jié)果

      在不同拓?fù)湎拢煌模遥?方法的平均傳遞延遲結(jié)果如圖6 所示。

      由圖6 可以看出,在訓(xùn)練開始時(shí),總體吞吐量較小,計(jì)算請(qǐng)求的平均傳輸延遲較小。隨著訓(xùn)練的進(jìn)行,總體吞吐量逐漸增加,請(qǐng)求的平均傳輸延遲先增大后減小。不同拓?fù)湎碌姆抡娼Y(jié)果相似,提出的方法達(dá)到了最佳性能。

      此外,“EGCN+DRL”在網(wǎng)絡(luò)SNET99 中平均傳輸延遲降低幅度較小,在網(wǎng)絡(luò)SNET198 中平均傳輸延遲降低幅度較大。結(jié)合表1 的LSN 系統(tǒng)參數(shù)配置,總結(jié)可能的原因是網(wǎng)絡(luò)越發(fā)散和分布均勻,其傳輸延遲性能優(yōu)化越好。

      5 結(jié)束語(yǔ)

      DRL 智能體需要經(jīng)過(guò)長(zhǎng)期的訓(xùn)練才能達(dá)到可接受的性能,因此將算法直接應(yīng)用于真實(shí)的衛(wèi)星網(wǎng)絡(luò)環(huán)境不合理。就顯示情況而言,DRL 框架最好是在虛擬環(huán)境(比如數(shù)字孿生)中訓(xùn)練,當(dāng)性能變得可接受后再部署到現(xiàn)實(shí)環(huán)境中。因此,如何構(gòu)建一個(gè)虛擬環(huán)境以盡量減少與現(xiàn)實(shí)環(huán)境的差異,如何設(shè)計(jì)一種在虛擬環(huán)境與真實(shí)環(huán)境具有差異的情況下仍可得到可接受性能的強(qiáng)化學(xué)習(xí)方法,這兩個(gè)問(wèn)題值得探究。

      本文研究了用于計(jì)算和傳輸?shù)膭?dòng)態(tài)星間路由策略,提出利用改進(jìn)的GCN 進(jìn)行LSN 系統(tǒng)的環(huán)境狀態(tài)特征提取,將連接當(dāng)前節(jié)點(diǎn)和下一跳節(jié)點(diǎn)的星間鏈路信息聚合到下一跳節(jié)點(diǎn)中,對(duì)GCN 模型的特征矩陣使用RNN 來(lái)有效學(xué)習(xí)星上資源波動(dòng)和星間鏈路傳輸延遲的變化規(guī)律,由此捕捉衛(wèi)星網(wǎng)絡(luò)上節(jié)點(diǎn)和鏈路信息的時(shí)間特征。又因?yàn)椋牵茫?模型通過(guò)多層卷積操作可以得到當(dāng)前節(jié)點(diǎn)與多跳節(jié)點(diǎn)的空間特征,通過(guò)二者結(jié)合,DRL 智能體可以感知與計(jì)算路由策略相關(guān)的關(guān)鍵信息,從而做出更好的決策。仿真結(jié)果驗(yàn)證了該方法的有效性。

      參考文獻(xiàn)

      [1] ZHANG C,CHEN Q,TANG Z P,et al. Precoded InterSatellite Routing Algorithm with Load Balancing for MegaConstellation Networks[J]. Space:Science & Technology,2024,4:0103.

      [2] DING C F,WANG J B,ZHANG H,et al. Joint Optimizationof Transmission and Computation Resources for Satelliteand High Altitude Platform Assisted Edge Computing[J].IEEE Transactions on Wireless Communications,2022,21(2):1362-1377.

      [3] 張茜. 時(shí)變網(wǎng)絡(luò)下的多星協(xié)同計(jì)算方法[D]. 長(zhǎng)沙:中南大學(xué),2023.

      [4] 呼延?,李映,周詮,等. 遙感衛(wèi)星計(jì)算傳輸及其關(guān)鍵技術(shù)[J]. 天地一體化信息網(wǎng)絡(luò),2022,3(2):63-71.

      [5] 馬步云,任智源,郭凱,等. 基于算力路由的空間信息網(wǎng)絡(luò)低時(shí)延在軌協(xié)同計(jì)算策略[J]. 遙測(cè)遙控,2023,44(5):8-15.

      [6] FENG C,SHEN Y,CAO G,et al. A Resource AllocationAlgorithm Based on GEO/ LEO Hierarchical ClusteringNetwork[C]∥Seventh Symposium on Novel PhotoelectronicDetection Technology and Applications. Kunming:SPIE,2021:1268-1272.

      [7] 李京陽(yáng). 基于深度強(qiáng)化學(xué)習(xí)的衛(wèi)星路由方法研究[D].石家莊:河北科技大學(xué),2023.

      [8] ZHANG S B,LIU A J,HAN C,et al. Graph NeuralNetwork and Reinforcement Learning Based Routing forMega LEO Satellite Constellations[C]∥2023 9th International Conference on Computer and Communications(ICCC). Chengdu:IEEE,2023:1-6.

      [9] WANG H,RAN Y Y,ZHAO L,et al. GRouting:DynamicRouting for LEO Satellite Networks with GraphbasedDeep Reinforcement Learning[C]∥2021 4th InternationalConference on Hot InformationCentric Networking(HotICN). Nanjing:IEEE,2021:123-128.

      [10]SHI Y J,WANG W A,ZHU X R,et al. Low Earth OrbitSatellite Network Routing Algorithm Based on GraphNeural Networks and Deep QNetwork[J]. Applied Sciences,2024,14(9):3840.

      [11]曹素芝,孫雪,王厚鵬,等. 星地融合網(wǎng)絡(luò)智能路由技術(shù)綜述[J]. 天地一體化信息網(wǎng)絡(luò),2021,2(2):11-19.

      [12]唐斯琪,潘志松,胡谷雨,等. 深度強(qiáng)化學(xué)習(xí)在天基信息網(wǎng)絡(luò)中的應(yīng)用———現(xiàn)狀與前景[J]. 系統(tǒng)工程與電子技術(shù),2023,45(3):886-901.

      [13]汪昊,冉泳屹,趙雷,等. 基于深度圖強(qiáng)化學(xué)習(xí)的低軌衛(wèi)星網(wǎng)絡(luò)動(dòng)態(tài)路由算法[J]. 重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版),2023,35(4):596-605.

      [14]PI J H,RAN Y Y,WANG H,et al. Dynamic Planning ofInterplane Intersatellite Links in LEO Satellite Networks[C]∥ICC 2022IEEE International Conference on Communications. Seoul:IEEE,2022:3070-3075.

      [15]SORET B,RAVIKANTI S,POPOVSKI P,et al. Latencyand Timeliness in Multihop Satellite Networks[C]∥ICC2020-2020 IEEE International Conference on Communications (ICC). Dublin:IEEE,2020:1-6.

      [16]WANG C,REN Z Y,CHENG W C,et al. TimeexpandedGraphbased Dispersed Computing Policy for LEO SpaceSatellite Computing[C]∥2021 IEEE Wireless Communications and Networking Conference (WCNC). Nanjing:IEEE,2021:1-6.

      [17]ROSS S M. 應(yīng)用隨機(jī)過(guò)程概率模型導(dǎo)論:第11 版[M].龔光魯,譯. 北京:人民郵電出版社,2016.

      [18]TAO J H,NA Z Y,LIN B,et al. A Joint Minimum Hopand Earliest Arrival Routing Algorithm for LEO SatelliteNetworks[J]. IEEE Transactions on Vehicular Technology,2023,72(12):16382-16394.

      作者簡(jiǎn)介:

      許柳飛 女,(1996—),博士研究生。主要研究方向:算力路由。

      (*通信作者)羅志勇 男,(1973—),博士,教授,博士生導(dǎo)師。主要研究方向:衛(wèi)星互聯(lián)網(wǎng)一體化融合、無(wú)線通感算融合賦能技術(shù)、通信人工智能應(yīng)用。

      基金項(xiàng)目:國(guó)家重點(diǎn)研發(fā)計(jì)劃(2023YFB2904701);廣東省重點(diǎn)研發(fā)計(jì)劃(2024B0101020006);廣東省區(qū)域聯(lián)合基金重點(diǎn)項(xiàng)目(2023B1515120093);深圳市自然科學(xué)基金重點(diǎn)項(xiàng)目(JCYJ20220818102209020)

      猜你喜歡
      深度強(qiáng)化學(xué)習(xí)
      基于DDPG算法的路徑規(guī)劃研究
      基于深度強(qiáng)化學(xué)習(xí)的木材缺陷圖像重構(gòu)及質(zhì)量評(píng)價(jià)模型研究
      基于深度強(qiáng)化學(xué)習(xí)與圖像智能識(shí)別的輸電線路在線監(jiān)測(cè)系統(tǒng)
      基于云控制的業(yè)務(wù)服務(wù)機(jī)器人系統(tǒng)設(shè)計(jì)
      人工智能深度強(qiáng)化學(xué)習(xí)的原理與核心技術(shù)探究
      基于人工智能的無(wú)人機(jī)區(qū)域偵察方法研究現(xiàn)狀與發(fā)展
      基于策略梯度算法的工作量證明中挖礦困境研究
      基于深度強(qiáng)化學(xué)習(xí)的圖像修復(fù)算法設(shè)計(jì)
      關(guān)于人工智能阿法元綜述
      商情(2019年14期)2019-06-15 10:20:13
      深度強(qiáng)化學(xué)習(xí)研究進(jìn)展
      辰溪县| 乌拉特前旗| 喜德县| 定安县| 古蔺县| 新化县| 宁晋县| 永清县| 城市| 桃园县| 宿迁市| 措勤县| 桃江县| 商都县| 彭水| 桓台县| 平谷区| 云龙县| 泗水县| 凤山市| 临泉县| 津市市| 宜昌市| 温宿县| 定日县| 镇远县| 贵德县| 平邑县| 冕宁县| 法库县| 银川市| 汨罗市| 黎城县| 尉犁县| 虹口区| 公主岭市| 榆林市| 洛宁县| 安吉县| 文山县| 开鲁县|