• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      一種基于強化學習的低軌衛(wèi)星網(wǎng)絡(luò)智能路由算法*

      2022-11-04 02:23:00左珮良
      北京電子科技學院學報 2022年2期
      關(guān)鍵詞:衛(wèi)星網(wǎng)絡(luò)快照時延

      左珮良 王 晨 蔣 華,2

      1.北京電子科技學院,北京市 100070

      2.西安電子科技大學,西安市 710071

      引言

      隨著5G 通信技術(shù)逐步融入人類社會生活并為后者提供不可或缺的服務(wù)體驗,6G 通信技術(shù)以及空天地一體化技術(shù)已經(jīng)進入研究人員的視野[1],其中具備探測、導航或通信功能的衛(wèi)星網(wǎng)絡(luò)是重要的組成部分[2]。 相比于一般的高、中軌道衛(wèi)星網(wǎng)絡(luò),由于距離地面更近,低軌衛(wèi)星網(wǎng)絡(luò)具備明顯更低的服務(wù)延遲,且在執(zhí)行相關(guān)任務(wù)時具備更好的機動性。 與此同時,大量低軌衛(wèi)星的高效合作能夠?qū)崿F(xiàn)對地球表面的全天候低時延覆蓋,以上優(yōu)勢使得低軌衛(wèi)星網(wǎng)絡(luò)的快速構(gòu)建成為世界各大國的工作重點。 低軌衛(wèi)星網(wǎng)絡(luò)在空天地一體化技術(shù)中扮演的角色示意可以參見圖1,得益于星間鏈路和低時延廣覆蓋特性[3],低軌衛(wèi)星網(wǎng)絡(luò)在提供自身基本的探測、導航和通信三項服務(wù)的同時,其能夠很好的實現(xiàn)承載異構(gòu)網(wǎng)絡(luò)互通融合的目標。

      圖1 空天地一體化場景中低軌衛(wèi)星網(wǎng)絡(luò)的應(yīng)用示意圖

      國內(nèi)外典型的低軌衛(wèi)星星座系統(tǒng)有銥星二代、OneWeb、Starlink(星鏈)等,其中銥星二代系統(tǒng)具備全星間鏈路,能夠基于星上路由功能實現(xiàn)數(shù)據(jù)交換,但受限于通信頻段的帶寬,其星間鏈路通信容量較低[3]。 OneWeb 星座系統(tǒng)則不具備星間通信功能,其依靠彎管載荷實現(xiàn)寬帶業(yè)務(wù)。 Starlink 衛(wèi)星互聯(lián)網(wǎng)計劃由美國SpaceX 投入實施,旨在最終依靠成千上萬顆低軌衛(wèi)星組網(wǎng)實現(xiàn)全球范圍內(nèi)的寬帶互聯(lián)網(wǎng)接入,截止目前,Starlink 還不能夠支持星間鏈路,其服務(wù)范圍還相對有限,但其為用戶提供的平均服務(wù)速率已經(jīng)是地球同步軌道衛(wèi)星Viasat 的三倍多,達到79.5Mbps,而平均時延卻僅為后者的十六分之一(42ms)。 我國計劃于2023 年前完成“鴻雁”低軌衛(wèi)星星座的構(gòu)建工作,并最終實現(xiàn)全球互聯(lián)網(wǎng)用戶的接入和監(jiān)測服務(wù)。 雖然低軌衛(wèi)星網(wǎng)絡(luò)具備不可替代的優(yōu)勢,但由于低軌衛(wèi)星高速移動、數(shù)量眾多、軌道交錯多樣所導致的星間拓撲頻繁變動、星間鏈路持續(xù)性不強等現(xiàn)象,使得低軌衛(wèi)星路由算法的可靠性和高效性受到不小的挑戰(zhàn)。 文獻[4]依據(jù)衛(wèi)星三種典型的業(yè)務(wù)類型(即時延敏感業(yè)務(wù)、帶寬敏感業(yè)務(wù)和丟包率敏感業(yè)務(wù))對QoS 的需求,設(shè)定了多約束條件下的路由優(yōu)化目標,并通過蟻群優(yōu)化算法進行求解。 以均衡動態(tài)低軌衛(wèi)星網(wǎng)絡(luò)的負載為目的,文獻[5]提出了一種基于事件觸發(fā)的路由算法,該算法由鏈路信息更新、多徑路由和負載判決三步組成,一定程度上提高了網(wǎng)絡(luò)的負載均衡和抗毀性。針對中心式路由決策具備策略重構(gòu)時延長的問題,文獻[6]提出了一種基于星間鏈路持續(xù)時長預測的路徑切換機制,該機制在一定程度上提升了網(wǎng)絡(luò)的吞吐量水平。 相比于需要控制中心統(tǒng)一搜集路由決策依據(jù)信息的集中式路由決策方法,發(fā)揮局部信息感知和路徑策劃的分布式路由方法雖然決策結(jié)果不具備全局最優(yōu)的特點,但其規(guī)劃結(jié)果具備更好的實時性,能夠適應(yīng)于網(wǎng)絡(luò)高動態(tài)變化的場景。 文獻[7]提出的ELB 算法能夠分布式的感知網(wǎng)絡(luò)狀態(tài)并定期監(jiān)控本地擁塞情況,設(shè)定擁塞閾值,待擁塞超標后,進行路徑切換。 受交通燈啟發(fā),文獻[8]提出了TLR 方法,方法將下一節(jié)點的網(wǎng)絡(luò)擁塞狀態(tài)用紅、黃、綠顏色描述,以便動態(tài)的調(diào)整數(shù)據(jù)流的走向。 文獻[9]將網(wǎng)絡(luò)節(jié)點擁塞狀態(tài)進行了簡單的二元(優(yōu)、良)描述,以此作為數(shù)據(jù)流選路的依據(jù),該種方法簡單且易實施。 不同于以上需要人工設(shè)定閾值并劃分衛(wèi)星節(jié)點類型的分布式路由決策方法,本文關(guān)注于探索提出一種能夠依靠深度強化學習模型自適應(yīng)選路的智能路由算法,所提算法不需要額外設(shè)定節(jié)點分類閾值,避免了由于該操作所引入的誤差。 在論文接下來的內(nèi)容里,第1 章給出了路由模型,第2 章具體說明了所提算法,第3 章對路由算法的性能進行了仿真驗證,第4 章對全文進行了總結(jié)。

      1 智能路由模型

      本文所關(guān)注的路由決策場景如圖2 所示,不失一般性,我們假定極軌道衛(wèi)星星座中每顆低軌衛(wèi)星的通信可達范圍內(nèi)包含了四顆相鄰的衛(wèi)星節(jié)點,其中與當前衛(wèi)星節(jié)點處于同一軌道的衛(wèi)星為兩顆,處于東西相鄰軌道的衛(wèi)星各為一顆。 隨著通信和計算技術(shù)的迅猛發(fā)展,在模型的同一星座中,每顆衛(wèi)星由于發(fā)送上天的時間存在差異,衛(wèi)星的大小、通信能力、處理能力及能源獲取和消耗水平都存在明顯的差異。 與此同時,受實際工作環(huán)境(如非均衡鏈路負載)的影響,每顆衛(wèi)星的可用資源也存在區(qū)別。

      作為低軌衛(wèi)星網(wǎng)絡(luò)智能路由技術(shù)初探,本文考慮分布式場景下的衛(wèi)星路由決策,特別地,我們設(shè)定每顆待發(fā)送數(shù)據(jù)的衛(wèi)星(源衛(wèi)星)僅能夠依靠信息交互獲取到周圍四顆衛(wèi)星的實際狀態(tài),顯而易見,這種假定在很大程度上節(jié)省了通信交互的開銷和衛(wèi)星的存儲空間。 如圖2 所示,源衛(wèi)星的智能選路過程可以用三步進行描述:①源衛(wèi)星依靠通信交互獲得周圍四顆衛(wèi)星的可用帶寬、信道信噪比、間距、空間位置等決策參考信息;②源衛(wèi)星依靠接收到的決策參考信息以及自身狀態(tài)如發(fā)送功率、天線調(diào)整速率等,結(jié)合智能算法得到預測輸出;③源衛(wèi)星完成算法預測輸出與節(jié)點選擇的映射,并將待發(fā)送數(shù)據(jù)傳送給下一衛(wèi)星節(jié)點。

      圖2 智能路由模型示意圖

      2 基于強化學習的路由算法

      2.1 強化學習與深度強化學習

      如圖3 所示,在強化學習過程中,智能體(Agent)和環(huán)境(Environment)在一系列離散時間內(nèi)相互作用,完成一個任務(wù)。 強化學習的過程可使用馬爾可夫決策過程(MDP)進行建模,一般使用五元組<S,A,P,R,γ >進行描述[11],其中S與A分別代表狀態(tài)空間和動作空間,P為狀態(tài)轉(zhuǎn)移概率,p(s′|s,a) 表示在狀態(tài)s下采取動作a后環(huán)境轉(zhuǎn)移到狀態(tài)s′ 的概率,R為獎勵函數(shù),γ∈[0,1] 為折扣率,R表明了智能體的當前動作是好動作還是壞動作。 強化學習智能體的策略使用π表示,智能體根據(jù)策略π選擇動作。

      圖3 強化學習原理圖

      智能體與環(huán)境交互過程包括以下幾個過程:在t時刻,智能體觀察環(huán)境的狀態(tài)st∈S,智能體根據(jù)策略π(st) 選擇動作at, 動作at作用于環(huán)境,隨后環(huán)境轉(zhuǎn)變?yōu)闋顟B(tài)st+1, 此時環(huán)境會給予智能體相應(yīng)的獎勵rt, 之后智能體會依據(jù)新的環(huán)境狀態(tài)和策略做出新的決策,該交互過程不斷重復,直至智能體完成相應(yīng)的目標任務(wù)。 強化學習智能體的目標即為最大化累計獎勵的期望E(∑γtrt),其中,γ∈(0,1) 是折扣率,當γ接近0 時,智能體更注重短期回報,當γ接近1 時,智能體更注重長期回報。

      Q 學習是強化學習典型算法之一[12]。 Q 學習算法是一種離線策略的差分學習方法。 在策略π、環(huán)境狀態(tài)s下采取動作a時,基于Q 學習的智能體會學習動作值函數(shù)Qπ(s,a) :

      最佳動作值函數(shù)Q*(s,a) ?maxπQπ(s,a),由貝爾曼最優(yōu)方程可知:

      其中s′是在狀態(tài)s下做出動作a之后的新狀態(tài)。 Q 學習的主要思想是迭代地估計每個狀態(tài)-動作對(s,a) 出現(xiàn)時的Q*(s,a)。 設(shè)q(s,a) 為迭代過程中的動作值函數(shù),則根據(jù)t時刻狀態(tài)-動作對(st,at) 和獎勵rt+1, Q 學習更新q(st,at) 的過程如下:

      其中β∈(0,1] 是學習速率。 Q 學習在更新q(s,a) 的同時,也會根據(jù)q(s,a) 進行動作決策。 為避免局部收斂,智能體會以一定概率隨機選擇動作,這種方式稱為ε-貪婪策略,即:

      隨機選擇一個動作是為了智能體避免陷入尚未收斂到Q*(s,a) 的q(s,a) 函數(shù)中。

      傳統(tǒng)的強化學習使用存儲表的方法記錄表示策略π, 然而當狀態(tài)-動作空間較大時,傳統(tǒng)強化學習方法變得不再實用。 在低軌衛(wèi)星網(wǎng)絡(luò)中,網(wǎng)絡(luò)規(guī)模的增長及監(jiān)控粒度的不斷細化,導致低軌衛(wèi)星網(wǎng)絡(luò)的狀態(tài)空間維度爆炸,依靠傳統(tǒng)強化學習實現(xiàn)低軌衛(wèi)星的路由算法愈發(fā)困難。例如在本文的仿真設(shè)置中,狀態(tài)空間由四項時延、一項距離和一項終點指示所組成,則狀態(tài)空間大小為104× 12× 2= 240000,該值遠遠超出了傳統(tǒng)強化學習能夠高效處理的空間范圍。 深度強化學習將深度學習的智能感知能力和強化學習的快速決策能力相結(jié)合,通過充分發(fā)揮二者各自的優(yōu)勢使得智能體能夠直接從高維輸入數(shù)據(jù)中獲得感知信息,并使用獲得的感知信息進行模型訓練,得到最優(yōu)策略并做出決策,實現(xiàn)對智能體的行為進行合理有效的控制[14][15]。

      在強化學習中引入深度學習有三種方法,分別為基于值的深度強化學習、基于策略的深度強化學習和基于模型的深度強化學習[13]。 其中,基于值的深度強化學習方法,即DQN(深度Q 學習),使用神經(jīng)網(wǎng)絡(luò)來估計狀態(tài)-動作值函數(shù)(即Q 值),DQN 與Q 學習類似,仍然通過差分學習的方式更新Q 值。

      DQN 的優(yōu)化目標為最小化損失函數(shù)Loss,Loss 表示的是現(xiàn)實值與估計值的偏差大小,定義為:

      在常規(guī)DQN 中,選擇動作和評估選擇的動作使用相同的網(wǎng)絡(luò)參數(shù),這導致Q 值被過高估計,為解決這個問題,可以使用兩個結(jié)構(gòu)相同但參數(shù)不同的神經(jīng)網(wǎng)絡(luò),分別稱為Q 網(wǎng)絡(luò)和目標網(wǎng)絡(luò),以減少Q(mào) 值的過度估計,同時降低訓練時震蕩發(fā)生的可能性。

      2.2 智能路由算法

      由于衛(wèi)星節(jié)點的可用頻譜資源可能不相同,不同衛(wèi)星節(jié)點間可用于通信的共同頻譜資源可能不同,即不同衛(wèi)星鏈路的帶寬可能不同,因此在t時刻,路由節(jié)點i與路由節(jié)點j之間的星間鏈路可實現(xiàn)的數(shù)據(jù)傳輸最大速率為:ri,j(t)=Bi,jlog2(1 +γi,j(t)),其中Bi,j表示路由節(jié)點i與路由節(jié)點j之間用于通信的共同頻譜資源。

      由以上描述我們可以得到Ti,j(t) 的具體表達式:Ti,j(t)=Ri,j(t)/ri,j(t)+m,其中Ri,j(t) 為t時刻路由節(jié)點i與節(jié)點j的距離,m表示發(fā)送時延,由于路由節(jié)點接收到數(shù)據(jù)需要進行解碼轉(zhuǎn)發(fā),所以需要一定的時間進行轉(zhuǎn)碼,方便起見我們假設(shè)每個節(jié)點解碼能力相同,可以將m設(shè)為固定值。

      本文的獎勵函數(shù)由路由節(jié)點到目的節(jié)點的距離、星間鏈路傳輸時延、路由跳數(shù)構(gòu)成,單步即時獎勵函數(shù)具體設(shè)定如下:

      其中,α、ρ、μ三個權(quán)重參數(shù)的和為1,Tij(t),Lj(t) 需進行歸一化處理,rt取值范圍是-1 到0。 如果下一跳的節(jié)點是目的節(jié)點,獎勵值應(yīng)最大,此時獎勵設(shè)為0,其他情況獎勵值均小于0。 如果下一跳的節(jié)點是不是目的節(jié)點,獎勵函數(shù)需要考慮路由節(jié)點i向路由節(jié)點j的傳輸時延Ti,j(t),智能體選擇下一跳節(jié)點的時延越小獎勵越大;若只考慮時延特性,路由的傳輸可能會偏離最終的目的節(jié)點,所以獎勵函數(shù)還應(yīng)考慮下一跳節(jié)點離目的節(jié)點的距離,智能體選擇下一跳的節(jié)點距離目的節(jié)點越近,獎勵越大;本文還考慮跳數(shù)的因素,假設(shè)路由最大跳數(shù)為M,當前實際跳數(shù)為n, 則可設(shè)置與跳數(shù)相關(guān)的獎勵為Hn= 1/1+e-(n-M),當n在M之內(nèi)時,與跳數(shù)相關(guān)的獎勵值趨近于0,若實際跳數(shù)n遠超過M,則與跳數(shù)相關(guān)的獎勵值趨向于-μ。

      本文采用DQN 算法對模型進行訓練,具體算法流程如下所示:

      輸入:狀態(tài)空間S,動作空間A,折扣率γ,學習率β,目標網(wǎng)絡(luò)參數(shù)更新頻率F;1. 初始化經(jīng)驗回放庫D,容量為N;2. 隨機初始化實際Q 網(wǎng)絡(luò)的參數(shù)?;3. 隨機初始化目標Q 網(wǎng)絡(luò)的參數(shù)?^ = ?;4. repeat 5. 選擇起始路由節(jié)點i,起始路由節(jié)點的狀態(tài)為si;6. repeat

      7. 在狀態(tài)si 的情況下選擇動作a = πε(si);8. 執(zhí)行動作a,智能體與環(huán)境交互,得到單步即時獎勵r 和新的狀態(tài)s′;9. 將si,a,r,s′放入經(jīng)驗回放庫D 中;10. 從D 中采樣新的ss,aa,rr,ss′進行訓練;11. 以[(r + γ max a′ Q?(s′,a′)) - Q?(s,a)]2 為損失函數(shù)訓練Q 網(wǎng)絡(luò);12. 狀態(tài)更新:s ←s′;13. 每隔F 步對目標Q 網(wǎng)絡(luò)參數(shù)進行更新:?^←?;14. until 狀態(tài)s 為目的節(jié)點;15. until 對于任意的s,a,Q?(s,a) 收斂;輸出:Q 網(wǎng)絡(luò)的Q?(s,a) 值,選取最優(yōu)動作a = argmaxaQ?(s,a)

      3 仿真與性能分析

      本文使用Keras 作為深度學習平臺來訓練神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)采用6 層的ResNet 網(wǎng)絡(luò),程序仿真的相關(guān)參數(shù)如表1 所示。 不失一般性,設(shè)定衛(wèi)星數(shù)量為48 顆,并且均勻地分布于8 條地球近地軌道,其中每條軌道上有6 顆間距相等的低軌衛(wèi)星,與此同時,為了方便和直觀地驗證本文所提算法的性能,論文將低軌衛(wèi)星軌道面展開視作矩形,并設(shè)定相鄰軌道的間距相等。 在仿真中以快照的形式訓練或者測試所提算法,在每個快照中,隨機設(shè)定一個衛(wèi)星節(jié)點作為目的節(jié)點,并假定快照中所有衛(wèi)星的包含可用帶寬、空間位置等狀態(tài)保持不變,在余下的47 顆衛(wèi)星中隨機地產(chǎn)生一個數(shù)據(jù)源衛(wèi)星,定義從源衛(wèi)星起始并最終選路至目的衛(wèi)星節(jié)點時算作一輪。 本文分別產(chǎn)生了10 個和5 個快照作為訓練集和測試集,對于訓練集來說,探索指數(shù)ε初始值設(shè)置為0.9,并隨著當前輪中選路的進行每步衰減至上一步0.995 倍,直至本快照訓練結(jié)束,而快照間的探索指數(shù)ε按照上一快照初始值的三分之二進行衰減,對于測試集來說,為了充分利用所訓練得到的算法模型,我們將探索指數(shù)ε始終設(shè)置為0.005。 權(quán)重α、ρ和μ被分別設(shè)置為0.5、0.3與0.2,本文從兩個層面考慮,最終設(shè)置了該權(quán)重比例,一方面是理論上三者對路由時延影響的程度,另一方面則是在仿真中進行參數(shù)的優(yōu)化,當前的權(quán)重參數(shù)性能較優(yōu)。

      表1 所提算法仿真參數(shù)

      所提算法針對訓練集的時延和獎勵的收斂過程如圖4 所示,可以明顯的看到,對于十個快照的每一個來說,算法的獎勵和傳輸?shù)臅r延都在早期經(jīng)歷了一定的震蕩后(一般10 幾輪到20 幾輪之間),逐步收斂到穩(wěn)定值,這與算法探索指數(shù)的逐步減少以及深度強化學習模型逐步掌握當前快照的路由策略相對應(yīng)。 另外值的說明的是,對于每個快照在收斂后仍然可以看到較小的毛刺(參見圖3 時延線),這是因為此時的探索指數(shù)仍然較大,衛(wèi)星節(jié)點在選路的過程中依然有一定的幾率選中非優(yōu)的下一衛(wèi)星節(jié)點,且由于該幾率較小,所以在未來的選路中又回歸到了較優(yōu)的節(jié)點上,使得引起的震蕩較小。

      圖5 展示了所提算法依靠訓練數(shù)據(jù)得到的模型針對測試數(shù)據(jù)的收斂過程,結(jié)合圖4 可以得出結(jié)論,算法模型能夠以明顯更快的速度適應(yīng)快照的衛(wèi)星節(jié)點狀態(tài),其一般僅需要2-4 輪即可以完成收斂,與此同時,由于模型的探索指數(shù)很小,可以看到對于測試數(shù)據(jù)收斂后基本上不會發(fā)生毛刺現(xiàn)象。 此外,還可以看到,圖5 中模型的震蕩頻率和震蕩程度均明顯的低于圖4,這說明了依靠舊快照訓練得到的模型能夠很快的適應(yīng)新的快照,且在模型適應(yīng)后者的過程中所產(chǎn)生的不匹配程度較低。 值得補充說明的是,結(jié)合仿真結(jié)果不難判斷出,本文所提智能路由方法能夠避免出現(xiàn)“路由回路”問題,因為方法以最低路由時延為優(yōu)化目標,智能體依靠大量的“嘗試-犯錯-再嘗試”模式的訓練過程,對包含“路由回路”在內(nèi)的多種耗費時間的錯誤決策進行了學習認知。

      圖4 所提算法針對訓練數(shù)據(jù)的收斂過程

      圖5 所提算法針對測試數(shù)據(jù)的收斂過程

      最后,我們對所提算法相比于其他常用算法的優(yōu)勢性進行仿真驗證,考慮到本文場景中待傳數(shù)據(jù)的衛(wèi)星節(jié)點獲取周邊衛(wèi)星信息的局限性,論文選取了貪婪周邊無狀態(tài)路由(GPSR)算法[10]作為對比方法,該算法僅以下一節(jié)點距離目的節(jié)點的距離作為參考因素進行選路,此外,我們還選定貪婪固定權(quán)重路由(GFWR)作為對比方法,該方法可以認為是文獻[8-10]所提算法的當前場景改進版,方法依靠對基于可用帶寬、信噪比和待傳數(shù)據(jù)量計算得到的時延以及下一節(jié)點與目的節(jié)點的距離兩個因素設(shè)置固定權(quán)重加和進行路徑選擇。

      待收斂后,我們在測試集中隨機選用幾個處于不同起始衛(wèi)星的快照,并在圖6 中展示了所提方法與對比方法在時延方面的性能,其中GFWR(1-9)代表時延和間距的權(quán)重比例關(guān)系為1 ∶9,以此類推。 鑒于GFWR 算法在某些權(quán)重設(shè)定下容易出現(xiàn)路由迂回的現(xiàn)象,本文將發(fā)生路由迂回時的時延統(tǒng)一設(shè)定為8。 從圖中可以看到,GFWR 算法受具體的權(quán)重參數(shù)設(shè)定影響很大,且不可避免的會出現(xiàn)路由迂回現(xiàn)象,相比而言,GPSR 算法則更加穩(wěn)定些,雖然其延遲在某些情況下要大于GFWR 算法,本文所提算法在時延性能方面明顯的優(yōu)于兩種對比方法,且在所有的測試輪中具備不高于對比方法的時延。 以上測試驗證了本文所提方法的合理性、針對場景的適應(yīng)性以及相比常用路由算法的優(yōu)勢性。

      圖6 路由算法時延性能對比

      4 結(jié)論

      針對低軌衛(wèi)星網(wǎng)絡(luò)高速移動、拓撲變化頻繁所導致的路由規(guī)劃難題,本文提出了一種適用于分布式場景的智能路由算法,算法基于深度強化學習理論,僅依靠待發(fā)送數(shù)據(jù)衛(wèi)星節(jié)點對周邊有限幾個衛(wèi)星節(jié)點包含可用頻譜、間距、信噪比等信息的搜集掌握,迅速自動的選擇下一跳衛(wèi)星節(jié)點。 仿真實驗證明,所提方法能夠較快的實現(xiàn)收斂,且與常用的分布式路由方法相比,具備明顯更優(yōu)的時延性能,作為衛(wèi)星智能化路由的研究初探,所提方法適用于本文所關(guān)注的低軌衛(wèi)星網(wǎng)絡(luò)局部自適應(yīng)路由決策場景。 考慮方法在實際場景中的應(yīng)用部署,可將低軌衛(wèi)星網(wǎng)絡(luò)中的每個節(jié)點視作一個智能體,每個智能體在部署之前,可以初始化的設(shè)置仿真訓練好的決策模型,該模型在衛(wèi)星節(jié)點實際運營過程中,可以依靠節(jié)點的交互情況,進行各自的模型更新,由于初始部署的模型已經(jīng)具備較優(yōu)的性能,其再次訓練的過程能夠較快的收斂。

      猜你喜歡
      衛(wèi)星網(wǎng)絡(luò)快照時延
      2023衛(wèi)星網(wǎng)絡(luò)與空間應(yīng)用技術(shù)大會召開
      高通量衛(wèi)星網(wǎng)絡(luò)及網(wǎng)絡(luò)漫游關(guān)鍵技術(shù)
      國際太空(2023年1期)2023-02-27 09:03:42
      EMC存儲快照功能分析
      天津科技(2022年5期)2022-05-31 02:18:08
      全球低軌衛(wèi)星網(wǎng)絡(luò)最新態(tài)勢研判
      國際太空(2021年10期)2021-12-02 01:32:26
      基于GCC-nearest時延估計的室內(nèi)聲源定位
      電子制作(2019年23期)2019-02-23 13:21:12
      基于改進二次相關(guān)算法的TDOA時延估計
      創(chuàng)建磁盤組備份快照
      FRFT在水聲信道時延頻移聯(lián)合估計中的應(yīng)用
      基于分段CEEMD降噪的時延估計研究
      衛(wèi)星網(wǎng)絡(luò)中基于網(wǎng)絡(luò)編碼的ARQ機制
      孝感市| 康保县| 招远市| 溧水县| 津南区| 黄冈市| 衢州市| 巴林右旗| 通道| 东乡族自治县| 正安县| 高平市| 恩施市| 土默特左旗| 湟源县| 秀山| 澜沧| 汝城县| 宜州市| 平遥县| 安庆市| 长白| 土默特右旗| 囊谦县| 上犹县| 花莲县| 扶绥县| 唐山市| 崇信县| 通化县| 东乡县| 余干县| 红原县| 北京市| 广元市| 丹凤县| 盐源县| 南靖县| 泰和县| 桃江县| 永安市|