• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      6G 密集網(wǎng)絡(luò)中基于深度強(qiáng)化學(xué)習(xí)的資源分配策略

      2023-09-19 07:40:54楊凡楊成黃杰張仕龍喻濤左迅楊川
      通信學(xué)報(bào) 2023年8期
      關(guān)鍵詞:資源分配密集吞吐量

      楊凡,楊成,黃杰,張仕龍,喻濤,左迅,楊川

      (重慶理工大學(xué)電氣與電子工程學(xué)院,重慶 400054)

      0 引言

      6G 密集網(wǎng)絡(luò)(DN,dense network)是一個(gè)面向智慧醫(yī)療、全息通信、智慧城市群、應(yīng)急通信搶險(xiǎn)、智能工廠以及數(shù)字孿生等全場(chǎng)景的網(wǎng)絡(luò),可實(shí)現(xiàn)通信和人工智能(AI,artificial intelligence)的雙向互促[1]。隨著智能終端(IT,intelligent terminal)的空前普及和網(wǎng)絡(luò)規(guī)模的快速擴(kuò)展,5G DN 無(wú)法完全滿足不斷上升的技術(shù)標(biāo)準(zhǔn),如自主、超大規(guī)模、高度動(dòng)態(tài)和完全智能的服務(wù)。未來(lái)智能化和智能物聯(lián)網(wǎng)網(wǎng)絡(luò)的快速增長(zhǎng)可能超過(guò)5G DN 的能力。與5G DN 相比,6G DN將支持10 倍高的網(wǎng)絡(luò)容量和十分之一的時(shí)延,同時(shí)服務(wù)10倍多的終端設(shè)備數(shù)量以及提高服務(wù)質(zhì)量(QoS,quality of service)[2-3]。6G DN 將主要由AI 驅(qū)動(dòng),AI 技術(shù)可實(shí)現(xiàn)從“物聯(lián)”到“智聯(lián)”的躍遷,徹底改變無(wú)線網(wǎng)絡(luò)[4]。對(duì)于6G DN 而言,優(yōu)化資源分配是保證網(wǎng)絡(luò)性能的基本機(jī)制。通過(guò)基于AI 的智能資源分配和復(fù)用,可以緩解海量連接對(duì)資源的巨大需求,從而顯著提高資源復(fù)用率[5]。另一方面,大數(shù)據(jù)促進(jìn)了AI 在資源管理中的應(yīng)用,AI 可通過(guò)挖掘數(shù)據(jù)來(lái)學(xué)習(xí)各種模式(如用戶流量模式和移動(dòng)模式)或復(fù)雜的相互關(guān)系。6G DN 的主要優(yōu)點(diǎn)是鏈路強(qiáng)度的提高和廣泛的頻譜復(fù)用。但I(xiàn)T 節(jié)點(diǎn)的密集分布導(dǎo)致小區(qū)間交疊干擾加劇,網(wǎng)絡(luò)容量下降,同時(shí)交疊干擾造成了網(wǎng)絡(luò)吞吐量與IT 節(jié)點(diǎn)數(shù)量不成線性關(guān)系[6],使6G DN 的資源利用效率和服務(wù)質(zhì)量急劇降低。因此,在密集網(wǎng)絡(luò)下如何進(jìn)行資源分配使密集網(wǎng)絡(luò)的小區(qū)間無(wú)交疊干擾是提升6G DN 性能亟待解決的問(wèn)題[2]。

      目前,優(yōu)化方法已經(jīng)用于解決密集性無(wú)線網(wǎng)絡(luò)的資源分配問(wèn)題[7-13]。例如,考慮密集且復(fù)雜的網(wǎng)絡(luò)中端到端(D2D)用戶共享相同資源產(chǎn)生的同頻干擾,文獻(xiàn)[7]基于外部性匹配理論提出一種干擾感知資源分配算法,通過(guò)最小化同頻干擾來(lái)最大化網(wǎng)絡(luò)吞吐量??紤]D2D 通信會(huì)引入額外干擾破壞蜂窩網(wǎng)絡(luò)連續(xù)干擾消除的解碼條件,文獻(xiàn)[8]研究聯(lián)合D2D 模式選擇和資源分配的組合優(yōu)化(CO,combinatorial optimization)問(wèn)題,提出一種聯(lián)合資源分配和模式選擇方法。針對(duì)密集部署IT 帶來(lái)的嚴(yán)重小區(qū)干擾,文獻(xiàn)[9]基于回歸方法對(duì)干擾建模,提出一種面向干擾的資源分配框架。但是,在6G DN 資源分配過(guò)程中還需考慮功率控制對(duì)干擾的影響。為保證用戶的QoS,文獻(xiàn)[10]研究多目標(biāo)的資源分配優(yōu)化問(wèn)題,考慮每個(gè)用戶的傳輸功率和QoS 約束,提出一種面向功率控制的資源分配算法。文獻(xiàn)[11]研究聯(lián)合資源分配和功率分配的優(yōu)化問(wèn)題,考慮D2D 間和小區(qū)間干擾的統(tǒng)計(jì)信息,提出基于多項(xiàng)式時(shí)間算法的資源分配策略。文獻(xiàn)[12]研究支持非正交多址的聯(lián)合資源分配問(wèn)題,考慮功率控制、最小速率和連續(xù)干擾消除的約束,采用 KKT(Karush-Kuhn-Tucker)條件和對(duì)偶理論提出一種用于資源分配的梯度迭代算法。此外,考慮到6G DN中存在的交疊區(qū)域會(huì)造成信道間較嚴(yán)重的功率干擾,文獻(xiàn)[13]研究密集網(wǎng)絡(luò)的能源效率問(wèn)題,提出一種基于能量感應(yīng)架構(gòu)的干擾感知資源分配方法。此外,為適應(yīng)6G DN 中多用戶、多小區(qū)、多頻段的無(wú)線通信場(chǎng)景,資源分配過(guò)程中還需考慮用戶需求差異和區(qū)分干擾類型[14-15]。針對(duì)異構(gòu)網(wǎng)絡(luò)的同層干擾和用戶需求的多樣性,文獻(xiàn)[14]研究聯(lián)合次頻帶和資源塊分配優(yōu)化問(wèn)題,考慮用戶QoS 要求和功率限制,提出一種基于干擾管理的聯(lián)合資源分配。文獻(xiàn)[15]研究聯(lián)合資源分配和用戶選擇問(wèn)題,考慮干擾拓?fù)涞膹?fù)雜性和資源的有限性等約束,提出一種分布式自優(yōu)化資源分配方法。然而,使小區(qū)間無(wú)交疊干擾的資源分配是非凸且NP-hard 的CO 問(wèn)題,難以求解[16]。此外,上述方法難以適應(yīng)大規(guī)模數(shù)據(jù)的實(shí)時(shí)計(jì)算,無(wú)法充分挖掘隱藏在海量數(shù)據(jù)中有價(jià)值的信息,不能識(shí)別網(wǎng)絡(luò)中的通信資源復(fù)用情況,這將造成網(wǎng)絡(luò)吞吐量和用戶QoS 下降。因此,基于優(yōu)化方法的資源分配策略難以滿足6G DN 在不同業(yè)務(wù)對(duì)資源的需求,對(duì)有限的網(wǎng)絡(luò)資源利用不夠充分。

      深度強(qiáng)化學(xué)習(xí)(DRL,deep reinforcement learning)作為數(shù)據(jù)、算法和算力復(fù)合驅(qū)動(dòng)的機(jī)器學(xué)習(xí)技術(shù)已廣泛應(yīng)用于醫(yī)療、金融和交通等領(lǐng)域[17]。DRL 通過(guò)挖掘數(shù)據(jù)來(lái)學(xué)習(xí)復(fù)雜的相互關(guān)系,依靠豐富的計(jì)算能力實(shí)現(xiàn)實(shí)時(shí)在線決策,可彌補(bǔ)以犧牲存儲(chǔ)空間來(lái)提高系統(tǒng)性能的缺點(diǎn),解決沒(méi)有初步離線計(jì)算結(jié)果情況下無(wú)法及時(shí)處理任務(wù)的問(wèn)題。此外,DRL 可有效應(yīng)對(duì)非凸和NP-hard 挑戰(zhàn),解決優(yōu)化方法難以求解的CO 問(wèn)題[18]。然而,利用DRL 實(shí)現(xiàn)小區(qū)間無(wú)交疊干擾,提高網(wǎng)絡(luò)吞吐量和資源復(fù)用率的資源分配方法較少且研究更多關(guān)注的是非密集網(wǎng)絡(luò)或低密集網(wǎng)絡(luò)的資源分配[19-20]??紤]到6G DN中資源分配本質(zhì)問(wèn)題為CO 問(wèn)題,DRL 能有效解決在滿足網(wǎng)絡(luò)吞吐量、資源復(fù)用率以及無(wú)交疊干擾約束下的資源分配問(wèn)題,本文提出一種基于DRL 的資源分配方法,利用深度Q 網(wǎng)絡(luò)(DQN,deep Q-network)模型和競(jìng)爭(zhēng)網(wǎng)絡(luò)結(jié)構(gòu)對(duì)6G DN 進(jìn)行通信鏈路的資源分配以及實(shí)現(xiàn)小區(qū)間無(wú)交疊干擾,以提高網(wǎng)絡(luò)吞吐量和資源復(fù)用率。本文主要貢獻(xiàn)如下。

      1) 針對(duì)密集交疊干擾下的6G DN 場(chǎng)景,構(gòu)建6G DN 覆蓋模型,提出以最小化密集交疊干擾為優(yōu)化目標(biāo)的CO 問(wèn)題,為分析密集網(wǎng)絡(luò)場(chǎng)景下網(wǎng)絡(luò)拓?fù)鋵?duì)交疊干擾的影響提供數(shù)學(xué)依據(jù)和評(píng)估指標(biāo)。

      2) 提出基于點(diǎn)線圖染色的交疊干擾模型和實(shí)現(xiàn)無(wú)交疊干擾的資源分配策略。首先根據(jù)歐氏距離和無(wú)交疊干擾準(zhǔn)則,建立6G DN 的交疊干擾模型,為計(jì)算資源分配導(dǎo)致的交疊干擾提供理論依據(jù)。然后,根據(jù)交疊干擾模型設(shè)計(jì)了避免交疊干擾的資源分配策略,解決6G DN 中交疊干擾問(wèn)題。

      3) 為實(shí)現(xiàn)6G DN 中網(wǎng)絡(luò)無(wú)交疊干擾的資源分配,構(gòu)建基于DQN 的資源分配模型,提出基于Dueling DQN 的資源分配算法,采用競(jìng)爭(zhēng)網(wǎng)絡(luò)結(jié)構(gòu)感知交疊干擾特征,通過(guò)馬爾可夫決策過(guò)程(MDP,Markov decision process)優(yōu)化網(wǎng)絡(luò)資源分配的過(guò)程,實(shí)現(xiàn)無(wú)交疊干擾的密集組網(wǎng),為求解非凸和NP-hard 的資源分配問(wèn)題提供一種新的求解方法。

      最后本文對(duì)所提方法進(jìn)行仿真實(shí)驗(yàn)和實(shí)際通信測(cè)試。結(jié)果表明,基于Dueling DQN 的資源分配算法可根據(jù)6G DN 的網(wǎng)絡(luò)拓?fù)涞玫劫Y源分配方案,避免交疊干擾,有效地提高網(wǎng)絡(luò)吞吐量和資源復(fù)用率。

      1 系統(tǒng)模型

      本文考慮如圖1 所示的復(fù)雜通信場(chǎng)景中的6G DN 模型,該6G DN 由N個(gè)IT 組成,IT 之間形成M條通信鏈路。其中IT 的覆蓋范圍約為250 m[21],主要用于較短距離間的通信。為進(jìn)一步提高整個(gè)網(wǎng)絡(luò)覆蓋區(qū)域內(nèi)的網(wǎng)絡(luò)吞吐量,在6G DN 中采用密集部署IT 的方式。當(dāng)大量IT 密集部署在6G DN 中時(shí),6G DN 將產(chǎn)生密集交疊干擾和資源復(fù)用沖突,從而使6G DN 的資源分配能力下降。

      圖1 復(fù)雜通信場(chǎng)景中的6G DN 模型示意

      6G DN 的網(wǎng)絡(luò)覆蓋模型通過(guò)IT 間的歐氏距離建立。本文通過(guò)無(wú)向圖模型將資源分配問(wèn)題轉(zhuǎn)化為圖的邊染色問(wèn)題,利用點(diǎn)線圖染色理論建立交疊干擾模型。

      1.1 網(wǎng)絡(luò)覆蓋模型和6G DN 的網(wǎng)絡(luò)拓?fù)?/h3>

      1) IT 通信覆蓋與通信鏈路形成

      圖1 中,6G DN 通信節(jié)點(diǎn)主要是IT,并且IT間可以通過(guò)D2D 進(jìn)行通信。圖2 是圖1 中IT1、IT2和IT3形成的自組網(wǎng),任意一個(gè)IT 都在其余IT 的無(wú)線覆蓋范圍之內(nèi)。IT1、IT2和IT3間都存在數(shù)據(jù)傳輸?shù)耐ㄐ沛溌?。IT 間的通信鏈路形成可表示為

      圖2 IT 通信覆蓋與通信鏈路形成

      其中,d1,2表示IT1和IT2之間的歐氏距離;x1和x2分別表示IT1和IT2的通信半徑。實(shí)際情況中IT 間存在差異,因此x1≠x2。

      2) 6G DN 覆蓋模型

      圖3 是圖1 根據(jù)IT 覆蓋范圍得到的6G DN 覆蓋范圍模型,其中任意2 個(gè)IT 可以通信。6G DN通信覆蓋范圍CG是所有IT 通信覆蓋范圍的疊加,可表示為

      圖3 6G DN 覆蓋范圍模型

      其中,Ci表示ITi的通信覆蓋范圍,T表示所有IT的集合。

      3) 6G DN 的網(wǎng)絡(luò)拓?fù)?/p>

      圖4 是圖3 根據(jù)式(1)得到的6G DN 的網(wǎng)絡(luò)拓?fù)?。其中,網(wǎng)絡(luò)拓?fù)渲械墓?jié)點(diǎn)表示具有通信能力的IT,拓?fù)渲械木€表示節(jié)點(diǎn)間的通信鏈路。6G DN 點(diǎn)線圖模型可表示為

      圖4 6G DN 的網(wǎng)絡(luò)拓?fù)?/p>

      其中,V={1,2,…,N}表示6G DN 中的IT 集合,E={1,2,…,M}表示6G DN 中的通信鏈路集合。

      1.2 6G DN 的資源分配問(wèn)題

      本節(jié)根據(jù)點(diǎn)線圖邊染色與6G DN 的網(wǎng)絡(luò)拓?fù)鋵?duì)應(yīng),對(duì)6G DN 中的每一條通信鏈路分配通信資源。若圖4 中相同節(jié)點(diǎn)的通信鏈路具有不同的通信資源,則6G DN 資源分配可表示為

      其中,ψ(e,e′) 表示通信鏈路e和通信鏈路e′的關(guān)系,且ψ(e,e′) 只有2 個(gè)取值,ψ(e,e′)=1表示通信鏈路e和通信鏈路e′具有相同的通信資源,否則ψ(e,e′)=0;le∩le′=?表示通信鏈路e和通信鏈路e′在圖4 中不存在公共的通信節(jié)點(diǎn)。

      2 6G DN 交疊干擾模型

      本節(jié)提出一種使網(wǎng)絡(luò)無(wú)交疊干擾的資源分配策略,建立6G DN 的交疊干擾模型,降低在密集網(wǎng)絡(luò)交疊干擾下的資源分配難度,實(shí)現(xiàn)無(wú)交疊干擾資源分配。在建立無(wú)向圖網(wǎng)絡(luò)模型后,利用關(guān)聯(lián)矩陣設(shè)計(jì)資源分配策略。

      2.1 基于點(diǎn)線圖染色的交疊干擾模型

      其中,行向量le中的元素表示通信鏈路e與對(duì)應(yīng)IT的關(guān)系,元素為1 則表示IT 利用該通信鏈路e進(jìn)行通信。由于通信鏈路e能且僅能被2 個(gè)IT 使用,可表示為

      根據(jù)圖5 得到對(duì)應(yīng)的關(guān)聯(lián)矩陣HG為

      圖5 6G DN 的無(wú)向圖模型

      當(dāng)6G DN 對(duì)通信鏈路進(jìn)行資源分配時(shí),6G DN需要考慮密集網(wǎng)絡(luò)帶來(lái)的密集交疊干擾問(wèn)題。交疊干擾由單個(gè)IT 使用單個(gè)通信資源和多個(gè)IT 進(jìn)行通信導(dǎo)致。因此,單個(gè)IT 受到的交疊干擾可表示為

      其中,M表示6G DN 通信鏈路的總數(shù)。式(10)表示通過(guò)對(duì)每個(gè)節(jié)點(diǎn)求和再進(jìn)行平均可得到整個(gè)6G DN 的交疊干擾程度。

      通信鏈路資源分配情況如圖6 所示。根據(jù)式(9)可知,IT6受到的交疊干擾計(jì)算過(guò)程可表示為

      圖6 通信鏈路資源分配情況

      2.2 基于交疊干擾模型的資源分配策略

      在所有IT 組成6G DN 的過(guò)程中,根據(jù)式(10)可求得6G DN 資源分配導(dǎo)致的交疊干擾程度。因此,δG=0表示6G DN 資源分配無(wú)沖突。資源無(wú)沖突分配策略是從起始狀態(tài)到最終狀態(tài)的過(guò)程中,保證6G DN 無(wú)交疊干擾的資源分配方法。6G DN 狀態(tài)st+1的資源分配只與狀態(tài)st的資源分配結(jié)果有關(guān),即6G DN 的通信鏈路資源分配具有馬爾可夫性質(zhì)。本文提出使用有限長(zhǎng)馬爾可夫鏈解決無(wú)向圖染色問(wèn)題,建立任意時(shí)間t滿足δG=0條件的狀態(tài)轉(zhuǎn)移矩陣P。6G DN 從初始狀態(tài)s0到最終狀態(tài)s*的狀態(tài)轉(zhuǎn)移矩陣P可表示為

      然而,6G DN 無(wú)法直接從通信環(huán)境中獲得狀態(tài)轉(zhuǎn)移矩陣P。因此,6G DN 需要依次對(duì)通信鏈路進(jìn)行資源分配,從而使?fàn)顟B(tài)st改變?yōu)闋顟B(tài)st+1。6G DN的資源分配動(dòng)作可表示為

      其中,s表示6G DN 的狀態(tài),包含網(wǎng)絡(luò)拓?fù)淝闆r和通信鏈路的資源分配情況;a表示通信鏈路分配通信資源;資源分配策略π表示在狀態(tài)s做出資源分配動(dòng)作a的概率,具體可表示為

      根據(jù)式(14)和式(15),6G DN 在狀態(tài)s下進(jìn)行資源分配后,轉(zhuǎn)移到狀態(tài)s′的概率可表示為

      當(dāng)6G DN 執(zhí)行資源分配動(dòng)作a使δG=0時(shí),狀態(tài)s轉(zhuǎn)移到狀態(tài)s′ 的概率為p(s′|s,ai)=1。如果δG≠ 0,則表示狀態(tài)s無(wú)法轉(zhuǎn)移到狀 態(tài)s′,即p(s′|s,ai)=0。因此,根據(jù)系統(tǒng)狀態(tài)轉(zhuǎn)移矩陣P得到系統(tǒng)求解最優(yōu)資源分配問(wèn)題,即得到最優(yōu)資源分配策略π*。其中,資源分配策略π會(huì)產(chǎn)生具體的資源分配方案τ,并且根據(jù)不同網(wǎng)絡(luò)狀態(tài)產(chǎn)生的分配方案τ也不同。資源分配策略π產(chǎn)生資源分配方案τ的概率可表示為

      其中,ρ0(S0)表示6G DN 起始網(wǎng)絡(luò)狀態(tài)分布。式(17)可有效地表示每個(gè)分配方案τ與策略π之間的關(guān)系??紤]動(dòng)態(tài)情況,網(wǎng)絡(luò)拓?fù)浠蛘呓Y(jié)構(gòu)發(fā)生變化將會(huì)直接影響馬爾可夫鏈的狀態(tài)值。因此,在6G DN的動(dòng)態(tài)情況下,6G DN 的資源分配過(guò)程可表示為

      3 基于深度強(qiáng)化學(xué)習(xí)的資源分配策略

      為求解6G DN 無(wú)干擾資源分配策略問(wèn)題,本文提出基于Dueling DQN 的資源無(wú)沖突分配DRL 算法,構(gòu)建6G DN 交疊干擾下的資源分配MDP 模型,結(jié)合競(jìng)爭(zhēng)網(wǎng)絡(luò)模型求解最優(yōu)資源分配策略π*。在6G DN 中,MDP 通常由動(dòng)作A、狀態(tài)S、即時(shí)獎(jiǎng)勵(lì)R和動(dòng)作價(jià)值函數(shù)Q(s,a)組成,接下來(lái)對(duì)其進(jìn)行詳細(xì)的介紹。

      3.1 基于深度Q 網(wǎng)絡(luò)的資源分配模型

      本文算法引入DQN 方法來(lái)確定6G DN 場(chǎng)景下資源無(wú)沖突分配的決策序列,并進(jìn)行網(wǎng)絡(luò)拓?fù)湫畔⒑唾Y源分配情況提取,利用即時(shí)獎(jiǎng)勵(lì)函數(shù)Rt設(shè)計(jì)交疊干擾判斷機(jī)制,通過(guò)即時(shí)獎(jiǎng)勵(lì)函數(shù)Rt判斷6G DN交疊干擾的狀態(tài)和資源分配對(duì)交疊干擾的影響,提高無(wú)線通信網(wǎng)絡(luò)系統(tǒng)應(yīng)對(duì)密集交疊干擾場(chǎng)景的資源分配能力。

      1) 狀態(tài):6G DN 所有可能的通信鏈路資源分配狀態(tài)的集合,即狀態(tài)集。因此,6G DN 狀態(tài)可以表示為

      其中,Kt表示通信鏈路的資源分配狀態(tài)。

      2) 動(dòng)作:6G DN 觀察當(dāng)前狀態(tài)做出相應(yīng)通信鏈路資源分配的集合,即動(dòng)作集。動(dòng)作集的大小為通信鏈路的數(shù)量M與最大通信資源數(shù)量Ms的乘積。因此,6G DN 資源分配動(dòng)作集可以表示為

      3) 獎(jiǎng)勵(lì):6G DN 在狀態(tài)S執(zhí)行動(dòng)作A獲得的對(duì)應(yīng)回報(bào)。每個(gè)獎(jiǎng)勵(lì)R和每個(gè)狀態(tài)-動(dòng)作對(duì)對(duì)應(yīng),因此,6G DN 獎(jiǎng)勵(lì)可表示為

      其中,ηt表示6G DN 已經(jīng)使用的通信資源數(shù)量。

      4) 動(dòng)作價(jià)值函數(shù):6G DN 狀態(tài)S和動(dòng)作A的價(jià)值估計(jì),即動(dòng)作價(jià)值函數(shù)是基于狀態(tài)S和動(dòng)作A的期望回報(bào)。由于6G DN 是根據(jù)資源分配策略π進(jìn)行通信鏈路資源分配的,動(dòng)作價(jià)值函數(shù)Qπ(s,a)可以表示為

      由于每個(gè)狀態(tài)都需要窮舉出所有可能的方案,本文提出利用貝爾曼方程來(lái)化簡(jiǎn),具體推導(dǎo)過(guò)程如式(24)所示。

      動(dòng)作價(jià)值函數(shù)可以表示為

      貝爾曼方程利用時(shí)間差法中的Q-Learning算法進(jìn)行求解。Q-Learning 值的迭代可以表示為

      其中,α表示學(xué)習(xí)率。當(dāng)系統(tǒng)的狀態(tài)和動(dòng)作數(shù)量龐大且連續(xù)時(shí),利用Q-Learning 解決時(shí)很難實(shí)現(xiàn)資源分配策略的收斂。因此,DQN 用一個(gè)神經(jīng)網(wǎng)絡(luò)Q(s,a;θ)代替動(dòng)作價(jià)值函數(shù)。DQN 的神經(jīng)網(wǎng)絡(luò)參數(shù)θ采用梯度下降方法,可以表示為

      其中,?θ(·) 表示對(duì)權(quán)值θ進(jìn)行梯度運(yùn)算。此外,在利用神經(jīng)網(wǎng)絡(luò)逼近動(dòng)作價(jià)值函數(shù)時(shí),目標(biāo)值與估計(jì)值使用相同權(quán)值θ的神經(jīng)網(wǎng)絡(luò),容易導(dǎo)致訓(xùn)練網(wǎng)絡(luò)不穩(wěn)定和估值過(guò)高。因此,使用一個(gè)權(quán)值的目標(biāo)網(wǎng)絡(luò)專門(mén)用于產(chǎn)生目標(biāo)值。權(quán)值θ的神經(jīng)網(wǎng)絡(luò)專門(mén)用于評(píng)估策略更新參數(shù)。具有雙重權(quán)值的神經(jīng)網(wǎng)絡(luò)更新可以表示為

      3.2 基于Dueling DQN 的資源分配算法

      本文所提的基于Dueling DQN的資源分配算法采用競(jìng)爭(zhēng)網(wǎng)絡(luò)模型結(jié)合MDP來(lái)解決交疊干擾問(wèn)題。競(jìng)爭(zhēng)網(wǎng)絡(luò)可以有效提取6G DN 密集交疊干擾的特征。算法的時(shí)間復(fù)雜度只與競(jìng)爭(zhēng)網(wǎng)絡(luò)模型的規(guī)模有關(guān),受實(shí)際的無(wú)線通信環(huán)境影響較小。其次,利用MDP 來(lái)解決資源分配問(wèn)題,將原本的CO 問(wèn)題轉(zhuǎn)成序列決策問(wèn)題求解,大大降低直接求解優(yōu)化問(wèn)題的難度。

      為防止DQN 估值過(guò)高,利用競(jìng)爭(zhēng)網(wǎng)絡(luò)進(jìn)一步提高算法網(wǎng)絡(luò)學(xué)習(xí)的魯棒性。競(jìng)爭(zhēng)網(wǎng)絡(luò)將動(dòng)作價(jià)值函數(shù)Q(s,a)分成狀態(tài)價(jià)值函數(shù)V(s)和優(yōu)勢(shì)函數(shù)Α(s,a)。Α(s,a)表示在狀態(tài)s下選取資源分配動(dòng)作a的合理性。競(jìng)爭(zhēng)網(wǎng)絡(luò)的動(dòng)作價(jià)值函數(shù)可表示為

      其中,NA=MMs表示所有資源分配動(dòng)作的數(shù)量。

      本文提出基于Dueling DQN的資源分配算法來(lái)解決6G DN 無(wú)交疊干擾分配問(wèn)題。算法結(jié)構(gòu)如圖7所示,算法包含6G DN 環(huán)境、ε-greedy 策略、深度Q 網(wǎng)絡(luò)、目標(biāo)Q 網(wǎng)絡(luò)、損失函數(shù)、經(jīng)驗(yàn)池和抽樣小批量樣本。其中,6G DN 環(huán)境提供環(huán)境狀態(tài)S和根據(jù)動(dòng)作更新通信鏈路的狀態(tài);ε-greedy 策略為深度Q 網(wǎng)絡(luò)提供“探索-利用”的能力;深度Q 網(wǎng)絡(luò)評(píng)估動(dòng)作的價(jià)值;目標(biāo)Q 網(wǎng)絡(luò)則選擇當(dāng)前價(jià)值最大的動(dòng)作;經(jīng)驗(yàn)池和抽樣小批量樣本則增加樣本之間的隨機(jī)性;損失函數(shù)根據(jù)式(28)對(duì)深度Q 網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)進(jìn)行更新。

      圖7 基于Dueling DQN 的資源分配算法結(jié)構(gòu)

      基于Dueling DQN 的資源分配算法如算法1所示。

      算法1基于Dueling DQN 的資源分配算法

      輸入網(wǎng)絡(luò)拓?fù)銰(V,E),獎(jiǎng)勵(lì)折扣因子γ,經(jīng)驗(yàn)回放大小ND,目標(biāo)網(wǎng)絡(luò)更新頻率L,學(xué)習(xí)率α,樣本批采樣大小Γ,訓(xùn)練次數(shù)Ntrain,每次訓(xùn)練執(zhí)行時(shí)間長(zhǎng)度T

      輸出神經(jīng)網(wǎng)絡(luò)權(quán)值θ,w1,w2

      4 仿真結(jié)果與性能分析

      實(shí)驗(yàn)采用的硬件平臺(tái)為個(gè)人計(jì)算機(jī),CPU 為Intel(R) Xeon(R) Gold 6242R CPU @ 3.10 GHz,GPU 為NVIDIA RTX 3080Ti,內(nèi)存為64 GB。隨著通信鏈路數(shù)量增加,網(wǎng)絡(luò)復(fù)雜度和密集程度增加。

      根據(jù)表1 參數(shù)進(jìn)行仿真實(shí)驗(yàn),分別得到本文算法與其他3 種算法網(wǎng)絡(luò)吞吐量和資源復(fù)用率性能的對(duì)比實(shí)驗(yàn)數(shù)據(jù)。其中,對(duì)比算法1 為無(wú)競(jìng)爭(zhēng)網(wǎng)絡(luò)的深度Q 網(wǎng)絡(luò)算法,對(duì)比算法2 為基于隨機(jī)匹配的資源分配算法,對(duì)比算法3 為基于貪婪匹配的資源分配算法。

      表1 仿真參數(shù)設(shè)置

      4.1 時(shí)間復(fù)雜度分析與算法對(duì)比

      本文算法和對(duì)比算法1 的時(shí)間復(fù)雜度主要由神經(jīng)網(wǎng)絡(luò)的權(quán)值迭代決定,時(shí)間復(fù)雜度分別為O(G1L1)和O(G2L2)。其中,G表示神經(jīng)網(wǎng)絡(luò)的隱藏層數(shù);L表示每層神經(jīng)元的數(shù)量。對(duì)比算法2 的時(shí)間復(fù)雜度由通信鏈路數(shù)量和通信資源決定,但每次分配資源優(yōu)先考慮資源無(wú)沖突,因此時(shí)間復(fù)雜度為O(MMs)。對(duì)比算法3 的時(shí)間復(fù)雜度由通信鏈路數(shù)量和通信資源決定,但每次分配資源優(yōu)先考慮復(fù)用資源,時(shí)間復(fù)雜度為O(Mlog(Ms))。

      本文算法和對(duì)比算法1 在神經(jīng)網(wǎng)絡(luò)的隱藏層數(shù)和每層神經(jīng)元的數(shù)量相近時(shí),兩者時(shí)間復(fù)雜度近似。但本文算法采用競(jìng)爭(zhēng)網(wǎng)絡(luò)架構(gòu),將動(dòng)作價(jià)值函數(shù)分成狀態(tài)價(jià)值函數(shù)和優(yōu)勢(shì)函數(shù),當(dāng)通信鏈路或通信資源的數(shù)量改變時(shí),只改變對(duì)應(yīng)的神經(jīng)網(wǎng)絡(luò)權(quán)值即可。而無(wú)競(jìng)爭(zhēng)網(wǎng)絡(luò)的對(duì)比算法1 則需要進(jìn)行整體改變。因此隨著6G DN 的網(wǎng)絡(luò)規(guī)模的增加,本文算法的實(shí)際時(shí)間復(fù)雜度會(huì)低于對(duì)比算法1。對(duì)比算法2 和對(duì)比算法3 直接受到通信鏈路和通信資源的數(shù)量影響,兩者的時(shí)間復(fù)雜度隨著6G DN 的網(wǎng)絡(luò)規(guī)模的增加而線性增加。

      綜上所述,相對(duì)于傳統(tǒng)資源分配算法,深度強(qiáng)化學(xué)習(xí)算法在時(shí)間復(fù)雜度方面有著穩(wěn)定的優(yōu)勢(shì)。由于神經(jīng)網(wǎng)絡(luò)可以更好地適應(yīng)6G DN 的網(wǎng)絡(luò)規(guī)模的動(dòng)態(tài)變化,時(shí)間復(fù)雜度只與神經(jīng)網(wǎng)絡(luò)模型的大小有關(guān),受實(shí)際的無(wú)線通信環(huán)境影響較小。因此使用基于Dueling DQN 的資源分配算法可以更好地解決6G DN 下的密集交疊干擾問(wèn)題。

      4.2 競(jìng)爭(zhēng)網(wǎng)絡(luò)結(jié)構(gòu)的效能分析

      為驗(yàn)證本文所提出的基于Dueling DQN的資源分配算法在通信鏈路數(shù)量較大的情況下所產(chǎn)生的優(yōu)化效果,本文主要從每次方案中的累積回報(bào)U進(jìn)行實(shí)驗(yàn)驗(yàn)證。累積回報(bào)U可表示為

      如圖8 所示,基于Dueling DQN 的資源分配算法的累積回報(bào)隨著迭代次數(shù)的增加而變化。其中,本文算法相比無(wú)競(jìng)爭(zhēng)網(wǎng)絡(luò)結(jié)構(gòu)的算法探索資源分配策略的速度更快,累積回報(bào)曲線上升的趨勢(shì)更加迅速。圖8 中有競(jìng)爭(zhēng)網(wǎng)絡(luò)結(jié)構(gòu)的算法得到的累積回報(bào)值高,表明有競(jìng)爭(zhēng)網(wǎng)絡(luò)結(jié)構(gòu)可有效處理交疊干擾和優(yōu)化資源分配,即網(wǎng)絡(luò)吞吐量和資源復(fù)用率更高。

      圖8 競(jìng)爭(zhēng)網(wǎng)絡(luò)效果

      4.3 6G DN 的性能評(píng)價(jià)指標(biāo)

      1) 網(wǎng)絡(luò)吞吐量。該性能指標(biāo)可評(píng)價(jià)資源分配算法分配完所有通信鏈路資源后6G DN 的網(wǎng)絡(luò)吞吐量[22],表示為

      2) 資源復(fù)用率。該性能指標(biāo)可評(píng)價(jià)資源分配算法使6G DN 所有通信鏈路交疊無(wú)干擾后6G DN 的通信資源復(fù)用率[23],表示為

      其中,η*為最終使用的通信資源數(shù)量。

      4.4 網(wǎng)絡(luò)吞吐量性能對(duì)比

      圖9 為本文算法和3 種對(duì)比算法在不同通信鏈路數(shù)量下的最大網(wǎng)絡(luò)吞吐量。隨著通信鏈路數(shù)量的增加,通信系統(tǒng)中的IT 交疊區(qū)變多,4 種算法得到的最大網(wǎng)絡(luò)吞吐量整體都呈現(xiàn)上升趨勢(shì)。對(duì)比算法1、對(duì)比算法2 和對(duì)比算法3 得到的最大網(wǎng)絡(luò)吞吐量明顯低于本文算法。當(dāng)通信鏈路數(shù)量為20、35、40 時(shí),有競(jìng)爭(zhēng)網(wǎng)絡(luò)結(jié)構(gòu)的本文算法相對(duì)于對(duì)比算法1 提高20%及以上的網(wǎng)絡(luò)性能。這表明本文算法可有效提高網(wǎng)絡(luò)吞吐量和處理干擾能力的上限。

      圖10 為本文算法和3 種對(duì)比算法在不同通信鏈路數(shù)量下的最小網(wǎng)絡(luò)吞吐量。隨著通信鏈路數(shù)量的增加,本文算法和3 種對(duì)比算法得到的網(wǎng)絡(luò)吞吐量呈現(xiàn)上升趨勢(shì)。本文算法和對(duì)比算法1 相對(duì)于對(duì)比算法2、對(duì)比算法3 有效提高了最小網(wǎng)絡(luò)吞吐量。其中,有競(jìng)爭(zhēng)網(wǎng)絡(luò)結(jié)構(gòu)的本文算法相對(duì)于對(duì)比算法1 提高5%及以上的網(wǎng)絡(luò)吞吐量。這表明競(jìng)爭(zhēng)網(wǎng)絡(luò)結(jié)構(gòu)可有效地提高系統(tǒng)處理交疊干擾能力的下限。

      圖10 6G DN 最小網(wǎng)絡(luò)吞吐量

      圖11 為本文算法和3 種對(duì)比算法在不同通信鏈路數(shù)量的平均網(wǎng)絡(luò)吞吐量。隨著通信鏈路數(shù)量的增加,本文算法得到的網(wǎng)絡(luò)吞吐量呈現(xiàn)穩(wěn)定上升趨勢(shì)。本文算法得到的平均網(wǎng)絡(luò)吞吐量明顯高于對(duì)比算法2 和對(duì)比算法3,且相對(duì)于對(duì)比算法1 提高6%及以上的網(wǎng)絡(luò)吞吐量。

      圖11 6G DN 平均網(wǎng)絡(luò)吞吐量

      針對(duì)網(wǎng)絡(luò)吞吐量,本文所提基于Dueling DQN 的資源分配算法利用DRL 的在線決策能力,降低計(jì)算所需的內(nèi)存消耗(將網(wǎng)絡(luò)狀態(tài)作為競(jìng)爭(zhēng)網(wǎng)絡(luò)的輸入得到資源分配策略的輸出),其中,競(jìng)爭(zhēng)網(wǎng)絡(luò)提取小區(qū)間無(wú)交疊干擾狀態(tài),通過(guò)資源分配實(shí)現(xiàn)小區(qū)間無(wú)交疊干擾,從而大幅度提高網(wǎng)絡(luò)吞吐量,保證網(wǎng)絡(luò)的穩(wěn)定性。

      4.5 資源復(fù)用率性能對(duì)比

      圖12 為本文算法和3 種對(duì)比算法在不同通信鏈路數(shù)量下的最大資源復(fù)用率。隨著通信鏈路的增加,本文所提的基于Dueling DQN 的資源分配算法得到的整體資源復(fù)用率明顯高于其他算法。其中,本文算法比對(duì)比算法1 提高19%的最大資源復(fù)用率;相較于對(duì)比算法2 和對(duì)比算法3 分別提高25%和26%的最大資源復(fù)用率。這表明本文采用MDP 解決資源分配問(wèn)題,可有效增加整個(gè)系統(tǒng)資源分配能力的上限。圖12~圖14 中,不同橫線表示不同算法在5 次不同通信鏈路數(shù)量的資源復(fù)用率均值。

      圖12 最大資源復(fù)用率

      圖13 為本文算法和3 種對(duì)比算法在不同通信鏈路數(shù)量的最小資源復(fù)用率。隨著通信鏈路的增加,本文算法和對(duì)比算法1 得到的最小資源復(fù)用率明顯高于對(duì)比算法2、對(duì)比算法3。其中,本文算法比對(duì)比算法1 提高6%的最小資源利用;相較于對(duì)比算法2和對(duì)比算法3 分別提高37%和31%的最小資源復(fù)用率。這表明本文算法可提高資源分配能力的下限。

      圖13 最小資源復(fù)用率

      圖14 為本文算法和3 種對(duì)比算法在不同通信鏈路數(shù)量的平均資源復(fù)用率。隨著通信鏈路數(shù)量的增加,4 種算法得到的平均資源復(fù)用率處于平穩(wěn)波動(dòng)狀態(tài)。其中,本文所提的基于Dueling DQN 的資源分配算法比對(duì)比算法1 提高7%的平均資源復(fù)用率;相較于對(duì)比算法2 和對(duì)比算法3 分別提高27%和26%的平均資源復(fù)用率。這表明本文算法可有效提高系統(tǒng)資源分配能力。

      圖14 平均資源復(fù)用率

      針對(duì)資源復(fù)用率,本文所提基于Dueling DQN的資源分配算法利用MDP 能夠?qū)崟r(shí)掌握網(wǎng)絡(luò)的運(yùn)作狀態(tài)(為每一時(shí)刻的狀態(tài)提供一個(gè)對(duì)應(yīng)資源分配動(dòng)作),找到一種滿足實(shí)時(shí)性和資源效率要求的資源分配策略,增強(qiáng)資源分配能力,提高通信資源復(fù)用率。

      4.6 仿真測(cè)試與實(shí)際測(cè)試對(duì)比

      實(shí)際測(cè)試采用戴爾(DELL)X86 服務(wù)器、美國(guó)國(guó)家儀器公司(NI,national instruments)通用軟件無(wú)線電外設(shè)N310 硬件平臺(tái)和歐洲電信學(xué)院的開(kāi)源空口(OAI,open air interface)。根據(jù)6G DN相關(guān)文章中的仿真場(chǎng)景,搭建密集網(wǎng)絡(luò)[24-25],并按照所提算法中的參數(shù)來(lái)配置實(shí)際密集網(wǎng)絡(luò)系統(tǒng)的參數(shù),如表2 所示。

      表2 密集網(wǎng)絡(luò)系統(tǒng)的參數(shù)

      如圖15 所示,隨著通信鏈路數(shù)量的增加,網(wǎng)絡(luò)吞吐量整體都呈上升趨勢(shì),其中,本文算法仿真得到的網(wǎng)絡(luò)吞吐量始終大于實(shí)際通信環(huán)境的測(cè)試結(jié)果?;鶞?zhǔn)算法的實(shí)際測(cè)試結(jié)果明顯低于本文算法的實(shí)際測(cè)試結(jié)果。當(dāng)通信鏈路數(shù)量為45 時(shí),本文算法比基準(zhǔn)算法最大提高37%的網(wǎng)絡(luò)吞吐量;當(dāng)通信鏈路數(shù)量為30 時(shí),本文算法比基準(zhǔn)算法最小提高17%的網(wǎng)絡(luò)吞吐量。通過(guò)部署基于Dueling DQN的資源分配算法可以降低交疊干擾,提高網(wǎng)絡(luò)吞吐量。實(shí)際測(cè)試結(jié)果驗(yàn)證了本文算法的有效性。

      圖15 實(shí)際測(cè)試結(jié)果

      5 結(jié)束語(yǔ)

      為通過(guò)資源分配實(shí)現(xiàn)小區(qū)間無(wú)交疊干擾,提高6G DN 的網(wǎng)絡(luò)性能,本文討論了6G DN 中的資源分配問(wèn)題,但資源受限和節(jié)點(diǎn)密集分布導(dǎo)致難以通過(guò)傳統(tǒng)的優(yōu)化方法解決資源的有效分配問(wèn)題。針對(duì)此問(wèn)題,本文提出了基于Dueling DQN 的資源分配算法。該算法利用在線決策的能力彌補(bǔ)以犧牲存儲(chǔ)空間來(lái)提高網(wǎng)絡(luò)吞吐量的資源分配技術(shù)缺點(diǎn),比優(yōu)化方法有更少的內(nèi)存消耗。仿真實(shí)驗(yàn)結(jié)果表明,所提算法可以有效提高網(wǎng)絡(luò)吞吐量和資源復(fù)用率,并且隨著網(wǎng)絡(luò)規(guī)模和密集程度的增加對(duì)方法的實(shí)時(shí)性和內(nèi)存消耗的影響較小,資源復(fù)用率處于穩(wěn)定狀態(tài)。在實(shí)際測(cè)試中,本文算法比基準(zhǔn)算法最大提高了33%的網(wǎng)絡(luò)吞吐量和37%的資源復(fù)用率,有效提升了網(wǎng)絡(luò)性能。

      猜你喜歡
      資源分配密集吞吐量
      耕地保護(hù)政策密集出臺(tái)
      密集恐懼癥
      新研究揭示新冠疫情對(duì)資源分配的影響 精讀
      一種基于價(jià)格競(jìng)爭(zhēng)的D2D通信資源分配算法
      2016年10月長(zhǎng)三角地區(qū)主要港口吞吐量
      集裝箱化(2016年11期)2017-03-29 16:15:48
      2016年11月長(zhǎng)三角地區(qū)主要港口吞吐量
      集裝箱化(2016年12期)2017-03-20 08:32:27
      歐盟等一大波家電新標(biāo)準(zhǔn)密集來(lái)襲
      2014年1月長(zhǎng)三角地區(qū)主要港口吞吐量
      集裝箱化(2014年2期)2014-03-15 19:00:33
      OFDMA系統(tǒng)中容量最大化的資源分配算法
      密集預(yù)披露≠I(mǎi)PO發(fā)行節(jié)奏生變
      法人(2014年5期)2014-02-27 10:44:28
      黑龙江省| 富阳市| 阳春市| 嘉鱼县| 阜阳市| 长泰县| 固始县| 区。| 红原县| 涞水县| 濮阳市| 洪洞县| 麻阳| 江川县| 定边县| 清镇市| 布尔津县| 武隆县| 郎溪县| 舟曲县| 黄石市| 靖江市| 凤凰县| 广汉市| 甘德县| 鄄城县| 新密市| 黄陵县| 华池县| 大丰市| 昆明市| 会昌县| 得荣县| 海安县| 抚远县| 迁西县| 浦县| 垣曲县| 鲁山县| 哈尔滨市| 木兰县|