• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于深度強化學習的智能電網(wǎng)RAN切片策略①

      2021-09-10 07:32:18龔亮亮
      計算機系統(tǒng)應用 2021年8期
      關鍵詞:應用程序切片基站

      張 影,龔亮亮,胡 陽,丁 儀,姬 昊

      1

      (南京南瑞信息通信科技有限公司,南京 211106)

      2(南京郵電大學,南京 210003)

      隨著能源和電力需求的不斷增長,傳統(tǒng)電網(wǎng)完成了向智能電網(wǎng)的轉(zhuǎn)變.而作為物聯(lián)網(wǎng)的重要應用場景,智能電網(wǎng)中接入的智能設備數(shù)量呈指數(shù)級增長,其發(fā)展高度依賴于通信發(fā)展,并且對于安全性、時延性、可靠性的需求將會越來越大.同時,由于智能電網(wǎng)中各種不同的電力服務對于帶寬、時延、成本等方面的不同需求,通信平臺的靈活性和適應程度也面臨著巨大挑戰(zhàn).然而,對于4G 網(wǎng)絡來說并不能完全滿足這種差異化需求,如更高的數(shù)據(jù)速率、更低的端對端延遲、更高的可靠性以及龐大的設備連接[1].隨著5G 網(wǎng)絡的發(fā)展逐漸成熟以及商業(yè)化進程順利進行,5G中的新一代移動通信技術(shù),具有應用于電力服務的可能性.

      網(wǎng)絡切片是5G的核心技術(shù)之一,基于云計算、網(wǎng)絡功能虛擬化、軟件定義網(wǎng)絡等技術(shù)實現(xiàn)對資源的合理配置,其本質(zhì)是將物理網(wǎng)絡在邏輯上劃分為多個虛擬網(wǎng)絡,每個虛擬網(wǎng)絡可以根據(jù)不同的需求,如帶寬、時延、安全性、成本提供定制服務,從而靈活且可靠的應對網(wǎng)絡中的不同場景[2].對于運營商來說,網(wǎng)絡切片使其可以以不同的價格向不同的客戶出售定制的服務.將網(wǎng)絡切片應用于智能電網(wǎng)中,不僅可以針對電力服務的多樣性提供定制服務,同時相互之間邏輯獨立的虛擬化網(wǎng)絡也大大增加了智能電網(wǎng)的可靠性和安全性.

      但是,為了提供性能更好且具有成本效益的服務,針對網(wǎng)絡切片的實時資源管理方面成為了亟待解決的問題[3].在智能電網(wǎng)場景中,主要的問題是資源分配之前的服務類型未知,需求變化不穩(wěn)定,即缺乏用戶信息的先驗知識.考慮到有時并不能獲取有效和完整的數(shù)據(jù)以進行可靠資源或流量預測,本文現(xiàn)階段面臨的挑戰(zhàn)是將5G 切片應用于智能電網(wǎng)并合理分配資源.針對這一問題,許多學者和研究機構(gòu)給出了解決方案,比如提出了一種用于切片間資源管理的在線遺傳切片策略優(yōu)化器[4],但是這種優(yōu)化器并沒有考慮切片上的資源以及服務水平協(xié)議之間的具體關系.或者使用啟發(fā)式算法來控制用戶的請求準入[5],但是在處理緊急事例方面能力不足.在面向邊緣計算[6]和物聯(lián)網(wǎng)[7]之類的具體方案中,針對網(wǎng)絡切片的資源管理這一問題已經(jīng)取得了突破性的進展,但是這類研究并沒有考慮到一般情況下的解決方案.強化學習著重于通過嘗試所有流體行為以產(chǎn)生更多獎勵結(jié)果的方式與環(huán)境交互,從而解決這個問題[8].

      深度強化學習(DRL)是深度學習和強化學習的結(jié)合,可以在沒有先驗知識的條件下,解決上述問題,被認為是一種可以根據(jù)切片狀態(tài)實現(xiàn)最佳資源分配的方法[9].深度強化學習也被廣泛應用于網(wǎng)絡領域,在許多無線電資源分配方案中表現(xiàn)良好,例如衛(wèi)星通信[10],任務關鍵型服務[11],URLLC (超可靠和低延遲通信)中的多波束場景等[12].

      因此,綜合以上觀點,本文提出了一種基于DRL的智能電網(wǎng)RAN 切片策略,以實現(xiàn)智能電網(wǎng)的資源管理,主要貢獻如下;

      (1)將DRL 應用于智能電網(wǎng)的RAN 切片,并對場景中的狀態(tài),操作和獎勵進行了分析,并且完成了從智能電網(wǎng)切片資源管理到DRL的映射.

      (2)對電力服務進行了分類,設置了不同的效用函數(shù),以對彈性和實時應用這兩種服務應用進行建模.

      (3)提出了一種基于Q 學習的DRL 策略,即深度Q 網(wǎng)絡模型(Deep Q Network,DQN)來解決RAN 切片資源分配問題.

      仿真結(jié)果表明,本文提出的方法可以在最大化系統(tǒng)效益的前提下降低成本.

      1 系統(tǒng)模型

      本文所提出的系統(tǒng)模型如圖1所示,從圖中可以看出RAN中的射頻資源被分為許多網(wǎng)絡切片,用來支持智能電網(wǎng)中相關的電力服務.用向量 λ表示所有切片的集合為Q={q1,q2,···,qn},這些切片共享系統(tǒng)總帶寬.而向量E則表示智能電網(wǎng)中的電力服務流,集合為D={d1,d2,···,dm}.

      圖1 智能電網(wǎng)的RAN 切片模型

      面對智能電網(wǎng)多服務的特點,每個切片服務需要滿足的QoS (服務質(zhì)量)要求是不同的.在實際場景中,系統(tǒng)事先不知道哪種服務流具體代表智能電網(wǎng)中的哪種服務,并且智能電網(wǎng)場景中服務的實時需求變化是不穩(wěn)定的.可以看出di(i∈M={1,2,···,m})遵循特定的流量模型.

      基于DRL的關鍵要素,本文首先定義了RAN的系統(tǒng)狀態(tài)空間、行為空間以及獎勵功能.切片控制器與無線環(huán)境的交互由數(shù)組[S,A,P(s,s*),R(s,a)]表示,其中S代表一組可能的狀態(tài),A代表一組可能的動作,P(s,s*)代 表從狀態(tài)s到s'的轉(zhuǎn)移概率,R={s,a}是與狀態(tài)s中的動作觸發(fā)相關的獎勵,該獎勵被反饋給切片控制器.下面給出了RAN 切片資源管理到DRL的具體映射;

      (1)狀態(tài)

      本文中的狀態(tài)空間定義為數(shù)組S={sslice}.sslice是一個用于表明所有切片當前狀態(tài)的向量,這些切片被用于承載相關的電力業(yè)務,其中第n個元素定義為.

      (2)行為

      對于智能電網(wǎng)時變流量模型,強化學習的智能體需要為相應的電力服務分配合適的切片資源.智能體可以基于當前切片狀態(tài)和獎勵功能來決定如何在下一時刻執(zhí)行動作.動作空間定義為A={abandwidth},其中abandwidth表示智能體為每個邏輯獨立切片分配適當?shù)膸捯猿休d相應的服務.

      由于網(wǎng)絡切片是在虛擬網(wǎng)絡之間共享網(wǎng)絡資源,因此網(wǎng)絡切片必須彼此隔離,以便如果一個切片上的資源不足以承載當前服務,則擁塞或故障不會影響其他切片.因此,為了確保切片之間的隔離,同時最大程度地利用資源分配,我們假設每個切片最多只能承載一項服務:

      同時定義二進制變量∈{0,1}.

      (3)獎勵

      智能體將特定的切片分配給智能電網(wǎng)服務后,它將獲得詳細的獎勵,本文將其用作系統(tǒng)的獎勵.控制電源服務對通信的時延和誤碼率有嚴格的要求,通信的失敗或錯誤可能影響電網(wǎng)的控制執(zhí)行,導致電網(wǎng)運行失敗.對于某些移動應用服務(例如巡邏傳輸視頻,高清視頻的回放等),需要一定的傳輸速率保證,并且對通信帶寬有很高的要求.供電可靠性意味著連續(xù),充足,高質(zhì)量的供電.例如,當供電可靠率達到99.999%時,表示該地區(qū)用電用戶的年度停電時間不會超過5 分鐘,而當該數(shù)字達到99.9999%時,用電用戶的年度停電時間該區(qū)域的時間將減少到30 s 左右.由于RAN中的頻譜資源有限,在分配切片時應選擇一種最佳策略,以最大程度地提高用戶的QoS 要求.

      本文主要考慮下行鏈路情況,并使用頻譜效率(SE)和延遲作為評估指標.系統(tǒng)的頻譜效率可以定義為:

      其中,B是信號帶寬,R是傳輸速率.根據(jù)香農(nóng)公式R=blog2(1+(gBS→UEP)/σ2)可以得出基站對用戶的實際速率,其中g(shù)BS→UE是基站和設備之間的信道狀態(tài)信息(CSI),服從瑞利衰落.b是分配給切片的帶寬,(gBS→UEP)/σ2是信噪比.

      為了描述用戶的QoS 要求,本文引入了效用函數(shù)[13],它是分配切片服務的帶寬與用戶感知的性能之間的曲線圖.在本文中,假設切片所承載的服務可以分為彈性應用程序和實時應用程序[14].

      ① 彈性應用程序:對于這種類型的應用程序,沒有最低帶寬要求,因為它可以承受相對較大的延遲.靈活流量效用模型使用以下函數(shù):

      其中,k是一個可調(diào)參數(shù),它確定效用函數(shù)的形式并確保在收到最大請求帶寬時,U?1.但是,即便帶寬很高,該應用程序的用戶滿意度也很難達到1.因此,本文認為即使網(wǎng)絡帶寬非常大(例如分布式電源,視頻監(jiān)控,高級計量等),分配給此類應用程序的帶寬也不應超過最大帶寬bmax.

      ② 實時應用程序:這種類型的應用程序流量要求網(wǎng)絡提供最低級別的性能保證.如果分配的帶寬降至某個閾值以下,則QoS 將變得難以接受.主要代表類型是URLLC 切片服務,典型示例是配電自動化,緊急通信等.使用以下效用函數(shù)為實時應用程序建模:

      其中,k1和k2是確定效用函數(shù)形式的可調(diào)參數(shù).智能體的獎勵定義如下:

      其中,λ,μ,ξ 分別是SE,Ue,Urt的權(quán)重.

      因此,本文提出的問題可以表述為:

      約束于:

      其中,di(i∈M={1,2,···,m})遵循特定的流量模型.

      解決該問題的困難在于,由于流量模型的存在,當最初不了解情況時,即在智能電網(wǎng)場景中服務的實時需求變化未知時,服務需求的變化是不穩(wěn)定的.表1顯示了智能網(wǎng)格切片資源管理機制到DRL的映射.

      表1 從智能電網(wǎng)切片資源管理到DRL的映射

      2 基于DQN的切片策略

      本節(jié)主要介紹的是使用深度Q 學習算法訓練網(wǎng)絡,通過不斷迭代的方式最終得出最優(yōu)策略的值.深度Q 學習算法簡稱DQN(Deep Q-Network),DQN 主要是在Q-Learning的基礎上演變而來的,DQN 用一個深度網(wǎng)絡代表價值函數(shù),依據(jù)強化學習中的Q-Learning,為深度網(wǎng)絡提供目標值,對網(wǎng)絡不斷更新直至收斂.

      由于上述的RAN 狀態(tài)集,動作集和獎勵函數(shù)的表達式略有不同,因此在本文中,基于提出的映射模型,Q 學習算法具有通用性.本文將狀態(tài)空間定義為S={s1,s2,···,sn},動作空間為A={a1,a2,···,an},獎勵功能為R={s,a}.P(s,s*)表示從狀態(tài)s 到狀態(tài)s'的轉(zhuǎn)變概率.

      切片控制器的最終目標是找到最佳切片策略 π*,這是從狀態(tài)集到操作集的映射,并且每個狀態(tài)的預期長期折扣獎勵需要最大化:

      狀態(tài)s的長期折扣獎勵是在狀態(tài)軌跡上獲得的獎勵的折扣總和,由式(11)給出:

      其中,γ是折扣因素(0< γ<1),確定與未來獎勵相對應的當前值.式(10)中的優(yōu)化目標表示任何策略的狀態(tài)值函數(shù),可以表示為:

      根據(jù)貝爾曼的最優(yōu)性標準[15],在單個環(huán)境中至少存在一種最優(yōu)策略.因此,最優(yōu)策略的狀態(tài)值函數(shù)由式(13)給出:

      狀態(tài)轉(zhuǎn)換概率取決于許多因素,例如流量負載,流量到達和離開速率,決策算法等,所以在無線端或核心網(wǎng)絡端獲取都不容易.因此,無模型強化學習非常適合于推導最優(yōu)策略,因為它不需要期望的回報,并且狀態(tài)轉(zhuǎn)換概率可以稱為先驗知識.在本文中,從各種現(xiàn)有的DRL 算法中選擇了深度Q 學習[16].

      以RAN 切片為例,切片控制器在較短的離散時間段內(nèi)與無線環(huán)境進行交互.狀態(tài)動作二進制數(shù)組的動作值函數(shù)(也稱為Q 值)可以表示為Q(s,π(s)).它被定義為使用策略 π時狀態(tài)s的預期長期折扣獎勵.本文的目標是找到一種優(yōu)化策略,使每個狀態(tài)s的Q 值最大化:

      根據(jù)深度Q 學習算法,切片控制器可以基于已知信息通過迭代學習Q的最佳值.處于狀態(tài)s的切片控制器可以隨時選擇動作a.然后,給出即時獎勵Rt,狀態(tài)s將轉(zhuǎn)換為下一個狀態(tài)s'.深度Q 學習算法的過程可以通過以下更新公式表示:

      其中,α是學習率,是所有即時獎勵Rt的折扣累積:

      通過長時間更新Q值并調(diào)整α和γ的值,可以保證Q(s,a)最 終收斂到最優(yōu)策略的值,即Qπ*(s,a).

      整個切片策略由以下算法給出.最初,Q的值設置為零.在應用Q 學習算法之前,切片控制器基于每個切片的功率需求估算,對不同切片執(zhí)行初始切片分配,以初始化不同切片的狀態(tài).現(xiàn)有的無線電資源切片解決方案使用基于帶寬或基于資源的供應來將無線電資源分配給不同的切片.

      由于Q 學習是一種在線迭代學習算法,因此它執(zhí)行兩種不同類型的操作.在探索模式下,切片控制器會隨機選擇一個可能的操作以增強其將來的決策.相反,在開發(fā)模式下,切片控制器更傾向于過去嘗試并發(fā)現(xiàn)有效的操作.我們假設狀態(tài)s中的切片控制器以概率ε 進行探索,并以概率1-ε 使用先前存儲的Q 值.在任何狀態(tài)下,并非所有動作都是可能的.為了維持切片到切片的隔離,切片控制器必須確保不在RAN中將相同的物理資源塊(PRB)分配給兩個不同的切片.

      簡單來說,DQN是神經(jīng)網(wǎng)絡和Q-Learning的融合,而不管是Q-Learning 還是DQN,都是通過貪婪算法直接獲取Q值,在獲取Q值時都會使用到maxQ,即式(15).使用這種方法可以使Q值向需要的優(yōu)化目標快速逼近,但同時也可能導致過度估計,導致最終獲得的算法模型與實際偏差過大.為了解決這個問題,在本文中,除了上述的DQN 算法,還考慮了其改進算法DDQN與之進行比較.

      DDQN 通過解耦目標Q值動作的選擇和目標Q值的計算這兩步,來達到消除過度估計的問題.DDQN 更新函數(shù)如下:

      在DDQN中,不再是直接在目標Q 網(wǎng)絡里面找各個動作中最大Q值,而是先在當前Q 網(wǎng)絡中先找出最大Q值對應的動作.然后利用這個選擇出來的動作在目標Q 網(wǎng)絡里面去計算目標Q值.

      DDQN 算法使用了一個新的相同結(jié)構(gòu)的目標Q 網(wǎng)絡來計算目標Q值[17,18],但在本文中不過多贅述.而除了目標Q值的計算方式以外,DDQN和DQN的算法流程完全相同.

      3 仿真結(jié)果

      考慮到服務到達時不僅只有一個基站作為接收點,因此在本文中建立了兩個基站BS1和BS2.基站BS1的覆蓋半徑為R=1000,中心坐標為[0,0],而基站BS2的覆蓋半徑為R=500,中心坐標為[500,0].實時應用程序和彈性應用程序的生成服從泊松分布,并且生成速率表示為λrt=3.6和λe=2.4.服務的生成坐標是隨機生成的,并且根據(jù)服務與兩個基站之間的距離來確定對哪個基站的訪問.接入遵循最小距離優(yōu)先原則.基站與設備之間的信道狀態(tài)信息(CSI) 服從方差 σr=1.5的瑞利分布,信道噪聲服從平均值 μg=0 且方差為σg=5的高斯分布,基站BS1的信道數(shù)為BS1_channel=20,基站BS2的信道數(shù)為BS2_channel=10.為了方便研究,香農(nóng)公式中的信道帶寬為b=8 MHz.基于Q 學習,構(gòu)造了兩個DRL 網(wǎng)絡,即深度Q 學習(DQL)和雙深度Q 學習(DDQL).DQL的主要作用在于目標網(wǎng)絡和體驗回放.DDQL的主要作用是改善最大動作選擇操作并解決高估問題.前者有兩個神經(jīng)網(wǎng)絡,即評價網(wǎng)絡的兩層結(jié)構(gòu)和目標網(wǎng)絡的兩層結(jié)構(gòu),后者只有一個神經(jīng)網(wǎng)絡,由兩層結(jié)構(gòu)組成.

      對于彈性應用,在式(3)中將可變參數(shù)設置為k=0.8.對于實時應用,在式(4)中討論了k1和k2之間的關系,即k1=k2,k1<k2以及k1>k2.由于應用程序會隨時間更改位置坐標,因此生成的應用程序會以upv=3的速率更新基站覆蓋范圍內(nèi)的坐標.基站根據(jù)接入應用生成相應數(shù)量的切片.可以在彈性服務中分配最大帶寬brmtax=5 MHz.由于本文的算法滿足了獎勵最大化,因此可以忽略由于實時服務分配的帶寬太小而導致的服務質(zhì)量無法接受.

      圖2 獎勵與迭代次數(shù)

      圖3 培訓成本與迭代次數(shù)

      最后,作為補充,本節(jié)以5G 規(guī)范標準對所提出的切片方法在系統(tǒng)吞吐量與系統(tǒng)效用方面進行了評估,并與現(xiàn)有的Q-L (Q-Learning)以及RRA (隨機資源分配)方法比較[19].通過對實驗結(jié)果的分析,表明了文章所提出的基于深度學習的切片策略能有效提高系統(tǒng)性能.

      本節(jié)選用Matlab 進行數(shù)值評估和分析,具體參數(shù)可以參照上文,這里不過多介紹.考慮到切片資源的數(shù)量和用戶請求的增加,實驗中將基站數(shù)量增加到10 個,然后不斷增加用戶請求的數(shù)量來評估系統(tǒng)的性能.圖4為DQN、Q-L和RRA的系統(tǒng)吞吐量.可以看出,當用戶請求數(shù)增加到40 時,DQN 算法的系統(tǒng)吞吐量低于Q-L 算法.當用戶持續(xù)增加時,DQN 系統(tǒng)的吞吐量高于Q-L,這是因為Q-L 算法關注的是短期回報.除了用戶數(shù)量在16-24 時,RRA 算法有著比DQN 算法稍高吞吐量,其余都是最低.這是因為RRA 具有隨機性,當用戶數(shù)量較少時,會占用過多的資源,如果一個切片的剩余資源不足或超過功率限制,則拒絕用戶的請求.

      圖4 系統(tǒng)吞吐量隨用戶變化趨勢

      圖5是3 種算法的總效用比較,總效用隨著用戶數(shù)量的增加而增加,并最終達到一個穩(wěn)定值.由于整個片的資源是有限的,DQN 通過合理地為切片分配用戶來充分利用資源.從圖中可以看出,DQN 算法總體上優(yōu)于Q-L和RRA 算法.

      圖5 系統(tǒng)效用對比

      4 結(jié)論

      智能電網(wǎng)是物聯(lián)網(wǎng)的典型應用場景.論文提出了一種用于智能電網(wǎng)的RAN 切片資源分配的深度Q 學習策略.在到達服務未知的情況下,該算法通過判斷應用程序坐標與基站之間的距離來選擇接入基站.通過不斷更新Q 學習網(wǎng)絡的閾值和參數(shù),可以最大程度地發(fā)揮系統(tǒng)的優(yōu)勢,并使成本逐漸收斂到0.基于上述,本文應用了兩種不同的神經(jīng)網(wǎng)絡,并比較了k1=k2,k1<k2和k1>k2的3 種情況.可以看出,獎勵函數(shù)最終收斂到某個最大值,成本最終達到最小值0.仿真結(jié)果表明,當獎勵函數(shù)的差較小時,在k1>k2的情況下,DDQL 具有最快的成本收斂性和最小的成本值.因此,當神經(jīng)網(wǎng)絡層為雙層時,該算法可以更好地滿足RAN 側(cè)智能電網(wǎng)的資源分配要求.最后,通過進一步對本文所提出的切片策略評估,以及與Q-L 以及RRA這兩種算法的比較,表明了本文算法的優(yōu)勢.在未來的研究中,將改進Q 學習網(wǎng)絡的參數(shù),以使該算法可以更快地收斂并優(yōu)化服務中每個評估指標的權(quán)重.

      猜你喜歡
      應用程序切片基站
      刪除Win10中自帶的應用程序
      電腦報(2019年12期)2019-09-10 05:08:20
      可惡的“偽基站”
      探索科學(2017年4期)2017-05-04 04:09:47
      基于SDN與NFV的網(wǎng)絡切片架構(gòu)
      電信科學(2016年11期)2016-11-23 05:07:58
      基于GSM基站ID的高速公路路徑識別系統(tǒng)
      腎穿刺組織冷凍切片技術(shù)的改進方法
      小基站助力“提速降費”
      移動通信(2015年17期)2015-08-24 08:13:10
      冰凍切片、快速石蠟切片在中樞神經(jīng)系統(tǒng)腫瘤診斷中的應用價值比較
      基站輻射之爭亟待科學家發(fā)聲
      關閉應用程序更新提醒
      電腦迷(2012年15期)2012-04-29 17:09:47
      墨汁染色在組織切片中的應用
      荣昌县| 乌兰浩特市| 南木林县| 宁南县| 丹巴县| 延寿县| 鞍山市| 乌兰浩特市| 利津县| 长治县| 长葛市| 澳门| 威海市| 云林县| 竹北市| 新源县| 明星| 泉州市| 武山县| 靖安县| 自贡市| 溧阳市| 临猗县| 韶山市| 错那县| 张家口市| 无棣县| 梅州市| 那曲县| 迁安市| 呼和浩特市| 定安县| 兴文县| 皋兰县| 鹿邑县| 江陵县| 政和县| 郧西县| 津市市| 驻马店市| 巨野县|