劉文帥/LIU Wenshuai,李斌/LI Bin,2
(1. 南京信息工程大學(xué),中國(guó)南京 210044;2. 網(wǎng)絡(luò)與交換技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室(北京郵電大學(xué)),中國(guó)北京 100876)
當(dāng)前無(wú)線通信技術(shù)面臨能耗高、覆蓋低、無(wú)線信道不可控等問(wèn)題,嚴(yán)重影響了通信服務(wù)質(zhì)量。作為未來(lái)6G 的一項(xiàng)空口技術(shù),智能超表面(RIS)得到了廣泛關(guān)注[1-2]。RIS由一組無(wú)源反射元件構(gòu)成,可通過(guò)編程來(lái)實(shí)時(shí)調(diào)控各個(gè)反射單元,進(jìn)而控制入射信道的幅值和相位,在功耗和部署成本上具有優(yōu)勢(shì)[3]。RIS輔助通信的關(guān)鍵是使用超表面來(lái)改變無(wú)線傳播環(huán)境,從而減輕多徑衰落和視距阻塞的負(fù)面影響。
車載通信是智能交通系統(tǒng)不可或缺的組成部分,它允許汽車與周圍環(huán)境以及遠(yuǎn)程實(shí)體保持聯(lián)系,并為車輛提供隨時(shí)隨地的連接服務(wù)[4]。由于傳播環(huán)境復(fù)雜,車輛與路邊單元(RSU)之間建立的傳播鏈路質(zhì)量很容易惡化[5-6]。在障礙物遮擋的RSU服務(wù)暗區(qū),利用RIS技術(shù)為行駛的車輛能夠提供間接的視距傳輸鏈路,將有望為高能效車載通信提供重要的手段支撐。為了提高車載通信的連通性,文獻(xiàn)[7]提出了一種面向高頻段的RIS輔助架構(gòu),并綜合考慮RIS的規(guī)模和運(yùn)行模式,研究了RIS的最優(yōu)部署問(wèn)題。文獻(xiàn)[8]提出了一種異構(gòu)車聯(lián)網(wǎng),并使用聯(lián)邦Q 學(xué)習(xí)最小化網(wǎng)絡(luò)開銷。文獻(xiàn)[9]研究了毫米波車聯(lián)網(wǎng)上行鏈路速率最大化問(wèn)題,借助RIS技術(shù)提高上行鏈路性能。文獻(xiàn)[10]研究了離散相移約束下的上行鏈路速率加權(quán)和最大化問(wèn)題,并分別為單用戶和多用戶場(chǎng)景提供解決方案。文獻(xiàn)[11]提出了一個(gè)多RIS輔助的多車多天線通信系統(tǒng),通過(guò)交替迭代算法優(yōu)化發(fā)射機(jī)的波束成形矢量和每個(gè)RIS 的相移,使車載通信服務(wù)質(zhì)量達(dá)到最高。文獻(xiàn)[12]研究了RIS輔助車聯(lián)網(wǎng)的頻譜共享問(wèn)題,即多個(gè)車到車鏈路可以復(fù)用已被車到基礎(chǔ)設(shè)施鏈路占用的頻譜,使用中斷概率作為評(píng)估車載通信可靠性的性能指標(biāo)。
由于網(wǎng)絡(luò)環(huán)境高度動(dòng)態(tài)變化,使用RIS輔助車聯(lián)網(wǎng)仍面臨著諸多挑戰(zhàn)[13-14]。(1)RIS 與車輛之間距離的變化會(huì)影響實(shí)時(shí)信道狀態(tài),同時(shí)車輛在區(qū)域內(nèi)的滯留時(shí)間不同,這些均使得RSU 在優(yōu)化通信質(zhì)量的同時(shí),還需要考慮車輛的移動(dòng)性;(2)在獲取相同服務(wù)資源的情況下,滯留時(shí)間較長(zhǎng)的車輛的服務(wù)質(zhì)量會(huì)有所下降,因此為盡可能保障服務(wù)的公平性,該網(wǎng)絡(luò)場(chǎng)景下的通信資源需要進(jìn)行合理分配。未來(lái)的狀態(tài)信息通常難以預(yù)知,RSU需要與車輛不斷交換各種狀態(tài)信息,根據(jù)即時(shí)狀態(tài)信息進(jìn)行在線決策?;谏疃葟?qiáng)化學(xué)習(xí)(DRL)的方法可以根據(jù)當(dāng)前的環(huán)境狀態(tài)進(jìn)行決策,對(duì)環(huán)境的先驗(yàn)信息要求較低。文獻(xiàn)[14]考慮到物聯(lián)網(wǎng)設(shè)備能量與計(jì)算能力雙重受限問(wèn)題,提出了一種RIS輔助的無(wú)線供能移動(dòng)邊緣網(wǎng)絡(luò)方案,利用雙深度Q網(wǎng)絡(luò)方法聯(lián)合優(yōu)化無(wú)線傳能時(shí)隙分配、RIS相移和卸載決策,從而提升能量轉(zhuǎn)移效率和通信效率??紤]到實(shí)際的RIS相移,文獻(xiàn)[15]研究了聯(lián)合車輛調(diào)度和RIS無(wú)源波束成形優(yōu)化問(wèn)題,通過(guò)深度強(qiáng)化學(xué)習(xí)和塊坐標(biāo)下降法使暗區(qū)車輛的最小可實(shí)現(xiàn)比特率達(dá)到最大。然而,這些工作對(duì)于車載邊緣計(jì)算(VEC)中RIS輔助通信的研究尚不深入。
隨著5G時(shí)代人工智能的不斷發(fā)展,各種時(shí)延敏感性、計(jì)算密集型的交通應(yīng)用和服務(wù)不斷涌現(xiàn)[16],這給資源有限的設(shè)備帶來(lái)極大挑戰(zhàn)。車輛自身的計(jì)算處理能力往往不強(qiáng),難以實(shí)現(xiàn)實(shí)時(shí)高效的數(shù)據(jù)處理。VEC作為一種新范式將車聯(lián)網(wǎng)與移動(dòng)邊緣計(jì)算兩者融合,從而解決車輛自身計(jì)算能力受限問(wèn)題[17-18]。相較于傳統(tǒng)移動(dòng)邊緣計(jì)算,VEC能為智能交通系統(tǒng)提供更方便的服務(wù),更適用于路邊智能基礎(chǔ)設(shè)施與移動(dòng)性較強(qiáng)的車輛終端,旨在為海量的交通應(yīng)用提供隨時(shí)隨地的連接。在這種場(chǎng)景下,更多的系統(tǒng)參數(shù)使傳輸方案的設(shè)計(jì)變得更難,部署RIS能否帶來(lái)性能增益還有待研究?;谝陨峡紤],本文提出了一種基于近端策略優(yōu)化(PPO)的計(jì)算卸載在線優(yōu)化算法。
圖1 RIS輔助車載邊緣計(jì)算系統(tǒng)模型
由式(6)可知,當(dāng)RSU的接收信號(hào)信噪比最大時(shí),即:
依據(jù)香農(nóng)公式,時(shí)隙n內(nèi)車輛k的平均卸載速率為:
車輛k通過(guò)RSU覆蓋暗區(qū)的平均卸載速率可以表示為:
為簡(jiǎn)化問(wèn)題,本文對(duì)任一車輛經(jīng)過(guò)暗區(qū)所需的時(shí)隙數(shù)進(jìn)行上取整操作。
本文面向系統(tǒng)中車輛的服務(wù)公平性,通過(guò)聯(lián)合設(shè)計(jì)時(shí)段分配因子、任務(wù)卸載比例、RIS相移使所有車輛的最小卸載速率達(dá)到最高,因此優(yōu)化問(wèn)題可表述為:
問(wèn)題(10)是一個(gè)多變量高度耦合且存在整型變量NPhard的問(wèn)題,求解該問(wèn)題具有很大挑戰(zhàn)性。系統(tǒng)中多數(shù)狀態(tài)信息需要在每個(gè)時(shí)隙內(nèi)完成即時(shí)交換,而現(xiàn)有的凸優(yōu)化理論設(shè)計(jì)復(fù)雜度高,難以保證決策的實(shí)時(shí)性。本節(jié)提出基于PPO的深度強(qiáng)化學(xué)習(xí)算法以用于尋求時(shí)段劃分因子,在給定時(shí)段劃分決策下,基于凸優(yōu)化方法處理傳輸功率與卸載比例。
根據(jù)公式(7)和公式(8),可得出RIS最優(yōu)相移Ψ為:
上述問(wèn)題是關(guān)于ρ和p的凸優(yōu)化問(wèn)題,可以借助凸優(yōu)化軟件(例如CVX)進(jìn)行求解。
給定Ψ、ρ和p時(shí),式(10)可描述為:
該問(wèn)題是一個(gè)整數(shù)優(yōu)化問(wèn)題,尋找時(shí)段劃分策略α的最優(yōu)解較為困難。本章節(jié)提出基于PPO的時(shí)段分配在線優(yōu)化方案,首先介紹DRL 中馬爾科夫決策過(guò)程(MDP)的基本要素,然后闡述基于PPO的時(shí)段劃分方法。
2.3.1 MDP基本要素定義
在本文場(chǎng)景中,RSU 不需要任何關(guān)于環(huán)境的先驗(yàn)信息,環(huán)境狀態(tài)轉(zhuǎn)移概率未知,且狀態(tài)信息需要即時(shí)獲取,可建模為無(wú)模型、無(wú)轉(zhuǎn)移概率的MDP。具體而言,在某個(gè)時(shí)間步t,環(huán)境處于狀態(tài)s(t),代理執(zhí)行動(dòng)作a(t),環(huán)境轉(zhuǎn)移到可行的后繼狀態(tài)s(t+ 1),代理接收獎(jiǎng)勵(lì)r(t),隨后t增加1。代理通過(guò)觀察s(t+ 1)與r(t+ 1)來(lái)調(diào)整自身策略,不斷訓(xùn)練使得累積獎(jiǎng)勵(lì)達(dá)到最大。將一個(gè)時(shí)隙作為一個(gè)時(shí)間步,下面對(duì)狀態(tài)空間、動(dòng)作空間和獎(jiǎng)勵(lì)函數(shù)進(jìn)行分別定義。
(1) 狀態(tài)空間定義:
(2) 動(dòng)作空間定義:
其中,α[n]=[α1[n],…,αK[n]]T,表示時(shí)間步t對(duì)應(yīng)時(shí)隙n的時(shí)段劃分因子向量。為便于處理,設(shè)置子時(shí)隙數(shù)U為較大的整數(shù)值,同時(shí)可近似地將αk[n]作為連續(xù)變量處理。
(3) 獎(jiǎng)勵(lì)函數(shù)定義:
2.3.2 基于PPO的時(shí)段劃分算法
考慮新動(dòng)作策略和舊動(dòng)作策略之間的關(guān)系,PPO方法設(shè)置了一種新的目標(biāo)函數(shù),將動(dòng)作值穩(wěn)定在近端范圍內(nèi),使新動(dòng)作策略的更新可以參照舊動(dòng)作策略。該方法不僅具有動(dòng)態(tài)決策的優(yōu)勢(shì),還可以快速確定模型的正確優(yōu)化方向。動(dòng)作網(wǎng)絡(luò)根據(jù)狀態(tài)輸出動(dòng)作,與環(huán)境交互;評(píng)價(jià)網(wǎng)絡(luò)根據(jù)狀態(tài)計(jì)算狀態(tài)價(jià)值,估計(jì)動(dòng)作的優(yōu)劣。
設(shè)新、舊動(dòng)作網(wǎng)絡(luò)的參數(shù)分別為θ和θold,評(píng)價(jià)網(wǎng)絡(luò)的參數(shù)為ξ,定義每個(gè)時(shí)間步t的優(yōu)勢(shì)函數(shù)為:
其中,?是用于控制截?cái)喾秶南拗茀?shù),其值較小,決定新舊策略之間的差異。目標(biāo)函數(shù)(18)使用剪切概率比,可降低訓(xùn)練難度,被認(rèn)為是一種優(yōu)秀的方法。在訓(xùn)練過(guò)程中,PPO 算法將狀態(tài)s(t)輸入新動(dòng)作網(wǎng)絡(luò),并輸出相應(yīng)動(dòng)作a(t)后,從環(huán)境中得到獎(jiǎng)勵(lì)r(t)與下一狀態(tài)s(t+ 1),此時(shí)向回放記憶單元中存入一個(gè)完整的經(jīng)驗(yàn)(s(t),a(t),r(t),s(t+ 1)),隨后將s(t+ 1)輸入到新動(dòng)作網(wǎng)絡(luò),直到經(jīng)驗(yàn)池滿。RSU 通過(guò)與環(huán)境交互不斷地更新動(dòng)作網(wǎng)絡(luò)θ與評(píng)價(jià)網(wǎng)絡(luò)ξ,優(yōu)化自身策略逐漸使獎(jiǎng)勵(lì)值與目標(biāo)函數(shù)達(dá)到最大??偟膩?lái)說(shuō),基于PPO的任務(wù)卸載算法如下:
算法1. 基于PPO的任務(wù)卸載算法輸入:最大回合數(shù)Ep,每回合最大時(shí)間步Smax,學(xué)習(xí)率lr,限制參數(shù)?,GAE參數(shù)λ,評(píng)價(jià)網(wǎng)絡(luò)參數(shù)ξ輸出:動(dòng)作網(wǎng)絡(luò)參數(shù)θ 1.初始化動(dòng)作網(wǎng)絡(luò)參數(shù)θ,評(píng)價(jià)網(wǎng)絡(luò)參數(shù)ω
2.FOR episode←1 TO Εp DO 3.初始化:(xk[1],yk[1])、Lk、ck、RSU高度HS、RIS高度HS 4.FOR t ←1 TO Smax DO 5.從環(huán)境中獲取狀態(tài)s(t)6.使用πθ根據(jù)狀態(tài)選擇動(dòng)作s(t)7.根據(jù)a(t),求解ρ、p、Ψ 8.計(jì)算下一狀態(tài)s(t + 1)9.根據(jù)公式(16)計(jì)算獎(jiǎng)勵(lì)r(t)10.存儲(chǔ)經(jīng)驗(yàn)(s[t],a[t],r[t],s[t + 1])11.END FOR 12.FOR t ←1 TO Γ DO 13.計(jì)算A^(t)14.END FOR 15.更新動(dòng)作網(wǎng)絡(luò)θ,更新評(píng)價(jià)網(wǎng)絡(luò)ξ,更新θold ←θ 16.清理經(jīng)驗(yàn)數(shù)據(jù)17.END FOR
本節(jié)在Python 3.6和Pytorch環(huán)境下對(duì)所提算法進(jìn)行仿真驗(yàn)證。假設(shè)RSU 暗區(qū)半徑為200 m,車輛出發(fā)于x軸負(fù)半軸一側(cè)邊界,沿x軸正方向行駛,車輛y坐標(biāo)隨機(jī)生成該邊界上的合理值。RIS 部署于(0,200,70)m,RSU 的位置為(0,500,20)m,服務(wù)周期T= 20 s,U= 200,時(shí)隙數(shù)N= 40,任務(wù)數(shù)據(jù)量Lk∈[106,8 × 106]bits,單位比特平均計(jì)算次數(shù)ck∈[300,500]cycles/bit,噪聲功率σ2=-110 dBm,K1=K2= 10 dB,信道增益γ0=-30 dB。PPO 訓(xùn)練參數(shù)如表1所示。
表1 近端策略優(yōu)化算法參數(shù)
圖2 對(duì)比了PPO 與AC(Actor-Critic)方法在同等學(xué)習(xí)率與隨機(jī)數(shù)序列下的獎(jiǎng)勵(lì)值收斂曲線。由圖2 可知,當(dāng)回合數(shù)增加到500 時(shí),PPO 方法呈現(xiàn)收斂。與之對(duì)比的AC 方法雖初期獎(jiǎng)勵(lì)值略高,但收斂到的獎(jiǎng)勵(lì)值與PPO 有較大差異。這表明PPO 是一種能夠快速適應(yīng)動(dòng)態(tài)環(huán)境的DRL算法。
圖2 訓(xùn)練收斂曲線
當(dāng)系統(tǒng)中車輛數(shù)K=10時(shí),圖3對(duì)比了PPO、AC與隨機(jī)分配3種算法下車輛最小速率隨RIS元素?cái)?shù)變化的情況??梢钥闯?,隨著RIS 元素?cái)?shù)增加,3 種算法的最小速率均提升顯著。其中,本文所提的基于PPO的卸載算法目標(biāo)值最大,AC 算法與之相比有一定差距,且隨著RIS 元素?cái)?shù)變化,這種差距漸進(jìn)增加。隨機(jī)分配方法性能有較大跳躍,并不是一種適合于實(shí)際場(chǎng)景的算法。
圖3 RIS元素?cái)?shù)對(duì)目標(biāo)值的影響
圖4給出了系統(tǒng)中車輛數(shù)對(duì)不同方案所得傳輸速率最小值的影響。在RIS元素N=40時(shí),通過(guò)所提PPO 算法與優(yōu)勢(shì)行動(dòng)者-評(píng)論家(A2C)算法、隨機(jī)分配策略的性能比較可以看出,所提PPO 算法與A2C 算法兩者的性能差距較小。因而,對(duì)于A2C 這種改進(jìn)的AC 方法,PPO 算法也能保持一定的優(yōu)勢(shì)。相比于隨機(jī)分配算法,所提PPO 算法與A2C 算法分別獲得了61.9%與48.8%的性能提升。
圖4 車輛數(shù)量對(duì)最小速率的影響
圖5給出了RIS元素?cái)?shù)量對(duì)任務(wù)卸載情況的影響。在車輛數(shù)K=10 的情況下,隨著RIS 元素?cái)?shù)量的增加,任務(wù)卸載比例呈現(xiàn)上升趨勢(shì),這說(shuō)明RIS元素?cái)?shù)量的增加能夠?qū)νㄐ刨|(zhì)量產(chǎn)生積極作用,使得系統(tǒng)能夠傳輸更多任務(wù)。由圖5可知,所提PPO 算法的任務(wù)卸載比例最高,這說(shuō)明PPO 對(duì)車載終端的服務(wù)效果最佳,有助于減小車載終端自身的計(jì)算負(fù)載。相比于均等分配,本文所提PPO算法的卸載比例提升了46.8%,A2C算法的卸載比例提升了33.2%。
圖5 智能超表面元素?cái)?shù)量對(duì)任務(wù)卸載比例的影響
本文提出了一種RIS 輔助VEC 的部分任務(wù)卸載方案,為車輛無(wú)法與RSU 直接通信提供了計(jì)算服務(wù),首先分析了車輛移動(dòng)性,將時(shí)延容忍約束下的最小速率最大化問(wèn)題建模為馬爾科夫決策過(guò)程,其次結(jié)合深度強(qiáng)化學(xué)習(xí)與凸優(yōu)化方法,設(shè)計(jì)了基于PPO 的時(shí)段分配與任務(wù)卸載算法。仿真結(jié)果驗(yàn)證了所提方案在計(jì)算卸載方面的可行性與優(yōu)越性,驗(yàn)證了RIS 作為中繼在改善無(wú)線通信環(huán)境方面具有顯著作用。