霧計算輔助車聯(lián)網(wǎng)中面向視頻直播業(yè)務的資源分配研究*

2021-11-01 07:54:52張志才張熠寧

測試技術(shù)學報 2021年5期

張志才，張熠寧，付芳

(1. 山西大學物理電子工程學院，山西太原 030006；2. 北京郵電大學信息與通信工程學院，北京 100876)

0 引言

車聯(lián)網(wǎng)實時視頻流直播服務面對兩個挑戰(zhàn)：一是路邊單元覆蓋范圍的有限性與車輛視頻業(yè)務QoS保障的嚴苛之間的矛盾[1]. 由于電磁波在傳播過程的衰減特性，每一個路邊單元對車輛用戶的下行發(fā)送功率在遠距離傳輸后會變得很弱，路邊單元的覆蓋范圍有限，然而，接收端信噪比低不利于視頻業(yè)務QoS保障. 二是按照高峰時段來部署固定數(shù)目霧計算節(jié)點導致在車流量小的時段里大部分計算資源被浪費了. 城市車流量在高峰時段(工作日的早7點～8點和下午4點～5點)是低谷時段(工作日的早1點～4點，周六的早2點～4點和周日的早3點～5點)的5倍～8倍[2].

為了應對這些挑戰(zhàn)，學術(shù)界將公交車作為霧計算節(jié)點，隨著車流量大小而動態(tài)部署霧計算節(jié)點，不僅能避免計算資源的浪費，而且能增大車聯(lián)網(wǎng)的覆蓋范圍. 車聯(lián)網(wǎng)中將車輛作為霧計算結(jié)點已經(jīng)有了一些研究成果. 文獻[3]針對車輛自組織網(wǎng)(Ad Hoc)場景，提出了一種基于遺傳算法的計算任務卸載方案，實現(xiàn)了計算任務執(zhí)行時間和能量消耗的最小化. 文獻[4]針對高速公路車輛霧計算網(wǎng)絡場景，提出一種能量效率動態(tài)計算卸載和資源分配方案以提高能效和降低時延. 文獻[5]針對停車場車輛霧計算網(wǎng)絡場景，提出一種智慧泊車的新方法，將已停好的車輛作為霧計算節(jié)點來引導正在行駛的車輛盡快找到合適的停車位. 文獻[6]針對車輛視頻業(yè)務，將基站和出租車作為霧計算節(jié)點，其優(yōu)化目標是最小化時延和視頻質(zhì)量損失. 需要注意的是，上述文獻都是以降低時延為優(yōu)化目標，而且只有文獻[6]考慮的是車聯(lián)網(wǎng)視頻業(yè)務，但是其不足之處是其QoS只考慮了視頻質(zhì)量和時延而沒有考慮視頻抖動，由于車聯(lián)網(wǎng)環(huán)境的動態(tài)變化易導致相鄰時隙的比特率發(fā)生變化，進而引起視頻抖動，因此，在車聯(lián)網(wǎng)視頻業(yè)務的QoS保障中，視頻質(zhì)量、時延和抖動都是重要的指標.

關(guān)于車聯(lián)網(wǎng)視頻業(yè)務中自適應比特率技術(shù)，文獻[7]提出一種雙時間尺度的動態(tài)緩存方案，文獻[8]提出一種車載視頻自適應上傳方案，文獻[9，10]將視頻質(zhì)量和時延分開考慮. 關(guān)于車聯(lián)網(wǎng)視頻業(yè)務中強化學習算法，文獻[11，12]使用深度Q學習網(wǎng)絡(DQN)算法來優(yōu)化頻譜和計算資源，文獻[13]證明把車載環(huán)境建模為馬爾可夫決策過程(MDP)模型的效果優(yōu)于非MDP模型，文獻[14]研究了最小化所有用戶設備的總下載延遲的D2D緩存問題，文獻[13，14]均采用Q-learning算法來求解. 然而，上述算法大都采用ε-greedy策略進行探索，這種隨機策略的探索能力非常有限，很難找到問題的最優(yōu)解. 為了增強算法的探索性，本文采用最新的深度強化學習算法Soft Actor-Critic求解問題，該算法在ε-greedy策略的基礎上，引入關(guān)于動作策略的最大熵目標以提高其探索能力，從而獲得最優(yōu)解.

綜上所述，本文提出一種車輛霧計算網(wǎng)絡中基于Soft Actor-Critic的視頻傳輸方法，采用霧計算網(wǎng)絡和基于HTTP的動態(tài)自適應流(DASH)技術(shù)相結(jié)合[15]，將路邊單元和公交車視為霧計算節(jié)點，核心網(wǎng)發(fā)出的視頻通過霧計算結(jié)點傳輸給目標車輛[16]，并且將視頻內(nèi)容編碼成多個比特率的版本，通過聯(lián)合優(yōu)化比特率選擇、用戶調(diào)度和頻譜資源分配，以最大化視頻質(zhì)量，同時降低時延和視頻抖動.

1 系統(tǒng)模型

1.1 網(wǎng)絡模型

圖 1 為城市中車聯(lián)網(wǎng)的場景圖，我們將配備LTE-V2X無線接口的路邊單元(RSU)和公交車作為霧計算結(jié)點，可以為私家車提供低時延的通信服務. 根據(jù)當前的信道條件及自身需要自適應選擇不同比特率的視頻，通過核心網(wǎng)把視頻傳輸?shù)届F節(jié)點，霧節(jié)點再把視頻傳輸?shù)侥繕塑囕v. 采用集中式資源分配方式，RSU決定其覆蓋范圍內(nèi)用戶的資源分配.

圖 1 網(wǎng)絡場景圖

1.2 V2I和V2V通信模型

RSU和私家車之間的通信屬于車輛到基礎設施(V2I)通信，它采用LTE-Advanced標準，其鏈路的子載波為2 GHz，而公交車和私家車之間的通信屬于車到車(V2V)通信，它采用專用短距離通信頻帶，其鏈路的子載波為5.9 GHz. 故V2I鏈路和V2V鏈路之間無同頻干擾.

由香農(nóng)公式可知，V2I和V2V的通信速率為

Gu,k=bu,kB0log(1+γu,k),?u∈U,k∈K.

(1)

V2I鏈路的信干噪比(SINR)為

γu,0=pu,0gu,0/(I+σ2),

(2)

式中：I為其他RSU導致的干擾；σ2為高斯白噪聲功率；pu,0和gu,0分別為V2I鏈路的發(fā)射功率和信道增益.

V2V鏈路的SINR為

(3)

式中：pu,k和gu,k分別為霧節(jié)點k對用戶u的V2V鏈路的發(fā)射功率和信道增益.

(4)

將目標視頻從霧節(jié)點下載到用戶u消耗的時間為

(5)

1.3 設計效用函數(shù)

(6)

式中：參數(shù)ξ為正值，并且隨著特定應用的變化而變化.

(7)

視頻被等分成若干小段播放和處理，每一段的播放時間長度為L，在播放一小段視頻流的同時處理下一小段視頻流. 從視頻提供商到霧節(jié)點傳輸消耗的時間不受本文策略影響，因此，處理視頻的時間只考慮霧節(jié)點下行傳輸?shù)杰囕v的時間Tu(t).保證連續(xù)播放需滿足處理視頻的時間不能超過播放視頻的時間，否則就會產(chǎn)生時延Du(t)

Du(t)=Tu(t)-L.

(8)

設計效用函數(shù)

(9)

式中：αu為視頻質(zhì)量價格；βu為比特率切換價格；ωu為時延價格.

1.4 問題建模

聯(lián)合優(yōu)化比特率選擇、車輛調(diào)度和頻譜資源分配，在約束條件下最大化效用函數(shù)，即

Maximize：Ω，

(10-1)

cu,k∈{0,1},?u∈U,?k∈K，

(10-2)

約束(10-2)表明V2V和V2I兩種通信鏈路，約束(10-3)表明每輛車同時能且只能與一個霧節(jié)點通信，約束(10-4)表明霧節(jié)點k可用來分配給車輛u的頻譜資源有限，約束(10-5)表明目標視頻比源視頻的比特率低.

將上述優(yōu)化問題建模為一個馬爾科夫決策過程MDP〈S,A,r,P〉，其中S表示狀態(tài)空間，包含可用的資源塊數(shù)量和下行鏈路的信干噪比；A表示動作空間，包括車輛調(diào)度策略、頻譜資源分配策略和視頻比特率選擇策略；P表示狀態(tài)轉(zhuǎn)移概率函數(shù)；r表示執(zhí)行完一個動作后，環(huán)境反饋給智能體的獎勵值，即效用函數(shù)的值.

2 Soft Actor-Critic算法

2.1 軟價值函數(shù)

該算法在長期回報的獎勵值中引入熵，尋找最優(yōu)策略π(a|s)使式(11)熵目標最大化.

(11)

式中：γ∈[0,1]為折扣因子；λ為溫度系數(shù)，通過調(diào)整溫度系數(shù)的大小來控制策略的隨機性. 給定初始狀態(tài)和初始動作后，式(11)變換為軟Q值函數(shù)，即

Qπ(s,a)=

(12)

狀態(tài)值函數(shù)又稱軟V值函數(shù)，其與軟Q值函數(shù)的關(guān)系為

(13)

式(11)的最優(yōu)策略π*為

(14)

2.2 Critic部分

?θL(θ)=

(15)

設αc(αc>0)為critic部分的學習率，在梯度下降方向更新參數(shù)θ

θ←θ-αc?θL(θ).

(16)

(17)

式中：τ為平滑系數(shù)，0<τ<1.

L(?)=

(18)

L(?)的梯度為

??L(?)=

??V?(s)[V?(s)-Qθ(s′,a)+λlogπφ(a|s′)].

(19)

在梯度下降方向更新參數(shù)?

?←?-αc??L(?).

(20)

(21)

式中：k∈(0,1)為平滑系數(shù).

2.3 Actor部分

Actor部分采用參數(shù)為φ的DNN網(wǎng)絡來表示策略分布，通過軟Q值和軟V值函數(shù)計算得到的策略來訓練該DNN. 用KL散度最小化式(21)損失函數(shù)，從而得到最優(yōu)策略.

L(φ)=E[DKL(πφ(·|s)||π*(·|s))]，

(22)

L(φ)=

(23)

L(φ)的梯度為

?φL(φ)=?φλlogπφ(a|s)+

(?aλlogπφ(a|s)-?aQθ(s,a))?φfφ(ξ;s).

(24)

設αa(αa>0)是Actor部分的學習率，在梯度下降的方向更新參數(shù)φ

φ←φ-αa?φL(φ).

(25)

3 仿真結(jié)果與分析

在Tensorflow1.14.0平臺上采用Python仿真器進行實驗，場景為一條500 m的城市公路，在一個RSU覆蓋的范圍內(nèi)隨機分布了4輛公交車和10輛私家車用戶，仿真參數(shù)見表1.

表1 仿真參數(shù)

圖 2 顯示了當αa=0.000 05、αc=0.05時，隨著私家車用戶數(shù)量的增加，視頻比特率分布情況的變化. 由圖可見，當用戶越來越多時，高比特率(2 750 kbps)用戶的比例在降低，低比特率(1 750 kbps、1 250 kbps)用戶的比例在上升. 這是因為頻譜資源是有限的，根據(jù)下行鏈路的無線信道環(huán)境和可獲取的頻譜資源后，就需要犧牲視頻比特率的級別以降低視頻抖動.

圖 2 用戶總數(shù)變化對接受視頻比特率的影響

圖 3 顯示了Soft Actor-Critic算法、Actor-Critic算法和無學習狀態(tài)下收斂性能的對比. 由圖可見，Soft Actor-Critic算法的收斂最快，而且回合平均獎勵值最高，為0.57，經(jīng)過20個回合已收斂；普通Actor-Critic性能其次，經(jīng)過350個回合才收斂，回合平均獎勵值略大于0.48；無學習狀態(tài)的收斂性能最差.

圖 3 算法收斂性能對比

4 結(jié) 論

本文提出了一種霧計算輔助車聯(lián)網(wǎng)中視頻直播業(yè)務的資源分配方法，聯(lián)合優(yōu)化用戶調(diào)度、資源分配和視頻比特率選擇，旨在最大化視頻質(zhì)量，同時降低時延和抖動. 創(chuàng)新點如下：

1)利用霧計算輔助車聯(lián)網(wǎng)，將公交車和RSU都視為霧計算結(jié)點，將計算和通信資源帶到距離用戶更近的地方以降低時延.

2)設計了一個面向視頻直播業(yè)務的效用函數(shù)，將相鄰視頻片段的比特率切換和時延作為懲罰因子，以降低時延和視頻抖動，區(qū)別于現(xiàn)有大多數(shù)文獻只考慮提高視頻質(zhì)量或只考慮降低時延.

3)采用Soft Actor-Critic深度強化學習算法獲得最優(yōu)資源分配策略，算法的收斂性和探索能力更好.