王 磊,王永華,何一汕,伍文韜
(廣東工業(yè)大學(xué) 自動化學(xué)院,廣州 510006)
隨著5G通信技術(shù)的發(fā)展,車聯(lián)網(wǎng)(Internet of Vehicles,IoV)受到了越來越多的關(guān)注。車聯(lián)網(wǎng)中存在著不同類型的連接,分為車對基礎(chǔ)設(shè)施(Vehicle to Infrastructure,V2I)和車對車(Vehicle to Vehicle,V2V)鏈路。在5G蜂窩V2X網(wǎng)絡(luò)中,需要同時滿足高速率的海量數(shù)據(jù)傳輸以供娛樂,另一方面更需要可靠的信道資源以供必要的通信,因此,信道資源是實(shí)現(xiàn)車輛間的相互通信關(guān)鍵條件。為滿足這種不同場景下的通信需求,文獻(xiàn)[1]對5G網(wǎng)絡(luò)中異構(gòu)網(wǎng)絡(luò)應(yīng)用場景以及未來的研究趨勢進(jìn)行了討論。然而信道資源的稀缺,顯然已經(jīng)不能滿足當(dāng)前車聯(lián)網(wǎng)中的高通信需求。因此需要設(shè)計更加智能的信道分配方案,降低通信時信道沖突,最大化車聯(lián)網(wǎng)的網(wǎng)絡(luò)效用,提升信道資源利用率。
為應(yīng)對這個挑戰(zhàn),文獻(xiàn)[2]為基于設(shè)備到設(shè)備的車載網(wǎng)絡(luò)開發(fā)了一種啟發(fā)式空間頻譜復(fù)用方案,減輕了對完整 信道狀態(tài)信息(Channel State Information,CSI) 的要求;文獻(xiàn)[3]指出的最大化V2I鏈路吞吐量的V2X資源分配方案能適應(yīng)緩慢變化的大規(guī)模信道衰落,從而減少網(wǎng)絡(luò)信令開銷;文獻(xiàn)[4]利用網(wǎng)絡(luò)切片技術(shù)聯(lián)合優(yōu)化頻譜資源塊分配和車輛信號發(fā)射功率控制,最大化信息娛樂服務(wù)切片的平均和吞吐量。然而,這些算法大多假設(shè)車聯(lián)網(wǎng)環(huán)境背景信息已知,但在實(shí)際情況下大多無法滿足。深度強(qiáng)化學(xué)習(xí)由于在處理大狀態(tài)和動作空間時能夠提供目標(biāo)值(稱為Q值)的良好近似值而備受關(guān)注。文獻(xiàn)[5]針對車聯(lián)網(wǎng)可分配頻譜資源數(shù)目未知的情況,提出了一種基于深度Q網(wǎng)絡(luò)(Deep Q-Network,DQN)的聯(lián)合緩存和計算資源方案。為進(jìn)一步解決高移動性和多數(shù)目車輛環(huán)境中的頻譜資源難以集中式管理問題,文獻(xiàn)[6]提出了一種用于 V2V 和 V2I 通信的混合式頻譜復(fù)用和功率分配方案,并設(shè)計基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)的實(shí)時決策方法實(shí)現(xiàn)頻譜復(fù)用和功率分配。
雖然使用深度強(qiáng)化學(xué)習(xí)算法能夠?qū)崿F(xiàn)車輛自主探索未知空間,智能地解決信道分配問題,但在實(shí)際車聯(lián)網(wǎng)中由于傳輸需求不同,網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的變化十分迅速,從而使得傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)對這種在時間序列上變化快速的數(shù)據(jù)進(jìn)行建模,運(yùn)用到深度強(qiáng)化學(xué)習(xí)中時也很難讓智能體學(xué)習(xí)到有效的信道分配策略。針對這個問題,目前的研究大多只是將長短期記憶(Long Short-Term Memory,LSTM)或者門控循環(huán)單元(Gated Recurrent Unit,GRU)去替代DNN在深度強(qiáng)化學(xué)習(xí)中的擬合Q函數(shù)的作用。雖然LSTM和GRU都能夠處理前后連續(xù)的歷史序列,但LSTM本身由于其結(jié)構(gòu)內(nèi)部參數(shù)較多,如果時間跨度很大,在網(wǎng)絡(luò)比較深的情況下會使得計算量變大,很耗時,且有過擬合的風(fēng)險[7]。同樣,雖然GRU的簡單結(jié)構(gòu),讓其在訓(xùn)練時擁有比LSTM更低的計算復(fù)雜度,但在擬合精度上卻比不上LSTM。這種由于網(wǎng)絡(luò)結(jié)構(gòu)上的缺陷導(dǎo)致的算法性能上的不足,會使車聯(lián)網(wǎng)中的信道分配問題難以尋找到最優(yōu)解,導(dǎo)致算力上的浪費(fèi)。
將GRU訓(xùn)練周期短與LSTM擬合精度和穩(wěn)定性高的兩個優(yōu)點(diǎn)結(jié)合起來,能使算法更加高效和穩(wěn)定[8-10]。本文以此為出發(fā)點(diǎn),考慮將GRU-LSTM組合網(wǎng)絡(luò)模型結(jié)合到分布式強(qiáng)化學(xué)習(xí)中,并圍繞如何降低車聯(lián)網(wǎng)中V2V鏈路的信道沖突并最大化網(wǎng)絡(luò)效用的問題進(jìn)行研究。
圖1所示為由單個基站(Base Station,BS)以及M條V2I鏈路和N條V2V鏈路構(gòu)成的十字路口車聯(lián)網(wǎng)無線通信模型[11],M條V2I鏈路將車輛與BS進(jìn)行連接,承載著娛樂以及交通管理數(shù)據(jù)(非安全數(shù)據(jù))的傳輸,N條V2V鏈路主要承載安全數(shù)據(jù)的傳輸。為保證高質(zhì)量V2I鏈路通信,假設(shè)每條V2I鏈路已被預(yù)先分配了不同的正交頻譜子載波以消除網(wǎng)絡(luò)中V2I鏈路之間的干擾,同時假設(shè)V2V鏈路對V2I鏈路的干擾也在理想狀態(tài)內(nèi)。V2I鏈路作為授權(quán)用戶,擁有獨(dú)立的信道,V2V鏈路可提供相鄰車輛之間的直接通信。為了提高頻譜利用率,V2V鏈路作為感知用戶需要利用與環(huán)境交互獲得的部分可知信息,動態(tài)地感知V2I鏈路的信道條件,復(fù)用V2I鏈路的上行鏈路頻譜進(jìn)行信息交換,即在不影響V2I鏈路的正常通信的情況下以下墊式接入到其信道中來完成各自的傳輸任務(wù)。
圖1 車聯(lián)網(wǎng)系統(tǒng)模型[13]
因此如何設(shè)計一種快速穩(wěn)定的算法完成這種信道資源稀少的場景下的信道分配問題,且能最大程度上降低信道沖突,提高V2V鏈路復(fù)用V2I鏈路信道資源的利用率是研究的重中之重。假設(shè)V2I鏈路被分配的正交信道數(shù)集合為C*={1,2,3,…,C},而V2V鏈路的數(shù)量集合表示為N*={1,2,3,…,N},當(dāng)復(fù)用上行鏈路資源時,在每個時隙V2V鏈路都可以任意選擇V2I鏈路的信道,且可以動態(tài)的選擇繼續(xù)留在該信道還是切換信道發(fā)送信息。因此,為實(shí)現(xiàn)V2V鏈路在共享V2I鏈路過程中最大化網(wǎng)絡(luò)效用,盡可能降低信道沖突,就必須考慮各V2V鏈路之間的信道碰撞率,以及信道空閑率。
定義k為時隙t下第c條V2I鏈路中選擇復(fù)用此信道傳輸信息的V2V鏈路的數(shù)量,規(guī)定僅僅只能存在單條V2V鏈路選擇復(fù)用第c條V2I的信道時信息才能夠發(fā)送成功,當(dāng)有兩條及兩條以上的V2V鏈路共同選擇復(fù)用同一條V2I鏈路時,就定義為產(chǎn)生了信道的碰撞,信息必定傳輸失敗,此時的碰撞次數(shù)就為1,如式(1)所示:
(1)
因此,將i次信息傳輸過程中C條V2I鏈路信道中產(chǎn)生的碰撞總次數(shù)與這i次傳輸中的總信道數(shù)的比值,定義為這i次傳輸中的信道碰撞概率μ,如式(2)所示:
(2)
定義φ為信道空閑率來間接表示V2I鏈路信道的利用情況。當(dāng)n條V2V鏈路都進(jìn)行了信道的共享策略后,第c個信道中的剩余容量γc如式(3)所示。規(guī)定當(dāng)?shù)赾條V2I信道被占用且V2V鏈路成功發(fā)送了信息,那么該信道的剩余容量γc就為0;如果該條信道上,發(fā)生了多條V2V鏈路的競爭,造成了通信失敗,此信道就沒有被利用,其剩余容量γc為1;當(dāng)然,如果某條信道沒有被V2V用戶選擇共享,其信道剩余容量γc自然也為1。
(3)
規(guī)定將i次信息傳輸過程中C條V2I鏈路信道的剩余容量γc之和與這i次傳輸過程中的總信道數(shù)的比值,表示該回合信道空閑率,如式(4)所示:
(4)
可見,信道空閑率與碰撞率呈正相關(guān)關(guān)系,信道空閑率的降低,也間接表明了碰撞率的降低和信道利用率的提升。因此,本文提出的算法將圍繞這兩個優(yōu)化指標(biāo)來進(jìn)行設(shè)計和實(shí)現(xiàn)。
本文的車聯(lián)網(wǎng)信道分配場景中,由于真實(shí)環(huán)境信息是未知的、高維復(fù)雜的,因此,將信道資源分配問題建模為深度強(qiáng)化學(xué)習(xí)問題,提出一種基于GRU-LSTM組合網(wǎng)絡(luò)模型的深度雙重Q學(xué)習(xí)算法框架(Hybrid GRU-LSTM DDQN,HG-LDDQN),算法結(jié)構(gòu)如圖2所示。
圖2 HG-LDDQN算法結(jié)構(gòu)框圖
HG-LDDQN算法與環(huán)境交互模型如圖3所示。算法模型采用集中訓(xùn)練、分布式執(zhí)行的方式,將每條V2V鏈路作為智能體與環(huán)境進(jìn)行交互,接收環(huán)境觀察結(jié)果O(t),以得到環(huán)境中在t時隙下的狀態(tài)信息S(t);將t時隙下的狀態(tài)S(t)送入GRU-LSTM組合神經(jīng)網(wǎng)絡(luò)模型中進(jìn)行訓(xùn)練,得到Q函數(shù)的值Q(s,a)。然后,依據(jù)Q值智能體得到下一步所要進(jìn)行的動作A(t),并且在同一種獎勵評判機(jī)制下,每條V2V鏈路單獨(dú)獲得回報Rn(t),繼而反復(fù)探索訓(xùn)練,更新GRU-LSTM組合網(wǎng)絡(luò)。最后,通過迭代學(xué)習(xí)最大化每回合的平均獎勵,來改善信道分配策略。
圖3 HG-LDDQN算法與環(huán)境交互模型
下面對HG-LDDQN算法與環(huán)境交互模型中的幾個深度強(qiáng)化學(xué)習(xí)要素分別進(jìn)行闡述。
1) 狀態(tài)空間
在算法模型中,t時隙下的狀態(tài)空間S(t)是通過V2V鏈路對環(huán)境進(jìn)行觀察O(t)后得到的,其包含三部分,即V2V鏈路作為智能體的動作a(t)、當(dāng)前每個信道的剩余容量δ(t)以及確認(rèn)字符信號(Acknowledge character,ACK)的返回結(jié)果η(t)。
如果V2V鏈路用戶已經(jīng)在t時隙選擇了第c條信道(1≤c≤C)進(jìn)行數(shù)據(jù)傳輸,那么將該條信道狀態(tài)ac(t)設(shè)置成1,剩余的信道狀態(tài)設(shè)置成0。a(t)如式(5)所示:
a(t)={a1(t),a2(t),…,ac(t)}
(5)
此外,在時隙t對于當(dāng)前C個信道中的第c個信道按式(3)中定義的單條V2I信道的剩余容量γc的計算方法,計算此刻所有V2I鏈路信道的剩余容量δ(t),如式(6)所示:
δ(t)={γ1,γ2,…,γc}
(6)
假設(shè)在時隙t完成信道共享后,V2V鏈路間發(fā)送數(shù)據(jù)包的同時也會給對方發(fā)送一條ACK信號,如果數(shù)據(jù)傳輸成功就返回一個數(shù)值為1的ACK信號,傳輸失敗,則返回的ACK信號為0。ACK信號返回結(jié)果η(t)如式(7)所示:
(7)
由此,構(gòu)成了在時隙t下的狀態(tài)空間S(t),如式(8)所示:
S(t)={a(t),δ(t),η(t)}
(8)
2)動作空間
根據(jù)可選信道c,n條V2V鏈路在t時隙的可選動作空間A(t)由式(9)定義為
A(t)∈{0,1,2,3,…,c}
(9)
即每條V2V鏈路都可以選擇此時刻網(wǎng)絡(luò)空間中的任一V2I鏈路的信道。當(dāng)t時刻下第n條V2V鏈路的動作值an(t)=0時,代表該條V2V鏈路在t時刻下選擇不接入V2I的信道。
3)獎勵值設(shè)定
在t時隙下,第n條V2V鏈路成功發(fā)送信息后,根據(jù)V2V的接收方返回的ACK信號狀態(tài),對該次動作an(t)的選擇給予一個獎勵值Rn(t)。如果返回ACK信號為1,說明數(shù)據(jù)信息發(fā)送成功,即表明V2V鏈路合理地復(fù)用了V2I的信道,同時避免了信道的沖突,給予該次動作an(t)數(shù)值為1的正向獎勵;反之,不給予獎勵。因此,將t時隙下第n條V2V鏈路的動作an(t)的獎勵值Rn(t)定義為
(10)
根據(jù)前述的強(qiáng)化學(xué)習(xí)的基本要素,對本文提出的算法結(jié)構(gòu)進(jìn)行分塊闡述。
2.2.1 輸入層
在本算法中,每條V2V鏈路都被看作是一個智能體,智能體觀察并采集t時刻下的每個V2V鏈路的狀態(tài)值St∈{S1,S2,S3,…,Sm}作為GRU-LSTM組合網(wǎng)絡(luò)的輸入。當(dāng)V2V鏈路在狀態(tài)St執(zhí)行動作a(t),根據(jù)環(huán)境返回的η(t)獲得一個獎勵R(t)后,就轉(zhuǎn)移至下一個狀態(tài)St+1。
2.2.2 GRU-LSTM組合神經(jīng)網(wǎng)絡(luò)層
由于車聯(lián)網(wǎng)的高移動性和網(wǎng)絡(luò)拓?fù)涞目焖僮兓?經(jīng)典的DNN無法學(xué)習(xí)到前后聯(lián)系的歷史序列,同時循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)存在梯度消失和梯度爆炸以及可能過擬合的缺陷,因此,本算法使用GRU-LSTM組合神經(jīng)網(wǎng)絡(luò)模型。該組合神經(jīng)網(wǎng)絡(luò)模型的網(wǎng)絡(luò)結(jié)構(gòu)有3層。第一層采用 GRU,它將LSTM中的遺忘門和輸入門合并為一個“更新門”,減小了矩陣乘法,更容易使算法收斂,可以減少訓(xùn)練時間[12]。但 GRU的擬合精度不如多參數(shù)的 LSTM,并且雙層 LSTM 的精度要優(yōu)于單層 LSTM[13]。因此,模型的第二層和第三層結(jié)構(gòu)均采用LSTM。下面對該組合層進(jìn)行分層介紹。
第一層神經(jīng)網(wǎng)絡(luò)由多個GRU單元組成。對于每個GRU單元,如圖4所示,Zt為當(dāng)前時刻的輸入,Yt-1為上一個時刻的輸出,Yt為當(dāng)前時刻的輸出。
圖4 GRU單元結(jié)構(gòu)圖[10]
GRU有兩個門,第一個門為更新門vt,決定了有多少歷史信息可以繼續(xù)傳遞給未來。更新門vt的計算方法如公式(11)所示[8]:
vt=σ(Wv·[Yt-1,Zt]+bv)
(11)
式中:Wv為更新門的權(quán)重矩陣;bv為偏差向量;σ表示激活函數(shù) sigmoid。
第二個門為重置門rt,主要功能是確定有多少歷史信息不能傳遞到下一個狀態(tài)。重置門rt的計算方法如公式(12)所示[8]:
rt=σ(Wr·[Yt-1,Zt]+br)
(12)
式中:Wr為重置門的權(quán)重矩陣;br為偏差向量。
計算出更新門vt和重置門rt后,GRU將會計算候選隱藏狀態(tài)ht。候選隱藏狀態(tài)ht的計算方法如公式(13)所示[8]:
ht=tanh(Wh·[rt·Yt-1,Zt]+bh)
(13)
式中:Wh為對應(yīng)的權(quán)重參數(shù);bh為對應(yīng)的偏差參數(shù);tanh代表雙曲正切函數(shù)。
最后t時刻 GRU 的輸出Yt的計算方法如公式(14)所示[8]:
Yt=(1-vt)·Yt-1+vt·ht
(14)
在GRU網(wǎng)絡(luò)層輸出后第二層和第三層是LSTM網(wǎng)絡(luò)層,對比于RNN和GRU,LSTM 模型的擬合精度總體更高,如圖5所示。
圖5 LSTM單元結(jié)構(gòu)[10]
LSTM有3個門,如圖5所示,Ct-1為前一時刻神經(jīng)元的狀態(tài),Ut-1為前一時刻神經(jīng)元的輸出,Nt為當(dāng)前時刻的輸入,Ct為當(dāng)前時刻神經(jīng)元的狀態(tài),Ut為當(dāng)前時刻神經(jīng)元的輸出。以下是每個LSTM單元的前向傳播公式:
ft=σ(Wf·[Ut-1,Nt]+bf)
(15)
式中:Wf是遺忘門的權(quán)重矩陣;bf是偏差向量;ft表示最后一層神經(jīng)元被遺忘的概率[8]。
it=σ(Wi·[Ut-1,Nt]+bi)
(16)
式中:Wi是輸入門的權(quán)重矩陣;bi是偏差向量;it表示當(dāng)前需要保留的負(fù)載信息的比例[8]。
pt=tanh(Wc·[Ut-1,Nt]+bc)
(17)
式中:Wc是輸入門的權(quán)重矩陣;bc是偏差向量;pt是當(dāng)前需要保留的負(fù)載信息的比例[8]。
Ct=ft·Ct-1+it·pt
(18)
ot=σ(Wo·[Ut-1,Nt]+bo)
(19)
式(19)中:Wo為輸出門的權(quán)重矩陣;bo為偏差向量;ot為輸出門[8]。
Ut=ot·tanh(Ct)
(20)
此處,LSTM層的輸入就是GRU網(wǎng)絡(luò)層的輸出Yt。顯然,此組合網(wǎng)絡(luò)的數(shù)據(jù)更新過程比單純的LSTM更簡潔,也比單純的GRU 網(wǎng)絡(luò)擬合Q值過程更具有精確性和穩(wěn)定性。
在組合神經(jīng)網(wǎng)絡(luò)中,使用Huber損失函數(shù)來計算算法訓(xùn)練時的目標(biāo)值Y以及估計值f(x)之間的差值。Huber損失是平方損失和絕對損失的綜合,它克服了平方損失和絕對損失的缺點(diǎn),不僅使損失函數(shù)具有連續(xù)的導(dǎo)數(shù),而且利用均方誤差(Mean Square Error,MSE)梯度隨誤差減小的特性,可取得更精確的最小值,也對異常點(diǎn)更加魯棒,可以提高算法的穩(wěn)定性[14]。Huber損失計算方法如式(21)所示[14]:
(21)
式中:δ為選擇超參數(shù),作為選擇MSE與MAE時的評判值,由反復(fù)實(shí)驗(yàn)確定。
2.2.3 輸出層
為解決算法訓(xùn)練中的過度估計問題,使用DDQN來解耦目標(biāo)Q值動作的選擇和目標(biāo)Q值的計算[15]。具體而言,使用兩個深度組合模型Q網(wǎng)絡(luò),Q1網(wǎng)絡(luò)用于選擇動作an(t),Q2網(wǎng)絡(luò)用于估計與所選動作相關(guān)聯(lián)的Q值。DDQN中的Q值的近似估算公式如式(22)所示[15]:
(22)
將提出的HG-LDDQN算法為所有V2V鏈路進(jìn)行訓(xùn)練,訓(xùn)練步驟如下:
1 初始化:迭代輪數(shù)T,V2I鏈路條數(shù) C,V2V鏈路條數(shù)N,步長α,衰減因子γ,探索率ε,經(jīng)驗(yàn)回放池D,當(dāng)前GRU-LSTM net1的參數(shù)ω,目標(biāo) GRU-LSTM net2的參數(shù)ω′=ω,所有狀態(tài)和動作對應(yīng)的價值Q
2 For iterationi=1,…,Ido
3 For episodem=1,…,Mdo
4 For time-slott=1,…,Tdo
5 For V2V linksn=1,…,Ndo
6 從環(huán)境中觀察得到狀態(tài)值Xn(t),輸入到GRU-LSTM net1,產(chǎn)生對應(yīng)所有可選的動作a∈{0,1,2,…C}的估計Q值Q(a)
9 在經(jīng)驗(yàn)回放池中存儲
10 從經(jīng)驗(yàn)回放池中隨機(jī)抽取批量樣本訓(xùn)練組合神經(jīng)網(wǎng)絡(luò)
11 計算當(dāng)前的目標(biāo)Q值:
12 計算目標(biāo)Q值與估計Q值的
Huber loss與網(wǎng)絡(luò)權(quán)重ω
13 End for
14 End for
15 End for
16 使用狀態(tài)輸入Xn(t)和輸出Qs訓(xùn)練GRU-LSTM net1
17 每一個iteration使Q2←Q1
18 End for
仿真場景為位于十字路口道路的雙向和單向車道區(qū)域,其寬為300 m,長為 400 m。場景中車輛起始位置和行駛方向在區(qū)域范圍內(nèi)隨機(jī)初始化,在該范圍內(nèi)規(guī)定有2條V2I鏈路、3條V2V鏈路以及1個基站。在該場景模型中,使用HG-LDDQN算法實(shí)現(xiàn)3條V2V鏈路共享V2I鏈路的2個信道條件的嘗試,分別在信道碰撞率、信道空閑率以及平均獎勵和平均成功率4個評價指標(biāo)上與其他信道分配算法對比,以驗(yàn)證HG-LDDQN算法的性能。
實(shí)驗(yàn)中構(gòu)建圖2中的GRU-LSTM組合神經(jīng)網(wǎng)絡(luò),GRU層和兩層LSTM均設(shè)置128個神經(jīng)元。Huber損失函數(shù)的超參數(shù)δ經(jīng)過大量實(shí)驗(yàn)設(shè)置為1.35。實(shí)驗(yàn)每次輸入t-5個時刻的狀態(tài)序列,使用Adam算法優(yōu)化網(wǎng)絡(luò)權(quán)重ω,經(jīng)驗(yàn)池D的容量設(shè)置為1 000,探索率ε設(shè)置為0.02,探索率的衰減率設(shè)置為0.000 1,學(xué)習(xí)率設(shè)置為0.01,獎勵折扣設(shè)置為0.9,干擾設(shè)置成0.1,模擬退火常數(shù)設(shè)置為1。
圖6表示在55 000次的迭代中,3條V2V鏈路在動態(tài)共享2條V2I鏈路的信道時的碰撞率的變化情況,每5 000次作為一個回合,對數(shù)據(jù)結(jié)果進(jìn)行一次記錄。從圖中可見,沒有歷史序列前后記憶功能的DQN算法在處理這種歷史序列的學(xué)習(xí)任務(wù)時幾乎沒有學(xué)習(xí)能力,碰撞率很大,而對于單一循環(huán)網(wǎng)絡(luò)算法而言,GRU+DDQN算法由于具有比LSTM+DDQN更為簡單的結(jié)構(gòu),其學(xué)習(xí)迭代的更快。但這兩種算法最后的收斂表現(xiàn)差不多,在第10個訓(xùn)練回合時收斂到0.27左右。相較而言,HG-LDDQN算法由于使用了GRU-LSTM混合網(wǎng)絡(luò)模型,兼具GRU和LSTM網(wǎng)絡(luò)單元的雙重性能,能將GRU網(wǎng)絡(luò)單元結(jié)構(gòu)簡單、訓(xùn)練快速的優(yōu)勢運(yùn)用到V2V鏈路的訓(xùn)練中,當(dāng)訓(xùn)練達(dá)到第4個回合時碰撞率就以最大的下降速度降低,使V2V鏈路之間的碰撞次數(shù)迅速減少,同時又因?yàn)長STM網(wǎng)絡(luò)單元中的多參數(shù)能帶來更加精確的擬合精度,使得HG-LDDQN算法不僅提前5個訓(xùn)練回合完成收斂,又能夠?qū)⑴鲎猜示S持在比其他算法訓(xùn)練結(jié)果更低的0.006附近。
圖6 3條V2V鏈路共享2條V2I鏈路信道時的碰撞率
圖7為3條V2V鏈路共享2條V2I鏈路信道時的平均獎勵的對比,可見HG-LDDQN算法憑借GRU-LSTM組合網(wǎng)絡(luò)中GRU網(wǎng)絡(luò)單元的簡單結(jié)構(gòu),使V2V鏈路能夠在第4個回合以后快速學(xué)習(xí)獲得獎勵,又可以憑借組合網(wǎng)絡(luò)中LSTM網(wǎng)絡(luò)單元的多參數(shù)擬合精確的特點(diǎn),使V2V鏈路在第5個回合后幾乎每次都能成功共享V2I鏈路的2條信道,完成信息成功發(fā)送,學(xué)習(xí)到了比其他算法更優(yōu)的信道分配策略。本文算法比RNN+DQN算法提前約6個訓(xùn)練回合收斂,而GRU+DDQN和LSTM+ DDQN算法由于單一的網(wǎng)絡(luò)結(jié)構(gòu)無法在整體性能上表現(xiàn)出組合優(yōu)勢,導(dǎo)致在整體的算法性能上不如HG-LDDQN算法高效和穩(wěn)定,最終的平均獎勵值只能收斂到1.8附近,甚至不如傳統(tǒng)的RNN+DQN算法。DQN算法還是因?yàn)槭褂肈NN的原因,處于一種無法學(xué)習(xí)的狀態(tài),幾乎不能獲得獎勵。
圖7 3條V2V鏈路共享2條V2I鏈路信道時的平均獎勵
圖8為3條V2V鏈路共享2條V2I鏈路的信道時的空閑率的對比。由于建模時允許某些V2V鏈路可以選擇不發(fā)送信息,即不選擇信道接入,因此該圖與碰撞率的圖有些許的差別。顯而易見HG-LDDQN算法由于組合網(wǎng)絡(luò)模型結(jié)構(gòu)帶來的雙重優(yōu)勢,在收斂速度上比LSTM+DDQN或者GRU+DDQN算法快5個訓(xùn)練回合,比RNN+DQN快6個訓(xùn)練回合。在收斂后的空閑率上,隨著迭代次數(shù)的增加,HG-LDDQN算法能使信道空閑率穩(wěn)定在較低的水準(zhǔn),使V2I的2條信道基本都有V2V鏈路成功的共享,相較于單一網(wǎng)絡(luò)結(jié)構(gòu)的LSTM+DDQN或者GRU+DDQN算法下降了約27%。DQN算法同樣由于網(wǎng)絡(luò)結(jié)構(gòu)的原因,不具備學(xué)習(xí)歷史序列數(shù)據(jù)的能力。RNN+DQN算法下,信道的空閑率呈現(xiàn)出上下振蕩的不穩(wěn)定性,以及收斂速度慢的情況。
圖8 3條V2V鏈路共享2條V2I鏈路信道時的信道空閑率
圖9表示3條V2V鏈路嘗試共享2條V2I鏈路的信道的過程中的平均成功率情況。由于獎勵函數(shù)的設(shè)計是每次對于V2V鏈路成功共享到V2I鏈路信道,并完成信息傳輸?shù)膭幼鬟x擇就設(shè)置獎勵值就加1,發(fā)生碰撞信道共享失敗,獎勵值就為0。因此,每一個回合內(nèi)的累計的成功共享次數(shù)與該回合內(nèi)的累計獎勵值是一致的,可以看到平均化后的成功率折線圖是和獎勵圖的趨勢是一致的。從圖中仍然可以發(fā)現(xiàn),HG-LDDQN算法具有明顯優(yōu)勢,能夠快速完成收斂,使平均成功率達(dá)到了接近1的效果,比GRU+DDQN和LSTM+DDQN算法下的平均成功率提高了約10%,能夠保證在之后的每個時隙中V2I的2個信道中都有V2V鏈路成功進(jìn)行了共享且完成了信息傳輸。
圖9 3條V2V鏈路共享2條V2I鏈路信道時的平均成功率
本文研究了針對車聯(lián)網(wǎng)中V2V鏈路復(fù)用V2I鏈路信道時的信道沖突以及網(wǎng)絡(luò)效用低下的問題,提出了一種基于GRU和LSTM組合模型的動態(tài)信道分配算法。該算法以最大化每回合平均獎勵為目標(biāo)訓(xùn)練V2V鏈路,不需要在線協(xié)調(diào),可實(shí)現(xiàn)多個V2V鏈路通過實(shí)時探知環(huán)境狀態(tài),選擇V2I鏈路未使用的空閑頻譜以完成V2V鏈路自身信息的傳輸任務(wù),同時解決了大狀態(tài)空間下V2V鏈路用戶隨著車聯(lián)網(wǎng)節(jié)點(diǎn)拓?fù)浣Y(jié)構(gòu)變化帶來的訓(xùn)練困難、訓(xùn)練周期長的問題。仿真實(shí)驗(yàn)結(jié)果表明,該算法能使V2V鏈路作為智能體在與環(huán)境不斷交互過程中學(xué)習(xí)到合理的信道共享策略,有效地解決了快速變化的車聯(lián)網(wǎng)環(huán)境中的信道分配問題,同時減少了V2V鏈路用戶的信道碰撞率以及空閑率,間接最大化了V2V鏈路復(fù)用V2I鏈路信道資源的利用率。
后續(xù)將會在本文的基礎(chǔ)上對V2I以及V2V鏈路的頻譜資源分配進(jìn)行信道及功率的聯(lián)合優(yōu)化研究。