張涌逸
(太原師范學(xué)院 計(jì)算機(jī)系,山西 晉中 030619)
相關(guān)學(xué)者有討論無線傳感器網(wǎng)絡(luò)功率控制的,但他們主要是從降低無線傳感器網(wǎng)絡(luò)的能耗方面來研究的[1]。本文討論無線的功率控制,是為了充分利用頻譜資源,認(rèn)知無線電頻譜分配行為有合作和非合作頻譜共享。由于無線傳感器網(wǎng)絡(luò)常常是某個(gè)機(jī)構(gòu)部署的,所以給頻譜合作共享帶來了可能。在認(rèn)知無線電中合作頻譜共享討論的比較多的是議價(jià)博弈和聯(lián)盟博弈,但本研究引入了多智能體強(qiáng)化學(xué)習(xí)的方法來討論無線傳感器網(wǎng)絡(luò)功率控制,實(shí)現(xiàn)一個(gè)無線傳感器網(wǎng)絡(luò)在功率控制情形全局頻譜獎(jiǎng)勵(lì)最大化。
(1)
其中,Aku是信道增益。
如果在一個(gè)時(shí)間段上討論每個(gè)用戶群的發(fā)送功率問題。在完全競(jìng)爭(zhēng)的時(shí)候,由于每個(gè)用戶群都想使得自己得收益最大化,最終每個(gè)用戶群都會(huì)用自己得最大發(fā)送功率來發(fā)送。這樣造成信道之間干擾很大。一個(gè)無線傳感器網(wǎng)絡(luò)常常是一個(gè)機(jī)構(gòu)部署的,這樣就給合作帶來了可能。本文不考慮一個(gè)用戶群收益最大化,而是考慮無線傳感器網(wǎng)絡(luò)收益全局最大化。
本文考慮一個(gè)由n個(gè)節(jié)點(diǎn)構(gòu)成的無線傳感器網(wǎng)絡(luò)(用N={0,1,…,n-1}表示),共用開放頻段,是一個(gè)隨時(shí)間變化得通信網(wǎng)絡(luò),節(jié)點(diǎn)之間得通信過程可用上面的鄰接矩陣Dt來表示。我們把時(shí)間劃分成一個(gè)個(gè)時(shí)隙,整個(gè)通信看成是一個(gè)馬爾可夫決策過程。此時(shí)MDP是一個(gè)四元組:。其中S為全局狀態(tài)的集合,可由鄰接矩陣Dt決定。A=P1×P2×…×Pn,Pi為節(jié)點(diǎn)i所在用戶群的功率。R=R1×R2×…×Rn,Rj為節(jié)點(diǎn)j的回報(bào)函數(shù),可用(1)式來計(jì)算。假設(shè)狀態(tài)和功率的選擇是全局性的,而回報(bào)只能在局部觀察到。
(2)
T是終點(diǎn)。
為實(shí)現(xiàn)目標(biāo),我們使用了文獻(xiàn)[3]中的完全去中心化MARL方法。在文獻(xiàn)[3]中使用了actor-critic算法,并且得到了下面的梯度公式。
定理[3](MARL的策略梯度定理)對(duì)于任何θ∈Θ,πθ:S×A→[0,1]是策略,讓J(θ)是在(2)中定義全局長(zhǎng)期平均回報(bào)。qθ和Aθ行為價(jià)值函數(shù)和優(yōu)勢(shì)函數(shù)。定義了局部?jī)?yōu)勢(shì)函數(shù):
(3)
(4)
則J(θ)的策略梯度可寫為:
ΔθjJ(θ)=Es~pθ,a~πθ[ΔθjlogπjQj(s,aj)*qθ(s,a)]
=Es~pθ,a~πθ[ΔθjlogπjQj(s,aj)*Iθ(s,a)]
(5)
在actor-critic 算法中,critic算法如下:
(6)
(7)
(8)
(9)
在actor-critic算法中,actor 算法如下:
(10)
(11)
(12)
根據(jù)上面的分析,給出算法如下:
Repeat:
for j∈{0,1,…,n-1} do
end for
Forj∈{0,1,…,n-1} do
end for
forj∈{0,1,…,n-1} do
end for
t←t+1。
一直到滿足條件。
上面的計(jì)算中需要輸出下一個(gè)時(shí)間步的功率pt+1,這會(huì)降低去中心化訓(xùn)練的效率。能不能只是用(st,pt,st+1)來更新參數(shù)?是可以的。事實(shí)上,可以用狀態(tài)值的TD-error來估計(jì)優(yōu)勢(shì)函數(shù)[3]:
這樣,需要估計(jì)J(θ)和Vθ。與前面的算法相似,每個(gè)節(jié)點(diǎn)的維護(hù)共享本地參數(shù)ut、wt,更新參數(shù):
(13)
(14)
(15)
(16)
上面的優(yōu)化問題與下式等價(jià):
這兩式子的關(guān)系導(dǎo)致了為最小化目標(biāo)(16)參數(shù)κt的更新如下:
(17)
(17),(13),(14)和(15)構(gòu)成critic網(wǎng)絡(luò)的更新步。
acror網(wǎng)絡(luò)的更新步變?yōu)椋?/p>
(18)
綜上所述,一共有三部分參數(shù)需要滿足一致性約束,和前面的算法相比多了兩部分參數(shù)。與上面的算法類似,基于狀態(tài)值函數(shù)的TD-error算法的在線實(shí)現(xiàn)要求每個(gè)節(jié)點(diǎn)的空間復(fù)雜度為O(N+nj+L+F),在N很大的情況,大大降低了空間復(fù)雜度。具體算法與參考文獻(xiàn)[3]算法2類似,此處不再贅述。
為了使無線傳感器網(wǎng)絡(luò)能充分利用頻譜資源,我們?cè)跓o線傳感器網(wǎng)絡(luò)中引入了認(rèn)知無線電的功能,同時(shí)利用了多智能提深度學(xué)習(xí)中的完全去中心化MARL算法來對(duì)無線傳感器的節(jié)點(diǎn)的無線傳輸功率進(jìn)行控制來充分地利用頻譜資源,通過一些參數(shù)化函數(shù)來近似策略和值函數(shù),結(jié)合去中心化的網(wǎng)絡(luò)框架和函數(shù)擬合值函數(shù)[4],使得算法非常適合大規(guī)模的節(jié)點(diǎn)情,而且算法是分布式的,不需要集中控制,故適合大規(guī)模無線傳感器網(wǎng)絡(luò)。但在無線傳感器中引入認(rèn)知無線電和深度強(qiáng)化學(xué)習(xí)功能對(duì)無線傳感器網(wǎng)絡(luò)的軟硬件都提出了要求,增加了節(jié)點(diǎn)的成本。