認(rèn)知無線傳感器網(wǎng)絡(luò)功率控制研究

2020-12-24 07:41:28張涌逸

無線互聯(lián)科技 2020年21期

張涌逸

(太原師范學(xué)院計(jì)算機(jī)系，山西晉中 030619)

0 引言

相關(guān)學(xué)者有討論無線傳感器網(wǎng)絡(luò)功率控制的，但他們主要是從降低無線傳感器網(wǎng)絡(luò)的能耗方面來研究的[1]。本文討論無線的功率控制，是為了充分利用頻譜資源，認(rèn)知無線電頻譜分配行為有合作和非合作頻譜共享。由于無線傳感器網(wǎng)絡(luò)常常是某個(gè)機(jī)構(gòu)部署的，所以給頻譜合作共享帶來了可能。在認(rèn)知無線電中合作頻譜共享討論的比較多的是議價(jià)博弈和聯(lián)盟博弈，但本研究引入了多智能體強(qiáng)化學(xué)習(xí)的方法來討論無線傳感器網(wǎng)絡(luò)功率控制，實(shí)現(xiàn)一個(gè)無線傳感器網(wǎng)絡(luò)在功率控制情形全局頻譜獎(jiǎng)勵(lì)最大化。

1 完全去中心化無線傳感器網(wǎng)絡(luò)功率控制算法分析

(1)

其中，Aku是信道增益。

如果在一個(gè)時(shí)間段上討論每個(gè)用戶群的發(fā)送功率問題。在完全競(jìng)爭(zhēng)的時(shí)候，由于每個(gè)用戶群都想使得自己得收益最大化，最終每個(gè)用戶群都會(huì)用自己得最大發(fā)送功率來發(fā)送。這樣造成信道之間干擾很大。一個(gè)無線傳感器網(wǎng)絡(luò)常常是一個(gè)機(jī)構(gòu)部署的，這樣就給合作帶來了可能。本文不考慮一個(gè)用戶群收益最大化，而是考慮無線傳感器網(wǎng)絡(luò)收益全局最大化。

本文考慮一個(gè)由n個(gè)節(jié)點(diǎn)構(gòu)成的無線傳感器網(wǎng)絡(luò)(用N={0，1，…，n-1}表示)，共用開放頻段，是一個(gè)隨時(shí)間變化得通信網(wǎng)絡(luò)，節(jié)點(diǎn)之間得通信過程可用上面的鄰接矩陣Dt來表示。我們把時(shí)間劃分成一個(gè)個(gè)時(shí)隙，整個(gè)通信看成是一個(gè)馬爾可夫決策過程。此時(shí)MDP是一個(gè)四元組：。其中S為全局狀態(tài)的集合，可由鄰接矩陣Dt決定。A=P1×P2×…×Pn，Pi為節(jié)點(diǎn)i所在用戶群的功率。R=R1×R2×…×Rn，Rj為節(jié)點(diǎn)j的回報(bào)函數(shù)，可用(1)式來計(jì)算。假設(shè)狀態(tài)和功率的選擇是全局性的，而回報(bào)只能在局部觀察到。

(2)

T是終點(diǎn)。

為實(shí)現(xiàn)目標(biāo)，我們使用了文獻(xiàn)[3]中的完全去中心化MARL方法。在文獻(xiàn)[3]中使用了actor-critic算法，并且得到了下面的梯度公式。

定理[3](MARL的策略梯度定理)對(duì)于任何θ∈Θ，πθ：S×A→[0,1]是策略，讓J(θ)是在(2)中定義全局長(zhǎng)期平均回報(bào)。qθ和Aθ行為價(jià)值函數(shù)和優(yōu)勢(shì)函數(shù)。定義了局部?jī)?yōu)勢(shì)函數(shù)：

(3)

(4)

則J(θ)的策略梯度可寫為：

ΔθjJ(θ)=Es～pθ,a～πθ[ΔθjlogπjQj(s,aj)*qθ(s,a)]

=Es～pθ,a～πθ[ΔθjlogπjQj(s,aj)*Iθ(s,a)]

(5)

在actor-critic 算法中，critic算法如下：

(6)

(7)

(8)

(9)

在actor-critic算法中，actor 算法如下：

(10)

(11)

(12)

2 完全去中心化無線傳感器網(wǎng)絡(luò)功率控制算法

根據(jù)上面的分析，給出算法如下：

Repeat:

for j∈{0，1，…，n-1} do

end for

Forj∈{0，1，…，n-1} do

end for

forj∈{0，1，…，n-1} do

end for

t←t+1。

一直到滿足條件。

上面的計(jì)算中需要輸出下一個(gè)時(shí)間步的功率pt+1，這會(huì)降低去中心化訓(xùn)練的效率。能不能只是用(st,pt,st+1)來更新參數(shù)？是可以的。事實(shí)上,可以用狀態(tài)值的TD-error來估計(jì)優(yōu)勢(shì)函數(shù)[3]：

這樣，需要估計(jì)J(θ)和Vθ。與前面的算法相似，每個(gè)節(jié)點(diǎn)的維護(hù)共享本地參數(shù)ut、wt，更新參數(shù)：

(13)

(14)

(15)

(16)

上面的優(yōu)化問題與下式等價(jià)：

這兩式子的關(guān)系導(dǎo)致了為最小化目標(biāo)(16)參數(shù)κt的更新如下：

(17)

(17)，(13)，(14)和(15)構(gòu)成critic網(wǎng)絡(luò)的更新步。

acror網(wǎng)絡(luò)的更新步變?yōu)椋?/p>

(18)

綜上所述，一共有三部分參數(shù)需要滿足一致性約束，和前面的算法相比多了兩部分參數(shù)。與上面的算法類似，基于狀態(tài)值函數(shù)的TD-error算法的在線實(shí)現(xiàn)要求每個(gè)節(jié)點(diǎn)的空間復(fù)雜度為O(N+nj+L+F)，在N很大的情況，大大降低了空間復(fù)雜度。具體算法與參考文獻(xiàn)[3]算法2類似，此處不再贅述。

3 結(jié)語

為了使無線傳感器網(wǎng)絡(luò)能充分利用頻譜資源，我們?cè)跓o線傳感器網(wǎng)絡(luò)中引入了認(rèn)知無線電的功能，同時(shí)利用了多智能提深度學(xué)習(xí)中的完全去中心化MARL算法來對(duì)無線傳感器的節(jié)點(diǎn)的無線傳輸功率進(jìn)行控制來充分地利用頻譜資源，通過一些參數(shù)化函數(shù)來近似策略和值函數(shù)，結(jié)合去中心化的網(wǎng)絡(luò)框架和函數(shù)擬合值函數(shù)[4]，使得算法非常適合大規(guī)模的節(jié)點(diǎn)情，而且算法是分布式的，不需要集中控制，故適合大規(guī)模無線傳感器網(wǎng)絡(luò)。但在無線傳感器中引入認(rèn)知無線電和深度強(qiáng)化學(xué)習(xí)功能對(duì)無線傳感器網(wǎng)絡(luò)的軟硬件都提出了要求，增加了節(jié)點(diǎn)的成本。