認(rèn)知無線電中實(shí)現(xiàn)最優(yōu)傳輸?shù)脑诰€學(xué)習(xí)方法

2014-09-18 00:15:38蔣和松陳春梅

電視技術(shù) 2014年15期

張娟，蔣和松，江虹，陳春梅

(西南科技大學(xué)特殊環(huán)境機(jī)器人技術(shù)四川省重點(diǎn)實(shí)驗(yàn)室，四川綿陽621010)

近年來無線設(shè)備(智能手機(jī)和平板電腦)的普及導(dǎo)致了對更多頻譜帶寬需求的急劇增加，可供分配的頻譜資源越來越少，造成目前頻譜資源緊張，但另一方面，無線頻譜的利用率卻相當(dāng)?shù)?。根?jù)文獻(xiàn)［1-2］，被分配的頻譜中超過90%的頻譜利用率嚴(yán)重不足。動態(tài)頻譜接入(Dynamical Spectrum Access)技術(shù)的出現(xiàn)，解決了大量的頻譜利用不足和頻譜短缺之間的矛盾。動態(tài)頻譜中最有前途的實(shí)現(xiàn)方式是認(rèn)知無線電(Cognitive Radio，CR)。頻譜共享是認(rèn)知無線電系統(tǒng)中有效利用空閑頻隙以提高頻譜利用率的關(guān)鍵技術(shù)。

目前國內(nèi)外研究人員已經(jīng)提出了多種頻譜共享模型，文獻(xiàn)［3-4］分別研究了基于圖著色和生物學(xué)的啟發(fā)式算法，文獻(xiàn)［5-6］分別提出了基于經(jīng)濟(jì)學(xué)的拍賣機(jī)制和博弈論，文獻(xiàn)［7］提出了跨層優(yōu)化的頻譜共享模型，這些模型在某種意義上都可以讓非授權(quán)用戶共享授權(quán)用戶的頻帶而不對授權(quán)用戶造成有害干擾，但并沒有針對具體的信道模型分析傳輸過程中的參數(shù)配置。文獻(xiàn)［8］考慮了參數(shù)未知情況下的非貝葉斯感知問題，通過在線學(xué)習(xí)達(dá)到近似對數(shù)后悔值，但沒有考慮不同通道狀態(tài)下的最優(yōu)傳輸。文獻(xiàn)［9-10］考慮了GE(Gilbert-Elliot)衰減信道中最小化傳輸能力和延遲，通過單門限策略離線分析各種參數(shù)。

針對上述問題，本文提出了一種基于未知Gilbert-Elliott信道模型的最優(yōu)傳輸在線學(xué)習(xí)方案:基于POMDP對網(wǎng)絡(luò)信道建模，將K臂賭博機(jī)算法轉(zhuǎn)化為K步信道保守策略，并采用UCB算法求解及UCB-Tuned算法優(yōu)化。

1 系統(tǒng)模型

假設(shè)在授權(quán)用戶網(wǎng)絡(luò)中，每個信道只有兩種狀態(tài)S，即二值的Gilbert-Elliott馬爾科夫鏈，如圖1所示。當(dāng)S=1時，表示當(dāng)前信道空閑;當(dāng)S=0時，表示當(dāng)前狀態(tài)忙碌。該圖中λ0為信道的狀態(tài)從忙到空閑的轉(zhuǎn)移概率，(1-λ1)為信道的狀態(tài)從空閑到忙碌的轉(zhuǎn)移概率。

1.1 POMDP模型

在POMDP中，非授權(quán)用戶(SU)須利用現(xiàn)有的部分信息、歷史動作和立即回報(bào)值來進(jìn)行策略決策。如圖2為POMDP模型的框架［11］，b為信念狀態(tài)，是狀態(tài)集合S中所有狀態(tài)的概率分布。SU處于某一狀態(tài)s的概率為b(s)，且有 ∑s∈S

b(s)=1，則所有可能的信念狀態(tài)構(gòu)成的信念空間表示為B(S)={b:∑s∈Sb(s)=1，?s，b(s)≥0}，根據(jù)文獻(xiàn)［11］信念狀態(tài)為求解最優(yōu)動作策略A*的一個充分統(tǒng)計(jì)量。模型描述為:1)狀態(tài)估計(jì)器(SE):P×A×B(S)→B(S)，其中P為置信概率，即狀態(tài)估計(jì)器(SE)負(fù)責(zé)根據(jù)上一次動作和信念狀態(tài)以及當(dāng)前觀察更新當(dāng)前的信念b;2)策略π:B(S)→A，即在當(dāng)前信念狀態(tài)b下使用策略π從而選擇動作a，其回報(bào)為r(b，a)，表示為r(b，s)=∑s∈Sb(s)r(s，a)。

圖2 POMDP模型示意圖

1.2 基于POMDP的信道建模

假設(shè)當(dāng)前信道為Gilbert-Elliott信道，即具有二值狀態(tài)的馬爾科夫鏈，當(dāng)S=1時，表示當(dāng)前信道處于空閑，對于SU而言信道狀態(tài)較好，能夠成功地高速傳輸數(shù)據(jù);當(dāng)S=0時，表示當(dāng)前信道忙碌，對SU而言信道狀態(tài)較差，SU只有以較低的速率傳輸才能成功。轉(zhuǎn)移概率為

令α=λ1－λ0，假設(shè)信道為正相關(guān)，則α＞0。

在每一次時隙的開始，SU需要做出動作選擇:

1)保守發(fā)送(SC):SU低速數(shù)據(jù)傳輸。在該動作下，不管當(dāng)前信道處于何種狀態(tài)，SU傳輸數(shù)據(jù)均能取得成功，并取得回報(bào)R1。因此，在該動作下SU不能對信道狀態(tài)進(jìn)行學(xué)習(xí)。

2)激進(jìn)發(fā)送(SA):SU高速數(shù)據(jù)傳輸。如果信道狀態(tài)好，SU高速數(shù)據(jù)傳輸獲得成功，并得到回報(bào)R2，且有R2＞R1;如果信道狀態(tài)差，高速數(shù)據(jù)傳輸將導(dǎo)致很高的錯誤率和丟包率，并獲得懲罰值C。因此，在該動作下SU可以通過學(xué)習(xí)獲得信道下一時刻的狀態(tài)。

當(dāng)保守發(fā)送時，信道的狀態(tài)并不能直接觀察，因此本文將該問題建模為POMDP模型。根據(jù)文獻(xiàn)［11］信念狀態(tài)為求解最優(yōu)動作策略A*的一個充分統(tǒng)計(jì)量，因此該P(yáng)OMDP模型為在給定所有歷史的動作和觀察的情況下信道狀態(tài)好的條件概率，表示為b=Pr［St=1|Ht］，Ht為第t時隙前所有動作和觀察的歷史信息。激進(jìn)發(fā)送時，SU能夠?qū)W習(xí)信道狀態(tài)。因此信道狀態(tài)好時，信念為λ1，信道狀態(tài)差時，信念為λ0。期望回報(bào)表示為

式中:bt為t時刻信道狀態(tài)好時的信念;At為t時刻采取的動作。

2 信道狀態(tài)未知的K臂賭博機(jī)在線學(xué)習(xí)算法

最典型的多臂賭博機(jī)問題為:對一個擁有K個手臂(multi-arms)的賭博機(jī)，賭博者要從這K個手臂中選擇一個手臂進(jìn)行操作來獲得獎勵(reward)，該獎勵從與該手臂相關(guān)的分布中得出，賭博者不知道每個手臂獎勵分布期望值的大小。在一個特定的時間段內(nèi)，賭博者只能操作一個手臂，賭博者要盡快找到使自己獲得最大獎勵的手臂，并且進(jìn)行賭博［10，12］。

2.1 K步保守策略結(jié)構(gòu)建模

K步保守策略結(jié)構(gòu)模型如圖3所示，激進(jìn)發(fā)送失敗后，在接下來的K個時隙保守發(fā)送數(shù)據(jù)。如圖在馬爾科夫鏈中有K+2個狀態(tài)，狀態(tài)0表示激進(jìn)發(fā)送失敗后重新返回到保守發(fā)送。狀態(tài)K－1表示在保守發(fā)送K個時隙后，下一步將進(jìn)入激進(jìn)發(fā)送。如果第K個狀態(tài)的激進(jìn)發(fā)送成功，則進(jìn)入到SA狀態(tài)，否則回到0狀態(tài)繼續(xù)K步保守發(fā)送。如果狀態(tài)一直保持在SA，表示信道狀態(tài)一直處于好的狀態(tài)即S=1，由式(1)可得，連續(xù)激進(jìn)發(fā)送的概率為λ1;由于保守發(fā)送K步后才能激進(jìn)發(fā)送，因此當(dāng)0≤i＜k時，狀態(tài)從i到i+1的概率為1。

在K+2個狀態(tài)中，每個狀態(tài)對應(yīng)一個信念和動作，信念和動作決定了期望總的折扣回報(bào)，因此有K+2種不同的折扣回報(bào)。K臂賭博機(jī)建模參數(shù)設(shè)置:

1)保守發(fā)送(SC):總能發(fā)送成功，獲得的回報(bào)為R1;

圖3 K步保守策略

2)激進(jìn)發(fā)送(SA):發(fā)送成功時獲得的回報(bào)為R2(R2＞R1)，發(fā)送失敗時得到的懲罰為C;

3)不同K步保守發(fā)送建模為多臂賭博機(jī)的不同的臂。如K=2，即臂(Arm)為2，表示保守發(fā)送2次后再激進(jìn)發(fā)送。

2.2 K步保守策略面臨的挑戰(zhàn)

當(dāng)信道的傳輸概率未知時，在尋找最優(yōu)K步保守策略面臨兩個挑戰(zhàn):1)臂無窮;2)為了獲得總的折扣回報(bào)，臂需要被不斷地選擇直到時間無窮。為了解決這兩個問題，本文尋找近似最優(yōu)的臂(OPT-ε-δ)替代最優(yōu)臂。通過近似最優(yōu)的臂(OPT-ε-δ)替代最優(yōu)臂，從而解決將系統(tǒng)建模為K臂賭博機(jī)策略的臂無窮和時間無窮的兩個挑戰(zhàn)。

2.3 UCB算法

UCB(Upper Confidence Bound)算法是一類解決多臂賭博機(jī)算法的總稱，UCB根據(jù)目前獲得的信息，配合上一個調(diào)整值，試圖在利用(exploitation)和探索(exploration)之間達(dá)成平衡的ExE(Exploitation vs.Exploration)問題。

大致上來說，每一次運(yùn)行時，UCB會根據(jù)每個臂目前的平均收益值(亦即其到目前為止的表現(xiàn))，加上一個額外的參數(shù)，得出本次運(yùn)行此臂的UCB值，然后根據(jù)此值，挑選出擁有最大UCB值的臂，作為本次運(yùn)行所要選擇的臂。其中，所謂額外參數(shù)，會隨每個臂被選擇的次數(shù)增加而相對減少，其目的在于讓選擇臂時，不過分拘泥于舊有的表現(xiàn)，而可以適度地探索其他臂。UCB公式［13-14］表示為

式中:ˉXi是第i個臂到目前為止的平均收益;ni是第i個臂被測試的次數(shù);n是所有臂目前被測試的總次數(shù)。使式(3)取得最大值的臂將是下一個被選擇的臂。前項(xiàng)即為此臂的過去表現(xiàn)，即利用值(exploitation);后項(xiàng)則是調(diào)整參數(shù)，即探索部分(exploration)。

而UCB-TUNED是相對于UCB實(shí)驗(yàn)較佳的配置策略。UCB-TUNED的公式為

使式(7)取最大值的臂將是下一個被選擇來測試的臂。

3 算法比較及仿真分析

本節(jié)分析對比了兩種最優(yōu)傳輸?shù)姆椒?，一種是文獻(xiàn)［11］提出的最優(yōu)傳輸門限策略的離線算法，另一種是本文提出的基于K臂賭博機(jī)在線學(xué)習(xí)算法。

3.1 最優(yōu)傳輸門限策略的離線算法

根據(jù)文獻(xiàn)［11］單門限最優(yōu)策略建立的仿真環(huán)境如表1所示。假設(shè)信道是正相關(guān)的，所以λ1≥λ0，λ1的取值如表1所示，λ0(1)≤λ1≤0．99，根據(jù)文獻(xiàn)［11］計(jì)算出不同運(yùn)行的時隙數(shù)(1:10 000)范圍下的V(λ0)的最大值。在不同λ0、λ1計(jì)算出對應(yīng)的保守發(fā)送的最優(yōu)時隙數(shù)(0，1，2，3，4)。

表1 門限結(jié)構(gòu)最優(yōu)策略參數(shù)設(shè)置

算法步驟如下:

步驟1:初始化參數(shù)R1，R2，C，β，λ0，λ1，Kopt;

步驟2:定義變量Karray存放滿足條件的λ0，λ1，ρ以及Kopt;

步驟3:

根據(jù)以上算法步驟得出仿真結(jié)果如圖4及表2所示。

圖4 門限結(jié)構(gòu)最優(yōu)策略的期望折扣總回報(bào)

表2 門限結(jié)構(gòu)最優(yōu)策略

由圖4及表2可得如下結(jié)論:

1)當(dāng) λ0=0．01，λ1=0．06 時，隨著運(yùn)行時隙n的增長，在n→∞ 時，Tn(λ0)→λs，那么總是保守發(fā)送，Kopt→∞;

2)當(dāng) λ0=0．61，λ1=0．66 時，表示信道狀態(tài)較好，總是激進(jìn)發(fā)送，Kopt=0;

3)當(dāng)λ0=0．16，λ1=0．91時，得到Kopt=4 ，表示保守發(fā)送4個時隙后，再次激進(jìn)發(fā)送，在該策略下，得到的總的折扣回報(bào)最大。

4)通過單門限最優(yōu)策略，在不同的信道狀態(tài)下(λ0和λ1不同取值)離線獲得對應(yīng)的最優(yōu)K步傳輸值。

3.2 信道狀態(tài)未知的在線K臂賭博機(jī)學(xué)習(xí)算法

本文提出的在線K臂賭博機(jī)學(xué)習(xí)算法，具體仿真環(huán)境設(shè)置如表3所示?？紤]到本算法的收斂性，故總的運(yùn)行時隙設(shè)為T×inter=109。ε=0.02和δ=0.02分別用于解決臂無窮和時間無窮的問題。為了更精確地獲取最優(yōu)臂，本文取值TMAX=100，KMAX=30。

算法步驟如下:

首先，初始化參數(shù) λ0、λ1，T，TMAX，armnu，ts，NI，由于本算法是基于POMDP模型未知信道狀態(tài)下的在線學(xué)習(xí)方

表3 在線K臂賭博機(jī)學(xué)習(xí)算法參數(shù)設(shè)置

法。故根據(jù)λ0和λ1產(chǎn)生信道的隨機(jī)狀態(tài)states，每個臂在產(chǎn)生動作后，根據(jù)觀察到的狀態(tài)獲取一個回報(bào)或懲罰;其次，初始化各個臂的UCB值，最后，根據(jù)

選擇最大的UCB或UCB－Tuned作為當(dāng)前的最優(yōu)臂，并運(yùn)行當(dāng)前最優(yōu)臂。

根據(jù)以上算法步驟得出仿真結(jié)果如圖5～圖8所示。

圖5 相同信道狀態(tài)下的最優(yōu)臂

如圖5所示為通過UCB算法，獲得同一個λ0=0.36和λ1=0.91信道狀態(tài)下所有臂的表現(xiàn)，其中當(dāng)臂為1時是該信道狀態(tài)下的最優(yōu)臂，隨著運(yùn)行時間增加，臂1被選中運(yùn)行的時間比趨向于1，而其他臂的使用率趨向于0，從而找到最優(yōu)臂。同樣的方法可得到其他λ0和λ1對應(yīng)的最優(yōu)臂。

圖6所示為通過UCB算法，獲得不同的λ0和λ1信道狀態(tài)下對應(yīng)最優(yōu)臂的收斂性，從圖中可見，隨著時間的增加，最優(yōu)臂被選中運(yùn)行的時間比逐漸趨于1。

圖7所示為通過UCB-TUNED算法，同一個λ0和λ1信達(dá)狀態(tài)下，所有臂的表現(xiàn)，與圖5 UCB算法相比較，收斂速度更快。

圖8所示為通過UCB-TUNED算法，不同的λ0和λ1信道狀態(tài)下，臂的收斂性與圖6 UCB算法相比較，收斂速度更快。

3.3 算法對比分析

本節(jié)對比了文獻(xiàn)［11］提出單門限最優(yōu)策略和本文提出的在線K臂賭博機(jī)學(xué)習(xí)算法，從圖4可以看出當(dāng)λ0=0.36和λ1=0.91時，通過最優(yōu)策略得到最優(yōu)K步值為1。從圖5得到，當(dāng)λ0=0.36和λ1=0.91時，利用本文提出的最優(yōu)在線K臂賭博算法，同樣得到最優(yōu)傳輸K步值為1。并且從圖5還可以得到當(dāng)t=109s時，算法收斂，但收斂速度較慢。為此本文通過UCB-TUNED算法，提高了收斂速度。從圖7和圖8可得知，在t=108s時，算法收斂。

4 結(jié)論

當(dāng)前信道最優(yōu)傳輸大都是基于完全知識對信道建模，本文針對認(rèn)知無線電環(huán)境不完全可知情況下，將信道建模為部分可觀測馬爾科夫過程，提出了基于多臂賭博機(jī)的最優(yōu)傳輸在線學(xué)習(xí)方法。仿真分析表明，在信道不完全可知情況下的多臂賭博機(jī)在線學(xué)習(xí)算法與單門限最優(yōu)離線傳輸策略相比，同樣能獲得最優(yōu)K步策略。同時，本文通過UCB-TUNED方法改善了最優(yōu)傳輸?shù)腒步保守策略的收斂性。

［1］ WANG B，LIU K J R.Advances in cognitive radio networks:a survey［J］.IEEE Journal on Selected Topics in Signal Processing，2012，5(1):5-23.

［2］許瑞琛，蔣挺.基于POMDP的認(rèn)知無線電自適應(yīng)頻譜感知算法［J］.通信學(xué)報(bào)，2013(6):49-56.

［3］ TAN L，F(xiàn)ENG Z，LI W，et al.Graph coloring based spectrum allocation for femtocell downlink interference mitigation［C］//Proc.IEEE Wireless Communications and Networking Conference.Cancun，Quintana Roo:IEEE Press，2011:1248-1252.

［4］ HE Z Q，NIU K，QIU T，et al.A bio-inspired approach for cognitive radio networks［J］.Chinese Science Bulletin，2012，57(28):3723-3730.

［5］ ZHANG W，MALLIK R K，LETAIEF K B.，Cooperative spectrum sensing optimization in cognitive radio networks［C］//Proc.IEEE International Conference on Communications.Beijing:IEEE Press，2008:3411-3415.

［6］邱晶，周正.認(rèn)知無線電網(wǎng)絡(luò)中的分布式動態(tài)頻譜共享［J］.北京郵電大學(xué)學(xué)報(bào)，2009，32(1):69-72.

［7］吳春德，潘志文，尤肖虎.一種認(rèn)知無線Adhoc網(wǎng)絡(luò)跨層最優(yōu)頻譜共享方案［J］. 南京郵電大學(xué)學(xué)報(bào)，2009，29(3):83-87.

［8］ DAI W H，GAI Y，KRISHNAMACHARI B，et al.The non-Bayesian.restless multi-armed bandit:a case of near-logarithmic regret［C］//Proc.IEEE International Conference on Acoustics，Speech and Signal Processing.Prague:IEEE Press，2013:2940-2951.

［9］許瑞琛，蔣挺.一種認(rèn)知無線電周期數(shù)據(jù)傳輸優(yōu)化機(jī)制［J］.電子與信息學(xué)報(bào)，2013，35(7):1694-1699.

［10］ ZHAO Q，TONG L，SWAMI A，et al.Decentralized cognitive MAC for opportunistic spectrum access in ad hoc networks:a POMDP framework［J］.IEEE J.Sel.Areas Commun.，2007，25(3):589-600.

［11］江虹，劉從彬，伍春.認(rèn)知無線網(wǎng)絡(luò)中提高TCP吞吐率的跨層參數(shù)配置［J］.物理學(xué)報(bào)，2013，62(3):494-501.

［12］陳亞琨，趙海峰，穆曉敏.認(rèn)知無線電中基于感知信息量化的合作頻譜感知［J］.電視技術(shù)，2012，36(17):106-109.

［13］ LAOURINE A，TONG L.Betting on Gilbert-Elliot channels［J］.IEEE Trans.Wireless Communications，2010，9(2):723-733.

［14］衡玉龍，黃天聰，馮文江，等.有限用戶數(shù)多認(rèn)知網(wǎng)絡(luò)部分信道共享性能分析［J］.電子與信息學(xué)報(bào)，2013，35(2):267-272.

［15］ TEKIN C，LIU M.Approximately optimal adaptive learning in opportunistic spectrum access［C］//Proc.IEEE International Conference on Computer Communication.Orlando，F(xiàn)L:IEEE Press，2012:1548-1556.

［16］章堅(jiān)武，李崢.一種新的認(rèn)知無線電頻譜感知算法［J］.電視技術(shù)，

2010，34(S1):153-155.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看