張 娟,蔣和松,江 虹,陳春梅
(西南科技大學(xué)特殊環(huán)境機(jī)器人技術(shù)四川省重點(diǎn)實(shí)驗(yàn)室,四川綿陽621010)
近年來無線設(shè)備(智能手機(jī)和平板電腦)的普及導(dǎo)致了對更多頻譜帶寬需求的急劇增加,可供分配的頻譜資源越來越少,造成目前頻譜資源緊張,但另一方面,無線頻譜的利用率卻相當(dāng)?shù)?。根?jù)文獻(xiàn)[1-2],被分配的頻譜中超過90%的頻譜利用率嚴(yán)重不足。動態(tài)頻譜接入(Dynamical Spectrum Access)技術(shù)的出現(xiàn),解決了大量的頻譜利用不足和頻譜短缺之間的矛盾。動態(tài)頻譜中最有前途的實(shí)現(xiàn)方式是認(rèn)知無線電(Cognitive Radio,CR)。頻譜共享是認(rèn)知無線電系統(tǒng)中有效利用空閑頻隙以提高頻譜利用率的關(guān)鍵技術(shù)。
目前國內(nèi)外研究人員已經(jīng)提出了多種頻譜共享模型,文獻(xiàn)[3-4]分別研究了基于圖著色和生物學(xué)的啟發(fā)式算法,文獻(xiàn)[5-6]分別提出了基于經(jīng)濟(jì)學(xué)的拍賣機(jī)制和博弈論,文獻(xiàn)[7]提出了跨層優(yōu)化的頻譜共享模型,這些模型在某種意義上都可以讓非授權(quán)用戶共享授權(quán)用戶的頻帶而不對授權(quán)用戶造成有害干擾,但并沒有針對具體的信道模型分析傳輸過程中的參數(shù)配置。文獻(xiàn)[8]考慮了參數(shù)未知情況下的非貝葉斯感知問題,通過在線學(xué)習(xí)達(dá)到近似對數(shù)后悔值,但沒有考慮不同通道狀態(tài)下的最優(yōu)傳輸。文獻(xiàn)[9-10]考慮了GE(Gilbert-Elliot)衰減信道中最小化傳輸能力和延遲,通過單門限策略離線分析各種參數(shù)。
針對上述問題,本文提出了一種基于未知Gilbert-Elliott信道模型的最優(yōu)傳輸在線學(xué)習(xí)方案:基于POMDP對網(wǎng)絡(luò)信道建模,將K臂賭博機(jī)算法轉(zhuǎn)化為K步信道保守策略,并采用UCB算法求解及UCB-Tuned算法優(yōu)化。
假設(shè)在授權(quán)用戶網(wǎng)絡(luò)中,每個信道只有兩種狀態(tài)S,即二值的Gilbert-Elliott馬爾科夫鏈,如圖1所示。當(dāng)S=1時,表示當(dāng)前信道空閑;當(dāng)S=0時,表示當(dāng)前狀態(tài)忙碌。該圖中λ0為信道的狀態(tài)從忙到空閑的轉(zhuǎn)移概率,(1-λ1)為信道的狀態(tài)從空閑到忙碌的轉(zhuǎn)移概率。
在POMDP中,非授權(quán)用戶(SU)須利用現(xiàn)有的部分信息、歷史動作和立即回報(bào)值來進(jìn)行策略決策。如圖2為POMDP模型的框架[11],b為信念狀態(tài),是狀態(tài)集合S中所有狀態(tài)的概率分布。SU處于某一狀態(tài)s的概率為b(s),且有 ∑s∈S
b(s)=1,則所有可能的信念狀態(tài)構(gòu)成的信念空間表示為B(S)={b:∑s∈Sb(s)=1,?s,b(s)≥0},根據(jù)文獻(xiàn)[11]信念狀態(tài)為求解最優(yōu)動作策略A*的一個充分統(tǒng)計(jì)量。模型描述為:1)狀態(tài)估計(jì)器(SE):P×A×B(S)→B(S),其中P為置信概率,即狀態(tài)估計(jì)器(SE)負(fù)責(zé)根據(jù)上一次動作和信念狀態(tài)以及當(dāng)前觀察更新當(dāng)前的信念b;2)策略π:B(S)→A,即在當(dāng)前信念狀態(tài)b下使用策略π從而選擇動作a,其回報(bào)為r(b,a),表示為r(b,s)=∑s∈Sb(s)r(s,a)。
圖2 POMDP模型示意圖
假設(shè)當(dāng)前信道為Gilbert-Elliott信道,即具有二值狀態(tài)的馬爾科夫鏈,當(dāng)S=1時,表示當(dāng)前信道處于空閑,對于SU而言信道狀態(tài)較好,能夠成功地高速傳輸數(shù)據(jù);當(dāng)S=0時,表示當(dāng)前信道忙碌,對SU而言信道狀態(tài)較差,SU只有以較低的速率傳輸才能成功。轉(zhuǎn)移概率為
令α=λ1-λ0,假設(shè)信道為正相關(guān),則α>0。
在每一次時隙的開始,SU需要做出動作選擇:
1)保守發(fā)送(SC):SU低速數(shù)據(jù)傳輸。在該動作下,不管當(dāng)前信道處于何種狀態(tài),SU傳輸數(shù)據(jù)均能取得成功,并取得回報(bào)R1。因此,在該動作下SU不能對信道狀態(tài)進(jìn)行學(xué)習(xí)。
2)激進(jìn)發(fā)送(SA):SU高速數(shù)據(jù)傳輸。如果信道狀態(tài)好,SU高速數(shù)據(jù)傳輸獲得成功,并得到回報(bào)R2,且有R2>R1;如果信道狀態(tài)差,高速數(shù)據(jù)傳輸將導(dǎo)致很高的錯誤率和丟包率,并獲得懲罰值C。因此,在該動作下SU可以通過學(xué)習(xí)獲得信道下一時刻的狀態(tài)。
當(dāng)保守發(fā)送時,信道的狀態(tài)并不能直接觀察,因此本文將該問題建模為POMDP模型。根據(jù)文獻(xiàn)[11]信念狀態(tài)為求解最優(yōu)動作策略A*的一個充分統(tǒng)計(jì)量,因此該P(yáng)OMDP模型為在給定所有歷史的動作和觀察的情況下信道狀態(tài)好的條件概率,表示為b=Pr[St=1|Ht],Ht為第t時隙前所有動作和觀察的歷史信息。激進(jìn)發(fā)送時,SU能夠?qū)W習(xí)信道狀態(tài)。因此信道狀態(tài)好時,信念為λ1,信道狀態(tài)差時,信念為λ0。期望回報(bào)表示為
式中:bt為t時刻信道狀態(tài)好時的信念;At為t時刻采取的動作。
最典型的多臂賭博機(jī)問題為:對一個擁有K個手臂(multi-arms)的賭博機(jī),賭博者要從這K個手臂中選擇一個手臂進(jìn)行操作來獲得獎勵(reward),該獎勵從與該手臂相關(guān)的分布中得出,賭博者不知道每個手臂獎勵分布期望值的大小。在一個特定的時間段內(nèi),賭博者只能操作一個手臂,賭博者要盡快找到使自己獲得最大獎勵的手臂,并且進(jìn)行賭博[10,12]。
K步保守策略結(jié)構(gòu)模型如圖3所示,激進(jìn)發(fā)送失敗后,在接下來的K個時隙保守發(fā)送數(shù)據(jù)。如圖在馬爾科夫鏈中有K+2個狀態(tài),狀態(tài)0表示激進(jìn)發(fā)送失敗后重新返回到保守發(fā)送。狀態(tài)K-1表示在保守發(fā)送K個時隙后,下一步將進(jìn)入激進(jìn)發(fā)送。如果第K個狀態(tài)的激進(jìn)發(fā)送成功,則進(jìn)入到SA狀態(tài),否則回到0狀態(tài)繼續(xù)K步保守發(fā)送。如果狀態(tài)一直保持在SA,表示信道狀態(tài)一直處于好的狀態(tài)即S=1,由式(1)可得,連續(xù)激進(jìn)發(fā)送的概率為λ1;由于保守發(fā)送K步后才能激進(jìn)發(fā)送,因此當(dāng)0≤i<k時,狀態(tài)從i到i+1的概率為1。
在K+2個狀態(tài)中,每個狀態(tài)對應(yīng)一個信念和動作,信念和動作決定了期望總的折扣回報(bào),因此有K+2種不同的折扣回報(bào)。K臂賭博機(jī)建模參數(shù)設(shè)置:
1)保守發(fā)送(SC):總能發(fā)送成功,獲得的回報(bào)為R1;
圖3 K步保守策略
2)激進(jìn)發(fā)送(SA):發(fā)送成功時獲得的回報(bào)為R2(R2>R1),發(fā)送失敗時得到的懲罰為C;
3)不同K步保守發(fā)送建模為多臂賭博機(jī)的不同的臂。如K=2,即臂(Arm)為2,表示保守發(fā)送2次后再激進(jìn)發(fā)送。
當(dāng)信道的傳輸概率未知時,在尋找最優(yōu)K步保守策略面臨兩個挑戰(zhàn):1)臂無窮;2)為了獲得總的折扣回報(bào),臂需要被不斷地選擇直到時間無窮。為了解決這兩個問題,本文尋找近似最優(yōu)的臂(OPT-ε-δ)替代最優(yōu)臂。通過近似最優(yōu)的臂(OPT-ε-δ)替代最優(yōu)臂,從而解決將系統(tǒng)建模為K臂賭博機(jī)策略的臂無窮和時間無窮的兩個挑戰(zhàn)。
UCB(Upper Confidence Bound)算法是一類解決多臂賭博機(jī)算法的總稱,UCB根據(jù)目前獲得的信息,配合上一個調(diào)整值,試圖在利用(exploitation)和探索(exploration)之間達(dá)成平衡的ExE(Exploitation vs.Exploration)問題。
大致上來說,每一次運(yùn)行時,UCB會根據(jù)每個臂目前的平均收益值(亦即其到目前為止的表現(xiàn)),加上一個額外的參數(shù),得出本次運(yùn)行此臂的UCB值,然后根據(jù)此值,挑選出擁有最大UCB值的臂,作為本次運(yùn)行所要選擇的臂。其中,所謂額外參數(shù),會隨每個臂被選擇的次數(shù)增加而相對減少,其目的在于讓選擇臂時,不過分拘泥于舊有的表現(xiàn),而可以適度地探索其他臂。UCB公式[13-14]表示為
式中:ˉXi是第i個臂到目前為止的平均收益;ni是第i個臂被測試的次數(shù);n是所有臂目前被測試的總次數(shù)。使式(3)取得最大值的臂將是下一個被選擇的臂。前項(xiàng)即為此臂的過去表現(xiàn),即利用值(exploitation);后項(xiàng)則是調(diào)整參數(shù),即探索部分(exploration)。
而UCB-TUNED是相對于UCB實(shí)驗(yàn)較佳的配置策略。UCB-TUNED的公式為
使式(7)取最大值的臂將是下一個被選擇來測試的臂。
本節(jié)分析對比了兩種最優(yōu)傳輸?shù)姆椒?,一種是文獻(xiàn)[11]提出的最優(yōu)傳輸門限策略的離線算法,另一種是本文提出的基于K臂賭博機(jī)在線學(xué)習(xí)算法。
根據(jù)文獻(xiàn)[11]單門限最優(yōu)策略建立的仿真環(huán)境如表1所示。假設(shè)信道是正相關(guān)的,所以λ1≥λ0,λ1的取值如表1所示,λ0(1)≤λ1≤0.99,根據(jù)文獻(xiàn)[11]計(jì)算出不同運(yùn)行的時隙數(shù)(1:10 000)范圍下的V(λ0)的最大值。在不同λ0、λ1計(jì)算出對應(yīng)的保守發(fā)送的最優(yōu)時隙數(shù)(0,1,2,3,4)。
表1 門限結(jié)構(gòu)最優(yōu)策略參數(shù)設(shè)置
算法步驟如下:
步驟1:初始化參數(shù)R1,R2,C,β,λ0,λ1,Kopt;
步驟2:定義變量Karray存放滿足條件的λ0,λ1,ρ以及Kopt;
步驟3:
根據(jù)以上算法步驟得出仿真結(jié)果如圖4及表2所示。
圖4 門限結(jié)構(gòu)最優(yōu)策略的期望折扣總回報(bào)
表2 門限結(jié)構(gòu)最優(yōu)策略
由圖4及表2可得如下結(jié)論:
1)當(dāng) λ0=0.01,λ1=0.06 時,隨著運(yùn)行時隙n的增長,在n→∞ 時,Tn(λ0)→λs,那么總是保守發(fā)送,Kopt→∞;
2)當(dāng) λ0=0.61,λ1=0.66 時,表示信道狀態(tài)較好,總是激進(jìn)發(fā)送,Kopt=0;
3)當(dāng)λ0=0.16,λ1=0.91時,得到Kopt=4 ,表示保守發(fā)送4個時隙后,再次激進(jìn)發(fā)送,在該策略下,得到的總的折扣回報(bào)最大。
4)通過單門限最優(yōu)策略,在不同的信道狀態(tài)下(λ0和λ1不同取值)離線獲得對應(yīng)的最優(yōu)K步傳輸值。
本文提出的在線K臂賭博機(jī)學(xué)習(xí)算法,具體仿真環(huán)境設(shè)置如表3所示??紤]到本算法的收斂性,故總的運(yùn)行時隙設(shè)為T×inter=109。ε=0.02和δ=0.02分別用于解決臂無窮和時間無窮的問題。為了更精確地獲取最優(yōu)臂,本文取值TMAX=100,KMAX=30。
算法步驟如下:
首先,初始化參數(shù) λ0、λ1,T,TMAX,armnu,ts,NI,由于本算法是基于POMDP模型未知信道狀態(tài)下的在線學(xué)習(xí)方
表3 在線K臂賭博機(jī)學(xué)習(xí)算法參數(shù)設(shè)置
法。故根據(jù)λ0和λ1產(chǎn)生信道的隨機(jī)狀態(tài)states,每個臂在產(chǎn)生動作后,根據(jù)觀察到的狀態(tài)獲取一個回報(bào)或懲罰;其次,初始化各個臂的UCB值,最后,根據(jù)
選擇最大的UCB或UCB-Tuned作為當(dāng)前的最優(yōu)臂,并運(yùn)行當(dāng)前最優(yōu)臂。
根據(jù)以上算法步驟得出仿真結(jié)果如圖5~圖8所示。
圖5 相同信道狀態(tài)下的最優(yōu)臂
如圖5所示為通過UCB算法,獲得同一個λ0=0.36和λ1=0.91信道狀態(tài)下所有臂的表現(xiàn),其中當(dāng)臂為1時是該信道狀態(tài)下的最優(yōu)臂,隨著運(yùn)行時間增加,臂1被選中運(yùn)行的時間比趨向于1,而其他臂的使用率趨向于0,從而找到最優(yōu)臂。同樣的方法可得到其他λ0和λ1對應(yīng)的最優(yōu)臂。
圖6所示為通過UCB算法,獲得不同的λ0和λ1信道狀態(tài)下對應(yīng)最優(yōu)臂的收斂性,從圖中可見,隨著時間的增加,最優(yōu)臂被選中運(yùn)行的時間比逐漸趨于1。
圖7所示為通過UCB-TUNED算法,同一個λ0和λ1信達(dá)狀態(tài)下,所有臂的表現(xiàn),與圖5 UCB算法相比較,收斂速度更快。
圖8所示為通過UCB-TUNED算法,不同的λ0和λ1信道狀態(tài)下,臂的收斂性與圖6 UCB算法相比較,收斂速度更快。
本節(jié)對比了文獻(xiàn)[11]提出單門限最優(yōu)策略和本文提出的在線K臂賭博機(jī)學(xué)習(xí)算法,從圖4可以看出當(dāng)λ0=0.36和λ1=0.91時,通過最優(yōu)策略得到最優(yōu)K步值為1。從圖5得到,當(dāng)λ0=0.36和λ1=0.91時,利用本文提出的最優(yōu)在線K臂賭博算法,同樣得到最優(yōu)傳輸K步值為1。并且從圖5還可以得到當(dāng)t=109s時,算法收斂,但收斂速度較慢。為此本文通過UCB-TUNED算法,提高了收斂速度。從圖7和圖8可得知,在t=108s時,算法收斂。
當(dāng)前信道最優(yōu)傳輸大都是基于完全知識對信道建模,本文針對認(rèn)知無線電環(huán)境不完全可知情況下,將信道建模為部分可觀測馬爾科夫過程,提出了基于多臂賭博機(jī)的最優(yōu)傳輸在線學(xué)習(xí)方法。仿真分析表明,在信道不完全可知情況下的多臂賭博機(jī)在線學(xué)習(xí)算法與單門限最優(yōu)離線傳輸策略相比,同樣能獲得最優(yōu)K步策略。同時,本文通過UCB-TUNED方法改善了最優(yōu)傳輸?shù)腒步保守策略的收斂性。
:
[1] WANG B,LIU K J R.Advances in cognitive radio networks:a survey[J].IEEE Journal on Selected Topics in Signal Processing,2012,5(1):5-23.
[2]許瑞琛,蔣挺.基于POMDP的認(rèn)知無線電自適應(yīng)頻譜感知算法[J].通信學(xué)報(bào),2013(6):49-56.
[3] TAN L,F(xiàn)ENG Z,LI W,et al.Graph coloring based spectrum allocation for femtocell downlink interference mitigation[C]//Proc.IEEE Wireless Communications and Networking Conference.Cancun,Quintana Roo:IEEE Press,2011:1248-1252.
[4] HE Z Q,NIU K,QIU T,et al.A bio-inspired approach for cognitive radio networks[J].Chinese Science Bulletin,2012,57(28):3723-3730.
[5] ZHANG W,MALLIK R K,LETAIEF K B.,Cooperative spectrum sensing optimization in cognitive radio networks[C]//Proc.IEEE International Conference on Communications.Beijing:IEEE Press,2008:3411-3415.
[6]邱晶,周正.認(rèn)知無線電網(wǎng)絡(luò)中的分布式動態(tài)頻譜共享[J].北京郵電大學(xué)學(xué)報(bào),2009,32(1):69-72.
[7]吳春德,潘志文,尤肖虎.一種認(rèn)知無線Adhoc網(wǎng)絡(luò)跨層最優(yōu)頻譜共享方案[J]. 南京郵電大學(xué)學(xué)報(bào),2009,29(3):83-87.
[8] DAI W H,GAI Y,KRISHNAMACHARI B,et al.The non-Bayesian.restless multi-armed bandit:a case of near-logarithmic regret[C]//Proc.IEEE International Conference on Acoustics,Speech and Signal Processing.Prague:IEEE Press,2013:2940-2951.
[9]許瑞琛,蔣挺.一種認(rèn)知無線電周期數(shù)據(jù)傳輸優(yōu)化機(jī)制[J].電子與信息學(xué)報(bào),2013,35(7):1694-1699.
[10] ZHAO Q,TONG L,SWAMI A,et al.Decentralized cognitive MAC for opportunistic spectrum access in ad hoc networks:a POMDP framework[J].IEEE J.Sel.Areas Commun.,2007,25(3):589-600.
[11]江虹,劉從彬,伍春.認(rèn)知無線網(wǎng)絡(luò)中提高TCP吞吐率的跨層參數(shù)配置[J].物理學(xué)報(bào),2013,62(3):494-501.
[12]陳亞琨,趙海峰,穆曉敏.認(rèn)知無線電中基于感知信息量化的合作頻譜感知[J].電視技術(shù),2012,36(17):106-109.
[13] LAOURINE A,TONG L.Betting on Gilbert-Elliot channels[J].IEEE Trans.Wireless Communications,2010,9(2):723-733.
[14]衡玉龍,黃天聰,馮文江,等.有限用戶數(shù)多認(rèn)知網(wǎng)絡(luò)部分信道共享性能分析[J].電子與信息學(xué)報(bào),2013,35(2):267-272.
[15] TEKIN C,LIU M.Approximately optimal adaptive learning in opportunistic spectrum access[C]//Proc.IEEE International Conference on Computer Communication.Orlando,F(xiàn)L:IEEE Press,2012:1548-1556.
[16]章堅(jiān)武,李崢.一種新的認(rèn)知無線電頻譜感知算法[J].電視技術(shù),
2010,34(S1):153-155.