• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      認(rèn)知無線電中實(shí)現(xiàn)最優(yōu)傳輸?shù)脑诰€學(xué)習(xí)方法

      2014-09-18 00:15:38蔣和松陳春梅
      電視技術(shù) 2014年15期
      關(guān)鍵詞:時隙門限信念

      張 娟,蔣和松,江 虹,陳春梅

      (西南科技大學(xué)特殊環(huán)境機(jī)器人技術(shù)四川省重點(diǎn)實(shí)驗(yàn)室,四川綿陽621010)

      近年來無線設(shè)備(智能手機(jī)和平板電腦)的普及導(dǎo)致了對更多頻譜帶寬需求的急劇增加,可供分配的頻譜資源越來越少,造成目前頻譜資源緊張,但另一方面,無線頻譜的利用率卻相當(dāng)?shù)?。根?jù)文獻(xiàn)[1-2],被分配的頻譜中超過90%的頻譜利用率嚴(yán)重不足。動態(tài)頻譜接入(Dynamical Spectrum Access)技術(shù)的出現(xiàn),解決了大量的頻譜利用不足和頻譜短缺之間的矛盾。動態(tài)頻譜中最有前途的實(shí)現(xiàn)方式是認(rèn)知無線電(Cognitive Radio,CR)。頻譜共享是認(rèn)知無線電系統(tǒng)中有效利用空閑頻隙以提高頻譜利用率的關(guān)鍵技術(shù)。

      目前國內(nèi)外研究人員已經(jīng)提出了多種頻譜共享模型,文獻(xiàn)[3-4]分別研究了基于圖著色和生物學(xué)的啟發(fā)式算法,文獻(xiàn)[5-6]分別提出了基于經(jīng)濟(jì)學(xué)的拍賣機(jī)制和博弈論,文獻(xiàn)[7]提出了跨層優(yōu)化的頻譜共享模型,這些模型在某種意義上都可以讓非授權(quán)用戶共享授權(quán)用戶的頻帶而不對授權(quán)用戶造成有害干擾,但并沒有針對具體的信道模型分析傳輸過程中的參數(shù)配置。文獻(xiàn)[8]考慮了參數(shù)未知情況下的非貝葉斯感知問題,通過在線學(xué)習(xí)達(dá)到近似對數(shù)后悔值,但沒有考慮不同通道狀態(tài)下的最優(yōu)傳輸。文獻(xiàn)[9-10]考慮了GE(Gilbert-Elliot)衰減信道中最小化傳輸能力和延遲,通過單門限策略離線分析各種參數(shù)。

      針對上述問題,本文提出了一種基于未知Gilbert-Elliott信道模型的最優(yōu)傳輸在線學(xué)習(xí)方案:基于POMDP對網(wǎng)絡(luò)信道建模,將K臂賭博機(jī)算法轉(zhuǎn)化為K步信道保守策略,并采用UCB算法求解及UCB-Tuned算法優(yōu)化。

      1 系統(tǒng)模型

      假設(shè)在授權(quán)用戶網(wǎng)絡(luò)中,每個信道只有兩種狀態(tài)S,即二值的Gilbert-Elliott馬爾科夫鏈,如圖1所示。當(dāng)S=1時,表示當(dāng)前信道空閑;當(dāng)S=0時,表示當(dāng)前狀態(tài)忙碌。該圖中λ0為信道的狀態(tài)從忙到空閑的轉(zhuǎn)移概率,(1-λ1)為信道的狀態(tài)從空閑到忙碌的轉(zhuǎn)移概率。

      1.1 POMDP模型

      在POMDP中,非授權(quán)用戶(SU)須利用現(xiàn)有的部分信息、歷史動作和立即回報(bào)值來進(jìn)行策略決策。如圖2為POMDP模型的框架[11],b為信念狀態(tài),是狀態(tài)集合S中所有狀態(tài)的概率分布。SU處于某一狀態(tài)s的概率為b(s),且有 ∑s∈S

      b(s)=1,則所有可能的信念狀態(tài)構(gòu)成的信念空間表示為B(S)={b:∑s∈Sb(s)=1,?s,b(s)≥0},根據(jù)文獻(xiàn)[11]信念狀態(tài)為求解最優(yōu)動作策略A*的一個充分統(tǒng)計(jì)量。模型描述為:1)狀態(tài)估計(jì)器(SE):P×A×B(S)→B(S),其中P為置信概率,即狀態(tài)估計(jì)器(SE)負(fù)責(zé)根據(jù)上一次動作和信念狀態(tài)以及當(dāng)前觀察更新當(dāng)前的信念b;2)策略π:B(S)→A,即在當(dāng)前信念狀態(tài)b下使用策略π從而選擇動作a,其回報(bào)為r(b,a),表示為r(b,s)=∑s∈Sb(s)r(s,a)。

      圖2 POMDP模型示意圖

      1.2 基于POMDP的信道建模

      假設(shè)當(dāng)前信道為Gilbert-Elliott信道,即具有二值狀態(tài)的馬爾科夫鏈,當(dāng)S=1時,表示當(dāng)前信道處于空閑,對于SU而言信道狀態(tài)較好,能夠成功地高速傳輸數(shù)據(jù);當(dāng)S=0時,表示當(dāng)前信道忙碌,對SU而言信道狀態(tài)較差,SU只有以較低的速率傳輸才能成功。轉(zhuǎn)移概率為

      令α=λ1-λ0,假設(shè)信道為正相關(guān),則α>0。

      在每一次時隙的開始,SU需要做出動作選擇:

      1)保守發(fā)送(SC):SU低速數(shù)據(jù)傳輸。在該動作下,不管當(dāng)前信道處于何種狀態(tài),SU傳輸數(shù)據(jù)均能取得成功,并取得回報(bào)R1。因此,在該動作下SU不能對信道狀態(tài)進(jìn)行學(xué)習(xí)。

      2)激進(jìn)發(fā)送(SA):SU高速數(shù)據(jù)傳輸。如果信道狀態(tài)好,SU高速數(shù)據(jù)傳輸獲得成功,并得到回報(bào)R2,且有R2>R1;如果信道狀態(tài)差,高速數(shù)據(jù)傳輸將導(dǎo)致很高的錯誤率和丟包率,并獲得懲罰值C。因此,在該動作下SU可以通過學(xué)習(xí)獲得信道下一時刻的狀態(tài)。

      當(dāng)保守發(fā)送時,信道的狀態(tài)并不能直接觀察,因此本文將該問題建模為POMDP模型。根據(jù)文獻(xiàn)[11]信念狀態(tài)為求解最優(yōu)動作策略A*的一個充分統(tǒng)計(jì)量,因此該P(yáng)OMDP模型為在給定所有歷史的動作和觀察的情況下信道狀態(tài)好的條件概率,表示為b=Pr[St=1|Ht],Ht為第t時隙前所有動作和觀察的歷史信息。激進(jìn)發(fā)送時,SU能夠?qū)W習(xí)信道狀態(tài)。因此信道狀態(tài)好時,信念為λ1,信道狀態(tài)差時,信念為λ0。期望回報(bào)表示為

      式中:bt為t時刻信道狀態(tài)好時的信念;At為t時刻采取的動作。

      2 信道狀態(tài)未知的K臂賭博機(jī)在線學(xué)習(xí)算法

      最典型的多臂賭博機(jī)問題為:對一個擁有K個手臂(multi-arms)的賭博機(jī),賭博者要從這K個手臂中選擇一個手臂進(jìn)行操作來獲得獎勵(reward),該獎勵從與該手臂相關(guān)的分布中得出,賭博者不知道每個手臂獎勵分布期望值的大小。在一個特定的時間段內(nèi),賭博者只能操作一個手臂,賭博者要盡快找到使自己獲得最大獎勵的手臂,并且進(jìn)行賭博[10,12]。

      2.1 K步保守策略結(jié)構(gòu)建模

      K步保守策略結(jié)構(gòu)模型如圖3所示,激進(jìn)發(fā)送失敗后,在接下來的K個時隙保守發(fā)送數(shù)據(jù)。如圖在馬爾科夫鏈中有K+2個狀態(tài),狀態(tài)0表示激進(jìn)發(fā)送失敗后重新返回到保守發(fā)送。狀態(tài)K-1表示在保守發(fā)送K個時隙后,下一步將進(jìn)入激進(jìn)發(fā)送。如果第K個狀態(tài)的激進(jìn)發(fā)送成功,則進(jìn)入到SA狀態(tài),否則回到0狀態(tài)繼續(xù)K步保守發(fā)送。如果狀態(tài)一直保持在SA,表示信道狀態(tài)一直處于好的狀態(tài)即S=1,由式(1)可得,連續(xù)激進(jìn)發(fā)送的概率為λ1;由于保守發(fā)送K步后才能激進(jìn)發(fā)送,因此當(dāng)0≤i<k時,狀態(tài)從i到i+1的概率為1。

      在K+2個狀態(tài)中,每個狀態(tài)對應(yīng)一個信念和動作,信念和動作決定了期望總的折扣回報(bào),因此有K+2種不同的折扣回報(bào)。K臂賭博機(jī)建模參數(shù)設(shè)置:

      1)保守發(fā)送(SC):總能發(fā)送成功,獲得的回報(bào)為R1;

      圖3 K步保守策略

      2)激進(jìn)發(fā)送(SA):發(fā)送成功時獲得的回報(bào)為R2(R2>R1),發(fā)送失敗時得到的懲罰為C;

      3)不同K步保守發(fā)送建模為多臂賭博機(jī)的不同的臂。如K=2,即臂(Arm)為2,表示保守發(fā)送2次后再激進(jìn)發(fā)送。

      2.2 K步保守策略面臨的挑戰(zhàn)

      當(dāng)信道的傳輸概率未知時,在尋找最優(yōu)K步保守策略面臨兩個挑戰(zhàn):1)臂無窮;2)為了獲得總的折扣回報(bào),臂需要被不斷地選擇直到時間無窮。為了解決這兩個問題,本文尋找近似最優(yōu)的臂(OPT-ε-δ)替代最優(yōu)臂。通過近似最優(yōu)的臂(OPT-ε-δ)替代最優(yōu)臂,從而解決將系統(tǒng)建模為K臂賭博機(jī)策略的臂無窮和時間無窮的兩個挑戰(zhàn)。

      2.3 UCB算法

      UCB(Upper Confidence Bound)算法是一類解決多臂賭博機(jī)算法的總稱,UCB根據(jù)目前獲得的信息,配合上一個調(diào)整值,試圖在利用(exploitation)和探索(exploration)之間達(dá)成平衡的ExE(Exploitation vs.Exploration)問題。

      大致上來說,每一次運(yùn)行時,UCB會根據(jù)每個臂目前的平均收益值(亦即其到目前為止的表現(xiàn)),加上一個額外的參數(shù),得出本次運(yùn)行此臂的UCB值,然后根據(jù)此值,挑選出擁有最大UCB值的臂,作為本次運(yùn)行所要選擇的臂。其中,所謂額外參數(shù),會隨每個臂被選擇的次數(shù)增加而相對減少,其目的在于讓選擇臂時,不過分拘泥于舊有的表現(xiàn),而可以適度地探索其他臂。UCB公式[13-14]表示為

      式中:ˉXi是第i個臂到目前為止的平均收益;ni是第i個臂被測試的次數(shù);n是所有臂目前被測試的總次數(shù)。使式(3)取得最大值的臂將是下一個被選擇的臂。前項(xiàng)即為此臂的過去表現(xiàn),即利用值(exploitation);后項(xiàng)則是調(diào)整參數(shù),即探索部分(exploration)。

      而UCB-TUNED是相對于UCB實(shí)驗(yàn)較佳的配置策略。UCB-TUNED的公式為

      使式(7)取最大值的臂將是下一個被選擇來測試的臂。

      3 算法比較及仿真分析

      本節(jié)分析對比了兩種最優(yōu)傳輸?shù)姆椒?,一種是文獻(xiàn)[11]提出的最優(yōu)傳輸門限策略的離線算法,另一種是本文提出的基于K臂賭博機(jī)在線學(xué)習(xí)算法。

      3.1 最優(yōu)傳輸門限策略的離線算法

      根據(jù)文獻(xiàn)[11]單門限最優(yōu)策略建立的仿真環(huán)境如表1所示。假設(shè)信道是正相關(guān)的,所以λ1≥λ0,λ1的取值如表1所示,λ0(1)≤λ1≤0.99,根據(jù)文獻(xiàn)[11]計(jì)算出不同運(yùn)行的時隙數(shù)(1:10 000)范圍下的V(λ0)的最大值。在不同λ0、λ1計(jì)算出對應(yīng)的保守發(fā)送的最優(yōu)時隙數(shù)(0,1,2,3,4)。

      表1 門限結(jié)構(gòu)最優(yōu)策略參數(shù)設(shè)置

      算法步驟如下:

      步驟1:初始化參數(shù)R1,R2,C,β,λ0,λ1,Kopt;

      步驟2:定義變量Karray存放滿足條件的λ0,λ1,ρ以及Kopt;

      步驟3:

      根據(jù)以上算法步驟得出仿真結(jié)果如圖4及表2所示。

      圖4 門限結(jié)構(gòu)最優(yōu)策略的期望折扣總回報(bào)

      表2 門限結(jié)構(gòu)最優(yōu)策略

      由圖4及表2可得如下結(jié)論:

      1)當(dāng) λ0=0.01,λ1=0.06 時,隨著運(yùn)行時隙n的增長,在n→∞ 時,Tn(λ0)→λs,那么總是保守發(fā)送,Kopt→∞;

      2)當(dāng) λ0=0.61,λ1=0.66 時,表示信道狀態(tài)較好,總是激進(jìn)發(fā)送,Kopt=0;

      3)當(dāng)λ0=0.16,λ1=0.91時,得到Kopt=4 ,表示保守發(fā)送4個時隙后,再次激進(jìn)發(fā)送,在該策略下,得到的總的折扣回報(bào)最大。

      4)通過單門限最優(yōu)策略,在不同的信道狀態(tài)下(λ0和λ1不同取值)離線獲得對應(yīng)的最優(yōu)K步傳輸值。

      3.2 信道狀態(tài)未知的在線K臂賭博機(jī)學(xué)習(xí)算法

      本文提出的在線K臂賭博機(jī)學(xué)習(xí)算法,具體仿真環(huán)境設(shè)置如表3所示??紤]到本算法的收斂性,故總的運(yùn)行時隙設(shè)為T×inter=109。ε=0.02和δ=0.02分別用于解決臂無窮和時間無窮的問題。為了更精確地獲取最優(yōu)臂,本文取值TMAX=100,KMAX=30。

      算法步驟如下:

      首先,初始化參數(shù) λ0、λ1,T,TMAX,armnu,ts,NI,由于本算法是基于POMDP模型未知信道狀態(tài)下的在線學(xué)習(xí)方

      表3 在線K臂賭博機(jī)學(xué)習(xí)算法參數(shù)設(shè)置

      法。故根據(jù)λ0和λ1產(chǎn)生信道的隨機(jī)狀態(tài)states,每個臂在產(chǎn)生動作后,根據(jù)觀察到的狀態(tài)獲取一個回報(bào)或懲罰;其次,初始化各個臂的UCB值,最后,根據(jù)

      選擇最大的UCB或UCB-Tuned作為當(dāng)前的最優(yōu)臂,并運(yùn)行當(dāng)前最優(yōu)臂。

      根據(jù)以上算法步驟得出仿真結(jié)果如圖5~圖8所示。

      圖5 相同信道狀態(tài)下的最優(yōu)臂

      如圖5所示為通過UCB算法,獲得同一個λ0=0.36和λ1=0.91信道狀態(tài)下所有臂的表現(xiàn),其中當(dāng)臂為1時是該信道狀態(tài)下的最優(yōu)臂,隨著運(yùn)行時間增加,臂1被選中運(yùn)行的時間比趨向于1,而其他臂的使用率趨向于0,從而找到最優(yōu)臂。同樣的方法可得到其他λ0和λ1對應(yīng)的最優(yōu)臂。

      圖6所示為通過UCB算法,獲得不同的λ0和λ1信道狀態(tài)下對應(yīng)最優(yōu)臂的收斂性,從圖中可見,隨著時間的增加,最優(yōu)臂被選中運(yùn)行的時間比逐漸趨于1。

      圖7所示為通過UCB-TUNED算法,同一個λ0和λ1信達(dá)狀態(tài)下,所有臂的表現(xiàn),與圖5 UCB算法相比較,收斂速度更快。

      圖8所示為通過UCB-TUNED算法,不同的λ0和λ1信道狀態(tài)下,臂的收斂性與圖6 UCB算法相比較,收斂速度更快。

      3.3 算法對比分析

      本節(jié)對比了文獻(xiàn)[11]提出單門限最優(yōu)策略和本文提出的在線K臂賭博機(jī)學(xué)習(xí)算法,從圖4可以看出當(dāng)λ0=0.36和λ1=0.91時,通過最優(yōu)策略得到最優(yōu)K步值為1。從圖5得到,當(dāng)λ0=0.36和λ1=0.91時,利用本文提出的最優(yōu)在線K臂賭博算法,同樣得到最優(yōu)傳輸K步值為1。并且從圖5還可以得到當(dāng)t=109s時,算法收斂,但收斂速度較慢。為此本文通過UCB-TUNED算法,提高了收斂速度。從圖7和圖8可得知,在t=108s時,算法收斂。

      4 結(jié)論

      當(dāng)前信道最優(yōu)傳輸大都是基于完全知識對信道建模,本文針對認(rèn)知無線電環(huán)境不完全可知情況下,將信道建模為部分可觀測馬爾科夫過程,提出了基于多臂賭博機(jī)的最優(yōu)傳輸在線學(xué)習(xí)方法。仿真分析表明,在信道不完全可知情況下的多臂賭博機(jī)在線學(xué)習(xí)算法與單門限最優(yōu)離線傳輸策略相比,同樣能獲得最優(yōu)K步策略。同時,本文通過UCB-TUNED方法改善了最優(yōu)傳輸?shù)腒步保守策略的收斂性。

      :

      [1] WANG B,LIU K J R.Advances in cognitive radio networks:a survey[J].IEEE Journal on Selected Topics in Signal Processing,2012,5(1):5-23.

      [2]許瑞琛,蔣挺.基于POMDP的認(rèn)知無線電自適應(yīng)頻譜感知算法[J].通信學(xué)報(bào),2013(6):49-56.

      [3] TAN L,F(xiàn)ENG Z,LI W,et al.Graph coloring based spectrum allocation for femtocell downlink interference mitigation[C]//Proc.IEEE Wireless Communications and Networking Conference.Cancun,Quintana Roo:IEEE Press,2011:1248-1252.

      [4] HE Z Q,NIU K,QIU T,et al.A bio-inspired approach for cognitive radio networks[J].Chinese Science Bulletin,2012,57(28):3723-3730.

      [5] ZHANG W,MALLIK R K,LETAIEF K B.,Cooperative spectrum sensing optimization in cognitive radio networks[C]//Proc.IEEE International Conference on Communications.Beijing:IEEE Press,2008:3411-3415.

      [6]邱晶,周正.認(rèn)知無線電網(wǎng)絡(luò)中的分布式動態(tài)頻譜共享[J].北京郵電大學(xué)學(xué)報(bào),2009,32(1):69-72.

      [7]吳春德,潘志文,尤肖虎.一種認(rèn)知無線Adhoc網(wǎng)絡(luò)跨層最優(yōu)頻譜共享方案[J]. 南京郵電大學(xué)學(xué)報(bào),2009,29(3):83-87.

      [8] DAI W H,GAI Y,KRISHNAMACHARI B,et al.The non-Bayesian.restless multi-armed bandit:a case of near-logarithmic regret[C]//Proc.IEEE International Conference on Acoustics,Speech and Signal Processing.Prague:IEEE Press,2013:2940-2951.

      [9]許瑞琛,蔣挺.一種認(rèn)知無線電周期數(shù)據(jù)傳輸優(yōu)化機(jī)制[J].電子與信息學(xué)報(bào),2013,35(7):1694-1699.

      [10] ZHAO Q,TONG L,SWAMI A,et al.Decentralized cognitive MAC for opportunistic spectrum access in ad hoc networks:a POMDP framework[J].IEEE J.Sel.Areas Commun.,2007,25(3):589-600.

      [11]江虹,劉從彬,伍春.認(rèn)知無線網(wǎng)絡(luò)中提高TCP吞吐率的跨層參數(shù)配置[J].物理學(xué)報(bào),2013,62(3):494-501.

      [12]陳亞琨,趙海峰,穆曉敏.認(rèn)知無線電中基于感知信息量化的合作頻譜感知[J].電視技術(shù),2012,36(17):106-109.

      [13] LAOURINE A,TONG L.Betting on Gilbert-Elliot channels[J].IEEE Trans.Wireless Communications,2010,9(2):723-733.

      [14]衡玉龍,黃天聰,馮文江,等.有限用戶數(shù)多認(rèn)知網(wǎng)絡(luò)部分信道共享性能分析[J].電子與信息學(xué)報(bào),2013,35(2):267-272.

      [15] TEKIN C,LIU M.Approximately optimal adaptive learning in opportunistic spectrum access[C]//Proc.IEEE International Conference on Computer Communication.Orlando,F(xiàn)L:IEEE Press,2012:1548-1556.

      [16]章堅(jiān)武,李崢.一種新的認(rèn)知無線電頻譜感知算法[J].電視技術(shù),

      2010,34(S1):153-155.

      猜你喜歡
      時隙門限信念
      基于規(guī)則的HEV邏輯門限控制策略
      地方債對經(jīng)濟(jì)增長的門限效應(yīng)及地區(qū)差異研究
      中國西部(2021年4期)2021-11-04 08:57:32
      為了信念
      黃河之聲(2021年9期)2021-07-21 14:56:34
      發(fā)光的信念
      隨機(jī)失效門限下指數(shù)退化軌道模型的分析與應(yīng)用
      復(fù)用段單節(jié)點(diǎn)失效造成業(yè)務(wù)時隙錯連處理
      信念
      民族音樂(2018年4期)2018-09-20 08:59:04
      一種高速通信系統(tǒng)動態(tài)時隙分配設(shè)計(jì)
      時隙寬度約束下網(wǎng)絡(luò)零售配送時隙定價(jià)研究
      生產(chǎn)性服務(wù)業(yè)集聚與工業(yè)集聚的非線性效應(yīng)——基于門限回歸模型的分析
      湖湘論壇(2015年3期)2015-12-01 04:20:17
      乌兰察布市| 浮山县| 平江县| 海南省| 中阳县| 永顺县| 石棉县| 筠连县| 大理市| 霍山县| 新干县| 苏尼特右旗| 买车| 枣阳市| 渑池县| 泉州市| 余江县| 昌平区| 永泰县| 麻阳| 南和县| 吴堡县| 莫力| 乐安县| 元江| 陆丰市| 汪清县| 宽甸| 阜城县| 驻马店市| 额济纳旗| 大兴区| 闸北区| 宁国市| 中方县| 泸溪县| 太原市| 阜平县| 精河县| 乌苏市| 女性|