張明杰 朱江
(重慶郵電大學(xué)通信與信息工程學(xué)院,移動通信教育部工程研究中心,移動通信技術(shù)重慶市重點實驗室,重慶 400065)
物聯(lián)網(wǎng)(internet of things,IoT)時代的來臨促進了無線傳感器網(wǎng)絡(luò)(wireless sensor network,WSN)的部署,由于WSN 現(xiàn)有以及潛在的廣泛應(yīng)用,使其被確定為當(dāng)今最重要的技術(shù)之一[1]。但因為計算能力和電池容量的限制,無線傳感器通常無法有效處理復(fù)雜的計算任務(wù),因此,如何提升計算能力和能量效率是WSN 研究的熱點領(lǐng)域。國內(nèi)外對于無線傳感器能量效率的研究主要分為資源的合理調(diào)度[2-4]以及運用能量收集技術(shù)(energy harvesting,EH)對無線傳感器進行充能[5-8]。
為了滿足更多場景下任務(wù)處理需求,將邊緣計算與WSN 相結(jié)合。移動邊緣計算(mobile edge computing,MEC)能夠在網(wǎng)絡(luò)邊緣為用戶提供計算卸載和數(shù)據(jù)緩存,為用戶提供更加高效的存儲和傳輸。采用基于邊緣計算的任務(wù)卸載技術(shù)可提高任務(wù)處理效率[9]。然而,在邊緣計算中,將整個計算任務(wù)卸載到邊緣計算服務(wù)器的方式能效不高,因此某些任務(wù)應(yīng)由本地計算執(zhí)行[10]。文獻[11]定義了一種卸載優(yōu)先級函數(shù),將部分任務(wù)卸載到邊緣進行計算。在滿足時間延遲的前提下,提出有效的卸載決策以最小化能源成本是一個關(guān)鍵問題[12-15]。通過對緩存器內(nèi)任務(wù)的部署,可以有效提升任務(wù)處理過程中的能量利用率,降低網(wǎng)絡(luò)能耗[16-17]。
將WSN 與邊緣計算結(jié)合后,數(shù)據(jù)能夠得到處理,但二者的自組織能力以及對于環(huán)境的適應(yīng)性有限,為解決相應(yīng)問題,國內(nèi)外學(xué)者采用人工智能[18]方法對傳感器不同的任務(wù)卸載場景進行智能調(diào)度,降低了系統(tǒng)能耗。文獻[19]提出了一種基于強化學(xué)習(xí)的隱私感知卸載方案,應(yīng)用Dyna算法框架提供模擬卸載以加快學(xué)習(xí)過程,從而提高計算性能。文獻[20]針對具有EH 的IoT 設(shè)備提出了一種基于強化學(xué)習(xí)的卸載方案。文獻[21]采用二進制卸載策略的無線MEC 網(wǎng)絡(luò),提出了基于深度強化學(xué)習(xí)的DROO 在線卸載算法框架,降低了計算復(fù)雜度。文獻[22]提出了一種自適應(yīng)睡眠/喚醒調(diào)度方法,在不犧牲數(shù)據(jù)包傳遞效率的情況下,節(jié)省每個節(jié)點的能量。然而,上述工作主要集中在提升傳輸速率和降低計算復(fù)雜度,較少有學(xué)者考慮物理層以及數(shù)據(jù)鏈路層參數(shù)對系統(tǒng)能量消耗的影響。但相關(guān)參數(shù)對系統(tǒng)能效的提高有著重要的意義。
為了提高無線傳感器設(shè)備系統(tǒng)的任務(wù)處理能效,本文研究了基于能效的任務(wù)處理機制,主要工作如下。
(1)建立了基于馬爾可夫決策過程的任務(wù)處理機制。物理層以及數(shù)據(jù)鏈路層的最佳控制角度考慮任務(wù)本地計算和邊緣計算能量的聯(lián)合優(yōu)化,通過智能優(yōu)化代理得到任務(wù)到達緩存區(qū)后取出的本地計算任務(wù)量和卸載任務(wù)量,保證任務(wù)得到有效處理的同時得到近似最優(yōu)的系統(tǒng)能效。
(2)利用強化學(xué)習(xí)代理通過貪婪策略進行動作探索和利用從而獲得最佳的卸載策略。針對在線學(xué)習(xí)收斂速度慢的問題,A3C 算法采用異步訓(xùn)練框架加快學(xué)習(xí)收斂速度。
圖1是多個無線傳感器網(wǎng)絡(luò)的節(jié)點進行任務(wù)處理的模型,每個無線傳感器buffer 的處理情況都和節(jié)點2相同。每個無線傳感節(jié)點采集到的數(shù)據(jù)被封裝成待處理的任務(wù),存儲在內(nèi)部的緩存器中。每隔相同的時間段(時隙),節(jié)點從緩存器內(nèi)取出一定數(shù)量的任務(wù)進行處理:即一部分任務(wù)卸載到邊緣服務(wù)器進行處理,一部分由傳感器消耗自身資源進行本地處理。
當(dāng)有任務(wù)卸載到邊緣服務(wù)器進行處理,在每個時隙內(nèi),各個無線傳感節(jié)點會以CDMA 的方式將任務(wù)數(shù)據(jù)發(fā)送到邊緣服務(wù)器端。因此,系統(tǒng)采用的是以時隙為時間單位的時分多址與CDMA 混合的多址方式。一個節(jié)點經(jīng)歷的無線信道干擾取決于其他節(jié)點采用的傳輸功率(詳見4.3節(jié))。每個節(jié)點根據(jù)其緩存區(qū)內(nèi)任務(wù)數(shù)量和測得的信道狀態(tài)獨立地學(xué)習(xí)其任務(wù)處理策略。
單個無線傳感器節(jié)點與邊緣服務(wù)器的任務(wù)處理框圖如圖2 所示。設(shè)緩存器長度為L,λ為一幀內(nèi)任務(wù)到達緩存器的平均到達率,λ服從泊松分布。某一幀開始時節(jié)點i緩存器內(nèi)任務(wù)量為為從緩存區(qū)內(nèi)取出的任務(wù)數(shù)量,取出的任務(wù)數(shù)量分成本地計算以及邊緣計算兩部分,則有
δ={ACK,NACK}為邊緣服務(wù)器反饋的接受確認(rèn)信息,成功接收為ACK,失敗則返回NACK,I{·}為指示函數(shù),括號內(nèi)為真,函數(shù)值返回1,否則返回0。
在傳輸之前,可以通過發(fā)送導(dǎo)頻信息獲得邊緣計算服務(wù)器端反饋的信道狀態(tài)信息(channel state information,CSI)。智能控制代理觀察緩存區(qū)內(nèi)任務(wù)量以及前一次傳輸?shù)男诺涝鲆妫诖嘶A(chǔ)上,決定從緩存區(qū)取出多少任務(wù)進行本地計算和卸載以及獲得相應(yīng)的最佳傳輸功率和調(diào)制級別,使任務(wù)得到有效處理的同時近似最大化系統(tǒng)能效。若某信道的任務(wù)數(shù)據(jù)被成功接收,接收機將反饋確認(rèn)消息ACK,否則反饋失敗消息NACK。沒有被成功發(fā)送的任務(wù)數(shù)據(jù)將被重發(fā)。
任務(wù)處理過程中,所消耗的能量主要由三部分構(gòu)成,分別為本地計算能量、卸載能量以及從邊緣服務(wù)器下載任務(wù)處理結(jié)果所耗能量。由于計算結(jié)果下載能量相較于本地計算能量以及計算卸載能量可以忽略不計,本文暫不考慮。
本地計算能量消耗取決于本地計算任務(wù)量以及無線傳感器節(jié)點的計算能力,假設(shè)CPU 頻率在每個節(jié)點處為固定值,Ci為節(jié)點i計算1比特數(shù)據(jù)需要的CPU 周期數(shù),Pi為該節(jié)點進行本地計算每個CPU周期的能量消耗,則節(jié)點i一幀內(nèi)本地計算總能耗表達式為
在本地計算時間不能滿足時延約束的情況下,將多余任務(wù)卸載到邊緣服務(wù)器進行計算。任務(wù)卸載所采取的傳輸功率取決于強化學(xué)習(xí)代理所做的決策。卸載所消耗的能量如下式所示:
將基于系統(tǒng)能效的任務(wù)傳輸調(diào)度機制建模為馬爾科夫決策過程,其狀態(tài)、行為、狀態(tài)轉(zhuǎn)移概率以及回報函數(shù)被定義為(S,A,P,R)四元組。
包含所有可能狀態(tài)的狀態(tài)空間,在本文中,狀態(tài)空間定義為關(guān)于緩存區(qū)任務(wù)量、信道增益的聚合狀態(tài),其中為節(jié)點i緩沖區(qū)內(nèi)的任務(wù)量,γi為卸載任務(wù)時節(jié)點i信道的信道增益。
包含所有可能行為的行為空間,在本文中,行為空間定義為智能控制代理根據(jù)狀態(tài)空間選取的調(diào)制等級和發(fā)射功率以及從緩存區(qū)取出的任務(wù)量,表示為狀態(tài)空間由信道增益以及緩存器內(nèi)任務(wù)數(shù)量構(gòu)成,每轉(zhuǎn)換到一個新的狀態(tài)會得到信道增益以及緩存器當(dāng)前任務(wù)數(shù)量參數(shù),根據(jù)兩個參數(shù),行為空間根據(jù)獎勵函數(shù)選擇出最優(yōu)的從緩存區(qū)取出的任務(wù)數(shù)量、調(diào)制等級以及發(fā)射功率,當(dāng)緩存器內(nèi)任務(wù)數(shù)量多時,需要使用高的調(diào)制等級增加傳輸吞吐量以滿足任務(wù)處理需求。為節(jié)點i從緩存器內(nèi)取出的任務(wù)量,mi為節(jié)點i根據(jù)狀態(tài)選擇的調(diào)制等級(BPSK-8PSK)為節(jié)點i相應(yīng)調(diào)制 等級的發(fā)射功率。
使用有限狀態(tài)馬爾可夫信道對無線信道動態(tài)進行建模[23-24],將等效信道增益劃分為有限數(shù)K個區(qū)間,0=Γ0<Γ1… <ΓK,信道增益在ΓK-1到ΓK間則稱為狀態(tài)k,在服從瑞利衰落的信道中,γ呈指數(shù)分布,概率密度函數(shù)為p(γ)=1/γ0exp(-γ/γ0),其中γ0是平均信道增益。
穩(wěn)態(tài)概率為
狀態(tài)轉(zhuǎn)移概率為
其中N(Γ)=是電平交叉函數(shù),fd是最大多普勒頻率。πk為狀態(tài)sk下選擇行為ak的概率。
任務(wù)成功分組傳輸概率為
令K表示成功發(fā)送所需的重傳次數(shù),設(shè)每次傳輸都是獨立的,則K的概率質(zhì)量函數(shù)為
得到了成功分組傳輸概率以及信道狀態(tài)轉(zhuǎn)移概率,相應(yīng)的節(jié)點狀態(tài)轉(zhuǎn)移以及轉(zhuǎn)移概率為
傳輸成功:
傳輸失?。?/p>
在WSN 的應(yīng)用中,能耗、吞吐量以及時延都是非常關(guān)鍵的因素,在最小化能源消耗的同時,如果任務(wù)處理數(shù)量太少或延時太大都是不可接受的。因此,采用總消耗的能量成功處理的任務(wù)量作為目標(biāo)函數(shù)。從緩存區(qū)內(nèi)取出的任務(wù)分為本地計算以及卸載到邊緣兩部分分別進行處理。系統(tǒng)的目標(biāo)函數(shù)為每總消耗能量的成功任務(wù)處理數(shù)量,則一幀內(nèi)效用函數(shù)表達式為
式(11)中PΓ(Γi,m)為任務(wù)成功分組傳輸概率,效用函數(shù)的單位為任務(wù)處理數(shù)量每焦耳。假設(shè)卸載一個任務(wù)所包含數(shù)據(jù)的信息比特為Lb與添加錯誤解碼代碼后的任務(wù)數(shù)據(jù)信息比特為L。傳輸速率為Rbbit/s。傳輸消耗能量為
由于任務(wù)到達速率的不同,不可預(yù)知下一狀態(tài)即將到達多少任務(wù)量,如果任務(wù)量過多,而采用的卸載策略卸載任務(wù)量小,則根據(jù)當(dāng)前緩存區(qū)內(nèi)所剩余的任務(wù)數(shù)量對當(dāng)前獎勵函數(shù)進行懲罰,迫使當(dāng)前狀態(tài)時,選擇卸載任務(wù)量更大的行為。為了最小化緩存區(qū)溢出的可能性,將緩存處理成本合并到獎勵函數(shù)中,提高服務(wù)質(zhì)量(Quality of Service,QoS)。獎勵函數(shù)表示為
獎勵函數(shù)前一項為每單位總能量消耗后任務(wù)成功處理量。后一項是緩存區(qū)處理成本,權(quán)重ε在防止緩沖溢出的同時,使得緩存處理成本降低。獎勵函數(shù)由貝爾曼方程驅(qū)動,通過循環(huán)迭代的方式獲得計算回報值R(s,a)。
由于需要的是最大化每個用戶總消耗能量的長期平均任務(wù)處理量,因此關(guān)注于每個階段的平均獎勵,表示為:
式(13)中π(sk)為sk狀態(tài)下采取的策略,E(·)為取均值。
在已知狀態(tài)轉(zhuǎn)移概率以及信道狀態(tài)完美的情況下,對于任何馬爾科夫決策過程,存在一個最優(yōu)策略π*,優(yōu)于或至少不差于所有其他策略,根據(jù)已知的緩存區(qū)任務(wù)數(shù)量通過策略迭代選擇出最佳即使得價值函數(shù)最大的調(diào)制等級以及發(fā)射功率,帶入效用函數(shù)中可以得到相應(yīng)狀態(tài)下的最優(yōu)能效值,不同狀態(tài)下的得到的能效值不同,對所有狀態(tài)下的最優(yōu)能效值求平均,得到平均最優(yōu)能效。本文仿真之所以能得到最優(yōu)值,其實是假設(shè)預(yù)知某個狀態(tài)時,選擇相應(yīng)行為能獲得最優(yōu)能效,然而在大部分場景中,這個假設(shè)難以成立,即難以獲得狀態(tài)轉(zhuǎn)移概率,以及完美的信道狀態(tài),故采用強化學(xué)習(xí)算法得到接近最優(yōu)的平均能效值。
本節(jié)中運用Asynchronous Advantage Actor-critic算法解決MDP 每個階段的平均回報值。相較于AC算法、Dyna 算法以及DROO 算法,A3C 算法利用同時在多個線程里面分別和環(huán)境進行交互學(xué)習(xí)的方式,算法框架如圖3所示,每個線程即代表根據(jù)不同的信道增益以及緩存區(qū)任務(wù)數(shù)量,選擇不同的從緩存區(qū)取出任務(wù)數(shù)量、調(diào)制等級以及發(fā)射功率后,與環(huán)境交互得到該線程的回報值。每個線程都學(xué)習(xí)出自己的成果,最后把所有子網(wǎng)絡(luò)的學(xué)習(xí)成果匯總起來,整理保存在一個公共的全局網(wǎng)絡(luò)中,并且,子網(wǎng)絡(luò)會定期從公共網(wǎng)絡(luò)中學(xué)習(xí)成果回來指導(dǎo)自己和環(huán)境之后的學(xué)習(xí)交互?;乇芰讼嚓P(guān)性過強的問題的同時還做到了異步并發(fā)的學(xué)習(xí)效果。由于A3C 算法中各個子線程相互獨立,對單個子線程進行分析可推廣至全局。
算法的本質(zhì)為更新相對狀態(tài)值函數(shù)h(s)以及平均獎勵值ρ,建立本文貝爾曼驅(qū)動方程為
狀態(tài)值更新與獎勵值更新可表示為
通過貝爾曼驅(qū)動方程,可以消除對狀態(tài)轉(zhuǎn)移概率的需求,相對狀態(tài)值函數(shù)具體更新過程為
平均獎勵值更新與上式相似
式(16)、(17)中αk與βk決定了狀態(tài)值函數(shù)和平均回報值的當(dāng)前和未來預(yù)估的權(quán)重。式R(sk,π(sk)) +hk+1(sk+1)-hk(sk)-ρk稱為TD error(time slot error),其指導(dǎo)著學(xué)習(xí)過程,確定狀態(tài)值函數(shù)和平均獎勵的學(xué)習(xí)率。
算法初始化時隨機進入一個狀態(tài)sk,則選擇行為的概率服從均勻分布,為了選出獎勵函數(shù)更大的行為,算法設(shè)定了偏好值,其更新公式為
式中ηk決定了偏好值的學(xué)習(xí)率。算法中初始偏好值p(sk,ak)=0,?s∈S,?a∈A,算法最初會統(tǒng)一選擇每個動作的概率,隨著迭代的進行,通過增加選擇該特定動作的偏好值來確定導(dǎo)致相對狀態(tài)值函數(shù)增加的行為的優(yōu)先級。相反情況下,如果TD error 為負時,通過降低其偏好值而受到懲罰,導(dǎo)致相對狀態(tài)值函數(shù)減小。
完整的A3C 算法如表1 所示,由于A3C 是異步多線程的,在此給出任意一個線程的算法流程。首先初始化全局網(wǎng)絡(luò)參數(shù),然后將全局網(wǎng)絡(luò)同步到所有子線程Actor 與Critic 網(wǎng)絡(luò),子線程經(jīng)過參數(shù)學(xué)習(xí)迭代后,將最優(yōu)的學(xué)習(xí)效果同步到全局網(wǎng)絡(luò),同時,更新所有子線程的學(xué)習(xí)參數(shù)為當(dāng)前最優(yōu)全局參數(shù)。
表1 A3C算法Tab.1 A3C algorithm
Actor根據(jù)概率選擇決策,條件概率越大的狀態(tài)行為被選擇到的可能性就越大。算法最初開始時每個動作被選中的概率均等,Actor在初始階段可能選擇任何可用的動作,這也稱作探索階段,與所有的強化學(xué)習(xí)算法相似,A3C 算法在學(xué)習(xí)過程也需要經(jīng)過平衡探索和利用的步驟。利用階段的意義在于搜索平均獎勵最大化的決策,而探索步驟的意義在于嘗試所有可能的最佳決策,避免陷入局部最優(yōu)解。
本次實驗使用的電腦主頻為3 GHz,內(nèi)存為8 GB,處理器 為Intel(R)CORE(TM)i5-8500(四核),故仿真設(shè)置子線程數(shù)為4,電腦的操作系統(tǒng)為Windows 10,使用的仿真平臺為Matlab R2019a 以及Python 3.7.9 版本,神經(jīng)網(wǎng)絡(luò)模型為使用Python 中的torch 庫搭建的網(wǎng)絡(luò)模型,模型中參數(shù)如表2 所示。本次實驗將本文所提算法與Dyna 算法、DROO算法、AC 算法進行對比。在對比算法中,系統(tǒng)參數(shù)與本文算法采用相同設(shè)置,采用自適應(yīng)調(diào)制方式以及固定發(fā)射功率pt=0.8 Watt。
表2 神經(jīng)網(wǎng)絡(luò)參數(shù)設(shè)置Tab.2 Neural network parameter setting
本節(jié)中使用表3中所設(shè)的參數(shù)來構(gòu)建仿真,仿真過程中狀態(tài)集為行為集為
表3 仿真參數(shù)Tab.3 Simulation parameters
A3C算法初始化參數(shù)值αk=0.05,βk=0.005,ηk=0.01,ε=0.6,計算1 比特數(shù)據(jù)需要的CPU 周期數(shù)Ci∈[500,1500] cycle/bit,計算每個CPU 周期的能量消耗Pi∈(0,20 × 10-11) J/cycle,二者均服從均勻分布,節(jié)點計算能力Fi∈{0.1,0.2,…,1}GHz。將最佳解決方案與A3C 算法學(xué)習(xí)的策略作比較。一個任務(wù)所包含數(shù)據(jù)的信息比特為Lb=80 bit,添加錯誤解碼代碼后的任務(wù)數(shù)據(jù)信息比特為L=100 bit。將強化學(xué)習(xí)策略與最佳策略進行比較,證實了學(xué)習(xí)策略接近最優(yōu)策略。將學(xué)習(xí)策略與簡單策略也進行了簡單比較,可以看出強化學(xué)習(xí)算法顯著提高了平均任務(wù)處理量能效。將本文任務(wù)處理機制與其他文獻中的任務(wù)處理機制相比較,本文提出的任務(wù)處理機制得到的平均能效明顯更高。
圖4表示了多節(jié)點情況下A3C算法在平均任務(wù)到達速率λ=2.0 時學(xué)習(xí)到的每消耗1 毫焦耳能量平均處理的任務(wù)數(shù),簡稱為節(jié)點學(xué)習(xí)值,A3C 算法能跟蹤控制概率的變化,從而獲得接近最優(yōu)策略的能力。
在圖4 中可以看出,學(xué)習(xí)到的毫每焦耳平均任務(wù)處理數(shù)非常接近最佳每毫焦耳平均卸載任務(wù)數(shù)。評估了多節(jié)點方案中獨立A3C 算法的性能,用3 個節(jié)點與一個邊緣服務(wù)器通信來模擬多節(jié)點系統(tǒng),節(jié)點1 是最近節(jié)點,節(jié)點3 是最遠節(jié)點,在此方案中,靠近邊緣服務(wù)器的節(jié)點將具有更高的任務(wù)處理能效,因為它實現(xiàn)相同的任務(wù)處理量所需要的能量較少。
圖5 表示了在不同的任務(wù)到達速率λ的情況下,A3C 學(xué)習(xí)策略與簡單策略分別所實現(xiàn)每消耗1毫焦耳能量平均卸載的任務(wù)數(shù)。運用簡單策略所得到的平均能效值稱之為簡單值。在簡單策略中,代理選擇最高可能的調(diào)制方式同時選擇出給定調(diào)制方式的情況下達到預(yù)定義信號干擾比(SIR)的發(fā)射功率。應(yīng)用簡單策略情況下,當(dāng)緩沖器中只有1 個任務(wù)時,發(fā)射機選擇二進制相移鍵控(BPSK)進行發(fā)送,當(dāng)隊列中分別有2 個任務(wù)和多于3 個任務(wù)時,發(fā)射機選擇正交相移鍵控(QPSK)和8PSK 進行發(fā)送。對于每個調(diào)制,發(fā)射機選擇發(fā)射功率以實現(xiàn)固定的預(yù)定義SIR。對于BPSK 到8PSK,分別使用(6,10,15)dB 作為預(yù)定義的鏈路信噪比。由于服務(wù)器端接收任務(wù)數(shù)據(jù)的概率并非100%,傳感器端未收到服務(wù)器端返回的ACK 信令,則需要重新發(fā)送任務(wù)數(shù)據(jù),如果任務(wù)成功接收概率過低,重發(fā)次數(shù)過多,消耗能量越大,故需要滿足特定任務(wù)成功接收概率,而預(yù)定義的SIR 的任務(wù)分組成功正確接收概率可以達到80%以上。
從圖5 中可以看出,在任務(wù)到達速率低時(λ≤1),兩種策略的所達到的平均任務(wù)處理能效差距不大,但隨著任務(wù)到達率提升,A3C 算法相較于簡單策略所提升的平均能效顯而易見。
圖6 表示了在不同任務(wù)到達率情況下,采用A3C 學(xué)習(xí)策略、Dyna 算法框架、DROO 算法框架以及簡單策略所達到的平均能效值。
從圖6 中可以看出,在相同的平均任務(wù)到達速率情況下,A3C 算法學(xué)習(xí)到的值非常接近最優(yōu)策略值,并優(yōu)于DROO、Dyna 框架所學(xué)習(xí)到的值,并在高任務(wù)到達速率時,每消耗總能量能達到2~3 倍簡單策略所能達到的任務(wù)處理數(shù)量。
因此,所提任務(wù)處理機制具有更高的能量效率。最優(yōu)策略由于需要了解信道轉(zhuǎn)換概率和數(shù)據(jù)包到達率,在實際應(yīng)用中可能不可行,A3C算法不需要獲得相應(yīng)轉(zhuǎn)換概率卻仍然能獲得近似最優(yōu)的任務(wù)處理量。
圖7 表示了相較于傳統(tǒng)算法,A3C 算法帶來的收斂速度上的提升。為了方便比較,在傳統(tǒng)算法中也采用本文的任務(wù)處理機制,便于觀察在能達到相同的任務(wù)處理平均能效的情況下的收斂速率。
考慮單節(jié)點的情況下AC 算法、DROO 算法、Dyna 算法以及A3C 算法收斂速度,從圖中可以看出,在相同的任務(wù)處理數(shù)量以及相同的參數(shù)設(shè)置下,A3C學(xué)習(xí)到的平均能效在迭代了3000次后開始收斂,而Dyna算法學(xué)習(xí)到的平均能效收斂在7000次左右,而DROO 以及AC 算法則需要接近8200 次迭代才能收斂,從圖中可以看出,A3C 算法的收斂速度相較于傳統(tǒng)算法得到了明顯的提升。各算法達到行為收斂的時間如表4所示。
從表4中亦能看出,A3C算法收斂時間快于其他算法。A3C 算法雖然提升了學(xué)習(xí)收斂速率,但在計算方面也更加復(fù)雜,A3C 算法計算復(fù)雜度為O(N),子線程越多,收斂速度越快,但復(fù)雜度也會越大,應(yīng)根據(jù)實際情況調(diào)整子線程的數(shù)量,以滿足用戶需求。
本文將無線傳感器網(wǎng)絡(luò)中任務(wù)處理的能效問題建模為MDP,從物理層以及數(shù)據(jù)鏈路層參數(shù)最佳控制角度著眼于無線傳感器將任務(wù)本地計算以及卸載到邊緣進行計算過程,保證任務(wù)得到有效處理的同時近似最大化系統(tǒng)能效,用強化學(xué)習(xí)方法進行求解。文章比較了本文方案與其他方案的能量效率,有明顯的提升。在未來的工作中,將考慮把多節(jié)點系統(tǒng)中節(jié)點間的獨立學(xué)習(xí)擴展為聯(lián)合學(xué)習(xí)以及無線傳感器的能量供應(yīng)情況。