WSN中基于強化學(xué)習(xí)的能效優(yōu)化任務(wù)處理機制

2022-04-11 10:43:20張明杰朱江

信號處理 2022年3期

張明杰朱江

（重慶郵電大學(xué)通信與信息工程學(xué)院，移動通信教育部工程研究中心，移動通信技術(shù)重慶市重點實驗室，重慶 400065）

1 引言

物聯(lián)網(wǎng)（internet of things，IoT）時代的來臨促進了無線傳感器網(wǎng)絡(luò)（wireless sensor network，WSN）的部署，由于WSN 現(xiàn)有以及潛在的廣泛應(yīng)用，使其被確定為當(dāng)今最重要的技術(shù)之一［1］。但因為計算能力和電池容量的限制，無線傳感器通常無法有效處理復(fù)雜的計算任務(wù)，因此，如何提升計算能力和能量效率是WSN 研究的熱點領(lǐng)域。國內(nèi)外對于無線傳感器能量效率的研究主要分為資源的合理調(diào)度［2-4］以及運用能量收集技術(shù)（energy harvesting，EH）對無線傳感器進行充能［5-8］。

為了滿足更多場景下任務(wù)處理需求，將邊緣計算與WSN 相結(jié)合。移動邊緣計算（mobile edge computing，MEC）能夠在網(wǎng)絡(luò)邊緣為用戶提供計算卸載和數(shù)據(jù)緩存，為用戶提供更加高效的存儲和傳輸。采用基于邊緣計算的任務(wù)卸載技術(shù)可提高任務(wù)處理效率［9］。然而，在邊緣計算中，將整個計算任務(wù)卸載到邊緣計算服務(wù)器的方式能效不高，因此某些任務(wù)應(yīng)由本地計算執(zhí)行［10］。文獻［11］定義了一種卸載優(yōu)先級函數(shù)，將部分任務(wù)卸載到邊緣進行計算。在滿足時間延遲的前提下，提出有效的卸載決策以最小化能源成本是一個關(guān)鍵問題［12-15］。通過對緩存器內(nèi)任務(wù)的部署，可以有效提升任務(wù)處理過程中的能量利用率，降低網(wǎng)絡(luò)能耗［16-17］。

將WSN 與邊緣計算結(jié)合后，數(shù)據(jù)能夠得到處理，但二者的自組織能力以及對于環(huán)境的適應(yīng)性有限，為解決相應(yīng)問題，國內(nèi)外學(xué)者采用人工智能［18］方法對傳感器不同的任務(wù)卸載場景進行智能調(diào)度，降低了系統(tǒng)能耗。文獻［19］提出了一種基于強化學(xué)習(xí)的隱私感知卸載方案，應(yīng)用Dyna算法框架提供模擬卸載以加快學(xué)習(xí)過程，從而提高計算性能。文獻［20］針對具有EH 的IoT 設(shè)備提出了一種基于強化學(xué)習(xí)的卸載方案。文獻［21］采用二進制卸載策略的無線MEC 網(wǎng)絡(luò)，提出了基于深度強化學(xué)習(xí)的DROO 在線卸載算法框架，降低了計算復(fù)雜度。文獻［22］提出了一種自適應(yīng)睡眠/喚醒調(diào)度方法，在不犧牲數(shù)據(jù)包傳遞效率的情況下，節(jié)省每個節(jié)點的能量。然而，上述工作主要集中在提升傳輸速率和降低計算復(fù)雜度，較少有學(xué)者考慮物理層以及數(shù)據(jù)鏈路層參數(shù)對系統(tǒng)能量消耗的影響。但相關(guān)參數(shù)對系統(tǒng)能效的提高有著重要的意義。

為了提高無線傳感器設(shè)備系統(tǒng)的任務(wù)處理能效，本文研究了基于能效的任務(wù)處理機制，主要工作如下。

（1）建立了基于馬爾可夫決策過程的任務(wù)處理機制。物理層以及數(shù)據(jù)鏈路層的最佳控制角度考慮任務(wù)本地計算和邊緣計算能量的聯(lián)合優(yōu)化，通過智能優(yōu)化代理得到任務(wù)到達緩存區(qū)后取出的本地計算任務(wù)量和卸載任務(wù)量，保證任務(wù)得到有效處理的同時得到近似最優(yōu)的系統(tǒng)能效。

（2）利用強化學(xué)習(xí)代理通過貪婪策略進行動作探索和利用從而獲得最佳的卸載策略。針對在線學(xué)習(xí)收斂速度慢的問題，A3C 算法采用異步訓(xùn)練框架加快學(xué)習(xí)收斂速度。

2 系統(tǒng)模型

圖1是多個無線傳感器網(wǎng)絡(luò)的節(jié)點進行任務(wù)處理的模型，每個無線傳感器buffer 的處理情況都和節(jié)點2相同。每個無線傳感節(jié)點采集到的數(shù)據(jù)被封裝成待處理的任務(wù)，存儲在內(nèi)部的緩存器中。每隔相同的時間段（時隙），節(jié)點從緩存器內(nèi)取出一定數(shù)量的任務(wù)進行處理：即一部分任務(wù)卸載到邊緣服務(wù)器進行處理，一部分由傳感器消耗自身資源進行本地處理。

當(dāng)有任務(wù)卸載到邊緣服務(wù)器進行處理，在每個時隙內(nèi)，各個無線傳感節(jié)點會以CDMA 的方式將任務(wù)數(shù)據(jù)發(fā)送到邊緣服務(wù)器端。因此，系統(tǒng)采用的是以時隙為時間單位的時分多址與CDMA 混合的多址方式。一個節(jié)點經(jīng)歷的無線信道干擾取決于其他節(jié)點采用的傳輸功率（詳見4.3節(jié)）。每個節(jié)點根據(jù)其緩存區(qū)內(nèi)任務(wù)數(shù)量和測得的信道狀態(tài)獨立地學(xué)習(xí)其任務(wù)處理策略。

單個無線傳感器節(jié)點與邊緣服務(wù)器的任務(wù)處理框圖如圖2 所示。設(shè)緩存器長度為L，λ為一幀內(nèi)任務(wù)到達緩存器的平均到達率，λ服從泊松分布。某一幀開始時節(jié)點i緩存器內(nèi)任務(wù)量為為從緩存區(qū)內(nèi)取出的任務(wù)數(shù)量，取出的任務(wù)數(shù)量分成本地計算以及邊緣計算兩部分，則有

δ={ACK，NACK}為邊緣服務(wù)器反饋的接受確認(rèn)信息，成功接收為ACK，失敗則返回NACK，I{·}為指示函數(shù)，括號內(nèi)為真，函數(shù)值返回1，否則返回0。

在傳輸之前，可以通過發(fā)送導(dǎo)頻信息獲得邊緣計算服務(wù)器端反饋的信道狀態(tài)信息（channel state information，CSI）。智能控制代理觀察緩存區(qū)內(nèi)任務(wù)量以及前一次傳輸?shù)男诺涝鲆妫诖嘶A(chǔ)上，決定從緩存區(qū)取出多少任務(wù)進行本地計算和卸載以及獲得相應(yīng)的最佳傳輸功率和調(diào)制級別，使任務(wù)得到有效處理的同時近似最大化系統(tǒng)能效。若某信道的任務(wù)數(shù)據(jù)被成功接收，接收機將反饋確認(rèn)消息ACK，否則反饋失敗消息NACK。沒有被成功發(fā)送的任務(wù)數(shù)據(jù)將被重發(fā)。

3 能耗分析

任務(wù)處理過程中，所消耗的能量主要由三部分構(gòu)成，分別為本地計算能量、卸載能量以及從邊緣服務(wù)器下載任務(wù)處理結(jié)果所耗能量。由于計算結(jié)果下載能量相較于本地計算能量以及計算卸載能量可以忽略不計，本文暫不考慮。

3.1 本地計算能耗

本地計算能量消耗取決于本地計算任務(wù)量以及無線傳感器節(jié)點的計算能力，假設(shè)CPU 頻率在每個節(jié)點處為固定值，Ci為節(jié)點i計算1比特數(shù)據(jù)需要的CPU 周期數(shù)，Pi為該節(jié)點進行本地計算每個CPU周期的能量消耗，則節(jié)點i一幀內(nèi)本地計算總能耗表達式為

3.2 卸載所耗的能量

在本地計算時間不能滿足時延約束的情況下，將多余任務(wù)卸載到邊緣服務(wù)器進行計算。任務(wù)卸載所采取的傳輸功率取決于強化學(xué)習(xí)代理所做的決策。卸載所消耗的能量如下式所示：

4 基于MDP的任務(wù)處理機制

將基于系統(tǒng)能效的任務(wù)傳輸調(diào)度機制建模為馬爾科夫決策過程，其狀態(tài)、行為、狀態(tài)轉(zhuǎn)移概率以及回報函數(shù)被定義為(S，A，P，R)四元組。

4.1 狀態(tài)集S

包含所有可能狀態(tài)的狀態(tài)空間，在本文中，狀態(tài)空間定義為關(guān)于緩存區(qū)任務(wù)量、信道增益的聚合狀態(tài)，其中為節(jié)點i緩沖區(qū)內(nèi)的任務(wù)量，γi為卸載任務(wù)時節(jié)點i信道的信道增益。

4.2 行為集A

包含所有可能行為的行為空間，在本文中，行為空間定義為智能控制代理根據(jù)狀態(tài)空間選取的調(diào)制等級和發(fā)射功率以及從緩存區(qū)取出的任務(wù)量，表示為狀態(tài)空間由信道增益以及緩存器內(nèi)任務(wù)數(shù)量構(gòu)成，每轉(zhuǎn)換到一個新的狀態(tài)會得到信道增益以及緩存器當(dāng)前任務(wù)數(shù)量參數(shù)，根據(jù)兩個參數(shù)，行為空間根據(jù)獎勵函數(shù)選擇出最優(yōu)的從緩存區(qū)取出的任務(wù)數(shù)量、調(diào)制等級以及發(fā)射功率，當(dāng)緩存器內(nèi)任務(wù)數(shù)量多時，需要使用高的調(diào)制等級增加傳輸吞吐量以滿足任務(wù)處理需求。為節(jié)點i從緩存器內(nèi)取出的任務(wù)量，mi為節(jié)點i根據(jù)狀態(tài)選擇的調(diào)制等級（BPSK-8PSK）為節(jié)點i相應(yīng)調(diào)制等級的發(fā)射功率。

4.3 狀態(tài)轉(zhuǎn)移概率P

使用有限狀態(tài)馬爾可夫信道對無線信道動態(tài)進行建模［23-24］，將等效信道增益劃分為有限數(shù)K個區(qū)間，0=Γ0＜Γ1… ＜ΓK，信道增益在ΓK-1到ΓK間則稱為狀態(tài)k，在服從瑞利衰落的信道中，γ呈指數(shù)分布，概率密度函數(shù)為p(γ)=1/γ0exp(-γ/γ0)，其中γ0是平均信道增益。

穩(wěn)態(tài)概率為

狀態(tài)轉(zhuǎn)移概率為

其中N(Γ)=是電平交叉函數(shù)，fd是最大多普勒頻率。πk為狀態(tài)sk下選擇行為ak的概率。

任務(wù)成功分組傳輸概率為

令K表示成功發(fā)送所需的重傳次數(shù)，設(shè)每次傳輸都是獨立的，則K的概率質(zhì)量函數(shù)為

得到了成功分組傳輸概率以及信道狀態(tài)轉(zhuǎn)移概率，相應(yīng)的節(jié)點狀態(tài)轉(zhuǎn)移以及轉(zhuǎn)移概率為

傳輸成功：

傳輸失?。?/p>

4.4 獎勵函數(shù)R

在WSN 的應(yīng)用中，能耗、吞吐量以及時延都是非常關(guān)鍵的因素，在最小化能源消耗的同時，如果任務(wù)處理數(shù)量太少或延時太大都是不可接受的。因此，采用總消耗的能量成功處理的任務(wù)量作為目標(biāo)函數(shù)。從緩存區(qū)內(nèi)取出的任務(wù)分為本地計算以及卸載到邊緣兩部分分別進行處理。系統(tǒng)的目標(biāo)函數(shù)為每總消耗能量的成功任務(wù)處理數(shù)量，則一幀內(nèi)效用函數(shù)表達式為

式（11）中PΓ(Γi，m)為任務(wù)成功分組傳輸概率，效用函數(shù)的單位為任務(wù)處理數(shù)量每焦耳。假設(shè)卸載一個任務(wù)所包含數(shù)據(jù)的信息比特為Lb與添加錯誤解碼代碼后的任務(wù)數(shù)據(jù)信息比特為L。傳輸速率為Rbbit/s。傳輸消耗能量為

由于任務(wù)到達速率的不同，不可預(yù)知下一狀態(tài)即將到達多少任務(wù)量，如果任務(wù)量過多，而采用的卸載策略卸載任務(wù)量小，則根據(jù)當(dāng)前緩存區(qū)內(nèi)所剩余的任務(wù)數(shù)量對當(dāng)前獎勵函數(shù)進行懲罰，迫使當(dāng)前狀態(tài)時，選擇卸載任務(wù)量更大的行為。為了最小化緩存區(qū)溢出的可能性，將緩存處理成本合并到獎勵函數(shù)中，提高服務(wù)質(zhì)量（Quality of Service，QoS）。獎勵函數(shù)表示為

獎勵函數(shù)前一項為每單位總能量消耗后任務(wù)成功處理量。后一項是緩存區(qū)處理成本，權(quán)重ε在防止緩沖溢出的同時，使得緩存處理成本降低。獎勵函數(shù)由貝爾曼方程驅(qū)動，通過循環(huán)迭代的方式獲得計算回報值R(s，a)。

由于需要的是最大化每個用戶總消耗能量的長期平均任務(wù)處理量，因此關(guān)注于每個階段的平均獎勵，表示為：

式（13）中π(sk)為sk狀態(tài)下采取的策略，E(·)為取均值。

5 求近似最優(yōu)解

在已知狀態(tài)轉(zhuǎn)移概率以及信道狀態(tài)完美的情況下，對于任何馬爾科夫決策過程，存在一個最優(yōu)策略π*，優(yōu)于或至少不差于所有其他策略，根據(jù)已知的緩存區(qū)任務(wù)數(shù)量通過策略迭代選擇出最佳即使得價值函數(shù)最大的調(diào)制等級以及發(fā)射功率，帶入效用函數(shù)中可以得到相應(yīng)狀態(tài)下的最優(yōu)能效值，不同狀態(tài)下的得到的能效值不同，對所有狀態(tài)下的最優(yōu)能效值求平均，得到平均最優(yōu)能效。本文仿真之所以能得到最優(yōu)值，其實是假設(shè)預(yù)知某個狀態(tài)時，選擇相應(yīng)行為能獲得最優(yōu)能效，然而在大部分場景中，這個假設(shè)難以成立，即難以獲得狀態(tài)轉(zhuǎn)移概率，以及完美的信道狀態(tài)，故采用強化學(xué)習(xí)算法得到接近最優(yōu)的平均能效值。

本節(jié)中運用Asynchronous Advantage Actor-critic算法解決MDP 每個階段的平均回報值。相較于AC算法、Dyna 算法以及DROO 算法，A3C 算法利用同時在多個線程里面分別和環(huán)境進行交互學(xué)習(xí)的方式，算法框架如圖3所示，每個線程即代表根據(jù)不同的信道增益以及緩存區(qū)任務(wù)數(shù)量，選擇不同的從緩存區(qū)取出任務(wù)數(shù)量、調(diào)制等級以及發(fā)射功率后，與環(huán)境交互得到該線程的回報值。每個線程都學(xué)習(xí)出自己的成果，最后把所有子網(wǎng)絡(luò)的學(xué)習(xí)成果匯總起來，整理保存在一個公共的全局網(wǎng)絡(luò)中，并且，子網(wǎng)絡(luò)會定期從公共網(wǎng)絡(luò)中學(xué)習(xí)成果回來指導(dǎo)自己和環(huán)境之后的學(xué)習(xí)交互?；乇芰讼嚓P(guān)性過強的問題的同時還做到了異步并發(fā)的學(xué)習(xí)效果。由于A3C 算法中各個子線程相互獨立，對單個子線程進行分析可推廣至全局。

算法的本質(zhì)為更新相對狀態(tài)值函數(shù)h(s)以及平均獎勵值ρ，建立本文貝爾曼驅(qū)動方程為

狀態(tài)值更新與獎勵值更新可表示為

通過貝爾曼驅(qū)動方程，可以消除對狀態(tài)轉(zhuǎn)移概率的需求，相對狀態(tài)值函數(shù)具體更新過程為

平均獎勵值更新與上式相似

式（16）、（17）中αk與βk決定了狀態(tài)值函數(shù)和平均回報值的當(dāng)前和未來預(yù)估的權(quán)重。式R(sk，π(sk)) +hk+1(sk+1)-hk(sk)-ρk稱為TD error（time slot error），其指導(dǎo)著學(xué)習(xí)過程，確定狀態(tài)值函數(shù)和平均獎勵的學(xué)習(xí)率。

算法初始化時隨機進入一個狀態(tài)sk，則選擇行為的概率服從均勻分布，為了選出獎勵函數(shù)更大的行為，算法設(shè)定了偏好值，其更新公式為

式中ηk決定了偏好值的學(xué)習(xí)率。算法中初始偏好值p(sk，ak)=0，?s∈S，?a∈A，算法最初會統(tǒng)一選擇每個動作的概率，隨著迭代的進行，通過增加選擇該特定動作的偏好值來確定導(dǎo)致相對狀態(tài)值函數(shù)增加的行為的優(yōu)先級。相反情況下，如果TD error 為負時，通過降低其偏好值而受到懲罰，導(dǎo)致相對狀態(tài)值函數(shù)減小。

完整的A3C 算法如表1 所示，由于A3C 是異步多線程的，在此給出任意一個線程的算法流程。首先初始化全局網(wǎng)絡(luò)參數(shù)，然后將全局網(wǎng)絡(luò)同步到所有子線程Actor 與Critic 網(wǎng)絡(luò)，子線程經(jīng)過參數(shù)學(xué)習(xí)迭代后，將最優(yōu)的學(xué)習(xí)效果同步到全局網(wǎng)絡(luò)，同時，更新所有子線程的學(xué)習(xí)參數(shù)為當(dāng)前最優(yōu)全局參數(shù)。

表1 A3C算法Tab.1 A3C algorithm

Actor根據(jù)概率選擇決策，條件概率越大的狀態(tài)行為被選擇到的可能性就越大。算法最初開始時每個動作被選中的概率均等，Actor在初始階段可能選擇任何可用的動作，這也稱作探索階段，與所有的強化學(xué)習(xí)算法相似，A3C 算法在學(xué)習(xí)過程也需要經(jīng)過平衡探索和利用的步驟。利用階段的意義在于搜索平均獎勵最大化的決策，而探索步驟的意義在于嘗試所有可能的最佳決策，避免陷入局部最優(yōu)解。

6 仿真結(jié)果與分析

6.1 參數(shù)設(shè)置

本次實驗使用的電腦主頻為3 GHz，內(nèi)存為8 GB，處理器為Intel（R）CORE（TM）i5-8500（四核），故仿真設(shè)置子線程數(shù)為4，電腦的操作系統(tǒng)為Windows 10，使用的仿真平臺為Matlab R2019a 以及Python 3.7.9 版本，神經(jīng)網(wǎng)絡(luò)模型為使用Python 中的torch 庫搭建的網(wǎng)絡(luò)模型，模型中參數(shù)如表2 所示。本次實驗將本文所提算法與Dyna 算法、DROO算法、AC 算法進行對比。在對比算法中，系統(tǒng)參數(shù)與本文算法采用相同設(shè)置，采用自適應(yīng)調(diào)制方式以及固定發(fā)射功率pt=0.8 Watt。

表2 神經(jīng)網(wǎng)絡(luò)參數(shù)設(shè)置Tab.2 Neural network parameter setting

本節(jié)中使用表3中所設(shè)的參數(shù)來構(gòu)建仿真，仿真過程中狀態(tài)集為行為集為

表3 仿真參數(shù)Tab.3 Simulation parameters

A3C算法初始化參數(shù)值αk=0.05，βk=0.005，ηk=0.01，ε=0.6，計算1 比特數(shù)據(jù)需要的CPU 周期數(shù)Ci∈[500，1500] cycle/bit，計算每個CPU 周期的能量消耗Pi∈(0，20 × 10-11) J/cycle，二者均服從均勻分布，節(jié)點計算能力Fi∈{0.1，0.2，…，1}GHz。將最佳解決方案與A3C 算法學(xué)習(xí)的策略作比較。一個任務(wù)所包含數(shù)據(jù)的信息比特為Lb=80 bit，添加錯誤解碼代碼后的任務(wù)數(shù)據(jù)信息比特為L=100 bit。將強化學(xué)習(xí)策略與最佳策略進行比較，證實了學(xué)習(xí)策略接近最優(yōu)策略。將學(xué)習(xí)策略與簡單策略也進行了簡單比較，可以看出強化學(xué)習(xí)算法顯著提高了平均任務(wù)處理量能效。將本文任務(wù)處理機制與其他文獻中的任務(wù)處理機制相比較，本文提出的任務(wù)處理機制得到的平均能效明顯更高。

6.2 實驗結(jié)果分析

圖4表示了多節(jié)點情況下A3C算法在平均任務(wù)到達速率λ=2.0 時學(xué)習(xí)到的每消耗1 毫焦耳能量平均處理的任務(wù)數(shù)，簡稱為節(jié)點學(xué)習(xí)值，A3C 算法能跟蹤控制概率的變化，從而獲得接近最優(yōu)策略的能力。

在圖4 中可以看出，學(xué)習(xí)到的毫每焦耳平均任務(wù)處理數(shù)非常接近最佳每毫焦耳平均卸載任務(wù)數(shù)。評估了多節(jié)點方案中獨立A3C 算法的性能，用3 個節(jié)點與一個邊緣服務(wù)器通信來模擬多節(jié)點系統(tǒng)，節(jié)點1 是最近節(jié)點，節(jié)點3 是最遠節(jié)點，在此方案中，靠近邊緣服務(wù)器的節(jié)點將具有更高的任務(wù)處理能效，因為它實現(xiàn)相同的任務(wù)處理量所需要的能量較少。

圖5 表示了在不同的任務(wù)到達速率λ的情況下，A3C 學(xué)習(xí)策略與簡單策略分別所實現(xiàn)每消耗1毫焦耳能量平均卸載的任務(wù)數(shù)。運用簡單策略所得到的平均能效值稱之為簡單值。在簡單策略中，代理選擇最高可能的調(diào)制方式同時選擇出給定調(diào)制方式的情況下達到預(yù)定義信號干擾比（SIR）的發(fā)射功率。應(yīng)用簡單策略情況下，當(dāng)緩沖器中只有1 個任務(wù)時，發(fā)射機選擇二進制相移鍵控（BPSK）進行發(fā)送，當(dāng)隊列中分別有2 個任務(wù)和多于3 個任務(wù)時，發(fā)射機選擇正交相移鍵控（QPSK）和8PSK 進行發(fā)送。對于每個調(diào)制，發(fā)射機選擇發(fā)射功率以實現(xiàn)固定的預(yù)定義SIR。對于BPSK 到8PSK，分別使用（6，10，15）dB 作為預(yù)定義的鏈路信噪比。由于服務(wù)器端接收任務(wù)數(shù)據(jù)的概率并非100%，傳感器端未收到服務(wù)器端返回的ACK 信令，則需要重新發(fā)送任務(wù)數(shù)據(jù)，如果任務(wù)成功接收概率過低，重發(fā)次數(shù)過多，消耗能量越大，故需要滿足特定任務(wù)成功接收概率，而預(yù)定義的SIR 的任務(wù)分組成功正確接收概率可以達到80%以上。

從圖5 中可以看出，在任務(wù)到達速率低時（λ≤1），兩種策略的所達到的平均任務(wù)處理能效差距不大，但隨著任務(wù)到達率提升，A3C 算法相較于簡單策略所提升的平均能效顯而易見。

圖6 表示了在不同任務(wù)到達率情況下，采用A3C 學(xué)習(xí)策略、Dyna 算法框架、DROO 算法框架以及簡單策略所達到的平均能效值。

從圖6 中可以看出，在相同的平均任務(wù)到達速率情況下，A3C 算法學(xué)習(xí)到的值非常接近最優(yōu)策略值，并優(yōu)于DROO、Dyna 框架所學(xué)習(xí)到的值，并在高任務(wù)到達速率時，每消耗總能量能達到2～3 倍簡單策略所能達到的任務(wù)處理數(shù)量。

因此，所提任務(wù)處理機制具有更高的能量效率。最優(yōu)策略由于需要了解信道轉(zhuǎn)換概率和數(shù)據(jù)包到達率，在實際應(yīng)用中可能不可行，A3C算法不需要獲得相應(yīng)轉(zhuǎn)換概率卻仍然能獲得近似最優(yōu)的任務(wù)處理量。

圖7 表示了相較于傳統(tǒng)算法，A3C 算法帶來的收斂速度上的提升。為了方便比較，在傳統(tǒng)算法中也采用本文的任務(wù)處理機制，便于觀察在能達到相同的任務(wù)處理平均能效的情況下的收斂速率。

考慮單節(jié)點的情況下AC 算法、DROO 算法、Dyna 算法以及A3C 算法收斂速度，從圖中可以看出，在相同的任務(wù)處理數(shù)量以及相同的參數(shù)設(shè)置下，A3C學(xué)習(xí)到的平均能效在迭代了3000次后開始收斂，而Dyna算法學(xué)習(xí)到的平均能效收斂在7000次左右，而DROO 以及AC 算法則需要接近8200 次迭代才能收斂，從圖中可以看出，A3C 算法的收斂速度相較于傳統(tǒng)算法得到了明顯的提升。各算法達到行為收斂的時間如表4所示。

從表4中亦能看出，A3C算法收斂時間快于其他算法。A3C 算法雖然提升了學(xué)習(xí)收斂速率，但在計算方面也更加復(fù)雜，A3C 算法計算復(fù)雜度為O(N)，子線程越多，收斂速度越快，但復(fù)雜度也會越大，應(yīng)根據(jù)實際情況調(diào)整子線程的數(shù)量，以滿足用戶需求。

7 結(jié)論

本文將無線傳感器網(wǎng)絡(luò)中任務(wù)處理的能效問題建模為MDP，從物理層以及數(shù)據(jù)鏈路層參數(shù)最佳控制角度著眼于無線傳感器將任務(wù)本地計算以及卸載到邊緣進行計算過程，保證任務(wù)得到有效處理的同時近似最大化系統(tǒng)能效，用強化學(xué)習(xí)方法進行求解。文章比較了本文方案與其他方案的能量效率，有明顯的提升。在未來的工作中，將考慮把多節(jié)點系統(tǒng)中節(jié)點間的獨立學(xué)習(xí)擴展為聯(lián)合學(xué)習(xí)以及無線傳感器的能量供應(yīng)情況。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看