• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于經(jīng)驗(yàn)指導(dǎo)的深度確定性多行動(dòng)者-評(píng)論家算法

      2019-07-30 11:26:54陳紅名姜玉斌張琳琳
      關(guān)鍵詞:評(píng)論家行動(dòng)者梯度

      陳紅名 劉 全,2,3,4 閆 巖 何 斌 姜玉斌 張琳琳

      1(蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 江蘇蘇州 215006)2(江蘇省計(jì)算機(jī)信息處理技術(shù)重點(diǎn)實(shí)驗(yàn)室(蘇州大學(xué)) 江蘇蘇州 215006)3(符號(hào)計(jì)算與知識(shí)工程教育部重點(diǎn)實(shí)驗(yàn)室(吉林大學(xué)) 長(zhǎng)春 130012)4(軟件新技術(shù)與產(chǎn)業(yè)化協(xié)同創(chuàng)新中心 南京 210000)

      目前,強(qiáng)化學(xué)習(xí)已經(jīng)廣泛應(yīng)用于仿真模擬、工業(yè)控制和博弈游戲等領(lǐng)域[1-5].強(qiáng)化學(xué)習(xí)(reinforcement learning)的目標(biāo)是學(xué)習(xí)一個(gè)最優(yōu)策略使得智能體(agent)能夠獲得最大的累積獎(jiǎng)賞[6].強(qiáng)化學(xué)習(xí)方法大體上可以分為3類:基于值函數(shù)的方法、策略搜索方法(或策略梯度方法)和行動(dòng)者-評(píng)論家方法.

      基于值函數(shù)的方法通過學(xué)習(xí)一個(gè)值函數(shù)獲得一個(gè)最優(yōu)策略,這種方法適用于離散動(dòng)作空間的任務(wù),對(duì)于連續(xù)動(dòng)作空間來說是并不適用的.例如Rummery和Niranjan[7]提出的Sarsa算法、Watkins等人[8]提出的Q-Learning算法.對(duì)比基于值函數(shù)的方法,策略搜索方法并沒有學(xué)習(xí)值函數(shù)而是直接學(xué)習(xí)一個(gè)策略,使得累積獎(jiǎng)賞最大化.例如Williams提出的基于蒙特卡洛方法[9](Monte Carlo methods, MC)的強(qiáng)化(reinforce)算法和使用基線的強(qiáng)化(reinforce with baseline)算法[10],后者是前者的泛化.行動(dòng)者-評(píng)論家算法結(jié)合了基于值的方法和策略搜索方法,其中參數(shù)化的策略稱為行動(dòng)者,學(xué)習(xí)到的值函數(shù)稱為評(píng)論家.例如Barto和Sutton等人[11]提出的行動(dòng)者-評(píng)論家算法(actor-critic, AC),Peters和Schaal提出的自然行動(dòng)者-評(píng)論家方法[12](natural actor-critic, NAC).

      傳統(tǒng)強(qiáng)化學(xué)習(xí)面臨的問題是對(duì)于高維狀態(tài)動(dòng)作空間感知能力不足.最近幾年隨著深度學(xué)習(xí)(deep learning, DL)的流行,由于其對(duì)高維狀態(tài)動(dòng)作空間有很好的表示能力,因此深度學(xué)習(xí)與傳統(tǒng)強(qiáng)化學(xué)習(xí)的結(jié)合產(chǎn)生了深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning, DRL)這一研究熱點(diǎn).這一類方法在一些游戲和機(jī)器人控制任務(wù)上取得了不錯(cuò)的成果.比如基于Q-Learning的深度Q網(wǎng)絡(luò)(deep Q-network, DQN)[13]算法在49個(gè)Atari 2600游戲中的實(shí)驗(yàn)結(jié)果超過以往所有算法,并且可以媲美職業(yè)人類玩家的水平.在DQN之上有很多改進(jìn)的算法版本,例如在此基礎(chǔ)上提出的競(jìng)爭(zhēng)網(wǎng)絡(luò)結(jié)構(gòu)[14](dueling network architecture, DNA)和可用于連續(xù)動(dòng)作空間的歸一化優(yōu)勢(shì)函數(shù)連續(xù)Q學(xué)習(xí)[15](continuous Q-Learning with normalized advantage functions, NAF)等,還有基于行動(dòng)者-評(píng)論家方法的深度確定性策略梯度[16](deep deterministic policy gradient, DDPG)方法,以及異步優(yōu)勢(shì)行動(dòng)者-評(píng)論家[17](asynchronous advantage actor-critic, A3C)方法等.此外深度強(qiáng)化學(xué)習(xí)在其他研究方向比如圖像處理、自然語言處理等都有一些重要應(yīng)用[18-20].

      基于值函數(shù)的方法像深度Q網(wǎng)絡(luò)等,大多是根據(jù)值函數(shù)通過ε-greedy策略來選擇動(dòng)作,即以ε的概率隨機(jī)選擇動(dòng)作,以1-ε的概率選擇具有最大值的動(dòng)作.這類方法在離散動(dòng)作空間任務(wù)中具有很好的效果,而對(duì)于連續(xù)控制任務(wù)卻不是很適用[21],這是因?yàn)檫B續(xù)動(dòng)作空間中具有最大值的動(dòng)作不易確定.基于策略梯度的方法可以分為隨機(jī)策略梯度[22](stochastic policy gradients, SPG)和確定性策略梯度[23](deterministic policy gradients, DPG).隨機(jī)策略梯度在選擇動(dòng)作時(shí)輸出是每個(gè)可能的動(dòng)作的概率,這類方法也不太適用于連續(xù)動(dòng)作空間任務(wù).而確定性策略梯度方法在選擇行動(dòng)時(shí),策略的輸出是一個(gè)確定的動(dòng)作,因此可以很好地應(yīng)用于連續(xù)控制任務(wù).確定性策略梯度與AC方法的結(jié)合形成了確定性AC方法[23](deterministic actor-critic, DAC),比如DDPG.這類方法雖然可以很好地適用于連續(xù)動(dòng)作空間,但是其性能很大程度上取決于探索方法的好壞.它們一般通過在動(dòng)作中加入外部噪聲實(shí)現(xiàn)探索或者使用高斯策略實(shí)現(xiàn)探索,但這些探索方式實(shí)際上是盲目的,因此在一些連續(xù)控制任務(wù)表現(xiàn)不是很好.

      為了提高確定性AC方法在連續(xù)控制問題上的性能,本文提出了基于經(jīng)驗(yàn)指導(dǎo)的深度確定性多行動(dòng)者-評(píng)論家算法(experience-guided deep deter-ministic actor-critic with multi-actor,EGDDAC-MA). EGDDAC-MA并不需要外部探索噪聲源,而是從自身優(yōu)秀經(jīng)驗(yàn)中學(xué)習(xí)一個(gè)指導(dǎo)網(wǎng)絡(luò),對(duì)行動(dòng)的選擇和評(píng)論家網(wǎng)絡(luò)的更新進(jìn)行指導(dǎo).此外為了緩解單個(gè)網(wǎng)絡(luò)的學(xué)習(xí)壓力,EGDDAC-MA使用了多個(gè)行動(dòng)者網(wǎng)絡(luò),各個(gè)行動(dòng)者網(wǎng)絡(luò)之間互不干擾,執(zhí)行情節(jié)的不同階段.

      實(shí)驗(yàn)上,本文首先對(duì)比基于經(jīng)驗(yàn)的指導(dǎo)相比于外部探索噪聲的優(yōu)勢(shì),證明了多行動(dòng)者機(jī)制可以有效緩解網(wǎng)絡(luò)學(xué)習(xí)波動(dòng),然后比較了深度確定性策略梯度算法(deep deterministic policy gradient, DDPG)、置信區(qū)域策略優(yōu)化算法[24](trust region policy optimization, TRPO)、對(duì)TRPO進(jìn)行改進(jìn)的近端策略優(yōu)化算法(proximal policy optimization Algorithms, PPO)和EGDDAC-MA在多個(gè)連續(xù)任務(wù)上的性能.本文還使用了專家經(jīng)驗(yàn)來取代自身優(yōu)秀經(jīng)驗(yàn)進(jìn)行實(shí)驗(yàn),發(fā)現(xiàn)在提供專家經(jīng)驗(yàn)條件下,EGDDAC-MA可以快速學(xué)到一個(gè)不錯(cuò)的策略.

      1 背景知識(shí)

      1.1 強(qiáng)化學(xué)習(xí)和隨機(jī)行動(dòng)者-評(píng)論家算法

      強(qiáng)化學(xué)習(xí)問題通常使用Markov決策過程(Markov decision process, MDP)進(jìn)行建模.一個(gè)MDP問題可以用一個(gè)四元組(S,A,R,P)表示,其中S為狀態(tài)集合,A為動(dòng)作集合,R為獎(jiǎng)賞函數(shù),P為狀態(tài)轉(zhuǎn)移函數(shù).在與環(huán)境E交互過程中,每個(gè)時(shí)間步agent在狀態(tài)st執(zhí)行動(dòng)作at,獲得獎(jiǎng)賞rt+1并到達(dá)下一個(gè)狀態(tài)st+1,這里st∈S,at∈A,rt=R(st,at),S?Rns,A?Rna.Agent的目標(biāo)是最大化累積獎(jiǎng)賞:

      (1)

      作為強(qiáng)化學(xué)習(xí)中的一種重要方法,隨機(jī)行動(dòng)者-評(píng)論家算法(stochastic actor-critic)使用隨機(jī)策略梯度來更新策略,其中行動(dòng)者(actor)和評(píng)論家(critic)進(jìn)行了參數(shù)化處理,這里用π(a|s,θπ):S→P(A)和Q(s,a|θq)分別表示行動(dòng)者(策略)和評(píng)論家(動(dòng)作值函數(shù)),其中,θπ和θq是參數(shù),P(A)表示動(dòng)作空間概率分布.策略和動(dòng)作值函數(shù)可以是線性的,也可以使用神經(jīng)網(wǎng)絡(luò)表示.行動(dòng)者-評(píng)論家算法的目標(biāo)是尋找一個(gè)最優(yōu)策略使得累積獎(jiǎng)賞最大化.

      在強(qiáng)化學(xué)習(xí)中,無論是狀態(tài)值函數(shù)還是動(dòng)作值函數(shù)都滿足貝爾曼方程:

      Qπ(st,at)=Est~E,at~π,rt+1=R(st,at)[rt+1+
      γEat+1~π[Qπ(st+1,at+1)]].

      (2)

      式(2)中,由于期望回報(bào)是不可知的,所以值函數(shù)在隨機(jī)行動(dòng)者-評(píng)論家算法中是用來做評(píng)估的,用于計(jì)算TD 誤差(TD error):

      δ=rt+1+γQ(st+1,at+1|θq)-Q(st,at|θq),

      (3)

      其中,γ是折扣因子,根據(jù)隨機(jī)策略梯度理論[6](stochastic policy gradient theorem),策略π(a|s,θπ)參數(shù)更新所使用的梯度可以表示為

      (4)

      (5)

      (6)

      其中,αθq,αθπ是梯度更新的步長(zhǎng)參數(shù).

      行動(dòng)者-評(píng)論家算法的模型如圖1所示:

      Fig. 1 The diagram of Actor-Critic framework圖1 行動(dòng)者-評(píng)論家算法

      根據(jù)圖1,算法首先初始化策略和值函數(shù),進(jìn)入循環(huán),在每個(gè)時(shí)間步t,策略在狀態(tài)st選擇動(dòng)作at并執(zhí)行,環(huán)境給出下一個(gè)狀態(tài)st+1和獎(jiǎng)賞rt+1作為反饋,然后使用式(3)計(jì)算出TD誤差,最后使用式(5)和(6)來更新策略和值函數(shù)參數(shù),重復(fù)執(zhí)行以上步驟直至收斂.

      1.2 深度確定性策略梯度算法

      強(qiáng)化學(xué)習(xí)使用深度神經(jīng)網(wǎng)絡(luò)來逼近值函數(shù)時(shí),會(huì)表現(xiàn)得不穩(wěn)定甚至?xí)l(fā)散.因此同DQN中一樣,深度確定性策略梯度算法(deep deterministic policy gradient, DDPG)使用了目標(biāo)網(wǎng)絡(luò)和經(jīng)驗(yàn)重放2個(gè)機(jī)制.

      深度確定性策略梯度算法是確定性策略梯度算法與行動(dòng)者-評(píng)論家算法的結(jié)合.與隨機(jī)策略梯度中定義的策略形式不同.在確定性行動(dòng)者-評(píng)論家方法中用π(s|θπ):S→A表示行動(dòng)者網(wǎng)絡(luò),注意S指向的是動(dòng)作空間而不是動(dòng)作空間的概率分布,用Q(s,a|θq)來表示評(píng)論家網(wǎng)絡(luò),這里θπ和θq表示網(wǎng)絡(luò)參數(shù).同時(shí)使用π(s|θπ′)和Q(s,a|θq′)表示目標(biāo)行動(dòng)者網(wǎng)絡(luò)和目標(biāo)評(píng)論家網(wǎng)絡(luò).

      根據(jù)確定性策略梯度理論[23](deterministic policy gradient theorem),確定性策略的策略梯度可以表示為

      (7)

      DDPG評(píng)論家的優(yōu)化目標(biāo)是最小化損失函數(shù):

      L(θq)=Est~E,at=π(st|θπ),rt+1=R(st,at)
      [(Q(st,at|θq)-yt)2],

      (8)

      其中:

      yt=rt+1+γQ(st+1,π(st+1|θπ′)|θq′),

      (9)

      注意在yt中,動(dòng)作是由目標(biāo)行動(dòng)者網(wǎng)絡(luò)選擇的,狀態(tài)-動(dòng)作對(duì)的值是由目標(biāo)評(píng)論家網(wǎng)絡(luò)評(píng)估的.

      為解決探索問題,DDPG中使用的噪聲是通過奧恩斯坦-烏倫貝克(Ornstein-Uhlenbeck, OU)過程[25]生成的時(shí)間相關(guān)噪聲.這里使用參數(shù)φ和σ表示為

      nt←-nt-1φ+N(0,σI).

      (10)

      最終動(dòng)作為

      at=π(st|θπ)+nt.

      (11)

      目標(biāo)網(wǎng)絡(luò)使用了“soft”的更新方式

      θ′←τθ+(1-τ)θ′.

      (12)

      DDPG中使用的經(jīng)驗(yàn)重放機(jī)制要求算法在每個(gè)時(shí)間步將得到的經(jīng)驗(yàn)放入經(jīng)驗(yàn)池.在訓(xùn)練時(shí),算法從經(jīng)驗(yàn)池中隨機(jī)抽取批量經(jīng)驗(yàn)用于訓(xùn)練.

      2 算 法

      Fig. 2 An overview of EGDDAC-MA圖2 EGDDAC-MA結(jié)構(gòu)示意圖

      2.1 多行動(dòng)者-評(píng)論家模型

      一般來說AC方法中只會(huì)在同一個(gè)情節(jié)中使用一個(gè)行動(dòng)者網(wǎng)絡(luò)比如DDPG,或者是多個(gè)行動(dòng)者網(wǎng)絡(luò)分別并行執(zhí)行不同的情節(jié)比如像A3C,又或者像MAAC[26](multi-agent actor-critic)一樣通過多個(gè)agent之間合作學(xué)習(xí).而EGDDAC-MA中定義的多個(gè)行動(dòng)者網(wǎng)絡(luò),在情節(jié)之中不是并行的,也沒有交流與合作,而是在同一個(gè)情節(jié)中針對(duì)不同階段使用不同的行動(dòng)者網(wǎng)絡(luò).對(duì)于學(xué)習(xí)任務(wù),EGDDAC-MA將任務(wù)情節(jié)進(jìn)行階段劃分,每個(gè)階段配置單獨(dú)的行動(dòng)者網(wǎng)絡(luò)和經(jīng)驗(yàn)池.

      某些任務(wù)在情節(jié)的不同階段可能由于狀態(tài)空間和動(dòng)作空間之間的映射變化造成學(xué)習(xí)波動(dòng),對(duì)于單個(gè)行動(dòng)者網(wǎng)絡(luò)來說就會(huì)很難學(xué)習(xí)(3.4節(jié)部分進(jìn)行實(shí)驗(yàn)說明).而多個(gè)行動(dòng)者網(wǎng)絡(luò),它們?cè)诟髯运刂频碾A段學(xué)習(xí),互不干擾,在一定程度上緩解了學(xué)習(xí)的波動(dòng).此外,單個(gè)行動(dòng)者網(wǎng)絡(luò)學(xué)習(xí)率是固定,但是對(duì)于多個(gè)行動(dòng)者網(wǎng)絡(luò)來說,其每個(gè)階段的學(xué)習(xí)率是可以不同的.這樣實(shí)際上對(duì)于每一個(gè)情節(jié),EGDDAC-MA使用了多個(gè)策略進(jìn)行控制.

      模型中還有一個(gè)編碼過程,這個(gè)過程是嵌入到行動(dòng)者網(wǎng)絡(luò)中的.其輸入的是狀態(tài)st,輸出狀態(tài)信號(hào)sst,對(duì)于具有較高維度的狀態(tài)空間,sst的維度要比st的維度要低,sst會(huì)作為行動(dòng)者網(wǎng)絡(luò)和指導(dǎo)網(wǎng)絡(luò)的輸入.實(shí)際上在狀態(tài)空間中,有許多狀態(tài)是相似的,那么在進(jìn)行動(dòng)作選擇時(shí),它們的最優(yōu)動(dòng)作很可能是相同的.通過編碼過程的降維,將狀態(tài)空間映射到低維空間中,這樣就可以使得相似的狀態(tài)在一定程度上重合,減小了狀態(tài)空間的大小.并且優(yōu)秀的經(jīng)驗(yàn)會(huì)以元組(sst,at)的形式放入經(jīng)驗(yàn)池B′用于訓(xùn)練指導(dǎo)網(wǎng)絡(luò),從而加速G(ss|θg)的學(xué)習(xí).

      要注意的是,EGDDAC-MA中并沒有把狀態(tài)信號(hào)sst用于評(píng)論家網(wǎng)絡(luò),這是因?yàn)榫幋a層的參數(shù)在不斷更新,因此同一個(gè)狀態(tài)在編碼層中得到的狀態(tài)信號(hào)會(huì)不斷變化,這樣就不利于評(píng)論家網(wǎng)絡(luò)進(jìn)行評(píng)估.此外,評(píng)論家網(wǎng)絡(luò)也沒有創(chuàng)建多個(gè),因?yàn)樵u(píng)論家網(wǎng)絡(luò)在進(jìn)行網(wǎng)絡(luò)參數(shù)更新時(shí),使用了當(dāng)前狀態(tài)-動(dòng)作對(duì)的值函數(shù)Q(st,at|θq)作為預(yù)測(cè)值,使用后繼狀態(tài)來計(jì)算目標(biāo)值,然后通過反向傳播進(jìn)行參數(shù)更新.在預(yù)測(cè)值和目標(biāo)值的計(jì)算之中不僅使用了前一個(gè)狀態(tài),還使用了后一個(gè)狀態(tài),而樣本是從經(jīng)驗(yàn)池中隨機(jī)抽樣的,無法判斷樣本中后繼狀態(tài)是否屬于下一個(gè)階段,這樣在階段連接處的狀態(tài),用其來進(jìn)行訓(xùn)練時(shí)就不好計(jì)算評(píng)論家訓(xùn)練所需的目標(biāo)值,因此模型中就沒有使用多個(gè)評(píng)論家的結(jié)構(gòu).

      EGDDAC-MA在學(xué)習(xí)過程中,每個(gè)時(shí)間步,首先判斷該時(shí)間步屬于的階段,使用對(duì)應(yīng)階段的行動(dòng)者網(wǎng)絡(luò)來生成原始動(dòng)作.更新網(wǎng)絡(luò)參數(shù)時(shí),只有對(duì)應(yīng)的那一個(gè)行動(dòng)者網(wǎng)絡(luò)會(huì)被更新,并通過確定性策略梯度理論計(jì)算梯度:

      (13)

      EGDDAC-MA的目標(biāo)行動(dòng)者網(wǎng)絡(luò)的更新也是使用“soft”更新方式.其評(píng)論家網(wǎng)絡(luò)的更新由于受到指導(dǎo)網(wǎng)絡(luò)的影響,將在2.2節(jié)詳細(xì)介紹.

      2.2 基于經(jīng)驗(yàn)的指導(dǎo)

      連續(xù)動(dòng)作空間的一個(gè)挑戰(zhàn)是探索問題的解決.一般來說,離散動(dòng)作空間問題的探索是通過改變動(dòng)作的選擇概率來實(shí)現(xiàn)的.而連續(xù)動(dòng)作空間中由于動(dòng)作的連續(xù)性不方便為每個(gè)動(dòng)作分配相應(yīng)的概率,因此通過改變選擇概率來實(shí)現(xiàn)探索就不適用于連續(xù)動(dòng)作空間.由于動(dòng)作是連續(xù)變化的,因此可以通過直接改變動(dòng)作來實(shí)現(xiàn)探索,通常是直接在動(dòng)作空間中加上外部探索噪聲,比如DDPG中使用的OU噪聲.但是這種探索是盲目的,并不能有效地學(xué)習(xí)到優(yōu)秀經(jīng)驗(yàn).與DDPG使用外部噪聲不同,本文提出的EGDDAC-MA并不需要額外的噪聲源,而是通過自身優(yōu)秀經(jīng)驗(yàn)指導(dǎo)學(xué)習(xí).

      在DDPG算法的學(xué)習(xí)過程中,agent會(huì)遇到一些具有高回報(bào)的軌跡,這些軌跡中包含有許多有用的信息,但是這些信息并沒有被有效利用.因此,為了利用這些經(jīng)驗(yàn),EGDDAC-MA中定義了一個(gè)存儲(chǔ)優(yōu)秀經(jīng)驗(yàn)的經(jīng)驗(yàn)池B′.B′的大小是一定的,不同于普通經(jīng)驗(yàn)池的是,其存放經(jīng)驗(yàn)的過程是其本身的進(jìn)化過程.此外基于這個(gè)經(jīng)驗(yàn)池,定義了一個(gè)指導(dǎo)網(wǎng)絡(luò)G(ss|θg).

      對(duì)于普通的經(jīng)驗(yàn)池,在每個(gè)時(shí)間步,根據(jù)該時(shí)間步所屬的階段,經(jīng)驗(yàn)會(huì)以五元組(st,at,rt+1,st+1,sst+1)的形式放入相應(yīng)的經(jīng)驗(yàn)池中,這里的sst+1在式(19)中用于指導(dǎo)評(píng)論家更新.對(duì)于經(jīng)驗(yàn)池B′,并不是在每個(gè)時(shí)間步放入經(jīng)驗(yàn),而是在每個(gè)情節(jié)結(jié)束時(shí),先判斷該情節(jié)是否是優(yōu)秀的情節(jié),若是,則放入B′中,否則舍去.注意放入經(jīng)驗(yàn)時(shí),是以情節(jié)經(jīng)驗(yàn)[(ss0,a0),(ss1,a1),…,T]的形式放入的,T是情節(jié)結(jié)束標(biāo)志.每個(gè)情節(jié)是否優(yōu)秀是相對(duì)的,會(huì)隨著學(xué)習(xí)進(jìn)程而變化.其判斷標(biāo)準(zhǔn)如下:

      (14)

      其中:

      (15)

      表示已經(jīng)放入經(jīng)驗(yàn)池B′中的最近k個(gè)優(yōu)秀情節(jié)的回報(bào)均值,m表示第m個(gè)情節(jié),Gm表示其回報(bào).

      指導(dǎo)網(wǎng)絡(luò)G(ss|θg)是在B′上通過監(jiān)督學(xué)習(xí)而來的,其訓(xùn)練所用的損失函數(shù)為

      L(θg)=E[(G(sst|θg)-at)2].

      (16)

      指導(dǎo)網(wǎng)絡(luò)G(ss|θg)在進(jìn)化的經(jīng)驗(yàn)池B′上通過監(jiān)督學(xué)習(xí)學(xué)習(xí),這樣G(ss|θg)學(xué)習(xí)到的經(jīng)驗(yàn)也是不斷進(jìn)化的.并且經(jīng)驗(yàn)池B′中的經(jīng)驗(yàn)是比普通經(jīng)驗(yàn)池中的經(jīng)驗(yàn)更好的,而經(jīng)驗(yàn)網(wǎng)和行動(dòng)網(wǎng)事實(shí)上都是狀態(tài)到動(dòng)作的映射,因此在進(jìn)行動(dòng)作選擇時(shí),可以使用經(jīng)驗(yàn)網(wǎng)為動(dòng)作加上一個(gè)指導(dǎo)項(xiàng)

      (17)

      其中,ξ是干擾系數(shù),0<ξ?1.通過式(17),指導(dǎo)網(wǎng)絡(luò)會(huì)引導(dǎo)行動(dòng)者網(wǎng)絡(luò)向具有高回報(bào)的動(dòng)作方向進(jìn)行選擇.

      由梯度式(13)可知評(píng)論家網(wǎng)絡(luò)也影響著行動(dòng)者網(wǎng)絡(luò)的學(xué)習(xí).根據(jù)式(11),DDPG只在動(dòng)作空間中加入探索噪聲,而EGDDAC-MA中的指導(dǎo)網(wǎng)絡(luò)G(ss|θg)不僅指導(dǎo)動(dòng)作的選擇而且還對(duì)評(píng)論家網(wǎng)絡(luò)的更新進(jìn)行指導(dǎo).評(píng)論家網(wǎng)絡(luò)更新所使用的標(biāo)簽值式(9)的改寫為

      (18)

      qt+1=qt+1+ξ(Q(st+1,
      G(sst+1|θg)|θq′)-qt+1),

      (19)

      yt=rt+1+γqt+1φ,

      (20)

      其中,φ是情節(jié)是否結(jié)束的標(biāo)志,若情節(jié)結(jié)束則其值為0,否則為1.最終評(píng)論家網(wǎng)絡(luò)更新所使用的損失函數(shù)表示為

      (21)

      每次在進(jìn)行動(dòng)作選擇時(shí),指導(dǎo)網(wǎng)絡(luò)G(ss|θg)通過式(17)指導(dǎo)動(dòng)作的選擇,并且通過式(19)指導(dǎo)評(píng)論家網(wǎng)絡(luò)的學(xué)習(xí).由于經(jīng)驗(yàn)池B′中的經(jīng)驗(yàn)集合是普通經(jīng)驗(yàn)池中經(jīng)驗(yàn)集合的子集,所以當(dāng)行動(dòng)者網(wǎng)絡(luò)收斂時(shí),指導(dǎo)網(wǎng)絡(luò)也就自然收斂了.此時(shí),式(17)和式(19)中的指導(dǎo)也就不存在了.可以看出EGDDAC-MA與DDPG一樣都屬于異策略(off-policy)學(xué)習(xí),即學(xué)習(xí)的策略和執(zhí)行的策略是不一樣的.整個(gè)算法的過程如算法1所示.

      算法1.EGDDAC-MA.

      ② FOREPISODE=1,2,…,M

      ③ 情節(jié)回報(bào)G=0,空的情節(jié)軌跡Trace,獲取初始狀態(tài)s1;

      ④ FORt=1,2,…,T

      ⑤ 判斷情節(jié)所屬階段n;

      ⑦ 加入指導(dǎo):at=at+ξ(G(sst|θg)-at);

      ⑧ 執(zhí)行動(dòng)作at并獲取獎(jiǎng)賞rt+1和后繼狀態(tài)st+1;

      ⑨ 累積回報(bào):G=G+rt+1;

      ⑩ 通過行動(dòng)者網(wǎng)絡(luò)中的編碼層對(duì)st+1進(jìn)行處理,得到sst+1;

      更新評(píng)論家網(wǎng)絡(luò)參數(shù);

      3 實(shí) 驗(yàn)

      3.1 實(shí)驗(yàn)平臺(tái)及實(shí)驗(yàn)介紹

      本文采用了OpenAI GYM平臺(tái)[27]上Mujoco物理模擬器[28]中的6個(gè)連續(xù)性控制任務(wù)作為實(shí)驗(yàn)環(huán)境.GYM是開發(fā)和對(duì)比強(qiáng)化學(xué)習(xí)的一個(gè)開源工具包,其提供了各種連續(xù)控制性任務(wù)的環(huán)境接口,旨在促進(jìn)機(jī)器人、生物力學(xué)、圖形和動(dòng)畫以及其他需要快速精確仿真的領(lǐng)域的研究和開發(fā),為人工智能研究者提供了豐富的模擬實(shí)驗(yàn)環(huán)境.此外,為了進(jìn)一步說明算法的適用性,本文還額外增加了2個(gè)PyBullet連續(xù)任務(wù).PyBullet強(qiáng)化學(xué)習(xí)環(huán)境也是基于GYM平臺(tái)的,使用的是Bullet物理模擬器.整體來說PyBullet強(qiáng)化學(xué)習(xí)環(huán)境要比Mujoco環(huán)境更難.

      本文使用的6個(gè)Mujoco連續(xù)任務(wù)包括:

      1) Ant.使3D四足螞蟻形態(tài)機(jī)器人學(xué)會(huì)快速向前行走,如圖3所示;

      2) HumanoidStandup.使3D人形態(tài)機(jī)器人學(xué)會(huì)快速站立;

      3) Humanoid.使3D人形態(tài)機(jī)器人學(xué)會(huì)行走;

      4) HalfCheetah.使2D-獵豹形態(tài)機(jī)器人學(xué)會(huì)快速奔跑;

      5) InvertedDoublePendulum.平衡具有2個(gè)關(guān)節(jié)的平衡桿;

      6) Reacher.使2D手臂形態(tài)機(jī)器人伸向指定位置.

      Fig. 3 Ant圖3 四足螞蟻形態(tài)機(jī)器人

      使用的2個(gè)PyBullet連續(xù)任務(wù)包括:

      1) AntBullet.是類似于Mujoco中Ant的連續(xù)任務(wù),只是加重了Ant的重量,來鼓勵(lì)其行走過程中以更多條腿接觸地面;

      2) Walker2DBullet.任務(wù)是使雙足機(jī)器人學(xué)會(huì)行走,產(chǎn)生更加逼真的慢節(jié)奏動(dòng)作,如圖4所示:

      Fig. 4 Walker2DBullet圖4 Bullet中的2D行走任務(wù)

      本文首先說明優(yōu)秀經(jīng)驗(yàn)篩選方法的效果,以及基于經(jīng)驗(yàn)的指導(dǎo)機(jī)制和多行動(dòng)者機(jī)制的效果,然后對(duì)比了EGDDAC-MA,DDPG,TRPO和PPO這4種算法的性能,最后研究使用專家經(jīng)驗(yàn)取代自身優(yōu)秀經(jīng)驗(yàn)對(duì)EGDDAC-MA的影響.本文實(shí)驗(yàn)使用Intel?Xeon?CPU E5-2680處理器,使用NVIDIA Tesla P40圖形處理器對(duì)深度學(xué)習(xí)運(yùn)算進(jìn)行輔助加速計(jì)算.

      3.2 參數(shù)設(shè)置

      本文實(shí)驗(yàn)中所使用的DDPG算法其網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)設(shè)置與參考文獻(xiàn)中設(shè)置一樣,TRPO和PPO算法來自是OpenAI baselines[29]的深度強(qiáng)化學(xué)習(xí)算法集.在EGDDAC-MA中,其使用的評(píng)論家網(wǎng)絡(luò)與DDPG算法中的評(píng)論家網(wǎng)絡(luò)設(shè)置一樣.EGDDAC-MA的每一個(gè)編碼層包含2層,第1層有300個(gè)神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn),第2層有100個(gè)網(wǎng)絡(luò)節(jié)點(diǎn).每個(gè)行動(dòng)者網(wǎng)絡(luò)包含2層,第1層有200個(gè)神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn),第2層有100個(gè)神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn).EGDDAC-MA的指導(dǎo)網(wǎng)絡(luò)也包含2層,第1層200個(gè)神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn),第2層有100個(gè)神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn).EGDDAC-MA的每一個(gè)普通經(jīng)驗(yàn)池容量是300 000,而經(jīng)驗(yàn)池B′的容量是100 000,是普通經(jīng)驗(yàn)池1/3.干擾系數(shù)ξ=1×10-5,mini-bach的大小是64,τ=0.001,學(xué)習(xí)率γ=0.99,k=50.評(píng)論家網(wǎng)絡(luò)的學(xué)習(xí)率是1×10-3,指導(dǎo)網(wǎng)絡(luò)的學(xué)習(xí)率是0.000 2,行動(dòng)者網(wǎng)絡(luò)的學(xué)習(xí)率是1×10-5.每個(gè)Mujoco環(huán)境下每個(gè)算法訓(xùn)練的總時(shí)間步數(shù)是250萬步,除了Reacher中是100萬步,這是因?yàn)镽eacher在100萬步內(nèi)可以學(xué)習(xí)到一個(gè)穩(wěn)定的策略.此外,2個(gè)PyBullet環(huán)境下每個(gè)算法訓(xùn)練的總時(shí)間步數(shù)是400萬步.由于實(shí)驗(yàn)中使用了多個(gè)不同環(huán)境,為了統(tǒng)一參數(shù),EGDDAC-MA都是以60個(gè)時(shí)間步作為一個(gè)階段來設(shè)置的.每個(gè)情節(jié)的最長(zhǎng)時(shí)間步設(shè)置為1 000.

      3.3 優(yōu)秀經(jīng)驗(yàn)篩選方法的效果

      為了說明通過式(14)和式(15)的篩選,經(jīng)驗(yàn)池B′中的經(jīng)驗(yàn)在變好,這里通過均值μ=1,方差σ2分別為0.1,1,5,10,20的正態(tài)分布來做一個(gè)模擬實(shí)驗(yàn).實(shí)驗(yàn)中會(huì)定義一個(gè)經(jīng)驗(yàn)池B′,每個(gè)情節(jié)只是正態(tài)分布生成的一個(gè)隨機(jī)變量,然后使用這個(gè)隨機(jī)變量作為該情節(jié)的回報(bào),同時(shí)情節(jié)經(jīng)驗(yàn)也用這個(gè)隨機(jī)變量表示,在B′存放經(jīng)驗(yàn)時(shí),就使用式(14)和式(15)來判斷情節(jié)是否優(yōu)秀,若優(yōu)秀則將該情節(jié)經(jīng)驗(yàn)也就是對(duì)應(yīng)的隨機(jī)變量(也表示情節(jié)回報(bào))放入B′.模擬中k取的10,經(jīng)驗(yàn)池容量為100,情節(jié)總數(shù)為100 000,模擬結(jié)果如圖5所示.第1幅圖顯示的是放入經(jīng)驗(yàn)池中的最近k個(gè)情節(jié)的平均回報(bào)隨時(shí)間步數(shù)的變化.第2幅圖顯示的是放入經(jīng)驗(yàn)池中的所有情節(jié)的平均回報(bào)隨時(shí)間步數(shù)的變化.從圖5可以看出,雖然均值是1,但是通過使用式(14)和式(15)對(duì)優(yōu)秀經(jīng)驗(yàn)進(jìn)行判定,無論方差多大,最近k個(gè)情節(jié)的均值,和整個(gè)經(jīng)驗(yàn)池的均值都是向著大于1的方向進(jìn)化的,這說明經(jīng)驗(yàn)池中的經(jīng)驗(yàn)整體上在變得越來越好.

      Fig. 5 The results of normal distribution simulating episodic return 圖5 正態(tài)分布模擬情節(jié)回報(bào)值的結(jié)果

      3.4 基于經(jīng)驗(yàn)的指導(dǎo)和多行動(dòng)者機(jī)制的優(yōu)勢(shì)

      為了說明基于經(jīng)驗(yàn)的指導(dǎo)和多行動(dòng)者機(jī)制的優(yōu)勢(shì),本文在InvertedDoublePendulum任務(wù)上對(duì)比了EGDDAC-MA,EGDDAC-One actor和DDPG的性能.首先為了說明基于經(jīng)驗(yàn)指導(dǎo)的方法優(yōu)于外部噪聲探索,這里對(duì)比只使用一個(gè)行動(dòng)者網(wǎng)絡(luò)的EGDDAC-One actor和使用外部OU噪聲探索的DDPG.對(duì)比結(jié)果如圖6所示,圖6中橫坐標(biāo)為訓(xùn)練時(shí)間步,縱坐標(biāo)為平均回報(bào).

      Fig. 6 The average return in InvertedDoublePendulum圖6 在Inverte-dDoublePendulum中的平均回報(bào)對(duì)比

      可以看見DDPG在整個(gè)訓(xùn)練過程中,平均回報(bào)處于較低值,而且沒有上升趨勢(shì),這說明基于外部OU噪聲的探索,并沒有探索到好的經(jīng)驗(yàn)供agent學(xué)習(xí).但EGDDAC-One actor可以獲得更高的平均回報(bào),即使整個(gè)訓(xùn)練過程中波動(dòng)很大.這是因?yàn)榛诮?jīng)驗(yàn)的指導(dǎo)機(jī)制可以引導(dǎo)agent傾向選擇具有高回報(bào)軌跡,而外部的OU噪聲探索是沒有方向性的盲目探索.

      為了緩解圖6中出現(xiàn)的波動(dòng),我們?cè)诨诮?jīng)驗(yàn)的指導(dǎo)的基礎(chǔ)上加上多行動(dòng)者機(jī)制,如圖6所示.這里對(duì)比EGDDAC-MA和EGDDAC-One actor 在InvertedDoublePendulum中的學(xué)習(xí)表現(xiàn).可以看出EGDDAC-MA沒有出現(xiàn)像EGDDAC-One actor中的劇烈波動(dòng),而是在一定程度波動(dòng)內(nèi)穩(wěn)步上升.這說明多行動(dòng)者機(jī)制可以緩解單個(gè)網(wǎng)絡(luò)學(xué)習(xí)壓力.而且可以看到經(jīng)過200萬步后網(wǎng)絡(luò)學(xué)習(xí)的波動(dòng)被控制在一定范圍之內(nèi).

      3.5 對(duì)比不同算法的性能

      本文在Mujoco的6個(gè)連續(xù)任務(wù)和PyBullet 的2個(gè)連續(xù)任務(wù)中對(duì)比了EGDDAC-MA,DDPG,TRPO和PPO這4種算法的性能.其中TRPO和PPO也都是基于AC方法的改進(jìn),與DDPG和EGDDAC-MA不同的是,TRPO和PPO兩者都使用高斯策略實(shí)現(xiàn)探索,并且沒有使用經(jīng)驗(yàn)回放,而是在線進(jìn)行更新.實(shí)驗(yàn)結(jié)果如圖7所示.

      在Ant環(huán)境中,DDPG整體上呈現(xiàn)先上升后下降的學(xué)習(xí)趨勢(shì).TRPO和PPO的平均回報(bào)雖然隨著學(xué)習(xí)的進(jìn)行會(huì)有增長(zhǎng)趨勢(shì),但是兩者最終的平均回報(bào)值都維持在一個(gè)較低值.而EGDDAC-MA 的表現(xiàn)比其他3種算法都好,最終平均回報(bào)值維持在4 000左右.此外在HalfCheetah,HumanoidStandup和Reacher中,EGDDAC-MA也是明顯優(yōu)于其他方法.這是因?yàn)镈DPG以及TRPO和PPO算法的探索是盲目的,而基于優(yōu)秀經(jīng)驗(yàn)的指導(dǎo)機(jī)制,會(huì)引導(dǎo)agent去選擇具有高回報(bào)的軌跡,因此EGDDAC-MA會(huì)表現(xiàn)的更好.在Humanoid中,EGDDAC-MA前期表現(xiàn)不如TRPO和PPO,可能是因?yàn)門RPO和PPO這類方法直接是在線學(xué)習(xí)的不需要經(jīng)驗(yàn)累積,而EGDDAC-MA的經(jīng)驗(yàn)池B′中的優(yōu)秀經(jīng)驗(yàn)需要經(jīng)歷一定的時(shí)間步去收集,這個(gè)問題在Inverted-DoublePendulum中也可以看到.但是EGDDAC-MA最終在Humanoid和 InvertedDoubleP-endulum兩個(gè)環(huán)境中都超過TRPO和PPO.

      從圖7的實(shí)驗(yàn)結(jié)果可以看出:EGDDAC-MA的性能很大程度上取決于經(jīng)驗(yàn)池B′中經(jīng)驗(yàn)的優(yōu)秀程度,因此下一個(gè)實(shí)驗(yàn)我們將展現(xiàn)使用專家經(jīng)驗(yàn)取代自身優(yōu)秀經(jīng)驗(yàn)后,EGDDAC-MA的學(xué)習(xí)效果.

      Fig. 7 The average returns of four approaches in eight continues control tasks圖7 4種方法在8個(gè)不同連續(xù)任務(wù)中的平均回報(bào)

      3.6 使用專家經(jīng)驗(yàn)的EGDDAC-MA

      相比基于自身優(yōu)秀經(jīng)驗(yàn)的EGDDAC-MA,基于專家經(jīng)驗(yàn)的EGDDAC-MA其指導(dǎo)網(wǎng)絡(luò)的輸入不再是狀態(tài)信號(hào)而是狀態(tài),而且B′中直接裝入的是預(yù)先訓(xùn)練得到的專家經(jīng)驗(yàn).

      整個(gè)實(shí)驗(yàn)是在InvertedDoublePendulum環(huán)境中進(jìn)行的,探索了不同干擾因子下,基于專家經(jīng)驗(yàn)的EGDDAC-MA的學(xué)習(xí)效果.實(shí)驗(yàn)結(jié)果如圖8所示,圖8中的前5幅圖片,分別是在ξ=0.9,0.7,0.5,0.3,0.1下,基于專家經(jīng)驗(yàn)的EGDDAC-MA的行動(dòng)者網(wǎng)絡(luò)的學(xué)習(xí)表現(xiàn).要注意的是,為了體現(xiàn)行動(dòng)者網(wǎng)絡(luò)的學(xué)習(xí)效果,圖8中的每一個(gè)綠點(diǎn)都表示沒有指導(dǎo)網(wǎng)絡(luò)的指導(dǎo)時(shí),只使用行動(dòng)者網(wǎng)絡(luò)來生成的情節(jié)回報(bào).也就是在1 000 000時(shí)間步的訓(xùn)練過程中,每隔500時(shí)間步就會(huì)單獨(dú)使用行動(dòng)者網(wǎng)絡(luò)來生成一個(gè)情節(jié),因此每一個(gè)ξ下,都有2 000個(gè)綠點(diǎn).圖8中紅線表示專家水平.圖8中最后一幅圖片對(duì)比訓(xùn)練過程中不同ξ下的只使用行動(dòng)者網(wǎng)絡(luò)生成的平均情節(jié)回報(bào)隨時(shí)間步數(shù)的變化.

      從圖8可以看出,在ξ=0.9時(shí),行動(dòng)者網(wǎng)絡(luò)的情節(jié)回報(bào)雖然有向上趨勢(shì),但是最終基本上維持在一個(gè)較低值.在ξ=0.7時(shí),情節(jié)回報(bào)的向上趨勢(shì)更加明顯,但大部分回報(bào)值都很低.在ξ=0.5時(shí),可以看見200 000時(shí)間步后,行動(dòng)者網(wǎng)絡(luò)很快學(xué)到一個(gè)不錯(cuò)策略,情節(jié)回報(bào)值基本上達(dá)到專家水平,只有少數(shù)情節(jié)回報(bào)值較低.在ξ為0.1和0.3時(shí),隨著ξ值的降低,情節(jié)回報(bào)值上升趨勢(shì)會(huì)下降,而且大多數(shù)情節(jié)回報(bào)值在專家水平之下.

      Fig. 8 The effect of using expert experiences圖8 使用專家經(jīng)驗(yàn)的效果

      整體上來看,在ξ=0.5時(shí),在基于專家經(jīng)驗(yàn)的指導(dǎo)下,行動(dòng)者網(wǎng)絡(luò)可以快速學(xué)習(xí)到一個(gè)不錯(cuò)的策略,而在ξ高于0.5或低于0.5時(shí),行動(dòng)者網(wǎng)絡(luò)學(xué)習(xí)的并不好.出現(xiàn)這種現(xiàn)象的原因是,若ξ值過高,高于0.5,此時(shí)行動(dòng)的選擇,主要取決于指導(dǎo)網(wǎng)絡(luò),而行動(dòng)者網(wǎng)絡(luò)對(duì)行動(dòng)決策貢獻(xiàn)較小,這樣得到的經(jīng)驗(yàn)是不利于行動(dòng)者網(wǎng)絡(luò)學(xué)習(xí)的.若ξ值過低,低于0.5,此時(shí)行動(dòng)的選擇,主要取決于行動(dòng)者網(wǎng)絡(luò)自身,指導(dǎo)網(wǎng)絡(luò)對(duì)行動(dòng)決策貢獻(xiàn)較小,而行動(dòng)者網(wǎng)絡(luò)學(xué)習(xí)的方向并不一定是專家策略的方向,這樣行動(dòng)者網(wǎng)絡(luò)的決策與指導(dǎo)網(wǎng)絡(luò)的決策就可能出現(xiàn)沖突,而且指導(dǎo)網(wǎng)絡(luò)同樣會(huì)影響評(píng)論家網(wǎng)絡(luò)的學(xué)習(xí),因此也不利于行動(dòng)者網(wǎng)絡(luò)學(xué)習(xí).只有ξ=0.5時(shí),行動(dòng)的決策受行動(dòng)者網(wǎng)絡(luò)和指導(dǎo)網(wǎng)絡(luò)均等程度上的控制,評(píng)論家的學(xué)習(xí)也是這樣,從而行動(dòng)者網(wǎng)絡(luò)可以快速的學(xué)習(xí)一個(gè)不錯(cuò)的策略.與基于專家經(jīng)驗(yàn)的EGDDAC-MA在ξ=0.5時(shí)表現(xiàn)最好不同,基于自身優(yōu)秀經(jīng)驗(yàn)的EGDDAC-MA的ξ一定要是一個(gè)較小的值.這是因?yàn)橹笇?dǎo)網(wǎng)絡(luò)所使用的經(jīng)驗(yàn)是自身優(yōu)秀經(jīng)驗(yàn),是行動(dòng)者網(wǎng)絡(luò)學(xué)習(xí)所使用的自身經(jīng)驗(yàn)的子集,從而指導(dǎo)網(wǎng)絡(luò)和行動(dòng)者網(wǎng)絡(luò)學(xué)習(xí)的策略的方向是一致的.因此,在選擇動(dòng)作和更新評(píng)論家網(wǎng)絡(luò)時(shí),指導(dǎo)網(wǎng)絡(luò)只需要做一個(gè)微弱的指導(dǎo)就可以.

      4 結(jié)束語

      連續(xù)控制問題一直是強(qiáng)化學(xué)習(xí)研究的一個(gè)重要方向.確定性策略梯度方法和深度學(xué)習(xí)結(jié)合可以在一定程度上解決這類問題.但是這類方法在一些連續(xù)任務(wù)中的表現(xiàn)并不是很好,這很大程度上是由于探索不當(dāng)造成的.本文提出了一種不需要外部探索噪聲的基于經(jīng)驗(yàn)指導(dǎo)的深度確定性多行動(dòng)者-評(píng)論家算法(EGDDAC-MA).

      EGDDAC-MA中通過定義多個(gè)行動(dòng)者網(wǎng)絡(luò)來應(yīng)對(duì)情節(jié)的不同階段,這樣可以緩解情節(jié)內(nèi)部波動(dòng)對(duì)單個(gè)網(wǎng)絡(luò)學(xué)習(xí)造成的壓力,并通過在自身優(yōu)秀經(jīng)驗(yàn)上學(xué)習(xí)得來的指導(dǎo)網(wǎng)絡(luò)為動(dòng)作執(zhí)行以及評(píng)論家網(wǎng)絡(luò)更新提供指導(dǎo).此外本文不僅使用自身優(yōu)秀經(jīng)驗(yàn)來訓(xùn)練指導(dǎo)網(wǎng)絡(luò),也嘗試了使用專家經(jīng)驗(yàn)來訓(xùn)練,并且發(fā)現(xiàn)使用專家經(jīng)驗(yàn),在ξ=0.5時(shí)EGDDAC-MA可以更快的學(xué)到一個(gè)不錯(cuò)的策略.最終,Mujoco上的模擬實(shí)驗(yàn)結(jié)果顯示:相比于DDPG,TRPO和PPO,EGDDAC-MA在大多數(shù)連續(xù)控制任務(wù)上均取得更好的效果.

      實(shí)際上,本文采用的是簡(jiǎn)單的階段劃分方法,也取得了不錯(cuò)的效果,未來的一些工作可以使用無監(jiān)督方法來對(duì)情節(jié)進(jìn)行自適應(yīng)的階段劃分來提高階段劃分的有效性.

      猜你喜歡
      評(píng)論家行動(dòng)者梯度
      與異質(zhì)性行動(dòng)者共生演進(jìn):基于行動(dòng)者網(wǎng)絡(luò)理論的政策執(zhí)行研究新路徑
      音樂評(píng)論家的“內(nèi)功”修煉——論八項(xiàng)追求
      一個(gè)改進(jìn)的WYL型三項(xiàng)共軛梯度法
      著名詩人、評(píng)論家
      鴨綠江(2021年29期)2021-02-28 05:44:26
      著名詩人、評(píng)論家 吳思敬
      鴨綠江(2020年29期)2020-11-15 07:05:52
      一種自適應(yīng)Dai-Liao共軛梯度法
      評(píng)論家楊占平
      火花(2019年8期)2019-08-28 08:45:06
      一類扭積形式的梯度近Ricci孤立子
      敬仰中國(guó)大地上的綠色行動(dòng)者
      網(wǎng)絡(luò)行動(dòng)者的新媒體使用特征、影響及媒介民主化
      新聞傳播(2015年3期)2015-07-12 12:22:28
      调兵山市| 雷州市| 静安区| 万源市| 伊川县| 礼泉县| 韶山市| 松滋市| 荥经县| 晋宁县| 星座| 浑源县| 会同县| 合川市| 秦安县| 德钦县| 宝丰县| 安福县| 康保县| 广西| 镇坪县| 拜城县| 桓仁| 石嘴山市| 六盘水市| 潜江市| 子洲县| 府谷县| 宁国市| 肃南| 焦作市| 石首市| 绥江县| 清流县| 上犹县| 阳城县| 吉安县| 英吉沙县| 尼勒克县| 顺义区| 静安区|