99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

<nav id="u8u0u"></nav>

?

稀疏獎勵場景下深度強化學(xué)習(xí)算法研究

2021-12-27 01:39:02周國明

科學(xué)與信息化 2021年12期

關(guān)鍵詞：特征向量卷積神經(jīng)網(wǎng)絡(luò)

周國明

四川大學(xué) 電子信息學(xué)院四川成都 610000

引言

深度強化學(xué)習(xí)[1](deep reinforcement learning ,DRL)是機器學(xué)習(xí)[2]的重要分支，它是在與環(huán)境交互中尋找最優(yōu)策略的一類方法。DRL中智能體的目標(biāo)是獲得最大獎勵，環(huán)境可以提供密集的獎勵信號時DRL可以工作得很好，然而在許多實際問題中，獎勵是稀疏的，稀疏獎勵導(dǎo)致智能體無法有效的學(xué)習(xí)。實際上稀疏獎勵問題會導(dǎo)致強化學(xué)習(xí)算法迭代緩慢、難以收斂，甚至根本無法進(jìn)行學(xué)習(xí)[3]。因此，如何解決稀疏獎勵帶來的負(fù)面影響，研究稀疏獎勵環(huán)境下的強化學(xué)習(xí)算法，至關(guān)重要。本文提出了一個使用智能體相鄰兩個狀態(tài)之間的距離來作為智能體的內(nèi)在獎勵以驅(qū)動智能體對環(huán)境進(jìn)行探索的方

1 基于內(nèi)在激勵機制的算法化

1.1 內(nèi)在激勵機制

由此可見，獎勵在強化學(xué)習(xí)中起著非常重要的作用，它指導(dǎo)著智能體的學(xué)習(xí)。然而，在許多實際生活場景中，獎勵是稀疏的，這意味著智能體很難獲得獎勵，甚至需要正確執(zhí)行很長序列的動作才能得到環(huán)境的反饋，導(dǎo)致智能體很難學(xué)到解決目標(biāo)任務(wù)所需要做的動作，無法學(xué)習(xí)到給定的任務(wù)。另一方面，由于缺少獎勵信號，智能體需要與環(huán)境做大量的交互，獲取足夠多的樣本數(shù)據(jù)，這會導(dǎo)致算法訓(xùn)練的非常緩慢，甚至無法收斂。因此，本文考慮如何為智能體提供額外的獎勵信號來源，稱之為內(nèi)在獎勵[1]。

1.2 基于狀態(tài)距離的內(nèi)在獎勵生成算法

特征提取模塊中使用的是不進(jìn)行參數(shù)更新的卷積神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)是一種特殊的神經(jīng)網(wǎng)絡(luò)模型，專門用于處理具有相似網(wǎng)格結(jié)構(gòu)的數(shù)據(jù)。卷積是圖像處理中一種有效的特征提取方法，而我們的實驗環(huán)境為Atari視頻游戲，它的表現(xiàn)形式是一幀幀的圖像，所以我們使用卷積神經(jīng)網(wǎng)絡(luò)提取狀態(tài)的特征。不進(jìn)行參數(shù)更新的原因在于，首先我們需要穩(wěn)定的內(nèi)在獎勵項，由于卷積神經(jīng)網(wǎng)絡(luò)是固定的，所以在整個訓(xùn)練過程中，提取到的所有狀態(tài)的特征向量都是通過同一個范式得到的，保證了用特征向量做差得到的內(nèi)在獎勵項是穩(wěn)定的；其次，如果要訓(xùn)練特征提取模塊中使用的卷積神經(jīng)網(wǎng)絡(luò)，是比較困難的，雖然我們可以采取ICM模型[5]，但這會大大增加模型的量。

2 實驗

為了測試本文提出的基于內(nèi)在獎勵機制的算法的有效性，必須要有一個合適的環(huán)境來進(jìn)行測試。由于我們的算法是稀疏獎勵相關(guān)的，我們需要外在獎勵稀少的場景。本文從Open AI Gym工具包中選擇了Atari視頻游戲中的Space Invaders和Freeway。

Space Invaders提供的是一個具有相對密集的獎勵反饋的環(huán)境，而Freeway則提供的是一個智能體進(jìn)行需要搜索才能得到獎勵的稀疏獎勵環(huán)境[6]。我們選擇這兩個環(huán)境，一個獎勵信號相對密集，另一個獎勵信號稀疏，可以更好地看到本文所提出的內(nèi)在獎勵生成算法在稀疏獎勵環(huán)境下的優(yōu)越性。

選擇的基礎(chǔ)強化學(xué)習(xí)算法為A2C，它是在Actor-Critic算法的基礎(chǔ)上，使用優(yōu)勢函數(shù)代替Critic網(wǎng)絡(luò)中的原始回報[7]。比較原始A2C算法與添加了內(nèi)在獎勵機制的A2C算法（稱之為IBA2C算法），分別在Space Invaders和Freeway下的表現(xiàn)效果。需要注意的是，由于智能體的目標(biāo)是最大化來自環(huán)境的獎勵信號值，所以在實驗結(jié)果對比中，只使用了外在獎勵值，內(nèi)在獎勵項是沒有使用的。

從實驗結(jié)果可看出，在Space Invaders場景中，A2C算法IBA2C算法基本上有相同的性能表現(xiàn)，IBA2C算法的表現(xiàn)稍稍優(yōu)于A2C算法，兩者都能夠很快地到達(dá)一個很好的收斂。這表明，在外在獎勵密集的場景下，智能體無須做很多的探索，僅僅依靠外在獎勵信號的指導(dǎo)，就能夠?qū)W會完成目標(biāo)任務(wù)。在外在獎勵稀疏的Freeway場景中， A2C算法的表現(xiàn)很糟糕，智能體基本上無法獲得任何的外在獎勵，而IBA2C算法表現(xiàn)優(yōu)異，在經(jīng)過大約2.4e7個時間步的訓(xùn)練后，可以快速得到一個很好的效果。實驗結(jié)果表明，本文提出的內(nèi)在獎勵機制在稀疏獎勵場景下可以顯著提高性能。

3 結(jié)束語

本文針對稀疏獎勵場景下的內(nèi)在獎勵機制進(jìn)行了研究。引入內(nèi)在激勵機制，提出了一種新的內(nèi)在獎勵生成算法。本文提出的內(nèi)在獎勵生成算法利用一個固定的卷積神經(jīng)網(wǎng)絡(luò)提取狀態(tài)的特征向量，把相鄰的兩個狀態(tài)的狀態(tài)特征向量的歐式距離作為內(nèi)在獎勵項。將內(nèi)在獎勵與外在獎勵合成為一個獎勵，使用這個合成的獎勵信號來指導(dǎo)智能體的學(xué)習(xí)。最后，把提出的內(nèi)在獎勵生成算法與A2C算法結(jié)合在一起，在Atari視頻游戲場景Space Invaders和Freeway中進(jìn)行了對比試驗，實驗結(jié)果表明，本文提出的內(nèi)在獎勵生成算法可以顯著地提高智能體在稀疏獎勵環(huán)境下的表現(xiàn)。

猜你喜歡

特征向量卷積神經(jīng)網(wǎng)絡(luò)

二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計——以特征值和特征向量為例

九江職業(yè)技術(shù)學(xué)院學(xué)報(2022年1期)2022-12-02 09:46:54

克羅內(nèi)克積的特征向量

保定學(xué)院學(xué)報(2022年2期)2022-04-07 02:26:50

基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)

北京航空航天大學(xué)學(xué)報(2021年9期)2021-11-02 08:24:26

神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究

電子制作(2019年19期)2019-11-23 08:42:00

從濾波器理解卷積

電子制作(2019年11期)2019-07-04 00:34:38

一類特殊矩陣特征向量的求法

許昌學(xué)院學(xué)報(2018年4期)2018-05-02 12:27:37

基于傅里葉域卷積表示的目標(biāo)跟蹤算法

北京航空航天大學(xué)學(xué)報(2018年1期)2018-04-20 06:38:17

EXCEL表格計算判斷矩陣近似特征向量在AHP法檢驗上的應(yīng)用

中華建設(shè)(2017年1期)2017-06-07 02:56:14

基于神經(jīng)網(wǎng)絡(luò)的拉矯機控制模型建立

重型機械(2016年1期)2016-03-01 03:42:04

復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用

大連工業(yè)大學(xué)學(xué)報(2015年4期)2015-12-11 04:06:52

科學(xué)與信息化2021年12期

科學(xué)與信息化的其它文章: 淺析環(huán)境監(jiān)測質(zhì)量在環(huán)境保護(hù)中的重要性; 大數(shù)據(jù)背景下關(guān)于函數(shù)查詢解答的復(fù)雜度研究; 太湖上游的水文特征及災(zāi)害分析研究; 新形勢下高校計算機教學(xué)管理的探索與實踐分析; 移動學(xué)習(xí)平臺的大學(xué)英語混合式教學(xué)實證研究; 《交換原理與技術(shù)》線上+線下教學(xué)模式探索與實踐*

封开县| 伊宁市| 怀柔区| 新昌县| 深圳市| 阿城市| 镇宁| 太白县| 洛浦县| 辽宁省| 铁力市| 东阿县| 连南| 隆尧县| 鞍山市| 嘉鱼县| 山丹县| 青岛市| 土默特右旗| 涟水县| 新巴尔虎右旗| 木里| 晋江市| 徐水县| 伊金霍洛旗| 凤山县| 宁乡县| 鹤峰县| 玛纳斯县| 定日县| 宁陵县| 汉川市| 桂林市| 镇雄县| 内丘县| 通榆县| 青河县| 龙山县| 南投市| 阿合奇县| 新兴县|

<nav id="uu8uu"><sup id="uu8uu"></sup></nav><nav id="uu8uu"></nav>

<nav id="uu8uu"></nav>

<tfoot id="uu8uu"><noscript id="uu8uu"></noscript></tfoot>

<tfoot id="uu8uu"></tfoot>

<tfoot id="uu8uu"><noscript id="uu8uu"></noscript></tfoot>

<nav id="uu8uu"><cite id="uu8uu"></cite></nav>