基于深度強(qiáng)化學(xué)習(xí)的陸軍分隊(duì)?wèi)?zhàn)術(shù)決策問(wèn)題研究

2018-05-21 08:46:30李闊方晨昕王哲

科學(xué)與財(cái)富 2018年7期

李闊方晨昕王哲

摘要：陸軍作為一個(gè)歷史悠久的兵種，同樣也是我國(guó)人民解放軍的主力部隊(duì)之一，其作戰(zhàn)策略極為重要。鑒于此，本文對(duì)深度強(qiáng)化學(xué)習(xí)的重要性進(jìn)行闡述，通過(guò)強(qiáng)化學(xué)習(xí)的特點(diǎn)作用進(jìn)行分析，又對(duì)深度強(qiáng)化學(xué)習(xí)下的陸軍分隊(duì)?wèi)?zhàn)術(shù)的模式進(jìn)行分析，并且提出了幾點(diǎn)的建議，此次研究的主要目的是為了強(qiáng)化學(xué)習(xí)方式，相應(yīng)建立神經(jīng)網(wǎng)路結(jié)構(gòu)，促進(jìn)其擁有更加正確科學(xué)的預(yù)測(cè)，便利深入的對(duì)陸軍分隊(duì)?wèi)?zhàn)術(shù)決策進(jìn)行研究。

關(guān)鍵詞：深度強(qiáng)化學(xué)習(xí)；陸軍分隊(duì)?wèi)?zhàn)術(shù)；戰(zhàn)術(shù)決策研究

前言：隨著時(shí)代的發(fā)展以及科技的普及運(yùn)用，軍事方面也越來(lái)越重視信息技術(shù)的使用，陸軍分隊(duì)?wèi)?zhàn)術(shù)決策問(wèn)題一直是非常關(guān)鍵的難題，需要考慮如何準(zhǔn)確科學(xué)的規(guī)劃行動(dòng)方案，如何在多種策略中進(jìn)行高效率的篩選，最終選擇出能符合當(dāng)時(shí)作戰(zhàn)環(huán)境的行為方案，并且能夠?qū)崿F(xiàn)總體回報(bào)利益最大值。目前，強(qiáng)化學(xué)習(xí)的應(yīng)用幫助指揮人員作出智能的判斷，準(zhǔn)確反映現(xiàn)場(chǎng)狀態(tài)與情形，并快速準(zhǔn)確提供決策方案，極大的節(jié)省了時(shí)間以及人力。

一、深度強(qiáng)化學(xué)習(xí)的必要性

強(qiáng)化學(xué)習(xí)在信息科學(xué)領(lǐng)域又稱評(píng)價(jià)學(xué)習(xí)，是一項(xiàng)機(jī)器學(xué)習(xí)方法，一般應(yīng)用于智能機(jī)器人的計(jì)算分析問(wèn)題等領(lǐng)域，強(qiáng)化學(xué)習(xí)也是一種計(jì)算機(jī)反映從周圍狀態(tài)到做出反應(yīng)行動(dòng)的學(xué)習(xí)過(guò)程現(xiàn)象，以利于尋求最佳行為策略，從而獲得最大利益回報(bào)指數(shù)，強(qiáng)化學(xué)習(xí)是并不是直接呈現(xiàn)正確的行為，而是根據(jù)狀態(tài)反映出的信號(hào)去智能計(jì)算對(duì)應(yīng)的動(dòng)作，且對(duì)動(dòng)作有一定的評(píng)價(jià)體系。在陸軍分隊(duì)?wèi)?zhàn)術(shù)決策中，深度強(qiáng)化學(xué)習(xí)是非常有必要的，因其產(chǎn)生自心理學(xué)的動(dòng)作理論，其神經(jīng)網(wǎng)絡(luò)反映大腦在作反饋的運(yùn)行系統(tǒng)，根據(jù)現(xiàn)場(chǎng)狀態(tài)環(huán)境實(shí)時(shí)的更新其深度網(wǎng)絡(luò)，有利于指揮員積累經(jīng)驗(yàn)，正確有效的指導(dǎo)陸軍分隊(duì)作出連續(xù)的動(dòng)作，為陸軍分隊(duì)?wèi)?zhàn)術(shù)問(wèn)題提供決策參考。

二、深度強(qiáng)化學(xué)習(xí)下的陸軍分隊(duì)?wèi)?zhàn)術(shù)模式分析

（一）基于馬爾可夫決策下的陸軍分隊(duì)?wèi)?zhàn)術(shù)

陸軍分隊(duì)?wèi)?zhàn)術(shù)在決策事務(wù)上通過(guò)深度學(xué)習(xí)方式，可以達(dá)到分散武裝空間與持續(xù)性狀態(tài)時(shí)段共同得到深度強(qiáng)化的學(xué)習(xí)過(guò)程，馬爾可夫決策的簡(jiǎn)稱是MDP，其決策過(guò)程是通過(guò)馬爾可夫原理理論的任意變換動(dòng)態(tài)的模式的一種最佳決策過(guò)程，一般根據(jù)某一時(shí)段的情況，在多種可行方案里選擇最優(yōu)的進(jìn)行，具有隨機(jī)性和時(shí)效性，是決策領(lǐng)域中最為主要依靠的方法，也可稱為馬爾可夫任意動(dòng)態(tài)計(jì)劃。基于馬爾可夫決策下的在陸軍分隊(duì)?wèi)?zhàn)術(shù)決策中可分為四種模式A、S、P、R，既states（現(xiàn)狀式）；action（動(dòng)作反應(yīng)）；P是在某狀態(tài)下采取某種行動(dòng)后，又會(huì)回到原來(lái)狀態(tài)的幾率；R是某種狀態(tài)下采取一定的行動(dòng)之后得到的總體回報(bào)，還有一種表示某種狀態(tài)下采取一定的行動(dòng)之后得到的即使回報(bào)是r，

馬爾可夫決策就是實(shí)現(xiàn)陸軍分隊(duì)作戰(zhàn)的利益回報(bào)最大化，陸軍作戰(zhàn)行動(dòng)演練中，現(xiàn)場(chǎng)環(huán)境與隊(duì)伍移動(dòng)的交互狀態(tài)，每過(guò)一段時(shí)間陸軍可以根據(jù)周圍環(huán)境表現(xiàn)出一個(gè)狀態(tài)S，再作出相應(yīng)的行動(dòng)A，接著演練會(huì)得到下一個(gè)A1、S1以及相應(yīng)的回報(bào)r，這樣便會(huì)尋求到最好的方法，指的就是隊(duì)伍演練中的到最大的總體回報(bào)，通過(guò)馬爾可夫決策能夠達(dá)到深度強(qiáng)化學(xué)習(xí)的目標(biāo)，從而找到最佳的解決策略。

（二）逆向強(qiáng)化學(xué)習(xí)下的陸軍分隊(duì)?wèi)?zhàn)術(shù)

強(qiáng)化學(xué)習(xí)是指在要求總體回報(bào)指數(shù)最大化時(shí)的一種最優(yōu)方法，在求解過(guò)程中立即回報(bào)是人為給定的，但立即回報(bào)很難指定無(wú)法得到回報(bào)函數(shù)。而逆向強(qiáng)化學(xué)習(xí)就是將以往的學(xué)習(xí)經(jīng)驗(yàn)知識(shí)，在重新進(jìn)行利用創(chuàng)新，可以通過(guò)逆向強(qiáng)化幫助設(shè)計(jì)回報(bào)函數(shù)等情況。通過(guò)陸軍分隊(duì)作戰(zhàn)實(shí)際過(guò)程當(dāng)中可以得出，分散武裝空間與持續(xù)性狀態(tài)時(shí)段會(huì)因其取值發(fā)生變化，進(jìn)而不斷的呈現(xiàn)向上增長(zhǎng)趨勢(shì)，但在眾多任務(wù)中，尤其是復(fù)雜的任務(wù)中，面對(duì)范圍廣錯(cuò)綜復(fù)雜的情況想要找到最佳解決策略是非常困難的，就算是采用大面積搜索對(duì)于普通的計(jì)算機(jī)也是很大的挑戰(zhàn)。因此，通常情況下陸軍戰(zhàn)術(shù)決策相關(guān)人員不會(huì)簡(jiǎn)單直接的去計(jì)算機(jī)查找，大多都會(huì)根據(jù)個(gè)人的陸軍作戰(zhàn)演練經(jīng)驗(yàn)，將以往的各種戰(zhàn)術(shù)策略進(jìn)行優(yōu)化總結(jié)，像這樣重新利用過(guò)去的信息資源，就是回報(bào)函數(shù)問(wèn)題，陸軍分隊(duì)作戰(zhàn)策略會(huì)產(chǎn)生大量的作戰(zhàn)數(shù)據(jù)信息，其中涉及到非常多珍貴的高質(zhì)的從狀態(tài)到做出反應(yīng)動(dòng)作一系列的典范數(shù)據(jù)，這些都體現(xiàn)了陸軍分隊(duì)決策人員的優(yōu)秀智慧。在逆向強(qiáng)化學(xué)習(xí)中，陸軍分隊(duì)作戰(zhàn)時(shí)的狀態(tài)s和相應(yīng)反映行為a都是給定的，分隊(duì)在根據(jù)給定的策略進(jìn)行實(shí)施時(shí)，就會(huì)出現(xiàn)一個(gè)策略軌跡，為作戰(zhàn)指揮員提供一個(gè)計(jì)算機(jī)智能化下的決策作為參考，相當(dāng)于在一定的回報(bào)函數(shù)中找到最大利益回報(bào)點(diǎn)，該最大回報(bào)的策略軌跡和典范軌跡相同。

（三）陸軍分隊(duì)?wèi)?zhàn)術(shù)基于DQN及仿真下的決策推演

基于DQN下的陸軍分隊(duì)作戰(zhàn)基本原理就是，通過(guò)建立深度網(wǎng)絡(luò)，指導(dǎo)分隊(duì)作戰(zhàn)策略環(huán)境中的決策函數(shù)，基于回報(bào)函數(shù)不停的求解最佳的函數(shù)，最終取得高質(zhì)量高回報(bào)的策略軌跡數(shù)據(jù)，深度強(qiáng)化學(xué)習(xí)的基礎(chǔ)就是陸軍分隊(duì)作戰(zhàn)的模擬真實(shí)的場(chǎng)景，也稱為仿真演練，其應(yīng)當(dāng)包括的內(nèi)容有，一是二D或者三D的地貌形態(tài)，二是作戰(zhàn)分隊(duì)必備的設(shè)定其中有射擊距離、射擊命中率、切換槍彈時(shí)間以及槍械噪音后坐力等，三是作戰(zhàn)人員可見(jiàn)程度、傷害模型以及槍械射擊的聲音傳播程度等。在仿真演練過(guò)程當(dāng)中可以改變?cè)心_本，增加新的突發(fā)事故，比如可以將一方隊(duì)伍人數(shù)增多，另一方隊(duì)伍人數(shù)損傷，還可以在交通要塞制造堵塞等，以此來(lái)鍛煉陸軍的應(yīng)急能力和作戰(zhàn)技能。將特殊作戰(zhàn)分隊(duì)決策作為研究問(wèn)題的對(duì)象，其策略問(wèn)題可以看成是通過(guò)一系列的射擊動(dòng)作下蹲進(jìn)行選擇，最后完成清除任務(wù)到達(dá)目的地的過(guò)程，也是強(qiáng)化學(xué)習(xí)目的的一種方式。

結(jié)論：在此次研究中，主要闡述了深度強(qiáng)化學(xué)習(xí)的必要性，并對(duì)深度強(qiáng)化學(xué)習(xí)下的陸軍分隊(duì)?wèi)?zhàn)術(shù)模式分析，主要包括：基于馬爾可夫決策下的陸軍分隊(duì)?wèi)?zhàn)術(shù)：、逆向強(qiáng)化學(xué)習(xí)下的陸軍分隊(duì)?wèi)?zhàn)術(shù)、陸軍分隊(duì)?wèi)?zhàn)術(shù)基于DQN及仿真下的決策推演。通過(guò)MDP決策過(guò)程分析，加強(qiáng)強(qiáng)化學(xué)習(xí)與逆向強(qiáng)化學(xué)習(xí)的應(yīng)用，完善強(qiáng)化學(xué)習(xí)的系統(tǒng)以及體制，最終保證陸軍作戰(zhàn)的指揮策略的準(zhǔn)確性以及科學(xué)性，望此次研究的內(nèi)容能為實(shí)際提供幫助。

參考文獻(xiàn)：

[1]茅潔，谷倩.深度學(xué)習(xí)優(yōu)化作戰(zhàn)戰(zhàn)術(shù)算法的叢林項(xiàng)目技戰(zhàn)術(shù)決策研究[J].運(yùn)動(dòng)，2016，10（18）：5-6.

[2]李洪興.美國(guó)陸軍提高戰(zhàn)術(shù)分隊(duì)的賽博能力[J].現(xiàn)代軍事，2016，6（4）：25-25.

[3]唐凱，柏彥奇.陸軍戰(zhàn)術(shù)級(jí)裝備保障系統(tǒng)仿真概念模型六視圖體系結(jié)構(gòu)研究[J].軍械工程學(xué)院學(xué)報(bào)，2015，4（5）：1-6.

[4]張偉，何天鵬.陸軍合成分隊(duì)中偵察無(wú)人機(jī)的機(jī)動(dòng)仿真研究[J].兵器裝備工程學(xué)報(bào)，2015，36（9）：5-9.

[5]陳希亮，張永亮.基于高度強(qiáng)化學(xué)習(xí)的陸軍分隊(duì)?wèi)?zhàn)術(shù)決策問(wèn)題研究[J].軍事運(yùn)籌與系統(tǒng)工程，2017，7（3）.