• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      有限次實(shí)施中作戰(zhàn)方案選擇策略比較研究

      2015-12-25 02:34:32萬(wàn)貽平張東戈
      關(guān)鍵詞:置信直覺(jué)戰(zhàn)場(chǎng)

      萬(wàn)貽平 張東戈

      (解放軍理工大學(xué) 指揮信息系統(tǒng)學(xué)院,江蘇 南京210007)

      1 引言

      作戰(zhàn)方案選擇是軍事決策的重要內(nèi)容?!霸u(píng)估—預(yù)案”范式,即根據(jù)備選方案的戰(zhàn)前評(píng)估結(jié)果制定預(yù)案的模式,是方案選擇的常用方法,但其有效性依賴于備選方案評(píng)估結(jié)果的準(zhǔn)確性。而通常評(píng)估過(guò)程的復(fù)雜性、評(píng)估主體偏好的不確定性、評(píng)估方法的多樣性以及適用局限性等因素,都可能導(dǎo)致作戰(zhàn)方案的評(píng)估結(jié)果不夠準(zhǔn)確[1]。軍事復(fù)雜系統(tǒng)本身具有的動(dòng)態(tài)性和不確定性,使得準(zhǔn)確分析和預(yù)測(cè)軍事系統(tǒng)的行為非常困難[2]。此外戰(zhàn)場(chǎng)信息具有的不完整性和不確定性,也會(huì)使得戰(zhàn)場(chǎng)實(shí)際應(yīng)用環(huán)境與方案評(píng)估時(shí)的環(huán)境差異過(guò)大,從而導(dǎo)致先前的評(píng)估經(jīng)驗(yàn)結(jié)果難以后繼使用。陳亞洲等曾研究提出,我軍目前作戰(zhàn)模型和數(shù)據(jù)的準(zhǔn)確性不高,結(jié)果難以得到指揮人員認(rèn)同[3]。對(duì)于作戰(zhàn)方案選擇問(wèn)題,傳統(tǒng)的“戰(zhàn)前評(píng)估,戰(zhàn)時(shí)選擇”模式并不能有效解決“預(yù)案”不可用所帶來(lái)的困難。如何在缺乏有效方案評(píng)估結(jié)果的情況下合理選擇作戰(zhàn)方案,以期達(dá)到最優(yōu)的戰(zhàn)場(chǎng)效果,就成為軍事決策者面臨的一個(gè)重大難題。

      從公開(kāi)文獻(xiàn)看,目前對(duì)這一問(wèn)題的研究還較少。對(duì)于其中一類包含多次“行動(dòng)實(shí)施”的方案選擇問(wèn)題,可以在實(shí)施過(guò)程中收集戰(zhàn)場(chǎng)實(shí)際效果(Effects of Battlefield)信息,利用它動(dòng)態(tài)地指導(dǎo)和調(diào)整后面幾次作戰(zhàn)方案的選擇。曾松林等人從動(dòng)態(tài)博弈的角度,研究了空襲作戰(zhàn)中,攻擊飛機(jī)以小架次、多波次的方式進(jìn)行突擊情況下,防空火力單元與攻擊飛機(jī)多次對(duì)抗過(guò)程中的目標(biāo)分配問(wèn)題[4]。童幼堂將協(xié)同作戰(zhàn)模式下,艦空導(dǎo)彈多次射擊的方案序列優(yōu)選問(wèn)題等效為多目標(biāo)多階段的優(yōu)化問(wèn)題進(jìn)行了研究[5]。上述研究從特定軍事問(wèn)題出發(fā)有針對(duì)性地進(jìn)行了方案選擇分析,然而這些分析對(duì)有限次實(shí)施中作戰(zhàn)方案選擇的一般性方法策略關(guān)注還不夠,還需要有進(jìn)一步的研究。

      本文在借鑒Multi - armed Bandit[6]算法思想的基礎(chǔ)上,權(quán)衡了“有限次實(shí)施機(jī)會(huì)”和“稀缺資源”之間的累計(jì)實(shí)施效果關(guān)系,將有限次實(shí)施中作戰(zhàn)方案選擇問(wèn)題,建模為稀缺資源最優(yōu)分配問(wèn)題。通過(guò)對(duì)4 種策略的比較研究,探索了不同選擇策略各自的特點(diǎn),由此可以為軍事決策提供一般性的方法參考。

      2 有限次實(shí)施中作戰(zhàn)方案選擇問(wèn)題

      現(xiàn)代作戰(zhàn)可以看成是一種由持續(xù)離散型事件組成的任務(wù),在信息系統(tǒng)的支持下,每次事件實(shí)施效果可以得到實(shí)時(shí)評(píng)估,由此對(duì)于作戰(zhàn)人員而言,戰(zhàn)術(shù)方案可以根據(jù)實(shí)施效果反饋信息進(jìn)行適應(yīng)性地動(dòng)態(tài)調(diào)整。而動(dòng)態(tài)調(diào)整的策略不同,則會(huì)有最終不同的累計(jì)實(shí)施效果。例如,網(wǎng)絡(luò)涉軍輿情引導(dǎo)作戰(zhàn)中,需要程式化甚至自動(dòng)化地選擇使用網(wǎng)絡(luò)輿情引導(dǎo)技術(shù)方案,以達(dá)到最好的輿情引導(dǎo)效果。在某些場(chǎng)合下,宣傳引導(dǎo)網(wǎng)頁(yè)的累計(jì)點(diǎn)擊量越大、引導(dǎo)信息的覆蓋面越廣,可以被視為輿情引導(dǎo)效果越好。而備選輿情引導(dǎo)方案實(shí)施前,難以提前獲知網(wǎng)民對(duì)各備選方案的感興趣程度,所以必須通過(guò)實(shí)際的實(shí)施來(lái)評(píng)估方案的效果。如何在有限的時(shí)間內(nèi),通過(guò)動(dòng)態(tài)選擇實(shí)施備選方案,來(lái)達(dá)到累計(jì)點(diǎn)擊量的最大化,是輿論引導(dǎo)人員面臨的重要問(wèn)題。

      據(jù)此可以進(jìn)行模型背景想定設(shè)定:某項(xiàng)軍事任務(wù)需將作戰(zhàn)行動(dòng)重復(fù)實(shí)施有限多次,每次行動(dòng)實(shí)施之前均需從備選方案集合中選擇作戰(zhàn)方案,行動(dòng)實(shí)施后產(chǎn)生的戰(zhàn)場(chǎng)效果無(wú)法提前預(yù)知,且結(jié)果具有一定的隨機(jī)性。如何為每次作戰(zhàn)行動(dòng)選擇方案,使得累積的戰(zhàn)場(chǎng)效果達(dá)到最大,就是本文研究的有限次實(shí)施中作戰(zhàn)方案選擇問(wèn)題。

      本文研究的“方案選擇策略”所指的,不是具體的作戰(zhàn)策略本身,而是策略的策略。我們所關(guān)注的,不是如何戰(zhàn)爭(zhēng),也不是如何對(duì)抗。我們關(guān)注的要點(diǎn)是:“如何從戰(zhàn)爭(zhēng)中學(xué)習(xí)戰(zhàn)爭(zhēng)”“如何從對(duì)抗中學(xué)習(xí)對(duì)抗”,采用何種策略,才能夠讓學(xué)習(xí)的成本盡可能地小。

      2.1 基本想定假設(shè)

      在實(shí)際作戰(zhàn)中,具體的作戰(zhàn)行動(dòng)所面臨的戰(zhàn)場(chǎng)條件常常千差萬(wàn)別,所遵循的作戰(zhàn)準(zhǔn)則也可能各有不同。然而,只要作戰(zhàn)行動(dòng)滿足某些特定的條件,那么,就可以將這些作戰(zhàn)行動(dòng)劃歸為同一類,將作戰(zhàn)行動(dòng)實(shí)施中面臨的“有限次實(shí)施中作戰(zhàn)方案選擇”問(wèn)題,界定為本文所要研究的問(wèn)題。

      為便于研究,本文對(duì)“有限次實(shí)施中作戰(zhàn)方案選擇策略”中作戰(zhàn)行動(dòng)所需滿足的條件做如下的想定假設(shè):

      假設(shè)1:每次行動(dòng)實(shí)施產(chǎn)生的作戰(zhàn)效果不受前期行動(dòng)的影響。

      假設(shè)2:作戰(zhàn)效果可量化為數(shù)值參數(shù),且同一個(gè)作戰(zhàn)方案在各次不同的實(shí)施下,所產(chǎn)生的作戰(zhàn)效果統(tǒng)計(jì)上服從正態(tài)分布。

      假設(shè)3:行動(dòng)實(shí)施后的作戰(zhàn)效果能夠被迅速觀察或者是測(cè)量獲得。

      2.2 問(wèn)題描述

      2.2.1 有限次實(shí)施

      假設(shè)某項(xiàng)軍事任務(wù)由重復(fù)實(shí)施N次的“特定作戰(zhàn)行動(dòng)”組成,將其中的每一次行動(dòng)都認(rèn)定為一個(gè)過(guò)程,每個(gè)過(guò)程都包含“方案的選擇”和“方案的實(shí)施”兩個(gè)階段。包含有限次行動(dòng)實(shí)施的軍事任務(wù)共被分解為N個(gè)過(guò)程,名稱分別記為P1,P2,…,PN。根據(jù)假設(shè)1,P1,P2,…,PN各過(guò)程行動(dòng)通過(guò)實(shí)施所產(chǎn)生的作戰(zhàn)效果僅和所選擇的方案有關(guān),與實(shí)施的次序無(wú)關(guān)。

      2.2.2 作戰(zhàn)方案選擇

      在“特定作戰(zhàn)行動(dòng)”進(jìn)入某一具體過(guò)程后,首先需要從備選方案集合中選擇一個(gè)方案,然后實(shí)施該方案。設(shè)備選方案集合為D ={C1,C2,…,Ck},其中C1,C2,…,Ck分別表示k個(gè)備選方案。P1,P2,…,PN各個(gè)過(guò)程的備選方案集合相同,均為D。需要強(qiáng)調(diào)的是,本文將備選方案設(shè)定為固定的有限集合,備選方案本身在“有限次”實(shí)施中并不發(fā)生改進(jìn),備選方案的數(shù)量也不發(fā)生增加,是基于以下兩點(diǎn)考慮:一是戰(zhàn)爭(zhēng)資源的有限性,決定了備選方案是固定的有限集合,裝備以及人員的物理屬性和自然屬性決定了作戰(zhàn)雙方難以在作戰(zhàn)過(guò)程中臨機(jī)地改進(jìn)和創(chuàng)新出新的作戰(zhàn)方案;二是現(xiàn)代戰(zhàn)場(chǎng)往往不存在改進(jìn)作戰(zhàn)方案的時(shí)間。未來(lái)現(xiàn)代戰(zhàn)場(chǎng)會(huì)有很多程式化的執(zhí)行,即按一個(gè)既定的策略方案連續(xù)不斷地在動(dòng)態(tài)調(diào)整中加以實(shí)施,而不能在作戰(zhàn)實(shí)施過(guò)程中停下來(lái)調(diào)整,因?yàn)檠b備的實(shí)施特征決定了不存在這樣一個(gè)反應(yīng)時(shí)間。

      2.2.3 累積戰(zhàn)場(chǎng)效果

      方案i(i =1,2,…,k)實(shí)施后所產(chǎn)生的戰(zhàn)場(chǎng)效果,用連續(xù)型的數(shù)值表示,記為Ei。根據(jù)假設(shè)2,Ei是一個(gè)服從正態(tài)分布的隨機(jī)變量。方案i已實(shí)施的次數(shù)記為Mi,方案i實(shí)施后產(chǎn)生的戰(zhàn)場(chǎng)效果統(tǒng)計(jì)均值記為ˉEi。累積戰(zhàn)場(chǎng)效果E定義為N次行動(dòng)中k種方案戰(zhàn)場(chǎng)效果之和。即當(dāng)時(shí),有:

      3 有限次實(shí)施中作戰(zhàn)方案選擇策略

      有限次實(shí)施中,作戰(zhàn)方案選擇問(wèn)題的特點(diǎn)在于,每個(gè)備選方案i被實(shí)施后產(chǎn)生的戰(zhàn)場(chǎng)效果Ei是一個(gè)隨機(jī)變量,可以通過(guò)多次實(shí)施來(lái)觀測(cè)和評(píng)估。某個(gè)備選方案被實(shí)施的次數(shù)越多,通過(guò)統(tǒng)計(jì)戰(zhàn)場(chǎng)效果而得出的戰(zhàn)場(chǎng)效果預(yù)估值對(duì)Ei的描述就越可信。然而,如果每個(gè)備選方案都被實(shí)施較多的次數(shù),就會(huì)將有限的實(shí)施機(jī)會(huì)“浪費(fèi)”在方案的選擇上,如果選中了較差的方案,就會(huì)極大地降低全部方案實(shí)施后所累積出來(lái)的戰(zhàn)場(chǎng)效果值。

      一個(gè)好的策略,需要在“探索最優(yōu)方案”和“避免浪費(fèi)實(shí)施機(jī)會(huì)”兩者之間做出權(quán)衡,更優(yōu)的選擇策略會(huì)使得整個(gè)軍事任務(wù)完成后累積出的戰(zhàn)場(chǎng)效果的預(yù)期值更大。作戰(zhàn)方案選擇策略,就是用于P1,P2,…,PN各個(gè)過(guò)程方案選擇的規(guī)則。

      3.1 隨機(jī)策略

      隨機(jī)策略(Random Strategy)是第一種策略,它是一種隨機(jī)選擇作戰(zhàn)方案的策略。隨機(jī)策略下,每一個(gè)過(guò)程Pi中的“方案選擇”階段均隨機(jī)地從備選方案集合D中隨機(jī)選擇一個(gè)方案,然后實(shí)施該方案。隨機(jī)策略是一種通常的策略,本文將隨機(jī)策略定為不同策略比較的基礎(chǔ),其他策略的特點(diǎn)優(yōu)劣都通過(guò)與隨機(jī)策略的比較來(lái)完成。

      3.2 直覺(jué)策略

      直覺(jué)策略(Naive Strategy)是第二種策略,它是首先給每個(gè)備選方案分配m次實(shí)施的機(jī)會(huì),然后將實(shí)施完成后各方案戰(zhàn)場(chǎng)效果的平均值,作為其戰(zhàn)場(chǎng)效果的預(yù)估值。該策略將預(yù)估值最大的方案作為一個(gè)最終的“最佳方案”。以后的N - mk次過(guò)程,均選擇和實(shí)施這個(gè)最終的“最佳方案”。該策略簡(jiǎn)單直觀,符合人們的直覺(jué),所以叫作直覺(jué)策略。它有以下特點(diǎn):

      (1)策略分為兩個(gè)明顯不同的階段。前mk次實(shí)施為第一階段,目的是探索最終的“最佳方案”;后N-mk次實(shí)施為第二階段,利用探索階段所得到的“最佳方案”來(lái)實(shí)施,以產(chǎn)生最大的戰(zhàn)場(chǎng)效果。

      (2)m值的選取影響策略的效果。m值如果選得過(guò)小,難以保證“最佳方案”可信;m值如果選得過(guò)大,則過(guò)多的行動(dòng)機(jī)會(huì)可能會(huì)被分配給較差的方案,甚至是給了明顯較差的方案,這會(huì)造成實(shí)施機(jī)會(huì)的“浪費(fèi)”。

      3.3 貪心策略

      對(duì)于有限次實(shí)施中作戰(zhàn)方案選擇問(wèn)題,可以將有限的N次行動(dòng)機(jī)會(huì)等價(jià)為稀缺資源,k個(gè)備選方案作為資源分配的k個(gè)選項(xiàng),累積戰(zhàn)場(chǎng)效果E作為N次分配的總收益。經(jīng)過(guò)這樣的考慮,可以將有限次實(shí)施中作戰(zhàn)方案選擇問(wèn)題等價(jià)為稀缺資源最優(yōu)分配問(wèn)題。Multi - armed Bandits 作為解決稀缺資源分配問(wèn)題的算法,被廣泛運(yùn)用于運(yùn)籌學(xué)中的隨機(jī)調(diào)度[7]、臨床試驗(yàn)[8]、最優(yōu)投資及最優(yōu)分配等相關(guān)領(lǐng)域[9,10]。Multi - armed Bandits 算法根據(jù)每次收集到的收益信息,在每個(gè)決策時(shí)點(diǎn)上,動(dòng)態(tài)地調(diào)整規(guī)則,從而使總收益的預(yù)期最大化。該算法由一組可控的隨機(jī)過(guò)程組成,每個(gè)隨機(jī)過(guò)程有兩種選擇:“繼續(xù)探索”和“堅(jiān)持以往”[6]。其優(yōu)勢(shì)在于,探索階段將資源更多地分配給先前較優(yōu)的方案,對(duì)先前較差方案,則不做過(guò)度探索。

      基于Multi - armed Bandits 算法改進(jìn)出的ε貪心策略(ε-Greedy Strategy),借鑒了Multi-armed Bandits 算法的思想,每個(gè)過(guò)程均動(dòng)態(tài)選擇備選方案。在P1,P2,…,PN各個(gè)過(guò)程進(jìn)行方案選擇時(shí),以某一較小概率ε隨機(jī)地選擇行動(dòng)方案,以概率1-ε堅(jiān)持“當(dāng)前最佳方案”。該策略用已實(shí)施各方案的戰(zhàn)場(chǎng)效果的平均值,作為該方案戰(zhàn)場(chǎng)效果的預(yù)估值,將預(yù)估值最大的方案判定為臨時(shí)的“當(dāng)前最佳方案”。臨時(shí)的“當(dāng)前最佳方案”有可能隨探索的進(jìn)行而繼續(xù)發(fā)生變化。相比較于直覺(jué)策略,該策略有以下特點(diǎn):

      (1)保證大部分實(shí)施機(jī)會(huì)(大于1-ε的概率)分配給了“當(dāng)前最佳方案”,從而避免為較差的方案分配過(guò)多的實(shí)施機(jī)會(huì)。

      (2)考慮到“當(dāng)前最佳方案”不一定是最佳方案,該策略以概率ε來(lái)“繼續(xù)探索”最佳方案,從而避免將實(shí)施機(jī)會(huì)永久分配給局部最佳方案。

      3.4 置信上限策略

      在數(shù)理統(tǒng)計(jì)理論里的未知量估計(jì)問(wèn)題中,置信區(qū)間和置信水平是用來(lái)描述估計(jì)值可信程度的重要指標(biāo)?;贛ulti - armed Bandits 算法的置信上限策略(Upper Confidence Bound Strategy),用置信上限代替均值作為預(yù)估值。對(duì)于已實(shí)施方案i的戰(zhàn)場(chǎng)效果Ei,設(shè)其置信水平為1- α?xí)r的置信上限為Ui。該策略在各個(gè)過(guò)程P1,P2,…,PN進(jìn)行方案選擇時(shí),均先計(jì)算已實(shí)施各方案戰(zhàn)場(chǎng)效果的置信上限Ui,將其作為各方案戰(zhàn)場(chǎng)效果的預(yù)估值,然后判定預(yù)估值最大的方案為臨時(shí)的“當(dāng)前最佳方案”,并在本次過(guò)程中將實(shí)施機(jī)會(huì)分配給“當(dāng)前最佳方案”。

      根據(jù)假設(shè)2,各方案產(chǎn)生的作戰(zhàn)效果服從正態(tài)分布,則設(shè)方案i實(shí)施后所產(chǎn)生的戰(zhàn)場(chǎng)效果Ei ~N(μ,σ2),則是μ的無(wú)偏估計(jì),且有:

      式(2)中,μ為戰(zhàn)場(chǎng)效果的期望,σ為戰(zhàn)場(chǎng)效果的標(biāo)準(zhǔn)差。

      按標(biāo)準(zhǔn)正態(tài)分布的上α分位點(diǎn)的定義[11],根據(jù)式(2)有:

      式(3)中,ni為方案i實(shí)施次數(shù)為標(biāo)準(zhǔn)正態(tài)分布的分位點(diǎn)。則:

      即已實(shí)施方案i的戰(zhàn)場(chǎng)效果置信水平為1- α的置信上限Ui為:

      式(5)中,σ與均為常數(shù),且方案i的戰(zhàn)場(chǎng)效果均值ˉEi相對(duì)穩(wěn)定,則隨著方案i實(shí)施次數(shù)ni的增大,其預(yù)估值ui將變小,這樣已實(shí)施次數(shù)較少的方案就有可能成為新的“當(dāng)前最佳方案”。相比于貪心策略,該策略將預(yù)估值Ui與實(shí)施次數(shù)ni在公式(5)中結(jié)合起來(lái),利用“當(dāng)前最佳方案”的同時(shí)也在探索最優(yōu)方案,避免了貪心策略中以概率ε“隨機(jī)探索”的資源浪費(fèi)。

      4 選擇策略的仿真計(jì)算研究

      為了能夠更為直觀地了解各種選擇策略的效果,我們可以通過(guò)計(jì)算機(jī)仿真計(jì)算實(shí)驗(yàn)對(duì)4 種選擇策略的特點(diǎn)做定量化的描述。仿真實(shí)驗(yàn)采用Monte Carlo 方法,用隨機(jī)數(shù)模擬方案實(shí)施后產(chǎn)生的戰(zhàn)場(chǎng)效果。為降低隨機(jī)性的影響,實(shí)驗(yàn)重復(fù)了1000 次。

      4.1 仿真計(jì)算參數(shù)設(shè)定

      仿真中涉及的參數(shù)設(shè)定如下:

      (1)作戰(zhàn)行動(dòng)重復(fù)實(shí)施次數(shù)N =3000;備選方案數(shù)k =4。

      (2)設(shè)定4 個(gè)備選方案的戰(zhàn)場(chǎng)效果期望分別為5、9、6、15,標(biāo)準(zhǔn)差均為2。

      (3)直覺(jué)策略先給4 個(gè)備選方案各分配m =10 次實(shí)施機(jī)會(huì);之后的N-mk =160 次實(shí)施機(jī)會(huì)均分配給“最佳方案”。

      (4)貪心策略中ε的值設(shè)定為0.2。

      (5)置信上限策略使用σ =1,1- α的正態(tài)分布的置信上限作為方案戰(zhàn)場(chǎng)效果的預(yù)估值。

      4.2 仿真計(jì)算結(jié)果及分析

      通過(guò)仿真計(jì)算,可以得到如下結(jié)果,見(jiàn)圖1、圖2 和表1。

      圖1 四種策略選擇最佳方案的概率

      圖2 四種策略的累積作戰(zhàn)效果

      表1 直覺(jué)策略和置信上限策略對(duì)比

      從圖1 可以看出,隨機(jī)策略從4 種備選方案中選擇到最佳方案的概率在0.25 附近波動(dòng);直覺(jué)策略在20-30 次實(shí)施時(shí)選中最佳方案,40 次實(shí)驗(yàn)之后選到最佳方案的概率為1,說(shuō)明該策略在40 次實(shí)驗(yàn)之后成功找到最佳方案;貪心策略選到最佳方案的概率在前幾次實(shí)驗(yàn)中迅速提高,并維持在0.8 左右的水平,這是由于ε =0.2;95%置信上限策略選到最佳方案的概率在前幾次實(shí)施中有所波動(dòng),并迅速穩(wěn)定在接近1 的水平。

      從圖2 可以看出,作戰(zhàn)行動(dòng)重復(fù)實(shí)施次數(shù)N不大于100 的情況下,95%置信上限策略始終保持最大的累積戰(zhàn)場(chǎng)效果;直覺(jué)策略重復(fù)實(shí)施次數(shù)N超過(guò)40 后,累計(jì)戰(zhàn)場(chǎng)效果保持高增長(zhǎng)率。

      從表1 可以看出,重復(fù)實(shí)施次數(shù)N超過(guò)182 時(shí),直覺(jué)策略的累積戰(zhàn)場(chǎng)效果超過(guò)貪心策略;重復(fù)實(shí)施次數(shù)N超過(guò)2350 時(shí),直覺(jué)策略的累積戰(zhàn)場(chǎng)效果超過(guò)95%置信上限策略;重復(fù)實(shí)施次數(shù)N為3000 時(shí),直覺(jué)策略的累積戰(zhàn)場(chǎng)效果為44746,超過(guò)但未顯著超過(guò)置信上限策略的累積戰(zhàn)場(chǎng)效果44736。

      通過(guò)以上仿真計(jì)算,可以得到如下結(jié)論:

      (1)隨機(jī)策略是一種較差的策略。

      (2)置信上限策略選擇最佳方案的概率一直穩(wěn)定在接近1 的高水平,是一種較為理想的策略。尤其是當(dāng)有限次實(shí)施的重復(fù)次數(shù)不大時(shí),置信上限策略產(chǎn)生的預(yù)期累積戰(zhàn)場(chǎng)效果大于其他3 種策略。

      (3)當(dāng)有限次實(shí)施的重復(fù)次數(shù)特別大時(shí),直覺(jué)策略可能優(yōu)于置信上限策略,但優(yōu)勢(shì)不明顯。

      5 結(jié)束語(yǔ)

      有限次實(shí)施中作戰(zhàn)方案選擇問(wèn)題是現(xiàn)代戰(zhàn)爭(zhēng)面臨的一個(gè)重要問(wèn)題,性能良好的“方案選擇策略”能夠指導(dǎo)和幫助作戰(zhàn)指揮人員、戰(zhàn)場(chǎng)設(shè)計(jì)人員、武器系統(tǒng)研究人員和裝備作戰(zhàn)使用研究人員,研究和設(shè)計(jì)在信息系統(tǒng)的支持下的備選方案動(dòng)態(tài)選擇。本文提出并模型化了有限次實(shí)施中作戰(zhàn)方案選擇問(wèn)題,并比較研究了幾種選擇策略的特點(diǎn),為作戰(zhàn)方案選擇問(wèn)題提供了方法參考。然而,作戰(zhàn)雙方或多方的動(dòng)態(tài)應(yīng)對(duì)、方案作戰(zhàn)效果的統(tǒng)計(jì)學(xué)特征和實(shí)施次數(shù)等因素影響著選擇策略的有效性,本文對(duì)此未做深入探討分析。在下一步的研究中,我們將研究不同因素對(duì)較優(yōu)的方案選擇策略的影響。

      [1] 許誠(chéng),杜茂華,孫有田,等. 反艦導(dǎo)彈武器系統(tǒng)作戰(zhàn)效能評(píng)估風(fēng)險(xiǎn)初探[J].軍事運(yùn)籌與系統(tǒng)工程,2010,24(2):30 -33.

      [2] 黃柯棣,趙鑫業(yè),楊山亮,等. 軍事分析仿真評(píng)估系統(tǒng)關(guān)鍵技術(shù)綜述[J].系統(tǒng)仿真學(xué)報(bào),2012,24(12):2439 -2447.

      [3] 陳亞洲,劉建平.作戰(zhàn)模擬在指揮決策領(lǐng)域推廣應(yīng)用面臨的問(wèn)題與對(duì)策[J].軍事運(yùn)籌與系統(tǒng)工程,2012,26(4):27 -38.[4] 曾松林,王文惲,丁大春,等. 基于動(dòng)態(tài)博弈的目標(biāo)分配方法研究[J].電光與控制,2011,18(2):26 -72.

      [5] 童幼堂.艦空導(dǎo)彈指揮決策模型及應(yīng)用研究[D]. 大連:大連理工大學(xué),2005.

      [6] WHITE J. Bandit algorithms for website optimization[M]. O'Reilly Media,Inc.,2012.

      [7] CAI X,WU X,ZHOU X. Optimal Stochastic Scheduling[M].Springer,2014.

      [8] LAI T L. Sequential analysis:some classical problems and new challenges[J]. Statistica Sinica,2001,11:303 -408.

      [9] MCLENNAN A. Price dispersion and incomplete learning in the long run[J]. Journal of Economic dynamics and control,1984,7(3):331 -347.

      [10] KELLER G,RADY S. Optimal experimentation in a changing environment[J]. The review of economic studies,1999,66(3):475 -507.

      [11] 盛驟,謝式千,潘承毅. 概率論與數(shù)理統(tǒng)計(jì)[M]. 北京:高等教育出版社,2008.

      猜你喜歡
      置信直覺(jué)戰(zhàn)場(chǎng)
      戰(zhàn)場(chǎng)上的神來(lái)之筆
      “好一個(gè)裝不下”直覺(jué)引起的創(chuàng)新解法
      急診住院醫(yī)師置信職業(yè)行為指標(biāo)構(gòu)建及應(yīng)用初探
      基于置信職業(yè)行為的兒科住院醫(yī)師形成性評(píng)價(jià)體系的構(gòu)建探索
      基于模糊深度置信網(wǎng)絡(luò)的陶瓷梭式窯PID優(yōu)化控制
      C-130:戰(zhàn)場(chǎng)多面手
      貼秋膘還有三秒到達(dá)戰(zhàn)場(chǎng)
      意林(2020年20期)2020-11-06 04:06:14
      林文月 “人生是一場(chǎng)直覺(jué)”
      海峽姐妹(2020年7期)2020-08-13 07:49:22
      一個(gè)“數(shù)學(xué)直覺(jué)”結(jié)論的思考
      數(shù)學(xué)直覺(jué)謅議
      海林市| 正镶白旗| 曲周县| 巨鹿县| 乌兰察布市| 乌兰浩特市| 金湖县| 延庆县| 奎屯市| 曲松县| 蓝山县| 蚌埠市| 磐石市| 灵山县| 贵定县| 任丘市| 新巴尔虎右旗| 黑河市| 清水县| 高碑店市| 当涂县| 新沂市| 监利县| 广宁县| 青岛市| 邵阳县| 瓦房店市| 尼木县| 临潭县| 铜鼓县| 德清县| 马边| 大港区| 和林格尔县| 邯郸市| 南华县| 鸡西市| 鹤庆县| 贵州省| 新昌县| 延安市|