李龍躍,劉付顯,趙麟鋒,王東旭
(空軍工程大學(xué)防空反導(dǎo)學(xué)院,陜西西安710051)
攻防對抗中指數(shù)射擊策略最優(yōu)性分析
李龍躍,劉付顯,趙麟鋒,王東旭
(空軍工程大學(xué)防空反導(dǎo)學(xué)院,陜西西安710051)
研究了紅藍(lán)攻防對抗中的射擊策略優(yōu)化問題,即研究紅方面對多個藍(lán)方目標(biāo),如何射擊能獲得最大收益的問題。基于以往研究的局限性,為平衡紅方射擊收益和自身存活概率,引入和拓展Gittins指數(shù)應(yīng)用于射擊決策問題,考慮了藍(lán)方目標(biāo)退出戰(zhàn)斗的可能性,以紅方在自身被摧毀之前最大化殺傷藍(lán)方目標(biāo)的收益(或數(shù)量)為目標(biāo),對指數(shù)射擊策略的最優(yōu)性進(jìn)行了討論,拓展了定理1、定理2,給出推論1.為進(jìn)行比較,引入近視策略、完全策略和循環(huán)策略3種截然不同的射擊策略,并給出近視策略最優(yōu)性定理3.實例設(shè)置了兩個射擊場景,在4種射擊策略下計算紅方的收益情況、殺傷目標(biāo)情況和自身被摧毀情況,驗證了指數(shù)射擊策略的最優(yōu)性。
兵器科學(xué)與技術(shù);射擊決策;Gittins指數(shù);指數(shù)策略;近視策略
很多軍事作戰(zhàn)問題可以抽象為我方(防御方,稱為紅方)防御多個敵方(進(jìn)攻方,稱為藍(lán)方)的射擊戰(zhàn)斗問題。典型如地空導(dǎo)彈射擊多個空氣動力目標(biāo)或反輻射導(dǎo)彈的防空作戰(zhàn)場景,藍(lán)方目標(biāo)可能有多個類型,紅方不能完全確定藍(lán)方目標(biāo)的類型,而且紅方也可能被藍(lán)方摧毀而喪失戰(zhàn)斗能力;再如高炮對空射擊、陸軍坦克交戰(zhàn)和水面艦艇編隊防空等都是攻防對抗過程[1-2]。Gittins首先提出了最優(yōu)Gittins指數(shù)用于解決特定類型的多臂bandit問題,賦予每一個bandit收益指數(shù),并建立bandit狀態(tài)函數(shù),基于指數(shù)最大化來研究決策問題[3]。近年來,Anderson[4]、Gu等[5]、Sonin[6]、Kumar[7]、Si等[8]對Gittins指數(shù)理論研究及在資源調(diào)度、任務(wù)分配和隨機(jī)決策等領(lǐng)域的應(yīng)用進(jìn)行了極大的拓展。Glazebrook等結(jié)合Gittins指數(shù)討論了多臂bandit框架下的軍事射擊優(yōu)化問題[9],而后Barkdoll等和Glazebrook等一起對該問題進(jìn)行了一系列深入研究[10-11]。紅藍(lán)雙方攻防射擊對抗過程本質(zhì)上是分配紅方可用射擊資源,去射擊固定集合的藍(lán)方來襲目標(biāo)的過程,紅方射擊策略的優(yōu)劣對射擊收益、殺傷藍(lán)方目標(biāo)數(shù)量和紅方生存概率都有影響,因此,紅方制定和選用最優(yōu)射擊策略對于獲取最大射擊收益至關(guān)重要。
Barkdoll等[12]描述的非對稱攻防對抗射擊場景中(如地面防空襲作戰(zhàn)),藍(lán)方具有一定優(yōu)勢,如果紅方不能成功射擊藍(lán)方目標(biāo),則自己將會置于可能被藍(lán)方(反輻射導(dǎo)彈)摧毀的境地,因此紅方需對每一個藍(lán)方目標(biāo)賦予一個“值”。這個值一般用來體現(xiàn)藍(lán)方目標(biāo)突防后對紅方造成的損失,也可稱為威脅值。紅方射擊作戰(zhàn)目標(biāo)為在自己未被摧毀的情況下,最大化殺傷藍(lán)方目標(biāo)的期望收益或最小化藍(lán)方目標(biāo)突防造成的損失。但Barkdoll等[12]對這種情況考慮還不完全,其研究存在局限性:1)紅方賦予藍(lán)方目標(biāo)的威脅“值”并非恒定不變的。如隨著戰(zhàn)斗進(jìn)行,紅方獲得更充分的目標(biāo)指示后或得知目標(biāo)受損等情況都會導(dǎo)致目標(biāo)威脅值的變化,因此威脅值應(yīng)該是動態(tài)變化的;2)紅方被摧毀的概率與其選擇射擊的藍(lán)方目標(biāo)息息相關(guān),如地空導(dǎo)彈射擊距離較遠(yuǎn)的目標(biāo)時,需輻射更遠(yuǎn)、更強(qiáng)的雷達(dá)波去導(dǎo)引攔截彈射擊目標(biāo),增加了被反輻射彈道發(fā)現(xiàn)和鎖定的概率,從而將自己置于較危險的境地。因此紅方需考慮射擊特定藍(lán)方目標(biāo)時給自己帶來的風(fēng)險;3)紅方所需射擊的藍(lán)方目標(biāo)會隨著時間發(fā)生變化,新的目標(biāo)可能會不斷到達(dá),舊的目標(biāo)可能會退出或突防出紅方射擊范圍。此外,紅方有可能無法得知目標(biāo)所處狀態(tài),如以往射擊對藍(lán)方目標(biāo)的殺傷效果等信息。基于以上問題,本文通過引入和拓展指數(shù)策略應(yīng)用于攻防對抗中射擊策略選擇問題,以紅方在自身被摧毀之前最大化殺傷藍(lán)方目標(biāo)的收益(或數(shù)量)為目標(biāo),對指數(shù)射擊策略的最優(yōu)性進(jìn)行了討論,并給出定理2、推論1和定理3(近視策略),旨在最大化紅方作戰(zhàn)收益,對于輔助紅方射擊決策和建設(shè)作戰(zhàn)指揮信息系統(tǒng)具有一定借鑒意義。
考慮一個紅方火力單元射擊N個藍(lán)方目標(biāo)的問題,規(guī)定“一次戰(zhàn)斗”至少包括紅方對藍(lán)方進(jìn)行一次射擊(期間紅方有可能被藍(lán)方摧毀),也可能包括紅方對藍(lán)方目標(biāo)殺傷效果的觀察過程。假設(shè)紅方射擊彈藥數(shù)量不受限制,此時紅方的核心決策問題在于如何根據(jù)以往的射擊戰(zhàn)斗情況,選擇下一個需要射擊的目標(biāo),從而最大化射擊過程中的期望收益。紅方射擊藍(lán)方目標(biāo)的決策問題可描述為馬爾可夫決策過程{(Ωj,ωj,Pj,Rj,Qj,β),1≤j≤N}[13].具體為:
1)X(t)={X1(t),X2(t),…,XN(t)}表示在時刻藍(lán)方的狀態(tài)(t+1時刻之前)。Xj(t)表示藍(lán)方目標(biāo)j(1≤j≤N)的狀態(tài)。
2)Xj(t)∈Ωj∪{ωj}.Ωj為紅方對藍(lán)方目標(biāo)j所有可能狀態(tài)的認(rèn)知空間(可數(shù));Xj(t)=ωj表示在t時刻,紅方射擊藍(lán)方目標(biāo)j時被摧毀。
3)XN+1(t)的值為0表示在時刻t紅方選擇退出戰(zhàn)斗或被摧毀,否則其值為1,假設(shè)XN+1(0)=1.
6)標(biāo)記函數(shù)Qj滿足
標(biāo)記Qj(x)表明,如果紅方被摧毀,則收益為0,下一時刻停止射擊或目標(biāo)飛出射擊時間窗口收益也為0,即
7)如果紅方在t時刻執(zhí)行射擊行動aj,藍(lán)方目標(biāo)由Xj(t)變?yōu)閄j(t+1)的概率由馬爾可夫定律Pj決定:
注意到狀態(tài)空間Ωj包含紅方得知藍(lán)方目標(biāo)j被殺傷狀態(tài),因此和ωj都是Pj下的吸收狀態(tài)。為描述射擊行動的期望收益,引入有界函數(shù)Rj,Qj,.令Xj(t)=x,Rj(x)為在t時刻紅方執(zhí)行行動aj的期望收益。令,則紅方在t時刻執(zhí)行行動aj的期望收益可寫成
由(4)式的Qk乘積項可知,如果紅方在射擊過程中被摧毀,則收益為0,β的取值一般由決策者自行設(shè)定[14]。通過引入折扣因子β∈(0,1)來更加準(zhǔn)確描述實際戰(zhàn)斗和增強(qiáng)模型的通用性,此外如果紅方面臨的威脅不僅僅是藍(lán)方來襲目標(biāo),則β可看成是紅方單位時間內(nèi)在所有外在威脅下的生存概率,在時刻紅方執(zhí)行行動aN+1的收益為βtRd,Rd為紅方終止射擊時的收益。
紅方射擊策略本質(zhì)是基于歷史射擊效果,決策每一時刻射擊藍(lán)方目標(biāo)行動的一種規(guī)則。如射擊策略用v表示,v(t)表示t時刻紅方選擇的行動,則策略v下總的射擊過程期望收益可表示為
本文研究射擊策略的目的在于找到最優(yōu)射擊策略v*,使得紅方射擊期望收益最大。廣義bandits決策過程是馬爾可夫決策過程的一種,其在不同決策行為之間引入了相互獨立的決策收益,可作為研究射擊問題的框架。對于廣義bandits決策過程存在最優(yōu)射擊策略,有定理1.
定理1[15]存在函數(shù),假設(shè)在t時刻紅方未被摧毀,
1)紅方的最優(yōu)策略是射擊藍(lán)方目標(biāo)j*,當(dāng)藍(lán)方目標(biāo)j*滿足(6)式時成立:
2)紅方的最優(yōu)策略是終止射擊,滿足(7)式時成立:
式中:Gj(x),x∈Ωj為Gittins指數(shù)。令τ為紅方射擊過程結(jié)束時刻,表示在[0,τ)時間段紅方的射擊期望收益,則
當(dāng)紅方被摧毀時,則紅方收益也被終止,其收益率[15]為
令指數(shù)Gj(x)為最大值,即
考慮第1節(jié)提到的以往研究的局限性,對紅方射擊N個藍(lán)方目標(biāo)問題,假設(shè)藍(lán)方目標(biāo)有B種類型(類型是指隨著射擊戰(zhàn)斗進(jìn)行,可決定射擊結(jié)果的藍(lán)方目標(biāo)特征的總稱,需要依據(jù)具體問題分析)。通常情況下,紅方不能確定N個藍(lán)方目標(biāo)的類型,這種對目標(biāo)類型的不確定性由N個獨立先驗分布∏1,∏2,…,∏N表示,其中,表示紅方判定藍(lán)方目標(biāo)j屬于b類型的概率。設(shè)在1次戰(zhàn)斗中,藍(lán)方目標(biāo)的類型不會改變,所有射擊結(jié)果相互獨立,紅方對藍(lán)方b類型目標(biāo)的殺傷概率為rb,被其摧毀的概率為θb,紅方對藍(lán)方b類型目標(biāo)的殺傷失敗,目標(biāo)退出戰(zhàn)斗的概率為φb.紅方在第t次射擊殺傷一個藍(lán)方b類型目標(biāo)的收益為βtRb,紅方的戰(zhàn)斗目標(biāo)是在被摧毀前最大化殺傷藍(lán)方目標(biāo)所獲得的收益。當(dāng)β=1,Rb=1時,紅方的戰(zhàn)斗目標(biāo)是在被摧毀前最大化殺傷藍(lán)方目標(biāo)的數(shù)量?;谪惾~斯理論,在經(jīng)歷n次戰(zhàn)斗后,如果紅方和藍(lán)方目標(biāo)j均存活,則此時紅方判定藍(lán)方目標(biāo)j屬于b類型的概率可由后驗分布來表示:
由第2節(jié)分析顯然有
(11)式的4個公式分別表示紅方和藍(lán)方目標(biāo)j均存活、紅方存活藍(lán)方目標(biāo)j被殺傷、紅方被摧毀和紅方和藍(lán)方目標(biāo)j均存活且藍(lán)方目標(biāo)j退出戰(zhàn)斗。4種情況下射擊行動的期望收益(不帶折扣因子)為聯(lián)立(9)式、(10)式、(13)式和(14)式可得定理2.
由(8)式知,射擊戰(zhàn)斗還需一個終止時刻,即過程{Xj(t),t≥0}有一個固定的終止集合。令τr(r為正整數(shù),Xj(0)=n)為紅方射擊的終止時刻,紅方對藍(lán)方目標(biāo)j能射擊r次,直到二者之間有一個被摧毀時停止射擊。隨機(jī)變量τr表示當(dāng)前紅方射擊次數(shù),則紅方所有射擊行動的期望收益為
定理2 假設(shè)在t時刻紅方未被摧毀,紅方射擊藍(lán)方目標(biāo)j*是最優(yōu)策略,當(dāng)j*滿足(15)式時成立:
令(15)式中r=1,則可將Gj(n)化為Hj(n)(即僅當(dāng)前考慮射擊收益,不考慮后續(xù)射擊收益):
式中:Hj(n)本質(zhì)上可被理解為紅方射擊藍(lán)方b類型目標(biāo)(服從后驗概率分布)的加權(quán)平均收益指數(shù)Rbrb(1-β+βθb)-1.當(dāng)Rb和rb較大、θb較小時,收益指數(shù)較高,即目標(biāo)價值和紅方殺傷概率較大,被其摧毀概率較小時收益指數(shù)較高,較適合射擊;反之,對于Rb和rb較小、θb較大的目標(biāo),即目標(biāo)價值和紅方殺傷概率較小,被其摧毀概率較大時收益指數(shù)較低,不適合射擊,上述分析與實際作戰(zhàn)認(rèn)知也較為相符。此外需注意,概率θb可能會隨著紅方干擾和機(jī)動措施的實施而減小。
定理2給出了紅藍(lán)雙方射擊對抗采用指數(shù)策略的計算公式,如果Hj(n)是單調(diào)遞減的,則當(dāng)r=1時,對于所有n,(16)式取得最大值,此時Gj(n)= Hj(n),n∈?,這種極端情況表示紅方最優(yōu)策略是不斷轉(zhuǎn)換射擊的藍(lán)方目標(biāo),選擇射擊指數(shù)最高的目標(biāo)射擊;如果函數(shù)Hj(n)是單調(diào)遞增的,則當(dāng)r→∞時,對于所有n,(16)式取得最大值,此時
這種極端情況表示紅方最優(yōu)策略是對每一個藍(lán)方目標(biāo)持續(xù)射擊直至目標(biāo)被殺傷。
當(dāng)藍(lán)方目標(biāo)只有兩種類型時(B=2),可得推論1.
推論 對所有n,當(dāng)B=2時Hj(n)必然是單調(diào)遞減(單調(diào)遞增)函數(shù)。
證明 當(dāng)B=2時,存在
(18)式的成立顯然不依賴j、n,則對于所有j、n∈?必有
此時Hj(n)是單調(diào)遞減函數(shù)。同理,可證Hj(n)也可是單調(diào)遞增函數(shù),推論成立。
推論是一種特殊情況,當(dāng)藍(lán)方目標(biāo)類型有兩種時,紅方總是由射擊類型1目標(biāo)轉(zhuǎn)向射擊類型兩目標(biāo)或由射擊類型2目標(biāo)轉(zhuǎn)向射擊類型1目標(biāo),這是隨著射擊指數(shù)遞增或遞減時的最優(yōu)決策,其本質(zhì)上是基于類型1或類型2誰擁有更高的射擊指數(shù)而選擇對誰進(jìn)行射擊。
4.1 近視策略
如果指數(shù)策略選擇射擊目標(biāo)是考慮射擊戰(zhàn)斗的長遠(yuǎn)期望收益,那么近視策略選擇射擊目標(biāo)則是考慮即時最優(yōu)收益,因此近視策略又可稱為即時最優(yōu)策略。近視策略指導(dǎo)紅方?jīng)Q策者按“眼前”最優(yōu)收益進(jìn)行射擊。如果藍(lán)方目標(biāo)j為b類型的先驗概率分布為,采用近視射擊策略,進(jìn)行n次射擊戰(zhàn)斗后收益為
近視策略并不一定是最優(yōu)策略[16],如某次射擊戰(zhàn)斗,有兩枚射擊彈,射擊兩個目標(biāo),兩枚射擊彈對兩個目標(biāo)的殺傷概率為[1,0.9;0.9,0],R1= R2=1.采用近視策略,則用第1枚選擇目標(biāo)1,不會使用第2枚射擊彈,總收益是1;而最優(yōu)的射擊策略則是用第2枚射擊目標(biāo)1,如果失敗再用第1枚射擊目標(biāo)1,或第1枚射擊目標(biāo)2,總收益是0.9×(1+0.9)+0.1×(0+1)=1.81,顯然這個例子說明了近視策略并非最優(yōu)策略。對本文研究來說,近視策略以紅方當(dāng)前時刻收益最大為目標(biāo),計算量小,實時性強(qiáng),但未考慮下一時刻目標(biāo)類型的變化對射擊收益的影響,適用常規(guī)目標(biāo)無差別射擊。很多情況下相比指數(shù)策略,近視策略可以稱之為一種次優(yōu)策略。
定理3 如果紅方采用近視射擊策略,可以最大化對藍(lán)方目標(biāo)的期望殺傷數(shù)量。
證明 由(11)式可知,對目標(biāo)進(jìn)行射擊后會出現(xiàn)紅方和藍(lán)方目標(biāo)j均存活、紅方存活而藍(lán)方目標(biāo)j被殺傷、紅方被摧毀及紅方和藍(lán)方目標(biāo)j均存活且藍(lán)方目標(biāo)j退出戰(zhàn)斗4種情況。4種情況期望收益Rj(n)和紅方所有射擊行動的期望收益分別為
令β=1,Rb=1,r=1,可得
(19)式結(jié)合近視策略的定義,看出對于每個類型藍(lán)方目標(biāo)來說,在目標(biāo)價值不變的情況下,近視策略不考慮后續(xù)射擊收益,總是選擇當(dāng)前“最容易殺傷”的藍(lán)方目標(biāo)進(jìn)行攔截,顯然可以最大化對藍(lán)方目標(biāo)的期望殺傷數(shù)量,定理3成立。
4.2 完全策略
完全射擊策略就是紅方對每一個藍(lán)方目標(biāo)持續(xù)射擊,直至目標(biāo)被殺傷或自己被摧毀[17]。這種射擊策略需要對目標(biāo)進(jìn)行簡單排序,也可轉(zhuǎn)化為多臂bandit問題。如N=10時,紅方射擊藍(lán)方目標(biāo)的次序可按照(20)式從高到低排序:
4.3 循環(huán)策略
循環(huán)射擊策略就是對存活待射擊的藍(lán)方目標(biāo),紅方按某種順序循環(huán)射擊(如目標(biāo)編號從小到達(dá)),第1個射擊目標(biāo)隨機(jī)選擇。
參數(shù)設(shè)置:設(shè)計兩個射擊戰(zhàn)斗場景,均含有10個待射擊藍(lán)方目標(biāo),藍(lán)方目標(biāo)有5種類型,具體參數(shù)如表1所示。
由表1可見,基本上藍(lán)方價值越高的目標(biāo)就越難被殺傷,且紅方被摧毀的概率越大。已知N=10,B=5,每次計算將目標(biāo)分成5組,設(shè)置組內(nèi)第i類型目標(biāo)先驗概率為0.75,組間設(shè)相互獨立,并服從U(0,1)分布,滿足,折扣率β設(shè)為0.95.
實驗過程:作為比較,采用4種射擊策略對兩個問題進(jìn)行求解。針對4種射擊策略分別計算10000次。
實驗結(jié)果:實驗記錄了兩個場景紅方的收益,包括最小收益、平均收益、最大收益、收益的下四分位數(shù)、中位數(shù)、上四分位數(shù)、平均殺傷數(shù)量、紅方被摧毀概率等數(shù)據(jù)。四分位數(shù)是指將所有收益數(shù)值按大小順序排列并分成4等分,處于3個分割點的位置就是四分位數(shù),最小的四分位數(shù)稱為下四分位數(shù),以此類推。如表2所示為兩個場景下針對4種射擊策略紅藍(lán)雙方對抗紅方收益的數(shù)據(jù)匯總。如表3所示為兩個場景下針對4種射擊策略紅方殺傷藍(lán)方目標(biāo)數(shù)量的數(shù)據(jù)匯總。如表4所示為4種射擊策略下紅方被摧毀的概率。如圖1所示為兩個場景下4種射擊策略射擊收益和平均殺傷數(shù)量對比。
表1 紅藍(lán)雙方參數(shù)值Tab.1 Parameter values of red and blue sides
一般認(rèn)為,射擊戰(zhàn)斗過程中較好射擊策略是根據(jù)紅藍(lán)雙方當(dāng)時狀態(tài)確定的,應(yīng)當(dāng)是即時最優(yōu)策略(近視策略);較差策略是完全策略和循環(huán)策略,因為這兩種策略不太考慮射擊收益,而通過實例和計算結(jié)果分析發(fā)現(xiàn)并非如此。4種射擊策略中指數(shù)策略要優(yōu)于其他3種射擊策略,尤其是平均射擊總收益和平均殺傷藍(lán)方目標(biāo)數(shù)量上具有優(yōu)勢,與定理1和定理2的論述相符。近視策略比預(yù)想表現(xiàn)要差,其根本原因在于對紅方自身被摧毀的概率考慮較少,導(dǎo)致紅方較早被摧毀而結(jié)束戰(zhàn)斗,獲得的射擊總收益也較少。實例中,近視策略甚至還不如完全策略或循環(huán)策略,其原因值得下一步進(jìn)行研究。
表2 紅方收益數(shù)據(jù)匯總Tab.2 Red's return
表3 紅方殺傷藍(lán)方目標(biāo)數(shù)量數(shù)據(jù)匯總Tab.3 Summary of killed blue targets
表4 紅方被摧毀的概率Tab.4 Probability of the red being destroyed
圖1 兩個場景下4種射擊策略射擊收益和平均殺傷數(shù)量對比Fig.1 Shooting returns and mean killing numbers of 4 shooting policies in 2 scenes
(
)
[1]滕克難,盛安冬.艦艇編隊協(xié)同反導(dǎo)作戰(zhàn)網(wǎng)絡(luò)效果度量方法研究[J].兵工學(xué)報,2010,31(9):1247-1253. TENG Ke-nan,SHENG An-dong.Research on metric of network effect in ship formation cooperation anti-missile operation[J].Acta Armamentarii,2010,31(9):1247-1253.(in Chinese)
[2]符小衛(wèi),李金亮,高曉光.防空威脅聯(lián)網(wǎng)建模與分析[J].兵工學(xué)報,2013,34(7):904-909. FU Xiao-wei,LI Jin-liang,GAO Xiao-guang.Modeling and analy-zing of air-defense threat netting[J].Acta Armamentarii,2013,34(7):904-909.(in Chinese)
[3]Gittins J C.Multi-armed bandit allocation indices[M].Chichester:Wiley,1989.
[4]Anderson C M.Ambiguity aversion in multi-armed bandit problems[J].Theory and Decision,2012,72(1):15-33.
[5]Gu M Z,Lu X W.The expected asymptotical ratio for preemptive stochastic online problem[J].Theoretical Computer Science,2013,495:96-112.
[6]Sonin I M.A generalized Gittins index for a Markov chain and its recursive calculation[J].Statistics and Probability Letters,2008,78(12):1526-1553.
[7]Kumar U D,Saranga H.Optimal selection of obsolescence mitigation strategies using a restless bandit model[J].European Journal of Operational Research,2010,200(1):170-180.
[8]Si P B,Ji H,Yu F R.Optimal network selection in heterogeneous wireless multimedia networks[J].Wireless Networks,2010,16(5):1277-1288.
[9]Glazebrook K D,Gaver D P,Jacobs P A.On a military scheduling problem[R].Monterey CA:Naval Postgraduate School,2001.
[10]Barkdoll T C,Gaver D P,Glazebrook K D,et al.Suppression of enemy air defense(SEAD)as an information duel[D].Monterey:Naval Postgraduate School,2001.
[11]Glazebrook K D,Washburn A.Shoot-look-shoot:a review and extension[J].Operations Research,2004,52(3):454-463.
[12]Barkdoll T C,Gaver D P.Suppression of enemy air defences(SEAD)as an information duel[J].Naval Research Logistics,2002,49(8):723-742.
[13]Glazebrook K D,Mitchell H M,Gaver D P,et al.The analysis of shooting problems via generalized bandits[R].Monterey CA:Naval Postgraduate School,2004.
[14]Glazebrook K D,Kirkbride C,Mitchell H M,et al.Index policies for shooting problems[R].Monterey CA:Naval Postgraduate School,2006.
[15]Nash P.A generalized bandit problem[J].Journal of the Royal Statistical Society:Series B,1980,42(2):165-169.
[16]Glazebrook K D,Greatrix S.On transforming an index for generalized bandit problems[J].Journal of Applied Probability,1995,32(1):168-182.
[17]Xu N X.Optimal policy for a dynamic,non-stationary,stochastic inventory problem with capacity commitment[J].European Journal of Operational Research,2009,199(2):400-408.
Optimality Analysis of Index Policy for Offense-defense Shooting Process
LI Long-yue,LIU Fu-xian,ZHAO Lin-feng,WANG Dong-xu
(Air and Missile Defense College,Air Force Engineering University,Xi'an 710051,Shaanxi,China)
The index policy for offense-defense shooting process,namely,how a single red shoots at a collection of blue targets to maximize the return obtained from killed blue targets,is discussed.In consideration of the limitations of previous research and the balance of the red's excepted return and survival probability,Gittins index is introduced and expanded to solve the shooting problems.The optimality of index shooting policy is discussed.Theorem 1 and 2 are extended,and Lemma 1 is presented.Three different shooting policies,such as myopic policy,exhaustive policy and round-robin policy,are introduced for comparison,and the optimality theorem 3 of myopic policy is proposed.2 shooting scenes are set in numerical study.The red's mean return,mean numbers of killed blue targets and red's death rate are calculated for 4 policies.Simulation study outcome verified the optimality of index policy.
ordnance science and technology;shooting policy;Gittins index;index policy;myopic policy
E917
A
1000-1093(2015)05-0953-08
10.3969/j.issn.1000-1093.2015.05.028
2014-06-05
全軍軍事學(xué)研究生課題項目(2014年)
李龍躍(1988—),男,博士研究生。E-mail:lilong_yue@126.com;劉付顯(1962—),男,教授,博士生導(dǎo)師。E-mail:liuxqh@126.com