• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      飛行器博弈制導(dǎo)進(jìn)程與展望

      2024-06-03 14:49:08郭建國陸東陳周敏
      航空兵器 2024年2期
      關(guān)鍵詞:智能算法

      郭建國 陸東陳 周敏

      摘 要:博弈制導(dǎo)可處理復(fù)雜系統(tǒng)中涉及多方合作、 競爭的動(dòng)態(tài)問題, 有利于實(shí)現(xiàn)智能化戰(zhàn)場上信息價(jià)值最大化發(fā)揮, 推動(dòng)精確制導(dǎo)武器的智能化發(fā)展。 本文總結(jié)了博弈制導(dǎo)的基本分類和建模方法, 從終端角度約束、 時(shí)間約束、 過載約束、 末速約束等方面提出了飛行器博弈制導(dǎo)的關(guān)鍵性問題, 搭建了矩陣博弈、 微分博弈兩種典型博弈模型求解框架, 從解析解、 數(shù)值解、 智能算法等方面對(duì)博弈制導(dǎo)的求解方法進(jìn)行梳理。 最后, 從非線性微分博弈求解方法, 非完備信息博弈算法, 不均衡、 非對(duì)稱信息下多飛行器協(xié)同, 多類型武器體系博弈等方向出發(fā), 對(duì)飛行器博弈制導(dǎo)未來的發(fā)展趨勢進(jìn)行了展望和總結(jié)。

      關(guān)鍵詞:? 博弈制導(dǎo); 微分博弈; 矩陣博弈; 智能算法; 自適應(yīng)算法

      中圖分類號(hào):? TJ765; V249

      文獻(xiàn)標(biāo)識(shí)碼: A

      文章編號(hào):? 1673-5048(2024)02-0008-09

      DOI: 10.12132/ISSN.1673-5048.2024.0022

      0 引? 言

      隨著飛行器種類的不斷增加、 飛行任務(wù)的復(fù)雜化以及飛行性能的優(yōu)化需求, 傳統(tǒng)制導(dǎo)系統(tǒng)在應(yīng)對(duì)多智能體環(huán)境、 不確定性和動(dòng)態(tài)性方面顯得愈發(fā)力不從心。 為解決這些問題, 新的方法和理論不斷涌現(xiàn), 推動(dòng)著制導(dǎo)技術(shù)向高精度和智能化方向發(fā)展, 飛行器制導(dǎo)系統(tǒng)產(chǎn)生了巨大變革, 其中博弈制導(dǎo)技術(shù)的崛起無疑成為引領(lǐng)這一變革的先鋒。

      博弈制導(dǎo)的理論最早由Isaacs[1]提出。 20世紀(jì)80年代和90年代初期, 隨著博弈論在多領(lǐng)域的發(fā)展, 研究者開始將博弈論引入飛行器制導(dǎo)領(lǐng)域, 博弈制導(dǎo)[2-7]的理論框架逐漸建立。 博弈制導(dǎo)的概念并非局限于對(duì)手與對(duì)手之間的競爭, 更是一種綜合性的智能控制范式。 博弈理論和制導(dǎo)控制理論的有機(jī)結(jié)合提供了一種有效框架來分析多方參與、 相互競爭或合作的決策過程, 將博弈理論引入飛行器制導(dǎo)研究能夠更精準(zhǔn)地構(gòu)建陣營對(duì)抗態(tài)勢, 綜合考慮對(duì)手信息制定制導(dǎo)策略, 在不同信息優(yōu)勢下獲取最優(yōu)制導(dǎo)策略, 實(shí)現(xiàn)對(duì)戰(zhàn)場的全局把控。

      20世紀(jì)末期, 針對(duì)不同目標(biāo)、 不同環(huán)境的博弈制導(dǎo)系統(tǒng)設(shè)計(jì)需求, 研究者開始將博弈制導(dǎo)應(yīng)用于實(shí)際問題, 逐漸深入研究博弈模型的構(gòu)建和求解方法。 博弈制導(dǎo)的本質(zhì)是一種考慮雙方行為和反應(yīng)的制導(dǎo)方法, 其所追求的不僅是單一飛行器的最優(yōu)控制策略, 更是在復(fù)雜、 動(dòng)態(tài)環(huán)境下實(shí)現(xiàn)多智能體之間的協(xié)同與對(duì)抗。 這種博弈思維的引入, 使得飛行器能夠更為智能地應(yīng)對(duì)諸如多體協(xié)同打擊等復(fù)雜情境。 通過分析博弈策略, 飛行器能夠在動(dòng)態(tài)變化的環(huán)境中做出實(shí)時(shí)決策, 提高任務(wù)執(zhí)行的適應(yīng)性和魯棒性。 相比于經(jīng)典制導(dǎo)方法, 博弈制導(dǎo)具有如下優(yōu)勢: (1)動(dòng)態(tài)適應(yīng)性, 即博弈制導(dǎo)能夠根據(jù)對(duì)手的策略實(shí)時(shí)調(diào)整自身策略。 (2)預(yù)測能力, 即能夠預(yù)測并應(yīng)對(duì)可能的反制措施。 (3)決策優(yōu)化, 即在多目標(biāo)、 多威脅環(huán)境下提供優(yōu)化的制導(dǎo)決策。 (4)復(fù)雜場景, 即更適合處理高度動(dòng)態(tài)和不確定的戰(zhàn)場環(huán)境。 相比之下, 常規(guī)制導(dǎo)律通常基于固定算法或預(yù)設(shè)條件, 可能在復(fù)雜或快速變化的環(huán)境中表現(xiàn)不足。 而博弈制導(dǎo)的靈活性和適應(yīng)性使其在現(xiàn)代復(fù)雜戰(zhàn)場環(huán)境中更具優(yōu)勢。

      21世紀(jì)初期, 隨著對(duì)多智能體系統(tǒng)研究的興起, 博弈制導(dǎo)開始更多地與多智能體系統(tǒng)理論相結(jié)合。 這使得研究者能夠更全面地考慮導(dǎo)彈與目標(biāo)以及其他智能體間的相互作用; 近年來, 隨著強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)的興起, 一些研究開始探索這些方法在博弈制導(dǎo)中的應(yīng)用, 包括使用強(qiáng)化學(xué)習(xí)算法優(yōu)化導(dǎo)彈的制導(dǎo)策略, 以適應(yīng)復(fù)雜和動(dòng)態(tài)的戰(zhàn)場環(huán)境。

      盡管博弈制導(dǎo)技術(shù)帶來了顯著的優(yōu)勢, 但在實(shí)際應(yīng)用中仍然面臨一系列挑戰(zhàn), 如博弈模型建立、 博弈模型求解等。 本文將深入研究博弈制導(dǎo)技術(shù)在飛行器領(lǐng)域的應(yīng)用, 從一對(duì)一追逃博弈到多體協(xié)同對(duì)抗, 從基礎(chǔ)理論到智能算法, 探討其對(duì)飛行器制導(dǎo)領(lǐng)域的影響與推動(dòng)作用, 并展望博弈制導(dǎo)技術(shù)在飛行器領(lǐng)域的發(fā)展趨勢。

      1 博弈制導(dǎo)模型建立

      博弈制導(dǎo)模型的基本要素包括參與者、 策略、 收益、 信息四個(gè)方面, 根據(jù)實(shí)際制導(dǎo)場景對(duì)四要素進(jìn)行定義。

      (1) 參與者: 即參與博弈且擁有決策權(quán)的各方陣營。 根據(jù)攻防場景, 將各飛行器按照目的進(jìn)行陣營劃分, 從對(duì)抗角度來看, 一對(duì)一攻防場景可劃分為追擊方和逃逸方, 多飛行器對(duì)抗場景按戰(zhàn)場態(tài)勢分為攻擊方和防御方, 其中多飛行器對(duì)抗場景下往往蘊(yùn)含著協(xié)同合作, 可建模為合作博弈模型。

      (2) 策略: 一局博弈中每個(gè)參與者的完整的博弈行動(dòng)方案稱為參與者的策略。 制導(dǎo)問題的本質(zhì)為得到一種滿足各種約束需求的制導(dǎo)律, 主要分為兩類: 一是根據(jù)制導(dǎo)需求, 考慮各種約束條件進(jìn)行制導(dǎo)律設(shè)計(jì), 即微分博弈問題; 二是在已有的機(jī)動(dòng)策略庫中通過比較分析, 選取一種最優(yōu)的制導(dǎo)律, 多建立為矩陣博弈問題。 此外, 一對(duì)一攻防博弈中雙方策略一般為完全對(duì)抗策略, 多體對(duì)抗的策略設(shè)計(jì)中往往需要考慮相同陣營間的協(xié)同合作問題。

      (3) 收益: 一局博弈結(jié)束時(shí)的結(jié)果稱為收益, 一般為包含參與者博弈策略的函數(shù), 用于評(píng)價(jià)博弈策略的好壞。 博弈制導(dǎo)模型中的得失一般為以控制指令和狀態(tài)為變量的性能函數(shù), 用以表征控制策略的優(yōu)劣程度。 性能函數(shù)的設(shè)計(jì)需要考慮實(shí)際制導(dǎo)問題中的各種約束條件以及制導(dǎo)性能, 包括脫靶量、 角度誤差等終端約束和帶有控制量和誤差積分形式的過程約束。

      (4) 信息: 即博弈各參與者對(duì)其他參與者的信息掌握程度。 博弈制導(dǎo)中的信息主要包括動(dòng)力學(xué)模型、 控制執(zhí)行機(jī)構(gòu)、 機(jī)動(dòng)策略以及表征收益的性能函數(shù)等。 一般情況下對(duì)各陣營間飛行器建立相同的動(dòng)力學(xué)模型, 并假定具有理想的控制執(zhí)行機(jī)構(gòu), 結(jié)合狀態(tài)轉(zhuǎn)移矩陣用零控脫靶量或脫靶量建立當(dāng)前狀態(tài)下制導(dǎo)策略與收益的映射關(guān)系。

      博弈制導(dǎo)數(shù)學(xué)模型可表示為

      x·=f(x, u)(1)

      J=(x(tf))+∫L(x(τ), u(τ), w(τ), τ)dτ(2)

      式(1)為系統(tǒng)模型, 式(2)為性能函數(shù)。 其中, (x(tf))為終端型性能指標(biāo); L(x(τ), u(τ), w(τ), τ)為積分型性能指標(biāo); u(τ), w(τ)為雙方機(jī)動(dòng)策略。 雙方通過選取博弈策略分別使得性能函數(shù)達(dá)到極大或極?。?/p>

      u*=minu∈UJ(u, w)

      w*=maxw∈WJ(u, w) (3)

      結(jié)合博弈相關(guān)理論, 對(duì)該模型進(jìn)行納什均衡解[8](u*, w*)的求取, 使得式(4)成立:

      J(u*, w)≤J(u*, w*)≤J(u, w*)(4)

      非合作博弈考慮對(duì)對(duì)方陣營飛行器的機(jī)動(dòng)能力、 機(jī)動(dòng)策略的掌握情況, 當(dāng)已知對(duì)方機(jī)動(dòng)策略時(shí), 轉(zhuǎn)化為最優(yōu)控制問題; 當(dāng)對(duì)方飛行器策略未知時(shí), 建立博弈模型進(jìn)行納什均衡解的求取, 根據(jù)信息的掌握情況選取不同的模型求解方法。

      納什均衡是一種相對(duì)平衡狀態(tài), 本質(zhì)是各陣營間的策略組合, 每個(gè)決策者都在對(duì)方陣營策略給定的情況下做出最佳反應(yīng), 參與方均不具有單方面改變策略的動(dòng)機(jī), 是博弈制導(dǎo)問題中最常見的解的形式。

      2 博弈制導(dǎo)研究現(xiàn)狀及關(guān)鍵性問題

      在飛行器博弈制導(dǎo)中, 除了制導(dǎo)精度的表征脫靶量外, 還期望己方具有更多的打擊優(yōu)勢, 從而對(duì)終端角度、 剩余時(shí)間、 過載受限、 飛行末速等方面提出需求, 并結(jié)合研究現(xiàn)狀對(duì)飛行器博弈制導(dǎo)的關(guān)鍵問題進(jìn)行梳理。

      2.1 多種約束問題研究現(xiàn)狀

      (1) 終端角度約束

      對(duì)坦克、 艦艇、 航空母艦等大型攻擊目標(biāo)而言, 不同碰撞角度下的毀傷效果有所差異, 對(duì)于新型飛行器, 不同角度的探測效果也有所不同。 終端角度約束是指制導(dǎo)武器在攻擊末段應(yīng)達(dá)到的特定攻擊角度, 保證最優(yōu)探測效果的同時(shí)達(dá)到最大殺傷效果。

      終端角度約束制導(dǎo)方法由 Kim 等[9]首次提出, 目前針對(duì)終端角度約束的制導(dǎo)律已有很多研究, 主要包括: 基于比例導(dǎo)引, 如偏置比例導(dǎo)引[10-12]; 基于現(xiàn)代控制理論, 如最優(yōu)控制[13]、 自適應(yīng)變結(jié)構(gòu)控制[14-15]等; 基于幾何曲線[16]、 優(yōu)化理論以及協(xié)同打擊[17]等其他類型的制導(dǎo)方法。 有關(guān)終端角度約束的研究大多針對(duì)地面固定目標(biāo)或勻加速直線運(yùn)動(dòng)目標(biāo), 未考慮目標(biāo)機(jī)動(dòng)情況。

      微分博弈制導(dǎo)律能在擊中目標(biāo)的同時(shí)滿足特定的性能需求, 適用于解決機(jī)動(dòng)目標(biāo)下的終端角度約束問題。 文獻(xiàn)[18]基于線性高斯偽譜模型預(yù)測控制(LGPMPC)方法, 結(jié)合了線性正交最優(yōu)控制、 模型預(yù)測控制和高斯偽譜法, 解決了具有二次性能指標(biāo)和硬終端約束的非線性最優(yōu)控制問題, 但耗時(shí)較長; Shaferman等[19]考慮了終端角度約束問題, 按照目標(biāo)機(jī)動(dòng)是否已知分別推導(dǎo)了微分博弈制導(dǎo)律和最優(yōu)制導(dǎo)律, 在目標(biāo)機(jī)動(dòng)時(shí)也具有較好的打擊效果, 但該方法假定導(dǎo)彈機(jī)動(dòng)不受限制; 文獻(xiàn)[20-21]沿用Shaferman等人的思想, 推導(dǎo)出一個(gè)有偏置的最優(yōu)制導(dǎo)律, 所提出的制導(dǎo)律適合于攔截高速機(jī)動(dòng)的目標(biāo), 并且在臨近終點(diǎn)時(shí)需要較小的制導(dǎo)指令, 可以成功避免指令飽和, 但參數(shù)選取是一大難點(diǎn)。

      (2) 剩余時(shí)間約束

      在導(dǎo)彈制導(dǎo)和空間交會(huì)等場景中, 通過估算目標(biāo)到達(dá)時(shí)間(即剩余飛行時(shí)間)來調(diào)整制導(dǎo)策略, 以提高制導(dǎo)的效率和準(zhǔn)確性。 剩余時(shí)間約束多用于協(xié)同制導(dǎo)問題, 要求飛行器在同一時(shí)刻到達(dá)目標(biāo)位移, 以實(shí)現(xiàn)對(duì)目標(biāo)的圍捕, 達(dá)到協(xié)同效果; 剩余時(shí)間約束也可用于優(yōu)化制導(dǎo)算法, 確保飛行器能在最短時(shí)間內(nèi)擊中目標(biāo), 有助于減少目標(biāo)逃逸概率, 同時(shí)提高制導(dǎo)系統(tǒng)對(duì)快速變化情況的適應(yīng)能力。

      近年來, 研究者們通過引入時(shí)間優(yōu)化模型或引入偏置項(xiàng)來滿足剩余時(shí)間的約束。 文獻(xiàn)[22]在最優(yōu)導(dǎo)引律中引入時(shí)變修正項(xiàng), 實(shí)現(xiàn)了對(duì)導(dǎo)彈飛行時(shí)間的準(zhǔn)確控制; 文獻(xiàn)[23]基于二維制導(dǎo)模型, 在小角度假設(shè)下推導(dǎo)了剩余飛行時(shí)間的估算模型, 通過構(gòu)造時(shí)間誤差和滑模面,設(shè)計(jì)了一種無奇異點(diǎn)的時(shí)間約束末制導(dǎo)律, 能夠控制導(dǎo)彈以期望的攻擊時(shí)間擊中目標(biāo)點(diǎn), 并通過設(shè)計(jì)附加項(xiàng)解決制導(dǎo)律的控制奇異問題; 文獻(xiàn)[24] 針對(duì)空空導(dǎo)彈期望時(shí)間攔截強(qiáng)機(jī)動(dòng)目標(biāo)問題, 提出一種不依賴剩余時(shí)間估計(jì)的新型攻擊時(shí)間約束滑模制導(dǎo)律; 文獻(xiàn)[25]結(jié)合一致性算法設(shè)計(jì)分布式制導(dǎo)律, 并基于李雅普諾夫理論證明系統(tǒng)在有限時(shí)間收斂, 可以實(shí)現(xiàn)同時(shí)打擊。

      (3) 過載能量約束

      受物理結(jié)構(gòu)和動(dòng)力系統(tǒng)的限制, 飛行器的可用過載并不能滿足所有的制導(dǎo)指令需求, 因此在進(jìn)行制導(dǎo)律設(shè)計(jì)時(shí)需要考慮過載約束問題。 目前在飛行器博弈制導(dǎo)中過載約束問題的研究主要包括兩個(gè)方向: 一是以過載二次型積分形式為性能函數(shù)的能量最優(yōu)問題, 也被稱為過載“軟約束”問題; 二是嚴(yán)格保證過載不超限的“硬約束”問題。

      在博弈制導(dǎo)中的微分博弈模型能夠有效解決各種約束問題, 針對(duì)“軟約束”問題, 借助最優(yōu)控制理論求得微分博弈模型的納什均衡解, 但這往往存在小區(qū)間內(nèi)的過載發(fā)散問題, 因此過載硬約束問題的研究非常重要。 目前大多數(shù)研究者通過施加飽和控制來避免過載超限問題, 很少從根本上將過載約束考慮進(jìn)制導(dǎo)律的設(shè)計(jì)中。 文獻(xiàn)[26]提出一種帶有時(shí)變加速度限制的微分博弈制導(dǎo)律; 文獻(xiàn)[27-28]提出一種考慮加速度硬約束的組合線性二次型制導(dǎo)律, 采用分段思想, 在制導(dǎo)初段預(yù)先將狀態(tài)約束到一個(gè)奇異博弈空間, 在該博弈空間能夠保證飛行器在實(shí)現(xiàn)末制導(dǎo)打擊的同時(shí), 制導(dǎo)指令不超出可用過載。

      (4) 末速最大約束

      高末速可以增強(qiáng)穿透力和破壞力, 提升攻擊的有效性, 末速最大約束用于確保制導(dǎo)武器在接近目標(biāo)時(shí)保持較高速度, 這對(duì)于打擊高機(jī)動(dòng)性目標(biāo)尤為關(guān)鍵。 研究者們通過改善推進(jìn)系統(tǒng)和優(yōu)化飛行軌跡來實(shí)現(xiàn)高末速。 在博弈制導(dǎo)中, 可建立控制量與末速度間的映射關(guān)系, 將末速度作為終端約束引入性能指標(biāo), 然后借助博弈模型進(jìn)行求解, 但目前的研究較少。

      2.2 博弈制導(dǎo)關(guān)鍵性問題

      博弈制導(dǎo)的關(guān)鍵內(nèi)容包括兩部分: 準(zhǔn)確的博弈模型是博弈制導(dǎo)的必要前提條件; 模型求解的真實(shí)可靠性是實(shí)現(xiàn)制導(dǎo)的決定性因素。

      (1) 博弈模型的準(zhǔn)確性問題

      博弈模型是對(duì)制導(dǎo)問題的數(shù)學(xué)描述, 其通過物理學(xué)聯(lián)系、 理想假設(shè)等過程, 將一個(gè)制導(dǎo)問題轉(zhuǎn)化成數(shù)學(xué)問題。 在實(shí)際背景下, 簡化過程的合理性是衡量數(shù)學(xué)描述準(zhǔn)確性的標(biāo)準(zhǔn), 也影響基于博弈解設(shè)計(jì)制導(dǎo)律的有效性。 真實(shí)的制導(dǎo)模型是一個(gè)復(fù)雜的非線性系統(tǒng), 目前的研究主要分為兩大方向: 一是基于小角度假設(shè)等方法進(jìn)行線性化, 基于線性模型進(jìn)行求解; 二是對(duì)于復(fù)雜非線性模型, 借助自適應(yīng)算法進(jìn)行近似解的求取。 前者的線性化條件較為理想, 適用場景受限。 后者的模型更為準(zhǔn)確, 但受限于數(shù)學(xué)理論的不足, 難以求取解析解; 同時(shí)數(shù)值解的逼近效果受方法的影響, 神經(jīng)網(wǎng)絡(luò)等智能算法雖有較好的自適應(yīng)效果, 但未將物理信息考慮在內(nèi), 在某種意義上是對(duì)已知信息資源的浪費(fèi)。

      (2) 博弈模型求解難點(diǎn)

      對(duì)于線性模型, 當(dāng)前多借助于狀態(tài)轉(zhuǎn)移矩陣得到零控脫靶量, 以零控脫靶量為新變量進(jìn)行博弈模型降維與問題重構(gòu)。 在推導(dǎo)計(jì)算過程中, 雙邊問題的求解大多忽略了雙方機(jī)動(dòng)導(dǎo)致的相對(duì)運(yùn)動(dòng)關(guān)系耦合因素, 而是仿照單邊問題的求解方法進(jìn)行推導(dǎo)運(yùn)算。 對(duì)于非線性模型, 神經(jīng)網(wǎng)絡(luò)等自適應(yīng)算法一則未用到物理信息, 二則其逼近效果和收斂速度很大程度上依賴于自適應(yīng)參數(shù)的初值選取和自適應(yīng)更新律的設(shè)計(jì), 這些問題都依賴于數(shù)學(xué)方法的進(jìn)一步研究和應(yīng)用。

      3 博弈制導(dǎo)方法

      博弈制導(dǎo)問題通常假定各陣營間的博弈無時(shí)間序列性, 屬于靜態(tài)博弈范疇, 且當(dāng)前的博弈制導(dǎo)研究主要集中于完全信息博弈, 根據(jù)博弈策略的連續(xù)性分別用矩陣博弈和微分博弈求取納什均衡, 并基于納什均衡進(jìn)行制導(dǎo)律設(shè)計(jì)。 矩陣博弈是典型的靜態(tài)博弈算法, 多用于解決離散型決策問題, 即每個(gè)參與者有一組明確的、 有限的策略可供選擇, 通過求解博弈矩陣, 選取最優(yōu)納什均衡解并得到對(duì)應(yīng)制導(dǎo)策略; 微分博弈又稱微分對(duì)策, 是一種涉及在動(dòng)態(tài)系統(tǒng)中的兩個(gè)或多個(gè)參與者之間的競爭或合作的最優(yōu)控制方法, 適用于連續(xù)時(shí)間或連續(xù)策略的情景, 借助最優(yōu)控制理論進(jìn)行求解。

      3.1 矩陣博弈

      矩陣博弈將博弈過程以矩陣形式呈現(xiàn)出來, 矩陣元素為雙方采取對(duì)應(yīng)行/列策略下的收益函數(shù), 通過求解博弈矩陣得到均衡解。 矩陣博弈主要包括策略庫建立、 收益函數(shù)設(shè)計(jì)、 博弈矩陣建立、 求解和優(yōu)化策略四部分內(nèi)容。

      (1) 首先根據(jù)雙方的可用策略建立機(jī)動(dòng)策略庫, 博弈矩陣的維數(shù)取決于雙方的可用策略數(shù);

      (2) 結(jié)合實(shí)際制導(dǎo)場景設(shè)計(jì)博弈收益函數(shù), 對(duì)不同博弈策略產(chǎn)生的博弈結(jié)果進(jìn)行量化表征;

      (3) 對(duì)于每個(gè)參與者, 將不同策略下的博弈結(jié)果量化填充到矩陣中, 矩陣中的每個(gè)元素代表了當(dāng)各方選擇特定策略組合時(shí)的收益或損失;

      (4) 分析和優(yōu)化策略: 通過分析矩陣尋找納什均衡點(diǎn), 即在此點(diǎn)上沒有任何一方能夠通過單方面改變策略來獲得更好的結(jié)果。

      二人有限零和博弈可用數(shù)組G={U, W, R, X, Y}表示, 其中: U={u1, u2, …, um}, W={w1, w2, …, wn}分別表示博弈參與者雙方陣營P1, P2的策略集合; R=[rij]m×n代表支付矩陣, 當(dāng)參與者P1, P2分別選擇策略u(píng)i(i=1, …, m)和策略wj(j=1, …, n)時(shí), rij表示對(duì)應(yīng)策略下的收益值。

      在混合策略情況下, 參與者分別以概率pi, qj選取策略u(píng)i, wj, 則有

      X={p=(p1, p2, …, pm)T|∑mi=1pi=1, pi≥0}

      Y={q=(q1, q2, …, qn)T|∑nj=1qj=1, qj≥0} (5)

      式中: X, Y為參與者的混合策略空間, 期望收益函數(shù)為

      E(p, q)=pRqT=∑mi=1∑nj=1rijpiqj(6)

      對(duì)于該模型, 若存在p*∈X, q*∈Y, 使得式(7)成立, 則稱(p*, q*)為博弈G的納什均衡解:

      E(p, q*)≤E(p*, q*)≤E(p*, q)(7)

      矩陣博弈的求解方法包括但不限于線性規(guī)劃、 極小極大算法、 動(dòng)態(tài)規(guī)劃、 進(jìn)化算法和機(jī)器學(xué)習(xí)等。 受限于策略空間的離散性質(zhì), 矩陣博弈僅適用于策略層級(jí)的博弈, 在制導(dǎo)律設(shè)計(jì)中的應(yīng)用研究較少。 李博文[29]、 孫傳鵬[30]以不同系數(shù)下的比例導(dǎo)引律為例將矩陣博弈用于制導(dǎo)問題, 考慮目標(biāo)機(jī)動(dòng)的不確定性, 采用滾動(dòng)時(shí)域算法和粒子群優(yōu)化算法求取了均衡解。

      3.2 微分博弈

      在微分博弈[31-47]中, 參與者的策略隨時(shí)間連續(xù)變化, 每個(gè)參與方通過選擇合適的控制變量來實(shí)現(xiàn)最小化或最大化性能指標(biāo)。 微分博弈包括動(dòng)力學(xué)微分方程建立、 約束條件和性能函數(shù)選取、 微分博弈求解和制導(dǎo)律設(shè)計(jì)四部分內(nèi)容。

      根據(jù)動(dòng)力學(xué)模型的復(fù)雜程度可分為線性二次型微分博弈和非線性微分博弈。

      (1)? 線性二次型微分博弈

      假定系統(tǒng)狀態(tài)模型為線性:

      X·(t)=A(t)X(t)+B(t)U(t)(8)

      結(jié)合狀態(tài)轉(zhuǎn)移矩陣構(gòu)建當(dāng)前狀態(tài)下不同控制指令對(duì)應(yīng)的終端狀態(tài)間的映射關(guān)系, 用零控脫靶量、 零控角脫靶量等來表征終端狀態(tài), 同時(shí)實(shí)現(xiàn)模型降維, 降低計(jì)算復(fù)雜度。 性能指標(biāo)為二次型形式:

      J=(x(tf)) + 12∫tft[eT(τ)Q(τ)e(τ) +

      UT(τ)R(τ)U(τ)]dτ(9)

      通過選取哈密頓函數(shù), 結(jié)合最優(yōu)控制理論和極值原理得到控制方程、 協(xié)態(tài)方程、 橫截條件, 聯(lián)立求得最優(yōu)控制解析解為

      u*(t)=-R-1u(t)BTu(t)Pu(t)x(t)

      w*(t)=-R-1w(t)BTw(t)Pw(t)x(t) (10)

      其中, P(t)滿足如下Riccati方程:

      P·=-P(t)A-ATP(t)+P(t)BR-1BTP(t)-QP(tf)=F (11)

      這也進(jìn)一步實(shí)現(xiàn)了將博弈制導(dǎo)問題轉(zhuǎn)化為Riccati方程求解問題。 對(duì)于線性動(dòng)力學(xué)模型而言, 一般選定參數(shù)矩陣Q, R為正定對(duì)角陣, 進(jìn)一步簡化求解Riccati方程, 得到u*(t), w*(t)解析表達(dá)式, 并進(jìn)行制導(dǎo)律設(shè)計(jì)。

      在實(shí)際應(yīng)用領(lǐng)域, 飛行器動(dòng)力學(xué)模型具有非線性、 時(shí)變性、 不確定性等特點(diǎn), 這導(dǎo)致式(11)非常復(fù)雜, 目前的數(shù)學(xué)手段難以支撐非線性Riccati方程的求解。 因此, 數(shù)值方法和智能算法的結(jié)合受到眾多學(xué)者的青睞與推崇。

      (2) 非線性微分博弈

      研究非線性微分博弈的方法分為定量方法和定性方法。 定量方法以求解均衡點(diǎn)、 均衡點(diǎn)所對(duì)應(yīng)的最優(yōu)控制策略以及相應(yīng)的代價(jià)函數(shù)為目的; 定性方法則以對(duì)抗中某種預(yù)期結(jié)果能否實(shí)現(xiàn)為研究目的, 分析界柵存在性和位置, 以期在對(duì)抗中處于有利地位。 定量微分博弈所用的方法為雙方極值原理和變分方法, 將求解微分博弈最優(yōu)控制策略問題轉(zhuǎn)化為求一組HJI(Hamilton-Jacobi-Isaacs)方程的問題。

      依托最優(yōu)控制理論、 龐特里亞金極大值原理等, 博弈制導(dǎo)模型的求解轉(zhuǎn)化為HJI方程的求解。 HJI方程是HJB(Hamilton-Jacobi-Bellman)方程的一個(gè)推廣, 用于描述在動(dòng)態(tài)博弈場景中的最優(yōu)策略。 HJI方程的求解通常比HJB方程更復(fù)雜, 涉及雙邊極值。 目前常規(guī)的求解方法可大致分為解析法, 數(shù)值法以及智能算法, 如圖1所示。

      a. 解析法

      當(dāng)控制系統(tǒng)和動(dòng)態(tài)系統(tǒng)具有高度對(duì)稱性時(shí), 可采用分離變量法[47]進(jìn)行解析解求取。 假設(shè)解可寫成多個(gè)變量的乘積形式, 將假設(shè)形式代入HJI方程, 得到一系列常微分方程, 分別求解這些常微分方程, 并將得到的各部分解組合起來, 即可構(gòu)造HJI方程的解。

      特征線法[48]的主要思想是將HJB方程轉(zhuǎn)化為一組常微分方程, 通過跟蹤特征線求解最優(yōu)控制和最優(yōu)值函數(shù)的解。 其核心概念是在狀態(tài)空間中沿著特征線傳播信息, 從而找到最優(yōu)解。 求解流程為: 從HJI方程出發(fā), 構(gòu)造相應(yīng)的特征方程組, 通過解這組常微分方程, 得到特征曲線; 在特征曲線上, HJI方程的解可表示為沿特征曲線的簡單函數(shù), 通過特征曲線回代, 得到原偏微分方程的解。

      當(dāng)HJI方程不能精確求解時(shí), 可使用微擾方法[47]近似求解。 選擇一個(gè)合適的基準(zhǔn)解, 在基準(zhǔn)解上加入小的擾動(dòng), 構(gòu)造擴(kuò)展解; 將擴(kuò)展解代入HJI方程, 得到擾動(dòng)方程; 求解擾動(dòng)方程, 獲得對(duì)基準(zhǔn)解的修正。

      上述解析法中, 特征線法直觀性強(qiáng), 對(duì)很多一階非線性偏微分方程均有效, 但對(duì)于具有復(fù)雜邊界條件或在高維空間中的方程, 特征線法可能難以應(yīng)用, 且這種方法通常只能提供局部解, 無法得到全局解; 分離變量法僅適用于方程或邊界條件具有高度對(duì)稱性的場景; 微擾方法只適用于擾動(dòng)較小的情況, 大擾動(dòng)可能導(dǎo)致解的不準(zhǔn)確或失效, 且需要一個(gè)合適的基準(zhǔn)解, 但對(duì)于復(fù)雜問題而言, 基準(zhǔn)解的獲取本身就是個(gè)很大挑戰(zhàn)。

      文獻(xiàn)[28]考慮加速度受限的制導(dǎo)問題, 將有界控制問題轉(zhuǎn)化為柯西問題, 并且借助特征線法求得解析解。 基于微擾方法和分離變量法的求解因條件過于苛刻, 尚未應(yīng)用到制導(dǎo)領(lǐng)域。 因此, 在非線性微分博弈問題中, 解析解的適用范圍非常之小, 眾多學(xué)者開始進(jìn)行數(shù)值法的研究。

      b. 數(shù)值法

      數(shù)值法[48]也是先將微分博弈問題看成一個(gè)雙邊或多邊最優(yōu)控制問題, 將最優(yōu)控制問題轉(zhuǎn)化成一個(gè)等效問題, 然后用數(shù)值優(yōu)化的方法來求解該等效問題。 其中, 轉(zhuǎn)化方法主要有直接法和間接法兩類。

      直接法是通過把原始最優(yōu)控制問題的控制變量或狀態(tài)變量離散和參數(shù)化, 從而實(shí)現(xiàn)將連續(xù)系統(tǒng)最優(yōu)控制問題轉(zhuǎn)化為一個(gè)非線性規(guī)劃問題(NLP), 求解NLP問題獲得原最優(yōu)控制問題的最優(yōu)解, 主要包括直接打靶法和配點(diǎn)法。 該方法不需要推導(dǎo)原始問題的一階最優(yōu)性必要條件, 對(duì)初值估計(jì)精度要求不高, 但容易收斂到局部最優(yōu)解。

      間接法是基于最優(yōu)化理論之一的Pontryagin極大值原理推導(dǎo)原始最優(yōu)控制問題的一階最優(yōu)性必要條件, 從而構(gòu)造原始最優(yōu)控制問題的Hamiltonian邊值問題(HBVP), 求解該邊值問題, 即可獲得原始最優(yōu)控制問題的最優(yōu)解。 解的精度較高且最優(yōu)解滿足一階最優(yōu)性必要條件, 但求解兩點(diǎn)邊值問題時(shí)的收斂域很小, 對(duì)未知邊界條件的初值估計(jì)精度要求很高。

      基于直接法的算法如聯(lián)立迭代分解正交配置法(SOCD)[49]、 聯(lián)立直接間接混合法(SSD)等可求解帶有障礙、 邊界受限等復(fù)雜場景下的微分博弈問題, 目標(biāo)函數(shù)多為終端型或混合型性能指標(biāo)。 基于間接法的算法如自適應(yīng)動(dòng)態(tài)規(guī)劃(ADP)等多用于求解彈道規(guī)劃、 制導(dǎo)軌跡優(yōu)化等問題, 目標(biāo)函數(shù)多為積分型性能函數(shù)問題; 此外, 滾動(dòng)時(shí)域優(yōu)化算法(RHO)還可用于求解部分場景實(shí)時(shí)變化等不確定性條件下的微分博弈問題。 在狀態(tài)空間較大或動(dòng)作空間連續(xù)的情況下, 數(shù)值法計(jì)算復(fù)雜度高, 對(duì)于連續(xù)問題, 離散化過程會(huì)引入誤差, 目前數(shù)值法多與智能算法結(jié)合呈現(xiàn)。

      c. 智能算法

      相比傳統(tǒng)博弈求解方法, 智能算法在解決飛行器博弈制導(dǎo)問題方面展現(xiàn)明顯優(yōu)勢 [50-63]: 一方面, 其能精確建模復(fù)雜環(huán)境, 適用于多智能體博弈的復(fù)雜情境; 另一方面, 其能實(shí)時(shí)決策且自主學(xué)習(xí)、 適應(yīng), 更適用于處理非凸、 多階段、 不確定等復(fù)雜博弈場景。 目前的智能博弈求解方法包括仿生優(yōu)化算法、 機(jī)器學(xué)習(xí)、 強(qiáng)化學(xué)習(xí)等。

      仿生優(yōu)化算法是指模擬自然界中生物種群的某些現(xiàn)象和規(guī)律, 以搜索得到問題的解, 主要包括遺傳算法(GA)、 粒子群算法(PSO)、 模擬退火算法(SA)等。 謝子涵采用混合策略博弈理論對(duì)雙方的策略進(jìn)行擴(kuò)展, 將攔截彈的制導(dǎo)策略選擇問題轉(zhuǎn)化為一個(gè)具有等式約束的多參數(shù)優(yōu)化問題, 并采用改進(jìn)的粒子群算法進(jìn)行優(yōu)化[50]; 文獻(xiàn)[51-52]采用混沌量子粒子群優(yōu)化(CQPSO)算法求解非線性微分博弈問題, 文獻(xiàn)[53]將現(xiàn)代生物遺傳算法引入到對(duì)策問題的均衡解計(jì)算中來, 設(shè)計(jì)了求解有限n人非合作對(duì)策的納什均衡解的遺傳算法模型, 并通過雙矩陣對(duì)策的例題驗(yàn)證了算法的有效性; 文獻(xiàn)[54]提出一種自適應(yīng)鄰域模擬退火算法, 在不減少問題解的條件下, 解決了多解的非合作n人對(duì)策問題; 文獻(xiàn)[55]把基于模擬退火的粒子群算法(SA-PSO)作為優(yōu)化策略, 將一種改進(jìn)的SA-PSO作為非線性模型預(yù)測控制(NMPC)的優(yōu)化技術(shù), 在保留PSO快速簡單的全局尋優(yōu)特點(diǎn)下, 利用SA跳出局部最優(yōu)的能力, 通過引入模擬退火算法跳出局部最優(yōu), 并自適應(yīng)調(diào)整權(quán)重參數(shù), 提升了系統(tǒng)收斂性能。

      機(jī)器學(xué)習(xí)算法從數(shù)據(jù)中學(xué)習(xí)總結(jié)模型的規(guī)律及特征, 在博弈制導(dǎo)問題中以神經(jīng)網(wǎng)絡(luò)應(yīng)用最為廣泛。 強(qiáng)化學(xué)習(xí)指通過與環(huán)境的交互實(shí)現(xiàn)自主學(xué)習(xí)的過程, 主要包括值迭代學(xué)習(xí)和策略迭代學(xué)習(xí)。 在微分博弈求解中, 機(jī)器學(xué)習(xí)與強(qiáng)化學(xué)習(xí)相互融合, 多以自適應(yīng)神經(jīng)網(wǎng)絡(luò)的各種形式呈現(xiàn)。

      針對(duì)多智能體間不完全信息隨機(jī)博弈問題, 文獻(xiàn)[56]將神經(jīng)虛擬自博弈 (NFSP)應(yīng)用到小型實(shí)時(shí)策略(Mini-RTS), 證明了NFSP可以有效地與策略梯度強(qiáng)化學(xué)習(xí)相結(jié)合; 文獻(xiàn)[57]將虛擬自博弈(FSP)與軟策略演員-評(píng)論家(SAC)相結(jié)合, SAC的引入使得FSP能夠處理具有連續(xù)、 高維觀測和動(dòng)作空間的問題; 文獻(xiàn)[58] 通過構(gòu)建一類啟發(fā)式連續(xù)獎(jiǎng)勵(lì)函數(shù), 設(shè)計(jì)一種自適應(yīng)漸進(jìn)式學(xué)習(xí)方法, 提出一種快速穩(wěn)定收斂訓(xùn)練方法, 解決深度強(qiáng)化學(xué)習(xí)訓(xùn)練過程中的稀疏獎(jiǎng)勵(lì)問題, 實(shí)現(xiàn)智能博弈算法的穩(wěn)定快速收斂; 文獻(xiàn)[59]將綜合評(píng)價(jià)網(wǎng)絡(luò)引入到策略梯度方法中, 形成訓(xùn)練智能體自主學(xué)習(xí)的自博弈演員-批評(píng)者(SPAC)方法, 仿真結(jié)果表明, 該方法下智能體表現(xiàn)優(yōu)于深度確定性策略梯度(DDPG)和近端策略優(yōu)化(PPO)算法。

      針對(duì)傳統(tǒng)微分博弈制導(dǎo)律的求解極度依賴模型的復(fù)雜度, 復(fù)雜系統(tǒng)導(dǎo)致維數(shù)爆炸問題, 文獻(xiàn)[60-61]利用自適應(yīng)動(dòng)態(tài)規(guī)劃(ADP)方法, 引入評(píng)價(jià)神經(jīng)網(wǎng)絡(luò)逼近最優(yōu)代價(jià)函數(shù), 得到攻防博弈雙方的最優(yōu)指令; 文獻(xiàn)[62]引入策略迭代思想, 通過策略評(píng)估和策略提高進(jìn)行循環(huán)來逼近微分博弈的鞍點(diǎn)解, 同時(shí)采用多項(xiàng)式擬合的方法逼近價(jià)值函數(shù), 以避免非線性偏微分方程的求解。 劉子超等人針對(duì)固定目標(biāo)攔截問題, 通過引入深度監(jiān)督學(xué)習(xí)網(wǎng)絡(luò)提高深度強(qiáng)化學(xué)習(xí)訓(xùn)練效率, 提出一種基于預(yù)測校正的角度約束制導(dǎo)方法[12]。 文獻(xiàn)[63]基于深度確定性策略梯度強(qiáng)化學(xué)習(xí)算法, 提出一種權(quán)衡制導(dǎo)精度、 能量消耗和攔截時(shí)間的攔截制導(dǎo)方法, 有效應(yīng)用于隨機(jī)弱機(jī)動(dòng)目標(biāo)攔截場景。

      4 挑戰(zhàn)和未來方向

      4.1 面臨的挑戰(zhàn)

      (1) 模型不確定性博弈問題

      微分博弈和矩陣博弈等都是假定飛行器具有理想且精準(zhǔn)的動(dòng)力學(xué)模型, 而實(shí)際應(yīng)用中, 模型不確定性問題給博弈制導(dǎo)造成了很大困難。 圖2所示為模型不確定控制系統(tǒng)結(jié)構(gòu)圖。

      首先, 模型不確定性使得飛行器的動(dòng)力學(xué)特性難以精確預(yù)測, 導(dǎo)致制定的策略可能無法精確適應(yīng)實(shí)際情況。 這種不確定性可能來源于飛行器本身的性能變化、 環(huán)境因素或者對(duì)手飛行器的未知行為。 其次, 不確定性增加了策略設(shè)計(jì)的復(fù)雜度, 飛行器必須在缺乏完整信息的情況下做出決策, 這要求策略具有更高的適應(yīng)性和魯棒性。 此外, 不確定性也增加了多目標(biāo)優(yōu)化的難度, 使得在動(dòng)態(tài)變化的環(huán)境中平衡各種目標(biāo)(如安全、 效率和能耗)變得更加困難。 總之, 模型不確定性要求博弈制導(dǎo)算法不僅要能有效應(yīng)對(duì)預(yù)測性挑戰(zhàn), 還要能靈活適應(yīng)不可預(yù)見的環(huán)境和對(duì)手行為變化。

      (2) 非對(duì)稱信息博弈制導(dǎo)挑戰(zhàn)

      非對(duì)稱信息在博弈制導(dǎo)問題中引入的挑戰(zhàn)主要體現(xiàn)在信息不平衡給決策帶來的高度復(fù)雜性。 當(dāng)參與博弈的飛行器擁有的信息數(shù)據(jù)量和信息質(zhì)量不一致時(shí), 其決策效率和準(zhǔn)確性會(huì)受到影響。 這種信息差異可能導(dǎo)致某些飛行器在制定策略時(shí)處于劣勢, 因?yàn)闊o法完全預(yù)測或理解對(duì)手的行動(dòng)和意圖。 此外, 非對(duì)稱信息還可能增加制導(dǎo)策略的不確定性, 因?yàn)轱w行器必須在部分未知的環(huán)境中作出反應(yīng)。 這要求策略設(shè)計(jì)不僅要考慮當(dāng)前的信息狀態(tài), 還要能夠適應(yīng)可能的信息變化和不確定性。 在多飛行器博弈制導(dǎo)中, 有效管理和利用非對(duì)稱信息成為一個(gè)關(guān)鍵的挑戰(zhàn), 需要算法具備更高的智能性和適應(yīng)性以應(yīng)對(duì)這種復(fù)雜的信息環(huán)境。

      (3) 多飛行器博弈制導(dǎo)問題

      多飛行器博弈制導(dǎo)問題結(jié)合了控制論和博弈論, 核心在于多個(gè)飛行器在空中執(zhí)行策略互動(dòng), 以實(shí)現(xiàn)各自目標(biāo)任務(wù)。 這個(gè)問題的難點(diǎn)主要體現(xiàn)在以下幾個(gè)方面: 首先, 每個(gè)飛行器都有獨(dú)立的動(dòng)力學(xué)模型, 相互作用導(dǎo)致系統(tǒng)總體表現(xiàn)出非線性和高復(fù)雜性; 其次, 飛行器在博弈中往往不能獲取關(guān)于其他飛行器的完整信息; 此外, 策略設(shè)計(jì)需考慮對(duì)手行動(dòng)和環(huán)境變化, 要求算法具備高度適應(yīng)性和智能性; 多目標(biāo)優(yōu)化也是一個(gè)重點(diǎn)問題, 如能量最小化、 攻擊效率最大化與飛行安全等目標(biāo)往往相互沖突, 需妥善平衡, 處理協(xié)同與競爭關(guān)系也至關(guān)重要。 為應(yīng)對(duì)這些挑戰(zhàn), 可采用非線性控制理論、 博弈論、 機(jī)器學(xué)習(xí)和人工智能等方法, 在提高飛行器性能和安全性的同時(shí), 也為理解復(fù)雜系統(tǒng)動(dòng)態(tài)行為提供新視角。

      (4) 多類型武器體系協(xié)同對(duì)抗挑戰(zhàn)

      面向涵蓋火炮、 艦艇、 無人機(jī)、 導(dǎo)彈等多種武器類型的復(fù)雜體系交戰(zhàn)場景, 要求總控系統(tǒng)發(fā)揮“首腦作用”, 對(duì)來襲的多武器體系進(jìn)行戰(zhàn)略部署, 以期奪取體系對(duì)抗的勝利。 多類型武器體系協(xié)同對(duì)抗時(shí), 不同武器系統(tǒng)的作用形式不同, 殺傷效果不同, 面向不同目標(biāo)的作戰(zhàn)效能也有所不同, 且各武器類型間的協(xié)同配合效果難以準(zhǔn)確描述, 這不僅對(duì)交戰(zhàn)場景的模型建立帶來了挑戰(zhàn), 也對(duì)能力評(píng)估、 協(xié)同打擊、 任務(wù)分配等提出了更高需求。

      解決這些問題需要對(duì)多智能體系統(tǒng)、 博弈論和信息論等領(lǐng)域的深入理解, 以及創(chuàng)新性的博弈制導(dǎo)算法和決策策略的設(shè)計(jì)。 這些關(guān)鍵問題的解決將有助于推動(dòng)飛行器博弈制導(dǎo)技術(shù)的發(fā)展, 為未來的智能飛行器系統(tǒng)提供更強(qiáng)大、 靈活、 魯棒的導(dǎo)航與控制能力。

      4.2 未來研究方向

      (1) 非線性微分博弈求解方向

      由于數(shù)學(xué)理論的高度理想性, 分離變量法、 微擾方法、 特征線法等在非線性微分博弈的解析求解中的適用范圍十分有限。 雖然基于最優(yōu)控制理論下的微分博弈求解手段相對(duì)成熟, 但對(duì)雙邊問題的求解多套用單邊最優(yōu)控制問題求解方法, 并未從雙邊博弈角度出發(fā)進(jìn)行研究, 因此可探索極小化極大值方法、 博弈樹等經(jīng)典博弈算法在博弈制導(dǎo)問題中的應(yīng)用。 此外, 基于固定點(diǎn)迭代、 蒙特卡洛樹搜索等的數(shù)值方法與強(qiáng)化學(xué)習(xí)等智能算法的結(jié)合應(yīng)用仍用很大研究空間。

      (2) 非完備信息下新型博弈算法

      博弈制導(dǎo)研究大多聚焦于完備信息領(lǐng)域, 假定雙方均掌控對(duì)方的全部信息, 在此基礎(chǔ)上進(jìn)行最優(yōu)策略制定, 而對(duì)于非完備信息博弈制導(dǎo)的研究仍有很大空白。 自博弈理論就是一種非完備信息下的博弈方法, 假定對(duì)方飛行器和我方飛行器有相同動(dòng)力學(xué)模型并且采取平均策略, 針對(duì)平均策略學(xué)習(xí)交替最優(yōu)策略, 實(shí)現(xiàn)自我博弈。 主要算法包括虛擬對(duì)局(Fictitious Play)、 虛擬自我對(duì)局(Fictitious Self-Play)、 全幅擴(kuò)展式虛擬對(duì)局(Full-Width Extensive-Form Fictitious Play)等。

      (3) 不對(duì)稱信息下博弈算法

      量子博弈是以量子信息論為基礎(chǔ), 將信息拓展為量子信息, 進(jìn)而把經(jīng)典概率空間拓展到量子概率空間, 能夠有效應(yīng)對(duì)不對(duì)稱信息問題。 量子博弈的本質(zhì)是采用量子信息中的干涉、 糾纏、 不確定等特性構(gòu)建博弈中各參與者間的復(fù)雜關(guān)系, 從量子信息角度出發(fā)解決, 其最大特點(diǎn)為可以通過量子糾纏建立各參與者間的復(fù)雜相互作用關(guān)系。 在多體博弈問題中, 各合作方之間存在協(xié)同和制約并行的復(fù)雜調(diào)和問題, 量子博弈的出現(xiàn)為解決此類問題提供了新思路。

      (4) 不均衡能力下多對(duì)多協(xié)同博弈制導(dǎo)

      博弈制導(dǎo)研究多圍繞制導(dǎo)律的設(shè)計(jì)問題, 對(duì)于非均衡多對(duì)多協(xié)同對(duì)抗問題, 飛行器能力的參差不齊對(duì)任務(wù)分配和協(xié)同制導(dǎo)帶來了挑戰(zhàn)。 針對(duì)這一問題, 可在原有基礎(chǔ)上進(jìn)行延伸探索對(duì)抗陣營間的制導(dǎo)能力, 基于博弈制導(dǎo)模型分析評(píng)估實(shí)現(xiàn)攔截各個(gè)飛行器的制導(dǎo)能力需求, 比如過載比、 速度比、 完成制導(dǎo)任務(wù)的最小配置需求, 將上述需求作為先驗(yàn)指導(dǎo)信息, 有效應(yīng)用于戰(zhàn)前策略制定、 任務(wù)分配等問題, 進(jìn)而生成博弈策略, 達(dá)到飛行器能力資源最大化利用, 提高全局協(xié)同效能。

      (5) 多武器平臺(tái)體系化戰(zhàn)場戰(zhàn)術(shù)博弈

      博弈論的優(yōu)勢還體現(xiàn)于對(duì)抗策略制定和戰(zhàn)場決策生成等方面。 面向空天地海等多平臺(tái)協(xié)同作戰(zhàn)場景, 考慮海陸空等平臺(tái)各自優(yōu)勢及作戰(zhàn)效能, 結(jié)合博弈模型生成最優(yōu)戰(zhàn)術(shù)決策及各平臺(tái)任務(wù)分配方案, 獲取協(xié)同作戰(zhàn)場景下的最優(yōu)戰(zhàn)術(shù), 形成集信息系統(tǒng)、 指揮控制、 作戰(zhàn)平臺(tái)為一體的智能化作戰(zhàn)體系, 推動(dòng)全平臺(tái)體系化智能作戰(zhàn)策略的發(fā)展。

      參考文獻(xiàn):

      [1] Isaacs R. Differential Games: A Mathematical Theory with Applications to Warfare and Pursuit, Control and Optimization[J].The Mathematical Gazette, 1965, 51(375): 80-81.

      [2] Ben-Asher J Z, Yaesh I. Advances in Missile Guidance Theory[M]∥Zarchan P. Progress in Astronautics and Aeronautics, Reston,? AIAA, 1998.

      [3] Shinar J, Siegel A W, Gold Y I. On the Analysis of a Complex Differential Game Using Artificial Intelligence Techniques[C]∥ 27th IEEE Conference on Decision and Control, 1988: 1436-1441.

      [4] Faruqi F A. Intelligent 3-Party Game Theoretic Approach to Missile Guidance[C]∥AIAA Guidance, Navigation, and Control Conference, 2012.

      [5] Faruqi F A. Integrated Navigation, Guidance, and Control of Missile Systems: 3-D Dynamic Model, DSTO-TR-2805 [R].2013.

      [6] Shinar J, Guelman M, Silberman G, et al. On Optimal Missile Avoidance-A Comparison between Optimal Control and Differential Game Solutions[C]∥ IEEE International Conference on Control and Applications, 1989: 453-459.

      [7] Shinar J, Shima T. A Game Theoretical Interceptor Guidance Law for Ballistic Missile Defence[C]∥35th IEEE Conference on Decision and Control, 1996: 2780-2785.

      [8] Basar T,? Olsder G J. Dynamic Noncooperative Game Theory[M]. 2nd ed. Philadelphia: Society for Industrial and Applied Mathema-tics, 1999.

      [9] Kim M, Grider K. Terminal Guidance for Impact Attitude Angle Constrained Flight Trajectories[J]. IEEE Transactions on Aerospace and Electronic Systems, 1973, 9(6): 852-859.

      [10] 嚴(yán)鵬輝, 劉剛, 繆前樹. 基于落角約束的偏置比例導(dǎo)引律的研究[J]. 現(xiàn)代防御技術(shù), 2021, 49(6): 49-54.

      Yan Penghui, Liu Gang, Miao Qianshu. Research on Bias Proportional Navigation Guidance Law Based on Terminal Impact Angle Constraint[J]. Modern Defence Technology, 2021, 49(6): 49-54.(in Chinese)

      [11] 王曉海, 孟秀云, 周峰, 等. 基于偏置比例導(dǎo)引的落角約束滑模制導(dǎo)律[J]. 系統(tǒng)工程與電子技術(shù), 2021, 43(5): 1295-1302.

      Wang Xiaohai, Meng Xiuyun, Zhou Feng, et al. Sliding Mode Guidance Law with Impact Angle Constraint Based on Bias Proportional Navigation[J]. Systems Engineering and Electronics, 2021, 43(5): 1295-1302.(in Chinese)

      [12] 劉子超, 王江, 何紹溟, 等. 基于預(yù)測校正的落角約束計(jì)算制導(dǎo)方法[J]. 航空學(xué)報(bào), 2022, 43(8): 325433.

      Liu Zichao, Wang Jiang, He Shaoming, et al. A Computational Gui-dance Algorithm for Impact Angle Control Based on Predictor-Corrector Concept[J]. Acta Aeronautica et Astronautica Sinica, 2022, 43(8): 325433. (in Chinese)

      [13] 劉強(qiáng), 范英飚. 基于最優(yōu)控制的落角約束攻擊設(shè)計(jì)[J]. 海軍航空工程學(xué)院學(xué)報(bào), 2007, 22(2): 215-218.

      Liu Qiang, Fan Yingbiao. Design of Guidance Law and Controller of Missile with Terminal Angular Constraint Based on Optimal Control[J]. Journal of Naval Aeronautical and Astronautical University, 2007, 22(2): 215-218.(in Chinese)

      [14] 趙斌, 朱傳祥, 仝云, 等. 基于自適應(yīng)滑模觀測器的終端角度約束制導(dǎo)律[J]. 空天防御, 2019, 2(4): 19-24.

      Zhao Bin, Zhu Chuanxiang, Tong Yun, et al. Adaptive Sliding Mode Observer Based Impact Angle Constraint Guidance Law[J]. Air & Space Defense, 2019, 2(4): 19-24.(in Chinese)

      [15] 李曉寶, 趙國榮, 劉帥, 等. 考慮攻擊角度和視場角約束的自適應(yīng)終端滑模制導(dǎo)律[J]. 控制與決策, 2020, 35(10): 2336-2344.

      Li Xiaobao, Zhao Guorong, Liu Shuai, et al. Adaptive Terminal Sliding Mode Guidance Law with Impact Angle and Field-of-View Constraints[J]. Control and Decision, 2020, 35(10): 2336-2344.(in Chinese)

      [16] Kim B, Kim Y W, Cho N, et al. Collision-Geometry-Based Optimal Guidance for High-Speed Target[J]. Aerospace Science and Technology, 2021, 115: 106766.

      [17] 張明洋, 晁濤, 楊明. 帶有攻擊角約束的機(jī)動(dòng)目標(biāo)協(xié)同攔截制導(dǎo)律[J]. 戰(zhàn)術(shù)導(dǎo)彈技術(shù), 2022(4): 78-89.

      Zhang Mingyang, Chao Tao, Yang Ming. Cooperative Interception Guidance Law for Maneuvering Target with Impact Angle Constraint[J]. Tactical Missile Technology, 2022(4): 78-89.(in Chinese)

      [18] He X C, Chen W C, Yang L. An Intercept Guidance Law with Impact-Angle-Constrained Based on Linear Gauss Pseudospectral Model Predictive Control[C]∥IEEE 10th International Conference on Mechanical and Aerospace Engineering (ICMAE), 2019: 229-235.

      [19] Shaferman V, Shima T. Linear Quadratic Guidance Laws for Imposing a Terminal Intercept Angle[J]. Journal of Guidance, Control, and Dynamics, 2008, 31(5): 1400-1412.

      [20] Xu X, Liang Y. Biased Optimal Guidance Law with Specified Velocity Rendezvous Angle Constraint[J]. The Aeronautical Journal, 2015, 119(1220): 1287-1299.

      [21] Xu X Y, Liang Y L, Cai Y L. A Mathematic Model on Differential Game Based Flight-Path Angle Control Guidance Law[J]. 2017, 2: 203-213.

      [22] 王宇翔. 一種具有時(shí)間約束的最優(yōu)導(dǎo)引律設(shè)計(jì)方法[J]. 解放軍理工大學(xué)學(xué)報(bào): 自然科學(xué)版, 2015, 16(1): 68-73.

      Wang Yuxiang. Design of Optimal Guidance Law with Flying Time Constraint[J]. Journal of PLA University of Science and Techno-logy: Natural Science Edition, 2015, 16(1): 68-73.(in Chinese)

      [23] 張璐. 中程彈道導(dǎo)彈動(dòng)力學(xué)分析與時(shí)間約束末制導(dǎo)律設(shè)計(jì)[D]. 哈爾濱: 哈爾濱工業(yè)大學(xué), 2022.

      Zhang Lu. Dynamics Analysis of Medium Range Ballistic Missile and Design of Time Constrained Terminal Guidance Law[D].Harbin: Harbin Institute of Technology, 2022. (in Chinese)

      [24] 張晨欣, 王寧宇, 王小剛. 空空導(dǎo)彈反強(qiáng)機(jī)動(dòng)目標(biāo)時(shí)間約束滑模制導(dǎo)律[J]. 宇航學(xué)報(bào), 2023, 44(10): 1544-1554.

      Zhang Chenxin, Wang Ningyu, Wang Xiaogang. Time-Constrained Sliding Mode Guidance Law of Air-to-Air Missile against Strong Maneuvering Target[J]. Journal of Astronautics, 2023, 44(10): 1544-1554.(in Chinese)

      [25] 張世強(qiáng), 李群生, 何金剛. 考慮通信拓?fù)淝袚Q的多導(dǎo)彈協(xié)同制導(dǎo)研究[J/OL].航空兵器, doi: 10.12132/ISSN.1673-5048.2023.0099.

      Zhang Shiqiang, Li Qunsheng, He Jingang. Cooperative Multi-Missile Guidance Research Considering Communication Topology Switching [J/OL]. Aero Weaponry, doi: 10.12132/ISSN.1673-5048.2023.0099. (in Chinese)

      [26] Qi N M, Liu Y F, Sun X L. Differential Game Guidance Law for Interceptor Missiles with a Time-Varying Lateral Acceleration Limit[J]. Transactions of the Japan Society for Aeronautical and Space Sciences, 2011, 54(185/186): 189-197.

      [27] Shima T, Shinar J. Time-Varying Linear Pursuit-Evasion Game Models with Bounded Controls[J]. Journal of Guidance, Control, and Dynamics, 2002, 25(3): 425-432.

      [28] Turetsky V, Weiss M, Shima T. A Combined Linear-Quadratic/Bounded Control Differential Game Guidance Law[J]. IEEE Transactions on Aerospace and Electronic Systems, 2021, 57(5): 3452-3462.

      [29] 李博文. 基于博弈論的導(dǎo)彈攔截制導(dǎo)律研究[D]. 沈陽: 沈陽理工大學(xué), 2017.

      Li Bowen. Research on Missile Interception Guidance Law Based on Game Theory[D].Shenyang: Shenyang Ligong University, 2017. (in Chinese)

      [30] 孫傳鵬. 基于博弈論的攔截制導(dǎo)問題研究[D]. 哈爾濱: 哈爾濱工業(yè)大學(xué), 2014.

      Sun Chuanpeng. Research on Interception Guidance Based on Game Theory[D]. Harbin: Harbin Institute of Technology, 2014. (in Chinese)

      [31] Battistini S, Shima T. Differential Games Missile Guidance with Bearings-only Measurements[J]. IEEE Transactions on Aerospace and Electronic Systems, 2014, 50(4): 2906-2915.

      [32] Rusnak I, Weiss H, Eliav R, et al. Missile Guidance with Constrained Intercept Body Angle[J]. IEEE Transactions on Aerospace and Electronic Systems, 2014, 50(2): 1445-1453.

      [33] Shima T, Golan O M. Linear Quadratic Differential Games Guidance Law for Dual Controlled Missiles[J]. IEEE Transactions on Aerospace and Electronic Systems, 2007, 43(3): 834-842.

      [34] Weiss M, Shima T. Linear Quadratic Optimal Control-Based Missile Guidance Law with Obstacle Avoidance[J]. IEEE Transactions on Aerospace and Electronic Systems, 2019, 55(1): 205-214.

      [35] Balhance N, Weiss M, Shima T. Cooperative Guidance Law for Intrasalvo Tracking[J]. Journal of Guidance, Control, and Dynamics, 2017, 40(6): 1441-1456.

      [36] Shaferman V, Shima T. Cooperative Differential Games Guidance Laws for Imposing a Relative Intercept Angle[J]. Journal of Guidance, Control, and Dynamics, 2017, 40(10): 2465-2480.

      [37] Shima T. Intercept-Angle Guidance[J]. Journal of Guidance, Control, and Dynamics, 2011, 34(2): 484-492.

      [38] Taub I, Shima T. Intercept Angle Missile Guidance under Time Varying Acceleration Bounds[J]. Journal of Guidance, Control, and Dynamics, 2013, 36(3): 686-699.

      [39] Tsalik R, Shima T. Inscribed Angle Guidance[J]. Journal of Guidance, Control, and Dynamics, 2015, 38(1): 30-40.

      [40] Perelman A, Shima T, Rusnak I. Cooperative Differential Games Strategies for Active Aircraft Protection from a Homing Missile[J]. Journal of Guidance, Control, and Dynamics, 2011, 34(3): 761-773.

      [41] Rusnak I, Weiss H, Eliav R, et al. Missile Guidance with Constrained Terminal Body Angle[C]∥IEEE 26th Convention of Electrical and Electronics Engineers in Israel, 2010.

      [42] Weiss M, Shima T. Practical Optimal Intercept Guidance Algorithm with Bounded Lateral Acceleration[C]∥27th Mediterranean Conference on Control and Automation (MED), 2019: 595-599.

      [43] Gaudet B, Linares R, Furfaro R. Deep Reinforcement Learning for Six Degree-of-Freedom Planetary Landing[J]. Advances in Space Research, 2020, 65(7): 1723-1741.

      [44] Gaudet B, Furfaro R. Missile Homing-Phase Guidance Law Design Using Reinforcement Learning[C]∥AIAA Guidance, Navigation, and Control Conference, 2012.

      [45] Gaudet B, Linares R, Furfaro R. Adaptive Guidance and Integra-ted Navigation with Reinforcement Meta-Learning[J]. Acta Astronautica, 2020, 169: 180-190.

      [46]Gaudeta B, Furfaroa R, Linares R. Reinforcement Learning for Angle-only Intercept Guidance of Maneuvering Targets[J]. Aerospace Science and Technology, 2020, 99: 105746.

      [47] Agarwal R P, ORegan D. An Introduction to Ordinary Differential Equations[M]. New York: Springer, 2008.

      [48] Subbotina N N. The Method of Characteristics for Hamilton-Jacobi Equations and Applications to Dynamical Optimization[J]. Journal of Mathematical Sciences, 2006, 135(3): 2955-3091.

      [49] 朱強(qiáng). 高性能數(shù)值微分博弈: 一種機(jī)器智能方法[D]. 杭州: 浙江大學(xué), 2020.

      Zhu Qiang. High-Performance Computational Differential Game [D]. Hangzhou: Zhejiang University, 2020. (in Chinese)

      [50] 謝子涵. 基于分?jǐn)?shù)階滑模的博弈制導(dǎo)方法研究[D]. 哈爾濱: 哈爾濱工業(yè)大學(xué), 2020.

      Xie Zihan. Research on Game Guidance Method Based on Fractional Sliding Mode[D].Harbin: Harbin Institute of Technology, 2020. (in Chinese)

      [51] Nobahari H, Nasrollahi S. A Nonlinear Robust Model Predictive Differential Game Guidance Algorithm Based on the Particle Swarm Optimization[J]. Journal of the Franklin Institute, 2020, 357(15): 11042-11071.

      [52] He F, Chen W Y, Bao Y. Predictive Differential Game Guidance Approach for Hypersonic Target Interception Based on CQPSO[J]. International Journal of Aerospace Engineering, 2022, 2022: 6050640.

      [53] 陳士俊, 孫永廣, 吳宗鑫. 一種求解NASH均衡解的遺傳算法[J]. 系統(tǒng)工程, 2001, 19(5): 67-70.

      Chen Shijun, Sun Yongguang, Wu Zongxin. A Genetic Algorithm to Acquire the Nash Equilibrium[J]. Systems Engineering, 2001, 19(5): 67-70.(in Chinese)

      [54] 朱康寧, 謝政, 戴麗. 基于自適應(yīng)鄰域模擬退火算法的非合作對(duì)策求解[J]. 計(jì)算機(jī)工程與科學(xué), 2016, 38(12): 2560-2566.

      Zhu Kangning, Xie Zheng, Dai Li. Solving Non-Cooperative Game Based on Simulated Annealing Algorithm with Self-Adaption Neighborhood[J]. Computer Engineering & Science, 2016, 38(12): 2560-2566.(in Chinese)

      [55] 馬艇. 微分對(duì)策及其在飛行器追逃控制中的應(yīng)用研究[D]. 南京: 南京航空航天大學(xué), 2015.

      Ma Ting. Differential Game and Its Application in Pursuit-Evasion Control of Aircrafts[D].Nanjing: Nanjing University of Aeronautics and Astronautics, 2015. (in Chinese)

      [56] Kawamura K, Tsuruoka Y. Neural Fictitious Self-Play on ELF Mini-RTS[J/OL]. (2019-02-06)[2024-01-30]. https:∥arxiv.org/abs/1902.02004.

      [57] Guo D L, Ding H, Tang L, et al. A Proactive Eavesdropping Game in MIMO Systems Based on Multiagent Deep Reinforcement Learning[J]. IEEE Transactions on Wireless Communications, 2022, 21(11): 8889-8904.

      [58] 倪煒霖, 王永海, 徐聰, 等.基于強(qiáng)化學(xué)習(xí)的高超飛行器協(xié)同博弈制導(dǎo)方法[J/OL].航空學(xué)報(bào), doi: 10.7527/S1000-6893.2023.29400.

      Ni Weilin, Wang Yonghai, Xu Cong, et al. Hypersonic Vehicle Cooperative Game Guidance Method Based on Reinforcement Learning [J/OL]. Acta Aeronautica et Astronautica Sinica, doi: 10.7527/S1000-6893.2023.29400. (in Chinese)

      [59] Liu S Q, Cao J J, Wang Y J, et al. Self-Play Reinforcement Learning with Comprehensive Critic in Computer Games[J]. Neurocomputing, 2021, 449: 207-213.

      [60] 王子瑤, 唐勝景, 郭杰, 等. 高超聲速攻防博弈自適應(yīng)微分對(duì)策三維制導(dǎo)[J]. 兵工學(xué)報(bào), 2023, 44(8): 2342-2353.

      Wang Ziyao, Tang Shengjing, Guo Jie, et al. Adaptive 3-Dimensional Differential Game Guidance for Hypersonic Attack and Defense [J]. Acta Armamentarii, 2023, 44(8): 2342-2353.(in Chinese)

      [61] Sun J L, Liu C S. Distributed Zero-Sum Differential Game for Multi-Agent Systems in Strict-Feedback Form with Input Saturation and Output Constraint[J]. Neural Networks, 2018, 106: 8-19.

      [62] 蘇山. 多攔截器博弈策略與自適應(yīng)微分對(duì)策制導(dǎo)方法研究[D]. 哈爾濱: 哈爾濱工業(yè)大學(xué), 2022.

      Su Shan. Research on Multi-Interceptor Game Strategy and Adaptive Differential Game Guidance Law[D].Harbin: Harbin Institute of Technology, 2022. (in Chinese)

      [63] He S M, Shin H S, Tsourdos A. Computational Missile Guidance: A Deep Reinforcement Learning Approach[J]. Journal of Aerospace Information Systems, 2021, 18(8): 571-582.

      Analysis of the Progress of Aircraft Game Guidance

      Guo Jianguo, Lu Dongchen*, Zhou Min

      (Institute of Precision Guidance and Control, Northwestern Polytechnical University, Xian 710072, China)

      Abstract: Game guidance can handle dynamic problems involving multi-party cooperation and competition in complex systems, which is conducive to maximizing the value of information on intelligent battlefields and promoting the intelligent development of precision guided weapons. This article summarizes the basic classification and modeling methods of game guidance, and proposes key issues of aircraft game guidance from the perspectives of terminal constraints, time constraints, overload constraints, and terminal speed constraints. Two typical game model solving frameworks, matrix game and differential game are constructed, and the algorithm solutions of game guidance are sorted out from the perspectives of analytical solutions, numerical solutions, and intelligent algorithms. Finally, the future development trends of aircraft game guidance are discussed and summarized from the perspectives of nonlinear differential game solving methods, incomplete information game algorithms, multi aircraft collaboration under unbalanced and asymmetric information, and multi type weapon system games.

      Key words: game guidance; differential game; matrix game; intelligent algorithms; adaptive algorithm

      猜你喜歡
      智能算法
      配電網(wǎng)故障定位中的自動(dòng)化技術(shù)應(yīng)用
      神經(jīng)網(wǎng)絡(luò)智能算法在發(fā)電機(jī)主絕緣狀態(tài)評(píng)估領(lǐng)域的應(yīng)用
      基于超像素的圖像智能算法在礦物顆粒分割中的應(yīng)用
      從雞群算法看群體智能算法的發(fā)展趨勢
      基于智能預(yù)測算法的食用菌大棚溫濕度控制研究
      圖像處理智能化的發(fā)展方向
      智能螞蟻算法應(yīng)用的最新進(jìn)展
      基于OMNeT++平臺(tái)的AntNet的仿真
      多機(jī)器人系統(tǒng)及其路徑規(guī)劃方法綜述
      改進(jìn)的多目標(biāo)快速群搜索算法的應(yīng)用
      新绛县| 深圳市| 伊春市| 山东| 阳曲县| 嘉荫县| 南部县| 万源市| 镇康县| 贵港市| 施甸县| 定结县| 平利县| 澄城县| 祥云县| 揭西县| 乐东| 通江县| 江陵县| 桑植县| 巴楚县| 名山县| 张家港市| 连山| 泸州市| 冷水江市| 台湾省| 金秀| 九龙县| 平凉市| 民权县| 延长县| 邯郸市| 响水县| 哈尔滨市| 阳西县| 潮州市| 赤城县| 三穗县| 运城市| 姚安县|