• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      一種用于沙盤推演的規(guī)劃識別方法*

      2022-01-06 08:35:56劉成龍胡廣朋
      艦船電子工程 2021年12期
      關(guān)鍵詞:預(yù)測器分類器權(quán)重

      劉成龍 胡廣朋

      (江蘇科技大學(xué)計算機(jī)學(xué)院 鎮(zhèn)江 212100)

      1 引言

      隨著人工智能的發(fā)展,從貝葉斯估計到近階段的深度學(xué)習(xí),軍事智能的指揮決策研究者們在將深度學(xué)習(xí)應(yīng)用于自主決策上也展開了許多研究。就目前來說,國內(nèi)外關(guān)于自主決策的方法探討是處于起步階段,絕大部分研究工作采用半監(jiān)督或監(jiān)督的深度學(xué)習(xí)方法,但是數(shù)據(jù)的缺乏限制了方法后續(xù)的發(fā)展。雖然之后也有人利用深度學(xué)習(xí)方法對自主決策進(jìn)行進(jìn)一步的研究,但是相關(guān)方面的研究也還在理論探索,要想有具體的實際應(yīng)用,還是要有比較長的路要走。

      傳統(tǒng)典型的方法是胡桐清、陳亮等在軍事智能決策的理論與實踐中提出的軍事專家支持系統(tǒng)[1],該系統(tǒng)建立了多條規(guī)則和一個定量與定性相融合的有效推演機(jī)制,可以自動生成作戰(zhàn)決策的方案,根據(jù)方案,能夠幫助指揮員進(jìn)行決策,但方案需要一定的專業(yè)知識,存在一些局限性。朱豐等在對戰(zhàn)場態(tài)勢評估的研究討論中[2]利用一系列技術(shù)對目的識別、決策推演等多方面展開了研究。李耀宇等曾在國防科技大學(xué)學(xué)報上發(fā)表文章[3],利用逆向強(qiáng)化學(xué)習(xí)的方法,優(yōu)化方案,前提條件是不確定條件策略、地形的戰(zhàn)場火力分布。陳希亮、張永亮在基于深度強(qiáng)化學(xué)習(xí)的陸軍分隊?wèi)?zhàn)術(shù)決策問題研究[4]中提出了一種決策框架,利用逆向強(qiáng)化學(xué)習(xí)在戰(zhàn)場行為決策上收獲頗豐。喬永杰,王欣九,孫亮等提出利用陸軍指揮所模型自主生成作戰(zhàn)計劃時間參數(shù)的方法[5],建立服務(wù)框架,進(jìn)而有了自動生成作戰(zhàn)計劃的方案。中科院研制的“SASIA-先知V1.0”在全國兵棋推演大賽上取得了較好的成績,先知V1.0所采用的模型是由知識和數(shù)據(jù)共同建立的,同時也證明了深度學(xué)習(xí)在軍事對抗領(lǐng)域大有可為。

      文章針對對手行為分析構(gòu)建預(yù)測模型,進(jìn)而采用基于自適應(yīng)增強(qiáng)的規(guī)劃識別方法,利用此算法能夠?qū)⒖捎^察到的對手行為作為唯一已知條件,實現(xiàn)對目標(biāo)的預(yù)測。該方法對可觀察行為不斷訓(xùn)練弱預(yù)測器,最終組成強(qiáng)預(yù)測器。并以aerial bombing operations數(shù)據(jù)集為例設(shè)計實驗,驗證方法可行性。

      2 沙盤推演分析模型

      2.1 模型框架

      實現(xiàn)沙盤推演分析的模型如圖1所示。首先策略規(guī)劃器將對手的動作或狀態(tài)的改變作為觀察對象,推理出對手規(guī)劃和所有的目標(biāo),不僅如此,策略規(guī)劃器會依據(jù)預(yù)測的對手規(guī)劃做出應(yīng)對動作,然后策略規(guī)劃器向動作規(guī)劃器下達(dá)指令,動作規(guī)劃器會依照指令,進(jìn)行有效的信息決策,接著模型要依據(jù)決策進(jìn)行行為模擬,同時將收集到的有效信息發(fā)給動作處理器,動作處理器后續(xù)就會將收到的有效信息傳回最初的策略規(guī)劃器,達(dá)到破壞對手規(guī)劃和防御的目的。

      規(guī)劃識別方法是整個沙盤推演的核心,規(guī)劃識別方法是整個行為分析網(wǎng)絡(luò)的核心,整個分析過程以特征抽象處理后的數(shù)據(jù)特征作為輸入,通過識別算法分析尋找異常的操作行為,分析各行為之間相互轉(zhuǎn)換的概率。在對對手規(guī)劃的分析時間,不斷完善規(guī)劃應(yīng)對,達(dá)到應(yīng)對對手規(guī)劃的預(yù)測識別。

      圖1 沙盤推演分析框架

      2.2 自適應(yīng)增強(qiáng)算法

      策略規(guī)劃器根據(jù)對手行為進(jìn)行的分析會影響規(guī)劃識別算法對最終結(jié)果的預(yù)測,常見的策略規(guī)劃器方法主要有隱馬爾可夫、隨機(jī)快速搜索樹(RRT)以及Adaptive boosting等。

      Adaptive boosting又被稱為自適應(yīng)增強(qiáng),其基礎(chǔ)的想法就是利用相同的訓(xùn)練集去訓(xùn)練各不相同的弱分類器,接著將這些集合起來,構(gòu)成一個新的分類器,也稱為強(qiáng)分類器,記為H(x)。定義一個樣本(xi,yi),則訓(xùn)練樣xi為樣本類別觀測值,yi是xi的樣本類別標(biāo)識,滿足yi=f(xi),f是要學(xué)習(xí)的目標(biāo)概念的集合。各個樣本的權(quán)值為D(1),…D(n),D(i)>0,1≤i≤n。

      基本過程分為以下幾步:第一,對初始的訓(xùn)練數(shù)據(jù)進(jìn)行賦值,假設(shè)存在M個訓(xùn)練數(shù)據(jù),那么每一個樣本的初始權(quán)值相同,都為1/M。第二,進(jìn)行訓(xùn)練。在過程中,如果樣本被錯誤分類,那么它的權(quán)重增加;如果被正確分類,權(quán)重減少。權(quán)重重新賦值后就會應(yīng)用于下次訓(xùn)練,如此迭代下去,第三,將每次迭代得到的分類器融合起來,作為最終的決策分類器,也稱為強(qiáng)訓(xùn)練器。融合的規(guī)則是損失函數(shù)(loss function)最小化原則,按照此函數(shù)的負(fù)梯度方向不斷地循環(huán)。定義在第t輪迭代時,第i個訓(xùn)練樣本(xi,yi)的權(quán)重分布為Dt(i)。弱學(xué)習(xí)算法的任務(wù)就是根據(jù)訓(xùn)練樣本的分布及權(quán)重Dt完成一個弱分類器ht:X→R的學(xué)習(xí),最簡單情況下ht是二值的,好壞由誤判率εt進(jìn)行衡量。

      經(jīng)過T次訓(xùn)練學(xué)習(xí)后,得到一系列弱分類器h1,h2,h3,…,hT??梢杂美奂幽P蛠矶x強(qiáng)分類器:

      其中,x是特征向量;ht(x)是第t次迭代得到的弱分類器;αt是ht(x)的權(quán)重。AdaBoost的核心思想就是按照損失函數(shù)的負(fù)梯度方向不斷地循環(huán),融合迭代所得到的分類器,指數(shù)損失函數(shù)為

      其中,t,y分別為循環(huán)更新次數(shù)和種別標(biāo)記,通過不斷地更新權(quán)值,求得最終強(qiáng)分類器的最優(yōu)解。

      2.3 基于自適應(yīng)增強(qiáng)的規(guī)劃識別算法

      針對于復(fù)雜的沙盤推演環(huán)境,文章提出基于自適應(yīng)增強(qiáng)的的規(guī)劃識別方法(Adaptive Boosting Planning Recognition,ABPR)。自適應(yīng)增強(qiáng)算法的核心思想是重視誤差大的學(xué)習(xí)樣本,改變其分配權(quán)重并再次進(jìn)行訓(xùn)練,得到多個誤差較小的弱預(yù)測器,再組成一個強(qiáng)預(yù)測器。根據(jù)自適應(yīng)增強(qiáng)算法的原理,將規(guī)劃識別方法看作弱預(yù)測器。首先用規(guī)劃識別算法對樣本不斷的訓(xùn)練,如果得到的預(yù)測誤差不在范圍之內(nèi),那么對該樣本重新賦值,并計算第t個規(guī)劃識別弱預(yù)測器的權(quán)重,得到T個規(guī)劃識別弱預(yù)測器、權(quán)重,將得到的權(quán)重進(jìn)一步融合,得到一個強(qiáng)預(yù)測器,利用最終預(yù)測器,輸出規(guī)劃預(yù)測。

      ABPR方法在沙盤推演中的應(yīng)用主要由數(shù)據(jù)預(yù)處理過程、分析模型建立并調(diào)整模型參數(shù)、識別判斷當(dāng)前的對手規(guī)劃和對敵意規(guī)劃的預(yù)測四個部分組成。在本文提出的方法中,首先對選用的數(shù)據(jù)集進(jìn)行數(shù)據(jù)預(yù)處理,包括對冗余信息的刪減和不規(guī)范數(shù)據(jù)的規(guī)范化;然后將數(shù)據(jù)集作為Agent的行為進(jìn)行觀察并對分析模型進(jìn)行優(yōu)化;接著輸入一組對手行為數(shù)據(jù),提取領(lǐng)域中的(近期、中期或者遠(yuǎn)期)目標(biāo),將這些目標(biāo)分解以降低其抽象層,并將其擴(kuò)展進(jìn)規(guī)劃中,重復(fù)這樣的動作確定具體動作,直至規(guī)劃中只存在原始動作。最后預(yù)測層對概率值最大的數(shù)據(jù)序列做狀態(tài)信息的預(yù)測,獲取對行為的預(yù)測值。如在沙盤推演中,占領(lǐng)對手領(lǐng)地這個目標(biāo)是明確的,因為占領(lǐng)陣地明確指出,但是何時占領(lǐng)、如何占領(lǐng)等問題沒有具體描述,假設(shè)給定以下前提條件:有足夠的兵力,并且已經(jīng)在對手陣地,那么利用兵力占領(lǐng)陣地就可以直接執(zhí)行,這是一個具體操作。

      根據(jù)以上分析,自適應(yīng)增強(qiáng)改進(jìn)的規(guī)劃識別算法預(yù)測具體步驟如下。

      1)導(dǎo)入數(shù)據(jù)樣本,初始化樣本權(quán)重。

      其中,Di是初始權(quán)重;m是樣本個數(shù)。

      2)設(shè)置要訓(xùn)練的規(guī)劃識別弱預(yù)測器個數(shù)T和模型結(jié)構(gòu),用規(guī)劃識別算法對樣本不斷的訓(xùn)練。

      3)計算規(guī)劃識別弱預(yù)測器預(yù)測訓(xùn)練樣本的預(yù)測誤差ec。

      4)將預(yù)測誤差ec與預(yù)設(shè)誤e進(jìn)行比較,調(diào)整訓(xùn)練樣本權(quán)重Di。

      5)計算第t個規(guī)劃識別弱預(yù)測器的預(yù)測誤差:

      6)計算第t個規(guī)劃識別弱預(yù)測器的權(quán)重:

      其中,Ct是第t個規(guī)劃識別預(yù)測器權(quán)重;et是第t個規(guī)劃識別預(yù)測器的預(yù)測誤差。

      7)計算下一輪迭代時訓(xùn)練樣本的權(quán)重:

      其中,Bt是歸一化因子。

      若未達(dá)到迭代次數(shù),返回第2)步,進(jìn)行下一次迭代,直到迭代T次后,停止訓(xùn)練。

      8)輸出強(qiáng)預(yù)測器。經(jīng)過T次訓(xùn)練后,生成T組弱預(yù)測函數(shù)ft(x)根據(jù)權(quán)重分布組合生成強(qiáng)預(yù)測函數(shù):

      其中,F(xiàn)(x)是強(qiáng)預(yù)測函數(shù),ft(x)是弱預(yù)測函數(shù)。

      3 實驗驗證

      3.1 實驗說明

      本次實驗主要針對空軍任務(wù)中飛機(jī)狀態(tài)進(jìn)行分析。主要的樣本來自于aerial bombing operations數(shù)據(jù)集。該數(shù)據(jù)集由二戰(zhàn)的數(shù)字化紙質(zhì)任務(wù)報告組成。每條記錄都包含了date(日期)、conflict(沖突)、geographic location(地理位置)和飛機(jī)的狀態(tài)數(shù)據(jù)。并從數(shù)據(jù)集中隨機(jī)抽取50條數(shù)據(jù)定義為對手進(jìn)攻性行為,以此模擬進(jìn)攻行為。并且該數(shù)據(jù)集的數(shù)據(jù)被按塊分割,在進(jìn)行驗證實驗時,將數(shù)據(jù)塊中的三分之一作為訓(xùn)練集,剩余的數(shù)據(jù)塊作為測試集,最后分析本文算法在對飛機(jī)不同狀態(tài)下的行為目的預(yù)測的效果。

      3.2 實驗結(jié)果分析

      用規(guī)劃識別方法訓(xùn)練測試,誤差大于0.005的樣本視為強(qiáng)化訓(xùn)練樣本,不斷地更新權(quán)值,計算預(yù)測誤差。通過不斷的訓(xùn)練,得到10個弱預(yù)測器和相應(yīng)的權(quán)值,最后通過加權(quán),輸出一個規(guī)劃識別最終預(yù)測器。

      由圖2、圖3的均方誤差曲線可以看出,Ada-Boost改進(jìn)的規(guī)劃識別在第5次之后開始收斂,最佳驗證性能為0.00057352;規(guī)劃識別在訓(xùn)練7次之后開始收斂,最佳性能為0.00075864;由圖可得,經(jīng)由AdaBoost改進(jìn)后的規(guī)劃識別算法比過去簡單的的規(guī)劃識別算法收斂速度更快,擁有更良好的預(yù)測效果。

      圖2 規(guī)劃識別預(yù)測模型均方誤差曲線

      圖3 AdaBoost改進(jìn)的規(guī)劃識別預(yù)測模型均方誤差曲線

      4 結(jié)語

      為了提高在沙盤演練中敵意規(guī)劃的預(yù)測效率和準(zhǔn)確度,本文提出基于AdaBoost改進(jìn)的規(guī)劃識別方法。將每個規(guī)劃識別預(yù)測模型看做一個弱預(yù)測器,利用AdaBoost算法的核心思想,將得到多個經(jīng)過多次訓(xùn)練的、誤差較小的弱預(yù)測器組合成一個強(qiáng)預(yù)測器。利用得到的強(qiáng)預(yù)測器,識別預(yù)測軍事對抗中的敵意規(guī)劃。通過實驗證明,改進(jìn)后的規(guī)劃識別方法可以提高預(yù)測模型的收斂速度以及預(yù)測效果,因此,改進(jìn)后的規(guī)劃識別預(yù)測模型用于沙盤演練中敵意規(guī)劃的預(yù)測效果相對更好,所以該模型可以用于敵意規(guī)劃的識別與應(yīng)對之中,為演練中的敵意規(guī)劃預(yù)測提供了一種新的方法,結(jié)論為決策者做出科學(xué)決策提供幫助。

      文章提出的方法主要考慮對手規(guī)劃中的復(fù)雜性和誤導(dǎo)性,雖然抽象后的數(shù)據(jù)特征能夠提高模型的識別精度,但是有些初始信息的處理較為繁瑣,會增加模型對數(shù)據(jù)信息處理工作量。所以下一步的研究重點是提高處理行為信息的效率,并且雖然本文提出的算法一定程度上提高了識別的精度,但在實際應(yīng)用場景中還需要能夠適應(yīng)多場景的識別方法,接下來的研究學(xué)習(xí)將盡可能地提高算法的精度,從而能夠在實際環(huán)境下實現(xiàn)應(yīng)用。

      猜你喜歡
      預(yù)測器分類器權(quán)重
      輸入延遲系統(tǒng)的切換偽預(yù)測鎮(zhèn)定控制器
      權(quán)重常思“浮名輕”
      一種改進(jìn)型TAGE分支預(yù)測器的實現(xiàn)
      為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
      BP-GA光照分類器在車道線識別中的應(yīng)用
      電子測試(2018年1期)2018-04-18 11:52:35
      基于公約式權(quán)重的截短線性分組碼盲識別方法
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
      基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
      層次分析法權(quán)重的計算:基于Lingo的數(shù)學(xué)模型
      河南科技(2014年15期)2014-02-27 14:12:51
      巴塘县| 南和县| 张家口市| 曲麻莱县| 壶关县| 靖西县| 墨玉县| 泸西县| 纳雍县| 墨玉县| 咸宁市| 峨边| 米易县| 武义县| 铜梁县| 郓城县| 连江县| 都江堰市| 桦川县| 芒康县| 和平区| 宜黄县| 庐江县| 绿春县| 蒲城县| 泰来县| 黄浦区| 乐安县| 通许县| 桐乡市| 淄博市| 郧西县| 乐业县| 汝城县| 麻城市| 马关县| 南宁市| 忻城县| 万源市| 阿勒泰市| 西盟|