基于強化學習的裝甲救護車火線傷員收攏前接策略*

2022-04-27 09:04:22王建華吳楊霄李新偉

火力與指揮控制 2022年3期

王建華，吳楊霄，李新偉，齊蕊，崔澂

（陸軍軍醫(yī)大學士官學校，石家莊 050081）

0 引言

隨著新編制體制落地，新型合成旅作戰(zhàn)指揮模式逐漸成形，與之相適應的合成旅衛(wèi)勤保障力量亦需不斷完善和加強。其中，合成營進攻戰(zhàn)斗傷員收攏前接是保障時效救治原則的關鍵環(huán)節(jié)，其效率高低直接影響戰(zhàn)現(xiàn)場急救的時效性。現(xiàn)階段，我軍依托衛(wèi)生排及裝甲救護車完成由火線至營救護站的傷員收攏前接任務，但傷員收攏前接策略大多憑借經(jīng)驗進行部署，在科學性、實時性和效能上還有待進一步論證和完善，因此，利用先進技術手段和數(shù)學方法研究智能化的裝甲救護車傷員收攏前接策略模式，對于提升戰(zhàn)術區(qū)衛(wèi)勤保障能力具有重要意義。本文在建立傷員產(chǎn)生模型的基礎上，綜合考慮戰(zhàn)場裝甲救護車數(shù)量、營救護站到火線傷員集傷點距離、不同傷勢傷員人數(shù)、裝甲救護車搭載傷員數(shù)量、作戰(zhàn)時間、陣地數(shù)量等復雜環(huán)境條件，建立基于深度強化學習的裝甲救護車火線傷員收攏前接策略模型，并進行優(yōu)化求解計算。通過與傳統(tǒng)裝甲救護車火線傷員收攏前接方法相比，該方法可以推演出更加優(yōu)化的火線傷員收攏前接策略，能在一定程度上解決救治時間成本，為搶救傷員爭取寶貴救治時間，提升裝甲救護車利用效能。

1 問題描述及相關假設

1.1 問題簡化及描述

在戰(zhàn)術區(qū)真實戰(zhàn)場環(huán)境下，傷員人數(shù)、傷員分布密集度、救護人員數(shù)量、救治技術、進攻通道狀況、火力程度、天氣等多種因素影響，裝甲救護車的前出策略是一個非常復雜的運籌學問題，需要對每種影響因素進行定性定量描述，并分析其對優(yōu)化目標的影響方式及影響程度，兼顧多種影響因素的精確模型建立難度較大，且求解很難得到最優(yōu)解。因此，根據(jù)不同影響因素的主次關系，對該問題作以適當簡化：

1）每個陣地傷員集傷點只有一個，即火線傷員已通過自救互救被集中到一個集傷點。

2）作戰(zhàn)通路通暢、狀況良好，裝甲救護車能正常行駛。

3）不考慮傷員對作戰(zhàn)能力的影響，所有傷員同等對待。

4）天氣、火力程度、救護人員、指揮鏈條等相關救護條件正常，不影響裝甲救護車執(zhí)行前接傷員任務。

簡化后，本文所考慮問題簡要描述如下：已知不同傷勢的傷員分布及數(shù)量多少，從1 個營救護站到n 個陣地，I 輛裝甲救護車分多次前接M 名傷員。以3 個陣地為例，裝甲救護車火線傷員收攏前接傷員流程如圖1 所示。

圖1 裝甲救護車火線傷員收攏前接傷員流程圖

1.2 相關假設及符號說明

解決本文問題的相關假設如下：

1）每輛裝甲救護車可以到多個不同陣地前接傷員。

2）裝甲救護車到達某個陣地集傷點接上傷員原路返回至營救護站（即使在非滿載的情況下，也不再到其他陣地集傷點前接傷員），即裝甲救護車在傷員集傷點與營救護站之間往返一次后，可變更前接地點。

3）不考慮兩車或多車相遇錯車時間。

4）傷員等待時間：傷員受傷時刻起至上乘至裝甲救護車的時間間隔。

2 模型建立

2.1 相關概念及數(shù)學表達

優(yōu)化目標：I 輛裝甲救護車前接完所有傷員時傷員的平均等待時間最少。

約束條件如下：

1）前接傷員的優(yōu)先順序依次是重傷員、中度傷員、輕傷員、危重傷員。

3）傷員登上裝甲救護車按照先重后輕的順序上乘。傷員下裝甲救護車按照先坐后臥的順序下車。

2.2 傷員產(chǎn)生模型

3）設第i 陣地重傷、中度傷、輕傷、危重傷的比例分別為x、x、x、x，且有x+x+x+x=1。則第i 個陣地各類傷員人數(shù)分別為：重傷傷員數(shù)量M=Mx、中度傷傷員數(shù)量M=Mx、輕傷傷員數(shù)量M=Mx、危重傷傷員數(shù)量M=Mx。

2.3 收攏前接模型

強化學習通過對價值函數(shù)實現(xiàn)對未來獎勵的預測，進而指導選擇不同的行為來影響環(huán)境。其中價值函數(shù)包括狀態(tài)價值函數(shù)v（s）和動作價值函數(shù)q（s，a），表示如下：

其中，S 為環(huán)境狀態(tài)，是環(huán)境的私有呈現(xiàn)，包含了環(huán)境決定下一個時刻的獎勵的基本信息，環(huán)境在t 時刻的狀態(tài)為S；A 為個體行為，個體在t 時刻的行為用A表示；個體在狀態(tài)S下，采取了行為A，所獲得的獎勵為R；π 為策略，是狀態(tài)到行為的一個映射，也可稱為在某個過程中的某一個狀態(tài)s 采取行為a 的概率為：

γ 為衰減因子，表示未來的獎勵折算到當前的程度，由于未來的獎勵具有不確定性，故引入衰減因子的概念，通常其范圍為［0，1］；G 為收獲，即從當前時刻開始的累積獎勵，其定義為：

設最優(yōu)狀態(tài)價值函數(shù)定義為在狀態(tài)s 下采取最優(yōu)策略的狀態(tài)價值函數(shù)為：

最優(yōu)動作價值函數(shù)為采取最優(yōu)策略的動作價值函數(shù)為：

則可推導出貝爾曼最優(yōu)方程為：

在解決本文所涉及問題時，在尋優(yōu)過程中，考慮到傷員更新的時間間隔短、裝甲救護車在路上所花費時間長，故僅考慮后續(xù)的一個狀態(tài)參與當前狀態(tài)價值的計算，另外，為了簡化計算，設去各個陣地的狀態(tài)轉移概率都相同，則最優(yōu)狀態(tài)價值函數(shù)和最優(yōu)行為價值函數(shù)改進為下式：

2.4 收攏前接算法設計

輸入：傷員的狀態(tài)S（即重傷，中度傷，輕傷，危重傷的人數(shù)），裝甲救護車的動作A（即裝甲救護車去哪個陣地前接傷員），前接每種傷勢傷員的獎勵R（利用不同傷勢的獎勵值體現(xiàn)救治優(yōu)先順序），前接策略π（獎勵高的陣地優(yōu)先派車），衰減因子γ。

輸出：得出每個狀態(tài)下的行為價值Q（即得到每個陣地的行為價值，按照行為價值高的優(yōu)先派車）。

第1 步：根據(jù)當前的傷勢分布狀態(tài)S，根據(jù)前接策略π 排車去前接傷員，此時算出在當前狀態(tài)下所有動作A 的即時獎勵R。

第2 步：通過作出的行為A 進入下一個狀態(tài)S′，根據(jù)下一個狀態(tài)S′，利用貪婪法選擇出狀態(tài)S′下的最優(yōu)動作a′，同時得出最優(yōu)狀態(tài)下的策略：

第3 步：利用下式計算當前狀態(tài)S 的價值Q：

第4 步：比較在狀態(tài)S 下各個行為A 的動作價值，利用貪婪法選擇最優(yōu)的行為作為實際的行動，同時進入下一個狀態(tài)：

第5 步：循環(huán)上面步驟，直到前接完畢，算法結束。

3 算法實驗及結果

3.1 實驗基礎數(shù)據(jù)

1）營救護站到傷員集傷點的距離區(qū)分近距離、中距離、遠距離3 種情況。

2）傷員比例：0.1～0.6，以0.1 為間隔遞增。

重傷、中度傷、輕傷、危重傷傷員占傷員總數(shù)的比例：0.25、0.35、0.35、0.05。

3）作戰(zhàn)時間：0.5 h～7 h，以0.5 h 為間隔遞增。

4）車輛數(shù)：1～20 輛。

5）上下車時間：重傷、危重傷員為30 s，中度傷、輕傷傷員為20 s。

6）車速為45 km/h。

7）合成營總人數(shù)：按一定數(shù)量計算。

3.2 實驗條件

軟件開發(fā)采用Matlab 2016a 編程，在CPU 為i5-7200、內(nèi)存為8 G 的計算環(huán)境下進行實驗驗算。

3.3 相關參數(shù)設置

獎勵R：不同傷勢傷員的獎勵值按照傷員的受傷程度、傷員的等待時間來進行設置。

衰減因子：γ=0.7。

3.4 算法比較對象：經(jīng)驗算法

根據(jù)各個陣地傷員傷勢分布，按照重傷、中度傷、輕傷、危重傷優(yōu)先救治順序和傷員等待時間大于20 min、10 min～20 min（含）之間、10 min（含）以內(nèi)優(yōu)先順序，進行救護車的調度和分配。定義傷員等待時間為傷員受傷時刻開始到上裝甲救護車后的時間。即優(yōu)先救治順序為超過20 min 的重傷員、10 min～20 min（含）的重傷員、10 min（含）以內(nèi)的重傷員，其次是中度傷、輕傷、危重傷的不同等待時間段內(nèi)的傷員。在搭載不同傷勢傷員時，如果車上座位允許，考慮搭載其他傷勢種類傷員。

將本文算法與經(jīng)驗算法進行比較，在陣地數(shù)為2 伴隨保障模式下不同情況兩種算法的實驗結果（部分），見下頁表1。陣地數(shù)為3 跟進保障模式下不同情況兩種算法的實驗結果（部分），見表2。表中傷員平均等待時間為所有傷員等待時間的平均值，單位：min。其中伴隨救護保障模式指裝甲救護車部署在營救護站，接到命令后前出至火線前接傷員；跟進保障模式指裝甲救護車跟進連戰(zhàn)斗隊，直接接受戰(zhàn)斗隊連長救護命令，在火線對傷員進行現(xiàn)場急救，而后將傷員后送至營救護站。

表1 陣地數(shù)為2 伴隨保障模式下兩種算法結果比較

表2 陣地數(shù)為3 跟進保障模式下兩種算法結果比較

實驗中，按照兩種不同的保障模式，根據(jù)不同陣地數(shù)、車輛數(shù)、傷員比例、作戰(zhàn)時間，針對營救護站到傷員集傷點距離的3 種不同情況，不同距離情況下各作了3 840 次對比實驗。綜合分析所有實驗數(shù)據(jù)，在3 種不同距離情況下，本文算法優(yōu)于經(jīng)驗算法的分別占78.9%、77%、68.7%。程序運行一次的時間為0.2 s～50 s。

4 結論

本文以提高合成營衛(wèi)生排裝甲救護組戰(zhàn)傷救治能力為根本出發(fā)點，將強化學習與裝甲救護車的前接策略相結合，運用強化學習理論，綜合考慮多種影響因素，構建了裝甲救護車火線傷員收攏前接策略模型，測度了不同參數(shù)背景條件下不同策略效能，對比了多種情況下本文算法與經(jīng)驗算法的求解效果。實驗結果表明，基于強化學習的裝甲救護車火線傷員收攏前接策略模型，能夠在較短時間內(nèi)以大概率得到接近最優(yōu)解的可行策略方案，可為裝甲救護車火線傷員收攏前接提供輔助決策支持。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看