• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于強化學習的裝甲救護車火線傷員收攏前接策略*

      2022-04-27 09:04:22王建華吳楊霄李新偉
      火力與指揮控制 2022年3期
      關鍵詞:火線等待時間救護車

      王建華,吳楊霄,李新偉,齊 蕊,崔 澂

      (陸軍軍醫(yī)大學士官學校,石家莊 050081)

      0 引言

      隨著新編制體制落地,新型合成旅作戰(zhàn)指揮模式逐漸成形,與之相適應的合成旅衛(wèi)勤保障力量亦需不斷完善和加強。其中,合成營進攻戰(zhàn)斗傷員收攏前接是保障時效救治原則的關鍵環(huán)節(jié),其效率高低直接影響戰(zhàn)現(xiàn)場急救的時效性。現(xiàn)階段,我軍依托衛(wèi)生排及裝甲救護車完成由火線至營救護站的傷員收攏前接任務,但傷員收攏前接策略大多憑借經(jīng)驗進行部署,在科學性、實時性和效能上還有待進一步論證和完善,因此,利用先進技術手段和數(shù)學方法研究智能化的裝甲救護車傷員收攏前接策略模式,對于提升戰(zhàn)術區(qū)衛(wèi)勤保障能力具有重要意義。本文在建立傷員產(chǎn)生模型的基礎上,綜合考慮戰(zhàn)場裝甲救護車數(shù)量、營救護站到火線傷員集傷點距離、不同傷勢傷員人數(shù)、裝甲救護車搭載傷員數(shù)量、作戰(zhàn)時間、陣地數(shù)量等復雜環(huán)境條件,建立基于深度強化學習的裝甲救護車火線傷員收攏前接策略模型,并進行優(yōu)化求解計算。通過與傳統(tǒng)裝甲救護車火線傷員收攏前接方法相比,該方法可以推演出更加優(yōu)化的火線傷員收攏前接策略,能在一定程度上解決救治時間成本,為搶救傷員爭取寶貴救治時間,提升裝甲救護車利用效能。

      1 問題描述及相關假設

      1.1 問題簡化及描述

      在戰(zhàn)術區(qū)真實戰(zhàn)場環(huán)境下,傷員人數(shù)、傷員分布密集度、救護人員數(shù)量、救治技術、進攻通道狀況、火力程度、天氣等多種因素影響,裝甲救護車的前出策略是一個非常復雜的運籌學問題,需要對每種影響因素進行定性定量描述,并分析其對優(yōu)化目標的影響方式及影響程度,兼顧多種影響因素的精確模型建立難度較大,且求解很難得到最優(yōu)解。因此,根據(jù)不同影響因素的主次關系,對該問題作以適當簡化:

      1)每個陣地傷員集傷點只有一個,即火線傷員已通過自救互救被集中到一個集傷點。

      2)作戰(zhàn)通路通暢、狀況良好,裝甲救護車能正常行駛。

      3)不考慮傷員對作戰(zhàn)能力的影響,所有傷員同等對待。

      4)天氣、火力程度、救護人員、指揮鏈條等相關救護條件正常,不影響裝甲救護車執(zhí)行前接傷員任務。

      簡化后,本文所考慮問題簡要描述如下:已知不同傷勢的傷員分布及數(shù)量多少,從1 個營救護站到n 個陣地,I 輛裝甲救護車分多次前接M 名傷員。以3 個陣地為例,裝甲救護車火線傷員收攏前接傷員流程如圖1 所示。

      圖1 裝甲救護車火線傷員收攏前接傷員流程圖

      1.2 相關假設及符號說明

      解決本文問題的相關假設如下:

      1)每輛裝甲救護車可以到多個不同陣地前接傷員。

      2)裝甲救護車到達某個陣地集傷點接上傷員原路返回至營救護站(即使在非滿載的情況下,也不再到其他陣地集傷點前接傷員),即裝甲救護車在傷員集傷點與營救護站之間往返一次后,可變更前接地點。

      3)不考慮兩車或多車相遇錯車時間。

      4)傷員等待時間:傷員受傷時刻起至上乘至裝甲救護車的時間間隔。

      2 模型建立

      2.1 相關概念及數(shù)學表達

      優(yōu)化目標:I 輛裝甲救護車前接完所有傷員時傷員的平均等待時間最少。

      約束條件如下:

      1)前接傷員的優(yōu)先順序依次是重傷員、中度傷員、輕傷員、危重傷員。

      3)傷員登上裝甲救護車按照先重后輕的順序上乘。傷員下裝甲救護車按照先坐后臥的順序下車。

      2.2 傷員產(chǎn)生模型

      3)設第i 陣地重傷、中度傷、輕傷、危重傷的比例分別為x、x、x、x,且有x+x+x+x=1。則第i 個陣地各類傷員人數(shù)分別為:重傷傷員數(shù)量M=Mx、中度傷傷員數(shù)量M=Mx、輕傷傷員數(shù)量M=Mx、危重傷傷員數(shù)量M=Mx。

      2.3 收攏前接模型

      強化學習通過對價值函數(shù)實現(xiàn)對未來獎勵的預測,進而指導選擇不同的行為來影響環(huán)境。其中價值函數(shù)包括狀態(tài)價值函數(shù)v(s)和動作價值函數(shù)q(s,a),表示如下:

      其中,S 為環(huán)境狀態(tài),是環(huán)境的私有呈現(xiàn),包含了環(huán)境決定下一個時刻的獎勵的基本信息,環(huán)境在t 時刻的狀態(tài)為S;A 為個體行為,個體在t 時刻的行為用A表示;個體在狀態(tài)S下,采取了行為A,所獲得的獎勵為R;π 為策略,是狀態(tài)到行為的一個映射,也可稱為在某個過程中的某一個狀態(tài)s 采取行為a 的概率為:

      γ 為衰減因子,表示未來的獎勵折算到當前的程度,由于未來的獎勵具有不確定性,故引入衰減因子的概念,通常其范圍為[0,1];G 為收獲,即從當前時刻開始的累積獎勵,其定義為:

      設最優(yōu)狀態(tài)價值函數(shù)定義為在狀態(tài)s 下采取最優(yōu)策略的狀態(tài)價值函數(shù)為:

      最優(yōu)動作價值函數(shù)為采取最優(yōu)策略的動作價值函數(shù)為:

      則可推導出貝爾曼最優(yōu)方程為:

      在解決本文所涉及問題時,在尋優(yōu)過程中,考慮到傷員更新的時間間隔短、裝甲救護車在路上所花費時間長,故僅考慮后續(xù)的一個狀態(tài)參與當前狀態(tài)價值的計算,另外,為了簡化計算,設去各個陣地的狀態(tài)轉移概率都相同,則最優(yōu)狀態(tài)價值函數(shù)和最優(yōu)行為價值函數(shù)改進為下式:

      2.4 收攏前接算法設計

      輸入:傷員的狀態(tài)S(即重傷,中度傷,輕傷,危重傷的人數(shù)),裝甲救護車的動作A(即裝甲救護車去哪個陣地前接傷員),前接每種傷勢傷員的獎勵R(利用不同傷勢的獎勵值體現(xiàn)救治優(yōu)先順序),前接策略π(獎勵高的陣地優(yōu)先派車),衰減因子γ。

      輸出:得出每個狀態(tài)下的行為價值Q(即得到每個陣地的行為價值,按照行為價值高的優(yōu)先派車)。

      第1 步:根據(jù)當前的傷勢分布狀態(tài)S,根據(jù)前接策略π 排車去前接傷員,此時算出在當前狀態(tài)下所有動作A 的即時獎勵R。

      第2 步:通過作出的行為A 進入下一個狀態(tài)S′,根據(jù)下一個狀態(tài)S′,利用貪婪法選擇出狀態(tài)S′下的最優(yōu)動作a′,同時得出最優(yōu)狀態(tài)下的策略:

      第3 步:利用下式計算當前狀態(tài)S 的價值Q:

      第4 步:比較在狀態(tài)S 下各個行為A 的動作價值,利用貪婪法選擇最優(yōu)的行為作為實際的行動,同時進入下一個狀態(tài):

      第5 步:循環(huán)上面步驟,直到前接完畢,算法結束。

      3 算法實驗及結果

      3.1 實驗基礎數(shù)據(jù)

      1)營救護站到傷員集傷點的距離區(qū)分近距離、中距離、遠距離3 種情況。

      2)傷員比例:0.1~0.6,以0.1 為間隔遞增。

      重傷、中度傷、輕傷、危重傷傷員占傷員總數(shù)的比例:0.25、0.35、0.35、0.05。

      3)作戰(zhàn)時間:0.5 h~7 h,以0.5 h 為間隔遞增。

      4)車輛數(shù):1~20 輛。

      5)上下車時間:重傷、危重傷員為30 s,中度傷、輕傷傷員為20 s。

      6)車速為45 km/h。

      7)合成營總人數(shù):按一定數(shù)量計算。

      3.2 實驗條件

      軟件開發(fā)采用Matlab 2016a 編程,在CPU 為i5-7200、內(nèi)存為8 G 的計算環(huán)境下進行實驗驗算。

      3.3 相關參數(shù)設置

      獎勵R:不同傷勢傷員的獎勵值按照傷員的受傷程度、傷員的等待時間來進行設置。

      衰減因子:γ=0.7。

      3.4 算法比較對象:經(jīng)驗算法

      根據(jù)各個陣地傷員傷勢分布,按照重傷、中度傷、輕傷、危重傷優(yōu)先救治順序和傷員等待時間大于20 min、10 min~20 min(含)之間、10 min(含)以內(nèi)優(yōu)先順序,進行救護車的調度和分配。定義傷員等待時間為傷員受傷時刻開始到上裝甲救護車后的時間。即優(yōu)先救治順序為超過20 min 的重傷員、10 min~20 min(含)的重傷員、10 min(含)以內(nèi)的重傷員,其次是中度傷、輕傷、危重傷的不同等待時間段內(nèi)的傷員。在搭載不同傷勢傷員時,如果車上座位允許,考慮搭載其他傷勢種類傷員。

      將本文算法與經(jīng)驗算法進行比較,在陣地數(shù)為2 伴隨保障模式下不同情況兩種算法的實驗結果(部分),見下頁表1。陣地數(shù)為3 跟進保障模式下不同情況兩種算法的實驗結果(部分),見表2。表中傷員平均等待時間為所有傷員等待時間的平均值,單位:min。其中伴隨救護保障模式指裝甲救護車部署在營救護站,接到命令后前出至火線前接傷員;跟進保障模式指裝甲救護車跟進連戰(zhàn)斗隊,直接接受戰(zhàn)斗隊連長救護命令,在火線對傷員進行現(xiàn)場急救,而后將傷員后送至營救護站。

      表1 陣地數(shù)為2 伴隨保障模式下兩種算法結果比較

      表2 陣地數(shù)為3 跟進保障模式下兩種算法結果比較

      實驗中,按照兩種不同的保障模式,根據(jù)不同陣地數(shù)、車輛數(shù)、傷員比例、作戰(zhàn)時間,針對營救護站到傷員集傷點距離的3 種不同情況,不同距離情況下各作了3 840 次對比實驗。綜合分析所有實驗數(shù)據(jù),在3 種不同距離情況下,本文算法優(yōu)于經(jīng)驗算法的分別占78.9%、77%、68.7%。程序運行一次的時間為0.2 s~50 s。

      4 結論

      本文以提高合成營衛(wèi)生排裝甲救護組戰(zhàn)傷救治能力為根本出發(fā)點,將強化學習與裝甲救護車的前接策略相結合,運用強化學習理論,綜合考慮多種影響因素,構建了裝甲救護車火線傷員收攏前接策略模型,測度了不同參數(shù)背景條件下不同策略效能,對比了多種情況下本文算法與經(jīng)驗算法的求解效果。實驗結果表明,基于強化學習的裝甲救護車火線傷員收攏前接策略模型,能夠在較短時間內(nèi)以大概率得到接近最優(yōu)解的可行策略方案,可為裝甲救護車火線傷員收攏前接提供輔助決策支持。

      猜你喜歡
      火線等待時間救護車
      救護車
      幼兒畫刊(2023年5期)2023-05-26 05:50:48
      給學生適宜的等待時間
      ——國外課堂互動等待時間研究的現(xiàn)狀與啟示
      穿越火線之協(xié)同作戰(zhàn)(上)
      在防控“火線”踐行初心使命
      人大建設(2020年2期)2020-07-27 02:47:54
      穿越火線之我是連長
      穿越火線之開站篇
      給救護車讓道
      公民與法治(2016年2期)2016-05-17 04:08:35
      意大利:反腐敗沒有等待時間
      公民與法治(2016年2期)2016-05-17 04:08:28
      飛跑來的救護車
      幼兒畫刊(2016年10期)2016-02-28 21:01:22
      顧客等待心理的十條原則
      視野(2015年14期)2015-07-28 00:01:44
      牡丹江市| 德令哈市| 张家港市| 辉县市| 沙洋县| 临颍县| 株洲市| 遂平县| 寻甸| 吴川市| 菏泽市| 潞城市| 西宁市| 延庆县| 郯城县| 双江| 抚顺市| 通城县| 寻甸| 泾源县| 丹寨县| 新竹县| 三明市| 永修县| 文化| 和静县| 宁明县| 许昌县| 武宣县| 平定县| 灵宝市| 京山县| 乌兰浩特市| 壤塘县| 谷城县| 沽源县| 扶风县| 汉沽区| 和硕县| 张家港市| 乌拉特中旗|