徐廷學(xué),米巧麗,姜 晨
(1.海軍航空工程學(xué)院兵器科學(xué)與技術(shù)系,山東 煙臺(tái)264001;2.海軍航空工程學(xué)院研究生管理大隊(duì),山東 煙臺(tái)264001;3.中國(guó)人民解放軍91872 部隊(duì),北京102442)
艦炮保障是指在艦面和陸面各類約束條件下,依據(jù)艦炮在執(zhí)行任務(wù)過程中各個(gè)任務(wù)剖面的保障要求進(jìn)行專向使用保障或維修保障,保證艦炮在有限的保障資源情況下完成規(guī)定任務(wù),從而提高對(duì)敵目標(biāo)的打擊能力及平時(shí)和戰(zhàn)時(shí)的綜合保障能力。由于艦炮在履行作戰(zhàn)或訓(xùn)練任務(wù)時(shí)經(jīng)常遠(yuǎn)離陸地,在發(fā)生故障時(shí),只能在艦艇自身所具備的有限條件和資源下,實(shí)施應(yīng)急維修或等待外援力量,因此極易出現(xiàn)資源短缺、資源等待時(shí)間過長(zhǎng)及資源利用率過低等問題,直接影響著艦炮的戰(zhàn)備完好性與任務(wù)成功性。在新型作戰(zhàn)背景倡導(dǎo)下,如何對(duì)艦炮所需求的各類保障資源進(jìn)行合理、高效地配置,是在作戰(zhàn)樣式轉(zhuǎn)換快、參戰(zhàn)軍兵種多、保障時(shí)效性要求高的聯(lián)合一體化作戰(zhàn)中實(shí)現(xiàn)聚合、精確、敏捷保障的先決條件,是目前亟待解決的關(guān)鍵問題。
根據(jù)艦炮的使命任務(wù)和保障任務(wù),艦炮的保障資源配置是各類資源在艦炮壽命周期內(nèi)與各任務(wù)階段的有效協(xié)調(diào)和平衡,涉及的資源種類與影響因素十分繁雜。因此,艦炮保障資源配置的決策是一個(gè)復(fù)雜的系統(tǒng)工程,在由初步統(tǒng)計(jì)資源需求到最終確定優(yōu)化資源配置策略的過程中存在各階段中多主體的博弈決策關(guān)系。博弈鏈理論及分析方法在綜合考慮復(fù)雜系統(tǒng)中客觀存在的組鏈?zhǔn)讲┺年P(guān)系的基礎(chǔ)上,通過確定一套符號(hào)規(guī)則體系,引入關(guān)系函數(shù),嵌入效用函數(shù),能夠清晰地描述多主體多局勢(shì)之間的復(fù)雜關(guān)聯(lián)特征及其作用關(guān)系,目前被廣泛用于各個(gè)研究領(lǐng)域[1-3]。由此,博弈鏈可為艦炮保障資源配置方案確定過程中的復(fù)雜博弈關(guān)系提供一種新的表達(dá)方法,為闡述其演化及決策過程提供了新的理論基礎(chǔ)和方法支撐。
艦炮保障目標(biāo)是能夠在作戰(zhàn)或訓(xùn)練任務(wù)下,為各級(jí)決策者和各類作戰(zhàn)平臺(tái)提供各自任務(wù)所需的保障活動(dòng)及相應(yīng)的資源。艦炮保障資源的配置涉及到作戰(zhàn)指揮、保障指揮、保障組織及艦炮本身等多個(gè)因素的影響,這些因素之間的關(guān)系如圖1所示。在面向任務(wù)進(jìn)行艦炮保障資源配置時(shí),其根本出發(fā)點(diǎn)是作戰(zhàn)指揮部門所指示的作戰(zhàn)任務(wù)下的保障任務(wù)。保障指揮部門則依據(jù)保障任務(wù)明確保障目標(biāo)與保障需求,對(duì)相關(guān)的艦炮保障部門(如艦員級(jí)、中繼級(jí)、基地級(jí)保障站點(diǎn)等)下達(dá)保障指示,主要包括艦炮順利完成作戰(zhàn)任務(wù)所需的使用保障活動(dòng)、彈藥與備件等資源,及其過程中出現(xiàn)故障時(shí)所需的維修保障活動(dòng)及資源。保障站點(diǎn)則根據(jù)保障指揮部門的總體指示及艦炮在使用及維修過程中的資源請(qǐng)求進(jìn)行及時(shí)、有效的資源供應(yīng),并將資源庫存供求、艦炮故障及保障情況反饋給上級(jí)部門。
圖1 艦炮保障資源配置因素的關(guān)系Fig.1 Relation of the factors in naval gun support resource allocation
根據(jù)上述艦炮保障資源配置過程可知,保障資源配置不能由各保障站點(diǎn)單獨(dú)決定,需要充分考慮保障過程中各個(gè)階段的資源需求情況,提出資源配置計(jì)劃并組織實(shí)施資源保障。因此,保障資源配置以確定保障目標(biāo)中所需的保障資源約束為前提,依據(jù)保障資源的約束條件,需要對(duì)任務(wù)剖面下各類資源的消耗與需求進(jìn)行預(yù)測(cè),然后對(duì)各保障點(diǎn)的資源保障能力進(jìn)行評(píng)估。根據(jù)資源需求與保障能力評(píng)估的結(jié)果進(jìn)行資源與相應(yīng)保障站點(diǎn)的部署,各保障站點(diǎn)依據(jù)需求對(duì)保障資源進(jìn)行分配與供應(yīng),將資源運(yùn)輸?shù)较鄳?yīng)的位置。因此,可以將艦炮保障資源的配置過程分為確定保障目標(biāo)、明確保障資源需求、資源保障能力評(píng)估、資源保障站點(diǎn)部署及保障資源供應(yīng)5個(gè)過程。其對(duì)應(yīng)的決策點(diǎn)如圖2所示,依次為保障目標(biāo)選擇決策、資源需求預(yù)測(cè)決策、資源保障能力決策、資源與保障站點(diǎn)部署決策和保障資源運(yùn)輸決策5個(gè)決策點(diǎn)。
圖2 艦炮保障資源配置決策過程Fig.2 Decision process of naval gun support resource allocation
目前,博弈鏈主要采用表述式和表述圖2 種方式對(duì)具有縱橫交錯(cuò)的博弈系統(tǒng)進(jìn)行描述[4]。表述式通過采用特定的符號(hào)分別表示博弈單元、博弈組和博弈鏈,將系統(tǒng)復(fù)雜的博弈關(guān)系抽象為基本的博弈組鏈形式;表述圖則通過一系列約定的圖示符號(hào)規(guī)則體系用圖示的方式分別表示博弈單元、效用函數(shù)、關(guān)系函數(shù)、結(jié)果輸出等博弈基本元素及其邏輯關(guān)系。
根據(jù)圖2所示的艦炮保障資源配置階段決策過程,可以將其描述為如圖3所示的艦炮保障資源配置決策博弈鏈表述圖。決策過程中的每一個(gè)階段對(duì)應(yīng)于一個(gè)博弈單元或博弈組,每個(gè)博弈單元(博弈組)中的博弈內(nèi)容即為保障資源配置每個(gè)階段的決策點(diǎn)內(nèi)容。艦炮保障資源配置決策博弈鏈模型主要分為5個(gè)博弈階段,分別為保障目標(biāo)選擇博弈單元、資源需求預(yù)測(cè)博弈組、資源保障能力博弈單元、資源保障站點(diǎn)部署博弈單元及保障資源運(yùn)輸博弈單元。博弈鏈的各個(gè)博弈單元或博弈組之間具備對(duì)應(yīng)的前后邏輯聯(lián)系,前一個(gè)博弈階段的博弈結(jié)果直接影響著后續(xù)博弈階段策略的選擇。
保障目標(biāo)選擇博弈單元是確定保障目標(biāo)優(yōu)先級(jí)、合理進(jìn)行保障資源配置的前提與基本依據(jù)。該階段主要任務(wù)是裝備保障指揮部門根據(jù)作戰(zhàn)任務(wù)對(duì)保障過程中出現(xiàn)的多個(gè)保障目標(biāo)的輕重緩急進(jìn)行分析,定量地對(duì)其進(jìn)行優(yōu)先排序。其輸入為各個(gè)保障目標(biāo)的相關(guān)屬性與屬性值,輸出為各保障目標(biāo)的優(yōu)先級(jí)序列。博弈雙方A1與B1分別代表裝備保障指揮部門與作戰(zhàn)指揮部門。
圖3 艦炮保障資源配置決策博弈鏈表述圖Fig.3 Game chain graph of naval gun support resource allocation decision
資源需求預(yù)測(cè)博弈組是根據(jù)保障目標(biāo)的優(yōu)先排序,對(duì)各保障目標(biāo)對(duì)應(yīng)的保障約束中所需的各種保障資源的消耗與數(shù)量要求進(jìn)行預(yù)測(cè)決策。其輸入為保障目標(biāo)的保障約束,輸出為實(shí)現(xiàn)保障目標(biāo)所需要的各種保障資源的消耗與需求預(yù)計(jì)情況。博弈雙方A2與B2分別代表作戰(zhàn)或訓(xùn)練中裝備作戰(zhàn)力量與資源損耗統(tǒng)計(jì)。由于不同的作戰(zhàn)或訓(xùn)練中對(duì)艦炮進(jìn)行使用與維修所需求的資源種類和數(shù)量不同,因此,需要根據(jù)確定的保障目標(biāo)對(duì)各種保障資源的消耗需求進(jìn)行預(yù)測(cè)博弈。將艦炮所需的各種保障資源進(jìn)行編號(hào),對(duì)各類資源分別進(jìn)行博弈決策。
資源保障能力博弈單元是根據(jù)保障資源的需求預(yù)測(cè),各保障站點(diǎn)在實(shí)施對(duì)應(yīng)保障任務(wù)時(shí)對(duì)不同保障資源需求的滿足程度進(jìn)行博弈決策。因此,其輸入為各保障任務(wù)剖面下的資源需求,輸出為不同站點(diǎn)對(duì)各類保障資源的滿足程度。博弈雙方A3與B3分別代表保障任務(wù)的資源需求與艦炮保障站點(diǎn)的保障能力。
資源保障站點(diǎn)部署博弈單元是根據(jù)資源保障能力的輸出對(duì)各類資源對(duì)應(yīng)的保障站點(diǎn)進(jìn)行分配與調(diào)度。因此,其輸入為各保障站點(diǎn)對(duì)保障資源的滿足程度,輸出為保障站點(diǎn)對(duì)各保障資源的部署計(jì)劃。博弈雙方A4與B4分別代表保障任務(wù)的資源需求與艦炮保障站點(diǎn)。
保障資源運(yùn)輸博弈單元根據(jù)資源站點(diǎn)的部署計(jì)劃,將需要運(yùn)輸各類保障資源送達(dá)至對(duì)應(yīng)需求地點(diǎn)。因此,其輸入為資源保障站點(diǎn)的部署計(jì)劃,輸出為各類資源的最優(yōu)運(yùn)輸方案。博弈雙方A4與B4分別代表資源保障站點(diǎn)的保障能力與艦炮保障環(huán)境。
為了定量對(duì)艦炮保障資源配置各個(gè)階段進(jìn)行博弈決策,從而得到最優(yōu)資源配置方案,需將資源配置的博弈鏈模型進(jìn)行形式化描述。用M = {Mk,k =1,2,3,4,5}表示圖3所示的博弈鏈模型,M1,M2={M2j,j=1,2,…,n},M3,M4,M5分別代表保障目標(biāo)選擇博弈單元、資源需求預(yù)測(cè)博弈組、資源保障能力博弈單元、資源保障站點(diǎn)部署博弈單元與保障資源運(yùn)輸博弈單元。對(duì)于每個(gè)博弈組或博弈單元,均包含效用函數(shù)U、輸出結(jié)果集R與關(guān)聯(lián)函數(shù)集F3個(gè)元素,即
式中:Uk為博弈雙方在決策階段k 中獲得的效用;Rk為決策階段k的決策結(jié)果(策略方案);Fk為決策階段k 到k+1的關(guān)系傳遞;圖3 中RZ為艦炮資源保障配置的最優(yōu)決策方案,即此博弈鏈模型的最終綜合輸出結(jié)果;FZ為博弈鏈模型的輸出均衡關(guān)聯(lián)函數(shù)。
依據(jù)上述分析,將艦炮保障資源配置博弈鏈的決策過程用數(shù)學(xué)模型描述為:
下式中,t為博弈鏈中的決策點(diǎn)集,t = {tk,k = 1,2,3,4,5},其中,t2= (t21,t22,…,t2n);St為決策狀態(tài)集,itk為決策點(diǎn)tk下的狀態(tài),;Ot為決策可選方案集,otk為狀態(tài)itk下的可選方案,Ot= {∈Ot,l = 1,2,…,n};Pt為系統(tǒng)決策狀態(tài)轉(zhuǎn)移概率集,ptk為決策點(diǎn)tk處于狀態(tài)itk,采用方案otk后在決策點(diǎn)tk+1時(shí)處于狀態(tài)itk+1的狀態(tài)概率集,滿足:
博弈模型中的關(guān)系函數(shù)可由狀態(tài)轉(zhuǎn)移概率給出,即Fk= ptk。下式中,Ut為系統(tǒng)效用集,rtk為處于狀態(tài)itk時(shí)采用方案otk的效用,Ut={rtk(itk,otk)rtk∈Ut};Π為系統(tǒng)策略(方案)集合,記決策點(diǎn)tk下處于狀態(tài)itk時(shí)的決策變量函數(shù)為ytk(itk),在決策點(diǎn)tk從狀態(tài)itk出發(fā)的允許決策集合(決策變量取值的集合)記為Ytk(itk),顯然存在ytk(itk)∈Ytk(itk)。策略為按順序排列的決策集合,記決策點(diǎn)tk所處決策階段的子過程策略為πtk(itk),πtk(itk)∈otk,即輸出結(jié)果Rk=πtk(itk)= {ytk(itk)}。對(duì)于系統(tǒng)策略集Π 滿足:
下式中,V為在定義的策略Π 下,在決策點(diǎn)tk下從狀態(tài)itk出發(fā),決策者采取方案otk時(shí)的期望總效用準(zhǔn)則函數(shù)[5],滿足:
式中?itk∈St,otk∈Ot,h = k +1,…,5。
在進(jìn)行艦炮保障資源配置方案決策時(shí),采用期望總效用準(zhǔn)則評(píng)價(jià)決策點(diǎn)tk到最后一個(gè)階段的系統(tǒng)策略的優(yōu)劣。k =1 時(shí)的期望總效用準(zhǔn)則即整個(gè)決策系統(tǒng)的準(zhǔn)則函數(shù),對(duì)上述決策數(shù)據(jù)模型求解的最終目的是求取在這個(gè)準(zhǔn)則函數(shù)下初始狀態(tài)的系統(tǒng)均衡解。
通過對(duì)艦炮保障資源配置博弈過程的分析可知,圖3所示博弈鏈中的5個(gè)博弈階段相互聯(lián)系,在每個(gè)階段都需要做出決策,且每個(gè)階段的決策不僅決定著本階段所采取的方案和活動(dòng),其決策結(jié)果還直接作為后續(xù)階段決策的約束,從而對(duì)整個(gè)決策過程產(chǎn)生影響。在艦炮執(zhí)行作戰(zhàn)或訓(xùn)練任務(wù)過程中,根據(jù)不同保障任務(wù)下的資源消耗情況,保障資源需要進(jìn)行重新配置決策。因此,關(guān)于艦炮的保障資源的配置與重新配置的決策過程可以模擬為一個(gè)多階段的動(dòng)態(tài)決策過程。對(duì)這個(gè)過程的博弈鏈進(jìn)行求解即對(duì)包括5個(gè)階段的整個(gè)資源配置過程進(jìn)行最優(yōu)化決策。由Richard Bellman 提出的動(dòng)態(tài)規(guī)劃能夠把困難的多階段決策問題變換成一系列互相聯(lián)系、較易解決的單階段問題,是解決此類多階段決策過程最優(yōu)化的有效方法[6]。
使用動(dòng)態(tài)規(guī)劃方法求解多階段決策過程的最優(yōu)化問題時(shí),需要建立相應(yīng)的動(dòng)態(tài)規(guī)劃模型,簡(jiǎn)稱為DP模型[7]。應(yīng)用于艦炮保障資源配置決策的博弈鏈模型中時(shí),即需依據(jù)所確定的博弈階段、各階段狀態(tài)和決策準(zhǔn)則等,列出各階段決策點(diǎn)對(duì)應(yīng)的狀態(tài)集合、決策準(zhǔn)則、狀態(tài)轉(zhuǎn)移方程及效用函數(shù)等。以決策點(diǎn)tk下的任一狀態(tài)itk為起始狀態(tài),記此狀態(tài)的后部最優(yōu)子策略為(itk),Πtk(itk)為以其為itk為起始狀態(tài)的后續(xù)階段允許策略集合。(itk)為以下最優(yōu)化問題的解:
對(duì)于Vtk(itk,Πtk(itk)),其滿足以下關(guān)系:
式中:Πtk(itk)= {ytk(itk),Πtk+1(itk+1)},itk+1= ptk(itk,ytk(itk))。
假設(shè)對(duì)任意itk+1∈St,已經(jīng)解出后部最優(yōu)子策略(itk+1),式(6)所示的問題可等價(jià)為:
加上約束條件,可以得到如下DP 方程:
其中,Qt6(it6)的值由效用函數(shù)之間的關(guān)系所定,如果博弈階段之間的效用函數(shù)運(yùn)算關(guān)系為相加,且Qt6(it6)值為0;如效用函數(shù)運(yùn)算關(guān)系為相乘,則Qt6(it6)值為1。由式 (9)可解出(itk),且。
依據(jù)上述動(dòng)態(tài)規(guī)劃最優(yōu)化模型的分析,在對(duì)艦炮保障資源配置的博弈鏈模型進(jìn)行求解時(shí),需要對(duì)每個(gè)博弈階段進(jìn)行決策,得出每個(gè)階段的策略與最優(yōu)效用。運(yùn)用動(dòng)態(tài)規(guī)劃的逆序解法[8],令k =5,即從最后一個(gè)博弈階段 (決策點(diǎn)為t5)開始,以Qt6(it6)=0,1為終端邊界條件,逐次向前遞推計(jì)算(令k =k-1),直到k =1為止,求得(it1)與Qt1(it1),由此即能得到保障資源配置決策過程的最優(yōu)系統(tǒng)策略Π*與相應(yīng)的最優(yōu)總效用值V*=Qt1(it1),其中Π*= {(itk),k = 1,2,3,4,5}。
其求解算法流程如圖4所示。
圖4 基于動(dòng)態(tài)規(guī)劃的博弈鏈模型求解算法Fig.4 Arithmetic flow solving the game chain model based on dynamic programming
本文提出運(yùn)用博弈鏈的基本理論與方法對(duì)艦炮保障資源配置的決策優(yōu)化進(jìn)行研究,將艦炮保障資源配置的每個(gè)決策階段視為一個(gè)博弈單元或博弈組,構(gòu)建了整個(gè)決策過程的博弈鏈表述圖,直觀并清晰地描述了保障資源配置的決策階段及各階段之間的關(guān)聯(lián)。通過明確博弈鏈表述圖中各決策階段對(duì)應(yīng)博弈單元的博弈雙方、效用函數(shù)、關(guān)系函數(shù)與輸出結(jié)果等要素,從而建立了整體博弈鏈的數(shù)學(xué)模型,然后分別定義了該模型中的決策狀態(tài)集、可選方案集、狀態(tài)轉(zhuǎn)移概率集、效用集、系統(tǒng)策略集及期望總效用準(zhǔn)則函數(shù)等元素?;谒⒌牟┺逆湜Q策過程的多階段動(dòng)態(tài)演化特性,利用動(dòng)態(tài)規(guī)劃中的逆序解法對(duì)博弈鏈數(shù)學(xué)模型進(jìn)行求解,構(gòu)建了保障資源優(yōu)化決策的DP模型,給出了具體的求解算法與步驟,從而實(shí)現(xiàn)艦炮保障資源配置的最優(yōu)化決策。
[1]梁冬,陳昶軼,樊延平,等.基于博弈鏈的裝備保障指揮決策建模研究[J].微計(jì)算機(jī)信息,2009,25(16):253-255.LIANG Dong,CHEN Chang-yi,F(xiàn)AN Yan-ping,et al.Research on equipment support command decision based on game chain [J].Microcomputer Information,2009,25(16):253-255.
[2]張軍,廉藺,朱為,等.基于博弈鏈的國(guó)防人才培養(yǎng)模式分析[J].系統(tǒng)工程,2012,30(11):122-126.ZHANG Jun,LIAN Lin,ZHU Wei,et al.Exploring training mode of defense personnel based on the game chain[J].Systems Engineering,2012,30(11):122-126.
[3]方志耕,郭本海,張一帆,等.基于進(jìn)化博弈鏈結(jié)構(gòu)的股票市場(chǎng)非理性泡沫測(cè)算問題研究[J].廣義虛擬經(jīng)濟(jì)研究,2012,3(3):83-90.FANG Zhi-geng,GUO Ben-hai,ZHANG Yi-fan,et al.Research on irrational bubbles in the stock market based on the chain model of evolutionary game[J].Research on the Generalized Virtual Economy,2012,3(3):83-90.
[4]侯光明.博弈鏈理論及其在國(guó)防科技組織創(chuàng)新中的應(yīng)用[M]..北京:科學(xué)出版社,2007:84-100.HOU Guang-ming.Game chain theory and application in defense S&T organizational innovation[M].Beijing:Science Press,2007:84-100.
[5]陳昶軼,沈宇軍.數(shù)字化部隊(duì)裝備保障建模與論證仿真[M].北京:軍事科學(xué)出版社,2009:62-69.CHEN Chang-yi,SHEN Yu-jun.Digitization troops equipment support modeling and simulation[M].Beijing:Military Science Press,2009:62-69.
[6]周獻(xiàn)中,鄭華利,田衛(wèi)萍,等.指揮自動(dòng)化系統(tǒng)輔助決策技術(shù)[M].北京:國(guó)防工業(yè)出版社,2012:44-48.ZHOU Xian-zhong,ZHENG Hua-li,TIAN Wei-ping,et al.Aided decision-making techniques in command and control system[M].Beijing:National Defense Industry Press,2012:44-48.
[7]張東戈,牛彥杰,權(quán)冀川,等.軍事運(yùn)籌學(xué)[M].北京:國(guó)防工業(yè)出版社,2012:141-142.ZHANG Dong-ge,NIU Yan-jie,QUAN Ji-chuan,at el.Military operations research[M].Beijing:National Defense Industry Press,2012:141-142.
[8]董樹軍,張慶捷.軍事運(yùn)籌學(xué)教程[M].北京:藍(lán)天出版社,2006:255-258.DONG Shu-jun,ZHANG Qing-jie.Military operations tutorial[M].Beijing:Blue Sky Press,2006:255-258.