謝震海,何 明,禹明剛,陳國(guó)友
(1.陸軍工程大學(xué)指揮控制學(xué)院,南京 210007;2.解放軍31630 部隊(duì),廣東 惠州 516000)
無(wú)人集群作戰(zhàn)是未來(lái)戰(zhàn)場(chǎng)的主要作戰(zhàn)樣式之一,復(fù)雜戰(zhàn)場(chǎng)環(huán)境下,基于地面站的集中控制手段往往受限,集群內(nèi)部的自主協(xié)同是實(shí)現(xiàn)作戰(zhàn)效能的重要保障。
無(wú)人集群的自主協(xié)同需要集群內(nèi)部各作戰(zhàn)單元依據(jù)外部戰(zhàn)場(chǎng)態(tài)勢(shì),作出有效應(yīng)對(duì)與實(shí)時(shí)響應(yīng),其本質(zhì)是策略的選擇/更新。而“多樣性”與“隨機(jī)性”是集群策略選擇/更新中極為重要且無(wú)法回避的兩類(lèi)問(wèn)題。在多樣性方面,以集群火力打擊任務(wù)為例,具備智能性和自主決策能力的作戰(zhàn)單元具有“偏私性”,在集群火力打擊中,為確保自身戰(zhàn)斗力和生存能力,往往會(huì)貢獻(xiàn)“適量”彈藥(若將投放彈藥量的多少作為策略,則對(duì)應(yīng)于多樣性的策略選擇),而不再是傳統(tǒng)博弈中“非黑即白”兩種策略選擇(要么全部投放彈藥,要么不投放彈藥),其策略具有多樣性;在隨機(jī)性方面,戰(zhàn)場(chǎng)復(fù)雜電磁環(huán)境下,無(wú)人集群間的通信易受敵方及環(huán)境干擾,使得通信質(zhì)量難以滿足集群間交互需求,且地面指揮中心不能及時(shí)有效集中指揮,多個(gè)離散的無(wú)人集群只能根據(jù)有限局部環(huán)境信息自主聯(lián)合決策,造成集群規(guī)模增加或減少、作戰(zhàn)單元策略更新突變率增加等隨機(jī)性情況提高。
無(wú)論是在理論研究還是在國(guó)防工業(yè)部門(mén)的演示驗(yàn)證中,無(wú)人集群作戰(zhàn)面臨的多樣性和隨機(jī)性問(wèn)題已經(jīng)多次凸顯,已經(jīng)成為無(wú)人化作戰(zhàn)亟待解決的現(xiàn)實(shí)問(wèn)題。
由于生物集群和無(wú)人集群在直觀上存在著諸多相似特性,近年來(lái),國(guó)內(nèi)外相關(guān)機(jī)構(gòu)和學(xué)者對(duì)照系統(tǒng)層面的群體智能涌現(xiàn)和集群協(xié)同問(wèn)題,開(kāi)展了大量研究,見(jiàn)引用文獻(xiàn)[1-10]。
在無(wú)人集群自主協(xié)同中,對(duì)于集體而言,希望每一個(gè)作戰(zhàn)單元投入盡可能多的資源,以使集群作戰(zhàn)效能最大化;而對(duì)于作戰(zhàn)單元而言,假設(shè)每個(gè)作戰(zhàn)單元完全理性,則會(huì)選擇不投放效能直接“搭便車(chē)”,那么必然陷入不合作困境,導(dǎo)致“公地悲劇”的產(chǎn)生。目前,利用公共物品博弈模型來(lái)解決“公地悲劇”和促進(jìn)種群合作的機(jī)制研究有很多,例如:獎(jiǎng)勵(lì)、懲罰、自愿博弈、網(wǎng)絡(luò)互惠等。但之前的研究大多數(shù)假定個(gè)體的策略只有兩種,即投入或不投入,但現(xiàn)實(shí)情況并非如此。一方面考慮到投入效能的多樣性,即參與公共物品博弈的個(gè)體可以根據(jù)自身情況選擇投入效能的大小,由此在博弈中引入了多策略。另一方面考慮到集群交互過(guò)程中的隨機(jī)性,而隨機(jī)性因素反映在具體參數(shù)上,即為選擇強(qiáng)度、變異率和集群規(guī)模。因此,選擇強(qiáng)度降低、變異率增加或集群規(guī)模減少等,都將會(huì)增加集群的隨機(jī)性。
演化博弈主要研究競(jìng)爭(zhēng)個(gè)體之間存在矛盾、競(jìng)爭(zhēng)和合作等問(wèn)題,關(guān)注的焦點(diǎn)是在動(dòng)態(tài)過(guò)程中,參與者不完全理性、信息不完全對(duì)稱(chēng)共享的情況下,如何在博弈的重復(fù)較量中調(diào)整自己的策略以適應(yīng)環(huán)境,最終達(dá)到動(dòng)態(tài)均衡。其演化過(guò)程主要包含兩個(gè)機(jī)制,產(chǎn)生多樣性的變異機(jī)制和偏向一些種類(lèi)的選擇機(jī)制。近年來(lái),國(guó)際國(guó)內(nèi)研究機(jī)構(gòu)對(duì)合作涌現(xiàn)促進(jìn)機(jī)制采用演化博弈理論進(jìn)行研究,最顯著的代表是哈佛大學(xué)Nowak 教授,總結(jié)了促進(jìn)合作涌現(xiàn)的五大機(jī)制。也通過(guò)理論抽象建模,產(chǎn)生了一系列經(jīng)典的雙人以及多人博弈模型,為研究合作演化提供了一種可實(shí)現(xiàn)的通用范式。如雙人博弈模型(囚徒困境博弈、獵鹿模型、雪堆博弈模型等),多人博弈模型(公共品博弈模型等)。
國(guó)內(nèi),王先甲等在自愿參與機(jī)制下,利用馬氏過(guò)程的極限分布研究了隨機(jī)系統(tǒng)的均衡和群體合作行為,發(fā)現(xiàn)較大的投資收益系數(shù)和固定收益即能有效促進(jìn)合作策略,在應(yīng)用方面,王先甲等人基于愿景驅(qū)動(dòng)機(jī)制,運(yùn)用演化博弈理論研究了企業(yè)合作治污情況,發(fā)現(xiàn)愿景水平、收益系數(shù)與合作水平成正比。杜金銘等通過(guò)嚴(yán)格數(shù)學(xué)推導(dǎo)得出兩方演化博弈中策略占優(yōu)條件不等式,發(fā)現(xiàn)弱選擇強(qiáng)度下平均豐度值與愿景水平無(wú)關(guān)。
前期,我們對(duì)無(wú)人集群合作演化進(jìn)行了初步探索,相關(guān)成果見(jiàn)引用文獻(xiàn)[37-41]。但是,在解決無(wú)人集群合作演化的實(shí)際問(wèn)題時(shí),上述成果仍存在兩點(diǎn)不足:一是在無(wú)人集群合作中,其策略選擇不同于傳統(tǒng)的二元純策略,它有兩種以上策略進(jìn)行選擇,即個(gè)體不僅可以采取合作或背叛策略,也選擇部分合作策略,現(xiàn)有研究多考慮二元純策略的情況,對(duì)多策略情況的研究尚待展開(kāi)。二是無(wú)人集群作戰(zhàn)過(guò)程中,受限于戰(zhàn)場(chǎng)通信條件,平臺(tái)的策略更新會(huì)受到擾動(dòng)。因此,無(wú)人集群策略更新面臨隨機(jī)性挑戰(zhàn),現(xiàn)有理論推導(dǎo)多在理想的假設(shè)前提下進(jìn)行,缺乏對(duì)隨機(jī)性因素的考慮。本研究針對(duì)無(wú)人集群合作演化機(jī)制,基于公共品演化博弈框架,采用Moran 更新過(guò)程對(duì)無(wú)人集群合作演化機(jī)制建模,通過(guò)理論推導(dǎo)和仿真分析多樣性與隨機(jī)性對(duì)集群整體收益的影響,為實(shí)現(xiàn)無(wú)人集群的自組織協(xié)同提供決策支持。
無(wú)人集群自主協(xié)同,主要是為適應(yīng)作戰(zhàn)環(huán)境,在一定時(shí)間內(nèi),多個(gè)作戰(zhàn)單元通過(guò)多次隨機(jī)選擇,自主博弈,從而獲得集群效能最大目的。在此過(guò)程中,作戰(zhàn)單元的策略選擇具有多樣性,受作戰(zhàn)環(huán)境等因素?cái)_動(dòng),集群內(nèi)部交互過(guò)程中具有隨機(jī)性。
集群內(nèi)部的自主協(xié)同,其本質(zhì)是資源的調(diào)控和重分配,因此,可借助博弈論框架進(jìn)行建模分析。為研究多個(gè)體合作困境,解決“公地悲劇”情況的發(fā)生,公共物品博弈是一個(gè)比較理想的模型,演化博弈理論考慮的是在一個(gè)有限理性個(gè)體種群之間,擁有不同策略的個(gè)體隨機(jī)交互,在動(dòng)態(tài)過(guò)程中,個(gè)體反復(fù)博弈調(diào)整自己的策略以適應(yīng)環(huán)境,關(guān)注的焦點(diǎn)是均衡選擇,其核心是“演化穩(wěn)定策略”。與其他博弈模型相比,公共物品演化博弈模型是假設(shè)有一個(gè)公共的資源池,參與博弈的各方都擁有相同的原始資源,各方可以選擇投資或者不投資,所有的投資都將乘以收益系數(shù)r,然后平分給全部參與者。其示意如圖1 所示。
圖1 公共物品博弈示意圖
具體模型背景為:有n 個(gè)個(gè)體組成的群體(當(dāng)前假設(shè)n=5),擁有一個(gè)公共資源池,每個(gè)個(gè)體的原始資源均為1 個(gè)基數(shù),且都有一次往資源池中注入資源的機(jī)會(huì),此時(shí),每個(gè)個(gè)體都可以作出兩種選擇(全部投入或者不投),不管它們作出什么選擇(假設(shè)A 投入s,B 投入s,C 投入s,D 投入s,E 投入s),最終公共資源池中的資源都會(huì)乘以一個(gè)大于1的收益系數(shù)r 后,再平均分配給5 個(gè)個(gè)體。
從集群角度,假如每個(gè)個(gè)體都參與投資,那么集群的利益將達(dá)到最大化;但從個(gè)體角度來(lái)看,每個(gè)個(gè)體是理性的,它具有“偏私性”,都會(huì)想方設(shè)法讓自己的利益最大化,會(huì)選擇投資或少量投資甚至不投資,那么,必然出現(xiàn)沒(méi)人愿意投資的情況發(fā)生。因此,公共物品博弈對(duì)研究集群內(nèi)個(gè)體多樣性和隨機(jī)性更具有針對(duì)性,本文采用公共物品演化博弈模型,對(duì)集群自主協(xié)同過(guò)程進(jìn)行建模。為便于表述,將集群合作演化問(wèn)題所涉及的概念與演化博弈術(shù)語(yǔ)作簡(jiǎn)單映射,如表1 所示。
表1 概念映射
2.1.1 公共物品演化博弈基本模型
2.1.2 Moran 過(guò)程下公共物品演化博弈模型
在公共物品演化博弈中,合作個(gè)體的理性實(shí)際上是個(gè)體在選擇合適策略時(shí)所遵循的規(guī)則,其理性是根據(jù)當(dāng)前態(tài)勢(shì)的變化而變化的,近年來(lái),許多學(xué)者策略更新規(guī)則作了大量研究,主要分為兩類(lèi),如圖2 所示。
圖2 混合均勻群體研究模型
因?yàn)橛邢薹N群的規(guī)模變化是非連續(xù)的,采用離散空間下的隨機(jī)過(guò)程進(jìn)行描述,這里主要運(yùn)用Moran 過(guò)程來(lái)描述。
采用有限大小N 種群中的隨機(jī)進(jìn)化動(dòng)力學(xué),進(jìn)化更新根據(jù)頻率相關(guān)的Moran 過(guò)程發(fā)生。假設(shè)個(gè)體的繁殖與它們的回報(bào)成比例,但受制于概率為u>0 的突變(u 為突變率),后代以1-u 的概率采用父代策略,否則重新從策略集中隨機(jī)選擇一個(gè)新的策略進(jìn)行更新,在每個(gè)時(shí)間步長(zhǎng)中,隨機(jī)選擇的個(gè)體被選擇的子代所代替,從而在整個(gè)更新過(guò)程中,種群的規(guī)模不發(fā)生變化。
2.2.1 相關(guān)前提條件
在生物遺傳學(xué)中,有限種群中的多個(gè)個(gè)體總是有一個(gè)共同的祖先。在沒(méi)有突變的情況下,任何兩個(gè)個(gè)體在穩(wěn)定狀態(tài)下都有相同的基因(策略)。在突變的情況下,兩個(gè)個(gè)體可能會(huì)因?yàn)樽嫦茸V系分支后的突變而有不同的基因(策略)。因此,追溯兩個(gè)個(gè)體的世系,找到最近的共同祖先,從這兩個(gè)家族線分支,使我們能夠估計(jì)兩個(gè)玩家在基因(策略)上的相似性。
對(duì)于無(wú)人集群而言,各智能作戰(zhàn)平臺(tái)在穩(wěn)定狀態(tài)下都具有相同的策略,但受戰(zhàn)場(chǎng)環(huán)境影響,智能作戰(zhàn)平臺(tái)策略的選擇會(huì)因突變而改變初始狀態(tài),其策略的選擇和生物遺傳學(xué)中基因的突變類(lèi)似。因此,作如下假設(shè):
2.2.2 相關(guān)參數(shù)
為推導(dǎo)集群平均投資水平R,將所需相關(guān)參數(shù)進(jìn)行定義明確,如下頁(yè)表2 所示。
表2 參數(shù)映射關(guān)系
2.2.3 集群平均投資水平
由圖可見(jiàn):在圖3(a)中,無(wú)人作戰(zhàn)集群的能力R 隨智能作戰(zhàn)平臺(tái)選擇行為數(shù)量S 增大而增大,但存在閾值R=0.498 5;圖3(b)中,無(wú)人作戰(zhàn)集群的能力R 隨智能作戰(zhàn)平臺(tái)的變異率u 增大而增大,但也存在閾值R=0.5;圖3(c)中,無(wú)人作戰(zhàn)集群的能力R隨無(wú)人作戰(zhàn)集群規(guī)模N 的增大而降低明顯。因此,智能作戰(zhàn)平臺(tái)的變異率、無(wú)人作戰(zhàn)集群的行為數(shù)量增加會(huì)提高無(wú)人作戰(zhàn)集群的整體能力,但無(wú)人作戰(zhàn)集群規(guī)模的增加會(huì)降低作戰(zhàn)集群的能力。
圖3 行為數(shù)量、變異率、以及集群規(guī)模對(duì)作戰(zhàn)集群能力的影響
選取建立n=2 和n=5 時(shí)模型。如圖4、圖5 所示,在各類(lèi)參數(shù)為δ=0.000 02、0.002、0.2、1,R=1.5,N=30,S=3、5、9、10,u=0.01 的情況下仿真。
圖4 n=2 時(shí)行為數(shù)量與作戰(zhàn)集群能力的關(guān)系、行為分布情況
圖5 n=5 時(shí)行為數(shù)量與作戰(zhàn)集群能力的關(guān)系、行為分布情況
由圖可見(jiàn):圖4(a)中,當(dāng)n=2,δ=1.0(強(qiáng)選擇)或δ=0.002(弱選擇)時(shí),無(wú)人作戰(zhàn)集群規(guī)模N 和智能作戰(zhàn)平臺(tái)行為策略S 的變化,對(duì)作戰(zhàn)集群的能力R 影響并不大,并且可以看出,在δ=0.002(弱選擇)條件下,無(wú)人作戰(zhàn)集群的能力保持在0.5 附近;圖5(a)中,當(dāng)n=5,δ=1.0(強(qiáng)選擇)或δ=0.000 02(弱選擇)時(shí),無(wú)人作戰(zhàn)集群規(guī)模N 和智能作戰(zhàn)平臺(tái)行為S 的變化,對(duì)作戰(zhàn)集群的能力R 影響也不大,與此同時(shí),在δ=0.000 02(弱選擇)條件下,作戰(zhàn)集群的能力也保持在0.5 附近,這是因?yàn)樗械闹悄茏鲬?zhàn)平臺(tái)采取的行為幾乎擁有相同的適應(yīng)度,從而導(dǎo)致穩(wěn)態(tài)豐度基本一致。
圖4(a)、圖5(a)中,在δ=1.0(強(qiáng)選擇),n=2 或n=5 時(shí),無(wú)人作戰(zhàn)集群的能力R 幾乎為0,這是因?yàn)樵趶?qiáng)選擇的情況下,智能作戰(zhàn)平臺(tái)更愿意選擇k=0的行為策略。
圖4(a)、圖5(a)中,無(wú)論是n=2 還是n=5 的模型中,當(dāng)智能作戰(zhàn)平臺(tái)選擇的行為數(shù)量S≤9 時(shí),在中等選擇強(qiáng)度條件下,存在閾值,且在閾值范圍中,其行為多樣性的增大能促進(jìn)作戰(zhàn)集群合作。
圖4(b)、圖5(b)中,無(wú)論是n=2 還是n=5 的模型,可以看出,當(dāng)增加無(wú)人集群的行為策略數(shù)量S時(shí),智能作戰(zhàn)平臺(tái)選擇行為策略k=0 和k=1 的頻率會(huì)降低,而選擇非0 行為策略頻率會(huì)有不同程度的增加,但智能作戰(zhàn)平臺(tái)選擇k=1 行為頻率在總體的作戰(zhàn)平臺(tái)行為策略數(shù)量中始終占比最低。由此可知,無(wú)人作戰(zhàn)集群的能力R 隨智能作戰(zhàn)平臺(tái)行為數(shù)量S 增加的主要原因是,由于智能作戰(zhàn)平臺(tái)在合作中,選擇非0 行為策略單元不斷增加,從而使其他選擇k=0 的行為策略不斷減少。
通過(guò)仿真發(fā)現(xiàn),在某一閾值范圍內(nèi),以智能作戰(zhàn)平臺(tái)行為數(shù)量為代表的多樣性增加有利于無(wú)人集群之間的合作。
分別仿真分析基于Moran 過(guò)程下n=2 和n=5公共物品演化博弈模型中選擇強(qiáng)度、變異率、作戰(zhàn)集群規(guī)模帶來(lái)的影響。
3.2.1 選擇強(qiáng)度對(duì)作戰(zhàn)集群合作的影響
選取參數(shù)N=30,u=0.01,r=1.5,S=3,進(jìn)行仿真。如圖6 所示。
圖6 選擇強(qiáng)度與集群合作能力的關(guān)系情況
由圖6 可見(jiàn),在n=2 或n=5 模型中,作戰(zhàn)集群能力R 都隨選擇強(qiáng)度δ 的增加而減小,特別是在n=5 模型中,選擇強(qiáng)度δ 的增大會(huì)導(dǎo)致作戰(zhàn)集群能力R 快速減小。
圖7(a)、(c)、(e)為n=2 時(shí),智能作戰(zhàn)平臺(tái)在不同選擇強(qiáng)度δ 中各行為策略占比情況,圖7(b)、(d)、(f)為n=5 時(shí),智能作戰(zhàn)平臺(tái)在不同選擇強(qiáng)度中各行為策略占比情況。
圖7 不同選擇強(qiáng)度中策略占比情況
3.2.2 變異率對(duì)作戰(zhàn)集群合作的影響
選取參數(shù)為N=30,S=3,r=1.5,進(jìn)行仿真。圖8(a)、(b)分別在n=2 或n=5 模型中,變異率與作戰(zhàn)集群能力的關(guān)系。
圖8 變異率對(duì)作戰(zhàn)集群能力的影響
由圖可見(jiàn),在n=2 模型中,δ=0.002(弱選擇),和在n=5 模型中,δ=0.000 02(弱選擇)時(shí),變異率u對(duì)無(wú)人作戰(zhàn)集群能力R 的影響非常弱。而在n=2 模型中,δ=0.02(中等強(qiáng)度)或δ=1(強(qiáng)選擇),和在n=5模型中,δ=0.002(中等強(qiáng)度)或δ=1(強(qiáng)選擇)時(shí),作戰(zhàn)集群能力R 隨智能作戰(zhàn)平臺(tái)個(gè)體行為的變異率增大而增大。
從變異率與個(gè)體選擇行為的角度來(lái)看,圖9(a)、(b)分別表示在n=2 或n=5 模型中,變異率u與各行為穩(wěn)態(tài)豐度占比分布情況。變異率u 的提高能進(jìn)一步促使智能作戰(zhàn)平臺(tái)選擇非0 行為的頻率。
圖9 不同變異率中各行為穩(wěn)態(tài)豐度占比情況
因此,仿真表明,隨機(jī)性的提高能夠促進(jìn)作戰(zhàn)集群間的合作。
3.2.3 作戰(zhàn)集群規(guī)模對(duì)集群合作的影響
選取參數(shù)u=0.01,S=3,r=1.5,進(jìn)行仿真。下頁(yè)圖10(a)、(b)分別表示在n=2 或n=5 模型中,集群規(guī)模對(duì)作戰(zhàn)能力的影響。
圖10 集群規(guī)模與作戰(zhàn)集群能力的關(guān)系情況
由圖可知,在n=2 模型中,δ=0.002(弱選擇)或δ=1(強(qiáng)選擇),和在n=5 模型中,δ=0.000 02(弱選擇)或δ=1(強(qiáng)選擇)時(shí),增大作戰(zhàn)集群規(guī)模N 對(duì)集群合作能力R 影響不大。而在n=2 模型中,δ=0.02(中等強(qiáng)度)時(shí),和在n=5 模型中,δ=0.002(中等強(qiáng)度)時(shí),較小的集群規(guī)模N 有助于提高集群作戰(zhàn)能力R,而增大作戰(zhàn)集群規(guī)模N,會(huì)降低作戰(zhàn)集群能力R。
圖11(a)、(b)分別表示在n=2 或n=5 模型中,智能作戰(zhàn)平臺(tái)行為策略在不同作戰(zhàn)集群中的占比情況。增大作戰(zhàn)集群規(guī)模N,會(huì)導(dǎo)致作戰(zhàn)平臺(tái)選擇k=0 的行為增加,減少對(duì)其他行為的選擇,從而降低作戰(zhàn)集群合作能力。
圖11 行為策略在不同作戰(zhàn)集群中占比情況
仿真結(jié)論:不考慮其他機(jī)制因素,在弱選擇條件下,智能作戰(zhàn)平臺(tái)行為數(shù)量、作戰(zhàn)集群規(guī)模、各作戰(zhàn)平臺(tái)之間策略選擇的變異率對(duì)作戰(zhàn)集群合作影響不大;在強(qiáng)選擇下,在提高各作戰(zhàn)平臺(tái)之間策略選擇的變異率的同時(shí),也能夠提高作戰(zhàn)集群合作能力,但擴(kuò)大作戰(zhàn)集群規(guī)?;蛘咴黾有袨榫鶎?duì)作戰(zhàn)集群合作能力影響不大;在中等選擇強(qiáng)度下,增大行為數(shù)量或提高各作戰(zhàn)平臺(tái)之間策略選擇的變異率,均能提高作戰(zhàn)集群合作能力,而增大作戰(zhàn)集群規(guī)模,會(huì)降低作戰(zhàn)集群合作的能力。
因此,采用基于Moran 規(guī)則和公共物品博弈的無(wú)人集群合作,在中等選擇強(qiáng)度下,以增加無(wú)人集群的多樣性和隨機(jī)性,有利于促進(jìn)無(wú)人集群之間合作,提高無(wú)人集群的作戰(zhàn)能力。
本文重點(diǎn)研究了由策略數(shù)量帶來(lái)的多樣性和由變異率、集群規(guī)模、選擇強(qiáng)度帶來(lái)的隨機(jī)性對(duì)無(wú)人集群合作演化的影響,并利用仿真分析,驗(yàn)證參數(shù)變化與集群合作演化行為的相關(guān)關(guān)系。
然而,實(shí)際無(wú)人集群與混合均勻種群不同,它具有更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),結(jié)構(gòu)種群中的多樣性和隨機(jī)性更加豐富,因此,結(jié)合復(fù)雜網(wǎng)絡(luò),結(jié)構(gòu)種群的多樣性和隨機(jī)性,如何影響合作演化將是課題組下一步將要研究的方向。