姚昌華 安蕾 劉鑫 韓貴真 高澤郃
摘要針對(duì)多無(wú)人機(jī)對(duì)多個(gè)異構(gòu)任務(wù)目標(biāo)進(jìn)行偵察和通信服務(wù)的協(xié)同優(yōu)化問(wèn)題,通過(guò)考慮不同目標(biāo)的任務(wù)要求和價(jià)值,以及多機(jī)協(xié)同增益與任務(wù)行為制約關(guān)系,構(gòu)建斯坦伯格博弈模型,將上層無(wú)人機(jī)建立為博弈領(lǐng)導(dǎo)者,下層無(wú)人機(jī)建立為博弈的跟隨者,并提出一種分布式策略更新迭代算法,實(shí)現(xiàn)了多無(wú)人機(jī)任務(wù)分配方案的穩(wěn)定收斂以及系統(tǒng)任務(wù)收益優(yōu)化.仿真結(jié)果顯示,所提方法能有效提升多無(wú)人機(jī)系統(tǒng)同時(shí)完成多個(gè)任務(wù)的效益,并能在不同環(huán)境下實(shí)現(xiàn)面向異構(gòu)任務(wù)價(jià)值的高效協(xié)同.
關(guān)鍵詞多無(wú)人機(jī)系統(tǒng);任務(wù)分配;斯坦伯格博弈;迭代算法
中圖分類(lèi)號(hào)
TN929.5;V279
文獻(xiàn)標(biāo)志碼
A
收稿日期
2021-08-16
資助項(xiàng)目
國(guó)家自然科學(xué)基金(61971439,61961010);江蘇省自然科學(xué)基金(BK20191329);中國(guó)博士后科學(xué)基金(2019T120987);南京信息工程大學(xué)人才啟動(dòng)經(jīng)費(fèi)(2020r100)
作者簡(jiǎn)介
姚昌華,男,博士,教授,研究方向?yàn)橹悄軣o(wú)人集群、智能無(wú)線通信.ych2347@163.com
安蕾(通信作者),女,碩士生,研究方向?yàn)橹悄軣o(wú)人集群.1178535838@qq.com
0 引言
隨著人工智能技術(shù)的快速發(fā)展,無(wú)人機(jī)的智能化水平也越來(lái)越高,數(shù)量眾多的無(wú)人機(jī)組成無(wú)人機(jī)群以其高度的靈活性、廣泛的適應(yīng)性、可控的經(jīng)濟(jì)性,擁有越來(lái)越廣泛的應(yīng)用潛力.無(wú)人機(jī)可以對(duì)地面目標(biāo)近距離地實(shí)施選擇性和針對(duì)性的觀測(cè)和通信[1].多無(wú)人機(jī)系統(tǒng)具有容錯(cuò)性強(qiáng)、自適應(yīng)性好等優(yōu)勢(shì),更適合在復(fù)雜環(huán)境下執(zhí)行任務(wù)[2].
多無(wú)人機(jī)執(zhí)行任務(wù)時(shí),必須對(duì)其進(jìn)行任務(wù)分配,以提高任務(wù)執(zhí)行效率.無(wú)人機(jī)集群的任務(wù)規(guī)劃是指根據(jù)任務(wù)需求、自身特性等對(duì)目標(biāo)任務(wù)進(jìn)行綜合調(diào)度,從而建立無(wú)人機(jī)與任務(wù)目標(biāo)之間合理的映射協(xié)同關(guān)系[3-4].對(duì)于異構(gòu)主體之間的協(xié)同問(wèn)題,已有了一些相關(guān)研究,比如:文獻(xiàn)[5]采用多架無(wú)人機(jī)協(xié)同輔助實(shí)施任務(wù)分配和路徑優(yōu)化的分層優(yōu)化方案,能夠解決降低時(shí)間和能耗的優(yōu)化問(wèn)題;文獻(xiàn)[6]針對(duì)多無(wú)人機(jī)作戰(zhàn)飛機(jī)協(xié)同任務(wù)分配問(wèn)題建立了一種擴(kuò)展的多目標(biāo)整數(shù)規(guī)劃模型,并采用改進(jìn)的量子粒子群算法求解最優(yōu)方案;文獻(xiàn)[7]針對(duì)任務(wù)隨機(jī)下發(fā)場(chǎng)景中由于任務(wù)完成時(shí)間約束帶來(lái)的任務(wù)完成度低的問(wèn)題,通過(guò)強(qiáng)化學(xué)習(xí)方法進(jìn)行無(wú)人機(jī)的行為決策,達(dá)到新任務(wù)與正在執(zhí)行任務(wù)的動(dòng)態(tài)分配以提高任務(wù)完成度;文獻(xiàn)[8]考慮飛行航程和任務(wù)分配均衡性,在自適應(yīng)遺傳算法運(yùn)行過(guò)程中對(duì)交叉率和變異率進(jìn)行實(shí)時(shí)動(dòng)態(tài)調(diào)整,以克服標(biāo)準(zhǔn)遺傳算法陷入局部最優(yōu)的缺點(diǎn);文獻(xiàn)[9]針對(duì)多目標(biāo)跟蹤任務(wù)分配中傳感器之間競(jìng)爭(zhēng)與合作的關(guān)系,提出了一種基于博弈理論的多目標(biāo)跟蹤任務(wù)傳感器資源分配方法;文獻(xiàn)[10]考慮在通信帶寬有限條件下多無(wú)人機(jī)組隊(duì)的任務(wù)分配問(wèn)題,通過(guò)協(xié)調(diào)偵察、執(zhí)行和評(píng)估任務(wù),改進(jìn)基于一致性的競(jìng)拍算法來(lái)減少通信負(fù)擔(dān);文獻(xiàn)[11]基于相鄰局部通信的分布式拍賣(mài)算法,實(shí)現(xiàn)了多無(wú)人機(jī)任務(wù)協(xié)同分配的優(yōu)化求解問(wèn)題;文獻(xiàn)[12]采用多無(wú)人機(jī)輔助移動(dòng)邊緣計(jì)算系統(tǒng)聯(lián)合優(yōu)化一個(gè)有限周期內(nèi)的無(wú)人機(jī)軌跡和用戶(hù)調(diào)度;文獻(xiàn)[13]考慮任務(wù)分配中聯(lián)盟的構(gòu)建和無(wú)人機(jī)資源管理方法,使聯(lián)盟中各無(wú)人機(jī)能夠以更加平衡的方式消耗資源,提升系統(tǒng)性能;文獻(xiàn)[14]綜合考慮無(wú)人機(jī)的物理性能約束,應(yīng)用基于模擬退火的混合粒子群算法進(jìn)行任務(wù)分配求解;文獻(xiàn)[15]建立多任務(wù)的分配問(wèn)題模型,采用多余負(fù)載競(jìng)拍方案減少非法劣解,通過(guò)實(shí)數(shù)編碼建立粒子和實(shí)際分配方案之間的映射關(guān)系,解決實(shí)際分配問(wèn)題;文獻(xiàn)[16]研究了MEC輔助無(wú)人機(jī)群中所有成員的總延遲的最小化問(wèn)題,提出卸載模型,縮短了任務(wù)的完成時(shí)間;文獻(xiàn)[17]提出一種動(dòng)態(tài)分散任務(wù)分配算法,用于任務(wù)分配問(wèn)題中在線新任務(wù)的分配.
上述文獻(xiàn)所研究的任務(wù)目標(biāo)大多是同構(gòu)的[9,12,16-17],未考慮異構(gòu)的任務(wù)價(jià)值[10-11,13],也未考慮同時(shí)存在多點(diǎn)偵察任務(wù)和通信服務(wù).從方法上看,現(xiàn)有多數(shù)研究基于集中式分配算法[5-8,14-15],即需要一個(gè)中心控制實(shí)體來(lái)為集群內(nèi)的所有成員分配任務(wù).這種模式不利于提高無(wú)人機(jī)集群的魯棒性和環(huán)境適應(yīng)能力.在無(wú)人機(jī)集群執(zhí)行任務(wù)過(guò)程中,大部分的環(huán)境狀態(tài)都是動(dòng)態(tài)變化的,其任務(wù)分配的方案也應(yīng)該隨時(shí)優(yōu)化調(diào)整,以有效應(yīng)對(duì)動(dòng)態(tài)環(huán)境的變化.集中式任務(wù)分配算法存在計(jì)算復(fù)雜度高、依賴(lài)中心節(jié)點(diǎn)等問(wèn)題.研究自適應(yīng)強(qiáng)的多無(wú)人機(jī)分布式動(dòng)態(tài)任務(wù)分配方法,是多無(wú)人機(jī)協(xié)同任務(wù)分配的現(xiàn)實(shí)需要,也是難點(diǎn)問(wèn)題.
本文研究多無(wú)人機(jī)網(wǎng)絡(luò)中的任務(wù)目標(biāo)調(diào)度問(wèn)題,構(gòu)建面向異構(gòu)任務(wù)類(lèi)型和價(jià)值的斯坦伯格(Stackelberg)博弈模型,設(shè)計(jì)通信和偵察的任務(wù)效用函數(shù),并提出分層用戶(hù)偵察和通信任務(wù)調(diào)度以及功率控制算法,實(shí)現(xiàn)基于無(wú)人機(jī)自主任務(wù)選擇的多無(wú)人機(jī)系統(tǒng)任務(wù)分配穩(wěn)定收斂以及系統(tǒng)任務(wù)總收益優(yōu)化.
1 系統(tǒng)模型和問(wèn)題建模
1.1 系統(tǒng)模型
無(wú)人機(jī)通信偵察任務(wù)分配系統(tǒng)模型如圖1所示,由一個(gè)領(lǐng)頭無(wú)人機(jī)(Leader Drone,LD)和隨機(jī)分布在其周?chē)腘個(gè)協(xié)同無(wú)人機(jī)(Collaborative Drone,CD)構(gòu)成,共同完成多個(gè)任務(wù).每一架無(wú)人機(jī)監(jiān)測(cè)或服務(wù)范圍內(nèi)均有隨機(jī)分布的不同數(shù)量的通信和偵察兩類(lèi)任務(wù).每個(gè)任務(wù)的重要程度或?qū)傩圆煌鋵?duì)應(yīng)的任務(wù)價(jià)值也不同.各架無(wú)人機(jī)根據(jù)自身位置與目標(biāo)之間的距離、目標(biāo)價(jià)值、偵察或通信服務(wù)所獲得的期望收益,以及與其他無(wú)人機(jī)通信鏈路之間可能的干擾關(guān)系,來(lái)自主決定選擇任務(wù)對(duì)象.
令0表示領(lǐng)頭無(wú)人機(jī),則分布在周?chē)膮f(xié)同無(wú)人機(jī)集合表示為A={CD 1,CD 2,…,CD N},領(lǐng)頭及協(xié)同無(wú)人機(jī)可調(diào)度通信任務(wù)目標(biāo)集合表示為T(mén) u,i={1,2,…,m},i∈A∪{0},可調(diào)度的偵察任務(wù)目標(biāo)集合表示為T(mén) z,i={1,2,…,n}.信道增益為g i,j,j∈T u,i∪T z,i∪{0},并且假定信道增益在任務(wù)目標(biāo)調(diào)度和功率調(diào)整時(shí)期穩(wěn)定不變.LD和CD的發(fā)射功率向量為p=[p 0,p 1,…,p N],背景干擾噪聲功率為σ2.CD執(zhí)行通信偵察任務(wù)后,需要將信息上傳匯報(bào)給領(lǐng)頭無(wú)人機(jī).偵察任務(wù)中,每一架無(wú)人機(jī)對(duì)各個(gè)任務(wù)目標(biāo)對(duì)象的分辨率r為定值,構(gòu)建分辨率矩陣.通信任務(wù)調(diào)度中,當(dāng)給定LD以及其他CD的調(diào)度策略后,CD i服務(wù)第k個(gè)通信任務(wù)目標(biāo)的下行信噪比為
γk i(p i,p -i)=p ig i,kIk i(p -i),? (1)
通信信息上傳時(shí)的信噪比為
k i(p i,p -i)=p i,0g i,0Ik i(p -i,0),? (2)
其中Ik i(p -i)=p 0g 0,k+∑j≠i,j∈Ap jg j ,k+σ2,Ik i(p -i,0)=∑j≠i,j∈Ap j,0g j,0+σ2,p -i=[p 0,p 1,…,p i-1,p i+1,…,p N]表示除CD i以外的所有無(wú)人機(jī)的功率分配向量.CD i下的通信任務(wù)目標(biāo)同時(shí)收到來(lái)自鄰居CD的同層干擾以及來(lái)自LD的跨層干擾.p i,0為通信上傳功率值,假定CD到LD通信上傳速率為R i,分配帶寬為 i,由R i= ilog 21+p i,0g i,0σ2可求得p i,0.另外,LD服務(wù)的第l個(gè)通信任務(wù)目標(biāo)的下行信噪比可以表示為
γl 0(p 0,p -0)=p 0g 0,lIl 0(p -0)=p 0g 0,l∑j∈Ap jg j,l+σ2.(3)
1.2 斯坦伯格分層博弈模型
在本文多無(wú)人機(jī)系統(tǒng)協(xié)同模型中,任務(wù)類(lèi)型包含通信任務(wù)和偵察任務(wù)兩類(lèi).因目標(biāo)任務(wù)的重要程度不同,需要對(duì)LD和CD任務(wù)執(zhí)行進(jìn)行合理規(guī)劃,任務(wù)目標(biāo)重要程度較高的服務(wù)質(zhì)量(QoS)需要首先得到保障.本文基于任務(wù)優(yōu)先級(jí)以及任務(wù)目標(biāo)需求的差異性,采用分層博弈模型來(lái)刻畫(huà)領(lǐng)頭無(wú)人機(jī)和協(xié)同無(wú)人機(jī)之間的任務(wù)目標(biāo)調(diào)度和功率分配問(wèn)題.在該博弈中,先做出決策的一方為領(lǐng)導(dǎo)者(leader),其余觀測(cè)領(lǐng)導(dǎo)者的決策從而做出行動(dòng)的一方稱(chēng)為跟隨者(follower).本文將上層領(lǐng)頭無(wú)人機(jī)視為領(lǐng)導(dǎo)者,下層協(xié)同無(wú)人機(jī)視為跟隨者,利用分層斯坦伯格(Stackelberg)博弈模型刻畫(huà)LD-CD之間的分層競(jìng)爭(zhēng)交互關(guān)系.目標(biāo)任務(wù)調(diào)度中,Stackelberg定義為
G={A,{P 0,C 0},{P i,C i} i∈A,{U 0},{U i} i∈A},? (4)
其中{P 0,C 0}和{P i,C i} i∈A分別表示LD和CD的策略空間,{U 0}和{U i} i∈A分別表示LD和CD執(zhí)行目標(biāo)任務(wù)效用函數(shù).
對(duì)于執(zhí)行通信服務(wù)任務(wù)的無(wú)人機(jī),無(wú)人機(jī)效用函數(shù)的設(shè)計(jì)同時(shí)考慮了目標(biāo)任務(wù)的滿意度和功率消耗.對(duì)于給定的通信目標(biāo)k,LD的效用函數(shù)可以表示為
Uk 0(p 0,p -0)=Uk 0(p 0,p -0)-Ck 0(p 0,p -0)=
11+exp(-αk 0(γk 0-βk 0))·v k-μ 0p 0.? (5)
該效用函數(shù)包含兩部分:第一部分為服務(wù)通信任務(wù)目標(biāo)對(duì)象的收益Uk 0(p 0,p -0) ,被建模為S型函數(shù),代表所服務(wù)通信目標(biāo)任務(wù)的滿意度;第二部分是代價(jià)函數(shù)Ck 0(p 0,p -0),表示動(dòng)態(tài)的功率開(kāi)銷(xiāo),其中的參數(shù)α 0和β 0分別為S型函數(shù)的陡度和中心值.v k代表通信任務(wù)目標(biāo)k的價(jià)值.μ 0為常數(shù),用來(lái)權(quán)衡服務(wù)目標(biāo)的滿意度和功率能量消耗.當(dāng)給定CD i服務(wù)第k個(gè)通信任務(wù)目標(biāo)時(shí),其效用函數(shù)可以表示為
Uk i(p i,p -i)=Uk i(p i,p -i)-Ck i(p i,p -i)=
11+exp(-αk i(γk i+θk i-βk i))·v k-
μ ip i-λ ig i,0p i-κ ip i,0,? (6)
其中,CD i的收益函數(shù)部分同時(shí)考慮了服務(wù)通信任務(wù)目標(biāo)對(duì)象的滿意度和通信上傳的滿意度,θ為常數(shù),用于折中通信下行信噪比和上傳信噪比.此外α i和β i分別為函數(shù)陡度和中心值.CD i代價(jià)函數(shù)部分同時(shí)考慮了執(zhí)行目標(biāo)任務(wù)的功率消耗、上傳通信信息的功率消耗和下層CD i對(duì)上層LD通信服務(wù)的干擾懲罰.κ i表示上傳通信信息功率消耗系數(shù),λ i表示干擾懲罰參數(shù),用于調(diào)節(jié)跨層干擾對(duì)上層服務(wù)目標(biāo)的影響.當(dāng)CD i增加發(fā)射功率時(shí),服務(wù)任務(wù)目標(biāo)對(duì)象的滿意度增加,同時(shí)將會(huì)對(duì)上層LD帶來(lái)更高的跨層干擾,影響LD服務(wù)任務(wù)目標(biāo)的QoS,因此CD i需要進(jìn)行折中優(yōu)化.
對(duì)于執(zhí)行偵查服務(wù)任務(wù)的無(wú)人機(jī),無(wú)人機(jī)偵察效用函數(shù)的設(shè)計(jì)同樣包括目標(biāo)任務(wù)的滿意度和功率消耗兩部分.偵察目標(biāo)任務(wù)調(diào)度中,每一架無(wú)人機(jī)對(duì)各個(gè)任務(wù)目標(biāo)的分辨率為定值,構(gòu)建分辨率矩陣.給定LD服務(wù)偵察任務(wù)目標(biāo)時(shí),其偵察效用函數(shù)可以表示為
Ux 0=Ux 0-Cx 0=
v x1+exp-αx 0 rx 0dx 0 ·p′ 0-βx 0 -δ 0p′ 0. (7)
該效用函數(shù)包括兩個(gè)部分,Ux 0 表示服務(wù)偵察任務(wù)目標(biāo)的收益,Cx 0 表示服務(wù)偵察目標(biāo)的代價(jià),即LD圖像識(shí)別的功率消耗.其中,rx 0 為L(zhǎng)D對(duì)任務(wù)目標(biāo)的分辨率,dx 0 為L(zhǎng)D與任務(wù)目標(biāo)距離,偵察收益建模為S型函數(shù),δ 0為圖像識(shí)別功率消耗比例常數(shù).當(dāng)給定CD i服務(wù)偵察任務(wù)目標(biāo)x時(shí),其偵察效用函數(shù)可以表示為
Ux i=Ux i-Cx i=
v x1+exp-αx i rx idx i τx i p′ i-βx i -
ig i,0(1-τ i)p′ i-δ iτ ip′ i,? (8)
其中代價(jià)函數(shù)部分同時(shí)考慮了圖像上傳的功率消耗和LD識(shí)別的功率消耗,p′ i 為每個(gè)CD i進(jìn)行偵察任務(wù)的總功率,τ i用于識(shí)別計(jì)算處理的功率比例,1-τ i表示識(shí)別完成后偵察信息上傳功率消耗比例, i為偵察信息上傳干擾懲罰參數(shù),用來(lái)權(quán)衡偵察信息上傳對(duì)領(lǐng)頭無(wú)人機(jī)產(chǎn)生的干擾,δ i為常數(shù),權(quán)衡CD i用于拍照的功率消耗,默認(rèn)δ 0=δ i.
2 斯坦伯格均衡求解
定義符號(hào)Φ i={p i,c i},Φ -i={Φ 0,Φ 1,…,Φ i-1,Φ i+1,…,Φ N},Φ m={Φ 1,Φ 2,…,Φ N}.
定義1 (斯坦伯格均衡,Stackelberg Equilibrium,SE)[18] Φ* 0 表示上層博弈最大化效用函數(shù)的最佳相應(yīng)策略,Φ* m 表示下層博弈的最佳響應(yīng)策略.對(duì)于任意的策略組合,均滿足以下條件:
U 0(Φ* 0,Φ* m)≥U 0(Φ 0,Φ* m),? (9)
U i(Φ* i,Φ* -i)≥U i(Φ i,Φ* -i).? (10)
(Φ* 0,Φ* m)稱(chēng)為斯坦伯格均衡.LD最優(yōu)策略由下層博弈最佳響應(yīng)策略給定,最大化自身效用函數(shù)求解.同理,CD的最優(yōu)策略是由給定上層博弈的最佳相應(yīng)策略,最大化自身效用函數(shù)求解.通過(guò)逆向遞推法尋求上下兩層子博弈的均衡,如圖2所示.
2.1 下層均衡求解
給定上層LD的任務(wù)目標(biāo)選擇和發(fā)射功率,每一個(gè)CD獨(dú)立地選擇最佳策略來(lái)最大化自身效用函數(shù),因此,下層子博弈定義為
G={A,{Φ i} i∈A,{U i} i∈A}.? (11)
定理1 給定其他無(wú)人機(jī)的策略Φ -i,CD i最優(yōu)的通信任務(wù)目標(biāo)選擇:
t* i=arg maxg i,kIk i(p -i)+θε ig i,0Ik i(p -i,0)v k.? (12)
證明 當(dāng)給定其他無(wú)人機(jī)策略Φ -i,令p i,0=ε ip i,Λ i=g i,kIk i(p -i)+θε ig i,0Ik i(p -i,0),CD i服務(wù)于任意兩個(gè)通信任務(wù)目標(biāo)k和l,假定Λk i≥Λl i,v k≥v l,顯然,γk i+θk i≥γl i+θl i,然后計(jì)算服務(wù)不同任務(wù)目標(biāo)的效用差值為
Uk i-Ul i=Uk i-Ul i=
v k1+exp(-α i(γk i+θk i-β i))-
v l1+exp(-α i(γl i+θl i-β i))≥0. (13)
因此,CD i最優(yōu)通信任務(wù)目標(biāo)t* i=arg maxg i,kIk i(p -i)+θε ig i,0Ik i(p -i,0)v k,定理1得證.
CD i通過(guò)定理1確定最優(yōu)通信任務(wù)目標(biāo),然后進(jìn)一步優(yōu)化發(fā)射功率最大化效用函數(shù).為方便求解,令Γ i=γt i i+θt i i,pt i i,0=ε ipt i i,其Ut i i 對(duì)p i求偏導(dǎo)得:
dUt i idp i=Ut i i ′(Γ i)d(Γ i)dp i-dC idp i.? (14)
令dUt i idp i=0,即得:
Ut i i ′(Γ i)d(Γ i)dp i=dC idp i.? (15)
令g i,t iIt i i(Φ -i)+θε ig i,0It i i(Φ -i,0)=1B i,即得:
Ut i i ′(Γ i)=(μ i+κ iε i+λ ig i,0)×B i.? (16)
令Ψ(Γ i)=Ut i i ′(Γ i),可得:
Γ i=Ψ-1[Ut i i ′(Γ i)]=? Ψ-1[(μ i+κ iε i+λ ig i,0)×B i].(17)
S型函數(shù)倒數(shù)滿足以下關(guān)系:
Ut i i ′(Γ i)=α iUt i i(Γ i)[1-Ut i i(Γ i)].(18)
根據(jù)式(16)和式(18)可得:
p* i=B iβ i-B iα i×lnA i2-1-A i2-12-1,? (19)
其中A i=α i×v t i(μ i+κ iε i+λ ig i,0)×B i.下層調(diào)度通信任務(wù)目標(biāo)和上傳信息總信噪比和為
Γ i=β i-1α i×lnA i2-1-A i2-12-1.(20)
CD的通信效用函數(shù)即可轉(zhuǎn)化為
Ut i i(Γ i)=v t i1+exp(-α i(Γ i-β i))-? (μ i+κ iε i+λ ig i,0)·B i·Γ i.? (21)
通過(guò)式(18)和代價(jià)直線是一條過(guò)原點(diǎn)的切線[19]可得:
U′ i(Γ i)Γ i=U i(Γ i).(22)
經(jīng)過(guò)運(yùn)算參數(shù)β i可以設(shè)置如下:
β i=Γ i-ln(α iΓ i-1)α i.? (23)
同理,令p′ i=p i,偵察效用值由式(8)求得,比較所有偵察任務(wù)目標(biāo)效用值,選擇最優(yōu)偵察任務(wù)目標(biāo)x* i.若效用值為負(fù),此時(shí)p′ i=0,選擇放棄該任務(wù)目標(biāo)的偵察任務(wù).分析通信偵察效用值,確定最優(yōu)的任務(wù)目標(biāo)選擇為c* i.假設(shè)對(duì)于任意的i,B i·Ψ-1[(μ i+κ iε i+λ ig i,0)×B i]在區(qū)間[L i,H i]上為增函數(shù),其中g(shù) i,t iIt i i(Φ -i)+θε ig i,0It i i(Φ -i,0)=1B i,L i=min[L1 i,L2 i,…,Lm i],H i=max[H1 i,H2 i,…,Hm i].下層迭代中CD的功率控制形式為pt* i i(k+1)=min[p1 i(k+1),p2 i(k+1),…,pm i(k+1)],其中pt i i(k+1)=Ft i i(p(k)).令F i(p(k))=min[F1 i(p(k)),F(xiàn)2 i(p(k)),…,F(xiàn)m i(p(k))],最終功率更新迭代和服務(wù)任務(wù)目標(biāo)迭代策略為
p* i(k+1)=F i(p(k)),? (24)
c* i(k+1)=arg max(Ut* i i,Ux* i i).? (25)
下層博弈中,上述任務(wù)目標(biāo)選擇和策略更新迭代過(guò)程最終收斂在唯一的納什均衡點(diǎn).下面引入標(biāo)準(zhǔn)干擾函數(shù)相關(guān)內(nèi)容輔助證明.
定義2(唯一性證明)[20] 如果函數(shù)F(p)滿足以下條件,則該函數(shù)為標(biāo)準(zhǔn)干擾函數(shù):
1)非負(fù)性:F(p)>0;
2)單調(diào)性:對(duì)于任意p1>p2,則F(p1)>F(p2);
3)伸縮性:對(duì)于任意τ>1,則τF(p)>F(τp).
如果函數(shù)F1(p)和F2(p)為標(biāo)準(zhǔn)干擾函數(shù),其組合函數(shù)也必然滿足標(biāo)準(zhǔn)函數(shù)特性;如果博弈參與者最佳響應(yīng)函數(shù)為標(biāo)準(zhǔn)干擾函數(shù),則該博弈必然存在唯一的納什均衡解.
定理2 下層博弈中CD服務(wù)通信任務(wù)目標(biāo)的功率迭代更新為標(biāo)準(zhǔn)干擾函數(shù),即p* i(k+1)=F i(p(k)),將從任意可行的初始值收斂到唯一的納什均衡點(diǎn).
證明 對(duì)于CD i中任意一個(gè)任務(wù)目標(biāo)t i,即pt i i=Ft i i(p),則有
Ft i i(p)=B i·Γ i=B i·Ψ-1[(μ i+κ iε i+λ ig i,0)×B i],
其中g(shù) i,t iIt i i(Φ -i)+θε ig i,0It i i(Φ -i,0)=1B i.下層CD策略調(diào)整時(shí),由于上層LD的策略是固定不變的,下層其他CD的策略也不會(huì)影響當(dāng)前CD策略,只受其余CD發(fā)射功率的影響,因此It i i(Φ -i)=It i i(p -i).
1)非負(fù)性:由于背景噪聲非零,因此B i>0,非負(fù)性滿足條件.
2)單調(diào)性:如果p1>p2,則It i i(p1 -i)>It i i(p2 -i),It i i(p1 -i,0)>It i i(p2 -i,0),因?yàn)楹瘮?shù)B i·Ψ-1[(μ i+κ iε i+λ ig i,0)×B i]在區(qū)間[L i,H i]上為增函數(shù),其中L i=min[L1 i,L2 i,…,Lm i],H i=max[H1 i,H2 i,…,Hm i],因此Ft i i(p1)>Ft i i(p2),單調(diào)性滿足條件.
3)伸縮性:對(duì)于任意τ>1,則有
Fm i(τp)-τFm i(p)=
1η 1·Ψ-1ω×1η 1-τ1η 2·Ψ-1ω×1η 2<
1η 1·Ψ-1ω×1η 2-τ1η 2·Ψ-1ω×1η 2<0,
其中η 1=g i,mIm i(τp -i)+θε ig i,0Im i(τp -i,0),η 2=g i,mIm i(p -i)+θε ig i,0Im i(p -i,0),ω=μ i+κ iε i+λ ig i,0.因此,伸縮性滿足條件.故pt i i(k+1)=Ft i i(p(k))為標(biāo)準(zhǔn)干擾函數(shù).假定第k+1次迭代,服務(wù)的通信任務(wù)目標(biāo)為t* i(k+1),功率更新迭代可得:
pt* i i(k+1)=min[p1 i(k+1),p2 i(k+1),…,pm i(k+1)]=
min[F1 i(p(k)),F(xiàn)2 i(p(k)),…,F(xiàn)m i(p(k))].
因F1 i(p(k)),F(xiàn)2 i(p(k)),…,F(xiàn)m i(p(k))均為標(biāo)準(zhǔn)干擾函數(shù),由此可得pt* i i(k+1)=F i(p(k))為標(biāo)準(zhǔn)干擾函數(shù),下層子博弈迭代更新函數(shù)必然存在唯一的納什均衡解,得證.
2.2 上層均衡求解
上層子博弈定義為
G={{0},{Φ 0},{U 0}}, (26)
則其LD最優(yōu)的通信任務(wù)目標(biāo)選擇為
t* 0=arg maxg 0,kIk 0(p -0)·v k. (27)
同理,進(jìn)一步優(yōu)化發(fā)射功率最大化效用函數(shù)可得:
p* 0=B 0γ 0=B 0β 0-B 0α 0×lnA 02-1-A 02-12-1, (28)
Ut 0 0(Γ 0)=v t 01+exp(-α 0(γ 0-β 0))-μ 0·B 0·γ 0, (29)
其中B 0=Ik 0(p -0)g 0,k,A 0=α 0·v t 0μ 0·B 0.上層偵察任務(wù)目標(biāo)效用值由式(7)求得,比較所有偵察任務(wù)效用值,選擇最優(yōu)偵察任務(wù)目標(biāo)x* 0.類(lèi)似于下層子博弈的迭代更新,LD的功率迭代更新為
pt* 0 0(k+1)=min[p1 0(k+1),p2 0(k+1),…,pm 0(k+1)]=
min[F1 0(p(k)),F(xiàn)2 0(p(k)),…,F(xiàn)m 0(p(k))].? (30)
因此,LD服務(wù)任務(wù)目標(biāo)和功率更新策略為
p* 0(k+1)=F 0(p(k)),? (31)
c* 0(k+1)=arg max(Ut* 0 0,Ux* 0 0).(32)
3 算法流程
子博弈循環(huán)采用一般迭代算法求解,達(dá)到斯坦伯格均衡迭代結(jié)束,上下層目標(biāo)任務(wù)分配不再改變.具體流程如圖3所示.
4 仿真分析
對(duì)于無(wú)人機(jī)位置、無(wú)人機(jī)所服務(wù)的通信和偵察任務(wù)目標(biāo)個(gè)數(shù)、通信和偵察任務(wù)目標(biāo)價(jià)值等信息構(gòu)建場(chǎng)景進(jìn)行仿真分析,同時(shí)通過(guò)調(diào)整無(wú)人機(jī)位置,設(shè)定不同場(chǎng)景對(duì)上下層博弈交互進(jìn)行迭代更新,驗(yàn)證算法的收斂性.
4.1 參數(shù)設(shè)置
場(chǎng)景設(shè)置參數(shù)如下:LD可服務(wù)任務(wù)目標(biāo)區(qū)域半徑為500 m,10個(gè)CD隨機(jī)分布在LD調(diào)度范圍內(nèi),其可服務(wù)任務(wù)目標(biāo)半徑為80 m,通信和偵察任務(wù)隨機(jī)分布在LD和CD服務(wù)范圍內(nèi).LD可服務(wù)的通信任務(wù)目標(biāo)和偵察任務(wù)目標(biāo)均為3個(gè). CD可服務(wù)的通信和偵察任務(wù)目標(biāo)個(gè)數(shù)分別依次為4、5、4、5、4、4、5、3、4、3和3、4、2、4、3、2、4、1、2、2.LD所服務(wù)的通信和偵察任務(wù)目標(biāo)價(jià)值v=1,CD所服務(wù)的通信和偵察任務(wù)目標(biāo)價(jià)值相對(duì)較低,取值在[0.9,0.95]內(nèi)隨機(jī)生成. 其中CD i到任務(wù)目標(biāo)j的信道增益g i,j=d-2 i,j,d-2 i,j表示對(duì)應(yīng)的距離,信號(hào)衰減為25 dB.LD所服務(wù)通信任務(wù)目標(biāo)信噪比為γ 0=30 dB,CD所服務(wù)通信任務(wù)目標(biāo)的信噪比和上傳信噪比均在[10,20]dB內(nèi)隨機(jī)生成.噪聲功率σ2=10-8 mW.參數(shù)α i=0.2,θ=1,β i由式(23)確定.通信干擾懲罰和干擾代價(jià)參數(shù)設(shè)置為λ i=108,μ i=1,上傳功率消耗參數(shù)為κ i=1.偵察任務(wù)中LD識(shí)別圖像功率消耗δ 0=1,CD識(shí)別圖像功率消耗δ i=1,上傳干擾懲罰和上傳功率比例參數(shù)設(shè)置為 i=108,τ i=0.6.表1中給出了LD和CD對(duì)偵察任務(wù)目標(biāo)對(duì)象的分辨率大?。鲜鰠?shù)在后面仿真中均保持不變.圖4中給出兩種無(wú)人機(jī)不同位置下的仿真場(chǎng)景.
4.2 結(jié)果分析
圖5給出了場(chǎng)景1和場(chǎng)景2中相應(yīng)的LD和CD的效用迭代更新曲線,每一輪迭代15次,共設(shè)置20輪,橫坐標(biāo)為迭代輪數(shù),縱坐標(biāo)為各無(wú)人機(jī)效用值.給定上層的目標(biāo)任務(wù)選擇后,下層為滿足通信任務(wù)目標(biāo)的最小信噪比需求進(jìn)而優(yōu)化最小的發(fā)射功率,在每一輪的15次迭代的過(guò)程中,由于功率在增大,各協(xié)同無(wú)人機(jī)之間的同層干擾逐漸增大,需要不斷地增大功率滿足信噪比需求,不斷迭代直至下層穩(wěn)定.上層迭代過(guò)程中,由于協(xié)同無(wú)人機(jī)的功率在增大,跨層干擾在增大,領(lǐng)頭無(wú)人機(jī)需要增大發(fā)射功率滿足自身的信噪比需求,直至上層穩(wěn)定.結(jié)合圖6中場(chǎng)景1和場(chǎng)景2中相應(yīng)的LD和CD的各輪目標(biāo)的迭代變化曲線,分析得出效用曲線中的轉(zhuǎn)折點(diǎn)為無(wú)人機(jī)依據(jù)效用值的變化選擇偵察任務(wù)目標(biāo).從效用的更新曲線來(lái)看,上下層博弈交互迭代后最終均能夠達(dá)到收斂狀態(tài),驗(yàn)證了所提算法的收斂性能.
表2中給出了上下層子博弈達(dá)到斯坦伯格均衡時(shí)無(wú)人機(jī)最優(yōu)通信和偵察任務(wù)分配結(jié)果.各無(wú)人機(jī)能夠自主進(jìn)行服務(wù)通信或偵察目標(biāo)優(yōu)化分配.其中,T u,0為領(lǐng)頭無(wú)人機(jī)通信任務(wù)目標(biāo),T z,0為領(lǐng)頭無(wú)人機(jī)偵察任務(wù)目標(biāo),T u,1~T u,10為各協(xié)同無(wú)人機(jī)的通信任
務(wù)目標(biāo),T z,1~T z,10為各協(xié)同無(wú)人機(jī)的偵察任務(wù)目標(biāo)(以T u,0=1為例,表示領(lǐng)頭無(wú)人機(jī)均衡下選擇1號(hào)通信任務(wù)目標(biāo)).
4.3 系統(tǒng)效用對(duì)比
圖7a與7b中給出了任務(wù)目標(biāo)調(diào)度過(guò)程中聯(lián)合考慮通信和偵察任務(wù)、只考慮通信任務(wù)和只考慮偵察任務(wù)三種狀態(tài)下的系統(tǒng)效用值變化.在所用算法下,考慮通信任務(wù)的收益由于需要滿足信噪比需求,功率增大過(guò)程中同層和跨層干擾在增大,使得在決策過(guò)程中效用值呈現(xiàn)下降的趨勢(shì).可以看出,上下層博弈最終收斂至均衡點(diǎn),所用算法的系統(tǒng)效用值均大于只考慮通信或者偵察單個(gè)指標(biāo).圖7c與7d中聯(lián)合考慮通信偵察任務(wù)下依據(jù)所用算法、最大任務(wù)目標(biāo)價(jià)值和隨機(jī)決策三種方法進(jìn)行任務(wù)目標(biāo)選擇,橫坐標(biāo)為迭代輪數(shù),縱坐標(biāo)為系統(tǒng)效用值,可以看出,所用算法系統(tǒng)效用值均大于依據(jù)最大價(jià)值選擇和隨機(jī)決策兩種方法,并能夠有效提高多無(wú)人機(jī)系統(tǒng)的整體效用.
圖8分別給出了8、9、10、11、12、13架協(xié)同無(wú)人機(jī)情況下系統(tǒng)的效用值對(duì)比.協(xié)同無(wú)人機(jī)數(shù)量的改變構(gòu)成不同的場(chǎng)景,可以看出,上下層博弈交互迭代達(dá)到斯坦伯格均衡后,聯(lián)合考慮通信偵察任務(wù)的效用值均大于考慮通信或者偵察單個(gè)指標(biāo)情況.
5 結(jié)束語(yǔ)
多無(wú)人機(jī)通信和偵察任務(wù)分配在無(wú)人集群網(wǎng)絡(luò)優(yōu)化中具有重要的研究意義.本文聚焦于無(wú)人機(jī)網(wǎng)絡(luò)中目標(biāo)調(diào)度和功率控制的聯(lián)合優(yōu)化,利用分層博弈框架分析領(lǐng)頭無(wú)人機(jī)和協(xié)同無(wú)人機(jī)的決策行為,采用分布式策略迭代更新算法求解Stackelberg均衡,實(shí)現(xiàn)無(wú)人機(jī)最優(yōu)目標(biāo)任務(wù)調(diào)度.對(duì)多個(gè)場(chǎng)景進(jìn)行仿真分析,驗(yàn)證了所提算法能夠在多無(wú)人機(jī)系統(tǒng)中實(shí)現(xiàn)分布式任務(wù)分配的收斂和系統(tǒng)穩(wěn)定,并有效提高了多無(wú)人機(jī)系統(tǒng)遂行任務(wù)的整體效用.
參考文獻(xiàn)
References
[1] 宗群,王丹丹,邵士凱,等.多無(wú)人機(jī)協(xié)同編隊(duì)飛行控制研究現(xiàn)狀及發(fā)展[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào),2017,49(3):1-14
ZONG Qun,WANG Dandan,SHAO Shikai,et al.Research status and development of multi UAV coordinated formation flight control[J].Journal of Harbin Institute of Technology,2017,49(3):1-14
[2] 張可為,趙曉林,李宗哲,等.多無(wú)人機(jī)偵察任務(wù)分配方法研究綜述[J].電光與控制,2021,28(7):68-72,82
ZHANG Kewei,ZHAO Xiaolin,LI Zongzhe,et al.A review of multi-UAV reconnaissance mission assignment methods[J].Electronics Optics & Control,2021,28(7):68-72,82
[3] Zhang L,Zhu Y A,Shi X C.A hierarchical decision-making method with a fuzzy ant colony algorithm for mission planning of multiple UAVs[J].Information,2020,11(4):226
[4] Huang T Y,Wang Y,Cao X W,et al.Multi-UAV mission planning method[C]//2020 3rd International Conference on Unmanned Systems(ICUS).November 27-28,2020,Harbin,China.IEEE,2020:325-330
[5] Du X Y,Guo Q C,Li H,et al.Multi-UAVs cooperative task assignment and path planning scheme[J].Journal of Physics:Conference Series,2021,1856(1):012016
[6] 趙雪森,王社偉,邵校.基于改進(jìn)量子粒子群優(yōu)化算法的多UCAV協(xié)同任務(wù)分配研究[J].四川兵工學(xué)報(bào),2015,36(10):120-124
ZHAO Xuesen,WANG Shewei,SHAO Xiao.Cooperative task allocation for multiple UCAV based on improved quantum-behaved particle swarm optimization algorithm[J].Journal of Sichuan Ordnance,2015,36(10):120-124
[7] 唐峯竹,唐欣,李春海,等.基于深度強(qiáng)化學(xué)習(xí)的多無(wú)人機(jī)任務(wù)動(dòng)態(tài)分配[J].廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2021,39(6):63-71
TANG Fengzhu,TANG Xin,LI Chunhai,et al.Dynamic task allocation method for UAVs based on deep reinforcement learning[J].Journal of Guangxi Normal University(Natural Science Edition),2021,39(6):63-71
[8] 王樹(shù)朋,徐旺,劉湘德,等.基于自適應(yīng)遺傳算法的多無(wú)人機(jī)協(xié)同任務(wù)分配[J].電子信息對(duì)抗技術(shù),2021,36(1):59-64
WANG Shupeng,XU Wang,LIU Xiangde,et al.Cooperative task assignment for multi-UAV based on adaptive genetic algorithm[J].Electronic Warfare Technology,2021,36(1):59-64
[9] Quan B,Lu X M,Zhang Y M,et al.A multi-objective tracking task assignment algorithm based on game theory[J].Journal of Physics:Conference Series,2021,1802(3):032115
[10] Fu X W,Pan J,Gao X G,et al.Task allocation method for multi-UAV teams with limited communication bandwidth[C]//2018 15th International Conference on Control,Automation,Robotics and Vision(ICARCV).November 18-21,2018,Singapore.IEEE,2018:1874-1878
[11] 邸斌,周銳,丁全心.多無(wú)人機(jī)分布式協(xié)同異構(gòu)任務(wù)分配[J].控制與決策,2013,28(2):274-278
DI Bin,ZHOU Rui,DING Quanxin.Distributed coordinated heterogeneous task allocation for unmanned aerial vehicles[J].Control and Decision,2013,28(2):274-278
[12] 嵇介曲,朱琨,易暢言,等.多無(wú)人機(jī)輔助移動(dòng)邊緣計(jì)算中的任務(wù)卸載和軌跡優(yōu)化[J].物聯(lián)網(wǎng)學(xué)報(bào),2021,5(1):27-35
JI Jiequ,ZHU Kun,YI Changyan,et al.Joint task offloading and trajectory optimization for multi-UAV assisted mobile edge computing[J].Chinese Journal on Internet of Things,2021,5(1):27-35
[13] 陳璞,嚴(yán)飛,劉釗,等.通信約束下異構(gòu)多無(wú)人機(jī)任務(wù)分配方法[J].航空學(xué)報(bào),2021,42(8):306-319
CHEN Pu,YAN Fei,LIU Zhao,et al.Communication-constrained task allocation of heterogeneous UAVs[J].Acta Aeronautica et Astronautica Sinica,2021,42(8):306-319
[14] 潘楠,劉海石,陳啟用,等.多基地多目標(biāo)無(wú)人機(jī)協(xié)同任務(wù)規(guī)劃算法研究[J].現(xiàn)代防御技術(shù),2021,49(2):49-56
PAN Nan,LIU Haishi,CHEN Qiyong,et al.Study on cooperative mission planning algorithm for multi-base and multi-target UAV[J].Modern Defense Technology,2021,49(2):49-56
[15] 蔣碩,袁小平.改進(jìn)PSO算法在多無(wú)人機(jī)協(xié)同任務(wù)分配中的應(yīng)用[J].計(jì)算機(jī)應(yīng)用研究,2019,36(11):3344-3347,3360
JIANG Shuo,YUAN Xiaoping.Application of improved PSO algorithm in multi UAV cooperative task allocation[J].Application Research of Computers,2019,36(11):3344-3347,3360
[16] Chen R F,Cui L,Zhang Y L,et al.Delay optimization with FCFS queuing model in mobile edge computing-assisted UAV swarms:a game-theoretic learning approach[C]//2020 International Conference on Wireless Communications and Signal Processing(WCSP).October 21-23,2020,Nanjing,China.IEEE,2020:245-250
[17] Buckman N,Choi H L,How J P.Partial replanning for decentralized dynamic task allocation[C]//AIAA Scitech 2019 Forum.San Diego,California.Reston,Virginia:AIAA,2019.DOI:10.2514/6.2019-0915
[18] 楊婷婷,宋緋,孫有銘,等.面向異構(gòu)無(wú)人機(jī)中繼網(wǎng)絡(luò)的負(fù)載均衡:一種分層博弈方法[J].通信技術(shù),2018,51(11):2619-2626
YANG Tingting,SONG Fei,SUN Youming,et al.Load balancing in heterogeneous UAV relay network:a Stackelberg game method[J].Communications Technology,2018,51(11):2619-2626
[19] Xiao M B,Shroff N B,Chong E K P.A utility-based power-control scheme in wireless cellular systems[J].IEEE/ACM Transactions on Networking,2003,11(2):210-221
[20] Sun Y M,Wang J L,Sun F G,et al.Energy-aware joint user scheduling and power control for two-tier femtocell networks:a hierarchical game approach[J].IEEE Systems Journal,2018,12(3):2533-2544
Multi-UAV cooperative task allocation for multi-point
reconnaissance and communication service
YAO Changhua1 AN Lei1 LIU Xin2 HAN Guizhen1 GAO Zehe1
1School of Electronics & Information Engineering,Nanjing University of Information Science & Technology,Nanjing 210044
2College of Information Science and Engineering,Guilin University of Technology,Guilin 541006
Abstract Aiming at the collaborative optimization of multi-UAV reconnaissance and communication service for multiple heterogeneous targets,the Stackelberg game model is constructed by considering the mission requirements and target values,as well as the restriction between multi-UAV coordination gain and task behavior.The upper-level drone is established as the leader of the game,while the lower-level drones are established as the followers of the game,and then a distributed strategy update iterative algorithm is proposed,which realizes the stable convergence of the multi-UAV task allocation scheme and the optimization of the task revenue.Simulation results show that the proposed approach can effectively improve the efficiency of multi-UAV systems to complete multiple tasks at the same time,and can achieve efficient collaboration for the values of heterogeneous tasks in different environments.
Key words multi-UAV system;task allocation;Stackelberg game;iterative algorithm