楊名宇, 王 浩, 王含宇
(中國(guó)科學(xué)院 長(zhǎng)春光學(xué)精密機(jī)械與物理研究所 中國(guó)科學(xué)院航空光學(xué)成像與測(cè)量重點(diǎn)實(shí)驗(yàn)室,吉林 長(zhǎng)春 130033)
近年來(lái),隨著無(wú)人機(jī)產(chǎn)業(yè)的迅猛發(fā)展和廣泛應(yīng)用,對(duì)全球低空安全管理造成了前所未有的嚴(yán)峻壓力,非法放飛無(wú)人機(jī)所帶來(lái)的安全隱患給機(jī)場(chǎng)、邊境、監(jiān)獄、重要敏感區(qū)域的低空防范敲響了警鐘,引發(fā)公眾高度關(guān)注。無(wú)人機(jī)的無(wú)序飛行時(shí)有發(fā)生,不僅嚴(yán)重?cái)_亂空域交通秩序,還會(huì)引發(fā)很多安全問(wèn)題。如在2018年底,英國(guó)西斯羅機(jī)場(chǎng)由于無(wú)人機(jī)的“黑飛”,使得機(jī)場(chǎng)關(guān)閉數(shù)天,滯留旅客上萬(wàn)人,造成巨大經(jīng)濟(jì)損失。目前,絕大部分無(wú)人機(jī)為受控狀態(tài),即無(wú)人機(jī)的購(gòu)買(mǎi)需要實(shí)名制,且每次飛行的航跡、時(shí)間、地點(diǎn)等信息通過(guò)GPS信號(hào)都可在監(jiān)管部門(mén)的后臺(tái)查詢到。在這種情況下,可以較為容易地鎖定每臺(tái)飛機(jī)以及飛機(jī)擁有者。上述受控監(jiān)管模式目前已能覆蓋大約90%以上的消費(fèi)級(jí)無(wú)人機(jī),剩余10%的無(wú)人機(jī)包括自行研發(fā)的、私自拆掉GPS模塊的等,則處于非受控狀態(tài),是低空防范的重點(diǎn)和難點(diǎn)。如何對(duì)非受控的無(wú)人機(jī)目標(biāo)進(jìn)行檢測(cè)、識(shí)別與跟蹤,是當(dāng)前全世界各國(guó)普遍存在的難題[1-2]。
當(dāng)前,無(wú)人機(jī)防范常用手段主要包括:光電探測(cè)、無(wú)線電探測(cè)、聲學(xué)探測(cè)、雷達(dá)探測(cè)等[3]。光電探測(cè)主要利用光學(xué)設(shè)備通過(guò)成像的方式判斷目標(biāo)是否存在,具有直觀、易讀等優(yōu)點(diǎn),但通常作用距離較小,且探測(cè)效率較低,距離實(shí)際工程應(yīng)用尚有差距[4-9]。無(wú)線電干擾主要通過(guò)特定頻段的無(wú)線電波阻斷無(wú)人機(jī)和飛行控制器之間的無(wú)線鏈路,使飛行控制器無(wú)法向無(wú)人機(jī)發(fā)送信號(hào)。但此方法并不是對(duì)于所有型號(hào)的無(wú)人機(jī)都適用(如大疆的云哨系統(tǒng),該系統(tǒng)只對(duì)大疆旗下的無(wú)人機(jī)有效),同時(shí),可視化程度差。聲學(xué)探測(cè)通常用于大型無(wú)人機(jī)等的探測(cè),在城市環(huán)境下使用時(shí)易受到背景噪聲干擾。雷達(dá)探測(cè)可同時(shí)獲得目標(biāo)的位置、速度等信息,但是對(duì)于民用無(wú)人機(jī)而言,其雷達(dá)散射面積較小,同時(shí)無(wú)人機(jī)飛行高度較低、飛行速度較慢、體積較小,即“低慢小”,對(duì)于此類(lèi)目標(biāo),雷達(dá)探測(cè)存在效能不足等問(wèn)題。
針對(duì)現(xiàn)有光電探測(cè)手段存在的不足,本文搭建了一套由轉(zhuǎn)臺(tái)、高清可見(jiàn)光相機(jī)、圖像采集與處理設(shè)備組成的地面式無(wú)人機(jī)探測(cè)與跟蹤系統(tǒng),在YOLOv3模型基礎(chǔ)上增加了更小尺度特征,并提出一種基于更小尺度的YOLOv3與KCF相結(jié)合的模型。實(shí)驗(yàn)結(jié)果表明,所提方法可以對(duì)無(wú)人機(jī)目標(biāo)實(shí)現(xiàn)全自動(dòng)式檢測(cè)與跟蹤,且遠(yuǎn)距離小目標(biāo)識(shí)別率比原始YOLOv3模型高5%。對(duì)于1 280×720分辨率的動(dòng)態(tài)視頻,每幀檢測(cè)時(shí)間為0.025~0.030 s,且根據(jù)選定的閾值,當(dāng)無(wú)人機(jī)目標(biāo)丟失后可重新進(jìn)行檢測(cè),每幀跟蹤時(shí)間為0.010~0.012 s,驗(yàn)證了所提方法的有效性,并可滿足工程應(yīng)用中對(duì)實(shí)時(shí)處理的需求。
深度學(xué)習(xí)的概念是Hinton等人于2006年首次提出的[10],其從一問(wèn)世就備受學(xué)術(shù)界關(guān)注,原因在于相比于其他方法與結(jié)構(gòu),多隱層的人工神經(jīng)網(wǎng)絡(luò)能夠更好地模擬人腦的思考過(guò)程,具有更加優(yōu)異的學(xué)習(xí)及泛化能力,能夠更有效、更本質(zhì)地對(duì)目標(biāo)的特征進(jìn)行提取與描述,從而提升對(duì)各類(lèi)目標(biāo)的分類(lèi)與識(shí)別能力。
卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)中第一個(gè)真正多層結(jié)構(gòu)學(xué)習(xí)算法,其在圖像識(shí)別領(lǐng)域優(yōu)勢(shì)明顯。它利用感受野局部連接等概念極大地減少了參數(shù)量,降低了網(wǎng)絡(luò)模型的復(fù)雜度,提高了訓(xùn)練效率,且網(wǎng)絡(luò)對(duì)于平移、縮放的各種變形都具備較高的不變性[11-12]。一個(gè)卷積神經(jīng)網(wǎng)絡(luò)通常包括卷積、降采樣、激活、池化以及全連接等操作,卷積層和降采樣層實(shí)現(xiàn)對(duì)目標(biāo)低層特征的提取,通過(guò)多個(gè)卷積層來(lái)模擬人腦感知視覺(jué)信號(hào)的逐層處理機(jī)制;激活主要實(shí)現(xiàn)非線性變換,常用Sigmoid、ReLU等非線性函數(shù)實(shí)現(xiàn);池化操作主要實(shí)現(xiàn)高層特征的提取,全連接實(shí)現(xiàn)對(duì)目標(biāo)最終的分類(lèi)[13]。
目前,各類(lèi)開(kāi)源的深度學(xué)習(xí)數(shù)據(jù)集中客機(jī)、直升機(jī)等類(lèi)圖像較多,無(wú)人機(jī)類(lèi)圖像較少。此外,在進(jìn)行地面式無(wú)人機(jī)防范時(shí),地面探測(cè)系統(tǒng)對(duì)于空中無(wú)人機(jī)的觀測(cè)視角應(yīng)為仰視,現(xiàn)有數(shù)據(jù)集中包含的無(wú)人機(jī)類(lèi)圖像多為平視,直接使用開(kāi)源數(shù)據(jù)集中的圖像可能會(huì)導(dǎo)致漏檢情況發(fā)生。因此,無(wú)人機(jī)類(lèi)目標(biāo)圖像需要通過(guò)自行拍攝獲得。
本文利用轉(zhuǎn)臺(tái)、高清可見(jiàn)光相機(jī)及無(wú)人機(jī)進(jìn)行圖像數(shù)據(jù)獲取,如圖1所示。
圖1 轉(zhuǎn)臺(tái)及高清可見(jiàn)光相機(jī)實(shí)物圖Fig.1 Picture of turntable and HD camera
其中,轉(zhuǎn)臺(tái)可以水平360°旋轉(zhuǎn),俯仰方向?yàn)?°~+90°。高清可見(jiàn)光相機(jī)分辨率為1 280×720(720 P),變焦鏡頭焦距為20~700 mm,視場(chǎng)角為1.02°~34.68°。采用的無(wú)人機(jī)包括大疆御Pro、大疆精靈3、諾巴曼X18W等在內(nèi)的4個(gè)品牌共計(jì)6種機(jī)型,分別在不同尺度、光照、背景、仰角、姿態(tài)下進(jìn)行拍攝,通過(guò)預(yù)處理之后共獲得無(wú)人機(jī)目標(biāo)圖像40 000張。
圖2為大疆御Pro無(wú)人機(jī)實(shí)物,由機(jī)身和4個(gè)旋翼組成,其中,機(jī)身尺寸為190 mm(長(zhǎng)) ×85 mm(寬) ×55 mm(高),相鄰旋翼長(zhǎng)度為240 mm,對(duì)角旋翼長(zhǎng)度約為350 mm,參考方磚尺寸為600 mm×600 mm。
圖2 大疆御Pro無(wú)人機(jī)實(shí)物圖Fig.2 Picture of DJI Mavic Pro
將大疆御Pro無(wú)人機(jī)看作邊長(zhǎng)為240 mm的正方形,且無(wú)人機(jī)識(shí)別時(shí)按30個(gè)像素計(jì)算,通過(guò)幾何光學(xué)可得最遠(yuǎn)探測(cè)距離為1.6 km。但在鏡頭最長(zhǎng)焦距時(shí),視場(chǎng)角僅為0.51°,在此視場(chǎng)下進(jìn)行目標(biāo)跟蹤是不現(xiàn)實(shí)的。為了兼顧探測(cè)視場(chǎng)和目標(biāo)大小,實(shí)際最遠(yuǎn)可用的作用距離在1 km左右。
將采集到的總樣本數(shù)40 000幀中包含無(wú)人機(jī)目標(biāo)圖像的80%(32 000幀)作為訓(xùn)練集,剩余20%(8 000幀)作為測(cè)試集。
3.2.1 目標(biāo)識(shí)別
綜合考慮識(shí)別精度與識(shí)別效率,本文選用YOLOv3模型進(jìn)行無(wú)人機(jī)目標(biāo)實(shí)時(shí)檢測(cè)與識(shí)別?;赮OLO模型的深度學(xué)習(xí)目標(biāo)識(shí)別技術(shù),可同時(shí)預(yù)測(cè)多個(gè)邊界框的位置和類(lèi)別,實(shí)現(xiàn)端到端(end to end)的目標(biāo)檢測(cè)和識(shí)別,即在輸入圖像運(yùn)行一次后即可獲得圖像中所有目標(biāo)的位置、其所屬類(lèi)別以及相應(yīng)的置信概率,速度明顯優(yōu)于其他同類(lèi)型算法模型[14]。
YOLOv3在原有的YOLO模型架構(gòu)中進(jìn)行了一些改進(jìn),通過(guò)調(diào)整模型結(jié)構(gòu)的大小來(lái)權(quán)衡速度與精度間的關(guān)系,如使用錨點(diǎn)框來(lái)預(yù)測(cè)邊界框、進(jìn)行多尺度預(yù)測(cè)、使用含有更多卷積層的Darknet-53基礎(chǔ)網(wǎng)絡(luò)、利用二元交叉熵?fù)p失函數(shù)(Binary Cross-entropy Loss)來(lái)進(jìn)行類(lèi)別預(yù)測(cè)等[15-16]。YOLOv3對(duì)輸入圖像進(jìn)行了5次降采樣,并分別在最后3次降采樣中對(duì)目標(biāo)進(jìn)行預(yù)測(cè)。最后3次降采樣包含了3個(gè)尺度目標(biāo)檢測(cè)的特征圖,其中13×13的特征圖負(fù)責(zé)預(yù)測(cè)較大目標(biāo),26×26的特征圖負(fù)責(zé)預(yù)測(cè)中等大小的目標(biāo),52×52的特征圖負(fù)責(zé)預(yù)測(cè)較小目標(biāo)[17-18]。
為了更遠(yuǎn)、更早地發(fā)現(xiàn)目標(biāo),增強(qiáng)模型對(duì)小目標(biāo)的識(shí)別能力,本文在YOLOv3模型基礎(chǔ)上,增加了更小的尺度特征104×104。具體做法為將YOLOv3網(wǎng)絡(luò)中的第109層與第11層進(jìn)行張量拼接,將拼接后的處理結(jié)果作為新的特征圖。
3.2.2 目標(biāo)跟蹤
跟蹤模型選用核相關(guān)濾波(Kernelized Correlation Filter, KCF)。相關(guān)濾波(Correlation Filter)是根據(jù)MOSSE、CSK等算法改進(jìn)而來(lái)的,最初起源于信號(hào)處理領(lǐng)域,后被運(yùn)用于圖像分類(lèi)等領(lǐng)域。相關(guān)濾波在目標(biāo)跟蹤方面最樸素的想法是:相關(guān)是用來(lái)衡量?jī)蓚€(gè)信號(hào)的相似程度,如果兩個(gè)信號(hào)越相似,那么其相關(guān)值就越高。具體來(lái)說(shuō),即利用一個(gè)目標(biāo)檢測(cè)器,使得當(dāng)它作用在跟蹤目標(biāo)上時(shí),得到的響應(yīng)最大,最大響應(yīng)值的位置就是目標(biāo)的位置。在KCF中,利用脊回歸函數(shù)來(lái)訓(xùn)練目標(biāo)檢測(cè)器。引入核函數(shù)的目的主要是將高維特征映射到低維空間,提高算法計(jì)算效率。
由于KCF中脊回歸函數(shù)的返回值表明的是當(dāng)前位置與初始位置的相關(guān)程度,因此可以通過(guò)實(shí)時(shí)計(jì)算該返回值來(lái)判斷目標(biāo)是否丟失。本文提出的無(wú)人機(jī)目標(biāo)識(shí)別與跟蹤算法總體流程如圖3所示。
圖3 算法總體流程圖Fig.3 Scheme of the proposed algorithm
這里,60%概率為經(jīng)驗(yàn)值,主要考慮到在實(shí)際應(yīng)用中,本著“寧虛勿漏”的原則以及小目標(biāo)與變形的情況,略大于50%概率即可認(rèn)為是“目標(biāo)”。在實(shí)際跟蹤過(guò)程中,不同背景、光照等條件下,脊回歸函數(shù)的返回值范圍一般不同,因此只能通過(guò)大量的試驗(yàn)來(lái)確定該值的范圍。本文通過(guò)大量室外試驗(yàn)得出,針對(duì)選擇的無(wú)人機(jī)目標(biāo)樣本,脊回歸函數(shù)的取值范圍在(0,0.85]之間。當(dāng)目標(biāo)丟失時(shí),其最大值小于0.2,所以將閾值T1設(shè)定為0.2。即當(dāng)某一時(shí)刻的脊回歸函數(shù)最大值小于0.2時(shí),重新進(jìn)行目標(biāo)檢測(cè),如此循環(huán),直至結(jié)束。
為了驗(yàn)證所提方法的有效性,利用測(cè)試集數(shù)據(jù)與視頻進(jìn)行了實(shí)驗(yàn)。開(kāi)發(fā)環(huán)境為Ubuntu16.04,開(kāi)發(fā)工具為QT5.9.2,程序用C++語(yǔ)言編寫(xiě),計(jì)算機(jī)CPU為Intel i7-7700K,內(nèi)存32 G,GPU為1塊Titan XP。計(jì)算機(jī)與轉(zhuǎn)臺(tái)、高清可見(jiàn)光相機(jī)之間的通訊通過(guò)RS232串口進(jìn)行。YOLOv3網(wǎng)絡(luò)的輸入大小共有320,416,608三種,考慮到無(wú)人機(jī)目標(biāo)本身較小以及訓(xùn)練圖像的大小,本文選用的網(wǎng)絡(luò)輸入大小為608。
在測(cè)試集8 000幀圖像中,目標(biāo)像素小于等于40×40的圖像共有1 200幀,YOLOv3模型正確識(shí)別無(wú)人機(jī)圖像數(shù)量為7 254,正確率為90.67%;增加更小特征尺度后正確識(shí)別無(wú)人機(jī)圖像數(shù)量為7 616,識(shí)別正確率為95.2%,相較于YOLOv3提高約5%。
在對(duì)兩段視頻的測(cè)試中,視頻1包含2 350幀,視頻2包含1 780幀,對(duì)于本文提出的基于更小特征尺度的YOLOv3+KCF模型,正確識(shí)別與跟蹤的總幀數(shù)分別為2 200和1 675,正確率分別為93.6%和 94.1%。對(duì)于分辨率為1 280×720圖像,單幀檢測(cè)時(shí)間為0.025~0.030 s,單幀跟蹤時(shí)間為0.010~0.012 s。
圖4為對(duì)較小目標(biāo)的檢測(cè)結(jié)果,其中圖4(a)目標(biāo)大小為40×35,圖4(b)目標(biāo)為30×28,單位為像素。可以看出,在目標(biāo)所占像素較少的情況下,增加了更小特征尺度的YOLOv3模型依然可以成功將無(wú)人機(jī)目標(biāo)檢測(cè)出來(lái);而限于目標(biāo)尺寸的影響,YOLOv3模型未能成功檢測(cè)到目標(biāo)。
圖4 較小目標(biāo)檢測(cè)結(jié)果Fig.4 Results for small UAV targets
圖5為視頻1的測(cè)試結(jié)果。圖5(a)為視頻第1幀,檢測(cè)到無(wú)人機(jī)并標(biāo)注為UAV。圖5(b)為第185幀圖像,當(dāng)前為跟蹤狀態(tài),標(biāo)注為“Tracking”。圖5(c)為第328幀,依舊處于跟蹤狀態(tài),目標(biāo)沒(méi)有丟失。圖5(d)為第800幀,由于背景變化較大,且目標(biāo)與背景顏色較為接近,本幀跟蹤時(shí)目標(biāo)丟失。實(shí)時(shí)計(jì)算此時(shí)的脊回歸函數(shù)f(z)為0.17,小于設(shè)定的閾值0.20,即認(rèn)為跟蹤目標(biāo)丟失,需重新進(jìn)行目標(biāo)檢測(cè)。圖5(e)為第801幀,重新進(jìn)行目標(biāo)檢測(cè)后,成功檢測(cè)到無(wú)人機(jī),并轉(zhuǎn)向跟蹤。圖5(f)為第926幀,當(dāng)前處于跟蹤狀態(tài),表明從第802幀開(kāi)始一直處于跟蹤狀態(tài),并正確跟蹤到無(wú)人機(jī)目標(biāo)。
圖5 視頻1測(cè)試結(jié)果Fig.5 Experiments for video1
圖6為視頻2的測(cè)試結(jié)果。圖6 (a)為視頻第1幀,檢測(cè)到無(wú)人機(jī)并標(biāo)注為UAV。圖6(b)為第168幀圖像,當(dāng)前為跟蹤狀態(tài),標(biāo)注為“Tracking”,可以看到背景始終為天空。圖6(c)為第470幀,依舊處于跟蹤狀態(tài),但背景逐漸從純天空向建筑物過(guò)渡。圖6(d)為第984幀,此時(shí)背景變?yōu)闃?shù)葉,相較天空背景變化較大,且此時(shí)目標(biāo)與背景顏色較為接近,導(dǎo)致本幀跟蹤時(shí)目標(biāo)丟失。實(shí)時(shí)計(jì)算此時(shí)的脊回歸函數(shù)f(z)為0.13,小于設(shè)定的閾值0.20,即認(rèn)為跟蹤目標(biāo)丟失,需重新進(jìn)行目標(biāo)檢測(cè)。圖6(e)為第985幀,重新檢測(cè)到無(wú)人機(jī),并轉(zhuǎn)向跟蹤;圖6(f)為第1 119幀,處于跟蹤狀態(tài),表明自最近一次重新檢測(cè)后,一直處于跟蹤狀態(tài),驗(yàn)證了所提方法的有效性。
圖6 視頻2測(cè)試結(jié)果Fig.6 Experiments for video2
表1為YOLOv3、小尺度YOLOv3、小尺度YOLOv3+KCF分別在上述靜態(tài)樣本、視頻1和視頻2中的性能對(duì)比。從表中可以看出,對(duì)于樣本集圖像來(lái)說(shuō),加入小尺度特征后,識(shí)別率提升近5%。對(duì)于視頻1和視頻2,單純用YOLOv3或者小尺度YOLOv3去進(jìn)行目標(biāo)檢測(cè)與跟蹤(檢測(cè)式跟蹤),二者的識(shí)別正確率都要比本文方法高。其中,YOLOv3的正確率比本文方法略高一點(diǎn)。但是這種每幀都進(jìn)行檢測(cè)的方法對(duì)資源需求太高,每幀檢測(cè)時(shí)間平均為0.03 s左右,即30 fps,再加上一些其他處理,經(jīng)常會(huì)低于25 fps,不能滿足工程上的實(shí)時(shí)處理。而本文方法在目標(biāo)跟蹤時(shí),只有當(dāng)目標(biāo)丟失時(shí)才會(huì)重新檢測(cè),在目標(biāo)沒(méi)有丟失的情況下均進(jìn)行跟蹤,而跟蹤的處理時(shí)間僅為0.012 s左右。因此,通過(guò)加權(quán)計(jì)算本文方法每幀檢測(cè)及跟蹤時(shí)間平均為0.022 s左右,即使算上其他資源消耗,也可滿足30 fps實(shí)時(shí)處理需求。
表1 YOLOv3、小尺度YOLOv3、小尺度YOLOv3+KCF性能對(duì)比Tab.1 Performance comprison of YOLOv3, small-scale YOLOv3 and small-scale YOLOv3+KCF
為了對(duì)“黑飛”的無(wú)人機(jī)進(jìn)行光電探測(cè)與跟蹤,本文搭建了基于轉(zhuǎn)臺(tái)與高清可見(jiàn)光相機(jī)的無(wú)人機(jī)目標(biāo)實(shí)時(shí)探測(cè)系統(tǒng),在YOLOv3模型基礎(chǔ)上增加更小的特征尺度并結(jié)合KCF模型,實(shí)現(xiàn)對(duì)無(wú)人機(jī)目標(biāo)的實(shí)時(shí)檢測(cè)與跟蹤。試驗(yàn)結(jié)果表明,通過(guò)在包含大疆御Pro、精靈3等無(wú)人機(jī)在內(nèi)的8 000幀無(wú)人機(jī)圖像組成的靜態(tài)測(cè)試集上進(jìn)行實(shí)驗(yàn),增加更小特征尺度后的模型對(duì)小目標(biāo)的識(shí)別率較之原始YOLOv3模型提高約5%。對(duì)于1 280×720分辨率的動(dòng)態(tài)視頻,每幀檢測(cè)時(shí)間為0.025~0.030 s(33 fps),且根據(jù)選定的閾值,當(dāng)無(wú)人機(jī)目標(biāo)丟失后可重新進(jìn)行檢測(cè),每幀跟蹤時(shí)間為0.010~0.012 s(85 fps),這對(duì)于未來(lái)全自動(dòng)式無(wú)人機(jī)探測(cè)系統(tǒng)的研制具有重要意義。然而,無(wú)人機(jī)種類(lèi)繁多,不可能窮盡所有無(wú)人機(jī)目標(biāo),本文只是對(duì)常見(jiàn)的幾種旋翼式無(wú)人機(jī)進(jìn)行了取樣和訓(xùn)練,對(duì)于固定翼式的無(wú)人機(jī)目標(biāo)并沒(méi)有考慮,進(jìn)一步工作將主要集中在更多種類(lèi)更多數(shù)量的無(wú)人機(jī)目標(biāo)樣本獲取及神經(jīng)網(wǎng)絡(luò)模型優(yōu)化等相關(guān)研究方面。