史鈺祜,張起貴
(太原理工大學信息與計算機學院,山西晉中 030600)
隨著深度卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)[1]的發(fā)展,基于深度學習的圖像目標檢測取得顯著進展[2],同時推動了圖像目標檢測向視頻目標檢測的擴展。視頻目標檢測在交通、醫(yī)療、體育等領(lǐng)域都具有廣泛的應用價值。近年來,對視頻進行快速且準確的檢測成為計算機視覺領(lǐng)域的研究熱點。
基于深度學習的圖像目標檢測主要分為兩階段檢測方法(如R-CNN[3]、Faster R-CNN[2]、R-FCN[4])和單階段檢測方法(SSD[5]、YΟLΟ[6])。相比單張圖像,視頻包含更豐富的時間和運動信息,同時也產(chǎn)生信息冗余。在圖像目標檢測的基礎上,通過聚合時間和運動信息來提高逐幀檢測的性能是視頻目標檢測的研 究重點。DFF[7]和Towards 方法[8]利用FlowNet[9]預測的光流在幀之間傳播特征[10-11],實現(xiàn)在線的視頻目標檢測。文獻[12]將關(guān)聯(lián)特征加入到DFF 架構(gòu)中,并對目標進行修正。然而光流網(wǎng)絡存在自身的局限性,F(xiàn)lowNet 通過增加模型的參數(shù)量,提高對硬件資源的要求。例如,ResNet101+RFCN的檢測模型參數(shù)為59.6×106,使用FlowNet 時需要額外增加37×106。在KITTI 數(shù)據(jù)集上,F(xiàn)lowNet 的運行速度僅為10 frame/s,在一定程度上阻礙了視頻目標檢測的實際應用。光流難以準確表示高層特征之間的對應關(guān)系。由于網(wǎng)絡感受野的增大,因此高層特征中一個像素的偏移可以對應于圖像中幾十個像素?;陉P(guān)系網(wǎng)絡[13]的RDN[14]可以直接學習局部范圍內(nèi)不同幀候選框之間的關(guān)系,以增強物體特征,從而實現(xiàn)離線的視頻目標檢測。文獻[15]利用關(guān)系網(wǎng)絡,在深度特征基礎上引入關(guān)聯(lián)特征。文獻[16]提出基于內(nèi)存增強的全局-局部聚合方法(MEGA),基于遞歸機制[17],利用對位置不敏感的關(guān)系模塊[13]聚合全局和局部視頻幀中的候選框特征,從而增強當前幀的圖像特征。但是該方法在逐幀執(zhí)行完整的模型結(jié)構(gòu)時,其計算量較大且速度較慢。
本文提出基于局部注意的視頻目標檢測方法。通過構(gòu)建一種特征傳播模型,其在不同幀的局部區(qū)域內(nèi)通過逐漸稀疏的步幅確定空間對應關(guān)系,設計動態(tài)分配關(guān)鍵幀模塊,動態(tài)地按需分配關(guān)鍵幀。在此基礎上,提出異步檢測模式,協(xié)調(diào)特征傳播模型和動態(tài)分配關(guān)鍵幀模塊,在保證檢測精度的前提下,加快模型對視頻序列的處理速度,從而實現(xiàn)實時在線的視頻目標檢測。
本文提出基于局部注意的快速視頻目標檢測方法,其模型結(jié)構(gòu)如圖1 所示。基于文獻[16],本文擴展了一個基于局部注意的快速檢測分支,以提取非關(guān)鍵幀的特征。在圖1 中,It表示視頻序列在t時刻輸入的視頻幀。
圖1 本文模型結(jié)構(gòu)Fig.1 Structure of the proposed model
一段視頻序列在t時刻輸入的視頻幀通過輕量級特征提取網(wǎng)絡NL獲得低層圖像特征FL,并將其與上一關(guān)鍵幀的低層圖像特征一起送入到關(guān)鍵幀選擇模塊,若判斷為關(guān)鍵幀Ik,則將關(guān)鍵幀的低層圖像特征繼續(xù)送入到高層圖像特征提取網(wǎng)絡NH,從而獲得最終的圖像特征該部分采用MEGA 方法選擇全局和位于當前關(guān)鍵幀局部范圍內(nèi)不同幀產(chǎn)生的候選框,并通過關(guān)系模塊將選取的候選框聚合到當前關(guān)鍵幀,得到增強的圖像特征,同時更新長時記憶(Long-Rang Memory,LRM)模塊,并在下一關(guān)鍵幀的檢測中使用該特征來輔助檢測,實現(xiàn)在線的目標檢測。LRM 使得關(guān)鍵幀能夠聚合不同視頻幀的范圍擴大,以獲得更多的全局和局部信息。由于關(guān)鍵幀包含更豐富的特征信息,本文將全局和局部候選區(qū)域的范圍從已檢測的所有視頻幀改為已檢測的所有關(guān)鍵幀。
若視頻序列在t時刻輸入的視頻幀被判斷為非關(guān)鍵幀Ii,由于非關(guān)鍵幀的低層圖像特征僅使用輕量級的特征提取網(wǎng)絡NL,得到所包含的信息對于最終分類與回歸任務不夠豐富。因此,本文將送入特征傳播模型,經(jīng)過特征轉(zhuǎn)換模塊生成與高層圖像特征相匹配的特征,并將其送入基于局部注意的特征對齊模塊。同時,從LRM 中獲取鄰近關(guān)鍵幀的圖像特征并送入特征對齊模塊,對進行特征對齊和增強,得到非關(guān)鍵幀最終的圖像特征。為進一步減少運算量,LRM 只在關(guān)鍵幀特征提取完成后進行更新,非關(guān)鍵幀特征提取時僅通過LRM 提取特征信息,不對其進行更新。
特征傳播模型由基于局部注意的特征對齊模塊、特征轉(zhuǎn)換模塊和質(zhì)量增強模塊構(gòu)成,如圖2 所示。由于非關(guān)鍵幀的特征提取能力較弱,因此本文構(gòu)建特征傳播模型。
圖2 特征傳播模型結(jié)構(gòu)Fig.2 Structure of feature propagation model
2.1.1 基于局部注意的特征對齊模塊
假設Fk和Fi分別為幀Ik和Ii的特征圖,將它們的嵌入特征記為f(Fk)∈Rc×h×w和g(Fi)∈Rc×h×w,其中c、h、w分別表示通道數(shù)、嵌入特征圖的高度和寬度。嵌入函數(shù)f(·)和g(·)是為了減少Fk和Fi的通道數(shù)。在實驗中,該函數(shù)通過1×1 卷積實現(xiàn)。受注意力機制[18]的啟發(fā),基于局部注意的特征對齊模塊利用2 個特征單元之間的特征相似度計算對應的稀疏關(guān)聯(lián)權(quán)重值,并將其與原特征圖相融合,以得到經(jīng)過對齊的圖像特征。這2 個特征單元分別來自2 個高層圖像特征的嵌入特征圖f(Fk)和g(Fi),在特征圖上以逐漸稀疏的步幅分布?;诰植孔⒁獾奶卣鲗R模塊如圖3 所示,不同的斜線數(shù)量表示不同的步幅。
圖3 基于局部注意的特征對齊模塊Fig.3 Feature alignment module based on local attention
特征對齊模塊是利用FlowNet 提取隨機選取100 段視頻的光流,在水平和豎直方向上分別對光流值進行統(tǒng)計,光流分布如圖4 所示。在豎直和水平方向上,光流都集中分布在零附近。分布結(jié)果表明,關(guān)聯(lián)權(quán)重的特征單元的計算可以采用漸進稀疏的步幅從較小的鄰域內(nèi)選擇。漸進稀疏的步幅使特征傳播模塊更多關(guān)注鄰域內(nèi)具有小光流值的運動信息。
圖4 豎直和水平方向的光流分布Fig.4 Optical flow distribution in vertical and horizontal directions
局部注意模塊通過對g(Fi)中每個特征單元和各自對應f(Fk)中的局部稀疏位置進行比較,以得到相應的特征相似度,并將其進行歸一化,從而得到用于對Fk進行特征對齊的權(quán)重。在對應的局部稀疏位置中采用相似性較高的特征單元進行表示,相似性較高的特征單元對g(Fi)中的特征單元影響較大,得到更高的關(guān)聯(lián)權(quán)重值。將信息傳播到新的特征單元時,獲得更大占比的信息。最后,通過稀疏關(guān)聯(lián)權(quán)重值得到經(jīng)過特征對齊的特征圖。
局部注意模塊的計算過程可以分為2 個步驟:
1)通過兩個特征單元的特征相似度生成稀疏關(guān)聯(lián)權(quán)重值。定義Fi和Fk中位置n1和n2的兩個特征單元之間特征相似度如式(1)所示:
其 中:(x1,y1) 和(x2,y2) 分別為n1、n2的坐標;為內(nèi)積運算。對于f(Fk)中特征單元(x,y),本文僅考慮位于f(Fk)中局部稀疏范圍D(x,y)內(nèi)對應的特征單元。D(x,y)是由逐漸稀疏的步幅和最大位移d定義的鄰域。D(x,y)可以劃分為一系列子區(qū)域,如式(2)和式(3)所示:
其中:l為1 ≤l≤d;Dl(x,y)為子區(qū)域中步幅為l的特征單元。D(x,y)在f(Fk)中的空間排列如圖3 所示。這些區(qū)域從中心到外部逐漸稀疏,通過softmax 對特征相似度進行歸一化,得到關(guān)聯(lián)權(quán)重值,如式(4)所示:
基于局部注意的特征對齊模塊可以獲取Fk所對應的局部稀疏范圍內(nèi)最相似和最關(guān)鍵的特征,類似于注意力機制[19],從而建立兩個特征圖之間的空間對應關(guān)系。
2.1.2 特征轉(zhuǎn)換模塊
低層圖像特征經(jīng)過基于局部注意的特征對齊模塊,與鄰近關(guān)鍵幀增強后的特征進行特征對齊,以得到非關(guān)鍵幀的圖像特征。但是這些低層特征不包含足夠的圖像特征與高層圖像特征對應,直接將其引入到對齊模塊中,導致生成的圖像特征不包含關(guān)鍵信息。為此,本文采用一個輕量級的特征轉(zhuǎn)換模塊[20]對提取的低層特征進行編碼,以達到高層圖像特征的水平,從而豐富低層圖像特征的信息。將對齊后的圖像特征與低層圖像特征共同送入到質(zhì)量增強網(wǎng)絡,進一步補充細節(jié)信息。質(zhì)量增強網(wǎng)絡的加入是因為特征對齊時的加權(quán)聚合可能會導致混疊效應,造成對齊后的特征丟失一些細節(jié)信息,從而影響候選框的檢測。將經(jīng)過質(zhì)量增強網(wǎng)絡的圖像特征送入后續(xù)的檢測網(wǎng)絡,執(zhí)行分類和回歸的任務。特征轉(zhuǎn)換模塊和質(zhì)量增強網(wǎng)絡的結(jié)構(gòu)相同,如圖2 所示。受MobileNet[21]的啟發(fā),本文引入深度可分離卷積,將一個標準卷積分解為逐通道卷積和逐點卷積[22]。其中逐通道卷積是指每個輸入通道分別采用一個卷積,各個通道分開計算,逐點卷積是1×1 的標準卷積核。深度可分離卷積示意圖如圖5 所示,將網(wǎng)絡中兩層標準卷積替換為相應的深度可分離卷積,深度可分離卷積的引入可以大幅減少模型的參數(shù)量,降低對硬件資源的要求。若模型采用標準卷積,則參數(shù)量為295×104,若采用深度可分離卷積,則參數(shù)量僅為33×104,參數(shù)量僅為標準卷積的11%。
圖5 深度可分離卷積示意圖Fig.5 Schematic diagram of depthwise separable convolution
關(guān)鍵幀選擇策略是實現(xiàn)高效檢測的關(guān)鍵,文獻[8]通過計算當前幀與上一關(guān)鍵幀之間的光流,并與設定的閾值矩陣相比來判斷是否選擇為關(guān)鍵幀。該方法在一定程度上適應目標的不同變化速率,但光流不能準確表示高層特征之間的對應關(guān)系,且計算量較大。
本文方法使用當前幀位置框和前一關(guān)鍵幀中位置框的交集和并集的比值,并將其作為反映目標速率變化的依據(jù)。該比值越小,表示當前幀與上一關(guān)鍵幀的距離越大。當比值小于設定的閾值時,則選擇當前幀為新的關(guān)鍵幀,但是獲取位置框的代價較高,且難以實現(xiàn)。本文設計一個輕量級的比值預測網(wǎng)絡。網(wǎng)絡的輸入為上一關(guān)鍵幀和當前幀的低層特征,分別記為首先通過第1 層3×3、通道數(shù)為256 的卷積,使得特征圖通道數(shù)降低為256,進而計算它們的差值,再將差值送入到第2 層3×3、通道數(shù)為256 的卷積。為減少計算量,此處卷積層采用深度可分離卷積。最后連接一個最大池化層和一個全連接層,輸出比值預測值,其中最大池化層用于降低特征圖的維數(shù),從而減少計算量。動態(tài)分配關(guān)鍵幀示意圖如圖6 所示,經(jīng)過該網(wǎng)絡預測得到的比值隨著當前幀與上一關(guān)鍵幀距離的增加而減小,直至小于提前設定的閾值,將其設定為新的關(guān)鍵幀。
圖6 動態(tài)分配關(guān)鍵幀示意圖Fig.6 Schematic diagram of dynamic allocation of key frame
現(xiàn)有的基于關(guān)鍵幀的目標檢測方法僅考慮每幀的平均運行時間[23]。但是,在關(guān)鍵幀和非關(guān)鍵幀上運行不同的特征提取網(wǎng)絡,會造成在不同幀上計算量的差別較大。在提取關(guān)鍵幀特征時運行更多的時間,相比非關(guān)鍵幀,其存在延時較大的問題。
基于文獻[24],本文提出一種異步運行的模式,以大幅降低最大延遲。該模式將目標檢測分為快速和慢速2 種通道,快速通道采用基于局部注意的特征對齊模塊對當前圖像特征進行對齊,慢速通道采用關(guān)鍵幀的特征提取網(wǎng)絡,即內(nèi)存增強的全局-局部聚合方法。關(guān)鍵幀的大延時是由于運行高層特征提取網(wǎng)絡造成的。為此,當某一幀被確定為關(guān)鍵幀后,首先通過快速通道從LRM 中獲取上一關(guān)鍵幀的圖像特征,再利用該圖像特征對當前關(guān)鍵幀進行特征對齊,并將對齊后的圖像特征臨時選擇為當前關(guān)鍵幀的高層圖像特征,并放入緩存中。同時在不阻塞主程序的情況下啟動后臺進程,通過慢速通道對當前關(guān)鍵幀進行特征提取,得到并更新內(nèi)存,以替換緩存中臨時高層圖像特征。實驗結(jié)果表明,異步檢測模式可以大幅降低最大延遲(從114 ms降至31 ms),而準確率只有小幅度降低(從81.9%降至80.7%)。因此,在視頻監(jiān)控和自動駕駛實際應用中,對延遲有嚴格約束,采用本文提出的異步檢測模式是一種非常有效的方法。
本文數(shù)據(jù)集選用ImageNet VID,該數(shù)據(jù)集包括30種目標類別。其中訓練集包含3 862 個視頻片段,驗證集包含555 個視頻片段。根據(jù)文獻[7-8]中廣泛采用的協(xié)議,在驗證集上評估本文提出的方法,并使用平均精度(mAP)作為檢測精度的評價指標,每秒檢測幀數(shù)和最大延遲作為檢測速度的評價指標。
本文使用ResNet-101 作為特征提取網(wǎng)絡,選取低于Conv4_3 的卷積層構(gòu)造低層特征提取網(wǎng)絡NL。模型選取層數(shù)較多的低層特征提取網(wǎng)絡,以獲得較高的精度,但是會提升計算成本,從而降低運行速度。本文選擇低于Conv4_3 的卷積層,其原因為通過實驗發(fā)現(xiàn),該選擇在驗證集的準確性和速度之間能夠?qū)崿F(xiàn)較優(yōu)的平衡。檢測網(wǎng)絡使用R-FCN[4],將Conv5 的步幅從2 修改為1,以增大特征圖的分辨率。在區(qū)域建議網(wǎng)絡RPN 產(chǎn)生候選框后,使用MEGA 提出的內(nèi)存增強全局-局部聚合方法對候選框的特征進行增強,同時對特征傳播模型和動態(tài)分配關(guān)鍵幀模塊進行微調(diào)。這兩個模塊將選取間隔為l的一對視頻幀作為輸入(在文獻[25]中l(wèi)是隨機選取的)。該對視頻幀的選擇標準為:第一幀作為關(guān)鍵幀,第二幀必須為帶有標簽的視頻幀。通過特征傳播模型對關(guān)鍵幀特征進行提取和傳播,并將其作為每對視頻幀中的第二幀,以生成檢測結(jié)果圖。該模型經(jīng)過訓練后,盡可能減少生成的檢測結(jié)果和標簽之間的損失,從而得到最優(yōu)解。經(jīng)過實驗驗證,當超參數(shù)逐步稀疏范圍的最大步幅d=4、動態(tài)分配關(guān)鍵幀的閾值threshold=0.75 時,該模型能夠在速度和精度方面實現(xiàn)較優(yōu)的平衡。本文選擇回歸模型訓練動態(tài)分配關(guān)鍵幀模塊,其中真實值為關(guān)鍵幀邊框和當前幀邊框的交集與并集的比值。整個網(wǎng)絡使用隨機梯度下降算法(Stochastic Gradient Descent,SGD)在GPU上進行訓練,并且采用dropout策略。訓練時,本文對輸入視頻幀進行預處理,調(diào)整短邊為600 像素,區(qū)域建議網(wǎng)絡RPN 采用9 個錨點和300 個建議區(qū)域,在4 塊RTX 2080Ti GPU執(zhí)行1.2×105迭代。前8×104迭代的學習率為2.5×10-4,后4×104迭代的學習率為2.5×10-5。
3.3.1 檢測精度與速度分析
本文方法與現(xiàn)有視頻目標檢測方法檢測精度和檢測速度的對比如表1 所示。當本文方法的檢測精度為80.7%時,檢測速度達到31.8 frame/s。與MEGA方法[16]相比,本文方法的檢測精度略有下降,但檢測速度提高了3.6 倍,達到了實時檢測的要求。本文設計的模型是一種在線檢測的模型。與基于光流的方法(如DFF[7]和Towards[8])相比,本文方法能夠?qū)崿F(xiàn)更快的檢測速度和更高的檢測精度。在沒有外部光流網(wǎng)絡的情況下,本文所提的模型明顯簡化整個檢測架構(gòu),并且能夠精確地學習連續(xù)視頻幀之間的特征對應關(guān)系。
表1 不同方法的檢測精度和檢測速度對比Table 1 Detection accuracy and detection speed comparison among different methods
3.3.2 模型分解實驗
本文在ImageNet VID數(shù)據(jù)集上進行模型分解實驗,以驗證特征傳播模型、動態(tài)分配關(guān)鍵幀模塊和異步檢測模式的有效性,分解實驗的詳細設置如表2 所示。
表2 模型分解實驗的配置Table 2 Configuration of model decomposition experiment
本文首先將特征傳播模型與現(xiàn)有的非光流特征傳播模型進行對比,然后比較特征傳播模型和光流傳播模型。MatchTrans[20]和Nonlocal[29]是兩種非光流特征傳播模型,MatchTrans 通過計算局部區(qū)域內(nèi)所有特征單元的相似度,以得到特征傳播的權(quán)值。Nonlocal 考慮所有特征單元的相似性,其mAP 為72.8%,檢測速度為41.12 frame/s。本文提出的特征傳播模型使用漸進稀疏的局部區(qū)域。為驗證漸進稀疏局部區(qū)域的有效性,本文構(gòu)建一個密集版本的特征傳播模型。與MatchTrans相似,該模型使用局部區(qū)域內(nèi)的所有特征單元,通過式(4)計算每個特征單元的傳播權(quán)值。不同非光流特征傳播方法的性能對比如表3 所示。本文僅將上一關(guān)鍵幀的特征傳播到非關(guān)鍵幀,實現(xiàn)簡單的目標檢測框架,從而驗證不同特征傳播方法的性能。從表3 可以看出,在所有最大位移設置下,本文方法具有較高的檢測精度和較快的檢測速度,當最大位移為4 時,檢測精度達到了最高。
表3 不同非光流特征傳播方法的性能指標對比Table 3 Performance indexs comparison among different feature propagation with non-optical flow methods
光流可以預測連續(xù)幀之間的運動場,DFF 通過FlowNet 將關(guān)鍵幀的特征傳播到非關(guān)鍵幀。為驗證局部注意在圖像特征之間空間對應的有效性,本文將局部注意和DFF 進行對比,結(jié)果如表4 所示。表4 僅將上一個關(guān)鍵幀的特征傳播到非關(guān)鍵幀,構(gòu)建一個簡單的目標檢測架構(gòu)。從表4 可以看出,在關(guān)鍵幀間隔分別為10 frame和15 frame的情況下,本文方法的性能更優(yōu)。
表4 不同光流特征傳播方法的性能指標對比Table 4 Performance indexs comparison among different feature propagation with optical flow methods%
為驗證動態(tài)分配關(guān)鍵幀模塊的有效性,本文對方法1 和方法2 進行對比。在選擇關(guān)鍵幀時,本文方法1和本文方法2分別采用固定間隔選擇和動態(tài)分配方法。不同關(guān)鍵幀選擇方法的性能對比如圖7 所示。在不同的檢測速度下,本文的動態(tài)分配關(guān)鍵幀選取方法性能總是優(yōu)于固定間隔的選取方法。其中,關(guān)鍵幀選取間隔l=2,4,…,24,動態(tài)分配關(guān)鍵幀的閾值threshold=0.95,0.90,…,0.40。從圖7 可以看出,隨著閾值的減小,檢測精度在閾值較大的階段(threshold>0.8)會隨著檢測速度的加快而增加,當閾值減小到一定程度后(threshold<0.8),檢測精度會隨著檢測速度的加快而下降。閾值較大(threshold>0.8)導致兩個連續(xù)關(guān)鍵幀之間存在信息冗余的問題,導致精度降低,如圖7中threshold由0.95降低至0.8,檢測精度反而提高。過小的閾值導致兩個關(guān)鍵幀之間存在較大差異,在這種情況下建立空間對應面臨一定的挑戰(zhàn),造成檢測精度急劇下降,如圖7 中threshold 小于0.6,檢測精度隨著檢測速度的增加而急劇下降。因此,當閾值設置太小或者太大時,精度就會降低。從圖7 可以看出,當閾值threshold=0.75 時,檢測精度為81.2%,檢測速度為18.5 frame/s,在兩者之間實現(xiàn)較優(yōu)的平衡。
圖7 不同關(guān)鍵幀選擇方法的性能指標對比Fig.7 Performance indexs comparison among different key frame selection methods
為驗證異步檢測模式的有效性,本文所提架構(gòu)的整體延遲和每個模塊各自的延遲對比如表5 所示。其中,MEGA 方法是逐幀檢測的方法。方法1 采用特征傳播模型和固定間隔關(guān)鍵幀選取方法,以加快檢測速度,每幀運行時間從114 ms 縮短到46 ms,同時檢測精度下降了2.8 個百分點。方法2 采用動態(tài)分配關(guān)鍵幀模塊,相比方法1,其運行時間增加了8 ms,檢測精度提高了2.1 個百分點。雖然方法1 和方法2 縮短了模型的整體檢測時間,但是關(guān)鍵幀的計算量較大,并不能減少最大延遲。本文方法在方法2 的基礎上采用異步檢測模式,將最大延遲大幅減少到31 ms(約為基礎網(wǎng)絡延遲的27%),并具有較高的精度。異步檢測模式不僅在平均意義上降低整體成本,而且大幅度降低了最大延遲。
表5 不同方法的性能指標對比Table 5 Performance indexs comparison among different methods
在ImageNet VID 數(shù)據(jù)集上本文方法的可視化檢測結(jié)果如圖8 所示,本文在實現(xiàn)加快檢測速度的同時,具有較高的檢測精確度。
圖8 在ImageNet VID 數(shù)據(jù)集上本文方法的可視化結(jié)果Fig.8 Visualization results of the proposed method on ImageNet VID dataset
本文提出基于局部注意的視頻目標檢測方法。通過構(gòu)建特征傳播模型將關(guān)鍵幀的高層特征傳播至非關(guān)鍵幀,設計基于精度預測的動態(tài)分配關(guān)鍵幀模塊,加快檢測速度。在此基礎上,提出異步檢測模式,協(xié)調(diào)關(guān)鍵幀的特征傳播和計算。在ImageNet VID 數(shù)據(jù)集上的實驗結(jié)果表明,本文方法的檢測精度為80.7%,檢測速度和最大延遲分別為31.8 frame/s 和31 ms,在保證檢測精度的前提下,獲得低延遲的在線檢測結(jié)果。后續(xù)將采用知識蒸餾的方法對模型進一步壓縮,以降低系統(tǒng)的整體計算成本。