張 震,李浩方,李孟洲,馬軍強(qiáng)
(鄭州大學(xué) 電氣工程學(xué)院,河南 鄭州 450001)
隨著城市社區(qū)的快速發(fā)展,社區(qū)視頻監(jiān)控管理系統(tǒng)對(duì)于提升社區(qū)管理效率和保障社區(qū)安全起著重要的作用[1]。然而現(xiàn)有社區(qū)視頻監(jiān)控僅采用人臉相機(jī)在特定的角度對(duì)小區(qū)出入口抓拍人臉數(shù)據(jù),忽略了具有潛在價(jià)值的人體其他信息。因此,若能利用人臉相機(jī)準(zhǔn)確快速地獲取其他人體信息,并能與現(xiàn)有視頻管理系統(tǒng)對(duì)接,就可以提升社區(qū)公共安全管理能力和精細(xì)化管理水平。
隨著深度學(xué)習(xí)技術(shù)在目標(biāo)檢測(cè)領(lǐng)域的快速發(fā)展,現(xiàn)有目標(biāo)檢測(cè)算法可以分為兩類。第一類是雙階段模型,該類模型首先用窗口標(biāo)定算法生成一系列待篩選目標(biāo)區(qū)域,然后通過(guò)深度神經(jīng)網(wǎng)絡(luò)對(duì)目標(biāo)區(qū)域進(jìn)行特征訓(xùn)練,最后用所訓(xùn)練出來(lái)的模型選出最優(yōu)的目標(biāo)邊界框。主要代表網(wǎng)絡(luò)有R-CNN[2]、Fast R-CNN[3]、Faster R-CNN[4]、R-FCN[5]等。這些算法準(zhǔn)確率較高,但提取出大量冗余特征,算法比較耗時(shí)。第二類是單階段模型,該類模型不經(jīng)過(guò)窗口預(yù)標(biāo)定,而是直接利用整張圖像一次性預(yù)測(cè)出目標(biāo)的位置并標(biāo)價(jià)邊框,代表網(wǎng)絡(luò)有YOLO[6]、SSD[7]等。這些檢測(cè)算法采用端到端的目標(biāo)檢測(cè),具有檢測(cè)效率高、原理簡(jiǎn)單和背景誤檢率低等特點(diǎn)。其中具有代表性的是Redmon等[8]在2018年提出的YOLOv3檢測(cè)算法,其在COCO數(shù)據(jù)集上51 ms 內(nèi)mAP為57.9%[9]。
為利用人臉相機(jī)準(zhǔn)確檢測(cè)人體信息,筆者先采用K-means++[10]算法獲得適應(yīng)于自制數(shù)據(jù)集的先驗(yàn)框;再選用一種新的邊界框回歸損失函數(shù)GIoU[11]提高檢測(cè)性能;然后,使用多尺度方式[12]進(jìn)行模型訓(xùn)練;最后,通過(guò)調(diào)用人體屬性識(shí)別模塊實(shí)現(xiàn)對(duì)人體信息準(zhǔn)確檢測(cè)。經(jīng)實(shí)驗(yàn)驗(yàn)證,該方法在快速檢測(cè)人體的同時(shí),可以準(zhǔn)確識(shí)別人體其他屬性信息。
YOLOv3算法通過(guò)特征提取網(wǎng)絡(luò)對(duì)輸入的圖像提取特征,得到一定大小的特征圖。然后將輸入的圖片分割成S×S個(gè)網(wǎng)格,其中每個(gè)網(wǎng)格中預(yù)測(cè)B個(gè)邊界框,對(duì)C類目標(biāo)進(jìn)行檢測(cè)。網(wǎng)格中邊界框不僅要確定自身位置,還要預(yù)測(cè)一個(gè)置信度,置信度由每個(gè)網(wǎng)格中包含檢測(cè)目標(biāo)概率和輸出邊界框準(zhǔn)確度共同確定。若預(yù)測(cè)目標(biāo)中心落在該網(wǎng)格中,則該網(wǎng)格負(fù)責(zé)預(yù)測(cè)目標(biāo)。整張圖像目標(biāo)位置類別預(yù)測(cè)如式(1)所示:
Y=A×A×B×(5+C)。
(1)
式中:Y表示圖像目標(biāo)位置類別預(yù)測(cè)張量;A表示網(wǎng)格數(shù);B表示邊界框數(shù)量;5表示4個(gè)邊框坐標(biāo)數(shù)值和1個(gè)邊框置信度數(shù)值;C表示對(duì)象類別。
YOLOv3不僅借鑒了FPN[13]架構(gòu),采用3個(gè)尺度對(duì)不同大小的目標(biāo)進(jìn)行預(yù)測(cè),提升了小物體的檢測(cè)效果,還采用多個(gè)獨(dú)立的邏輯logistic分類器替換softmax[14]函數(shù),以計(jì)算輸入屬于特定標(biāo)簽的可能性,每個(gè)標(biāo)簽使用二元交叉熵?fù)p失降低了計(jì)算復(fù)雜度。
YOLOv3算法采用Darknet-53作為主干網(wǎng)絡(luò)。該網(wǎng)絡(luò)主要是由一系列的1×1和3×3卷積層組合而成的,并且每個(gè)卷積層后增加了批次歸一化層,可以有效防止過(guò)擬合現(xiàn)象。其次,網(wǎng)絡(luò)借鑒ResNet[15]殘差網(wǎng)絡(luò)結(jié)構(gòu),通過(guò)殘差層實(shí)現(xiàn)跨層數(shù)據(jù)更快地向前傳播。最后,網(wǎng)絡(luò)使用5個(gè)步長(zhǎng)為2的3×3卷積層替換上代網(wǎng)絡(luò)中的最大池化層實(shí)現(xiàn)下采樣。該主干網(wǎng)絡(luò)在ImageNet數(shù)據(jù)集中進(jìn)行測(cè)試,測(cè)試結(jié)果如表1所示。表中ATop-1和ATop-5分別表示模型在圖片識(shí)別時(shí)前1個(gè)和前5個(gè)結(jié)果中有一個(gè)正確的準(zhǔn)確率,計(jì)算量表示浮點(diǎn)運(yùn)算的次數(shù),運(yùn)算速度是每秒浮點(diǎn)運(yùn)算的次數(shù),幀速度為每秒刷新圖片的幀數(shù)。
表1 特征提取網(wǎng)絡(luò)Table 1 Feature extraction network
由表1可知,Darknet-53相比Darknet-19[6]檢測(cè)的準(zhǔn)確率有了進(jìn)一步的提升,但是運(yùn)算速度有所降低,與ResNet-152的網(wǎng)絡(luò)性能基本一致,并且目標(biāo)檢測(cè)速度提升到78 f/s,滿足目標(biāo)檢測(cè)實(shí)時(shí)性要求。
現(xiàn)有人體目標(biāo)檢測(cè)存在人體信息獲取不完整和檢測(cè)速度較慢等問(wèn)題,因此,為得到更適合人體目標(biāo)檢測(cè)的方法并且提升運(yùn)算速度,對(duì)人體目標(biāo)檢測(cè)網(wǎng)絡(luò)重新進(jìn)行設(shè)計(jì),整體檢測(cè)框架如圖1所示。
本文使用新的邊界框回歸損失函數(shù)GIoU和K-means++算法聚類算法,經(jīng)過(guò)多尺度訓(xùn)練得到人體檢測(cè)模塊。視頻監(jiān)控再通過(guò)人體檢測(cè)模塊與智能應(yīng)用平臺(tái)信息交互,實(shí)現(xiàn)人體目標(biāo)屬性信息的檢測(cè)。
圖1 整體框架圖Figure 1 Overall frame diagram
訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)模型時(shí),批次歸一化利用小批量上的均值和標(biāo)準(zhǔn)差,不斷地調(diào)整神經(jīng)網(wǎng)絡(luò)中間輸出,從而使整個(gè)神經(jīng)網(wǎng)絡(luò)在各層的中間輸出的數(shù)值更加穩(wěn)定,同時(shí)可以加速網(wǎng)絡(luò)的收斂并控制過(guò)擬合產(chǎn)生。批次歸一化雖然可以使神經(jīng)網(wǎng)絡(luò)的訓(xùn)練更容易,但是在網(wǎng)絡(luò)向前推理時(shí)會(huì)增加一些運(yùn)算,一定程度上占用了更多顯存。因此,將批次歸一化層與原有卷積層相整合構(gòu)建新的卷積層,這樣有利于提升模型向前推理的速度。
由于YOLOv3算法存在網(wǎng)絡(luò)層數(shù)的加深使模型復(fù)雜和特征消失等問(wèn)題,因此筆者在YOLOv3網(wǎng)絡(luò)結(jié)構(gòu)上適當(dāng)減少YOLO層的卷積次數(shù),得到新的網(wǎng)絡(luò)結(jié)構(gòu)。改進(jìn)網(wǎng)絡(luò)先將輸入圖像縮放為通道為3、長(zhǎng)和寬均為416的統(tǒng)一參數(shù),然后通過(guò)Darknet-53特征提取網(wǎng)絡(luò)結(jié)構(gòu)提取特征,對(duì)采集到的特征采用1×1和3×3的卷積進(jìn)行卷積操作,降低計(jì)算量以及融合特征之間的通道數(shù),得到一個(gè)小尺度YOLO層一個(gè)13×13×255維的輸出量;然后對(duì)小尺度YOLO層進(jìn)行上采樣,與Darknet-53中的卷積第45層進(jìn)行拼接,再進(jìn)行2組1×1和3×3的卷積進(jìn)行卷積操作,得到一個(gè)中尺度YOLO層一個(gè)26×26×255維的輸出量;接著將得到的中尺度YOLO層進(jìn)行上采樣,與Darknet-53中的卷積第29層進(jìn)行拼接,再進(jìn)行2組1×1和3×3的卷積進(jìn)行卷積操作,得到一個(gè)大尺度YOLO層的一個(gè)52×52×255維輸出量;最后,將已得到的3個(gè)尺度YOLO層進(jìn)行邊界框和類別的預(yù)測(cè)。改進(jìn)后的網(wǎng)絡(luò)一共有102層,由70層卷積層、23層殘差層、4層特征層、2層上采樣層和3層YOLO層組成,改進(jìn)的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 改進(jìn)的網(wǎng)絡(luò)結(jié)構(gòu)Figure 2 Improved network structure
目標(biāo)檢測(cè)任務(wù)中,預(yù)測(cè)框與真實(shí)框之間的交并比IoU不僅可以反映預(yù)測(cè)檢測(cè)框與真實(shí)檢測(cè)框的檢測(cè)效果,還是評(píng)價(jià)網(wǎng)絡(luò)性能指標(biāo)的重要參數(shù)。IoU[16]定義如下:
(2)
式中:A為目標(biāo)的預(yù)測(cè)框;B為目標(biāo)的真實(shí)框;IoU是真實(shí)框和預(yù)測(cè)框面積的交并比。
現(xiàn)有網(wǎng)絡(luò)常采用IoU作為損失函數(shù),遇到軸對(duì)齊的二維邊界框不相交情況,依據(jù)IoU計(jì)算公式,此時(shí)IoU為零,無(wú)法進(jìn)行模型訓(xùn)練。因此Rezatofighi等[11]提出了一種既能維持IoU尺度不變性,還能在目標(biāo)重疊時(shí)更好地反映預(yù)測(cè)框和真實(shí)框的重合度的評(píng)價(jià)指標(biāo)GIoU,其定義公式如下:
(3)
式中:A為目標(biāo)的預(yù)測(cè)框;B為目標(biāo)的真實(shí)框;C為預(yù)測(cè)框和真實(shí)框的最小框面積。
由式(3)可知,GIoU引入了包含A、B兩個(gè)形狀的C,所以當(dāng)A、B不重合時(shí),依然可以進(jìn)行邊界框回歸優(yōu)化,因此采用GIoU構(gòu)造邊界框回歸損失函數(shù)。若已知預(yù)測(cè)框和真實(shí)框的坐標(biāo)如下:
(4)
其邊界框回歸損失函數(shù)的計(jì)算過(guò)程如下。
步驟3計(jì)算Bp和Bg的重疊面積:
步驟4找到可以包含Bp和Bg的最小框BC:
步驟8計(jì)算損失。LGIoU=1-GIoU。
YOLOv3網(wǎng)絡(luò)中的9個(gè)先驗(yàn)框是采用K-means算法在COCO數(shù)據(jù)集下聚類產(chǎn)生的,不能應(yīng)用于本文的數(shù)據(jù)集。并且由于K-means[10]算法在運(yùn)算過(guò)程中,初始聚類中心是隨機(jī)產(chǎn)生的,因此存在聚類中心不斷變化,導(dǎo)致每次運(yùn)行獲得不同的聚類效果,從而影響模型的檢測(cè)效果。為解決初始聚類中心不斷變化的問(wèn)題,筆者采用K-means++算法進(jìn)行先驗(yàn)框的聚類。聚類過(guò)程如下。
步驟1隨機(jī)選取數(shù)據(jù)集中的一個(gè)錨定框的寬和高作為第一個(gè)聚類中心。
步驟2計(jì)算數(shù)據(jù)集中每個(gè)錨定框坐標(biāo)與已知聚類中心的距離,再根據(jù)概率重新選擇下一個(gè)聚類中心。
步驟3重復(fù)第2步的計(jì)算,直到選出K個(gè)聚類中心。
步驟4重新計(jì)算數(shù)據(jù)集中的每個(gè)錨定框坐標(biāo)與聚類中心距離,并根據(jù)最小距離重新進(jìn)行分類劃分。
步驟5計(jì)算每個(gè)分類的中心值,直到聚類中心的位置不再變化時(shí)結(jié)束。
對(duì)自制數(shù)據(jù)集重新聚類依次獲取的9組先驗(yàn)框?yàn)?76,23),(81,37),(89,46),(102,61),(113,68),(119,71),(150,83),(164,89)和(170,95)。
??低曃炇_放平臺(tái)一方面能提供人體目標(biāo)屬性圖像識(shí)別技術(shù),并且對(duì)分析任務(wù)提供同步和異步兩種接入方式。同步分析任務(wù)的接入方式較為簡(jiǎn)便,但是整體的性能比較受限,適用于小批量的圖片檢測(cè);異步分析任務(wù)則可以提供更大的分析吞吐量,適用于大批量的任務(wù)提交。另外一方面,開放平臺(tái)對(duì)人體目標(biāo)屬性有較成熟的識(shí)別方案,且對(duì)人體目標(biāo)屬性結(jié)構(gòu)化數(shù)據(jù)如人臉目標(biāo)位置、年齡段、性別、是否戴眼鏡、是否背包、是否拎東西、發(fā)型、上衣類型、下衣類型、上衣顏色、下衣顏色和是否騎車等,有較高的檢測(cè)速度和識(shí)別率。
基于以上考慮,采用開放平臺(tái)中的異步分析任務(wù)方式進(jìn)行人體目標(biāo)屬性的識(shí)別。首先,使用改進(jìn)的網(wǎng)絡(luò)配合人臉相機(jī)截取到監(jiān)控區(qū)域的人體圖像;其次,將截取圖像使用基于ISAPI協(xié)議的圖片任務(wù)分析接口,提交異步圖片分析任務(wù)請(qǐng)求中截取圖片的發(fā)送地址;最后,開放平臺(tái)進(jìn)行人體目標(biāo)屬性的分析任務(wù)。當(dāng)平臺(tái)分析完成后,分析結(jié)果會(huì)通過(guò)TCP的方式發(fā)送格式為ISAPI協(xié)議所規(guī)定的JSON報(bào)文;接著使用Python將JSON報(bào)文中人體目標(biāo)檢測(cè)屬性的信息進(jìn)行提取和展示;最后存儲(chǔ)到自建的ACCESS社區(qū)人體信息數(shù)據(jù)庫(kù)中。調(diào)用人體特征識(shí)別流程圖如圖3所示。
圖3 人體特征調(diào)用流程圖Figure 3 Flow chart of human character recognition
為獲得準(zhǔn)確的人體信息,將3個(gè)數(shù)據(jù)集中的人體圖片整合為標(biāo)準(zhǔn)PASCAL VOC數(shù)據(jù)集格式。其中第一部分采用的是PASCAL VOC2012數(shù)據(jù)集中人體的圖片共4 015張,標(biāo)注框數(shù)量5 717個(gè);第二部分采用的是COCO數(shù)據(jù)集中人體的圖片,采用了2 693張圖片,標(biāo)注框數(shù)量11 004個(gè);第三部分?jǐn)?shù)據(jù)采用鄭州市某視頻中心監(jiān)控視頻,采用labelImg工具對(duì)自制人體數(shù)據(jù)集進(jìn)行人工標(biāo)注,人工標(biāo)注照片3 292張,標(biāo)注框數(shù)量4 326個(gè)??偣?0 000張圖片,標(biāo)注框21 047個(gè)。
在訓(xùn)練和測(cè)試前,先將數(shù)據(jù)集中圖片隨機(jī)分為8 000張訓(xùn)練集和2 000張測(cè)試集。然后,再把訓(xùn)練集和測(cè)試集中照片統(tǒng)一縮放分成4個(gè)不同的尺寸組。其中A組320×320、B組416×416、C組512×512和D組608×608。數(shù)據(jù)集圖片如下圖4所示。
圖4 實(shí)驗(yàn)數(shù)據(jù)集Figure 4 Experimental dataset
本實(shí)驗(yàn)在PC端完成,實(shí)驗(yàn)平臺(tái)使用操作系統(tǒng)為Ubuntu 16.04,顯卡為NVIDIA GeForce 2080 Ti。
訓(xùn)練過(guò)程中采取多尺度訓(xùn)練的策略,每10個(gè)批次隨機(jī)挑選訓(xùn)練集中的一組尺寸進(jìn)行迭代,共進(jìn)行50 000次迭代。其中學(xué)習(xí)率為0.001 4,在迭代到25 000、40 000和45 000次時(shí),學(xué)習(xí)率變?yōu)橹暗氖种?。其中?xùn)練參數(shù)批量大小(batch)為64,動(dòng)量參數(shù)(momentum)為0.9。
為驗(yàn)證改進(jìn)網(wǎng)絡(luò)和改進(jìn)目標(biāo)損失函數(shù)對(duì)目標(biāo)檢測(cè)算法的影響,筆者采用對(duì)比實(shí)驗(yàn)進(jìn)行驗(yàn)證。第一組為YOLOv3網(wǎng)絡(luò)分別采用MSE(meansquarederror)、IoU和GIoU邊界框回歸損失函數(shù)進(jìn)行對(duì)比;第二組為均采用IoU損失函數(shù)的改進(jìn)網(wǎng)絡(luò)與YOLOv3網(wǎng)絡(luò)進(jìn)行對(duì)比;第三組為改進(jìn)網(wǎng)絡(luò)采用GIoU邊界損失函數(shù)與YOLOv3網(wǎng)絡(luò)采用IoU進(jìn)行對(duì)比,對(duì)比結(jié)果如表2所示。
表2 邊界框回歸損失函數(shù)Table 2 Bounding-box regression loss function
由表2可知,第一組YOLOv3網(wǎng)絡(luò)采用GIoU邊界框回歸損失函數(shù)相比采用MSE和IoU作為損失函數(shù),檢測(cè)準(zhǔn)確率mAP分別提升了7.1% 和1.7%,說(shuō)明采用GIoU損失函數(shù)可以提升網(wǎng)絡(luò)檢測(cè)性能。第二組對(duì)比實(shí)驗(yàn)中,改進(jìn)網(wǎng)絡(luò)的mAP提升了0.4%,說(shuō)明改進(jìn)網(wǎng)絡(luò)也能提升網(wǎng)絡(luò)性能。第三組實(shí)驗(yàn)將改進(jìn)網(wǎng)絡(luò)采用GIoU邊界框回歸損失函數(shù)與YOLOv3采用IoU邊界框回歸損失函數(shù)相比,mAP提升了4.6%。說(shuō)明改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)與改進(jìn)邊界框回歸損失函數(shù)可以進(jìn)一步提升網(wǎng)絡(luò)的性能。不同網(wǎng)絡(luò)與不同邊界框損失函數(shù)訓(xùn)練過(guò)程如圖5所示。
圖5 對(duì)比實(shí)驗(yàn)變化Figure 5 Comparative experimental change
改進(jìn)網(wǎng)絡(luò)采用GIoU和YOLOv3網(wǎng)絡(luò)采用IoU兩種邊界框回歸損失函數(shù)對(duì)自制數(shù)據(jù)集的檢測(cè)效果如圖6所示。其中藍(lán)色為改進(jìn)網(wǎng)絡(luò)采用GIoU邊界框回歸損失函數(shù),紅色為YOLOv3網(wǎng)絡(luò)采用IoU損失函數(shù)。由圖6可知,藍(lán)色框不僅檢測(cè)精度略高于紅色框,還能更準(zhǔn)確地框住待檢測(cè)的人體目標(biāo),一定程度上減少因框住人體目標(biāo)不完整而造成待檢測(cè)人體信息缺失的問(wèn)題。
圖6 邊界框檢測(cè)對(duì)比效果Figure 6 Bounding-box contrast effect
訓(xùn)練過(guò)程中采用多尺度訓(xùn)練的方法,可以增強(qiáng)模型對(duì)不同分辨率檢測(cè)的魯棒性。筆者使用YOLOv3網(wǎng)絡(luò)采用IoU損失函數(shù)和改進(jìn)網(wǎng)絡(luò)采用GIoU損失函數(shù)對(duì)測(cè)試集中4組不同尺寸圖片進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果以平均mAP為指標(biāo),對(duì)比結(jié)果如表3所示。
由表3可知,首先從不同尺寸圖像上的檢測(cè)指標(biāo)上看,改進(jìn)網(wǎng)絡(luò)使用GIoU損失函數(shù)比YOLOv3使用IoU損失函數(shù)要高。其次,采取增大輸入照片尺度能夠提升人體目標(biāo)檢測(cè)性能。最后采用多尺度訓(xùn)練能夠使模型對(duì)不同尺寸圖像具有魯棒性。改進(jìn)網(wǎng)絡(luò)使用GIoU回歸損失函數(shù)檢測(cè)效果如圖7所示。
表3 目標(biāo)敏感性分析Table 3 Performance comparison of different algorithms
圖7 改進(jìn)網(wǎng)絡(luò)檢測(cè)效果Figure 7 Improved network detection effect
開放平臺(tái)對(duì)人體目標(biāo)屬性檢測(cè)的過(guò)程為:先檢測(cè)圖片中的人體目標(biāo)再檢測(cè)人體屬性,平均一張監(jiān)控圖片的檢測(cè)時(shí)間在2.9 s,不能滿足檢測(cè)實(shí)時(shí)性要求。因此,為滿足檢測(cè)任務(wù)實(shí)時(shí)性要求,采用改進(jìn)網(wǎng)絡(luò)先檢測(cè)監(jiān)控視頻中的人體目標(biāo)并進(jìn)行截圖后,再使用平臺(tái)對(duì)圖片中的人體目標(biāo)進(jìn)行檢測(cè),最后再對(duì)報(bào)文進(jìn)行解析并保存到自制數(shù)據(jù)庫(kù)中。 當(dāng)有正面遮擋時(shí),以截取人臉為主要存儲(chǔ)信息,同時(shí)其他人體信息捕捉超過(guò)檢測(cè)屬性的40%即為有效信息,避免冗余數(shù)據(jù),易于數(shù)據(jù)管理。本文方法對(duì)監(jiān)控視頻中一個(gè)人體目標(biāo)進(jìn)行人體屬性檢測(cè)并顯示的平均時(shí)間為1.15 s,不僅檢測(cè)效率大幅提升了60.34%,還在一定程度上減少了計(jì)算資源的浪費(fèi)。通過(guò)MATLAB構(gòu)建GUI界面進(jìn)行展示的檢測(cè)效果如圖8所示。
圖8 調(diào)用分析顯示效果Figure 8 The show of call analysis
由顯示效果可知,在實(shí)時(shí)監(jiān)控下借用人臉相機(jī)應(yīng)用本文方法,既能使用人臉相機(jī)獲取人臉照片數(shù)據(jù),還能獲取目標(biāo)人體的其他屬性數(shù)據(jù)(如:性別、年齡、衣服類型、有無(wú)眼鏡、有無(wú)電話等)。并且本文方法對(duì)采集到人體數(shù)據(jù)直接解析到自建的ACCESS社區(qū)人體信息數(shù)據(jù)庫(kù)中,解決了實(shí)驗(yàn)平臺(tái)中數(shù)據(jù)庫(kù)資源不能直接調(diào)用的問(wèn)題,真正地實(shí)現(xiàn)了視頻數(shù)據(jù)的結(jié)構(gòu)化描述。自建的社區(qū)人體信息數(shù)據(jù)庫(kù)不僅可以實(shí)現(xiàn)大規(guī)模數(shù)據(jù)實(shí)時(shí)存儲(chǔ)和查詢的要求,還能提升社區(qū)對(duì)于日常監(jiān)控管理的水平。
將改進(jìn)后的網(wǎng)絡(luò)與Faster R-CNN[4]、SSD[7]和YOLOv3[8]網(wǎng)絡(luò)在自制數(shù)據(jù)集上進(jìn)行性能實(shí)驗(yàn)對(duì)比,以mAP以及每秒刷新圖片的幀數(shù)作為檢測(cè)評(píng)價(jià)指標(biāo),對(duì)比結(jié)果如表4所示。
表4 不同算法的性能對(duì)比Table 4 Performance comparison of different algorithms
由表4可知,改進(jìn)網(wǎng)絡(luò)mAP數(shù)值不但略高于Faster R-CNN,識(shí)別幀率還是其7.5倍。其次,改進(jìn)網(wǎng)絡(luò)與SSD算法相比,檢測(cè)速度略低,但mAP高于后者。最后,改進(jìn)網(wǎng)絡(luò)相比YOLOv3在準(zhǔn)確率和識(shí)別幀速率上都有一定的提升。綜上所述,改進(jìn)網(wǎng)絡(luò)不僅兼顧了檢測(cè)準(zhǔn)確率和檢測(cè)速度,還可以較好地完成人體目標(biāo)檢測(cè)任務(wù)。
提出一種將改進(jìn)YOLOv3網(wǎng)絡(luò)和調(diào)用人體信息識(shí)別模塊相結(jié)合的人體信息檢測(cè)方法。先使用自制數(shù)據(jù)集進(jìn)行人體目標(biāo)信息的檢測(cè)實(shí)驗(yàn),通過(guò)改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu),使用新的邊界框回歸損失函數(shù)GIoU、K-means++算法進(jìn)行目標(biāo)框維度聚類以及多尺度訓(xùn)練方式改進(jìn)YOLOv3網(wǎng)絡(luò),再采用改進(jìn)后的網(wǎng)絡(luò)實(shí)現(xiàn)監(jiān)控視頻下人體目標(biāo)的截取,最后調(diào)用人體目標(biāo)屬性檢測(cè)模塊,檢測(cè)視頻監(jiān)控下的人體信息并存儲(chǔ)到自建數(shù)據(jù)庫(kù)中。本文方法能夠利用現(xiàn)有人臉相機(jī)實(shí)現(xiàn)快速、準(zhǔn)確地檢測(cè)人體信息,并與視頻監(jiān)控管理系統(tǒng)進(jìn)行對(duì)接,可顯著提升社區(qū)視頻監(jiān)控管理系統(tǒng)的精細(xì)化管理能力。