叢帥,楊磊,華征豪,楊曉暉
(1.河北大學(xué) 工商學(xué)院,河北 保定 071000;2.河北大學(xué) 教務(wù)處,河北 保定 071002;3.河北大學(xué) 網(wǎng)絡(luò)空間安全與計算機學(xué)院,河北 保定 071000)
近年來,隨著國家對教育進(jìn)行智能重構(gòu)的不斷重視[1],人工智能在教育中擁有著巨大的研究空間和發(fā)展?jié)摿?其中,教室的使用和分配問題影響著教育場地資源規(guī)劃和建設(shè)等諸多方面.利用現(xiàn)有資源得到一個精準(zhǔn)量化參考的方法,能夠在節(jié)約人力物力的情況下合理布局,高效地進(jìn)行教育建設(shè).教室的使用和分配通常需要對教室內(nèi)的人員進(jìn)行目標(biāo)檢測,相比開放場合下的應(yīng)用場景,教室內(nèi)人員的目標(biāo)檢測有環(huán)境變化小、人員位置固定時間長的優(yōu)勢,但是也存在著人-人、人-物遮擋,不同教室的光照量差異和由于各種物品存在而導(dǎo)致的教室背景復(fù)雜多變,干擾較多的問題.同時,由于不同教室和不同學(xué)校之間視頻捕獲設(shè)備存在的圖像壓縮損耗、噪點等問題,數(shù)據(jù)來源差異性較大,因此很難單獨采用基于運動的目標(biāo)檢測方法對教室人員進(jìn)行識別和統(tǒng)計.為了更好地進(jìn)行教室人員目標(biāo)檢測,本文在YOLO算法的基礎(chǔ)上進(jìn)行了改進(jìn).
一般將目標(biāo)檢測過程分為2個階段:目標(biāo)分類和目標(biāo)位置坐標(biāo)確定.在深度學(xué)習(xí)流行并擁有硬件支撐之前,常用的目標(biāo)檢測方法有如文獻(xiàn)[2]使用的方向梯度直方圖算法(histogram of oriented gradient,HOG)、文獻(xiàn)[3]使用的可變形組件模型(deformable part model,DPM)、文獻(xiàn)[4]使用的Haar算法等,其中HOG利用圖像的梯度數(shù)據(jù)反映目標(biāo)邊緣,并通過梯度大小提取圖像的特征,此算法中的不同尺度參數(shù)、梯度方向等均會對目標(biāo)檢測結(jié)果產(chǎn)生較大影響,抗干擾能力欠佳.DPM算法通過使用不同分辨率的濾波器進(jìn)行特征提取,相比單一HOG效率有所提高,但其參數(shù)設(shè)計極為復(fù)雜且應(yīng)對抖動、傾斜等穩(wěn)定性較差.Haar提出了積分圖的概念,并將圖像經(jīng)過積分計算得到的結(jié)構(gòu)劃分為不同種類的基本形態(tài)進(jìn)行識別,但由于其對明暗的敏感性,對于非正面人臉的識別效果較差.
隨著深度學(xué)習(xí)算法的不斷發(fā)展,基于深度學(xué)習(xí)的行人檢測算法取得了極大的進(jìn)展.該類算法主要可以分為有先驗框的兩階段方法和沒有先驗框的單階段方法.兩階段方法中經(jīng)典的算法有:文獻(xiàn)[5]提出的Mask-RCNN算法和文獻(xiàn)[6]使用的Faster R-CNN算法等.單階段方法中最流行的則是由文獻(xiàn)[7]所提出的YOLO算法,其中,單階段算法由于其效率高、準(zhǔn)確率高、便于訓(xùn)練的特點而處于主流地位.為了克服單階段方法中不同尺度和不同難度樣本偏差的問題,文獻(xiàn)[8]在YOLO算法思想的基礎(chǔ)上提出了使用特征金字塔(feature pyramid network,FPN)的多尺度特征提取的改良方案.雖然經(jīng)過多尺度圖像特征融合后該算法明顯提升了目標(biāo)識別的準(zhǔn)確率,但是其在處理帶有時間序列的數(shù)據(jù)時忽略了流式數(shù)據(jù)的時間連續(xù)性.于是,本文結(jié)合現(xiàn)有的圖像處理算法,利用對教室視頻捕捉設(shè)備能夠獲取到的流式數(shù)據(jù)進(jìn)行時間序列的遷移,改進(jìn)連續(xù)識別的算法規(guī)則,針對以監(jiān)控設(shè)備為主的邊緣端提出了基于目標(biāo)檢測的高性能教室人員目標(biāo)檢測算法.
本文提出的算法由生成對抗網(wǎng)絡(luò)(super resolution GAN,SRGAN)、YOLO、NMS和TSM組成,算法的框架圖如圖1所示.
圖1 基于目標(biāo)檢測和TSM的教室人員檢測框架Fig.1 Diagram of classroom personnel detection algorithm based on object detection and TSM
設(shè)在i時刻輸入具有不同長寬的圖像A,經(jīng)過目標(biāo)檢測后得到人員位置數(shù)據(jù).由圖1可知算法的流程如下:
首先,對輸入圖像A進(jìn)行LetterBox放縮至模型使用的傳入圖像尺寸,獲得相應(yīng)的放縮圖像A′.當(dāng)圖像在放縮時長寬比不滿足要求時將空出部分進(jìn)行純色填充以便于識別適配.
其次,使用SRGAN進(jìn)行圖像清晰化處理得到高清圖像A″用于進(jìn)行后續(xù)處理.
再次,利用改進(jìn)后的YOLO模型進(jìn)行多尺度特征提取和分類回歸,得到3種尺度下的檢測結(jié)果,合并為W.
然后,通過NMS方法對數(shù)據(jù)進(jìn)行清洗,得到當(dāng)前源人數(shù)Ci.
最終,通過TSM方法,使用之前的時間序列參考值得到修正人數(shù)CRi,并將其存儲于內(nèi)存中,供下一幀使用.
下面對所提算法的各個部分進(jìn)行詳細(xì)介紹.
由于在進(jìn)行教室人員目標(biāo)識別時,所采集的圖像往往會受到光照和燈光等因素的印象,尤其是晚上采集的視頻分辨率有所下降,因此本文采用文獻(xiàn)[9]提出的SRGAN算法對視頻數(shù)據(jù)進(jìn)行超分辨重建.SRGAN通過GAN來從低分辨率的圖像(low resolution,LR)生成高分辨率的圖像(high resolution,HR),其總體效果如圖2所示.
a.模糊圖片;b.高清圖片;c.SRGAN結(jié)果圖2 SRGAN超分辨率效果Fig.2 Visualization of SRGAN
GAN由生成器(generator,G)和判別器(discriminator,D)2個部分組成.本文將訓(xùn)練GAN網(wǎng)絡(luò),從而獲得一個最優(yōu)的生成器用以生成高清圖像.由于神經(jīng)網(wǎng)絡(luò)可抽象為通過輸入得到輸出的結(jié)構(gòu),可以將問題轉(zhuǎn)化為得到一個最優(yōu)的生成函數(shù)得以最好地使超分辨率結(jié)果接近真實情況,同時訓(xùn)練過程中需要得到一個最優(yōu)的判別函數(shù)以最好地鑒別出生成的圖片質(zhì)量.
(1)
在D部分,本文定義了鑒別器神經(jīng)網(wǎng)絡(luò)DθD用以完成最大最小博弈過程,如式(2).
(2)
其中,ptrain為圖片數(shù)據(jù)的分布.神經(jīng)網(wǎng)絡(luò)DθD為文獻(xiàn)[10]中給出的VGG網(wǎng)絡(luò),其卷積核大小為3×3,使用全連接網(wǎng)絡(luò)和LeakyReLU激活函數(shù)得到樣本的真實概率.
基于卷積神經(jīng)網(wǎng)絡(luò)的YOLO算法核心原理是將目標(biāo)檢測的問題轉(zhuǎn)化為回歸和分類的問題.不同于滑動窗口和區(qū)域劃分類型的算法和模型,YOLO算法使用整張圖進(jìn)行訓(xùn)練和預(yù)測,因此能夠通過更大的視野更好地區(qū)分整體和局部,從而避免因為背景(如墻、桌椅等)帶來的影響,具有非常高的泛化性能.同時,其單階段特征提取和識別的結(jié)構(gòu)相比RCNN等兩階段算法省去了第一階段生成預(yù)選框的操作,在效率上有大幅度地提升.模型的核心過程為:模型首先將圖像切分為S×S(不足使用純色填充)的正方形圖像,為每個小正方形預(yù)測B個預(yù)測框、置信度和C種分類可能性數(shù)值,最終得到S×S×(B*5+C)個張量數(shù)據(jù)[7].
YOLOv5是YOLO系列算法經(jīng)過多次改進(jìn)和迭代后的結(jié)果,本文在此基礎(chǔ)上添加了注意力塊,在目標(biāo)識別上能夠較好地確定目標(biāo).本文改進(jìn)后的YOLO模型結(jié)構(gòu)如圖3所示.
圖3 改進(jìn)YOLO網(wǎng)絡(luò)模型Fig.3 Model of improved YOLO
本文算法的骨干網(wǎng)絡(luò)采用的是Focus+BottleneckCSP卷積層,降低卷積維數(shù),有效減少了重復(fù)的梯度學(xué)習(xí),提升了YOLO網(wǎng)絡(luò)的學(xué)習(xí)能力和學(xué)習(xí)效果.同時為了兼顧復(fù)雜背景下識別的準(zhǔn)確率和效率問題,本文選用的注意力機制為擠壓和激發(fā)網(wǎng)絡(luò)[11](squeeze and excitation network,SE),其結(jié)構(gòu)如圖4所示.
圖4 SE網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Architecture of SE
由圖4可知,SE網(wǎng)絡(luò)將輸入通過1次平均池化后進(jìn)行全連接,然后經(jīng)過ReLU函數(shù)進(jìn)行激活后再次使用Sigmoid函數(shù)進(jìn)行激活.
改進(jìn)的YOLO算法多層次特征提取層部分使用特征金字塔網(wǎng)絡(luò)[8](feature pyramid network,FPN),生成特征金字塔,從而獲得高級語義特征圖,便于小目標(biāo)檢測的同時保證大目標(biāo)的檢測準(zhǔn)度;同時使用路徑聚合網(wǎng)絡(luò)[12](path aggregation network,PAN)進(jìn)行定位信息的補償避免特征和定位的模糊.該算法預(yù)測層(head)使用3個檢測器,利用基于網(wǎng)格的錨點在不同尺度的特征圖上進(jìn)行目標(biāo)檢測過程,最終獲取結(jié)果.YOLO模型中的激活函數(shù)使用帶有負(fù)值的線性激活函數(shù)以保留部分特征,其公式為
(3)
本文設(shè)置模型傳入圖像的大小為640×640,步長S為8.利用YOLO算法,能夠快速獲得目標(biāo)檢測的結(jié)果.在模型的訓(xùn)練過程中,本文標(biāo)記有候選框的位置為正例,沒有候選框的位置為負(fù)例.由此定義預(yù)測中正例被預(yù)測為正例為TP,正例被預(yù)測為負(fù)例為FN,負(fù)例被預(yù)測為負(fù)例為TN,負(fù)例被預(yù)測為正例為FP.由此可以得到2個指標(biāo):精確度(Precision,P)和召回率(Recall,R),其計算公式如式(4)和式(5).
(4)
(5)
對教室人員的計數(shù)由于其識別類型單一、基于時間而變化的特點和人員變動行為相對于捕獲設(shè)備緩慢的特點,當(dāng)因人員進(jìn)出而出現(xiàn)運動目標(biāo)時算法的檢測人數(shù)會圍繞真實值上下波動,然而在人員運動開始前和結(jié)束后均能得出準(zhǔn)確值.由此可見,能夠通過一定區(qū)間內(nèi)的時間序列進(jìn)行合并遷移從而得出精確的目標(biāo)檢測值.
本文基于遷移時間序列概念提出一種TSM算法,通過計算一定時間區(qū)間內(nèi)的統(tǒng)計平均值忽略不必要的上下文信息,做到不消耗額外時間,并且能夠有效進(jìn)一步改善遮擋、運動情況下帶來的統(tǒng)計精度不高的情況.TSM算法其計算公式最終的遞推公式如式(6),賦值公式為在計算出RCi后的公式(7).
(6)
Ci=RCi,
(7)
其中,RCi為i時刻經(jīng)過TSM方法計算得出的修正值,Ck(k1.4 NMS算法
采用改進(jìn)的YOLO算法對采集到的視頻流進(jìn)行逐幀識別檢測,由于模型可接受的圖像尺寸常常與實際輸入圖像不同,且傳統(tǒng)放縮將會造成圖像畸變,本文采用如文獻(xiàn)[13]提出的LetterBox放縮.計算總體縮放比例r和長寬各自縮放比例的公式如下:
(8)
非極大抑制[14](non maximum suppression,NMS)是常用的過濾無效值的方法,其使用基于交并比(intersection over union,IoU)閾值進(jìn)行判斷并去除低于閾值的候選項,IoU公式如式(9),其值為A、B交集的空間大小與A、B并集的空間大小之比.
(9)
本實驗在操作系統(tǒng)為Windows11的工作站上運行,其核心配置為Intel Core i7-10700 * 1, Nvidia RTX 2080Ti * 1以及32G的DDR4運行內(nèi)存.深度學(xué)習(xí)框架為Python3.7.8和Pytorch1.7.訓(xùn)練周期設(shè)置為70,批量訓(xùn)練大小為32,超分辨率部分的輸出圖像大小設(shè)置為640×640,目標(biāo)檢測部分設(shè)置檢測輸入大小設(shè)置為640×640,測試過程中置信度閾值設(shè)置為60%,IoU閾值設(shè)置為10%.
實驗所用的數(shù)據(jù)來自公開數(shù)據(jù)集Brainwash.實驗數(shù)據(jù)來自Brainwash數(shù)據(jù)集,拍攝內(nèi)容為標(biāo)注完成的咖啡館中出現(xiàn)的人群.該數(shù)據(jù)集包含3個部分,訓(xùn)練集共10 769張圖像81 975個人頭;驗證集為500張圖像3 318個人頭;測試集共500張圖像5 007個人頭.
為了有效地評估該算法在不同質(zhì)量數(shù)據(jù)源中識別的性能,客觀評價指標(biāo)采用5種不同的方法,如交并比(intersection over union,IoU)、精確度(Precision,P)、召回率(Recall,R)、平均準(zhǔn)確率(mean Average Precision,mAP)、F1指標(biāo),并通過可視化對比展示結(jié)果的差異性.這5種指標(biāo)中,精確度、召回率、平均準(zhǔn)確率和F1指標(biāo)越高且交并比越低表明頭部目標(biāo)識別的效果越好,識別結(jié)果的數(shù)量和位置越準(zhǔn)確,識別模型越穩(wěn)定.
本文同時對訓(xùn)練時的上述參數(shù)進(jìn)行計算以比較不同模型間的收斂速度和識別性能偏差.其中,mAP的計算公式如式(10),F1指標(biāo)計算公式如式(11).
(10)
(11)
其中,Pinter為P-R構(gòu)成的曲線通過計算每個R值對應(yīng)的P值.mAP用于計算在不同IoU置信度區(qū)間下模型的準(zhǔn)確率特性,F1指標(biāo)由調(diào)和級數(shù)導(dǎo)出,用于計算模型的穩(wěn)定程度.兩者越大說明算法的性能越好.
首先對超分辨率部分進(jìn)行采樣前后清晰度比較測試,圖5a-b為經(jīng)典的人像識別數(shù)據(jù)集BrainWash中選取的人群密集和稀疏時的典型圖像.所得超清圖像見圖5c-d,吊燈、人物部分能夠發(fā)現(xiàn)本文的算法能夠更清晰地表現(xiàn)圖像,更符合人眼特性,進(jìn)一步提升目標(biāo)檢測輸入質(zhì)量.具體細(xì)節(jié)舉例見圖5e-h.
圖5 Brainwash原始圖像和超清處理比較Fig.5 Comparison of super resolution method and Brainwash original image
然后對超清前后圖像傳入本文的YOLO模型進(jìn)行比較.圖6a-b為原始密集和稀疏人群圖像識別結(jié)果,圖6c-d為超清后密集和稀疏人群圖像識別結(jié)果.
圖6 Brainwash原始圖像和超清識別結(jié)果比較Fig.6 Comparison of detection results of super resolution method and Brainwash original image
從實驗結(jié)果中可以發(fā)現(xiàn),融合結(jié)果中人員頭部位置均定位準(zhǔn)確,而在目標(biāo)置信度上超清處理后的圖像普遍高于原始圖像.
通過訓(xùn)練文獻(xiàn)[7]提出的YOLO算法、文獻(xiàn)[15]提出的RetinaNet算法、文獻(xiàn)[16]提出的SSD算法,并和本文方法進(jìn)行比較,原始圖像和識別結(jié)果依次對應(yīng)圖7a-e,圖片選用Brainwash數(shù)據(jù)集中不同于圖6中的另一圖片.
圖7 Brainwash圖像和各算法識別的識別效果Fig.7 Detection effects of each method and Brainwash original image
在實驗結(jié)果中可以發(fā)現(xiàn),各種算法經(jīng)過相同數(shù)據(jù)集訓(xùn)練后識別效果類似,能夠發(fā)現(xiàn)本文的算法在平均置信度上結(jié)果更佳,并且在定位框位置上更精準(zhǔn),克服了置信度偏差較大導(dǎo)致的潛在漏檢或錯檢,對于處于移動狀態(tài)的人員目標(biāo)檢測也能夠取得較高準(zhǔn)確率.
同樣,表1給出了各種目標(biāo)檢測算法的客觀評價指標(biāo).由表1可知,本算法具有良好的客觀評價標(biāo)準(zhǔn).這也說明本算法不僅能夠發(fā)掘源圖像中潛在的目標(biāo)細(xì)節(jié)信息,很好地避免環(huán)境光、復(fù)雜背景等的干擾,并且對于不同復(fù)雜程度和人員的圖像識別具有魯棒性.
表1 圖7中各個算法效果基于Brainwash數(shù)據(jù)集的客觀評價指標(biāo)
最后在連續(xù)的視頻數(shù)據(jù)流應(yīng)用場景中,為了比較TSM算法對于誤差的有效修正,以及相比于文獻(xiàn)[17]提出的Deep-sort算法的優(yōu)越性,本文通過錄制教室人員從5人減少到1人時的視頻數(shù)據(jù),并通過使用不同方法進(jìn)行修正和不進(jìn)行修正的結(jié)果分析和比較.由表2中實驗結(jié)果統(tǒng)計數(shù)據(jù)可見,由于TSM算法不額外增加時間復(fù)雜度的特性,相比于基于圖像本身內(nèi)容的Deep-sort算法能夠更有效率且準(zhǔn)確率相近.因此TSM算法能夠在更短時間內(nèi)得到較為準(zhǔn)確的值,在教室環(huán)境下是一種比較好的高效修正算法.
表2 修正算法的客觀評價指標(biāo)
綜合上述實驗可見,本文所述教室人員目標(biāo)檢測方法各部分在實驗中都具有最好的綜合客觀評價標(biāo)準(zhǔn),所以綜合看來本文所提出的目標(biāo)檢測規(guī)則是一種較好且值得推廣的應(yīng)用于教室人員識別檢測中的方法.
提出了一種基于目標(biāo)檢測和遷移時間序列的教室環(huán)境下人員檢測方法.該方法有效地利用了超分辨率技術(shù)對于圖像細(xì)節(jié)的補充以及單階段方法對于特征提取和分類回歸的高效性.同時,通過加入注意力機制網(wǎng)絡(luò)增加了原目標(biāo)檢測模型的準(zhǔn)確度,又基于教室簡單環(huán)境和人員行為的特點提出TSM方法,進(jìn)而彌補了由于人員移動和模糊、重疊導(dǎo)致的識別不準(zhǔn)確問題,使得檢測能力進(jìn)一步增強,優(yōu)于文中單獨使用的目標(biāo)檢測和效率相對較低的Deep-sort算法.綜合上述實驗表明,該方法具有更好的精準(zhǔn)性和高效性,在教室環(huán)境下進(jìn)行人員目標(biāo)檢測更優(yōu)于目前比較流行的目標(biāo)檢測算法.