董勝 李鳳 劉守印
摘要:目前,基于深度學(xué)習(xí)提取人臉特征進(jìn)行人臉靜態(tài)圖片識(shí)別的方法,在Labeled Faces in the Wild(LFW)數(shù)據(jù)集等標(biāo)準(zhǔn)集上的正確識(shí)別率幾乎接近人類。但是在視頻流中,由于人體的不停運(yùn)動(dòng)和姿態(tài)偏移等問題.導(dǎo)致檢測(cè)到的部分人臉區(qū)域嚴(yán)重模糊和不完整,如監(jiān)控系統(tǒng)中的人臉。這種情況下,單純地采用基于圖片的人臉識(shí)別方法,準(zhǔn)確率會(huì)嚴(yán)重下降。在基于視頻流的人臉區(qū)域提取時(shí),本文提出采用單張人臉區(qū)域圖像的特征自相關(guān)指標(biāo)來衡量人臉的姿態(tài)以及模糊狀況,針對(duì)連續(xù)多幀中人臉區(qū)域圖像存在的信息冗余,提出利用連續(xù)多幀中人臉區(qū)域圖像的特征互相關(guān)指標(biāo)來衡量視頻流中人臉區(qū)域的變化程度。基于提出的自相關(guān)指標(biāo)與互相關(guān)指標(biāo),本文提出并實(shí)現(xiàn)了視頻流中適用于識(shí)別的人臉區(qū)域圖像的選取算法,以及加權(quán)投票的人臉識(shí)別算法。研究中收集并制作了基于視頻流的人臉數(shù)據(jù)集,驗(yàn)證了本文提出算法的可行性。實(shí)驗(yàn)表明,本系統(tǒng)在有較高的識(shí)別率的同時(shí),大幅度降低了人臉識(shí)別計(jì)算量,使得人臉識(shí)別可在視頻流中實(shí)時(shí)穩(wěn)定地進(jìn)行。
關(guān)鍵詞:視頻流;人臉識(shí)別;特征相關(guān)性;深度學(xué)習(xí)
0引言
隨著社會(huì)安防需求的增加,視頻監(jiān)控已經(jīng)越來越多地出現(xiàn)在各種公眾場(chǎng)所中,但對(duì)監(jiān)控視頻內(nèi)容的解讀工作仍然需要大量人工參與。實(shí)現(xiàn)視頻中的人臉實(shí)時(shí)識(shí)別,在犯罪嫌疑人搜索、失蹤人口尋找等領(lǐng)域都具有重大意義。而目前的監(jiān)控?cái)z像大多都只提供了事發(fā)之后查找求證的作用,并不能實(shí)時(shí)識(shí)別視頻內(nèi)容,發(fā)揮實(shí)時(shí)輔助公安偵查和自動(dòng)尋找目標(biāo)的作用。同時(shí),一些需要考勤的區(qū)域,比如公司、辦公場(chǎng)所、教室等人員密集地,點(diǎn)名或主動(dòng)簽到都將耗費(fèi)時(shí)間和人力,而且存在考勤時(shí)間不準(zhǔn)確的問題。
視頻流人臉識(shí)別主要分為人臉檢測(cè)和識(shí)別兩個(gè)步驟。人臉檢測(cè)首先從視頻幀中提取出人臉區(qū)域圖片,而識(shí)別步驟則是對(duì)提取出的人臉區(qū)域圖片進(jìn)行識(shí)別分類,得出結(jié)果。近年來,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNNs)應(yīng)用于人臉識(shí)別領(lǐng)域,大大提高了人臉檢測(cè)與識(shí)別的準(zhǔn)確率。
人臉檢測(cè)方面.基于CNNs的方法在Face Detection Data Set and Benchmark(FDDB)上已取得可觀進(jìn)展。其中,Cascaded CNN和MTCNN在檢測(cè)速度上表現(xiàn)優(yōu)異,可以在視頻流中獲得實(shí)時(shí)技術(shù)生成。Cascaded CNN利用級(jí)聯(lián)的CNNs進(jìn)行人臉檢測(cè),但其在檢測(cè)時(shí)需要對(duì)人臉框設(shè)計(jì)展開矯正,帶來額外的運(yùn)算量。MTCNN方法采用多任務(wù)的CNNs網(wǎng)絡(luò)提高人臉檢測(cè)的準(zhǔn)確率,該方法倍受業(yè)內(nèi)人士好評(píng)。因此,研究中將直接使用MTCNN方法從視頻幀中獲取人臉區(qū)域圖像。
人臉識(shí)別方面,目前較有影響的方法可參見文獻(xiàn)等。這些方法在LFW數(shù)據(jù)集上均已獲得了優(yōu)質(zhì)研發(fā)效應(yīng)。雖然基于深度學(xué)習(xí)提取人臉特征進(jìn)行人臉識(shí)別的方法解決了光照、表情、姿態(tài)等大部分難題,但在運(yùn)動(dòng)模糊、人臉姿態(tài)偏移過大、遮擋等出現(xiàn)頻次較高的情況下,識(shí)別效果仍然未能臻至理想。
視頻流中的人臉識(shí)別和單張靜態(tài)圖片的人臉識(shí)別在研究上則存在著顯著差異。視頻流中的人臉區(qū)域圖像,常常呈現(xiàn)像素低、模糊不清和姿態(tài)偏差大的特點(diǎn)。圖1即顯示了視頻中通過人臉檢測(cè)方法提取的連續(xù)幀人臉區(qū)域圖像。直接使用這些提取的人臉圖像進(jìn)行人臉識(shí)別,正確率偏低,無法應(yīng)用于實(shí)際。