畢君郁
摘? ?要:我國每年失蹤兒童約有20萬人,如何利用人工智能技術(shù)尋找走失兒童是社會討論的熱點問題。首先,文章將行人檢測和行人重識別相結(jié)合,建立了端到端的行人搜索框架,并使用OIM監(jiān)督學(xué)習(xí)。然后,在Person Search數(shù)據(jù)集上進行訓(xùn)練后,分別用兒童和成年人的圖片作為輸入進行測試。最后,根據(jù)評價指標(biāo)證明文章的搜索框架有70%以上的成功率,且兒童比成年人更加難以搜尋。
關(guān)鍵詞:行人重識別;行人檢測;尋找走失兒童;深度學(xué)習(xí)
1? ? 行人重識別技術(shù)
如何利用人工智能技術(shù)尋找走失兒童一直是社會關(guān)注的熱點問題,行人重識別是利用計算機視覺技術(shù)判斷圖像或者視頻序列中是否存在特定行人的技術(shù)。雖然現(xiàn)今已經(jīng)提出了大量的行人重識別方法,但是還是很難被應(yīng)用到現(xiàn)實世界中,因為行人重識別的研究使用的數(shù)據(jù)集大多數(shù)是手工剪切過的圖片,如圖1所示。
可見,行人重識別是在假設(shè)行人檢測已經(jīng)做得完美的基礎(chǔ)上做的重識別研究。而想要實現(xiàn)尋找走失兒童,必須將行人檢測和行人重識別相結(jié)合,所以本文使用一個端到端的行人搜索框架,其在一個卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)中處理這兩個任務(wù),省去了模塊間的操作。
本研究CNN包括兩個部分:行人候選網(wǎng)絡(luò)和身份識別網(wǎng)絡(luò)。給定一個輸入圖像,通過行人候選網(wǎng)絡(luò)生成候選行人的包圍框,然后將候選行人放入身份識別網(wǎng)絡(luò)來提取特征,與目標(biāo)行人進行比較。行人候選網(wǎng)絡(luò)和身份識別網(wǎng)絡(luò)在訓(xùn)練時可以互相適應(yīng),例如:行人候選框會優(yōu)先提高召回率而不是準(zhǔn)確率,因為召回率變高則假正例率也會變高,而這些假正例(非行人卻被誤認(rèn)為是行人的候選框)會在身份識別網(wǎng)絡(luò)中被剔除。
傳統(tǒng)的重識別特征學(xué)習(xí)主要使用Pair wise或者Triplet損失函數(shù),然而,這兩種損失函數(shù)都不是非常有效,因為每次比較的樣本數(shù)量較少。而另一個方法是用Softmax損失函數(shù)來分類標(biāo)識,此函數(shù)可以同時比較所有的樣本。但是當(dāng)類別增加時,訓(xùn)練會變得非常緩慢,甚至無法收斂。所以本研究使用在線實例匹配(Online Instance Matching Loss,OIM)損失函數(shù)[1]來訓(xùn)練該網(wǎng)絡(luò)。OIM損失函數(shù)適用于類別較多、每類樣本又較少的分類問題。
2? ? 相關(guān)工作
2.1? 行人重識別
傳統(tǒng)的行人重識別采取的方法是:手工設(shè)計特征值、手工將攝像機視角轉(zhuǎn)化成特征值、手工設(shè)計距離度量函數(shù)(損失函數(shù))。后來提出使用基于深度學(xué)習(xí)的方法來處理上述方面,Li等[1]設(shè)計了CNN模型,其輸入的是裁剪過的行人圖片,使用二進制驗證損失函數(shù)來訓(xùn)練網(wǎng)絡(luò)參數(shù)。Cai等[2]使用Triplet來訓(xùn)練CNN以使同一行人的圖片的特征值盡可能相似,不同行人圖片之間的特征值盡可能相異(同小異大原則)。
近期還有許多工作關(guān)注于非正常圖片的行人重識別,如:分辨率低、局部遮擋的圖片。
2.2? 行人檢測
傳統(tǒng)方法中,DPM,ACF和Checkerboards是最常用的行人檢測器,依靠手工制作和線性分類器來檢測行人。近年來,基于CNN的行人檢測器也得到了發(fā)展[3],眾多學(xué)者研究了包括CNN模型結(jié)構(gòu)、訓(xùn)練數(shù)據(jù)和不同訓(xùn)練策略在內(nèi)的各種因素。
2.3? 尋找走失兒童
現(xiàn)有許多不同方向針對尋找走失兒童的研究工作開展,例如:跨年齡人臉識別、人臉重建、人臉老化等,但是針對兒童的數(shù)據(jù)集較少,并且兒童成長面部變化較大,所以這方面研究還面臨著巨大的挑戰(zhàn)。
3? ? 本文算法結(jié)構(gòu)
本文的CNN結(jié)合了行人檢測和行人重識別網(wǎng)絡(luò),結(jié)構(gòu)如圖2所示,輸入一張完整的圖像后,經(jīng)過特征提取網(wǎng)絡(luò)將像素矩陣轉(zhuǎn)換成卷積特征圖后,行人候選網(wǎng)絡(luò)將此作為輸入來預(yù)測行人的邊界框。然后,將其輸入到具有RoI-Pooling的身份識別網(wǎng)絡(luò)中,為每個邊界框包圍的行人提取256維的特征向量。在尋人階段,根據(jù)目標(biāo)行人和候選行人的特征向量之間的距離進行排名。在訓(xùn)練階段,研究使用OIM損失函數(shù)來監(jiān)督網(wǎng)絡(luò)。
3.1? 模型結(jié)構(gòu)
特征提取網(wǎng)絡(luò):采用ResNet-50作為CNN模型的基礎(chǔ)。首先是一個7×7的卷積層,其次是4個block,分別包含3,4,6,3個殘差單元。本研究把以上作為主干部分。給定輸入圖像,能夠產(chǎn)生的特征圖有1 024個channels,分辨率是原圖的1/16。
行人候選網(wǎng)絡(luò):首先通過512×3×3的卷積層提取出行人特征,按照每個特征圖的位置關(guān)聯(lián)9個anchors。然后使用Softmax分類器來判斷是否為行人,同時通過線性回歸來調(diào)整他們的位置。最后,選出128個邊界框。
身份識別網(wǎng)絡(luò):用于提取每個候選區(qū)的特征,并和目標(biāo)特征對比。首先利用ROI-Pooling從每個候選區(qū)的特征圖中池化得到一個1 024×14×14的區(qū)域。然后,將這些區(qū)域通過ResNet-50中的con4_4到conv5_3。最后通過全局的平均池化層匯總成2 048維特征向量。
一方面,因為行人檢測不可避免地會有錯誤或偏差,所以使用Softmax分類器去除無行人的邊界框,使用線性回歸矯正偏差的邊界框。另一方面,在推理階段,將這些特征放到L2正則化的256維子空間中,并且計算其與目標(biāo)行人的余弦相似度。在訓(xùn)練階段,用OIM和其他損失函數(shù)進行監(jiān)督,用多任務(wù)學(xué)習(xí)方式聯(lián)合訓(xùn)練。
3.2? 損失函數(shù)OIM
因為目標(biāo)是區(qū)分不同的人,所以應(yīng)該盡量減少同一行人的個體之間的差異,同時增大不同行人之間的差異。思想有點類似Triplet損失函數(shù),但是為了解決Triplet損失函數(shù)訓(xùn)練樣本少導(dǎo)致迭代次數(shù)過多的問題,OIM建立了一張查詢表(假設(shè)訓(xùn)練集中有L個身份)和一個循環(huán)隊列,其中D為特征向量的維數(shù),Q為隊列大小。查詢表用來存儲有注釋身份的行人特征,循環(huán)隊列用來存儲無注釋身份的行人特征。
候選內(nèi)容(經(jīng)過行人候選網(wǎng)絡(luò)得到的候選框中的內(nèi)容)有3種類型:有注釋身份的行人,無注釋身份的行人和非行人。當(dāng)候選內(nèi)容為有注釋身份的行人時,將其放入查詢表并分配一個ID(從1到L);當(dāng)候選內(nèi)容為無注釋身份的行人時,將其放入循環(huán)隊列。OIM不需要考慮候選內(nèi)容是背景的情況,因為其在分類中會被自動篩除。
對于查找表,正向傳播過程時,計算訓(xùn)練樣本和查找表的余弦距離。在反向傳播過程中,如果目標(biāo)的ID為t,將查找表中ID為t的向量vt更新為γvt+(1-γ)x,其中γ∈[0,1],x為訓(xùn)練樣本的特征向量,。
對于循環(huán)隊列,同樣計算訓(xùn)練樣本和循環(huán)隊列的余弦距離,每次迭代后,將新的特征向量存入隊列,同時彈出過期的特征向量以保持隊列大小不變。
基于上述兩個數(shù)據(jù)結(jié)構(gòu),OIM定義Softmax函數(shù)將x識別為查找表中ID為i的可能性為:
(1)
其中,τ控制概率密度的平緩程度,實驗設(shè)置為0.1。同樣,Softmax函數(shù)將x識別為循環(huán)隊列中第i的可能性為:
(2)
OIM的目標(biāo)是最大化期望對數(shù)似然函數(shù):
(3)
對x的梯度可以表示為:
(4)
所以,從公式(1—2)可以看出,OIM損失函數(shù)有效地將訓(xùn)練樣本和有注釋身份的行人、無注釋身份的行人進行了對比,即實現(xiàn)了縮小相同ID人的特征距離,同時增大不同ID的人的特征距離的目的。
4? ? 實驗結(jié)果和分析
本文選擇在Person Search數(shù)據(jù)集上進行訓(xùn)練,此數(shù)據(jù)集是一個大規(guī)模且場景多樣化的人員搜索數(shù)據(jù)集,其中包含18 184張圖像,8 432個身份和99 809個帶注釋的邊界框。隨后,將測試集中的查詢對象分成全部為兒童和全部為成年人,分別對模型進行測試。最后,根據(jù)實驗結(jié)果(返回的搜索圖像和各評價指標(biāo))進行比較和分析。
4.1? 測試結(jié)果
從實驗結(jié)果來看,搜索準(zhǔn)確率較高,候選框非常貼合行人,測試結(jié)果中有很多令人滿意的結(jié)果,如圖3所示。
但是,對于一些被遮擋,或者行人姿勢不太好的情況,也會影響測試的結(jié)果,如圖4所示。
可見,在衣著顏色比較特別、查詢圖像是正面且沒有遮擋的情況下,人員搜索成功概率將大大提高。
4.2? 模型評價指標(biāo)和比較分析
本文選擇大部分行人重識別研究選擇的評價指標(biāo):平均精度(Mean Average Precision,mAP)和累計匹配曲線(Cumulative Match Characteristic,CMC)top-1,查詢對象為兒童和成年人時,算法的mAP和CMC top-1如表1所示。
可見,無論mAP還是CMC top-1,結(jié)果都在70%以上,證明算法效果較好,已經(jīng)可以在實際問題中提供一些幫助。但是對比來看,在各種評價指標(biāo)中,搜索成年人比搜索兒童的效果都要好,原因是兒童身高不高,在圖像中所占像素較少,在檢測時可能會被忽略,且兒童的衣著較為統(tǒng)一,不同兒童之間差別較小,特征不明顯。所以,通過行人重識別解決兒童走失問題還是一個具有挑戰(zhàn)性的研究。
5? ? 結(jié)語
為了尋找走失兒童,本文將行人檢測和行人重識別相結(jié)合,建立了端到端的行人搜索框架,并使用OIM損失函數(shù)進行監(jiān)督。在實驗中,測試了行人搜索框架,發(fā)現(xiàn)mAP和CMC top-1都在70%以上,證明本文算法能夠應(yīng)用在尋找走失兒童中。研究還發(fā)現(xiàn),行人搜索框架尋找成年人的成功率比尋找兒童的成功率高10%左右。如何調(diào)整網(wǎng)絡(luò)結(jié)構(gòu),使行人搜索框架能更加針對兒童,是下一步需要研究的方向。
[參考文獻]
[1]LI W,ZHAO R,XIAO T,et al.Deepreid:deep?lter pairing neural network for person re-identi?cation[C].Columbia:IEEE Conference on Computer Vision and Pattern Recognition,2014.
[2]CAI Z,SABERIAN M,VASCONCELOS N.Learning complexity-aware cascades for deep pedestrian detection[C].Beijing:IEEE International Conference on Computer Vision,2015.
[3]FELZENSZWALB P F,GIRSHICK R B,MCALLESTER D,et al.Object detection with discriminatively trained part-based models[J].IEEE Transactions on Software Engineering,2010(9):1627-1645.
Analysis of the application of human search framework combined with
pedestrian detection and recognition in the search of lost children
Bi Junyu
(School of Computer Science and Technology, Tiangong University, Tianjin 300387, China)
Abstract:There are about 200 000 missing children in our country every year, how to use artificial intelligence technology to find lost children is a hot topic in social discussion. Firstly, this paper combines pedestrian detection and pedestrian recognition to establish an end-to-end pedestrian search framework and uses OIM to supervise learning. Secondly,after training on the Person Search dataset, the childrens and adults pictures were tested as input, respectively. Finally, according to the evaluation index, the search framework of this paper has more than 70% success rate, and children are more difficult to search than adults.
Key words:pedestrian recognition; pedestrian detection; search for lost children; deep learning