馬元元,李成龍,湯 進,2*,羅 斌,2
(1.安徽大學 計算機科學與技術學院,安徽 合肥 230601;2.安徽省工業(yè)圖像處理與分析重點實驗室,安徽 合肥 230601)
隨著平安中國、平安城市的提出,視頻監(jiān)控被廣泛應用于各個領域,但是同時也帶來了一個問題:海量的視頻監(jiān)控流使得發(fā)生突發(fā)事故后,需要耗費大量的人力物力去搜索有效信息.若能對視頻中的行人進行有效的外觀識別,便可顯著提高視頻監(jiān)控人員的工作效率,這對特定行人搜索、行人行為解析、視頻的檢索等問題的研究也具有重要意義.在監(jiān)控視頻中,行人衣著是行人最重要的外觀特征,其顏色特征尤為直觀,所以準確地識別行人衣著顏色是件非常有意義的工作.而目前國內(nèi)對于監(jiān)控場景下行人的研究僅局限于行人檢測、行人分割、行人跟蹤,對行人外觀分析的研究很少,好的行人衣著識別方法更是屈指可數(shù).現(xiàn)階段,國內(nèi)外對于照片中的人物衣著識別已有比較成熟的技術[1-8],識別效果非??捎^.但是對高質(zhì)量的照片中人物衣著識別算法并不能直接應用于視頻監(jiān)控場景下行人的衣著識別,這主要是存在以下兩個問題:第一,通過視頻監(jiān)控捕獲的視頻圖像分辨率不高,對于算法中一些精細化的識別難度較大;第二,由于多數(shù)監(jiān)控攝像頭安裝在室外,所以行人所處的環(huán)境復雜多變(如霧天、雨天等惡劣天氣環(huán)境下光線的變換),這將導致獲取的視頻圖像失真.Yang等[3]利用多圖迭代優(yōu)化分割算法分割出衣著區(qū)域,然后構建了一個多圖模型,利用多張圖像的統(tǒng)計信息來優(yōu)化標注結(jié)果,識別效果很好,但是速度較慢,且要求背景簡單,圖像清晰.Chen等[4]提出了一種“與或圖”的組合圖模型對服裝的組合和配置進行建模.Yamaguchi等[5]則提出了一種針對時尚照片中人物的衣著識別方法,首先估計人物姿勢,再根據(jù)人物姿態(tài)去識別人物衣著,雖然具有很好的識別效果,但是同樣對照片質(zhì)量有較高的要求,只針對背景簡單的單人衣著進行識別.近期,還有一些工作專注于研究如何在高度遮擋的情況下對衣服進行分割[6],如引入可形變組合模型對衣著的空間關系進行建模[7],還有些識別方法通過引入基于形狀的人體模型[8]來提高衣著分割、識別的準確性.論文針對如何在視頻監(jiān)控場景下有效識別出行人衣著顏色這個問題進行研究,并提出一個簡單實用的可應用于視頻監(jiān)控場景下的行人衣著顏色識別算法.其具體思路為:首先結(jié)合HOG(histogram of oriented gradient)和Grabcut算法分割出行人區(qū)域,然后通過外觀劃分模型將上下身衣著分開,對上下衣著區(qū)域分別取固定大小的小塊進行分割,用KNN(K-nearest neighbor)分類器對每個小塊進行顏色識別,得出顏色標簽,最終通過所有小塊投票的方式來決定上下衣著的顏色.該算法的具體流程如圖1所示.
由于論文針對的是視頻監(jiān)控場景下行人衣著顏色識別,而在視頻圖像中,行人并不占據(jù)圖像的大部分.所以首先要確定行人的位置[9],然后通過分割算法獲得行人區(qū)域.由于只對行人進行處理操作,所以相應縮短了算法的處理時間,而且避免背景環(huán)境的干擾,大大提高了行人衣著顏色識別的準確性.
梯度方向直方圖特征(即HOG特征),是圖像識別中最經(jīng)典也是最常用的特征之一.HOG特征結(jié)合SVM(support vector machine)分類器[10]已被廣泛應用于圖像識別,并且在行人檢測中獲得了極大的成功.因此運用HOG行人檢測,先得到一個大致的包含行人的前景框.具體步驟如下:
步驟1 收集足夠的訓練樣本,手動剪裁出包含行人和不包含行人正負樣本,分別約為2 000張.
步驟2 將所有的樣本縮放到同樣的尺度大小,提取所有正樣本和負樣本的HOG特征.
步驟3 對所有正負樣本賦予樣本標簽(正樣本賦予1,負樣本賦予0).
步驟4 創(chuàng)建兩個矩陣,矩陣A存放所有樣本的HOG特征(行數(shù)為樣本個數(shù),列數(shù)為HOG特征的維數(shù)),矩陣B存放的是矩陣A每行對應的標簽(即為一個列向量).
步驟5 將這兩個矩陣放進SVM里訓練,最后得到一個適合自己樣本集分類的分類器.
步驟6 利用訓練好的分類器對行人進行檢測.
Grabcut是Rother Carsten等[11]提出的,它利用了圖像中的紋理顏色信息和邊界反差信息,只要用戶提供一個包含目標的前景框就能得到比較好的分割結(jié)果.Grabcut算法主要包括彩色數(shù)據(jù)建模和通過迭代實現(xiàn)能量最小化,得到分割結(jié)果[12-14].
在通過HOG行人檢測畫出前景框之后,再用Grabcut算法對行人進行一個精確的分割.具體步驟如下:
步驟1 首先將HOG行人檢測出的前景框擴大1倍,取原前景框內(nèi)的像素為前景,取擴大后的前景框與原前景框之間(藍框與紅框之間的區(qū)域,如圖2所示)的像素為背景,根據(jù)這個初始化,對前景和背景分別構建GMM(gaussian mixture model)模型.
步驟2 求得擴大后的前景框內(nèi)所有像素的GMM參數(shù),用最大流最小割算法進行分割.
步驟3 返回步驟2,直到能量函數(shù)最小化收斂為止.
為了準確地描述出行人衣著的顏色,在行人衣著顏色識別前需要對行人上下身進行分割.在以前的監(jiān)控視頻場景下行人衣著識別方法中,前人并沒有注意到上下身衣著劃分對后期顏色識別的重要性,一般都是按照比例進行劃分,這非常不符合實際生活中行人的穿衣類型的多樣性,所以識別結(jié)果準確率不夠高.而對于衣著分割,Hu等[15]提出了一種利用約束三角刨分檢測圖像中的前景和背景,再結(jié)合Graphcuts算法的衣著分割方法,但是該方法存在以下幾方面的局限性:第一,文中默認行人衣服為純色,袖子和身上衣服顏色是一致的;第二,該方法需要檢測人臉,若檢測失敗,將導致衣著分割不準確;第三,該方法基于軀干檢測,若軀干檢測不準確,也將導致衣著分割不準確.通過對前人的算法進行研究,論文提出了一種基于外觀劃分模型的衣著分割方法.其具體思路為:得到大致的行人區(qū)域之后,首先根據(jù)分割行人區(qū)域?qū)腞GB分量求出顏色變化的梯度圖,然后對顏色變化梯度圖做橫向投影分析,得到上下身衣著劃分線.為了確保劃分的準確性,論文設定了劃分位置閾值,以保證劃分位置在上下身衣著分界線可能的位置.效果如圖3所示.
在分割出行人的上下身之后,傳統(tǒng)的方法是直接對上下裝分割區(qū)域提取顏色直方圖,然后放入分類器中去判別,最后給出識別結(jié)果.但由于并沒有精確分割出行人衣著,所以提取的顏色直方圖并不是單一的僅包含衣著區(qū)域的顏色特征,不能反映衣著顏色特征,這將很難保證算法的正確率.故本節(jié)運用一種投票思想設計了一種衣著顏色識別方法.
由于上身和下身的面積不同,受光照影響程度不同,所以作者分別收集了上下身訓練樣本,用KNN分類器分別對上下身著裝進行顏色識別.首先,根據(jù)第1節(jié)的處理步驟,得出行人上身和下身分割圖;接著,分別對上下身取固定大小的小塊(效果如圖4所示);然后,取小塊中每個像素的RGB三通道值,求得RGB均值作為該小塊的顏色特征,用KNN分類器識別出每個小塊的顏色標簽;最后,將每個小塊作為一個投票者,每種顏色標簽為一個候選者,統(tǒng)計整個上身區(qū)域小塊的投票,進行投票,顏色候選者中票數(shù)最多者便為衣服的顏色標簽.
對于小塊的大小對實驗結(jié)果的影響問題,取小塊大小為3*3、3*5、5*10做了3組對比實驗,不同大小的小塊與識別的正確率如表1所示.實驗表明小塊的大小對最終衣著顏色識別的正確率確有影響(如當顏色為深灰色時,小塊過大會將其識別為黑色;當顏色為黑色時,小塊過小則會將其識別成紫色).在論文中,小塊大小取3*5.
表1 小塊大小與正確率的關系Tab.1 The relation between the size of path and accuracy
作者在馬路邊架設了監(jiān)控攝像頭,收集了2 560個行人上身已知樣本和1 135個下身已知樣本,總共分為11個顏色種類,分別為紅色、黃色、橘色、藍色、綠色、灰色、咖啡色、白色、黑色、紫色、粉色,每種顏色的上下身樣本個數(shù)如表2、3所示.為了驗證論文方法的有效性,在pentium Dual-core(E5800)3.2GHz的CPU,2GB內(nèi)存的PC機上,以.NET為實驗平臺,使用C++編程語言在 Microsoft vs 2010實驗環(huán)境下完成了驗證實驗.
表2 各色上身樣本個數(shù)Tab.2 The number of samples with the upper part of the body
表3 各色下身樣本個數(shù)Tab.3 The number of samples with the lower part of the body
由于國內(nèi)外行人衣著顏色識別并不多[16-17],所以針對監(jiān)控場景下的行人衣著識別便更少.國內(nèi)胡江華等做了一些相關工作,主要是針對監(jiān)控場景下的行人衣著顏色識別,其他的大部分都是針對一些街拍圖片,所做的研究大多為了進一步做服裝檢索[18-19].所以實驗對象不同,運用場景不同.胡江華等[20]首先結(jié)合形狀約束對Graphcuts分割算法進行改進,使其能夠更加完整地分割出圖像中的行人,然后在不考慮遮擋的情況下,根據(jù)正常人的身高比例直接劃分上衣與下衣,然后提取衣著顏色特征,直接放入分類器中去做判別,最終得出上衣與下衣的顏色標簽.
與胡江華等人所做的衣著顏色的識別方法相比,論文提出的外觀劃分模型更為合理且簡單有效,不僅僅只是按比例劃分.因為上下身衣著的比例是由多種因素決定的,如衣著類型、攝像機角度等,因此,單純按比例劃分很難保證上下身衣著劃分的準確性,會影響后面的識別精度.而且論文在衣著識別階段采用了所有小塊投票的方式?jīng)Q定最終衣著的顏色,能夠很好地解決部分遮擋對衣著顏色識別的干擾,提高了識別的準確性.表4為對比實驗結(jié)果.實驗表明,論文方法具有更高的準確性.
表4 識別階段對比Tab.4 The correct rate’s comparision of different algorithms %
由于RGB顏色空間是受光照影響的,因此,在光照變化非常大的時候論文方法的魯棒性會降低,然而論文使用了不同光照條件下的樣本作為訓練樣本,使得論文方法能夠克服一定的光照變化.為了驗證該方法的有效性,作者在正常光照條件下對行人衣著進行識別,部分實驗結(jié)果可見圖5(其中:第一行圖為原圖像,第二行圖為識別結(jié)果圖).在較為昏暗的光照條件下(這里指傍晚的時候)行人的衣著顏色識別的部分實驗結(jié)果可見圖6(其中:第一行圖為原圖像,第二行圖為識別結(jié)果圖).由部分實驗結(jié)果可以看出,識別精度令人滿意.
實驗證明,作者提出的方法是有效可行的,在收集的數(shù)據(jù)集上的上衣正確識別率可達89%,下衣識別正確率可達87%.對于一幅分辨率為90×190左右的行人檢測結(jié)果圖像,行人分割、外觀劃分和衣服識別的平均耗時為0.45秒.由于處理的圖像分辨率為1 980×1 080,因此,行人檢測算法(HOG算法)平均耗時較大,為2.55秒.具體的運行時間如表5所示.一方面,論文是針對關鍵幀的行人衣著顏色識別問題,該運行時間可以滿足實際視頻監(jiān)控的需求.另一方面,可以從其他方面進一步改善目前的算法復雜度,同時保證檢測精度,如降低圖像分辨率以及HOG算法的GPU并行化等.
表5 論文方法各階段時間Tab.5 The running time in each stage of the algorithm
在視頻監(jiān)控中,一般情況下行人之間存在遮擋的情況,但是論文方法對部分遮擋具有一定的魯棒性,如圖7中,當行人被物體部分遮擋時,只要遮擋不是很嚴重(約一半以上未被遮擋),識別結(jié)果仍然正確,表明了論文方法在部分遮擋情況下的魯棒性.對于嚴重遮擋的情況,可以通過視頻的時序信息進行檢測,根據(jù)遮擋結(jié)果來決定是否對目標進行識別,這是作者的下一步研究工作.
但值得注意的是,以上的較好的識別都是基于正確的行人分割和正確的上下身衣著劃分,二者任意一個出現(xiàn)錯誤,都會導致識別結(jié)果出錯.例如嚴重的錯誤分割會使得識別結(jié)果出錯,如圖8所示.這也是該方法的局限所在.
作者提出了一種新的視頻監(jiān)控中的行人衣著識別方法.首先通過HOG行人檢測算法檢測出行人,提取出包含行人的前景框;然后用Grabcut算法分割出行人的輪廓,用上下身劃分方法分出上身和下身;最后在上下身取小塊,對每個小塊的顏色進行識別,然后通過投票的方式計算上下身的顏色標簽.
在論文的實驗中,行人分割花費時間較大,且上下身劃分結(jié)果對識別精度影響較大.所以,在未來的工作中,應著重考慮如何建立更加魯棒的外觀劃分模型以及有效的分割算法,以提高顏色識別的效率和正確率.
[1]Yamaguchi K,Kiapour M H,Berg T L.Paper doll parsing:Retrieving similar styles to parse clothing items[C]//Computer Vision(ICCV),2013IEEE International Conference on IEEE,2013:3519-3526.
[2]Kalantidis Y,Kennedy L,Li L J.Getting the look:clothing recognition and segmentation for automatic product suggestions in everyday photos[C]//Proceedings of the 3rd ACM Conference on Lnternational Conference on Multimedia Retrieval ACM,2013:105-112.
[3]Yang W,Luo P,Lin L.Clothing co-parsing by joint Image segmentation and labeling[C]//IEEE Conference on Computer Vision and Pattern Recognition,2014:407.
[4]Chen H,Xu Z J,Liu Z Q,et al.Composite templates for cloth modeling and sketching[C]//Computer Vision and Pattern Recognition,2006IEEE Computer Society Conference on IEEE,2006:943-950.
[5]Yamaguchi K,Kiapour M H,Ortiz L E,et al.Parsing clothing in fashion photographs[C]//Computer Vision and Pattern Recognition(CVPR),2012IEEE Conference on IEEE,2012:3570-3577.
[6]Wang N,Ai H.Who blocks who:Simultaneous clothing segmentation for grouping images[C]//Computer Vision(ICCV),2011IEEE International Conference on IEEE,2011:1535-1542.
[7]Hasan B,Hogg D.Segmentation using deformable spatial priors with application to clothing[C]//The British Machine Vision Conference(BMVC),2010:1-11.
[8]Bo Y,F(xiàn)owlkes C C.Shape-based pedestrian parsing[C]//Computer Vision and Pattern Recognition(CVPR),2011IEEE Conference on IEEE,2011:2265-2272.
[9]劉紅,周曉美,張震.一種改進的三幀差分運動目標檢測[J].安徽大學學報:自然科學版,2014,38(6):55-59.
[10]Dollar P,Wojek C,Schiele B,et al.Pedestrian detection:an evaluation of the state of the art[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,2012,34(4):743-761.
[11]Rother C,Kolmogorov V,Blake A.Grabcut:Interactive foreground extraction using iterated graph cuts[J].ACM Transactions on Graphics(TOG),2004,23(3):309-314.
[12]胡江華,王文中,羅斌,等.結(jié)合形狀約束的 Graph Cut行人分割[J].計算機應用,2014,34(3):837-840.
[13]朱逸婷,李新華,任慧.一種改進的分水嶺分割算法[J].安徽大學學報:自然科學版,2013,37(3):56-60.
[14]王徐民,張曉光.視覺注意特征的變分水平集圖像分割模型[J].安徽大學學報:自然科學版,2013,37(1):61-66.
[15]Hu Z L,Yan H,Lin X.Clothing segmentation using foreground and background estimation based on the constrained delaunay triangulation[J].Pattern Recognition,2008,41(5):1581-1592.
[16]Brown L M.Color retrieval for video surveillance[C]//Advanced Video and Signal Based Surveillance,IEEE Fifth International Conference on IEEE,2008:283-290.
[17]Borras A,Tous F,Llads J,et al.High-level clothes description based on colour-texture and structural features[J].Pattern Recognition and Image Analysis,2003(1):108-116.
[18]楊巍.基于圖像聯(lián)合分割與聯(lián)合標注的服裝解析問題研究[D].廣州:中山大學計算機學院,2014.
[19]Van De Weijer J,Schmid C,Verbeek J.Learning color names from real-world images[C]//Computer Vision and Pattern Recognition,CVPR'07,IEEE Conference on,IEEE,2007:1-8.
[20]胡江華.靜態(tài)圖像的行人分割及其應用[D].合肥:安徽大學計算機科學與技術學院,2014.