汪建 方洪鷹
摘要:精細(xì)化管控在建設(shè)行業(yè)中的作用日益突出,其核心是安全質(zhì)量監(jiān)管。本文首次將圖像處理技術(shù)和數(shù)據(jù)挖掘技術(shù)應(yīng)用到安全監(jiān)管中,研討了將碼本運(yùn)算、HOG運(yùn)算、SVM運(yùn)算融為一體進(jìn)行人體圖像挖掘的可能性,提出基于多姿態(tài)人體安全帽檢測(cè)技術(shù),并且通過試驗(yàn)證明該算法的實(shí)用性和有效性。
關(guān)鍵詞:人體識(shí)別;碼本;方向梯度直方圖;支持向量機(jī)
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2015)31-0152-04
Application of Figure Recognition Technology in Safety Production
WANG Jian1,F(xiàn)ANG Hong-ying2
(1.College of Computer Science and Technology,Chongqing University of Posts and Telecoms,Chongqing 400065;2.College of Science,Chongqing Jiaotong University,Chongqing 400074)
Abstract:The role of fine management in the construction industry is increasingly prominent, and its core is the safety and quality supervision. In this paper, the image processing technology and data mining technology will be applied to the security supervision at first, and the possibility of human image mining based on the integration of Code Book, HOG and SVM will be discussed as well. At last the human body detection technology based on multi-gesture will be performed and its utility and effectiveness of the algorithm will be proved by experiments.
Key words:figure recognition; code book; hog; SVM
近年來,隨著物聯(lián)網(wǎng)、大數(shù)據(jù)等技術(shù)的成熟和普及,建設(shè)行業(yè)中的精細(xì)化管控手段的作用和重要性日漸突出?,F(xiàn)代的安全管控體系衍變成了由“人防”和“技防”相結(jié)合的綜合監(jiān)管系統(tǒng)。
精細(xì)化管控的核心是安全質(zhì)量監(jiān)管,涉及“安全”和“質(zhì)量”兩方面內(nèi)容,具體落實(shí)到生產(chǎn)環(huán)節(jié)中的“人、機(jī)、物料”三個(gè)要素,物聯(lián)網(wǎng)技術(shù)在其中起的至關(guān)重要的作用。比如:傳統(tǒng)的施工設(shè)備或配料設(shè)備借助于物聯(lián)網(wǎng)技術(shù),實(shí)時(shí)的匯報(bào)工作狀態(tài),出現(xiàn)偏差,可以及時(shí)糾正;萬一產(chǎn)生問題,保存的歷史數(shù)據(jù),也可以作為問題溯源的依據(jù)。精細(xì)化管控等內(nèi)容非常豐富,本文研究的重點(diǎn)是如何利用現(xiàn)代視頻處理技術(shù)為施工人員提供安全保障。
隨著硬件價(jià)格降低和互聯(lián)網(wǎng)環(huán)境的改善,絕大多數(shù)建設(shè)施工現(xiàn)場(chǎng)都安裝配備的攝像頭,但是其作用主要是用于防盜和事后查找問題追責(zé)?,F(xiàn)在我們的目的是要變被動(dòng)為主動(dòng),以圖像處理技術(shù)和數(shù)據(jù)挖掘技術(shù)為依托對(duì)視頻大數(shù)據(jù)進(jìn)行實(shí)時(shí)分析,識(shí)別出危險(xiǎn)行為并加以提醒。
1 系統(tǒng)體系結(jié)構(gòu)
整個(gè)安全管控系統(tǒng)分為五個(gè)部分:視頻數(shù)據(jù)采集、圖像分離、人像特征挖掘、人像庫建立和危險(xiǎn)行為識(shí)別,如圖1所示。
圖1 安全管控系統(tǒng)系統(tǒng)體系
其中視頻數(shù)據(jù)采集和圖像分離兩個(gè)階段實(shí)現(xiàn)了基礎(chǔ)數(shù)據(jù)的粗加工,視頻數(shù)據(jù)采集模塊為系統(tǒng)提供實(shí)時(shí)的視頻信息數(shù)據(jù)流,圖像分離實(shí)現(xiàn)了圖像中前景和背景的分離,為進(jìn)一步進(jìn)行人像的提取奠定了基礎(chǔ)。
人像特征挖掘階段尤為重要,此時(shí)系統(tǒng)要將識(shí)別出來的物體運(yùn)行分類定性,可以運(yùn)用多種數(shù)據(jù)挖掘方法(監(jiān)督的和非監(jiān)督的)進(jìn)行分類,也可以融入的機(jī)器自學(xué)習(xí)理論運(yùn)行分類的優(yōu)化。人像特征挖掘不但要進(jìn)行人像識(shí)別,更重要的是要形成便于存儲(chǔ)、傳輸和共享的人像特征庫,便于在多通道視頻輸入環(huán)境下進(jìn)行各分布式分類器同時(shí)進(jìn)行處理。
上述過程的完成僅僅是實(shí)現(xiàn)了從復(fù)雜背景圖像中提取人像的任務(wù),接下來的任務(wù)是對(duì)生產(chǎn)環(huán)節(jié)中人員的著裝、佩戴的安全裝備和行為動(dòng)作等關(guān)鍵的安全要素進(jìn)行識(shí)別和處理。
2 圖像分離
圖像分離技術(shù)包括靜態(tài)圖像分離和動(dòng)態(tài)圖像分離兩個(gè)方面。靜態(tài)圖像分離可以采取的手段并不多,主要集中在圖像分割技術(shù)的討論,包括閾值分割、區(qū)域分割、邊緣分割和直方圖法。近年針對(duì)人體特征的分割技術(shù)有了一些進(jìn)展,出現(xiàn)了Magic Wand[1]、Intelligent Scissors[2]、Active Contour Model[3]、Graph Cut和Level Set[4]等一系列有代表性的算法。但是無論上述哪種算法都是基于單張圖像有限的圖元信息進(jìn)行分析,局限性比較大,比如:Graph Cut算法是基于圖像的顏色進(jìn)行分析,如果前景和背景顏色比較接近時(shí),就無法得到完整的人像輪庫;Level Set算法無法處理模糊的和有噪聲干擾的圖像。
本文的數(shù)據(jù)來源是連續(xù)視頻信息,可以利用多幀圖像信息的關(guān)聯(lián)性將人像從背景中準(zhǔn)確的提取出來。提取出來的圖像沒有背景的干擾,求取出來的特征值將更具有代表性。現(xiàn)有的運(yùn)動(dòng)圖像前景提取算法包括:背景差分法、幀間差分法、光流法[5]、能量分析法和碼本法[6]等。
2.1 光流法
真實(shí)的物體運(yùn)動(dòng)是在三維空間中進(jìn)行的,可以用運(yùn)動(dòng)場(chǎng)來表示,而視頻錄像卻是二維平面圖像,物體的運(yùn)動(dòng)是通過計(jì)算各個(gè)像素點(diǎn)色彩(為了減少計(jì)算量,往往采用灰度進(jìn)行計(jì)算)的變化趨勢(shì),從而得到運(yùn)動(dòng)矢量來體現(xiàn)的。從三維空間到二維平面的映射,即是運(yùn)動(dòng)場(chǎng)到光流場(chǎng)(Optical Flow Field)的轉(zhuǎn)換。光流法即是利用多幀連續(xù)圖像序列來計(jì)算各個(gè)像素點(diǎn)的運(yùn)動(dòng)矢量,從而為真實(shí)的運(yùn)動(dòng)進(jìn)行近似估計(jì)的方法。
光流法分離前景的最大特點(diǎn)是:該算法能夠獨(dú)立檢測(cè)運(yùn)動(dòng)目標(biāo),甚至可以精確地計(jì)算出目標(biāo)的運(yùn)動(dòng)速度而不需要任何先驗(yàn)的背景信息。
光流法缺點(diǎn)也比較多。首先是計(jì)算繁雜,不適用于對(duì)效率要求較高的環(huán)境;其次外部光線變化對(duì)算法的影響比較大,即使物體沒有運(yùn)動(dòng),也能檢測(cè)到光流;最后如果圖像的灰度等級(jí)變化不明顯,很難檢測(cè)出運(yùn)動(dòng)和識(shí)別物體。
2.1 碼本法
碼本(Code Book)模型處理對(duì)象是仍然是連續(xù)圖像。首先利用顏色失真程度和亮度失真范圍相結(jié)合的方式將圖像各像素量化后用碼本表示,將不同時(shí)刻圖像中對(duì)應(yīng)像素的碼本做比較判斷,利用減除背景的思想提取出前景運(yùn)動(dòng)目標(biāo)。
顏色失真因子:
[δ=colordistxt,vi=xt2-xt, xi2xi2] (1)
亮度失真因子:
[brightnessI,I,I=trueif Ilow≤xt≤Ihifalseotherwise] (2)
具體算法是為每個(gè)像素建立一個(gè)編碼本,這個(gè)編碼本里包括一個(gè)或者多個(gè)碼字。進(jìn)行運(yùn)動(dòng)檢測(cè)時(shí),在編碼本里已有的碼字中查找當(dāng)前幀像素點(diǎn),如果前者中有可以匹配的碼字,則該像素點(diǎn)即為背景點(diǎn);如果匹配失敗,那么該像素點(diǎn)即為前景點(diǎn),即運(yùn)動(dòng)目標(biāo)的一部分。
碼本檢測(cè)算法利用量化和聚類技術(shù)來構(gòu)建背景模型具有魯棒性強(qiáng),計(jì)算效率高的特點(diǎn),可以通過迭代更新碼本模型來適應(yīng)背景變化。
3 人體特征挖掘與識(shí)別
通過圖像分離,所有的活動(dòng)目標(biāo)都被區(qū)分識(shí)別出來了,其中包括人和其他物件。本節(jié)將要討論如何選擇合適的特征表述方法對(duì)目標(biāo)進(jìn)行標(biāo)識(shí),從而將人體和其他物件區(qū)分開來。物體具有的特征的非常多,比如說顏色、輪廓、形狀、尺寸和紋理等,本文將選取HOG[7](Histogram of Oriented Gradient)特征作為標(biāo)志和區(qū)分的依據(jù)。
方向梯度直方圖(HOG)特征是由經(jīng)過計(jì)算和統(tǒng)計(jì)的圖像局部區(qū)域梯度方向直方圖構(gòu)成,在計(jì)算機(jī)視覺(Computer Vision)和圖像處理中常用來進(jìn)行物體檢測(cè)的特征描述。
3.1 HOG特征提取算法
1.圖像預(yù)處理—灰度化;
2.圖像顏色空間的標(biāo)準(zhǔn)化和歸一化;
3.計(jì)算每個(gè)像素的梯度值:大小和方向;
4.將圖像劃分成細(xì)胞單元(Cell);
5.統(tǒng)計(jì)每個(gè)Cell的梯度形成直方圖(Histogram),即Cell Descriptor;
6.將每幾個(gè)Cell組成一個(gè)區(qū)塊(Block),每個(gè)區(qū)塊內(nèi)所有Cell Descriptor再次歸一化便得到該區(qū)塊的Block Descriptor。
7.圖像內(nèi)的所有區(qū)塊的Block Descriptor串聯(lián)起來就可以得到該圖像以特征向量表示的Image Descriptor了。
第2步的歸一化處理,能對(duì)光照變化和陰影獲得更好的效果。
第3步通過卷積運(yùn)算,確定每個(gè)像素在水平方向和垂直方向上的梯度分量,計(jì)算公式如下:
[Gxx,y=Hx+1,y-Hx-1,y] (3)
[Gyx,y=Hx,y+1-Hx,y-1] (4)
其中[Gxx,y],[Gyx,y],[Hx,y]分別表示坐標(biāo)[x,y]處像素點(diǎn)的水平方向梯度分量、垂直方向梯度分量和灰度值。然后再計(jì)算該像素點(diǎn)的梯度幅值和梯度方向。
[Gx,y=Gxx,y2+Gyx,y2 ] (5)
[θx,y=tan-1Gyx,yGxx,y] (6)
其中[Gx,y]代表梯度幅度值,[θx,y]代表梯度方向。
第4步可以采用矩形(Rectangular)或星形(Radial)結(jié)構(gòu)來劃分細(xì)胞單元(Cell)。
第5步統(tǒng)計(jì)每個(gè)Cell的梯度形成直方圖,即是求取該Cell的特征向量。根據(jù)不同的精度要求,將梯度方向360度([2π])根據(jù)需要分割成若干個(gè)區(qū)間(Section),比方分割成12個(gè)Section,每個(gè)Section即為30度,然后根據(jù)Cell中每個(gè)像素點(diǎn)的梯度方向,將其幅值累加到這12個(gè)區(qū)間中,最終形成能刻畫該Cell灰度特征的特征向量。
第6步的Cell組合,可以采取Overlap和Non-Overlap兩種策略。Overlap指的是組合出的Block互相交疊,有重合的區(qū)域;Non-Overlap指的是Block不交疊,沒有重合的區(qū)域。因?yàn)槟壳罢f做所有的分割和組合都帶有隨機(jī)性,以人臉為例,如果采用Non-Overlap方式進(jìn)行組合,很有可能將人臉上的器官1分為N,直接影響后續(xù)的分類效果,但是它的好處是計(jì)算量小、速度快;而Overlap則不同,冗余的數(shù)據(jù)將提高器官完整的可能性,但是缺點(diǎn)是計(jì)算量大,因?yàn)橹丿B區(qū)域需要重復(fù)計(jì)算。
總而言之,與其他的特征描述方法(SIFT和PCA-SIFT)相比, HOG算法著眼于圖像局部單元(Cell和Block)的計(jì)算,受圖像幾何(Geometric)和光學(xué)(Photometric)形變影響比較小。
3.2 SVM分類器
經(jīng)過HOG運(yùn)算完成之后得到的特征向量就可以納入到分類器當(dāng)中進(jìn)行分類了,本文選擇SVM(Support Vector Machine)分類器進(jìn)行人體識(shí)別。
SVM分類器是基于統(tǒng)計(jì)學(xué)習(xí)的分類算法,在圖像識(shí)別中得到廣泛的應(yīng)用,其主要思想是:將分類問題轉(zhuǎn)化為尋找訓(xùn)練樣本點(diǎn)的一個(gè)分割超平面的問題,目的是保證最小的分類錯(cuò)誤率。如果樣本線性可分,能夠?qū)颖就耆珠_的超平面不止一個(gè),SVM算法的終極目標(biāo)是找到其中的最優(yōu)超平面(能使得每類數(shù)據(jù)中與超平面距離最近的向量之間距離最大的平面);如果樣本線性不可分,則是因?yàn)槠涮卣飨蛄烤S度太低引起的,可以通過所謂的核函數(shù)(非線性映射算法)將低維向量樣本映射到高維特征空間,使其線性可分。本文使用到的SVM最優(yōu)分類函數(shù)是:
[fx=i=1nαiyixiTx+b=i=1nαiyixi,x+b ] (7)
其中[αi]是支持向量的最優(yōu)系數(shù),[b]是分類閥值。使用核函數(shù)提高特征向量維度后進(jìn)行分類的確可以提高分類的準(zhǔn)確性,但是卻因?yàn)槠溆?jì)算量大,對(duì)識(shí)別速度會(huì)有影響,常見的核函數(shù)如下:
線性核函數(shù):[Kx,y=x?y] (8)
多項(xiàng)式核函數(shù):[Kx,y=x?y+1d ,d=1,2,…,n] (9)
高斯核函數(shù):
[Kx,y=e-2x-yσ2] (10)
實(shí)際應(yīng)用中需要根據(jù)具體需求,平衡識(shí)別的準(zhǔn)確率和效率,選擇合適的核函數(shù)。
3.3 人體識(shí)別
人體的識(shí)別過程分為兩個(gè)部分:訓(xùn)練和識(shí)別,如圖2所示。
圖2 人體識(shí)別流程
訓(xùn)練過程,首先通過碼本分離算法從運(yùn)動(dòng)圖像中提取出的前景,此時(shí)的前景包括了人體和其他物體;然后是通過人工分檢,選出各種光照效果下具有典型勞動(dòng)特征的人體形成訓(xùn)練樣本庫;接下來計(jì)算每一個(gè)樣本的HOG特征值,并利用這個(gè)樣本值集合進(jìn)行SVM訓(xùn)練,使其針對(duì)HOG特征具有分類能力;最終構(gòu)建出人體特征分類器。
識(shí)別過程,首先將碼本算法得到的前景提取HOG特征值,然后送入到訓(xùn)練過程產(chǎn)生的分類器當(dāng)中進(jìn)行分類;最終識(shí)別出人體。
4 危險(xiǎn)行為識(shí)別
隨著行業(yè)的不同,生產(chǎn)環(huán)節(jié)中對(duì)安全的要求也有所不同,比如:不同工種的著裝、佩戴的安全裝備和行為動(dòng)作等都屬于安全生產(chǎn)管轄的范疇。本文就以建筑行業(yè)的施工環(huán)節(jié)中安全帽的佩戴作為檢測(cè)目標(biāo),并作為出算法的驗(yàn)證試驗(yàn)。
4.1 人頭模型
識(shí)別安全帽首先要提取人體的頭部信息,可以采取復(fù)雜模型:首先進(jìn)行人臉識(shí)別定位人頭的位置;然后建立人體軀體模型,找到軀干和四肢;最終完成人體重建。雖然看似第一步就可以通過臉部準(zhǔn)確的定位人頭,但是此方法在現(xiàn)實(shí)中卻不可行,因?yàn)樵诠さ厣暇唧w的施工環(huán)節(jié)中,不可能讓每一個(gè)工人都正面面對(duì)攝像頭進(jìn)行人臉檢測(cè),攝像頭中往往得到的是一個(gè)背影或側(cè)影。簡(jiǎn)化模型:首先根據(jù)SVM人體分類器中不同工作姿勢(shì)人體類別,統(tǒng)計(jì)各類別中人頭的位置和大小比例;然后從待處理人體圖像中分離處彩色的人頭圖像;最后使用顏色直方圖進(jìn)行安全帽的識(shí)別。
4.1 模型對(duì)比
復(fù)雜模型適應(yīng)于沒有進(jìn)行過前景背景分離的圖像,識(shí)別的前提是圖像中的人體有人臉的正面照,因此識(shí)別率較低;簡(jiǎn)化模型中識(shí)別對(duì)象是經(jīng)過了前景背景分離和SVM分類并已經(jīng)真正分割出來的獨(dú)立的人體,雖然人體模型簡(jiǎn)單,但是人頭的識(shí)別率非常高。
5 實(shí)驗(yàn)及結(jié)果分析
為了驗(yàn)證本文闡述的安全管控系統(tǒng)的有效性,特地選取某建筑企業(yè)在建工地的鋼筋加工車間實(shí)時(shí)視頻監(jiān)控圖像進(jìn)行分析,原始視頻中包含了各種姿態(tài)(站姿和蹲姿)的人體,如圖3所示。
圖3 原始視頻圖像
圖4 碼本算法提取前景
圖5 膨脹處理
圖6 圖像分割
圖7 遮罩提取
圖8 頭部
1) 碼本算法提取前景。由于碼本算法是基于像素點(diǎn)的色彩變化進(jìn)行統(tǒng)計(jì)分析來確定運(yùn)動(dòng)目標(biāo),受光線等干擾的影響,碼本算法采集到的前景區(qū)域往往不連通,如圖4所示。
2) 膨脹處理。對(duì)圖像進(jìn)行膨脹處理的目的是為了擴(kuò)大連通區(qū)域,便于圖像分割。膨脹之后的圖像如圖5所示。
3) 圖像分割。采用第2章中所述的靜態(tài)圖像分離算法切割膨脹處理之后的局部連通圖,分割出來的去除了背景的單體圖像比分割前“意義”更明確,求出的HOG特征向量特征更明顯,單體圖像如圖6所示。
4) 遮罩提取。上述步驟操作的都是對(duì)象區(qū)域,為了得到原始的分割圖像,只需要進(jìn)行遮罩運(yùn)算即可,結(jié)果如圖7所示。
5) 安全帽識(shí)別。使用4.1節(jié)所述的人體模型提取人頭圖像,如圖8所示。因?yàn)榘踩钡姆N類和顏色非常規(guī)范, 提供統(tǒng)計(jì)建立顏色(紅、黃、藍(lán))分布直方圖,即可識(shí)別個(gè)人是否佩戴安全帽。
上述過程前4步可以實(shí)現(xiàn)前景提取,并進(jìn)行基于SVM的人體特征挖掘與識(shí)別。本例構(gòu)建的訓(xùn)練樣本分別為100、300、500張,使用HOG算法進(jìn)行特征向量提取,并將此特征向量集用于SVM訓(xùn)練,最終得出人體分類器、人頭位置和尺寸參數(shù)。通過訓(xùn)練好的分類器對(duì)測(cè)試樣本進(jìn)行檢測(cè),實(shí)驗(yàn)結(jié)果如表1所示。
表1 不同樣本空間檢測(cè)準(zhǔn)確率對(duì)比結(jié)果
[訓(xùn)練樣本數(shù)\&人體檢出準(zhǔn)確率\&安全帽檢出準(zhǔn)確率\&綜合準(zhǔn)確率\&100\&53%\&86%\&≈46%\&300\&62%\&89%\&≈55%\&500\&84%\&93%\&≈78%\&]
從表中數(shù)據(jù)可以看出:隨著訓(xùn)練樣本數(shù)的增加,人體檢出準(zhǔn)確率明顯提高,而安全帽檢出的準(zhǔn)確率受樣本規(guī)模影響比較小。
6 結(jié)論
本文首次將圖像處理技術(shù)和數(shù)據(jù)挖掘技術(shù)應(yīng)用到安全生產(chǎn)管理中。研討了將碼本運(yùn)算、HOG運(yùn)算、SVM運(yùn)算融為一體進(jìn)行人體圖像挖掘的具體實(shí)現(xiàn)細(xì)節(jié),提出基于實(shí)時(shí)視頻流模式的多姿態(tài)安全帽檢測(cè)技術(shù),并且通過試驗(yàn)證明該算法的實(shí)用性和有效性,取得了令人滿意的結(jié)果。
未來的工作是對(duì)人像進(jìn)行跟蹤,分析其動(dòng)作,并抽象提煉出行為,通過對(duì)每一種行為的危險(xiǎn)系數(shù)進(jìn)行評(píng)估,最終實(shí)現(xiàn)危險(xiǎn)行為識(shí)別即做出有害和無害的結(jié)論。
參考文獻(xiàn):
[1] Adobe System Incop. Adobe Photoshop User Guide. 2002.
[2] Mortensen E.N, Barrett W.A: Intelligent scissors for image composition [C] Proceedings of the 22nd international conference on Computer Graphics and Techniques. ACM: 191-198.
[3] Caselles V, Kimmel R, Sapiro G. Geodesic contours [C].In Proceedings of IEEE International Conference on Computer Vision. 1995: 694-699.
[4] 王芳梅,范虹,王鳳妮.水平集在圖像分割中的應(yīng)用研究[J].計(jì)算機(jī)應(yīng)用研究.2012,29(4): 1207-1210.
[5] Sun H, Feng T, Tan T. Robust extraction of moving objects from image sequences[C]. Proc the Fourth Asian Conference on Computer Vision, Taiwan. 2000:961-964.
[6] Kyungnam Kim,Thanarat H. Chalidabhongse,David Harwood,Larry Davis. Real-time foreground–background segmentation using codebook model[J]. Real-Time Imaging . 2005 (3).
[7] Dalal Navneet,Triqqs Bill.Histograms of oriented gradients for human detection. 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition CVPR 2005 .