• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      多特征的雙人交互動(dòng)作識(shí)別算法研究*

      2017-02-20 10:49:10黃菲菲曹江濤姬曉飛王佩瑤
      計(jì)算機(jī)與生活 2017年2期
      關(guān)鍵詞:光流雙人剪影

      黃菲菲,曹江濤,姬曉飛,王佩瑤

      1.遼寧石油化工大學(xué) 信息與控制工程學(xué)院,遼寧 撫順 113001

      2.沈陽(yáng)航空航天大學(xué) 自動(dòng)化學(xué)院,沈陽(yáng) 110136

      多特征的雙人交互動(dòng)作識(shí)別算法研究*

      黃菲菲1,曹江濤1,姬曉飛2+,王佩瑤1

      1.遼寧石油化工大學(xué) 信息與控制工程學(xué)院,遼寧 撫順 113001

      2.沈陽(yáng)航空航天大學(xué) 自動(dòng)化學(xué)院,沈陽(yáng) 110136

      動(dòng)作識(shí)別;光流特征;剪影特征;HOG特征

      1 引言

      雙人交互動(dòng)作在日常生活中非常普遍,如握手、擁抱等?;谝曨l的雙人交互行為識(shí)別與理解在智能視頻監(jiān)控、人機(jī)交互、體育賽事檢索、虛擬現(xiàn)實(shí)等領(lǐng)域有著廣泛的應(yīng)用前景。與單人動(dòng)作相比,雙人交互動(dòng)作往往更加復(fù)雜,完成雙人動(dòng)作所涉及到的肢體動(dòng)作種類更多,肢體之間的配合及排列方式也更加多樣化。如何有效地提取運(yùn)動(dòng)特征以及建立合理的交互模型是雙人交互行為識(shí)別與理解的兩個(gè)重要研究?jī)?nèi)容。大量的國(guó)內(nèi)外科研工作者已經(jīng)開展了相關(guān)項(xiàng)目的研究[1-4]。然而,由于光照條件的變化、背景的混亂干擾、運(yùn)動(dòng)目標(biāo)的影子、運(yùn)動(dòng)目標(biāo)與環(huán)境之間的遮擋等,使得雙人交互行為識(shí)別仍然是一個(gè)富有挑戰(zhàn)的課題[1]。

      目前,基于整體的交互動(dòng)作識(shí)別方法是一種主流的雙人交互動(dòng)作識(shí)別方法。此類方法通常將交互動(dòng)作表示為包含所有動(dòng)作執(zhí)行人的一個(gè)整體時(shí)空描述形式,然后通過度量待識(shí)別交互動(dòng)作時(shí)空特征表示與訓(xùn)練模板的匹配程度對(duì)交互行為進(jìn)行識(shí)別和理解[5]。Yu等人[6]采用語(yǔ)義基元森林(sematic texton forest)生成詞典對(duì)視頻中的局部時(shí)空體進(jìn)行描述,并引入金字塔時(shí)空關(guān)系匹配核對(duì)交互動(dòng)作進(jìn)行識(shí)別。Yuan等人[7]提出構(gòu)造時(shí)空上下文對(duì)局部時(shí)空特征及其相互關(guān)系進(jìn)行描述,并利用相應(yīng)的核函數(shù)進(jìn)行交互視頻的匹配識(shí)別。該類方法無(wú)需對(duì)交互動(dòng)作的特征進(jìn)行動(dòng)作個(gè)體的分割,處理思路簡(jiǎn)單。但是該類方法無(wú)法準(zhǔn)確地表示交互動(dòng)作中交互的內(nèi)在屬性,因此其識(shí)別的準(zhǔn)確性有限,往往需要十分復(fù)雜的特征或多特征融合表示及匹配方法來保證識(shí)別的準(zhǔn)確性。

      近年來,利用多種視覺信息融合的思想來進(jìn)行行為識(shí)別日漸成為研究領(lǐng)域中的一個(gè)熱點(diǎn)和難點(diǎn)。多種特征融合的方法可以充分利用不同特征在不同條件下的互補(bǔ)性,更好地表達(dá)人體動(dòng)作中各個(gè)目標(biāo)之間的相互聯(lián)系以及目標(biāo)與整體時(shí)間活動(dòng)的相互聯(lián)系,適應(yīng)了現(xiàn)實(shí)生活中場(chǎng)景條件的變化,從而得到更加穩(wěn)定可靠的識(shí)別效果。Peng等人[8]利用4種不同的特征組合(DT shape,HOG,HOF,MBH)對(duì)多尺度密集軌跡提取底層特征,并利用特征包(bag of feature,BOF)框架對(duì)4種特征進(jìn)行編碼作為整個(gè)交互動(dòng)作的運(yùn)動(dòng)描述,最終采用支持向量機(jī)進(jìn)行識(shí)別取得了令人滿意的結(jié)果,但該方法依賴于密集采樣的結(jié)果。Li等人[9]結(jié)合運(yùn)動(dòng)上下文(motion context)的全局特征和局部時(shí)空興趣點(diǎn)的時(shí)空特征相關(guān)性(spatio-temporal correlation)對(duì)雙人交互行為進(jìn)行描述,并分別提出了基于GA訓(xùn)練的隨機(jī)森林方法及有效的時(shí)空匹配方法實(shí)現(xiàn)交互行為的識(shí)別與理解。這種方法對(duì)視角、遮擋和噪聲等干擾不敏感,處理過程簡(jiǎn)單,但此方法的缺點(diǎn)是檢測(cè)出來的穩(wěn)定興趣點(diǎn)數(shù)量較少。

      根據(jù)以上分析,綜合考慮到基于光流的表示法能在沒有背景區(qū)域任何先驗(yàn)知識(shí)的條件下,實(shí)現(xiàn)對(duì)運(yùn)動(dòng)目標(biāo)的檢測(cè)和跟蹤;基于剪影的描述方法直觀,易于實(shí)現(xiàn),且受光照條件影響小;方向梯度直方圖(histogram of oriented gradient,HOG)特征是一種不需要在相鄰幀間進(jìn)行處理的簡(jiǎn)單特征表示法。本文提出了一種基于多特征融合的雙人交互動(dòng)作識(shí)別算法,將局部的光流特征、局部的剪影特征以及HOG特征進(jìn)行融合。由于以往運(yùn)動(dòng)目標(biāo)檢測(cè)通常利用背景減除法確定出人體的剪影,該方法的抗干擾性較差,很難得到運(yùn)動(dòng)人體的精確剪影。本文經(jīng)過多次嘗試,找到一種將K-均值聚類分割法與二維Otsu閾值分割法相融合的方法對(duì)圖像進(jìn)行運(yùn)動(dòng)目標(biāo)分割,從而得到理想的剪影。接下來在運(yùn)動(dòng)區(qū)域內(nèi)提取光流,并利用分區(qū)域的局部光流信息表示雙人運(yùn)動(dòng)的局部特征,以此來提高光流的抗噪能力。在RGB顏色空間上對(duì)圖像中的運(yùn)動(dòng)區(qū)域進(jìn)行HOG特征的提取和表示,最后將局部的剪影特征、局部的光流特征與HOG特征相結(jié)合作為混合特征。特征級(jí)直接融合的效果有限,因此本文采用決策級(jí)的概率融合,將3個(gè)特征的識(shí)別概率通過加權(quán)融合的方法得到待測(cè)試動(dòng)作圖像序列的最終識(shí)別概率及結(jié)果。實(shí)驗(yàn)結(jié)果表明,混合特征的魯棒性及識(shí)別性比單一特征好。算法結(jié)構(gòu)框圖如圖1所示。

      Fig.1 Structure of algorithm圖1 算法結(jié)構(gòu)框圖

      2 運(yùn)動(dòng)目標(biāo)檢測(cè)

      運(yùn)動(dòng)目標(biāo)檢測(cè)是指在序列圖像中檢測(cè)出來變化區(qū)域,并將運(yùn)動(dòng)目標(biāo)從背景中提取出來。通常情況下,目標(biāo)分類、跟蹤和行為理解等后處理過程僅僅考慮圖像中對(duì)應(yīng)于運(yùn)動(dòng)目標(biāo)的像素區(qū)域,因此運(yùn)動(dòng)目標(biāo)的正確檢測(cè)與分割對(duì)于后期處理非常重要。本文提出利用K-均值分割以及最大類間方差法(Otsu)確定出運(yùn)動(dòng)的大致區(qū)域及人體剪影。

      2.1 K-均值聚類分割

      K-均值算法[10]是一種基于目標(biāo)函數(shù)的聚類算法,它把聚類歸結(jié)成一個(gè)帶約束的非線性規(guī)劃問題,通過優(yōu)化求解獲得數(shù)據(jù)集的劃分和聚類。其處理流程如下:首先隨機(jī)地選擇k個(gè)對(duì)象,每個(gè)對(duì)象代表一個(gè)簇的初始均值,對(duì)剩余的每個(gè)對(duì)象,根據(jù)其與各個(gè)簇均值的距離,將它指派到最相似的簇;然后計(jì)算每個(gè)簇的新均值。這個(gè)過程不斷地重復(fù),直到式(1)準(zhǔn)則函數(shù)收斂為止。

      其中,E是所有研究對(duì)象的平方誤差總和;p為空間的點(diǎn),即數(shù)據(jù)對(duì)象;mi是簇Ci的平均值。

      2.2 二維Otsu閾值分割

      二維Otsu閾值分割是一種二維相關(guān)性的閾值分割方法[11]。假設(shè)原圖像f的灰度等級(jí)為L(zhǎng),大小為M×N,以f(x,y)表示圖像上坐標(biāo)為(x,y)的像素的灰度值,以函數(shù)g(x,y)表示圖像上坐標(biāo)為(x,y)的像素的k×k鄰域平均灰度值。設(shè)mij表示圖像中像素點(diǎn)的灰度值為i,其鄰域平均灰度值為j的像素點(diǎn)出現(xiàn)的次數(shù),由此得到該圖像點(diǎn)灰度值鄰域灰度值的二維直方圖。

      2.3 算法融合

      將K-均值聚類分割法與二維Otsu閾值分割法運(yùn)用與運(yùn)算進(jìn)行融合,得出最好的剪影圖,并且標(biāo)記出運(yùn)動(dòng)的大致區(qū)域。其過程如圖2所示。

      Fig.2 Fusion ofK-mean clustering segmentation and 2D-Otsu threshold segmentation圖2 K-均值聚類分割與二維Otsu閾值分割的融合

      3 特征的表示與提取

      3.1 光流特征表示與提取

      光流特征可以有效、準(zhǔn)確地表示視頻序列中的動(dòng)作信息。在運(yùn)動(dòng)區(qū)域內(nèi)提取光流,并利用分區(qū)域的局部光流信息來表示雙人運(yùn)動(dòng)的局部特征,以此來提高光流的抗噪能力。具體過程如下:

      (1)針對(duì)相鄰兩幀的運(yùn)動(dòng)區(qū)域所對(duì)應(yīng)的灰度圖像,運(yùn)用Lucas-Kanade算法計(jì)算提取動(dòng)作視頻幀的運(yùn)動(dòng)區(qū)域水平X方向和垂直Y方向的光流場(chǎng)。

      (2)運(yùn)用分區(qū)域徑向直方圖方法來統(tǒng)計(jì)光流特征,提高特征的抗擾能力。采用按照長(zhǎng)邊縮放的方法,將得到的興趣區(qū)域光流圖像標(biāo)準(zhǔn)化為120×120維的統(tǒng)一大小光流圖。將標(biāo)準(zhǔn)化后的光流圖分成2×2的子邊框。最后以子邊框的中心點(diǎn)為中心將子邊框分成18個(gè)角度相等互不重疊的扇形區(qū)域,每個(gè)中心角占20°,這樣就形成了72個(gè)子區(qū)域。

      (3)在子區(qū)域S中分別統(tǒng)計(jì)所有水平X方向光流和垂直Y方向光流幅度之和,作為此區(qū)域的光流特征表示。式(2)、(3)分別為計(jì)算子區(qū)域的水平X方向光流之和和垂直Y方向光流幅度之和。

      (4)整幀圖像It的光流就可以由72個(gè)子區(qū)域的水平X方向光流之和OL、垂直Y方向光流之和ΟH的組合來表示,如式(4)~(6)所示。

      式(4)中OL為水平X方向局部光流向量;式(5)中OH為垂直Y方向局部光流向量;式(6)中Ot為局部光流向量。

      (5)使用2-范數(shù)對(duì)Ot歸一化處理就得到了當(dāng)前幀圖像It的局部光流向量的徑向直方圖表示的特征。分區(qū)域光流特征的提取過程如圖3所示。

      3.2 剪影特征的表示與提取

      剪影特征可以簡(jiǎn)單直觀地描述運(yùn)動(dòng)人體的形狀信息并且易于提取。由檢測(cè)出來的興趣區(qū)域的位置信息,便可直接獲得運(yùn)動(dòng)目標(biāo)的二值化剪影圖。鑒于各幀運(yùn)動(dòng)區(qū)域大小標(biāo)準(zhǔn)不同,需對(duì)提取出的運(yùn)動(dòng)區(qū)域剪影圖進(jìn)行標(biāo)準(zhǔn)化處理,對(duì)其利用雙線性插值法,使其標(biāo)準(zhǔn)化為120×120維標(biāo)準(zhǔn)大小剪影圖。與提取光流特征時(shí)相同,對(duì)所提取的動(dòng)作視頻幀剪影圖劃分為2×2子塊,且在各子塊內(nèi)部以每個(gè)子塊的中心為原點(diǎn),將每個(gè)子塊劃分為18個(gè)角度相等互不重疊的扇形區(qū)域,分別在每個(gè)扇形區(qū)域中統(tǒng)計(jì)剪影像素點(diǎn)數(shù),獲取72維剪影特征的徑向直方圖表示。分區(qū)域剪影特征的提取過程如圖4所示。

      3.3 HOG特征的表示與提取

      HOG特征最初是由Dalal等人[12]提出的一種在計(jì)算機(jī)視覺和圖像處理中用來進(jìn)行物體檢測(cè)的特征描述子,它通過計(jì)算和統(tǒng)計(jì)圖像局部區(qū)域的梯度方向直方圖來構(gòu)成特征。梯度提取操作不僅能夠捕捉輪廓、人影和一些紋理信息,還能進(jìn)一步弱化光照的影響。HOG特征是一種不需要在相鄰幀間進(jìn)行處理的簡(jiǎn)單全局特征表示法,只需要在當(dāng)前幀像素點(diǎn)間求取梯度的幅值和方向,并在不同方向區(qū)域上對(duì)像素點(diǎn)幅值大小進(jìn)行直方圖統(tǒng)計(jì)即可。

      Fig.3 Extraction of region flow feature圖3 分區(qū)域光流特征的提取

      Fig.4 Extraction of region silhouette feature圖4 分區(qū)域剪影特征的提取

      Fig.5 Extraction of region HOG feature圖5 分區(qū)域HOG特征的提取

      圖像梯度的計(jì)算可以分解為圖像橫坐標(biāo)和縱坐標(biāo)方向的梯度,像素點(diǎn)(x,y)的梯度為:

      式(7)中,Gx(x,y)、Gy(x,y)分別表示輸入圖像中像素點(diǎn)(x,y)處的水平方向梯度、垂直方向梯度和像素值。像素點(diǎn)(x,y)處的梯度幅值和梯度方向分別如式(8)所示:

      圖像HOG特征的表示通常先將圖像分成小的連通區(qū)域,然后采集細(xì)胞單元中各像素點(diǎn)的梯度或邊緣的方向直方圖。最后把這些直方圖組合起來就可以構(gòu)成特征描述器。本文將每一個(gè)運(yùn)動(dòng)區(qū)域進(jìn)行4× 4的分割,每個(gè)分割出的區(qū)塊提取12維的HOG特征,那么最終特征的長(zhǎng)度為16×12=192維。分區(qū)域HOG特征的提取如圖5所示。

      4 多特征融合的識(shí)別算法

      4.1 幀幀最近鄰識(shí)別算法

      本文選用最簡(jiǎn)單的最近鄰分類器[13],具體算法如下:

      (1)找到測(cè)試序列每一幀的最近鄰。設(shè)測(cè)試樣本序列第t幀的特征向量為(t=1,2,…,T),訓(xùn)練樣本所對(duì)應(yīng)的第n幀特征向量為。用歐幾里德距離來測(cè)試的相似性,與距離最小的訓(xùn)練樣本幀就是測(cè)試樣本序列第t幀的最近鄰,如式(9)所示:

      (2)將測(cè)試幀對(duì)應(yīng)的最近鄰的訓(xùn)練幀所屬動(dòng)作的標(biāo)號(hào)賦給當(dāng)前的測(cè)試幀,這樣測(cè)試序列的每一測(cè)試幀都將得到一個(gè)動(dòng)作的標(biāo)號(hào)。

      (3)將測(cè)試序列每一幀的動(dòng)作標(biāo)號(hào)進(jìn)行統(tǒng)計(jì),測(cè)試序列類別對(duì)應(yīng)為票數(shù)最多的標(biāo)號(hào)對(duì)應(yīng)的動(dòng)作。

      4.2 多特征識(shí)別概率的加權(quán)融合

      通過使用幀幀最近鄰分類器可以分別獲得光流特征的識(shí)別概率、剪影特征的識(shí)別概率以及HOG特征的識(shí)別概率。將3個(gè)特征的識(shí)別概率通過加權(quán)融合的方法可以得到待測(cè)試動(dòng)作圖像序列的最終識(shí)別概率及結(jié)果,如式(10)所示:

      式(10)中,P為待測(cè)試動(dòng)作圖像序列的最終識(shí)別概率;Pf為光流特征的識(shí)別概率;Ps為剪影特征的識(shí)別概率;Ph為HOG特征的識(shí)別概率。各個(gè)特征的識(shí)別概率加權(quán)參數(shù)分別為wf、ws和wh。

      通過實(shí)驗(yàn)發(fā)現(xiàn),3類特征識(shí)別概率權(quán)值的選取對(duì)識(shí)別結(jié)果有著很大的影響。本文對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行多次學(xué)習(xí)得到最優(yōu)權(quán)值。具體實(shí)現(xiàn)為將3個(gè)加權(quán)參數(shù)wf、ws和wh相加之和控制為1,以0.1為間距進(jìn)行遍歷實(shí)驗(yàn),得到最優(yōu)識(shí)別結(jié)果對(duì)應(yīng)3類特征的權(quán)值,即為最優(yōu)權(quán)值。

      5 實(shí)驗(yàn)結(jié)果

      5.1 數(shù)據(jù)庫(kù)介紹

      本文實(shí)驗(yàn)中采用公開的UT-interaction雙人交互動(dòng)作視頻數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)包含6大類人體交互行為的連續(xù)視頻序列,分別是握手(handshake)、擁抱(hug)、腳踢(kick)、指向(point)、猛擊(punch)和推搡(push),每類動(dòng)作包含10個(gè)動(dòng)作視頻,共60個(gè)視頻。數(shù)據(jù)庫(kù)的示例圖如圖6所示。

      Fig.6 Exemplar frames from UT-interaction dataset圖6 UT-interaction數(shù)據(jù)庫(kù)示例圖

      整個(gè)數(shù)據(jù)庫(kù)由15個(gè)人在真實(shí)場(chǎng)景下兩兩完成,該數(shù)據(jù)庫(kù)中的視頻場(chǎng)景內(nèi)大多包含雜亂的場(chǎng)景、相機(jī)的抖動(dòng)、變化的光照等挑戰(zhàn)因素。視頻的分辨率是720×480像素,刷新率20 f/s,其中人的高度約為200像素。因此在該視頻上進(jìn)行雙人交互動(dòng)作的檢測(cè)與識(shí)別是十分具有挑戰(zhàn)性的。

      5.2 實(shí)驗(yàn)及結(jié)果研究

      本文采用留一法(leave one out)來驗(yàn)證算法的有效性,即每次實(shí)驗(yàn)選擇數(shù)據(jù)庫(kù)中一個(gè)人的所有動(dòng)作作為測(cè)試樣本集,而余下的作為訓(xùn)練樣本集。然后循環(huán),每個(gè)人的動(dòng)作都將作為測(cè)試樣本進(jìn)行測(cè)試,并統(tǒng)計(jì)識(shí)別結(jié)果。光流特征、剪影特征、HOG特征以及3種特征混合后的特征識(shí)別結(jié)果如表1所示。

      Table 1 Recognition rate of different features表1 不同特征對(duì)應(yīng)的識(shí)別率

      由表1的實(shí)驗(yàn)結(jié)果可以看出,單個(gè)特征的識(shí)別結(jié)果并不理想,但是將3個(gè)特征的識(shí)別概率進(jìn)行加權(quán)融合后,識(shí)別效果有了明顯的提升。如圖7所示,其最優(yōu)權(quán)值運(yùn)用遍歷的方法,經(jīng)過大量的實(shí)驗(yàn)獲得,找到圖中的最大峰值點(diǎn),得到對(duì)應(yīng)的最優(yōu)權(quán)值分別為30%、50%與20%。在UT-interaction數(shù)據(jù)庫(kù)可獲得91.7%的識(shí)別率,可見最優(yōu)權(quán)值參數(shù)的選取對(duì)識(shí)別結(jié)果有著很大的影響。

      Fig.7 Experimental result of optimal weight based on the fusion of 3 features圖7 3個(gè)特征融合的最優(yōu)權(quán)值實(shí)驗(yàn)結(jié)果

      在提取特征的速度上,剪影特征和HOG特征非???,而光流特征稍慢些,是因?yàn)楣饬魇窃趦蓭g進(jìn)行逐點(diǎn)計(jì)算,為了縮短計(jì)算時(shí)間,根據(jù)等間距提取運(yùn)動(dòng)信息,將原來的兩幀變?yōu)?幀,維數(shù)不變,從而縮短計(jì)算時(shí)間。3個(gè)特征運(yùn)用幀幀最近鄰分類器進(jìn)行識(shí)別,單個(gè)視頻的識(shí)別時(shí)間都在5 s以內(nèi),具有應(yīng)用于實(shí)時(shí)系統(tǒng)的潛在價(jià)值。

      圖8~圖11分別為光流特征、剪影特征、HOG特征以及3個(gè)特征概率融合后的混淆矩陣。

      Fig.8 Confusion matrix of flow feature recognition圖8 光流特征的識(shí)別混淆矩陣圖

      Fig.9 Confusion matrix of silhouette feature recognition圖9 剪影特征的識(shí)別混淆矩陣圖

      Fig.10 Confusion matrix of HOG feature recognition圖10 HOG特征的識(shí)別混淆矩陣圖

      Fig.11 Confusion matrix of 3 features recognition probability weighted fusion圖11 3個(gè)特征概率加權(quán)融合后的混淆矩陣圖

      由圖8~圖10可以看出“handshake”與“hug”兩個(gè)動(dòng)作的識(shí)別結(jié)果要優(yōu)于“kick”、“punch”與“push”3個(gè)動(dòng)作的識(shí)別效果。其原因是“kick”、“punch”與“push”3個(gè)動(dòng)作幀數(shù)較少,且每?jī)蓭瑘D像變化較大,區(qū)分性差,導(dǎo)致識(shí)別結(jié)果受到一定的影響。“push”和“punch”兩組動(dòng)作由于相似性較高,不能很好地識(shí)別。由圖11可以看出,較單一特征,將其識(shí)別概率進(jìn)行加權(quán)融合后,有4個(gè)動(dòng)作識(shí)別完全正確,分別為“handshake”、“hug”、“kick”和“point”,且對(duì)于“punch”以及“push”兩類動(dòng)作的識(shí)別結(jié)果有了顯著的提高。

      將本文的識(shí)別方法與近期基于UT-interaction數(shù)據(jù)庫(kù)的其他方法進(jìn)行比較。實(shí)驗(yàn)結(jié)果如表2所示。

      Table 2 Recognition rate of combining different features表2 不同特征結(jié)合對(duì)應(yīng)的識(shí)別率

      由表2可以看出,本文方法在交互行為識(shí)別的準(zhǔn)確率方面要優(yōu)于文獻(xiàn)[9,14]。文獻(xiàn)[8]的識(shí)別結(jié)果與本文方法結(jié)果相當(dāng),由于文獻(xiàn)[8]提出利用4種不同的特征組合密集軌跡形狀特征、梯度方向直方圖特征、光流方向直方圖特征、運(yùn)動(dòng)邊界直方圖特征對(duì)多尺度密集軌跡提取底層特征,并利用特征包框架對(duì)4種特征進(jìn)行編碼作為整個(gè)交互動(dòng)作的運(yùn)動(dòng)描述,最終采用支持向量機(jī)預(yù)測(cè)視頻的分類結(jié)果。但是其依賴于多尺度密集軌道提取算法的準(zhǔn)確性,且密集軌跡的提取和表征過程需要進(jìn)行大量的計(jì)算。相比于其他方法,本文所提出的特征易于提取和表征,且前期預(yù)處理運(yùn)用K-均值聚類分割法與二維Otsu閾值分割法,得到了較好的分割結(jié)果,使特征的精確提取成為可能。

      6 結(jié)束語(yǔ)

      本文提出了一種基于多特征融合的雙人交互動(dòng)作識(shí)別算法,將局部的光流特征、局部的剪影特征以及HOG特征進(jìn)行結(jié)合,組成混合特征進(jìn)行動(dòng)作識(shí)別。在UT-interaction數(shù)據(jù)庫(kù)上得到了91.7%的識(shí)別率,證明了本文方法的有效性及可行性。本文方法對(duì)相似的動(dòng)作仍然存在誤差,下一步的工作將嘗試對(duì)光流特征進(jìn)行改進(jìn),進(jìn)一步提高算法的計(jì)算效率,以期實(shí)現(xiàn)算法的實(shí)時(shí)應(yīng)用。

      References:

      [1]Kantorov V,Laptev I.Efficient feature extraction,encoding and classification for action recognition[C]//Proceedings of the 2014 IEEE Computer Society Conference on Computer Vision and Pattern Recognition,Columbus,USA,Jun 23-28, 2014.Washington:IEEE Computer Society,2014:2593-2600.

      [2]El Houda Slimani K N,Benezeth Y,Souami F.Human interaction recognition based on the co-occurrence of visual words [C]//Proceedings of the 2014 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops,Columbus,USA,Jun 23-28,2014.Washington: IEEE Computer Society,2014:461-466.

      [3]Mukherjee S,Biswas S K,Mukherjee D P.Recognizing interaction between human performers using“key pose doublet”[C]//Proceedings of the 19th ACM International Conference on Multimedea,Scottsdale,USA,Nov 28-Dec 1, 2011.New York:ACM,2011:1329-1332.

      [4]Zhang Xinye,Cui Jinshi,Tian Lu,et al.Local spatio-temporal feature based voting framework for complex human activity detection and localization[C]//Proceedings of the 1st Asian Conference on Pattern Recognition,Beijing,China,2011: 12-16.

      [5]Vahdat A,Gao Bo,Ranjbar M,et al.A discriminative key pose sequence model for recognizing human interactions [C]//Proceedings of the 2011 IEEE International Conference on Computer Vision,Barcelona,Spain,Nov 6-13,2011. Piscataway,USA:IEEE,2011:1729-1736.

      [6]Kong Yu,Jia Yunde,Fu Yun.Interactive phrases:semantic descriptions for human interaction recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014,36(9):1775-1788.

      [7]Yuan Fei,Sahbi H,Prinet V.Spatio-temporal context kernel for activity recognition[C]//Proceedings of the 1st Asian Conference on Pattern Recognition,Beijing,China,2011: 436-440.

      [8]Peng Xiaojiang,Wu Xiao,Peng Qiang,et al.Exploring dense trajectory feature and encoding methods for human interaction recognition[C]//Proceedings of the 5th International Conference on Internet Multimedia Computing and Service,Huangshan,China,Aug 17-19,2013.New York:ACM, 2013:23-27.

      [9]Li Nijun,Cheng Xu,Guo Haiyan,et al.A hybrid method for human interaction recognition using spatio-temporal interest points[C]//Proceedings of the 22nd International Conference on Pattern Recognition,Stockholm,Sweden,Aug 24-28,2014.Piscataway,USA:IEEE,2014:2513-2518.

      [10]Forgy E W.Cluster analysis of multivariate data:efficiency versus interpretability of classifications[J].Biometrics,1965, 21(3):768-780.

      [11]MacQueen J.Some methods for classification and analysis of multivariate observations[C]//Proceedings of the 5th Berkeley Symposium on Mathematical Statistics and Probability.Berkeley,USA:University of California Press,1967: 281-297.

      [12]Dalal N,Triggs B.Histograms of oriented gradients for human detection[C]//Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition,San Diego,USA,Jun 20-26,2005.Washington:IEEE Computer Society,2005:886-893.

      [13]Wang Liang,Geng Xin,Leckie C,et al.Moving shape dynamics:a signal processing perspective[C]//Proceedings of the 2008 IEEE Computer Society Conference on Computer Vision and Pattern Recognition,Anchorage,USA,Jun 24-26,2008.Washington:IEEE Computer Society,2008:1649-1656.

      [14]Yuan Fei,Prinet V,Yuan Junsong.Middle-level representation for human activities recognition:the role of spatio-temporal relationships[C]//LNCS 6553:Proceedings of the 11th European Conference on Computer Vision,Heraklion,Greece, Sep 10-11,2010.Berlin,Heidelberg:Springer,2010:168-180.

      HUANG Feifei was born in 1990.She is an M.S.candidate at Liaoning Shihua University.Her research interest is image processing and recognition.

      黃菲菲(1990—),女,遼寧盤錦人,遼寧石油化工大學(xué)碩士研究生,主要研究領(lǐng)域?yàn)閳D像處理與識(shí)別。

      CAO Jiangtao was born in 1978.He received the Ph.D.degree in intelligent control from University of Portsmouth in 2009.Now he is a professor and M.S.supervisor at Liaoning Shihua University.His research interests include intelligent method and its application in industry control information processing and video analysis,etc.

      曹江濤(1978—),男,山東菏澤人,2009年于英國(guó)普茨茅斯大學(xué)獲得博士學(xué)位,現(xiàn)為遼寧石油化工大學(xué)教授、碩士生導(dǎo)師,主要研究領(lǐng)域?yàn)橹悄芊椒捌湓诠I(yè)控制信息處理上的應(yīng)用,視頻分析與處理等。發(fā)表學(xué)術(shù)論文40余篇,其中被SCI檢索6篇,EI檢索22篇,承擔(dān)國(guó)家自然科學(xué)基金等項(xiàng)目。

      JI Xiaofei was born in 1978.She received the Ph.D.degree in pattern recognition and intelligent system from University of Portsmouth in 2010.Now she is an associate professor and M.S.supervisor at Shenyang Aerospace University,and the member of CCF.Her research interests include video analysis and pattern recognition theory,etc.

      姬曉飛(1978—),女,遼寧鞍山人,2010年于英國(guó)普茨茅斯大學(xué)獲得博士學(xué)位,現(xiàn)為沈陽(yáng)航空航天大學(xué)副教授、碩士生導(dǎo)師,CCF會(huì)員,主要研究領(lǐng)域?yàn)橐曨l分析與處理,模式識(shí)別理論等。發(fā)表學(xué)術(shù)論文30余篇,參與編著英文專著1部,承擔(dān)國(guó)家自然科學(xué)基金、教育部留學(xué)回國(guó)啟動(dòng)基金等課題研究。

      WANG Peiyao was born in 1991.She is an M.S.candidate at Liaoning Shihua University.Her research interests include vision analysis and pattern recognition,etc.

      王佩瑤(1991—),女,遼寧昌圖人,遼寧石油化工大學(xué)碩士研究生,主要研究領(lǐng)域?yàn)橐曨l分析與處理,模式識(shí)別等。

      Research on Human Interaction RecognitionAlgorithm Based on Mixed Features*

      HUANG Feifei1,CAO Jiangtao1,JI Xiaofei2+,WANG Peiyao1
      1.School of Information and Control Engineering,Liaoning Shihua University,Fushun,Liaoning 113001,China
      2.School ofAutomation,ShenyangAerospace University,Shenyang 110136,China
      +Corresponding author:E-mail:jixiaofei7804@126.com

      The choice of motion features affects the result of human interaction recognition algorithm directly.Because of different adaptive scopes,many factors often influence the single features,such as the appearance of human body,environment and camera setting.So it can’t achieve satisfactory accuracy of action recognition.On the basis of studying the representation and recognition of human interaction action,and giving full consideration to the advantages and disadvantages of different features,this paper proposes a mixed feature which combines local optical flow feature,local silhouette feature and HOG(histogram of oriented gradient)feature.The nearest neighbor classifier is used to obtain the recognition probability of three features.Finally,the recognition result is achieved by weighted fusing those recognition probabilities.The experimental results demonstrate that this algorithm achieve better recognition results in the UT-interaction database,and compared with the single features,the mixed feature can improve the recognition rate to 91.7%.

      action recognition;optical flow feature;silhouette feature;HOG feature

      10.3778/j.issn.1673-9418.1511078

      A

      TP391.4

      *The National Natural Science Foundation of China under Grant No.61103123(國(guó)家自然科學(xué)基金);the Program for Liaoning Excellent Talents in University under Grant Nos.LJQ2014018,LR2015034(遼寧省高等學(xué)校優(yōu)秀人才支持計(jì)劃項(xiàng)目).

      Received 2015-11,Accepted 2016-02.

      CNKI網(wǎng)絡(luò)優(yōu)先出版:2016-02-19,http://www.cnki.net/kcms/detail/11.5602.TP.20160219.1651.004.html

      HUANG Feifei,CAO Jiangtao,JI Xiaofei,et al.Research on human interaction recognition algorithm based on mixed features.Journal of Frontiers of Computer Science and Technology,2017,11(2):294-302.

      摘 要:運(yùn)動(dòng)特征的選擇直接影響基于整體的雙人交互動(dòng)作識(shí)別算法的識(shí)別效果。單一的特征因其適應(yīng)范圍不同,受到人體的外觀、環(huán)境、攝像機(jī)設(shè)置等因素的影響,識(shí)別效果往往不太理想。在研究雙人交互動(dòng)作的表征與識(shí)別的基礎(chǔ)上,充分考慮不同特征的優(yōu)缺點(diǎn),提出了一種結(jié)合局部的光流特征、局部的剪影特征以及HOG(histogram of oriented gradient)特征的混合特征,使用幀幀最近鄰分類器獲得3個(gè)特征的識(shí)別概率,最終通過加權(quán)融合3個(gè)特征的識(shí)別概率實(shí)現(xiàn)交互行為的識(shí)別。實(shí)驗(yàn)結(jié)果表明,對(duì)于UT-interaction數(shù)據(jù)庫(kù),該算法得到了較為理想的識(shí)別結(jié)果,混合特征可將識(shí)別率提高到91.7%。

      猜你喜歡
      光流雙人剪影
      利用掩膜和單應(yīng)矩陣提高LK光流追蹤效果
      雙人面具
      ——為小提琴與鋼琴而作
      黃河之聲(2021年19期)2021-02-24 03:25:26
      泰國(guó)剪影
      工作剪影
      基于物理學(xué)的改善粒子圖像測(cè)速穩(wěn)健光流方法研究
      頒獎(jiǎng)典禮剪影
      視野(2018年24期)2018-01-03 01:59:39
      “雙人運(yùn)球”樂翻天
      “雙人運(yùn)球”樂翻天
      剪影
      融合光流速度場(chǎng)與背景差分的自適應(yīng)背景更新方法
      刚察县| 沙坪坝区| 徐闻县| 洛宁县| 大埔县| 密云县| 永善县| 腾冲县| 曲水县| 沭阳县| 凌海市| 永年县| 东宁县| 新兴县| 商洛市| 宣武区| 盐源县| 信宜市| 夹江县| 祁门县| 博野县| 房产| 曲沃县| 保定市| 东源县| 田东县| 肥城市| 棋牌| 四平市| 晴隆县| 宁河县| 玛沁县| 武川县| 临邑县| 叶城县| 浮山县| 蒲江县| 宁海县| 布拖县| 泽普县| 尉氏县|