• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于運動特征與序列袋的人體動作識別

      2018-10-24 03:06:10馮小明馮乃光汪云云
      計算機工程與設(shè)計 2018年10期
      關(guān)鍵詞:矩陣動作特征

      馮小明,馮乃光,汪云云

      (1.南京郵電大學(xué) 工程訓(xùn)練中心, 江蘇 南京 210003;2.四川廣播電視大學(xué) 工程技術(shù)學(xué)院, 四川 成都 610073)

      0 引 言

      對于復(fù)雜行為動作的識別具有一定的挑戰(zhàn)性,主要是由于:①復(fù)雜動作由較多的子動作組成,具有短期和長期的因果關(guān)系,各序列因果關(guān)系會增加模型的復(fù)雜度,通常需要足夠大的訓(xùn)練數(shù)據(jù);②視角差異與動作類型等因素,動作的變化種類千姿百態(tài)[1-4]。

      目前,人體動作識別成為當(dāng)前的一個熱點,取得了一定的成果。尹建芹等[5]設(shè)計了基于關(guān)鍵點序列的動作識別方案?;谏眢w關(guān)節(jié)點變化的節(jié)奏,將動作標(biāo)簽為上肢運動與軀體運動。為了獲得關(guān)鍵點,通過C均值聚類提取上肢、中心關(guān)節(jié)點。并將關(guān)鍵點投射到對應(yīng)的動作路線中,從而得到了初步分類運動的關(guān)鍵序列。為了精確識別,通過時序直方圖對關(guān)鍵序列構(gòu)建分類學(xué)習(xí)函數(shù),將關(guān)鍵序列分類學(xué)習(xí),完成動作識別。但其忽略了局部特征與運動的光流特征,對相似特征與復(fù)雜動作的識別效果不理想。劉長征等[6]設(shè)計了復(fù)雜背景下定位的動作識別方案。該方法對3D動作采樣,完成對每個姿勢定位從而實現(xiàn)動作識別。此算法能夠較好地完成動作的識別,但在噪聲場景下,隨時間累積,顯著降低了識別性能。Bohick等[7]設(shè)計了一種時間模板的動作識別方案,通過對視頻序列中的臨近幀圖像執(zhí)行差分運算,獲得運動能量圖MEI與運動歷史圖MHI,并通過MEI與MHI共同來描述動作。該方法在簡單運動中獲得了一定的識別效果,但在較復(fù)雜場景與攝像頭移動中,動作輪廓很難有效提取,對于存在行為遮擋時,對動作識別的精確度大幅降低。

      將視頻分割成固定的時空網(wǎng)格是編碼時間結(jié)構(gòu)最流行的方法之一。這種方法通常與詞袋表示相結(jié)合,可以自動學(xué)習(xí)視覺詞匯和模型,而不需要對動作結(jié)構(gòu)進(jìn)行任何注釋。然而,對視頻劃分為統(tǒng)一的單元不足以模擬復(fù)雜的動作。因此,本文提出了一種序列袋(BOS)模型,能夠考慮復(fù)雜的行為有效的類內(nèi)變化。為了構(gòu)造BOS模型,首先將視頻表示為原始動作序列。通過將視頻轉(zhuǎn)換成PA序列,BOS模型可以保持PA的時間順序。然后,使用序列模式挖掘來自動學(xué)習(xí)動作結(jié)構(gòu)。此時,將挖掘的序列模式稱為序列集。本文的貢獻(xiàn)主要有:①通過動作的序列集描述,BOS模型可以有效地表示了復(fù)雜動作的時序結(jié)構(gòu);②將視頻描述為PA序列,可以使用SPM自動學(xué)習(xí)動作的時間結(jié)構(gòu),而不需要任何注釋或行動結(jié)構(gòu)的先驗知識。

      1 人體運動特征

      對于動作識別技術(shù)中,動作特征的提取與表示至關(guān)重要。在本文中,為了準(zhǔn)確全面的表示動作特征,采用兩個步驟來完成。首先,將一個視頻表示為基礎(chǔ)運動(PA)序列,形成了動作的特征序列。其次,將特征序列變換為PA索引序列。

      1.1 特征序列

      設(shè)訓(xùn)練視頻集{(Vn,yn)|n=1,2,…,N},其中,Vn為一個視頻,yn∈[1,2,…,C]為動作類別標(biāo)簽。提取改進(jìn)的密集軌跡(improved dense trajectory,IDT),并將每個視頻分成25個幀段,每個幀分別與前一段、下一段有五幀重疊。對每一幀段,分別計算每個軌跡的運動邊界直返圖(motion boundary histograms,MBH)、方向梯度直方圖(HOG)、光流直方圖(histograms of oriented optical flow,HOF)描述符并被編碼為Fisher向量[8]。然后,視頻Vn表示為特征序列Xn,定義如下

      (1)

      1.2 PA仿射傳播

      PA是短動作模式,設(shè)一個PA集表示為ι={pi|i=1,…,Np},Np為PA集的數(shù)量。第i個PA稱為Pi,定義為

      Pi={fi,Mi,τi}

      (2)

      式中:fi為第i個PA的特征;Mi為PA檢測器;τi為檢測閾值。

      為了計算fi,首先對所有的訓(xùn)練特征序列{X1,…,XN}進(jìn)行仿射傳播,以獲得具有代表性的幀段并聚類所有幀段的索引[9],仿射矩陣A表示為

      (3)

      然后,對每個簇i,訓(xùn)練一個PA探測器Mi。通過引入SVM與核函數(shù)定義式(3),則簇內(nèi)的片段為正樣本,其余為陰性樣本。利用libsvm庫學(xué)習(xí)PA探測器[10],對于每個PA探測器Mi,通過設(shè)置檢測閾值τi來建立訓(xùn)練數(shù)據(jù)序列,從而避免了含噪聲序列模式的被挖掘。

      PA可以通過無監(jiān)督進(jìn)行學(xué)習(xí),在訓(xùn)練階段,PA信息是無需注釋的。此外,具有相似部分的運動可以共享相同的PA(例如跳高和跳遠(yuǎn)的跑動部分)。

      1.3 序列索引

      設(shè)一個特征序列為Xn,PA集為ι,將Xn轉(zhuǎn)換為PA索引序列表示為

      (4)

      1.4 序列集學(xué)習(xí)

      一個序列集表示了一個動作的局部結(jié)構(gòu),定義為R={Rj|j=1,…,NR},通過SPM從索引的訓(xùn)練序列[I1,I2,…,IN]中挖掘出R,第j個序列Rj定義如下

      Rj={cj,sj,xj,wj}

      (5)

      為計算sj,首先收集培訓(xùn)數(shù)據(jù)索引Gc={n|yn=c},c∈[1,2,…,C]為表示特定運動類別c的標(biāo)簽。然后使用PrefixSpan算法[11]從收集到的訓(xùn)練索引序列{IGc(1),…,IGc(Nc)}計算序列模式,Nc為被標(biāo)記為動作類別c的視頻數(shù)量。算法中唯一的參數(shù)是支持率閾值η,sj的支持率vj可表示如下

      (6)

      式中:fj為在{IGc(1),…,IGc(Nc)}中出現(xiàn)sj的數(shù)量。當(dāng)vj≥η時,PrefixSpan算法的輸出是一個序列模式sj的集合。由于通過PrefixSpan算法所采集的子序列之間存在著相同的模式。因此需要對其進(jìn)行后處理,將這些模式合并。除去其長度超過3的過度擬合模式。所以,序列集xj的特征可定義如下

      (7)

      式中:xj為在sj中對應(yīng)索引的PA特征的序列。由于相同的序列模式可以從兩個動作類中挖掘得到,所以設(shè)定一個權(quán)重wj

      (8)

      對于模式sj,wj表示sj的相對支持率。如果同樣的模式發(fā)生在兩個以上的動作類型,那么兩序列集權(quán)重減少。反之,如果一個模式值出現(xiàn)在一個類型中,權(quán)重將達(dá)到最大值1。

      每個序列集表示一個特定的動作類型,其包含了中層時間結(jié)構(gòu),對特定的動作類型具有重要作用。然而,相對于語法模型,序列集通過自動學(xué)習(xí),無任何注釋或先驗知識的動作結(jié)構(gòu)。圖1為序列集學(xué)習(xí)顯示。圖1中數(shù)字為每個圖像代表的PA索引,括號中的值表示每個序列集的權(quán)重。

      圖1 序列集學(xué)習(xí)

      2 本文復(fù)雜動作識別算法設(shè)計

      為了構(gòu)造一個BOS模型,將視頻表示為一個基本動作(PA)序列,形成一個序列集,從而保持其時間順序。一個序列集是一個內(nèi)容豐富的子序列,描述了動作的局部結(jié)構(gòu)并保留了PA的時間關(guān)系。因此,BOS模型既有內(nèi)容也有時序?qū)傩?,對于類別多樣性與視角變化,其可有效地模擬復(fù)雜的行動。設(shè)測試視頻VT,序列集R,一個動作c的評分函數(shù)可表示為

      (9)

      式中:αj,c,βj,c,γj,c為在動作類別c中第j個序列集的參數(shù)。IT為序列索引,XT為VT的特征序列,φa(IT,sj)、φf(XT,xj)、φr(wj)分別為序列比對特征、表觀匹配特征、序列集特征。詳細(xì)介紹如下所述。

      2.1 序列比對特征

      φa(IT,sj)的作用是測量測試視頻和序列集之間的結(jié)構(gòu)相似性,設(shè)初始值F(n,0)=0,n∈[0,L];F(0,m)=-m,m∈[0,mj],L為在IT中幀段的數(shù)量。因此,聯(lián)配分?jǐn)?shù)矩陣F定義如下

      (10)

      (11)

      對于IT與sj的序列對比特征,當(dāng)sj與測試序列相匹配時,φa(IT,sj)具有最大比對得分

      (12)

      2.2 表觀匹配特征

      φf(XT,xj)的目的是衡量測試視頻與序列集間的視覺相似度,其表示如下

      (13)

      2.3 序列集特征

      φr(wj)表示在特定動作類序列集的重要性,其定義為

      (14)

      當(dāng)測試視頻與序列集之間的結(jié)構(gòu)相似性大于0時,選取其得到的值作為序列集的重要性。

      2.4 BOS模型學(xué)習(xí)

      根據(jù)上面的描述,式(9)可定義為

      Sc(VT,ζ)=wc.ψ(VT,ζ)

      (15)

      式中:wc為αj,c、βj,c、γj,c的串聯(lián);ψ(VT,ζ)為φa、φf、φr的串聯(lián)。對此,引入SVM對不平衡數(shù)據(jù)執(zhí)行參數(shù)wc,c∈[1,…,C]測量,因此,優(yōu)化問題變成

      (16)

      式中:C+、C-分別為正、負(fù)類別的正則化參數(shù),學(xué)習(xí)之前,φa,φf為正則化為零均值和單位標(biāo)準(zhǔn)偏差。隨著φa的變化,φf具有很大不同。通過對φf乘以常數(shù)λ來確保特征具有相似的范圍。

      2.5 分類學(xué)習(xí)

      為了準(zhǔn)確快速完成多動作的理解與識別,引入了一種有效的線性判別分析(LDA)[12]。LDA作為分類的思想是:希望獲得的類間耦合度低,類內(nèi)的耦合度高。意思就是要求類內(nèi)散布矩陣Sw越低越佳;同時類間散布矩陣Sb越高越佳,這樣才能達(dá)到最優(yōu)的分類性能。對此,引入Fisher函數(shù)J

      (17)

      式中:φ為一個n維列向量。Fisher通過選取使J(φ)最大的φ為投影方向,投影后獲得了最大Sb和最小Sw。根據(jù)Fisher的優(yōu)化優(yōu)計算,選擇一組最佳判別矢量來建立投影矩陣W,表示為

      (18)

      在LDA學(xué)習(xí)中,利用PCA降維運算,消除冗余信息。

      本文算法的過程如圖2所示。將視頻表示為多個PA序列,編碼形成了PA的特征序列。然后通過仿射傳播,將特征序列變換為PA索引序列。且將PA索引序列通過SPM形成不同的BOS,一個BOS描述了動作的局部結(jié)構(gòu)并保留了PA的時間關(guān)系。在BOS模型中,一個動作可通過一個序列集來表示,無需對動作結(jié)構(gòu)進(jìn)行任何注釋或先驗知識,可以實現(xiàn)序列集自動學(xué)習(xí)。通過對BOS模型進(jìn)行學(xué)習(xí),計算其序列比對特征、外觀匹配特征、序列集特征。最后,引入LDA學(xué)習(xí),完成識別任務(wù)。

      圖2 本文算法框架

      3 實驗仿真與分析

      3.1 實驗準(zhǔn)備與參數(shù)設(shè)置

      為了評估算法的性能,選取2個常用數(shù)據(jù)集進(jìn)行測驗:MSR3D與UCF-Sport。測試環(huán)境為:Core I3,3.50 GHz CPU,4 GB運行RAM,Win7操作系統(tǒng)PC。開發(fā)工具:QT Creator+OpenCV。為了顯示本文方案的優(yōu)越性,通過將當(dāng)前流行的動作識別方法進(jìn)行對比,分別為:文獻(xiàn)[5]算法、文獻(xiàn)[6]算法和文獻(xiàn)[7]算法,為便于書寫,簡寫為A、B、C算法。為了獲得最優(yōu)的性能,通過多實驗得到了參數(shù)值:σ=-1,Np=360,支持率閾值η=0.005,NR=1,λ=17.5,C+、C-分別為0.005、0.005/Nc,ρ=80。

      3.2 數(shù)據(jù)集

      MSR 3D是通過深度照相機獲取的深度序列的動作樣本[13]。MSR 3D通過10個演員表演20種不同動作。每種動作通過每個演員表演2到3次,共557幅序列組成。為便于測試,將20種動作分成3個子集,如表1所示。在每個子集中,50%數(shù)據(jù)用于訓(xùn)練,50%用于測試。

      表1 MSR3D數(shù)據(jù)集分類

      UCF Sport數(shù)據(jù)庫主要從BBC/ESPN的收集的各種運動數(shù)據(jù)和YouTube中下載得到的數(shù)據(jù)組合[14]。UCF主要包含的動作類型有:basketball shooting、biking、diving、golf swinging、horse riding、soccer juggling、swinging、tennis swinging、trampoline jumping、volleyball spiking、walking with a dog。UCF含有的服飾、運動,相機移動、光照變化、背景等千奇百態(tài),類似于現(xiàn)實生活。因此,對于動作識別具有一定的挑戰(zhàn)性。UCF Sport數(shù)據(jù)集顯示如圖3所示。

      表2為本文進(jìn)行測試所用到的數(shù)據(jù)集與方法。表2中包含了每種數(shù)據(jù)種的動作類型,動作種類與樣本大小,并且給出了其對應(yīng)的實驗方法。

      3.3 實驗結(jié)果

      表3、表4與表5是在S1、S2和S3中通過提出的算法測量的混淆矩陣。從表中得出,絕大部分的動作類型能準(zhǔn)確識別與理解,識別率高達(dá)95%以上。少部分動作識別率相對低一些,例如S1中的High arm wave易被誤判斷為Two hand wave、Forward kick。S2中的Golf swing易被誤判斷為Side kick。S3中的Tennis serve易被誤判斷為Golf swing。原因是這些動作軌跡相似較高,差異較小。

      表6為在UCF Sport中利用本文算法獲得的混淆矩陣。依據(jù)表6看出,本文算法在UCF Sport中具有優(yōu)異的識別率。對biking、diving、horse riding、soccer juggling、swinging、trampoline jumping、walking with a dog“golf swinging的正確率高達(dá)95%以上。golf swinging、tennis swinging、volleyball spiking等的識別率相對較低。主要是這幾種動作較復(fù)雜,變化速度快。

      圖3 UCF Sport數(shù)據(jù)集

      表2 實驗數(shù)據(jù)集與方法

      表3 S1子集的混淆矩陣

      表4 S2子集的混淆矩陣

      表5 S3子集的混淆矩陣

      表6 UCF Sport數(shù)據(jù)集混淆矩陣

      圖4顯示了在MSR 3D與UCF Sport數(shù)據(jù)集中,得到了A、B、C與本文算法分別動作的平均識別精度統(tǒng)計。根據(jù)圖4中看出,在表2的數(shù)據(jù)集中,本文方法取得了優(yōu)異的識別率,在MSR 3D與UCF Sport中分別達(dá)95.2%、94.5%,相對A、B、C方法取得了較好的表現(xiàn)。對于動作較簡單的MSR 3D中,4種算法獲得了一定的識別效果。但是在動作復(fù)雜的UCF Sport中,3種對照組算法明顯處于劣勢,而本文算法同樣取得了優(yōu)異的成績,說明提出的算法對復(fù)雜動作識別同樣有效。

      圖4 兩個數(shù)據(jù)集中平均識別精度比較

      圖5顯示了在MSR 3D與UCF Sport數(shù)據(jù)集中利用A、B、C與本文算法測量的Precision-Recall曲線[15]。從圖5中看出,在4種算法中,本文方法法曲線表現(xiàn)最優(yōu),特別是對于復(fù)雜動作的UCF Sport中,本文方法的優(yōu)勢更明顯,說明了本文算法性能相對對照組算法更優(yōu)秀,能夠較好適應(yīng)復(fù)雜動作的識別。

      圖5 不同算法的P-R曲線

      本文算法在MSR 3D與UCF Sport取得了優(yōu)良的效果,對復(fù)雜人體動作識別同樣有效。主要是本文通過將視頻轉(zhuǎn)換為PA索引序列,通過SPM將得到的序列建立了BOS模型,利用構(gòu)建的BOS模型能夠有效描述動作的局部結(jié)構(gòu)并保留了PA的時間關(guān)系。通過對BOS模型的學(xué)習(xí),定義了動作的評分函數(shù),從而無需對動作結(jié)構(gòu)進(jìn)行任何注釋或先驗知識,實現(xiàn)了序列集自動學(xué)習(xí)。有效地完成了對復(fù)雜動作的特征表示。最后引入LDA,根據(jù)動作的評分值進(jìn)行分類學(xué)習(xí),完成了動作的識別。而對照組A、B、C算法中在MSR 3D取得了較好的識別效果,但是對于復(fù)雜動作UCF Sport中識別效果不佳。

      4 結(jié)束語

      為了提高復(fù)雜動作識別的準(zhǔn)確度,如體育賽事中的各種動作,本文設(shè)計了基于連續(xù)運動動作的復(fù)雜人體動作識別方案。利用PA索引序列對動作特征進(jìn)行描述,并通過SPM構(gòu)建了BOS模型。BOS有效描述動作的局部結(jié)構(gòu)并保留了PA的時間關(guān)系,考慮了復(fù)雜動作的成分和時間特性,無需任何注釋或行動結(jié)構(gòu)的先驗知識,從而使得BOS模型具有可擴展性。通過對BOS模型學(xué)習(xí),建立了復(fù)雜動作的評分值,再根據(jù)LDA分類學(xué)習(xí),實現(xiàn)對復(fù)雜動作的識別與理解。在MSR 3D與UCF Sport數(shù)據(jù)集測試表明了提出算法對復(fù)雜動作識別的有效性。

      猜你喜歡
      矩陣動作特征
      如何表達(dá)“特征”
      不忠誠的四個特征
      動作描寫要具體
      抓住特征巧觀察
      畫動作
      動作描寫不可少
      初等行變換與初等列變換并用求逆矩陣
      矩陣
      南都周刊(2015年4期)2015-09-10 07:22:44
      矩陣
      南都周刊(2015年3期)2015-09-10 07:22:44
      矩陣
      南都周刊(2015年1期)2015-09-10 07:22:44
      柳江县| 曲麻莱县| 鲜城| 景东| 蒲江县| 调兵山市| 西乌珠穆沁旗| 阜城县| 红原县| 安丘市| 保德县| 巫溪县| 浑源县| 黄平县| 汤阴县| 轮台县| 罗田县| 通州区| 南阳市| 清水河县| 雅安市| 陵川县| 郸城县| 祁连县| 乌审旗| 新蔡县| 屯留县| 嘉祥县| 通海县| 永吉县| 黎川县| 湟源县| 万安县| 博爱县| 县级市| 西城区| 乌拉特前旗| 武义县| 依安县| 东乌珠穆沁旗| 湟源县|