• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于關(guān)節(jié)信息和極限學(xué)習(xí)機(jī)的人體動(dòng)作識(shí)別

      2015-05-29 12:30:09張孫培孫懷江
      現(xiàn)代電子技術(shù) 2015年10期
      關(guān)鍵詞:極限學(xué)習(xí)機(jī)協(xié)方差

      張孫培++孫懷江

      摘 要: 基于關(guān)節(jié)信息的人體動(dòng)作識(shí)別在人機(jī)交互、互動(dòng)娛樂(lè)、多媒體信息檢索等方面應(yīng)用廣泛。為了提高動(dòng)作識(shí)別率,使用兩種具有固定長(zhǎng)度的分層描述符分別關(guān)注運(yùn)動(dòng)的動(dòng)態(tài)和靜態(tài)信息,對(duì)運(yùn)動(dòng)序列提取特征,將這兩種描述符線性組合,形成同時(shí)包含動(dòng)態(tài)和靜態(tài)信息的新描述符,并使用極限學(xué)習(xí)機(jī)(ELM)進(jìn)行分類。該方法在微軟Kinect傳感器采集到的MSRAction3D數(shù)據(jù)庫(kù)和運(yùn)動(dòng)采集數(shù)據(jù)集HDM05上進(jìn)行了仿真實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果證明組合后的描述符結(jié)合ELM在這兩個(gè)數(shù)據(jù)集上的識(shí)別率較現(xiàn)有方法有明顯提高。

      關(guān)鍵詞: 人體動(dòng)作識(shí)別; 極限學(xué)習(xí)機(jī); 協(xié)方差; 方向位移直方圖

      中圖分類號(hào): TN710?34; TP391.4 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2015)10?0055?06

      0 引 言

      人體動(dòng)作識(shí)別是計(jì)算機(jī)視覺(jué)研究中的一個(gè)分支,被廣泛地應(yīng)用于人機(jī)互動(dòng)、交互式娛樂(lè)等多個(gè)領(lǐng)域?;陉P(guān)節(jié)信息的運(yùn)動(dòng)軌跡記錄是常用的高級(jí)記錄方法之一,其中運(yùn)動(dòng)軌跡是指隨時(shí)間變化的關(guān)節(jié)路徑。

      人體運(yùn)動(dòng)相關(guān)研究的第一個(gè)問(wèn)題是運(yùn)動(dòng)數(shù)據(jù)的采集,常用的方法[1]有機(jī)械式的運(yùn)動(dòng)捕獲,基于電磁系統(tǒng)的運(yùn)動(dòng)捕獲,基于慣性系統(tǒng)的運(yùn)動(dòng)捕獲,基于光學(xué)系統(tǒng)的運(yùn)動(dòng)捕獲。為了方便研究者使用,現(xiàn)有很多公開(kāi)的運(yùn)動(dòng)捕獲數(shù)據(jù)集,例如CMU運(yùn)動(dòng)捕獲數(shù)據(jù)集和HDM05數(shù)據(jù)集[2]。這些數(shù)據(jù)的采集需要較大代價(jià),最近基于深度信息的微軟Kinect運(yùn)動(dòng)采集器因其廉價(jià)性和可接受的精度,得到越來(lái)越多的使用。

      獲取運(yùn)動(dòng)數(shù)據(jù)后,要做的就是提取特征和選擇分類器。Wu和Yang使用運(yùn)動(dòng)軌跡上每個(gè)點(diǎn)的曲率和扭矩建立了一個(gè)長(zhǎng)度可變的描述符[3?4]。Wang使用歸一化的分布向量描述每個(gè)運(yùn)動(dòng)軌跡,但是將描述符長(zhǎng)度限定為固定值[5]。此后,Wang又根據(jù)骨架關(guān)節(jié)之間的相對(duì)位置建立描述符[6],并用傅里葉時(shí)序金字塔在頻域內(nèi)建立了時(shí)序模型。Xia計(jì)算出一幀中3D關(guān)節(jié)的直方圖,并用HMM建立了時(shí)序模型[7]。Hussein等用協(xié)方差矩陣和分層的方法描述了骨架關(guān)節(jié)坐標(biāo)之間的時(shí)序依賴[8],Gowayyed等又將3D關(guān)節(jié)軌跡投影到三個(gè)相互正交的2D平面上[9],利用方向位移直方圖和分層的時(shí)序金字塔提取了相鄰幀間的關(guān)節(jié)位置變化信息,并且取得了更好的識(shí)別效果。

      上述兩種方法分別片面地關(guān)注了動(dòng)作的動(dòng)態(tài)和靜態(tài)信息,本文在Hussein等的基礎(chǔ)上將這兩種描述符加以線性拼接得到同時(shí)包含關(guān)節(jié)間位置依賴和相鄰幀間關(guān)節(jié)位置變化的新描述符,并使用極限學(xué)習(xí)機(jī)[10]進(jìn)行分類。

      1 兩種特征提取方法

      1.1 協(xié)方差描述符

      1.1.1 3D關(guān)節(jié)的協(xié)方差描述符

      假設(shè)人體由K個(gè)關(guān)節(jié)構(gòu)成,動(dòng)作序列一共有T幀。設(shè)[xti],[yti]和[zti]分別為第i個(gè)關(guān)節(jié)在第t幀時(shí)的[x,y,z]坐標(biāo)。設(shè)S是所有關(guān)節(jié)的位置構(gòu)成的向量,即[S=x1,…,xK,y1,…,yK,z1,…,zK′],一共有[N=3K]個(gè)元素,則這個(gè)序列的協(xié)方差描述符就是[CovS=][E[(S-E(S))(S-E(S))′]]。由于S的概率分布未知,所以應(yīng)用中使用樣本協(xié)方差來(lái)替代,有如下公式:

      [CS=1T-1t=1T(S-S)(S-S)′] (1)

      式中[S]是S的樣本均值。

      樣本協(xié)方差矩陣[CS]是一個(gè)[N×N]的對(duì)稱矩陣,作為描述符時(shí)只需要采用該矩陣的上三角矩陣即可。例如后述實(shí)驗(yàn)中用到的由微軟Kinect傳感器采集的人體骨架有20個(gè)關(guān)節(jié),則[N=3×20=60],協(xié)方差矩陣的上三角矩陣元素個(gè)數(shù)則為[NN+12=1 830],也就是描述符的長(zhǎng)度。

      1.1.2 時(shí)序分層結(jié)構(gòu)

      3D關(guān)節(jié)的協(xié)方差描述符注意到了運(yùn)動(dòng)中不同關(guān)節(jié)間的位置依賴,但是忽略了運(yùn)動(dòng)的時(shí)序關(guān)系。這可能造成一些問(wèn)題,例如開(kāi)門和關(guān)門的動(dòng)作從關(guān)節(jié)的空間位置來(lái)看沒(méi)有區(qū)別,但是每幀的坐標(biāo)出現(xiàn)的先后順序是不同的。為了解決上述問(wèn)題,引入了時(shí)序分層結(jié)構(gòu),該模型啟發(fā)自Lazebnik在2D圖像中的空間金字塔匹配[11]。第一層協(xié)方差矩陣計(jì)算了整個(gè)運(yùn)動(dòng)序列,后面的各層在整個(gè)序列的小一些的窗口上計(jì)算,并且分有交疊和無(wú)交疊兩種情況。每個(gè)協(xié)方差矩陣由兩個(gè)索引來(lái)標(biāo)記,前一個(gè)標(biāo)示了層數(shù),后一個(gè)標(biāo)示了在這層中的索引,例如第一層標(biāo)記為[C00]。第一層的協(xié)方差矩陣涵蓋了運(yùn)動(dòng)序列的[T2l]幀。從一個(gè)窗口到下一個(gè)窗口的步長(zhǎng)可以是整個(gè)窗口的長(zhǎng)度,或者是窗口長(zhǎng)度的一半;如果是后者,那么各窗口之間就產(chǎn)生了交疊。

      1.1.3 快速構(gòu)建描述符

      創(chuàng)建一個(gè)時(shí)序分層并且允許交疊的多層描述符需要計(jì)算相同序列的各個(gè)子序列的多個(gè)協(xié)方差矩陣,過(guò)程耗時(shí)較長(zhǎng)。事實(shí)上,可以用動(dòng)態(tài)規(guī)劃的方法在固定的時(shí)間內(nèi)計(jì)算出矩陣的每個(gè)元素。相似的思想在Tuzel的積分圖像中計(jì)算圖像塊的協(xié)方差時(shí)使用過(guò)[12]。

      首先定義兩個(gè)積分符號(hào)[P(t)]和[Q(t)]如下:

      [P(t)=i=1tS(i),Q(t)=i=1tS(i)S(i)′] (2)

      經(jīng)過(guò)一系列代數(shù)運(yùn)算,可以得出下式直接計(jì)算出第[t1+1~t2]幀范圍內(nèi)的協(xié)方差矩陣:

      [Ct1,t2S=1M-1Qt1,t2-1MPt1,t2Pt1,t2′] (3)

      式中:[M=t2-t1];[Qt1,t2=Qt2-Qt1];[Pt1,t2=Pt2-Pt1]。計(jì)算出P和Q后,用式(3)在固定時(shí)間內(nèi)計(jì)算任意幀范圍內(nèi)的協(xié)方差,所需時(shí)間與幀數(shù)無(wú)關(guān)。

      1.2 方向位移直方圖

      方向位移直方圖(Histogram of Oriented Displacements,HOD)通過(guò)分別描述每個(gè)關(guān)節(jié)的3D軌跡來(lái)描述一個(gè)運(yùn)動(dòng)序列。首先,將每個(gè)關(guān)節(jié)的3D軌跡替換成投影在三個(gè)坐標(biāo)平面(xy,yz和xz)的2D軌跡,用HOD描述每個(gè)2D軌跡。然后通過(guò)為每個(gè)2D軌跡建立時(shí)序金字塔來(lái)獲得時(shí)序信息。

      下面詳細(xì)介紹HOD、時(shí)序金字塔和最終的3D軌跡描述符。

      1.2.1 方向位移直方圖

      HOD方法使用每?jī)蓚€(gè)相鄰點(diǎn)的方向直方圖來(lái)描述2D運(yùn)動(dòng)。給定一個(gè)運(yùn)動(dòng)軌跡[T={P1,P2,…,Pn}],其中[Pt]是關(guān)節(jié)在時(shí)間t的2D位置。對(duì)于每一對(duì)位置[Pt]和[Pt+1],計(jì)算出方向角[θ(t,t+1)],可以通過(guò)式(4)的斜率(slope)來(lái)得到這個(gè)角度:

      [slope=Pt+1.y-Pt.yPt+1.x-Pt.x] (4)

      [θ]的值介于0°~360°之間,然后根據(jù)[θ]建立一個(gè)直方圖,如果直方圖分成8個(gè)塊,則第一塊的所有[θ]介于0°~45°之間。

      直方圖由相鄰關(guān)節(jié)移動(dòng)的距離累加而成。用式(5)決定每個(gè)[θ]所屬的具體直方圖塊,然后將[Pt]和[Pt+1]的距離加入相應(yīng)的直方圖塊:

      [hist_bin=angle×hist_length360] (5)

      HOD記錄了每個(gè)關(guān)節(jié)在每個(gè)方向范圍內(nèi)移動(dòng)量,但是丟失了時(shí)序信息,第1.2.2節(jié)描述的時(shí)序金字塔可以解決這個(gè)問(wèn)題。

      1.2.2 時(shí)序金字塔和3D軌跡描述符

      如上所述,將運(yùn)動(dòng)序列作為一個(gè)整體來(lái)處理會(huì)丟失時(shí)序信息,所以使用分層的時(shí)序金字塔來(lái)獲取時(shí)序信息。在第一層,用整個(gè)運(yùn)動(dòng)序列來(lái)建立一個(gè)描述符。第二層,將整個(gè)運(yùn)動(dòng)序列分成兩部分,其中的每一部分分別建立一個(gè)二級(jí)描述符,以此類推。也就是說(shuō)某個(gè)特定層的每個(gè)直方圖塊會(huì)在下一層分成兩個(gè)直方圖塊。

      最后可以將一個(gè)關(guān)節(jié)的3個(gè)2D投影的HOD描述符串聯(lián)起來(lái)以描述該點(diǎn)的3D軌跡。

      1.3 混合特征描述符

      從前兩小節(jié)可以看出,協(xié)方差描述符可以反映出人體骨架關(guān)節(jié)之間的位置關(guān)聯(lián)信息,而對(duì)同一關(guān)節(jié)在不同時(shí)刻的位置變化描述不夠,相反地,HOD描述符利用建立直方圖的方法統(tǒng)計(jì)了各關(guān)節(jié)在相鄰幀間的動(dòng)態(tài)位移關(guān)系,但丟失了每一幀各關(guān)節(jié)間的靜態(tài)聯(lián)系。此外,觀察發(fā)現(xiàn)兩種特征描述方法都建立了分層結(jié)構(gòu)來(lái)獲取時(shí)序信息,只是各層的特征提取方法不同。

      因此,本文將兩種特征按層分別拼接起來(lái),形成新的運(yùn)動(dòng)特征描述符,以期達(dá)到同時(shí)能在靜態(tài)上反映關(guān)節(jié)位置關(guān)聯(lián)信息和動(dòng)態(tài)上反映各關(guān)節(jié)位置變化信息的目的??紤]到大部分分類器對(duì)特征向量?jī)?nèi)元素的排列順序并不敏感,在操作上可以簡(jiǎn)化為將兩種特征向量簡(jiǎn)單拼接,即:

      設(shè)向量[(aki)1×m]是第i個(gè)樣本在分為k層時(shí)的協(xié)方差描述符,向量[(bki)1×n]是該樣本在同樣分為k層時(shí)的HOD描述符,那么該樣本的組合特征描述符記為[cki=[aki,bki]1×(m+n)]。

      2 極限學(xué)習(xí)機(jī)

      在處理非線性的高維小樣本分類問(wèn)題上,支持向量機(jī)(SVM)應(yīng)用廣泛,Hussein等也是會(huì)用該方法做分類。但是SVM本身存在一些缺陷:算法建立在求解二次規(guī)劃的基礎(chǔ)上,速度較慢;對(duì)核函數(shù)、懲罰因子和核參數(shù)的選擇較為敏感;在處理多分類的問(wèn)題時(shí),性能不如神經(jīng)網(wǎng)絡(luò)。為此,選擇極限學(xué)習(xí)機(jī)作為分類器。

      極限學(xué)習(xí)機(jī)(Extreme Learning Machines,ELM)由黃廣斌在2004年提出,并由Bernard Widrow于2013年再次提出,其主要思想是輸入層與隱藏層之間的權(quán)值參數(shù),以及隱藏層上的偏置向量參數(shù)是一次確定的[13],不需要像其他基于梯度的學(xué)習(xí)算法一樣通過(guò)迭代反復(fù)調(diào)整刷新,只需求解一個(gè)最小范數(shù)最小二乘問(wèn)題,并最終化歸成求解一個(gè)矩陣的 Moore?Penrose 廣義逆問(wèn)題。因此,該算法具有訓(xùn)練參數(shù)少、速度快的優(yōu)點(diǎn)。

      ELM基本算法描述如下:

      對(duì)于單隱層前饋網(wǎng)絡(luò)(SLFNs),為描述方便,引入以下符號(hào):

      (1) N:訓(xùn)練樣本總數(shù)。

      (2) [N]:隱藏層單元的個(gè)數(shù)。

      (3) [n,m]:輸入和輸出層的維度。

      (4)[xj,tj,j=1,2,…,N:]訓(xùn)練樣本,其中[xj=(xj1,xj2,…,xjn)T∈Rn],[tj=(tj1,tj2,…,tjn)T∈Rm]。將所有輸出向量按行拼起來(lái),可得到整體輸出矩陣:

      [T=tT1tT2?tTNN×m=t11…t1m???tN1…tNm] (6)

      (5) [oj, j=1,2,…,N]:與標(biāo)注[tj]相對(duì)應(yīng)的實(shí)際輸出向量。

      (6) [W=(wij)N×n]:輸入層與隱藏層之間的權(quán)矩陣,其中W的第i行對(duì)應(yīng)的向量[wi=(wi1,wi2,…,win)T]表示連接隱藏層第i個(gè)單元與輸入單元的權(quán)向量。

      (7) [b=(b1,b2,…,bN)T]:偏置向量,[bi]表示第i個(gè)隱藏層單元的閾值。

      (8) [β=(βij)N×m]:隱藏層與輸出層之間的權(quán)矩陣,其中[β]的第i行對(duì)應(yīng)的向量[βi=(βi1,βi2,…,βim)T]表示連接隱藏層第i個(gè)單元與輸出層單元的權(quán)向量。矩陣[β]可按行寫成如下分塊形式:

      [β=βT1βT2?βTN=β11…β1m???βN1…βNm] (7)

      (9)[g(x)]:激勵(lì)函數(shù)。

      2.1 SLFNs的逼近問(wèn)題

      數(shù)學(xué)上,SLFNs的一般模型為:

      [i=1Ngwi?xj+biβi=oj, j=1,2,…,N] (8)

      式中[wi?xj]表示[wi]和[xj]的內(nèi)積。

      要使模型(8)能夠零誤差地逼近上述N個(gè)樣本,指的是:

      [j=1Noj-tj=0] (9)

      也就是,存在[W,β和b],使得:

      [i=1Ngwi?xj+biβi=tj, j=1,2,…,N] (10)

      利用矩陣表示,式(10)可以寫成:

      [Hβ=T] (11)

      式中:[T∈RN×m]和[β∈RN×m]的定義分別見(jiàn)式(6)和式(7);[H=HW,b=(bij)N×N],這里[Hij=g(wj?xi+bj)],其第i列對(duì)應(yīng)第i個(gè)隱藏層單元的輸出向量。

      2.2 基于梯度的學(xué)習(xí)算法

      當(dāng)隱藏層單元的個(gè)數(shù)和樣本的個(gè)數(shù)相同,即[N=N],且矩陣H可逆時(shí),式(11)有惟一解,即前面所述“零誤差地逼近樣本”。然而大多數(shù)情況下,隱藏層單元的個(gè)數(shù)遠(yuǎn)小于樣本個(gè)數(shù),此時(shí)H為長(zhǎng)方陣,且不一定存在[W,b和β],使得:

      [HW,bβ-T=minW,b,βHW,bβ-T] (12)

      式(12)等價(jià)于以下極小化成本函數(shù)(cost function):

      [E=j=1Ni=1Ngwi?xj+biβi-tj2] (13)

      該極小化問(wèn)題通常采用基于梯度的學(xué)習(xí)算法來(lái)求解。記[θ=(W,β,b)]表示所有的參數(shù),則相應(yīng)的迭代格式為:

      [θk=θk-1-η?E(θ)?θ] (14)

      式中η為學(xué)習(xí)率。

      對(duì)于前饋型神經(jīng)網(wǎng)絡(luò),常用的學(xué)習(xí)算法是反向傳導(dǎo)(Back?Propagation,BP)法,但該方法存在以下問(wèn)題[10]:

      (1) 學(xué)習(xí)率的取值不易確定;

      (2) 可能收斂到局部最?。?/p>

      (3) 易造成過(guò)度訓(xùn)練;

      (4) 基于梯度的學(xué)習(xí)算法較為耗時(shí)。

      2.3 SLFNs的最小范數(shù)最小二乘解

      SLFNs的通常的學(xué)習(xí)算法中,輸入權(quán)值W和隱藏層單元的偏置向量b都要通過(guò)迭代不斷地進(jìn)行調(diào)整,事實(shí)上大量實(shí)驗(yàn)結(jié)果表明,SLFNs的參數(shù)W和b不需要進(jìn)行調(diào)整,且可以隨機(jī)指定。當(dāng)W和b固定時(shí),式(12)等價(jià)于求線性系統(tǒng)(11)的最小二乘解,即:

      [Hβ-T=minβHβ-T] (15)

      根據(jù)定理[Gy]是[Ax=y]的最小范數(shù)最小二乘解等價(jià)于[G=A?],式(11)的最小范數(shù)最小二乘解為:

      [β=H+T] (16)

      2.4 ELM算法

      至此,ELM的算法流程總結(jié)如下:

      算法1:給定訓(xùn)練樣本集合[?=][xi,tixi∈Rn,ti∈RmNi=1],激勵(lì)函數(shù)[g(x)] ,隱藏層單元個(gè)數(shù)[N]。

      第一步:任意指定輸入權(quán)值[wi,bi, i=1,2,3,…, N]。

      第二步:計(jì)算隱藏層輸出矩陣H。

      第三步:計(jì)算輸出權(quán)矩陣[β=H+T。]

      3 實(shí) 驗(yàn)

      為了評(píng)價(jià)拼接后的新描述符,并驗(yàn)證ELM算法在運(yùn)動(dòng)數(shù)據(jù)上的分類能力,本文參照文獻(xiàn)[8?9]在數(shù)據(jù)集MSR?Action3D和HDM05上做了對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)中分別使用了線性SVM和ELM分類器,以及基于投票的VELM分類器[14],其中SVM采用了LIBSVM軟件[15]。

      3.1 MSR?Action3D數(shù)據(jù)集

      MSR?Action3D數(shù)據(jù)集[16]包含10個(gè)人的20種不同動(dòng)作,每個(gè)動(dòng)作重復(fù)2~3遍,一共有567個(gè)運(yùn)動(dòng)序列,參照文獻(xiàn)[8],本文采用了其中的544個(gè)。該數(shù)據(jù)集由微軟Kinect傳感器采集,記錄了深度信息和骨架關(guān)節(jié)位置,其中僅需要用到骨架信息,每個(gè)骨架包含20個(gè)關(guān)節(jié)。在數(shù)據(jù)的使用上,沿用了文獻(xiàn)[16]的方法,將整個(gè)數(shù)據(jù)集分成3個(gè)子集,每個(gè)子集包含8類動(dòng)作,子集之間有交疊。各子集分別訓(xùn)練分類器,最后統(tǒng)計(jì)3個(gè)子集的平均訓(xùn)練精度。訓(xùn)練集和測(cè)試集的劃分方法為根據(jù)表演者選取編號(hào)為1~5的5個(gè)人的運(yùn)動(dòng)數(shù)據(jù)作訓(xùn)練,另外5個(gè)人的數(shù)據(jù)做測(cè)試。

      本文使用相同的數(shù)據(jù)集在改變描述符結(jié)構(gòu)參數(shù)的情況下,分別采用不同的特征描述符和不同的分類器的組合,SVM選用線性核函數(shù),ELM隱藏層單元個(gè)數(shù)設(shè)為10 000,VELM為10個(gè)ELM進(jìn)行投票,每個(gè)ELM的隱藏層單元個(gè)數(shù)為1 000,各數(shù)據(jù)子集的平均識(shí)別率如表1所示。

      表1 各種方法在MSR?Action3D數(shù)據(jù)集上的識(shí)別率

      表1中:L表示特征描述符的層數(shù);帶有OL的表示各層窗口間帶交疊;CV表示協(xié)方差描述符;HOD表示方向位移直方圖描述符。HOD描述符不存在交疊情況,所以表格的后兩格為空。MIX表示組合描述符,組合描述符的交疊是指帶交疊的協(xié)方差描述符和不帶交疊的HOD描述符的組合。從表1可以看出,組合特征描述符結(jié)合ELM分類器在該數(shù)據(jù)集上具有明顯優(yōu)勢(shì),另外ELM算法對(duì)協(xié)方差描述符的分類效果對(duì)比SVM也有明顯提高。為驗(yàn)證該結(jié)論的一般性,分別在不同的訓(xùn)練集和測(cè)試集劃分方式下進(jìn)行了10次上述實(shí)驗(yàn),平均結(jié)果如表2所示,可見(jiàn)結(jié)論具有一般性。

      3.2 HDM05運(yùn)動(dòng)捕獲數(shù)據(jù)集

      參照文獻(xiàn)[17],本文還在運(yùn)動(dòng)捕獲數(shù)據(jù)集HDM05上進(jìn)行了上述實(shí)驗(yàn)。該數(shù)據(jù)集與MSR?Action3D數(shù)據(jù)集的主要區(qū)別在于:

      (1) HDM05采用專業(yè)的運(yùn)動(dòng)捕獲設(shè)備可以獲取具有較小噪聲的數(shù)據(jù);

      (2) 該數(shù)據(jù)集的骨架節(jié)點(diǎn)為31個(gè),這會(huì)使得兩種特征描述符均變長(zhǎng);

      (3) 每秒采集的幀數(shù)也高很多,達(dá)到120 f/s而不是前一數(shù)據(jù)集的30 f/s。

      表2 10種劃分方式下MSR?Action3D數(shù)據(jù)集平均識(shí)別率

      實(shí)驗(yàn)中使用了和文獻(xiàn)[17]一樣的5個(gè)人表演的11個(gè)動(dòng)作,這11個(gè)動(dòng)作分別是:deposit floor,elbow to knee,grab high,hop both legs,jog,kick forward,lie down,floor,rotate both arms backward,sneak,squat和throw basketball。但是由于無(wú)法找到與原文獻(xiàn)中一樣的運(yùn)動(dòng)序列,在保證動(dòng)作類別相同的情況下在該數(shù)據(jù)集下隨機(jī)選擇了277個(gè)運(yùn)動(dòng)序列,將其中3個(gè)演員的動(dòng)作做訓(xùn)練,其余2個(gè)演員的動(dòng)作做測(cè)試,如同前一數(shù)據(jù)集,窮舉了全部10種訓(xùn)練、測(cè)試集的劃分,并剔除其中一種明顯出錯(cuò)的情況,最后統(tǒng)計(jì)剩余的9種,9次的平均結(jié)果如表3所示。

      結(jié)果可以看出ELM算法對(duì)各種特征描述符的分類結(jié)果均優(yōu)于SVM。比較表3和表2,發(fā)現(xiàn)雖然用作訓(xùn)練的樣本個(gè)數(shù)相差無(wú)幾,但相同的特征描述符和分類器對(duì)HDM05數(shù)據(jù)集的識(shí)別率要遠(yuǎn)高于MSR?Action3D數(shù)據(jù)集。這是HDM05數(shù)據(jù)集低噪聲,高幀率,以及較多的關(guān)節(jié)數(shù)決定的。

      4 結(jié) 語(yǔ)

      本文將協(xié)方差描述符和HOD描述符線性組合起來(lái)形成一個(gè)既包含靜態(tài)的每幀各關(guān)節(jié)間的依賴信息,又包含動(dòng)態(tài)的每個(gè)關(guān)節(jié)各幀之間位移關(guān)系的新描述符。分別將這3種描述符在MSR?Action3D數(shù)據(jù)集和HDM05數(shù)據(jù)集上用線性SVM,ELM和VELM做分類,結(jié)果表明:ELM和基于投票的VELM在各種特征上的效果均不遜于SVM,且在MSR?Action3D數(shù)據(jù)集上結(jié)合組合特征對(duì)分類精度得到了很大改善,這證明了ELM算法在處理人體運(yùn)動(dòng)這樣的流形數(shù)據(jù)上的優(yōu)勢(shì);組合后的特征描述符在低質(zhì)量的數(shù)據(jù)上,能夠起到特征互補(bǔ)的作用,提高識(shí)別率。但是在HDM05這樣的高質(zhì)量數(shù)據(jù)集上,組合后的特征并無(wú)明顯優(yōu)勢(shì)。結(jié)合具體樣本分析后HOD提取的特征具有尺度和速度不變性,而協(xié)方差特征具有縮放和平移不變性,不具備旋轉(zhuǎn)不變性,這樣的兩種特征簡(jiǎn)單拼接會(huì)互相削弱各自性質(zhì)的表達(dá)。

      在后期工作中,期望建立新的描述符,對(duì)子關(guān)節(jié)相對(duì)父關(guān)節(jié)的旋轉(zhuǎn)角度提取特征,以實(shí)現(xiàn)旋轉(zhuǎn)、縮放、平移和尺度的不變性,來(lái)進(jìn)一步改善分類效果。

      表3 9種劃分方法下HDM05數(shù)據(jù)集平均識(shí)別率

      參考文獻(xiàn)

      [1] 藍(lán)榮祎.人體運(yùn)動(dòng)捕獲數(shù)據(jù)的建模與重用研究[D].南京:南京理工大學(xué),2013.

      [2] M?LLER M, R?DER T, CLAUSEN M, et al. Documentation mocap database HDM 05 [D]. Germeny: Universitat Bonn, 2007.

      [3] WU S, LI Y, ZHANG J. A hierarchical motion trajectory signature descriptor; proceedings of the robotics and automation [C]// Proceedings of 2008 IEEE International Conference on ICRA.[S.l.]: IEEE, 2008: 3070?3075.

      [4] YANG J, LI Y, WANG K. A new descriptor for 3D trajectory recognition via modified CDTW [C]// proceedings of 2010 IEEE International Conference on the Automation and Logistics (ICAL). [S.l.]: IEEE, 2010: 37?42.

      [5] WANG H, KLASER A, SCHMID C, et al. Action recognition by dense trajectories[C]// Proceedings of 2011 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). [S.l.]: IEEE, 2011: 3169?3176.

      [6] WANG J, LIU Z, WU Y, et al. Mining actionlet ensemble for action recognition with depth cameras [C]// proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). [S.l.]: IEEE, 2012: 1290?1297.

      [7] XIA L, CHEN C?C, AGGARWAL J. View invariant human action recognition using histograms of 3d joints [C]// proceedings of 2012 IEEE Computer Society Conference on the Computer Vision and Pattern Recognition Workshops (CVPRW). [S.l.]: IEEE, 2012: 20?27.

      [8] HUSSEIN M E, TORKI M, GOWAYYED M A, et al. Human action recognition using a temporal hierarchy of covariance descriptors on 3d joint locations [C]// proceedings of the Twenty?third International Joint Conference on Artificial Intelligence. USA: AAAI Press, 2013: 2466?2472.

      [9] GOWAYYED M A, TORKI M, HUSSEIN M E, et al. Histogram of oriented displacements (HOD): describing trajectories of human joints for action recognition [C]// proceedings of the Twenty?third International Joint Conference on Artificial Intelligence. USA: AAAI Press, 2013: 1351?1357.

      [10] HUANG G?B, ZHU Q?Y, SIEW C?K. Extreme learning machine: a new learning scheme of feedforward neural networks [C]// Proceedings of 2004 IEEE International Joint Conference on Neural Networks. [S.l.]: IEEE 2004: 985?990.

      [11] LAZEBNIK S, SCHMID C, PONCE J. Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories[C]// proceedings of 2006 IEEE Computer Society Conference on the Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2006: 45?49.

      [12] TUZEL O, PORIKLI F, MEER P. Pedestrian detection via classification on riemannian manifolds [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2008, 30(10): 1713?1727.

      [13] WIDROW B, GREENBLATT A, KIM Y, et al. The< i> No?Prop algorithm: A new learning algorithm for multilayer neural networks [J]. Neural Networks, 2013, 37: 182?188.

      [14] CAO J, LIN Z, HUANG G?B, et al. Voting based extreme learning machine [J]. Information Sciences, 2012, 185(1): 66?77.

      [15] CHANG C?C, LIN C?J. LIBSVM: a library for support vector machines [J]. ACM Transactions on Intelligent Systems and Technology (TIST), 2011, 2(3): 27?33.

      [16] LI W, ZHANG Z, LIU Z. Action recognition based on a bag of 3d points [C]// proceedings of 2010 IEEE Computer Society Conference on the Computer Vision and Pattern Recognition Workshops (CVPRW). [S.l.]: IEEE, 2010: 9?14.

      [17] OFLI F, CHAUDHRY R, KURILLO G, et al. Sequence of the most informative joints (smij): A new representation for human skeletal action recognition [J]. Journal of Visual Communication and Image Representation, 2014, 25(1): 24?38.

      猜你喜歡
      極限學(xué)習(xí)機(jī)協(xié)方差
      基于稀疏編碼器與集成學(xué)習(xí)的文本分類
      神經(jīng)元的形態(tài)分類方法研究
      基于判別信息極限學(xué)習(xí)機(jī)的高光譜遙感圖像分類
      極限學(xué)習(xí)機(jī)修正誤差的體育成績(jī)預(yù)測(cè)模型
      多元線性模型中回歸系數(shù)矩陣的可估函數(shù)和協(xié)方差陣的同時(shí)Bayes估計(jì)及優(yōu)良性
      基于極限學(xué)習(xí)機(jī)的玻璃瓶口缺陷檢測(cè)方法研究
      二維隨機(jī)變量邊緣分布函數(shù)的教學(xué)探索
      考試周刊(2016年54期)2016-07-18 08:01:58
      不確定系統(tǒng)改進(jìn)的魯棒協(xié)方差交叉融合穩(wěn)態(tài)Kalman預(yù)報(bào)器
      極限學(xué)習(xí)機(jī)在圖像分割中的應(yīng)用
      一種基于廣義協(xié)方差矩陣的欠定盲辨識(shí)方法
      临邑县| 孝感市| 绥棱县| 长宁区| 昭苏县| 宿州市| 谢通门县| 彝良县| 台东市| 连云港市| 云霄县| 广丰县| 上林县| 通渭县| 麟游县| 勐海县| 疏勒县| 隆子县| 泸水县| 县级市| 丹东市| 嘉黎县| 贵定县| 易门县| 安乡县| 静安区| 渝北区| 南开区| 甘泉县| 杭州市| 宜章县| 克东县| 泾源县| 宁化县| 嫩江县| 申扎县| 曲周县| 罗定市| 衡水市| 南雄市| 庆安县|