• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      一種基于時間幀差的行為識別方法

      2024-01-26 22:06:37張穎李英杰
      電腦知識與技術 2023年35期
      關鍵詞:光流

      張穎 李英杰

      摘要:視頻中人類行為的跟蹤和識別是計算機視覺的重要任務。視頻中特征提取和建模是識別行為的關鍵問題。研究基于時間幀差的特征提取方法和行為識別的方法。首先,對相鄰視頻幀計算幀差圖像,再計算幀差圖像的光流,形成幀差序列和光流序列;然后,從幀差序列和光流序列中提取一組特征;最后,利用隱馬爾可夫模型進行建模和識別。方法在Weizmann數(shù)據(jù)庫和KTH數(shù)據(jù)庫上分別獲得了97.2%和85%的識別精度,驗證了提出特征的性能,并驗證了時間幀差圖像對行為識別的有效性。另外,通過對一些特殊動作視頻的測試,驗證了提出方法的魯棒性。

      關鍵詞:時間幀差;人類行為;光流;隱馬爾可夫模型

      中圖分類號:TP311? ? ? 文獻標識碼:A

      文章編號:1009-3044(2023)35-0033-05

      開放科學(資源服務)標識碼(OSID)

      0 引言

      視頻中人類的行為分析是計算機視覺的一個重要領域,有很多潛在應用,例如智能監(jiān)控、無人駕駛、基于內容的視頻檢索和智能建筑等[1]。構建一個像人類一樣,在復雜場景中具有無與倫比的識別能力,的系統(tǒng),是人工智能的夢想。

      傳統(tǒng)的行為識別方法,大多數(shù)研究都集中在特征提取和描述上,例如:時空興趣點、外觀特征、光流等。近年來,隨著深度學習技術研究的不斷深入,其技術在視頻中人的行為識別方面的研究層出不窮。包括卷積神經網絡、遞歸神經網絡等均可應用在行為的建模中[2-3]。當然,傳統(tǒng)的行為識別方法的研究仍在深入進行,并且,傳統(tǒng)方法與基于深度學習的方法也有互相補充和融合的趨勢。傳統(tǒng)的視頻中人的行為識別方法通常分為幾個過程,包括特征提取、行為建模和行為識別。本文基于傳統(tǒng)方法,重點研究在視頻中適宜行為識別的特征。

      視頻是識別的數(shù)據(jù)來源。當攝像頭固定時,通過不同時間幀的差獲得的幀差圖像可用于表示運動的差,而不是整個身體的運動。幀差圖像中許多特征細節(jié)(如顏色、紋理和體型)都會丟失[4]。另外,當物體停止移動時,它無法檢測到物體。所以,幀差一般與其他特征相結合才可能較全面地描述運動。然而,本文研究表明,只基于幀差圖像,能夠獲得足夠的特征,以有效地識別行為。

      1 方法與相關工作

      1.1 方法

      本文的研究結合幀差圖像和幀差的光流提取特征,進行視頻中行為的建模與識別,其具體的流程如圖1所示。

      首先,通過連續(xù)視頻幀相減并設定閾值來獲取幀差序列。每個幀差圖像都是一個二值圖像;之后,計算連續(xù)幀差圖像的光流;再從幀差圖像和光流圖像中提取特征向量。提取的特征主要是外觀特征和運動特征;之后,從特征向量序列中學習并建立每種行為的HMM模型。對于新的視頻片段,通過前面的步驟獲取其特征向量序列,并通計算與每類HMM模型的似然來識別其中的行為。

      本文方法與已有的研究方法相比,有兩個方面不同。首先,方法中所有特征都完全從時間幀差序列中提??;其次,從時間幀差序列及其光流中分別提取的特征進行組合,以提高行為表征的準確性和魯棒性。

      1.2 基于外觀表征行為的方法

      多年來,基于外觀的特征在識別人類行為方面發(fā)揮著作用,而區(qū)域和輪廓是外觀的直觀表示[4]。通常,特征是從前景區(qū)域或輪廓中提取的,并表示為每個幀的姿勢[4]。

      Hota 等人在監(jiān)控視頻中測試了有助于區(qū)分人與其他物體的特征[5]。其研究表明,許多基于外觀的特征有助于識別人的形狀,例如:胡不變矩、最小外接矩形(Minimum Bounding Rectangle,MBR)的高度與寬度比、填充率(MBR內前景點面積與MBR面積的比率)以及周長等。當然,基于外觀的方法可能會受視點、遮擋、縮放和個體變化的影響[4-5]。

      1.3 基于興趣點的功能

      空間興趣點提供了圖像中特殊點的緊湊和抽象表示,并且它們是比例不變的。它們能夠在存在遮擋和動態(tài)背景的情況下實現(xiàn)檢測事件[6-7]。Ivan Laptev等人基于Harris和Forstner的方法提出了新的興趣點提取方法[7]。

      1.4 光流計算

      光流表達兩個圖像之間的像素運動。兩個圖像通常是視頻中兩個連續(xù)幀。光流以流表示第一張圖像中每一個像素映射到第二張圖像中對應的像素的位移。Horn和Schunck提出了光流的計算方法,其假設像素灰度值在連續(xù)幀之間變化最小,并使用全局平滑[8]。然而,在運動邊界、平滑區(qū)域或者大位移運動過程的光流計算會出現(xiàn)模糊和殘留問題。因此,一些新方法和改進方法被提出。例如,對于人體運動問題,由于人體是多關節(jié)體和非剛性的,可能會產生較大的位移。Lu和Liu使用哈里斯點來補償變分光流場[9]?;趬K匹配的方法也是一種可以處理大位移的匹配方法[10]。

      1.5 HMM模型

      馬爾可夫鏈(Markov chain)是一種隨機過程,該過程由有限歷史約束的狀態(tài)組成。這意味下一狀態(tài)的概率分布只由當前狀態(tài)決定,在時間序列中,再前面的事件均與下一狀態(tài)無關。隱馬爾可夫模型(Hidden Markov Model, HMM)是一種統(tǒng)計模型,其中假設正在建模的系統(tǒng)是具有隱藏狀態(tài)的馬爾可夫過程。雖然人類行為并不嚴格符合有限歷史狀態(tài)約束,但許多研究表明,HMM可以正確模擬人類行為[11]。

      HMM模型由5元組指定:μ=(S,Q,∏,A,B),其中S和Q分別是狀態(tài)和觀測值的集合[12]。∏是原始狀態(tài)概率的集合。A 是表示狀態(tài)之間轉移概率的矩陣。B是一個矩陣,表示從狀態(tài)到觀測值的傳遞概率。當觀測序列具有相同的行為標簽時,可以通過最大化概率 P(Q|μ)來訓練模型μ。不同行為的模型,表示為 {μ1,μ2,...,μi,...},可以使用相應的觀測值進行訓練。使用不帶標簽的觀測值,可以計算最大似然將其分類?;趶囊曨l中獲取的特征向量序列,HMM訓練和識別流程如圖2所示。

      2 時間幀差和幀差的光流計算

      2.1 Weizman行為數(shù)據(jù)庫

      Weizman行為數(shù)據(jù)庫,是一個經典的人的行為識別的視頻數(shù)據(jù)庫[13]。數(shù)據(jù)庫中的視頻有十種行為,分別是:bending, jumping jack, jumping, jumping in place (pjump), running, jumping sideways, skipping, walking, one hand waving (wave1), and two hands waving (wave2)。每個行為分別有由10個人表演的視頻段。視頻幀速度為25幀/秒,每幀144*188像素。視頻是用固定攝像機拍攝的。數(shù)據(jù)庫中提供了每個視頻的確切背景圖像,因此可以方便地使用背景減法來獲取完整的前景圖像。以下敘述中的實驗數(shù)據(jù)來源于此數(shù)據(jù)庫中的視頻。

      2.2 時間幀差

      通過在包含運動對象的視頻中的兩個相鄰幀之間相減,會在差的圖像中獲得兩組點。一組點值為正,另一組點值為負。經過閾值估計過程后,它們被投影到時差圖像中的兩條邊。如果只使用一組中的點,例如,只保留具有正值的點,則將得到半時差圖像。如果使用二組點將獲得全差分圖像。為了感知前景圖像、時間幀差圖像和半時差圖像之間的差異,圖3顯示了一些樣本。

      在圖3中,時間幀差圖像中檢測到動作時刻運動部分的近似輪廓,不動的部分丟失了。半幀差圖像保留了大約一半的運動輪廓,丟失了更多的運動信息。但是,后面將驗證,在半時間幀差序列中仍然包含識別行為的有效信息,并且可以簡化光流的計算。因此,半時間幀差序列將作為本文工作的基礎。下文中,為敘述簡潔,“半時間幀差”將簡稱為“時間幀差”,不再強調“半”。

      2.3 幀差的光流計算

      欲計算時間幀差序列的光流,前述的光流計算方法可能存在局限性,可能的原因如下:

      1)時間幀差圖像是二值的。任何前景區(qū)域點和任何背景區(qū)域點之間的灰度值都是相同的。無論是通過變分方法還是基于塊的方法,這兩個區(qū)域都可能引入不正確的匹配。

      2)通過全局平滑,即使涉及各向異性懲罰,運動邊緣也會嚴重模糊。

      3)時間幀差的前景范圍小于序列圖像中的前景范圍,并且時間幀差序列中沒有背景運動問題。

      所以,光流計算可以簡化。因此,提出了一種新的方法來估計相鄰時間幀差圖像之間的光流。它描述如下:

      1)通過兩個質心的位移在前景區(qū)域中建立非常原始的流動。

      2)將第一個圖像和第二個圖像劃分為大小相同的網格,例如 9×9 網格。計算相應網格質心的前景位移,并通過其位移修改每個網格中的原始流。但是,零位移網格中的原始流被保留。在此過程中忽略所有背景點的流。

      3)計算每個圖像的哈里斯角,匹配角點,并修改匹配點的流。哈里斯角點由一階曲率估計,并且對尺度和仿射變換不變[14]。一些在前一個步驟中無法反映的拐角運動預計將通過此步驟進行調整。

      4)在前景中平滑。

      圖4中,第2行顯示的是用傳統(tǒng)方法計算出的幀差的光流,可以看到其中方向和邊緣模糊。第3行顯示的是新方法計算得到的光流。可以看到,大多數(shù)流向量的方向和速度都正確,邊緣沒有模糊。

      3 特征向量提取

      為了減少縮放的影響,即從相機到物體的距離變化,引入了最小正接矩形(Upgrade Minimum Bounding Rectangle,UMBR)。UMBR 是一個包含所有前景點的框,并且與坐標垂直。引入UMBR,是假設拍攝視頻的攝像機與地面垂直。

      參考人類對行為的感知,從時間幀差和相應的光流場中定義了幾個統(tǒng)計特征,用于表征行為。提取出的特征用符號M=(m1, m2, ..., mk)表示。下標 1, 2, ..., k,僅用于特征索引,特征順序無關緊要。光流場表示為U,其中的矢量表示為(u,v)。

      3.1 四個方向的速度特征

      光流表征的是前景中每個點的運動方向和速度。人類可以感知運動總量和細節(jié)。雖然捕獲所有細節(jié)可以更準確地表示動作,但計算更復雜,并且可能對噪聲點更敏感。因此,本文的方法只計算運動總量。首先將速度方向分為四個,如圖5(1)所示。從一個光流場U中,計算四個方向的總速度的和,如公式(1)。再獲取光流場中所有前景點的UMBR。之后,將四個方向的總速度除以UMBR的對角線長度以進行標準化。這樣,對于一個光流場,產生了前4個特征,就是m1~m4。

      V1,2,3,4 =SUM(u+, u-, v+, v-)? (1)

      3.2 運動方向分布特征

      人類身體不同部分的運動方向分布可以表示不同的動作。增加身體每個部位的運動方向分布特征可以增強動作識別的效果。但分割身體部位可能只在特定的場景中才能完成。從時間幀差圖像中分割身體部位更加困難。此外,收集所有方向的統(tǒng)計分布很復雜,也會產生高維數(shù)據(jù)。本文方法中把方向分為八個,如圖5(b)所示,每個方向是一個扇區(qū)。在一個光流場U中,計算八方向直方圖以指示運動方向分布,計算如公式(2)。再計算U的前景面積。之后,用八方向向量的點個數(shù)除以前景面積,進行標準化。這樣,對于一個光流場,獲取了另外8個特征,就是m5~m12。

      [dk=count(u,v)∈sectionk(u,v)]? ? (2)

      到目前為止,基于一幅幀差的光流場獲得了12個特征,是m1~m12。那么,從一段視頻中可以獲得一組,具有12個特征的矢量序列。這個序列表征的是運動特征。

      3.3 基于外觀的特征

      為了進一步增強行為特征的可區(qū)分性,引入了一些外觀特征,這些特征將來源于幀差圖像的前景。Gupta等提出了一種用于表示閉合形狀的描述符如圖6(a)所示。其方法中以質心與形狀的所有輪廓像素點之間的歐氏距離的序列來表示形狀[15]。為了避免數(shù)據(jù)維數(shù)過大,將方向劃分了8區(qū)間,如圖6的(b)所示。其中坐標表示為(col,row),原點設置為前景區(qū)域的質心。對每個區(qū)間,采集質心與輪廓像素之間的最遠距離。之后,將距離除以UMBR的對角線長度進行標準化,得到m13~m20 。利用這些特征,可以粗略地表征身體部位的延伸和縮進。需要說明的是,圖9中使用完整的前景圖像作為示例圖像,以清楚地表達描述符的概念。本文工作中,提取m13~m20時是取之于幀差圖像。幀差圖像是二值圖像,其中前景區(qū)塊可能有不連續(xù)問題。在計算質心、面積和UMBR時,所有前景點將視為一個區(qū)域。

      圖6(a) 中箭頭表示從質心到輪廓上的像素的距離。(b)完整前景圖像的行列軸及其方向分布示意圖。圖6(b) 中原點設置在質心,分8個方向,三個箭頭表示 2、3 和 4 方向的最遠距離。

      另外,為了估計像素分布,按圖6(b)中8個方向區(qū)域劃分,計算幀差圖像中每個區(qū)域的像素計數(shù)。并將像素計數(shù)除以前景區(qū)域面積進行標準化。結果是m21~m28。

      至此,從幀差圖像序列中提取出向量m13~m28序列,用于表征外觀形狀特征;從光流序列中提取出向量m1~m12序列,用于表征運動特征。特征向量序列m1~m28將用于HMM建模和識別行為。

      4 實驗和討論

      使用本文方法,在Weizmann數(shù)據(jù)庫和KTH數(shù)據(jù)庫上進行了一系列實驗。實驗包括分類測試、特征貢獻測試和魯棒性測試,另外,還與一些相關方法進行了比較。

      4.1 在Weizmann數(shù)據(jù)庫上的分類精度測試

      Weizmann數(shù)據(jù)庫包含10個行為,每個行為由9個人表演,那么,其中有90個視頻。從實驗上講,每個視頻段中包含15 幀,就足以識別其中的行為。因此,實驗中將90個視頻劃分成更多的視頻段,以產生更多的訓練和測試數(shù)據(jù)。對于視頻段,從中獲取28個特征的序列,每個序列的大小為 28×15。由于人類的行為是對稱的,例如:如從左到右跑,從右到左跑;揮動右手和揮舞左手等。為了在不重復的情況下獲得更多數(shù)據(jù),每個序列都生成一個逆特征序列。

      下面的測試遵循留一策略:從一個行為序列中選擇一個隨機序列作為測試序列,其他序列將用于訓練該行為的HMM。每次運行測試,利用訓練序列,訓練并構建10個行為的HMM。之后,對保留的10個序列(每種行為保留1個序列,共10個序列)進行測試,識別它們分別屬于哪個行為。為了減少隨機因素的影響,進行了100次運行測試。最終,獲得了97.2%的識別準確率。圖7所示的混淆矩陣展示了更多細節(jié)。從中可以看到“run”和“skip”之間混淆較大。當然,這兩個行為在肢體的速度和運動上非常相似。

      表1展示了本文方法與相關研究的對比。對比的研究有:Saad Ali等人的方法、Kaiqi Huang等人的方法,以及Moshe Blank等人的方法[13,16-17]。表中展示的都是在Weizmann行為數(shù)據(jù)庫上的實驗結果??梢钥闯?,本文方法的性能與其他方法的性能相當。盡管本文方法在分類精度上不是最好的方法。但是,本文方法的所有特征都是來源于幀差序列,計算量少于其他方法。

      4.2 特征貢獻測試

      為了測試不同特征的貢獻,利用之前從Weizmann數(shù)據(jù)庫中獲取的特征序列集,構造了不同特征的子集。測試了不同子集的性能,結果如圖8所示。x 軸顯示特征子集的構成,y軸顯示相應的分類精度。從中看出,貢獻最大的單個特征是像素分布,綜合的外觀特征對分類的貢獻也很突出。另外可以看出,對于行為識別,所有特征,即外觀特征和運動特征的組合,與單獨的外觀特征相比并沒有更多貢獻。當然,在后面的實驗中可以看到運動特征對魯棒性的貢獻。

      特征有:速度(m1~m4)、運動方向分布 (m5~m12)、運動特征(m1~m12)、形狀(m13~m20)、像素分布(m21~m28)、外觀特征(m13~m28)和全部特征 (m1~m28)。

      4.3 魯棒性試驗

      Weizmann數(shù)據(jù)庫中有一組特殊的步行視頻,其中包含一些非常規(guī)的步行活動。包括:_briefcase(拎公文包行走),_dog(與狗一起散步),_nofeet(行走時用盒子遮擋腳),_skirt(穿裙子行走),_moonwalk(像慢動作一樣行走),_limp(跛行),_bag(提個袋子行走)。HMM 使用之前的普通Weizmann數(shù)據(jù)庫進行訓練。在非規(guī)則行走視頻段上進行分類測試,結果如表2所示。可以看出,運動特征在識別上比外觀特征更魯棒。通過組合外觀特征與運動特征,提高了識別方法的魯棒性。

      4.4 KTH數(shù)據(jù)庫分類實驗

      KTH行動數(shù)據(jù)庫是另一個經典的行為數(shù)據(jù)集,其中包含六個動作[18]。他們是: boxing,handclapping,handwaving,jogging,running和walking。每個動作由25個人在4個不同的場景中進行。這是一個具有挑戰(zhàn)性的用于行為識別的數(shù)據(jù)集,因為其中的行為表演場景比較多樣,例如:穿不同服裝、帶包、光線變化、視角變化和縮放等。通過本文方法對該數(shù)據(jù)集進行測試,識別精度達到85%,如圖9所示。

      5 結論

      提出一種基于時間幀差的用于識別視頻中行為識別的新方法。新方法中綜合了運動和外觀特征。本文工作的主要貢獻總結如下:

      1)基于時間幀差序列,提出運動與外觀相結合的特征集,并驗證了其識別行為的有效性。

      2)提出了一種基于時間幀差序列計算光流的方法。

      3)通過對非常規(guī)步行集的測試,驗證了基于時間幀差的運動特征比基于外觀的特征在動作識別方面魯棒性更強。

      人類可以在復雜的場景中評估信息并快速識別行為。挖掘人類的深層意識,并開發(fā)更有效、更強大的動作描述方法是我們的長期目標。

      參考文獻:

      [1] 劉鎖蘭,田珍珍,王洪元,等.基于單模態(tài)的多尺度特征融合人體行為識別方法[J].計算機應用,2023,43(10):3236-3243.

      [2] 朱煜,趙江坤,王逸寧,等.基于深度學習的人體行為識別算法綜述[J].自動化學報,2016,42(6):848-857.

      [3] 黃勇康,梁美玉,王笑笑,等.基于深度時空殘差卷積神經網絡的課堂教學視頻中多人課堂行為識別[J].計算機應用,2022,42(3):736-742.

      [4] REVATHI A R,KUMAR D.A survey of activity recognition and understanding the behavior in video survelliance[EB/OL].2012:arXiv:1207.6774.https://arxiv.org/abs/1207.6774.pdf

      [5] HOTA R N,VENKOPARAO V,RAJAGOPAL A.Shape based object classification for automated video surveillance with feature selection[C]//Proceedings of the 10th International Conference on Information Technology.ACM,2007:97-99.

      [6] LAPTEV I,LINDEBERG T.Velocity adaptation of space-time interest points[C]//Proceedings of the 17th International Conference on Pattern Recognition,2004.ICPR 2004.August 26,2004.Cambridge,UK.IEEE,2004.

      [7] LAPTEV,LINDEBERG.Space-time interest points[C]//Proceedings Ninth IEEE International Conference on Computer Vision.October 13-16,2003.Nice,F(xiàn)rance.IEEE,2003.

      [8] HORN B K P,SCHUNCK B G.Determining optical flow[J].Artificial Intelligence,1981,17(1/2/3):185-203.

      [9] LU Z Y,LIU W.The compensated HS optical flow estimation based on matching Harris corner points[C]//Proceedings of the 2010 International Conference on Electrical and Control Engineering.ACM,2010:2279-2282.

      [10] KITT B,RANFT B,LATEGAHN H.Block-matching based optical flow estimation with reduced search space based on geometric constraints[C]//13th International IEEE Conference on Intelligent Transportation Systems.September 19-22,2010.Funchal,Madeira Island,Portugal.IEEE,2010.

      [11] AHMAD M,LEE S W.HMM-based human action recognition using multiview image sequences[C]//18th International Conference on Pattern Recognition (ICPR'06).Hong Kong,China.IEEE,2006.

      [12] Kevin Murphy. Bayes net toolbox for Matlab[EB/OL].[2020-09-12].? http://www.cs.ubc.ca/~murphyk/Software/HMM/hmm_ usage.html.

      [13] BLANK M,GORELICK L,SHECHTMAN E,et al.Actions as space-time shapes[C]//Tenth IEEE International Conference on Computer Vision (ICCV'05) Volume 1.October 17-21,2005.Beijing,China.IEEE,2005.

      [14] HARRIS C,STEPHENS M.A combined corner and edge detector[C]//Proceedings ofthe Alvey Vision Conference 1988.Manchester.Alvey Vision Club,1988.

      [15] GUPTA L,SRINATH M.Invariant planar shape recognition using dynamic alignment[C]//ICASSP '87.IEEE International Conference on Acoustics,Speech,and Signal Processing.Dallas,TX,USA.Institute of Electrical and Electronics Engineers,1987.

      [16] ALI S,SHAH M.Human action recognition in videos using kinematic features and multiple instance learning[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,32(2):288-303.

      [17] HUANG K Q,WANG S Q,TAN T N,et al.Human behavior analysis based on a new motion descriptor[J].IEEE Transactions on Circuits and Systems for Video Technology,2009,19(12):1830-1840.

      [18] SCHULDT C,LAPTEV I,CAPUTO B.Recognizing human actions:a local SVM approach[C]//Proceedings of the 17th International Conference on Pattern Recognition,2004.ICPR 2004.August 26,2004.Cambridge,UK.IEEE,2004.

      【通聯(lián)編輯:光文玲】

      猜你喜歡
      光流
      光流結合特征提取的室內機器人避障技術研究*
      融合光流與MARG 傳感器的三維姿態(tài)測量研究*
      電子器件(2023年5期)2023-11-21 13:07:28
      基于事件相機的連續(xù)光流估計
      自動化學報(2023年9期)2023-09-27 23:33:40
      利用掩膜和單應矩陣提高LK光流追蹤效果
      基于改進Cycle-GAN的光流無監(jiān)督估計方法
      基于自適應紋理復雜度的仿生視覺導航方法研究
      基于物理學的改善粒子圖像測速穩(wěn)健光流方法研究
      旋翼無人機單目視覺障礙物徑向光流檢測法
      測繪學報(2017年9期)2017-11-07 07:15:12
      基于遮擋修補的TV-L1 光流算法
      一種改進的基于全局最小能量泛函光流算法
      东港市| 大兴区| 襄城县| 怀来县| 霞浦县| 嘉黎县| 通州市| 沂水县| 崇义县| 广昌县| 金沙县| 会东县| 昌宁县| 时尚| 墨竹工卡县| 沛县| 广河县| 葫芦岛市| 香河县| 新闻| 岗巴县| 乳源| 岑巩县| 古丈县| 荥阳市| 苍山县| 桑日县| 涟源市| 穆棱市| 泸水县| 常德市| 平乡县| 徐闻县| 土默特右旗| 华亭县| 肥东县| 丹寨县| 刚察县| 扶余县| 海南省| 达拉特旗|