• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      體育視頻中動作識別技術研究綜述

      2023-06-11 17:25:22游義平季云峰
      智能計算機與應用 2023年11期
      關鍵詞:集上卷積動作

      游義平,季云峰

      (1 上海理工大學健康科學與工程學院,上海 200093; 2 上海理工大學機器智能研究院,上海 200093)

      0 引 言

      當前,隨著4G、5G 通信技術的發(fā)展,視頻數(shù)據(jù)已經(jīng)成為當下互聯(lián)網(wǎng)傳播信息的重要載體,視頻動作識別成為了計算機視覺領域的熱門研究方向。 相對于圖像分類方向,視頻中的動作識別根據(jù)挑戰(zhàn)性去識別視頻中的動作信息,需要綜合運用多個學科的交叉知識。 特別是體育視頻中的動作識別,由于體育視頻中的動作具有時間上的高依賴性,在處理這類視頻時,需要算法設計者更好地聚合動作空間維度和時間維度上的信息。 同時,體育視頻更多地出現(xiàn)在專業(yè)賽場上,因拍攝條件的不同,拍攝視角和拍攝現(xiàn)場的光線與物體的遮擋都將給動作識別帶來一定的困難。 另有研究指出,視頻中包含的信息量遠豐富于圖像中的信息量,因此,如何消除視頻中的冗余信息,捕獲并利用視頻的中重要信息,成為了基于視頻的體育動作識別中的一個難點領域。

      基于視頻的動作識別研究綜述近年來已經(jīng)有一定進展[1-4],但這些文獻[1-4]對當前基于深度學習的視頻中的動作識別算法進行了總結分析,但關注一些通用人體動作識別數(shù)據(jù)集,如 UCF101、HMDB51 等。 本文將對在體育視頻數(shù)據(jù)集上做出評估的一些動作識別算法進行研究綜述,同時,本文還列舉了體育視頻動作的應用與數(shù)據(jù)集。 希望本文能對廣大研究體育動作識別的科研人員有一定的啟示作用。

      1 應用

      體育視頻動作識別作為視頻分析的主要研究熱點之一,分析視頻中出現(xiàn)的動作對理解體育運動十分重要,其應用領域也十分廣泛,從評估運動員的表現(xiàn)到為用戶量身定制的智能設備。 大量的研究工作以體育運動數(shù)據(jù)集[5-13]為基礎。 學者們在這方面做了許多研究。

      1.1 輔助訓練

      體育視頻數(shù)據(jù)集中包含了大量比賽和訓練的片段歷史記錄,是教練員和運動員分析和提取技戰(zhàn)術的良好信息來源。 視頻動作識別作為一種分析運動員技戰(zhàn)術的有效方法之一,可以提供一種直接的方法獲取動作,而這些動作的組合與獲勝的策略有良好的關聯(lián)。 因此,將動作識別應用在體育視頻中,既可以指導運動員的訓練,又可以幫助教練員制定訓練與比賽計劃。 文獻[14]提出了一種可以識別冰球運動員的姿勢和行為的動作識別沙漏網(wǎng)絡(ARNH),這有助于教練評估球員的表現(xiàn)。 文獻[15]闡述的體育AI 教練系統(tǒng),可以根據(jù)視頻序列提供個性化的運動訓練體驗。 動作識別是人工智能在教練系統(tǒng)中支持復雜視覺信息提取和總結的關鍵步驟之一。

      1.2 輔助判罰

      體育比賽中偶因裁判誤判引發(fā)雙方爭議,國內(nèi)外賽事主辦方和各運動團隊紛紛借助人工智能技術來提升比賽判罰的科學性。 文獻[16]提出了一個虛擬參考網(wǎng)絡來評估跳水動作的執(zhí)行情況。 這種方法是基于視覺線索以及序列中的身體動作。 同樣對于跳水運動,文獻[17]提出了一個可學習時間-空間特征的模型,用來評估相關運動,從而提高動作評估的準確性。 文獻[18]提出了一個體育裁判員培訓系統(tǒng),該系統(tǒng)采用了一個深度信念網(wǎng)絡來獲取高質(zhì)量的手勢動作,以此來判斷裁判員是否發(fā)出了正確的裁判信號。

      1.3 精彩動作集錦

      體育視頻中的精彩動作分割和總結受到體育愛好者的追捧,同時擁有著巨大的市場前景。 完成精彩動作集錦的基礎就是依靠動作識別技術處理好各種高光動作。 文獻[19]提出了一種自動高光檢測方法來識別花樣滑冰視頻中的時空姿態(tài)。 該方法能夠定位和拼接花樣滑冰動作。 花樣滑冰中的跳躍動作作為最吸引人的基本內(nèi)容之一,常出現(xiàn)在精彩動作集錦之中。

      文獻[20]的主要工作是識別三維跳躍動作和恢復視覺效果不佳的動作。 文獻[21]將視頻亮點看作是一個組合優(yōu)化問題,并將識別動作的多樣性作為約束條件之一。 這項工作在一定程度上提高了多樣性動作識別的準確性,精彩動作集錦的質(zhì)量有了極大的改善。

      1.4 體育新聞自動生成

      體育比賽直播中的新聞信息以比賽中的實況數(shù)據(jù)為信息源,通過網(wǎng)絡平臺傳播向廣大體育粉絲及時轉播比賽實況。 現(xiàn)有的體育新聞系統(tǒng)通常采用比賽中的統(tǒng)計數(shù)字,如足球比賽中的射門數(shù)、角球數(shù)和任意球數(shù),然后用文字來描述這些信息[22-23],但大多數(shù)情況下這些文字還是依靠體育新聞記者人工撰寫,既耗時、還費力。 而應用視頻動作識別和文字描述圖像[24-28]技術,可以直接從視頻中生成文字描述,進而自動生成專業(yè)的體育新聞。 但想要提升自動生成的新聞的質(zhì)量,仍需對運動員的動作進行更好的識別,而更優(yōu)的識別結果,可以給自動生成的新聞帶來更好流暢性和準確性。

      2 體育動作識別相關數(shù)據(jù)集

      在體育視頻動作識別研究領域,基于視頻預處理和網(wǎng)絡結構的改進方法越來越多,但是不同的網(wǎng)絡框架也需要一個共同的數(shù)據(jù)集來衡量性能的優(yōu)劣。 目前體育視頻動作識別領域還缺少共同的數(shù)據(jù)集,本文將會總結體育視頻動作識別存在的數(shù)據(jù)集,供后續(xù)研究人員參考。

      2.1 乒乓球運動相關數(shù)據(jù)集

      TTStroke-21[29]由129 個自我錄制視頻段組成,每段視頻采用120 幀相機錄制,視頻總時長為94 h。該數(shù)據(jù)集的標注工作由法國波爾多大學體育學院的相關專家與學生完成。 該數(shù)據(jù)集共劃分了發(fā)球反手旋、反手攔網(wǎng)、正手推擋、正手回環(huán)等21 類專業(yè)乒乓擊球動作,并可應用于乒乓球擊球動作識別的綜合研究中。 需要說明的是,由于此數(shù)據(jù)集尚未完成對被錄制者的隱私保護,從事相關研究的工作者只能從法國波爾多大學處獲得部分完成隱私標注的數(shù)據(jù)集。

      文獻[30]中的數(shù)據(jù)集總共收集了22 111個視頻片段,這些視頻片段由14 名職業(yè)乒乓球運動員做出的11 種基本擊球動作組成。

      SPIN[31]提供了一個分辨率為1 024×1 280、幀率為150 幀/s 的視頻數(shù)據(jù)集,視頻總時長為53 h,視頻中每幀乒乓球的位置用邊框標注,每個運動員的骨骼關節(jié)點也使用熱圖標記。 該數(shù)據(jù)集可用在基于球的運動軌跡和球員姿態(tài)的跟蹤、姿態(tài)估計和旋轉預測等多項任務中。

      OpenTTGames[17]視頻采樣幀率為120 幀/s,該數(shù)據(jù)集包含了38 752 個訓練樣本、9 502 個驗證樣本和7 328 個測試樣本,視頻總時長為5 小時,每個動作樣本被標注為乒乓球擊球動作、如正面擊打。OpenTTGames 中的每個動作樣本還對該動作發(fā)生前4 幀、結束后12 幀處運動員以及記分牌做了標注,故此數(shù)據(jù)集可用于語義分割、乒乓球的跟蹤和擊球動作的分類。

      P2A[32]數(shù)據(jù)集從世乒賽和奧運會乒乓球比賽的轉播視頻中收集了2 721 個視頻片段,視頻總時長為272 h。 該數(shù)據(jù)集包含14 類乒乓球擊球動作類型。 數(shù)據(jù)集的標注由職業(yè)乒乓球運動員和裁判員共同完成。 同時對每一個動作樣本的起始和結束時間做了精準的標注,該數(shù)據(jù)集用在動作定位和動作識別任務上。

      P2A 作為目前已知數(shù)據(jù)量最大、且標注最規(guī)范的數(shù)據(jù)集,將吸引更多研究者在乒乓球動作識別領域開發(fā)新的動作識別算法。

      2.2 網(wǎng)球運動相關數(shù)據(jù)集

      網(wǎng)球運動也是一項倍受歡迎的運動,吸引了眾多學者進行研究。 網(wǎng)球動作時間間隔短,而且密集,大多數(shù)動作的間隔不到5 幀,對模型識別動作的快速性提出了很高的要求[33]。

      文獻[34]中為評估網(wǎng)球比賽中球員的動作制作了一個數(shù)據(jù)集,數(shù)據(jù)集來源于澳大利亞網(wǎng)球公開賽女子比賽。 該數(shù)據(jù)集對球員的位置和動作起始與結束時間做了標注。 主要將網(wǎng)球擊球動作分類了3類:擊球、非擊球和發(fā)球。 這是一個相對較小的數(shù)據(jù)集,且運動模糊性較高,是一個具有挑戰(zhàn)性的數(shù)據(jù)集。

      THETIS[13]由8 374 段自錄視頻組成,包含了55位運動員做出的12 類網(wǎng)球動作:4 類反手擊球、4 類正手擊球、3 類發(fā)球和扣殺球。 視頻總時長為7h15 min,除了RGB 視頻外,THETIS 還提供了1 980個深度視頻、1 217 個2D 骨架視頻和1 217 個3D 骨架視頻,因此可以用于開發(fā)多種類型的動作識別模型。

      TENNISET[33]包含了超過4 000 個動作樣本,每個樣本都采用了幀級別的標注。 該數(shù)據(jù)集包含了6類網(wǎng)球動作:近右擊球(Hit Near Right)、近左擊球(Hit Near Left)、遠右擊球(Hit Far Right)、遠左擊球(Hit Far Left)、近發(fā)球(Serve Near)、遠發(fā)球(Serve Far)和其他類。 同時,該數(shù)據(jù)集還對擊球動作標注了文本信息,如快速發(fā)球是亮點,這可拓展至視頻新聞生成任務中。

      2.3 足球運動相關數(shù)據(jù)集

      ISSIA[10]為研究足球運動員的檢測與跟蹤而提出的數(shù)據(jù)集,數(shù)據(jù)集由覆蓋整個足球場的6 臺分辨率為1 920×1 080 、幀率為25 幀/s 的攝像機錄制,該數(shù)據(jù)集共標注了18 000 幀,是一個小型足球運動數(shù)據(jù)集。 由于足球運動中共有22 名球員和3 名裁判員,因此,制作此數(shù)據(jù)集面臨著需標記多個目標的情況,給數(shù)據(jù)集標簽的制作帶來了不小的挑戰(zhàn)。

      Soccer[35]由原始轉播視頻中挑選精彩時刻的片段組成,該數(shù)據(jù)集是從2 019 張圖像中手動注釋了22 586個玩家位置。 數(shù)據(jù)集由轉播視頻組成,因此包含了許多挑戰(zhàn),如不同的玩家外觀、姿勢、縮放級別、運動模糊、嚴重的遮擋和雜亂的背景。 球員的身高、球員的圖像位置和每張圖像的球員數(shù)量分布廣泛,顯示了數(shù)據(jù)集的多樣性。 例如,玩家的身高從大約20 像素到250 像素,并從150 像素的高度開始有一個長尾分布。

      文獻[36]中提出的數(shù)據(jù)集由14 臺攝像機拍攝而成,包含599 個動作樣本,共132 603 幀。 該數(shù)據(jù)集中,每個球員的位置都使用邊界框標注了,該文獻將足球運動動作分為了5 類:傳球、運球、射門、解圍、無球權犯規(guī)。

      ITS[37]由222 個足球轉播比賽視頻組成,共計170 個小時。 該數(shù)據(jù)集包含3 種標注類型:使用邊界框標注球員的位置、粗粒度的動作發(fā)生與結束時間、細粒度的動作類型。 共11 類粗粒度動作發(fā)生與結束時間、15 類細粒度的動作類型。 因此,該數(shù)據(jù)集可用于足球視頻分析中的多種任務類型,如動作類型分類、動作定位與球員目標檢測。

      SoccerNet[38]數(shù)據(jù)集由來自歐洲6 個主要聯(lián)賽的500 場完整足球比賽組成,涵蓋2014年至2017年三個賽季,總時長764 h。 該數(shù)據(jù)集主要對以下3種主要事件(進球、黃牌/紅牌和換人)的發(fā)生與結束時間進行了標注,同時該數(shù)據(jù)集中平均每6.9 min出現(xiàn)一個事件。 該數(shù)據(jù)集主要解決長視頻中稀疏事件的本地化問題,但關注的動作類型較少,使得任務過于簡單。 SoccerNet-V2[39]在SoccerNet 的基礎上進行了拓展,將動作定位從3 類拓展到17 類;加入了對相機鏡頭的時間分割和相機鏡頭邊界檢測;重新定義了精彩動作回放任務;這項工作發(fā)布了一個足球動作識別基準任務,進一步推動了該領域的研究。

      Footballer[40]是為研究足球運動員的身份重識別與檢測而提出的數(shù)據(jù)集,該數(shù)據(jù)集包含了32 支歐洲冠軍聯(lián)賽球員在主場比賽中的320 名球員、6 800張圖像,該數(shù)據(jù)集除了標注身份標簽以外,還標注了62 種屬性標簽信息。

      2.4 籃球運動相關數(shù)據(jù)集

      Basket-APIDIS[8]由7 臺放置在球場周圍的攝像機拍攝,但采取了非同步拍攝的方式,球拍攝場地照明條件不佳,導致此數(shù)據(jù)集是一個非常具有挑戰(zhàn)性的數(shù)據(jù)集。

      Basket-1[41]和Basket-2[41]是分別包括一個4 000幀和一個3 000 幀的籃球序列。 這些視頻序列分別由6 臺和7 臺放置在球場周圍的攝像機以25 幀/s的速度同步拍攝。 本文研究中對Basket-1的每一個第10 幀和Basket-2 的500 個連續(xù)幀進行了手工注釋,數(shù)據(jù)集中不僅將籃球動作劃分為以下4 類:扣籃、傳球、持球和失球,同時還對籃球的位置進行了標注。

      NCAA Basketball Dataset 由257 個視頻長度為1.5 h 以內(nèi)的未經(jīng)修剪的NCAA 比賽視頻組成,經(jīng)過標注后,該數(shù)據(jù)集共有14 548 個動作邊界的視頻片段。 此數(shù)據(jù)集將籃球動作劃分為3 分球投中、3 分球失敗、2 分球投中、2 分球失敗、上籃成功、上籃失敗、罰籃成功、罰籃失敗、灌籃成功、灌籃失敗、搶球。此外,NCAA 還提供了共計9 000 幀球員位置的標注。 此項數(shù)據(jù)集也可拓展至球員位置檢測。

      2.5 多種類運動相關數(shù)據(jù)集

      UCF Sports[7]由150 個分辨率為720×480 的視頻組成,該數(shù)據(jù)集共包含以下10 個類別的運動視頻:潛水運動(共14 個視頻)、高爾夫運動(共18 個視頻)、足球運動(共6 個視頻)、舉重運動(共6 個視頻)、騎馬運動(共12 個視頻)、跑步運動(共13個視頻)、滑板運動(共12 個視頻)、跳馬運動(共13個視頻)、鞍馬運動(共20 個視頻)、步行(共22 個視頻)。 視頻時長為2.2 ~14.4 s 不等。 與前文相比,該視頻數(shù)據(jù)集較小,且對動作的分類程度較為粗糙。

      Olympic Sports[42]數(shù)據(jù)集共包含以下16 類,每類由50 個視頻組成:跳高、跳遠、三級跳遠、撐桿跳、鐵餅投擲、錘子投擲、標槍投擲、鉛球、籃球架、保齡球、網(wǎng)球發(fā)球、跳臺(跳水)、跳板(跳水)、抓舉(舉重)、挺舉(舉重)和跳馬(體操)。 因該數(shù)據(jù)集是從YouTube 上獲得的奧運比賽轉播,故包含嚴重的相機移動、壓縮偽影等情況。 該數(shù)據(jù)集對于動作識別的算法設計提出了巨大的挑戰(zhàn)。

      Sports-1M 數(shù)據(jù)集由100 萬個YouTube 視頻組成,共包含487 類,每個類別都包含1 000 ~3 000 個視頻。 該數(shù)據(jù)集對類別標簽進行了分層設計,父節(jié)點采用團體運動、球類運動等粗標簽,葉子節(jié)點采用如臺球的八球、九球等細粒度標簽。 Sports-1M 為體育運動動作識別任務,提供了一個大型數(shù)據(jù)集,吸引著更多的學者在這項數(shù)據(jù)集上進行算法模型的設計。

      3 方法部分

      目前,基于視頻的體育動作識別算法經(jīng)歷了從基于傳統(tǒng)的手工特征的算法到基于深度學習方法的轉變。 其中,基于傳統(tǒng)的手工特征算法會涉及到研究人員對各特征的理解程度,直接設計含有物理意義的特征提取器,此設計思想對特征針對性強,但容易忽視數(shù)據(jù)中的隱含信息,同時對研究人員也提出了較高的領域知識要求;基于深度學習的方法能夠很好地解決基于傳統(tǒng)方法的不足,但基于深度學習的方法的數(shù)學可解釋性相對于基于傳統(tǒng)的手工特征的稍差。 目前來說,基于深度學習的方法在相關的數(shù)據(jù)集上取得了比基于傳統(tǒng)的手工特征更高的準確率。

      本部分將回顧基于傳統(tǒng)的動作識別算法和基于深度學習的動作識別算法。

      3.1 基于傳統(tǒng)手工特征的動作識別算法

      基于傳統(tǒng)方法的動作識別算法中的運動特征是人工提取的,在此基礎上建立起表示人體動作的算法模型。

      全局特征信息(GIST)[43]和方向梯度直方圖(Histogram of Oriented Gradients,HOGS)[44]是手工運動特征提取中常采用的方式。 采用HOGS 方式提取視頻中每一幀的運動特征,而后在時間上對幀特征進行平均來分類。

      文獻[45]在UCF Sports 上對以上2 種特征提取方式進行了評估,結果表示使用GIST 特征比使用HOGS 特征能取得更好的表現(xiàn)(GIST 60.0% vs.HOGS 58.6%)。 一種可能的原因是,GIST 特征更容易將運動發(fā)生的背景與運動本身相關聯(lián),如足球運動通常發(fā)生在草坪上。

      文獻[46]使用HOG3D 取代HOG2D 提取視頻動作特征,采用多層感知器(Multi Layer Preception,MLP) 對動作類型進行分類。 文獻[34] 采用HOG3D 特征和核化費舍爾判別分析(Kernelized Fisher Discriminant Analysis,KFDA)對網(wǎng)球運動視頻進行分析,并在文獻[34]提出的自建數(shù)據(jù)集上取得了84.5%的準確率。

      雖然使用HOG、HOF 和SIFT 等提取的時空特征在UCF Sports 和Olympic Sports 等運動視頻數(shù)據(jù)集上可以取得相對較好的成績,但使用這些手工制作特征的方式總體上來說時間花銷巨大。 此外,由于傳統(tǒng)的動作識別模型,特征提取模塊和分類器是分開學習的,由此導致了這些模型都不能以端到端的模式訓練。 綜上所述,學者們開始將目光轉向基于深度學習的模式,并提出了許多新的方法將動作的準確率提升到了一個新水平。

      3.2 基于深度學習的動作識別算法

      當前主流的動作識別模型都是以深度學習為基礎的,與傳統(tǒng)方法相比,基于深度學習的模型能夠以端到端的方式進行訓練,這給應用深度學習模型帶來了良好的實施可行性。

      本次研究將對以下4 種類型的深度學習模型進行歸納總結:基于2D 模型、基于3D 模型、基于雙流/多流模型。

      3.2.1 基于2D 模型

      2D 模型使用2 維卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks,CNN)對視頻的每一幀做特征提取,再將提取到的特征進行融合,并對融合結果進行預測。 文獻[47]將CNN 網(wǎng)絡引入了視頻動作識別領域,進一步提出了4 種特征融合方式:

      (1) 單幀融合:使用一個權重共享的CNN 網(wǎng)絡對視頻中的每一幀進行特征提取,并將最后的特征串聯(lián)起來進行分類。

      (2) 早期融合:使用一個大小為11×11×3×T的3D 卷積核結合整個時間窗口內(nèi)的幀信息進行融合。

      (3)晚期融合:使用一個權重共享的CNN 網(wǎng)絡對相隔15 幀的2 個獨立幀之間進行特征提取,并使用一個全連接層來融合單幀的特征表示。

      (4) 緩慢融合:在第一層實現(xiàn)一個3D 卷積核,并在網(wǎng)絡的更深層緩慢融合幀之間信息。

      實驗表明,緩慢融合優(yōu)于其他融合方法,例如,緩慢融合在Sports 1M[47]上取得60.9% 的準確率,而單幀融合、早期融合和晚期融合的準確率分別為59.3%、57.7% 和59.3%。 但使用HOG 等手工制作的特征只能達到55.3% 的準確率,由此遠低于使用CNN 的準確率,這表明基于深度學習的模型可用于體育視頻動作識別,并取得較好的效果,這些結果有助于推動后續(xù)團隊在動作識別領域探索研究更多的深度學習模型。

      另一種做法是直接使用長短時記憶(Long Short Term Memory,LSTM)網(wǎng)絡[48]來獲取動作時間上的聯(lián)系。 文獻[49]提出了結合二維CNN 和LSTM 的模型,該模型首先使用一個權重共享的二維CNN 來獲取視頻幀的空間上的特征信息,然后使用多層LSTM 網(wǎng)絡獲取動作時間上的特征信息。 在此基礎上,文獻[50]提出了一種使用兩層LSTM 網(wǎng)絡的長期遞歸卷積網(wǎng)絡(Long Tern Recurrent Convolutional Networks,LRCN)。 文獻[51] 采用基于LSTM 的自動編碼器以無監(jiān)督方式來學習更好的視頻表示。 文獻[52]提出了一個與文獻[49] 中的模型相似的超前神經(jīng)網(wǎng)絡(Lead Exceed Neural Network,LENN),但LENN 使用網(wǎng)絡圖像來微調(diào)前導網(wǎng)絡,以過濾掉不相關的視頻幀。

      以上學者的研究表明,時間上的動作特征信息在動作識別模型中起著無可替代的作用。

      文獻[53]提出了由空間CNN 網(wǎng)絡和時間CNN網(wǎng)絡組成的時間段網(wǎng)絡(Temporal Segment Network,TSN),TSN 首先將一個輸入視頻切分成若干片段,并從這些片段中隨機采樣由RGB 幀、光流和RGB差值組成的短片段。 然后,這些片段被送入空間和時間網(wǎng)絡進行預測。 接下來,該網(wǎng)絡通過聚合各片段的預測分數(shù)來獲得最終的預測結果。 TSN 以2 種方式獲得時間信息:

      (1)直接將光流引入框架。

      (2)類似于前文提到的晚期融合,TSN 聚合了片段預測的結果。

      最后,僅使用RGB 幀的二維TSN 獲得了令人印象深刻的效果,在FineGym[54]上的結果為61.4%。在通用動作識別數(shù)據(jù)集UCF101[55]上的結果為87.3%。TSN 的另一個變種KTSN 不再使用隨機采樣,而是使用關鍵視頻幀,應用關鍵視頻幀在FSD-10 上取得了比TSN 更好的效果[56](63.3% vs.59.3%)。

      文獻[57] 提出時間關系網(wǎng)絡(Temporal Relational Network,TRN)以捕獲幀之間的時間關系,并摒棄之前學者使用的簡單聚合方法,如串聯(lián)和線性組合,改而使用MLP 計算這些關系,同時可以插入到任何現(xiàn)有框架中。 TRN 在FineGym[54]的性能相比TSN 顯著提升,達到了68.7%的準確率。

      然而,在TRN 中使用MLPS 計算多幀時間關系時非常耗時,并且不能很好地捕捉有用的低級特征。為了解決這個問題,文獻[58]提出了一種簡單而有效的模塊、即時間移位模塊(Temporal Shift Module,TSM)來捕獲時間信息,TSM 使用2D CNNs 提取視頻幀上的空間特征,并將TSM 插入到2D 卷積塊中。TSM 在FineGym[54]上取得了70.6%的準確率,優(yōu)于2D TSN、2D TRN 和I3D[59]等方法,而且計算復雜度較低。

      3.2.2 基于3D 模型

      在二維CNN 中,卷積應用于2D 特征圖,僅從空間維度計算特征。 當利用視頻數(shù)據(jù)分析問題的時候,研究期望捕獲多個連續(xù)幀編碼的運動信息。 為此,提出在CNN 的卷積進行3D 卷積,以計算空間和時間維度特征,3D 卷積是通過堆疊多個連續(xù)的幀組成一個立方體,并在立方體中運用3D 卷積核。通過這種結構,卷積層中的特征圖都會與上一層中的多個相鄰幀相連,從而捕獲運動信息。

      二維CNN 中將視頻中的圖像解碼為多個視頻幀,并用CNN 來識別單幀的動作。 但這種方法沒有考慮多個連續(xù)幀中編碼的運動信息。 為了有效地結合視頻中的運動信息,文獻[60] 提出可以在CNN卷積層中使用3D 卷積,以捕獲動作沿空間和時間維度的特征。 該文獻中的網(wǎng)絡結構由1 個硬連線層、2 個三維卷積層、2 個子采樣層、1 個二維卷積層和1 個全連接層組成。 盡管文獻[60]所提出的網(wǎng)絡相對較小,也只在小型數(shù)據(jù)集上進行了評估,但這項工作中的3D CNN 結構可以從相鄰的視頻幀生成多個信息通道,并在每個通道中分別執(zhí)行卷積和下采樣,通過將來自視頻通道的信息組合獲得最終特征表示,取得了比二維CNNs 更好的性能。 文獻[56]動作識別中采用3D CNN 的開創(chuàng)性工作,引領更多學者將3DCNN 結構應用于動作識別領域。

      文獻[61]為大型視頻動作識別數(shù)據(jù)集設計了一個深度的三維體系結構(Convolutioal 3D ,C3D),C3D 模型中的三維卷積層為8 層,每層中的3D 卷積核大小為3×3×3。 C3D 在Sports 1M 數(shù)據(jù)集上取得了61.1%的準確率。 文獻[62]使用C3D 模型,但做了一些改進使得網(wǎng)絡層數(shù)更淺,在UCF50 數(shù)據(jù)集上取得了97.6%的精度。 文獻[59]提出了一個新的模型Two stream Inflated 3D ConvNet(I3D),該模型在動作識別任務上取得了一個新的突破。 與C3D相比,I3D 網(wǎng)絡層次要深得多,其中堆疊了9 個3D初始模塊[63]和4 個獨立的3D 卷積層。 I3D 將Inception-V1[64]中大小為N × N的2D 卷積核擴展為N × N × N的3D 卷積核,并且3D 卷積核的參數(shù)也是由預先訓練好的2D 卷積核通過引導得到的。I3D 網(wǎng)絡結合了RGB-3D 網(wǎng)絡和Flow-3D 網(wǎng)絡,并且I3D 網(wǎng)絡在比UCF101 數(shù)據(jù)集多400 類的Kinetics-400 數(shù)據(jù)集上進行預訓練,將預訓練的數(shù)據(jù)進行微調(diào)后在UCF101 數(shù)據(jù)集上取得了97.9%的準確率,在Kinetics-400 數(shù)據(jù)集上取得了74.2%的準確率。 前述研究工作證明了在視頻動作識別任務中,在更大規(guī)模的數(shù)據(jù)集上進行預訓練,遷移到較小規(guī)模數(shù)據(jù)集上,做一些參數(shù)上的微調(diào),能夠取得非常不錯的成績。

      直接將大小為N × N的二維卷積核擴展為大小為N × N × N的三維卷積核可以使網(wǎng)絡中可學習的參數(shù)量顯著增加,并提高模型的容量,但這也會導致計算復雜度的增加,存在過擬合的風險。 為了緩解這個問題,文獻[65]提出一個偽3D(Pseudo 3D,P3D)網(wǎng)絡,其中3D 卷積被疊加的2D 卷積和1D 卷積所代替。 同樣,文獻[66]研究了不同的體系結構(2D、3D 和(2+1)D),發(fā)現(xiàn)將卷積核大小為1× N ×N的2D 卷積與卷積和大小為T ×1×1 的1D 卷積核疊加起來,所取得的性能優(yōu)于其他體系結構。 而S3D[67]則又將I3D 中的部分3D 啟動模塊替換為2D啟動模塊,以平衡性能和計算復雜度。 之后,文獻[68]提出了一組稱為三維信道分離網(wǎng)絡(Channel Separated Networks,CSN),該網(wǎng)絡為進一步減少浮點數(shù)計算(Floating Point Operations,F(xiàn)LOPs),CSN模型探討了群卷積、深度卷積和這些方法的不同組合。 結果表明,CSN 不但性能比3D CNNs 好得多,且FLOPs只有3D CNNs 的三分之一。

      然而,將卷積核從2D 擴展到3D 必然會使計算成本增加一個數(shù)量級,限制了其實際應用。 文獻[69] 提出了一種簡單而有效的方法 STM(SpatioTemporal and Motion Encoding)網(wǎng)絡,可將時空和運動特征集成到一個統(tǒng)一的二維CNN 框架中,無需任何三維卷積計算。

      STM[69]采用2 個模塊-通道時空模塊(Channelwise Spatial Temporal Module,CSTM)和通道運動模塊(Channel-wise Motion Module,CMM),其中CSTM采用(2+1)D 卷積融合空間和時間特征,而CMM 只采用二維卷積,但將連續(xù)三幀的特征拼接起來。 與P3D[65]和R3D[66]相比,STM 表現(xiàn)更好。

      C3D 及其改進模型將2D 卷積擴展到時空域,默認時域和空域是平等的、對稱的,同時處理空域和時域的信息,而SlowFast[70]將空域和時域進行拆分處理,也更為符合時域和空域特征的關系。

      SlowFast[70]由2 個分支組成。 一個是低幀率的慢分支,另一個是高幀率的快分支。 低幀率的慢分支在底層只使用2D 卷積,在頂層使用(1+2)D 卷積可以更多地關注空間語義信息,采樣率低的慢分支提取隨時間變化較慢的空間特征,而快分支在每一層都使用(1+2)D 卷積更多地關注對象運動信息。FAST 分支提取隨時間變化較快的運動特征,為了降低該通道的復雜度,卷積核的空間通道數(shù)設計得較小,從而使網(wǎng)絡變得輕量級的同時還可以學習用于視頻動作識別的有用時間信息。

      相比于C3D 及其改進模型,SlowFast 中同樣用到了3D 卷積,但與C3D 的又不太相同。 Slow 通路在底層使用2D 卷積,頂層使用(1+2)D 卷積(實驗發(fā)現(xiàn)比全用3D 卷積效果更好);Fast 通路每一層用的都是(1+2)D 卷積,但是各層維持時域維度大小不變,盡可能地保留時域信息,而C3D 中越深的層時域維度越小。 此外,SlowFast 將慢速和快速特性橫向拼接融合在一起。 通過對慢分支、快分支和橫向連接的精心設計,SlowFast 在多種流行的動作識別數(shù)據(jù)集上實現(xiàn)了最先進的性能。

      用于視頻動作識別的神經(jīng)網(wǎng)絡很大程度上是通過將2D 圖像架構[64,71-73]中的網(wǎng)絡輸入、特征或卷積核擴展到時空維度來驅動的[47,59,74-75];雖然沿時間軸擴展(同時保持其他設計屬性)通常會提高準確度,但如果在計算復雜度和準確度之間做一個權衡,這些操作可能不是最優(yōu)的。

      X3D[76]從空間、時間、深度和寬度四個方面對二維CNNS 進行了擴展,探索了多種體系結構,發(fā)現(xiàn)高時空網(wǎng)絡優(yōu)于其他模型。 在Kinetics-400 上,X3D 比SlowFast 表現(xiàn)稍差:前者79.1%、后者79.8%,但X3D 的參數(shù)較少,且訓練和推理時間較短。 為了進一步減少網(wǎng)絡參數(shù)和FLOPs的數(shù)量,文獻[77]提出能夠處理流式視頻的移動視頻網(wǎng)絡(Mobile Video Networks,Movinets)。 Movinets 中應用了2 個核心技術。 第一個是神經(jīng)結構搜索(Neural Architecture Search,NAS)[78],用于高效地生成3DCNN 結構;第二個是流緩沖技術,將內(nèi)存與視頻剪輯持續(xù)時間解耦,允許3DCNNs 以較小的恒定內(nèi)存占用嵌入任意長度的視頻流用于訓練和推理。 使用這2 種技術,Movinets 只需要X3D 的20%的Flops,就獲得了相同的性能。

      SlowFast[70]表明引入不同的時間分辨率有利于動作識別,然而是將一個單獨的網(wǎng)絡應用于每個分辨率。 以上提到的動作識別網(wǎng)絡的設計中往往忽略了表征不同動作的一個重要方面:動作本身的視覺節(jié)奏。 視覺節(jié)奏實際上描述了一個動作進行的速度,往往決定了識別的時間尺度上的有效持續(xù)時間。在某些情況下,區(qū)分不同動作類別的關鍵是各動作的視覺節(jié)奏,比如走路、慢跑和跑步視覺外觀上有著高度相似之處,但視覺節(jié)奏存在明顯不同。 時間金字塔網(wǎng)絡(Temporal Pyramid Network ,TPN)[79]采用一個主干網(wǎng),對不同層次的三維特征采用時間金字塔,即低幀率用于捕捉高級特征語義,高幀率用于捕捉低級運動特征信息。 TPN 在Kinetics-400 上實現(xiàn)了SlowFast 相同的性能,但只采用了一個網(wǎng)絡分支。

      為了對長視頻序列進行建模,文獻[80] 將時態(tài)全連通操作引入到SlowFast 中,提出了TFCNet,文中時間全連接塊(TFC Block)是一種高效的組件,可沿時間維度將所有幀的特征通過一個FC 層組合在一起以獲得視頻級的感受野,增強時空推理能力。通過將TFC 塊插入到SlowFast,在真實世界靜態(tài)無偏數(shù)據(jù)集Diving48 上,比SlowFast 提高了近11%,性能提高到88.3%,同時超越了所有以前的方法。

      相比于采用2D 結構的模型,通常采用3D 結構模型的精度更高,相比于2D 模型的需要計算的參數(shù)量也有了明顯的增長。 對GPU 等硬件提出了更高的要求。

      3.2.3 基于雙流/多流模型

      文獻[81]首次提出了雙流卷積神經(jīng)網(wǎng)絡(Two Stream Convolutional Network),該模型具有一個空間流卷積神經(jīng)網(wǎng)絡(Spatial Stream ConvNet)分支和一個時間流卷積網(wǎng)絡(Temporal Stream ConvNet)分支。以RGB 圖像和相應的光流作為2 個分支卷積神經(jīng)網(wǎng)絡的輸入,分別提取空間特征和時間特征。 特征的融合在網(wǎng)絡的最后使用支持向量機(Support Vector Machine,SVM)進行分類。 研究中提出的雙流網(wǎng)絡在UCF101 數(shù)據(jù)集上取得了88%的準確率,識別效果優(yōu)于使用單獨的空間流或時間流卷積神經(jīng)網(wǎng)絡。 但文獻[81]提出的雙流網(wǎng)絡結構中計算光流所需的計算量大,計算時間較長,這不利于實時視頻行為識別。 受此啟示,文獻[82]通過將光流替換為直接從壓縮視頻獲得的運動矢量應用于實時動作分類中并取得了不錯的成績,但運動矢量缺乏精細的結構,導致了識別性能的下降。

      文獻[83]受文獻[81]在堆疊光流和圖像幀上訓練的雙流卷積神經(jīng)網(wǎng)絡能成功應用于基于視頻的動作識別的啟發(fā),也以類似的方式考慮了時間維度上的數(shù)據(jù)。 提出了多流網(wǎng)絡(Multi Stream Network,MSN)[83]。 MSN 是由2 個雙流網(wǎng)絡組成的多流卷積神經(jīng)網(wǎng)絡,每個網(wǎng)絡由不同的VGG 網(wǎng)絡組成,輸入到網(wǎng)絡中的是由原始視頻拆分而得到的一系列連續(xù)6 幀RGB 圖像,并計算求得其光流(Optical Flow OF)和以人的邊界為感興趣區(qū)域(Region of Interest,ROI)。 這種多流網(wǎng)絡會反饋給全連接層,全連接層向自身饋送給雙向長短時記憶網(wǎng)絡(Long-Short Term Menory,LSTM)。 LSTM 網(wǎng)絡的輸入來自MSN網(wǎng)絡的連續(xù)輸出。 這項工作使用像素軌跡而不是堆疊的光流作為運動流的輸入,從而顯著改善了識別結果。

      視頻由一系列靜態(tài)圖像組成,此前的工作均是采用靜態(tài)圖像及其計算出的光流輸入網(wǎng)絡中,但對于視頻的最佳表現(xiàn)方式還不是很清楚。 文獻[84]提出了一種使用順序池化(Rank Pooling)對RGB 圖像或光流視頻等時態(tài)數(shù)據(jù)進行編碼得到的動態(tài)圖像。 使用動態(tài)圖像作為ResNeXt-50 和ResNeXt-101 網(wǎng)絡輸入。 研究可知,在UCF101 數(shù)據(jù)集上分別達到了95.4%和96%的成績。

      人的視覺系統(tǒng)是直觀的,不以光流信息作為輸入信號,而是以眼睛所看到直觀信息來判斷運動的種類。 文獻[85]提出了ActionFlowNet 模型。 這是一種高效的數(shù)據(jù)表示學習方法,用于學習只有少量標記數(shù)據(jù)的視頻表示。 ActionFlowNet 模型直接從原始像素訓練單個流網(wǎng)絡,用以共同估計光流,減小了計算光流的巨大耗時。 與其他不使用預訓練的方法相比,該方法在UCF101 數(shù)據(jù)集上也取得了83.9%的準確率。 類似的工作還有,文獻[86]提出Motion-Augmented RGB Stream(MARS)。 MARS 使用3D ResNet 訓練RGB 流,以此模仿OF 特征。 作為單個流,MARS 的性能優(yōu)于單獨的RGB 流或光流。

      文獻[87]對雙流卷積網(wǎng)絡的輸入、網(wǎng)絡結構和訓練策略進行了思考,提出了時間段網(wǎng)絡(Temporal Segment Networks,TSN),優(yōu)化了文獻[81]提出的雙流網(wǎng)絡,在UCF101 數(shù)據(jù)集上取得了94.2%的成績。

      3.2.4 基于Transformer 模型

      得益于Transformer[88]在自然語言處理(Natural Language Processing,NLP)領域取得的巨大成功,文獻[89]并未選用CNN,直接按照BERT 的模型結構使用了純Transformer 的結構提出了VIT 模型,并在圖片分類任務上取得了巨大的成功,實現(xiàn)了計算機視覺(Computer Vision,CV)與NLP 的融合統(tǒng)一,使得在NLP 領域成功的模型能遷移到CV 領域,促進了CV 領域的發(fā)展。 由于Transformer 強大的序列建模能力,CV 領域主流的骨干網(wǎng)絡逐漸從CNN 轉為了Transformer,文獻[90] 提出了 VTN (Video Transformer Network)模型,該模型摒棄了3D CNN的視頻動作識別標準方法,引入了一種通過關注整個視頻序列信息來對動作進行分類的方法。 此模型以給定8 幀圖片為輸入,后接一個時間注意力的編碼層,獲取時空特征。 在運行時間方面,與其他方法相比,VTN 方法在推理時間上快了16.1 倍,運行速度提高了5.1 倍,同時在Kinetics-400 數(shù)據(jù)集上取得了94.2%的準確率。 文獻[91]提出了VidTr 模型,與常用的3D CNN 相比,VidTr 能夠通過堆疊注意力層聚合時空信息,并以更高的效率提供更好的性能。 VidTr 在5 個常用數(shù)據(jù)集以較低的計算,實現(xiàn)了先進的性能,這項工作證明VidTr 更為擅長推理長時間序列的行為。

      在多項動作識別數(shù)據(jù)集上,基于Transformer 的模型取得了最先進的性能,但也存在著許多有待解決的問題。

      (1)特征提取問題。 Transformer 具有強大的序列建模能力,在NLP 領域中,特征序列是一維線性排列的,而在視頻領域中,圖像像素之間的聯(lián)系是三維的。 與CNN 網(wǎng)絡中利用卷積核來獲取特征的方式不同,基于Transformer 的模型目前只能捕捉一維序列中的特征,如何有效地提取視覺特征還需要進一步的研究與拓展。

      (2)輸入特征冗余問題。 基于Transformer 的模型將輸入視頻編碼為多個Token 作為模型的輸入,VIT 模型中一張224×224 分辨的圖片將產(chǎn)生196 個視覺Token,過長的Token 量將大大增加模型的計算代價,將使模型的的高效訓練與推理變得困難。

      4 挑戰(zhàn)和難點

      雖然基于視頻的動作識別算法在通用數(shù)據(jù)集上取得了很不錯的成績,但基于視頻的體育動作識別還存在許多的挑戰(zhàn)與難點。

      4.1 數(shù)據(jù)集的制作與標注

      作為進一步研究視頻動作識別方法在體育動作識別的關鍵問題之一,體育視頻數(shù)據(jù)的收集與標注的質(zhì)量直接影響著動作識別算法的性能[59,92-93]。然而,體育視頻數(shù)據(jù)集在制作過程中與其他通用的視頻動作識別數(shù)據(jù)集,如 UCF101、 HMDB51、Knietic400 等存在著很大的區(qū)別。

      (1)版權問題。 大多數(shù)的體育競賽視頻來自于未經(jīng)剪輯的直播片段,由于視頻版權等原因,這些片段的收集可能會受到版權限制。

      (2)自建數(shù)據(jù)。 非專業(yè)運動員自制的體育視頻可能存在動作質(zhì)量較低、拍攝角度不佳等問題,在此基礎上進行訓練的模型的可泛化能力差。

      (3)標注的專業(yè)性。 體育動作識別通常關注特定的運動類別,如花樣滑冰、乒乓球、排球等,這些動作相比日常行為如:喝水、跑跳等,需要參與標注的人員有相關的專業(yè)知識,且標注者的專業(yè)性能很大程度上會影響相關動作識別算法在此類任務上的推廣。

      4.2 算法應用

      (1)密集性動作。 流行的動作識別模型[58,94-95]所研究的對象是每個動作發(fā)生的時間間隔為20 s,或者更長的動作間隔時間。 然而,一方面乒乓球比賽中的擊球動作通常發(fā)生在0.4 s 或者更短的時間間隔內(nèi)。 傳統(tǒng)的低速攝影機難以從具有背景變化的視頻中捕捉到更豐富的動作細節(jié)[96-97]。 另一方面,在乒乓球運動中,運動員雙方輪流擊球,相比于足球、籃球等動作,擊球動作呈現(xiàn)密集分布,這對動作識別算法的識別動作邊界提出了更高的要求。 當前,雖然有一些學者在這些方面做出了努力,但與常規(guī)動作識別任務相比,研究學者所提出的算法性能仍遠遠低于預期[98-99],這對現(xiàn)有模型來說仍是一項具有挑戰(zhàn)性的任務[49,51]。

      (2)動作視角變化。 視頻動作數(shù)據(jù)集相比于圖像數(shù)據(jù)集,運動的物體在時間上存在著強關聯(lián),目標物體的運動特征的提取質(zhì)量將直接影響動作識別模型性能[100-102]。 此前的一些模型是對由固定攝像機視角拍攝的視頻采用光流法[103-104]對運動特征進行提取。 然而,隨著體育視頻集錦的出現(xiàn),越來越多的體育視頻中的相機視角出現(xiàn)了變化,如對視頻片段中的精彩動作進行放大。 這對成熟的動作識別基準模型[53,56,58,66,81]提出了巨大的挑戰(zhàn),如文獻[57,105-106]所提出的算法,幾乎不能處理動作視角劇烈變化的樣本。 雖然文獻[107-109]考慮了動作視角的變化,但在設計運動描述子時,面對被遮擋和被剪切的動作時,仍然導致了特征空間不一致,使得模型沒有達到理想的性能。 文獻[110-112]通過設計運動描述符的結構和添加注意力機制來解決遮擋問題,但這些工作中的運動描述符僅限于單個目標被遮擋的情況,對于多個被遮擋的對象,效果仍然欠佳。

      (3)數(shù)據(jù)集長尾分布。 長尾學習[113-114]是計算機視覺識別最具挑戰(zhàn)性的問題之一。 視頻來源于體育賽事直播中的足球、籃球、乒乓球等比賽。 由于類分布的長尾性和不均衡性,使得模型的性能大大降低[115-118]。 而考慮到體育類動作的特殊性,對模型中的數(shù)據(jù)增強方法提出了更高的要求。

      5 結束語

      本文對最近幾年的體育視頻中的動作識別算法進行了較全面的綜述。 由于體育動作與時間上的強關聯(lián),在算法設計中引入時序信息,可以有效提升算法的準確性。 當前的動作識別算法在各通用數(shù)據(jù)集上均取得了不錯的成績,但將算法應用在體育視頻中的動作識別仍需學者進行更多的研究,特別是在缺乏豐富數(shù)據(jù)集的情況下,體育視頻分析仍然是一項具有挑戰(zhàn)性的任務。

      猜你喜歡
      集上卷積動作
      基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
      Cookie-Cutter集上的Gibbs測度
      鏈完備偏序集上廣義向量均衡問題解映射的保序性
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于傅里葉域卷積表示的目標跟蹤算法
      動作描寫要具體
      復扇形指標集上的分布混沌
      畫動作
      動作描寫不可少
      非同一般的吃飯動作
      新民市| 尉氏县| 大渡口区| 乌鲁木齐县| 阿巴嘎旗| 龙胜| 柘城县| 保德县| 平定县| 静宁县| 新乡市| 军事| 岑溪市| 剑川县| 奉贤区| 海阳市| 镇沅| 鹰潭市| 东辽县| 横山县| 龙州县| 黄骅市| 陆川县| 同仁县| 临泉县| 陆良县| 张北县| 沙坪坝区| 都昌县| 渝北区| 图木舒克市| 县级市| 西藏| 丹巴县| 庄河市| 汕头市| 勐海县| 蓝田县| 福海县| 昌平区| 井陉县|