• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      人工智能中面向人類的行為分析

      2020-04-29 00:44:03石恒麟趙國英
      西北大學學報(自然科學版) 2020年3期
      關鍵詞:行為分析機器學習神經網絡

      石恒麟 趙國英

      摘要:隨著海量訓練數(shù)據(jù)的獲得、深度學習技術的進步和相關知識的積累,人工智能在近十年里取得了舉世矚目的進步。在接下來的幾年里,人們將迫切地需要以人為中心的人工智能應用。該文希望通過對行為識別相關研究的介紹,讓讀者了解在開發(fā)面向理解人類的人工智能應用上所取得的進步。首先,從行為檢測和行為識別兩個子任務概述了行為分析,并討論了該任務中的難點;其次,列舉了可用于行為分析的數(shù)據(jù)模態(tài)以及當前被廣泛使用的數(shù)據(jù)庫;然后,介紹了當前用于行為識別研究的主要工具,如卷積神經網絡和循環(huán)神經網絡;最后,總結了近十年典型的行為識別方法,包括深度學習出現(xiàn)之前的傳統(tǒng)方法和深度學習方法。

      關鍵詞:人工智能;機器學習;神經網絡;行為分析;行為識別;行為檢測

      中圖分類號:TP391.41

      DOI:10.16152/j.cnki.xdxbzr.2020-03-003

      Human centered action analysis in artificial intelligence

      SHI HenglinZHAO Guoying1,2

      Abstract: With the deluge of available data, the development of deep learning technology, and the accumulation of relevant knowledge, artificial intelligence has achieved outstanding progress. In the following years, people will eagerly require the application of human oriented artificial intelligence. This paper is to explain recent technology advances on developing human centered artificial intelligence applications by introducing human action analysis related research. Firstly,? the action analysis is based on two sub-tasks: action detection and action recognition, and the research challenges of them is introduced. Moreover,? the modalities used in action analysis research as well as currently popular datasets in this area is introduced. Furthermore,? related deep learning tools for conducting action analysis research is introduced. Lastly, we illustrate some important action analysis methods in the recent decade, which includes some classical approaches and modern deep learning approaches.

      Key words: artificial intelligence; machine learning; neural network; action analysis; action recognition; action detection

      在近十年里,人工智能在工業(yè)和學術界都取得了爆炸性的發(fā)展,人工智能技術已經被廣泛應用到人們生活中的各個角落,如公共安全監(jiān)控、汽車駕駛輔助、個人智能助手等。當前人工智能相關研究主要集中在語音信號分析、自然語言處理和計算機視覺等領域,而人工智能在這些方面的進步主要可以歸功于以下3個方面:海量訓練數(shù)據(jù)的獲得、深度學習和GPU計算技術的進步及相關知識的積累。

      首先,數(shù)據(jù)對科學研究的重要性毋庸置疑,設計有效的算法離不開有效的數(shù)據(jù)對實驗提供支持。我們正處在數(shù)據(jù)紅利的時代,在近十年中,學術界和工業(yè)界都越來越感受到數(shù)據(jù)的重要性,再加上一系列眾包(crowd-sourcing)工具為數(shù)據(jù)標注提供方便,各個研究領域的數(shù)據(jù)如雨后春筍般涌現(xiàn),而且體量都愈發(fā)龐大,如語音識別領域的AudioSet[1],自然語言處理領域中多種人工標注的機器翻譯數(shù)據(jù),以及機器視覺里目標識別任務使用的ImageNet[2]。然而,現(xiàn)在的數(shù)據(jù)還仍然無法滿足人們需求,隨著相關研究的不斷深入,人們研究的問題都越來越復雜,這使得人們對數(shù)據(jù)的需求也更加細化。所以,在接下來的十到二十年里,數(shù)據(jù)仍然是人工智能領域的核心問題之一。

      其次,GPU計算技術使得利用海量數(shù)據(jù)訓練大型神經網絡模型成為可能。深度神經網絡參數(shù)數(shù)量巨大,常常超過十萬級別。訓練這樣一個龐大的模型,往往需要依賴大量的數(shù)據(jù)并使用較小的學習率進行迭代,這使得網絡訓練十分耗時。然而,GPU加速技術的出現(xiàn)大大加快了計算機運算速度,從而極大地縮短了模型的訓練時間。這使得研究人員可以減少在工程實現(xiàn)上所花費的精力,更專注于研究問題本身。

      最后,相關知識的積累不僅幫助了人工智能的研究,還促進了人工智能技術和應用的傳播。在以前,訓練深度神經網絡存在諸多困難,如梯度消失和梯度爆炸、參數(shù)過多導致的過擬合,以及數(shù)據(jù)分布差異導致的難以收斂等。隨著近些年的積累,研究人員提出了一系列深度學習模型的訓練技巧,如Dropout[3]、批歸一化[4]以及梯度剪裁等方法,降低了神經網絡的訓練難度,使得深度學習模型在各個應用領域大放異彩。另外,一系列軟件庫如CUDA,OpenCL的出現(xiàn)使得GPU加速技術可以被部署在家用顯卡中,同時再加上各種深度學習軟件框架的層出不窮,如Caffe[5],Tensorflow和Pytorch等工具簡化了深度模型的實現(xiàn),使得大量愛好者可以進行人工智能研究,大大幫助了人工智能應用的推廣,促進了其蓬勃發(fā)展。

      然而,伴隨著人工智能技術的進步,人們也開始思考我們對人工智能的期待和需求是什么。本文認為,為了讓人工智能更好地服務于人類,那么它的首要需求是“理解人類”:理解人的情感和行為。所以,我們認為以理解人類為中心的人工智能技術將是未來的研究方向。不同于語音信號分析和自然語言處理,他們的核心研究問題是理解人類,計算機視覺任務則更加寬泛。在當前的計算機視覺研究里,面向理解人類的研究主要集中在人臉分析和行為分析研究中。作為一個新興起的研究熱點,本文將對行為分析的相關研究進行介紹。

      1 研究問題和難點

      1.1 行為檢測

      行為檢測任務要求算法能夠從時間序列中對行為示例的起始和結束時間進行定位。 行為檢測所面對的場景往往比較復雜。 一般來說,在給定的時間序列中可能存在多個行為, 也可能不存在行為。 同時, 不同的行為可以在時間上重疊, 也可以在空間上重疊。 因此, 在現(xiàn)階段研究中, 行為檢測任務可以被分為兩類, 一類是時間上的行為檢測, 如圖1(a)所示, 該樣本采集于PKUMMD數(shù)據(jù)庫[7]; 另一類則是最近新興起的時間和空間上的行為檢測。 算法不僅需要在時間上檢測行為的起始和結束時間, 還要能夠對行為的空間位置進行定位, 如圖1(b)所示, 該樣本采集于AVA數(shù)據(jù)庫[8]。

      1.2 行為識別

      在行為檢測的基礎上,行為識別指的是對包含了一個完整人類行為或者動作的時間序列(如視頻)進行識別分類,如圖1(c)所示,該樣本采集于UCF-101數(shù)據(jù)庫[6]。通常情況下,假設檢測出的一個時間序列包含且僅包含一個動作,時間序列的第一幀是動作的開始,最后一幀是動作的結束。在此基礎上又衍生出多視角行為識別,在該任務下,對于任意一個行為示例都有錄制于多個視角的行為數(shù)據(jù)(通常情況下不同視角的數(shù)據(jù)是同步的),該任務要求研究人員基于其中的一個或多個視角的數(shù)據(jù)進行行為識別。

      1.3 問題難點

      當前行為分析的主要難點在于如何有效地從動態(tài)變化的數(shù)據(jù)中學習到空間信息和時序信息。

      1)空間信息學習:不同的機器視覺任務側重于數(shù)據(jù)中的不同信息,如何從數(shù)據(jù)空間中提取有效的特征對于任務至關重要??臻g信息學習的困難主要在以下幾個方面:首先,行為分析任務對色彩信息不敏感,甚至色彩信息會對算法產生干擾,使得算法關注錯誤的區(qū)域。其次,行為分析數(shù)據(jù)往往具有動態(tài)的背景,在通常情況下,動作分析大多都以視頻作為數(shù)據(jù)對象,然而大量的動作都發(fā)生在動態(tài)的場景中,例如體育運動動作,所以,這些樣本中的背景都是在動態(tài)變化的,如何讓方法關注發(fā)生動作的主體而不是變化的背景對于行為識別方法的效果至關重要。再次,行為分析樣本中行為主體的位置并不是一成不變的,有效的行為識別方法要能一直捕捉到行為主體。最后是樣本主體的多樣性,行為主體在空間上的差異(如體態(tài)和體型)給行為分析任務增加了困難。

      2)時序信息學習:在行為分析任務上,對時間序列進行建模、提取時序特征比空間特征提取更加重要。然而,時序特征的提取卻要比空間特征提取更加困難。首先,時序特征的提取一般是包含了空間特征提取的,在進行時間序列建模之前,要先獲取建模目標,所以,提取時序特征將會遇到和提取空間特征一樣的困難。其次,行為時間序列的變化多樣性阻礙了時序特征提取。舉例來說,動作的執(zhí)行并不是均勻的,即使是同一個人在執(zhí)行不同的動作時,往往會有不同的變化速率和不同的完成度,因此,可以想象對不同主體的行為時間序列進行建模的難度。另外,行為數(shù)據(jù)中的信息冗余度高,相鄰的幀提供的信息大部分是相同,而變化相對較少,然而這些變化的信息對行為分析任務至關重要,因此,如何構建一個有效的方法對關鍵信息進行提取是時序信息學習的關鍵任務。

      2 研究數(shù)據(jù)

      在人工智能任務里,構建智能系統(tǒng)與人工標注的數(shù)據(jù)是密不可分的。近年來我們所使用的主要數(shù)據(jù)模態(tài)分別是視頻、光流、深度圖像和骨骼坐標數(shù)據(jù),其中,光流可以被認為是基于視頻數(shù)據(jù)的衍生。而從數(shù)據(jù)的采集條件來看,當前數(shù)據(jù)主要有實驗室條件下和in-the-wild條件下采集的兩種(帶有深度圖像的數(shù)據(jù)庫基本都是在實驗室條件下采集的)。行為分析中被廣泛應用的4種模態(tài)如圖2所示。圖2(a),(b),(d)3種模態(tài)實例來自Chalearn Looking At People(LAP)2014數(shù)據(jù)庫[9],圖2(c)來自于UCF-101數(shù)據(jù)庫[6]。

      2.1 圖像/視頻

      在行為分析研究的發(fā)展中,視頻一直是最被廣泛使用的數(shù)據(jù)模態(tài)。相比于其他模態(tài),視頻數(shù)據(jù)的優(yōu)勢是采集成本低,需求設備簡單,相關知識儲備豐富等。深度圖像和骨骼坐標的采集都需要實驗室環(huán)境和特殊設備的支持,而視頻采集則沒有太多的要求。同時,互聯(lián)網上也有豐富的來自于自然場景中的數(shù)據(jù)資源。所以,視頻數(shù)據(jù)被認為是開展in-the-wild條件下行為分析最便利的數(shù)據(jù)模態(tài)。

      2.2 光流

      光流可以被認為是視頻數(shù)據(jù)的一種衍生數(shù)據(jù),因為光流可以基于視頻數(shù)據(jù)計算獲得。光流信息刻畫的是圖片上每一個像素點的變化趨勢,這使得光流信息長于描述動態(tài)目標。因此,對于需要對目標的變化過程進行建模而不關心目標色彩信息的行為分析任務,光流信息具有先天的優(yōu)勢。在過去十年里,光流一直是行為分析任務的主要數(shù)據(jù)模態(tài)。然而,光流數(shù)據(jù)的缺點是它的計算復雜耗時,這制約了它在實際場景中的應用。當前提取光流的方法主要有兩類,一類是傳統(tǒng)方法,如Lucas-Kanade算法[10]和Brox算法[11];另一類是基于深度學習的方法,如FlowNet[12]和FlowNet2[13]。

      2.3 深度圖像

      深度圖像刻畫的是場景內每一個像素點到深度攝像機的距離。通常情況下,深度攝像機要求目標到攝像機的距離在0.5 m到4.5 m之間。深度圖像的優(yōu)勢是它專注于刻畫與目標的距離,而不記錄任何色彩信息,這使目標輪廓的刻畫變得容易,與行為分析任務十分契合。另外,深度圖像的采集條件比較簡單且對光照條件不敏感。相比于光流信息,深度圖像的優(yōu)勢是獲取速度快。當前的深度攝像機成本并不高,一些商用手機上都已經配備了深度攝像頭。然而,深度圖像的一個明顯缺點是采集的樣本中噪音相對比較多。

      2.4 骨骼坐標

      骨骼坐標信息指的是人體的關節(jié)點在空間上的坐標,是這4類模態(tài)里最高層次的模態(tài),因為它包含了人體結構的語義信息。骨骼信息的獲取讓我們在行為分析研究中能夠“拋開現(xiàn)象看本質”?;谌梭w關鍵點,可以對骨骼信息進行建模,有效地提取空間特征,同時排除背景和體型等其他無關因素的干擾。早期的骨骼信息采集都是基于Mocap系統(tǒng),成本高昂。隨著基于深度圖像的人體關鍵點實時檢測技術的成熟[14],研究人員不再對骨骼信息望而卻步。然而,骨骼數(shù)據(jù)也有兩個顯著的缺陷:一是當前算法的魯棒性不足,檢測出的關鍵點存在噪聲;其次,類似方法在對手指等細節(jié)部位的檢測結果并不理想。

      2.5 相關數(shù)據(jù)庫

      在當前流行的行為分析數(shù)據(jù)庫中,用于行為識別任務的有單模態(tài)的UCF-101[6],HMDB-51[15]和包含了視頻、深度圖像和骨骼的MSR Action 3D[16],NTU RGB+D[17]。用于行為檢測任務的有大型的單模態(tài)視頻數(shù)據(jù)庫AVA[8]和Chardes[18]等,以及多模態(tài)的PKU-MMD[7]和ChaLearn LAP 2014[9]等。表1舉例了一些具有代表性的數(shù)據(jù)集,除了以上提到的數(shù)據(jù)庫,還包括一個多角度行為數(shù)據(jù)庫UWA3D Multiview Activity II[19]。

      3 當前研究工具

      在近五年里,深度學習方法已經在行為分析研究占據(jù)了主導地位。基于深度學習的行為識別方法中所使用的基本模型包括多層感知機、卷積神經網絡、循環(huán)神經網絡和近些年剛興起的圖卷積網絡。

      3.1 多層感知機

      多層感知機是最早出現(xiàn)的神經網絡的類型,在如今的深度學習框架中也被稱為全連接層,其典型的代表是自編碼器(autoencoder)。簡單來說,多層感知機實現(xiàn)的就是輸入和網絡權重的內積操作。目前,多層感知機幾乎被用于所有的深度模型中,研究人員常將多層感知機置于深度模型中的深層用于高層特征提取。此外,常見的分類任務和循環(huán)神經網絡的內部操作都需要依賴多層感知實現(xiàn)。

      3.2 卷積神經網絡

      卷積神經網絡是機器視覺任務中最為流行的深度學習工具之一,已經被廣泛應用于物體識別、目標檢測和行為分析等任務中。目前常用的卷積神經網絡有常被用于語音信號處理的一維卷積模型、用于圖片分析的二維卷積模型和用于視頻分析的三維卷積模型。以二維神經網絡為例,它使用一組濾波器對輸入數(shù)據(jù)以滑窗的方式進行濾波,整個過程正如將輸入數(shù)據(jù)和濾波器權重做卷積操作,故得名卷積神經網絡。卷積神經網絡的實現(xiàn)特點使得它只能處理規(guī)則的網格結構的數(shù)據(jù),這一點天然與機器視覺契合。再加上每一個濾波器使用的參數(shù)較少,通常在每層可以使用數(shù)百個濾波器對圖像進行濾波,這使得它已經成為機器視覺任務中主要的空間特征提取手段。圖3描述了二維卷積網絡的運算過程。

      3.3 圖卷積網絡

      圖卷積網絡[20]是近年來新興起的一種卷積網絡的變種。前文已經討論過常規(guī)的卷積神經網絡要求輸入數(shù)據(jù)必須具有網格狀結構。然而,在現(xiàn)實應用場景中并不是所有的數(shù)據(jù)都具有網狀結構,如知識圖譜中常見的關系數(shù)據(jù)和行為分析中的骨骼數(shù)據(jù)。為了利用卷積神經網絡的能力并將其擴展到其他領域的應用中,研究人員提出了圖卷積模型。目前,圖卷積網絡已經被應用在基于骨骼數(shù)據(jù)的行為識別任務中[21]。

      3.4 循環(huán)神經網絡

      以上提到的3種模型的局限是它們并不適合單獨被用于時間序列分析。即使要進行時間序列分析,也需要強行統(tǒng)一輸入數(shù)據(jù)的維度,比如將不同幀數(shù)的視頻采樣成相同幀數(shù),因此,人們需要一種動態(tài)的時序建模工具?;谶@種需求,循環(huán)神經網絡出現(xiàn)了。首先,以時刻t為例,循環(huán)神經網絡通過隱藏層對之前從1到t-1時刻的數(shù)據(jù)中學習到的內容進行記憶;其次,在產生第t時刻的輸出時,將第t時刻的輸入和t-1時刻的隱藏層作為輸入(也有實現(xiàn)將t-1時刻的輸出作為輸入)。這樣,循環(huán)神經網絡的輸出是基于當前時刻的數(shù)據(jù)和從歷史數(shù)據(jù)中學習到的信息來計算的。在對每一時刻的數(shù)據(jù)進行處理時,循環(huán)神經網絡的參數(shù)是共享的,可以自適應各種長度的時間序列。另外,循環(huán)神經網絡還有多種輸出方式適合不同類型的任務,如圖4所示。

      1)長短時記憶模型:目前,研究人員已經開發(fā)出了多種循環(huán)神經網絡的變種,其中最流行的是長短時記憶模型(long short-term memory, LSTM)[22],如圖5所示,其中,i,f,o代表3個門控制器,分別是輸入門、遺忘門和輸出門。該模型將當前數(shù)據(jù)和上一時刻的輸出作為輸入,同時引入多個門控制器和內部隱變量來處理并存儲從前面數(shù)據(jù)學習的信息。該方法對于基于時間序列的行為分析十分有效。

      2)雙向長短時記憶模型(bidirectional LSTM):雙向長短時記憶模型是長短時記憶模型的一種衍生[23]。通過兩組長短時記憶模型,一組順序地對輸入數(shù)據(jù)進行處理,另一組則倒敘地對數(shù)據(jù)進行處理,然后將兩組輸入進行融合,實現(xiàn)雙向長短時記憶模型。我們可以由先發(fā)生的事情預測后發(fā)生的事情,也可以從后發(fā)生事情推理之前發(fā)生的事情,類似地,時間序列內不同時刻的樣本間的關系也是如此。所以,這種雙向模型被認為具有更強的時序建模能力。

      3)卷積長短時記憶模型(convolutional LSTM):在常規(guī)的長短時記憶模型等循環(huán)神經網絡里,內部的門控制器等模塊都是由多層感知機通過內積操作實現(xiàn)的,所以它無法直接地處理二維數(shù)據(jù)。假如要將該模型引入基于視頻的行為分析任務中,通常需要先將二維數(shù)據(jù)轉化為一維數(shù)據(jù),再輸入循環(huán)神經網絡中。然而,這種做法的危害是會損害數(shù)據(jù)中的結構信息,就像將一張圖片轉換成為一個一維向量會損失該圖片的空間信息。因此,需要設計一種可以不損壞輸入空間信息的循環(huán)神經網絡?;谶@種需求,將常規(guī)長短時記憶模型中的多層感知機都用卷積模型替換,提出了卷積長短時記憶模型[24]。該模型的輸入和輸出都是二維圖像,為行為分析任務提供了新的有力工具。

      4 行為分析相關方法

      4.1 傳統(tǒng)行為分析方法

      在深度學習方法興起之前,基于視頻的行為識別方法主要是密集軌跡法(dense trajectory, DT)[25]和后來改進的密集軌跡法(improved dense trajectory, iDT)[26]。密集軌跡法基于光流,對視頻中的像素點進行追蹤并采樣,從而捕捉目標的一系列重要的像素點在視頻中的運動軌跡,最終獲得目標的運動信息。iDT對DT進行了改進,在行為識別任務中,相機的位置并不是一直靜止不動的。移動的相機會使與目標行為無關的像素點產生運動的軌跡,如背景等,而這些軌跡對于行為識別并沒有貢獻。因此,iDT通過估計相機的移動,能夠更有效地對目標行為的像素軌跡進行采集,可以顯著提高行為識別效果。

      對于傳統(tǒng)的骨骼行為特征,Yang和Tian提出了一種有效并易于計算的輕量骨骼行為特征EigenJoint[27]。該特征能夠同時捕捉數(shù)據(jù)中的空間和時序特征:在空間上,計算不同關鍵點之間的差,從而獲得大量的表示空間信息的向量;在時間上,計算相鄰兩幀任意兩點之間的差作為時序特征。對于另一個典型的骨骼特征,Vemulapalli等將剛體運動理論引入行為分析,提出了基于李群的骨骼行為特征[28]。該特征將人體任意兩個骨骼間的平移和旋轉信息用一個特殊歐幾里得群(special Euclidean group)SE3表示,因此,在每一幀中,所有骨骼間的旋轉和平移信息可以被嵌入在數(shù)個SE3組成的積空間中,并且被表示為該空間中的一個點。

      4.2 基于卷積神經網絡

      作為初期深度學習在行為識別任務上的嘗試,三維卷積[29]獲得了大量學者的關注。該方法開創(chuàng)了三維卷積網絡對基于視頻的行為識別的先河。然而,作為初期的嘗試,該方法卻并未使用較為深層的網絡。在此基礎上,Tran等人結合了三維卷積模型和深度網絡架構提出了C3D模型用于行為識別[30]。該模型將VGG模型[31]中的二維卷積層和二維池化層分別用三維卷積層和三維池化層替換,率先將深度模型引入行為分析任務,并且取得了很好的效果提升。后來,Du Tran等人又對C3D架構進行改進,將VGG架構替換為ResNet-18[32],從而降低了網絡訓練的難度。雖然C3D的出現(xiàn)極大地提高了行為識別的準確率,但是它的缺點也顯而易見:模型過于龐大、參數(shù)太多、不易在大型數(shù)據(jù)庫上進行訓練。

      為了提高網絡的效率,研究者提出了偽3D卷積模型(pseudo-3D, P3D)[33],該模型通過一個二維卷積和一個一維卷積來模擬三維卷積模型,從而降低了網絡每層的參數(shù)數(shù)量,使得網絡可以使用更多的層數(shù)和更大的批訓練大小。實驗證明,該模型能用少于C3D的參數(shù)訓練出高達119層的超深度網絡。另外,Carreira和Zisserman提出了inception 3D(i3D)模型[18],一種寬度網絡模塊,使用多個尺度的卷積模塊用于特征提取,實驗表明,該模型對于視頻行為特征的提取十分有效。

      以上介紹了基于視頻的深度學習行為識別方法。除此之外,由于光流信息在傳統(tǒng)行為識別的成功,研究人員同樣將其引入了深度模型中。Simonyan等人首先提出了基于視頻和光流的雙流網絡(two-stream network)[34]。雙流模型使用了雙路vgg-16網絡,一路是以單幀的彩色圖片作為輸入,另一路以多張光流組成的多通道光流組作為輸入,兩路網絡獨立地進行行為分類,最終的分類結果在決策端進行融合。Feichtenhofer等討論了更多的融合方式[35],不同于前面所講的決策端融合,該文則專注于在特征端進行融合。除了特征端的空間融合之外,本文還討論了時間融合,采用的方法主要是三維池化和三維卷積。以上兩種雙流模型的每個流都是獨立處理的,為了達到更好的訓練效果,在此基礎上,提出了新一代的交互式雙流網絡——時空乘子網絡 [36]。該模型采用了殘差神經網絡的架構為基礎,讓RGB流和光流在不同的層間進行交互,從而使兩路子網絡的學習相互輔助相互制約,以達到更好的訓練效果。

      雖然光流網絡已經達到了很好的效果,但局限是需要預先計算光流。光流計算十分耗時,這使得雙流模型難以在實際應用中使用,或者在實際應用中難以獲得理想的幀率。Zhang等人提出了使用運動向量(motion vector)替代雙流網絡中的光流數(shù)據(jù),并且獲得相當于雙流網絡的效果[37]。相比于光流數(shù)據(jù),運動向量十分容易計算,這使得基于彩色和運動向量的雙流網絡可以達到上百幀的超高識別速率。另外,最近有學者新提出了一種僅僅基于視頻信息的快慢網絡[38],快慢網絡建議使用雙流網絡分別處理不同幀率的的視頻信息。一路快速網絡通過處理高幀率的視頻信息獲得動作的時序特征,另一路慢速網絡處理低幀率的視頻信息以獲得空間信息。實驗證明該模型可以有效提取視頻中的時序特征。

      卷積網絡的局限性是不同輸出之間的上下文關系較弱,限制了其在行為檢測中的應用。為了在行為檢測中使用卷積神經網絡,往往需要輔以一個時序模型,比如,Wu等人將卷積神經網絡和隱馬爾可夫模型相結合進行行為檢測[39]。在該模型中,首先,由卷積網絡進行幀級別的行為識別,然后,隱馬爾可夫模型在所有幀的識別結果的基礎上進行行為檢測。但是,該模型的缺點是它并不是一個端到端模型,因為它的卷積網絡和隱馬爾可夫模型無法同時訓練。Xu等人在區(qū)域卷積網絡(regional convolutional neural network, RCNN)的基礎上提出了端到端的行為檢測模型R-C3D[40],該模型首先在輸入視頻的時間維度上產生多個可能的“行為存在區(qū)域(action proposal)”,然后,網絡分別對每一個區(qū)域進行特征提取并識別行為。相比于基于隱馬爾可夫模型的“先識別后檢測”,R-C3D則是一種“先檢測后識別”的模式。

      4.3 基于循環(huán)神經網絡

      單獨使用循環(huán)神經網絡進行基于視頻的行為分析并不容易,因為常規(guī)的循環(huán)神經網絡并不適用于提取圖像級別特征。因此,對于視頻級別的行為分析任務,循環(huán)神經網絡往往是結合卷積神經網絡一起被使用的。Donahue等人提出了長效循環(huán)卷積網絡(long-term recurrent convolutional network,LRCN)用于基于視頻或圖片的行為分析[41]。該方法可以被用于行為識別、圖片標注和視頻描述生成等多種任務。其中,用于行為識別的模型是基于“多對多”結構的循環(huán)神經網絡。該模型首先將視頻中的每一幀圖片通過一個卷積神經網絡進行特征提取;然后,將提取到的特征作為時間序列送入長短時記憶模型中;最后,通過對每一時刻的輸出平均求和進行行為識別。Ng等將雙流網絡的思想與循環(huán)神經網絡進行融合,該模型將視頻中的圖片和光流數(shù)據(jù)分別通過兩個卷積神經網絡提取特征[42];然后,再將雙流的結果通過兩個長短時記憶模型進行幀級別的行為識別;最后,模型在決策端融合每一時刻的輸出進行行為識別。

      相比于基于視頻的行為識別,基于骨骼數(shù)據(jù)的行為分析方法一般不需要卷積神經網絡進行特征提取。因此,循環(huán)神經網絡對基于骨骼數(shù)據(jù)的行為分析任務具有天然的適應性,并得到了廣泛的應用。Yu等人提出了一種基于層級架構的雙向長短時記憶模型用于骨骼行為識別[43],該模型將人體結構分成多個部分,每一部分分別通過一個獨立的雙向長短時記網絡,每個網絡的結果統(tǒng)一被輸入一個全局雙向長短時記憶模型進行行為識別。

      此外,循環(huán)神經網絡在行為檢測問題上也取得了令人矚目地成果。Huang等人將語音分析中十分流行的連接主義時間分類(connectionist temporal classification, CTC)和長短時記憶模型相結合用于行為檢測并取得成功[44]。Li等人利用長短時記憶模型提出了基于骨骼地在線行為檢測模型[45]。該模型主要包含一個分類模塊用于幀級別的行為識別,和一個回歸模塊用于學習行為的起始和結束時間,同時,該模型的訓練是端到端的。

      4.4 其他相關的的深度模型

      除了前面介紹的流行的基于卷積神經網絡和循環(huán)神經網絡的行為分析方法,還有其他深度學習方法,比如,深度置信網絡(deep belief network, DBN)曾被用于在無監(jiān)督條件下的特征提取。Wu和Shao提出了使用基于深度置信網絡的自編碼器提取骨骼特征,最后提取的特征通過一個隱馬爾可夫模型進行行為檢測[46]。

      此外,近年新興起的圖卷積模型也受到了行為分析科學家的關注。Yan等人將圖卷積模型引入了行為識別任務,提出了基于時空圖卷積網絡的骨骼行為分析方法[21]。該方法開創(chuàng)了基于圖卷積模型的行為分析的先河,為研究人員開展行為分析提供了更多的工具。

      5 結 語

      行為分析是人工智能領域中的關鍵任務。首先,本文對行為分析任務進行了定義,詳細介紹了行為檢測與行為識別;其次,本文總結了行為分析任務中主要使用的數(shù)據(jù)模態(tài),并列舉了一些被廣泛使用的數(shù)據(jù)集;再次,基于近些年深度學習技術的火爆,簡要介紹了當前流行的深度學習工具;最后,舉例介紹了近些年流行的行為分析方法。

      作為人類與機器交互的最前沿,行為分析任務的成果對下一代人工智能應用的開發(fā)至關重要,尤其是以人為中心的人工智能應用。智能醫(yī)療、智能看護和自動駕駛等技術都需要行為分析作為人與計算機溝通的媒介。深度學習技術的發(fā)展加速了行為分析的進步,將來學術界和工業(yè)界一定會產生效果更加優(yōu)異的行為分析方法,幫助我們開發(fā)新一代的面向理解人類的人工智能應用。

      參考文獻:

      [1]GEMMEKE J F, ELLIS D P, FREEDMAN D, et al. Audio set: An ontology and human-labeled dataset for audio events[C]∥2017 IEEE International Conference on Acoustics, Speech and Signal Processing. New Orleans:IEEE, 2017:776-780.

      [2]DENG J, DONG W, SOCHER R, et al. Imagenet: A large-scale hierarchical image database[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Miami:IEEE, 2009:248-255.

      [3]SRIVASTAVA N, HINTON G, KRIZHEVSKY A, et al. Dropout: A simple way to prevent neural networks from overfitting[J]. The Journal of Machine Learning Research, 2014, 15(1):1929-1958.

      [4]IOFFE S, SZEGEDY C. Batch normalization: Accelerating deep network training by reducing internal covariate shift[EB/OL].2015: arXiv:1502.03167[cs.LG]. https://arxiv.org/abs/1502.03167.

      [5]JIA Y, SHELHAER E, DONABUE J, et al. Caffe: Convolutional architecture for fast feature embedding[C]∥Proceedings of the 22nd ACM International Conference on Multimedia. ACM, 2014:675-678.

      [6]SOOMRO K, ZAMIR A R, SHAH M. UCF101: A dataset of 101 human actions classes from videos in the wild[EB/OL].2012: arXiv:1212.0402[cs.CV]. https://arxiv.org/abs/1212.0402.

      [7]LIU C, HU Y, LI Y, et al. Pku-mmd: A large scale benchmark for skeleton-based human action understanding[C]∥Proceedings of the Workshop on Visual Analysis in Smart and Connected Communities. ACM, 2017:1-8.

      [8]GU C, SUN C, ROSS D A, et al. Ava: A video dataset of spatiotemporally localized atomic visual actions[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE, 2018:6047-6056.

      [9]ESCALERA S, BAR X, GONZALEZ J, et al. ChaLearn looking at people challenge 2014: Dataset and results[M]∥Computer Vision-ECCV 2014 Workshops.Cham:Springer International Publishing, 2014:459-473.

      [10]LUCAS B, KANADE T. An iterative image registration technique with an application to stereo vision[C]∥Proceedings of Imaging Understanding Workshop,1981:121-130.

      [11]BROX T, BRUHN A, PAPENBERG N, et al. High accuracy optical flow estimation based on a theory for warping[C]∥Computer Vision-ECCV 2004. Cham: Springer International Publishing, 2004:25-36.

      [12]DOSOVITSKIY A, FISCHER P, ILG E, et al. Flownet: Learning optical flow with convolutional networks[C]∥Proceedings of the IEEE International Conference on Computer Vision. Santiago:IEEE, 2015:2758-2766.

      [13]ILG E, MAYER N, SAIKIA T, et al. Flownet 2.0: Evolution of optical flow estimation with deep networks[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Honolulu:IEEE, 2017:2462-2470.

      [14]SHOTTON J, FITZGIBBON A, COOK M, et al. Real-time human pose recognition in parts from single depth images[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Colorado Springs:IEEE, 2011:1297-1304.

      [15]KUEHEN H, JHUANG H, GARROTE E, et al. Hmdb:A large video database for human motion recognition[C]∥Proceedings of the IEEE International Conference on Computer Vision.Barcelona:IEEE, 2011:2556-2563.

      [16]LI W, ZHANG Z, LIU Z. Action recognition based on a bag of 3D points[C]∥IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops.San Francisco:IEEE, 2010:9-14.

      [17]SHAHROUDYA, LIU J, NG T T, et al. NTU RGB+D:A large scale dataset for 3d human activity analysis[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas:IEEE, 2016:1010-1019.

      [18]CARREIRA J, ZISSERMAN A. Quo vadis, action recognition? A new model and the kinetics dataset[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Honolulu:IEEE, 2017:6299-6308.

      [19]RAHMANI H, MAHMOOD A, HUYNH D, et al. Histogram of oriented principal components for cross-view action recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(12): 2430-2443.

      [20]KIPF T, WELLING M. Semi-supervised classification with graph convolutional networks[EB/OL].2016: arXiv:1609.02907[cs.LG]. https://arxiv.org/abs/1609.02907.

      [21]YAN S J, XIONG Y J, LIN D H. Spatial temporal graph convolutional networks for skeleton-based action recognition[EB/OL].2018: arXiv:1801.07455[cs.CV]. https://arxiv.org/abs/1801.07455.

      [22]HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural computation, 1997, 9(8):1735-1780.

      [23]GRAVES A, SCHMIDHUBER J. Framewise phoneme classification with bidirectional LSTM and other neural network architectures[J]. Neural Networks, 2005, 18(5/6):602-610.

      [24]SHI X J, CHEN Z R, WANG H, et al. Convolutional LSTM network: A machine learning approach for precipitation nowcasting[EB/OL].2015: arXiv:1506.04214[cs.CV].https://arxiv.org/abs/1506.04214.

      [25]WANG H, KLSER A, SCHMIDC, et al. Action recognition by dense trajectories[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Sydney:IEEE, 2011:3169-3176.

      [26]WANG H, SCHMID C. Action recognition with improved trajectories [C]∥Proceedings of the IEEE International Conference on Computer Vision.Sydney:IEEE, 2013: 3551-3558.

      [27]YANG X, TIAN Y L. Eigenjoints-based action recognition using naivebayes-nearest-neighbor[C]∥IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops.Providence:IEEE, 2012:14-19.

      [28]VEMULAPALLI R, ARRARE F, CHELLAPPA R. Human action recognition by representing 3D skeletons as points in a lie group[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Columbus:IEEE, 2014:588-595.

      [29]JI S W, XU W, YANG M, et al. 3D convolutional neural networks for human action recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(1):221-231.

      [30]TRAN D, BOURDEV L, FERGUS R, et al. Learning spatiotemporal features with 3D convolutional networks[C]∥Proceedings of the IEEE International Conference on Computer Vision.Santiago:IEEE, 2015:4489-4497.

      [31]SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL].2014: arXiv:1409.1556[cs.CV].https://arxiv.org/abs/1409.1556.

      [32]HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas:IEEE, 2016:770-778.

      [33]QIU Z F, YAO T, MEI T. Learning spatio-temporal representation with pseudo-3D residual networks[C]∥Proceedings of the IEEE International Conference on Computer Vision.Venice:IEEE, 2017:5533-5541.

      [34]SIMONYAN K, ZISSERMAN A. Two-stream convolutional networks for action recognition in videos[J].Advances in Neural Information Processing Systems. 2014:568-576.

      [35]FEICHTENHOFER C, PINZ A, ZISSERMAN A. Convolutional two-stream network fusion for video action recognition[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas:IEEE, 2016:1933-1941.

      [36]FEICHENHOFER C, PINZ A, WILDES R P. Spatiotemporal multiplier networks for video action recognition[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Honolulu:IEEE, 2017:4768-4777.

      [37]ZHANG B W, WANG L M, WANG Z, et al. Real-time action recognition with enhanced motion vector cnns[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas:IEEE, 2016:2718-2726.

      [38]FEICHTENHOFER C, FAN H Q, MALIK J, et al. SlowFast networks for video recognition[C]∥Proceedings of the IEEE International Conference on Computer Vision.Seoul:IEEE, 2019:6202-6211.

      [39]WU D, PIGOU L, KINDERMANS P J, et al. Deep dynamic neural networks for multimodal gesture segmentation and recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2016,38(8):1583-1597.

      [40]XU H J, DAS A, SAENKO K. R-C3D: Region convolutional 3D network for temporal activity detection[C]∥Proceedings of the IEEE International Conference on Computer Vision.Venice:IEEE, 2017:5783-5792.

      [41]DONAHUE J, HENDRICKS L A, GUADARRAMA S, et al. Long-term recurrent convolutional networks for visual recognition and description[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Boston:IEEE, 2015:2625-2634.

      [42]NG JOEY H, HAUSKNECHT M, VIJAYANARASIMHAN S, et al. Beyond short snippets: Deep networks for video classification[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Boston:IEEE, 2015: 4694-4702.

      [43]DU Y, WANG W, WANG L. Hierarchical recurrent neural network for skeleton based action recognition[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Boston:IEEE, 2015: 1110-1118.

      [44]HUANG D A, FEI-FEI L, NIEBLES J C. Connectionist temporal modeling for weakly supervised action labeling[M]∥Computer Vision-ECCV 2016.Cham:Springer International Publishing,2016:137-153.

      [45]LI Y H, LAN C L, XING J L, et al. Online human action detection using joint classification-regression recurrent neural networks[M]∥Computer Vision-ECCV 2016.Cham:Springer International Publishing,2016:203-220.

      [46]WU D, SHAO L. Leveraging hierarchical parametric networks for skeletal joints based action segmentation and recognition[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Columbus:IEEE, 2014:724-731.

      (編 輯 李 靜)

      收稿日期:2020-04-02

      基金項目:國家自然科學基金資助項目(61772419);陜西省科技計劃重點項目(2018ZDXM-GY-186)

      作者簡介:石恒麟,男,山東諸城人,從事基于機器視覺的微動作分析研究。

      通信作者:趙國英,女,山東聊城人,教授,博士生導師,入選陜西省“百人計劃”,從事計算機視覺、機器學習和情感智能等研究。

      猜你喜歡
      行為分析機器學習神經網絡
      神經網絡抑制無線通信干擾探究
      電子制作(2019年19期)2019-11-23 08:42:00
      基于北斗衛(wèi)星導航的罪犯行為分析方法
      基于機器學習的圖像特征提取技術在圖像版權保護中的應用
      物理教師課堂教學板書與媒體呈現(xiàn)行為的分析與策略
      基于網絡搜索數(shù)據(jù)的平遙旅游客流量預測分析
      時代金融(2016年27期)2016-11-25 17:51:36
      前綴字母為特征在維吾爾語文本情感分類中的研究
      科教導刊(2016年26期)2016-11-15 20:19:33
      基于行為分析的木馬檢測系統(tǒng)設計與實現(xiàn)
      金融經濟中的金融套利行為分析及若干研究
      經營者(2016年12期)2016-10-21 09:12:11
      基于支持向量機的金融數(shù)據(jù)分析研究
      基于神經網絡的拉矯機控制模型建立
      重型機械(2016年1期)2016-03-01 03:42:04
      库伦旗| 靖西县| 灵武市| 石城县| 麻栗坡县| 偏关县| 亳州市| 静宁县| 南岸区| 正定县| 绥宁县| 和平区| 沁阳市| 繁峙县| 杭锦后旗| 涡阳县| 临武县| 泗水县| 阜南县| 杨浦区| 雅安市| 岚皋县| 搜索| 石嘴山市| 龙井市| 黔东| 泾川县| 光泽县| 岳阳市| 博野县| 满城县| 大竹县| 大冶市| 徐汇区| 巨鹿县| 南乐县| 伊金霍洛旗| 桂平市| 道真| 钟祥市| 镇平县|