丁洪金,宮法明
(中國石油大學(xué)(華東) 計(jì)算機(jī)與通信工程學(xué)院,山東 青島 266580)
檢測人類行為活動對視頻的理解是至關(guān)重要的。檢測人類行為活動一直是計(jì)算機(jī)視覺領(lǐng)域的一個重要研究課題[1]。近年來由于視頻數(shù)據(jù)的爆炸式增長和實(shí)際生產(chǎn)生活等各方面對視頻智能化處理的急切需要,基于時序行為檢測的方法受到越來越多的關(guān)注。時序行為檢測現(xiàn)存很多難題:在目標(biāo)檢測中,物體目標(biāo)的邊界通常都是非常明確的,所以可以標(biāo)注出較為明確的邊界框。但時序行為的邊界很多時候并不是很明確,如何定義一個行為的開始和結(jié)束,無法給出一個準(zhǔn)確的邊界,也就是精確的第幾幀;雖然結(jié)合時序信息的行為識別效果會更好一些,但是只使用靜態(tài)圖像的信息,而不結(jié)合時序信息在行為識別中是可以的。然而,在時序行為檢測中,無法只使用靜態(tài)圖像信息,它必須結(jié)合時序的信息,比如使用RNN讀入每幀圖像上用CNN提取的特征[2]或用時序卷積[3]等;時序行為片段的時間跨度變化可能非常大。例如海上平臺監(jiān)控系統(tǒng)的視頻數(shù)據(jù)集,也是從幾秒到幾千秒。
文中提出一種精確時序行為檢測方法,在未修剪長視頻中識別并定位出靜止,跌倒及其時間節(jié)點(diǎn)。此任務(wù)的關(guān)鍵主要在于兩點(diǎn):第一,高質(zhì)量的時序片段。時序片段質(zhì)量的高低,直接影響行為的時序邊界的精確度。很多方法都是使用產(chǎn)生候選區(qū)域(proposal)后,對候選進(jìn)行分類的方法,重要的是較高的候選質(zhì)量。也就是說在保證平均召回率的情況下,盡可能減少候選的數(shù)量。對于所有方法,獲取準(zhǔn)確的時序行為邊界都是非常重要的;第二,準(zhǔn)確的分類,即能準(zhǔn)確得到時序行為片段的類別信息。為使分類準(zhǔn)確,采用細(xì)化的時序動作性分組網(wǎng)絡(luò)(refined temporal actionness grouping,RTAG),通過設(shè)定動作性得分的閾值,來細(xì)化動作分類。
輸入為未處理的石油采油廠海上平臺監(jiān)控視頻,進(jìn)入深度CNN網(wǎng)絡(luò)[4]訓(xùn)練成的動作性分類器,輸出動作性得分。動作性得分形成的波形進(jìn)入細(xì)化的時序動作性分組網(wǎng)絡(luò)形成候選區(qū)域,再送入動作分類器得出檢測結(jié)果。采用先產(chǎn)生候選,再對候選進(jìn)行分類的方法?;跁r序分析的人體活動狀態(tài)識別與定位在實(shí)際應(yīng)用中有重大的意義。例如,海上石油平臺具有遠(yuǎn)離陸地、海況復(fù)雜、救逃難度大等特點(diǎn),在海上平臺進(jìn)行石油鉆采生產(chǎn)作業(yè)的工作人員面臨著各種危險因素,如跌倒、墜海等。此外,如果有非法人員入侵等情況,極易出現(xiàn)安全問題和經(jīng)濟(jì)損失。想要了解事件發(fā)生的全部過程,并預(yù)防危險事件的發(fā)生,靠人工快速定位某一事件發(fā)生的時間段并進(jìn)行預(yù)警是很困難的。但是,用時序人體活動狀態(tài)定位卻可以快速定位到想要查找的片段并且通過對人的狀態(tài)分析判斷此時工人行為是否異常。
文中主要貢獻(xiàn):復(fù)雜的場景應(yīng)用,在海上石油平臺場景下監(jiān)控視頻的人體活動狀態(tài)識別與定位;采用RTAG網(wǎng)絡(luò)多閾值細(xì)化動作分類邊界以滿足不同精度的要求。采用深度學(xué)習(xí)網(wǎng)絡(luò)框架提高精準(zhǔn)率。
為了快速定位某一非正常事件發(fā)生的時間段,及時了解多個海上采油平臺工人操作的情況,系統(tǒng)主要涉及到行為識別、目標(biāo)檢測、時序動作檢測這三方面的工作。
近年來行為檢測的研究取得了重大進(jìn)展。早期的方法一般是基于手工設(shè)計(jì)特征[5]。隨著對行為檢測的進(jìn)一步研究與發(fā)展,基于深度學(xué)習(xí)的行為檢測方法在檢測性能上效果顯著。卷積神經(jīng)網(wǎng)絡(luò)(CNN)[4],雙流體系結(jié)構(gòu),3D-CNN網(wǎng)絡(luò)[6]的應(yīng)用對視頻的時間特征和動作特征進(jìn)行結(jié)合,從多個維度對視頻進(jìn)行特征提取與分類[7],實(shí)現(xiàn)了很好的效果。但是,這些方法基本上是處理短視頻或者是視頻的小片段,而對于未修剪長視頻的一些方法探索,主要有分段網(wǎng)絡(luò)結(jié)構(gòu)[3]等其他一些相互結(jié)合的方法。自從深度學(xué)習(xí)被應(yīng)用在行為檢測上,已經(jīng)實(shí)現(xiàn)了無監(jiān)督[8]地從數(shù)據(jù)中學(xué)習(xí)到視頻的時空動作性特征,并且以級聯(lián)的方式實(shí)現(xiàn)端到端的訓(xùn)練。
目前,物體識別方法可以歸為兩類:一類是基于模型的或者基于上下文識別的方法,另一類是二維物體識別或者三維物體識別方法。早期,目標(biāo)檢測的主流方法[9-11]是通過自下而上的系統(tǒng)方法產(chǎn)生候選,有些是用滑動窗口的方法產(chǎn)生候選[12],然后對候選進(jìn)行分類。目前,基于深度學(xué)習(xí)方法[13]所產(chǎn)生的候選區(qū)域在候選數(shù)量較少的情況下,也會有比較好的平均召回率。深度模型還引入了捕獲對象外觀的強(qiáng)大建模能力。空間結(jié)構(gòu)建模具有很強(qiáng)的視覺特征,仍然是檢測的關(guān)鍵所在。特別的,引入ROI池[10,14],以最小的額外成本對目標(biāo)的空間立體結(jié)構(gòu)進(jìn)行建模,這一想法在R-FCN[6.14]中得到了進(jìn)一步的體現(xiàn)。
時序動作檢測發(fā)展到今天,已經(jīng)取得了不少成果。以往關(guān)于行為檢測的工作主要是使用滑動窗口[5]作為產(chǎn)生候選區(qū)的方法,并專注于設(shè)計(jì)手工構(gòu)造的特征表示及分類[15-17]。最近的工作將深度網(wǎng)絡(luò)[3]納入檢測框架,并獲得了更好的性能。但是,時序動作定位這一研究方向的性能指標(biāo)依舊很低。將數(shù)百或數(shù)千個候選分類,仍然需要監(jiān)督。由于監(jiān)督成本的原因,所有這些方法都被限制在相對較小的數(shù)據(jù)集中,不能簡單地推廣到更多的類型。初始時序動作定位是基于滑動窗口方案上,首先對視頻進(jìn)行特征提取,通過滑動窗口產(chǎn)生不同長度的候選,然后對候選進(jìn)行分類;最近的方法是基于行動區(qū)域[18],以減少搜索的復(fù)雜性。首先,從視頻中提取目標(biāo)區(qū)域,進(jìn)行特征提取,然后選擇目標(biāo)區(qū)域進(jìn)行分類[15,18]。這些方法需要對每幀圖片進(jìn)行標(biāo)注然后進(jìn)行視頻訓(xùn)練,這對于大規(guī)模的數(shù)據(jù)集來說,標(biāo)注工作是不可能及時實(shí)現(xiàn)的。因此,基于無監(jiān)督的時序動作定位是此研究方向需要急切解決的問題。由于時序動作定位和目標(biāo)檢測之間存在一定的相似性,所以很多時序動作定位方法都采用了與一些目標(biāo)檢測方法相似的框架[19]。
基于海上采油平臺的實(shí)際情況和快速定位視頻中行為片段的目的,采用圖1所示流程進(jìn)行人體活動狀態(tài)識別與定位。輸入為未處理的視頻進(jìn)入一個自下而上的深度網(wǎng)絡(luò)處理結(jié)構(gòu)[19],提取特征后產(chǎn)生時序區(qū)域候選,然后對區(qū)域候選進(jìn)行抽樣。抽取的樣本進(jìn)入CNN網(wǎng)絡(luò)訓(xùn)練成的動作性分類器,動作性分類器對區(qū)域候選與標(biāo)準(zhǔn)動作相似度進(jìn)行打分,產(chǎn)生一維的動作性得分波形。分?jǐn)?shù)波形送入RTAG網(wǎng)絡(luò),設(shè)置不同的RTAG網(wǎng)絡(luò)閾值來實(shí)現(xiàn)不同定位精度的要求。由RTAG網(wǎng)絡(luò)產(chǎn)生不同精度的候選建議(proposal),將產(chǎn)生的所有候選建議輸入動作分類器進(jìn)行動作類別和邊界的檢測,最后得出檢測結(jié)果。方法框架分為兩個階段:產(chǎn)生動作候選和候選的分類。由于影響時序動作檢測精度的主要因素是候選的質(zhì)量,所以文中技術(shù)重點(diǎn)放在生成高質(zhì)量的候選上??紤]到實(shí)際需要的是能快速定位某一行為片段,這就要求該網(wǎng)絡(luò)框架能夠有較高的檢測效率。
圖1 時序動作精確檢測流程
視頻幀經(jīng)過動作性分類器后,會產(chǎn)生一個一維的波形,這個波形便是區(qū)域候選與標(biāo)準(zhǔn)動作相似度的得分。文中的目的是根據(jù)這個相似度波形來定義視頻幀是否為此種標(biāo)準(zhǔn)的動作。
由低上升的波形是一維信號序列的動作概率p波形,由高降低的波形是動作概率的互補(bǔ)波形,定義為1-p,中間是動作性概率按閾值為0.4時,判為標(biāo)準(zhǔn)動作幀的候選區(qū)域。由此,可以看出,選擇不同的閾值和進(jìn)行不同數(shù)量的抽樣,都會影響時序的判定精度。中間每個“盆地”越低,則對應(yīng)的是一個動作性概率越高的時間區(qū)域提案。根據(jù)設(shè)置的不同閾值來產(chǎn)生候選提案。該方案首先通過閾值獲得若干動作幀,這里的片段是一個連續(xù)的片段子序列,其動作分?jǐn)?shù)超過一定的閾值。為了產(chǎn)生一個區(qū)域提案,選擇一個片段作為起點(diǎn),然后通過合并后續(xù)片段來重新擴(kuò)展動作性分?jǐn)?shù)高的區(qū)域時間。
卷積神經(jīng)網(wǎng)絡(luò)作為深度學(xué)習(xí)模型的一種,能從數(shù)據(jù)中自動學(xué)習(xí)并提取特征[20]。由于一層卷積學(xué)到的特征往往是局部的,層數(shù)越高,學(xué)到的特征就越全面,越全局化。文中采用多層卷積網(wǎng)絡(luò)訓(xùn)練模型[20],進(jìn)行特征提取,動作性得分,動作分類的分類器模型的訓(xùn)練。
池化操作的優(yōu)點(diǎn)是降低特征維數(shù),同時保留了大部分有用的特征,減小了計(jì)算量。在池化操作之后,F(xiàn)eature Map個數(shù)和上一層一樣,但是大小便為原來的1/n,計(jì)算公式如下:
其中,down表示池化函數(shù)。
CNN同一特征映射面上的神經(jīng)元權(quán)值相等,可以進(jìn)行網(wǎng)絡(luò)的并行學(xué)習(xí)。權(quán)值共享可以減少網(wǎng)絡(luò)的訓(xùn)練參數(shù),降低了網(wǎng)絡(luò)的復(fù)雜性,特別是多維輸入向量可以直接輸入網(wǎng)絡(luò),避免了特征提取和分類過程中數(shù)據(jù)重建的復(fù)雜度。CNN主要用來識別位移、縮放及其他形式扭曲不變性的二維圖形。由于CNN的特征檢測層通過訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí),所以在使用CNN時,避免了顯式的特征抽取,而隱式地從訓(xùn)練數(shù)據(jù)中進(jìn)行學(xué)習(xí);再者由于同一特征映射面上的神經(jīng)元權(quán)值相同,所以網(wǎng)絡(luò)可以并行學(xué)習(xí),這也是卷積網(wǎng)絡(luò)相對于神經(jīng)元彼此相連網(wǎng)絡(luò)的一大優(yōu)勢。卷積神經(jīng)網(wǎng)絡(luò)以其局部權(quán)值共享的特殊結(jié)構(gòu)在語音識別和圖像處理方面有著獨(dú)特的優(yōu)越性,其布局更接近于實(shí)際的生物神經(jīng)網(wǎng)絡(luò)。流的分類方式幾乎都是基于統(tǒng)計(jì)特征的,這就意味著在進(jìn)行分辨前必須提取某些特征。然而,顯式的特征提取并不容易,在一些應(yīng)用中也并非總是可靠的。卷積神經(jīng)網(wǎng)絡(luò)明顯有別于其他基于神經(jīng)網(wǎng)絡(luò)的分類器,通過結(jié)構(gòu)重組和減少權(quán)值將特征提取功能融合進(jìn)多層感知器。它可以直接處理灰度圖片,能夠直接用于處理基于圖像的分類。
候選建議的生成是文中實(shí)現(xiàn)時序行為精確檢測的第一階段,也是實(shí)現(xiàn)精確邊界定位的關(guān)鍵。未修剪視頻輸入到一個自下而上的深度CNN網(wǎng)絡(luò),這個網(wǎng)絡(luò)的任務(wù)是提取片段、評估片段動作性、生成區(qū)域候選。每個片段結(jié)合了視頻幀和由此導(dǎo)出的光流場,它不僅傳遞了特定時刻的場景外觀,而且還傳遞了當(dāng)前的運(yùn)動信息。給定一個視頻,將有規(guī)律地對產(chǎn)生的片段序列進(jìn)行間隔提取。為了得到高質(zhì)量的候選,引入動作性(actionness)[21]這一概念。
無分類片段在任意活動中屬于此行為的概率得分。因此,活動實(shí)例很可能出現(xiàn)在包含具有相對較高活動性的片段的視頻部分中,即得分高的候選。為了評估動作性,學(xué)習(xí)了一個基于時間段網(wǎng)絡(luò)的二進(jìn)制分類器。在設(shè)定的閾值之下二進(jìn)制分類器輸出為0,大于等于閾值,分類器輸出為1。為了處理長的時序動作,用整個視頻來訓(xùn)練一個雙流的CNN網(wǎng)絡(luò)。在實(shí)際應(yīng)用時,將視頻中的區(qū)域片段作為輸入。訓(xùn)練分類器時,將所有帶注釋的動作實(shí)例作為正區(qū)域樣本,隨機(jī)抽取視頻中沒有任何動作的實(shí)例作為負(fù)區(qū)域樣本。利用從視頻中提取的一系列片段,使用上面所學(xué)習(xí)的分類器來評估每個片段的行為得分。分?jǐn)?shù)的范圍是0到1,因此可以理解為片段在行動中的概率。為了產(chǎn)生時態(tài)區(qū)域候選,基本思想是將連續(xù)的片段分組,并取得高的動作分?jǐn)?shù)。由于目標(biāo)是針對海上采油平臺這一特定場景,對噪聲的魯棒性和處理長度大幅度變化的能力是兩個要求??紤]到這些目標(biāo),設(shè)計(jì)了一種穩(wěn)健的分組方案,該方案允許偶然的異常值。
動作性分類器是可以由視頻片段訓(xùn)練而成的二進(jìn)制分類器,用它來計(jì)算單個片段的動作性概率?;舅枷胧钦页鰟幼餍愿怕矢叩倪B續(xù)區(qū)域。
產(chǎn)生一系列的候選區(qū)之后,就是將它們分為特定的行動類別。如前所述,這是由一個級聯(lián)管完成的。移除屬于背景的內(nèi)容之后,采用基于TSN的活動分類器對其余的候選區(qū)域進(jìn)行分類。學(xué)習(xí)到的分類器將以固定的幀速率應(yīng)用于視頻,為每個采樣片段產(chǎn)生分類分?jǐn)?shù)。對于每個區(qū)域支持的片段分類分?jǐn)?shù),被聚合成區(qū)域級別的分?jǐn)?shù),以便將候選分類到其活動類或背景中。具體來說,活動分類器A將輸入建議分類為k+1類?;顒宇?帶有標(biāo)簽1,2,…,k)和附加的“背景”類(帶有標(biāo)簽0)。該分類器將其范圍限制在過程階段,并根據(jù)相應(yīng)的特征進(jìn)行預(yù)測。在高級特征的基礎(chǔ)上被實(shí)現(xiàn)為線性分類器。給定建議,活動分類器將通過Softmax層生成標(biāo)準(zhǔn)化響應(yīng)向量。
對人體的動作進(jìn)行分析時更多關(guān)注的是局部細(xì)節(jié)動作,但在視頻監(jiān)控中細(xì)節(jié)動作特征往往表現(xiàn)得并不明顯。通過RTAG網(wǎng)絡(luò),在此基礎(chǔ)上完成動作分類任務(wù),這種方式也具有較好的識別能力。
在本節(jié),評估了文中方法的有效性和實(shí)際應(yīng)用的可行性。首先介紹了評估數(shù)據(jù)集和該方法實(shí)施細(xì)節(jié),然后探討了各部分組件在框架中的效果。將數(shù)據(jù)集按2∶1∶1的比例分成訓(xùn)練集、驗(yàn)證集和測試集。原始數(shù)據(jù)來自于海洋采油廠的流媒體服務(wù)器。各個海洋平臺上的監(jiān)控設(shè)備保持固定不動,以海洋工作平臺作為監(jiān)控場景,并通過微波的方式將實(shí)時的監(jiān)控視頻傳輸并存儲到流媒體服務(wù)器中。
針對海洋平臺這個特殊場景,從安保工作的角度預(yù)置了包括站立、行走、跌倒三種動作,共采集1 000組動作序列作為人體動作模型庫標(biāo)準(zhǔn)。每種動作類型具體的數(shù)據(jù)分布如表1所示。
表1 不同動作類型的數(shù)據(jù)分布
以端到端方式訓(xùn)練結(jié)構(gòu)化的分段網(wǎng)絡(luò),以原始視頻幀和產(chǎn)生的候選作為輸入。用SGDR來學(xué)習(xí)CNN參數(shù)。RGB網(wǎng)絡(luò)的初始學(xué)習(xí)速率設(shè)置為0.1,光流網(wǎng)絡(luò)的初始學(xué)習(xí)速率設(shè)置為0.5。利用建立的訓(xùn)練集上訓(xùn)練的動作分類器來生成候選。分類器的識別率與圖像訓(xùn)練集數(shù)量的關(guān)系如圖2所示。
圖2 海洋平臺場景下的目標(biāo)檢測 識別率與訓(xùn)練集數(shù)據(jù)的關(guān)系
圖2顯示了分類器的識別率與訓(xùn)練集數(shù)量的變化趨勢,隨著訓(xùn)練集的不斷增加,目標(biāo)的識別率并不是呈線性增長,而是達(dá)到峰值后又呈降低的趨勢。這可能是因?yàn)獒槍ν粓鼍?,隨著訓(xùn)練集的增多,提取到的特征過于單一,如果訓(xùn)練集和測試集的特征分布不一致,則易于出現(xiàn)過擬合的現(xiàn)象。文中選取峰值處的模型定為目標(biāo)分類器,結(jié)合目標(biāo)檢測模型,得到的檢測結(jié)果如圖3所示。
圖3 海洋平臺場景下與分類器結(jié)合的目標(biāo)檢測
圖3(a)是海洋平臺攝像頭所拍攝的原始圖像,場景較為復(fù)雜,人員目標(biāo)檢測時易受柱形管道的干擾;如圖3(b)所示,誤將柱形管道識別成人員目標(biāo);圖3(c)是目標(biāo)檢測輸出的最終結(jié)果,去除了管道目標(biāo)等負(fù)樣本。
在視頻測試集中選取一段視頻,輸入到訓(xùn)練完成的模型中,得到的檢測結(jié)果如圖4所示。
圖4 模型輸入測試集的檢測結(jié)果
圖4為文中方法動作實(shí)例輸出結(jié)果,未處理的長視頻進(jìn)入網(wǎng)絡(luò)框架之后,快速定位出視頻中存在目標(biāo)的片段,并對定位的片段中人的活動狀態(tài)進(jìn)行判斷。圖4精確地檢測出人的站立狀態(tài)。根據(jù)上述實(shí)驗(yàn)結(jié)果,有以下結(jié)論:
(1)基于類無關(guān)的行為,RTAG標(biāo)記候選方法擅長于生成時間候選,并且可以很好地推廣到未見的活動。RTAG產(chǎn)生的稀疏方案有利于檢測性能;
(2)分類模塊的兩階段級聯(lián)設(shè)計(jì)對于高時間精度的動作檢測至關(guān)重要,它也是一種通用設(shè)計(jì),很好地適應(yīng)了具有不同時間結(jié)構(gòu)的活動;
(3)該方法可以直接預(yù)測未修剪視頻中的動作實(shí)例,將特征提取過程和CNN網(wǎng)絡(luò)相結(jié)合,形成一個端到端的框架,從而直接從原始視頻中訓(xùn)練出整個框架。
運(yùn)用時序動作檢測等技術(shù),實(shí)現(xiàn)了復(fù)雜場景下人體的動作識別與時序定位。將一種用于時序動作檢測任務(wù)的通用框架放置到一個具體的實(shí)際應(yīng)用場景中,細(xì)化了產(chǎn)生候選方式,簡化了后續(xù)分類網(wǎng)絡(luò)。建立在先產(chǎn)生候選后分類模式的基礎(chǔ)上,通過引入動作候選的時態(tài)分組和候選分類器的級聯(lián)設(shè)計(jì),較好地滿足了識別的活動要求。此外,證明了該方法是準(zhǔn)確和通用的,能夠精確地定位時間邊界,并且能夠很好地處理具有不同時間結(jié)構(gòu)的活動類別。對于少量誤報(bào)的情況,可以通過進(jìn)一步調(diào)節(jié)閾值來改進(jìn)。
在多種傳統(tǒng)人體動作識別算法的基礎(chǔ)上進(jìn)行有效融合,使之適用于遠(yuǎn)離陸地的海洋平臺環(huán)境,從而保證工作人員的安全以及平臺工作的順利開展。盡管該方法在目標(biāo)檢測方面取得了較好結(jié)果,但對局部細(xì)微動作的識別以及時序的定位精度還有待提高。因數(shù)據(jù)集規(guī)模有限,未能更多地考慮復(fù)雜動作等潛在問題。如何解決這些復(fù)雜動作的識別和準(zhǔn)確定位問題將是下一步的主要研究工作。