向杰 卜巍 鄔向前
摘 要:第一視角的人手分割在人機交互、虛擬現實方面具有非常重要的應用價值,但是由于圖像中人手區(qū)域占比較大,精確的人手分割仍然是一個很具有挑戰(zhàn)性的問題。本文提出一種基于深度學習的手部分割算法,利用卷積神經網絡強大的特征提取能力提取人手圖像的特征,模仿人類視覺注意力機制提出Attention模塊為特征圖中的不同區(qū)域賦予更具辨別性的權值,同時為了能有效地提取不同尺度物體的特征,設計空洞卷積DCB模塊在同一尺度大小的特征圖上提取不同尺度特征。在3個人手數據集上的實驗結果表明本文提出的算法能夠有效地分割出手部區(qū)域并超越了其它的算法,達到了最優(yōu)的分割效果。
關鍵詞: 手部分割;深度學習;注意力機制;空洞卷積
文章編號: 2095-2163(2019)03-0247-09 中圖分類號: TP391 文獻標志碼: A
0 引 言
Google Class、GoPro和Narrative Clip等可穿戴設備的日益普及,使得計算機視覺中以自我為中心的第一視角研究成為一個快速增長的領域??纱┐髟O備產生大量的數據,這使得自動分析其記錄的內容(例如,瀏覽、搜索和可視化)、描述生活記錄中的事件、識別日常生活活動等成為一種需要。在以自我為中心的第一視角視頻中,大部分的工作都涉及到理解相機佩戴者的活動和行為。在本文中,研究關注的是以自我為中心的第一視角視頻中一個非常關鍵的實體:手。在人們的日常生活中,手是無處不在的。手的姿勢和配置告訴人們計劃做什么或者人們注意到了什么。因此,手的檢測、分割和跟蹤是以自我為中心的視覺中的基本問題,在機器人、人機交互、計算機視覺、增強現實等領域有著廣泛的應用。在以自我為中心的視頻中提取手部區(qū)域是理解精細運動的關鍵一步,例如手-對象操作和手眼協調。
本文著重在現實的日常環(huán)境中解決以自我為中心的第一視角的視頻中像素級手分割的任務。大量的研究在第三視角或監(jiān)控視頻中解決了這個問題,然而,在第一視角視頻中,對這個問題的研究相對較少。本文計劃通過設計基于深度學習的語義分割算法對第一視角視頻中的手進行分割。
本次研究基于Bambach等人[1]提出的Egohands數據集,該數據集對2個有交互動作的參與者的手進行了像素級的標注。據分析所知,該數據集是唯一的聚焦于人與人之間交互動作的、第一視角的、并具有像素級標注的人手數據集,故而本文將基于該數據集來驗證所提出的語義分割算法。同樣,文中也將在GTEA[2]數據集及其最新擴展的EGTEA數據集上驗證了本文提出的算法。
本文的主要貢獻總結如下:
(1)提出了一個針對手分割的基于深度學習的語義分割算法,利用卷積神經網絡(CNN)強大的自動提取特征的能力來自動提取手部特征,從而能夠端到端地訓練語義分割網絡。
(2)模仿人類視覺機制,提出了Attention網絡模塊,增強對手分割貢獻大的特征的權重,減小貢獻小的特征的權重,使得網絡更具有特征辨別性。
(3)提出空洞卷積DCB模塊,在同一尺度的特征圖上提取不同尺度的特征,對不同大小的圖片中的目標、即手的分割更加精確。
(4)提出的針對手分割的語義分割算法在3個數據集,即Egohands、GTEA和EGTEA上取得了超越先前算法的效果,獲得了當前最優(yōu)的分割效果。
1 相關工作
目前已有一些基于以自我為中心的第一視角的手分割研究。Ren等人[3]以及Fathi等人[4]提出一種查找手部區(qū)域具有不規(guī)則光流模式的方法來分割手,研究中假設在日常生活中以自我為中心的第一視角視頻中,當人與人或其它對象交互時,背景為靜態(tài)的,具有規(guī)則的光流模式,手作為前景區(qū)域具有動態(tài)的不規(guī)則的光流模式,利用手部區(qū)域不規(guī)則的光流模式來進行手分割。Li等人[5]假設視頻中沒有人的交互動作存在,認為視頻中的所有手都屬于以自我為中心的觀看者,提出一種利用場景級特征探針為每個環(huán)境選擇最佳局部顏色特征的光照感知方法來進行手分割。然而這種假設并不能概括生活中所有的人手活動。Lee等人[6]提出一種在第一視角的視頻中檢測分割交互中的手的方法,同時也提出了一種概率圖模型,利用空間排列來消除手部類型的歧義,即區(qū)分是觀察者的手、還是交互者的手。然而,此類方法只考慮了實驗室條件下的交互動作,對于具有復雜背景情形下的交互動作卻并未納入研究范疇。
更加接近本文工作的研究是Bambach等人[1]提出的,即提出了一種基于膚色檢測的方法,該方法首先生成一組可能包含手區(qū)域的包圍框,然后使用CNN檢測識別手,最后使用GrabCut[7]方法對其進行分割,Aisha等人[8]微調當下最好的基于自然圖像的語義分割網絡RefineNet[9]用于手分割,獲得了目前最優(yōu)的結果。
除了基于第一視角的手分割外,基于第三視角的手檢測分割也已可見到相應的研究。比如,Mittal等人[10]利用可變形部件模型DPM[11]和基于膚色的啟發(fā)式先驗進行手的定位檢測。Zimmermann等人[12]基于單張RGB圖像進行手的檢測和姿勢估計。
2 算法設計研究
2.1 網絡結構
本文把手部區(qū)域分割視為一個語義分割問題,也就是像素級別的分割,是一個密集預測的問題,目標是將屬于手部區(qū)域的像素和屬于背景的像素分離開來,即判定圖片中每一個像素是屬于手部區(qū)域、還是非手部區(qū)域。
本文針對手部區(qū)域分割設計的語義分割網絡如圖1所示。該網絡由3部分組成:主干網絡(Backbone),空洞卷積模塊(Dilated Convolutional Block,DCB),空間通道壓縮擴張(Spatial Channel Squeeze-and-Excitation,SCSE)模塊。文中,將對此做出如下研究分述。
2.2 主干網絡
研究采用的主干網絡是38層的Wide ResNet[13]。Wide ResNet由7個Block組成。其中,第1個Block單元由卷積核為3×3的卷積層組成,第2~5個Block由殘差單元(Residual Unit,RU)組成,殘差單元由2個級聯的3×3卷積層構成,并按照ResNet的殘差結構添加跳躍連接(Skip Connection)來學習殘差映射。網絡的最后2個Block6、Block7由級聯的卷積核,分別為1×1、3×3、1×1的卷積層構成,目的是減少網絡參數量。Wide ResNet采用網絡加寬,即增加每一層網絡的特征通道的方式來提高網絡性能,在圖像分類上獲得了很好的性能,并且參數量也穩(wěn)定地控制在合理的范圍內。除此之外,在語義分割任務上將38層的Wide ResNet改變?yōu)槿矸eCNN也獲得了很好的結果。
2.3 DCB模塊
DCB模塊的作用是多尺度提取特征圖的語義特征。深度神經網絡學習通過組合低層特征形成更加抽象的高層特征表示全局屬性或目標類別,以發(fā)現數據的分布式特征表示。網絡低層學習到的一般是物體的角點、邊緣、局部輪廓等特征,網絡高層學習到的一般是物體的抽象的表示,因此,結合網絡低層特征和高層特征或者在同一特征圖尺度上獲取不同尺度的特征對于提高網絡對不同大小的圖片中的目標、即手的的分割更加精確。
研究提出針對語義分割的空洞卷積模塊(Dilated Convolutional Block,DCB),一個在同一尺度的特征圖上提取不同尺度特征的多分支卷積模塊。DCB的內部結構可分為2個組件:多分支卷積層以及隨后的空洞卷積層。其中,多分支卷積層由5個子分支組成,分別是Global Pooling分支、1×1卷積分支,1×3和3×1分支、1×5和5×1卷積分支、1×7和7×1卷積分支,除Global Pooling分支外,其余4個分支其后都級聯一個不同比率的空洞卷積層,本文選擇的空洞卷積層的比率分別是1、12、24、36。DCB模塊能夠有效地提高特征提取的效率,針對同一尺度的特征圖,不同大小的卷積核可以多尺度地提取物體特征,空洞卷積可以有效增大卷積核感受野,這對于語義分割任務十分重要。
2.4 SCSE模塊
研究提出的SCSE模塊,又可以稱為空間通道Attention模塊,如圖2所示??臻g通道壓縮擴張模塊由空間Attention子模塊和通道Attention子模塊構成,分別對應圖2中的2個分支。對于空間Attention模塊,使用卷積核大小為1×1,步長為1的卷積層與輸入的大小為H×W×C的特征圖進行卷積操作,輸出大小為H×W×1的特征圖,將特征圖通道方向壓縮為一維,再將輸出的特征圖經過Sigmoid層使得特征圖的激活值范圍為[0,1],最后將輸出的特征圖與原輸入特征圖做點乘得到大小為H×W×C的特征圖,空間Attention為特征圖中空間位置的不同點重新賦予了不同的權重值,使得目標相關的空間位置點得到更大的權值,減小不相關的空間位置點的權重。對于通道Attention模塊,將輸入的大小為H×W×C的輸入特征圖首先通過全局池化(Global Pooling)層獲得大小為1×1×C的特征圖,將特征圖的空間方向、即長度方向和寬度方向壓縮為一維,接著通過第一層全連接(FC)層將特征圖變?yōu)?×1×(C/r)大小,其中r為縮放參數,本文選擇的參數r值為8,然后通過第二層FC層將特征圖恢復到1×1×C大小,并經過Sigmoid層使得特征圖的激活值范圍為[0,1],最后將輸出的特征圖與原輸入特征圖做點乘得到大小為H×W×C的特征圖,通道Attention通過參數來為每個特征通道生成權重,其中參數被學習用來顯式地建模特征通道間的相關性,將經過Sigmoid層輸出的權重與原輸入特征圖相乘可以看作是對特征圖不同通道的重新賦權,使得目標相關的通道權重得以提升,不相關的通道權重得以抑制。
根據空間Attention子模塊和通道Attention子模塊的不同組合方式,本文還提出了2種形式的SCSE模塊,依次命名為通道優(yōu)先空間通道壓縮擴張(Channel first Spatial Channel Squeeze-and-Excitation,CSCSE)模塊和空間優(yōu)先空間通道壓縮擴張(Spatial first Spatial Channel Squeeze-and-Excitation,SSCSE)模塊,分別如圖3和圖4所示。
3 網絡訓練和測試
本次研究的任務是訓練一個CNN語義分割模型,該模型可以自動地在一張人手圖片中分割出人手區(qū)域的mask圖像。
相比于圖像識別只需要圖像級別的類別標簽即可,語義分割任務則需要精細的像素級標注的mask圖像作為標簽,而標記圖像的mask標簽,往往耗時耗力,因此,在語義分割任務中,有標簽的標注好的圖像數量很少。為了能夠較好地訓練語義分割網絡,數據增強操作必不可少,并且一般采用在ImageNet[14]圖像識別數據集上預訓練的模型參數作為主干網絡的初始化參數。ImageNet是一個大規(guī)模的圖像分類數據庫,包含著數目可觀的帶有圖像類別標簽的自然圖像,深度學習圖像分類網絡往往在ImageNet上訓練測試,因為ImageNet數據庫數據采集自自然環(huán)境,圖像覆蓋面廣且類別寬泛,能夠有效地驗證分類模型是否性能良好。目前,各個常見的深度神經網絡模型都有基于ImageNet預訓練的模型。
圖像分類網絡最后的網絡層一般是用于分類的全連接FC層,全連接層的權重矩陣是固定的,即每一層特征圖(feature map)的輸入必須是固定大?。磁c權重矩陣正好可以相乘的大小),所以網絡最開始的輸入圖片尺寸必須固定,才能保證傳送到全連接層的特征圖的大小與全連接層的權重矩陣相匹配。全連接層可以看作是卷積核完全覆蓋特征圖的特殊的卷積層。目前的語義分割網絡都是基于全卷積神經網絡FCN,即網絡中不存在全連接層,FCN可以接受不同大小的圖片作為輸入。
研究將在ImageNet上預訓練的用于圖像分類的Wide ResNet作為語義分割網絡的主干網絡,首先需要將其轉換為全卷積神經網絡:將全局池化層(Global Pooling)和最后一層用于分類的全連接層去掉。語義分割的目的是要密集預測圖片中每一個像素點所屬類別,為了盡可能多地捕獲特征圖中的低層局部信息和高層語義信息,本文將圖像的下采樣次數設定為3次,即經過主干網絡輸出的特征圖大小是原輸入圖片的1/8大小。同時,為了使卷積核能夠有效獲取更大范圍特征,本文采用空洞卷積的方法來擴大卷積核的感受野,其中,主干網絡第5、第6、第7個Block分別使用比率為2、4、8的空洞卷積來擴大卷積核的感受野。
在測試階段,給定一個未知測試圖片,經過訓練好的語義分割網絡,分割出圖片中的人手區(qū)域mask。
4 實驗
研究擬在3個數據集,諸如EgoHands數據集、Georgia Tech Egocentric Activity(GTEA)數據集和Extended Georgia Tech Egocentric Activity(EGTEA)數據集上分別進行語義分割網絡的訓練、驗證和測試。
本節(jié)首先介紹使用的3個數據集,并詳細解讀了數據集的構成和訓練、驗證、測試數據集的劃分,接著探究了本文使用的評測標準,最后則剖析論述了各個數據集的訓練過程和測試結果。對此可做闡釋分述如下。
4.1 數據集介紹
(1)EgoHands數據集。EgoHands數據集是一個收錄人與人之間交互動作的數據集,包含48個使用Google Class記錄的視頻片斷,每一個視頻片段記錄2個演示者玩拼圖(puzzle)、拼卡片(cards)、玩層疊游戲(jenga)或者下國際象棋(chess)的手部交互動作,這些視頻數據是在辦公室、庭院和臥室三種不同的環(huán)境下拍攝。數據集里面匯集了超過15 000個人手實例,每一個視頻包含100張手工精細標注的人手區(qū)域mask圖片,一共有4 800張標注的人手mask圖片。發(fā)布該數據集的作者按照75%、8%、17%的比例將4 800張圖片劃分為訓練集、驗證集和測試集。本文也遵循這一劃分比例。
(2)GTEA數據集。GTEA數據集采集了記錄日常生活中的7種活動的視頻,視頻采集在同一環(huán)境條件下進行,沒有記錄人與人之間的交互動作,在靜態(tài)光照條件下采集數據集。分割數據集涉及到人體的手及手臂區(qū)域,一共包含663張人工精細標注的圖片數據。本文根據數據集作者的數據集進行劃分,將數據集中的367張圖片作為訓練集、92張圖片作為驗證集、204張圖片作為測試集。
(3)EGTEA數據集。EGTEA數據集是GTEA數據集的最新擴增版本,包含28 h的烹飪視頻片段,數據集還提供了相關視頻片段的音頻、人體動作標注和跟蹤信息用于其它視覺任務。數據集精細標注了13 847張人手的mask圖片,共包含15 176個人手實例。由于數據集作者未能提供關于人手分割圖片數據集的訓練、驗證、測試數據劃分。本文按照約7:1:2的比例劃分帶標簽的手部圖像數據集為訓練集、驗證集和測試集,其中,訓練集為7 906張圖片,驗證集為1 844張圖片,測試集為4 097張圖片。
4.2 評測標準
語義分割中通常使用許多標準來衡量算法的性能。為了便于解釋,假設如下共有k+1個類別(從L0到Lk其中包含一個背景類),pii表示本屬于i類且預測為i類的像素數量,即真正預測正確的像素數量;pij表示本屬于i類但被預測為j類的像素數量,即假正;pji表示本屬于j類但被預測為i類的像素數量,即假負。二分類分割常用的評測標準可綜合表述如下。
(1)平均交并比(mean Intersection over Union, mIOU):語義分割的標準度量。計算2個集合的交集和并集之比,這2個集合為真實值(ground truth,標簽值)和預測值(predicted segmentation)。在每個類上計算IOU,再取平均值。研究推得數學定義公式如下:
(2)平均召回率(mean Recall,mRec):預測像素為i類且原像素屬于i類的像素數量與所有原像素為i類的像素數量的比值,其中,原像素為i類的像素包括預測為i類且原像素屬于i類和本屬于i類但被預測為j類的像素。研究推得數學定義公式如下:
(3)平均精確率(mean Precision,mPrec):預測像素為i類且原像素為i類的像素數量與所有預測為i類的像素數量的比值,其中,原像素為i類的像素包括預測為i類且原像素屬于i類和本屬于j類但被預測為i類的像素。研究推得數學定義公式如下:
(4)像素精度(Pixel Accuracy, PA):標記正確的像素占總像素的比例。研究推得數學定義公式如下:
在二分類分割問題中,上述4種評測標準都能有效地評測算法的性能。本文的手分割是一個二分類分割任務,因此,研究即將以上述4種評測標準用于算法性能的研究考證。
4.3 實驗與結果分析
針對前文探討論述的4個數據集,本節(jié)將分別給出其實驗結果及結果分析,詳情參見如下。
(1) EgoHands數據集。研究中根據EgoHands數據集作者的數據劃分來訓練驗證模型,并在測試集上測試模型。為了驗證設計的3種Attention結構,本節(jié)分別訓練不包含Attention(noAttention)結構和包含3種不同Attention(CSCSE、SSCSE、SCSE)結構的模型,并分別測試其模型效果,給出各評測指標的定量評測結果。同時,與前人在EgoHands數據集上的分割結果在各個評測指標上進行了對比,最終對比結果見表1。
從表1可以看出,分割模型中有Attention結構比沒有Attention結構好,其中,具有SCSE結構的Attention模塊在各個評測指標上都獲得了最好的性能。因此,在下文的其它數據集的實驗中,模型都使用具有SCSE結構的Attention模塊。部分EgoHands數據集測試集可視化結果如圖5所示。
(2) GTEA數據集。研究中按照數據集作者的數據集劃分方式劃分訓練集、驗證集和測試集合,在訓練集上訓練模型,而每訓練達到一個epoch后則在驗證集上驗證模型,最后,用最終訓練完成的模型在測試集上測試模型。與Aisha等人在GTEA數據集上的算法性能進行比較,實驗結果見表2。
從表2可以看出,本文提出的分割算法在各個性能的對照上都較Aisha等人的算法好,部分GTEA數據集測試集可視化結果如圖6所示。
(3)EGTEA數據集??紤]到該數據集是GTEA數據集的最新擴增版本,而做此研究時仍尚未有基于該數據集的研究結果可供對比,因此研究中按照上文所述EGTEA數據集的數據劃分方法劃分訓練集、驗證集和測試集,并列出本文算法在該數據集上各個評測指標的結果,具體見表3。
從表3可以看出,本文提出的分割算法在各個評測指標上都獲得了較好的結果。部分EGTEA數據集測試集可視化結果如圖7所示。
5 結束語
本文將對以自我為中心的第一視角視頻中的手分割視為一個語義分割任務,設計了一個基于深度學習的針對手分割的語義分割網絡。在該網絡中,研究提出DCB模塊,該模塊能夠在相當程度上提升特征提取的效率,針對同一尺度的特征圖,不同大小的卷積核可以多尺度地提取物體特征,同時空洞卷積可以有效增大卷積核感受野,能夠較為成功地提取到圖像中不同大小的目標、即手的特征。另外,研究模仿人類視覺注意力機制提出Attention模塊,在特征圖空間和通道方向上分別計算各激活值的概率分布,并與原特征圖相乘,為特征圖的激活值重新賦權,使得目標相關的特征權重得以提升,不相關的特征權重得以抑制。進一步地,研究還在EgoHands、GTEA和EGTEA這3個相關數據集上分別進行訓練測試,獲得了當前最優(yōu)的結果,從各個數據集的測試集結果可以看出,本文提出的語義分割算法可以很好地實現手分割。
參考文獻
[1] BAMBACH S, LEE S, CRANDALL D J, et al. Lending a hand: Detecting hands and recognizing activities in complex egocentric interactions[C]// IEEE International Conference on Computer Vision. Santiago, Chile:IEEE, 2015:1949-1957.
[2] LI Yin, YE Zhefan, REHG J M, et al. Delving into egocentric actions[C]// IEEE International Conference on Computer Vision and Pattern Recognition. Portland,? OR, USA:IEEE,2015: 287-295.
[3] REN Xiaofeng, MALIK J. Tracking as repeated figure/ground segmentation[C]// IEEE Conference on Computer Vision and Pattern Recognition, 2007. CVPR '07. Minneapolis, Minnesota, USA:IEEE, 2007:1-8.
[4] FATHI A, REN Xiaofeng, REHG J M. Learning to recognize objects in egocentric activities[C]// IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI:IEEE Computer Society, 2011:3281-3288.
[5] LI Cheng, KITANI K M. Pixel-level hand detection in egocentric videos[C]//2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, Oregon, USA: IEEE, 2013:3570-3577.
[6] LEE S, BAMBACH S, CRANDALL D J, et al. This hand is my hand: A probabilistic approach to hand disambiguation in egocentric video[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Columbus, OH, USA:IEEE, 2014:557-564.
[7] TANG M, GORELICK L, VEKSLER O, et al. GrabCut in one cut[C]// IEEE International Conference on Computer Vision. Washington, DC, USA:IEEE, 2013:1769-1776.
[8] AISHA U, BORJI A. Analysis of hand segmentation in the wild[C]// Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2018). Salt Lake City, UT:IEEE, 2018:1-10.
[9] LIN Guosheng,MILAN A, SHEN Chunhua, et al. Refinenet: Multi-path refinement networks with identity mappings for high-resolution semantic segmentation[J]. arXiv preprint arXiv:1611.06612, 2016.
[10]MITTAL A, ZISSERMAN A, TORR P. Hand detection using multiple proposals[C]// British Machine Vision Conference.Dundee:University of Dundee, 2011:75.1-75.11.
[11]FELZENSZWALB P F, GIRSHICK R B, MCALLESTER D, et al. Object detection with discriminatively trained part-based models[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 32(9):1627-1645.
[12]ZIMMERMANN C, BROX T. Learning to estimate 3D hand pose from single RGB images[J]. arXiv preprint arXiv:1705.01389v3,2017.
[13]WU Zifeng, SHEN Chunhua, HENGEL A V D. Wider or deeper: Revisiting the ResNet model for visual recognition[J]. arXiv preprint arXiv:1611.10080,2016.
[14]RUSSAKOVSKY O, DENG Jia, SU Hao, et al. ImageNet large scale visual recognition challenge[J]. International Journal of Computer Vision, 2015, 115(3):211-252.