• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      人物交互檢測研究進展綜述

      2022-08-25 03:03:34張志瑩吳昆倫
      西南交通大學學報 2022年4期
      關鍵詞:實例物體人體

      龔 勛 ,張志瑩 ,劉 璐 ,馬 冰 ,吳昆倫

      (1.西南交通大學計算機與人工智能學院,四川 成都 611756;2.西南交通大學唐山研究生院,河北 唐山063000)

      作為視覺理解的子任務,人物交互(humanobject interaction,HOI)檢測往往需要對模糊、復雜且難以識別的行為進行分析判斷.同樣是利用對象間潛在的關系來提升分類效果,視覺關系檢測(visual relationship detection,VRD)使用 < 物體 A,謂語,物體 B > 定義關系表達式,會涉及人-人、人-物、物-物等多種目標對象的動作關系組合.而HOI檢測將交互行為限定在人和物之間,謂語也主要集中于動詞范疇,對于行為識別的發(fā)展有顯著的借鑒價值.

      HOI檢測旨在利用人體、物體以及人-物對的特征將人與物體之間的交互進行關聯(lián),從而實現(xiàn)對圖像或視頻中動作的定位及分類.同時,HOI檢測可以與計算機視覺的其他工作協(xié)作以完成復雜任務,如目標檢測、動作檢索[1]、字幕生成[2-3]等,具有廣闊的應用前景.

      HOI檢測主要通過全局檢測模型將空間、外觀與人體姿態(tài)在內(nèi)的感知信息進行整合,生成場景中人物對的關系[4-6].近年卷積神經(jīng)網(wǎng)絡與注意力機制的出現(xiàn)也推動了基于局部身體部位的HOI檢測方法的發(fā)展.此外,研究人員還從語義規(guī)律、視覺相關性和上下文信息等角度對于圖像理解展開了更為深入的研究.

      人物交互檢測首先通過目標檢測模塊提取圖像中人與物體的候選區(qū)域作為實例對象,然后通過交互識別模塊輸出人物關系的三元組表示 <h,i,o>,其中h代表“人”,i代表“交互”,o代表“物體”.圖1以“人騎自行車”為例,先由目標檢測得到“人”(h)與“自行車”(o)兩個實例,然后交互識別模型判別出圖像中的人屬于“騎”(i)的狀態(tài),最后將人、物以及交互行為三者組合,輸出關系三元組.

      圖1 人物交互關系檢測流程Fig.1 Flowchart of HOI detection

      HOI檢測的數(shù)據(jù)對象包括圖像和視頻兩類,視頻中的人物交互檢測涉及時序信息融合以及多目標動態(tài)分析,關系建模難度大,相關研究成果較少.本文主要對基于圖像的人物交互檢測研究成果進行綜述,統(tǒng)計了從2009年至今計算機視覺主要國際期刊及會議的文章.

      本文第1章詳細介紹了人物交互重要數(shù)據(jù)集及其評價指標;第2章將人物交互檢測算法分為基于全局實例和基于局部實例的方法,并依次介紹;第3章探討了零樣本學習、弱監(jiān)督學習和Transformer模型在人物交互檢測領域的應用;第4章分析了人物交互檢測當前所面臨的主要挑戰(zhàn),并指出未來值得探索的研究方向.

      1 數(shù)據(jù)集分類與評價指標

      目前,人物交互公開數(shù)據(jù)集的不斷涌現(xiàn)反映了HOI領域朝著規(guī)模更大、場景更復雜、動作類型更多的方向發(fā)展.本章將HOI關系檢測涉及的主流數(shù)據(jù)集分為傳統(tǒng)的語義描述數(shù)據(jù)集和基于目標檢測的實例數(shù)據(jù)集兩類.

      1.1 傳統(tǒng)數(shù)據(jù)集

      Sports event[7]是2007年提出的小型運動數(shù)據(jù)集,它包含了從互聯(lián)網(wǎng)上收集的8種體育賽事類別.由于早期的人物交互檢測研究缺乏數(shù)據(jù)支持,該數(shù)據(jù)集的發(fā)布使得人物交互檢測領域得到了更多學者的關注.

      TUHOI[8]是一個通用的人物交互數(shù)據(jù)集,其中的圖像來自ILSVRC 2013檢測數(shù)據(jù)集.該數(shù)據(jù)集是根據(jù)英語單詞的含義來進行類別劃分,然而動詞的語法時態(tài)以及一詞多義現(xiàn)象會帶來映射偏差,導致驗證時難以區(qū)分語言理解錯誤和HOI檢測錯誤.

      HICO[9]是由密西根大學安娜堡分校在2015年ICCV (IEEE International Conference on Computer Vision)上提出的基準數(shù)據(jù)集,收錄了來自80個對象的117種常見行為.在真實場景中人可能與多個物體同時產(chǎn)生交互行為,因此,該數(shù)據(jù)集以物體為中心,對交互類的標簽注釋進行了大幅度擴展.

      一些用于動作識別的數(shù)據(jù)集也被用于HOI檢測分析,包括早期的 Sports event、The sports[5]以及MPII[10]人體姿勢數(shù)據(jù)集.其中,Sports event和 The sports數(shù)據(jù)集使用大量的語義級標簽描述場景和對象;MPII作為2D人體姿態(tài)估計的基準數(shù)據(jù)集,提供了3D軀干和頭部方向標簽、關節(jié)點標簽和身體部位的遮擋標簽以及行為標簽.

      1.2 實例數(shù)據(jù)集

      傳統(tǒng)的語義描述數(shù)據(jù)集缺少對粗粒度行為的分解,所以對于人物交互關系的準確評估較為困難.VCOCO[11]針對每一類別的單個目標進行了實例分割并為每張圖像提供了5種文字描述,實例框使人物交互模型能更好地估計目標對象的區(qū)域位置,實現(xiàn)對視覺場景語義的深入理解.

      HICO-DET[12]使用無向邊作為交互類標簽,將人與物體的實例框相連接,提供了15萬個帶注釋的人-物實例,每個實例框由介于人和對象邊界框之間的類標簽表示,該數(shù)據(jù)集與V-COCO是人物交互檢測領域中公認的兩大基準數(shù)據(jù)集.

      HAKE[13]是人物交互領域最新發(fā)布的數(shù)據(jù)集.它使用了大量的人體局部(part state,PaSta)狀態(tài)標簽來推斷人的身體部位狀態(tài),成為第一個帶有細粒度注釋的大規(guī)模實例數(shù)據(jù)集,涵蓋了247 000個人體實例、220 000個物體實例和7 000 000個局部動作標簽.

      HOI-A[14]來自真實場景,涵蓋了不同外觀類型、低分辨率以及具有嚴重遮擋的圖像,識別難度較大;HCVRD[15]是目前規(guī)模最大的以人為中心的HOI數(shù)據(jù)集,圖像數(shù)量較多且交互動作多.

      表1對現(xiàn)有HOI數(shù)據(jù)集進行了對比分析.總體上,現(xiàn)有的HOI數(shù)據(jù)集涉及體育運動[7,10]、室外場景[11,14]、室內(nèi)場景[16]以及不同交互方式[7,13,17],在一定程度上解決了訓練數(shù)據(jù)不足和標注不完整的問題,但仍然存在以下不足:

      1) 交互類型單一:動作類數(shù)據(jù)集往往包括個體行為、交互行為以及群體行為等多種動作類型,而HOI檢測數(shù)據(jù)集需要篩選出人與物體同時存在且有交互的圖像,采集難度更大,因此,目前主流數(shù)據(jù)集中的交互關系類別不夠豐富.

      2) 動詞標注歧義性:對于圖像中的不同對象,標注出來的動詞在語義層面和視覺特征的表達上存在一定偏差,給交互檢測帶來阻礙,動詞的一詞多義現(xiàn)象已經(jīng)成為HOI檢測的一個難題.

      3) 人物標簽欠細化:鑒于人的性別和年齡會對人物的交互方式產(chǎn)生一定的影響,細粒度的人物(成人/孩童、男人/女人)標注有利于HOI檢測技術的進步,圖像中的人物信息需要得到更加詳細的標注.

      1.3 評價指標

      早期的人物交互檢測主要使用準確率(Acc)進行評估:

      式中:nTP、nTN、nFP及nFN分別為檢測正確的正樣例、檢測正確的負樣例、檢測錯誤的正樣例以及檢測錯誤的負樣例.

      但當樣本數(shù)據(jù)分布不均勻時,使用準確率評價易產(chǎn)生偏差(bias),不能客觀描述錯誤類型.

      當前HOI檢測領域主要使用平均精確率(AP)與平均準確度(mAP)兩種性能評估標準.AP基于精確率(P)和召回率(r)進行定義:

      式中:N為測試集中圖片總數(shù);P(k)為能識別出k張圖片的精確率; Δr(k) 為從k- 1變化到k時精確率的變化情況.

      而P為分類正確的正樣本個數(shù)與分類后判別為正樣本個數(shù)的比值,r為分類正確的正樣本數(shù)與實際正樣本數(shù)的比值.綜上,AP作為P與r乘積的累加值,其值越大,表示檢測效果越好.

      mAP由所有類別的平均精確率計算而得,作為衡量分類器對所有類別檢測效果的評價因素,mAP成為人物交互檢測的主流指標.定義如下:

      式中:P1(R)為歸一化的識別精確率.

      2 人物交互檢測方法分類

      不同的HOI檢測方法區(qū)別主要體現(xiàn)在交互識別階段對實例對象采用的策略不同,下文將從基于全局實例和基于局部實例兩個角度進行分類總結.

      2.1 基于全局實例的方法

      基于全局實例的人物交互建模強調(diào)人體、物體以及背景的整體性.為了充分利用圖像中的線索,基于全局實例的方法有3種實現(xiàn)方式,分別是融合空間位置信息、融合外觀信息以及融合人體姿勢信息.

      2.1.1 融合空間位置信息

      目標檢測器定位到人和物體實例后,空間布局能夠為HOI檢測提供重要的先驗信息.如圖2所示,由于交互類型的不同,人和物體在圖中的空間位置分布有很大差異,合理利用空間關系有助于交互識別的判斷,并在預測時排除可能性較小的分類.

      圖2 人物交互的相對空間關系Fig.2 Relative spatial relationship in HOI

      Chao等[12]提出三分支網(wǎng)絡HO-RCNN,用于提取人物空間關系的特征,如圖3所示.該網(wǎng)絡包含人體流、物體流以及人物對流3部分.首先,根據(jù)人體和物體框?qū)υ继卣鬟M行裁剪;然后,歸一化成相同大小的特征輸入到各自的卷積網(wǎng)絡中,生成對應的交互類別概率;最終,通過全連接層將視覺和空間特征融合,輸出動作類別的預測得分.人體流和物體流的作用是對Fast-RCNN[18]檢測的目標區(qū)域進一步提取特征,人物對流使得模型在不同類型背景下也能發(fā)現(xiàn)HOI類中動詞與物體的潛在規(guī)律.

      圖3 基于人-物區(qū)域位置信息的HO-RCNN網(wǎng)絡Fig.3 HO-RCNN networks based on human-object regional information

      為了實現(xiàn)端到端的HOI檢測訓練,Gao等[19]提出了以人體為中心的注意力模塊(instance-centric attention network,iCAN)來強調(diào)圖中與交互相關的重要區(qū)域,即上下文信息.該模塊的主要思想是應用ROI (region of interest)池與殘差塊進行全局平均池化,通過降低模型的參數(shù)量來降低過擬合效應.并使用softmax函數(shù)對融合的實例級外觀特征和卷積特征進行映射,得到能夠突顯高層特征的注意力圖.iCAN不僅可以與其他網(wǎng)絡聯(lián)合訓練提高模型性能,而且能根據(jù)不同的對象實例自動調(diào)整關注區(qū)域.與基于手工設計的外觀特征相比,該方法在V-COCO和HICO-DET數(shù)據(jù)集上檢測精確率分別提高了10.00%和49.00%.

      Wang等[20]改進了iCAN模塊,在“人體流”和“物體流”中嵌入上下文感知外觀和注意力模塊,以提取全局圖像中的外觀和上下文信息.上下文感知外觀模塊通過上下文聚合[21]和本地編碼塊捕獲人和物體實例附近的區(qū)域信息.同時,作者借鑒了動作識別[22]中的方式,引入上下文注意力模塊以增強鑒別性強的特征,在一定程度上減少了背景噪聲干擾.

      Bansal等[23]為了強化人和物體間相對空間位置的作用,提出了空間引發(fā)模型(spatial priming model)結構,如圖4所示,該模型包含視覺模塊V和布局模塊L兩部分,它們在多個階段共享視覺上下文.首先,堆疊和裁剪人和物體的邊界框(bh和bo),輸入到L和V中.然后,在L中利用不同卷積層C1 ~C8提取人的布局特征(f1),與物體的語義表示(wo)相連接,通過兩個全連接層輸出人和物體的聯(lián)合框信息(p1)和加權損失(J1).V 通過殘差塊 Res1 ~Res4 與全局池化層 (global average pooled,GAP)提取物體的全局特征(f2),并結合來自目標檢測的人和物體特征(fh和fo)與L的預測結果,聯(lián)合輸出謂詞的最終概率(p2)和L與V的損失總和(J2).目前在融合空間位置信息的方法中,該方法效果最好,在HICO-DET與V-COCO上mAP分別達到了24.79%與49.20%.

      圖4 空間引發(fā)模型框架Fig.4 Framework of spatial priming model

      2.1.2 融合外觀信息

      在交互模式中,人與物體的外觀信息作為主要的視覺表現(xiàn),能夠?qū)嵗龑ο蟮耐獠枯喞M行描述.在HO-RCNN的基礎上,Gkioxari等[24]提出了一種三分支網(wǎng)絡InteractNet,采用外觀特征提取人-物互關系.第一個分支采用Faster-RCNN網(wǎng)絡[25]進行人與物體檢測;第二個分支對每一種動作類型中檢測目標的相對位置進行密度估計;第三個分支將第二個分支中得到的特征與目標物體特征結合,得到兩者之間的動作類別,最后將三分支的得分進行融合輸出分類結果,該方法在V-COCO上可以達到135幀/ms的運行速度.

      三分支網(wǎng)絡模型(如InteractNet和HO-RCNN)復雜且訓練時間長,給HOI檢測的性能提升帶來了挑戰(zhàn).Gupta等[26]提出一種兩階段外觀編碼方法:第一階段為圖像中每個人和物體創(chuàng)建一組候選框,然后將人候選框與物體候選框配對形成人-物候選框?qū)?第二階段使用分解模型對候選框?qū)M行評分,通過不同交互類別之間利用參數(shù)傳遞評分結果,能夠有效減少人物交互檢測的誤檢.但該網(wǎng)絡將區(qū)域候選框生成和交互檢測分離開來,導致實時性較差,而且人-物候選框?qū)Φ呐鋵头纸膺M一步增加了計算復雜度.

      針對以上問題,Liao等[14]提出了單階段的并行點檢測與匹配模型(parallel point detection and matching,PPDM),點檢測分支負責估計人體點、交互點和物體點的位置,點匹配分支將源于同一交互點的人體點和物體點視為匹配對,僅篩選出少量的候選交互點,節(jié)省了計算成本.同時,該文獻還使用了深層聚合(deep layer aggregation,DLA)[27-28]與Hourglass[29-30]兩種關鍵點熱圖預測網(wǎng)絡來擴大交互點和位移預測值的感受野,提取語義層次更高的特征.如圖5所示,兩種網(wǎng)絡在HICO-DET上最好的達到37.03幀/s的檢測速度與21.73%的平均識別準確度,PPDM方法在一定程度上解決了模型規(guī)模大、檢測速度慢的問題.

      圖5 PPDM與同類方法在HICO-DET上的推理時間、平均準確度以及速度Fig.5 Inference time, mAP, speed between PPDM and similar methods on HICO-DET dataset

      2.1.3 融合人體姿勢信息

      一方面,融合空間特征的方法因缺乏人體形態(tài)的精確特征,性能無法得到進一步提升,人體姿勢能將人體與相互作用的物體聯(lián)系起來;另一方面手工特征方法[26]利用先驗知識來幫助交互檢測與識別任務,但這種方法獲得的姿態(tài)表征能力較弱,因此,近年來一些工作將姿態(tài)估計與視覺特征進行融合.

      在HO-RCNN基礎上,Li等[31]利用姿態(tài)估計網(wǎng)絡[32-33]與人體骨架分支提取人體姿勢特征.骨架分支與“人物對流”組成的網(wǎng)絡進行了互動性判別,使得模型能夠?qū)W習互動性知識,從而帶來更有效的監(jiān)督約束,該方法能解決罕見類別由于信息稀缺而導致的訓練困難.

      姿態(tài)感知網(wǎng)絡PMFNet[34]不是以成對的方式提取交互關系,而是利用身體部位與物體之間的空間位置作為注意力,動態(tài)放大了人體部位的相關區(qū)域.該方法使用姿勢估計網(wǎng)絡[35]將空間特征、外觀特征和姿態(tài)信息共同輸入到整體模塊(holistic module)和放大模塊(zoom-in module)中,然后從人體姿態(tài)中提取人體部位外觀特征、人體部位空間特征以及增強相關人體部位對各個交互作用的注意力特征,最終通過融合模塊結合整體和局部特征進行關系分類.

      除了對人體姿態(tài)與物體的相對空間位置信息建模,Liang等[36]對人體邊界框的中心歸一化,構造絕對空間姿態(tài)特征,并提出基于姿態(tài)的模塊化網(wǎng)絡(pose-based modular network,PMN).該模塊由兩個分支組成,一個分支獨立處理各關節(jié)的相對姿態(tài)特征,另一個分支使用圖卷積更新各關節(jié)的絕對姿態(tài)特征,然后利用視覺語義圖注意力網(wǎng)絡(visualsemantic graph attention networks,VS-GATs)[17]融合相對空間姿勢特征和絕對空間姿勢特征,這能有效減少擁擠場景中的錯誤識別.

      為了探索細粒度的人體姿勢信息對人物交互檢測的影響,Liang等[37]提出了視覺、語義和姿態(tài)融合網(wǎng)絡VSP-GMN,利用圖神經(jīng)網(wǎng)絡將一系列的語境線索進行組合,減少場景理解與內(nèi)在語義規(guī)律之間的歧義.如圖6所示,作者重新定義了相對空間姿態(tài)特征,把人體各個關節(jié)與物體邊界框中心相連的整體作為相對空間姿態(tài)征.隨后,將相對、絕對空間姿態(tài)特征姿態(tài)和視覺特征分別輸入到 PMN 和 VS-GAT模塊中,兩個分支的動作得分因子相加,實現(xiàn)人、物體之間的三元組關系預測.

      圖6 融合視覺語義姿態(tài)特征的VSP-GMN網(wǎng)絡Fig.6 VSP-GMN network integrating visual, semantic and pose features

      目前,人物交互檢測中基于全局實例的方法都體現(xiàn)了圖像整體的視覺描述,不同的是,基于空間位置信息的方法偏向于快速定位與特定動作相關聯(lián)的對象;基于外觀特征的方法常利用人或物體的外觀為條件,縮小目標對象的搜索空間;基于人體姿態(tài)信息的方法強調(diào)靠近交互區(qū)域的人體部位在檢測時不同的重要程度.

      2.2 基于局部實例的方法

      與基于全局實例的方法不同,基于局部實例的方法重點從目標主體的骨骼、姿勢、部位等局部特征出發(fā)分析人與物體的內(nèi)在聯(lián)系.局部實例方法需要解決如下兩方面問題:

      1) 如何將姿態(tài)各異的身體部位與物體的交互進行整合?

      2) 身體部位配對增加了計算負荷,如何提高模型效率?

      如圖7所示,人體部位特征相比整體視覺特征更細致,數(shù)量更多也更難獲得.Fang等[38]就關鍵部位與HOI識別的相關性進行了探索,使用姿勢估計網(wǎng)絡[39]提取了人體骨骼點,然后根據(jù)關鍵點將人體劃分為11個部位,每個部位設置一個與待檢測的人體軀干大小成比例的邊界框,該方法通過將人體的各個部位配對輸入注意力模型,學習得到相關性最大的部位作為整體結果.該方法靈活地利用了不同部位特征間的關聯(lián)關系,在HICO數(shù)據(jù)集上相比于以人為中心的方法[40]mAP提升了10%.

      圖7 整體人體姿態(tài)與局部特征的對比Fig.7 Comparison of overall human posture and local features

      基于局部特征的注意力模塊會產(chǎn)生多個部位間的配對關系,計算開銷較大.針對這一問題,基于GCN的方法是目前最好的解決方式.Zhou等[41]提出關系解析神經(jīng)網(wǎng)絡模型RPNN,使用Detectron[42]和Mask R-CNN[43]分別檢測人體、物體框以及人體骨骼點信息,利用人體骨骼點信息生成4個人體部位,即頭部、手部、臀部和腿部,加強了人體局部特征的表征能力,接著采用GPNN[44]整合局部信息生成圖結構,該方法檢測效果較成對的身體部位注意模型[38]有顯著提升.

      在一般情況下,只有少量的人體部位展現(xiàn)出了與交互行為的高度相關性,其他部分則很少攜帶有用的線索.為了提取人體部位狀態(tài)的細粒度信息,Liu等[45]構建了基于身體部位的數(shù)據(jù)集HAKE,并提出多級成對特征網(wǎng)絡PFNet.如圖8所示,該數(shù)據(jù)集將每個交互動作細化為多個局部交互動作,比如“人開車”被分為“頭看后視鏡”、“左手握方向盤”、“右手握方向盤”以及“臀部坐在椅子上”等一系列相關交互.從實驗結果看,各主流算法在該數(shù)據(jù)集上得到了性能提升,為后續(xù)的HOI檢測算法提供了新基準.

      圖8 基于實例行為的局部標簽Fig.8 Local annotations based on instance behavior

      由于人經(jīng)常關注在交互過程中提供重要信息的區(qū)域,因此Zhong等[46]設計出單階段的GGNet(glance and gaze network)網(wǎng)絡,通過掃視和凝視兩步驟自適應地對一組動作感知點進行建模.凝視步驟利用由掃視步驟生成的特征圖,以漸進方式推理出每個像素周圍的動作感知點,并聚合其特征以進行交互預測.GGNet不僅通過掃視策略改進了交互預測任務,還通過動作感知點匹配模塊提高了人體對象對匹配的準確性,在HICO-DET數(shù)據(jù)集上mAP達到目前最優(yōu)結果:29.17%.

      同樣是利用人的視線為交互識別鎖定關鍵區(qū)域,Xu等[16]認為在弱監(jiān)督場景中人眼的注視方向能作為線索幫助模型學習多個上下文區(qū)域的信息,為此,他們提出了以人類意圖驅(qū)動的HOI檢測框架(human intention-driven HOI detection,iHOI).該方法借助身體各關節(jié)到實例的相對距離對人體姿勢進行建模,然后將不同的人-物對整合到特征空間中,最后結合注視位置的概率密度圖輸出關系三元組,這種方法利用人眼的注視方向作為人類意圖的直觀體現(xiàn),為人物交互檢測的改進提供了新思路.

      2.3 小 結

      本章總結了近幾年基于外觀特征建模、外觀和空間特征結合、姿態(tài)特征和外觀特征結合等方面的代表性工作,表2和表3按照時間順序整理了2017年—2021年基于視覺特征的代表性方法,分別對比了各方法在HICO-DET和V-COCO兩個主流數(shù)據(jù)集中的性能.

      表2 基于視覺特征方法在HICO-DET數(shù)據(jù)集的mAP結果對比Tab.2 Result comparison of mAP with visual feature based methods on HICO-DET data set

      表3 基于視覺特征方法在V-COCO數(shù)據(jù)集結果對比Tab.3 Results comparison of visual feature based methods on V-COCO data set

      結合圖5可以看出:在主流的人物交互檢測算法中,融合多個特征會提升模型檢測的準確率,但其推理速度也會相應下降.在HICO-DET數(shù)據(jù)集上mAP大于17.00%的方法大多使用兩個及其以上的附加特征,僅有基于全局實例的PPDM和基于局部實例的GGNet使用外觀特征建模,并且這兩個模型分別在檢測幀數(shù)和識別準確度方面取得了第一的成績,這說明全局實例模型在速度提升方面更有優(yōu)勢;而局部實例模型能更好捕捉交互動作之間的細微差異,在真實場景中具有更強的抗干擾力,由于人在和物體的交互行為中起到主導作用,針對人體局部進行建模仍是局部實例檢測研究的核心.

      兩個公開數(shù)據(jù)集的整體結果說明人物交互檢測正朝著降低模型規(guī)模和提高檢測精度兩方面發(fā)展,未來該領域的發(fā)展應切合實際問題,擴大模型的適用場景,以滿足實際應用中對模型的檢測時間和儲存空間的需求.

      3 其他新技術

      鑒于HOI檢測的一些工作不便于歸類到視覺特征方法中,本章從零樣本學習方法、弱監(jiān)督學習以及基于Transformer的方法對其他新技術進行介紹.

      目前,人物交互數(shù)據(jù)集中存在少量類別占用大量樣本的現(xiàn)象,數(shù)據(jù)分布不均使得訓練難度增大.零樣本學習(zero-shot learning,ZSL)由 Lampert等[47]提出,“零樣本”表示算法模型從未見過某個特定示例,該方法利用語義屬性來預測對象類標簽,能將HOI檢測應用于類的長尾問題.如圖9所示,其工作原理可概括為利用處理好的已見類數(shù)據(jù)集幫助其他實例獲得有效的特征表示,然后根據(jù)HOI類的屬性描述進行組合表示,該表示可以看作是未見類和已見類的偽特征級實例描述.

      圖9 零樣本目標檢測流程Fig.9 Flowchart of zero-shot object detection

      Shen等[48]首次將零樣本學習引入人物交互關系檢測任務中,提出的HOI分解模型由一組視覺特征提取層與動詞分離和目標檢測網(wǎng)絡組成.與基于視覺特征的方法不同,該模型分別對動詞和目標對象建模,在測試時可以使用這些網(wǎng)絡根據(jù)已見類的動詞或賓語實例識別新的人-物對.該方法學習了成分動詞和賓語的表示,有效抑制過擬合的現(xiàn)象.基于屬性類間遷移的零樣本學習,Eum等[49]將語義信息嵌入到前景對象所占據(jù)的局部區(qū)域中,使得對象的語義和空間的屬性被聯(lián)合嵌入到視覺的輸入流中.Rahman等[50]在雙流ZSL體系結構中使用動詞-對象查詢來推斷人物交互,增強了零樣本場景下視覺特征的表示.Peyre等[51]通過優(yōu)化聯(lián)合損失函數(shù)獲得融合的語義與視覺嵌入空間,能在不同粒度層次的視覺語義空間中聯(lián)合表示視覺關系.

      Alessandro等[52]使用弱監(jiān)督學習建立人物之間的交互模型,輸入的圖像僅使用動作標簽注釋,不帶有人或物體的位置信息,這樣能夠大大減少訓練需要的手工注釋成本.Peyre等[53]引入了潛在變量來模擬參與交互的對象,使用預訓練的目標檢測網(wǎng)絡為每個謂詞構建分類器,并對潛在變量加以約束,從而合并圖像級標簽,該方法可用于預測從未見過的關系三元組.Sarullo等[54]使用功能屬性圖(affordance graph,AG)在人物表征和弱監(jiān)督訓練階段提供預估標簽,通過外部知識圖像化的方式對動作和對象之間的關系進行建模.AG將物體和動作定義為節(jié)點,物體和動作的交互聯(lián)系表示為邊.其中,所有的鏈接設置為相互對稱結構,且同一類型結點之間不存在連接關系,從而避免產(chǎn)生多余的語義組合.

      Transformer是完全由注意力機制組成的編碼器-解碼器架構[55],在可擴展性和訓練效率方面表現(xiàn)優(yōu)秀,目前已被廣泛應用于自然語言處理與計算機視覺等領域.Kim等[56]中第1次將Transformer架構擴展到HOI檢測任務中,作者利用Transformer對交互之間的關系進行建模,同時實例解碼器和交互解碼器并行預測同一組對象,然后與定位實例框生成最終的HOI三元組.在Transformer的基礎上,Tamura等[57]還添加了基于查詢的檢測模塊選擇性地聚合圖像范圍的上下文信息,避免了解碼過程中多個實例特征的混合,目前在V-COCO數(shù)據(jù)集上達到了最優(yōu)的檢測精度.

      表4歸納了本章的相關工作.總的來說,以上方法在圖像范圍的特征利用不足、全局實例框提供的上下文信息有限以及目標域的標注數(shù)據(jù)缺乏等方面有著廣泛的研究空間.與單一的語義嵌入模型或視覺模型相比,零樣本與弱監(jiān)督學習方法充分利用了語義知識的指導信息,有效地提升了HOI檢測在少樣本場景數(shù)據(jù)集上的泛化能力.基于Transformer的模型在實際場景中能減少多個HOI實例重疊現(xiàn)象導致的錯誤檢測.

      表4 其他新技術總結Tab.4 Summary of other new technologies

      4 挑戰(zhàn)及展望

      人物交互檢測的研究工作已經(jīng)擴展到物體功能、空間位置、人物姿態(tài)和語義描述等多個層面.隨著與目標檢測和行為識別相關領域的技術融合,人物交互檢測技術趨向使用更加精準的局部特征來引導學習和推理.基于圖像的HOI檢測技術要從理論研究發(fā)展到實際應用,還面臨如下挑戰(zhàn):

      1) 交互類別欠全面.目前公開數(shù)據(jù)集的交互行

      猜你喜歡
      實例物體人體
      人體“修補匠”
      人體冷知識(一)
      排便順暢,人體無毒一身輕
      深刻理解物體的平衡
      我們是怎樣看到物體的
      奇妙的人體止咳點
      特別健康(2018年3期)2018-07-04 00:40:10
      為什么同一物體在世界各地重量不一樣?
      完形填空Ⅱ
      完形填空Ⅰ
      懸浮的雞蛋
      肇东市| 南乐县| 临朐县| 嘉定区| 乃东县| 乌恰县| 江安县| 泰和县| 锡林郭勒盟| 疏附县| 湟源县| 清徐县| 宾川县| 延川县| 海盐县| 万盛区| 江城| 宜章县| 合阳县| 崇礼县| 博客| 杂多县| 融水| 武定县| 洪雅县| 若尔盖县| 化隆| 莎车县| 韶山市| 丰原市| 静海县| 孝昌县| 凉城县| 定结县| 蕲春县| 龙游县| 荣成市| 会泽县| 锦州市| 哈巴河县| 靖边县|