• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      雙視圖三維卷積網(wǎng)絡(luò)的工業(yè)裝箱行為識(shí)別

      2022-08-09 12:38:18胡海洋潘健李忠金
      關(guān)鍵詞:裝箱池化視圖

      胡海洋,潘健,李忠金

      杭州電子科技大學(xué)計(jì)算機(jī)學(xué)院,杭州 310018

      0 引 言

      人體行為識(shí)別由于其廣泛的應(yīng)用,一直是計(jì)算機(jī)視覺(jué)中的熱門研究方向,例如智能視頻監(jiān)控、人機(jī)交互、虛擬現(xiàn)實(shí)和醫(yī)療影像分析(Cao等,2017;Wang等,2015;Kuanar等,2018,2019)。該領(lǐng)域的突破很大程度上歸功于深度神經(jīng)網(wǎng)絡(luò)的出現(xiàn),尤其是3D卷積網(wǎng)絡(luò)的提出(Ji等,2013)。3D卷積網(wǎng)絡(luò)是2D卷積網(wǎng)絡(luò)的擴(kuò)展,主要使用3D卷積來(lái)捕獲時(shí)間信息。相較于2D卷積網(wǎng)絡(luò),3D卷積網(wǎng)絡(luò)由于增加了時(shí)間維度,可以更好地提取視頻的時(shí)空特征。Hara等人(2018)將C3D (convolutional 3D network)卷積網(wǎng)絡(luò)與殘差網(wǎng)絡(luò)(residual neural network, ResNet)相結(jié)合,并在Kinetics數(shù)據(jù)集中進(jìn)行預(yù)訓(xùn)練,相比C3D卷積網(wǎng)絡(luò),3D ResNet在UCF101(University of Central Florida-101)和HMDB-51(Human Motion DataBase-51)中取得了很大的進(jìn)步,同時(shí)運(yùn)行速度也快了2倍。Simonyan和Zisserman(2014)采用RGB圖像和光流作為兩個(gè)獨(dú)立的2D 卷積網(wǎng)絡(luò)流的輸入,基于RGB圖像的空間流從靜止圖像捕獲空間特征以識(shí)別人的動(dòng)作,而基于光流的時(shí)間流用于識(shí)別密集光流的運(yùn)動(dòng),光流作為進(jìn)一步表達(dá)運(yùn)動(dòng)信息并改善性能,是有必要的,如多種模型(Simonyan和Zisserman,2014;Liu和Hu,2019;Feichtenhofer等,2016;Carreira和Zisserman,2017)都通過(guò)結(jié)合光流取得了較好的效果。但是由于提取光流的過(guò)程非常耗時(shí),在現(xiàn)有硬件條件下無(wú)法在實(shí)時(shí)場(chǎng)景應(yīng)用,例如圖1中所展示的需要實(shí)時(shí)檢測(cè)的實(shí)際生產(chǎn)場(chǎng)景。Tao等人(2020)使用差分圖像作為網(wǎng)絡(luò)輸入,用于獲取額外的運(yùn)動(dòng)特征,并且取得了較好的結(jié)果?;谝陨蟽蓚€(gè)動(dòng)機(jī),本文引入差分圖像,更好地獲取運(yùn)動(dòng)特征。

      與傳統(tǒng)的行為識(shí)別研究工作相比,工廠環(huán)境下的行為識(shí)別有其復(fù)雜性和特殊性:生產(chǎn)制造環(huán)境中背景混亂、光線變化頻繁以及人體被遮擋問(wèn)題嚴(yán)重,給研究工作帶來(lái)了挑戰(zhàn)?,F(xiàn)有的行為識(shí)別方法并不能很好地解決人體被遮擋的問(wèn)題,如圖1中裝箱工人的右手動(dòng)作被柱子和箱子遮擋。

      圖1 工廠中的裝箱環(huán)境Fig.1 Packing environment in the factory

      行為識(shí)別在生產(chǎn)場(chǎng)景中應(yīng)用時(shí),由于對(duì)產(chǎn)品合格率的要求,需要盡可能排查出不合格的產(chǎn)品,同時(shí)保證檢測(cè)結(jié)果的高準(zhǔn)確率和高真負(fù)率(true negative rate,TNR)?,F(xiàn)有的行為識(shí)別方法中,還沒(méi)有較好的優(yōu)化真負(fù)率的方法。

      針對(duì)在工業(yè)裝箱場(chǎng)景中存在的上述問(wèn)題,本文提出了一種基于雙視圖3D ResNeXt101的行為識(shí)別方法。首先,本文引入堆疊的差分圖像作為模型的輸入來(lái)更好地提取運(yùn)動(dòng)特征,替代實(shí)時(shí)場(chǎng)景中無(wú)法使用的光流。原始RGB圖像和差分圖像分別輸入到兩個(gè)并行的3D ResNeXt101中,基于差分圖像的3D ResNeXt101模塊用于更好地提取運(yùn)動(dòng)特征,基于3D ResNeXt101模塊用于提取運(yùn)動(dòng)特征和彌補(bǔ)差分圖像中缺失的外觀特征。其次,采用雙視圖結(jié)構(gòu)來(lái)解決人體被遮擋的問(wèn)題,將3D ResNeXt101優(yōu)化為雙視圖模型,使用一個(gè)可學(xué)習(xí)權(quán)重的雙視圖池化層對(duì)不同角度的視圖特征進(jìn)行融合,利用該雙視圖3D ResNeXt101模型進(jìn)行行為識(shí)別。最后,為進(jìn)一步提高檢測(cè)結(jié)果的真負(fù)率,在模型中加入降噪自編碼器和two-class SVM(support vector machine)模型。

      1 相關(guān)工作

      近些年,行為識(shí)別技術(shù)取得了非常大的進(jìn)步。行為識(shí)別技術(shù)的主要方法可以分為兩類,基于視頻手工特征的方法和基于深度學(xué)習(xí)的方法。

      基于時(shí)空興趣點(diǎn)(space-time interest points,STIP)的方法作為手工特征的代表性方法,廣泛應(yīng)用于行為識(shí)別。該方法從視頻中提取運(yùn)動(dòng)變化的關(guān)鍵區(qū)域來(lái)識(shí)別動(dòng)作。STIP中的時(shí)空興趣點(diǎn)通常是指時(shí)空維度上變化最大的位置(Das Dawn和Shaikh,2016)。3D-Harris時(shí)空興趣點(diǎn)方法(Laptev,2005)是STIP最具代表意義的方法,主要思想是將局部特征檢測(cè)技術(shù)從2維空間興趣點(diǎn)擴(kuò)展到3維時(shí)空興趣點(diǎn),然后計(jì)算特征描述符,統(tǒng)計(jì)像素直方圖形成描述行為的特征向量。該方法不需要做運(yùn)動(dòng)物體分割,在背景復(fù)雜的場(chǎng)景也有較好的效果,但是在人體被遮擋和光線變化大時(shí)效果較差?;谶\(yùn)動(dòng)軌跡提取的方法也同樣受到許多研究者的關(guān)注, Wang和Schmid(2013)提出了改進(jìn)的稠密軌跡方法(improved dense trajectories,IDT),綜合HOG(histogram of gradient)、HOF(histogram of flow)和MBH (motion boundary histograms)的特征,對(duì)軌跡全局施加平滑約束,獲得了很好的魯棒性。此類方法的主要優(yōu)點(diǎn)是不需要將運(yùn)動(dòng)物體分割,因此在光照變化和復(fù)雜背景下依然有較好的效果,但是時(shí)空興趣點(diǎn)很容易受相機(jī)視圖變化的影響,在視角變化和遮擋下效果不佳。使用IDT是基于手工特征中效果最好、應(yīng)對(duì)場(chǎng)景最豐富的算法。但由于計(jì)算復(fù)雜度較高,該方法速度較慢。

      與手動(dòng)制作的動(dòng)作特征不同,深度學(xué)習(xí)方法從圖像中自動(dòng)學(xué)習(xí)特征方面表現(xiàn)較好,目前許多研究人員已嘗試使用深度學(xué)習(xí)方法從RGB圖像、光流、差分圖像和人體骨骼數(shù)據(jù)中提取動(dòng)作特征(Simonyan和Zisserman,2014;Tao等,2020;Wu等,2018;Wu等,2021),深度學(xué)習(xí)可以從單模數(shù)據(jù)或多模融合數(shù)據(jù)中學(xué)習(xí)人體行為特征。Simonyan和Zisserman(2014)采用RGB圖像和光流作為兩個(gè)獨(dú)立的2D卷積網(wǎng)絡(luò)流的輸入,空間流從靜止圖像捕獲空間特征以識(shí)別人的動(dòng)作,而時(shí)間流用于識(shí)別密集光流的運(yùn)動(dòng)。該體系結(jié)構(gòu)能夠從每幀以及幀之間的運(yùn)動(dòng)中提取互補(bǔ)特征。與2D卷積相比,3D卷積網(wǎng)絡(luò)更能捕捉復(fù)雜的運(yùn)動(dòng)信息(Ji等,2013;Hara等,2018)。Feichtenhofer等人(2016)提出了雙流3D卷積網(wǎng)絡(luò)模型來(lái)學(xué)習(xí)時(shí)空特征,與在softmax層進(jìn)行融合的傳統(tǒng)方式不同,他們發(fā)現(xiàn)在最后的卷積層上融合時(shí)空流,在不損失性能的同時(shí)還可以節(jié)省大量參數(shù)。一些研究(Crasto等,2019;Peng等,2016;Hong等,2019)也是通過(guò)探索不同融合策略以顯著提高行為識(shí)別的性能。另一方面,Carreira和Zisserman(2017)以及Ullah等人(2019)通過(guò)改善網(wǎng)絡(luò)結(jié)構(gòu)來(lái)提升行為識(shí)別的性能。Carreira和Zisserman(2017)將Inception-V1的網(wǎng)絡(luò)結(jié)構(gòu)從2維擴(kuò)展到3維,并提出了用于行為識(shí)別的雙流膨脹3D卷積網(wǎng)絡(luò),該方法在公共數(shù)據(jù)集UCF101和HMDB-51中都取得了非常好的結(jié)果。

      在行為識(shí)別模型中加入自編碼器成為提高準(zhǔn)確性的一種有效方法(Ullah等,2019;Budiman等,2014),Ullah等人(2019)使用經(jīng)過(guò)訓(xùn)練的降噪自編器來(lái)有效獲取原始視頻幀中的動(dòng)作信息,將VGG-16(Visual Geometry Group layer 16)卷積網(wǎng)絡(luò)模型中全連接層中的高維特征轉(zhuǎn)換為低維,并學(xué)習(xí)相鄰幀之間的信息變化。該方法通過(guò)在卷積網(wǎng)絡(luò)中加入自編碼器,較大提升了行為識(shí)別的準(zhǔn)確率。

      關(guān)于雙視圖行為識(shí)別,Su等人(2015)提出了雙視圖卷積神經(jīng)網(wǎng)絡(luò)(dual-view convolutional neural network,MVCNN),該網(wǎng)絡(luò)成功實(shí)現(xiàn)了3D模型和CNN的結(jié)合,結(jié)合后的模型經(jīng)過(guò)訓(xùn)練可以獨(dú)立地對(duì)多個(gè)2D投影圖像進(jìn)行分類。Zeng等人(2019)針對(duì)雙視圖池化方法進(jìn)行改進(jìn),提出一種基于學(xué)習(xí)的多池融合方法(learning-based multiple pooling fusion,LMPF),通過(guò)學(xué)習(xí)一組最佳權(quán)重以使多個(gè)不同視圖的融合效果達(dá)到最佳。

      2 本文方法

      2.1 行為識(shí)別框架

      圖2展示了本文裝箱行為識(shí)別模型。模型使用兩個(gè)不同視角的RGB視頻作為輸入,兩個(gè)RGB視頻分別為不同視角的攝像頭在實(shí)際裝箱場(chǎng)景中獲取的同一時(shí)間段的視頻。然后使用差分法處理輸入的RGB視頻得到差分圖像(residual frames,RF),作為模型的另一個(gè)輸入。

      圖2 裝箱行為識(shí)別模型Fig.2 Packing action model

      單個(gè)視圖的每一批輸入數(shù)據(jù)(原始RGB視頻)的形狀為T×H×W×C,也就是T幀高度為H、寬度為W且通道數(shù)C為3的RGB圖像。每個(gè)3D卷積層同時(shí)在3個(gè)維度計(jì)算輸入的數(shù)據(jù)。模型的每個(gè)視圖都包含一個(gè)基于差分圖像的3D ResNeXt101模塊和一個(gè)基于RGB圖像的3D ResNeXt101模塊,本文將兩個(gè)3D ResNeXt101的最后一個(gè)卷積層使用一個(gè)串接層(concatenation layer)進(jìn)行融合,然后由一個(gè)可學(xué)習(xí)的雙視圖池化層將多個(gè)視圖的特征融合,傳遞到一個(gè)全連接層,最后輸出判別結(jié)果。在此基礎(chǔ)上,本文引入降噪自編碼器和two-class SVM來(lái)進(jìn)一步排除不存在裝箱動(dòng)作的裝箱過(guò)程,提高真負(fù)率。將模型經(jīng)過(guò)雙視圖池化之后的特征作為降噪自編碼器的輸入,在經(jīng)過(guò)降噪自編碼器優(yōu)化之后送入two-class SVM進(jìn)行二次判別。通過(guò)兩次的判別結(jié)果得到最終裝箱行為識(shí)別的結(jié)果。

      2.2 RGB和差分圖像結(jié)合的網(wǎng)絡(luò)結(jié)構(gòu)

      大多數(shù)行為識(shí)別方法通過(guò)對(duì)RGB視頻進(jìn)行特征提取來(lái)獲得行為識(shí)別結(jié)果(Ji等,2013;Carreira和Zisserman,2017;Tran等,2015),本文在使用RGB圖像作為輸入的同時(shí)引入一個(gè)差分圖像模塊來(lái)優(yōu)化模型性能。

      通過(guò)相鄰幀相減來(lái)獲取差分圖像,保留兩幀間的不同。由于差分圖像的特殊性,在單個(gè)差分圖像中,運(yùn)動(dòng)信息存在于空間軸。將差分圖像用于2D卷積中,已經(jīng)證明是有效的(Wu等,2018)。但是較為復(fù)雜的動(dòng)作持續(xù)時(shí)間相對(duì)更長(zhǎng),并不是單獨(dú)一幀可以表示,需要連續(xù)的多幀差分圖像。這時(shí)動(dòng)作信息不單單存在于空間軸,還存在于時(shí)間軸上,相鄰幀之間的聯(lián)系也作為運(yùn)行信息的一部分。

      同時(shí),相較于2D卷積網(wǎng)絡(luò),3D卷積網(wǎng)絡(luò)由于增加了時(shí)間維度,可以更好地提取視頻的時(shí)空特征,事實(shí)證明使用3D卷積網(wǎng)絡(luò)具有更高的準(zhǔn)確性(Tao等,2020)。3D ResNet是3D卷積網(wǎng)絡(luò)與殘差網(wǎng)絡(luò)的結(jié)合,相比C3D具有更高的準(zhǔn)確性和更快的運(yùn)行速度。本文使用性能較好的3D ResNeXt101模型來(lái)處理輸入的差分圖像,從中獲取運(yùn)動(dòng)特征。

      本文使用Fi表示第i幀,F(xiàn)i-j表示第i-j幀的連續(xù)堆疊幀,RFi-j表示第i-j幀的連續(xù)差分圖像。圖3所示為使用差分法獲取差分圖像的示意圖,獲取差分圖像的過(guò)程可以表述為

      RFi-j=|Fi-j-Fi+1-j+1|

      (1)

      與光流的計(jì)算成本相比,差分圖像的計(jì)算成本非常低,甚至可忽略不計(jì),可以應(yīng)用在實(shí)時(shí)場(chǎng)景中。而且差分圖像中只包含運(yùn)動(dòng)物體的信息,處于靜止?fàn)顟B(tài)的背景不會(huì)出現(xiàn)在差分圖像上,可以剔除工廠復(fù)雜背景對(duì)識(shí)別效果的影響。但是差分圖像只顯示運(yùn)動(dòng)的部分,特別是在工人裝箱過(guò)程中運(yùn)動(dòng)主要集中在雙手,除工人雙手以外的外觀信息有時(shí)不會(huì)出現(xiàn)在差分圖像上,只使用差分圖像作為模型的輸入,可以一定程度地區(qū)分出工人的投放動(dòng)作,但同時(shí)外觀信息的丟失也會(huì)降低結(jié)果的精度。Carreira和Zisserman(2017)使用3D卷積中在Kinetics數(shù)據(jù)集上的實(shí)驗(yàn)表明,同樣的3D卷積模型在只使用RGB圖像作為輸入時(shí)效果相對(duì)只使用光流更好,RGB圖像仍然是3D卷積模型獲取時(shí)空特征的主要途徑。因此,本文使用另一個(gè)基于RGB圖像的3D ResNeXt101模塊來(lái)獲取差分圖像中缺失的外觀特征和RGB圖像中額外的運(yùn)動(dòng)特征。使用基于差分圖像的3D ResNeXt101的目的是用來(lái)獲取RGB圖像中沒(méi)有的運(yùn)動(dòng)特征,進(jìn)而提升模型的準(zhǔn)確性。在行為識(shí)別領(lǐng)域,多個(gè)網(wǎng)絡(luò)框架的融合一般使用直接得到各個(gè)框架的得分,然后通過(guò)加權(quán)或者平均得分的方式得到最終結(jié)果的方法(Simonyan和Zisserman,2014),或者通過(guò)一個(gè)串接層(concatenation layer)將各個(gè)模塊提取到的特征進(jìn)行融合(Rastgoo等,2020)的方法。為了更好地利用多視圖之間互補(bǔ)的特性,便于多模塊特征融合之后的雙視圖特征融合,本文使用串接層將RGB和差分圖像模塊提取的特征融合。

      圖3 差分圖像獲取過(guò)程Fig.3 The process of obtaining residual frame((a) front RGB;(b) latter RGB;(c) residual frame)

      本文使用兩個(gè)并行的3D ResNeXt101模塊,兩個(gè)模塊分別接收原始RGB圖像和差分圖像作為輸入。在兩個(gè)3D ResNeXt101模塊的最后一層卷積層之后加入一個(gè)串接層將兩個(gè)模塊的特征串聯(lián)到一起,用于后續(xù)的雙視圖特征融合。

      2.3 多視圖學(xué)習(xí)

      由于實(shí)際生產(chǎn)環(huán)境的限制,裝箱工人身體的關(guān)鍵運(yùn)動(dòng)部位易被遮擋,只使用單個(gè)視圖進(jìn)行檢測(cè)會(huì)由于缺失關(guān)鍵的運(yùn)動(dòng)信息導(dǎo)致識(shí)別準(zhǔn)確率下降。為了使本文模型在訓(xùn)練和測(cè)試階段可以獲取到完整的運(yùn)動(dòng)信息,本文使用雙視圖的方式,使用兩個(gè)不同視角的攝像頭來(lái)獲取裝箱過(guò)程的圖像,作為模型的輸入。利用3D卷積網(wǎng)絡(luò)和雙視圖的學(xué)習(xí)能力對(duì)裝箱過(guò)程中的工人進(jìn)行裝箱行為識(shí)別。

      相比單視圖,多視圖數(shù)據(jù)還包含額外的一致信息和互補(bǔ)信息,可以在這些額外的信息中學(xué)習(xí)到有意義的輸出。其中,一致信息用于平衡多視圖信息,互補(bǔ)信息用于不同視圖之間的信息互補(bǔ)。利用多視圖學(xué)習(xí)的一致信息和互補(bǔ)性信息,使圖像信息得到最有效的提取和表示。使用兩個(gè)并行的3D ResNeXt101模型對(duì)不同視圖進(jìn)行特征提取,然后采用一個(gè)視圖池化層來(lái)融合雙視圖信息。直接采用最大池化和平均池化是融合過(guò)程中較為常用的方法,但是最大池化方法容易出現(xiàn)過(guò)擬合,網(wǎng)絡(luò)的泛化能力差;平均池化不能很好地反映池化區(qū)域的特征,較小的元素會(huì)削弱較大元素對(duì)激活值的貢獻(xiàn),兩者都會(huì)導(dǎo)致部分信息丟失。針對(duì)這個(gè)問(wèn)題,本文使用一種可學(xué)習(xí)權(quán)重的視圖池化層來(lái)融合多個(gè)視圖的特征(權(quán)重學(xué)習(xí)視圖池化層)。其計(jì)算為

      OL(p,q)=w1×Omax(p,q)+w2×Omean(p,q)

      (2)

      式中,w1和w2分別是最大池和平均池的權(quán)重,初始值分別為1和0,權(quán)重優(yōu)化過(guò)程中保證兩個(gè)權(quán)重的總和為1。具體來(lái)講,權(quán)重學(xué)習(xí)視圖池化層在對(duì)位置(p,q)做雙視圖特征融合時(shí),分別計(jì)算一個(gè)使用最大池化方法做特征融合的結(jié)果Omax(p,q)和一個(gè)使用平均池化方法做特征融合的結(jié)果Omean(p,q)。最后使用學(xué)習(xí)到的權(quán)重w1和w2,計(jì)算出最終位置(p,q)的雙視圖特征融合結(jié)果OL(p,q)。本文使用BP(back propagation)算法實(shí)現(xiàn)整個(gè)訓(xùn)練階段的最佳權(quán)重搜索,本文使用的雙視圖池化方法如圖4所示。

      圖4 雙視圖池化方法Fig.4 Dual-view pooling fusion

      本文雙視圖池化層是針對(duì)多個(gè)特征圖的最大池化策略和平均池化策略的融合,通過(guò)端到端的訓(xùn)練,可以學(xué)習(xí)到一組最佳池化權(quán)重w1和w2。使用該方法能將最大池化和平均池化有效地結(jié)合起來(lái),從而減少雙視圖池化階段的信息丟失。

      2.4 二分類SVM模型

      使用雙視圖和差分圖像相結(jié)合的模型,在識(shí)別裝箱動(dòng)作上已經(jīng)有了較好的表現(xiàn)。但是,實(shí)驗(yàn)顯示在一些復(fù)雜工業(yè)場(chǎng)景的影響下,本文模型仍會(huì)將一部分不存在裝箱動(dòng)作的裝箱過(guò)程錯(cuò)誤判斷為存在裝箱動(dòng)作。為滿足生產(chǎn)場(chǎng)景需求,盡可能排查出不合格裝箱產(chǎn)品,保證產(chǎn)品合格率,這樣的錯(cuò)誤需要盡量避免。針對(duì)這個(gè)問(wèn)題,本文加入降噪自編碼器和two-class SVM來(lái)進(jìn)一步排查沒(méi)有出現(xiàn)裝箱動(dòng)作的裝箱過(guò)程,提高裝箱行為識(shí)別的真負(fù)率。本文將模型中經(jīng)過(guò)雙視圖池化后的特征經(jīng)過(guò)一個(gè)降噪自編碼器優(yōu)化、降維之后得到的特征向量作為two-class SVM的輸入,然后對(duì)輸入的特征樣本進(jìn)行分割,將結(jié)果分為存在裝箱動(dòng)作和不存在裝箱動(dòng)作兩類。

      two-class SVM的主要方法是將訓(xùn)練數(shù)據(jù)通過(guò)核函數(shù)映射到一個(gè)高維的特征空間,然后在這個(gè)高維的特征空間尋找一個(gè)最佳超平面將這些特征向量分割為存在裝箱動(dòng)作和不存在裝箱動(dòng)作。具體而言,給定訓(xùn)練樣本集{(x1,y1),(x2,y2),…(xn,yn)},其中,xi∈Rd為d維樣本輸入,yi∈(+1,-1)為樣本輸出。為了確保超平面以最優(yōu)的邊界將樣本進(jìn)行分類,需要優(yōu)化問(wèn)題,即

      (3)

      式中,xi為訓(xùn)練樣本,yi為類別標(biāo)號(hào),b是一個(gè)偏移量,w∈Rd是需要學(xué)習(xí)的權(quán)重向量,第i個(gè)訓(xùn)練樣本的拉格朗日系數(shù)αi>0。其最終決策函數(shù)計(jì)算為

      (4)

      式中,αi通過(guò)優(yōu)化式(3)得到;sign()為符號(hào)函數(shù)。當(dāng)pw,b(x)<0時(shí),表示two-class SVM模型將特征判定為存在裝箱動(dòng)作;否則pw,b(x)>0時(shí),SVM模型判定為不存在裝箱動(dòng)作。

      2.5 三層堆疊的降噪自編碼器

      降噪自編碼器(Vincent等,2008)是一種有效的無(wú)監(jiān)督特征表達(dá)技術(shù)。它具有多個(gè)可學(xué)習(xí)的隱藏層,隱藏層的參數(shù)不是手動(dòng)設(shè)置的,而是根據(jù)給定的數(shù)據(jù)自動(dòng)學(xué)習(xí)的。已有工作表明(Budiman等,2014),經(jīng)過(guò)訓(xùn)練的降噪自編碼器可以有效表現(xiàn)視頻幀中的原始動(dòng)作信息,并且學(xué)習(xí)到相鄰幀之間的信息變化。同時(shí)降噪自編碼器還可以利用編碼、解碼的特點(diǎn),將高維特征壓縮到低維,這解決了雙視圖池化之后特征維度過(guò)高的問(wèn)題。本文引入降噪自編碼器來(lái)優(yōu)化從雙視圖池化層中獲取到的特征,用于two-class SVM的輸入,從而使two-class SVM模型更好地將有裝箱動(dòng)作的視頻片段和無(wú)裝箱動(dòng)作的視頻片段分隔。

      自編碼器包括兩個(gè)階段,即編碼階段和解碼階段,這兩個(gè)階段共享一個(gè)隱藏層。在編碼階段,數(shù)據(jù)從輸出層到隱藏層,即

      h(x)=sigm(Wx+b)

      (5)

      在解碼階段,數(shù)據(jù)從隱藏層到輸出層,即

      (6)

      (7)

      在訓(xùn)練過(guò)程中,降噪自編碼器通過(guò)最小化損失函數(shù)來(lái)學(xué)習(xí)參數(shù)(W,b)。為了提升收斂速度和獲取更高級(jí)的特征,本文使用由3個(gè)降噪自編碼器構(gòu)建而成的一個(gè)3層的堆疊降噪自編碼器。

      本文的堆疊降噪自編碼器如圖5所示,訓(xùn)練階段以逐層方式進(jìn)行。在測(cè)試階段,去掉堆疊自編碼器的解碼部分,通過(guò)編碼部分的3個(gè)隱藏層對(duì)輸入的特征進(jìn)行優(yōu)化。3個(gè)隱藏層分別將2 048維特征向量編碼為1 024維、512維、256維。然后直接使用瓶頸隱藏層(bottleneck hidden layer)輸出的256維的特征向量作為two-class SVM的輸入。

      圖5 堆疊降噪自編碼器Fig.5 Stacked denoising autoencoder

      2.6 裝箱行為識(shí)別

      針對(duì)工業(yè)裝箱場(chǎng)景中的裝箱動(dòng)作,本文提出了雙視圖3維卷積網(wǎng)絡(luò)的工業(yè)裝箱行為識(shí)別方法,通過(guò)識(shí)別是否出現(xiàn)裝箱動(dòng)作來(lái)判斷裝箱工人是否投放配件。主要工作包括:1)針對(duì)人體遮擋問(wèn)題,設(shè)計(jì)了雙視圖結(jié)構(gòu),使用兩個(gè)不同角度攝像頭同一時(shí)間獲取到的RGB視頻作為雙視圖模型的輸入,并使用一個(gè)可學(xué)習(xí)權(quán)重的雙視圖池化層融合兩個(gè)視圖的時(shí)空特征。2)針對(duì)光流的巨大計(jì)算成本,本文使用堆疊的差分圖像作為模型的輸入來(lái)更好地提取運(yùn)動(dòng)特征,替代實(shí)時(shí)場(chǎng)景中無(wú)法使用的光流。原始RGB圖像和差分圖像分別輸入到兩個(gè)并行的3D ResNeXt101中。3)為提高模型的真負(fù)率,滿足裝箱場(chǎng)景需求,在模型中加入堆疊降噪自編碼器和two-class SVM。

      本文提出的裝箱行為識(shí)別方法具體流程如下:將兩個(gè)視圖的每次裝箱過(guò)程的RGB視頻作為模型的輸入,連續(xù)RGB圖像和對(duì)RGB圖像做差分計(jì)算得到的連續(xù)差分圖像作為輸入數(shù)據(jù),分別輸入到4個(gè)3D ResNeXt101中,經(jīng)過(guò)模型計(jì)算后得到初步識(shí)別結(jié)果。為了進(jìn)一步排查無(wú)裝箱動(dòng)作的裝箱過(guò)程,提高真負(fù)率,將模型中經(jīng)過(guò)雙視圖池化后的特征輸入到降噪自編碼器,通過(guò)訓(xùn)練好的降噪自編碼器對(duì)特征優(yōu)化和降維,然后利用two-class SVM模型進(jìn)行二次判斷,得到二次識(shí)別結(jié)果。只有兩個(gè)識(shí)別結(jié)果都表明這次裝箱過(guò)程中存在裝箱動(dòng)作,才最終判定這次裝箱過(guò)程存在裝箱動(dòng)作,認(rèn)為裝箱工人在這次裝箱過(guò)程中投放了配件。否則判定這次裝箱過(guò)程不存在裝箱動(dòng)作,認(rèn)為裝箱工人在這次裝箱過(guò)程中沒(méi)有投放配件,裝箱行為識(shí)別模型流程可形式化表述為圖6所示??偨Y(jié)來(lái)講,通過(guò)兩次的裝箱動(dòng)作判別,只有兩次的識(shí)別結(jié)果都判定存在裝箱動(dòng)作時(shí),最終結(jié)果才為“裝箱成功”,否則“裝箱失敗”。

      圖6 裝箱行為識(shí)別模型執(zhí)行流程Fig.6 The execution process of packing action model

      該判別策略是在模型中加入了降噪自編碼器和SVM的基礎(chǔ)上制定的,會(huì)將沒(méi)有裝箱動(dòng)作的裝箱過(guò)程盡可能識(shí)別出來(lái),進(jìn)而提高真負(fù)率。但由于經(jīng)過(guò)兩次判別,部分存在裝箱動(dòng)作的裝箱過(guò)程會(huì)被誤判為不存在裝箱動(dòng)作,可能導(dǎo)致準(zhǔn)確率下降。

      3 實(shí) 驗(yàn)

      3.1 雙視圖裝箱動(dòng)作數(shù)據(jù)集

      雙視圖裝箱動(dòng)作數(shù)據(jù)集(dual-view packing action data,MPAD)由7個(gè)裝箱工人在實(shí)際裝箱過(guò)程中執(zhí)行,包含2個(gè)不同視角,3個(gè)不同的裝箱場(chǎng)景,共2 400個(gè)RGB視頻。每個(gè)RGB視頻就是裝箱工人的一次裝箱過(guò)程,視頻幀率為25幀/s,視頻時(shí)長(zhǎng)約為5 s。根據(jù)實(shí)際生產(chǎn)過(guò)程,數(shù)據(jù)集中包含為兩個(gè)類別:有裝箱動(dòng)作的裝箱過(guò)程(70%)、沒(méi)有裝箱動(dòng)作的裝箱過(guò)程(30%)。本文將數(shù)據(jù)集MPAD隨機(jī)劃分為訓(xùn)練集(80%)和測(cè)試集(20%)。數(shù)據(jù)集中的裝箱動(dòng)作為裝箱工人投放配件的動(dòng)作。在該數(shù)據(jù)集上,對(duì)單視圖行為識(shí)別方法進(jìn)行評(píng)估,本文將兩個(gè)視圖的RGB視頻拆分成兩個(gè)獨(dú)立的RGB視頻,作為單視圖行為識(shí)別方法的輸入。

      3.2 實(shí)驗(yàn)細(xì)節(jié)

      使用Pytorch作為深度學(xué)習(xí)平臺(tái),并使用2個(gè)NVIDIA RTX 2080Ti來(lái)評(píng)估本文方法。數(shù)據(jù)在輸入網(wǎng)絡(luò)之前,會(huì)先執(zhí)行水平翻轉(zhuǎn),在訓(xùn)練階段中應(yīng)用時(shí)間抖動(dòng)。批尺寸(batch size)設(shè)置為32,使用隨機(jī)梯度下降作為優(yōu)化策略,動(dòng)量(momentum)設(shè)置為0.9,學(xué)習(xí)率初始值設(shè)置為0.1,每50輪訓(xùn)練減小為初始值的1/10。本文模型共進(jìn)行400輪訓(xùn)練。為了驗(yàn)證模型中雙視圖結(jié)構(gòu)的作用,加入了單視圖模型進(jìn)行比較。通過(guò)將雙視圖模型的視圖池化層刪除并由串接層直接與全連接層相連,完成本文的單視圖模型,單視圖模型的輸入也從兩個(gè)視圖修改為一個(gè)視圖。

      引入降噪自編碼器和two-class SVM來(lái)提高真負(fù)率,在不需要分析真負(fù)率,只需評(píng)估準(zhǔn)確率的實(shí)驗(yàn)中,不使用降噪自編碼器和two-class SVM,剔除降噪自編碼器和two-class SVM對(duì)模型準(zhǔn)確率的干擾。在UCF101數(shù)據(jù)集中的實(shí)驗(yàn)中也使用去除降噪自編碼器和two-class SVM的單視圖模型來(lái)和主流行為識(shí)別方法進(jìn)行對(duì)比,原因?yàn)閁CF101是單視圖數(shù)據(jù)集且由于UCF101包含多個(gè)動(dòng)作類別無(wú)法使用二分類支持向量機(jī)。

      3.3 MPAD實(shí)驗(yàn)結(jié)果分析

      在數(shù)據(jù)集MPAD上,對(duì)主流的行為識(shí)別方法和本文方法進(jìn)行比較。表1展示了實(shí)驗(yàn)結(jié)果,從實(shí)驗(yàn)結(jié)果可以看出,本文方法獲得了最高的準(zhǔn)確率和真負(fù)率。表2評(píng)估了基于RGB圖像和基于差分圖像的兩個(gè)3D ResNeXt101的效果,只使用差分圖像作為輸入使大量的外觀信息丟失,導(dǎo)致較低的準(zhǔn)確率?;赗GB圖像的3D ResNeXt101相比差分圖像取得較好的效果,RGB圖像和差分圖像結(jié)合的方法可以捕獲到更豐富的特征,在數(shù)據(jù)集MPAD上取得了最高的準(zhǔn)確率。

      表1 在MPAD中與主流行為識(shí)別方法的比較Table 1 Comparison with mainstream action recognition methods on MPAD

      表2 基于RGB和差分圖像的3D ResNeXt101評(píng)估結(jié)果Table 2 Evaluation results of 3D ResNeXt101 based on RGB frames and residual frames

      為了分析本文模型中各個(gè)模塊的必要性,對(duì)不同模塊組合策略進(jìn)行了評(píng)估,并額外加入光流來(lái)和差分圖像進(jìn)行對(duì)比,表3展示了組合策略評(píng)估實(shí)驗(yàn)的結(jié)果。結(jié)果表明,使用雙視圖加光流的方法具有最高的準(zhǔn)確率,但是對(duì)應(yīng)的幀率只有6.2幀/s,在實(shí)時(shí)場(chǎng)景應(yīng)用時(shí)會(huì)出現(xiàn)視頻延遲的情況。同時(shí)使用雙視圖加差分圖像的方法得到了較高準(zhǔn)確率且?guī)蔬_(dá)到49.8幀/s,可以在實(shí)時(shí)場(chǎng)景應(yīng)用。進(jìn)一步說(shuō)明差分圖像是網(wǎng)絡(luò)捕獲運(yùn)動(dòng)特征的有效方法,通過(guò)使用差分圖像替代光流,可以避免光流的復(fù)雜計(jì)算,解決無(wú)法在實(shí)時(shí)場(chǎng)景中應(yīng)用的問(wèn)題。另一方面,表3顯示了本文引入的差分圖像模塊和雙視圖結(jié)構(gòu)都能有效提升行為識(shí)別精度。

      表3 在MPAD中不同組合策略評(píng)估結(jié)果Table 3 Evaluation results of different combination strategies on MPAD

      為了提升模型的真負(fù)率,引入了降噪自編碼器和two-class SVM,圖7分別展示了只使用雙視圖模型、只使用降噪自編碼器和two-class SVM以及兩者結(jié)合的識(shí)別結(jié)果。圖中的“雙視圖模型”是指不使用降噪自編碼器和two-class SVM的方法;“DAE+SVM”表示3D ResNeXt101提取到的高層特征經(jīng)雙視圖池化后直接由DAE+SVM來(lái)得到識(shí)別結(jié)果的方法。需要強(qiáng)調(diào)的是,圖中的“雙視圖模型+ (DAE+SVM)”為兩者結(jié)合的方法,即本文使用的裝箱行為識(shí)別方法。該方法只有在雙視圖模型和(DAE+SVM)的識(shí)別結(jié)果都為“有裝箱動(dòng)作”時(shí),才判定識(shí)別結(jié)果為“有裝箱動(dòng)作”,否則都判定為“沒(méi)有裝箱動(dòng)作”,從而盡可能識(shí)別出所有沒(méi)有裝箱動(dòng)作的裝箱過(guò)程。

      圖7 在MPAD中對(duì)雙視圖模型和DAE+SVM的評(píng)估結(jié)果Fig.7 Evaluation results of DAE+SVM and dual-view model in MPAD

      圖7中雙視圖模型的準(zhǔn)確率和真負(fù)率稍低于DAE+SVM。雙視圖模型和DAE+SVM的組合方法的準(zhǔn)確率相較其他兩種方法,下降了約2%,但仍然保持在一個(gè)較高的水平,同時(shí)該方法將真負(fù)率提高到了98.9%。造成準(zhǔn)確率下降和真負(fù)率大幅提高的原因是在原雙視圖模型的基礎(chǔ)上增加了DAE和SVM,并在此基礎(chǔ)上修改了識(shí)別結(jié)果的判別方式,由于經(jīng)過(guò)兩次判別,將沒(méi)有裝箱動(dòng)作的裝箱過(guò)程盡可能識(shí)別出來(lái),從而提高了真負(fù)率。但同時(shí),在數(shù)據(jù)集MPAD中正樣本占比70%的情況下,部分存在裝箱動(dòng)作的裝箱過(guò)程被誤判為不存在裝箱動(dòng)作,會(huì)導(dǎo)致準(zhǔn)確率下降。

      表4評(píng)估了在雙視圖模型中加入降噪自編碼器和two-class SVM對(duì)真負(fù)率和準(zhǔn)確率的影響,實(shí)驗(yàn)結(jié)果中,只加入two-class SVM而沒(méi)有降噪自編碼器的組合準(zhǔn)確率只有91.5%。由于降噪自編碼器對(duì)特征向量的優(yōu)化和降維,同時(shí)加入降噪自編碼器和two-class SVM的組合準(zhǔn)確率達(dá)到94.2%,并獲得最高真負(fù)率98.9%。使用降噪自編碼器和two-class SVM與本文模型結(jié)合可以在有效提升真負(fù)率的同時(shí)保證較高的準(zhǔn)確率,這樣的組合更加符合實(shí)際裝箱行為識(shí)別場(chǎng)景。

      表4 對(duì)降噪自編碼器和two-class SVM的評(píng)估結(jié)果Table 4 Evaluation results of denoising autoencoder and two-class SVM

      3.4 UCF101實(shí)驗(yàn)結(jié)果分析

      4 結(jié) 論

      提出一種用于實(shí)際生產(chǎn)場(chǎng)景的裝箱行為檢測(cè)方法,該方法使用雙視圖3D ResNeXt101模型進(jìn)行有效的裝箱行為識(shí)別。使用兩個(gè)并行的3D ResNeXt101,分別從RGB圖像和差分圖像中學(xué)習(xí)時(shí)空特征,以獲得更豐富的特征,并使用可學(xué)習(xí)的視圖池化層做雙視圖特征融合。此外本文訓(xùn)練了一個(gè)堆疊的降噪自編碼器對(duì)雙視圖3D ResNeXt101模型提取的特征進(jìn)行優(yōu)化和降維,并使用two-class SVM模型進(jìn)行二次檢測(cè)來(lái)提高真負(fù)率(TNR)。實(shí)驗(yàn)結(jié)果和分析表明,本文裝箱行為識(shí)別方法在數(shù)據(jù)集MPAD中得到的準(zhǔn)確率和真負(fù)率分別為94.2%、98.9%,均優(yōu)于其他6種主流行為識(shí)別方法。在人體頻繁被遮擋的實(shí)際裝箱場(chǎng)景中,本文方法可以精確識(shí)別出裝箱工人的裝箱動(dòng)作,且同時(shí)保證識(shí)別結(jié)果的高真負(fù)率,滿足實(shí)際生產(chǎn)場(chǎng)景需求。

      表5 在UCF101中與主流行為識(shí)別方法的比較Table 5 Comparison with mainstream action recognition methods on UCF101

      在實(shí)驗(yàn)過(guò)程中發(fā)現(xiàn),本文模型中的雙視圖結(jié)構(gòu)能夠有效降低人體遮擋的干擾,但由于人體遮擋導(dǎo)致的運(yùn)動(dòng)信息不足,仍會(huì)有部分樣本的裝箱行為識(shí)別會(huì)受到遮擋的影響。未來(lái)的研究工作將致力于解決人體遮擋問(wèn)題,通過(guò)增加視圖數(shù)量來(lái)獲取更多不同角度的運(yùn)動(dòng)信息,同時(shí)加入使用雙目視覺(jué)得到的3維人體骨架作為模型的輸入,進(jìn)一步降低人體遮擋的干擾。

      猜你喜歡
      裝箱池化視圖
      基于緊湊型雙線性網(wǎng)絡(luò)的野生茵識(shí)別方法研究
      基于Sobel算子的池化算法設(shè)計(jì)
      卷積神經(jīng)網(wǎng)絡(luò)中的自適應(yīng)加權(quán)池化
      基于卷積神經(jīng)網(wǎng)絡(luò)和池化算法的表情識(shí)別研究
      電機(jī)裝箱設(shè)計(jì)系統(tǒng)解決方案和應(yīng)用
      5.3 視圖與投影
      視圖
      Y—20重型運(yùn)輸機(jī)多視圖
      SA2型76毫米車載高炮多視圖
      三維貨物裝箱問(wèn)題的研究進(jìn)展
      应城市| 苗栗市| 汤原县| 景宁| 南投县| 东乡族自治县| 巩义市| 固安县| 平昌县| 中牟县| 包头市| 汶上县| 奉化市| 乐业县| 九龙县| 德保县| 浠水县| 衡山县| 开化县| 柳江县| 尚志市| 施秉县| 古交市| 霞浦县| 双辽市| 清丰县| 北流市| 二连浩特市| 婺源县| 巴林左旗| 凤庆县| 石首市| 枣强县| 北安市| 洛川县| 且末县| 本溪市| 永济市| 临湘市| 宝清县| 株洲市|