• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于深度學(xué)習(xí)的視頻語(yǔ)義分割綜述①

      2019-12-20 02:31:22韓利麗孟朝暉
      關(guān)鍵詞:關(guān)鍵幀語(yǔ)義卷積

      韓利麗,孟朝暉

      (河海大學(xué) 計(jì)算機(jī)與信息學(xué)院,南京 211100)

      引言

      語(yǔ)義分割是計(jì)算機(jī)視覺(jué)的核心任務(wù).卷積網(wǎng)絡(luò)CNNs的發(fā)展,尤其是全卷積網(wǎng)絡(luò)(FCN)[1]的出現(xiàn),使得語(yǔ)義分割任務(wù)在各個(gè)數(shù)據(jù)集上取得重大突破.隨著研究的深入,圖像語(yǔ)義分割已不滿足時(shí)代的發(fā)展,視頻語(yǔ)義分割開(kāi)始走進(jìn)人們的視線.與圖像相比視頻更易獲取,且視頻也逐漸越過(guò)圖像成為信息傳播的主要媒介.

      視頻語(yǔ)義分割的挑戰(zhàn)比圖像語(yǔ)義分割更大,因?yàn)橐曨l是由連續(xù)的幀序列組成,每秒幀數(shù)為15-30幀.圖像語(yǔ)義分割是對(duì)圖像進(jìn)行處理,目的是將圖像分割為若干個(gè)有特定語(yǔ)義的區(qū)域,對(duì)圖像中的每個(gè)像素點(diǎn)進(jìn)行分類,圖像語(yǔ)義分割是靜態(tài)的.而視頻語(yǔ)義分割是對(duì)視頻序列中的每幀圖像的每個(gè)像素點(diǎn)進(jìn)行操作,不僅幀數(shù)多,而且還要考慮相鄰幀之間的關(guān)系,視頻語(yǔ)義分割是動(dòng)態(tài)的.視頻語(yǔ)義分割在自動(dòng)駕駛、無(wú)人機(jī)導(dǎo)航、檔案影像識(shí)別和可穿戴計(jì)算等領(lǐng)域有重要意義.

      為解決視頻分割問(wèn)題,研究者做了不同方面的嘗試.研究解決時(shí)空“超體素”[2,3]、無(wú)監(jiān)督和運(yùn)動(dòng)驅(qū)動(dòng)的對(duì)象分割[4-6],或?qū)?biāo)記視頻進(jìn)行弱監(jiān)督分割[7-9]等,這些方法不適用于實(shí)時(shí)或復(fù)雜的多類、多對(duì)象場(chǎng)景的語(yǔ)義分割.利用3D場(chǎng)景結(jié)構(gòu)解決視頻語(yǔ)義分割的方法,如:在文獻(xiàn)[10-12]中用在運(yùn)動(dòng)結(jié)構(gòu)獲得的三維點(diǎn)云構(gòu)建模型,基于這些幾何的與/或運(yùn)動(dòng)特征,改進(jìn)語(yǔ)義分割;在文獻(xiàn)[13,14]中提出把在視頻數(shù)據(jù)中得到的2D語(yǔ)義估計(jì)與3D場(chǎng)景重建結(jié)合起來(lái),雖然3D信息很豐富,但信息的獲取代價(jià)昂貴,并且得到的預(yù)測(cè)錯(cuò)誤很難解決.還有一些采用快速濾波技術(shù)的方法,對(duì)每幀圖像先計(jì)算出語(yǔ)義標(biāo)簽信息再進(jìn)行傳播.如:在文獻(xiàn)[15]中通過(guò)學(xué)習(xí)連續(xù)幀像素之間的相似函數(shù)去傳遞預(yù)測(cè);文獻(xiàn)[16]實(shí)現(xiàn)了一個(gè)利用可學(xué)習(xí)的雙邊濾波器[17],實(shí)現(xiàn)視頻幀間信息的長(zhǎng)距離傳播.

      還有一些方法利用幀序列之間的相關(guān)性.因?yàn)橐曨l幀的冗余性、還有數(shù)量的龐大性,如果直接對(duì)整個(gè)視頻序列進(jìn)行處理,不僅影響分割的結(jié)果,而且耗費(fèi)資源.目前對(duì)視頻語(yǔ)義分割的研究主要分為兩個(gè)方面:一是利用視頻幀之間的時(shí)序信息提高圖像分割的精度;二是利用視頻幀間的相似性確定關(guān)鍵幀,減少計(jì)算量,提高模型的運(yùn)行速度和吞吐量.本文介紹一些比較突出的視頻語(yǔ)義分割方法.

      1 數(shù)據(jù)集

      目前用于視頻語(yǔ)義分割的數(shù)據(jù)集主要有2個(gè):CamVid數(shù)據(jù)集[18]和Cityscapes數(shù)據(jù)集[19].

      1.1 CamVid數(shù)據(jù)集

      CamVid數(shù)據(jù)集[18]是第一個(gè)包含對(duì)象類語(yǔ)義標(biāo)簽的視頻數(shù)據(jù)集,由從白天和黃昏拍攝的駕駛視頻中選取,包含701張彩色圖像,并帶有11個(gè)語(yǔ)義類的注釋.該數(shù)據(jù)集提供ground truth標(biāo)簽,將每個(gè)像素與32個(gè)語(yǔ)義類中的其中一個(gè)相關(guān)聯(lián).該數(shù)據(jù)集有4個(gè)視頻片段組成,每個(gè)視頻片段平均包含5000幀,分辨率為720×960,大約有40 K幀組成.

      1.2 Cityscapes數(shù)據(jù)集

      Cityscapes數(shù)據(jù)集[19],即城市景觀數(shù)據(jù)集,用于城市場(chǎng)景理解和自動(dòng)駕駛.該數(shù)據(jù)集由從50個(gè)城市采集的街道場(chǎng)景視頻片段組成,幀率為17 fps.訓(xùn)練集、驗(yàn)證集和測(cè)試集分別包含2975、500、1525個(gè)視頻片段.每個(gè)視頻片段有30幀,只對(duì)第20幀做像素級(jí)的標(biāo)注,用于語(yǔ)義分割.該數(shù)據(jù)集包含30個(gè)類,數(shù)據(jù)集的標(biāo)注分為fine和coarse:fine是對(duì)從27個(gè)城市中選擇5000幅圖像進(jìn)行密集的像素級(jí)標(biāo)注,在30幀視頻片段的第20幀上完成的,目的是為了實(shí)現(xiàn)前景對(duì)象、背景和整體場(chǎng)景布局的高度多樣性,通過(guò)完整的注釋提供上下文信息;coarse是在剩下的23個(gè)城市中對(duì)每隔20 s或20 m的行駛距離(無(wú)論哪個(gè)先到)選擇一張圖像進(jìn)行粗注釋,總共生成2萬(wàn)張圖像,以支持利用大量弱標(biāo)記數(shù)據(jù)的方法.

      2 提升精度的視頻語(yǔ)義分割方法

      現(xiàn)有CNN網(wǎng)絡(luò)只能提取空間特征,不能提取時(shí)序信息,所以不能直接用現(xiàn)有的語(yǔ)義分割方法處理視頻集.根據(jù)視頻是由連續(xù)的幀序列組成,序列中包含時(shí)序信息,利用時(shí)序信息可以把具有相同空間特征的不同類別對(duì)象區(qū)別開(kāi),所以在視頻語(yǔ)義分割任務(wù)中一般利用視頻幀之間的時(shí)序信息提升分割精度.

      2.1 STFCN

      基于之前視頻語(yǔ)義分割方法沒(méi)有考慮視頻序列中時(shí)序信息的特點(diǎn),Fayyaz等提出把LSTM模塊[20,21]與FCN[1]相結(jié)合,構(gòu)成端到端的時(shí)空卷積網(wǎng)絡(luò)結(jié)構(gòu)(Spatio-Temporal FCN)[22],用STFCN表示該時(shí)空模型.把LSTM模塊嵌入到FCN-8的fc7層中,因?yàn)閒c7是最深的全卷積層,與較淺的層相比,該層提取的特征比其它層提取的語(yǔ)義信息多.LSTM網(wǎng)絡(luò)是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò),由一個(gè)記憶單元、一定數(shù)量的輸入和一個(gè)輸出門組成,輸出門用來(lái)控制序列中的信息流,避免丟失重要信息.LSTM可以用來(lái)解決梯度消失問(wèn)題和記憶長(zhǎng)時(shí)間的信息.

      STFCN[22]模型的操作分為4步:首先,視頻幀經(jīng)過(guò)FCN[1]提取空間特征,得到該幀各區(qū)域的特征圖;其次,將各區(qū)域特征圖送入時(shí)空模型得到時(shí)空特征;然后,把時(shí)空特征送入時(shí)空分類器得到各區(qū)域基本的預(yù)測(cè);最后經(jīng)過(guò)反卷積上采樣操作,恢復(fù)到與輸入尺寸相同大小.該模型在CamVid[18]數(shù)據(jù)集上進(jìn)行驗(yàn)證,在一定程度上提升了分割性能.但該模型沒(méi)有充分考慮幀間的相關(guān)性,且模型過(guò)于復(fù)雜,無(wú)法達(dá)到實(shí)時(shí)的要求.

      2.2 Netwarp模型

      基于視頻數(shù)據(jù)幀數(shù)多,靜態(tài)語(yǔ)義分割模型不適用,Gadde等提出一個(gè)可以處理視頻數(shù)據(jù)的新技術(shù),即構(gòu)造Netwarp模型[23],將該模型與靜態(tài)CNN相結(jié)合.文獻(xiàn)[24]中展示通過(guò)CNN中間層的相鄰幀之間的特征變化緩慢,尤其是在更深的卷積層中,與文獻(xiàn)[25]中基于運(yùn)行時(shí)間的Bilateral inception模型為Netwarp提供理論依據(jù).Netwarp利用相鄰幀之間的光流信息,把通過(guò)CNN中間層的前一幀的特征warp到當(dāng)前幀的相應(yīng)位置,光流定義為兩張圖像之間對(duì)應(yīng)像素移動(dòng)的向量.該模型的輸入是連續(xù)的兩幀,當(dāng)前幀用t表示,前一幀用t-1代表.具體操作分為3步:首先,把用Dis-Flow[26]方法得到光流信息F(t)送入FlowTransformation模塊,該模塊用一個(gè)小的卷積神經(jīng)網(wǎng)絡(luò)FlowCNN傳輸信息,表示為 ∧(Ft);其次,將 ∧(Ft)與前一幀第k層的特征warp到當(dāng)前幀得到最后把當(dāng)前幀在第k層的特征與通過(guò)式(1)得到嵌入Netwarp模塊的網(wǎng)絡(luò)可以在線進(jìn)行端到端的訓(xùn)練,與逐幀操作相比計(jì)算開(kāi)銷更小.并且該模塊可以對(duì)網(wǎng)絡(luò)的中間層進(jìn)行優(yōu)化,在網(wǎng)絡(luò)中可多次使用.

      2.3 時(shí)空變壓器門控遞歸單元

      基于視頻數(shù)據(jù)集缺少高質(zhì)量的標(biāo)注與相鄰視頻幀之間包含大量冗余信息,差異性顯著區(qū)域的信息尤為重要,所以Nilsson和Sminchisescu提出基于時(shí)空變壓器門控遞歸單元STGRU(Spatio-Temporal Transformer Gated Recurrent Unit)的GRFP模型[27],結(jié)合多幀未標(biāo)注信息提高分割性能.該模型由基于Gated Recurrent Unit[28]的STGRU、基于Spatial Transformer Network[29]的時(shí)空扭曲變壓器和前向后向傳播操作組成,只對(duì)分割后的結(jié)果進(jìn)行處理.STGRU的本質(zhì)是通過(guò)光流信息把當(dāng)前幀的前后兩幀的標(biāo)簽映射結(jié)合到當(dāng)前幀,考慮到前面幀的一些信息對(duì)當(dāng)前幀的分割沒(méi)有幫助,所以使用門控思想讓網(wǎng)絡(luò)學(xué)習(xí)結(jié)合不同的語(yǔ)義圖.相鄰幀的局部信息用卷積GRU學(xué)習(xí),可以把不同時(shí)間點(diǎn)的信息很好的融合.

      STGRU具體操作為:首先,計(jì)算相鄰兩幀的語(yǔ)義分割圖以及光流;其次利用光流把前一幀的結(jié)果warp到當(dāng)前幀;最后把warp后的結(jié)果與當(dāng)前幀的分割圖一起送入GRU,得到當(dāng)前幀最終的分割結(jié)果.該模型與多個(gè)圖像分割網(wǎng)絡(luò)相結(jié)合在標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行驗(yàn)證,試驗(yàn)表明STGRU可以在不增加額外標(biāo)簽、占用很少計(jì)算量的情況下,只用標(biāo)簽視頻幀就能向鄰近無(wú)標(biāo)簽視頻幀傳播信息,并且在提升語(yǔ)義分割性能的同時(shí)保證時(shí)間的一致性.

      2.4 新PERAL模型

      基于視頻序列的時(shí)間連續(xù)性,Jin等提出通過(guò)預(yù)測(cè)未來(lái)幀學(xué)習(xí)判別特征,并結(jié)合預(yù)測(cè)結(jié)果和當(dāng)前特征來(lái)解析幀的新PEARL(Parsing with prEdictive feAtuRe Learning)模型[30].與之前的場(chǎng)景預(yù)測(cè)學(xué)習(xí)模型PEARL最大的不同是增加了預(yù)測(cè)學(xué)習(xí)網(wǎng)絡(luò),PEARL包含2個(gè)預(yù)測(cè)學(xué)習(xí)階段.第一階段(無(wú)監(jiān)督學(xué)習(xí))中采用類似GAN[31]網(wǎng)絡(luò)結(jié)構(gòu),在未標(biāo)記的視頻數(shù)據(jù)中預(yù)測(cè)未來(lái)幀,實(shí)現(xiàn)對(duì)時(shí)間特征的學(xué)習(xí).預(yù)測(cè)學(xué)習(xí)網(wǎng)絡(luò)作為生成器G,通過(guò)特征提取器將輸入的視頻序列映射到時(shí)間表示上;再用上采樣層對(duì)其進(jìn)行空間放大,最后反饋給卷積層,生成像素級(jí)的RGB值;判別器D對(duì)G生成的圖像與真實(shí)圖像進(jìn)行判別.第二階段將預(yù)測(cè)學(xué)習(xí)網(wǎng)絡(luò)轉(zhuǎn)移到預(yù)測(cè)解析任務(wù)中,把G的生成圖片和輸入視頻序列的下一幀相結(jié)合,通過(guò)上采樣和卷積操作實(shí)現(xiàn)時(shí)間平滑和結(jié)構(gòu)保持,得到最終的分割結(jié)果.與之前對(duì)單幀的簡(jiǎn)單分割相比,該模型的分割的效果更好.

      3 減少計(jì)算量

      視頻數(shù)據(jù)具有連續(xù)幀之間大部分區(qū)域不變性與局部區(qū)域相對(duì)變化明顯的特點(diǎn),變化明顯的視頻幀中往往包含著豐富的目標(biāo)運(yùn)動(dòng)信息,關(guān)鍵幀的選取是解決目前視頻任務(wù)的重點(diǎn).選取關(guān)鍵幀的依據(jù)是視頻的變化程度,而不依賴于視頻數(shù)據(jù)的長(zhǎng)短,在變化明顯的視頻中選取較多的關(guān)鍵幀,沒(méi)有明顯變化的視頻數(shù)據(jù)中選取較少的關(guān)鍵幀.所以,關(guān)鍵幀的選取主要依據(jù)視頻幀之間的變化程度.

      3.1 Clockwork FCN

      Darrell等人依據(jù)以下2點(diǎn)提出Clockwork FCN[32]:一是視頻幀序列之間的像素點(diǎn)變化迅速,但是幀的場(chǎng)景語(yǔ)義內(nèi)容變化緩慢;二是把執(zhí)行視為結(jié)構(gòu)的一方面,為網(wǎng)絡(luò)生成特定的計(jì)算時(shí)間表.受Clockwork循環(huán)網(wǎng)絡(luò)[33]的影響,作者定義一個(gè)由固定或自適應(yīng)信號(hào)驅(qū)動(dòng)的新的Clockwork卷積族.把新的Clockwork與全卷積網(wǎng)絡(luò)FCN[1]相結(jié)合形成Clockwork FCN模型,完成跨幀傳播任務(wù),網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示.該模型把網(wǎng)絡(luò)層分為不同的階段,每個(gè)階段有不同的更新率.時(shí)鐘控制網(wǎng)絡(luò)的具體操作:經(jīng)過(guò)第一階段后,計(jì)算只在特定的時(shí)鐘信號(hào)點(diǎn)執(zhí)行;靜態(tài)場(chǎng)景期間緩存一直持續(xù),當(dāng)遇到動(dòng)態(tài)場(chǎng)景時(shí)開(kāi)始新的計(jì)算,并且輸出與前面的靜態(tài)特征相結(jié)合,以此達(dá)到減少計(jì)算量的目的.

      圖1 Clockwork FCN框架

      3.2 Deep Feature Flow(DFF)

      CNNs中間卷積特征圖與輸入圖像有相同的空間范圍,保持低層圖像內(nèi)容與中高層語(yǔ)義概念[33]之間的空間對(duì)應(yīng)關(guān)系,類似于光流[34,35]提供通過(guò)空間扭曲在鄰近幀之間廉價(jià)傳播特征的機(jī)會(huì).基于光流估計(jì)與特征傳播比通過(guò)卷積計(jì)算特征速度更快,且相鄰幀之間的差別不大,所以Wei Y等提出DFF[36].DFF基于視頻數(shù)據(jù)中相鄰幀之間差異性小,采用固定間隔k選取一幀為關(guān)鍵幀,通過(guò)把關(guān)鍵幀的深度特征映射傳給其他幀的方法減少網(wǎng)絡(luò)計(jì)算量.DFF網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示.

      圖2 Deep Feature Flow

      DFF可以分為兩個(gè)連續(xù)的子網(wǎng)絡(luò),Nfeat特征網(wǎng)絡(luò)與Ntask任務(wù)網(wǎng)絡(luò).I代表輸入圖片,連續(xù)幀序列用Ii表示,i=0,1,…,N代表卷積神經(jīng)網(wǎng)絡(luò),圖片的輸出為y=N(I).Nfeat特征網(wǎng)絡(luò)由全卷積網(wǎng)絡(luò)組成,輸入為每幀圖像,輸出為多個(gè)中間特征圖,f=Nfeat(I).Ntask任務(wù)網(wǎng)絡(luò),根據(jù)不同的任務(wù)有不同的結(jié)構(gòu),輸入是特征圖f,輸出為y=Ntask(f).因?yàn)檫B續(xù)視頻幀之間的相似性,與經(jīng)過(guò)深層網(wǎng)絡(luò)后得到的特征圖之間的強(qiáng)相關(guān)性,特征網(wǎng)絡(luò)Nfeat只對(duì)關(guān)鍵幀進(jìn)行操作,非關(guān)鍵幀Ii的特征圖通過(guò)前面關(guān)鍵幀Ik的特征傳播得到.通過(guò)對(duì)稀疏關(guān)鍵幀的操作,在極大的減少視頻序列計(jì)算量的同時(shí),精確度損失適中.該方法為減少計(jì)算量提供了一個(gè)新的方向,因?yàn)槭枪潭ㄩg隔的選取關(guān)鍵幀,所以該方法適用在環(huán)境變化緩慢的場(chǎng)景.如果用在劇烈變化的場(chǎng)景中會(huì)丟失信息,產(chǎn)生低精度的分割結(jié)果.

      3.3 Low-Latency視頻語(yǔ)義分割

      為增加視頻語(yǔ)義分割在現(xiàn)實(shí)世界中的應(yīng)用,要求在減少計(jì)算量的同時(shí)最大程度的減少時(shí)延,Li Y等提出Low-Latency[37]的視頻語(yǔ)義分割框架.該框架有2個(gè)組成部分:一是特征傳播模型,通過(guò)空間變量卷積(spatially variant convolution)自適應(yīng)的融合特征,減少對(duì)每幀的計(jì)算量;二是基于精確度預(yù)測(cè)自動(dòng)分配計(jì)算量的自適應(yīng)調(diào)度程序,選擇關(guān)鍵幀.該方法首先將視頻序列的第一幀設(shè)為關(guān)鍵幀,以后每隔t時(shí)刻選一幀與前一關(guān)鍵幀進(jìn)行比較,確定是否為關(guān)鍵幀.該模塊對(duì)關(guān)鍵幀和非關(guān)鍵幀的特征傳播方式不同,對(duì)于關(guān)鍵幀直接通過(guò)S(h)得到深層特征;對(duì)于非關(guān)鍵幀用前一關(guān)鍵幀的特征進(jìn)行傳播.

      3.3.1 自適應(yīng)特征傳播模塊

      空間變量卷積(spatially variant convolution)是用卷積表示領(lǐng)域的線性組合,卷積核在不同的位置上有不同變化.空間變量卷積核的權(quán)值通過(guò)權(quán)值預(yù)測(cè)器(weights predictor)確定,該網(wǎng)絡(luò)由三層相互嵌套的卷積層與Relu組成.輸入為當(dāng)前幀與前一關(guān)鍵幀的低層特征圖Flt與Flk,最后一個(gè)卷積層的輸出尺寸為HK2×H×W,其中H×W是高層特征圖的尺寸,即每個(gè)位置輸出一個(gè)HK2通道向量,再將其轉(zhuǎn)換為該位置HK×HK尺寸的卷積核.卷積層的輸出通過(guò)Softmax層進(jìn)行歸一化處理,使得每個(gè)卷積核權(quán)值之和為1.特征傳播流程圖如圖3所示,S(l)代表網(wǎng)絡(luò)提取低層特征(low level feature),S(h)代表獲得深度特征(deep feature),Ik為關(guān)鍵幀,It是Ik隔t時(shí)刻后選取的一幀,WeightPredictor為權(quán)值預(yù)測(cè)器,Spatially Variant Convolution為空間變量卷積,Fhk為Ik的高層特征圖,Fht為It的高層特征圖.

      圖3 Low-Latency自適應(yīng)傳播流程圖

      3.3.2 關(guān)鍵幀選擇模塊

      關(guān)鍵幀的選取基于每幀的低層特征(low level features).因?yàn)楫?dāng)當(dāng)前幀的內(nèi)容發(fā)生巨大的變化時(shí),低層特征比如邊緣位置信息的差異性一定會(huì)很大,而且獲取底層特征比獲取高層特征的代價(jià)更小.該預(yù)測(cè)網(wǎng)絡(luò)有兩個(gè)256通道的卷積層、全局池化層與全連接層組成,輸入為當(dāng)前幀與前關(guān)鍵幀的低層特征圖,輸出是當(dāng)前幀為關(guān)鍵幀的可能性.如果輸出值大于設(shè)定的閾值就輸出1,表示當(dāng)前幀的內(nèi)容和前關(guān)鍵幀的差距比較大,更新關(guān)鍵幀;否則輸出為0,代表不更新關(guān)鍵幀.

      3.4 DVSNet

      為快速高效的對(duì)視頻數(shù)據(jù)進(jìn)行語(yǔ)義分割操作,Yu S等人提出了動(dòng)態(tài)視頻語(yǔ)義分割網(wǎng)絡(luò)DVSNet(Dynamic Video Segmentation Network)[38].該網(wǎng)絡(luò)由兩個(gè)子網(wǎng)絡(luò)組成:分割網(wǎng)絡(luò)和光流網(wǎng)絡(luò).分割網(wǎng)絡(luò)生成高精度的語(yǔ)義分割圖,但是運(yùn)行速度慢、層數(shù)多;流網(wǎng)絡(luò)運(yùn)行速度快,但其輸出結(jié)果需要進(jìn)一步的處理,才能得到低精確度的語(yǔ)義分割圖.該網(wǎng)絡(luò)的操作分為3步:首先,將視頻幀分為4個(gè)相同尺寸的幀區(qū)域,為避免切分處信息的丟失,每個(gè)區(qū)域增加64個(gè)重復(fù)的像素值;其次,將當(dāng)前幀與前一關(guān)鍵幀相應(yīng)位置的幀區(qū)域?qū)λ腿霙Q策網(wǎng)絡(luò)DN,DN根據(jù)期望置信分?jǐn)?shù)(expected confidence score)與設(shè)定閾值進(jìn)行比較,決定把當(dāng)前幀區(qū)域送入哪個(gè)網(wǎng)絡(luò):如果期望置信分?jǐn)?shù)比設(shè)定閾值小,對(duì)應(yīng)區(qū)域送入分割網(wǎng)絡(luò);反之,對(duì)應(yīng)區(qū)域送入包含空間扭曲的流網(wǎng)絡(luò);最后,不同路徑的幀區(qū)域得到不同的分割圖.

      3.4.1 DN決策網(wǎng)絡(luò)

      DN通過(guò)估計(jì)該區(qū)域的期望置信分?jǐn)?shù)與閾值的比較,決定是否把該區(qū)域送入分割網(wǎng)絡(luò).閾值是提前設(shè)定的,可根據(jù)不同的任務(wù)設(shè)置不同的閾值,并且閾值的大小與分割的精度和幀率有關(guān):較小的閾值產(chǎn)生低的精確度和高的幀率,大部分輸入幀區(qū)域送入空間扭曲路徑;較大的閾值產(chǎn)生高的精確度,但速度有所降低.

      DN網(wǎng)絡(luò)是1個(gè)輕量級(jí)的CNN,由1個(gè)卷積層、3個(gè)全連接層組成.DN網(wǎng)絡(luò)的作用是評(píng)估空間扭曲路徑產(chǎn)生的分割結(jié)果(OC)與分割路徑的結(jié)果(SC)之間的相似性.DN的輸入是光流網(wǎng)絡(luò)第6層的輸出特征圖,輸出為期望置信分?jǐn)?shù).在訓(xùn)練階段,DN網(wǎng)絡(luò)的目標(biāo)是學(xué)習(xí)預(yù)測(cè)一個(gè)幀區(qū)域的期望置信值,盡可能的接近真實(shí)的置信值.首先,將預(yù)測(cè)得到的期望置信分?jǐn)?shù)與真實(shí)置信分?jǐn)?shù)進(jìn)行比較,計(jì)算均方誤差(MSE)損失;其次,根據(jù)MSE用Adam optimizer更新DN中的參數(shù).在執(zhí)行(測(cè)試)階段,DN和光流網(wǎng)絡(luò)不訪問(wèn)真實(shí)置信分?jǐn)?shù).DN首先分別對(duì)4個(gè)幀區(qū)域?qū)M(jìn)行處理,得到4個(gè)期望置信分?jǐn)?shù);然后把期望置信分?jǐn)?shù)與預(yù)先設(shè)置的閾值比較:如果比設(shè)定閾值小,對(duì)應(yīng)區(qū)域送入分割網(wǎng)絡(luò);如果比設(shè)定閾值大,對(duì)應(yīng)區(qū)域送入包含空間扭曲的流網(wǎng)絡(luò).

      4 總結(jié)與展望

      當(dāng)前對(duì)于視頻語(yǔ)義分割的研究主要分為2類,一是高層建模,二是特征傳播.

      4.1 高層建模

      在高層建模方面,一般是在已有網(wǎng)絡(luò)結(jié)構(gòu)上增加額外的層,提升分割精確度.通過(guò)設(shè)計(jì)不同的模塊并與現(xiàn)有CNNs網(wǎng)絡(luò)相結(jié)合,如:STFCN[22]模型是在FCN[1]結(jié)構(gòu)上增加LSTM模塊,利用視頻序列的時(shí)序信息提升精度,但該模型的實(shí)現(xiàn)過(guò)程太過(guò)復(fù)雜,且沒(méi)有考慮相鄰幀之間的相關(guān)性,如果每秒的幀數(shù)過(guò)高,則需要對(duì)每幀進(jìn)行處理,計(jì)算成本高;Netwarp[23]模塊是利用相鄰幀的光流信息實(shí)現(xiàn)跨時(shí)間的內(nèi)在網(wǎng)絡(luò)特征的warping(扭曲),該模塊可以與現(xiàn)存的CNNs相結(jié)合實(shí)現(xiàn)端到端的訓(xùn)練,并提升性能;時(shí)序門控循環(huán)流組件STGRU[27]可以嵌入到靜態(tài)語(yǔ)義分割結(jié)構(gòu),將其轉(zhuǎn)化為弱監(jiān)督的視頻處理結(jié)構(gòu),在Cityscapes[19]和CamVid[18]數(shù)據(jù)集上都取得了比原有網(wǎng)絡(luò)好的結(jié)果,在一定程度上提升了性能;新PERAL模型在原有基礎(chǔ)上增加預(yù)測(cè)學(xué)習(xí)網(wǎng)絡(luò),用類似GAN[31]的結(jié)構(gòu)把預(yù)測(cè)結(jié)果與待分割的視頻幀進(jìn)行微調(diào),利用時(shí)間一致性提升分割精度.

      4.2 特征傳播

      在特征傳播方面,Clockwork Net[32]采用多級(jí)FCN[1],對(duì)網(wǎng)絡(luò)中不同層次的特征映射使用不同的更新周期,并在一定的網(wǎng)絡(luò)層直接重用前一幀的第二級(jí)或第三級(jí)特性,節(jié)省計(jì)算量.雖然其高層特性相對(duì)穩(wěn)定,但這種簡(jiǎn)單的復(fù)制并不能得到最佳結(jié)果,特別是當(dāng)場(chǎng)景發(fā)生巨大改變時(shí).DFF[36]通過(guò)流網(wǎng)絡(luò)[35]中學(xué)習(xí)到的光流信息,將高層特征從關(guān)鍵幀傳播到當(dāng)前幀,獲得了較好的性能.但單獨(dú)的流網(wǎng)絡(luò)增加計(jì)算成本,光流逐像素的位置變換可能會(huì)丟失視頻幀中的空間信息.在Clockwork Net[32]與DFF[36]中關(guān)鍵幀的選擇對(duì)整體性能至關(guān)重要,但以上兩種方法只簡(jiǎn)單的使用固定幀間間隔調(diào)度[25,31]或啟發(fā)式閾值方案[25]選擇關(guān)鍵幀,并沒(méi)有提供詳細(xì)的研究.

      由表1可知Low-Latency與其他方法相比所花費(fèi)的時(shí)間和延時(shí)都是最低的.就特征傳播而言,Clockwork Net[32]直接重用特征,在一定程度上減少了計(jì)算量,但精度不高.GRFP是通過(guò)預(yù)測(cè)學(xué)習(xí)對(duì)分割結(jié)果過(guò)進(jìn)行微調(diào),與Clockwork Net相比精確度略高,但耗費(fèi)的時(shí)間更長(zhǎng),屬于用時(shí)間換精確度.DFF[36]與Clockwork Net相比的分割精度更高,但后者采用固定幀間間隔的方法選擇關(guān)鍵幀,用光流傳播特征,忽略視頻幀的空間對(duì)應(yīng)關(guān)系,延時(shí)效果最差.并且當(dāng)視頻快速變化時(shí),會(huì)丟失一些重要信息,影響分割結(jié)果.與以上方法相比,Low-Latency在延時(shí)和精確度方面得到了權(quán)衡,在降低延時(shí)的同時(shí),保證精確度的穩(wěn)定,并且該方法可以在線設(shè)置中保證低延時(shí).

      表1 幾種方法的實(shí)驗(yàn)結(jié)果

      為提升視頻語(yǔ)義分割在自動(dòng)駕駛等領(lǐng)域的可能性,解決DFF固定間隔確定關(guān)鍵幀方法的弊端,Low-Latency[37]與DVSNet[38]采用動(dòng)態(tài)的關(guān)鍵幀更新方法,即每隔時(shí)間間隔t選一幀與前一關(guān)鍵幀比較,決定是否更新關(guān)鍵幀.Low-Latency[37]根據(jù)當(dāng)前幀與前一關(guān)鍵幀低層特征之間的偏移量與閾值的比較結(jié)果確定該幀是否為關(guān)鍵幀,實(shí)現(xiàn)關(guān)鍵幀的自適應(yīng)調(diào)度.選取低層特征作為比較依據(jù)是因?yàn)榕c獲取高層特征相比,低層特征所需的時(shí)間少,并且只對(duì)關(guān)鍵幀提取高層特征可以減少計(jì)算量.而DVSNet[38]是將視頻幀分為4個(gè)相同的尺寸,把對(duì)應(yīng)幀區(qū)域?qū)λ腿隓N網(wǎng)絡(luò),DN根據(jù)期望置信分?jǐn)?shù)與閾值的比較結(jié)果確定是否更新關(guān)鍵幀,實(shí)現(xiàn)關(guān)鍵幀的動(dòng)態(tài)調(diào)度.這2種方法都選擇每隔時(shí)間間隔t選一幀與前一關(guān)鍵幀進(jìn)行比較,前者依據(jù)低層特征之間的偏移量確定是否更新關(guān)鍵幀,后者則根據(jù)幀區(qū)域?qū)Φ闹眯欧謹(jǐn)?shù)確定是否更新關(guān)鍵幀.

      Low-Latency的目的是在最大程度減小時(shí)延的同時(shí)保證精確度的穩(wěn)定,盡可能的滿足視頻語(yǔ)義分割實(shí)時(shí)性的要求.DVSNet[38]通過(guò)改變閾值的大小實(shí)現(xiàn)精度與速度的調(diào)整,在標(biāo)準(zhǔn)數(shù)據(jù)集Cityscapes[19]上驗(yàn)證,證明該方法在幀率為19.8 fps的情況下mIoU為70.4%、30.4 fps情況下得到63.2%的mIoU.以上方法都是在視頻語(yǔ)義分割道路上的探索,利用視頻數(shù)據(jù)的時(shí)間一致性,通過(guò)特征傳播、信息重用、更新關(guān)鍵幀等方式減少計(jì)算量、提升分割精度、降低時(shí)延,但目前的研究還不能完全滿足自動(dòng)駕駛等領(lǐng)域?qū)?shí)時(shí)性以及精確度的要求.

      4.3 展望

      以上方法在一定程度上促進(jìn)了視頻語(yǔ)義分割的發(fā)展,簡(jiǎn)單模型的組合不能很好地適應(yīng)時(shí)代的要求,依據(jù)選擇關(guān)鍵幀的方法在減少計(jì)算量的同時(shí)提升精確度.

      (1)關(guān)鍵幀選擇

      目前對(duì)關(guān)鍵幀的選擇:一是固定幀間間隔確定;二是固定時(shí)間間隔選擇一幀與前一關(guān)鍵幀比較確定是否更新關(guān)鍵幀.目前的方法并沒(méi)有明確給出詳細(xì)的閾值計(jì)算方法,而且閾值的設(shè)定太過(guò)主觀.未來(lái)可以在確定關(guān)鍵幀方面進(jìn)行改進(jìn),用相對(duì)客觀的方法選擇關(guān)鍵幀,如可以考慮Siamese[39]比較相鄰幀間的相似性,在減少計(jì)算量的同時(shí),更注重分割精確度,使視頻語(yǔ)義分割技術(shù)更好的應(yīng)用在自動(dòng)駕駛等領(lǐng)域.

      (2)數(shù)據(jù)集

      用于視頻語(yǔ)義分割的數(shù)據(jù)集精細(xì)標(biāo)注很少,訓(xùn)練過(guò)程中信息易缺失.因?yàn)閿?shù)據(jù)集的有限性,使得模型的遷移能力差,不能很好地適應(yīng)未訓(xùn)練的數(shù)據(jù)集.并且在現(xiàn)實(shí)世界中,場(chǎng)景類型多變,所面對(duì)的挑戰(zhàn)也更大.可以考慮將真實(shí)數(shù)據(jù)集與虛擬場(chǎng)景數(shù)據(jù)集相結(jié)合,提升模型遷移學(xué)習(xí)的能力.

      (3)特征提取

      現(xiàn)有視頻語(yǔ)義分割方法都是在靜態(tài)語(yǔ)義分割的基礎(chǔ)上改進(jìn),對(duì)圖像語(yǔ)義分割的改進(jìn)可以提升視頻語(yǔ)義分割的性能.如為使輸出分割圖與輸入尺寸相同需對(duì)后三層特征圖進(jìn)行融合,該方法可能丟失信息.為盡可能多的提取特征可以把每一個(gè)卷積池化操作后的特征圖都與后面各層特征圖進(jìn)行融合,最后再通過(guò)跳躍結(jié)構(gòu)融合特征,提升分割質(zhì)量.提升圖像特征提取能力可以進(jìn)一步的提高視頻語(yǔ)義分割精度,這也是未來(lái)對(duì)視頻語(yǔ)義分割研究的一個(gè)方向.

      1 Long L,Shelhamer E,Darrell T.Fully convolutional networks for semantic segmentation.Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition.Boston,MA,USA.2015.3431-3440.

      猜你喜歡
      關(guān)鍵幀語(yǔ)義卷積
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      語(yǔ)言與語(yǔ)義
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      基于改進(jìn)關(guān)鍵幀選擇的RGB-D SLAM算法
      “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
      基于相關(guān)系數(shù)的道路監(jiān)控視頻關(guān)鍵幀提取算法
      基于聚散熵及運(yùn)動(dòng)目標(biāo)檢測(cè)的監(jiān)控視頻關(guān)鍵幀提取
      認(rèn)知范疇模糊與語(yǔ)義模糊
      論“關(guān)鍵幀”在動(dòng)畫制作中的作用
      惠州市| 福安市| 承德县| 即墨市| 思南县| 洪洞县| 合肥市| 余干县| 松阳县| 城步| 老河口市| 旌德县| 化隆| 克拉玛依市| 丰台区| 溆浦县| 太原市| 株洲县| 南开区| 江口县| 巴彦淖尔市| 明溪县| 南澳县| 娱乐| 禄劝| 黑水县| 桂东县| 乌拉特中旗| 六盘水市| 滨州市| 上杭县| 海口市| 上高县| 大田县| 北流市| 昭通市| 武平县| 高青县| 东安县| 竹北市| 绩溪县|