王美童,毛 琳,楊大偉
(大連民族大學 機電工程學院,遼寧 大連 116605)
視頻語義分割是為每一視頻幀逐像素分配類別標簽的過程。與圖像語義分割相比,視頻是圖像的集合,由于場景中運動物體時刻變化,導致分割不穩(wěn)定,使得實現(xiàn)高質量視頻語義分割任務極具挑戰(zhàn)。深層幀間語義特征準確性對分割結果至關重要,對此國內外大量學者展開研究。
目前主流視頻語義分割網絡采用AlexNet[1]、VGG[2]、GoogLeNet[3]和ResNet[4]等作為主干進行特征提取,但在特征提取過程中,一些表示高頻邊緣輪廓的信息無法完整保留[5-7]?;诠饬饔嬎愕姆椒ɡ霉饬餍畔⑦M行特征融合獲取更準確的特征表示,利用相鄰兩幀之間光流計算結果增強當前幀分割[8]。Gadde等[9]提出Netwarp模塊,在金字塔場景解析網絡(Pyramid Scene Parsing Network,PSPNet)[10]池化層前后插入Netwarp模塊,利用光流將前一幀特征遷移到當前幀,起到特征增強作用。Zhu等[11]提出深度特征流網絡(Deep Feature Flow,DFF),只提取關鍵幀特征,對非關鍵幀計算其與關鍵幀的光流從而減少計算量,但光流計算成本較大,同時容易將關鍵幀冗余特征傳遞到當前幀?;陂L短期記憶網絡[12](Long-Short Term Memory,LSTM)的方法學習如何在時序上將多幀信息融合地更好。Nilsson等[13]提出時空轉換器門控循環(huán)單元(Spatio-Temporal Transformer Gated Recurrent Unit,STGRU),將多幀的語義分割圖通過GRU傳遞到當前幀,只對分割后的結果進行處理,結合多幀未標注信息使分割結果語義一致性增強。Sistu等[14]提出多流全卷積網絡(Multi-Stream Full Convlution Network,MSFCN),使用ResNet-50作為基線編碼器,利用LSTM對FCN[15]編碼器進行時間處理,將當前幀和過去幀的編碼融合,但LSTM嵌在編碼器和解碼器之間,對主干網絡提取的特征直接進行處理,忽略了主干網絡提取特征的不充分性。Li等[16]提出注意力引導網絡(Attention-Guided Network,AGNet),自適應加強幀間和幀內特征,通過提高時間連續(xù)性實現(xiàn)精準分割。Wang等[17]提出時空記憶注意力網絡(Temporal Memory Attention,TMANet),利用記憶和自注意力建立時間關系,引入時間記憶注意模塊捕捉時間序列的特征關系。Paul等[18]提出局部記憶注意網絡(Local Memory Attention Network,LMANet),網絡主干使用改進后的高效殘差結構(Efficient Residual Factorized ConvNet,ERFNet)獲得更深層次的性能增益,使用局部注意力機制訪問內存中的特征。上述研究中利用了光流、LSTM、注意力機制等對主干輸出特征進行不同形式處理,但忽略了特征在傳遞過程中產生偏差的問題,導致在解碼分割中不能得到精細的邊緣輪廓和具體結構特征。
針對目前視頻語義分割算法中幀間語義特征傳遞偏差問題,本文提出局部記憶語義特征增強算法(Local Memory Semantic Feature Enhancement Algorithm,E-LMA),借鑒八度卷積(OctConv)特征分頻處理思想[19],將卷積層輸出特征映射看作不同頻率信息的混合。使用OctConv在相應的頻率空間上做不同卷積處理,形成頻率之間的信息交互,使網絡能有效處理高、低頻分量,增強記憶幀和查詢幀的特征表達能力,能夠更準確地比較相鄰幀之間的相似信息,從而提升分割準確性。
為減小幀間語義特征傳遞偏差,構建視頻語義分割網絡,該網絡以編碼-解碼架構為基礎,輸入視頻幀經主干網絡提取特征可表示為
X=F(I)。
(1)
式中:I表示輸入主干網絡的視頻幀;F表示卷積和最大池化計算過程;X表示主干網絡輸出特征圖。經池化和下采樣操作過濾邊緣紋理信息,特征圖趨于平滑狀態(tài),特征圖表達不夠清晰。
(2)
式中:M(Memory)表示記憶;Q(Query)表示查詢;C表示通道數;H×W表示特征圖的空間尺寸大??;G1和G2表示通道數為128、卷積核為3×3的卷積計算。
定義2:KM(i,j)和KQ(p,q)為表示空間位置的特征向量,(i,j),(p,q)∈{1,…,H}×{1,…,W},記憶和查詢配對相似度可以表示為一個4維張量C(KM,KQ)∈RH×W×R×R,則C的計算過程為
C(KM,KQ)=KM(i,j)TKQ(p,q)。
(3)
式中,通過匹配K(Key)訪問和組合存儲在V(Value)中的豐富語義特征。
目前基于時空記憶(Space-Time Memory)[20,21]方法利用圖像全局特征構建幀間全局記憶,視頻目標在給定位置的內容更可能在記憶幀的相似位置找到,因此采用記憶幀中局部特征構建精確的局部區(qū)域記憶。
(4)
式中:R表示局部記憶區(qū)域大小,R≤H,W;m、n表示第s個目標位置;P表示局部記憶語義特征匹配結果;?表示元素相乘。
在特征匹配的過程中,由于經主干編碼得到的特征丟失高頻邊緣,導致幀間的語義特征在傳遞過程中出現(xiàn)偏差,尤其是當運動目標移動速度過快時,特征匹配可能出錯導致分割結果不準確,在不同類別間引入錯誤的相關性,使分類不準確,降低分割精度。為解決這一問題,將編碼輸出的混合特征映射到頻率域進行分解。E-LMA局部記憶語義特征增強算法結構如圖1。
圖1 E-LMA局部記憶語義特征增強算法結構
E-LMA算法分開處理低頻和高頻信息,使用OctConv在高頻和低頻信息之間建立有效聯(lián)系,將處理后的特征圖與記憶特征和查詢特征融合,有助于捕獲更多全局信息,輸出增強后的特征。增強后的高頻邊緣特征改善了特征圖在匹配過程中出現(xiàn)的局部記憶特征丟失問題。本文提出一種高效的方式訪問包含在內存中正確邊緣位置的相關特性,為分割解碼器提供了高質量的特征圖,有效提升分割準確性。
在局部記憶語義特征增強模塊中引入OctConv,OctConv特征增強模塊如圖2。采用先分離再融合的思想從特征圖中分離出高頻和低頻特征,并調整各頻率分量權重。先對特征的高頻邊緣區(qū)域進行增強,其次基于高頻增強結果恢復低頻結構特征,使輸出特征圖包含更多高低頻信息,有效提高對低頻和高頻的信息利用[22]。
圖2 OctConv特征增強模塊
YL=fk1(XL)+fk3(ga(XH));
(5)
YH=fk4(XH)+gu(fk2(XL));
(6)
YHL=fk4(YL)+gu(fk2(YL))。
(7)
式中:fk1、fk2、fk3和fk4表示卷積操計算;ga表示平均池化;gu表示上采樣;HL表示頻率更新方向;YHL表示將輸出的高頻特征YL再次分解為高低頻分量。
(8)
硬件配置為NVIDIA GeForce 1080Ti顯卡,在Ubuntu16.04操作系統(tǒng)中,采用Pytorch1.9.0深度學習框架進行訓練和測試網絡模型。以Cityscapes[23]為基準數據集,該數據集包含50個不同城市街道場景,共19個類別,11 900張連續(xù)視頻幀用于訓練,驗證集中2 500張圖片用于測試。采用Adam優(yōu)化器,批尺寸設置為8,設置初始學習率為0.000 2,訓練周期為50個epoch。與LMANet算法參數設置保持一致,記憶大小設置為4,搜索區(qū)域R設置為21。
為評價分割結果的準確性,以平均交并比(Mean Intersection over Union, mIoU)作為視頻語義分割評價指標,mIoU越大表示像素預測值與真實值的交集越大,分類預測結果越準確。mIoU的計算過程為
(9)
式中:(α+1)表示類別數目;i表示真實類別;j表示預測類別;pij表示像素值真實為i類但被預測為j類;pii表示將像素真實值i預測為i;pji表示將像素預測值j預測為真實值i。
E-LMA算法在保持LMANet算法結構不變的基礎上,將OctConv分別并聯(lián)在記憶特征和查詢特征支路上,將卷積特征映射分解為兩組不同的空間頻率,并在其對應頻率上進行不同的卷積處理,視頻語義分割對比結果見表1。
表1 語義分割結果對比
實驗結果表明,在相同批尺寸、迭代周期和學習率設置下E-LMA算法mIoU為73.65%,相比LMANet算法提高了0.37%。在Cityscapes數據集19個類別中,E-LMA算法在每個類別上的mIoU見表2。
表2 Cityscapes數據集仿真結果 %
由表2可以看出E-LMA算法對自動駕駛場景中的某些目標,如地面、公共汽車、交通桿等10個類別的分割結果提升明顯。對比原始算法,E-LMA算法無論是針對摩托車、火車等移動目標還是柵欄、墻等不動目標的分割結果都更接近真實場景,表明E-LMA算法使用OctConv將空間域變換到頻率域進行分解,能有效增強目標邊緣特征,減小幀間語義特征傳遞偏差,進而提升分割準確性,應用在自動駕駛領域有明顯優(yōu)勢。
為驗證OctConv在頻率域上對編碼輸出記憶語義特征具有增強作用,針對OctConv的不同級聯(lián)方式對Cityscapes數據集進行消融,在相同實驗環(huán)境下全面比較,結果見表3。
表3 不同級聯(lián)方式對Cityscapes數據集的仿真結果
OctConv將特征映射張量分解成低頻分量和高頻分量,其中采用單層低頻分量L丟失了圖像細節(jié)信息,不能提升網絡性能;采用單層高頻分量H忽略了圖像內容信息,無法起到特征增強作用。本文提出采用高低頻復用方式,將低頻部分L的采樣提高到原始空間分辨率,與高頻部分L連接,進行卷積處理,高低頻間形成信息交換,在不改變圖像高頻細節(jié)特征的基礎上恢復低頻結構特征,使網絡能夠以一種高效的方式匹配正確記憶特征,提高識別性能。三層級聯(lián)方式HLL能起到特征增強作用,但級聯(lián)層數越多,高低頻復用次數越多,無法保證達到最好效果。因此,E-LAM算法采用兩層級聯(lián)HL方式,在節(jié)約計算成本的同時補償高頻邊緣特征,使目標邊緣特征更清晰,進而改善局部記憶語義特征丟失問題。
為直觀比較輸入視頻幀經主干網絡提取特征和經OctConv特征增強的前后效果,記憶特征和經OctConv增強的邊緣特征可視化結果如圖3。
a)原圖 b)LMANet算法 c)E-LMA算法圖3 局部記憶特征可視化對比
圖3a列為原始視頻中的連續(xù)三幀,圖3b列為經LMANet算法卷積層輸出特征的可視化結果,圖3c列為經E-LMA算法OctConv增強后的可視化結果。第1行,街景中斑馬線細節(jié)更加清晰;第2行,建筑物邊緣與天空分界處更加明顯;第3行,建筑物與地面連接處輪廓更加突出。由此可以驗證,在連續(xù)視頻幀中,E-LMA算法增強了高頻邊緣特征,改善了特征匹配過程中出現(xiàn)的局部記憶特征丟失問題。
編碼輸出特征經增強后能更好地融合不同邊緣位置的語義表示,使網絡在后續(xù)處理中能讓分割結果語義一致性更強,為分割解碼器提供了更好的輸入,改善了局部記憶特征丟失問題。LMANet與E-LMA分割結果如圖4。
a)原圖 b)LMANet算法 c)E-LMA算法 d)真值圖4 LMA與E-LMA分割結果對比圖
圖4a列為當前幀,圖4b和圖4c列分別為LMANet和E-LMA算法的最終分割結果,圖片右下方突出顯示了局部記憶特征增強后的對比結果,圖4d列為真值。第2行b列中對自行車輪胎的分割結果明顯缺失了一部分,而在第2行c列中E-LMA算法減小了幀間語義特征傳遞偏差,缺失的部分得以還原。第4行c列中人和摩托車兩個不同類別目標存在重疊現(xiàn)象,E-LMA算法與LMANet算法相比更接近真實場景。E-LMA算法能有效增強目標邊緣特征,對移動目標、交通工具等表現(xiàn)出更好的分割效果。
本文提出一種局部記憶語義特征增強算法E-LMA,該算法通過補償高頻邊緣細節(jié)信息增強局部記憶特征,減小幀間語義特征傳遞偏差,進而改善不同類別目標之間分割不準確問題。與LMANet算法相比,E-LMA算法提高了重疊目標分類預測的準確性,對邊緣特征有顯著提升能力。E-LMA算法在交通場景下對車輛、道路、交通桿等目標輪廓分割精度更高,適用于自動駕駛和智能機器人等視覺感知領域。在未來工作中,將進一步提高記憶特征和查詢特征相似性計算,提高當前幀分割質量。