基于反饋注意力機制和上下文融合的非模式實例分割

2021-09-11 03:13:56董俊杰劉華平謝珺續(xù)欣瑩孫富春

智能系統(tǒng)學報 2021年4期

董俊杰，劉華平，謝珺，續(xù)欣瑩，孫富春

（1.太原理工大學信息與計算機學院，山西晉中 030600;2.清華大學智能技術與系統(tǒng)國家重點實驗室，北京 100084;3.太原理工大學電氣與動力工程學院，山西太原 030024）

近年來，圖像分類[1-2]、目標檢測[3-6]、語義分割[7-8]、實例分割[9-10]等視覺識別任務取得了巨大的進展。計算機視覺系統(tǒng)的性能在精度上越來越接近于甚至超過人類水平。盡管如此，人類的視覺系統(tǒng)具有感知物體完整物理結構的能力，即使物體在部分遮擋甚至重度遮擋的情況下也能準確預測物體的形狀，這種能力被稱為非模式感知[11](即amodal perception)，使得人類對物體的不可見的、被遮擋的部分進行推理，針對遮擋有一定的魯棒性，從而僅在部分可見的情況下感知物體完整形狀和語義概念。

在非模式實例分割[11]的任務中，amodal masks定義為物體visible masks 和occlusion masks 的并集。預測amodal mask 和visible mask 可以加深對場景的理解；例如，非模式感知可以使自動駕駛汽車能夠在視覺范圍內(nèi)推斷出車輛和行人的整體形狀，即使其中的一部分是看不見的，這能夠顯著降低碰撞的風險；還有機器人在拾取或放置對象時，需要知道對象是否被一個或多個其他對象所遮擋，通過對被遮擋部分的感知計算遮擋區(qū)域，然后指導機器人朝哪個方向移動或者將某些對象移除，幫助機器人獲取感興趣對象的完整結構和語義。

預測物體的不可見部分是非常具有挑戰(zhàn)性的。一個計算機視覺系統(tǒng)如果要感知物體被遮擋、不可見部分的形狀和語義概念，首先需要識別和定位這個物體，這涉及到了目標檢測的技術；第二，需要從可見部分提供的線索去推斷出物體被遮擋部分的最可能外觀特征，并且為物體遮擋部分的像素進行標記，這涉及到語義分割的技術，與此同時在此過程中往往會遭受來自附近其他對象實例信息的誤導；第三，實際上物體往往被多個不同的實例遮擋，這將導致被遮擋的對象會處于不同的深度順序中，如何探索對象之間的相對深度順序關系也給非模式感知帶來很大的困難。

為了有效地完成非模式實例分割的任務，需要區(qū)分一些容易混淆的類別，并考慮不同外觀的對象。我們可以粗略地將所有對象分為兩類：“Things”和“Stuff”，其中“Things”是感興趣的對象且具有相對規(guī)范的形狀，例如行人、汽車等，“Stuff”可以具有相對任意的范圍，例如樹木、墻壁等。因此，在像素級識別中，有必要提高特征表示的識別能力，充分融合上下文信息，捕獲全局特征。

研究人員基于深度神經(jīng)網(wǎng)絡對目標分割提出了一系列方法，提升了分割算法的精度和靈活性。Jonathan 等[7]提出全卷積網(wǎng)絡(fully convolutional networks，F(xiàn)CN)，將CNN 網(wǎng)絡中的全連接層轉化為卷積層，采用反卷積的方法進行上采樣，并引入跳躍連接來改善上采樣效果，實現(xiàn)對圖像中的每個像素預測和分類的任務，但是FCN沒有考慮像素之間的關系，導致分割精度不夠；He 等[9]提出了一種高效的實例分割框架—Mask-RCNN，該算法通過特征金字塔(feature pyramid network，F(xiàn)PN)和ROI Align 層，極大地提升了算法的精度，但仍然沒有考慮到卷積特征的通道和空間的上下文依賴關系；Zhang 等[12]提出SLN 模型，該方法完成了非模式實例分割的任務，引入一種新的表示方法即語義感知距離映射，根據(jù)物體的可見性將物體的不同區(qū)域放置在不同的層次上，進而對物體被遮擋部分預測，盡管實現(xiàn)了對不可見部分的感知，但是忽略了空間相關性，使算法缺乏全局上下文語義信息，很容易導致預測的欠擬合。

在識別物體的時候，人類的視覺感知通過反饋連接和注意力機制傳遞高級語義信息，選擇性地增強和抑制神經(jīng)元的激活[13]。然而非模式實例分割任務的特點是僅僅從對象的可見部分提供的線索來合理預測該對象的被遮擋部分，并且被遮擋部分的空間形狀具有不確定性。通過反饋過程和注意力機制的學習建立豐富的全局上下文關系是非常有幫助的，從而根據(jù)已有的提示推斷出對象最可能的外觀特征。針對以上問題，受人類視覺系統(tǒng)的啟發(fā)，為了提高非模式實例分割中特征表示的鑒別能力和充分聚合上下文信息，本文精心設計了一個反饋注意力機制的特征金字塔結構，以及在實例分割分支引入Context Attention Module。

1 相關工作

1.1 實例分割

兩階段實例分割通常將此任務描述為“先檢測后分割”。它們通常先檢測到邊界框，然后在每個邊界框的區(qū)域中執(zhí)行像素分割。FCIS[14]的主要思想是利用全卷積層預測一組位置敏感的輸出通道，這些通道能夠同時預測對象的類別、邊界框和掩碼；Mask R-CNN[9]建立在Faster-RCNN 基礎上，只需添加一個額外的Mask 分支，并使用ROI Align 層代替ROI 池化操作，以提高精確度；在Mask R-CNN 之后，PANet[15]引入了自底向上的路徑擴充、自適應特征池化和全連接融合，以提高實例分割的性能；單階段實例分割的研究受到了單階段目標檢測器的啟發(fā)，如YOLACT[10]將圖像分割分成兩個子任務：原型掩碼(prototype masks) 的生成和預測每個實例掩碼的掩碼系數(shù)(mask coefficients)；然后，通過原型掩碼和掩碼系數(shù)的線性組合來生成實例掩碼；TensorMask[16]研究了在密集滑動窗口上的實例分割，使用結構化的4D 張量來表示空間域上的掩碼；PolarMask[17]提出使用極坐標表示對掩碼進行編碼，并將逐像素掩碼預測轉換為距離回歸。但這些方法都僅僅預測對象可見部分的掩碼，而沒有對被遮擋、不可見部分進行預測。

1.2 非模式實例分割

圖像非模式實例分割的研究才剛剛起步。Zhu 等[11]基于COCO 原始數(shù)據(jù)集為非模式實例分割提供了一個新的開創(chuàng)性數(shù)據(jù)集COCO-amodal，并提出了AmodalMask 模型，該模型對于提議的對象候選具有較高的召回率，實現(xiàn)對物體不可見部分的推理；Zhang 等[12]提出的SLN 模型，引入語義感知距離映射，根據(jù)物體的可見性程度將物體的不同區(qū)域放置在不同的層次上來對物體不可見部分進行預測；Li 等[18]提出的amodal 實例分割方法，主要通過迭代地將對象的邊界框擴大到具有高熱力圖值的方向，并且重新計算熱力圖來實現(xiàn)對物體被遮擋部分的預測；Follmann 等[19]提出ARCNN 模型，該模型基于Mask RCNN，通過擴展其預測分支，分為amodal mask 預測分支和visible mask 預測分支，實現(xiàn)非模式實例分割；Ehsani 等[20]試圖通過生成對抗網(wǎng)絡(GAN)來生成物體的不可見部分。

1.3 注意力機制

注意力機制可以建立長期依賴關系，提高特征表達能力，并且成為了許多具有挑戰(zhàn)性任務的有效方法，包括圖像分類、語義和實例分割等。目前視覺識別領域主要包括3 種注意力機制的方式：通道注意力機制、空間注意力機制和混合注意力機制。Hu 等[21]提出了SENet 模型，該模型通過在卷積網(wǎng)絡的不同通道間探索各個通道的重要程度，從而顯式地建模通道之間的相互依賴關系，自適應地重新校準通道的特征響應；Wang 等[22]提出的空間注意力機制利用特征圖中所有位置的加權和計算出一個特征的響應，建立起像素之間的上下文依賴關系；Sanghyun 等[23]提出的混合注意力機制通過融合通道和空間兩種注意力機制，充分挖掘全局語義信息，極大地提升了圖像識別的性能。

1.4 基于注意力機制的實例分割

實例分割試圖為輸入圖像中的每個像素獲取類和實例標簽，然而組成每個實例的不同像素點之間具有緊密聯(lián)系，同時有必要區(qū)分相同類別的不同實例對象，由于注意力機制可以獲取全局信息，建立上下文長期依賴關系，因此一些研究引入注意力機制來提高實例分割的性能。Cao 等[24]提出了GCNet，引入Context Modeling 和Transform 模塊從而建立一個輕量級的注意力機制模型，進行全局上下文建模和捕獲通道間的相互依賴，并采用逐像素加法進行特征融合，極大提高了實例分割的效率；FGNet[25]是將一般實例分割和Few-shot 學習范式結合起來，在Mask-RCNN的各個關鍵組件中引入了不同的指導機制，包括注意力指導RPN，關系指導檢測器和注意力指導FCN 用于指導基本實例分割的預測，能夠更好地適應類間泛化；Liu 等[26]提出的Cell r-cnn v3 模型屬于生物醫(yī)學圖像領域的實例分割，包含殘差注意力特征融合機制、掩碼質(zhì)量預測分支，前者促進實例分支中語義上下文信息的學習，后者使每個目標的置信度得分與掩碼預測的質(zhì)量對齊，提高了實例分割的性能。

以上方法，模仿人類視覺系統(tǒng)引入注意力機制，通過對全局上下文信息的建模，捕獲遠程長期依賴關系，使得實例分割性能顯著提升；然而對于非模式的實例分割任務而言，對被遮擋、不可見區(qū)域的像素點進行語義預測則具有更大的挑戰(zhàn)，并且由于需要對物體被遮擋部分進行補全，這將導致同一個像素點可能會分配多個標簽，對提取的特征表達能力和空間細節(jié)具有更高的要求。因此，本文工作將注意力機制引入非模式實例分割的任務中，引入反饋連接進行再學習，建立豐富的上下文融合關系，有選擇地聚合全局信息，顯著提高了預測的精度，極大地解決了分割欠擬合問題。

2 本文方法

2.1 反饋注意力機制的FPN

鑒別特征表示是圖像理解的關鍵，它可以通過捕獲遠程上下文信息來獲得。然而，許多研究表明，由傳統(tǒng)FCN(全卷積網(wǎng)絡)生成的局部特征可能導致“Things”和“Stuff”的錯誤分類；與此同時，基于特征金字塔(feature pyramid network，F(xiàn)PN)的分層檢測方法雖然取得了很好的效果，但是FPN 仍然主要對局部特征進行建模，并沒有充分考慮全局上下文依賴關系。

在利用卷積神經(jīng)網(wǎng)絡對圖像進行特征提取的過程中，高層次特征的每個通道圖都可以看作是一個特定于類的響應，不同的語義響應相互關聯(lián)；通過挖掘通道圖之間的相互依賴關系，強調(diào)特征圖之間的相關性，提高特定語義的特征表示；與此同時，人腦是具有層級結構的，不僅執(zhí)行從下層到上層的前饋過程，而且執(zhí)行從上層到下層的反饋過程。因此，本文引入反饋過程和注意力機制來學習語義信息，首先構建一個通道注意模塊[27]，它可以捕獲通道維度遠程上下文依賴關系，然后將通道注意模塊嵌入到FPN 中；第一輪獲取的特征經(jīng)過通道注意模塊建立全局依賴關系后引入反饋過程進行再學習提取第二輪的特征，構成一個循環(huán)特征金字塔結構，并將兩次提取的特征進行自適應加權，整體的結構如圖1 所示。

圖1 反饋注意力機制的FPN 結構Fig.1 FPN with feedback attention mechanism

本文基于ResNet101 引入反饋連接的FPN。首先如圖1(a)所示為特征金字塔結構(FPN)，左側為ResNet101 主干網(wǎng)絡，右側為金字塔網(wǎng)絡，主干網(wǎng)絡提取圖像特征，然后經(jīng)過自頂向下和橫向連接將每一階段的特征圖進行融合。例如，P3層經(jīng)過B3層和P4層融合得到，P4層是B4層經(jīng)過1×1卷積和上采樣得到，具有高級語義信息，而B3層是位于主干網(wǎng)絡的較淺層，具有底層的細節(jié)信息。

為了更充分合理地模擬人腦捕獲高級語義信息，本文在原來FPN 結構的基礎上，添加了反饋連接和通道注意模塊，構成反饋注意力機制FPN 結構，簡記為FCAM-FPN，如圖1(b) 所示。將第一輪FPN 提取的特征，經(jīng)過通道注意模塊建立遠程依賴關系后得到的輸出特征，采用反饋連接輸入到主干網(wǎng)絡得到第二輪FPN 提取的特征，引入了注意力機制和反饋過程的二次學習，這樣將捕獲富含注意力的前后兩次特征。

通道注意模塊(channel attention module,CAM)的結構如圖2 所示。我們直接從原始特征圖X∈RC×H×W計算通道注意圖D∈RC×C，通道注意圖D相當于一個相關矩陣，它代表了C個通道之間的相關性程度。

圖2 通道注意模塊Fig.2 Channel attention module

具體來說,首先將原始特征圖X變換為X∈RC×N，這里N=H×W,然后在X和XT之間執(zhí)行矩陣乘法，最后應用Softmax 函數(shù)來獲得通道注意圖D∈RC×C：

式中：dji表示第i個通道和第j個通道之間的相關程度。與此同時，對通道注意圖DT與原始特征圖X變換后的X∈RC×N執(zhí)行矩陣乘法并重新變換為RC×H×W，將此結果與原始特征圖X執(zhí)行逐元素求和運算，以獲得最終輸出特征E∈RC×H×W:

式(1)表明，每個通道的最終特征與所有通道建立了緊密的相互依賴關系，通過跳躍連接使得輸出特征表示為所有通道特征和原始特征的和，建立了通道特征圖之間的上下文依賴關系模型。

接下來將從通道注意模塊(CAM)得到的輸出特征，采用反饋連接，重新輸入到ResNet101 主干網(wǎng)絡中，進行第二次特征提取。假設Bi表示自底向上主干網(wǎng)絡的第i級，F(xiàn)i表示自頂而下FPN 操作的第i級，Ri表示經(jīng)過通道注意模塊(CAM)后的輸出特征，那么具有反饋過程的輸出特征fi定義為

式中：x0表示輸入圖像；xi表示主干網(wǎng)絡經(jīng)過多個階段生成的輸出特征，fi表示經(jīng)過自頂而下FPN 的輸出特征，i=1,2,···,S，S是主干殘差網(wǎng)絡的階段數(shù)，令fS+1=0。這樣就使得FPN 形成一個循環(huán)網(wǎng)絡；可將其展開成具有序列的網(wǎng)絡結構，那么此時輸出特征fi表示為

其中 α 被初始化為0，并逐漸學習分配更多的權重。式(2)表明輸出特征為經(jīng)過通道注意模塊前后兩次FPN 提取到特征的自適應加權和；這樣既可以保留前一次FPN 的信息，又可以充分利用反饋注意力機制再學習到的特征表達，建立起通道間的上下文關系，提取更豐富的語義信息。

2.2 上下文注意模塊

為了主動捕獲像素之間的語義依賴關系，引入了基于自注意機制的上下文注意模塊[28](context attention module,CxAM)。對于非模式實例分割任務而言，物體之間的位置關系復雜，并且被遮擋部分的外觀具有不確定性?；谶@些特征，CxAM 編碼了一個像素級別的遠程上下文依賴關系，能夠自適應地關注更相關的區(qū)域。因此，CxAM 的輸出特征將具有全局的語義信息，并包含周圍對象中的上下文關系。

CxAM 的結構如圖3 所示，本文將CxAM 模塊僅用于Mask head，在語義分割時用來捕獲像素之間的語義和位置依賴關系。圖3 中，在給定的特征圖F∈RC×H×W的情況下，分別使用 1×1 卷積層Wm和Wn，按式(3)計算得到轉換后的特征圖為

圖3 上下文注意模塊Fig.3 Context attention module

式中：pji表示第i個像素與第j個像素之間的相關程度。與此同時，另外一條路徑將原始特征圖F∈RC×H×W經(jīng)過一個 1×1×1 卷積層后得到一個大小為 1×H×W的特征融合圖，將此特征融合圖變換為C∈RHW×1，將C再經(jīng)過一個Softmax 函數(shù)得到大小為HW×1 的相關性矩陣，然后復制自身大小變?yōu)镼∈RK×K，將Q和P執(zhí)行逐元素求和得到A。

將原始特征圖F∈RC×H×W使用另外一個1×1卷積層Wb變換為這里B∈RC×K,將B和A執(zhí)行矩陣相乘操作并將其結果變換為 RC×H×W，原始特征圖F∈RC×H×W經(jīng)過跳躍連接與此結果執(zhí)行逐元素求和，得到最后的輸出特征圖F′。

經(jīng)過CxAM 模塊后，每個位置產(chǎn)生的特征F′是跨越所有位置的特征和原始特征的加權和。因此，它可以有選擇地聚合全局信息，建立上下文依賴關系，相似的語義特征相互促進，從而提高了語義一致性。

3 實驗驗證

為了驗證本文提出的算法，本節(jié)對改進的SLN[12]算法進行實驗。采用COCO-amodal 數(shù)據(jù)集對該模型進行訓練，實驗運行環(huán)境為深度學習框架Pytorch 0.4.0，操作系統(tǒng)為Ubantu 16.04，Python 3.6，GPU 顯卡型號為NVIDIA GeForce RTX 2 060。

3.1 實驗數(shù)據(jù)集

本文采用文獻[11] 中發(fā)布的COCO-amodal 數(shù)據(jù)集。COCO-amodal 數(shù)據(jù)集是由5 072 幅圖像組成的非模式實例分割數(shù)據(jù)集，其中2 500、1 250和1 322 幅圖像分別用于訓練、驗證和測試。COCOamodal 數(shù)據(jù)集的注釋包括每個對象的可見/不可見區(qū)域以及每張圖像中所有對象的相對深度順序，作者沒有將注釋限制為通常的COCO 類，可以為對象指定任意名稱；此外，作者還提供了背景區(qū)域的注釋，這些區(qū)域有時擴展到整個圖像域，標記為“Stuff”。因此COCO-amodal 數(shù)據(jù)集中的所有對象可以分為兩類：“Things”和“Stuff”，其中“Things”是具有規(guī)范形狀的對象，“Stuff”具有一致的視覺外觀，但可以具有任意范圍。

3.2 實驗細節(jié)

實驗首先利用在COCO2014 數(shù)據(jù)集上預訓練的Mask RCNN 模型來初始化網(wǎng)絡參數(shù)，算法的主干網(wǎng)絡是ResNet101。在訓練區(qū)域提議網(wǎng)絡(RPN)時，本文對RPN 的網(wǎng)絡參數(shù)進行了適當?shù)恼{(diào)整，設置非最大抑制的閾值為0.6，以便生成更多的區(qū)域提議。模型使用的損失函數(shù)和其他超參數(shù)均按照文獻[12]中描述的策略進行設置和初始化。具體的訓練過程中，借鑒離散下降學習率設置方法，以初始學習率lr=0.001 訓練網(wǎng)絡的head 部分，訓練12 個epochs，然后將學習率降低為lr=0.000 1 來微調(diào)整個網(wǎng)絡，訓練8 個epochs，總計訓練20 個epochs。所有目標均采用隨機梯度下降法(SGD)進行優(yōu)化，并設置weight_decay=0.0001，momentum=0.9。

3.3 評價指標

為了驗證本文所提出的基于反饋注意力機制和上下文注意模塊算法在非模式實例分割任務中的有效性，采用平均精確率(average precision，AP)和平均召回率(average recall，AR)作為對該算法性能的評價指標。平均精確率是指在圖像分割時，將IoU 閾值在0.5～0.95 進行十等分，計算這10 個不同IoU 閾值下交并比的平均值；同樣地，平均召回率指的是在0.5～0.95 內(nèi)10 個不同IoU 閾值下召回率的平均值。本文分別計算每幅圖像在All regions、Things only 和Stuff only 情況下AP 和AR 值來評估算法性能，其中AR10和AR100分別表示每張圖片中每個類別分類置信度最高的前10 和前100 個預測框的平均召回率。

由于本文研究的是非模式實例分割的任務，重點關注的是物體在被遮擋情況下對不可見部分的預測，所以有必要關注物體在不同遮擋強度下預測的準確性。因此，本文還統(tǒng)計了每幅圖像中“Things”和“Stuff”在部分遮擋(partial occlusion)或重度遮擋(heavy occlusion)狀態(tài)下的AR 值，將其表示為ARP和ARH。

3.4 實驗結果分析

在COCO-amodal 數(shù)據(jù)集上，將本文所提出的方法與AmodalMask[11]、ARCNN[19]、ARCNN ++[19]、SLN[12]在平均精確率和平均召回率進行對比，其中ARCNN ++表示ARCNN with visible mask，實驗結果如表1 所示。從表1 可知，在COCO-amodal 數(shù)據(jù)集上比較結果，本文所提出的方法，在AP 和AR 兩個方面都有顯著的提升，在All regions 情況下的AP 從8.4%提高到14.3%，AR10從16.6% 提高到20.8%，AR100從36.5% 提高到40.3%，分別具有5.9%、4.2%和3.8%的收益。實驗數(shù)據(jù)表明，本文的方法通過反饋注意力機制再學習和上下文注意模塊，有效建立遠程上下文依賴關系，捕獲豐富的全局語義信息，增強了非模式實例分割的性能。

表1 COCO-amodal 測試集上的分割結果對比Table 1 Comparison of segmentation results on COCO-amodal test set

觀察表1 在All regions 下ARP和ARH的結果可知，當物體處于部分遮擋或重度遮擋狀態(tài)下，本文提出的方法對于像素的平均召回率仍然具有很大的提高，ARP從40.1%提高到44.3%，ARH從22.5%提高到25.5%，分別具有4.2%和3%的收益，這表明，通過反饋注意力機制的再學習和上下文注意模塊，使網(wǎng)絡能夠學習到全局的語義依賴關系，充分挖掘像素的空間相關性，在非模式實例分割的任務中，該方法能夠有效幫助檢測器僅僅從物體可見部分提供的線索去準確推斷出物體被遮擋部分的最可能外觀特征，定性的可視化結果見圖4。

圖4 在COCO-amodal 數(shù)據(jù)集上非模式實例分割的定性結果Fig.4 Qualitative results of amodal instance segmentation on coco-amodal dataset

與此同時，在“Things only”和“Stuff only”的情況下，本文算法無論是在AP 還是AR，即使在部分遮擋或重度遮擋的狀態(tài)下，都表現(xiàn)出一致的優(yōu)勢：在“Things only”時AP 從9.6% 提高到16.3%，具有6.7% 的絕對收益，69.8% 的相對收益；同樣地，在“Stuff only”時AP 從0.8%提高到1.4%，具有0.6%的絕對收益，75%的相對收益。

為了進一步證明本文提出方法的有效性，本文對COCO-amodal 測試集的一些圖片進行定性分析，非模式實例分割的定性實驗結果如圖4 所示，觀察第1 行的對比圖可以看出，圖中的“冰箱”存在部分遮擋，SLN 算法在預測被遮擋、不可見部分時存在一定的欠擬合問題，本文提出的方法通過建立豐富的上下文依賴關系，獲取全局語義信息，實現(xiàn)了更準確的預測；從第3 行對比圖可知，在復雜的場景情況下，SLN 算法對小目標分割存在一定程度的漏分割現(xiàn)象，如圖中有的“人”沒有檢測出來，并且這些樣本屬于小目標，本文的方法由于捕獲了像素級的全局語義信息，加強了上下文信息的融合，對于小目標對象的漏分割、分割不準確的情況有了顯著改善，不僅檢測到圖像中的小目標，同時對小目標對象的遮擋部分也能合理預測，使得分割質(zhì)量得到大幅提升。

3.5 統(tǒng)計檢驗分析

為了對比不同的算法在數(shù)據(jù)集上的性能差異，本文采用Friedman 檢驗來分析本文提出的算法是否具有顯著性。本文在COCO-amodal 數(shù)據(jù)集上對該方法進行了充分的實驗，表1 從All regions、Things only 和Stuff only 3 個維度分析了不同算法之間的性能差異。本文把表1 轉換成按AP 從高到低排序的排序表，最后獲得不同方法在COCO-amodal 數(shù)據(jù)集不同維度上的排序情況，結果如表2 所示。

表2 不同算法在COCO-amodal 測試集不同維度的AP 排序表Table 2 AP ranking tables of different algorithms in different dimensions on COCO-amodal test set

在獲得不同算法的AP 排序表之后，采用Frie-dman 檢驗來判斷這些算法是否性能都相同，同時做出假設“所有的算法性能相同”。變量τF服從自由度為 (k?1)和(k?1)(N?1) 的F分布，計算方法為

通過式(4)計算得到的變量值τF與臨界值Fα=0.05進行比較，假設“所有的算法性能相同”被拒絕，說明了不同算法之間的性能顯著不同，其中Fα=0.05=3.837 9，k=5，N=3。為了進一步區(qū)分各算法，采用Nemenyi 檢驗作為“后續(xù)檢驗”。Nemenyi 檢驗臨界值域 CD 的計算公式為

由式(5)計算出臨界值域 CD 后，畫出Friedman檢驗結果圖，如圖5 所示。其中，中心圓點表示每個算法的平均序值，以圓點為中心的橫線段表示臨界值域的大小。Friedman 檢驗結果表示，如果兩種方法的橫線段有較多重疊，則表明兩種算法的差異性較小，否則，說明兩種算法具有顯著的差異性。

圖5 Friedman 檢驗結果Fig.5 Graph of Friedman test result

觀察圖5 可知，直線AmodalMask 與ARCNN++重疊的部分比例最高，說明了算法AmodalMask 和ARCNN++沒有顯著差別；直線OURS與直線SLN 有較多重疊部分，直線OURS 與直線AmodalMask、直線ARCNN++具有較少的重疊部分，直線OURS 與直線ARCNN 基本無重疊部分。也就是說本文所提出的算法仍然優(yōu)于其他4 種算法，顯著優(yōu)于算法ARCNN，這也驗證了表1的實驗結果。

4 結束語

本文提出一個反饋注意力機制的特征金字塔結構和上下文注意模塊的方法并將其應用到非模式實例分割任務中。該方法在特征金字塔結構基礎上引入反饋連接進行再學習，有效建立起通道之間的遠程上下文依賴關系，并結合像素上下文注意力模塊學習特征的空間相關性，捕獲精細的空間細節(jié)，充分利用全局信息。在SLN 網(wǎng)絡的基礎上，加入本文提出的方法構成新的網(wǎng)絡結構，通過在COCO-amodal 數(shù)據(jù)集上訓練和測試，實驗結果表明，本文方法能對物體被遮擋、不可見部分的最可能外觀做出合理預測，并改善了其他方法中存在的漏分割、分割不準確的情況，但離實時處理仍有較大差距，后續(xù)將對此進行優(yōu)化。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看