基于候選框多步迭代優(yōu)化的多階段目標檢測模型

2021-09-08 01:51:59趙釗龔霽程

中國新通信 2021年14期

趙釗龔霽程

【摘要】? ? 在解決目標檢測任務的模型中，基于多階段檢測框架的模型相對單階段和兩階段檢測框架的模型具有明顯的精度優(yōu)勢。該研究的主要目的是通過使用基于長短時記憶網(wǎng)絡（Long Short Term Memory，LSTM）的多次迭代回歸模塊來改進廣泛使用的兩階段回歸框架。在該研究中，基于LSTM的候選框迭代優(yōu)化模塊被設計用來不斷優(yōu)化候選框生成網(wǎng)絡（Region Proposal Network，RPN）所提出的候選框。該模塊不僅能夠靈活的與各種框架進行集成，同時還可以根據(jù)訓練和測試階段對檢測速度需求的不同而任意的配置迭代次數(shù)。為了驗證該方法的有效性，該研究采用基于ResNet-50和ResNet-101為主干網(wǎng)絡的多個檢測框架，并在兩個公開數(shù)據(jù)集上進行了大量實驗。結果表明，該方法得到的所有類平均精度（mean Average Procession，mAP）明顯高于基準模型R-FCN和FPN。同時，其效果優(yōu)于目前最先進的級聯(lián)（Cascade）R-CNN算法。

【關鍵詞】? ? 目標檢測? ? 長短時記憶網(wǎng)絡? ? 迭代回歸? ? 多階段檢測? ? 候選框網(wǎng)絡

引言：

隨著深度神經(jīng)網(wǎng)絡的發(fā)展[1， 2]，目標檢測的性能[3， 4]有了顯著提高。通常，目標檢測模型將任務分解為目標定位與目標分類兩個子任務。定位模塊首先需要通過向給定圖像分配和回歸相應的邊框來框選圖像中的所有目標。然后，分類模塊對每個邊框中的目標類別進行分類預測。在目前主流的多階段檢測模型中，這兩個模塊通常作為兩個子模塊整合在主干網(wǎng)絡上同時進行訓練優(yōu)化。因此，這兩個子模塊存在一定的相關性，同時也對檢測模型的整體性能起著至關重要的作用。

學界常見的目標檢測方法可以分為：（1）兩階段框架[5-12];（2）單階段框架[13-17]。兩階段方法遵循由文獻[13]提出的Faster-RCNN框架。此方法在第一階段中生成了一組候選框，同時為每個框的內(nèi)容給出了前景目標的置信度。然后，在第二階段中對第一階段篩選過后的候選框執(zhí)行進一步的位置回歸和類別細分類。相比之下，單階段方法，例如YOLO[16， 18]或SSD[15]，通過對多尺度特征圖進行密集采樣，直接進行錨定框的回歸和分類。

一般而言，單階段檢測模型在速度上優(yōu)于兩階段模型，但在檢測精度上卻不如后者[16]。該研究認為，兩階段模型能夠產(chǎn)生更準確結果的原因主要在于（1）在第一階段，候選框生成模塊提供了正負樣本均衡的候選框集。這有利于后續(xù)二階段回歸和分類模塊的訓練。（2）每個輸出框?qū)脑煎^定框都經(jīng)過了兩階段回歸和分類，這進一步優(yōu)化了輸出包圍框的精度。

除了單階段和兩階段框架外，許多文獻還提出了多階段方法[5， 19， 20]，這些方法通常比大多數(shù)兩階段方法進行更多的邊框回歸和分類，并且獲得了更好的效果。因此，該研究提出了一種新的多階段邊框回歸模塊，該模塊可靈活地執(zhí)行回歸操作。該研究的主要貢獻可以概括為以下幾點：

1.通過使用基于循環(huán)神經(jīng)網(wǎng)絡[21]的多步迭代模塊對候選進行不斷的細化回歸，該研究中使用的是LSTM。

2. 迭代步數(shù)可以作為超參數(shù)進行任意設置，并且在訓練和測試時可以有所不同。回歸步驟越多，檢測精度越高;反之，更高的檢測速度可以通過設置更少的迭代步數(shù)來實現(xiàn)。

3. 該研究提出的模塊可以自然的地擴展應用于各種兩階段檢測框架中，通常只需替換其原始的檢測回歸模塊即可。

基于R-FCN[6]和FPN[22]兩大框架，該研究使用基于ResNet-50和ResNet-101的主干網(wǎng)絡在PASCAL VOC[23]和MS COCO[24]數(shù)據(jù)集上進行了詳細的實驗評估。實驗結果表明，該研究的模型大大優(yōu)于原始的R-FCN和FPN，同時也優(yōu)于現(xiàn)有的最先進的Cascade R-CNN方法。

一、相關文獻

1.1 單階段和兩階段目標檢測模型

Faster-RCNN[12]在提高目標檢測的速度和精度方面都取得了長足進步。該模型創(chuàng)新的提出了一個完整的可進行端到端學習的目標檢測框架。該框架將候選框生成網(wǎng)絡（RPN）和候選框分類模塊整合到整個網(wǎng)絡模型中。受Faster-RCNN的啟發(fā)，學者們提出了許多其他方法來提高檢測精度或計算速度，其中包括R-FCN[6]和FPN[22]。前者提出使用位置敏感型的卷積層代替全連接層來提高檢測效率;后者將多尺度特征圖層的檢測結果進行串聯(lián)，從而進一步提高精度。另一方面，SSD[15]等單階段方法可以看作是一個獨立的候選框生成網(wǎng)絡，并利用相同的特征直接進行分類預測，并在不同的特征圖層次上進行邊框回歸。RetinaNet[25]利用Focal Loss來平衡前景和背景類比例，取得了較好的效果。

1.2 多階段目標檢測模型

通常，由于兩階段框架比單階段框架具有更高的檢測精度，因此許多文獻提出采用多階段目標檢測框架以達到更高的檢測精度。在文獻[26]中，作者將上一步的輸出作為輸入又迭代輸入給回歸模塊，取得了較好的mAP。文獻[17]在原有的SSD框架中增加了一個錨點優(yōu)化模塊，該方法比普通的單階段法多出了一個邊框細化步驟。AttractionNet[19]提出了一個目標位置細化模塊，該模塊可迭代地優(yōu)化候選框的位置。Cascade R-CNN[5]對一些兩階段檢測框架的回歸模塊進行多次級聯(lián)，并獲得了最優(yōu)的結果。在文獻[27]中提出了一種迭代細化方法，該方法首先通過合并重疊區(qū)域來確定搜索區(qū)域，然后在搜索區(qū)域內(nèi)采用分治搜索。此外，為了細化多級邊框檢測過程，R-FCN-3000[20]提出了一種解耦的多階段檢測與分類框架。該方法對每個目標進行兩步分類（超類分類和子類分類），結果表明檢測精度也得到了提高。

1.3 基于RNN的目標檢測模型

卷積神經(jīng)網(wǎng)絡已經(jīng)被廣泛應用于大多數(shù)目標檢測框架中?；诰矸e層構建的網(wǎng)絡既可以用于特征提取[1]，也可以用于回歸和分類[6， 28]。另一方面，遞歸神經(jīng)網(wǎng)絡在自然語言處理領域[29， 30]取得了巨大的成功。并且，許多研究表明，RNN也適用于目標檢測任務。例如，CTPN[31]使用LSTM[32]對連續(xù)的上下文信息進行編碼，表明它可以減少錯誤檢測并恢復丟失的文本。文獻[33]的作者提出了一種高效的視頻目標檢測框架，該框架將ConvLSTM與SSD框架整合在一起。然后，LSTM模塊可以在每次迭代對時空上下文進行編碼，從而細化輸入。文獻[34]使用對應圖像裁剪的特征表示作為輸入，然后夠通過ConvLSTM層預測目標形狀。

二、基于LSTM的候選框優(yōu)化網(wǎng)絡

在本節(jié)中，該研究將介紹基于LSTM的候選框優(yōu)化網(wǎng)絡模塊的結構。圖1顯示了整個網(wǎng)絡的主要結構，實線框表示根據(jù)候選框生成網(wǎng)絡（RPN）計算得出的初始候選框。根據(jù)候選框?qū)目臻g位置，從CNN特征圖中裁剪對應的3D特征向量。興趣區(qū)域（Region of Interest RoI）池化層將每個向量調(diào)整為相同的形狀。隨后，該方法將3D特征展開為1D特征，并將其作為LSTM層的輸入。解碼后，模型輸出對應圖中虛線框的細化候選框。在下一次迭代中，虛線框?qū)⒈蛔鳛橄乱徊降妮斎牒蜻x框，進行進一步的細化回歸。這樣的過程將重復t次，直到t滿足預定義的迭代次數(shù)。

2.1 候選框選擇

多次對候選框進行優(yōu)化和迭代的計算量是比較大的。因此，該方法選擇只細化具有較高的前景物體置信度的邊框，以加快迭代過程。同時，該研究保留圖像中所有不同目標的候選框，以保證位置的均勻分布。

該研究沒有像文獻[19]那樣手動設定錨定候選框，而是使用候選框生成網(wǎng)絡（RPN）[12]來選擇候選框以進行進一步的細化。RPN為每個候選框提供前景置信度和四個坐標{x1，y1，x2，y2}。同時，該研究使用非極大值抑制（Non Maximum Suppression，NMS）以剔除高度重疊的邊框。之后，該方法選擇最高置信度最高的K個候選框作為下一步的輸入，以進行進一步的優(yōu)化迭代。

2.2 迭代邊框回歸

迭代回歸任務可以看作是一個重復的重新采樣過程，其目的是尋找最佳的假設分布。Cascade R-CNN模型[5]將兩個檢測模塊與基礎檢測框架進行級聯(lián)。此外，它在訓練過程中提高了每個回歸步驟的IoU閾值，使候選框的質(zhì)量可以在每個階段迭代步驟中改進。但是，此方法在訓練和測試時都需要遵循固定的回歸步驟，而這可能會導致模型的過度擬合。不僅如此，該模型也無法以端到端的方式反向傳播整個候選框的損失函數(shù)值。因此，其候選框生成是通過多個單獨的檢測模塊而不是單個模塊來進行的。AttractionNet[19]使用單個CNN回歸模塊在所有訓練步驟中以相同的IoU閾值迭代地優(yōu)化候選框。但是，由于邊框分布在每個回歸步驟[5]上都發(fā)生了顯著變化。因此，當使用固定的IoU閾值對其進行訓練時，此單個回歸模塊可能會產(chǎn)生次優(yōu)結果。

與以上方法不同的是，該研究將整個候選框迭代優(yōu)化看作是一個連續(xù)的過程。在這個過程中，前一步迭代的結果會影響下一步迭代的優(yōu)化。此外，候選框優(yōu)化器需要適應每次迭代，并且能夠通過這個序列化的過程反向傳播損失函數(shù)值以進行整體模型的優(yōu)化。因此，該研究使用遞歸神經(jīng)網(wǎng)絡，更具體地說是使用LSTM作為迭代優(yōu)化模塊的主要構建組件。

對于給定的邊框B，該研究使用RoI池化層從給定的特征圖中裁剪出固定形狀的3D特征。經(jīng)過池化的每個圖像具有高度（H）×寬度（W）×通道（C）的形狀特征。然后，該方法將三維特征展開成一維向量，再輸入至LSTM層。LSTM層包含M（= 128）個隱藏單元，以及一個全連接的層。LSTM的關鍵模塊如公式1所示。其中，xt表示裁剪的特征向量，而ht表示隱藏狀態(tài)。U代表輸入狀態(tài)參數(shù)，W代表隱藏狀態(tài)參數(shù)，i，f，o和Ct分別代表輸入門、遺忘門、輸出門和單元狀態(tài)。⊙表示逐元素相乘。然后，兩個全連接層將前面LSTM層的輸出與兩個預測模塊連接起來，其中一個用于預測邊框偏移量? = { δ x ，δ y ，δ w ，δ h }，另一個用于預測前景目標置信度。

在每次迭代過程中，LSTM隱藏狀態(tài)和候選框都會被更新。每個細化的候選框都將用于裁剪新的特征圖，以便在下一次迭代中優(yōu)化。整個過程一直持續(xù)到迭代次數(shù)達到預定閾值T。同時，邊框偏移量和前景置信度等中間結果被保存起來，以便后續(xù)的損失函數(shù)計算。另外，在將細化的邊框輸入到分類器之前，該方法使用非極大值抑制來剔除高度重疊的候選框。

整體細化過程如算法1所示，其中F表示特征圖，B0 表示RPN中的候選框。該研究從零狀態(tài)初始化LSTM隱藏狀態(tài)，并在每次迭代時對其進行更新。符號表示LSTM層

2.3 分類

除了檢測模塊，還需要應用分類模塊來完成整個目標檢測。該研究以R-FCN為框架，通過位置敏感的得分圖與位置敏感RoI池化進行分類;此外，該研究同樣參考FPN的設計方式，使用多尺度的特征圖進行后續(xù)分類。同時，該方法選用全連接層作為最終分類器。為了獲得更好的分類結果，并與原始的 R-FCN和FPN結果進行公平的比較，該研究在訓練分類模塊時使用了在線困難樣本挖掘算法（Online Hard Example Mining OHEM）[35]。在超參數(shù)配置上，模型選擇前K個分類損失函數(shù)值最大的候選框進行損失函數(shù)的反向傳播。

2.4 損失函數(shù)

多步迭代的邊框位置回歸和目標分類的整體損失函數(shù)定義如公式2描述。其中，T表示總迭代次數(shù)，而t表示第t次迭代。x表示特征向量的集合，表示第t次迭代中的第i個候選框，而表示在第t次迭代中對應的候選框的特征向量。g表示真值框的集合，表示候選框數(shù)量，h表示分類器，f表示回歸器。除了訓練迭代候選邊框的損失，該研究還聯(lián)合訓練了作為RPN的錨定框位置的回歸和前景背景分類的損失，以及位置敏感分類器[6]的損失。

三、實驗設計

3.1 數(shù)據(jù)集

該研究在Pascal VOC和MS-COCO 2017數(shù)據(jù)集上進行實驗。對于Pascal VOC，該研究在一個由VOC2007和VOC2012的訓練和交叉驗證組合數(shù)據(jù)集上訓練模型，該組合集包含約16K張的圖片。訓練好的模型在VOC2007測試集上進行評估，該測試集包含約5k張圖像。類似地，該研究使用MS-COCO 的2017?118K訓練集來訓練模型，并在5k張測試集上評估模型。該研究使用與文獻[21]相同的評估標準，類平均精度（mAP），來評估在不同的IoU下模型在兩個數(shù)據(jù)集上的性能。IoU的取值范圍為[0.5，0.95] ，間隔步長為0.05。

3.2 實現(xiàn)細節(jié)

該研究使用ResNet-50和ResNet-101作為模型的主干網(wǎng)絡。對于圖片數(shù)據(jù)的預處理，在PascalVOC數(shù)據(jù)集上，圖片尺寸被調(diào)整為較短邊具有600個像素;在COCO數(shù)據(jù)集上，圖片尺寸被調(diào)整為較短邊具有800個像素。在訓練中，唯一使用的數(shù)據(jù)增廣技術是左右翻轉(zhuǎn)，沒有任何其他的方法被調(diào)用。該研究使用5個尺度以及3個寬高比{1：2， 1：1， 2：1}的預設錨定框尺寸。超出圖像大小的錨點將被剪切。

RPN后的非極大值抑制的IoU閾值設置為0.7。同時，該研究選擇置信度最高的前800個候選框進行進一步細化。在一些極端情況下，在非極大值抑制后候選框的數(shù)量可能少于 800個。此時，該方法會用零進行填充補位，以滿足批處理時固定大小的要求。為了剔除高度重疊的邊框，從而保證模型的有效訓練，基于LSTM的迭代優(yōu)化模塊輸出后的非極大值抑制的IoU閾值設置為0.8。

圖2顯示，預測框的平均IoU在每次迭代時都會增加。因此，在每步迭代后，該算法都會提高前景候選框篩選閾值u。如果預測框與真值框的IoU大于或等于u，則預測框為正樣本。在實驗中，訓練時最大迭代次數(shù)T被設置為3，因此該方法設定u ={ 0.5，0.6，0.7}。圖2顯示IoU分布隨著迭代逐漸趨近于0.9，這意味著較高的邊框回歸質(zhì)量。

該研究使用動量值為0.9的動量離散梯度下降法（Momentum-Stochastic Gradient Descent-SGD）優(yōu)化器。初始學習率設置為0.001，在VOC和COCO上分別進行了120K和530K次輪訓練迭代后切換到0.0001。該研究選取置信度最高的前800個候選框進行迭代細化，并以1：1的正負采樣比進行候選框采樣和訓練。

該研究的算法通過TensorFlow[36， 37]實現(xiàn)。該研究未能找到一個與R-FCN論文[6]的性能匹配的TensorFlow版本實現(xiàn)的R-FCN。因此，該研究從精度較低的R-FCN基線開始。但是，通過整合該研究提出的模塊，最終的方法達到了與其他方法相當或更好的性能，這進一步證明了該研究提出的模型的有效性。

四、實驗

4.1 多階段迭代次數(shù)的評估

如圖2所示，該研究根據(jù)實驗結果繪制了不同迭代階段的預測框與真值框之間的IoU直方圖。實驗中的模型架構為整合了該方法提出的多步迭代回歸模塊的FPN框架，主干網(wǎng)絡使用了ResNet-50。該模型在VOC2007+2012訓練集上進行訓練，并在VOC2007測試集上進行測試。在進行非極大值抑制之前，所有的候選框均用于計算IoU。從這些圖中，可以看到候選框在每個階段都朝著更高的IoU逐漸細化，這意味著候選框變得更接近于真值。在第一次和第二次迭代時，候選框精度可以迅速提高，并在第四次迭代時后逐漸趨于收斂。

該研究用APs@0.5表示IoU閾值為0.5時的AP。表1顯示了基于ResNet-50主干網(wǎng)絡的模型的APs@0.5-0.95，APs@0.5，APs@0.75，以及不同迭代次數(shù)時的測試精度和速度。從表1可以看出，結果與圖2中的實驗結果保持一致，即AP在第三、四次迭代時開始逐漸收斂穩(wěn)定，然后小幅下降。另外，該研究在使用ResNet-101作為主干網(wǎng)絡時也觀察到了同樣的現(xiàn)象。因此，后續(xù)實驗的所有后續(xù)結果均使用三次迭代進行測試。同時，該研究發(fā)現(xiàn)模型在測試期間的時間成本與測試時細化迭代的次數(shù)成正比。該研究的模型需要117ms完成基于三次迭代的一幀圖像檢測。同樣，更高的檢測速度可以用輕量化的主干網(wǎng)絡或更少的迭代次數(shù)來實現(xiàn)。

4.2 在Pascal VOC上的評估

在本節(jié)中，實驗模型將該方法提出的多步迭代回歸模塊整合在R-FCN網(wǎng)絡上，主干網(wǎng)絡為ResNet-50和ResNet-101[1]。實驗將原始的R-FCN網(wǎng)絡和最先進的Cascade R-CNN網(wǎng)絡與改進過的多步迭代的R-FCN（表中簡稱為LSTM-R-FCN）進行比較。該研究同樣使用相同業(yè)界通用指標在Pascal VOC數(shù)據(jù)集上進行實驗和評估。

從表2的結果可以看出，基于這兩種主干網(wǎng)絡，該研究的方法在AP@0.5-0.95 和AP@0.75的表現(xiàn)都遠遠優(yōu)于基準的R-FCN。同時，在AP@0.5-0.95下，該研究的模型的mAP比對應同樣使用兩個主干網(wǎng)絡的Cascade R-CNN的mAP均高出1.8%。此外，該研究在AP@0.75下使用ResNet-101進行對比時，其mAP值比Cascade R-CNN的mAP值高2.2%。綜上所述，與其他方法相比，該研究的模型具有更好的檢測精度和更高的檢測質(zhì)量。這進一步證明了該研究提出的多步迭代檢測模塊的有效性。

4.3 在MS COCO上的評估

該研究也在MS COCO 2017數(shù)據(jù)集上評估所提出的方法，并將該研究提出的模塊整合到R-FCN[6]和FPN[22]中。作為對比，該研究使用原始的R-FCN[6]、FPN[22]和Cascade R-CNN同時進行實驗。表3的頂部顯示了使用R-FCN作為基本框架時的結果。實驗結果顯示，當使用ResNet-50和ResNet-101時，該研究的模型分別比R-FCN的AP高出4.7%和3.5%。與Cascade R-CNN相比，該研究的方法在AP@0.5-0.95和AP@0.75下獲得了更好的表現(xiàn)，這與Pascal VOC上的結果一致。表3中，用”*”表示的模型采用了FPN多尺度特征圖的設計思路。與使用R-FCN的結果相比，所有指標下所有方法的表現(xiàn)均有更顯著的提高。這表明更先進的基礎框架讓該研究提出的方法更加有效，因此在幾乎所有不同的指標上都優(yōu)于FPN和Cascade R-CNN。值得注意的是，該研究的模型在檢測中小型目標時，即更難的任務方面，在所有情況下都比其他方法具有更高的AP。

4.4 進一步分析

為了進一步驗證該研究的方法的確能夠提高檢測質(zhì)量，該實驗使用ResNet-101為主干網(wǎng)絡以及R-FCN為主要框架，在Pascal VOC上對所有模型進行訓練和測試。根據(jù)實驗結果，圖3中繪制了每個IoU閾值下所有模型的mAP。從這張圖中，該研究發(fā)現(xiàn)所有模型在IoU為0.5、0.55和0.6時的mAP比較接近。然而，當IoU閾值大于0.6時，原始R-FCN的mAP開始迅速下降。當IoU閾值超過0.7時，該研究的方法開始優(yōu)于Cascade R-CNN，并且IoU越高，改進幅度更大。特別值得注意的是，當IoU等于0.95時，該研究的方法得到的mAP比Cascade R-CNN的高2.5倍。這進一步說明該方法對模型生成高精度檢測框有顯著的性能提升，符合該研究的目的。

4.5 詳細實驗分析

為了進一步證實基于LSTM的回歸模塊的優(yōu)點，該研究使用基于MLP的回歸模塊來替換原始模塊并在Pascal VOC上進行對比實驗，結果如表4所示?；贛LP的模塊隱藏層維度與原始的LSTM的模塊相同。MLP模塊的第一層將形狀為H*W*C的特征圖編碼成128維的向量，然后其輸出層進行邊框回歸和前景-背景分類的置信度預測。表4的結果表明，基于LSTM的模塊與基于MLP的模塊相比具有明顯的優(yōu)勢，特別是在AP@0.5-0.95下，基于LSTM模塊的R-FCN與基于MLP模塊的R-FCN 相比，其mAP提高了5.2% 。這顯示了多步驟迭代回歸模塊引入LSTM層的優(yōu)勢：LSTM層通過單元內(nèi)存和隱藏狀態(tài)儲存先前步驟的回歸信息，這使其比MLP層更適用于前后步驟相關的迭代和回歸。

五、結束語

該研究提出了一個新的候選框迭代優(yōu)化模塊。在該模塊中，RPN產(chǎn)生的候選框通過基于LSTM層的多步迭代優(yōu)化模型進行不斷細化和改進，直至收斂。實驗表明，該模塊可以自然而優(yōu)雅的整合進類似于R-FCN和FPN的常見目標檢測模型中，而無需進行過多的調(diào)整或結構修改，并且可以取代大多數(shù)兩階段框架的回歸模塊。實驗結果表明，基準模型R-FCN和FPN通過引入該研究提出的細化模塊，在Pascal VOC和MS-COCO基準數(shù)據(jù)集上的mAP均優(yōu)于其對應的原始模型。不僅如此，優(yōu)化后的模型也高于目前最先進的Cascade R-CNN目標檢測模型。

參? 考? 文? 獻

[1]HE K， ZHANG X， REN S， et al. Deep residual learning for image recognition [C]//Proc of the IEEE conference on computer vision and pattern recognition. Las Vegas： IEEE Computer Society， 2016：770-778.

[2]HE K， ZHANG X， REN S， et al. Identity Mappings in Deep Residual Networks [C]//European conference on computer vision. Cham： Springer， 2016： 630-645.

[3]SZEGEDY C， TOSHEV A， ERHAN D. Deep neural networks for object detection [C]//Proc of the 26th International Conference on Neural Information Processing Systems. Lake Tahoe： Curran Associates Inc， 2013： 2553–2561.

[4]SIMONYAN K， ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [J]. arXiv preprint arXiv：14091556， 2014.

[5]CAI Z， VASCONCELOS N. Cascade r-cnn： Delving into high quality object detection [C]//Proc of the IEEE conference on computer vision and pattern recognition. Salt Lake City： IEEE Computer Society， 2018： 6154-6162.

[6]DAI J， LI Y， HE K， et al. R-FCN： object detection via region-based fully convolutional networks [C]//Proc of the 30th International Conference on Neural Information Processing Systems. Barcelona： Curran Associates Inc， 2016.

[7]GIRSHICK R. Fast r-cnn [C]//Proc of the IEEE international conference on computer vision. Santiago： IEEE Computer Society， 2015： 1440-1448.

[8]GIRSHICK R， DONAHUE J， DARRELL T， et al. Rich feature hierarchies for accurate object detection and semantic segmentation [C]//Proc of the IEEE conference on computer vision and pattern recognition. Columbus： IEEE Computer Society， 2014： 580-587.

[9]JIANG B， LUO R， MAO J， et al. Acquisition of Localization Confidence for Accurate Object Detection [C]//Proc of the European Conference on Computer Vision. Cham： Springer International Publishing， 2018： 784-799.

[10]HE K， GKIOXARI G， DOLL?R P， et al. Mask r-cnn [C]//Proc of the IEEE international conference on computer vision. Venice： IEEE， 2017： 2961-2969.

[11]ZAGORUYKO S， LERER A， LIN T-Y， et al. A multipath network for object detection [J]. arXiv preprint arXiv：160402135， 2016.

[12]REN S， HE K， GIRSHICK R， et al. Faster r-cnn： Towards real-time object detection with region proposal networks [J]. arXiv preprint arXiv：150601497， 2015.

[13]FU C-Y， LIU W， RANGA A， et al. Dssd： Deconvolutional single shot detector [J]. arXiv preprint arXiv：170106659， 2017.

[14]KONG T， SUN F， YAO A， et al. Ron： Reverse connection with objectness prior networks for object detection [C]//Proc of the IEEE conference on computer vision and pattern recognition. Honolulu： IEEE Computer Society， 2017： 5936-5944.

[15]LIU W， ANGUELOV D， ERHAN D， et al. Ssd： Single shot multibox detector [C]//Proc of the European conference on computer vision. Amsterdam： Springer， 2016： 21-37.

[16]REDMON J， DIVVALA S， GIRSHICK R， et al. You only look once： Unified， real-time object detection [C]//Proc of the IEEE conference on computer vision and pattern recognition. Las Vegas： IEEE Computer Society， 2016： 779-788.

[17]ZHANG S， WEN L， BIAN X， et al. Single-shot refinement neural network for object detection [C]// Proc of the IEEE conference on computer vision and pattern recognition. Salt Lake City： IEEE Computer Society， 2018： 4203-4212.

[18]REDMON J， FARHADI A. YOLO9000： better， faster， stronger [C]//Proc of the IEEE conference on computer vision and pattern recognition. Honolulu： IEEE Computer Society， 2017： 7263-7271.

[19]GIDARIS S， KOMODAKIS N. Attend refine repeat： Active box proposal generation via in-out localization [C]//Proc of the British Machine Vision Conference. York， 2016.

[20]SINGH B， LI H， SHARMA A， et al. R-fcn-3000 at 30fps： Decoupling detection and classification [C]//Proc of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City： IEEE Computer Society， 2018： 1081-1090.

[21]WILLIAMS R J， ZIPSER D. A learning algorithm for continually running fully recurrent neural networks [J]. Neural computation， 1989， 1（2）： 270-280.

[22]LIN T-Y， DOLL?R P， GIRSHICK R， et al. Feature pyramid networks for object detection [C]//Proc of the IEEE conference on computer vision and pattern recognition. Honolulu： IEEE Computer Society， 2017： 2117-2125.

[23]EVERINGHAM M， VAN GOOL L， WILLIAMS C K， et al. The pascal visual object classes （voc） challenge [J]. International journal of computer vision， 2010， 88（2）： 303-338.

[24]LIN T-Y， MAIRE M， BELONGIE S， et al. Microsoft coco： Common objects in context [C]//Proc of the European conference on computer vision. Zurich：? Springer， 2014： 740-755.

[25]LIN T-Y， GOYAL P， GIRSHICK R， et al. Focal loss for dense object detection [C]//Proc of the IEEE international conference on computer vision， Venice： IEEE， 2017： 2980-2988.

[26]LI J， LIANG X， LI J， et al. Multistage object detection with group recursive learning [J]. IEEE Transactions on Multimedia， 2017， 20（7）： 1645-1655.

[27]CHENG K-W， CHEN Y-T， FANG W-H. Improved object detection with iterative localization refinement in convolutional neural networks [J]. IEEE Transactions on Circuits and Systems for Video Technology， 2017， 28（9）： 2261-2275.

[28]DAI J， QI H， XIONG Y， et al. Deformable convolutional networks [C]//Proc of the IEEE international conference on computer vision， Venice： IEEE， 2017： 764-773.

[29]GRAVES A， JAITLY N， MOHAMED A. Hybrid speech recognition with Deep Bidirectional LSTM [C]//Proc of the 2013 IEEE Workshop on Automatic Speech Recognition and Understanding. Olomouc： IEEE Signal Processing Society， 2013： 273-278.

[30]SUNDERMEYER M， SCHL?TER R， NEY H. LSTM neural networks for language modeling [C]// Proc of the 13th annual conference of the international speech communication association， F， 2012.

[31]TIAN Z， HUANG W， HE T， et al. Detecting text in natural image with connectionist text proposal network [C]//Proc of the European conference on computer vision. Portland： Springer， 2016： 56-72.

[32]HOCHREITER S， SCHMIDHUBER J. Long short-term memory [J]. Neural computation， 1997， 9（8）： 1735-1780.

[33]LIU M， ZHU M. Mobile video object detection with temporally-aware feature maps [C]//Proc of the IEEE conference on computer vision and pattern recognition. Salt Lake City： IEEE Computer Society， 2018： 5686-5695.

[34]CASTREJ?N L， KUNDU K， URTASUN R， et al. Annotating Object Instances with a Polygon-RNN [C]//Proc of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu： IEEE Computer Society， 2017： 5230-5238.

[35]SHRIVASTAVA A， GUPTA A， GIRSHICK R. Training region-based object detectors with online hard example mining [C]//Proc of the IEEE conference on computer vision and pattern recognition. Las Vegas： IEEE Computer Society， 2016： 761-769.

[36]ABADI M， BARHAM P， CHEN J， et al. TensorFlow： a system for large-scale machine learning [C]//Proc of the 12th USENIX conference on Operating Systems Design and Implementation. Savannah： USENIX Association，? 2016： 265–283.

[37]CHEN X， GUPTA A. An implementation of faster rcnn with study for region sampling [C]//Proc of the IEEE conference on computer vision and pattern recognition. Honolulu： IEEE Computer Society， 2017.