李玉珍,陳 輝,王 杰,榮 文
基于透視降采樣和神經網絡的地面標志檢測
李玉珍1,陳 輝1,王 杰1,榮 文2
(1. 山東大學信息科學與工程學院,山東 青島 266237;2. 山東高速信息集團有限公司,山東 濟南 250000)
在智能駕駛領域,為實時精確檢測路面的導向標志,提出一種基于透視降采樣和神經網絡的地標檢測方法,有效解決傳統(tǒng)檢測方法實時性較差、復雜場景和遠處小目標檢測準確率較低的問題。首先,選取圖像感興趣區(qū)域進行透視降采樣,降低道路圖像近處分辨率,縮小圖像尺寸,同時消除透視投影誤差。其次對YOLOv3-tiny目標檢測網絡進行改進,采用k-means++算法對自建數據集的邊界框聚類;添加卷積層強化淺層特征,提升小目標表征能力;改變特征金字塔融合尺度,將預測輸出調整為適合地標尺寸的26×26和52×52。最后,在自建多場景數據集上測試,準確率由78%提升到99%,模型大小由33.8 MB減小為8.3 MB。結果表明,基于透視降采樣和神經網絡的地標檢測方法魯棒性強,對小目標檢測精度更高,易于在低端嵌入式設備上部署。
透視降采樣;YOLOv3-tiny;地標檢測;數據集;k-means++
自動駕駛和智能輔助駕駛技術作為當今熱門的研究領域,一直是國內外學者研究的熱點。地面交通標志檢測作為自動駕駛研究的關鍵技術之一,主要包含車道線檢測和地面轉向標志檢測。目前,針對車道線識別技術的研究較多,地面轉向標志識別的研究較少。地面標志檢測能實時精確定位和識別車道上的導向標志,在智能駕駛情況下對道路環(huán)境進行感知,幫助駕駛員或智能駕駛系統(tǒng)正確、安全地行駛。路面各種箭頭、字母等包含重要的交通指示信息,對道路場景的理解有重要的作用。駕駛員可能因樹影遮擋、光照變化等情況未注意地面標志,或不了解某個地標的具體含義等情況,導致嚴重的交通事故,影響正常交通秩序。
在地面標志檢測方面,目前常用的檢測方法可分為以下3類:
(1) 基于傳統(tǒng)二值化方法。REBUT等[1]使用全局二值化和用于箭頭標記的形態(tài)算子產生道路標志候選區(qū)域,通過傅里葉算子和K最近鄰算法識別標志,對目標輪廓完整性要求較高,對損壞或遮擋標志檢測效果不理想;FOUCHER等[2]利用局部閾值提取邊緣,并通過漢明距離和基于投影的直方圖圖像比較來分類,涉及閾值數量多,真實檢測率低;WU和RANGANATHAN[3]選取道路圖像中最大穩(wěn)定的極值區(qū)域,從中檢測到角作為模板特征,采用基于角特征的結構匹配識別轉向標志,對陰影敏感、誤報率高;LIU等[4]提出一種基于感興趣區(qū)域(region of interest,ROI)透視變換的道路標記識別方法,通過逆透視變換(inverse perspective mapping,IPM)將梯形ROI轉為正方形,利用模板匹配進行檢測識別,對旋轉、尺度變化等魯棒性差;HE等[5]采用局部結合點特征實現了導向箭頭的特征編碼,采用編輯距離(edit distance)度量箭頭相似性來分類識別,對遮擋和磨損標志的召回率較低。
(2) 基于機器學習支持向量機(support vector machine,SVM)的目標分類方法。隨著機器學習的不斷發(fā)展,AdaBoost[6]和SVM[7]被應用于地面導向標志識別中。WANG等[8]采用IPM預處理,小波函數提取特征,多層SVM進行導向箭頭識別。QIN等[9]采用局部和全局二值化生成識別候選區(qū)域,基于具有輪廓特征的多分類SVM對地標分類。SCHREIBER等[10]利用分水嶺分割算法二值化圖像,利用基于SVM和光學字符識別(optical character recognition,OCR)對地面標志分類。
(3) 基于神經網絡的地面標志檢測算法。神經網絡是近年來國內外學者的研究熱點,GIRSHICK等[11]將卷積神經網絡(convolutional neural networks,CNN)與候選框相結合,提出了基于卷積神經網絡特征區(qū)域 (regions with CNN features,R-CNN)的目標檢測和圖像分割的方法,為提高效率,又引入空間金字塔池化網絡[12]。REN等[13]在Faster R-CNN加入區(qū)域候選網絡(region proposal networks,RPN),將全圖像卷積特征進行共享,提高了GPU上的檢測速度。兩階段神經網絡檢測精度較高,但實時性較差。
現有的地面導向標志識別方法中,多數研究都是基于傳統(tǒng)的二值化方法和機器學習中的SVM,實時性不高,遇到標志模糊、光照變化、陰影遮擋等情況,識別的準確率大幅降低。針對上述問題,為了提高檢測魯棒性,本文將YOLO (you only look once)[14]算法應用于地面標志檢測中,提出一種基于透視降采樣和神經網絡的地標檢測算法,適用于城市及高速公路等場景。以YOLOv3-tiny算法為基礎,利用k-means++算法[15]選擇最佳先驗框尺寸,強化淺層信息,更改特征金字塔網絡(feature pyramid networks,FPN)融合尺度,提高算法魯棒性和小標志的表征能力。實驗結果表明,本文算法兼顧精度和速度,可以在嵌入式設備上靈活部署。
YOLO是一種采用CNN實現端到端目標檢測的算法。與傳統(tǒng)基于候選框的方法不同,其直接將整幅圖輸入網絡訓練模型,將目標檢測看作回歸問題,采用滑動窗口的方式尋找目標中心位置,能夠實時預測多個目標的類別和位置。YOLO網絡借鑒了GoogLeNet[16]分類網絡結構。首先將輸入圖像劃分為×個網格,若目標物體的中心位置落入其中,則這個網格負責預測該目標。每個網格將輸出分類置信度和位置邊框,YOLO檢測原理如圖1所示。因此,輸入圖像只經過一次檢測,就能得到圖像中所有物體的位置及其所屬類別的置信度,即每個邊界框中包含物體的概率為
其中,為置信度評分;()為邊界框含有目標的可能性;truth為實際標注的邊界框面積;pred為預測的邊界框面積;為交并比,代表truth和pred的交集與并集的比值。對結果預測時,由條件類別概率和目標置信度乘積得到類別的置信度,即
其中,為邊界框類別的置信度,代表該邊界框中目標屬于各個類別的可能性大小以及邊界框匹配目標的好壞程度;(c|)為該單元格存在物體且屬于第類的概率;c為目標種類中的第個類別。最后利用非極大值抑制(non-maximum suppression,NMS),去掉冗余預測窗口,得到置信度最高的預測窗口,即為檢測結果。
YOLOv3-tiny網絡是YOLOv3網絡[17]的簡化版,使用較少的卷積層和池化層進行特征提取,未使用Darknet-53中的殘差模塊。其具有相對較高的檢測速度,但識別精度不高,對復雜場景的檢測能力較低。
圖1 YOLO原理圖
YOLOv3-tiny包含24個網絡層,分別是13個卷積層(convolutional)、6個池化層(maxpool)、2個路由層(route)、2個輸出層(yolo)和1個上采樣層(upsample)。主干網絡采用卷積層和池化層串聯結構,骨干網絡類似于YOLOv2[18]中的Darknet-19網絡,由1×1和3×3大小的卷積核提取特征,采用FPN[19],融合輸出了2個13×13和26×26尺度的特征信息,輸出通道直接得到包含目標框的坐標(,,,)和目標置信度。YOLOv3-tiny的網絡結構框架如圖2所示。
圖2 YOLOv3-tiny網絡框架
地面較為常見的標志有導向箭頭和限速標志等,本文以導向箭頭標志為主,主要研究5類常見的標志,分別為直行或右轉、直行或左轉、直行、左轉、右轉。
目前,針對地面交通標志的研究較少,沒有公開的數據集。本文首先構建了一個可用于深度學習訓練和測試的地面標志數據集,一部分數據來自濟青高速、山東大學青島校區(qū)周邊的車載相機數據,另一部分來自百度阿波羅公開道路數據集中帶有地標的部分,使用LabelImg標注制作22 000余張數據。為降低數據集冗余度,每隔5幀抽取1張圖片作為數據集樣本,最終得到4 311張圖片的數據集,包含不同城市的不同場景。數據集滿足Pascal VOC數據集格式,按照7∶2∶1比例將數據集分為訓練集、測試集和驗證集。Landmark數據集統(tǒng)計見表1。
為了簡潔直觀地顯示類別,用SorR,SorL,S,L和R分別表示直行或右轉、直行或左轉、直行、左轉、右轉。
表1 Landmark數據集統(tǒng)計表
數據集圖片尺寸為2700×2400和1920×1080,使用原圖訓練速度慢,訓練特征圖感受野較大,不適宜檢測小目標。為了在嵌入式系統(tǒng)中進行實時目標檢測,將圖像導入低端設備時,首先將圖像進行降采樣操作,降低圖像分辨率,加速訓練。普通降采樣對大小為×的圖片進行倍縮放,原始圖片變?yōu)?/)×(/),原始圖像中每×的像素點轉化為降采樣圖片中的一個像素點。經過數倍普通降采樣后,有效像素較少的目標特征不明顯,甚至整個目標丟失。
車載相機采集的圖像存在較強透視效應,且多為復雜場景下的數據,涵蓋大量車輛、行人、建筑物等復雜信息。為消除透視投影誤差,可對透視圖進行IPM,以減少無關信息對模型性能的影響。原IPM模型直接對整張道路圖像進行變換,雖對遠處的小目標分辨率影響較小,但生成的俯視圖呈“下窄上寬”的倒梯形,保留了很多地標之外的干擾信息,轉向標志占俯視圖的比重較小,且被限制在俯視圖的中央區(qū)域,效果如圖3所示。
圖3 逆透視變換(2700×350)
轉向標志特征簡單,近處大目標所在區(qū)域像素冗余。為滿足實際需求,縮小圖像尺寸,同時消除透視投影誤差,本文提出一種透視降采樣方法,結合IPM和普通降采樣,將劃定的梯形ROI區(qū)域投影在目標圖像上。首先選取合適的ROI區(qū)域,根據ROI區(qū)域坐標和目標圖像坐標計算出變換矩陣,即可對圖像進行透視降采樣變換。目標圖像由遠及近按比例進行降采樣,遠處小目標的分辨率基本不變,近處在保留原圖信息的條件下降低圖像分辨率。其計算公式為
圖4 遠近目標結果對比圖((a)真實圖像;(b)普通降采樣;(c)透視降采樣)
圖4(a)為真實圖像和真實圖像中紅色方框區(qū)域的局部放大圖,圖4(b)和(c)分別為普通降采樣、透視降采樣到400×350的效果圖。對比圖4(a)和(b)可以看出,使用普通降采樣將整張圖像分辨率均勻降低后,圖4(b)中近處大目標分辨率相比圖4(a)降低,輪廓仍可見,不影響辨識目標類別,但遠處小目標明顯模糊,無法辨識目標輪廓和類別。圖4(c)使用透視降采樣,不僅保證遠處小目標分辨率與原圖4(a)中基本相同,還提高了小目標在整張圖像中的占比,更易于檢測;近處大目標的分辨率降低,與圖4(b)中近處大目標的處理效果類似。即透視降采樣方法主要依靠降低近處分辨率來縮小圖像尺寸,基本不會影響遠處小目標的分辨率。與原圖像相比,透視降采樣后的圖像具有3個優(yōu)點:①基本消除地標的透視形變影響;②縮小圖片尺寸,提升模型計算速度;③劃定ROI,減少路面之外的干擾信息,增強小目標特征信息。
本文檢測目標是5類轉向標志,特征簡單,選擇計算量低、速度快的YOLOv3-tiny作為基準網絡。由1.2節(jié)可知,其精度較低,本文通過改進YOLOv3-tiny網絡結構,提出適合地面轉向標志檢測的改進YOLOv3-tiny,因改進后包含12個卷積層,本文將其簡記為YOLOv3-tiny-12,網絡結構如圖5所示。
圖5 YOLOv3-tiny-12網絡結構
YOLOv3-tiny-12網絡主要分為特征提取和回歸預測。前者由卷積層和池化層組成,后者用于預測目標的邊界框坐標和類別概率。根據地面轉向標志特點,本文改進主要分為3部分:①計算自建數據集的聚類中心,更新網絡中每個簇對應的先驗框值;②添加卷積層對淺層信息進行強化重構,增強圖像細粒度特征的提??;③根據目標近大遠小透視特點,采用FPN實現不同分辨率的特征融合,提高網絡對不同尺寸目標的檢測性能。
2.3.1 基于自建數據集的邊界框聚類
YOLOv3-tiny網絡中使用先驗框參數,訓練時加入先驗錨框尺寸,對預測對象范圍進行約束,有助于模型加速收斂。先驗框是根據訓練集中的真實框(ground truth)聚類得到的不同尺寸框,在模型中即為尺度不同的滑動窗口。原始網絡中的先驗框由k-means算法對COCO數據集[20]聚類得到,劃分了6個簇分別對應2個尺度。由于COCO數據集中不含與地標相關數據,原始先驗框參數不能與地標尺寸對應,因此訓練前對數據集標簽進行聚類。考慮到k-means算法[21]選擇初始聚類中心時有較大的隨機性,為避免其隨機選取初始聚類中心帶來的聚類結果偏差,選用隨機性更小的k-means++聚類代替k-means算法對圖像標簽進行聚類分析。
通過對數據集中標注框的寬和高進行聚類,得到6個聚類中心,設為初始先驗框的寬和高,分別是(16,13),(28,29),(35,15),(35,87),(51,68),(69,99),聚類結果如圖6所示。
圖6 數據集標注框聚類結果
2.3.2 增強淺層特征信息的提取
YOLOv3-tiny網絡在特征提取過程中,由于串聯式的卷積層、池化層結構,以及網絡結構加深,感受野增大,導致復雜的背景特征增加,小目標特征減少。
對于CNN,不同深度的卷積層對應不同層次的特征信息。淺層網絡包含更多小目標的邊緣、紋理等信息。為了有效利用淺層特征,本文在網絡特征提取部分強化淺層信息,增強對第3個串聯式卷積池化層的特征提取效果,將maxpool層改為conv4層,卷積步長為1,不改變通道維度和特征圖尺寸,在conv4層后添加maxpool層,步長為2,改變特征圖尺寸,如圖5紅色標注框A所示。改進后既滿足深層的語義信息區(qū)分目標和背景特征,也增加淺層特征圖感受野,提高遠處小目標檢測精度。
2.3.3 基于特征金字塔的多尺度融合
YOLOv3網絡允許輸入不同尺寸的輸入圖像,如608×608,416×416等。原網絡默認將不同長寬的圖像統(tǒng)一調整分辨率為416×416,保證圖像經過卷積、池化和特征融合等處理后,得到13×13和26×26尺度的特征圖。此特征圖有部分信息損失,滿足對大目標的檢測,但對小目標準確檢測需要更細粒度的特征。因低層網絡具有更高的分辨率和更詳細的特征信息,故本文根據邊界框聚類結果和先驗框(表2),調整特征金字塔輸出尺度為26×26和52×52,將小尺度的先驗邊界框分配給52×52特征圖。YOLOv3-tiny-12中使用的金字塔結構如圖7所示。
表2 先驗框表
圖7 特征金字塔
先驗框(anchor)即在圖像上預先設定不同大小、不同長寬比例的框。網絡設置合適的先驗框尺度,可更高概率地出現對目標有高匹配度的先驗框,體現為高IOU。先驗框尺寸一般都是經驗選取或k-means聚類得到,YOLOv2中介紹,網絡是通過k-means聚類代替人工經驗選取,對訓練集中的bounding box進行聚類,生成一組更適合數據集的先驗框,使得先驗框與數據集目標的匹配度更高,網絡的檢測結果更好。
增加的52×52尺度特征圖融合conv5卷積層,如圖5紅色標注框B所示,將高層語義信息和淺層細節(jié)信息融合,通過更小的預選框提高小目標的檢測精度,平衡不同尺度的地面標志。
本文基于深度學習Darknet框架對數據進行訓練和評估,實驗操作系統(tǒng)為Ubuntu18.04.2,處理器為Intel Core i9-9900k,內存為64 G,使用的GPU型號為GeForce RTX 2080Ti。
為了評價測試模型性能,本文主要選用平均精度均值(mean average precision,mAP)、平均耗時、運算量 (billion float operations,BFLOPs)和模型權重大小(size)作為評價指標。mAP用于評估算法檢測的準確率;平均耗時主要用于評估算法的實時性能,表示處理每張圖片消耗的時間(單位:ms),平均耗時越少,速度越快;BFLOPs描述算法進行卷積運算需要的十億次浮點運算次數,表示算法的計算復雜度。部分指標為
其中,為檢測類別數;(Precision)和(Recall)分別為精確率和召回率;,,分別為正確分類的正例、負例錯分為正例、正例錯分為負例個數。
表3是YOLOv3-tiny與其他幾種目標檢測算法性能對比實驗結果。
表3 不同檢測算法性能對比
從表3數據可看出,使用原始圖像進行訓練測試時,YOLOv3-tiny算法檢測每幀圖片的平均耗時為2.15 ms,速度快于其他4類算法,計算復雜度降低10倍以上,模型體積縮小數倍,但是算法精度比Faster R-CNN,SSD[22]和YOLOv4[23]算法低,符合理論預期。Faster R-CNN的檢測速度慢,計算復雜度是YOLOv3-tiny的20倍,且模型權重文件較大。綜上,本文選取計算復雜度低、模型體積小的實時檢測網絡YOLOv3-tiny作為基準網絡。
為進一步提升模型準確率,選取圖像車前區(qū)域(12 m×60 m)為ROI,設定生成圖像分辨率為400×350,對數據集進行透視降采樣(perspective down-sampling,PD)。消除透視形變和目標近大遠小對精度的影響,降低復雜場景對模型性能的干擾,在建立的數據集上使用YOLOv3-tiny驗證,透視降采樣前后的目標平均精度對比如圖8所示。
圖像進行透視降采樣后,測試集上的mAP值為96.1%,相比原mAP值提高18.8%。其中右轉R的AP最高,透視降采樣后提升到99.84%,提升了16.32%。直行S透視降采樣后平均精度提升25.37%,相比其他4類提升最大。但直行S最終的AP最低,為89.40%。結合數據集測試結果和類別形狀分析,直行標志與斑馬線、車道線虛線等交通標志的相似度程度較高,標志損壞或涂改后易錯檢,測試結果中一些正樣本標志被判定為負樣本,FN和FP偏高導致AP偏低。
圖8 透視降采樣前后測試結果對比
本文對網絡改進后,預測特征圖的感受野減小,遠處小目標的檢測效果增強,mAP值提高了3.1%,處理每幀圖片的平均耗時由2.11 ms縮短到1.89 ms,模型計算復雜度降低了7%。模型權重文件保存為訓練的網絡各層權值,由于網絡層數減少為23層,卷積核個數、通道數等減少,及卷積核尺寸變小等因素,模型大小由33.8MB減小為8.3MB,占原模型權重的25%左右,適宜在嵌入式設備部署。原網絡訓練8 000個epochs用時約4.5 h,改進后訓練時長僅需1.5 h。網絡改進前后的速度和計算復雜度對比見表4,目標的平均精度測試結果見表5。
本文使用透視降采樣后的圖像進行模型訓練,并使用YOLOv3-tiny和YOLOv3-tiny-12訓練的最優(yōu)權重測試,隨機抽取不同場景、不同距離的測試圖像結果對比如圖9所示。
表4 速度和計算量對比
表5 測試結果對比(%)
由圖9(a1)和(a2)可以看出,光線充足、路面狀況良好的情況下,原網絡可以較好地識別地面標志,但也存在較小目標漏檢情況;改進后的網絡預測尺度更適合小目標尺寸,檢測精度更高,漏檢情況較少。對于地面標志被樹蔭、建筑物陰影遮擋等情況,如圖9(b1)和(b2),或由于長期磨損、涂改以及污染等情況,如圖9(c1)和(c2),原網絡檢測精度有所下降,改進后網絡的檢測精度幾乎不受影響。不同場景下的檢測結果說明,通過對先驗框尺寸進行重新聚類、增強淺層網絡信息的提取等操作,網絡的魯棒性更強,更能適應多樣的天氣、光照和道路行駛環(huán)境等。
為進一步驗證算法對遠處小目標的準確率,采集不同距離的地標數據進行測試。車載相機距離地標的距離分別是5 m,25 m和50 m,部分測試結果如圖9(d),(e)和(f)所示。從圖中可以看出,采集距離為5 m和25 m時,如圖9(d)和(e),由于目標尺寸較大,左轉和前方直行或右轉標志均被準確識別,且識別準確率接近100%。采集距離為50 m時,如圖9(f1)和(f2),目標尺寸非常小,由于YOLOv3-tiny對淺層特征信息的提取不足,且預選框尺寸較大,目標識別準確率降低,圖9(f1)中的直行或右轉標志漏檢。YOLOv3-tiny-12重新聚類了先驗框的大小,使得預測時能更高概率的出現匹配度高的先驗框,并且增強對淺層特征的提取,獲得更多小目標的邊緣、紋理等信息,使得小目標特征提取更充分,提高了檢測精度。不同距離的測試結果表明,改進后的YOLOv3-tiny-12算法對小目標檢測能力更強,預測尺度與小目標尺寸更匹配,在一定距離范圍內,檢測精度更高。
圖9 YOLOv3-tiny與YOLOv3-tiny-12測試結果對比((a~c)不同場景對比; (d~f)不同距離對比)
本文為提高復雜場景的魯棒性和小目標檢測的精度,提出一種基于透視降采樣和YOLOv3-tiny-12的地標檢測方法。選取道路圖像ROI進行透視降采樣,減少了無關信息對模型的影響,縮小圖像尺寸的同時不改變遠處小目標的分辨率,提高了訓練速度。改進YOLOv3-tiny算法,增加卷積層強化淺層信息,采用金字塔結構將預測尺度調整為適應地標的尺寸。通過平均精度均值、平均耗時和權重大小等對模型的性能進行了評估,在保證實時性的前提下,改進后的檢測精度為99.2%,提升了21.9%,模型權重8.3 MB,易于在低端嵌入式設備上部署。
[1] REBUT J, BENSRHAIR A, TOULMINET G. Image segmentation and pattern recognition for road marking analysis[C]//2004 IEEE International Symposium on Industrial Electronics. New York: IEEE Press, 2004: 727-732.
[2] FOUCHER P, SEBSADJI Y, TAREL J P, et al. Detection and recognition of urban road markings using images[C]//2011 14th International IEEE Conference on Intelligent Transportation Systems. New York: IEEE Press, 2011: 1747-1752.
[3] WU T, RANGANATHAN A. A practical system for road marking detection and recognition[C]//2012 IEEE Intelligent Vehicles Symposium. New York: IEEE Press, 2012: 25-30.
[4] LIU Z Q, WANG S J, DING X Q. ROI perspective transform based road marking detection and recognition[C]//2012 International Conference on Audio, Language and Image Processing. New York: IEEE Press, 2012: 841-846.
[5] HE U, CHEN H, PAN I, et al. Using edit distance and junction feature to detect and recognize arrow road marking[C]//The 17th International IEEE Conference on Intelligent Transportation Systems. New York: IEEE Press, 2014: 2317-2323.
[6] FREUND Y, SCHAPIRE R E. A decision-theoretic generalization of on-line learning and an application to boosting[J]. Journal of Computer and System Sciences, 1997, 55(1): 119-139.
[7] CORTES C, VAPNIK V. Support-vector networks[J]. Machine Learning, 1995, 20(3): 273-297.
[8] WANG N, LIU W, ZHANG C M, et al. The detection and recognition of arrow markings recognition based on monocular vision[C]//2009 Chinese Control and Decision Conference. New York: IEEE Press, 2009: 4380-4386.
[9] QIN B, LIU W, SHEN X, et al. A general framework for road marking detection and analysis[C]//The 16th International IEEE Conference on Intelligent Transportation Systems. New York: IEEE Press, 2013: 619-625.
[10] SCHREIBER M, POGGENHANS F, STILLER C. Detecting symbols on road surface for mapping and localization using OCR[C]//The 17th International IEEE Conference on Intelligent Transportation Systems. New York: IEEE Press, 2014: 597-602.
[11] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2014: 580-587.
[12] HE K M, ZHANG X Y, REN S Q, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904-1916.
[13] REN S, HE K, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.
[14] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 779-788.
[15] Arthur D, Vassilvitskii S. K-means++: the advantages of careful seeding[C]//The 18th Annual ACM-SIAM symposium on Discrete Algorithms. New York: ACM Press, 2007: 1027-1035.
[16] SZEGEDY C, LIU W, JIA Y Q, et al. Going deeper with convolutions[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2015: 1-9.
[17] REDMON J, FARHADI A. YOLOv3: an incremental improvement[C]//IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 1-4.
[18] REDMON J, FARHADI A. YOLO9000: better, faster, stronger[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 6517-6525.
[19] LIN T Y, DOLLáR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 936-944.
[20] LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: common objects in context[M]//Computer Vision–ECCV 2014. Cham: Springer International Publishing, 2014: 740-755.
[21] 吳夙慧, 成穎, 鄭彥寧, 等. K-means算法研究綜述[J]. 現代圖書情報技術, 2011(5): 28-35.
WU S H, CHENG Y, ZHENG Y N, et al. Survey on K-means algorithm[J]. New Technology of Library and Information Service, 2011(5): 28-35 (in Chinese).
[22] LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot MultiBox detector[M]//Computer Vision–ECCV 2016. Cham: Springer International Publishing, 2016: 21-37.
[23] BOCHKOVSKIY A, WANG C Y, LIAO H Y MARK. YOLOv4: optimal speed and accuracy of object detection[EB/OL]. (2020-04-23) [2021-08-28]. https://arxiv. org/abs/2004.10934.
Landmark detection based on perspective down-sampling and neural network
LI Yu-zhen1, CHEN Hui1, WANG Jie1, RONG Wen2
(1. School of Information Science and Engineering, Shandong University, Qingdao Shandong 266237, China; 2. Shandong Hi-Speed Information Group Co, Ltd, Jinan Shandong 250000, China)
In the field of intelligent driving, a neural network-based and perspective down-sampling-based landmark detection method was proposed to accurately detect the road guide signs in real time. This proposed method can effectively solve the problems of poor real-time performance of traditional detection methods and low detection accuracy for complex scenes and remote small targets. Firstly, the region of interest for the image was selected for perspective down-sampling to reduce the near resolution of the road image, reduce the image size, and eliminate the perspective projection error. Secondly, the YOLOv3-tiny target detection network was enhanced. The boundary frame clustering of self-built data set was implemented by k-means++. The convolution layer was added to strengthen the shallow features and enhance the small target representation ability. By changing the fusion scale of feature pyramid, the prediction output was adjusted to 26×26 and 52×52. Finally, the accuracy rate was elevated from 78% to 99% on the self-built multi-scene data set, and the model size was reduced from 33.8 MB to 8.3 MB. The results show that a neural network-based and perspective down-sampling-based landmark detection method displays strong robustness, higher detection accuracy for small targets, and is readily deployable on low-end embedded devices.
perspective down-sampling; YOLOv3-tiny; landmark detection; data set; k-means++
TP 391
10.11996/JG.j.2095-302X.2022020288
A
2095-302X(2022)02-0288-08
2021-06-21;
2021-09-26
山東省科技發(fā)展計劃重點項目(2019GGX101018);山東省自然科學基金項目(ZR2017MF057)
李玉珍(1996–),女,碩士研究生。主要研究方向為計算機視覺輔助和自動駕駛、目標檢測。E-mail:1874922136@qq.com
陳 輝(1963–),女,教授,博士。主要研究方向為對應點問題、虛擬現實、裸眼3D電視顯示、計算機視覺輔助和自動駕駛。 E-mail:huichen@sdu.edu.cn
21 June,2021;
26 September,2021
Key Projects of Science and Technology Development Plan of Shandong Province(2019GGX101018); National Natural Science Foundation of Shandong (ZR2017MF057)
LI Yu-zhen (1996–), master student. Her main research interests cover computer vision, assisted autopilot and target detection. E-mail:1874922136@qq.com
CHEN Hui (1963-), professor, Ph.D. Her main research interests cover correspondence issues, virtual reality, naked eye 3D TV display, computer vision assistance and autopilot. E-mail:huichen@sdu.edu.cn