鄒俊逸 劉 暢 郭文彬 嚴運兵 冉茂平
摘要:
對于智能車輛而言,如果感知設(shè)備可以準確快速地檢測到車輛行駛前方道路上的凹凸障礙物,那就可為車輛懸架等底盤系統(tǒng)的控制提供重要的預(yù)瞄信息,從而實現(xiàn)車輛綜合性能的提高和改善。針對路面上常見的凸塊(減速帶)、凹坑等典型的正負障礙物,提出了一種基于改進YOLOv7-tiny算法的識別方法。首先,在原YOLOv7-tiny算法的三個特征提取層引入SimAM模塊,增強網(wǎng)絡(luò)對特征圖的感知能力;其次,在Neck部分采用更為平滑的Mish激活函數(shù),增加更多的非線性表達;再次,使用CARAFE上采樣算子替換最近鄰上采樣算子,使網(wǎng)絡(luò)更有效地聚合上下文信息;最后,將WIoU作為定位損失函數(shù),提高網(wǎng)絡(luò)收斂速度以及魯棒性。離線仿真實驗結(jié)果表明:與原模型相比,改進后的模型在幾乎相同參數(shù)量下,預(yù)測框與真實框交并比為0.5時的平均準確度提高了約2.5%。將改進后的模型部署到實車上,實車實驗驗證了模型能夠有效檢測出車輛前方路面出現(xiàn)的障礙物,說明所提出的算法模型能夠準確提供障礙物檢測的預(yù)前信息。
關(guān)鍵詞:路面預(yù)瞄;凹凸障礙物;改進與優(yōu)化;識別方法
中圖分類號:TP391.4
DOI:10.3969/j.issn.1004132X.2024.06.001
開放科學(xué)(資源服務(wù))標識碼(OSID):
Research on Road Uneven Obstacle Recognition Method for Intelligent Vehicles
ZOU Junyi? LIU Chang? GUO Wenbin? YAN Yunbing? RAN Maoping
School of Automotive and Transportation Engineering,Wuhan University of Science and
Technology,Wuhan,430081
Abstract: For intelligent vehicles, if the sensing device might accurately and quickly detect the concave and convex obstacles on the roads ahead of the vehicles, the important preview information might be provided for the control of the chassis system such as the suspension of the vehicles, and finally realized the improvement of the comprehensive performance of the vehicles. Therefore, based on improved YOLOv7-tiny algorithm a recognition method was proposed for typical positive and negative obstacles such as bumps(speed bumps) and pits on the road surfaces. Firstly, the SimAM module was introduced in the three feature extraction layers of the original YOLOv7-tiny algorithm to enhance the networks ability to perceive the feature map; secondly, a smoother Mish activation function was used in the Neck part to add more nonlinear expressions; again, replacing the nearest proximal upsamping operator with the up-sampling operator to enable the network to aggregate contextual information more efficiently; and lastly, the WIoU was used as the localization loss function to improve the convergence speed as well as the robustness of the network. The offline simulation experimental results show that compared with the original model, the improved model improves the average accuracy by 2.5% for almost the same number of parameters with an intersection ratio of 0.5 between the predicted and real frames. The improved model is deployed to a real vehicle, and the real-vehicle experiments verify that the model may effectively detect the obstacles appearing on the road in front of the vehicles, indicating that the proposed algorithmic model may accurately provide the pre-precedent information for obstacle detections.
Key words: road preview; uneven obstacle; improvement and optimization; recognition method
收稿日期:20230825
基金項目:湖北省重點研發(fā)計劃(2021BAA180);國家自然科學(xué)基金(52202480);湖北省自然科學(xué)基金(2022CFB732);湖北省教育廳科學(xué)研究計劃指導(dǎo)項目(B2021008)
0? 引言
對于智能汽車而言,可靠和有效的環(huán)境感知能力是其安全和舒適駕駛的基礎(chǔ)。當前,國內(nèi)外學(xué)者基于機器視覺和深度學(xué)習(xí)等算法,針對道路場景中的人、車、物以及交通標志的識別展開了大量研究,并且研究成果表明識別準確率和速率已經(jīng)達到了較高的水平。但現(xiàn)有的大部分環(huán)境感知技術(shù)主要是基于智能汽車行駛安全性進行考慮的,通過對道路中的交通目標進行識別來實現(xiàn)先進駕駛輔助系統(tǒng)(advanced driving assistance system, ADAS)中的主動避撞等功能,缺乏對智能汽車舒適性方面的考慮。
智能汽車在路面上行駛時,難免會遇到凹坑、減速帶或者其他凸塊等障礙物,這種凹凸(正負)障礙物對汽車的舒適性、穩(wěn)定性以及安全性都有著重要的影響,如果能及時準確地對路面正負障礙物進行有效識別,就能很大程度上提高汽車行駛的舒適性、安全性和穩(wěn)定性。
面向智能車輛的路面凹凸障礙物識別方法研究——鄒俊逸? 劉? 暢? 郭文彬等
中國機械工程 第35卷 第6期 2024年6月
傳統(tǒng)的對路面凹凸障礙物的識別方法主要通過加速度傳感器、位移傳感器獲取路面參數(shù)從而進行反向辨識。LIU等[1]通過獲取簧下質(zhì)量加速度信息反求路面功率譜實現(xiàn)路面等級分類。XUE等[2]通過手機加速度傳感器測量車身振動加速度以檢測路面凹坑。雖然這些方法能夠?qū)β访嬲系K物、等級進行被動判斷,但無法滿足當今自動駕駛背景下路面障礙物感知的前瞻性要求。
劉家銀等[3]利用激光雷達通過距離、點密度閾值進行凹坑識別。鄔佳琪[4]使用激光雷達和多種傳感器信息進行數(shù)據(jù)融合以獲取路面高程。雖然受到Pointnet[5]的啟發(fā),許多研究人員提出了基于點云的路面檢測方法,但由于激光雷達價格昂貴,加之現(xiàn)有的點云數(shù)據(jù)集較少且并沒有路面障礙物公開點云數(shù)據(jù),因此難以得到大規(guī)模應(yīng)用。
機器視覺的方法成本低,效果好,能夠滿足車前路面障礙物預(yù)先感知的需要。目前的主流檢測網(wǎng)絡(luò)模型分為單階段和雙階段兩類[6]。單階段檢測方法聯(lián)合定位與識別兩個過程,相對于雙階段檢測方法,檢測速度更快、精度與速率間更為平衡。雙階段檢測方法分別處理定位和識別,其檢測精度較高,但降低了檢測速率。單階段檢測方法的代表有YOLO(you only look once)系列[7-10]、SSD(single shot MultiBox detector)[11]、RetinaNet[12]等。雙階段檢測方法的代表有R-CNN(region-based convolutional neural network)[13]、Fast R-CNN[14]、Faster R-CNN[15]等。YOLO系列算法作為單階段檢測方法的杰出代表,在智能汽車感知領(lǐng)域已有不少應(yīng)用。韓巖江等[16]在YOLOv5s基礎(chǔ)上融合了坐標注意力機制,在特征融合部分采用了BiFPN(bidirectional feature pyramid network)結(jié)構(gòu),針對交通標志的檢測準確率相對于原始模型提高了3.9%。顧士洲等[17]采用擴增檢測尺度法得到了改進的YOLOv3算法,并對道路正負障礙物進行了檢測研究。劉子龍等[18]融合高分辨率特征網(wǎng)絡(luò)Lite-HRNet提出了改進的YOLOv5模型,對小目標的檢測精度提升明顯。
因此,本文提出一種以YOLOv7-tiny算法為基礎(chǔ)的路面凹凸障礙物識別方法,對路面凹凸不平特性進行識別。
1? 系統(tǒng)架構(gòu)
本文提出了一種基于路面預(yù)瞄的智能底盤控制架構(gòu),如圖1所示,
通過感知設(shè)備對路面不平度、附著系數(shù)以及障礙物進行識別,再反饋到線控轉(zhuǎn)向、線控制動和主動懸架進行提前控制,能很好地改善智能汽車動力學(xué)性能。
本文基于圖1所示的智能底盤架構(gòu),以舒適性為目標,對車前路面凹凸障礙物進行檢測,為后續(xù)的懸架、轉(zhuǎn)向和制動等系統(tǒng)的控制提供預(yù)瞄信息。
本文提出的路面凹凸障礙物實時檢測系統(tǒng)架構(gòu)見圖2,主要由三個模塊構(gòu)成:①樣本采集模塊,通過網(wǎng)絡(luò)搜集、手持移動設(shè)備拍攝、實驗車輛信息系統(tǒng)采集三種方式搜集原始圖像數(shù)據(jù),并對原始圖像進行數(shù)據(jù)增強作為訓(xùn)練樣本;②模型訓(xùn)練模塊,將增強后的訓(xùn)練樣本輸入改進后的模型進行模型訓(xùn)練,并對收斂后的改進模型檢測效果進行評估;③實車實驗?zāi)K,將改進后的模型部署到課題組實驗車輛上進行實時檢測,測試其實際性能。
2? 數(shù)據(jù)集建立及處理
2.1? 原始圖片采集
對路面上常見的減速帶、凹坑兩類障礙物采用以下三種方式獲取足夠數(shù)量的原始圖像數(shù)據(jù):①網(wǎng)上在線搜集;②使用手持移動設(shè)備線下拍攝;③使用課題組實驗車輛信息采集系統(tǒng)拍攝。三種方式共搜集到樣本圖片1552張,場景包含城市、校園、鄉(xiāng)村,環(huán)境覆蓋晴天、雨天、多云三類。原始圖像數(shù)據(jù)分布見表1。對采集到的圖片使用LabelImg標注工具對目標進行人工標注,如圖3所示。
2.2? 圖像數(shù)據(jù)擴充
圖像樣本多樣性不足會導(dǎo)致網(wǎng)絡(luò)模型訓(xùn)練中出現(xiàn)過擬合現(xiàn)象。為防止過擬合,本文利用Imgaug圖像增強庫對原始數(shù)據(jù)集進行離線數(shù)據(jù)增強,隨機采用水平翻轉(zhuǎn)、像素乘法增強、高斯內(nèi)核模糊、仿射變換、隨機縮放等方法中的三種方法將原始數(shù)據(jù)集中每張圖片變?yōu)槿龔?,處理后所有圖片共計4656張。原始圖片和數(shù)據(jù)增強后的圖片如圖4所示。
data enhancement
3? 算法介紹
3.1? YOLOv7-tiny算法簡介
YOLOv7算法[19]在官方公開的實驗中無論是檢測速度還是檢測精度都超過了目前已知的檢測器。官方根據(jù)代碼的運行環(huán)境不同設(shè)計了不同版本的模型,其中YOLOv7-tiny便是面向邊緣GPU的網(wǎng)絡(luò)模型,是YOLOv7的精簡版本。
YOLOv7-tiny由輸入端(Input)、主干網(wǎng)絡(luò)(Backbone)、頸部(Neck)和檢測頭(Head)組成,如圖5所示。YOLOv7-tiny在輸入端沿用YOLOv5的預(yù)處理方法,通過自適應(yīng)圖像裁剪對圖像進行處理,將圖像統(tǒng)一裁剪為640 pixel×640 pixel大小以滿足主干網(wǎng)絡(luò)所需。
主干部分由若干CBL卷積層、簡潔版ELAN結(jié)構(gòu)以及MP卷積層堆砌而成。其中CBL卷積層由Conv2D、BN(batch normalization)、Leaky ReLU組成,用以從原始數(shù)據(jù)中學(xué)習(xí)提取特征。簡潔版ELAN結(jié)構(gòu)則是將原YOLOv7的ELAN結(jié)構(gòu)中7個CBL層精簡為5個。ELAN結(jié)構(gòu)是官方提出的一種高效聚合網(wǎng)絡(luò),當輸入信息或梯度信息傳遞很多層后,信息可能消失或過度膨脹,而ELAN在輸入和輸出間包含了多個較短連接,使得網(wǎng)絡(luò)顯著加深,變得更加精確和高效。簡潔版的ELAN通過調(diào)節(jié)最短和最長的梯度路徑從而使網(wǎng)絡(luò)學(xué)習(xí)到更多的特征,且具有更強的魯棒性。在MP層中,YOLOv7-tiny取消了卷積操作,改為只使用池化下采樣,以拼接不同特征。
在頸部,YOLOv7-tiny沿用YOLOv5的PAFPN結(jié)構(gòu),其中包含有若干個CBL卷積層、簡潔版的SPPCSPC以及簡潔版ELAN。三個特征提取層分別位于Backbone的中、中下、底部位置,分別對不同尺度的特征進行特征提取。SPPCSPC是一種特殊的SPP(spatial pyramid pooling)結(jié)構(gòu),它具有CSP(cross stage partial)模塊,結(jié)構(gòu)中有一個大的殘差邊輔助優(yōu)化與特征提取,能有效擴大感受野。而簡潔版的SPPCSPC則是在原結(jié)構(gòu)中減少了CBL卷積的數(shù)量。
在檢測頭部分,筆者借鑒RepVGG網(wǎng)絡(luò)提出了RepConv(re-parameterization conv)網(wǎng)絡(luò),在網(wǎng)絡(luò)的部分結(jié)構(gòu)處采用模型重參數(shù)化,在不降低模型性能的同時有效減少參數(shù)量,提高網(wǎng)絡(luò)的運算速度。
3.2? 網(wǎng)絡(luò)模型優(yōu)化
相較于YOLOv7算法,YOLOv7-tiny算法雖然體量更小,能提高特征提取速度,但同時卻存在以下不足:
(1)網(wǎng)絡(luò)主干和頸部采用了大量簡潔版的ELAN結(jié)構(gòu),雖然減少了參數(shù)量,但卻使得網(wǎng)絡(luò)層數(shù)減少而降低了特征提取能力。
(2)整個網(wǎng)絡(luò)采用Leaky ReLU函數(shù),由于Leaky ReLU在不同區(qū)間函數(shù)不同,導(dǎo)致無法為正負輸入提供一致的關(guān)系預(yù)測,在特征向下傳遞及反向傳播時,隨著網(wǎng)絡(luò)的加深,梯度更新會越來越不光滑,從而影響預(yù)測結(jié)果。
(3)上采樣模塊采用最近鄰上采樣算子,僅通過像素點的空間位置來決定上采樣核,并沒有利用特征圖的語義信息,使得感知域通常都很小。
(4)采用CIoU(complete intersection over union)作為bounding box的定位損失,其縱橫比描述的是相對值,并未反映出寬高分別與置信度的不同,存在一定的模糊性,且未考慮難易樣本的平衡問題。
基于以上不足,本文使用YOLOv7-tiny作為基礎(chǔ)網(wǎng)絡(luò)進行改進。本文的改進方法如下:
(1)為強化主干部分的特征提取能力,提高對訓(xùn)練圖像不同區(qū)域的信息提取效率,在三個特征提取層前添加SimAM(simple attention module)注意力模塊,優(yōu)化特征層的表達能力,豐富提取到的有效特征層的語義信息。
(2)替換Neck部分的Leaky ReLU函數(shù),使用更為平滑的Mish作為激活函數(shù),增加更多的非線性表達,提高模型泛化性。
(3)采用輕量級上采樣算子CARAFE改善特征融合網(wǎng)絡(luò)融合能力,以及原網(wǎng)絡(luò)模型中最近鄰上采樣存在的無法很好兼顧路面障礙物檢測中速度和精度的問題。
(4)采用WIoU損失函數(shù)作為模型定位損失,聚焦于普通質(zhì)量的錨框,提高檢測器的整體性能。
3.2.1? SimAM注意力模塊
現(xiàn)有的注意力模塊通常被繼承到每個塊中,以改進來自先前層的輸出。這種細化步驟通常沿著通道維度或空間維度操作,從而生成一維或二維權(quán)重,并平等對待每個通道或空間位置中的神經(jīng)元。通道注意力模塊對不同通道區(qū)別對待,對所有位置同等對待;空間注意力模塊對不同位置區(qū)別對待,對所有通道同等對待。這種方式可能會限制其學(xué)習(xí)更多辨別線索的能力,因此三維權(quán)重注意力優(yōu)于傳統(tǒng)的一維和二維權(quán)重注意力。在現(xiàn)實生活中,空間注意力和通道注意力往往協(xié)同作用,共同促進視覺處理過程中的信息選擇。為此文獻[20]提出了一種3-D無參注意力模塊,使其每個神經(jīng)元被分配唯一的權(quán)重。為更好地評估每個神經(jīng)元的重要性,每個神經(jīng)元都被定義了能量函數(shù)et,如下式所示:
et(wt,bt,y,xi)=(yt-t^)2+1M-1∑M-1i=1(y0-x^i)2
(1)
其解析解如下:
wt=-2(t-μt)(t-μt)2+2σ2t+2λ(2)
bt=-12(t+μt)wt(3)
μt=1M-1∑M-1i=1xi(4)
σ2t=1M-1∑M-1i=1(xi-μt)2(5)
式中,wt、bt為權(quán)重和偏差;t^、x^i為目標神經(jīng)元和其他神經(jīng)元在相同通道上的輸入特征t、xi關(guān)于wt、bt的線性變換;M為該通道上輸入神經(jīng)元的數(shù)量;i為空間維上的指數(shù);μt、σ2t分別為該通道中除t以外的所有神經(jīng)元的均值和方差;λ為超參量。
由此得到輕量型注意力模塊SimAM。SimAM注意力模塊結(jié)構(gòu)如圖6所示,其中,X表示特征圖,C為通道數(shù),H為特征圖的高,W為特征圖的寬。與現(xiàn)有的通道注意力模塊和空間注意力模塊相比,SimAM注意力模塊無需向原始網(wǎng)絡(luò)添加參數(shù),而是在一層中推斷特征圖的3-D權(quán)重。
為了能在復(fù)雜行車環(huán)境下準確檢測不同尺度的目標,提高凹坑和減速帶的識別準確率,本文在三個特征提取層前各添加一個SimAM注意力模塊以提高網(wǎng)絡(luò)對特征圖感知能力。加入SimAM后的部分網(wǎng)絡(luò)結(jié)構(gòu)如圖7所示。
3.2.2? 激活函數(shù)優(yōu)化
YOLOv7-tiny中采用Leaky ReLU作為激活函數(shù),定義如下:
Leaky ReLU(x)=ax? x<0
xx≥0(6)
式中,a為衰減系數(shù)。
Leaky ReLU函數(shù)雖然在ReLU基礎(chǔ)上解決了負輸入下梯度為零的情況,但它在實際應(yīng)用中的效果卻并不穩(wěn)定,無法為函數(shù)值在不同區(qū)間上提供一致的關(guān)系預(yù)測。2019年MISRA[21]提出了一種新型激活函數(shù)——Mish函數(shù),定義如下:
Mish=xtanh(ln(1+exp(x)))(7)
Mish函數(shù)無上界有下界,其正值可以達到任何高度,避免了由于封頂而出現(xiàn)的飽和,從而導(dǎo)致梯度消失問題,同時有下界則保證了一定的正則化效應(yīng),利于網(wǎng)絡(luò)的訓(xùn)練。不同于ReLU和Leaky ReLU的差分為0,可能導(dǎo)致部分神經(jīng)元沒有得到更新的缺點,Mish是非單調(diào)函數(shù),有助于保持小的負值,從而穩(wěn)定網(wǎng)絡(luò)梯度流。
Mish函數(shù)在負區(qū)間內(nèi)更加光滑,使得在求解和模型泛化性上表現(xiàn)更為優(yōu)良。Mish函數(shù)和Leaky ReLU函數(shù)的對比如圖8所示。
在YOLOv4相關(guān)實驗中,Mish激活函數(shù)表現(xiàn)得更加穩(wěn)定。鑒于此,本文在網(wǎng)絡(luò)的Neck部分將原網(wǎng)絡(luò)中的Leaky ReLU激活函數(shù)替換為Mish函數(shù)。
3.2.3? 上采樣算子CARAFE
特征上采樣對密集目標檢測任務(wù)至關(guān)重要,在原網(wǎng)絡(luò)結(jié)構(gòu)中,Neck部分上采樣采用最近鄰插值,雖然計算量小運算較快,但卻僅僅依靠離待測采樣點最近的像素的灰度值作為該采樣點的灰度值,而沒有考慮其他相鄰像素點的影響,使得特征重組時忽略了一部分信息。WANG等[22]通過研究提出了CARAFE上采樣算子,它主要由兩個關(guān)鍵模塊構(gòu)成,即內(nèi)核預(yù)測模塊和內(nèi)容感知重組模塊。在給定大小為C×H×W的特征圖X和上采樣率σ后,經(jīng)過CARAFE將生成一個大小為C×σH×σW的新特征圖X′。對于在新特征圖中的任意目標位置l′=(i′,j′),在原特征圖中都有l(wèi)=(i,j)與之對應(yīng),且l=i′/σ,j=j′/σ。將N(Xl,k)表示為X的k×k子域,第一步內(nèi)核預(yù)測通過Xl的k×k子域預(yù)測每個位置l′的位置核Wl′,公式如下:
Wl′=ψ(N(Xl,kencoder))(8)
第二步內(nèi)容感知重組中,對每個重組內(nèi)核都通過函數(shù)對局部區(qū)域內(nèi)的特征進行重組,函數(shù)的簡單形式如下:
X′l′=∑rn=-r∑rm=-rWl′(n,m)X(i+n,j+m)(9)
式中,X′l′為新特征圖X′中l(wèi)′=(i′,j′)的位置;Wl′(n,m)為卷積核;r為原始特征圖中心點坐標的變化區(qū)域。
本文在Neck部分采用CARAFE上采樣算子擴大感受野。此外,使用CARAFE在引入很少計算開銷的同時,能支持特定實例的內(nèi)容感知處理,動態(tài)地生成自適應(yīng)內(nèi)核。
3.2.4? 邊界框損失函數(shù)優(yōu)化
原YOLOv7-tiny結(jié)構(gòu)中的損失函數(shù)由定位損失Lloc,Loss、置信度損失Lconf,Loss、分類損失Lclass,Loss構(gòu)成,如下式所示:
Lobject,Loss=Lloc,Loss+Lconf,Loss+Lclass,Loss(10)
定位損失函數(shù)作為目標檢測損失函數(shù)的重要組成部分,其良好的定義將為模型帶來顯著的性能提升。YOLOv7-tiny定位損失采用CIoU計算,其懲罰項按下式定義:
CIoU Loss=1-I+ρ2(b,bgt)c2+αv(11)
v=4π2(arctanwgthgt-arctanwh)2(12)
α=v(1-I)+v(13)
式中,v為用來度量長寬比的相似度;α為用來定義權(quán)重的函數(shù);b、bgt分別表示預(yù)測框和真實框;ρ2(b,bgt)表示預(yù)測框和真實框的歐氏距離;I為交并比,反映預(yù)測框和真實框相交區(qū)域面積與合并區(qū)域面積的比值;w、h及wgt、hgt分別為錨框和目標框的尺寸。
在實際使用過程中,由于CIoU損失函數(shù)的梯度需要考慮v的梯度,當梯度長寬區(qū)間位于[0,1]時,w2+h2通常很小,從而導(dǎo)致梯度爆炸。而由式(12)可知,當b和bgt的長寬比一致時,v為0,此時長寬比的懲罰項不起作用,導(dǎo)致定位損失得不到穩(wěn)定表達。TONG等[23]經(jīng)過研究發(fā)現(xiàn),目標檢測訓(xùn)練集中往往存在一些低質(zhì)量示例,若一味地強化邊界框?qū)Φ唾|(zhì)量示例的回歸,顯然會危害模型檢測性能的提升。為解決這個問題并充分挖掘非單調(diào)聚焦機制的潛能,提出了WIoU(wise-IoU)的思想,公式如下:
LWIoUv3=rLWIoUv1
LWIoUv1=RWIoULIoU
LIoU=1-I
RWIoU=exp((x-xgt)2+(y-ygt)2(W2g+H2g)*)(14)
式中,Wg、Hg為最小的包圍框?qū)挾群透叨?;LIoU為邊界框回歸損失項;x、y為錨框中心位置坐標;xgt、ygt為目標框中心位置坐標;LWIoUv3、LWIoUv1為兩個版本W(wǎng)IoU的損失項;RWIoU為包圍框中心歸一化距離。
WIoU基于動態(tài)非單調(diào)聚焦機制設(shè)計,使用“離群度”替代IoU對錨框進行質(zhì)量評估。相較于CIoU,WIoU沒有對縱橫比進行計算,使得其計算耗時比CIoU更少。WIoUv3在WIoUv1基礎(chǔ)上定義離群度β來表述錨框質(zhì)量:
β=L*IoULIoU∈[0,+∞)(15)
式中,L*IoU為梯度增益;LIoU為動量為m的指數(shù)運算均值。
并利用它構(gòu)造了非單調(diào)聚焦系數(shù)γ應(yīng)用于WIoUv1上,如下式所示:
γ=βδαβ-δ(16)
式中,α、δ為超參數(shù)。
由式(16)可知,當β=σ時,r取1;當β取定值時,錨框?qū)@得最高梯度增益。由于LIoU是動態(tài)的,使得WIoUv3總能作出最符合當前情況的梯度增益分配策略。
改進后的網(wǎng)絡(luò)結(jié)構(gòu)如圖9所示。
4? 實驗驗證
4.1? 離線實驗
改進后的算法模型訓(xùn)練與驗證依賴于高性能的硬件配置,同時參數(shù)的選擇對模型的權(quán)重更新也有著密不可分的聯(lián)系,本文中模型訓(xùn)練所用硬件相關(guān)配置如表2所示。
平均精度mAP(mean average precision)為精度P(precision)和召回率R(recall)的綜合計算結(jié)果,在目標檢測任務(wù)中主要用于反映整個模
型的準確率。IoU(intersection over union)反映預(yù)測框和真實框相交區(qū)域面積和合并區(qū)域面積的比值。mAP@0.5表示IoU為0.5時的mAP值,是模型的主要評價指標之一。mAP@0.5:0.95則是IoU從0.5起以0.05步距遞增到0.95時的平均mAP值,反映了預(yù)測框的精準度。單張照片推理時間則反映了模型的運算效率。
改進后的網(wǎng)絡(luò)模型與原YOLOv7-tiny的mAP結(jié)果對比如圖10所示。圖中原網(wǎng)絡(luò)模型與改進后網(wǎng)絡(luò)模型的mAP@0.5分別為0.927與0.952,mAP@0.5:0.95分別為0.694與0.749。由圖中曲線增長趨勢可以看出改進后的模型表現(xiàn)要更加優(yōu)異。
(a)mAP0.5曲線
(b)mAP0.5:0.95曲線
and the original model
采用消融實驗驗證改進模塊對模型的優(yōu)化作用。表3中實驗1的模型為原模型;實驗2為加入了SimAM之后的模型,mAP@0.5值比原模型增大了0.6個百分點;實驗3將激活函數(shù)替換為Mish函數(shù),并采用CARAFE上采樣算子;實驗4在實驗3基礎(chǔ)上采用WIoU作為定位損失函數(shù);實驗5則是在實驗4基礎(chǔ)上在三個特征提取層前加入SimAM注意力模塊。
為更直觀地對比改進前后的檢測效果,首先選取成像效果較好的凹坑、減速帶各兩張圖片進行檢測對比。圖11中對減速帶原模型檢測的置信度分別為0.87、0.91,改進后模型檢測的置信度分別為0.90、0.93;對凹坑原模型檢測的置信度為0.86、0.92,改進后模型檢測的置信度為0.89、0.93。由結(jié)果可知,在成像效果較好時,改進模型的檢測效果優(yōu)于原模型的檢測效果。
為驗證模型在復(fù)雜情況下造成較差成像時的檢測效果,選取圖12所示的多種情況下低分辨率圖像進行對比實驗。由圖12中檢測效果1對比可知,在暗光條件下,改進模型對凹坑的檢測置信度為0.85,要明顯高于原模型的0.27,而針對圖12a中減速帶兩者均未有效檢測,可能是由于暗光造成圖像對比度低,加之成像模糊以及圖中有相似顏色干擾所致。效果2中對極低分辨率圖像的檢測,檢測結(jié)果相似,改進的模型準確率比原模型略高。效果3中對雨天道路濕滑情況下凹坑的檢測,原模型檢測置信度為0.66,而改進模型置信度為0.82,改進后的模型表現(xiàn)更加優(yōu)秀,對減速帶的檢測兩者準確率均較高。效果4中模擬復(fù)雜背景下減速帶年久褪色情況下的檢測,由圖12d可知,改進后的模型準確率要更高。效果5則是泥濘路段連續(xù)積水凹坑檢測,無論是原模型還是改進模型均能很好地檢測出目標,沒有漏檢情況發(fā)生,但在置信度上改進模型要略高。
將改進后的模型與目標檢測領(lǐng)域主流單階段檢測算法SSD、YOLOv3-tiny、YOLOv4-tiny、YOLOX-s等網(wǎng)絡(luò)模型進行實驗對比,結(jié)果如表4所示。為節(jié)約訓(xùn)練時的時間成本,在對比實驗中部分網(wǎng)絡(luò)取每5或10個學(xué)習(xí)次數(shù)計算一次mAP值,各網(wǎng)絡(luò)的mAP變化趨勢如圖13所示。
由表4和圖13分析可知,改進后的網(wǎng)絡(luò)與SSD相比,參數(shù)量不到SSD參數(shù)量的六分之一,準確率提高了8.5個百分點,且推理用時明顯更少;與YOLOv3-tiny相比,改進模型在檢測準確度與效率上都要更高,且YOLOv3-tiny在訓(xùn)練時的mAP曲線振蕩明顯,模型不夠穩(wěn)定;改進后的模型與YOLOv4-tiny相比,參數(shù)量相當,但改進后的模型在準確度上有絕對優(yōu)勢;改進后的模型與YOLOX-s相比,雖然在準確率上略低,但參數(shù)量卻比YOLOX-s少了約3×106個,說明改進后的模型在訓(xùn)練和部署時所需的硬件條件可以比YOLOX-s更低,且單張照片推理時間減少了3.4 ms,效率更高;與原YOLOv7-tiny相比,改進后的模型由于加入注意力等模塊,使得推理時間增加了0.3 ms,但其檢測速度仍具有很好的實時性,在準確率上本文改進模型高出2.5個百分點,且由圖12可知在復(fù)雜條件下改進模型的表現(xiàn)更加優(yōu)秀。
4.2 ?實車實驗
為檢驗改進網(wǎng)絡(luò)模型在實際行車過程中的使用效果,將其部署到課題組實驗車輛視覺系統(tǒng)上。實驗車輛如圖14所示。
實驗車輛上的感知設(shè)備為森云智能工業(yè)相機,用于路面圖像的實時采集,工控機為NVIDIA Xavier,操作系統(tǒng)為Ubuntu,算法模型基于CUDA框架下的Pytorch開發(fā)環(huán)境進行加速計算。
圖15所示為本團隊編寫的路面、道路環(huán)境參數(shù)實時感知系統(tǒng),包括凹坑和凸塊的檢測,可以實時顯示檢測結(jié)果。由圖可見,在實車行駛時部署的算法模型能夠準確檢測出前方不同距離路面上的障礙物,證明該算法具有一定的實用性。
5? 結(jié)論
為解決當前復(fù)雜行車環(huán)境下路面障礙物預(yù)前檢測問題,本文提出了一種基于改進YOLOv7-tiny算法的路面障礙物檢測模型。在幾乎不增加計算參數(shù)的條件下,有效提高了檢測準確率。通過實車實驗驗證了改進的算法模型在實際應(yīng)用中的有效性。本文主要的研究及結(jié)果如下:
(1)構(gòu)建了常見路面障礙物數(shù)據(jù)集,分別包含凹坑、減速帶兩類目標,晴天、雨天、黃昏三種環(huán)境,以及城市、校園、鄉(xiāng)村三種場景。并通過數(shù)據(jù)增強進行數(shù)據(jù)集擴充滿足了多樣性。
(2)基于YOLOv7-tiny算法網(wǎng)絡(luò),在三個特征提取層添加SimAM注意力模塊,豐富特征層的表達;在Neck部分使用Mish激活函數(shù)提高網(wǎng)絡(luò)的泛化能力;將最近鄰上采樣算子替換為CARAFE上采樣算子,擴大感受野;使用WIoU作為定位損失函數(shù)優(yōu)化邊界框損失,更加高效地分配了梯度增益。
(3)通過離線實驗和實車實驗驗證了改進模型的有效性。在離線實驗對比中,改進的網(wǎng)路模型優(yōu)于原模型及其他主流單階段目標檢測網(wǎng)絡(luò);在實車實驗中,改進后的模型部署到實驗車輛的視覺系統(tǒng)上,能夠準確地檢測出前方道路障礙物并實時反饋到交互界面上。
參考文獻:
[1]? LIU W, WANG R C, DING R K, et al. Online Estimation of Road Profile in Semi-active Suspension Based on Unsprung Mass Acceleration[J]. Mechanical Systems and Signal Processing, 2020, 135(C):106370.
[2]? XUE K, NAGAYAMA T, ZHAO B.Road Profile Estimation and Half-car Model Identification through the Automated Processing of Smartphone Data[J]. Mechanical Systems and Signal Processing, 2020, 142(C):106722.
[3]? 劉家銀, 唐振民, 王安東, 等. 基于多激光雷達與組合特征的非結(jié)構(gòu)化環(huán)境負障礙物檢測[J]. 機器人, 2017, 39(5):638-651.
LIU Jiayin, TANG Zhenmin, WANG Andong,et al. Negative Obstacle Detection in Unstructured Environments Based on Multiple Lidars and Combined Features[J]. Robot, 2017, 39(5):638-651.
[4]? 鄔佳琪.基于數(shù)據(jù)融合的全地面起重機路面信息識別技術(shù)研究[D].長春:吉林大學(xué), 2020.
WU Jiaqi. Research on Road Information Recognition Technology of All-terrain Crane Based on Data Fusion[D]. Changchun:Jilin University, 2020.
[5]? QI C R, YI L, SU H, et al. Pointnet++:Deep Hierarchical Feature Learning on Point-sets in a Metric Space[C]∥Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach,2017:5099-5108.
[6]? TIAN Z, SHEN C, CHEN H, et al. FCOS:Fully Convolutional One-stage Object Detection[C]∥IEEE International Conference on Computer Vision. Korea,2020:9626-9635.
[7]? REDMON J, DIVVALA S, GIRSHICK R,et al.You Only Look Once:Unified, Real-time Object Detection[C]∥Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recongnition. Piscataway:IEEE, 2016:779-788.
[8]? REDMON J, FARHADI A. YOLO9000:Better, Faster, Stronger[C]∥IEEE Conference on Computer Vision and Pattern Recognition. Piscataway:IEEE 2017:7263-7271.
[9]? REDMON J, FARHADI A. YOLOv3:an Incremental Improvement[C]∥2018 IEEE Conference on Computer Vision and Pattern Recongnition. Piscataway:IEEE ,2018:1-6.
[10]? BOCHKOVSKIY A, WANG C Y, LIAO H Y M. Yolov4:Optimal Speed and Accuracy of Object Detection[EB/OL]. New York:Cornell University Library, 2020[2024-03-08].https:∥arxiv.org/pdf/2004.10934.
[11]? LIU W, ANGUELOV D, ERHAN D, et al. SSD:Single Shot MultiBox Detector[C]∥European Conference on Computer Vison. Switzerland,2016:21-37.
[12]? LIN T Y , GOYAL P, GIRSHICK R, et al.Focal Loss for Dense Object Detection[C]∥Proceedings of the IEEE International Conference on Computer Vision. Venice,2017:2980-2988.
[13]? GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[C]∥IEEE Transactions on Pattern Analysis and Machine Intelligence.Columbus,2014:580-587.
[14]? GIRSHICK R. Fast R-CNN[C]∥IEEE Interna-tional Conference on Computer Vision. Santiago,2015:10-15.
[15]? REN S, HE K, GIRSHICK R, et al. Faster R-CNN:Towards Real-time Object Detection with Region Proposal Networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6):1137-1149.
[16]? 韓巖江, 王偉, 王峰萍. 融合坐標注意力和Bi-FPN的YOLOv5s交通標志檢測方法[J]. 國外電子測量技術(shù), 2022, 41(11):170-179.
HAN Yanjiang, WANG Wei, WANG Fengping. YOLOv5s Traffic Sign Detection Method Combining Coordinate Attention and BiFPN[J]. Foreign Electronic Measurement Technology, 2022, 41(11):170-179.
[17]? 顧士洲, 嚴天一. 基于改進YOLOv3的路面正負障礙物檢測研究[J]. 青島大學(xué)學(xué)報(工程技術(shù)版), 2022, 37(2):41-46.
GU Shizhou, YAN Tianyi. Research on Road Posi-tive and Negative Obstacle Detection Based on Improved YOLOv3[J]. Journal of Qingdao University(Engineering Technology Edition), 2022, 37(2):41-46.
[18]? 劉子龍, 沈祥飛. 融合Lite-HRNet的Yolov5雙模態(tài)自動駕駛小目標檢測方法[J]. 汽車工程, 2022, 44(10):1511-1520.
LIU Zilong, SHEN Xiangfei. Yolov5 Dual-modal Automatic Driving Small Target Detection Method Based on Lite-HRNet[J]. Automobile Engineering, 2022, 44(10):1511-1520.
[19]? WANG C Y, BOCHKOVSKIY A, LIAO H Y M. YOLOv7:Trainable Bag-of-freebies Sets New State-of-theart for Real-time Object Detectors[C]∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans, 2023:7464-7475.
[20]? YANG L, ZHANG R Y, LI L, et al. SimAM:a Simple,Parameter-free Attention Module for Convolutional Neural Networks[C]∥Proceedings of the 38th International Conference on Machine Learning. New York, 2021:11863-11874.
[21]? MISRA D. Mish:a Self Regularized Non-monotonic Neural Activation Function[EB/OL]. New York:Cornell University Library, 2020[2024-03-08]. https:∥arxiv.org/abs/1908.08681.
[22]? WANG J, CHEN K, XU R, et al. CARAFE:Content-aware ReAssembly of FEatures[EB/OL]. New York:Cornell University Library, 2019[2024-03-08]. https:∥arxiv.org/abs/1905.02188.
[23]? TONG Z, CHEN Y, XU Z, et al. Wise-IoU:Bounding Box Regression Loss with Dynamic Focusing Mechanism[EB/OL]. New York:Cornell University Library, 2023[2024-03-08]. https:∥arxiv.org/abs/2301.10051.
(編輯? 王艷麗)
作者簡介:
鄒俊逸,男,1992年生,副教授。研究方向為汽車動力學(xué)控制、線控底盤設(shè)計、智能網(wǎng)聯(lián)汽車。E-mail:zoujunyi@wust.edu.cn。