肖維穎 王健 李文順
摘 要:隨著5G技術的發(fā)展,其高帶寬、低時延和高密度接入特點,促使云計算模式向“云-管-端”模式改變,邊緣計算作為終端關鍵技術對人工智能算法在算力有限的終端上的部署成為關鍵。以苗圃驗收環(huán)節(jié)中松樹株數(shù)識別的視頻檢索算法為例,提出一種適用于人工智能算法在終端部署的輕量級苗圃松樹苗檢測計數(shù)算法。算法通過在YOLOv5網(wǎng)絡的基礎上引入MobileNet v3特征提取機制來實現(xiàn)網(wǎng)絡的輕量化,將壓縮激勵網(wǎng)絡(Squeeze-and-Excitation Networks, SENet)中的輕量級注意模塊集成作為bneck基本塊,提高網(wǎng)絡對于特征通道的敏感程度,增強網(wǎng)絡的特征提取能力;在IoU(Intersection over Union,IoU)基礎上進一步考慮目標框和預測框的向量角度,使用SIoU損失函數(shù)作為預測函數(shù),重新定義相關損失函數(shù),從而使苗圃樹苗預測框更加接近真實框。研究結果表明,改進后的模型參數(shù)量明顯減少,改進后的網(wǎng)絡模型大小與對比試驗中的方法相比,模型在準確率(Precision)降低3.26%、平均精確率均值(Mean Average Precision ,mAP)降低1.03%的情況下,幀率(Frame Per Second,F(xiàn)PS)提升了21.48%,達到71.43幀/s,計算量較原YOLOv5s減少了148.44%。證明該算法具有高效性和輕量性,為邊緣計算終端人工智能算法移植提供算法原型。
關鍵詞:YOLOv5;識別;MobileNet;松樹樹苗;輕量化
中圖分類號:S771.1??? 文獻標識碼:A?? 文章編號:1006-8023(2023)04-0126-08
Research on YOLOv5 Lightweight Algorithm for Pine
Tree Strain Identification
XIAO Weiying1, WANG Jian1*, LI Wenshun2
(1.College of Computer and Control Engineering, Northeast Forestry University, Harbin 150040, China;
2.College of Information and Electrical Engineering, Heilongjiang Bayi Agricultural University, Daqing 163319, China)
Abstract:With the development of 5G technology, its high bandwidth, low latency and high density access features have led to a change in the cloud computing model to a'cloud-management-end' model, and edge computing as a key terminal technology has become critical to the deployment of AI algorithms on terminals with limited computing power. Taking the video retrieval algorithm for pine tree plant identification in nursery acceptance as an example, a lightweight algorithm for pine sapling detection and counting in nurseries suitable for terminal deployment of AI algorithms in proposed. The algorithm achieves network lightweighting by introducing the MobileNet v3 feature extraction mechanism on the basis of the YOLOv5 network, integrating the lightweight attention module in Squeeze-and-Excitation Networks (SENet) as a bneck basic block to improve the network's sensitivity to feature channels and enhance the network's feature extraction capability. The vector angles of the target and prediction frames are further considered on the IoU basis. The SIoU loss function is used as the prediction function and the associated loss function is redefined, thus making the nursery sapling prediction frame closer to the real frame. The results of the study show that the number of parameters of the improved model is significantly reduced, and the size of the improved network model is compared with the method in the comparison experiment, the model has a 21.48% improvement in frame rate (FPS) to reach to 71.43 frames per second with a 3.26% reduction in accuracy (Precision) and a 1.03% reduction in mean average precision (mAP), and the computational effort is reduced from the original YOLOv5s reduced 148.44%, proving that the algorithm is highly efficient and lightweight, providing an algorithm prototype for the porting of artificial intelligence algorithms to edge computing terminals.
Keywords:YOLOv5; recognition; MobileNet; pine saplings; lightweight
收稿日期:2022-10-21
基金項目:黑龍江省自然科學基金面上項目(F201028)
第一作者簡介:肖維穎,碩士研究生。研究方向為通信與信號系統(tǒng)。E-mail: 1246346691@qq.com
通信作者:王健,博士,副教授。研究方向為物聯(lián)網(wǎng)、邊緣計算、嵌入式開發(fā)。E-mail: wangj.icec@nefu.edu.cn
引文格式:肖維穎,王健,李文順. 松樹株數(shù)識別的YOLOv5輕量化算法研究[J]. 森林工程, 2023,39(4):126-133.
XIAO W Y, WANG J, LI W S. Research on YOLOv5 lightweight algorithm for pine tree strain identification[J]. Forest Engineering, 2023,39(4):126-133.
0 引言
林業(yè)資源是生態(tài)環(huán)境重要的組成部分之一,生態(tài)環(huán)境保護離不開林業(yè)資源的支持[1],研究林業(yè)育苗技術對提高我國林業(yè)發(fā)展水平具有重要意義。傳統(tǒng)的苗圃株數(shù)識別方法多以人工抽樣估計為主,依賴于苗圃管理者對苗圃植株進行識別與統(tǒng)計計數(shù),準確率低時效性差,且耗費大量的人力和物力。深度學習網(wǎng)絡能夠自動提取特征,從樹苗的RGB圖像中獲取樹苗的顏色、紋理和形狀特征,訓練出專屬模型,實現(xiàn)對樹苗目標的檢測,此方法相較于人工識別更高效準確。
近年來,隨著具有高帶寬、低時延和高密度接入的5G技術的發(fā)展,傳統(tǒng)集中式云計算架構已經(jīng)不能滿足云計算需求,邊緣計算通過分布式的終端進行計算,解決了現(xiàn)有場景下云計算服務器算力不足的問題。同時,我國林業(yè)正在向“數(shù)字林業(yè)、智慧林業(yè)”方向轉型[2],由于我國森林資源豐富,其“數(shù)字化、智慧化”過程中對數(shù)據(jù)存儲及計算算力的要求非常高,采取云計算架構不僅會增加林業(yè)企業(yè)和政府負擔,還會增加管理難度,本研究從邊緣計算終端人工智能算法移植的角度出發(fā),以輕量級改進為目標進行研究。
針對研究的松樹苗圃環(huán)境復雜、枝葉遮擋、植株重疊、光照變化因素、實時性要求高、邊緣計算終端存儲空間小和算力不足的問題,摒棄了通過訓練區(qū)域生成網(wǎng)絡(Region Proposal Network,RPN)和檢測目標在網(wǎng)絡中的坐標信息[3]完成的Fast R-CNN[4]、Libra R-CNN[5]和Cascade R-CNN[6]等體量大、復雜度高的雙階段目標檢測算法,使用體量較小的單階段目標檢測算法YOLO[7-9]系列、SSD[10]和FCOS[11]等中的YOLOv5算法作為基本算法,該算法由Redmon等[12] 提出,具有體積小、精度高的優(yōu)點。
雖然YOLOv5具有體積小、精度高的特點,但將其直接部署到邊緣計算終端時,仍存在檢測速度較慢、計算量較大的問題,會造成誤檢、漏檢等問題,無法滿足任務實時性需求。研究以苗圃驗收中松樹株樹自動識別為例,在保證檢測精度變化不大的情況下,研究適合于邊緣計算終端部署的算法,為人工智能及邊緣計算技術在“數(shù)字林業(yè)、智慧林業(yè)”上的應用提供算法基礎。
1 YOLOv5目標檢測模型
隨著5G通信技術發(fā)展傳輸帶寬可以到1 GB,基于視頻或圖像檢索的人工智能技術的數(shù)據(jù)量和計算量非常大,集中式的云計算模式達不到對圖像數(shù)據(jù)的實時性處理需求,邊緣計算通過海量終端可以減少云端計算和存儲壓力,但由于邊緣計算終端設備價格低、存儲小且算力不足,傳統(tǒng)部署到云端的目標檢測算法不適合終端部署。
相較于對設備性能的要求很高、對單幅圖像的推理時間過長的雙階段目標檢測算法,YOLOv5作為代表性的單階段目標檢測算法之一,計算復雜度較低、檢測速度較快且擁有較好的實時性能,能初步滿足實際應用時將其搭載到小型嵌入式設備的要求。本研究將對YOLOv5進行改進,得到適合于CPU工作頻率小于等于1.8 GHz、GPU工作頻率小于等于400 MHz、成本在2 000元以內(nèi)的邊緣計算終端的輕量級人工智能算法。
1.1 YOLOv5原理
YOLOv5s是YOLOv5算法系列中最小的版本,其大小僅為15.9? MB。YOLOv5s的主要結構由4部分組成:輸入、主干網(wǎng)、頸部網(wǎng)絡層和頭部檢測終端,如圖1所示。
輸入端為圖像預處理部分,包括Mosaic數(shù)據(jù)增強、自適應錨框計算、自適應圖片縮放。Mosaic數(shù)據(jù)增強是將4張圖片隨機組合,為達到豐富圖片背景的效果;自適應圖片縮放即對不同長寬的原始圖像盡量少地添加黑邊,使圖像為統(tǒng)一尺寸。
主干網(wǎng)絡為特征提取部分,包括Focus模塊、CSP模塊和SPP池化金字塔結構。Focus模塊的作用是通過減少參數(shù)計算來加快訓練速度;CSP模塊主要作用是進行局部跨層融合,利用不同層的特征信息獲得更豐富的特征圖。
頸部網(wǎng)絡層為特征融合部分,包括特征金字塔網(wǎng)絡(Feature Pyramid Network,F(xiàn)PN) [13]與路徑聚合網(wǎng)絡(Path Aggregation Network,PANet)。該組合結構提升了模型的特征融合能力,能獲得更多的上下文信息,減少信息丟失。
頭部檢測終端為目標檢測結果輸出,采用GIoU_Loss作為Boundingbox的損失函數(shù),并通過非極大值抑制(Non Maximum Suppression,NMS)來篩選目標框。
1.2 改進的 YOLOv5 算法
邊緣計算終端由于采取分布式的“云-管-端”架構,可通過邊緣計算平臺對邊緣計算終端的計算結果進行數(shù)據(jù)融合,所以在保證識別準確率、召回率和平均精度變化不大的情況下,提高幀率和計算量是研究重點。傳統(tǒng)YOLOv5網(wǎng)絡模型雖然檢測具有一定的實時性,但為符合邊緣計算終端實時性需求,其幀率和計算量還有待提升。針對此問題,本研究對YOLOv5網(wǎng)絡進行改進。
1.2.1 主干網(wǎng)絡的輕量化
傳統(tǒng)YOLOv5的CSPDarkNet53[14]有104層卷積網(wǎng)絡,使用大量的卷積操作,運算時會占用大量的運算資源,在邊緣終端設備上運行速度會很慢,導致實時性變差,因此需對特征提取網(wǎng)絡進行改進。
改進模型使用MobileNet v3[15]輕量化網(wǎng)絡代替CSPDarkNet53進行圖片特征提取,如圖2所示。
MobileNet是一種適用于移動端的輕量級神經(jīng)網(wǎng)絡。MobileNet v3結合MobileNet v1的深度可分離卷積,保留MobileNet v2[16]中具有線性瓶頸層的逆殘差結構MobileNet v2的線性瓶頸層(Bottleneck)和反轉殘差模塊以及通過Shift操作和逐點卷積降低空間卷積。在深層網(wǎng)絡激活函數(shù)使用h-swish代替ReLU6,增強量化過程,降低運算量,提高模型性能。改進主干網(wǎng)絡后,與CSPDarkNet53相比,MobileNet v3網(wǎng)絡深度更低,在識別準確度降低13.9%情況下,幀率(Frame Per Second,F(xiàn)PS)提升了32.8%,達到78.1幀/s,計算量較原YOLOv5s減少了152.4%。
1.2.2 注意力機制的添加
網(wǎng)絡結構的輕量化改進能夠大幅降低模型的參數(shù)量和計算量,但與此同時帶來了平均精確度的下降,因此,需要對模型進一步優(yōu)化以提高模型平均精確度。
自然環(huán)境下的松樹苗圃植株頂尖常出現(xiàn)重疊和枝葉遮擋的問題,造成模型檢測平均精確度的下降,采用將位置信息與通道信息相結合的坐標注意力機制施加于網(wǎng)絡的關鍵位置中,增加模型對樹尖特征的敏感程度。對于任務中較難識別的重疊、遮擋目標分配高權重加以關注,對于不感興趣的自然背景分配低權重加以抑制,提高自然環(huán)境下松樹苗植株的識別精度。本研究將CA注意力機制(Coordinate attention,CA)[17]融合到主干特征提取網(wǎng)絡最后一層。
CA注意力機制是基于坐標信息嵌入(Coordinate Information Embedding,CIE)和坐標注意力生成(Coordinate Attention Generation,CAG)2個步驟來編碼通道關系和長距離關系,具體結構如圖3所示。為解決Channel Attention全局池化編碼難以保留重要的空間信息問題,研究將全局池化改造成2個一維向量的編碼操作,對于形狀為C×W×H輸入特征圖X,使用池化核(H,1)和(1,W)來編碼水平方向和垂直方向特征,即第c維特征的輸出為
zhc(h)=1W∑Wi=0xc(h,i) 。? (1)
zwc(w)=1H∑Hj=0xc(j,w) 。 (2)
式中:H和W分別為特征圖的高度和寬度;xc(h,i)和xc(j,w)分別代表特征圖水平方向和豎直方向的特征;zhc(h)表示高度為h的第c個通道的輸出;zwc(w)表示寬度為w的第c個通道的輸出。
式(1)和式(2)從不同的方向集成特征,輸出一對方向可知的特征圖。對比全局池化的壓縮方式,這樣能夠允許注意力機制(Attention Block,AB)捕捉單方向上的長距離關系,同時保留另一個方向上的空間信息,幫助網(wǎng)絡更準確地定位目標。
為了更好地利用上述的坐標信息,采用配套的CAG操作,主要基于3點準則進行設計:1)足夠簡單和輕量;2)能完全利用提取的位置信息;3)能同樣高效地處理通道間的關系。首先將公式(1)和公式(2)的輸出連接起來,使用1×1卷積、BN和非線性激活進行特征轉化
f=δ(F1([zh,zw]))。?? (3)
式中:f∈RC/r×(H+W)為包含橫向和縱向空間信息的中間特征;r為縮減因子。隨后將f分為2個獨立的fh∈RC/r×H和fw∈RC/r×W,使用另外2個1×1卷積和sigmoid函數(shù)進行特征轉化,使其維度與輸入X一致。
gh=σ(Fh(fh)) 。 (4)
gw=σ(Fw(fw)) 。 (5)
將輸出gh和gw合并成權重矩陣,用于計算坐標注意模塊(Coordinate Attention Block,CA Block)輸出。
yc(i,j)=xc(i,j)×ghc(i)×gwc(j) 。? (6)
其中CA Block與SE Block的最大區(qū)別是,CA Block的每個權重都包含了通道間信息、橫向空間信息和縱向空間信息,能夠幫助網(wǎng)絡更準確地定位目標信息,增強識別能力。
基于YOLOv5模型進行網(wǎng)絡輕量化改進后的網(wǎng)絡如圖4所示。
1.2.3 邊界損失函數(shù)的改進
損失函數(shù)是衡量模型預測結果準確性的一種方法。YOLOv5算法的損失函數(shù)由3部分組成:分類損失、目標置信度損失和目標框與預測框位置損失(也稱邊界框損失)。其中,YOLOv5原始模型的邊界框損失函數(shù)為GIoU_loss。IoU即“預測邊框”和“目標邊框”交集和并集的比值,預測框和目標框位置越接近,則IoU的值越趨近于1。GIoU是Rezatofighi等 [18]在IoU的基礎上提出的一種改進,通過增加相交尺度的衡量方式解決了用IoU_loss做邊界框損失函數(shù)時存在的問題:當2個邊框不重合時,IoU的計算為0,無法反映2個邊框的距離,且此時沒有梯度傳回,模型不能進行訓練優(yōu)化;此外,還存在有邊框相交面積相同,即IoU(式中用IoU表示)相同,但重合度不同的情況。GIoU(式中用GIoU表示)的思路是:對于任意的2個邊框A、B,先找到一個能夠包住其最小方框D,然后再按式(7)和式(8)計算GIoU_loss(式中用LGIoU表示)。
GIoU=IoU-D-(A∪B)D 。 (7)
LGIoU=1-GIoU 。? (8)
然而,GIoU依賴于邊界框回歸指標的聚合,沒有考慮到所需真實框與預測框之間不匹配的方向,這種不足導致收斂速度較慢且效率較低,因此預測框可能在訓練過程中游離并最終產(chǎn)生更差的模型。研究中提出了一種新的損失函數(shù) SIoU(式中用LSIoU表示),其中考慮到所需回歸之間的向量角度,重新定義了懲罰指標,提高了訓練的速度和推理的準確性。
LSIoU=1-IoU+Δ+Ω2? 。 (9)
式中:Δ和Ω分別為真實框與預測框之間的距離損失及形狀損失。
2 試驗結果與分析
2.1 試驗環(huán)境
試驗模型訓練基于Pytorch 1.12.1深度學習框架,采用ubuntu操作系統(tǒng),顯存 NVIDIA Geforce GTX 2080Ti GPU,CPU為Intel(R) Xeon(R) Gold 5 182R CPU@2.10GHz。
改進算法的試驗測試能夠在邊緣計算終端進行,邊緣計算終端為VKBoard開發(fā)板,該開發(fā)板操作系統(tǒng)為Linux 3.14.28內(nèi)核,采用TI的OMAP4 460系列芯片,該系列芯片擁有2顆基于對稱多處理(SMP)架構的低功耗、高性能的ARM Cortex-A9 MPCore處理器,其CPU頻率為1.5 GHz;集成了PowerVR SGX540圖形核心的GPU,其頻率為400 MHz。該開發(fā)板GPU可實現(xiàn)6.4 GB的每秒浮點運算,同時利用CPU參與運算,其每秒浮點運算大于6.4 GB。
2.2 試驗準備
本研究的數(shù)據(jù)來源于黑龍江省伊春森工朗鄉(xiāng)林業(yè)局公司英山苗圃,使用大疆無人機距地1.4 m飛行拍攝,每秒拍攝25幀,速度保持在0.8 m/s,1個床需要飛行25 s,一共采集了40床的視頻數(shù)據(jù),共獲得25 000幀圖像,每張圖像的分辨率為1 920×1 080像素。將采集到的數(shù)據(jù)進行整理和篩選,挑選出19 780張的苗圃圖片構建圖像數(shù)據(jù)集。
根據(jù)松樹幼苗的外形特性,松樹幼苗時的樹冠呈金字塔形,樹冠最頂端有一枝較為明顯的樹枝,可以區(qū)分為一株松樹幼苗。將整理和篩選后的19 780張的苗圃圖片構建圖像數(shù)據(jù)集,用LabelImg軟件對采集到的圖片中所有的松樹苗樹冠頂尖輪廓進行標注,構建松樹樹苗數(shù)據(jù)集,模型能夠學習到標注出的松樹特征。數(shù)據(jù)集的部分樣本如圖5所示。
由于目標檢測中模型學習過程需要大量有標簽的數(shù)據(jù)集,其中15 824張標簽樣本用于訓練,通過隨機裁剪、對比度增強和圖像疊加等方法擴充得到47 472張作為訓練集,剩下3 956張作為測試集。在訓練過程中還采用了Mosaic數(shù)據(jù)增強方法,即每次隨機對4幅圖像進行隨機縮放、裁減、左右翻轉和加噪聲等處理,拼接成1張含豐富信息的圖像,豐富了檢測物體的背景,很好地提升了對松樹小目標的檢測效果。
2.3 評價指標
試驗采用準確率(Precision,式中用P表示)、召回率(Recall,式中用R表示)與平均精度均值(Mean Average Precision,MAP,式中用MAP表示)作為評價指標來評估網(wǎng)絡的性能。其中MAP是目標檢測中最常用的評估識別準確率的指標之一。相關評價指標的計算公式如下
P=TPTP+FP。 (10)
R=TPTP+FN。 (11)
AP=∫10PdR。? (12)
MAP=∑Nj=1APjN。? (13)
式中:TP、FP、FN分別表示每個測試集場景中的正確檢測出、錯誤檢測出以及沒有檢測出的目標總數(shù);AP為單個目標類別的平均精度,近似等于P/R曲線下面積(Area under Curve,AUC)。另外,本研究還計算了實時幀率FPS和浮點數(shù)FLOPs用于比較模型的檢測速度和計算量。
2.4 試驗結果
2.4.1 主干網(wǎng)絡優(yōu)化試驗對比
各優(yōu)化主干網(wǎng)絡對比見表1,為保證模型能夠部署到存儲能力和計算能力較小嵌入式端并進行實時檢測,模型參數(shù)和實時幀率為主要評價指標。由表1可知,采用ShuffletNet v2 Block和MobileNet v3 Block替換YOLOv5主干網(wǎng)絡都可以滿足輕量化的要求,但明顯采用輕量級網(wǎng)絡MobileNet v3 Block的方案取得了更好的試驗結果,模型計算量減少到6.3 GB,F(xiàn)PS提升到78.1幀/s。
2.4.2 損失函數(shù)對模型檢測效果的影響
表2為不同損失函數(shù)對模型檢測效果試驗對比。由于YOLOv5原本損失函數(shù)GIoU依賴于邊界框回歸指標的聚合,沒有考慮到所需真實框與預測框之間不匹配的方向,導致收斂速度較慢且效率較低。SIoU考慮到所需回歸之間的向量角度,重新定義了懲罰指標,提高了訓練和推理的準確性。由表2可知,在本試驗中,SIoU比EIoU、GIoU各指標都更優(yōu)秀。
2.4.3 施加坐標注意力機制對模型檢測效果的影響
將CA引入本研究輕量級網(wǎng)絡架構,提升了網(wǎng)絡對密集樹苗目標的識別效果,能夠有效改善枝葉遮擋、松樹苗特征重疊,對苗圃檢測帶來的精度損失問題,在僅引入少量參數(shù)的前提下, FLOPs由15.9 GB大幅度減少到了6.4 GB,較原減少了148.44%; FPS由58.8幀/s增加到了71.43幀/s,較原YOLOv5s幀率(FPS)提升了21.48%; MAP較原YOLOv5s降低了1.03%;準確率降低了3.26%,具體數(shù)值見表3。
由表3可知,改進的YOLOv5模型的準確率、MAP和召回率在可接受范圍內(nèi)小幅度降低,但在FLOPs和FPS上大幅提升,能夠使邊緣計算終端設備識別計數(shù)松樹樹苗時,做到更加實時、流暢地檢測。因此,該改進算法是一種更加輕量化、低延時的松樹株數(shù)檢測算法,模型訓練后的MAP如圖7所示,模型檢測結果如圖8所示,圖8樣本圖片所包含實際松樹幼苗株數(shù)為28棵。
3 結論
本研究提出一種適合于邊緣計算終端的、融入CA注意力機制并優(yōu)化邊界框損失的改進YOLOv5s輕量級松樹株數(shù)檢測算法,該算法為林業(yè)監(jiān)測終端智能化提供了算法支撐。試驗結果表明,改進后的模型在保證精確度的同時,速度有了明顯提升,改進后的模型幀速率約為原YOLOv5模型的1.2倍,滿足了實時性需求,模型計算量大幅度減少,降低了對終端存儲要求,使5G在林業(yè)檢測應用場景的實時進一步成為可能。
為進一步降低邊緣計算終端性能要求,未來工作將著手于在保證檢測25幀/s的需求情況下,進一步尋找更優(yōu)算法,在降低每秒運算的幀率、保證算法的檢測精度值和準確度基礎上,減少浮點運算量,進而提升模型的泛化能力和水平。
【參 考 文 獻】
[1]謝利娟,王茸仙,劉慧.生態(tài)環(huán)境保護下中國林業(yè)的可持續(xù)發(fā)展策略[J].林產(chǎn)工業(yè),2021,58(6):106-108.
XIE L J, WANG R X, LIU H.Sustainable development strategy of china's forestry under ecological environment protection[J]. China Forest Products Industry, 2021, 58(6):106-108.
[2]佟明亮,曾定茜.數(shù)字林業(yè)平臺建設及應用研究——評《數(shù)字林業(yè)平臺技術基礎》[J].林業(yè)經(jīng)濟,2021,43(1):100.
TONG M L, ZENG D X. Research on the construction and application of digital forestry platform-evaluation of ‘Technical Basis of Digital Forestry Platform[J]. Forestry Economics, 2021, 43(1):100.
[3]張?zhí)諏?,陳恩慶,肖文福.一種改進 MobileNet_YOLOv3 網(wǎng)絡的快速目標檢測方法[J].小型微型計算機系統(tǒng), 2021, 42(5): 1008-1014.
ZHANG T N, CHEN N Q, XIAO W F. Fast target detection method for improving MobileNet_YOLOv3 network[J]. Journal of Chinese Computer Systems, 2021, 42(5): 1008-1014.
[4]GIRSHICK R. Fast R-CNN[C]//2015 IEEE International Conference on Computer Vision. Boston, USA. IEEE, 2015: 1440-1448.
[5]PANG J M, CHEN K, SHI J P, et al. Libra R-CNN: Towards balanced learning for object detection[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, CA, USA. IEEE, 2019: 821-830.
[6]CAI Z, VASCONCELOS N. Cascade R-CNN: delving into high quality object detection[C]//2018 IEEE Conference on Computer vision and pattern recognition. Salt Lake City, UT, USA. IEEE, 2018: 6154-6162.
[7]REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA. IEEE, 2016: 779-788.
[8]REDMON J, FARHADI A. YOLO9000: better, faster, Stronger[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA. IEEE, 2017:6517-6525.
[9]DONG X D, YAN S, DUAN C Q. A lightweight vehicles detection network model based on YOLOv5[J]. Engineering Applications of Artificial Intelligence, 2022, 113: 104914.
[10]LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot multibox detector[C]//European Conference on Computer Vision. Amsterdam: Springer, 2016: 21-37.
[11]TIAN Z, SHEN C H, CHEN H, et al. FCOS: fully convolutional one-stage object detection[C]//2019 IEEE/CVF International Conference on Computer Vision and Pattern Recognition. Long Beach, CA, USA. IEEE, 2019: 9627-9636.
[12]REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once:unified,real-time object detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA. IEEE, 2016:779-788.
[13]LIN T Y, DOLLAR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA. IEEE, 2017 : 2117-2125.
[14]丘浩,張煒,彭博雅,等.基于YOLOv3的特定電力作業(yè)場景下的違規(guī)操作識別算法[J].電力科學與技術學報,2021,36(3):195-202.
QIU H, ZHANG W, PENG B Y, et al. Illegal operation recognition algorithm based on YOLOv3 in specific power operation scenario[J]. Journal of Electric Power Science and Technology, 2021, 36(3) :195-202.
[15]HOWARD A, SANDLER M, CHU G, et al. Searching for mobilenetv3[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Seoul, Korea (South). IEEE, 2019: 1314-1324.
[16]SANDLER M, HOWARD A, ZHU M, et al. Mobilenetv2: Inverted residuals and linear bottlenecks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. Salt Lake City, UT, USA. IEEE, 2018: 4510-4520.
[17]HOU Q B, ZHOU D Q, FENG J S. Coordinate attention for efficient mobile network design[EB/OL]. 2021: arXiv: 2103.02907. https://arxiv.org/abs/2103.02907.
[18]REZATOFIGHI H, TSOI N, GWAK J, et al. Generalized intersection over union:a metric and a loss for bounding box regression[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). Long Beach, CA, USA. New IEEE, 2019:658-666.