融合BiFPN和YOLOv5s的密集型原木端面檢測方法

2023-02-09 07:31:06余平平林耀海賴云鋒程樹英林培杰

林業(yè)工程學(xué)報(bào) 2023年1期

余平平，林耀海，賴云鋒，程樹英，林培杰*

(1.福州大學(xué)物理與信息工程學(xué)院，福州 350108； 2.福建農(nóng)林大學(xué)計(jì)算機(jī)與信息學(xué)院，福州 350002)

我國在原木貿(mào)易和原木加工上以大批量原木為主，而在單次貿(mào)易和加工過程中，原木數(shù)量常常達(dá)到上百根甚至近千根。在國家標(biāo)準(zhǔn)GB/T 4814—2013《原木材積表》中，計(jì)算成堆的原木材積需要確定原木數(shù)量、木材長度、端面直徑。同一批原木的長度一般都是固定的，其端面直徑可以根據(jù)樹木的形狀用小頭直徑法、中徑法等確定?？梢姡瑴?zhǔn)確檢測原木數(shù)量和端面直徑是其中的兩個(gè)關(guān)鍵點(diǎn)。如果采取人工檢尺，會(huì)消耗大量人力資源，而且由于數(shù)量龐大，使得測量結(jié)果存在主觀性強(qiáng)且效率低等問題；若要實(shí)現(xiàn)自動(dòng)化原木檢尺，研究的難點(diǎn)在于實(shí)際生產(chǎn)中大量原木成捆堆放、卡車堆載，且堆放過程中原木的大小頭交錯(cuò)擺放造成原木的端面徑級不一，這使得原木端面圖像中經(jīng)常存在密集的多目標(biāo)、小目標(biāo)現(xiàn)象。密集的小目標(biāo)原木是自動(dòng)檢尺技術(shù)存在較多漏檢的一個(gè)關(guān)鍵難題，因此，為了準(zhǔn)確計(jì)算成堆原木材積，十分有必要開展針對密集原木端面準(zhǔn)確檢測的相關(guān)研究。

現(xiàn)階段對于原木的端面檢測主要采用傳統(tǒng)圖像處理和深度學(xué)習(xí)。在傳統(tǒng)圖像處理方面：Mei等[1]通過傅里葉變換連接低頻分量、反射分量和高頻分量，增強(qiáng)了圖像對比度，使原木邊緣變得更加清晰，再通過變換后的圖像進(jìn)行原木端面檢測；林耀海等[2]通過原木端面輪廓存在圓弧的特征，然后通過計(jì)算邊緣重疊度對原木進(jìn)行檢測；陳廣華等[3]采用雙目視覺實(shí)現(xiàn)對原木端面與背景的精確分割后對原木徑級進(jìn)行檢測；郝泉齡等[4]采用Logistic建立了回歸模型，用心材缺陷面積和邊材缺陷面積來確定立木的腐朽等級。傳統(tǒng)算法依賴于提取原木端面的幾何特征，當(dāng)原木端面由于伐痕、污漬、發(fā)霉、原木目標(biāo)較小等導(dǎo)致幾何特征提取困難時(shí)，檢測準(zhǔn)確率大大降低。在應(yīng)用深度學(xué)習(xí)方面，林耀海等[5]采用YOLOv3-Tiny結(jié)合Hough變換對端面完好、端面伐痕、端面霉變、環(huán)境復(fù)雜等情景進(jìn)行檢測，并取得較好的檢測結(jié)果；劉嘉政等[6]利用不同樹齡條件下樹皮圖像存在差異的特點(diǎn)對樹種圖像進(jìn)行了分類。Tang等[7]通過SSD對不同尺度目標(biāo)特征的提取和利用來減少光照和拍攝角度引起的遮擋，以此來提高檢測精度；Lin等[8]通過改進(jìn)YOLOv4-Tiny使得檢測框與原木端面更加貼合，并通過軟閾值化結(jié)合SE模塊來提高模型識(shí)別率；余鴻暉等[9]采用Transformer和CBAM模塊改進(jìn)YOLOv5的特征提取網(wǎng)絡(luò)，解決了原木被遮擋的問題，模型對整車原木場景有良好的檢測效果。

然而，上述研究均未針對密集型原木端面檢測深入研究，這要求所設(shè)計(jì)的網(wǎng)絡(luò)不僅對復(fù)雜情況下的原木端面檢測有良好的魯棒性，且對密集的小目標(biāo)有較強(qiáng)的檢測能力，從而降低密集原木端面的漏檢率。本研究針對成捆原木端面檢測存在由于目標(biāo)密集而形成的大量小目標(biāo)難以精確識(shí)別的問題，提出融合BiFPN(bidirectional weighted feature pyramid network，雙向加權(quán)特征金字塔網(wǎng)絡(luò))[10]和YOLOv5s的網(wǎng)絡(luò)結(jié)構(gòu)，在特征提取網(wǎng)絡(luò)中加入小目標(biāo)檢測層，提取淺層的物理信息來加強(qiáng)對小目標(biāo)的檢測能力，同時(shí)為了解決加入小目標(biāo)檢測層會(huì)存在深層語義信息丟失的問題，進(jìn)一步改進(jìn)特征融合網(wǎng)絡(luò)，將簡化版的BiFPN融合到網(wǎng)絡(luò)中，進(jìn)一步提高網(wǎng)絡(luò)的魯棒性；其次，為了更好地對比密集原木端面的檢測精度，該研究根據(jù)COCO數(shù)據(jù)集評價(jià)指標(biāo)[11]，將原木分為大、中、小目標(biāo)分別對模型進(jìn)行詳細(xì)的性能分析。

1 材料與方法

1.1 數(shù)據(jù)采集

該研究所采用的試驗(yàn)數(shù)據(jù)來源包括兩個(gè)部分，一部分是在福建省永安市某林場實(shí)地采集的成捆原木圖像數(shù)據(jù)集，另一部分是在互聯(lián)網(wǎng)尋找的一些接近真實(shí)原木貿(mào)易過程的圖像。為了保證數(shù)據(jù)集的多樣性，使得最終的模型在復(fù)雜場景能夠有良好表現(xiàn)，并具有較強(qiáng)的魯棒性，在數(shù)據(jù)集的選取過程中，除了密集型原木端面圖像，還包括不同樹種，盡可能多地涵蓋各種復(fù)雜情況，如部分原木端面存在端裂、年輪、遮擋、霉變等。數(shù)據(jù)集共計(jì)181張圖像，每一張圖像中的木材數(shù)量在幾根到幾百根之間。

1.2 數(shù)據(jù)集制作

采用LabelImg工具對圖像進(jìn)行標(biāo)注，標(biāo)注統(tǒng)一采用Pascal VOC格式，使用log為樣本標(biāo)簽。訓(xùn)練集和測試集的圖片數(shù)量比為124∶57，其中，訓(xùn)練集124張圖片中包含5 112個(gè)原木端面，測試集57張圖片中包含4 603個(gè)原木端面。目標(biāo)檢測公共數(shù)據(jù)集COCO中的目標(biāo)分為大、中、小3種尺寸：當(dāng)目標(biāo)的標(biāo)注面積像素在9 216以上時(shí)認(rèn)定為大目標(biāo)；當(dāng)目標(biāo)的標(biāo)注面積像素為1 024～9 216 時(shí)認(rèn)定為中目標(biāo)；當(dāng)目標(biāo)的標(biāo)注面積像素在1 024以下時(shí)認(rèn)定為小目標(biāo)。而COCO能夠采用這樣的評價(jià)指標(biāo)，是因?yàn)镃OCO官方已經(jīng)將圖片長邊縮放到640，短邊則是按照圖像比例縮放。為了能夠使用COCO數(shù)據(jù)集的評價(jià)指標(biāo)，本研究將原木圖像長邊縮放到640，短邊按照比例縮放。原木端面數(shù)據(jù)集數(shù)量分布如表1所示。

表1 原木端面數(shù)據(jù)集數(shù)量分布Table 1 Data distribution of log end face datasets

2 密集原木端面檢測模型

2.1 YOLOv5網(wǎng)絡(luò)原理

YOLOv5是目標(biāo)檢測模型YOLO系列[12-15]的最新研究成果，通過2個(gè)網(wǎng)絡(luò)深度、寬度比例調(diào)節(jié)因子進(jìn)一步地將YOLOv5分為YOLOv5-Small(YOLOv5s)、YOLOv5-Middle(YOLOv5m)、YOLOv5-Large(YOLOv5l)、YOLOv5-ExtraLarge(YOLOv5x)。考慮到網(wǎng)絡(luò)深度過深會(huì)導(dǎo)致得到的模型參數(shù)量過大，不利于后續(xù)模型在嵌入式設(shè)備上的部署和推理，本研究采用YOLOv5s作為基線網(wǎng)絡(luò)。可將網(wǎng)絡(luò)分為特征提取網(wǎng)絡(luò)、特征融合網(wǎng)絡(luò)以及檢測頭3個(gè)部分；640×640×3代表圖像的寬×高×通道數(shù)；特征融合網(wǎng)絡(luò)標(biāo)記P3、P4、P5處為特征層融合的位置。特征提取網(wǎng)絡(luò)是在YOLOv4的CSPDarkNet53基礎(chǔ)上[16]進(jìn)行了改良，由Focus、Conv、C3、Bottleneck[17]、SPP[18]模塊組成。在特征提取階段，將整張圖像作為輸入，并通過特征提取網(wǎng)絡(luò)提取目標(biāo)不同特征層的特征，并將提取到的特征在特征融合網(wǎng)絡(luò)進(jìn)行融合。特征融合網(wǎng)絡(luò)和YOLOv4一樣，采用路徑聚合網(wǎng)絡(luò)(PANet)[19]。YOLOv5s的檢測頭和YOLOv3/v4的檢測頭一致，從特征提取層的第3、4、5層中分別提供大、中、小特征通道來進(jìn)行多尺度檢測，其中3個(gè)尺度的檢測頭分別對應(yīng)預(yù)測小、中、大的目標(biāo)。輸出的通道數(shù)(cout)由分類的類別數(shù)決定：

cout=B×(5+C)

(1)

式中：B為每一個(gè)網(wǎng)格中預(yù)測框的數(shù)目；5代表Bbox的4個(gè)坐標(biāo)信息和1個(gè)預(yù)測得分信息；C代表類別數(shù)。

2.2 改進(jìn)的YOLOv5s原木端面檢測模型

原始的YOLOv5s網(wǎng)絡(luò)從第3次下采樣開始進(jìn)行特征融合以及檢測層的輸出，因?yàn)闇\層的特征圖具有較多的輪廓、顏色等細(xì)節(jié)語義信息，當(dāng)檢測大目標(biāo)時(shí)，淺層的語義信息對最后的模型權(quán)重貢獻(xiàn)不大，但是對于小原木而言，這些淺層語義信息在原木端面檢測時(shí)具有較大的作用。原木圖像輸入網(wǎng)絡(luò)后，特征提取網(wǎng)絡(luò)中第1次下采樣到第5次下采樣的通道特征圖見圖1。從圖1b、c可以看出在第1次和第2次下采樣時(shí)，原木的輪廓信息還較為豐富，從第3次下采樣開始則是一些比較深層的語義信息，這些信息對于目標(biāo)的分類貢獻(xiàn)較大。因此，傳統(tǒng)的目標(biāo)檢測網(wǎng)絡(luò)在設(shè)計(jì)時(shí)一般不會(huì)將第1、2層特征層加入特征融合網(wǎng)絡(luò)。

圖1 特征圖可視化Fig.1 Visualization of feature map

2.2.1 小目標(biāo)檢測層

與傳統(tǒng)目標(biāo)檢測網(wǎng)絡(luò)類似，YOLOv5s原網(wǎng)絡(luò)也是從第3層特征層開始進(jìn)行特征融合的。小目標(biāo)檢測層則是將第2層特征層加入特征融合網(wǎng)絡(luò)，從而提高網(wǎng)絡(luò)對小目標(biāo)的檢測能力，本研究在原始YOLOv5s算法基礎(chǔ)上添加了一個(gè)小目標(biāo)檢測層以保留淺層語義信息。將特征提取網(wǎng)絡(luò)中原本沒有進(jìn)行融合的160×160的特征圖增加到檢測層，并在特征融合網(wǎng)絡(luò)中增加1次上采樣操作和下采樣操作，從而將最后輸出檢測層增加至4層。增加了檢測層后，輸出的預(yù)測框也從9個(gè)相應(yīng)地增加到12個(gè)，所增加的3個(gè)預(yù)測框均為長寬比不同且針對小目標(biāo)檢測的。

2.2.2 BiFPN及其簡化

傳統(tǒng)的FPN結(jié)構(gòu)只有自上而下的單向信息流[20]，PANet網(wǎng)絡(luò)在FPN的基礎(chǔ)上增加了一條額外的自底向上的路徑進(jìn)行信息增強(qiáng)，有效保留更多的淺層特征。BiFPN是谷歌團(tuán)隊(duì)在PANet基礎(chǔ)上改進(jìn)的網(wǎng)絡(luò)結(jié)構(gòu)，BiFPN網(wǎng)絡(luò)示意圖如圖2c所示。BiFPN原網(wǎng)絡(luò)將7層特征層中的第3到第7層進(jìn)行特征融合，并且認(rèn)為如果一個(gè)節(jié)點(diǎn)只有一條輸入邊，其對于網(wǎng)絡(luò)的貢獻(xiàn)較小。因此，為了減少計(jì)算量，將第3層、第7層特征融合節(jié)點(diǎn)刪除；同時(shí)，提出跨尺度連接的方法，增加一條額外的邊，將特征提取網(wǎng)絡(luò)中的特征直接與自底向上路徑中相對于大小的特征進(jìn)行融合，使網(wǎng)絡(luò)在保留更多淺層語義信息的同時(shí)也不丟失過多相對深層的語義信息。YOLOv5s的特征融合網(wǎng)絡(luò)為PANet，從圖2b可以看出，由于網(wǎng)絡(luò)添加了小目標(biāo)檢測層，將原本不參與特征融合的第2層特征層加入特征融合網(wǎng)絡(luò)中，過多保留淺層語義信息導(dǎo)致網(wǎng)絡(luò)的深層語義信息丟失嚴(yán)重，使得網(wǎng)絡(luò)對于特征相對復(fù)雜，因此，更多地保留這些相對深層的語義信息顯得尤為重要?；诖耍狙芯刻岢鲆环N融合BiFPN和YOLOv5s的網(wǎng)絡(luò)模型，BiFPN的主要思想是添加了跨尺度連接，以便在不增加太多計(jì)算成本的前提下融合更多的特征。

圖2 特征融合網(wǎng)絡(luò)設(shè)計(jì)Fig.2 Feature fusion net design

此外，從圖2a可以看出，YOLOv5原網(wǎng)絡(luò)有5層特征層，其中只有第3到第5層特征層進(jìn)行特征融合，即使將第2層特征層加入也只有4層特征層可以進(jìn)行特征融合，而且第2層的淺層語義信息對于小目標(biāo)檢測有著十分重要的作用。因此，本研究選擇保留第2層和第5層的特征融合層，并且借鑒BiFPN的核心思想添加了2條跨尺度連接線。改進(jìn)后的網(wǎng)絡(luò)架構(gòu)如圖3所示，雖然會(huì)帶來少許的計(jì)算量增加，但改進(jìn)的網(wǎng)絡(luò)架構(gòu)在目標(biāo)密集、特征簡單的數(shù)據(jù)集上能取得良好的效果。

圖3 改進(jìn)后的YOLOV5s網(wǎng)絡(luò)架構(gòu)Fig.3 Improved YOLOV5s network architecture

3 模型訓(xùn)練和測試

3.1 試驗(yàn)參數(shù)

本試驗(yàn)硬件為1臺(tái)配備NVIDIA GeForce RTX 2080 Ti 12 GB(GPU)、Intel(R) Xeon(R)CPU-E5-2630 V4 2.20 GHz(CPU)的服務(wù)器，采用Pytorch1.7.1 搭建深度學(xué)習(xí)框架，并使用CUDA10.1工具包進(jìn)行GPU加速。由于YOLOv5采用的特征提取網(wǎng)絡(luò)進(jìn)行了5次下采樣，所以輸入圖像的長和寬需為32的整數(shù)倍，但為了能夠采用COCO的評價(jià)標(biāo)準(zhǔn)，本試驗(yàn)在數(shù)據(jù)預(yù)處理時(shí)已經(jīng)將圖片的長邊縮放到640。同時(shí)，為了最小程度地改變圖像特征，在盡量不改變輸入圖像原始比例的原則下，短邊先按照比例縮放。在模型訓(xùn)練以及測試時(shí)，將整張?jiān)緢D片輸入后，由于短邊也需滿足32的整數(shù)倍條件，因此將短邊向上取最靠近32整數(shù)倍的值。以數(shù)據(jù)集圖片為例，圖像采集完后的圖片大小為450×300，預(yù)處理后的圖片大小為640×426，放入網(wǎng)絡(luò)時(shí)的圖片大小為640×448。訓(xùn)練參數(shù)為：初始學(xué)習(xí)率0.01、動(dòng)量0.937、批量32、權(quán)重衰減值0.000 5。為了提高模型魯棒性，本試驗(yàn)在訓(xùn)練過程中使用YOLOv5s自帶的圖像增強(qiáng)算法，對色調(diào)(Hue，H)、飽和度(Saturation，S)、亮度(Value，V)3個(gè)通道加入隨機(jī)干擾系數(shù)，通過對色彩空間的變換以模擬光線不足的場景，并達(dá)到增強(qiáng)霉變、污漬等復(fù)雜情況與背景的對比，使用圖像平移、圖像翻轉(zhuǎn)的方法來模擬原木端面存在遮擋的場景。為了防止訓(xùn)練出現(xiàn)過擬合，采用熱身訓(xùn)練，輪次為3輪，訓(xùn)練迭代次數(shù)設(shè)置為800，每訓(xùn)練一輪保存損失最小的模型，最終得到的模型即為本研究的試驗(yàn)?zāi)Ｐ汀?/p>

3.2 評價(jià)指標(biāo)

本試驗(yàn)采用COCO目標(biāo)檢測數(shù)據(jù)集將原木分為大、中、小尺寸目標(biāo)后再進(jìn)行性能評價(jià)。衡量模型性能指標(biāo)的是在置信度閾值分?jǐn)?shù)為0.5時(shí)的查準(zhǔn)率(P)、查全率(R)、P-R調(diào)和均值F1及平均精度(AP)。P、R、F1及AP的計(jì)算公式為：

Ρ=TP/(TP+FP)×100%

(2)

R=TP/(TP+FN)×100%

(3)

F1=2PR/(P+R)

(4)

(5)

式中：TP為正確檢測出的原木數(shù)量；FP為原木出現(xiàn)誤檢的數(shù)量；FN為原木漏檢的數(shù)量；F1取值為0～1；r為積分變量，是對查準(zhǔn)率和查全率乘積的積分；AP為P-R曲線與坐標(biāo)軸包圍的面積。本研究中用的AP30是交并比(IOU)為0.3時(shí)不同查全率下的平均精度，mAP為不同類別的平均AP值，本試驗(yàn)數(shù)據(jù)集中只有一類目標(biāo)，因此AP等價(jià)于mAP。采用IOU=0.3而不是COCO的IOU=0.5的原因?yàn)椋涸跀?shù)據(jù)集中存在大量的密集原木，而這些原木橫截面差異較大，這就導(dǎo)致了當(dāng)大的目標(biāo)框只要包圍較為不貼合時(shí)，如果設(shè)置非極大值抑制(NMS)[21]的IOU值太大，將無法剔除多余的框。因此，通過試錯(cuò)法最終得到IOU=0.3為NMS的臨界值時(shí)，模型誤檢率最低。

4 結(jié)果與分析

4.1 加入簡化BiFPN的結(jié)果比較

原始的YOLOv5s算法在檢測原木目標(biāo)時(shí)，對于小目標(biāo)的檢測效果存在較高漏檢率的情況。針對成捆原木端面檢測存在由于目標(biāo)密集而形成的大量小目標(biāo)難以精確識(shí)別的問題，本研究在特征提取網(wǎng)絡(luò)加入小目標(biāo)檢測層，從而增強(qiáng)對小目標(biāo)原木的檢測。由于加入小目標(biāo)檢測層后特征融合網(wǎng)絡(luò)的通道長度增加導(dǎo)致信息丟失，因此在此基礎(chǔ)上改進(jìn)了特征融合網(wǎng)絡(luò)，即加入簡化版的BiFPN。為測試加入簡化版BiFPN網(wǎng)絡(luò)的性能，在相同測試集下采取消融試驗(yàn)，試驗(yàn)結(jié)果如表2所示。

表2 不同改進(jìn)結(jié)構(gòu)在各個(gè)尺寸的檢測結(jié)果對比Table 2 Comparison of detection results of different improved structures in each size

YOLOv5s加入小目標(biāo)檢測層后相比于原YOLOv5s在所有目標(biāo)的查全率和平均精度上分別提高了10.82%和11.06%，其中：小目標(biāo)的查全率和平均精度分別提高了17.53%和17.10%；中目標(biāo)的查全率提高了0.62%，平均精度不變；大目標(biāo)的查全率降低了0.30%，平均精度提高了0.03%。F1值在所有目標(biāo)和小目標(biāo)中分別提高了0.054和0.096，在中目標(biāo)和大目標(biāo)中分別降低了0.001和0.009?？傮w來說，加入小目標(biāo)檢測層后的網(wǎng)絡(luò)在查全率、平均精度及F1值上均有明顯的提高。但是從表2的結(jié)果可以看出，雖然加入小目標(biāo)檢測層的網(wǎng)絡(luò)能夠提高小目標(biāo)的TP，但由于信息丟失增多導(dǎo)致網(wǎng)絡(luò)的魯棒性降低，使得各個(gè)尺寸的FP都有不同程度的增加，這使得加入小目標(biāo)檢測層的網(wǎng)絡(luò)在所有目標(biāo)和小目標(biāo)的查準(zhǔn)率分別降低了1.10% 和1.11%，在中目標(biāo)和大目標(biāo)的查準(zhǔn)率分別降低了0.98%和1.45%。

改進(jìn)的YOLOv5s網(wǎng)絡(luò)在加入小目標(biāo)檢測層的基礎(chǔ)上對特征融合網(wǎng)絡(luò)進(jìn)行了改進(jìn)，比只加入小目標(biāo)檢測層的網(wǎng)絡(luò)各方面性能指標(biāo)都有所提高。對所有目標(biāo)、小目標(biāo)、中目標(biāo)及大目標(biāo)的查準(zhǔn)率分別提高了0.21%，0.13%，0.13%及0.87%；對所有目標(biāo)、小目標(biāo)、中目標(biāo)及大目標(biāo)的查全率分別提高了2.18%，3.43%，0.13%及0.30%，對大目標(biāo)的查全率依然是接近100%；對所有目標(biāo)、小目標(biāo)、中目標(biāo)及大目標(biāo)的AP30分別提高了1.97%，4.03%，0.93%及0.09%；對所有目標(biāo)、小目標(biāo)、中目標(biāo)及大目標(biāo)的F1值分別提高了0.012，0.018，0.001及0.006?？傮w而言，改進(jìn)型YOLOv5s網(wǎng)絡(luò)相比于原YOLOv5s網(wǎng)絡(luò)，在所有目標(biāo)和小目標(biāo)的檢測上，在查準(zhǔn)率僅降低了不到1%的情況下查全率分別提高了13.00%和20.96%。試驗(yàn)結(jié)果表明，本研究提出的融合BiFPN和YOLOv5s的密集原木端面檢測網(wǎng)絡(luò)可以在少量降低查準(zhǔn)率的情況下，明顯地提升密集原木檢測的查全率。

YOLOv5s以及加上不同網(wǎng)絡(luò)結(jié)構(gòu)對于密集原木端面的檢測效果對比見圖4。從圖4a、b、c的綠色框可以看出，加入了小目標(biāo)檢測層后的算法模型，相比于原模型在密集原木端面的查全率都有較大提升。從圖4a、b的黃色框及藍(lán)色框可以看出，僅僅加入小目標(biāo)檢測層的算法會(huì)出現(xiàn)將十分靠近的2個(gè)原木識(shí)別成1個(gè)原木，而且會(huì)將圖片中輪廓、顏色比較相近的物體識(shí)別成原木，從而提高了誤檢率。從圖4b、c的黃色框以及藍(lán)色框可以看出，在小目標(biāo)檢測層的基礎(chǔ)上再加上簡化的BiFPN后的算法對密集的原木端面以及輪廓、顏色相近的情況有較高的查準(zhǔn)率和更強(qiáng)的魯棒性。

注:紅色框?yàn)樗惴▽υ镜臋z測效果，其余顏色為人工標(biāo)注。圖4 不同改進(jìn)結(jié)構(gòu)檢測效果及局部放大Fig.4 Different improved structure detection effects and local magnification

4.2 不同模型效果對比

為進(jìn)一步測試改進(jìn)的YOLOv5s模型效果，分別對改進(jìn)前后的YOLOv5s模型、無錨框檢測網(wǎng)絡(luò)YOLOX[22]、二階段網(wǎng)絡(luò)Faster-RCNN[23]4個(gè)網(wǎng)絡(luò)用相同的訓(xùn)練參數(shù)進(jìn)行訓(xùn)練，其中，F(xiàn)aster-RCNN的特征提取網(wǎng)絡(luò)分別采用ResNet50和ResNet101[17]，并且均在訓(xùn)練收斂情況下進(jìn)行列表統(tǒng)計(jì)對比，各個(gè)模型的試驗(yàn)結(jié)果對比如表3所示。

表3 各個(gè)模型試驗(yàn)結(jié)果對比Table 3 Comparison of experimental results of the selected models

改進(jìn)的模型相比于原模型在查準(zhǔn)率降低了不到1%的前提下將查全率和平均精度分別提高了13.00%和13.03%，相比于YOLOXs在查準(zhǔn)率相當(dāng)?shù)那疤嵯拢槿屎推骄确謩e提高了14.28%和13.89%；Faster-RCNN的查全率和平均精度均不到45%，這主要是因?yàn)楦鶕?jù)COCO目標(biāo)檢測數(shù)據(jù)集的分類標(biāo)準(zhǔn)，測試集中包含小目標(biāo)原木的圖片占比為30.36%，但小目標(biāo)原木數(shù)量占比為60.85%，這導(dǎo)致了當(dāng)模型對小目標(biāo)原木的檢測效果不好時(shí)，模型的查全率和平均精度會(huì)大大降低，改進(jìn)后的模型漏檢數(shù)量比其他模型大大減少。

原YOLOv5s的網(wǎng)絡(luò)為283層，浮點(diǎn)運(yùn)算數(shù)(FLOPs)為16.4 G，平均每張圖片的檢測時(shí)間為10.10 ms，權(quán)重為13.7 MB。改進(jìn)的YOLOv5s的網(wǎng)絡(luò)為341層，浮點(diǎn)運(yùn)算數(shù)為19.5 G，平均每張圖片的檢測時(shí)間為11.89 ms，權(quán)重為14.4 MB，改進(jìn)的模型在網(wǎng)絡(luò)深度、權(quán)重和檢測時(shí)間上略有增加。Faster-RCNN-50和YOLOXs的權(quán)重分別為330.3和107.8 MB，改進(jìn)后的YOLOv5s分別為它們的4.4%和13.4%；同時(shí)，改進(jìn)模型的檢測速度分別為Faster-RCNN-50和YOLOXs的4.04倍和1.78倍。因此，綜合模型的性能、權(quán)重和檢測速度，改進(jìn)的YOLOv5s模型更適用于原木端面檢測。

4.3 3種尺寸目標(biāo)下不同模型對比

將目標(biāo)按照COCO數(shù)據(jù)集標(biāo)準(zhǔn)分成大、中、小3種尺寸進(jìn)行的對比試驗(yàn)，結(jié)果如表4所示。在大目標(biāo)的檢測上，F(xiàn)aster-RCNN的查全率為100%，在所有模型中最高，但其查準(zhǔn)率最低；YOLOXs在所有模型中的查全率最低，只有98.21%；改進(jìn)的YOLOv5s查全率不變，查準(zhǔn)率相比于原YOLOv5s降低了0.58%，但仍高于Faster-RCNN；改進(jìn)前后的F1值均優(yōu)于其他模型。在中目標(biāo)的檢測上，改進(jìn)后的YOLOv5s查全率和平均精度最高，相比于原YOLOv5s分別提高了0.75%和0.93%，改進(jìn)前后的F1值相同且均優(yōu)于其他模型。在小目標(biāo)的檢測上，由于Faster-RCNN的特征融合網(wǎng)絡(luò)是單向信息流的FPN，導(dǎo)致Faster-RCNN對小目標(biāo)原木檢測效果較差，而原YOLOv5s和YOLOXs的特征融合網(wǎng)絡(luò)是具有雙向信息融合的路徑聚合網(wǎng)絡(luò)，因此小目標(biāo)檢測效果比Faster-RCNN好。Faster-RCNN-50在小目標(biāo)的檢測上查全率和平均精度分別只有11.75% 和11.79%，即使將網(wǎng)絡(luò)的深度加深，F(xiàn)aster-RCNN-101對于小目標(biāo)的查全率和平均精度也僅有12.14%和12.74%。改進(jìn)后的模型由于添加了小目標(biāo)檢測層以及改進(jìn)了特征融合網(wǎng)絡(luò)，對于小目標(biāo)原木的查全率和平均精度分別達(dá)到97.25%和96.86%，比原YOLOv5s分別提高了20.96%和21.13%；但是隨著目標(biāo)檢測數(shù)量的提高以及小目標(biāo)檢測層加入后導(dǎo)致信息丟失，模型的誤檢率也隨之提高，也使查準(zhǔn)率比原YOLOv5s降低了0.98%，改進(jìn)的模型F1值遠(yuǎn)遠(yuǎn)優(yōu)于其他模型。試驗(yàn)結(jié)果表明：改進(jìn)后的YOLOv5s在大、中目標(biāo)的檢測上，與原YOLOv5s總體上優(yōu)于其他網(wǎng)絡(luò)；在小目標(biāo)的檢測上，改進(jìn)的模型在查準(zhǔn)率小幅下降的前提下，查全率、F1值和平均精度有大幅提高，且改進(jìn)后的平均精度在大、中、小目標(biāo)的檢測上基本均優(yōu)于其他模型，說明模型具有更強(qiáng)的魯棒性。

各個(gè)模型對密集原木的檢測效果見圖5。由圖5a、b可以看出，F(xiàn)aster-RCNN在密集的原木端面中僅能檢測出一些像素占比大、輪廓較為明顯的原木；由圖5d、e可以看出，YOLOXs和改進(jìn)前的YOLOv5s雖然相比于Faster-RCNN在檢測效果上有所提升，但是漏檢率依然較高，無法滿足實(shí)際生產(chǎn)需求；圖5f是改進(jìn)的YOLOv5s的檢測效果，相比于其他模型，能夠檢測出大量原木且查準(zhǔn)率較高，適合部署在實(shí)際應(yīng)用場景。

圖5 各個(gè)模型對密集原木的檢測效果Fig.5 The effect of each model on the detection of dense logs

5 結(jié) 論

1)本研究提出融合BiFPN和YOLOv5s的密集型原木端面檢測模型。通過對模型的特征提取網(wǎng)絡(luò)和特征融合網(wǎng)絡(luò)研究和改進(jìn)，加入了小目標(biāo)檢測層，并將原模型的路徑聚合網(wǎng)絡(luò)替換為簡化版的雙向加權(quán)特征金字塔網(wǎng)絡(luò)，通過對比試驗(yàn)，驗(yàn)證了改進(jìn)的模型更適用于實(shí)際加工、運(yùn)輸過程中的密集原木端面檢測。

2)為了驗(yàn)證簡化版BiFPN的有效性，用改進(jìn)前后的模型以及只加入小目標(biāo)檢測層的網(wǎng)絡(luò)進(jìn)行消融試驗(yàn)，按照COCO分類標(biāo)準(zhǔn)將原木端面測試集分成大、中、小3個(gè)尺度的目標(biāo)后，以調(diào)和均值F1、平均精度、查全率及查準(zhǔn)率為判斷依據(jù)。試驗(yàn)結(jié)果表明，融合BiFPN和YOLOv5s的網(wǎng)絡(luò)比只加入小目標(biāo)檢測層的網(wǎng)絡(luò)各方面性能指標(biāo)都有所提高。對所有目標(biāo)、小目標(biāo)、中目標(biāo)及大目標(biāo)的查準(zhǔn)率分別提高了0.21%，0.13%，0.13%及0.87%；對所有目標(biāo)、小目標(biāo)、中目標(biāo)及大目標(biāo)的查全率分別提高了2.18%，3.43%，0.13%及0.30%，對大目標(biāo)的查全率依然是接近100%；對所有目標(biāo)、小目標(biāo)、中目標(biāo)及大目標(biāo)的AP30分別提高了1.97%，4.03%，0.93% 及0.09%；對所有目標(biāo)、小目標(biāo)、中目標(biāo)及大目標(biāo)的F1值分別提高了0.012，0.018，0.001及 0.006。試驗(yàn)證明了改進(jìn)后的網(wǎng)絡(luò)不僅對于密集型原木端面的檢測具有更強(qiáng)的魯棒性，在原木端面存在伐痕、污漬、發(fā)霉等復(fù)雜情況下也有良好的檢測結(jié)果。

3)用改進(jìn)前后的模型以及YOLOXs和Faster-RCNN進(jìn)行對比試驗(yàn)。試驗(yàn)結(jié)果表明：改進(jìn)的YOLOv5s模型在所有目標(biāo)的查準(zhǔn)率、查全率、平均精度和調(diào)和均值分別為97.32%，97.68%，96.78%和0.975；相比于原模型在查準(zhǔn)率降低了不到1%的情況下，查全率和平均精度分別提高了13.00%和13.03%，調(diào)和均值提高了0.066，且性能遠(yuǎn)優(yōu)于其他對比模型。大目標(biāo)和中目標(biāo)檢測相比于原模型性能幾乎不變；小目標(biāo)的查全率和平均精度相比于原模型分別提高了20.96%和21.13%，調(diào)和均值提高了0.114。改進(jìn)的模型參數(shù)量為14.4 MB，雖略大于YOLOv5s網(wǎng)絡(luò)，但相比Faster-RCNN-50的330.3 MB和YOLOXs的107.8 MB，權(quán)重也僅為4.4% 和13.4%；檢測速度分別為Faster-RCNN-50和YOLOX-s的4.04倍和1.78倍。因此，綜合模型的性能、權(quán)重和檢測速度，改進(jìn)的模型更適合應(yīng)用到原木端面檢測任務(wù)中。