摘 "要: 針對傳統(tǒng)目標(biāo)檢測算法在處理具有復(fù)雜紋理木刻雕版圖像時(shí)存在漏檢、參數(shù)量大、檢測和推理速度慢等問題,通過改進(jìn)YOLOv5s模型,提出一種輕量化目標(biāo)檢測算法。首先,采用FasterNet作為特征提取模塊,解決原始YOLOv5s參數(shù)量大、運(yùn)行時(shí)間長以及算法要求高等問題;其次,在特征提取網(wǎng)絡(luò)后添加坐標(biāo)注意力機(jī)制以提高模型對木刻雕版元素特征的提取能力;最后,引入輕量化上采樣CARAFE,減少上采樣過程中特征信息的損失并提升模型的檢測精度。為了驗(yàn)證方法的有效性,文中在自己收集的數(shù)據(jù)上進(jìn)行測試,與初始YOLOv5s模型相比,改進(jìn)后的模型平均精度提升了2.2%,檢測速度提升了46.53%。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的模型可以快速定位和識別木刻雕版元素,實(shí)現(xiàn)對初始模型的輕量化,可以有效部署于嵌入式設(shè)備和移動(dòng)設(shè)備。
關(guān)鍵詞: YOLOv5s; 木刻雕版; FasterNet; 注意力機(jī)制; CARAFE; 輕量化目標(biāo)檢測
中圖分類號: TN911.73?34; TP391 " " " " " " " " " 文獻(xiàn)標(biāo)識碼: A " " " " " " " " "文章編號: 1004?373X(2024)21?0067?08
Research on woodcut engraving element detection method based on improved YOLOv5s
YANG Xin1, 2, CAIRANG Xianmu1, GAO Dingguo1, 2, XIA Jianjun1, 2, PUBU Danzeng1, ZHAO Qijun1, 2, 3
(1. School of Information Science and Technology, Tibet University, Lhasa 850000, China;
2. Tibetan Information Technology Innovative Talent Training Demonstration Base, Lhasa 850000, China;
3. School of Computer Science, Sichuan University, Chengdu 610065, China)
Abstract: The traditional object detection algorithms have the disadvantages of missing detection, a large quantity of parameters and slow detection and reasoning speed when processing images of woodcut engraving plates with complex textures. Therefore, a lightweight object detection algorithm is proposed by improving the YOLOv5s model. The FasterNet is taken as the feature extraction module to reduce the quantity of parameters, shorten the operation time and lower the algorithm requirements of the original YOLOv5s. The coordinate attention (CA) mechanism is added after the feature extraction network to improve the model′s ability to extract the features of woodcut engraving elements. The CARAFE (content?aware reassembly of features) is introduced to reduce the loss of feature information in the process of up?sampling and improve the detection accuracy of the model. The proposed method is tested with the data collected by the author himself to verify the effectiveness. In comparison with the initial YOLOv5s model, the average accuracy of the improved model is improved by 2.2% and its detection speed is increased by 46.53%. The experimental results show that the improved model can locate and identify the elements of woodcut engravings rapidly. The improved model is the lightweight of the initial model, and can be deployed in embedded and mobile devices effectively.
Keywords: YOLOv5s; woodcut engraving; FasterNet; attention mechanism; CARAFE; lightweight object detection
0 "引 "言
藏族木刻雕版是藏文化的活化石,承載了藏族人民的智慧,研究藏族木刻雕版可以更好地了解和尊重藏族文化,為非物質(zhì)文化遺產(chǎn)的保護(hù)和傳承做出貢獻(xiàn)[1]。木刻雕版因年代久遠(yuǎn)、儲存方式不當(dāng)?shù)仍?,出現(xiàn)了磨損或自然老化的情況,以致后續(xù)研究學(xué)者和文化愛好者在理解木刻雕版元素等內(nèi)容時(shí)遇到了一定的阻礙。深度學(xué)習(xí)和計(jì)算機(jī)視覺的發(fā)展為木刻雕版技藝的數(shù)字化保護(hù)和傳承提供了有效的解決方案。
目標(biāo)檢測作為計(jì)算機(jī)視覺領(lǐng)域的重要研究方向,采用深度學(xué)習(xí)算法對圖像和視頻內(nèi)容自動(dòng)識別和定位[2]。目標(biāo)檢測算法因?yàn)楦咝Ш涂焖俚葍?yōu)點(diǎn)已經(jīng)被廣泛應(yīng)用于自動(dòng)駕駛[3]、生物特征識別[4]和醫(yī)學(xué)影像分析[5]等多種領(lǐng)域。目標(biāo)檢測算法可以被劃分為兩大類:一類是依賴于傳統(tǒng)技術(shù)的算法;另一類則是利用深度學(xué)習(xí)技術(shù)的算法。傳統(tǒng)的目標(biāo)檢測方法主要基于手工設(shè)計(jì)的特征提取器和分類器,如方向梯度直方圖(Histogram of Gradient, HOG)特征[6]和支持向量機(jī)(Support Vector Machine, SVM)[7]等。傳統(tǒng)的方法在一些簡單場景下表現(xiàn)良好,但在復(fù)雜背景情況下效果較差。近年來,深度學(xué)習(xí)技術(shù)的興起極大地推動(dòng)了目標(biāo)檢測的發(fā)展,特別是隨著卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)的興起,目標(biāo)檢測技術(shù)獲得了顯著的突破和進(jìn)展。深度學(xué)習(xí)目標(biāo)檢測算法包括一次性完成檢測的單階段方法和分兩步走的兩階段方法。兩階段方法先生成候選框,再對候選框進(jìn)行分類和定位,典型算法有SPPnet(Spatial Pyramid Pooling Network)[8]和R?CNN[9]系列,其算法都采用一個(gè)區(qū)域生成網(wǎng)絡(luò)(Region Proposal Network, RPN)來生成候選框,并使用一個(gè)分類器來判斷候選框是否包含目標(biāo)。以上目標(biāo)檢測算法的主要缺點(diǎn)是速度較慢,無法滿足實(shí)時(shí)目標(biāo)檢測的需求。與兩階段目標(biāo)檢測算法不同,SSD[10](Single Shot MultiBox Detector)算法是一種基于單階段檢測器的目標(biāo)檢測算法,其主要思想是調(diào)整卷積網(wǎng)絡(luò)的最后一層,將每個(gè)位置上的特征圖解釋為包含一組邊界框的概率分布。YOLO[11](You Only Look Once)系列算法是基于單階段檢測器的另一種目標(biāo)檢測算法,這些算法將目標(biāo)檢測問題簡化為一個(gè)回歸問題,使用單個(gè)神經(jīng)網(wǎng)絡(luò)自底向上地預(yù)測邊界框和類別概率。相較于R?CNN系列和SSD算法,YOLO系列算法的檢測速度更快,且檢測效果更好。
綜上所述,如何有效、便捷地實(shí)現(xiàn)木刻雕版圖像元素自動(dòng)識別和定位已成為亟待研究的課題。然而,目前鮮有對木刻雕版元素方面的研究。為此,本文將單階段目標(biāo)檢測算法中綜合性能較好的YOLOv5模型應(yīng)用于木刻雕版數(shù)據(jù),但仍然存在參數(shù)量大、檢測和推理速度慢以及檢測精度低等問題。為了解決上述問題,本文在YOLOv5s的基礎(chǔ)上進(jìn)行了創(chuàng)新,設(shè)計(jì)出了一種優(yōu)化的算法。首先,采用FasterNet[12]作為特征提取模塊;其次,在特征提取網(wǎng)絡(luò)后添加坐標(biāo)注意力機(jī)制[13];最后,引入輕量化上采樣CARAFE(Content?aware Reassembly of Feature)[14]。有效實(shí)現(xiàn)木刻雕版元素的精準(zhǔn)定位和檢測,有助于社會(huì)大眾以及藏文化愛好者深入理解藏族木刻雕版的版面元素,推動(dòng)藏文化的傳播與交流。
1 "方法概述
1.1 "YOLOv5s模型概述
YOLOv5s是一種單階段目標(biāo)檢測算法,與傳統(tǒng)的目標(biāo)檢測算法相比,YOLOv5s具有較高的檢測速度和精度。YOLOv5系列包含五個(gè)版本,按照規(guī)模從小到大排序?yàn)椋篩OLOv5n、YOLOv5s、YOLOv5m、YOLOv5l和YOLOv5x,這些網(wǎng)絡(luò)在結(jié)構(gòu)上僅在網(wǎng)絡(luò)深度和通道數(shù)上有所區(qū)別。隨著網(wǎng)絡(luò)深度和寬度的遞增,雖然檢測精度逐漸提升,但處理速度卻相應(yīng)下降。由于木刻雕版檢測系統(tǒng)對實(shí)時(shí)性能的要求,本文選擇在速度和精度上均表現(xiàn)較優(yōu)的YOLOv5s作為基礎(chǔ)網(wǎng)絡(luò)模型。YOLOv5s的網(wǎng)絡(luò)結(jié)構(gòu)清晰明了,由輸入端(Input)、骨干網(wǎng)絡(luò)(Backbone)、特征融合模塊(Neck)以及預(yù)測層(Prediction)四個(gè)主要部分組成。YOLOv5s模型的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
Input通常包含一個(gè)圖像預(yù)處理階段,其主要任務(wù)是對輸入的圖像進(jìn)行尺寸調(diào)整,以滿足網(wǎng)絡(luò)所需的輸入大小,并執(zhí)行歸一化等相關(guān)操作,從而確保圖像數(shù)據(jù)的規(guī)范性和一致性。
Backbone采用CSPDarknet53框架[15]。CSPDarknet53由一系列卷積層和殘差塊組成,通過多層的卷積操作,可以在深層網(wǎng)絡(luò)提取出圖像的高級語義特征。
Neck網(wǎng)絡(luò)采用FPN[16]+PAN[17]的結(jié)構(gòu)。FPN是一種簡化的金字塔網(wǎng)絡(luò),用于提取和融合多尺度的特征信息,能夠在不同尺度上提取和融合特征信息。
Prediction包含了一系列的卷積和全連接層,用于將特征圖轉(zhuǎn)換為目標(biāo)的位置和類別信息。預(yù)測層輸出的結(jié)果包括目標(biāo)的邊界框坐標(biāo)、置信度分?jǐn)?shù)和類別概率。通過設(shè)置適當(dāng)?shù)拈撝岛头菢O大值抑制(NMS)操作,得到最終的目標(biāo)檢測結(jié)果。
1.2 "模型改進(jìn)
本文提出的改進(jìn)算法主要體現(xiàn)在以下三個(gè)方面。
1) 特征提取模塊采用FasterNet代替原有的模塊,解決了原始YOLOv5s參數(shù)量大、運(yùn)行時(shí)間長等問題,使檢測模型更加輕量化。
2) 在特征提取網(wǎng)絡(luò)后添加坐標(biāo)注意力(Coordinate Attention, CA)機(jī)制,可以更好地利用高層次的特征表示,并在全局池化前捕捉重要的特征信息,針對于木刻雕版的邊緣部分和小目標(biāo)可以得到更好的檢測。
3) 引入輕量化上采樣CARAFE代替最近鄰插值上采樣,可以使得模型能夠獲取更大的感受野、保留更多的信息。
改進(jìn)后的算法在提升模型檢測精度的同時(shí)可以提高檢測速度。改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
1.3 "FasterNet網(wǎng)絡(luò)
YOLOv5s網(wǎng)絡(luò)模型在木刻雕版目標(biāo)檢測任務(wù)中憑借出色的特征提取能力展現(xiàn)出了優(yōu)越的性能,但由于其參數(shù)量大,導(dǎo)致模型的計(jì)算效率相對較低。特別是在處理木刻雕版這類復(fù)雜且精細(xì)的圖像數(shù)據(jù)時(shí),龐大的參數(shù)量不僅增加了計(jì)算負(fù)擔(dān),還會(huì)影響實(shí)時(shí)檢測的速度和性能。相比之下,F(xiàn)asterNet憑借較少的參數(shù)設(shè)計(jì),展現(xiàn)出了更高的計(jì)算效率。它在保持輕量級和高速度的同時(shí),顯著提升了特征表達(dá)能力和感受野的覆蓋范圍,從而更好地適應(yīng)了木刻雕版目標(biāo)檢測任務(wù)的需求。
具體來說,F(xiàn)asterNet的網(wǎng)絡(luò)結(jié)構(gòu)由四個(gè)級別組成,每個(gè)級別包含多個(gè)FasterNet塊。這些FasterNet塊通過結(jié)合部分卷積操作(PConv層)和1×1卷積操作(PWConv層),實(shí)現(xiàn)了高效的特征提取和轉(zhuǎn)換。在每個(gè)級別的開始,嵌入層或合并層通過常規(guī)的卷積操作降低空間分辨率并增加通道數(shù),進(jìn)一步豐富了特征的層次性。而在最后一個(gè)級別之后,通過三個(gè)分類層對特征進(jìn)行精細(xì)分類。此外,每個(gè)層之后的標(biāo)準(zhǔn)化層和激活層不僅增加了特征的多樣性,還有助于降低網(wǎng)絡(luò)延遲,提升整體性能。FasterNet的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
1.4 "融合CA注意力機(jī)制
為了提高模型對木刻雕版關(guān)鍵元素的注意能力,在特征提取網(wǎng)絡(luò)后添加坐標(biāo)注意力機(jī)制。如圖4所示,坐標(biāo)注意力(CA)機(jī)制通過對通道之間的關(guān)系建模,使網(wǎng)絡(luò)能夠更加集中地關(guān)注重要特征,有助于模型能夠更準(zhǔn)確地定位和識別感興趣的對象[18]。經(jīng)過大量實(shí)驗(yàn)證明,相比于其他注意力機(jī)制,CA注意力機(jī)制不僅關(guān)注了通道信息還考慮了方向和位置的有關(guān)信息。另外,CA注意力機(jī)制足夠的靈活和輕量,能夠簡單地插入到FasterNet網(wǎng)絡(luò)中,在保持較快訓(xùn)練速度的同時(shí),不會(huì)導(dǎo)致過擬合的問題。
1.5 "上采樣方式改進(jìn)
YOLOv5s中常用的上采樣方式是最近鄰插值上采樣,盡管簡單高效,但其感受野較小,容易導(dǎo)致細(xì)節(jié)信息的丟失和模糊等。這些問題在處理復(fù)雜且精細(xì)的木刻雕版圖像時(shí)尤為突出,嚴(yán)重影響了目標(biāo)檢測的準(zhǔn)確性和穩(wěn)定性。
針對最近鄰插值存在的不足,可以用一種計(jì)算量小并且語義相關(guān)性高的模型來代替。CARAFE是一種輕量級的上采樣算子,相較于初始的最近鄰插值方法,感受野更寬,能大范圍聚合上下文信息,如圖5所示,主要由上采樣核預(yù)測和特征重組兩個(gè)步驟組成。假設(shè)上采樣倍率為[σ],對于一個(gè)初始形狀為[H×W×C]的輸入特征圖,首先利用上采樣核預(yù)測模塊來預(yù)測所需的上采樣核;接著,通過特征重組模塊對上采樣進(jìn)行處理,最終得到形狀為[σH×σW×C]的輸入特征圖。
2 "實(shí) "驗(yàn)
2.1 "數(shù)據(jù)集構(gòu)建
本研究通過與多地印經(jīng)院和相關(guān)領(lǐng)域?qū)<液献鞴膊杉? 070張風(fēng)格多樣的藏族木刻雕版圖像。
作為重要的文化載體,木刻雕版內(nèi)容豐富,技藝多樣,據(jù)此可分為不同的類別,如圖6所示,這些雕版可以依據(jù)不同的特征進(jìn)行細(xì)致的分類。隨后,利用LabelImg工具,結(jié)合領(lǐng)域?qū)<业膶I(yè)知識,對這6種不同風(fēng)格類別的數(shù)據(jù)進(jìn)行精準(zhǔn)標(biāo)注,確保每一張圖像都得到準(zhǔn)確的分類。標(biāo)注后的數(shù)據(jù)集保存為Pascal VOC格式,涵蓋圖形符號類(Graphical Symbols)、咒輪類(Charm Wheel)、本尊類(Yidam)、民俗類(Folk)、文字類(Text)以及法器類(Magic Weapon)。為了進(jìn)一步滿足模型訓(xùn)練的需求,將XML格式的標(biāo)簽轉(zhuǎn)換為YOLOv5s模型適用的txt格式,并按照8∶1∶1的比例隨機(jī)自動(dòng)劃分為訓(xùn)練集、驗(yàn)證集和測試集,其中訓(xùn)練集包含1 656張圖像,驗(yàn)證集和測試集各含207張圖像。圖7則直觀地呈現(xiàn)了各類雕版在數(shù)量上的分布情況,進(jìn)一步凸顯了藏族木刻雕版藝術(shù)的多樣性與豐富性。
2.2 "實(shí)驗(yàn)環(huán)境和參數(shù)設(shè)置
本實(shí)驗(yàn)?zāi)P陀?xùn)練的硬件環(huán)境為CPU:Intel? CoreTM i9?12900KF、GPU:NVIDIA GeForece RTX 3090 Ti,內(nèi)存:64 GB,系統(tǒng):Ubuntu 20.04+CUDA 11.8,編譯語言:Python 3.9,深度學(xué)習(xí)框架:PyTorch 1.12.1版本。
該模型的訓(xùn)練參數(shù)采用官方提供的權(quán)重參數(shù)作為訓(xùn)練的初始化參數(shù),使用相同的數(shù)據(jù)集以及參數(shù)設(shè)置以便于減少不確定因素的干擾??傆?xùn)練批次(Epochs)為150,batch?size為16,初始學(xué)習(xí)率為 0.01,使用 SGD 優(yōu)化器,動(dòng)量參數(shù)設(shè)置為0.937,Weight decay設(shè)置為0.000 5。
2.3 "評估指標(biāo)
為了有效驗(yàn)證改進(jìn)算法的精確度和實(shí)時(shí)性能,本文采用mAP(Mean Average Precision)、浮點(diǎn)計(jì)算量(Giga Floating?point Operation per Second, GFLOPs)和參數(shù)量(Parameters)三個(gè)指標(biāo)進(jìn)行評價(jià),平均精度(mAP@0.5)是每個(gè)檢測到的類別AP值的平均值,計(jì)算公式如下:
[AP=01PRdR] (1)
mAP值通常使用具有0.5閾值的交并比(IoU)來計(jì)算,計(jì)算公式如下:
[mAP=i=1sAPiS] (2)
GFLOPs表示浮點(diǎn)運(yùn)算次數(shù),用來衡量網(wǎng)絡(luò)模型的復(fù)雜度,評估模型的計(jì)算復(fù)雜度和推理速度;Parameters表示模型中包含參數(shù)的數(shù)量。
2.4 "實(shí)驗(yàn)結(jié)果及分析
2.4.1 "不同注意力機(jī)制對比測試
為了驗(yàn)證CA注意力機(jī)制對于木刻雕版元素的檢測效果,在相同條件下分別測試了幾種常見的注意力機(jī)制,并比較了不同的注意力機(jī)制對YOLOv5s模型的影響,實(shí)驗(yàn)結(jié)果如表1所示。
對比目前常用的注意力機(jī)制SE、CBAM、ECA和CA,從表1中可以得出,在加入了CBAM和ECA以后,mAP值相比YOLOv5s模型有所下降,分別下降了3.1%、0.5%,可以看出這兩種注意力機(jī)制對于該模型來說效果不佳。相比CBAM和ECA注意力機(jī)制,SE和CA注意力機(jī)制對于該模型的效果有所提升,分別提升了0.9%、2.9%。尤其是CA注意力機(jī)制在保證模型大小的前提下﹐可以有效提升mAP值。因此經(jīng)過綜合考慮,添加CA注意力機(jī)制來提升模型檢測的性能。
2.4.2 "輕量化模塊的消融實(shí)驗(yàn)
為了驗(yàn)證FasterNet模塊對木刻雕版元素檢測的影響,將常用的輕量化模塊進(jìn)行了對比實(shí)驗(yàn),比較它們對YOLOv5s模型性能的影響,在保證其余條件不變的情況下,分別驗(yàn)證了常見的ShuffleNetV2和MobileNetV3輕量化主干網(wǎng)絡(luò)以及FasterNet網(wǎng)絡(luò),結(jié)果如表2所示。
從表2中可以看出,在YOLOv5s模型中引入ShuffleNetV2和MobileNetV3兩種輕量化模型雖然FLOPs和Parameters都出現(xiàn)了大幅度的降低,但是以犧牲較多的mAP值作為代價(jià),因此檢測精度會(huì)降低。相比較而言,F(xiàn)asterNet在降低GFLOPs和Parameters的同時(shí),只損失了較少的mAP值,在精度和速度之間達(dá)到了平衡。FasterNet相比MobileNetV3,雖然GFLOPs較高,但是其結(jié)構(gòu)中的PConv相比于DWConv極大地降低了內(nèi)存訪問數(shù)量,對空間特征的提取更為有效。所以,本文在輕量化主干網(wǎng)絡(luò)的選擇上選取多方面都優(yōu)于ShuffleNetV2和MobileNetV3的FasterNet模型。
2.4.3 "消融實(shí)驗(yàn)
為了驗(yàn)證每個(gè)新增模塊對于初始算法的有效性,本文進(jìn)行了一系列消融實(shí)驗(yàn)。首先用輕量化模塊FasterNet替換初始YOLOv5s的特征提取網(wǎng)絡(luò),接著,在FasterNet模塊后添加坐標(biāo)注意力機(jī)制,最后將YOLOv5s的最近鄰插值上采樣替換成CARAFE上采樣。實(shí)驗(yàn)結(jié)果如表3所示,這些實(shí)驗(yàn)結(jié)果驗(yàn)證了改進(jìn)策略的有效性。
從表3中實(shí)驗(yàn)結(jié)果可以得出,與初始的YOLOv5s算法相比,加入FasterNet對特征提取網(wǎng)絡(luò)進(jìn)行輕量化后,模型的參數(shù)量和復(fù)雜度都有顯著減少。雖然對主干網(wǎng)絡(luò)進(jìn)行輕量化改進(jìn)后,模型的檢測精度略微下降,但隨后引入CA注意力機(jī)制,在保持較少參數(shù)量的情況下,使檢測精度相較于初始YOLOv5s提升了1.9%。將這兩項(xiàng)改進(jìn)融合在一起,不僅可以顯著減小模型的參數(shù)量和復(fù)雜度,還可以確保檢測精度高于初始YOLOv5s算法。最后,通過采用輕量化上采樣CARAFE替代YOLOv5s的最近鄰插值上采樣,模型的檢測精度在改進(jìn)后的基礎(chǔ)上進(jìn)一步提高了0.3%。從消融實(shí)驗(yàn)的結(jié)果可以得出,本文改進(jìn)算法模型相比于初始的YOLOv5s模型在保證輕量化的同時(shí)可以提升模型的檢測精度。
根據(jù)每一輪的訓(xùn)練數(shù)據(jù)結(jié)果繪制平均精度的變化曲線,如圖8所示,每個(gè)模型的mAP分別使用不同的曲線來表示。從圖中可以看出,相較于初始的YOLOv5s算法,經(jīng)過改進(jìn)的算法mAP提高了2.2%,同時(shí)速度也提高了46.53%,具有良好的效果。
2.5 "與其他算法對比分析
為了進(jìn)一步驗(yàn)證改進(jìn)算法的魯棒性,將本文方法與Faster?RCNN、SSD、YOLOv5s、YOLOv7?tiny、YOLOv8n等主流方法進(jìn)行比較,在實(shí)驗(yàn)過程中保持相同的參數(shù)和條件,分別從mAP@0.5、GFLOPs和Parameters進(jìn)行比較,證明改進(jìn)后算法的優(yōu)越性。對比結(jié)果如表4所示。
從表4中可以得出,相比于其他的主流算法,F(xiàn)aster?RCNN的參數(shù)量較大,檢測速度較慢,無法滿足實(shí)時(shí)性的要求。SSD相比于Faster?RCNN在參數(shù)量和檢測速度等方面都得到了大幅度的提升,但在檢測精度方面仍然存在欠缺。相比于Faster?RCNN和SSD算法,YOLO系列算法具有更快的檢測速度和更高的檢測精度。本文在YOLO系列算法中選擇綜合性能較好的YOLOv5、YOLOv7和YOLOv8進(jìn)行對比實(shí)驗(yàn)。從實(shí)驗(yàn)數(shù)據(jù)可以得出,YOLOv5模型可以更好地?cái)M合木刻雕版的數(shù)據(jù),在保證模型參數(shù)量和檢測速度的同時(shí)具有較高的檢測精度。本文以YOLOv5s為基準(zhǔn)模型,改進(jìn)后的模型可以在提高檢測速度的同時(shí)繼續(xù)提高檢測精度,具有較好的實(shí)時(shí)性和魯棒性。
2.6 "檢測結(jié)果
為了更直觀地感受改進(jìn)后模型的效果,實(shí)驗(yàn)選取光線相對灰暗且色澤比較重的不同場景下的圖片進(jìn)行驗(yàn)證效果對比,如圖9所示。
改進(jìn)后的模型在真實(shí)木刻雕版測試數(shù)據(jù)上取得了良好的檢測性能,不僅在精度上有所提升,且能解決初始模型存在小目標(biāo)漏檢的情況。從圖9a)和圖9b)可以看出,在復(fù)雜場景中引入注意力機(jī)制和上采樣后,改進(jìn)后的模型可以檢測出木刻雕版圖像中的小藏文字符目標(biāo),同時(shí)能夠提高檢測精度。此外,從圖9c)和圖9d)可以看出,在簡單場景中,通過對初始模型的改進(jìn)可以提高目標(biāo)檢測的精準(zhǔn)度??偟膩碚f,對于初始YOLOv5s可能存在漏檢和不準(zhǔn)確定位的情況,改進(jìn)后的模型可以有效定位和檢測漏檢的部分,且模型的檢測精度提升顯著,有效驗(yàn)證了改進(jìn)模型的可行性。
3 "結(jié) "語
研究藏族木刻雕版不僅有助于深入了解藏族文化和藝術(shù),還能推動(dòng)藏族文化與其他文化的交流與融合。本文針對初始YOLOv5s算法在木刻雕版中存在漏檢、檢測精度低以及檢測速度慢等問題,提出了一種改進(jìn)算法,改進(jìn)后的模型在復(fù)雜度、檢測精度和檢測速度等多方面均優(yōu)于原模型。本文不僅為木刻雕版元素的自動(dòng)檢測提供了一種有效的解決方案,還為其他具有類似復(fù)雜紋理和邊緣的圖像檢測任務(wù)提供了新的思路和啟示。
總的來說,本文證明了改進(jìn)后的輕量級模型在保證實(shí)時(shí)性檢測的要求下可以提高木刻雕版的檢測精度,該模型可以很好地部署到嵌入式設(shè)備和移動(dòng)設(shè)備中。在后期的研究中,將進(jìn)一步擴(kuò)大數(shù)據(jù)集規(guī)模并優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),繼續(xù)提升木刻雕版元素的檢測精度和檢測速度。
注:本文通訊作者為趙啟軍。
參考文獻(xiàn)
[1] 蘇發(fā)祥.論木刻雕版印刷術(shù)在西藏的發(fā)展及其影響[J].中央民族大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2017,44(4):115?122.
[2] 黃騰騰,李英娜,王路路,等.基于改進(jìn)YOLOv7?tiny的變電站多分類缺陷檢測方法[J/OL].控制工程:1?9[2024?03?29].https://doi.org/10.14107/j.cnki.kzgc.20231014.
[3] 貫懷光,郭蓬,夏海鵬,等.基于InfluxDB的自動(dòng)駕駛智慧貨運(yùn)平臺的構(gòu)建及應(yīng)用[J].現(xiàn)代電子技術(shù),2023,46(9):131?135.
[4] 伍倩,崔煒榮,汪超,等.基于多模態(tài)生物特征識別的高校門禁系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].現(xiàn)代電子技術(shù),2024,47(2):37?43.
[5] 張波,蘭艷亭,李大威,等.基于卷積網(wǎng)絡(luò)通道注意力的人臉表情識別[J].無線電工程,2022,52(1):148?153.
[6] DALAL N, TRIGGS B. Histograms of oriented gradients for human detection [C]// 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2005: 886?893.
[7] SáNCHEZ A V D. Advanced support vector machines and kernel methods [J]. Neurocomputing, 2003, 55(1/2): 5?20.
[8] HE K M, ZHANG X Y, REN S Q, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition [J]. IEEE transactions on pattern analysis and machine intelligence, 2015, 37(9): 1904?1916.
[9] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2014: 580?587.
[10] LIU W, ANGUELOV D, ERHAN D, et al. SSD: Single shot MultiBox detector [EB/OL]. [2020?02?12]. http://arxiv.org/abs/1512.02325.
[11] REDMON J, DIVVALA S K, GIRSHICK R B, et al. You only look once: Unified, real?time object detection [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2016: 779?788.
[12] CHEN J, KAO S, HE H, et al. Run, don′t walk: Chasing higher FLOPS for faster neural networks [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2023: 12021?12031.
[13] HOU Q B, ZHOU D Q, FENG J S. Coordinate attention for efficient mobile network design [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2021: 13713?13722.
[14] WANG J, CHEN K, XU R, et al. CARAFE: Content?aware reassembly of features [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. New York: IEEE, 2019: 3007?3016.
[15] WANG C Y, LIAO H Y M, WU Y H, et al. CSPNet: A new backbone that can enhance learning capability of CNN [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. New York: IEEE, 2020: 1571?1580.
[16] LIN T Y, DOLLáR P, GIRSHICK R B, et al. Feature pyramid networks for object detection [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2017: 936?944.
[17] LIU S, QI L, QIN H F, et al. Path aggregation network for instance segmentation [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2018: 8759?8768.
[18] 張新偉,陳東,閆昊,等.基于改進(jìn)YOLOv5算法的密集遮擋零件檢測[J].工具技術(shù),2023,57(10):150?155.
[19] 鄧佳麗,龔海剛,劉明.基于目標(biāo)檢測的醫(yī)學(xué)影像分割算法[J].電子科技大學(xué)學(xué)報(bào),2023,52(2):254?262.
作者簡介:楊 "欣(1998—),男,陜西眉縣人,碩士研究生,主要研究方向?yàn)橛?jì)算機(jī)視覺。
才讓先木(1996—),男,甘肅甘南人,碩士研究生,講師,主要研究方向?yàn)橛?jì)算機(jī)視覺。
高定國(1972—),男,四川阿壩人,碩士研究生,教授,主要研究方向?yàn)椴匚淖匀徽Z言處理、計(jì)算機(jī)算法。
夏建軍(1989—),男,湖南邵陽人,博士研究生,主要研究方向?yàn)槎嗄B(tài)機(jī)器學(xué)習(xí)。
普布旦增(1982—),男,西藏白朗人,碩士研究生,高級實(shí)驗(yàn)師,主要研究方向?yàn)樽匀徽Z言處理、模式識別。
趙啟軍(1980—),男,江蘇鹽城人,博士研究生,教授,主要研究方向?yàn)閳D像處理、模式識別、計(jì)算機(jī)視覺和生物特征識別。