• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于改進(jìn)YOLOv5網(wǎng)絡(luò)的內(nèi)窺鏡息肉檢測(cè)

      2022-05-30 16:28:17司丙奇王志武姜萍萍顏國(guó)正
      中國(guó)新通信 2022年11期
      關(guān)鍵詞:注意力機(jī)制目標(biāo)檢測(cè)

      司丙奇 王志武 姜萍萍 顏國(guó)正

      摘要:結(jié)直腸癌是常見(jiàn)的惡性腫瘤,定期進(jìn)行內(nèi)窺鏡診斷發(fā)現(xiàn)并及時(shí)切除癌前息肉,可顯著降低患者死亡率。目標(biāo)檢測(cè)算法能夠提高內(nèi)窺鏡檢查的臨床表現(xiàn)。本文通過(guò)標(biāo)注臨床病例的鏡檢圖像和收集公開的息肉圖像數(shù)據(jù),建立了包含多來(lái)源、多中心的胃腸道內(nèi)窺鏡息肉數(shù)據(jù)集。接著,基于YOLOv5算法,利用注意力機(jī)制重構(gòu)了特征提取網(wǎng)絡(luò)的C3模塊,提出了三種改進(jìn)模型。為驗(yàn)證改進(jìn)的檢測(cè)效果,對(duì)多種目標(biāo)檢測(cè)算法在自建的息肉數(shù)據(jù)集上進(jìn)行了對(duì)比實(shí)驗(yàn)。測(cè)試結(jié)果表明,改進(jìn)模型SE-YOLOv5的準(zhǔn)確率為94.7%、召回率為79.5% ,相比YOLOv5算法分別提升了0.6%、2.8%;模型的平均預(yù)測(cè)速度為50FPS,達(dá)到了實(shí)時(shí)檢測(cè)的水平,研究對(duì)于開發(fā)計(jì)算機(jī)輔助診斷系統(tǒng)具有技術(shù)參考價(jià)值。

      關(guān)鍵詞:目標(biāo)檢測(cè);息肉數(shù)據(jù)集;息肉識(shí)別;注意力機(jī)制; YOLOv5

      2020年新增確診的結(jié)直腸癌病例約193萬(wàn),占所有新增確診病例的10.0%,僅次于乳腺癌(11.7%)和肺癌(11.4%);結(jié)直腸癌患者的死亡率為51%,占癌癥總死亡人數(shù)的9.4%;總體而言,結(jié)直腸癌在發(fā)病率方面排名第三,但在死亡率方面排名第二[1-2]。

      結(jié)直腸鏡檢是當(dāng)前最主要的CRC檢測(cè)篩查手段,能夠檢測(cè)并移除病變。但是,檢測(cè)效果受多種因素的制約,比如患者前期的腸道準(zhǔn)備、腸道內(nèi)的息肉數(shù)量與所在部位;此外,鏡檢過(guò)程需要內(nèi)鏡醫(yī)師保持注意力高度集中的狀態(tài),過(guò)度疲勞將導(dǎo)致更高的誤診率與漏診率。

      為了應(yīng)對(duì)這些困難,研究人員開發(fā)了計(jì)算機(jī)輔助診斷(Computer-aided Diagnostic, CAD)系統(tǒng)。文獻(xiàn)[3]提出了ColonSegNet網(wǎng)絡(luò)模型,預(yù)測(cè)結(jié)果平均準(zhǔn)確率80.0%,平均交并比(IoU)為81.0%,在檢測(cè)速度與預(yù)測(cè)精度間實(shí)現(xiàn)了更好的平衡。文獻(xiàn)[4]中基于深度學(xué)習(xí)算法DenseNet-201開發(fā)了CAD系統(tǒng),對(duì)NBI結(jié)腸息肉圖像準(zhǔn)確預(yù)測(cè)結(jié)直腸息肉組織,診斷性能與內(nèi)窺鏡檢查專家相當(dāng)。文獻(xiàn)[5]提出了一種輕量級(jí)的無(wú)anchor的卷積神經(jīng)網(wǎng)絡(luò)(CNN)結(jié)構(gòu),使用緊湊的堆疊沙漏網(wǎng)絡(luò),在ATLAS Dione和Endovis Challenge數(shù)據(jù)集上分別以37.0FPS的速度獲得了98.5%的mAP和100%的mAP,實(shí)現(xiàn)了RAS視頻中手術(shù)器械的實(shí)時(shí)檢測(cè)。文獻(xiàn)[6]提出了一個(gè)將Faster RCNN與Inception Resnet相結(jié)合的深度學(xué)習(xí)模型,在2015 MICCAI數(shù)據(jù)集[7]上的檢測(cè)準(zhǔn)確率91.4%、召回率71.2%,但是每幀圖像的檢測(cè)處理時(shí)間約為0.39秒,不能滿足結(jié)腸鏡檢的實(shí)時(shí)性要求。

      受制于醫(yī)學(xué)倫理等因素的制約,目前公開的數(shù)據(jù)集較少且雜亂,部分公開的息肉圖像沒(méi)有經(jīng)過(guò)專業(yè)醫(yī)生的篩選和標(biāo)注處理,不具備使用價(jià)值。為了能夠保證深度學(xué)習(xí)模型網(wǎng)絡(luò)訓(xùn)練的質(zhì)量,本文自建具有去中心化、來(lái)源豐富的數(shù)據(jù)集,并提出了基于YOLOv5網(wǎng)絡(luò)的改進(jìn)模型SE-YOLOv5;與原模型相比,改進(jìn)模型具備實(shí)時(shí)檢測(cè)性能,檢測(cè)效果提升明顯。

      一、 改進(jìn)型YOLOv5算法

      (一) YOLOv5算法原理

      2020年,Utralytics團(tuán)隊(duì)提出YOLOv5,在精度和速度方面都優(yōu)于以往的所有版本。YOLOv5利用寬度、深度控制因子來(lái)調(diào)整骨干網(wǎng)絡(luò)的通道寬度和網(wǎng)絡(luò)深度,從而得到Y(jié)OLOv5s、YOLOv5m、YOLOv5l、YOLOv5x四個(gè)版本的模型,四個(gè)模型的參數(shù)量大小與檢測(cè)精度依次遞增。其中,YOLOv5s是結(jié)構(gòu)最簡(jiǎn)單的版本,檢測(cè)速度最快。

      本文主要實(shí)現(xiàn)病灶目標(biāo)的實(shí)時(shí)檢測(cè),更關(guān)注模型的檢測(cè)推理速度,選取YOLOv5s v5.0版本作為改進(jìn)的基礎(chǔ)模型。

      YOLOv5是由Backbone和Head兩部分構(gòu)成,如圖 1所示,Backbone是由Focus,CBS(Conv-Batch Normalization-SiLu),C3和SPP(Spatial Pyramid Pooling)模塊組成。Head是由PANet(Path Aggregation Network)和Detect兩個(gè)模塊組成。

      在Backbone部分,F(xiàn)ocus模塊包含四個(gè)平行的切片層來(lái)處理輸入圖像,在圖片進(jìn)入Backbone前,使用Focus模塊對(duì)圖片進(jìn)行切片操作,每隔一個(gè)像素點(diǎn)取出一個(gè)像素值,如圖2所示。切片操作后得到的四張子圖位置互補(bǔ),沒(méi)有信息丟失,將寬度、高度的信息包含在通道空間中,輸入通道擴(kuò)充4倍,最后通過(guò)卷積操作,得到無(wú)信息丟失的二倍下采樣特征圖,提升了處理速度。

      CBS模塊包含卷積層(Convolutional Layer)、BN層(Batch Normalization)、SiLu激活函數(shù)層。C3_n模塊包含CBS模塊、n個(gè)殘差連接單元(BottleNeck),參照CSPNet網(wǎng)絡(luò)結(jié)構(gòu)[8]將同一stage中基礎(chǔ)層的特征圖分成兩部分,跨階段使用拆分與合并策略,有效降低信息集成過(guò)程中重復(fù)的概率。YOLOv5針對(duì)CSPNet結(jié)構(gòu)加以改進(jìn),根據(jù)是否存在無(wú)殘差邊,設(shè)計(jì)兩種CSP模塊:CSP-False/True,通過(guò)shortcut的取值為False或True進(jìn)行選擇。

      加入的SPP模塊[9]主要包含三個(gè)最大池化層,三者在多個(gè)尺度上進(jìn)行池化操作,適用于處理不同的比例、大小和長(zhǎng)寬比的圖像數(shù)據(jù),可以大幅度提高感受野,提取出最重要的特征,同時(shí)有效降低了由于圖片伸縮操作導(dǎo)致信息失真的可能性。

      Head部分包含三個(gè)頭部分支,分別負(fù)責(zé)檢測(cè)大中小三個(gè)尺度的目標(biāo),預(yù)測(cè)信息包括對(duì)象坐標(biāo)、類別和置信度信息。檢測(cè)頭部對(duì)高層特征進(jìn)行上采樣操作,自上而下地傳遞給底層特征,實(shí)現(xiàn)了高層語(yǔ)義信息向底層的遷移;底層特征經(jīng)過(guò)stride為2的卷積與張量拼接操作,自下向上傳遞給高層特征,實(shí)現(xiàn)了底層強(qiáng)定位特征向高層的遷移,從而三個(gè)分支的特征信息相互融合,實(shí)現(xiàn)了PANet(Path Aggregation Network)[10]操作。

      (二)注意力機(jī)制模塊

      使用注意機(jī)制可以提高神經(jīng)網(wǎng)絡(luò)特征圖的表征能力,使得模型更加關(guān)注重要特征并抑制不必要的特征。

      1. CBAM模塊

      CBAM(Convolutional Block Attention Module)[11]是Sanghyun Woo等人在2018提出的一種簡(jiǎn)單而有效的前饋神經(jīng)網(wǎng)絡(luò)注意力機(jī)制模塊。如圖3所示在給定中間特征圖時(shí),CBAM模塊沿通道和空間兩個(gè)獨(dú)立的維度依次進(jìn)行注意力特征圖的推斷,然后將注意力特征圖與輸入特征圖相乘,以進(jìn)行特征圖微調(diào)。

      2. SE模塊

      3. ECA模塊

      (三)改進(jìn)的A-C3模塊

      二、實(shí)驗(yàn)及結(jié)果分析

      (一)實(shí)驗(yàn)環(huán)境

      所有模型的訓(xùn)練和測(cè)試任務(wù)均在一臺(tái)配置為Intel(R) Xeon(R) Platinum 8163@ 2.50GHz×12核CPU處理器和NVIDIA? Tesla V100 GPU的服務(wù)器上進(jìn)行。相關(guān)的硬件和參數(shù)配置如表2所示。

      (二)數(shù)據(jù)集

      1.數(shù)據(jù)集構(gòu)成

      在當(dāng)前的內(nèi)窺鏡病灶研究領(lǐng)域,有一些用于不同研究目的的公開數(shù)據(jù)集,例如用于內(nèi)窺鏡視覺(jué)挑戰(zhàn)賽子賽事胃腸圖像分析(GIANA)的MICCAI 2017[14],用于常規(guī)鏡檢的胃腸道病變數(shù)據(jù)集(GLRC)[15],CVC colon DB結(jié)腸鏡視頻數(shù)據(jù)集。此外,還有一些通用胃腸鏡檢的內(nèi)窺鏡大型數(shù)據(jù)集,如Hyper-Kvasir[16]、Kvasir-SEG[17]等。Hyper-Kvasir[16]是通用的消化道內(nèi)窺鏡數(shù)據(jù)集,涵蓋23種不同類別消化道病灶圖像和視頻,包括息肉、血管擴(kuò)張等。

      在收集的公開數(shù)據(jù)集基礎(chǔ)上,使用LabelImg軟件對(duì)Hyper-Kvasir數(shù)據(jù)集的息肉圖像中的目標(biāo)手動(dòng)標(biāo)注目標(biāo)框(ground truth box),自行制作的數(shù)據(jù)集作為補(bǔ)充,豐富了息肉檢測(cè)數(shù)據(jù)集多樣性。自建數(shù)據(jù)集包含165個(gè)息肉檢測(cè)視頻序列,合計(jì)37899張圖像。

      2. 數(shù)據(jù)集劃分

      對(duì)于普通的檢測(cè)目標(biāo),可以基于圖像進(jìn)行數(shù)據(jù)集劃分。如果按照這種方法劃分,同一個(gè)息肉目標(biāo)會(huì)同時(shí)包含在訓(xùn)練集、驗(yàn)證集和測(cè)試集中。由于模型在訓(xùn)練階段已經(jīng)學(xué)習(xí)了某息肉圖像的特征,將導(dǎo)致模型在測(cè)試時(shí)對(duì)該息肉目標(biāo)的檢測(cè)效果偏高。因此,需要按照視頻序列對(duì)數(shù)據(jù)集進(jìn)行劃分,分別隨機(jī)選擇 65%、20% 和15% 的視頻序列來(lái)形成訓(xùn)練、驗(yàn)證和測(cè)試集。對(duì)不同來(lái)源、不同類型的數(shù)據(jù)構(gòu)成的數(shù)據(jù)集進(jìn)行隨機(jī)劃分,起到了數(shù)據(jù)集去中心化[18]的效果,有效降低了由于數(shù)據(jù)的固有選擇造成的偏差。訓(xùn)練集、驗(yàn)證集、測(cè)試集的圖像數(shù)量分布如圖7所示:

      (三)模型評(píng)價(jià)指標(biāo)

      (四)實(shí)驗(yàn)結(jié)果及分析

      1.參數(shù)收斂情況

      本文將準(zhǔn)確率Precision、召回率Recall、AP@.5、AP@.5:.95指標(biāo)作為判別模型是否收斂的主要參數(shù)。各模型參數(shù)的變化情況如圖8所示。各參數(shù)均能夠隨訓(xùn)練迭代次數(shù)平穩(wěn)地收斂,各模型準(zhǔn)確率最終收斂在94.0%附近。其中,SE-YOLOv5的召回率、AP@.5、AP@.5:.95指標(biāo)均能達(dá)到最優(yōu)。

      2.不同網(wǎng)絡(luò)的對(duì)比實(shí)驗(yàn)

      為了直觀地體現(xiàn)改進(jìn)算法的性能優(yōu)勢(shì),將各改進(jìn)模型與YOLOX[19]、YOLOv5、Scaled-YOLOv4[20]、YOLOv3[21]、SSD[22]、Faster RCNN[23]、RetinaNet[24]幾種先進(jìn)的同類算法在測(cè)試集上進(jìn)行測(cè)試,各模型性能對(duì)比情況如表3所示。加粗字體為所有模型該項(xiàng)對(duì)應(yīng)的最優(yōu)指標(biāo)。從表中數(shù)據(jù)可知,SE-YOLOv5的檢測(cè)精度略低于CBAM-YOLOv5,但是其召回率(Recall)、AP@.5、AP@.5:.95指標(biāo)均達(dá)到或接近最優(yōu);scaled-YOLOv4的召回率、AP@.5、AP@.5:.95指標(biāo)與其接近,但是準(zhǔn)確度過(guò)低,而且模型復(fù)雜度過(guò)高。從檢測(cè)速度方面來(lái)看,SE-YOLOv5平均推理速度為50FPS,快于基礎(chǔ)模型YOLOv5,測(cè)試結(jié)果大于30FPS,能夠滿足對(duì)內(nèi)窺鏡視頻序列檢測(cè)的實(shí)時(shí)性要求。

      息肉檢測(cè)任務(wù)中,召回率直接反應(yīng)了病人漏診的情況,由于漏診的嚴(yán)重性,召回率成為最重要的評(píng)價(jià)指標(biāo)。綜合考慮檢測(cè)精度和速度,選取F2分?jǐn)?shù)最高的SE-YOLOv5模型作為最優(yōu)模型。實(shí)際檢測(cè)結(jié)果如圖9所示,表明在不同光照條件、噪聲干擾、不同角度的情況下,模型依然能夠取得良好的檢測(cè)效果。

      三、結(jié)束語(yǔ)

      本文以內(nèi)窺鏡圖像中的息肉病灶檢測(cè)為研究目標(biāo),通過(guò)收集公開數(shù)據(jù)集與自行標(biāo)注,建立了用于訓(xùn)練與檢測(cè)任務(wù)的息肉數(shù)據(jù)集;基于YOLOv5算法,使用SE注意力機(jī)制重構(gòu)了原C3模塊,獲得改進(jìn)模型SE-YOLOv5。

      與原模型相比,改進(jìn)模型在不明顯增加計(jì)算復(fù)雜度的情況提升了模型的檢測(cè)性能,并且優(yōu)于其他同類型的優(yōu)秀檢測(cè)算法,實(shí)現(xiàn)了針對(duì)內(nèi)窺鏡圖像病灶的實(shí)時(shí)檢測(cè)。

      臨床診斷需要檢查多種異常病變,如潰瘍、出血、炎癥和血管疾病等,而公開數(shù)據(jù)集雜亂且匱乏,需要收集與制作更多類別的胃腸道內(nèi)窺鏡病灶數(shù)據(jù)集。另外,當(dāng)前所有模型都是在性能優(yōu)秀的服務(wù)器上完成訓(xùn)練與測(cè)試任務(wù)的,對(duì)硬件配置要求較高。為了能夠順利地部署在嵌入式系統(tǒng)上,需要壓縮檢測(cè)模型的尺寸以減少參數(shù)量。因此,建立包含更多病灶類別的數(shù)據(jù)集與模型小型化將是下一步的研究?jī)?nèi)容。

      作者單位:司丙奇? ? 王志武? ? 姜萍萍? ? 顏國(guó)正? ? 上海交通大學(xué) 電子信息與電氣工程學(xué)院? ? 上海智慧戒毒與康復(fù)工程技術(shù)研究中心

      參? 考? 文? 獻(xiàn)

      [1] SUNG H, FERLAY J, SIEGEL R L, et al. Global cancer statistics 2020: GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries[J]. CA: a cancer journal for clinicians, 2021, 71(3): 209-249.

      [2] VANESSA B ,? KAREN S . Colorectal cancer development and advances in screening[J]. Clinical Interventions in Aging, 2016, Volume 11:967-976.

      [3] JHA D, ALI S, TOMAR N K, et al. Real-time polyp detection, localization and segmentation in colonoscopy using deep learning[J]. IEEE Access, 2021, 9: 40496-40510.

      [4] Song E M ,? Park B ,? CA? Ha, et al. Endoscopic diagnosis and treatment planning for colorectal polyps using a deep-learning model[J]. Scientific Reports, 2020, 10(1):30.

      [5] LIU Y, ZHAO Z, CHANG F, et al. An anchor-free convolutional neural network for real-time surgical tool detection in robot-assisted surgery[J]. IEEE Access, 2020, 8: 78193-78201.

      [6] Shin Y ,? Qadir H A ,? Aabakken L , et al. Automatic Colon Polyp Detection using Region based Deep CNN and Post Learning Approaches[J].? 2019.

      [7] BERNAL J, TAJKBAKSH N, SANCHEZ F J, et al. Comparative validation of polyp detection methods in video colonoscopy: results from the MICCAI 2015 endoscopic vision challenge[J]. IEEE transactions on medical imaging, 2017, 36(6): 1231-1249.

      [8] WANG C Y ,? LIAO H ,? WU Y H , et al. CSPNet: A New Backbone that can Enhance Learning Capability of CNN[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). IEEE, 2020.

      [9] HE K ,? ZHANG X ,? REN S , et al. Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition[J]. Pattern Analysis & Machine Intelligence IEEE Transactions on, 2015, 37(9):1904-1916.

      [10] LIU S ,? QI L ,? QIN H , et al. Path Aggregation Network for Instance Segmentation[J]. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2018.

      [11] WOO S, PARK J, LEE J Y, et al. Cbam: Convolutional block attention module[C]//Proceedings of the European conference on computer vision (ECCV). 2018: 3-19.

      [12] HU Jie,? Li Shen ,? SUN Gang, et al. Squeeze-and-Excitation Networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, PP(99).

      [13] WANG Q ,? WU B ,? ZHU P , et al. ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2020.

      [14] BERNAL J ,? TAJBAKHSH N ,? SANCHEZ F J , et al. Comparative Validation of Polyp Detection Methods in Video Colonoscopy: Results from the MICCAI 2015 Endoscopic Vision Challenge[J]. IEEE Transactions on Medical Imaging, 2017, 36(6):1231-1249.

      [15] MESEJO P ,? PIZARRO D ,? ABERGEL A , et al. Computer-Aided Classification of Gastrointestinal Lesions in Regular Colonoscopy[J]. IEEE Transactions on Medical Imaging, 2016, 35(9):2051.

      [16]BORGLI H, THAMBAWITA V, et al. HyperKvasir, a comprehensive multi-class image and video dataset for gastrointestinal endoscopy[J]. Scientific data, 2020, 7(1): 1-14.

      [17] JHA D, SMEDSRUD P H, RIEGLER M A, et al. Kvasir-seg: A segmented polyp dataset[C]//International Conference on Multimedia Modeling. Springer, Cham, 2020: 451-462.

      [18] YANG Y J. The future of capsule endoscopy: The role of artificial intelligence and other technical advancements[J]. Clinical Endoscopy, 2020, 53(4): 387.

      [19] GE Z ,? LIU S ,? WANG F , et al. YOLOX: Exceeding YOLO Series in 2021[J].? 2021.

      [20] WANG C Y ,? BOCHKOCHKOVSKIY A ,? LIAO H Y M . Scaled-YOLOv4: Scaling Cross Stage Partial Network[C]// 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2021.

      [21] REDMON J ,? FARHADI A . YOLOv3: An Incremental Improvement[J]. arXiv e-prints, 2018.

      [22] LIU W ,? ANGUELOV D ,? ERHAN D , et al. SSD: Single Shot MultiBox Detector[J].? 2015.

      [23] REN S ,? HE K ,? GIRSHICK R , et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(6):1137-1149.

      [24] LIN T Y ,? GOYAL P ,? GIRSHICK R , et al. Focal Loss for Dense Object Detection[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, PP(99):2999-3007.

      猜你喜歡
      注意力機(jī)制目標(biāo)檢測(cè)
      基于深度學(xué)習(xí)的問(wèn)題回答技術(shù)研究
      基于LSTM?Attention神經(jīng)網(wǎng)絡(luò)的文本特征提取方法
      基于注意力機(jī)制的雙向LSTM模型在中文商品評(píng)論情感分類中的研究
      軟件工程(2017年11期)2018-01-05 08:06:09
      InsunKBQA:一個(gè)基于知識(shí)庫(kù)的問(wèn)答系統(tǒng)
      視頻中目標(biāo)檢測(cè)算法研究
      軟件(2016年4期)2017-01-20 09:38:03
      行為識(shí)別中的人體運(yùn)動(dòng)目標(biāo)檢測(cè)方法
      移動(dòng)機(jī)器人圖像目標(biāo)識(shí)別
      基于P3電位的目標(biāo)檢測(cè)研究
      科技視界(2016年4期)2016-02-22 13:09:19
      临潭县| 革吉县| 浦东新区| 姚安县| 元阳县| 城市| 望都县| 土默特右旗| 修文县| 沂水县| 金塔县| 鄄城县| 廉江市| 绵阳市| 若羌县| 石首市| 枣强县| 西昌市| 吉林省| 麻栗坡县| 抚顺县| 汉沽区| 蒙城县| 洱源县| 乐陵市| 安新县| 沭阳县| 周宁县| 甘洛县| 华容县| 华阴市| 诏安县| 奎屯市| 邵武市| 镇平县| 万宁市| 大庆市| 道孚县| 宁安市| 汤原县| 汝城县|