周 濤, 杜玉虎, 石道宗, 彭彩月, 陸惠玲
(1. 北方民族大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,寧夏 銀川 750021;2. 北方民族大學(xué) 圖像圖形智能處理國(guó)家民委重點(diǎn)實(shí)驗(yàn)室,寧夏 銀川 750021;3. 寧夏醫(yī)科大學(xué) 醫(yī)學(xué)信息與工程學(xué)院,寧夏 銀川 750004)
下頜骨由于特殊的生理結(jié)構(gòu),位于頜面部較為突出的位置,存在明顯的解剖結(jié)構(gòu)薄弱區(qū)域,在受到外力撞擊時(shí)極易骨折。準(zhǔn)確及時(shí)地確定下頜骨的骨折部位能夠給予醫(yī)生充足的參考信息,根據(jù)不同的骨折部位采取合適的治療手段,避免術(shù)后下頜功能障礙、咬合關(guān)系錯(cuò)亂等問(wèn)題,影響患者的生活質(zhì)量[1]。當(dāng)骨折程度較為嚴(yán)重時(shí),骨折區(qū)域會(huì)出現(xiàn)骨頭嵌插、壓縮等情況,造成局部的密度增高,下頜中容易發(fā)生骨折的部位是正中聯(lián)合部、頦孔區(qū)、下頜角部位以及髁突頸部,不同的骨折部位表現(xiàn)出來(lái)的癥狀不相同,在CT影像中的表現(xiàn)也不盡相同。在下頜骨骨折CT 影像中,骨折部位的影像容易受到其余部位例如牙齒等部位的干擾,因?yàn)樵贑T 影像中牙齒部位與骨骼部位均為白影,表示它們對(duì)X 射線的吸收程度較高,而黑影表示對(duì)于X 射線吸收程度較低的肌肉部位[2]。通常情況下,下頜骨的骨折伴隨著或多或少的出血,出血部位對(duì)于X 射線的吸收程度也較高。因此,由于出血情況以及其余部位的干擾,下頜骨骨折CT 影像的人工閱片難度較大,通過(guò)人工智能的方法來(lái)輔助醫(yī)生進(jìn)行下頜骨骨折部位的診斷具有重要的意義。
目前,人們開展了大量針對(duì)人體骨折部位檢測(cè)的研究。Meng 等[3]提出了一種用于肋骨骨折檢測(cè)和分類的異構(gòu)神經(jīng)網(wǎng)絡(luò),由級(jí)聯(lián)特征金字塔網(wǎng)絡(luò)和分類網(wǎng)絡(luò)組成,用來(lái)輔助放射科醫(yī)生在CT 圖像上診斷和分類肋骨骨折。Zhou 等[4]基于跨模態(tài)數(shù)據(jù)(臨床信息和CT 圖像)進(jìn)行肋骨骨折的自動(dòng)檢測(cè)和分類。應(yīng)用基于快速區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)(Fast Region Convolutional Neural Network, Faster R-CNN)整合CT 圖像和臨床信息并使用結(jié)果合并技術(shù)將2D 推斷轉(zhuǎn)換為3D 損傷結(jié)果。Xue 等[5]采用GA_Faster R-CNN 進(jìn)行手部骨折的檢測(cè)與定位,提出新的引導(dǎo)錨定方法使錨框生成更加準(zhǔn)確和高效,大大提高了網(wǎng)絡(luò)性能,并節(jié)約了計(jì)算量,同時(shí)采用平衡L1 損失來(lái)適應(yīng)學(xué)習(xí)任務(wù)的不平衡。Kitamura 等[6]通過(guò)小樣本、從頭訓(xùn)練和多視圖合并集成的卷積神經(jīng)網(wǎng)絡(luò)來(lái)檢測(cè)踝關(guān)節(jié)骨折。Gao 等[7]提出一種使用對(duì)側(cè)、上下文和邊緣增強(qiáng)模塊的肋骨骨折診斷深度學(xué)習(xí)方法CCE-Net,使用多徑融合機(jī)制作為主要架構(gòu)來(lái)集成對(duì)側(cè)、上下文和邊緣增強(qiáng)模塊所獲得的特征信息。Liu 等[8]采用Faster-RCNN 輔助診斷股骨轉(zhuǎn)子間骨折,同時(shí)對(duì)比了骨科主治醫(yī)師與人工智能的相關(guān)檢測(cè)準(zhǔn)確率、召回率等,指出人工智能診斷算法是一種有效的臨床診斷方法,可作為骨科醫(yī)師滿意的臨床助手。武等[9]基于胸部X 光影像采用YOLOv3 網(wǎng)絡(luò)進(jìn)行肋骨骨折的檢測(cè),證明了CNN 可以提高肋骨骨折的檢出率,有助于減少漏診,避免醫(yī)療事故,減輕放射科醫(yī)生的工作量。Warin 等[10]采用Faster RCNN 和YOLOv5 來(lái)檢測(cè)下頜骨骨折的X 光影像,同時(shí)對(duì)比了這兩種網(wǎng)絡(luò)與口腔頜面外科醫(yī)生在下頜骨骨折判斷方面的準(zhǔn)確率,檢測(cè)網(wǎng)絡(luò)實(shí)現(xiàn)了較好的下頜骨骨折分類性能。Wang 等采用U-Net 和ResNet 進(jìn)行骨折CT 影像的分類,首先利用U-Net 對(duì)CT 影像中的具體下頜骨部位進(jìn)行分割,然后采用ResNet 對(duì)分割后的部位進(jìn)行具體分類,利用分類后的結(jié)果輔助醫(yī)生對(duì)下頜骨骨折的診斷[11]。Vinayahalingam 等利用Faster R-CNN 和Swin-Transformer 網(wǎng)絡(luò)對(duì)下頜骨部位口腔全景X 光進(jìn)行骨折部位的檢測(cè),利用Swin-Transformer 作為主干特征提取網(wǎng)絡(luò),檢測(cè)頭部分仍采用Faster R-CNN 的檢測(cè)頭,利用Transformer 的自注意力機(jī)制進(jìn)行較好的特征提?。?2]。Son 等在口腔全景X 光上利用YOLOv4 網(wǎng)絡(luò)進(jìn)行下頜骨骨折的檢測(cè),對(duì)輸入到網(wǎng)絡(luò)中的CT 影像進(jìn)行單尺度亮度自適應(yīng)變換和多尺度亮度自適應(yīng)變換以增強(qiáng)圖像的對(duì)比度[13]。
上述研究表明,采用人工智能的方法輔助骨折部位的檢測(cè)具有較好的應(yīng)用前景,能夠給予醫(yī)生充分的治療參考信息?,F(xiàn)有研究采用的檢測(cè)網(wǎng)絡(luò)多為通用網(wǎng)絡(luò)結(jié)構(gòu),未針對(duì)于具體數(shù)據(jù)集進(jìn)行特征提取網(wǎng)絡(luò)的設(shè)計(jì),對(duì)于骨折部位的關(guān)注程度不夠充分。由于骨折部位大小不一、形狀各異,同時(shí)受到出血以及其他未骨折部位的影響,當(dāng)前相關(guān)骨折檢測(cè)方法在進(jìn)行影像特征提取時(shí)未考慮影像的全局特征表示,未提取相應(yīng)的多尺度信息,不同尺度的特征圖在進(jìn)行特征融合時(shí)無(wú)法權(quán)衡其重要程度,特征圖的通道維度、高度和寬度這三者之間未進(jìn)行交互,缺乏必要信息的融合,存在檢測(cè)精度不高的問(wèn)題。
本文提出了一種下頜骨骨折檢測(cè)網(wǎng)絡(luò)3MYOLOv5,特征提取網(wǎng)絡(luò)中采用密集模塊進(jìn)行改進(jìn),引入密集連接思想,利用密集連接神經(jīng)網(wǎng)絡(luò)的特性增強(qiáng)網(wǎng)絡(luò)的特征提取能力;在特征提取網(wǎng)絡(luò)的開始階段采用局部全局注意力模塊(local and global attention Module, lgaM)來(lái)提取下頜骨CT 影像的局部全局特征;在密集塊結(jié)構(gòu)中引入輕量化多尺度的思想,更好地提取CT 影像的多尺度特征,關(guān)注到不同大小的骨折區(qū)域;設(shè)計(jì)了跨維度雙向融合模塊(cross dimension bidirectional fusion Module, cdbfM),利用跨維度注意力使得網(wǎng)絡(luò)能夠關(guān)注特征圖的高、寬以及通道之間的相互關(guān)系,使得不同體位的CT 影像特征互補(bǔ),提升網(wǎng)絡(luò)性能。
在提取CT 影像特征時(shí),通常利用卷積操作捕獲局部信息,但是隨著網(wǎng)絡(luò)層數(shù)的加深,淺層網(wǎng)絡(luò)的特征無(wú)法傳遞到深層網(wǎng)絡(luò)中,導(dǎo)致深層網(wǎng)絡(luò)無(wú)法獲得邊緣、形狀和紋理等信息。密集連接神經(jīng)網(wǎng)絡(luò)通過(guò)構(gòu)建當(dāng)前層和后續(xù)其他層的密集連接,將淺層網(wǎng)絡(luò)所提取的特征傳遞到深層網(wǎng)絡(luò)中,能夠?qū)崿F(xiàn)信息的跨層傳遞[14]。因此,本文采用密集連接神經(jīng)網(wǎng)絡(luò)作為主要的特征提取網(wǎng)絡(luò),基于YOLOv5_s 網(wǎng)絡(luò)提出了一種下頜骨骨折檢測(cè)網(wǎng)絡(luò)3M-YOLOv5,其詳細(xì)結(jié)構(gòu)如圖1 所示。3M-YOLOv5 網(wǎng)絡(luò)主要包括特征提取網(wǎng)絡(luò)、cdbfM 模塊以及YOLO 檢測(cè)頭部分。特征提取網(wǎng)絡(luò)主要包括Stage 0 到Stage 3 等4 個(gè)階段,其中Stage 0 為預(yù)處理階段,提取CT 影像的局部全局特征,Stage 1 到Stage 3 為重復(fù)堆疊的密集模塊,分別重復(fù)堆疊6,12,24 次。每個(gè)Stage 的密集模塊之后通過(guò)池化操作對(duì)特征圖進(jìn)行下采樣,3 種不同尺度的特征圖由此引出到cdbfM 中進(jìn)行特征增強(qiáng)。cdbfM 包括跨維度注意力模塊(Cross Dimension Attention Module,CDA)以及雙向特征融合模塊(Bidirectional Feature Fusion Module, BFF)。特征增強(qiáng)后的特征圖輸入到Y(jié)OLO 檢測(cè)頭部分進(jìn)行骨折部位的檢測(cè),3 個(gè)檢測(cè)頭從上至下分別負(fù)責(zé)檢測(cè)較大的骨折區(qū)域、中等大小的骨折區(qū)域以及較小的骨折區(qū)域。
圖1 3M-YOLOv5 網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Structure of 3M-YOLOv5 network
特征提取網(wǎng)絡(luò)在Densenet121 網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行改進(jìn)。Densenet121 網(wǎng)絡(luò)中有4 個(gè)重復(fù)堆疊的密集塊結(jié)構(gòu)以及3 個(gè)過(guò)渡層結(jié)構(gòu),原始網(wǎng)絡(luò)中密集塊的堆疊次數(shù)分別為6,12,24 和16 次,考慮到Y(jié)OLOv5 網(wǎng)絡(luò)在3 個(gè)不同尺度的特征圖上進(jìn)行目標(biāo)檢測(cè),在網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)時(shí)保留了Densenet121 網(wǎng)絡(luò)的前3 個(gè)密集塊以及過(guò)渡層結(jié)構(gòu)作為特征提取網(wǎng)絡(luò)。過(guò)渡層通過(guò)池化操作對(duì)特征圖進(jìn)行下采樣,分別在3 個(gè)過(guò)渡層結(jié)構(gòu)中引出不同尺度的特征圖進(jìn)行特征增強(qiáng)。輸入的CT影像首先經(jīng)過(guò)lgaM 獲得全局信息,然后輸入到重復(fù)堆疊的密集塊結(jié)構(gòu)中進(jìn)行特征提取,最后在3 個(gè)過(guò)渡層結(jié)構(gòu)中分別輸出尺寸為80×80,40×40 和20×20 的特征圖,并輸入到特征增強(qiáng)網(wǎng)絡(luò)中進(jìn)行特征增強(qiáng)。
2.1.1 局部全局注意力模塊
在進(jìn)行骨折部位檢測(cè)時(shí),全局信息很重要。骨折部位約占整個(gè)CT 影像的三分之一,下頜骨的骨折部位在CT 影像中的位置信息可以通過(guò)提取全局特征來(lái)獲得,通過(guò)局部全局信息的相結(jié)合提高網(wǎng)絡(luò)的表征能力。利用Transformer 結(jié)構(gòu)可以獲得影像的全局特征,在先前的Transformer應(yīng)用中,采用Self-Attention 來(lái)計(jì)算當(dāng)前像素值與其他所有像素值的相關(guān)性,這種操作的計(jì)算量以及參數(shù)量較大,而在圖像特征提取時(shí),相鄰像素間的差距并不是很大,像素所代表的信息相似[15]。因此,本文在特征提取網(wǎng)絡(luò)的第一個(gè)階段引入lgaM,其結(jié)構(gòu)如圖1 所示,通過(guò)在每一個(gè)patch 內(nèi)計(jì)算Self-Attention 來(lái)減少參數(shù)量,通過(guò)卷積操作和Transformer 結(jié)構(gòu)增強(qiáng)網(wǎng)絡(luò)的特征提取能力,獲得骨折部位的全局信息。lgaM 主要包括局部表示模塊、全局表示模塊以及融合模塊3部分。首先,使用一個(gè)卷積核尺寸為3×3 的卷積層來(lái)提取CT 影像的局部特征,然后通過(guò)一個(gè)卷積核尺寸為1×1 的卷積層調(diào)整通道數(shù)。接著,通過(guò)全局表示模塊來(lái)提取全局特征,全局表示模塊包括Unfold,Transformer 和Fold 3 部分,然后再通過(guò)一個(gè)卷積核尺寸為1×1 的卷積層調(diào)整通道數(shù)。最后,通過(guò)殘差連接將全局建模后的特征圖與最初輸入的特征圖在通道方向上進(jìn)行拼接操作,拼接后的特征圖通過(guò)一個(gè)卷積核尺寸為3×3的卷積層做特征融合得到輸出。Unfold,Transformer 和Fold 這3 部分是lgaM 的關(guān)鍵部分。假設(shè)輸入全局表示模塊的特征圖尺寸為H×W×d,首先將特征圖進(jìn)行patch 劃分,每個(gè)patch 的H和W都為2。
如圖2 所示,Unfold 操作按照每個(gè)patch 中相對(duì)位置相同的像素進(jìn)行展開,展開后的特征圖通過(guò)Transformer 部分進(jìn)行自注意力計(jì)算,在每一個(gè)片狀特征圖內(nèi)分別計(jì)算自注意力,這種操作能夠極大地減少參數(shù)量。Fold 操作在自注意力計(jì)算完成之后將特征圖按照相對(duì)位置“折疊”回原來(lái)的形狀。自注意力的計(jì)算公式為:
圖2 Unfold 以及Fold 操作Fig.2 Unfold and Fold operations
假設(shè)有輸入特征圖矩陣a,將節(jié)點(diǎn)分別經(jīng)過(guò)可訓(xùn)練的共享矩陣Wq,Wk,Wv變換后得到對(duì)應(yīng)的Q,K,V。Q,K,V矩陣為:
將矩陣Q,K中的值進(jìn)行點(diǎn)乘操作獲得兩者的相關(guān)性,點(diǎn)乘結(jié)果越大,矩陣V的值越大。點(diǎn)乘后的結(jié)果除以后經(jīng)過(guò)Softmax 函數(shù)處理,其中dk為向量k的維度,處理后的結(jié)果與V進(jìn)行矩陣相乘即得到自注意力機(jī)制的計(jì)算值。
2.1.2 輕量化多尺度密集模塊
在基本的密集塊結(jié)構(gòu)中,網(wǎng)絡(luò)的淺層特征通過(guò)跳躍連接向深層網(wǎng)絡(luò)傳遞特征,這種特征傳遞的機(jī)制能夠?qū)\層的特征圖信息傳遞到深層網(wǎng)絡(luò)中,有效地防止梯度消失,使得深層網(wǎng)絡(luò)也能夠獲得較強(qiáng)的紋理、邊緣等信息。密集塊結(jié)構(gòu)中通過(guò)堆疊多個(gè)卷積層來(lái)進(jìn)行特征提取,在多次重復(fù)堆疊密集塊結(jié)構(gòu)后,網(wǎng)絡(luò)的參數(shù)量大增,導(dǎo)致整體網(wǎng)絡(luò)的參數(shù)量以及訓(xùn)練時(shí)間增大。在進(jìn)行特征提取時(shí),普通卷積操作獲得的特征圖信息存在較多的冗余,所包含的信息差別較小,對(duì)于骨折部位的檢測(cè)貢獻(xiàn)較小,這些差異較小的特征圖并不需要通過(guò)卷積操作來(lái)獲取,可以通過(guò)簡(jiǎn)單的線性操作來(lái)代替,從而減小網(wǎng)絡(luò)的計(jì)算量[16]。因此,考慮采用Ghost 卷積模塊來(lái)替換原始密集塊結(jié)構(gòu)中的1×1 普通卷積,該模塊在減少網(wǎng)絡(luò)參數(shù)量的同時(shí)能夠獲得相同數(shù)量的特征圖,降低了網(wǎng)絡(luò)的復(fù)雜度。
Ghost 卷積模塊是一種輕量化的卷積操作,是GhostNet 的主要部分,它可以以較少的參數(shù)量來(lái)生成同樣通道數(shù)量的特征圖。如圖3 所示,Ghost 卷積模塊的操作主要分為兩步:第一步使用普通的卷積操作壓縮特征圖的通道數(shù),通過(guò)普通卷積調(diào)整輸入特征圖的通道數(shù),這里設(shè)置該操作的卷積核個(gè)數(shù)為輸入通道數(shù)的一半,此時(shí)由于通道數(shù)的減少,模塊的計(jì)算量也隨之減少,將輸入特征圖進(jìn)行信息整合;第二步,對(duì)通道數(shù)壓縮后的特征圖進(jìn)行逐通道方向的卷積操作,該操作與深度可分離卷積中的第一步操作相同,通過(guò)f1~fn操作分別對(duì)第一步所得到的特征圖做逐通道卷積;最后,將第一步與第二步操作得到的特征圖在通道方向進(jìn)行拼接,得到最終處理的特征圖。
圖3 Ghost 卷積模塊Fig.3 Ghost convolution module
同樣生成N個(gè)特征圖,假設(shè)輸入特征圖通道數(shù)為C,普通卷積的卷積核尺寸為K,Ghost 卷積中第一次卷積生成的特征圖個(gè)數(shù)為M,第二次逐通道卷積生成S個(gè)特征圖,D為逐通道卷積的卷積核尺寸,最終輸出N=M×S個(gè)特征圖。則普通卷積的參數(shù)量為:
Ghost 卷積第一次卷積的參數(shù)量為:
第二次逐通道卷積的參數(shù)量為:
兩者的參數(shù)比為:
由此可見,使用Ghost 卷積的參數(shù)量約為普通卷積的1/S。在密集塊結(jié)構(gòu)中引入Ghost 卷積來(lái)替換原始的1×1 普通卷積,能夠在減少參數(shù)量的同時(shí)獲得數(shù)量不變的特征圖。為了便于將模塊引入到密集塊結(jié)構(gòu)中,第一步普通卷積操作中卷積核的個(gè)數(shù)以及第二步逐通道卷積操作中卷積核的個(gè)數(shù)均設(shè)為輸入特征圖通道數(shù)的一半。通過(guò)控制卷積核的個(gè)數(shù)確保輸入輸出特征圖的尺寸不變,可以將Ghost 模塊直接引入到密集塊結(jié)構(gòu)中。
本文采用的數(shù)據(jù)集中有3 種不同體位的下頜骨CT 影像,分別是冠狀位、矢狀位和軸狀位。不同體位甚至是同一體位的骨折部位影像尺寸不同,采用同樣尺寸的卷積核進(jìn)行特征提取時(shí)獲得的局部特征感受野有限,而在進(jìn)行特征提取時(shí)關(guān)注多尺度特征有助于網(wǎng)絡(luò)性能的提升。故考慮在密集塊中利用結(jié)構(gòu)重參數(shù)化模塊(Structure Reparameterization Module, SRP)進(jìn)行改進(jìn),如圖4 所示。該模塊在訓(xùn)練時(shí)使用3 條不同的分支對(duì)圖像進(jìn)行特征提取,在推理時(shí)通過(guò)結(jié)構(gòu)重參數(shù)化操作將3 條分支合并為一條分支。訓(xùn)練時(shí),第一條分支為卷積核尺寸為1×1 的卷積操作以及批量歸一化(Batch Normalization,BN),第二條分支為卷積核尺寸為3×3 的卷積操作以及BN,第三條分支的特征圖不經(jīng)過(guò)卷積只有BN 操作,將三條分支所獲得的特征圖進(jìn)行相加,相加后的特征圖再經(jīng)過(guò)擠壓激勵(lì)模塊(Squeeze and Excitation Module,SE Module)進(jìn)行進(jìn)一步精煉。SE模塊首先通過(guò)自適應(yīng)池化操作將特征圖壓縮成高寬為1 的長(zhǎng)條狀,再通過(guò)兩個(gè)全連接層獲得注意力信息,將注意力信息與原始特征圖相乘使網(wǎng)絡(luò)關(guān)注更有意義的特征,最后將特征圖經(jīng)過(guò)Si-LU 激活函數(shù)的處理,得到最終的特征圖。SiLU激活函數(shù)在數(shù)值為負(fù)值時(shí)并不是直接將數(shù)值置零,而是采用極小值來(lái)代替,這種操作避免了網(wǎng)絡(luò)中的神經(jīng)元為負(fù)值時(shí)無(wú)法收斂的情況。1×1和3×3 的卷積操作分別提取不同尺度的特征,關(guān)注不同尺寸局部區(qū)域的下頜骨影像特征。兩條分支通過(guò)采用不同尺寸的卷積核來(lái)提取不同尺度的特征,將不同尺度的特征圖進(jìn)行相加操作,能夠融合具有不同尺寸感受野的卷積層所提取的下頜骨CT 影像特征。
圖4 結(jié)構(gòu)重參數(shù)化模塊Fig.4 Structure reparameterization module
2.2.1 跨維度注意力模塊
在特征提取完成后,會(huì)輸出3 種不同尺度的特征圖,尺寸分別為20×20×1 024,40×40×512,80×80×256,將這3 種不同尺度的特征圖輸入到特征增強(qiáng)網(wǎng)絡(luò)中進(jìn)行處理。此時(shí)獲得的特征圖高度、寬度以及通道之間沒有信息的交互,而不同通道提取的信息有著位置、形狀等的相關(guān)性,特征圖的通道和高度以及通道和寬度之間也有著相應(yīng)的聯(lián)系,對(duì)于下頜骨骨折部位的判斷至關(guān)重要。本文數(shù)據(jù)集中包含冠狀位、軸狀位和矢狀位3 個(gè)體位的CT 影像,不同體位所蘊(yùn)含的信息也不相同,通過(guò)跨維度的特征融合使得3 個(gè)體位的信息有所交互。因此,在輸入到特征增強(qiáng)網(wǎng)絡(luò)中之前,采用跨維度注意力模塊,使得特征圖的高度和通道之間、寬度和通道之間的信息有所交互,如圖5 所示。同時(shí),本文數(shù)據(jù)集中采用的3 個(gè)體位的影像也能夠補(bǔ)充信息,利用三分支結(jié)構(gòu)捕獲跨維度交互來(lái)計(jì)算注意力權(quán)重,通過(guò)旋轉(zhuǎn)操作和殘差變換建立維度、影像間的依存關(guān)系[17]。
圖5 跨維度注意力模塊Fig.5 Cross dimension attention module
跨維度注意力模塊共有3 個(gè)相互平行的分支,第一條分支負(fù)責(zé)關(guān)注特征圖的通道維度C和空間維度W的相互關(guān)系,第二條分支負(fù)責(zé)關(guān)注特征圖的通道維度C和空間維度H的相互關(guān)系,第三條分支負(fù)責(zé)捕獲特征圖的高度H和寬度W之間的依賴關(guān)系。具體實(shí)現(xiàn)過(guò)程如下:
第一條分支首先將輸入的特征圖沿著高度方向逆時(shí)針旋轉(zhuǎn)90°得到形狀為W×H×C的特征圖,然后通過(guò)Z-POOL,Conv 以及Sigmoid 激活函數(shù)得到注意力權(quán)重值,Z-POOL 操作對(duì)輸入的特征圖進(jìn)行平均池化和最大池化,減小特征圖的尺寸,同時(shí)提取有意義的特征。最后,將注意力權(quán)重值與原始特征圖相乘,此時(shí)得到的特征圖再沿著高度方向順時(shí)針旋轉(zhuǎn)90°恢復(fù)到和輸入特征圖一致的形狀;第二條分支與第一條分支的操作類似,負(fù)責(zé)計(jì)算通道維度C和空間維度W的注意力權(quán)重,特征圖的旋轉(zhuǎn)方式是沿著寬度方向W逆時(shí)針旋轉(zhuǎn)90°,此時(shí)特征圖形狀變?yōu)镠×C×W,在高度方向進(jìn)行Z-POOL 操作,將特征圖的高度縮減為2,再經(jīng)過(guò)Conv 以及Sigmoid 激活函數(shù)得到注意力權(quán)重值,將權(quán)重值與原始特征圖相乘,最后再順時(shí)針旋轉(zhuǎn)90°恢復(fù)到原來(lái)的形狀;第三條分支不經(jīng)過(guò)旋轉(zhuǎn)操作,只通過(guò)Z-POOL,Conv 以及Sigmoid 激活函數(shù)得到注意力權(quán)重值,再將注意力權(quán)重值與原始特征圖相乘得到處理后的特征圖。最后,對(duì)3 個(gè)分支獲得的特征圖進(jìn)行相加操作以及取平均值操作。
2.2.2 雙向特征融合模塊
在網(wǎng)絡(luò)訓(xùn)練過(guò)程中,輸入到其中的骨折CT影像中骨折部位的尺寸不一,在進(jìn)行卷積以及下采樣操作時(shí),隨著網(wǎng)絡(luò)的加深,較大的骨折區(qū)域得以保留,而較小的骨折區(qū)域可能丟失,因此需要進(jìn)行特征增強(qiáng),將不同分辨率的特征圖進(jìn)行融合。深層網(wǎng)絡(luò)的特征包含抽象的語(yǔ)義信息,但是缺乏空間信息;淺層網(wǎng)絡(luò)的特征包括邊緣、輪廓及形狀等影像的原始信息,但是缺乏語(yǔ)義信息,通過(guò)將深層特征與淺層特征進(jìn)行融合,將紋理信息與語(yǔ)義信息融合在一塊,能夠獲得更具表征性的特征圖信息[18]。
在原始YOLOv5 網(wǎng)絡(luò)的特征增強(qiáng)網(wǎng)絡(luò)中,采用特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,F(xiàn)PN)上下采樣拼接的形式來(lái)進(jìn)行特征融合,將小尺寸的特征圖進(jìn)行上采樣與大尺寸的特征圖相加,將大尺寸的特征圖進(jìn)行下采樣與小尺寸的特征圖相加,通過(guò)上下采樣以及相加操作使得不同分辨率、不同尺寸的特征圖有所交互,將網(wǎng)絡(luò)深層的語(yǔ)義信息傳遞到淺層特征圖中,同時(shí)將淺層網(wǎng)絡(luò)所提取的紋理、邊緣和位置等信息傳遞到深層網(wǎng)絡(luò),從而融合不同分辨率的特征圖,但是融合時(shí)每個(gè)特征圖的重要程度無(wú)法確定。對(duì)不同分辨率的特征圖進(jìn)行簡(jiǎn)單的相加融合操作會(huì)導(dǎo)致不同尺寸、不同分辨率的特征圖對(duì)于融合后特征增強(qiáng)的特征圖貢獻(xiàn)相同,尺寸較大的特征圖所占比重較大,而網(wǎng)絡(luò)深層語(yǔ)義信息豐富的小尺寸特征圖所占的比重較小。
如圖1 所示,跨維度雙向融合模塊在每個(gè)上采樣以及下采樣的分支中引入可訓(xùn)練的權(quán)重值來(lái)平衡不同尺度特征圖融合時(shí)的重要程度,同時(shí)增加了跨尺度的特征拼接操作,將原始的特征圖與特征增強(qiáng)處理后的特征圖進(jìn)行相加操作,類似于殘差網(wǎng)絡(luò)的結(jié)構(gòu),這種結(jié)構(gòu)能夠增強(qiáng)網(wǎng)絡(luò)的表征能力,對(duì)不同尺度的特征圖進(jìn)行區(qū)分。
如圖6 所示,原始融合模塊中有5 個(gè)輸出,其中尺寸較大的P6,P7特征圖是由特征圖P5進(jìn)行上采樣得到的,P6,P7特征圖結(jié)合了尺寸較小的特征圖作為輸出。YOLOv5 網(wǎng)絡(luò)中的特征提取網(wǎng)絡(luò)輸出3 種類型的特征圖,3 種不同尺寸的特征圖已經(jīng)能夠較好地滿足下頜骨骨折檢測(cè)的需求,因此,本文只采用尺寸較小的3 個(gè)特征圖作為檢測(cè)特征圖。特征圖P3未進(jìn)行下采樣操作,僅通過(guò)橫向連接與特征圖P4下采樣后的特征圖進(jìn)行拼接,只有單個(gè)輸出邊,故省略橫向的殘差連接以減少參數(shù)量。輸出特征圖的計(jì)算公式為:
圖6 雙向特征融合模塊Fig.6 Bidirectional feature fusion module
其中:Wi為可訓(xùn)練的權(quán)重值,Ii為輸入特征圖,ε為一個(gè)極小值,防止分母為0。圖6 中,P3_out 為:
由于P4_medium 特征圖與P3特征圖的尺寸不同,因此需要對(duì)它進(jìn)行下采樣操作,Resize 代表對(duì)特征圖進(jìn)行上采樣或者下采樣操作。式(7)中分子為將所有要進(jìn)行特征融合操作的輸入特征圖與可訓(xùn)練權(quán)重逐個(gè)相乘,分母為所有的權(quán)重值與極小值ε相加。通過(guò)引入可訓(xùn)練權(quán)重來(lái)控制不同尺度特征圖融合時(shí)的比重,從而控制不同分辨率的特征圖對(duì)最終骨折部位檢測(cè)的貢獻(xiàn)值。
實(shí)驗(yàn)采用的數(shù)據(jù)集為下頜骨骨折CT 影像數(shù)據(jù)集。從寧夏某三甲醫(yī)院頜面外科處獲得下頜骨部位影像的原始圖像5 861 張,由專業(yè)醫(yī)師對(duì)下頜骨骨折部位進(jìn)行標(biāo)注,使用開源Labelimg 軟件標(biāo)出下頜骨的骨折部位。標(biāo)簽文件為.xml 格式,在本數(shù)據(jù)集中只有骨折這一種類型,其標(biāo)注名稱為fractured。標(biāo)簽文件中還包括真實(shí)框的高度、寬度、圖像的原始尺寸,以及真實(shí)框的坐標(biāo)等信息。訓(xùn)練集以及驗(yàn)證集按照9∶1 的比例進(jìn)行劃分,得到訓(xùn)練集影像4 746 張,驗(yàn)證集影像528 張。如圖7 所示,數(shù)據(jù)集包含3 個(gè)體位的CT 影像,分別為冠狀位、矢狀位和軸狀位影像。每個(gè)體位的CT 影像選取3 張,3 個(gè)體位共計(jì)9 張CT 影像。冠狀位CT 是指從患者的正前方面向患者進(jìn)行CT 影像的拍攝,此時(shí)獲得的CT 影像成為冠狀位CT 影像;矢狀位CT 是指從患者身體的右側(cè)對(duì)患者進(jìn)行CT 影像的拍攝,此時(shí)獲得的CT 影像成為矢狀位CT 影像;軸狀位CT 是指從患者頭頂正上方對(duì)患者進(jìn)行CT 影像的拍攝,此時(shí)獲得的CT 影像成為軸狀位CT 影像。通過(guò)在不同的體位拍攝CT 影像,結(jié)合不同角度的影像來(lái)判斷骨折部位,能夠獲得更充分的信息。
圖7 下頜骨CT 影像數(shù)據(jù)集Fig.7 Mandibular CT image dataset
3.2.1 實(shí)驗(yàn)環(huán)境
實(shí)驗(yàn)中,服務(wù)器操作系統(tǒng)為Windows 10 專業(yè)版64 位系統(tǒng),計(jì)算機(jī)內(nèi)存為64 GB,搭載Intel Gold 5218 2.3GHz 處理器,顯卡為Titan RTX 24GB,cuda 版本為11.4。優(yōu)化器采用Adam 優(yōu)化器,動(dòng)量設(shè)置為0.9,學(xué)習(xí)率設(shè)置為0.001,權(quán)重衰退值為0.000 1。對(duì)每一個(gè)網(wǎng)絡(luò)進(jìn)行epoch=100 的迭代,最終選擇準(zhǔn)確率最高的網(wǎng)絡(luò)權(quán)重進(jìn)行比較。
3.2.2 評(píng)價(jià)指標(biāo)
為了驗(yàn)證網(wǎng)絡(luò)的有效性,在實(shí)驗(yàn)中對(duì)比了置信度閾值為0.5 時(shí)網(wǎng)絡(luò)的F1 值、召回率、精確率、mAP 值等指標(biāo)。精確率(P)、召回率(R)和F1 值的計(jì)算公式分別為:
其中:TP 表示在真實(shí)正樣本中被預(yù)測(cè)為正樣本的樣本數(shù)量,F(xiàn)P 表示在真實(shí)負(fù)樣本中被預(yù)測(cè)為正樣本的樣本數(shù)量,F(xiàn)N 表示在真實(shí)正樣本中被預(yù)測(cè)為負(fù)樣本的樣本數(shù)量。在置信閾值為0.5時(shí),對(duì)評(píng)價(jià)指標(biāo)進(jìn)行了比較。當(dāng)預(yù)測(cè)框與真實(shí)框的交并比(Intersection over Union,IoU)大于0.5時(shí),該部分為骨折部分,計(jì)算該樣本為TP 真陽(yáng)性樣本。當(dāng)0 mAP 表示所有類別AP 值的平均值,一般情況下,評(píng)價(jià)時(shí)置信度閾值取0.5 時(shí)所有類別的平均AP 值來(lái)計(jì)算mAP。本文數(shù)據(jù)集中只有下頜骨骨折一種類型,因此mAP 等于AP,其計(jì)算公式為: 為了直觀地考察不同網(wǎng)絡(luò)的性能,本文還根據(jù)相關(guān)實(shí)驗(yàn)數(shù)據(jù)繪制了雷達(dá)圖,對(duì)不同網(wǎng)絡(luò)的F1值、召回率、精確率和mAP 值進(jìn)行了可視化。雷達(dá)圖中,中心區(qū)域的數(shù)值為零,從中心向四周輻射,數(shù)值逐漸增大,數(shù)值越大代表網(wǎng)絡(luò)的各項(xiàng)評(píng)價(jià)指標(biāo)越高,網(wǎng)絡(luò)性能越好,不同顏色的折線分別代表了不同網(wǎng)絡(luò)。在對(duì)比實(shí)驗(yàn)部分,給出了不同網(wǎng)絡(luò)的FPS(Frame Per Second),即每秒所處理的幀數(shù)。FPS 是目標(biāo)檢測(cè)算法中另一個(gè)重要評(píng)估指標(biāo),數(shù)值越大,表明網(wǎng)絡(luò)的檢測(cè)速度越快。在評(píng)估網(wǎng)絡(luò)的整體性能時(shí),要綜合考慮網(wǎng)絡(luò)的F1值、召回率、精確率、mAP 值以及FPS 做出全面的評(píng)估。 圖8 是下頜骨骨折CT 影像,分別為冠狀位影像、矢狀位影像和軸狀位影像的檢測(cè)結(jié)果。在影像中使用矩形框?qū)⒐钦鄄课豢虺?,并且在矩形框的上方給出了“fractured”字樣,同時(shí)給出了該矩形框部位為骨折的置信度值。 圖8 下頜骨骨折CT 影像檢測(cè)結(jié)果Fig.8 Detection results of mandibular fracture CT images 3.3.1 消融實(shí)驗(yàn) 3M-YOLOv5 結(jié)構(gòu)基于YOLOv5 網(wǎng)絡(luò)進(jìn)行改進(jìn),設(shè)計(jì)了3 個(gè)模塊改進(jìn)網(wǎng)絡(luò)性能,分別是lga模塊、lmd 模塊以及cdbf 模塊。lmd 模塊包括Ghost 卷積模塊以及SRP 模塊,cdbf 模塊包括CDA 模塊以及BFF 模塊。在消融實(shí)驗(yàn)中,通過(guò)分別引入不同的模塊來(lái)驗(yàn)證其有效性。實(shí)驗(yàn)一采用lgaM 模塊、SRP 模塊、CDA 模塊和BFF 模塊對(duì)網(wǎng)絡(luò)進(jìn)行改進(jìn),去掉lmdM 模塊中的Ghost卷積模塊,使用基本的1×1 卷積操作進(jìn)行特征提??;實(shí)驗(yàn)二采用lgaM 模塊、Ghost 卷積模塊、CDA模塊和BFF 模塊對(duì)網(wǎng)絡(luò)進(jìn)行改進(jìn),去掉lmdM 模塊中的SRP 模塊,使用基本的3×3 卷積操作進(jìn)行特征提取;實(shí)驗(yàn)三采用lgaM 模塊、Ghost 卷積模塊、SRP 模塊和CDA 模塊對(duì)網(wǎng)絡(luò)進(jìn)行改進(jìn),去掉BFF 模塊,使用原始網(wǎng)絡(luò)中的FPN 網(wǎng)絡(luò)進(jìn)行特征增強(qiáng);實(shí)驗(yàn)四使用lgaM 模塊、Ghost 卷積模塊、SRP 模塊和BFF 模塊進(jìn)行網(wǎng)絡(luò)改進(jìn),去掉CDA 模塊;實(shí)驗(yàn)五使用Ghost 卷積模塊、SRP 模塊、CDA 模塊和BFF 模塊對(duì)網(wǎng)絡(luò)進(jìn)行改進(jìn),去掉網(wǎng)絡(luò)開始階段的lgaM 模塊;實(shí)驗(yàn)六去掉網(wǎng)絡(luò)開始階段的lgaM 模塊和BFF 模塊,只保留Ghost 卷積模塊、SRP 模塊和CDA 模塊;實(shí)驗(yàn)七只保留lgaM 模塊、CDA 模塊和BFF 模塊,去掉密集塊結(jié)構(gòu)中的Ghost 卷積模塊和SRP 模塊,采用基本的1×1 和3×3 卷積進(jìn)行特征提取;實(shí)驗(yàn)八利用特征提取網(wǎng)絡(luò)引入的lgaM 模塊、Ghost卷積模塊和SRP 模塊對(duì)網(wǎng)絡(luò)進(jìn)行改進(jìn),去掉CDA 模塊和BFF 模塊;實(shí)驗(yàn)九只保留CDA 模塊和BFF 模塊,在骨干網(wǎng)絡(luò)中使用原始的密集塊結(jié)構(gòu)進(jìn)行特征提?。粚?shí)驗(yàn)十引入所有模塊來(lái)改進(jìn)網(wǎng)絡(luò)。 消融實(shí)驗(yàn)結(jié)果如表1 所示。實(shí)驗(yàn)一網(wǎng)絡(luò)的mAP 值較引入所有模塊時(shí)下降了0.08%,參數(shù)量較最終網(wǎng)絡(luò)結(jié)構(gòu)上升了1.969 MB,證明Ghost卷積模塊相較于1×1 卷積能夠減少參數(shù)量。各項(xiàng)評(píng)價(jià)指標(biāo)也有所下降,證明在密集塊結(jié)構(gòu)中引入Ghost 卷積模塊所帶來(lái)的性能提升有限。Ghost 卷積模塊雖然能夠以較少的參數(shù)量來(lái)獲得同樣數(shù)量的特征圖,但是由于其最終特征圖中有一半的特征圖沒有經(jīng)過(guò)處理,而是類似于殘差結(jié)構(gòu)直接與另一半特征圖進(jìn)行通道拼接,因此它所帶來(lái)的性能提升有限。實(shí)驗(yàn)二網(wǎng)絡(luò)的mAP 值較引入所有模塊時(shí)下降了0.95%,置信度閾值取0.5 時(shí),網(wǎng)絡(luò)的F1 值、召回率、精確率分別下降1.97,2.05 以及1.89,證明了SRP 模塊中的1×1以及3×3 卷積能夠關(guān)注到不同尺寸的局部區(qū)域,同時(shí)在模塊中引入的SiLU 激活函數(shù)能夠較好地防止神經(jīng)元在負(fù)值時(shí)的死亡,有利于網(wǎng)絡(luò)的收斂。實(shí)驗(yàn)三網(wǎng)絡(luò)的mAP 值較引入所有模塊時(shí)下降了0.76%,證明了采用BFF 模塊能夠提升網(wǎng)絡(luò)的性能,在進(jìn)行不同分辨率特征圖的融合拼接時(shí)能夠較好地平衡不同特征圖的融合權(quán)重,同時(shí)在特征提取網(wǎng)絡(luò)中同時(shí)引入(1)、(2)、(3)、(4)這4 個(gè)模塊能夠增強(qiáng)網(wǎng)絡(luò)的特征提取能力,較好地獲取到不同大小骨折區(qū)域的特征以及骨折部位在整個(gè)下頜骨CT 影像中的全局信息。實(shí)驗(yàn)四網(wǎng)絡(luò)的mAP 值下降了0.27%,證明引入CDA 模塊能夠關(guān)注特征圖的高度、寬度和通道之間的關(guān)系,進(jìn)一步提升網(wǎng)絡(luò)性能,但是性能提升有限;實(shí)驗(yàn)五中去掉lgaM 模塊后,置信度閾值取0.5 時(shí)網(wǎng)絡(luò)的mAP 值、F1 值、召回率、精確率分別下降0.39%,1.37%,1.71%,1.04%,同時(shí)參數(shù)量與計(jì)算量也有所下降,lgaM 模塊以較小的代價(jià)來(lái)提取全局特征信息,證明lgaM 模塊能夠在特征提取網(wǎng)絡(luò)的開始階段獲得全局表征信息,同時(shí)Unfold 以及 Fold 操作能夠減少計(jì)算注意力時(shí)的參數(shù)量。實(shí)驗(yàn)六網(wǎng)絡(luò)的mAP 值下降較多,與原始YOLOv5 網(wǎng)絡(luò)相比僅提升了2.12%,證明了在網(wǎng)絡(luò)的最初始階段引入lgaM 模塊能夠使網(wǎng)絡(luò)更好地捕獲全局特征信息,從而提升網(wǎng)絡(luò)的特征提取能力,同時(shí)BFF 模塊在進(jìn)行特征增強(qiáng)時(shí)能夠通過(guò)可訓(xùn)練的權(quán)重來(lái)決定不同分辨率的特征圖融合的權(quán)重。實(shí)驗(yàn)七網(wǎng)絡(luò)mAP 值僅提升了2.31%,同時(shí)網(wǎng)絡(luò)的參數(shù)量也有所提升,證明了原始密集塊結(jié)構(gòu)中的卷積操作參數(shù)量較大,特征提取能力較好,但是將原始卷積操作分別替換為Ghost 卷積模塊以及SRP 模塊后,網(wǎng)絡(luò)的特征提取能力能夠進(jìn)一步的提升。實(shí)驗(yàn)八網(wǎng)絡(luò)的mAP 值提升了2.3%,證明采用BFF 模塊能夠平衡不同分辨率特征圖融合時(shí)的權(quán)重,同時(shí)CDA 模塊能夠關(guān)注特征圖的高度、寬度和通道之間的關(guān)系,進(jìn)一步提升網(wǎng)絡(luò)性能。實(shí)驗(yàn)九網(wǎng)絡(luò)性能下降得最多,甚至遠(yuǎn)不如原始YOLOv5 網(wǎng)絡(luò),F(xiàn)1 值等各項(xiàng)評(píng)價(jià)指標(biāo)也大幅下降,證明了僅采用兩個(gè)模塊來(lái)改進(jìn)網(wǎng)絡(luò)無(wú)法很好地進(jìn)行下頜骨骨折部位的檢測(cè)。實(shí)驗(yàn)十同時(shí)引入5 個(gè)模塊,網(wǎng)絡(luò)的各項(xiàng)指標(biāo)最大,證明本文所提出的3M-YOLOv5 網(wǎng)絡(luò)能夠較好地進(jìn)行下頜骨骨折部位的檢測(cè)。圖9 給出了消融實(shí)驗(yàn)的雷達(dá)圖,通過(guò)該圖可以看出,實(shí)驗(yàn)十的折線位于最外側(cè),各項(xiàng)性能最優(yōu)。 表1 消融實(shí)驗(yàn)結(jié)果Tab.1 Result of ablation experiment 圖9 消融實(shí)驗(yàn)雷達(dá)圖Fig.9 Radar map of ablation experiment 3.3.2 對(duì)比實(shí)驗(yàn) 本文通過(guò)對(duì)比不同目標(biāo)檢測(cè)網(wǎng)絡(luò)在下頜骨骨折檢測(cè)方面的各項(xiàng)評(píng)價(jià)指標(biāo),驗(yàn)證了所提出的3M-YOLOv5 下頜骨骨折檢測(cè)網(wǎng)絡(luò)的有效性。在提出的下頜骨骨折CT 影像數(shù)據(jù)集上,采用3M-YOLOv5 網(wǎng)絡(luò)與YOLOv3 網(wǎng)絡(luò)、YOLOv4 網(wǎng)絡(luò)、FasterRCNN、CenterNet、YOLOX網(wǎng)絡(luò)以及YOLOv7 網(wǎng)絡(luò)進(jìn)行了檢測(cè)。其中,YOLOX 選用YOLOX_s 版本進(jìn)行對(duì)比;YOLOv7 網(wǎng)絡(luò)有針對(duì)于邊緣GPU、普通GPU 和云GPU 的3 種基本網(wǎng)絡(luò),分別命名為YOLOv7tiny、YOLOv7 和YOLOv7-W6,本文選取適用于普通GPU 版本的YOLOv7 網(wǎng)絡(luò)。實(shí)驗(yàn)結(jié)果如表2 所示。 表2 不同實(shí)驗(yàn)結(jié)果對(duì)比Tab.2 Comparison of experiment results with different networks YOLOv3 網(wǎng)絡(luò)采用Darknet-53 作為主干特征提取網(wǎng)絡(luò),網(wǎng)絡(luò)結(jié)構(gòu)中采用了卷積層進(jìn)行特征的提取,通過(guò)采用步長(zhǎng)為2 的卷積層來(lái)進(jìn)行下采樣操作,沒有使用池化層,避免了池化操作所帶來(lái)的特征信息丟失等問(wèn)題[25]。但是由于其特征提取不夠充分,僅通過(guò)兩次上采樣進(jìn)行特征圖拼接,未進(jìn)行特征增強(qiáng),高分辨率特征圖與低分辨率特征圖之間沒有交互,缺少信息互補(bǔ),因此整體效果并不理想。YOLOv4 網(wǎng)絡(luò)是YOLO 系列網(wǎng)絡(luò)中第一次采用小尺寸特征圖上采樣與大尺寸特征圖下采樣進(jìn)行特征網(wǎng)絡(luò)的增強(qiáng),在特征提取網(wǎng)絡(luò)中還引入了空間金字塔池化(Spatial Pyramid Pool,SPP)結(jié)構(gòu)來(lái)提取不同尺度的特征,但是網(wǎng)絡(luò)性能的提升效果有限。Faster RCNN 網(wǎng)絡(luò)是常用的兩階段檢測(cè)網(wǎng)絡(luò),它首先生成區(qū)域建議候選框,再對(duì)候選框進(jìn)行分類。網(wǎng)絡(luò)的檢測(cè)效果較好,但是網(wǎng)絡(luò)的參數(shù)量以及計(jì)算量數(shù)倍于其他YOLO 系列網(wǎng)絡(luò),極大增加了訓(xùn)練以及部署時(shí)的成本。CenterNet 是一種無(wú)錨框的檢測(cè)網(wǎng)絡(luò),不依賴大量的錨框,其參數(shù)量以及計(jì)算量較少,但是由于它只在高語(yǔ)義信息的特征圖上進(jìn)行特征檢測(cè),未結(jié)合大尺寸、大分辨率的特征圖,丟失了較多的細(xì)節(jié)信息,因此其檢測(cè)效果較差。YOLOX 網(wǎng)絡(luò)的參數(shù)量和YOLOv5 相差無(wú)幾,計(jì)算量提升較多,模型結(jié)構(gòu)更加復(fù)雜,同時(shí)圖片每秒的檢測(cè)速度也有所提升,但是對(duì)于骨折部位的特征提取不夠充分,因此整體性能提升較少。YOLOv7 網(wǎng)絡(luò)的性能與YOLOX 網(wǎng)絡(luò)接近,但是由于二者都是通用檢測(cè)網(wǎng)絡(luò),對(duì)于下頜骨骨折部位的特征提取不夠充分,其性能甚至弱于YOLOv5網(wǎng)絡(luò)。本文提出的3M-YOLOv5 在置信度閾值取0.5 時(shí)的mAP 值、F1 值、召回率和精確率分別為0.991 7,0.990 6,0.988 1,0.993 2,與其他網(wǎng)絡(luò)相比,整體性能提升最多。3M-YOLOv5 網(wǎng)絡(luò)的FPS 值在所有網(wǎng)絡(luò)中最低,其檢測(cè)速度最慢。但是考慮到在醫(yī)學(xué)圖像輔助診斷中,漏診、誤診等現(xiàn)象是不被允許的,精度要求是第一位的,其次才會(huì)考慮檢測(cè)速度。因此,綜合考慮網(wǎng)絡(luò)的整體性能,以犧牲速度來(lái)?yè)Q取準(zhǔn)確率,網(wǎng)絡(luò)的整體表現(xiàn)還是可以接受的。圖10 給出了對(duì)比實(shí)驗(yàn)的雷達(dá)圖,通過(guò)該圖可以看出,3M-YOLOv5 網(wǎng)絡(luò)的mAP 值、F1 值、召回率和精確率折線均位于最外側(cè),各項(xiàng)性能最優(yōu)。 圖10 對(duì)比實(shí)驗(yàn)雷達(dá)圖Fig.10 Radar map of comparison experiment 下頜骨骨折時(shí)需要根據(jù)不同的骨折部位采取不同的治療手段,準(zhǔn)確及時(shí)地定位骨折部位能夠給予醫(yī)生充足的治療參考信息,當(dāng)前相關(guān)檢測(cè)網(wǎng)絡(luò)存在特征提取不充分、檢測(cè)精度不高等問(wèn)題。本文提出了一種用于下頜骨骨折檢測(cè)的3M-YOLOv5 網(wǎng)絡(luò),它基于YOLOv5 網(wǎng)絡(luò)進(jìn)行改進(jìn)。首先,引入密集連接思想來(lái)改進(jìn)特征提取網(wǎng)絡(luò),在3 個(gè)過(guò)渡層中分別引出3 種不同尺度的特征圖輸入到特征增強(qiáng)網(wǎng)絡(luò)中;其次,在重復(fù)堆疊的密集塊中引入Ghost 卷積模塊以及結(jié)構(gòu)重參數(shù)化模塊,使得特征提取網(wǎng)絡(luò)能夠提取多尺度信息,從而增強(qiáng)網(wǎng)絡(luò)的特征提取能力;然后,在跨維度雙向融合模塊中采用跨維度注意力來(lái)融合特征圖的高度、寬度以及通道之間的信息;最后采用雙向特征融合模塊,在特征圖進(jìn)行上下采樣的過(guò)程中加入可訓(xùn)練的權(quán)重,更好地平衡了不同尺度特征圖融合時(shí)的重要程度。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的3M-YOLOv5 網(wǎng)絡(luò)的F1 值、召回率、精確率以及 mAP 值分別為 99.06%,98.81%,99.32%和99.17%。 針對(duì)單一類別即下頜骨骨折類型,改進(jìn)后網(wǎng)絡(luò)的mAP 值能夠達(dá)到99%以上,表明YOLOv5網(wǎng)絡(luò)在單一目標(biāo)檢測(cè)領(lǐng)域也能取得很好的效果。但是,本文未對(duì)下頜骨的骨折部位給出明確的分類,只檢測(cè)出骨折部位。未來(lái)工作要對(duì)具體的下頜骨骨折部位給出明確的分類,例如具體到髁突、下頜體、下頜角等具體部位的骨折信息,同時(shí)可以進(jìn)行下頜骨骨折CT 影像的實(shí)時(shí)分析,幫助醫(yī)師在進(jìn)行CT 影像拍攝時(shí)能夠更快更好地找到下頜骨的骨折部位,從而選取更加有代表性的CT 影像供給主治醫(yī)師進(jìn)行治療的參考。3.3 實(shí)驗(yàn)結(jié)果
4 結(jié) 論