任家豪,張光華,喬鋼柱,武秀萍
(1.中北大學 大數(shù)據(jù)學院,太原 030051;2.太原學院 智能與自動化系,太原 030032;3.山西醫(yī)科大學 口腔醫(yī)學院,太原 030001)
在臨床診斷、治療與手術決策中,頭影標志點通常由經(jīng)驗豐富的醫(yī)生手動或半手動標記,耗時且出錯率較高。因此,目前市場上對自動且高精度的標志點定位模型有較大的需求。但是,由于個體頭影結構的差異以及X 線圖像的模糊性與復雜性,自動檢測標志點的難度較大。
目前,已有很多研究人員提出優(yōu)秀的自動解剖標志點檢測方法。GRAU 等[1]使用模板匹配的規(guī)則定位標志點,但隨著圖像復雜度的增加,規(guī)則不再具有權威性與實用性。為了同時考慮標志點的局部形狀與全局空間結構,KEUSTERMANS[2]等使用基于局部外觀的模型進行自動檢測標志點,而IBRAGIMOV[3]等則采用博弈策略和基于形狀的模型提取X 射線圖像特征。上述方法需要復雜的人為設計,且性能有待提高。文獻[4-6]將支持向量機、隨機森林等機器學習方法應用到標志點定位中,同時利用圖像片段的局部信息與器官的大小、姿態(tài)等全局信息訓練模型,較好地提高了預測精度。
近年來,深度學習在圖像分類[7]、分割[8]、目標檢測[9]等領域取得了巨大的成功,并廣泛應用于需要進行解剖標志點檢測的醫(yī)學圖像分析中。LEE 等[10]將深度卷積神經(jīng)網(wǎng)絡(Deep Convolutional Neural Network,DCNN)應用于頭影標志點檢測,通過訓練38 個獨立的卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN),分別回歸了19個標志點的x與y坐標,這種方法極大地增加了訓練時間。針對醫(yī)學訓練圖像有限的問題,AUBERT等[11]以局部小塊圖像為樣本進行坐標點回歸,但這種基于圖像塊的方法只能利用局部信息而忽略全局信息,無法對所有標志點進行準確預測。ARIK 等[12]使用CNN 對輸入圖像的小塊進行訓練,輸出標志點的概率估計,并通過基于形狀的模型對標志點的位置進行細化。由于上述方法都是基于標志點坐標的直接回歸,丟失了特征圖上的空間信息,因此學者們提出了基于高斯熱圖的方法來回歸坐標點,如PAYER等[13]將U-Net網(wǎng)絡與空間配置網(wǎng)絡相結合,ZHONG等[14]使用全局U-Net將整張圖像輸入,而局部U-Net將19個圖像塊作為輸入,實現(xiàn)了低分辨率與高分辨率相結合的熱圖回歸。
由于圖像訓練數(shù)據(jù)集有限,現(xiàn)有多數(shù)醫(yī)學影像標志點檢測算法均采用非常淺顯的網(wǎng)絡進行特征提取,并沒有以高分辨率輸出特征圖,導致預測值與真實值產(chǎn)生量化誤差。多尺度特征融合的方法通過將高層語義信息與低層語義信息相結合,使關鍵點定位任務中輸入的多尺度特征信息更加豐富,從而提高檢測精度,很好地解決上述問題。受此啟發(fā),QI等[15]提出一種人臉關鍵點檢測網(wǎng)絡,引入多尺度特征圖融合思想來提升主干網(wǎng)絡MobileNet 在人臉關鍵點檢測的準確率。ZHANG[16]和LI[17]分別利用主干網(wǎng)絡 MobileNetV3 和沙漏網(wǎng)絡(Hourglass Network,HN)實現(xiàn)多尺度特征的提取和融合,同時在特征融合時通過添加注意力機制對不同尺度標志點信息進行集中學習,最后精確地輸出交通標志中心點(MRI 解剖點)的位置信息。
為了將多尺度特征融合的思想應用到醫(yī)學標志點檢測中,本文提出一種改進的多尺度特征融合檢測模型AIW-Net,其中W-Net 相比只有兩條采樣路徑的U-Net[18]、V-Net[19]的特征融合更加多樣化。AIW-Net使用基于Imagenet 數(shù)據(jù)集進行初始化的預訓練模型MobileNetV2 進行特征提取,中間模塊受Bi-FPN[20]的影響采用雙向采樣路徑,在下采樣過程中采用改進的倒殘差結構減少特征損失。解碼器采用上采樣卷積路徑,使特征圖的尺寸恢復到原始分辨率大小,同時將得到的多個尺度的熱圖與特征圖相結合。
AIW-Net 使用輕量級網(wǎng)絡MobileNetV2 作為骨干網(wǎng)絡。針對圖像的不同分辨率,MobileNetV2 的特征提取部分可以被靈活劃分為幾個不同的階段。MobileNetV2 相比VGG、ResNet 等其他骨干網(wǎng)絡,在保持相同預測精度的同時顯著減少了所需操作與內(nèi)存數(shù)量。MobileNetV2 的核心模塊為倒殘差(Inverted Residuals)模塊,與傳統(tǒng)殘差模塊的卷積結構相反,該模塊的結構為“擴展-深度分離卷積-壓縮”。本文將MobileNetV2 網(wǎng)絡劃分為5 個階段,在每個階段對輸出的特征圖采用步長為2 的卷積,特征圖的分辨率均減小1/2。在每個階段之后將其輸出的通道數(shù)目進行調(diào)整,使用MobileNetV2_c 表示調(diào)整后的網(wǎng)絡,其結構如圖1 所示。其中:t表示通道膨脹系數(shù);c1 與c2 分別表示原始輸出與調(diào)整后的通道數(shù);n表示重復模塊個數(shù);s表示步長;“—”表示該數(shù)據(jù)未知。
圖1 MobileNetV2_c 網(wǎng)絡結構Fig.1 Structure of MobileNetV2_c network
本文的主要任務是從頭顱影像中找出所有標志點{P1,P2,…,P19}的位置。圖2 所示為AIW-Net 的網(wǎng)絡結構,其中每個特征圖上方的數(shù)字為通道數(shù)量。由圖2 可知,該網(wǎng)絡由提取特征的輕量級編碼器網(wǎng)絡MobileNetV2_c、對多尺度特征進行融合的中間模塊、對多尺度預測熱圖進行不斷優(yōu)化更新的解碼器網(wǎng)絡組成。為方便敘述,定義特征尺度水平{W0,W1,…,Wn},分別對應具有0,2,…,2n像素的輸入圖像步長。在以往的多尺度特征融合研究中,F(xiàn)PN[21]與PANet[22]網(wǎng)絡通過特征圖相加的方式僅融合了ResNet 骨干從W2到W5的尺度水平。而Bi-FPN[20]僅結合了EfficientNet 網(wǎng)絡從W3到W7的尺度水平。相較而言,本文的中間模塊與解碼器網(wǎng)絡結合了MobileNetV2 網(wǎng)絡從W0到W5的所有尺度水平(包括與輸入圖像具有相同分辨率的尺度水平W0),整個網(wǎng)絡能夠使用更高分辨率的特征。
圖2 AIW-Net 網(wǎng)絡結構Fig.2 Structure of AIW-Net network
本文定義fj(j=0,1,2)為中間模塊與解碼器網(wǎng)絡的第j條采樣路徑的特征圖。中間模塊部分包括一個雙向(上采樣與下采樣)路徑,如圖3 所示。在上采樣路徑中,每張?zhí)卣鲌D以2 的倍數(shù)進行上采樣,該路徑的基本單元如圖3(a)所示。圖3(b)所示為中間模塊下采樣路徑的基本單元。骨干網(wǎng)絡中輸出的第i層(i=1,2,3,4,5)特征圖為Fi,它與第i+1 層上采樣操作Up后的特征圖執(zhí)行通道合并的融合操作⊕后,采用ReLU激活函數(shù),最終得到輸出,其表達式如式(1)所示:
圖3 中間模塊路徑的基本單元Fig.3 Path basic unit of intermediate module
骨干網(wǎng)絡最終生成的尺度特征圖F5經(jīng)過3×3和1×1的卷積層后,構成了上采樣路徑中的第1 個開始單元。
在下采樣路徑中,為了彌補圖像分辨率逐漸降低造成的信息損失,采用一種改進的倒殘差網(wǎng)絡結構(stride=2)進行下采樣,通過深度可分離卷積大幅減小網(wǎng)絡模型的參數(shù)個數(shù),該網(wǎng)絡結構將在2.2 節(jié)詳細介紹。下采樣之后的特征圖與上采樣路徑中具有相同分辨率的特征圖進行連接,得到新的特征輸出,其表達式如式(2)所示:
其中:IR*為自定義的倒殘差卷積操作。
為盡量避免由于下采樣過程中出現(xiàn)圖像特征損失導致的標志點預測準確率下降問題,采用MobileNet 系列中一種稱為“倒殘差”的結構,即每次經(jīng)過深度卷積過濾之后與該次深度卷積之前的圖像特征進行相加,并作為下一次的輸入。該結構包含輕量級卷積,即深度可分離卷積,其相對于普通卷積最大化地減少了網(wǎng)絡的參數(shù)量。原始的倒殘差結構在輸入尺寸與深度卷積后的尺寸不同的情況下(stride=2)直接采用卷積后的特征作為下一模塊的輸入。受步長為1 的倒殘差結構[23]的啟發(fā),本文將該結構進行改進,即將輸入圖像的分辨率大小經(jīng)過3×3 的深度卷積變換生成與輸出尺寸相同的特征圖,并將兩者合并作為下一次卷積的輸入。為盡量避免模型發(fā)生過擬合現(xiàn)象,采用ReLU6 激活函數(shù)加速模型收斂,該函數(shù)的計算式如式(3)所示。
改進前后步長為2 的倒殘差結構如圖4 所示。顯然,將改進后的結構應用于下采樣過程后,特征圖中不僅包含了通過卷積操作后分辨率減半的特征,而且增加了對輸入圖像進行深度卷積后的特征,從而使下采樣輸出的特征圖信息更加豐富。
圖4 改進前后的倒殘差結構Fig.4 Backward residual structure before and after improvement
與U-Net 網(wǎng)絡中的解碼器設計類似,本文解碼器部分也是一條上采樣路徑,每次以2 的步長上采樣,最終使特征分辨率從W5恢復到W0,如圖4 所示。由于在低級特征層上圖像分辨率逐漸變大,因此使用小的通道來減小參數(shù)數(shù)目。在W2與W1特征層將合并后的特征圖通道數(shù)分別減少為256、128。同時為了在最高分辨率的特征圖上得到最優(yōu)關鍵點信息,引入從粗到細的中間監(jiān)督進一步細化標志點的定位。定義第i個尺度(i∈{0,1,2,3})的特征融合映射關系φi:Pi=φi(a,b),表示將特征圖a進行上采樣后與特征圖b進行通道融合⊕操作;gi,i∈{0,1,2}表示在每個尺度上對融合的特征圖經(jīng)過3×3 與1×1 的卷積操作,生成不同分辨率預測熱圖的映射函數(shù),每個尺度上的映射關系如式(4)~式(6)所示:
其中:UP為上采樣操作;Pi表示在第i個尺度上生成的中間特征圖;yi表示在第i個尺度上Pi經(jīng)過1×1卷積最終生成的特征圖;hi∈R2表示預測的二維關鍵點熱圖,每個通道代表一個關鍵點的熱圖。每個尺度生成的預測熱圖數(shù)量關系如式(7)所示:
由式(7)可知,最終生成的特征圖y1與預測熱圖h1進行特征融合后,能得到與輸入圖像F0具有相同分辨率的熱圖h0,達到最高分辨率的熱圖回歸。該方法可以更加精確與細化地預測頭影圖像標志點。
在解碼器模塊與中間模塊的下采樣路徑之間引入針對通道的門信號思想,將下采樣路徑與解碼器節(jié)點的跳躍連接替換為注意力門模塊,使最終輸出的特征圖注意力集中在標志點附近區(qū)域,有效抑制特征圖中對標志點定位產(chǎn)生負面影響的背景區(qū)域響應。注意力門模塊由多個函數(shù)構成,定義如下:
其中:xi∈RH×W×Ci(i=1,2,3,4)為特征尺度Wi所對應的下采樣過程中經(jīng)過1×1 卷積的輸出矩陣,H,W為特征圖的分辨率大小,Ci為輸出特征圖的通道數(shù);gi∈RH×W×C1為解碼器上采樣之后的輸出矩陣;σ1與σ2分別為ReLU 與Sigmoid 激活函數(shù);ψT∈R1×1×1、均是線性變換為1×1 卷積的參數(shù)矩陣;bg∈RC與bψ∈R 為卷積的偏置矩陣;輸出的注意力系數(shù)為連接操作之前注意力門的輸出結果;?為矩陣點乘操作。注意力門模塊如圖5所示。
圖5 注意力門模塊Fig.5 Attention gate module
對于熱圖回歸,標志點檢測的實質(zhì)是預測以每個真實標志點為中心的非標準化高斯分布的熱圖,然后執(zhí)行非極大抑制恢復標志點的坐標。為提高標志點的回歸精度,將更加關注標志點附近像素處的誤差,更少關注背景區(qū)域的像素誤差?;诖?,本文提出一種改進的MSE 損失函數(shù),其表達式如式(10)所示:
其中:y與分別表示真實熱圖與預測熱圖每個位置的像素值;λ為超參數(shù),可以對真實熱圖的像素真值進行指數(shù)加權,隨著與標志點距離的增加,權值λy逐漸減小為1。在訓練過程中,解碼器在多個尺度Wi上多次生成標志點熱圖hi,在每個熱圖輸出處定義一個像素平均損失函數(shù)Li,最終得到AIW-Net 的損失函數(shù)L,如式(11)~式(12)所示:
3.1.1 數(shù)據(jù)集及其處理
本文采用ISBI 2015 Grand Challenge[10]提供的 cephalometric X-rays 數(shù)據(jù)集進行頭影標志點檢測,共400 張cephalometric X-rays 圖像,每張圖像均包含由2 名專業(yè)醫(yī)生標注的19 個標志點,圖像示例見圖6。表1 列出了圖6 標注的19 個標志點及其名稱。取2 名醫(yī)生標注的平均值作為訓練與測試的真實標簽。每張圖像的分辨率為2 400×1 935 像素,每個像素值大約為0.1 mm。cephalometric X-rays 數(shù)據(jù)集劃分為用于訓練的150 張圖像以及用于測試的150 張Test 1 數(shù)據(jù)集與100 張Test 2 數(shù)據(jù)集。為加速網(wǎng)絡收斂,對每一張圖像進行歸一化的增強操作,將輸入X-rays 圖像RGB 通道的均值分別設置為mean=[0.485,0.456,0.406],對應的方差分別是std=[0.229,0.224,0.225]。
圖6 cephalometric X-rays 圖像示例Fig.6 Example of cephalometric X-rays image
表1 19 個標志點及其名稱Table 1 19 mark points and their names
3.1.2 評價指標
受ISBI 2015 Grand Challenge 的啟發(fā),本文將平均徑向誤差(Mean Radial Error,MRE)與成功檢測率(Successful Detection Rate,SDR)作為頭影標志點檢測的評價指標。平均徑向誤差表達式如式(13)和式(14)所示:
其中:Δx與Δy分別為預測標志點與真實標志點在x與y坐標上的絕對誤差;K為標志點的數(shù)量;N為測試階段圖片的數(shù)量。成功檢測率表示若絕對誤差在某個范圍內(nèi),則認為它在該范圍內(nèi)是正確的,成功檢測率的表達式如式(15)和式(16)所示:
其中:z代表測量范圍;N0表示在該范圍內(nèi)的圖片數(shù)量;N為測試時全部圖片的數(shù)量;K為標志點的數(shù)量。在實驗中,SDR 評估了當z=2.0 mm,2.5 mm,3.0 mm,4.0 mm時模型成功檢測到標志點的百分比。
實驗基于PyTorch1.8.0 框架與Python3.6 實現(xiàn),將輸入網(wǎng)絡的圖像設置為800×640 像素大小。經(jīng)過多次訓練比較,設置損失函數(shù)的超參數(shù)λ為50,初始學習率為0.000 1,每經(jīng)過50 個epoch 便以0.1 倍進行衰減。使用Adam 優(yōu)化器對網(wǎng)絡在GeForce RTX 2080 Ti GPU 上進行500 個epoch 的訓練,每次批量大小設置為1。
3.3.1 與其他頭影標志點檢測模型比較
將現(xiàn)有頭影測量標志點檢測模型與本文AIWNet 模型的性能進行對比,結果如表2 所示,表中加粗數(shù)字表示該組數(shù)據(jù)最大值,“—”表示無此數(shù)據(jù)。由 表2 可 知,AIW-Net 模型在Test 1 與Test 2 數(shù)據(jù)集上的MRE 分別為1.14 mm 與1.40 mm,與文獻[14]提出的模型性能相當,但相較于文獻[3]、文獻[6]與文獻[12]所提出的模型性能有大幅提升。當z=2.0 mm,2.5 mm,3.0 mm,4.0 mm 時,AIW-Net 模型的SDR 值在Test 1 數(shù)據(jù)集上分別為86.38%、92.10%、95.50%與98.52%,在Test 2 數(shù)據(jù)集上分別為75.91%、83.52%、89.31%與94.68%。
表2 AIW-Net 模型與其他模型的檢測結果Table 2 Detection results of AIW-Net model and other models
IBRAGIMOV 等[3]和LINDNER 等[6]模型通過結合隨機森林與統(tǒng)計形狀機器學習模型取得了不錯成績,與以上模型相比,AIW-Net 模型的SDR 值在Test1 數(shù)據(jù)集2 mm 檢測范圍內(nèi)分別增加了14.68%、11.43%,MRE 值分別減少了0.70 mm 和0.53 mm。在基于深度學習的模型中,相對于最先進的ZHONG[14]模型,本文模型在2.5 mm、3 mm 以及4 mm 檢測范圍內(nèi)的成功檢測率均高于該模型,雖然本文模型在2 mm 范圍內(nèi)的SDR 值低于ZHONG[14]模 型,但ZHONG[14]模型采用多個階段U-Net 網(wǎng)絡(全局與局部U-Net)以及基于圖像塊的模型回歸熱圖,增加了時間與運算成本。
將本文模型分別與OH[24]模型、ZHONG[14]模型進行對比,采用模型參數(shù)量、運算復雜度、模型尺寸、單張圖像訓練時間4 個指標進行評價,結果如表3所示。
表3 不同模型復雜度的對比結果Table 3 Comparison results of complexity of different models
由表3 可以看出,本文模型通過使用輕量級主干網(wǎng)絡MobileNetV2,并在采樣路徑中采用改進的倒殘差結構而沒有使用普通卷積層,加快了模型收斂,使模型參數(shù)量比ZHONG[14]模型降低了28M;在運算復雜度與模型大小上,本文模型比ZHONG[14]模型降低了16.8 frame/s 和162 MB,能夠部署到資源受限的設備上。在batch size 同為1 的情況下,本文模型的單張圖像訓練速度相對于ZHONG[14]模型提高了將近1.5 倍。OH[24]模型在復雜度指標上與本文模型基本相當,但在Test 1 與Test 2 數(shù)據(jù)集上的MRE 值與SDR 值卻不及本文模型。綜上可知,本文模型在模型運算復雜度與預測精度之間實現(xiàn)了平衡。
3.3.2 與經(jīng)典關鍵點檢測模型的對比
為進一步說明本文AIW-Net 模型的有效性,對比了其他先進的關鍵點檢測模型在Test 1 數(shù)據(jù)集上的結果,結果如表4 所示,表中加粗數(shù)字表示該粗數(shù)據(jù)最大值。
表4 不同模型在Test 1 數(shù)據(jù)集上的結果對比Table 4 Comparison of results of different models on Test 1 dataset
由表4 可知,本文模型相對于其他關鍵點檢測模型性能較好,而且在臨床實踐可接受的2 mm 與2.5 mm 范圍內(nèi),其SDR 值相對于性能次之的CPN 模型分別提高了1.54%、0.91%。Unet 模型使用較淺的骨干網(wǎng)絡VGG 作為編碼器,在網(wǎng)絡訓練過程中需要900 個epoch 才能達到最終收斂。AIW-Net 模型相對于FPN 模型而言,其MRE 值直接減少了0.20 mm,表明使用增加雙重采樣路徑和采用通道合并的融合方式可以實現(xiàn)更好的特征融合。表4 中其余幾種模型在二維人體姿態(tài)估計[22-24]任務中表現(xiàn)出了良好的性能,但在靜態(tài)的醫(yī)學圖像關鍵點檢測中卻表現(xiàn)一般。AIW-Net 模型將人體姿態(tài)估計的熱圖回歸方法引入到醫(yī)學圖像中,在圖像關鍵點的回歸與自動定位中實現(xiàn)了重大突破。
為驗證本文所提標志點檢測模型的合理性與優(yōu)越性,在Test 1 數(shù)據(jù)集上進行了消融實驗。針對本文所設計的引入中間監(jiān)督的多尺度熱圖融合結構、改進的倒殘差結構、注意力門模塊,與以下模型進行對比:
1)W-Net*模型,其經(jīng)過預訓練且未添加上述模塊,損失函數(shù)為多尺度指數(shù)加權(multi-EW)函數(shù),該模型的形狀類似于“W”。
2)W-Net 模型,添加多尺度中間熱圖的結構。
3)IW-Net 模 型,在W-Net 模型中添加改進的倒殘差結構。
4)AIW-Net 模型,在IW-Net 模型中添加注意力門模塊。
5)AIW-Net*模型,使用多尺度均方差(multi-MSE)作為損失函數(shù)。
不同模型在Test 1 數(shù)據(jù)集上的實驗結果如表5所示,表中加粗數(shù)字為該組數(shù)據(jù)的最大值。
表5 不同模型在Test 1 數(shù)據(jù)集上的結果Table 5 Results of different models on Test 1 dataset
由表5 可知,AIW-Net 模型的表現(xiàn)性能最好,在臨床可接受范圍2 mm 與2.5 mm 內(nèi)的SDR 值分別為86.38%與92.10%。通過對比W-Net*與W-Net 模型可知,使用中間監(jiān)督生成不同尺度的熱圖,然后將不同尺度的熱圖與特征圖進行融合,能夠使MRE 值降低0.08 mm,使得在2 mm 范圍內(nèi)的SDR 值提升了0.68%,這說明熱圖融合的方法在特征提取方面發(fā)揮了良好的作用。
由表5 還可知,由于W-Net 模型在原模型的基礎上添加了倒殘差結構(IR*),使得其標志點的MRE值直接從原來的1.28 mm 降低為1.18 mm,且在2 mm、2.5 mm 以及3 mm 范圍內(nèi)的SDR 值均有所提升。由于標志點的像素區(qū)域比背景區(qū)域小得多,容易影響標志點的準確預測,因此本文通過添加注意力門模塊使特征圖的響應集中在目標關鍵點周圍,降低受其他背景結構(如耳朵,牙齒,下頜骨)遮擋的標志點的錯誤檢測率,具體結果如圖7 所示。由圖7可知,由于AIW-Net 模型添加了注意力門模塊,圖7中第1 行被耳朵與牙齒遮擋的標志點4 與標志點6,以及圖7 中第2 行被下頜骨背景遮擋的標志點10,其定位效果都更加接近真實標志點。
圖7 添加注意力門前后標志點檢測結果Fig.7 Detection results of mark points before and after adding attention gate
圖8 與 圖9 分別為AIW-Net 模型在Test 1 與Test 2 數(shù)據(jù)集上輸出圖像與輸入圖像具有相同分辨率(800×640 像素)的預測熱圖,以及由熱圖轉(zhuǎn)換的預測點與真實點可視化結果。從圖8 與圖9 可知,即使在個體頭部組織結構存在較大差異以及在采集的X 射線圖像較模糊的情況下,本文模型依然能準確預測標志點。最后本文對比了不同損失函數(shù)對AIW-Net 與AIW-Net*模型性能的影響,具體結果如表5 最后兩行數(shù)據(jù)所示,可以看出,使用多尺度指數(shù)加權(multi-EW)函數(shù)后,MRE 值減少了0.03 mm,且在標志點附近2 mm 誤差范圍內(nèi)的SDR 值達到了86.38%,證明了本文所提損失函數(shù)的有效性。
圖8 AIW-Net 模型在Test 1 數(shù)據(jù)集上的可視化結果Fig.8 Visualization results of AIW-Net model on Test 1 dateset
圖9 AIW-Net 模型在Test 2 數(shù)據(jù)集上的可視化結果Fig.9 Visualization results of AIW-Net model on Test 2 dateset
本文面向頭影測量X 射線標志點檢測任務,提出一種改進的多尺度特征融合的AIW-Net 端到端檢測模型。采用預訓練的輕量型網(wǎng)絡MobileNetV2 提取特征,并通過中間模塊與解碼器不斷優(yōu)化檢測效果。在中間模塊的下采樣路徑中采用改進的倒殘差結構減少特征損失,在解碼器中采用上采樣卷積路徑將特征圖尺寸恢復到到原始分辨率大小,并引入從粗到細的中間監(jiān)督思想,實現(xiàn)多個尺度熱圖與特征圖的融合。實驗結果表明,本文模型在臨床實踐可接受誤差范圍內(nèi)的檢測效果好于W-Net、IW-Net等模型。下一步將對解碼器網(wǎng)絡以及數(shù)據(jù)增強方式進行改進,解決頭影標志點檢測模型在頭影邊緣輪廓區(qū)域的檢測精度相對其他區(qū)域較低的問題。