多特征尺度融合改進(jìn)Faster-RCNN視網(wǎng)膜微動脈瘤自動檢測算法

2023-06-16 06:55:00高瑋瑋楊亦樂方宇樊博宋楠

光子學(xué)報 2023年4期

高瑋瑋，楊亦樂，方宇，樊博，宋楠

（1 上海工程技術(shù)大學(xué) 機(jī)械與汽車工程學(xué)院，上海 201620）

（2 復(fù)旦大學(xué)附屬眼耳鼻喉醫(yī)院眼科，上海 200031）

0 引言

視網(wǎng)膜微動脈瘤（Microaneurysms，MAs）是一種微小血管病變，由血管壁變?nèi)跻鸬拿?xì)血管腫脹形成［1］，因此MAs 可能與不同的眼科和心血管疾病相關(guān)［2］。例如，MAs 已被證實(shí)是中風(fēng)的先兆因素［3］。此外，MAs 更是糖尿病視網(wǎng)膜病變（簡稱“糖網(wǎng)”，Diabetic Retinopathy，DR）［4］的最早期典型癥狀。糖網(wǎng)是一種由糖尿病引發(fā)的視網(wǎng)膜疾病，是目前全球?qū)е轮欣夏耆巳菏鞯闹饕颍?］。對于糖網(wǎng)，至關(guān)重要的是對該疾病的及早發(fā)現(xiàn)，以阻止疾病的進(jìn)展和預(yù)防潛在的視力損失。然而，MAs 尺寸較小，相對于眼底圖像而言屬于微小目標(biāo)；且由于視覺條件不理想，MAs 可能相對于背景呈現(xiàn)低對比度，或者可能受到圖像中不均勻照明的影響；此外，MAs 還可能與圖像中的其他結(jié)構(gòu)混淆，例如微出血、色素沉著變化，甚至是眼底照相機(jī)中的灰塵顆粒。故針對眼底圖像中的MAs 進(jìn)行自動檢測是一項(xiàng)極具挑戰(zhàn)性的任務(wù)，很多研究人員就此展開了相關(guān)研究。

MAs 自動檢測算法通?？煞譃槿悾夯谖锢砟Ｐ偷姆椒?、基于分類器的方法以及基于深度學(xué)習(xí)的方法?；谖锢砟Ｐ偷姆椒ㄖ饕鶕?jù)MAs 的灰度分布特征進(jìn)行數(shù)學(xué)建模，如：賴小波等［6］提出了一種基于特征相互關(guān)系的視網(wǎng)膜MAs 自動提取算法；鄭紹華等［7］提出了一種新的基于Radon 變換的方法對眼底圖像中的MAs 進(jìn)行識別；高瑋瑋等［8］提出了一種基于數(shù)學(xué)形態(tài)學(xué)擴(kuò)展極小值變換的MAs 自動檢測方法； ZHANG Xinpeng 等［9］提出了一種基于特征轉(zhuǎn)移網(wǎng)絡(luò)和局部背景抑制的MAs 檢測方法等。基于分類器的方法一般先獲取MAs 候選區(qū)，然后再通過所設(shè)計(jì)分類器對候選區(qū)進(jìn)行分類，如ORLANDO J I 等［10］首先采用中值濾波去除眼底圖像中的MAs，再經(jīng)過形態(tài)學(xué)膨脹得到糖網(wǎng)背景圖像，在此基礎(chǔ)上將原圖與糖網(wǎng)背景圖像相減得到MAs 的候選區(qū)，然后對候選區(qū)提取傳統(tǒng)特征和深度特征用于MAs 分類；WU B 等［11］利用從眼底圖像中提取出的多個輪廓和局部特征訓(xùn)練KNN 分類器以實(shí)現(xiàn)MAs 的準(zhǔn)確分類；YADAV D 等［12］首先通過分析直方圖進(jìn)行MAs 候選區(qū)域分割，然后再根據(jù)MAs 候選區(qū)域的形狀、灰度、紋理等特征進(jìn)行識別等?；谏疃葘W(xué)習(xí)的MAs 自動檢測方法主要為搭建端到端的深度神經(jīng)網(wǎng)絡(luò)，如DAI L 等［13］提出了一種臨床報告引導(dǎo)的多篩分卷積神經(jīng)網(wǎng)絡(luò)，該網(wǎng)絡(luò)利用臨床報告中的少量監(jiān)督信息，通過特征空間中的圖像到文本映射來識別潛在的MAs；ROHAN R A［14］提出了一種基于YOLO（You Only Look Once）的MAs 自動檢測算法；趙學(xué)功等［15］提出了基于卷積神經(jīng)網(wǎng)絡(luò)的MAs 自動檢測方法；XU Y 等［16］提出一種基于改進(jìn)U-Net 網(wǎng)絡(luò)的MAs 自動分割算法等；郭松等［17］提出一種基于多任務(wù)學(xué)習(xí)的分割模型Red-Seg 來獲取眼底圖像中的MAs。

由于眼底圖像會因?yàn)榛颊?、環(huán)境、采集設(shè)備等因素的不同而出現(xiàn)不同的亮度和對比度，且還會存在類似于MAs 的對象，如小血塊、血管結(jié)構(gòu)、背景噪聲等，故基于物理模型的方法不僅難以建立廣泛適用的算法且容易造成誤檢。基于分類器的方法通常先采用濾波、形態(tài)學(xué)、背景估計(jì)等傳統(tǒng)方法進(jìn)行候選區(qū)提取，而這些方法極易受到參數(shù)的制約，同時由于眼底圖像內(nèi)容復(fù)雜，故容易使對于微動脈瘤的檢測精度不高?；谏疃葘W(xué)習(xí)的方法相較于上述兩種方法所存在的不足，有明顯的優(yōu)勢，但針對眼底圖像的微小目標(biāo)——MAs 的自動檢測而言，現(xiàn)有深度學(xué)習(xí)模型仍存在一些問題，如：小目標(biāo)的特征無法得到充分利用、回歸框位置不準(zhǔn)確、檢測精度不夠高等，故提出了多特征尺度融合的改進(jìn)Faster-RCNN（Improved Faster-RCNN，F(xiàn)aster-RCNN-Pro）用于實(shí)現(xiàn)眼底圖像中MAs 的精準(zhǔn)檢測。該方法首先選用檢測精度較優(yōu)的Faster-RCNN 作為基礎(chǔ)網(wǎng)絡(luò)，然后結(jié)合眼底圖像中的MAs 自動檢測，對其進(jìn)行優(yōu)化，具體為：首先通過采用多特征尺度融合對特征提取網(wǎng)絡(luò)與區(qū)域候選網(wǎng)絡(luò)（Region Proposal Network，RPN）結(jié)構(gòu)進(jìn)行改進(jìn)以提高網(wǎng)絡(luò)對于微小目標(biāo)特征的利用從而提高M(jìn)As 的檢測精度；然后，通過感興趣區(qū)域齊平池化以消除感興趣區(qū)域池化過程中引入的兩次量化誤差；最后，對損失函數(shù)中的smooth L1 損失函數(shù)進(jìn)行重新設(shè)計(jì)得到平衡L1 損失函數(shù)，以實(shí)現(xiàn)通過損失函數(shù)優(yōu)化有效降低大梯度難學(xué)樣本與小梯度易學(xué)樣本間的不平衡問題，進(jìn)而使模型能夠得到更好的訓(xùn)練。在完成Faster-RCNN 網(wǎng)絡(luò)模型優(yōu)化的基礎(chǔ)上，將該網(wǎng)絡(luò)模型用于眼底圖像中MAs 的自動檢測，并進(jìn)行性能分析。

1 實(shí)驗(yàn)材料及設(shè)備

實(shí)驗(yàn)采用Kaggle DR 數(shù)據(jù)集用以訓(xùn)練和測試所提出的Faster-RCNN-Pro 算法對于眼底圖像中MAs 的自動檢測性能。Kaggle DR 數(shù)據(jù)集由EyePACS（視網(wǎng)膜病變篩查免費(fèi)平臺）提供，來源于44 351 位患者（左右眼各一幅），共計(jì)有35 126 幅訓(xùn)練圖像和53 576 幅測試圖像，圖像的分辨率在433×289 像素～5 184×3 456 像素之間［18］。眼科醫(yī)師基于國際標(biāo)準(zhǔn)對每幅眼底圖像進(jìn)行了0～4 的糖網(wǎng)病患病程度的5 級分級，但由于本文研究的是所提出算法對于MAs 病灶的自動檢測性能，故需對該數(shù)據(jù)集進(jìn)行預(yù)處理以滿足本研究的需求，具體為：利用文獻(xiàn)［8］所述方法并輔以眼科醫(yī)師的指導(dǎo)對Kaggle DR 數(shù)據(jù)集進(jìn)行預(yù)處理以獲取MAs 圖像及注釋文件。由于Kaggle DR 數(shù)據(jù)集的分布不平衡，經(jīng)過該階段預(yù)處理去除了大量圖像（該數(shù)據(jù)集中幾乎90%的圖像不包含任何病變），最后只剩下5 519 幅包含MAs 的眼底圖像。對于這5 519 幅眼底圖像，均生成了注釋文件。生成注釋文件后，整個數(shù)據(jù)集（5 519 幅圖像）按90/10 的比例進(jìn)行劃分，5 000 幅用于訓(xùn)練，519 幅眼底圖像用于測試。此外，為充分驗(yàn)證所提出改進(jìn)網(wǎng)絡(luò)的檢測性能，對原本包含519 幅眼底圖像的測試集予以增加200 幅健康眼底圖像進(jìn)行擴(kuò)充，即實(shí)際測試時測試集包含719 幅眼底圖像。

實(shí)驗(yàn)采用的操作系統(tǒng)為ubuntu-18.04.5；CPU 為Intel Core i5-10300H；RAM 大小為32 GB；GPU 為RTX2060，顯存大小為8 GB。運(yùn)行軟件環(huán)境為Pycharm；python 版本為3.7；Pytorch 版本為1.3.0；OpenCV 版本為4.5；此外，安裝Cuda10.1 和Cudnn7.51 進(jìn)行GPU 加速運(yùn)算。

2 網(wǎng)絡(luò)設(shè)計(jì)

Faster-RCNN［19-21］檢測算法相較于YOLO［22-24］檢測算法，多增設(shè)了一個RPN 結(jié)構(gòu)，這不僅使其成為了兩階段的檢測算法，而且提高了檢測精度，故其檢測準(zhǔn)確性通常要優(yōu)于YOLO 算法，具體算法流程如圖1。由于MAs 尺寸較小（直徑在10～100 μm 之間，具體形態(tài)如圖1），屬于眼底圖像中的微小目標(biāo)，因此利用原始Faster-RCNN 對眼底圖像中的MAs 進(jìn)行檢測時會出現(xiàn)一些不足，如檢測性能不夠好、回歸框位置不準(zhǔn)確、數(shù)據(jù)分布不均勻等問題。針對以上問題，對Faster-RCNN 網(wǎng)絡(luò)提出了3 點(diǎn)改進(jìn)，分別為：多特征尺度融合、感興趣區(qū)域齊平池化、損失函數(shù)優(yōu)化（具體為對損失函數(shù)函數(shù)中的smooth L1 損失函數(shù)進(jìn)行重新設(shè)計(jì)得到平衡L1 損失函數(shù)），改進(jìn)后的算法流程如圖2。

圖1 Faster-RCNN 算法結(jié)構(gòu)Fig.1 Faster-RCNN algorithm structure

圖2 改進(jìn)后的算法流程Fig.2 Flow of improved algorithm

2.1 多特征尺度融合

在特征提取網(wǎng)絡(luò)VGG16 的結(jié)構(gòu)中，特征圖的尺寸在卷積的過程中越來越小，與之對應(yīng)的待檢測目標(biāo)的特征信息也在不斷變小。而RPN 網(wǎng)絡(luò)采用最后一層特征圖卷積得到的信息作為特征圖并進(jìn)行后續(xù)的操作，這會導(dǎo)致小目標(biāo)的特征無法得到充分利用，這很明顯對于MAs 的自動檢測是非常不利的，故采用多特征尺度融合的方法對特征提取網(wǎng)絡(luò)與RPN 結(jié)構(gòu)進(jìn)行改進(jìn)，將該改進(jìn)結(jié)構(gòu)的Faster-RCNN 稱為Faster-RCNN-I。

多特征尺度融合是通過一定的方式整合具有高層語義信息的深層網(wǎng)絡(luò)特征圖的空間特征維度，使其與具有低層語義信息的淺層網(wǎng)絡(luò)特征圖相同后，按照相加的方式進(jìn)行融合，從而使提取出的特征圖能夠具有更豐富的語義信息以供后續(xù)環(huán)節(jié)使用［25］。多特征尺度融合后，需要在網(wǎng)絡(luò)結(jié)構(gòu)、檢測和分類層、感興趣池化層共3 個層上進(jìn)行改進(jìn)。

在特征提取主干網(wǎng)絡(luò)上，將卷積層每次降采樣稱為一個Stage，如圖3 所示，主干網(wǎng)絡(luò)可分為5 個Stage，分別為C1，C2，C3，C4和C5。對于Ci(i=1，2，3，4，5)，通過1×1 的卷積操作與下采樣，使得其與Ci-1的尺度相匹配并相加，最后通過3×3 的卷積消除相加后由多維特征不連續(xù)產(chǎn)生的混疊效應(yīng)，從而得到新的特征圖Pi(i=1，2，3，4，5)。

圖3 多特征尺度融合Fig.3 Multi-feature scale fusion

RPN 網(wǎng)絡(luò)計(jì)算采用的是網(wǎng)絡(luò)最后一層的特征圖，對原圖映射至特征圖的k個預(yù)設(shè)大小的Anchor Box 進(jìn)行分類與回歸。這k個Anchor Box 預(yù)先設(shè)置為固定的長寬比，且在RPN 中使用同一個Stage 的特征圖進(jìn)行計(jì)算。為融合多特征尺度，Anchor Box 在保持原有預(yù)設(shè)大小與比例尺度的情況下，在不同的特征圖上匹配與之相應(yīng)的Anchor Box。考慮到計(jì)算效率，將Anchor Box 分別分布在P2、P3、P4這三個特征層上面，每一個特征圖上分配的Anchor Box 均有3 種比例尺度，分別為1∶1、1∶2、2∶1。在RPN 檢測時，目標(biāo)在哪個特征圖上能夠分類出則采用該層的Anchor Box，具體過程如圖4。

圖4 多特征融合下的RPNFig.4 RPN based on multi feature fusion

在改變RPN 生成的區(qū)域建議后，對于特征圖的Pooling 方式也需隨之變化。原始Faster RCNN 中RoI（Region of Interest）Pooling 是把最后一層特征圖作為輸入，其中特征圖與RPN 產(chǎn)生的映射關(guān)系可表示為

式中，P表示特征圖的層級，P越大，對應(yīng)特征圖的尺度越?。? 表示輸入層級；k是輸入圖像尺度；w，h分別表示RoI 區(qū)域的寬與長。由式（1）可知，RoI Pooling 的輸入單一，通過在最后一層特征圖上使用RPN 提取出的RoI 區(qū)域作為輸入，這無法有效利用多特征尺度RPN 獲取的RoI 區(qū)域，故需對RoI Pooling 進(jìn)行改進(jìn)，具體可表示為

式中，輸入的特征圖為當(dāng)前層的特征圖與深一層的小尺度特征圖通過下采樣的方式求和后的結(jié)果。通過將RPN 在多特征尺度上得到的RoI 區(qū)域?qū)?yīng)的特征圖作為RoI Pooling 的輸入，確保了目標(biāo)特征能夠映射到特征圖上，從而提高了目標(biāo)檢測精度。

2.2 感興趣區(qū)域齊平池

為進(jìn)一步提升對MAs 的檢測性能，還需對RoIPooling 做出改進(jìn)。原始RoI Pooling 中，初始像素點(diǎn)與RPN 得出的特征圖上RoI 區(qū)域像素點(diǎn)對應(yīng)關(guān)系為［20］

式中，(xfeature，yfeature)為特征圖上的像素坐標(biāo)，(x，y)為RoI 區(qū)域在原始圖像上的坐標(biāo)，s為下采樣倍數(shù)，表示為取比括號內(nèi)值小的最大整數(shù)，即向下取整。由于在計(jì)算(xfeature，yfeature)時，存在向下取整的計(jì)算，故此處引入了一次量化誤差。此外，在RoI Pooling 的過程中，需將RoI 的輸入直接固定成預(yù)設(shè)的大小，這帶來了第二次量化誤差。這兩次量化誤差使得原始特征區(qū)域與映射特征區(qū)域產(chǎn)生了偏差，這些偏差對數(shù)據(jù)集中的小目標(biāo)——MAs 的檢測影響很大，故提出對感興趣區(qū)域進(jìn)行齊平池化（如圖5），圖5 中黑色矩形框表示RoI 區(qū)域在特征圖上的映射位置，具體關(guān)系可表示為

圖5 感興趣區(qū)域齊平池化Fig.5 Flush pooling of RoI

圖5 中綠色實(shí)線表示根據(jù)RoI Pooling 的實(shí)際需求將區(qū)域分割為n個子區(qū)域，其中n的大小對應(yīng)輸出特征圖尺度。圖5 中每一個子區(qū)域中設(shè)置4 個點(diǎn)，每個點(diǎn)的像素值由特征圖上最鄰近區(qū)域的四個像素點(diǎn)通過雙線性插值法獲?。?6］，如紅色箭頭所示；隨后，池化的過程在每個子塊中進(jìn)行，最終得到尺寸齊平的輸出。該感興趣區(qū)池化過程與Faster-RCNN 池化即RoI Pooling 過程的對比如圖6。將該改進(jìn)結(jié)構(gòu)的Faster-RCNN 稱為Faster-RCNN-II。

圖6 感興趣區(qū)池化過程對比Fig.6 Comparison of pooling process in RoI

2.3 損失函數(shù)優(yōu)化

Faster-RCNN 的損失函數(shù)包括分類損失和回歸損失兩部分，可表示為［20］

式中，下標(biāo)i表示第i個候選區(qū)域，i隨同批次中真值數(shù)量變化；pi為檢測網(wǎng)絡(luò)中離散型概率分布，即判定第i個目標(biāo)的類別；p*i為第i個框的GT（Ground Truth）標(biāo)定值，即真實(shí)值（當(dāng)該框中存在該目標(biāo)物時p*i=1；反之，p*i=0）；分類損失Lcls和回歸損失Lreg分別由Ncls、Nreg以及權(quán)重λ歸一化。ti={tx，ty，tw，th}表示目標(biāo)物位置的預(yù)測值；ti*={tx*，ty*，tw*，th*}則是學(xué)習(xí)樣本中人工給定的監(jiān)督信息。

對于回歸損失，由于參數(shù)回歸時均近似為線性回歸，且標(biāo)注信息噪聲較多，梯度回傳不穩(wěn)定［27］，為緩解這一情況，回歸損失使用梯度平緩的SmoothL1損失函數(shù)，可分別表示為

式（6）中的R即為式（7）中的Smooth L1 損失函數(shù)。其中，參數(shù)σ用于控制平滑區(qū)域的范圍，以避免過大的梯度對網(wǎng)絡(luò)參數(shù)產(chǎn)生過多的影響。

對式（7）求梯度，即

反向傳播中損失較大的定義為困難樣本，換言之容易樣本損失較小。故由式（8）發(fā)現(xiàn)，在smoothL1 函數(shù)中，困難樣本相較于容易樣本來說，提供了更多的梯度信息，這導(dǎo)致了難易樣本間學(xué)習(xí)能力的不平衡。

為解決該問題，設(shè)計(jì)了balanceL1 損失函數(shù)，即由式（8）得到balanceL1 損失的梯度函數(shù)，表示為

其中，反向傳播時提供梯度高于γ的樣本取γ作為梯度，以此平衡小梯度樣本的梯度值與難學(xué)樣本的梯度值。在此基礎(chǔ)上，根據(jù)式（9）的梯度信息，通過積分求得平衡L1 損失函數(shù)為

圖7 損失函數(shù)梯度Fig.7 Loss function gradient

3 結(jié)果與分析

3.1 評價指標(biāo)

在目標(biāo)檢測任務(wù)中，通常使用召回率（Recall，R）和精確率（Precision，P）以及綜合考慮召回率與精確率的指標(biāo)F-score 對網(wǎng)絡(luò)性能進(jìn)行評價。因此為評價所提出網(wǎng)絡(luò)模型對于MAs 的檢測性能，基于病灶區(qū)域水平定義了上述指標(biāo)，具體計(jì)算表達(dá)式分別為［28］

式中，ΤΡ（True Positive）為成功預(yù)測的正例，ΤΝ（True Negative）為成功預(yù)測的負(fù)例，F(xiàn)P（False Positive）為被誤判為正例的負(fù)例，F(xiàn)N（False Negative）為被錯誤預(yù)測為負(fù)例的正例。

3.2 實(shí)驗(yàn)結(jié)果及分析

利用Kaggle DR 數(shù)據(jù)集對所提出的Faster-RCNN-Pro 網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練時，超參數(shù)設(shè)置為：輸入圖像為彩色圖像，尺寸經(jīng)適當(dāng)裁減去掉背景區(qū)域并進(jìn)行壓縮后為1 024×768，批處理大小設(shè)置為2，迭代次數(shù)共計(jì)為31 000 次，基礎(chǔ)學(xué)習(xí)率為0.001 25（當(dāng)?shù)?3 000 次迭代后學(xué)習(xí)率衰減至0.000 125），優(yōu)化方法采用帶動量因子的小批量隨機(jī)梯度下降法，特征提取網(wǎng)絡(luò)部分采用在COCO 數(shù)據(jù)集上的模型作為預(yù)訓(xùn)練模型。

Faster-RCNN-Pro 深度學(xué)習(xí)檢測模型訓(xùn)練的損失函數(shù)在20 個輪次的訓(xùn)練周期內(nèi)，呈現(xiàn)收斂趨勢。在訓(xùn)練之初，損失函數(shù)快速下降，在迭代到22 000 次后，損失函數(shù)收斂放緩，但存在波動；在20 000 次迭代后，學(xué)習(xí)率下降到十分之一，損失函數(shù)也隨之下降，波動減少；直至30 000 次迭代，損失函數(shù)平穩(wěn)收斂，識別性能較好，故取第31 000 次迭代后的模型作為最終檢測模型。

為驗(yàn)證所提出的3 點(diǎn)改進(jìn)策略對于Faster-RCNN 算法檢測性能的影響，采用消融實(shí)驗(yàn)比分析不同改進(jìn)結(jié)構(gòu)的Faster-RCNN 算法分別在Kaggle DR 數(shù)據(jù)集上對MAs 的自動檢測性能，具體檢測結(jié)果見表1。由表1 可知，每種網(wǎng)絡(luò)改進(jìn)策略均在不同程度上提高了原始Faster-RCNN 的檢測性能，具體為：由于MAs 為尺寸微小目標(biāo)，通過多特征尺度融合可以有效提高對該病灶的檢測性能，故Faster-RCNN-I 的F-score 較Baseline（Faster-RCNN）提升了6.82%；通過感興趣區(qū)域齊平池化，先驗(yàn)框中更準(zhǔn)確的特征信息優(yōu)化了模型表現(xiàn)，故Faster-RCNN-II 的F-score 較Baseline（Faster-RCNN）提升了4.68%；采用優(yōu)化損失函數(shù)平衡了難學(xué)樣本和易學(xué)樣本對模型提供的梯度，降低了噪聲影響，故Faster-RCNN-III 的F-score 較Baseline（Faster-RCNN）提升了2.73%；尤其是3 種改進(jìn)策略均采用的Faster-RCNN-Pro 的檢測性能提升更為明顯，其Fscore 較Baseline（Faster-RCNN）提升了9.36%。

表1 不同改進(jìn)Faster-RCNN 模型在測試集上的性能評估Table 1 Performance evaluation of different improved Faster-RCNN models on the test set

由以上實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)，所提出的對Faster-RCNN 的3 點(diǎn)改進(jìn)在Kaggle DR 數(shù)據(jù)集上針對MAs 自動檢測，對于網(wǎng)絡(luò)性能提升是有效的。該網(wǎng)絡(luò)模型對MAs 的檢測效果如圖8。由圖8 可知，該網(wǎng)絡(luò)模型可以實(shí)現(xiàn)對眼底圖像中MAs 的準(zhǔn)確檢測。

此外，為進(jìn)一步驗(yàn)證所提出的基于多特征尺度融合的改進(jìn)Faster-RCNN 對眼底圖像中MAs 的自動檢測性能，將該方法與文獻(xiàn)［8］（基于圖像處理的方法）、文獻(xiàn)［12］（基于分類器的方法）、文獻(xiàn)［13］（采用多篩分卷積神經(jīng)網(wǎng)絡(luò)檢測MAs）、文獻(xiàn)［14］（采用YOLO 網(wǎng)絡(luò)自動檢測MAs）、文獻(xiàn)［15］（利用卷積神經(jīng)網(wǎng)絡(luò)檢測MAs）、文獻(xiàn)［16］（采用改進(jìn)U-Net 網(wǎng)絡(luò)自動分割MAs）對MAs 的自動檢測性能進(jìn)行了對比，結(jié)果如表2。由表2 可知，基于深度學(xué)習(xí)的方法即文獻(xiàn)［13-16］以及所提出的Faster-RCNN-Pro 算法的F-score 均優(yōu)于基于圖像處理方法以及基于分類器的方法。傳統(tǒng)算法（基于圖像處理的方法以及基于分類器的方法）的F-score低，是因?yàn)閭鹘y(tǒng)算法易受到參數(shù)限制，在眼底圖像這樣的復(fù)雜背景中提取的MAs 病灶候選區(qū)易存在較多干擾且無法排除，最終會成為FP，從而導(dǎo)致P值較低進(jìn)而影響F-score。結(jié)合表1、表2 可知，基于深度學(xué)習(xí)的方法即深度神經(jīng)網(wǎng)絡(luò)由于具有更強(qiáng)的擬合性，對于MAs 的自動檢測結(jié)果更為準(zhǔn)確，且兩階段的Faster-RCNN 因?yàn)镽PN 區(qū)域建議網(wǎng)絡(luò)的存在使得檢測性能參數(shù)F-score 明顯更優(yōu)，而經(jīng)過優(yōu)化后的Faster-RCNN-Pro 的檢測精度更是得到了明顯提升。但同時也應(yīng)注意到，深度神經(jīng)網(wǎng)絡(luò)也可能存在過擬合現(xiàn)象，從而導(dǎo)致部分MAs 會檢測不出，因此文獻(xiàn)［13-16］的召回率R會低于傳統(tǒng)算法，而Faster-RCNN-Pro 則很好地克服了這個問題。由此可見，所提出的Faster-RCNN-Pro 算法能準(zhǔn)確、有效地檢測出眼底圖像中的MAs，即檢測性能更優(yōu)。

表2 不同算法檢測性能對比Table 2 Comparison for detection performance of different algorithms

最后，將所提出的Faster-RCNN-Pro 對于眼底圖像中MAs 的自動檢測性能與YOLOv5 進(jìn)行了對比，結(jié)果如表3。結(jié)合表2、表3 可知，YOLOv5 算法通過使用Focus 與CSPDarknet53 特征提取網(wǎng)絡(luò)獲取多尺度圖像特征，相比之前的YOLO 網(wǎng)絡(luò)進(jìn)一步消除網(wǎng)格敏感性，優(yōu)化了小目標(biāo)特征信息差異，從而提高識別精度［29］，但是與Faster-RCNN-Pro 相比，其對于MAs 的檢測精度仍遜色不少。因此，就檢測精度而言，所提出的Faster-RCNN-Pro 明顯更優(yōu)，能精準(zhǔn)檢測出眼底圖像中的MAs。

表3 與YOLOv5 的檢測性能對比Table3 Comparison of detection performance with YOLOv5

4 結(jié)論

本文提出了多特征尺度融合的改進(jìn)Faster-RCNN 算法用以實(shí)現(xiàn)眼底圖像中MAs 的精準(zhǔn)檢測。該算法在Faster-RCNN 網(wǎng)絡(luò)模型的基礎(chǔ)上，分別通過采用多特征尺度融合以提高網(wǎng)絡(luò)對于微小目標(biāo)特征的利用，感興趣區(qū)域齊平池化以消除池化過程中引入的量化誤差，以及優(yōu)化損失函數(shù)有效降低大梯度難學(xué)樣本與小梯度易學(xué)樣本間的不平衡問題，從而實(shí)現(xiàn)針對眼底圖像中MAs 精準(zhǔn)檢測的Faster-RCNN 網(wǎng)絡(luò)優(yōu)化。在以Kaggle DR 數(shù)據(jù)集為測試對象的基礎(chǔ)上，采用消融實(shí)驗(yàn)分析驗(yàn)證了所提出的多特征尺度融合的改進(jìn)Faster-RCNN 算法能夠有效提升MAs 的自動檢測性能。此外，還將該方法與基于YOLO、基于深度卷積神經(jīng)網(wǎng)絡(luò)以及傳統(tǒng)方法對MAs 的自動檢測性能進(jìn)行了對比，發(fā)現(xiàn)所提出的多特征尺度融合的改進(jìn)Faster-RCNN 算法在MAs 的自動檢測精度方面明顯更優(yōu)。故所提出的多特征尺度融合的改進(jìn)Faster-RCNN 算法性能較優(yōu)，能精準(zhǔn)檢測出眼底圖像中的MAs。但改進(jìn)后的Faster-RCNN-Pro 仍為二階段目標(biāo)檢測算法，這使其與實(shí)時檢測之間還存在一定距離，未來可在檢測實(shí)時性上做進(jìn)一步深入研究，以期達(dá)到更好的檢測效果。