周 雯,史天運(yùn),李 平,馬小寧,楊 凱
(1.中國(guó)鐵道科學(xué)研究院,北京 100081; 2.中國(guó)鐵道科學(xué)研究院 電子計(jì)算技術(shù)研究所,北京 100081)
我國(guó)鐵路運(yùn)輸高速發(fā)展,旅客周轉(zhuǎn)量、運(yùn)輸密度、運(yùn)輸里程等均居世界第一。歷經(jīng)多次大提速后運(yùn)行速度顯著提高,周轉(zhuǎn)時(shí)間縮短,列檢保證區(qū)段延長(zhǎng),動(dòng)車組運(yùn)行的安全性受到越來(lái)越多的關(guān)注。動(dòng)車組結(jié)構(gòu)復(fù)雜,由大量的零部件構(gòu)成,即使是細(xì)小的零部件損壞,也可能造成災(zāi)難性事故,及時(shí)發(fā)現(xiàn)缺陷并修復(fù)關(guān)鍵零部件,如齒輪箱、轉(zhuǎn)向架及異物懸掛,可以提升動(dòng)車組的運(yùn)輸效率和安全保障。過(guò)去幾年中,可用于多種自動(dòng)操作、計(jì)算機(jī)視覺(jué)和數(shù)字圖像處理的應(yīng)用逐漸得到普及[1]。動(dòng)車組運(yùn)行故障動(dòng)態(tài)圖像檢測(cè)系統(tǒng)TEDS是一種實(shí)時(shí)圖像采集識(shí)別系統(tǒng),是計(jì)算機(jī)和圖像處理技術(shù)應(yīng)用于鐵路工程的典型案例。圖1為該系統(tǒng)的組成和工作原理。TEDS圖像采集模塊由4個(gè)側(cè)部相機(jī)和5個(gè)底部相機(jī)組成,能夠?qū)?dòng)車組底部及側(cè)部可視部件進(jìn)行線陣圖像采集,采集范圍主要包括:底部可視部件(車體底部及轉(zhuǎn)向架制動(dòng)裝置、傳動(dòng)裝置、牽引裝置、輪軸、車鉤裝置、電務(wù)車載設(shè)備車底部件)、側(cè)部可視部件(側(cè)部裙板、轉(zhuǎn)向架及軸箱、車端連接部等可視部位)。在數(shù)據(jù)處理中心簡(jiǎn)單操作后,圖像被傳送到監(jiān)視室以供室內(nèi)檢查員查看分析。由于檢測(cè)精度低,缺陷檢測(cè)在TEDS中尚未完全實(shí)現(xiàn)自動(dòng),需要室內(nèi)檢查員進(jìn)行二次識(shí)別,效率低且質(zhì)量不可控。因此,進(jìn)行自動(dòng)的TEDS缺陷檢測(cè)研究具有重要的意義。
圖1 動(dòng)車組運(yùn)行故障動(dòng)態(tài)圖像檢測(cè)系統(tǒng)概覽
動(dòng)車組車底、轉(zhuǎn)向架等關(guān)鍵部件結(jié)構(gòu)復(fù)雜,運(yùn)行過(guò)程中,易受運(yùn)行環(huán)境的影響而懸掛異物,如樹(shù)枝、紙片、塑料袋、瓶子等,若不及時(shí)發(fā)現(xiàn)并清理異物,將會(huì)影響動(dòng)車組關(guān)鍵部件的正常工作,導(dǎo)致動(dòng)車組的運(yùn)行安全受到威脅。此外,齒輪箱、抗蛇行減震器等關(guān)鍵部件的漏油,車底防松鐵絲的斷裂也會(huì)影響動(dòng)車組的安全性,見(jiàn)圖2。本文以TEDS缺陷自動(dòng)檢測(cè)及分割為主要研究任務(wù),該任務(wù)有3個(gè)主要特點(diǎn),一是懸掛異物的尺度多樣化,例如,輸入圖像為512×512像素,最小異物的尺度為25×25像素,占整幅圖像的0.24%,最大異物的尺度為461×431像素,占整幅圖像的76%,而多尺度目標(biāo)檢測(cè)為視覺(jué)任務(wù)中的一個(gè)挑戰(zhàn);二是缺陷數(shù)量遠(yuǎn)小于背景數(shù)量,例如,動(dòng)車組轉(zhuǎn)向架制動(dòng)、牽引裝置等復(fù)雜的零部件結(jié)構(gòu)作為背景,其零部件多達(dá)30種以上,而每幅圖像缺陷類別可能僅有1個(gè),見(jiàn)圖2(a);三是漏油缺陷尺寸多樣且與背景結(jié)構(gòu)差異小,導(dǎo)致邊界不清晰,見(jiàn)圖2(c)。針對(duì)TEDS缺陷檢測(cè)任務(wù)的特點(diǎn)與難點(diǎn),提出基于卷積神經(jīng)網(wǎng)絡(luò)的TEDS缺陷檢測(cè)模型。該模型通過(guò)特征金字塔網(wǎng)絡(luò)提取多尺度融合特征,利用區(qū)域提議網(wǎng)絡(luò)生成候選的未知缺陷類別區(qū)域ROI(Region of Interest),通過(guò)預(yù)測(cè)網(wǎng)絡(luò)合成ROI和多尺度融合特征圖的映射信息并對(duì)ROI進(jìn)行識(shí)別和位置回歸,并通過(guò)分割網(wǎng)絡(luò)生成預(yù)測(cè)區(qū)域的掩碼。兩個(gè)優(yōu)化方法OHEM和DCN針對(duì)正負(fù)樣本不平衡和缺陷尺寸多變的情況,提升缺陷檢測(cè)模型的性能,特別是小尺寸缺陷的檢測(cè)精度。
圖2 復(fù)雜背景下的TEDS缺陷
近年來(lái),一些學(xué)者開(kāi)始探索鐵路業(yè)務(wù)領(lǐng)域的目標(biāo)自動(dòng)檢測(cè)系統(tǒng),如貨車故障動(dòng)態(tài)圖像檢測(cè)系統(tǒng)TFDS,該研究過(guò)程可分為3個(gè)階段。
第一個(gè)階段是基于圖像處理算法的應(yīng)用,該階段中目標(biāo)檢測(cè)的方法僅依靠圖像處理,例如圖像分割和特征匹配,這些方法需要大量的先驗(yàn)知識(shí)。文獻(xiàn)[2]提出一種基于霍夫變換和模板匹配的鐵路貨車承載故障檢測(cè)系統(tǒng);文獻(xiàn)[3]采用局部歸一化的圖像處理算法,實(shí)現(xiàn)基于投影輪廓的鐵軌缺陷檢測(cè)。然而,這些方法的主要缺點(diǎn)是檢測(cè)精度較低,特別是在圖像背景復(fù)雜的情況下。
第二個(gè)階段是基于機(jī)器學(xué)習(xí)算法的應(yīng)用,旨在提高目標(biāo)檢測(cè)的效率和精度。文獻(xiàn)[4]采用基于支持向量機(jī)的分類器檢測(cè)貨車的閘瓦插銷是否丟失;文獻(xiàn)[5]研究了貨車轉(zhuǎn)向架自動(dòng)視覺(jué)檢測(cè)系統(tǒng),利用梯度編碼共生矩陣特征和支持向量機(jī)識(shí)別零部件缺失的故障;文獻(xiàn)[6]使用線性SVM模型檢查貨車緊固螺栓,該模型使用定向梯度直方圖HOG特征訓(xùn)練,超越了95%的識(shí)別率;文獻(xiàn)[7]采用基于灰度投影的方法確定螺栓區(qū)域,然后用基于定向梯度的稀疏直方圖和支持向量機(jī)的檢測(cè)器確定是否為螺栓區(qū)域。上述方法都是基于手工設(shè)計(jì)特征或圖像的統(tǒng)計(jì)特征,雖然優(yōu)于基于圖像處理的方法,但是不同的目標(biāo)需要設(shè)計(jì)不同的特征和大量的專家知識(shí),算法的穩(wěn)健性較低。
第三個(gè)階段是基于深度卷積神經(jīng)網(wǎng)絡(luò)算法的應(yīng)用,與前兩個(gè)階段的技術(shù)相比,深度卷積神經(jīng)網(wǎng)絡(luò)可以獲得更豐富、更抽象的通用特征,并在定位精度、識(shí)別準(zhǔn)確率和速度方面取得更好的結(jié)果。文獻(xiàn)[8]提出了基于卷積神經(jīng)網(wǎng)絡(luò)的TFDS(Trouble of Moving Freight Car Detection System)故障自動(dòng)識(shí)別,相比較傳統(tǒng)方法識(shí)別精度得到提升。然而,用于區(qū)域定位和故障分類的兩個(gè)模型增加了系統(tǒng)的復(fù)雜性,并且未考慮小目標(biāo)的檢測(cè),且采用選擇性搜索生成候選區(qū)域十分耗時(shí)。
文獻(xiàn)[9]針對(duì)CRH3型動(dòng)車組牽引逆變器絕緣柵雙極型晶體開(kāi)路問(wèn)題,利用鍵合圖對(duì)非線性的牽引逆變器進(jìn)行建模,利用最小二乘法對(duì)系統(tǒng)當(dāng)前行為進(jìn)行辨識(shí),通過(guò)比較系統(tǒng)的實(shí)際行為以及預(yù)期行為,產(chǎn)生故障識(shí)別向量,從而對(duì)開(kāi)路IGBT進(jìn)行識(shí)別和定位。文獻(xiàn)[10]提出一種基于機(jī)器視覺(jué)的列車外齒輪磨損狀態(tài)定量檢測(cè)方法,結(jié)合分塊分割、區(qū)域聚合及邊緣修正,實(shí)現(xiàn)齒面圖像嚙合區(qū)分割。TEDS在TFDS等5T系統(tǒng)在全路的成功推廣下應(yīng)用而生,將貨車運(yùn)行狀態(tài)的監(jiān)測(cè)擴(kuò)展至動(dòng)車組領(lǐng)域,上述研究為TEDS和基于卷積神經(jīng)網(wǎng)絡(luò)目標(biāo)檢測(cè)方法的結(jié)合提供了基礎(chǔ)。然而,動(dòng)車組的結(jié)構(gòu)相對(duì)而言更為復(fù)雜,零部件種類多樣,因此,基于卷積神經(jīng)網(wǎng)絡(luò)的TEDS缺陷自動(dòng)檢測(cè)的研究非常必要。
近年來(lái),深度卷積神經(jīng)網(wǎng)絡(luò)CNN已經(jīng)成為直接從圖像數(shù)據(jù)中自動(dòng)學(xué)習(xí)復(fù)雜、精細(xì)、抽象的通用特征表達(dá)的有力方法,并且推動(dòng)目標(biāo)檢測(cè)領(lǐng)域取得了重大突破。目標(biāo)檢測(cè)旨在圖像中識(shí)別預(yù)定義類別的實(shí)例,并返回其空間位置,而實(shí)例分割是在目標(biāo)檢測(cè)的基礎(chǔ)上返回實(shí)例的像素范圍并區(qū)分相同類別的不同實(shí)例,因此,目標(biāo)檢測(cè)邊框可能包含對(duì)分析有用的背景區(qū)域,而實(shí)例分割只包含目標(biāo)區(qū)域。
基于CNN的目標(biāo)檢測(cè)算法大致可以分為一階段方法和兩階段方法。一階段方法是直接從整幅圖像中識(shí)別預(yù)定義類別實(shí)例和回歸其位置,如YOLO、SSD[11-12],該方法速度快,可實(shí)現(xiàn)實(shí)時(shí)檢測(cè)。然而,它的檢測(cè)精度低,特別是對(duì)小目標(biāo)物體的檢測(cè)。兩階段方法首先從圖像中生成與類別無(wú)關(guān)的候選區(qū)域,然后利用RCNN確定區(qū)域的位置和類別。Faster RCNN[13]提出基于CNN的候選區(qū)域提議網(wǎng)絡(luò)RPN,首次利用單一的網(wǎng)絡(luò)完成候選區(qū)域生成和區(qū)域分類,該算法同時(shí)具備精度高、速度快的優(yōu)點(diǎn)。Mask RCNN[14]通過(guò)添加候選區(qū)域二進(jìn)制掩碼輸出的分支擴(kuò)展Faster RCNN實(shí)現(xiàn)實(shí)例分割,該算法精度高,結(jié)構(gòu)簡(jiǎn)單靈活。就多尺度檢測(cè)而言,F(xiàn)PN[15]利用特征金字塔不同尺度的特征圖實(shí)現(xiàn)多尺度目標(biāo)檢測(cè)。另外,基準(zhǔn)數(shù)據(jù)集(PASCAL VOC,MS COCO等)的最新領(lǐng)先結(jié)果都是基于Faster RCNN的,如ORN、MegDet[16-17]。
本文提出的模型采用兩階段的方法,實(shí)現(xiàn)TEDS缺陷的自動(dòng)檢測(cè),同時(shí)克服了復(fù)雜背景下正負(fù)樣本不平衡和缺陷形態(tài)尺寸變化多樣的困難,提高了檢測(cè)精度。
基于卷積神經(jīng)網(wǎng)絡(luò)的TEDS缺陷自動(dòng)檢測(cè)與分割模型的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,該模型由4個(gè)連接的子網(wǎng)絡(luò)組成:特征金字塔網(wǎng)絡(luò)、區(qū)域提議網(wǎng)絡(luò)、預(yù)測(cè)網(wǎng)絡(luò)和分割網(wǎng)絡(luò)。為了解決復(fù)雜背景下正負(fù)樣本的不平衡問(wèn)題,增加了只讀的在線困難樣本挖掘網(wǎng)絡(luò),篩選困難樣本,同時(shí),加入可變形卷積以提高多形態(tài)缺陷的定位和分割精度。
圖3 缺陷檢測(cè)與分割模型網(wǎng)絡(luò)結(jié)構(gòu)
特征金字塔網(wǎng)絡(luò)用來(lái)生成多尺度的具有豐富語(yǔ)義信息融合的特征圖,該子網(wǎng)絡(luò)包括自底向上的下采樣過(guò)程,自頂向下的上采樣過(guò)程,低分辨率、高語(yǔ)義信息的高層特征和高分辨率、低語(yǔ)義信息的低層特征自上而下的融合,見(jiàn)圖3中藍(lán)色部分。其中,自底向上的部分是ResNet-101基礎(chǔ)網(wǎng)絡(luò)的前向過(guò)程。任意尺寸的TEDS圖像輸入網(wǎng)絡(luò)后,重新定義為512×512像素,以步長(zhǎng)為2的下采樣計(jì)算多尺度特征圖,每個(gè)階段最后一個(gè)殘差結(jié)構(gòu)的輸出為特征圖,表示為{C2,C3,C4,C5};自頂向下的上采樣過(guò)程采用步長(zhǎng)為2的最近鄰插值方法,使得上采樣后的特征圖具有和下一層特征圖相同的大小;側(cè)邊橫向連接將上采樣的結(jié)果和自底向上生成的特征圖進(jìn)行融合,即將特征圖{C2,C3,C4,C5}進(jìn)行1×1的卷積操作,產(chǎn)生和后一層維度相同的特征圖,然后融合不同層的特征圖,得到一個(gè)新的具有更豐富信息融合的特征圖。在特征融合之后,采用3×3的卷積層對(duì)每個(gè)融合結(jié)果進(jìn)行卷積,目的是消除上采樣的混疊效應(yīng),最后得到的特征圖表示為{P2,P3,P4,P5} ,尺寸分別為128×128、64×64、32×32、16×16。
區(qū)域提議網(wǎng)絡(luò)用于在密集的錨框中初步選擇正樣本生成ROIs,見(jiàn)圖3中綠色部分。將特征圖{P2,P3,P4,P5,P6}作為輸入,P6是由P5經(jīng)過(guò)步長(zhǎng)為2的下采樣得到的大小為8×8像素的特征圖;在特征圖中每個(gè)像素點(diǎn)位置利用3×3的卷積層和k個(gè)錨框生成k個(gè)ROI,每個(gè)ROI都具有初步位置回歸信息和正負(fù)樣本標(biāo)記(缺陷或背景);利用非極大值抑制消除重復(fù)的ROI。這是粗略檢測(cè)的過(guò)程,為預(yù)測(cè)網(wǎng)絡(luò)提供先驗(yàn)信息,進(jìn)一步生成缺陷分類和更準(zhǔn)確的位置,并且減少了預(yù)測(cè)網(wǎng)絡(luò)的搜索空間。
預(yù)測(cè)網(wǎng)絡(luò)用于將區(qū)域提議網(wǎng)絡(luò)選擇的ROIs進(jìn)行正確分類和位置回歸,見(jiàn)圖3中紫色部分。首先,RoI Align層合成ROIs和特征圖的映射信息,來(lái)提取7×7的ROIs特征圖,對(duì)于任一個(gè)大小為w×h的ROI和特征圖{P2,P3,P4,P5,P6}的映射規(guī)則為
k=k0+log2(wh224)
(1)
其中:k0=4。假設(shè)原圖中有一個(gè)大小為335×335的ROI,映射到層后特征圖的大小為10.47×10.47(335/32=10.47,其中32為下采樣步長(zhǎng)),特征圖輸入Pooling層后固定為7×7大小,即將10.47×10.47的ROI劃分為49個(gè)同等大小的小區(qū)域,每個(gè)區(qū)域大小為1.49×1.49(10.47/7=1.49),再采用雙線性插值法計(jì)算每個(gè)小區(qū)域的像素值,組成7×7大小的特征圖; 然后通過(guò)兩個(gè)1 024的全連接層執(zhí)行分類和回歸以獲得準(zhǔn)確的邊界框。
分割網(wǎng)絡(luò)用于缺陷的實(shí)例分割,見(jiàn)圖3中粉色部分。同預(yù)測(cè)網(wǎng)絡(luò)一樣,利用RoI Align層提取7×7的ROIs特征圖,通過(guò)4個(gè)3×3的卷積層,1個(gè)2×2的反卷積層和1個(gè)1×1的卷積層生成缺陷實(shí)例的掩碼。
整個(gè)模型采用了多任務(wù)損失函數(shù),包含分類損失值、位置回歸損失值和掩碼損失值,多任務(wù)損失函數(shù)為
(2)
式中:i為錨框的索引;li為標(biāo)注的類標(biāo)簽;gi為標(biāo)注的位置信息;pi和ci分別為錨框i在區(qū)域提議網(wǎng)絡(luò)中為前景的概率和位置初步偏移值,ti和di分別為在預(yù)測(cè)網(wǎng)絡(luò)中錨框i的類別概率和位置信息;mij為分割網(wǎng)絡(luò)中錨框i掩碼的第j個(gè)像素點(diǎn)的二進(jìn)制掩碼;Nc、Nd和Nm分別為區(qū)域提議網(wǎng)絡(luò)、預(yù)測(cè)網(wǎng)絡(luò)和分割網(wǎng)絡(luò)的正樣本錨框數(shù)量;M為錨框i掩碼的像素點(diǎn)數(shù)量;Lc為區(qū)域提議網(wǎng)絡(luò)中兩個(gè)類別(前景或背景)的交叉熵?fù)p失;Ld為預(yù)測(cè)網(wǎng)絡(luò)中多個(gè)類別置信值的softmax損失;Lr為位置回歸的smoothL1損失;Lm為分割網(wǎng)絡(luò)中掩碼像素點(diǎn)的二值交叉熵?fù)p失;I(·)為指示函數(shù),li≥1表示錨框i是正樣本,li=k表示錨框i為類別k。
TEDS缺陷檢測(cè)任務(wù)中缺陷的數(shù)量遠(yuǎn)小于背景的數(shù)量,導(dǎo)致模型訓(xùn)練過(guò)程中出現(xiàn)大量的假陽(yáng)性結(jié)果,為了防止損失函數(shù)受到大量假陽(yáng)性樣本的支配,常規(guī)方法是設(shè)置預(yù)測(cè)網(wǎng)絡(luò)的一些關(guān)鍵參數(shù),如缺陷ROI區(qū)域和標(biāo)注區(qū)域的IoU閾值(≥0.5)、背景ROI區(qū)域和標(biāo)注區(qū)域的IoU閾值間隔([0.1,0.5))、及缺陷ROI和背景ROI的比例(1∶3),其中25%的缺陷ROIs是隨機(jī)選取的,而不考慮簡(jiǎn)單或困難樣本。困難樣本是指在訓(xùn)練過(guò)程中出現(xiàn)的損失值較高的ROIs。
由OHEM理論可知[18],OHEM是將篩選出來(lái)的困難樣本重新輸入預(yù)測(cè)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,以平衡正負(fù)樣本比例,提升模型的識(shí)別準(zhǔn)確率。OHEM增加一個(gè)只讀的候選區(qū)域生成網(wǎng)絡(luò),只進(jìn)行前向傳播,根據(jù)損失值對(duì)ROIs進(jìn)行降序排序,圖3中紅色部分為OHEM的處理過(guò)程。該網(wǎng)絡(luò)和預(yù)測(cè)網(wǎng)絡(luò)共享特征參數(shù),將區(qū)域提議網(wǎng)絡(luò)產(chǎn)生的ROIs作為輸入,并將前128個(gè)損失值較大的ROIs樣本作為困難樣本輸出,用于網(wǎng)絡(luò)訓(xùn)練和參數(shù)更新。 OHEM有助于減少參數(shù)設(shè)置的大量實(shí)驗(yàn),并降低訓(xùn)練過(guò)程中的損失函數(shù)。
TEDS圖像缺陷的尺寸和形態(tài)多樣,通常情況下,CNN利用數(shù)據(jù)增強(qiáng)的方式增加樣本的復(fù)雜性來(lái)適應(yīng)這種多樣化,如圖像的翻轉(zhuǎn)、裁剪、仿射變換等。然而,這種方式很難學(xué)習(xí)到缺陷幾何變形的內(nèi)在機(jī)制。為了解決該問(wèn)題,在預(yù)測(cè)網(wǎng)絡(luò)和分割網(wǎng)絡(luò)的ROI Align層中引入可變形卷積DCN[19]??勺冃尉矸e核的每一個(gè)元素有一個(gè)偏移值,感受的范圍隨著物體形狀不同而發(fā)生變化,而常規(guī)卷積核的感受野固定不變。常規(guī)卷積核和可變形卷積核分別為
(3)
(4)
式中:w為卷積核的值;Δk和Δl為k和l的偏移值。
核參數(shù)(k,l)和偏移值(Δk,Δl)在網(wǎng)絡(luò)訓(xùn)練過(guò)程中通過(guò)兩個(gè)3×3卷積層[19]分別學(xué)習(xí)得到??勺冃尉矸e可以隨著缺陷形態(tài)的變化改變采樣點(diǎn)的位置,增強(qiáng)缺陷的定位和分割能力,另外,還可以改變感受野的范圍,這點(diǎn)對(duì)不同尺度的缺陷至關(guān)重要,特別是小尺度缺陷。如圖4中紅色的曲線表示經(jīng)過(guò)可變形卷積后的定位和分割結(jié)果,相比綠色曲線(常規(guī)卷積后的結(jié)果),紅色曲線可以更好地定位和分割不同尺度和形態(tài)的缺陷。
圖4 可變形卷積和常規(guī)卷積定位和分割結(jié)果對(duì)比
本節(jié)首先描述如何將TEDS圖像轉(zhuǎn)換為試驗(yàn)數(shù)據(jù)集;然后提供了驗(yàn)證缺陷檢測(cè)方法有效性的指標(biāo);最后對(duì)試驗(yàn)結(jié)果進(jìn)行分析。為了定量評(píng)估OHEM和DCN對(duì)模型性能的影響,進(jìn)行剝離實(shí)驗(yàn),將未增加OHEM和DCN的模型稱為基礎(chǔ)模型BM(Base Model)。
從TEDS圖像采集模塊中的9個(gè)高速線陣掃描相機(jī)中采集6 518張缺陷圖片,其中80%作為train數(shù)據(jù)集,10%作為val數(shù)據(jù)集,10%作為test數(shù)據(jù)集。用VIA(VGG Image Annotator)標(biāo)注工具對(duì)train數(shù)據(jù)集進(jìn)行缺陷的多邊形標(biāo)注來(lái)生成缺陷的掩碼,將整個(gè)數(shù)據(jù)集標(biāo)記為3個(gè)類別:異物、漏油、防松鐵絲斷裂。為進(jìn)一步驗(yàn)證模型的泛化性能,將2 559張尺寸形態(tài)各異的異物懸掛圖片標(biāo)記為5個(gè)類別:塑料袋、紙片、樹(shù)枝、瓶子、羽毛,分析模型對(duì)不同尺寸缺陷的檢測(cè)性能。在訓(xùn)練過(guò)程中,選擇能覆蓋所有掩碼像素的最小長(zhǎng)方形作為缺陷的檢測(cè)邊框。缺陷標(biāo)記示例見(jiàn)圖5。
圖5 原圖和缺陷掩碼圖
由TP、FP、TN、FN可以計(jì)算得到缺陷檢測(cè)算法評(píng)估指標(biāo):召回率、準(zhǔn)確率和F-score,其計(jì)算公式為
(5)
(6)
(7)
平均準(zhǔn)確率AP由召回率和準(zhǔn)確率組成的曲線面積表示,評(píng)估算法對(duì)每個(gè)類別的有效性;mAP評(píng)估算法在所有類別上的性能為
(8)
試驗(yàn)過(guò)程中,使用MS COCO預(yù)訓(xùn)練權(quán)重初始化特征提取網(wǎng)絡(luò)ResNet-101,考慮到缺陷的不同尺寸,錨框的比率設(shè)置為0.33、0.5、1、2,錨框的大小設(shè)置為8×8、16×16、32×32、64×64、128×128、256×256。初始學(xué)習(xí)率為0.001,隨機(jī)梯度下降的動(dòng)量為0.9,權(quán)重衰減為0.000 5,所有試驗(yàn)中整個(gè)訓(xùn)練過(guò)程最大迭代120次,批尺寸batch_size設(shè)置為128,區(qū)域提議網(wǎng)絡(luò)中ROIs的數(shù)量設(shè)定為300。
3.3.1 缺陷檢測(cè)模型性能評(píng)估
為了綜合評(píng)估缺陷檢測(cè)模型的性能,將BM+OHEM+DCN與傳統(tǒng)滑動(dòng)窗口HOG[20]+SVM[21]方法及BM進(jìn)行對(duì)比。SVM是二值分類器,針對(duì)異物、漏油和防松鐵絲斷裂3種缺陷分別訓(xùn)練了兩個(gè)線性SVM分類器。在訓(xùn)練階段從標(biāo)注的數(shù)據(jù)集中截取每類缺陷的512×512的正樣本,并隨機(jī)從非目標(biāo)區(qū)域截取512×512的負(fù)樣本,然后從正負(fù)樣本中提取HOG特征用于訓(xùn)練SVM分類器。在檢測(cè)階段使用大小為224×224的滑動(dòng)窗口進(jìn)行檢測(cè)。三種模型缺陷檢測(cè)性能實(shí)驗(yàn)結(jié)果如表1所示。實(shí)驗(yàn)結(jié)果表明,本文所提檢測(cè)模型的準(zhǔn)確率高于傳統(tǒng)方法HOG+SVM,這是因?yàn)榛诰矸e神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法可以從訓(xùn)練數(shù)據(jù)中提取比HOG更加復(fù)雜、精細(xì)、抽象的通用特征;同時(shí),BM+OHEM+DCN的準(zhǔn)確率高于BM,這是因?yàn)橥ㄟ^(guò)OHEM和DCN克服了TEDS缺陷檢測(cè)中的難點(diǎn)。對(duì)于召回率而言,基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法要遠(yuǎn)遠(yuǎn)優(yōu)于傳統(tǒng)的方法,而召回率過(guò)低表明漏檢率高。此外,檢測(cè)速度表示測(cè)試集中每張圖像的平均檢測(cè)時(shí)間。由實(shí)驗(yàn)結(jié)果可知,在GPU模式下檢測(cè)速度高于傳統(tǒng)方法。
表1 三種模型缺陷檢測(cè)結(jié)果對(duì)比
為了進(jìn)一步驗(yàn)證所提模型對(duì)三種缺陷的檢測(cè)性能,使用相同的異物、漏油、防松鐵絲斷裂缺陷測(cè)試集對(duì)兩種模型進(jìn)行對(duì)比試驗(yàn),結(jié)果如表2所示,試驗(yàn)結(jié)果表明,OHEM和DCN方法可以提升三種缺陷的檢測(cè)精度,其中,異物缺陷的AP提升0.023 7,漏油缺陷的AP提升0.014 9,防松鐵絲斷裂缺陷的AP提升0.033 5,平均檢測(cè)精度提升0.025 2。
表2 三種缺陷檢測(cè)精度對(duì)比
3.3.2 遷移學(xué)習(xí)試驗(yàn)結(jié)果分析
為了驗(yàn)證提出模型的泛化能力,將異物數(shù)據(jù)集細(xì)分為塑料袋、紙片、樹(shù)枝、瓶子、羽毛五個(gè)類別對(duì)模型參數(shù)進(jìn)行調(diào)優(yōu),IoU設(shè)置為0.7,試驗(yàn)結(jié)果如表3所示。從試驗(yàn)結(jié)果可以看出,塑料袋的AP提升0.023 1,紙片的AP提升0.030 5,樹(shù)枝的AP提升0.049 6,羽毛的AP提升0.021 6,平均檢測(cè)精度提升0.039 3。
表3 異物檢測(cè)結(jié)果對(duì)比
由表3可以看出,樹(shù)枝類別的AP值提升顯著。因?yàn)?,初始?shù)據(jù)集中樹(shù)枝樣本數(shù)量最少,在模型優(yōu)化的同時(shí),用數(shù)據(jù)增強(qiáng)方式擴(kuò)充樹(shù)枝樣本的數(shù)量,數(shù)據(jù)增強(qiáng)不改變像素值,只改變像素所在的位置,數(shù)據(jù)增強(qiáng)方法如表4所示,由于原始數(shù)據(jù)集中,樹(shù)枝的尺度相對(duì)較大,因此,縮放變換時(shí),用不同比例對(duì)樣本圖像進(jìn)行縮小,增加樹(shù)枝樣本的尺度多樣化。試驗(yàn)結(jié)果表明,數(shù)據(jù)量的擴(kuò)充對(duì)模型檢測(cè)精度的提升也至關(guān)重要。
3.3.3 多尺度檢測(cè)與分割試驗(yàn)結(jié)果分析
為了驗(yàn)證所提模型對(duì)不同尺度缺陷的檢測(cè)精度,將塑料袋異物缺陷分為小、中、大三類,其中小于90×90像素的塑料袋定義為小尺度缺陷,大于200×200
表4 數(shù)據(jù)增強(qiáng)方式
像素的塑料袋定義為大尺度缺陷,中間值為中等尺度缺陷,試驗(yàn)結(jié)果如表5所示,由結(jié)果可知,大尺度缺陷的AP提升了0.002 5,而小尺度缺陷的AP提升了0.063 2。顯然,小尺度缺陷的精度提升高于大尺度缺陷,由于小尺度缺陷的特征信息少于大尺度缺陷,導(dǎo)致這些小尺度缺陷的損失值較大,OHEM的只讀分支會(huì)將這些樣本挖掘?yàn)槔щy樣本,而DCN的優(yōu)點(diǎn)在于它的感受野會(huì)根據(jù)缺陷的尺寸變化而變化,這點(diǎn)對(duì)于小尺度缺陷的檢測(cè)至關(guān)重要。
表5 多尺度缺陷檢測(cè)結(jié)果對(duì)比
缺陷檢測(cè)與分割試驗(yàn)結(jié)果見(jiàn)圖6,結(jié)果表明,所提出的模型可以對(duì)尺寸形態(tài)多樣的缺陷進(jìn)行檢測(cè),并同時(shí)實(shí)現(xiàn)實(shí)例分割,其中虛線框表示缺陷檢測(cè)的定位框,藍(lán)色和紅色區(qū)域分別表示物體實(shí)例分割結(jié)果。圖6(e)中的藍(lán)色區(qū)域和紅色區(qū)域分別表示塑料袋異物缺陷的兩個(gè)實(shí)例,圖6(f)中的紅色區(qū)域表明所提模型對(duì)缺陷的精準(zhǔn)分割,背景區(qū)域沒(méi)有包含于實(shí)例分割區(qū)域。
圖6 缺陷檢測(cè)與分割試驗(yàn)結(jié)果
本文通過(guò)將TEDS和基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)算法相結(jié)合,實(shí)現(xiàn)TEDS缺陷的自動(dòng)檢測(cè)與分割。OHEM和DCN方法可以選擇更加有效的樣本和得到更具有代表性的特征圖。通過(guò)對(duì)幾個(gè)動(dòng)車段TEDS數(shù)據(jù)試驗(yàn),驗(yàn)證了所提模型的有效性和準(zhǔn)確性,并且可以實(shí)現(xiàn)缺陷實(shí)例的精準(zhǔn)分割。本文的研究為動(dòng)車組行車安全圖像缺陷檢測(cè)與分割提供了新的思路和解決方案。