王紀武,魚鵬飛,羅海保
(北京交通大學 機械與電子控制工程學院, 北京 100044)
鐵路的高速發(fā)展是現(xiàn)代化建設的重要基石,鐵路橋梁是鐵路線路中的重要組成部分,確保鐵路橋梁的安全耐久性,關乎國計民生.在鐵路橋梁中,裂縫是最常見病害之一,通過工程實踐可知,90%左右的橋梁故障由它引起,必須對含有病害的橋梁持續(xù)監(jiān)測[1]. 因此,實現(xiàn)裂縫的實時分類監(jiān)測,及時發(fā)現(xiàn)橋梁裂縫病害,具有重要的現(xiàn)實意義.國內外學者對此展開了深入廣泛的研究,并且取得了一些成果.
目前,基于傳統(tǒng)數字圖像處理方式實現(xiàn)裂縫的分類是目前的主流方式.Oliveira等[2]采用了一種基于裂縫連接性和寬度估計值信息來實現(xiàn)裂縫的自動分類方法.陳瑤等[3]等提出了一種基于爬壁機器人的橋梁裂縫圖像檢測與分類方法.姜吉榮等[4]融合了裂縫圖像重點區(qū)域灰度特征、裂縫走向以及形態(tài)學特征來實現(xiàn)裂縫的分類.何健等[5]引入近似支持向量機算法,并建立非線性模型進行多解分析來實現(xiàn)裂縫的分類.這些裂縫分類方法大多應用在公路橋梁領域,但高速鐵路橋梁的裂縫特征和公路橋梁存在較大的差異[6],鐵路橋梁底部經常為低照度環(huán)境,采集的裂縫原始圖像中隨機高強噪聲、非線性過飽和像素[7]以及異物干擾問題更加突出,且對微細裂縫的有效識別要求更加苛刻,傳統(tǒng)圖像處理方法并不能有效實現(xiàn)高速鐵路橋梁裂縫的精準分類,并且由于這些算法對單幅圖像信息依賴性大,不滿足含有大數據裂縫信息的鐵路橋梁裂縫實時性需求.因此自動化的鐵路橋梁裂縫分類算法亟待研究.
近年來,卷積神經網絡(Convolution Neural Network,CNN)算法[8]的進一步發(fā)展,極大地拓展了信息技術的應用領域,使基于大數據的人工智能分類算法日益完善,為解決鐵路橋梁裂縫分類問題提供了新技術途徑.夏夢等[9]構建了一種融合深度卷積神經網絡和條件隨機場的分類模型,通過實驗證實該方法有較高的精度. Ali等[10]提出了一種效率很高的基于深度學習的自動編碼的自主調試分類系統(tǒng),運算速度較快. De等[11]提出一種基于深度學習算法的極化合成孔徑雷達數據中城市地區(qū)分類方法,實時性較高.王紀武等[12]采用了一種基于Faster R-CNN算法[13]的多尺度采樣的高壓塔鳥巢檢測方式,能在復雜背景干擾下有效識別目標.但由于目前沒有統(tǒng)一的鐵路橋梁裂縫圖像訓練數據集,深度學習分類算法并未在鐵路橋梁裂縫分類領域應用.因此,專門針對鐵路橋梁裂縫圖像特征,本文作者探索性地將深度學習技術應用于鐵路橋梁裂縫分類領域中,設計了一種基于改進Faster R-CNN+ZF算法的鐵路橋梁裂縫分類方法.首先制作訓練所需的數據集,然后在數據輸入端構建Prewitt算子卷積層[14],對輸入圖像進行銳化處理,增強圖像中目標區(qū)域特征的對比度,并加之改進ZF模型,修改超參數進行訓練,以驗證理論模型的正確性和有效性.
為增強輸入圖像灰度突變邊緣的對比度,使目標特征更加突出,在原始Faster R-CNN分類模型前構建一層Prewitt算子層處理原始輸入圖像.對于一個圖像函數圖像I(x,y),梯度I是一個二元矢量,即
(1)
實際使用中,Prewitt算子通過沿x和y方向的兩個差分模板對圖像進行鄰域卷積操作,實現(xiàn)偽邊緣的去除和噪聲的平滑.差分模板鄰域卷積實現(xiàn)圖像函數的邊緣像素增強,二范數梯度‖I(2)‖為
‖
(2)
在R-CNN算法[15]和Fast R-CNN算法[16]的基礎上,F(xiàn)aster R-CNN目標檢測模型在生成建議區(qū)域方面改進極大,提供了在鐵路橋梁裂縫圖像分類領域的應用可行性,為了實現(xiàn)更佳的分類性能,增加銳化卷積層后的改進Faster R-CNN鐵路橋梁裂縫圖像分類模型如圖1所示.
Faster-RCNN算法替代了區(qū)域搜索算法[17],采用區(qū)域建議網絡(Region Proposal Network, RPN)來生成建議區(qū)域,對于整個RPN訓練網絡的全域損失[18],包含分類損失和邊框回歸損失兩部分,即
(3)
在實際的計算中,分別對Ncls、Nreg及λ進行歸一化處理,從而使全域損失值能均衡考慮兩種損失.計算重點是基于Lreg的錨框回歸損失值,即
(4)
(5)
式中:(x′,y′)表示預測錨框中心坐標;w表示預測錨框寬度,h表示預測框高度;sL1表示錨框回歸損失值.
Faster R-CNN模型主要包括大型網絡VGG-16和小型網絡ZF兩種預訓練模型.其中,ZF預訓練模型更加簡潔,執(zhí)行速度快,為了適應鐵路橋梁裂縫分類問題中的高實時性要求,選擇ZF模型進行訓練. 預訓練過程中,始層卷積核大小決定了圖像細節(jié)的提取程度,適當減小卷積核尺度,可以增加裂縫的細節(jié)提取,末層卷積核大小決定了提取視野的大小,適當增加卷積核尺度,可以減小模型參數,有效避免系統(tǒng)的過擬合現(xiàn)象發(fā)生.因此,為了保證鐵路橋梁裂縫圖像提取信息的豐富性,改進ZF模型重置了經典ZF模型中初始和末尾卷積層的卷積核尺度,將其大小分別設置為5×5和4×4,同時,為了實現(xiàn)更加細致的特征篩選,使網絡抗干擾能力進一步提升,將經典ZF模型的所有最大池化核尺度從3×3變?yōu)?×2,改進ZF模型見圖2.
根據模型訓練需求,在顯卡為Nvidia Geforce GTX 1060,顯存為6GB的機器上安裝操作系統(tǒng)Ubuntu 16.04 LTS,搭建Caffe環(huán)境和安裝訓練所需數據包,制作數據集開始訓練.
訓練樣本由中國鐵路北京局集團有限公司北京動車段提供,樣本中包含了京滬、京大和石太線路中鐵路橋梁裂縫圖像,共計491 24幅圖像.為了避免分類器訓練過程中出現(xiàn)過擬合現(xiàn)象,采用裁剪和翻轉的方式對現(xiàn)有的圖像樣本集進行數據增強[19],最終裂縫訓練樣本集共包含100 000幅裂縫圖像,裂縫類別包含縱向裂縫、橫向裂縫、交叉裂縫和塊狀裂縫4類,裂縫分類如圖3所示.其中,橫向裂縫和縱向裂縫數目分別為20 000幅,交叉裂縫和塊狀裂縫分別為30 000幅.部分樣本庫圖像見圖4.
將所有的100 000幅圖像參照PASCAL VOC數據格式[20]制成數據集1.考慮到實際裂縫圖像的復雜性,為了進一步讓分類器學到更多的裂縫特征,又增加30 000張包含較實際環(huán)境更加豐富干擾信息的非裂縫圖像擴充數據集,增加的部分非裂縫圖像樣例見圖5,將擴充后的130 000幅圖像按照數據集1的制作過程制成數據集2.
為了評價裂縫分類結果的好壞,需引入精確率A、召回率B和分類精度指數C來定量分析分類結果的優(yōu)劣程度.以二分類問題為例說明,設置“1”表示目標類,“0”表示非目標類,p、q、r、s分別表示不同情況下的圖像數目統(tǒng)計值,如表1所示.
表1 樣本分類結果統(tǒng)計
A和B的計算公式為
(6)
為了均衡A和B對模型評價造成的影響,引入分類精度C,使評價結果更加全面客觀,即
(7)
由式(6)和式(7)可得
(8)
按照裂縫類型,在訓練模型中將縱向裂縫、橫向裂縫、交叉裂縫、塊狀裂縫及非裂縫標簽依次設置為a、b、c、d、e,見圖6.
為驗證傳統(tǒng)Faster R-CNN+ZF模型(簡稱傳統(tǒng)模型)和改進Faster R-CNN+ZF模型(簡稱改進模型)對于鐵路橋梁圖像分類效果的優(yōu)劣,將進行兩組實驗.
實驗1:將數據集1分別輸入到傳統(tǒng)模型和改進模型中進行訓練;
實驗2:將數據集2分別輸入到傳統(tǒng)模型和改進模型中進行訓練.
Loss損失曲線作為評價模型在訓練過程中優(yōu)劣程度的重要指標之一,不僅能表征出模型擬合的良好程度,而且能反映訓練過程是否出現(xiàn)梯度消失,其收斂性越好,表示模型越優(yōu). Faster R-CNN的訓練過程主要包括RPN訓練過程和Fast R-CNN訓練過程兩個階段. 圖7為實驗1訓練過程中RPN訓練階段和Faster R-CNN訓練階段的誤差值對比結果.
由圖7可知,不論在RPN階段,還是在Fast R-CNN階段,基于傳統(tǒng)模型和改進模型的Loss曲線均在迭代初始階段出較劇烈波動,下降趨勢明顯,當迭代次數增加到5 000次之后,Loss曲線在趨近0的區(qū)域內開始上下小范圍波動,最終收斂. 但總體來看,不論是在RPN訓練階段還是在Fast R-CNN訓練階段,改進模型最終趨近于0的效果均優(yōu)于傳統(tǒng)模型.
實驗1和實驗2得出的分類器分類識別率對比見圖8.
由圖8可知:
1)對比實驗1中和實驗2中的識別結果,改進模型的裂縫總體分類精度分別為93.7%和93.1%,均高于傳統(tǒng)模型精度,證實改進模型在識別精度較傳統(tǒng)模型具有明顯優(yōu)勢;
2)整體觀察實驗1和實驗2中改進模型的分類精度曲線,可知在含有更豐富非裂縫信息的前提下,有助于分類器的抗干擾能力提升,從而增加裂縫分類精度的總體識別率,使分類區(qū)獲得更強的裂縫判別能力.
將數據集2輸入改進模型,調整訓練模型中學習率大小分別為0.01、0.001、0.005、0.008,進行4組實驗,不同學習率和分類精度關系曲線如圖9所示.
由圖9可知,學習率尺度對分類器裂縫分類精度影響很大.若學習率過大,會限制模型裂縫判別能力,裂縫分類精度低.若學習率太低,則使訓練時間過長,且易出現(xiàn)局部最優(yōu)的弊端.通過調整學習率尺度,最終證實:當學習率選擇0.001時分類系統(tǒng)會獲得較高的分類識別率,使系統(tǒng)識別率最終收斂在93.7%左右,能滿足實際工程需要.
表2對比了投影法、支持向量機法(Support Vector Machine, SVM)和兩種Faster R-CNN+ZF模型分類結果,可知:投影法和SVM分類法最大分類精度均低于89.2%,明顯低于Faster R-CNN+ZF模型分類精度,且投影法僅能識別3種裂縫類型,局限性很大. 此外,改進Faster R-CNN+ZF模型4類裂縫的單類分類精度率均在93.7%左右,整體分類精度達到93.7%,相比于傳統(tǒng)的Faster R-CNN+ZF模型,性能有了較大提升.
同時,統(tǒng)計投影法、SVM法、傳統(tǒng)Faster R-CNN+ZF模型和改進Faster R-CNN+ZF模型單幅圖像檢測時間,分類精度和單幅圖像檢測時間綜合性能對比見圖10.
表2不同裂縫分類方案檢測結果對比
Tab.2Results comparison of different crack
classification schemes%
項目橫向裂縫縱向裂縫交叉裂縫塊狀裂縫投影法80.7781.2379.24—SVM87.389.186.585.9傳統(tǒng)模型92.492.391.588.1改進模型93.994.193.793.3
圖10表明,使用實際圖像測試分類器性能時,改進Faster R-CNN+ZF模型單幅圖片處理時間為0.056 s,僅次于傳統(tǒng)分類方法投影法,但處理時差在0.003 s之內,相差很小,遠低于SVM方法的0.172 s和傳統(tǒng)Faster R-CNN+ZF模型的0.073 s. 此外,改進Faster R-CNN+ZF模型是一種具備自學習能力的智能分類方案,可以從海量的數據中提出裂縫信息,綜合效能上遠勝于投影法,有更高的應用價值.
1)改進Faster R-CNN+ZF模型分類每幅圖像耗時0.056秒左右,能滿足鐵路橋梁裂縫分類的高實時性需求;
2)對于含有復雜噪聲、非隨機干擾物,以及目標特征差異較大的鐵路橋梁裂縫圖像,基于改進Faster R-CNN+ZF模型的分類算法不僅能實現(xiàn)所有裂縫類型的識別,而且具有優(yōu)于其他分類器的分類精度,整體分類精度達到93.7%,由此驗證了改進Faster R-CNN+ZF模型在實際鐵路橋梁故障診斷中的較大應用價值.