馬鐸,方宏遠(yuǎn),王念念,胡浩幫,董家修
(1.鄭州大學(xué)水利科學(xué)與工程學(xué)院,河南 鄭州 450000;2.國家地方重大基礎(chǔ)設(shè)施檢測與修復(fù)技術(shù)聯(lián)合工程實(shí)驗(yàn)室,河南 鄭州 450000)
排水管網(wǎng)是城市的生命線,廣泛埋置于城市地下,對城市排水、排污起到重要作用。近年來,由于地基的不均勻沉降[1],微生物腐蝕[2]等多種因素的作用,形成了多種管道缺陷,如破漏,錯口,腐蝕,障礙物等。這些缺陷造成了管道的擁堵、泄露,甚至?xí)l(fā)城市內(nèi)澇,路面塌陷,嚴(yán)重影響了人民的生命財(cái)產(chǎn)安全。因此,應(yīng)當(dāng)定期檢測排水管道,為養(yǎng)護(hù)修復(fù)工作提供支持。
現(xiàn)有的排水管道檢測主要通過電視檢測和潛望鏡檢測采集圖像或視頻數(shù)據(jù),人工判讀的方法,費(fèi)時費(fèi)力,效率低下。隨著計(jì)算機(jī)性能的不斷發(fā)展,計(jì)算機(jī)視覺算法廣泛應(yīng)用于食品[3]、基礎(chǔ)工程[4]等領(lǐng)域。計(jì)算機(jī)視覺算法同樣可以應(yīng)用于排水管道檢測領(lǐng)域?,F(xiàn)有的基于計(jì)算機(jī)視覺的排水管道檢測方法主要包括:傳統(tǒng)算法[5]、機(jī)器學(xué)習(xí)[6,7]和深度學(xué)習(xí)。由于排水管道內(nèi)部環(huán)境復(fù)雜,傳統(tǒng)算法和機(jī)器學(xué)習(xí)算法僅分析了少量缺陷特征,無法滿足排水管道檢測準(zhǔn)確度要求。
近年來,隨著深度學(xué)習(xí)的不斷發(fā)展,王新穎等人[8]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的燃?xì)夤艿佬孤z測方法,與基于機(jī)器學(xué)習(xí)的人工神經(jīng)網(wǎng)絡(luò)相比,該方法更加準(zhǔn)確穩(wěn)定,提高了燃?xì)夤艿佬孤┕收系脑\斷能力。Kumar等人[9]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的多種類排水管道缺陷圖像分類方法,提高了模型的泛化能力。
但是,單層卷積無法捕獲遠(yuǎn)距離特征,卷積算子的感受野具有局限性。為了擴(kuò)大網(wǎng)絡(luò)的關(guān)注區(qū)域,需要堆疊多層“卷積-池化”結(jié)構(gòu),增加網(wǎng)絡(luò)深度,從而提高檢測精度[10,11]。但是,這種方法獲得的有效感受野以中心為原點(diǎn)向外高斯衰減,造成了信息損失,阻礙了檢測精度的進(jìn)一步提升。針對以上問題,本文構(gòu)建了一種基于自注意力的排水管道缺陷檢測方法。該方法采用自注意力機(jī)制和Transformer代替了卷積神經(jīng)網(wǎng)絡(luò)作為特征提取器,通過多層感知機(jī)和Softmax函數(shù)為缺陷圖像預(yù)測分類標(biāo)簽。
標(biāo)準(zhǔn)的Transformer是用于解決機(jī)器翻譯問題的模型,輸入值為一維語義序列[12]。如圖1所示,為了處理二維圖像,本文首先將原始圖像分割為9個區(qū)塊。然后,將各二維區(qū)塊向量化為Transformer模型可以接收的一維有效序列(x1,x2,x3,…,x9)。接下來,通過全連接層,將一維序列轉(zhuǎn)換為固定長度的內(nèi)容向量。為了增加區(qū)塊的位置信息,對每個區(qū)塊增加位置編碼信息,最終,嵌入內(nèi)容向量,得到語義序列(z1,z2,z3,…,z9)。最終,通過多層感知機(jī)和Softmax函數(shù),將獲得的特征向量轉(zhuǎn)化為預(yù)測的分類結(jié)果,從而實(shí)現(xiàn)了對管道缺陷的檢測。
圖1 基于Transformer的多種類管道病害檢測算法結(jié)構(gòu)圖
注意力模型(AM,Attention model)最初被用于機(jī)器翻譯,用于解決長期依賴的問題,現(xiàn)已成為神經(jīng)網(wǎng)絡(luò)領(lǐng)域的一個重要概念[13]。如圖2所示,Transformer中的注意力機(jī)制是通過計(jì)算輸入序列的注意力分布,得到與當(dāng)前預(yù)測值相關(guān)的注意力值,這個過程實(shí)際上是注意力機(jī)制緩解神經(jīng)網(wǎng)絡(luò)模型復(fù)雜度的體現(xiàn)。通過權(quán)重大小,注意力機(jī)制模擬了人類處理信息的注意力側(cè)重,有效地提高了模型的性能,降低了計(jì)算量[12]。
圖2 注意力機(jī)制結(jié)構(gòu)圖
傳統(tǒng)的機(jī)器翻譯等任務(wù)采用循環(huán)神經(jīng)網(wǎng)絡(luò)。但是,循環(huán)神經(jīng)網(wǎng)絡(luò)難以處理長序列輸入問題。Transformer模型拋棄了傳統(tǒng)的“編碼-解碼”模型的固有模式,僅采用自注意力機(jī)制,減少了計(jì)算量,不損害最終的實(shí)驗(yàn)結(jié)果[14]。
通過堆疊自注意力矩陣,可以獲得“多頭”注意機(jī)制,每個查詢矩陣、關(guān)鍵矩陣、值矩陣保持獨(dú)立,從而產(chǎn)生不同的權(quán)重矩陣。如圖3所示,Transformer結(jié)構(gòu)是全連接層和多頭自注意力層的連接。通過堆疊多層Transformer結(jié)構(gòu),算法能夠提取長期序列的輸入特征,從而用于預(yù)測或分類問題。
圖3 Transformer結(jié)構(gòu)圖
(1)數(shù)據(jù)采集
與深度卷積神經(jīng)網(wǎng)絡(luò)相同,基于Transformer的神經(jīng)網(wǎng)絡(luò)模型也需要大量的圖像數(shù)據(jù)。通過管道機(jī)器人,本文采集了鄭州市和天津市的地下排水管道圖像。但是,由于排水管道內(nèi)部環(huán)境復(fù)雜,原始圖像存在模糊、各類缺陷數(shù)量不均衡等問題。本文對原始圖像進(jìn)行了嚴(yán)格的挑選,組成了清晰度高,數(shù)量均衡的原始排水管道缺陷數(shù)據(jù)集。該數(shù)據(jù)集包含4類缺陷:錯口、腐蝕、破漏、障礙物。
如表1所示,本文將原始圖像隨機(jī)分為訓(xùn)練集、驗(yàn)證集和測試集。
多種類管道缺陷數(shù)據(jù)庫組成表 表1
(2)數(shù)據(jù)增強(qiáng)
數(shù)據(jù)增強(qiáng)是指基于有限的數(shù)據(jù)生成更多等價數(shù)據(jù),豐富訓(xùn)練數(shù)據(jù)分布,提高模型泛化能力的方法[15]。為了保證驗(yàn)證集和測試集圖像的真實(shí)性,本文沒有對這兩種圖片進(jìn)行數(shù)據(jù)增強(qiáng)。因此,驗(yàn)證集和測試集的圖像數(shù)量仍保持不變。
(3)多種類管道病害數(shù)據(jù)庫的構(gòu)建
由于僅僅對訓(xùn)練集圖像進(jìn)行了增強(qiáng)處理,因此,管道病害圖像數(shù)據(jù)庫中訓(xùn)練集、驗(yàn)證集和測試集的圖像比例沒有保持6∶2∶2的比例。最終,管道病害圖像數(shù)據(jù)庫包含 7 576張管道病害圖像,其中訓(xùn)練集共 6 496張圖像,1 516張錯口圖像,1 492張破漏圖像、1 616張腐蝕圖像,1 872張障礙物圖像,驗(yàn)證集和測試集圖像數(shù)量保持不變,分別包含540張圖像。
(1)遷移學(xué)習(xí)
相比于卷積神經(jīng)網(wǎng)絡(luò),Transformer更加依賴于大量的訓(xùn)練數(shù)據(jù)。隨著數(shù)據(jù)集規(guī)模的增大,Transformer模型的檢測效果能夠逐漸超越卷積神經(jīng)網(wǎng)絡(luò)[16]?,F(xiàn)有的公開數(shù)據(jù)集,如ImageNet[17]等,包含大量的圖像數(shù)據(jù),因此,能夠獲得優(yōu)異的檢測效果。但是,由于管道內(nèi)部環(huán)境復(fù)雜,現(xiàn)有的管道內(nèi)表面缺陷圖像數(shù)量較少。
遷移學(xué)習(xí)是指遷移相關(guān)領(lǐng)域的知識結(jié)構(gòu),改進(jìn)目標(biāo)領(lǐng)域?qū)W習(xí)效果的方法。本文遷移了在ImageNet數(shù)據(jù)集上訓(xùn)練最優(yōu)的預(yù)訓(xùn)練模型作為初始參數(shù),提高了管道病害識別模型的收斂速度和準(zhǔn)確率。如圖4所示,損失函數(shù)曲線跌宕下降。本文設(shè)置每次循環(huán)記錄一次訓(xùn)練集損失值和驗(yàn)證集準(zhǔn)確率,用來繪制損失值下降曲線和準(zhǔn)確率曲線,把握收斂速率,控制模型迭代次數(shù)。可以看出,20次循環(huán)后,損失曲線保持平穩(wěn),模型收斂。24次循環(huán)時,準(zhǔn)確率達(dá)到了94.59%。
圖4 損失函數(shù)下降曲線和準(zhǔn)確率曲線
(2)超參數(shù)
超參數(shù)調(diào)優(yōu) 表2
對于深度學(xué)習(xí)算法,模型參數(shù)可分為普通參數(shù)和超參數(shù)。普通參數(shù)是各層網(wǎng)絡(luò)連接的權(quán)重參數(shù),通過反向傳播,不斷訓(xùn)練模型,從而得到最優(yōu)參數(shù)。超參數(shù)是指在開始深度學(xué)習(xí)訓(xùn)練前人為設(shè)置的參數(shù)。通常情況下,需要對超參數(shù)進(jìn)行優(yōu)化,提高學(xué)習(xí)的性能和效果。通過對不同超參數(shù)模型訓(xùn)練,并在驗(yàn)證集圖像上對比檢測準(zhǔn)確度,可以得出最優(yōu)的超參數(shù)組合方式。本文設(shè)置的超參數(shù)具體如下:最大循環(huán)次數(shù)為24次,學(xué)習(xí)率為 0.000 5,反向傳播方法為隨機(jī)梯度下降算法(SGD),動量設(shè)置為0.9,每批次訓(xùn)練4張圖片。
混淆矩陣也稱誤差矩陣,是模型測試的一種標(biāo)準(zhǔn)評價格式,用于比較每組實(shí)測圖像的預(yù)測分類與真實(shí)分類。如表3所示,對于一個二分類系統(tǒng),將實(shí)例分為正類(Positive)、負(fù)類(Negative),則該分類器有四種分類結(jié)果:真陽性(TP,True Positive):正類實(shí)例被預(yù)測為正類;假陰性(FN,F(xiàn)alse Negative):正類實(shí)例被預(yù)測為負(fù)類,代表了漏報(bào)的數(shù)量;假陽性(FP,F(xiàn)alse Positive):負(fù)類實(shí)例被預(yù)測為正類,代表了誤報(bào)的數(shù)量;TN(True Negative):負(fù)類實(shí)例被預(yù)測成負(fù)類。
混淆矩陣 表3
如方程1所示,準(zhǔn)確率表示預(yù)測正確的樣本(真陽性與真陰性的和)與所有樣本的比率。
(1)
如表4所示,錯口,腐蝕,破漏,障礙的檢測準(zhǔn)確率分別為100.0%,97.01%,87.10%,99.36%。其中,錯口,腐蝕,障礙的檢測準(zhǔn)確率均在90%以上,平均準(zhǔn)確率為96.11%。
雖然準(zhǔn)確率能夠判斷總的正確率,但是在樣本不均衡的情況下,并不能作為很好的指標(biāo)來衡量結(jié)果。在樣本不平衡的情況下,得到的高準(zhǔn)確率沒有任何意義,此時準(zhǔn)確率就會失效。
地下管道缺陷分類模型檢測結(jié)果分析 表4
為了檢驗(yàn)基于Transformer的多種類管道缺陷檢測方法的檢測效果,本文對比了Inceptionv3、Inceptionv1、Resnet-101和VGG16經(jīng)典卷積神經(jīng)網(wǎng)絡(luò),并且,對比了兩個現(xiàn)有的排水管道缺陷檢測網(wǎng)絡(luò)(兩級分層卷積神經(jīng)網(wǎng)絡(luò)、管道病害分類網(wǎng)絡(luò))。如表5所示,本模型的準(zhǔn)確度為96.11%,比兩級分層卷積神經(jīng)網(wǎng)絡(luò)高1.21%。相比于卷積神經(jīng)網(wǎng)絡(luò),Transformer模型在特征提取方面更具優(yōu)勢。
Transformer與卷積神經(jīng)網(wǎng)絡(luò)對比分析表 表5
排水管道是城市的生命線,應(yīng)當(dāng)定期檢測管道缺陷。但是現(xiàn)有的檢測手段主要依靠CCTV視頻檢測和人眼判斷的方式,費(fèi)時費(fèi)力?,F(xiàn)有的計(jì)算機(jī)檢測方法以傳統(tǒng)算法、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)為主,分別具有人工特征單一、提取特征維度低、感受野局限的缺點(diǎn)。針對以上問題,本文提出了一種基于自注意力的排水管道缺陷檢測方法。該方法采用Transformer和自注意力機(jī)制替代了卷積神經(jīng)網(wǎng)絡(luò)作為管道缺陷的特征提取器,通過多層感知機(jī)和Softmax函數(shù)為缺陷圖像預(yù)測分類標(biāo)簽。相比于經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)和現(xiàn)有的排水管道檢測方法,本方法的準(zhǔn)確度達(dá)到了96.11%,效果更優(yōu)。以上研究證明了:Transformer算法在排水管道缺陷圖像分類領(lǐng)域的可行性,提高了檢測的準(zhǔn)確度,為排水管道檢測提供了一種新思路。