基于Swin-Unet的混凝土裂縫分割算法研究

2022-12-22 13:50:10劉森

河南科技 2022年23期

劉森

（長(zhǎng)沙理工大學(xué)土木工程學(xué)院，湖南長(zhǎng)沙 410114）

0 引言

作為當(dāng)今建筑中的主要材料，混凝土在建筑中起著至關(guān)重要的作用?；炷猎诜圻^程中，因荷載的作用和材料性能的退化，使其表面出現(xiàn)裂縫，不僅影響建筑物的美觀和耐久性，甚至?xí)s短建筑物的使用壽命，威脅其結(jié)構(gòu)安全。因此，要及時(shí)發(fā)現(xiàn)裂縫的位置，分析裂縫出現(xiàn)的原因和損傷程度，并采取措施來(lái)防止裂縫進(jìn)一步延伸。

近年來(lái)，隨著深度學(xué)習(xí)的快速發(fā)展，深度學(xué)習(xí)領(lǐng)域中的卷積神經(jīng)網(wǎng)絡(luò)（CNN）已被廣泛應(yīng)用于各種分割任務(wù)中，并在裂縫檢測(cè)領(lǐng)域中表現(xiàn)出不錯(cuò)的性能。特別是，U-Net［1］及其變體在該領(lǐng)域的應(yīng)用更成功，如建筑物表面裂縫檢測(cè)［2］、橋梁裂縫檢測(cè)［3］、路面裂縫檢測(cè)［4］和混凝土裂縫檢測(cè)［5］等。然而，因卷積操作的歸納偏置，使其無(wú)法學(xué)習(xí)全局，完成遠(yuǎn)端的信息交互，從而阻礙分割網(wǎng)絡(luò)的進(jìn)一步提升。通過引入Transformer［6］模型來(lái)彌補(bǔ)卷積的缺陷。利用Transformer 在特征圖中捕捉長(zhǎng)距離特征的優(yōu)勢(shì)，能有效彌補(bǔ)CNN因局部偏置和權(quán)值共享對(duì)全局信息把握不足的缺點(diǎn)。Swin-Unet［7］是一種基于U-Net改進(jìn)的純Transformer模型，其延用CNN 中的 U 型網(wǎng)絡(luò)架構(gòu)，并通過 Swin Transformer［8］模塊來(lái)彌補(bǔ)卷積操作的缺陷，能更好進(jìn)行局部及全局的語(yǔ)義特征學(xué)習(xí)，有著更優(yōu)的性能。因此，本研究借鑒深度學(xué)習(xí)領(lǐng)域的Swin-Unet分割模型來(lái)完成混凝土的裂縫檢測(cè)。

1 模型架構(gòu)

目前，圖像分割主要基于卷積神經(jīng)網(wǎng)絡(luò)（CNN）。其中，U 型網(wǎng)絡(luò)（U-Net）作為經(jīng)典的CNN，其在利用跳躍連接的同時(shí)，保留在下采樣中丟失的細(xì)節(jié)信息和在低分辨率圖像中獲取到的全局特征，這種融合不同尺度特征的編碼器-解碼器的結(jié)構(gòu)設(shè)計(jì)能大幅度提升分割模型的性能。因此，Swin-Unet 模型延用這種U型架構(gòu)，同時(shí)引入Swin Transformer模塊來(lái)彌補(bǔ)卷積操作無(wú)法進(jìn)行遠(yuǎn)程信息交互的缺陷。

1.1 Swin-Unet模型架構(gòu)

與傳統(tǒng)的U-Net 結(jié)構(gòu)相同，整個(gè)Swin-Unet 模型由3 部分組成，即編碼器（左側(cè)部分）、解碼器（右側(cè)部分）以及跳躍連接（中間跨線部分），如圖1所示。

圖1 Swin-Unet模型架構(gòu)

1.1.1 編碼器。輸入的圖片先通過patch par?tition 模塊，其將圖片切分成大小相等，且互不重疊的分塊，并對(duì)每個(gè)分塊進(jìn)行線性嵌入，可將輸入向量的維度變成預(yù)先設(shè)置好的值，圖中維度用C 來(lái)表示。隨后將嵌入的分塊依次送入Swin Transformer模塊和patch 融合層，用來(lái)生成不同尺度的特征表述。其中，Swin Transformer 模塊負(fù)責(zé)學(xué)習(xí)特征，patch 融合層負(fù)責(zé)下采樣操作，將輸入該層的特征圖的分辨率縮放至一半。

1.1.2 解碼器。解碼器由多個(gè)Swin Trans?former模塊和patch 擴(kuò)張層組成。patch 擴(kuò)張層進(jìn)行上采樣操作，將輸入該層的特征圖擴(kuò)充至2 倍分辨率，最后一個(gè)patch 擴(kuò)張層會(huì)將特征圖擴(kuò)充至4 倍分辨率，用于將特征圖還原成原圖尺寸，最后通過線性映射層進(jìn)行像素級(jí)別的預(yù)測(cè)，判斷被預(yù)測(cè)的像素點(diǎn)是否屬于裂縫。

1.1.3 跳躍連接。和傳統(tǒng)的U-Net一樣，跨線負(fù)責(zé)的是特征融合，以級(jí)聯(lián)的方式將特征圖輸送到解碼器來(lái)融合多尺度特征，從而彌補(bǔ)原始信息的丟失。

1.2 基礎(chǔ)模塊

1.2.1 Swin Transformer模塊。Swin Transformer是整個(gè)網(wǎng)絡(luò)最基礎(chǔ)的模塊，和傳統(tǒng)的多頭注意力（MSA）結(jié)構(gòu)不同的是，Swin Transformer 是基于滑動(dòng)窗口構(gòu)建的，圖2 為兩個(gè)串聯(lián)的Swin Transformer 模塊。每個(gè)Swin Transformer 模塊由兩個(gè)層歸一化（Layer Norm）層、多頭自注意力模塊和多層感知機(jī)（MLP）組成。

圖2 兩個(gè)串聯(lián)的Swin Transformer模塊

在兩個(gè)連續(xù)的Swin Transformer模塊中，分別采用基于窗口的多頭自注意力模塊（W-MSA）和基于滑動(dòng)窗口的多頭自注意力模塊（SW-MSA）。

Yao 等［9］提出的多頭注意力（MSA）采用的是全局自注意力機(jī)制，即在整張圖上進(jìn)行自注意力計(jì)算，其計(jì)算復(fù)雜度與圖片大小成平方關(guān)系。當(dāng)圖像增大時(shí)，計(jì)算量也會(huì)飛速上漲。W-MSA 使用窗口對(duì)計(jì)算范圍進(jìn)行限制，在每個(gè)窗口內(nèi)進(jìn)行自注意力計(jì)算，可極大降低計(jì)算的復(fù)雜度，提高訓(xùn)練速度。但因每個(gè)窗口互不重疊，每次進(jìn)行自注意力計(jì)算時(shí)，窗口與窗口間沒有信息交流，SW-MSA 通過滑動(dòng)窗口來(lái)實(shí)現(xiàn)窗口與窗口間的信息交流。采用基于滑動(dòng)窗口的自注意力模塊，不僅具有標(biāo)準(zhǔn)的transformer 自注意力機(jī)制的全局信息提取能力，還能降低計(jì)算復(fù)雜度。MSA 復(fù)雜度與W-MSA 復(fù)雜度的計(jì)算公式見式（1）、式（2）。

式中：H 為圖片的高；W 為圖片的寬；C 為圖片的維度；Ω為復(fù)雜度計(jì)算函數(shù)；M為圖塊數(shù)量。

由于試驗(yàn)采用長(zhǎng)寬均為512 的RGB 圖像，通過patch partition 模塊后切分出的圖塊個(gè)數(shù)應(yīng)為128 ×128，遠(yuǎn)小于圖像像素點(diǎn)個(gè)數(shù)512 × 512。因此，理論上Swin Transformer更有利于模型的訓(xùn)練。

1.2.2 patch 融合層。為了讓圖像有層級(jí)式的概念，這里要用到類似池化的操作。在Swin-Unet中，Patch 融合層是將圖像的高和寬縮小至原來(lái)的一半，將圖像維度升為原來(lái)的2倍。patch融合操作如圖3 所示。先將每個(gè)圖塊隔一個(gè)像素選取一個(gè)數(shù)值，將圖片切分成4 塊，然后將切分開的圖塊進(jìn)行通道融合，其維度將會(huì)擴(kuò)大為原圖塊的4 倍，最后通過全連接層，將其維度壓縮為原圖塊的2倍。

圖3 patch merging模塊

2 評(píng)價(jià)指標(biāo)與數(shù)據(jù)集制作

2.1 評(píng)價(jià)指標(biāo)介紹

混淆矩陣（見圖4）是情形分析表，顯示以下四組記錄的數(shù)目，即作出正確判斷的肯定記錄（真陽(yáng)性）、作出錯(cuò)誤判斷的肯定記錄（假陰性）、作出正確判斷的否定記錄（真陰性）以及作出錯(cuò)誤判斷的否定記錄（假陽(yáng)性）。

圖4 混淆矩陣

其中，TruePositive（TP）為樣本的真實(shí)類別是正類，模型識(shí)別結(jié)果為正類；FalseNegative（FN）為樣本的真實(shí)類別是正類，模型識(shí)別結(jié)果為負(fù)類；False Positive（FP）為樣本的真實(shí)類別是負(fù)類，模型識(shí)別結(jié)果為正類；True Negative（TN）為樣本的真實(shí)類別是負(fù)類，模型識(shí)別結(jié)果為負(fù)類。

2.1.1 F1 score。

精準(zhǔn)率（Precision）是指被預(yù)測(cè)為正樣本的檢測(cè)框，其預(yù)測(cè)正確的占比，見式（3）。

召回率（Recall）是被正確檢測(cè)出來(lái)的真實(shí)框占所有真實(shí)框的比例，見式（4）。

考慮Precision 和Recall 是一對(duì)矛盾的度量，為了能夠綜合考慮這兩個(gè)指標(biāo)，引入F1 score，其計(jì)算公式見式（5）。

式中：P為精確率；R為召回率。

2.1.2 交并比（IOU）。IOU 是用來(lái)評(píng)價(jià)兩個(gè)區(qū)域的相似性，是度量?jī)蓚€(gè)檢測(cè)框的交疊程度?？紤]試驗(yàn)是二分類，且背景所占的比例大，用IOU 作為評(píng)價(jià)指標(biāo)比平均交并比（MIOU）更合理，IOU 的計(jì)算公式見式（6）。

式中：Bgt為真實(shí)框，即提前標(biāo)注好的裂縫框；Bp為預(yù)測(cè)框，即模型預(yù)測(cè)出來(lái)的裂縫框。

2.2 數(shù)據(jù)集制作

本研究的裂縫圖像采集對(duì)象為已投入使用的居民樓，共采集到300 張裂縫圖片。采集工具為大疆御Mavic Air2 無(wú)人機(jī)，無(wú)人機(jī)攜帶相機(jī)所拍攝的照片最大尺寸為4 800 萬(wàn)像素，所拍照片為三通道的RGB 圖像?？紤]到圖像尺寸過大導(dǎo)致模型難以訓(xùn)練，將采集到的圖像裁剪為長(zhǎng)寬均為512 的RGB圖像。

同時(shí)，由于采集到的圖像背景過于單一，難以達(dá)到泛化的目的。因此，為豐富數(shù)據(jù)集的多樣性，讓模型學(xué)到豐富的裂縫圖像特征，提高模型的泛化性能和復(fù)雜背景下裂縫分割的魯棒性，本研究采用公共數(shù) 據(jù) 集 Original_Crack_DataSet_1024_1024［10］、Concrete Crack Images for Classification［11］、CrackFor?est和CRACK500進(jìn)行輔助訓(xùn)練。從中篩選出3 200張圖片用于該試驗(yàn)。其中，包含橋梁裂縫、道路裂縫、建筑外墻裂縫。將這3 518張圖片按訓(xùn)練集、驗(yàn)證集和測(cè)試集約8∶1∶1 的比例進(jìn)行劃分，即2 918張圖片作為訓(xùn)練集、300 張圖片作為驗(yàn)證集、300 張圖片作為測(cè)試集（見圖5）。

3 模型對(duì)比

為了驗(yàn)證本研究提出的模型的分割性能，采用PSPNet［12］、U-Net、Res U-Net［13］、DeepLabV3+［14］、TransUnet 等5 種模型進(jìn)行比較。在保證數(shù)據(jù)集相同的前提下，訓(xùn)練網(wǎng)絡(luò)模型，并通過驗(yàn)證集測(cè)得的評(píng)價(jià)指標(biāo)與通過測(cè)試集預(yù)測(cè)出的分割結(jié)果進(jìn)行對(duì)模型分析比較。

3.1 評(píng)價(jià)指標(biāo)對(duì)比

通過比較其精準(zhǔn)率、召回率、F1、IOU 來(lái)驗(yàn)證訓(xùn)練效果（見表1）。

由表1 可知，Swin-Unet 的識(shí)別效果最好，其次是TransUnet，其評(píng)價(jià)指標(biāo)分?jǐn)?shù)與Swin-Unet 相差無(wú)幾，但其訓(xùn)練時(shí)間更久，這是因?yàn)門ransUnet 使用的是全局自注意力機(jī)制，圖片越大，計(jì)算量就越大。在傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)中，U-Net 的識(shí)別效果最佳，但其F1分?jǐn)?shù)與IOU仍略低于Swin-Unet。

圖數(shù)據(jù)集示例圖

表1 評(píng)價(jià)指標(biāo)

3.2 分割效果對(duì)比

在測(cè)試集中隨機(jī)抽取4 張圖片進(jìn)行預(yù)測(cè)，各模型的分割結(jié)果見表2。

表2 預(yù)測(cè)結(jié)果

對(duì)比分割效果可以發(fā)現(xiàn)，在傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)中，U-Net的分割效果最佳，但第1、2、3張圖仍有部分地方有較大瑕疵。Swin-Unet 對(duì)測(cè)試圖進(jìn)行分割，雖有些許瑕疵，但仍然取得最好的分割效果。

4 結(jié)論

通過對(duì)試驗(yàn)結(jié)果進(jìn)行分析，從評(píng)價(jià)結(jié)果和分割效果兩方面進(jìn)行對(duì)比，Swin-Unet 比卷積神經(jīng)網(wǎng)絡(luò)有相對(duì)較好的檢測(cè)效果。這表明Transformer 更利于圖片特征的提取。對(duì)比計(jì)算復(fù)雜度，并通過試驗(yàn)進(jìn)行驗(yàn)證，Swin-Unet 與transunet 在數(shù)據(jù)集、學(xué)習(xí)率和batchsize 都相同的前提下，Swin-Unet 的訓(xùn)練時(shí)間更短，且不降低識(shí)別效果。這說明基于窗口的自注意力機(jī)制比全局自注意力機(jī)制更有利于對(duì)模型的訓(xùn)練。