• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Swin-Unet的混凝土裂縫分割算法研究

      2022-12-22 13:50:10
      河南科技 2022年23期
      關(guān)鍵詞:復(fù)雜度注意力卷積

      劉 森

      (長(zhǎng)沙理工大學(xué)土木工程學(xué)院,湖南 長(zhǎng)沙 410114)

      0 引言

      作為當(dāng)今建筑中的主要材料,混凝土在建筑中起著至關(guān)重要的作用?;炷猎诜圻^程中,因荷載的作用和材料性能的退化,使其表面出現(xiàn)裂縫,不僅影響建筑物的美觀和耐久性,甚至?xí)s短建筑物的使用壽命,威脅其結(jié)構(gòu)安全。因此,要及時(shí)發(fā)現(xiàn)裂縫的位置,分析裂縫出現(xiàn)的原因和損傷程度,并采取措施來(lái)防止裂縫進(jìn)一步延伸。

      近年來(lái),隨著深度學(xué)習(xí)的快速發(fā)展,深度學(xué)習(xí)領(lǐng)域中的卷積神經(jīng)網(wǎng)絡(luò)(CNN)已被廣泛應(yīng)用于各種分割任務(wù)中,并在裂縫檢測(cè)領(lǐng)域中表現(xiàn)出不錯(cuò)的性能。特別是,U-Net[1]及其變體在該領(lǐng)域的應(yīng)用更成功,如建筑物表面裂縫檢測(cè)[2]、橋梁裂縫檢測(cè)[3]、路面裂縫檢測(cè)[4]和混凝土裂縫檢測(cè)[5]等。然而,因卷積操作的歸納偏置,使其無(wú)法學(xué)習(xí)全局,完成遠(yuǎn)端的信息交互,從而阻礙分割網(wǎng)絡(luò)的進(jìn)一步提升。通過引入Transformer[6]模型來(lái)彌補(bǔ)卷積的缺陷。利用Transformer 在特征圖中捕捉長(zhǎng)距離特征的優(yōu)勢(shì),能有效彌補(bǔ)CNN因局部偏置和權(quán)值共享對(duì)全局信息把握不足的缺點(diǎn)。Swin-Unet[7]是一種基于U-Net改進(jìn)的純Transformer模型,其延用CNN 中的 U 型網(wǎng)絡(luò)架構(gòu),并通過 Swin Transformer[8]模塊來(lái)彌補(bǔ)卷積操作的缺陷,能更好進(jìn)行局部及全局的語(yǔ)義特征學(xué)習(xí),有著更優(yōu)的性能。因此,本研究借鑒深度學(xué)習(xí)領(lǐng)域的Swin-Unet分割模型來(lái)完成混凝土的裂縫檢測(cè)。

      1 模型架構(gòu)

      目前,圖像分割主要基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)。其中,U 型網(wǎng)絡(luò)(U-Net)作為經(jīng)典的CNN,其在利用跳躍連接的同時(shí),保留在下采樣中丟失的細(xì)節(jié)信息和在低分辨率圖像中獲取到的全局特征,這種融合不同尺度特征的編碼器-解碼器的結(jié)構(gòu)設(shè)計(jì)能大幅度提升分割模型的性能。因此,Swin-Unet 模型延用這種U型架構(gòu),同時(shí)引入Swin Transformer模塊來(lái)彌補(bǔ)卷積操作無(wú)法進(jìn)行遠(yuǎn)程信息交互的缺陷。

      1.1 Swin-Unet模型架構(gòu)

      與傳統(tǒng)的U-Net 結(jié)構(gòu)相同,整個(gè)Swin-Unet 模型由3 部分組成,即編碼器(左側(cè)部分)、解碼器(右側(cè)部分)以及跳躍連接(中間跨線部分),如圖1所示。

      圖1 Swin-Unet模型架構(gòu)

      1.1.1 編碼器。輸入的圖片先通過patch par?tition 模塊,其將圖片切分成大小相等,且互不重疊的分塊,并對(duì)每個(gè)分塊進(jìn)行線性嵌入,可將輸入向量的維度變成預(yù)先設(shè)置好的值,圖中維度用C 來(lái)表示。隨后將嵌入的分塊依次送入Swin Transformer模塊和patch 融合層,用來(lái)生成不同尺度的特征表述。其中,Swin Transformer 模塊負(fù)責(zé)學(xué)習(xí)特征,patch 融合層負(fù)責(zé)下采樣操作,將輸入該層的特征圖的分辨率縮放至一半。

      1.1.2 解碼器。解碼器由多個(gè)Swin Trans?former模塊和patch 擴(kuò)張層組成。patch 擴(kuò)張層進(jìn)行上采樣操作,將輸入該層的特征圖擴(kuò)充至2 倍分辨率,最后一個(gè)patch 擴(kuò)張層會(huì)將特征圖擴(kuò)充至4 倍分辨率,用于將特征圖還原成原圖尺寸,最后通過線性映射層進(jìn)行像素級(jí)別的預(yù)測(cè),判斷被預(yù)測(cè)的像素點(diǎn)是否屬于裂縫。

      1.1.3 跳躍連接。和傳統(tǒng)的U-Net一樣,跨線負(fù)責(zé)的是特征融合,以級(jí)聯(lián)的方式將特征圖輸送到解碼器來(lái)融合多尺度特征,從而彌補(bǔ)原始信息的丟失。

      1.2 基礎(chǔ)模塊

      1.2.1 Swin Transformer模塊。Swin Transformer是整個(gè)網(wǎng)絡(luò)最基礎(chǔ)的模塊,和傳統(tǒng)的多頭注意力(MSA)結(jié)構(gòu)不同的是,Swin Transformer 是基于滑動(dòng)窗口構(gòu)建的,圖2 為兩個(gè)串聯(lián)的Swin Transformer 模塊。每個(gè)Swin Transformer 模塊由兩個(gè)層歸一化(Layer Norm)層、多頭自注意力模塊和多層感知機(jī)(MLP)組成。

      圖2 兩個(gè)串聯(lián)的Swin Transformer模塊

      在兩個(gè)連續(xù)的Swin Transformer模塊中,分別采用基于窗口的多頭自注意力模塊(W-MSA)和基于滑動(dòng)窗口的多頭自注意力模塊(SW-MSA)。

      Yao 等[9]提出的多頭注意力(MSA)采用的是全局自注意力機(jī)制,即在整張圖上進(jìn)行自注意力計(jì)算,其計(jì)算復(fù)雜度與圖片大小成平方關(guān)系。當(dāng)圖像增大時(shí),計(jì)算量也會(huì)飛速上漲。W-MSA 使用窗口對(duì)計(jì)算范圍進(jìn)行限制,在每個(gè)窗口內(nèi)進(jìn)行自注意力計(jì)算,可極大降低計(jì)算的復(fù)雜度,提高訓(xùn)練速度。但因每個(gè)窗口互不重疊,每次進(jìn)行自注意力計(jì)算時(shí),窗口與窗口間沒有信息交流,SW-MSA 通過滑動(dòng)窗口來(lái)實(shí)現(xiàn)窗口與窗口間的信息交流。采用基于滑動(dòng)窗口的自注意力模塊,不僅具有標(biāo)準(zhǔn)的transformer 自注意力機(jī)制的全局信息提取能力,還能降低計(jì)算復(fù)雜度。MSA 復(fù)雜度與W-MSA 復(fù)雜度的計(jì)算公式見式(1)、式(2)。

      式中:H 為圖片的高;W 為圖片的寬;C 為圖片的維度;Ω為復(fù)雜度計(jì)算函數(shù);M為圖塊數(shù)量。

      由于試驗(yàn)采用長(zhǎng)寬均為512 的RGB 圖像,通過patch partition 模塊后切分出的圖塊個(gè)數(shù)應(yīng)為128 ×128,遠(yuǎn)小于圖像像素點(diǎn)個(gè)數(shù)512 × 512。因此,理論上Swin Transformer更有利于模型的訓(xùn)練。

      1.2.2 patch 融合層。為了讓圖像有層級(jí)式的概念,這里要用到類似池化的操作。在Swin-Unet中,Patch 融合層是將圖像的高和寬縮小至原來(lái)的一半,將圖像維度升為原來(lái)的2倍。patch融合操作如圖3 所示。先將每個(gè)圖塊隔一個(gè)像素選取一個(gè)數(shù)值,將圖片切分成4 塊,然后將切分開的圖塊進(jìn)行通道融合,其維度將會(huì)擴(kuò)大為原圖塊的4 倍,最后通過全連接層,將其維度壓縮為原圖塊的2倍。

      圖3 patch merging模塊

      2 評(píng)價(jià)指標(biāo)與數(shù)據(jù)集制作

      2.1 評(píng)價(jià)指標(biāo)介紹

      混淆矩陣(見圖4)是情形分析表,顯示以下四組記錄的數(shù)目,即作出正確判斷的肯定記錄(真陽(yáng)性)、作出錯(cuò)誤判斷的肯定記錄(假陰性)、作出正確判斷的否定記錄(真陰性)以及作出錯(cuò)誤判斷的否定記錄(假陽(yáng)性)。

      圖4 混淆矩陣

      其中,TruePositive(TP)為樣本的真實(shí)類別是正類,模型識(shí)別結(jié)果為正類;FalseNegative(FN)為樣本的真實(shí)類別是正類,模型識(shí)別結(jié)果為負(fù)類;False Positive(FP)為樣本的真實(shí)類別是負(fù)類,模型識(shí)別結(jié)果為正類;True Negative(TN)為樣本的真實(shí)類別是負(fù)類,模型識(shí)別結(jié)果為負(fù)類。

      2.1.1 F1 score。

      精準(zhǔn)率(Precision)是指被預(yù)測(cè)為正樣本的檢測(cè)框,其預(yù)測(cè)正確的占比,見式(3)。

      召回率(Recall)是被正確檢測(cè)出來(lái)的真實(shí)框占所有真實(shí)框的比例,見式(4)。

      考慮Precision 和Recall 是一對(duì)矛盾的度量,為了能夠綜合考慮這兩個(gè)指標(biāo),引入F1 score,其計(jì)算公式見式(5)。

      式中:P為精確率;R為召回率。

      2.1.2 交并比(IOU)。IOU 是用來(lái)評(píng)價(jià)兩個(gè)區(qū)域的相似性,是度量?jī)蓚€(gè)檢測(cè)框的交疊程度??紤]試驗(yàn)是二分類,且背景所占的比例大,用IOU 作為評(píng)價(jià)指標(biāo)比平均交并比(MIOU)更合理,IOU 的計(jì)算公式見式(6)。

      式中:Bgt為真實(shí)框,即提前標(biāo)注好的裂縫框;Bp為預(yù)測(cè)框,即模型預(yù)測(cè)出來(lái)的裂縫框。

      2.2 數(shù)據(jù)集制作

      本研究的裂縫圖像采集對(duì)象為已投入使用的居民樓,共采集到300 張裂縫圖片。采集工具為大疆御Mavic Air2 無(wú)人機(jī),無(wú)人機(jī)攜帶相機(jī)所拍攝的照片最大尺寸為4 800 萬(wàn)像素,所拍照片為三通道的RGB 圖像??紤]到圖像尺寸過大導(dǎo)致模型難以訓(xùn)練,將采集到的圖像裁剪為長(zhǎng)寬均為512 的RGB圖像。

      同時(shí),由于采集到的圖像背景過于單一,難以達(dá)到泛化的目的。因此,為豐富數(shù)據(jù)集的多樣性,讓模型學(xué)到豐富的裂縫圖像特征,提高模型的泛化性能和復(fù)雜背景下裂縫分割的魯棒性,本研究采用公 共 數(shù) 據(jù) 集 Original_Crack_DataSet_1024_1024[10]、Concrete Crack Images for Classification[11]、CrackFor?est和CRACK500進(jìn)行輔助訓(xùn)練。從中篩選出3 200張圖片用于該試驗(yàn)。其中,包含橋梁裂縫、道路裂縫、建筑外墻裂縫。將這3 518張圖片按訓(xùn)練集、驗(yàn)證集和測(cè)試集約8∶1∶1 的比例進(jìn)行劃分,即2 918張圖片作為訓(xùn)練集、300 張圖片作為驗(yàn)證集、300 張圖片作為測(cè)試集(見圖5)。

      3 模型對(duì)比

      為了驗(yàn)證本研究提出的模型的分割性能,采用PSPNet[12]、U-Net、Res U-Net[13]、DeepLabV3+[14]、TransUnet 等5 種模型進(jìn)行比較。在保證數(shù)據(jù)集相同的前提下,訓(xùn)練網(wǎng)絡(luò)模型,并通過驗(yàn)證集測(cè)得的評(píng)價(jià)指標(biāo)與通過測(cè)試集預(yù)測(cè)出的分割結(jié)果進(jìn)行對(duì)模型分析比較。

      3.1 評(píng)價(jià)指標(biāo)對(duì)比

      通過比較其精準(zhǔn)率、召回率、F1、IOU 來(lái)驗(yàn)證訓(xùn)練效果(見表1)。

      由表1 可知,Swin-Unet 的識(shí)別效果最好,其次是TransUnet,其評(píng)價(jià)指標(biāo)分?jǐn)?shù)與Swin-Unet 相差無(wú)幾,但其訓(xùn)練時(shí)間更久,這是因?yàn)門ransUnet 使用的是全局自注意力機(jī)制,圖片越大,計(jì)算量就越大。在傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)中,U-Net 的識(shí)別效果最佳,但其F1分?jǐn)?shù)與IOU仍略低于Swin-Unet。

      圖 數(shù)據(jù)集示例圖

      表1 評(píng)價(jià)指標(biāo)

      3.2 分割效果對(duì)比

      在測(cè)試集中隨機(jī)抽取4 張圖片進(jìn)行預(yù)測(cè),各模型的分割結(jié)果見表2。

      表2 預(yù)測(cè)結(jié)果

      對(duì)比分割效果可以發(fā)現(xiàn),在傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)中,U-Net的分割效果最佳,但第1、2、3張圖仍有部分地方有較大瑕疵。Swin-Unet 對(duì)測(cè)試圖進(jìn)行分割,雖有些許瑕疵,但仍然取得最好的分割效果。

      4 結(jié)論

      通過對(duì)試驗(yàn)結(jié)果進(jìn)行分析,從評(píng)價(jià)結(jié)果和分割效果兩方面進(jìn)行對(duì)比,Swin-Unet 比卷積神經(jīng)網(wǎng)絡(luò)有相對(duì)較好的檢測(cè)效果。這表明Transformer 更利于圖片特征的提取。對(duì)比計(jì)算復(fù)雜度,并通過試驗(yàn)進(jìn)行驗(yàn)證,Swin-Unet 與transunet 在數(shù)據(jù)集、學(xué)習(xí)率和batchsize 都相同的前提下,Swin-Unet 的訓(xùn)練時(shí)間更短,且不降低識(shí)別效果。這說明基于窗口的自注意力機(jī)制比全局自注意力機(jī)制更有利于對(duì)模型的訓(xùn)練。

      猜你喜歡
      復(fù)雜度注意力卷積
      讓注意力“飛”回來(lái)
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      一種低復(fù)雜度的慣性/GNSS矢量深組合方法
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      求圖上廣探樹的時(shí)間復(fù)雜度
      A Beautiful Way Of Looking At Things
      某雷達(dá)導(dǎo)51 頭中心控制軟件圈復(fù)雜度分析與改進(jìn)
      出口技術(shù)復(fù)雜度研究回顧與評(píng)述
      应用必备| 平阴县| 望都县| 余干县| 东平县| 怀来县| 江川县| 甘洛县| 新巴尔虎右旗| 温宿县| 永寿县| 阳春市| 石渠县| 陇川县| 亚东县| 精河县| 剑川县| 铁力市| 孝义市| 仁寿县| 高淳县| 绥阳县| 东海县| 衡南县| 石泉县| 屏东市| 武功县| 西丰县| 芦山县| 西林县| 惠水县| 集安市| 铜山县| 富川| 济阳县| 江华| 灯塔市| 偏关县| 元谋县| 突泉县| 温泉县|