• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      紅外和可見(jiàn)光圖像融合的隧道火源深度估計(jì)技術(shù)

      2024-12-31 00:00:00胡青松袁淑雅羅渝嘉李世銀
      工礦自動(dòng)化 2024年11期

      關(guān)鍵詞:隧道火源識(shí)別;火源深度估計(jì);多模態(tài)融合;兩階段訓(xùn)練;紅外圖像;可見(jiàn)光圖像

      中圖分類(lèi)號(hào):TD67 文獻(xiàn)標(biāo)志碼:A

      0引言

      我國(guó)地下礦井巷道和長(zhǎng)大交通隧道數(shù)量眾多,其安全性長(zhǎng)期受火災(zāi)威脅。若能在火災(zāi)發(fā)生初期及時(shí)準(zhǔn)確識(shí)別火源位置,將大幅提高火災(zāi)救援響應(yīng)速度和救援效率,甚至將火災(zāi)撲滅在萌芽狀態(tài)。礦井巷道、公路隧道等場(chǎng)景環(huán)境復(fù)雜,在火源強(qiáng)光和濃煙的影響下,僅靠視頻監(jiān)控系統(tǒng)往往無(wú)法有效識(shí)別火源[1]。隨著人工智能技術(shù)的興起與快速發(fā)展,基于圖像的火災(zāi)探測(cè)方法展現(xiàn)出巨大潛力。

      在智能火災(zāi)探測(cè)領(lǐng)域,端到端單目深度估計(jì)方法受到廣泛關(guān)注。現(xiàn)有研究主要集中在通過(guò)改進(jìn)特征提取方法來(lái)提高深度估計(jì)的精度和魯棒性,如劉逸穎[2]引入多尺度特征提取器, 邵浩杰等[3]改進(jìn)Wasserstein 距離損失,溫靜等[4]提出基于卷積神經(jīng)網(wǎng)絡(luò)的特征提取和加權(quán)深度遷移方法,均在不同程度上提升了單目圖像深度估計(jì)的性能。此外,研究者發(fā)現(xiàn)特征融合技術(shù)可恢復(fù)準(zhǔn)確、有效的深度信息,如王泉德等[5]采用多尺度特征融合的卷積神經(jīng)網(wǎng)絡(luò)算法,程德強(qiáng)等[6]提出一種基于層級(jí)特征融合的自監(jiān)督單目深度估計(jì)網(wǎng)絡(luò)模型,解決了復(fù)雜場(chǎng)景中預(yù)測(cè)深度信息不精確的問(wèn)題。其中自監(jiān)督單目深度估計(jì)網(wǎng)絡(luò)對(duì)于數(shù)據(jù)集的限制更小,其訓(xùn)練方法一般分為基于立體像和基于視頻序列影像2 種。基于立體像的訓(xùn)練方法需確定相機(jī)間的基線長(zhǎng)度及相機(jī)焦距,且需要2 個(gè)視角下的圖像,限制了可用于訓(xùn)練的數(shù)據(jù)集范圍。為了進(jìn)一步減少限制條件,基于視頻序列影像的訓(xùn)練方法得到更大關(guān)注。Zhou Tinghui等[7]利用單目視頻序列訓(xùn)練深度估計(jì)模型,采用2 個(gè)網(wǎng)絡(luò)分別估計(jì)單幀圖像的深度和視頻序列中相機(jī)的姿態(tài)變化。C. Godard 等[8]提出每像素最小重投影損失和多尺度損失來(lái)解決遮擋和局部梯度問(wèn)題。WangLijun 等[9]在文獻(xiàn)[8]基礎(chǔ)上,利用特征度量損失、時(shí)間幾何一致性進(jìn)一步提高了單目深度估計(jì)精度。Luo Xuan等[10]采用從運(yùn)動(dòng)中恢復(fù)結(jié)構(gòu)(Structure fromMotion,SFM)技術(shù)結(jié)合學(xué)習(xí)的先驗(yàn)知識(shí),通過(guò)聯(lián)合優(yōu)化每幀的深度和相機(jī)姿態(tài),實(shí)現(xiàn)了對(duì)遮擋和動(dòng)態(tài)場(chǎng)景的魯棒處理。劉香凝等[11]提出了一種新型多階段網(wǎng)絡(luò)結(jié)構(gòu),通過(guò)自注意力機(jī)制和精細(xì)化損失函數(shù),解決了深度估計(jì)中細(xì)節(jié)丟失問(wèn)題。陳瑩等[12]設(shè)計(jì)了密集特征融合的編解碼網(wǎng)絡(luò)結(jié)構(gòu),引入一種新的損失函數(shù),改善了邊界清晰度,并減少了偽影。C. Godard等[13]采用左右圖像一致性作為訓(xùn)練信號(hào),提出一種自監(jiān)督單目深度估計(jì)方法。吳壽川等[14]采用雙向遞歸卷積神經(jīng)網(wǎng)絡(luò)來(lái)提高單目紅外視頻深度估計(jì)精度。杜立嬋等[15]采用單目雙焦距圖像及尺度不變特征轉(zhuǎn)換(Scale-invariant Feature" Transform,SIFT)特征匹配方法,實(shí)現(xiàn)了單目相機(jī)深度估計(jì)。李旭等[16]采用基于深度學(xué)習(xí)的單目紅外圖像深度估計(jì)方法,解決了視覺(jué)輔助駕駛系統(tǒng)在夜間低能見(jiàn)度場(chǎng)景下的前視深度感知問(wèn)題。曲熠等[17]采用基于邊緣強(qiáng)化的無(wú)監(jiān)督單目深度估計(jì)網(wǎng)絡(luò)模型,解決了邊緣深度估計(jì)不準(zhǔn)確的問(wèn)題。Xian Ke 等[18]通過(guò)數(shù)據(jù)增強(qiáng)技術(shù)解決了單目深度估計(jì)模型在圖像受到干擾時(shí)性能下降的問(wèn)題。Bi Hongbo 等[19]將深度圖與RGB 圖像結(jié)合,解決了偽裝物體檢測(cè)中的準(zhǔn)確率問(wèn)題。

      盡管現(xiàn)有文獻(xiàn)已在火源深度智能估計(jì)方面取得了較大進(jìn)展,但這些方法面臨時(shí)間序列一致性的挑戰(zhàn),且對(duì)相機(jī)姿態(tài)變化具有高度敏感性,在復(fù)雜動(dòng)態(tài)環(huán)境中的識(shí)別性能下降,難以應(yīng)對(duì)礦井巷道和隧道復(fù)雜紋理區(qū)域的火源深度估計(jì)任務(wù)。對(duì)此,本文提出一種紅外(Infrared,IR)和可見(jiàn)光(RGB)圖像融合的隧道火源深度估計(jì)方法,引入自監(jiān)督學(xué)習(xí)框架的位姿網(wǎng)絡(luò)構(gòu)建單目深度估計(jì)網(wǎng)絡(luò)模型,學(xué)習(xí)火災(zāi)圖像時(shí)間序列上的運(yùn)動(dòng)模式和變化規(guī)律,提升深度估計(jì)的連續(xù)性和魯棒性,同時(shí)引入相機(jī)高度損失,進(jìn)一步提高復(fù)雜動(dòng)態(tài)環(huán)境中火源探測(cè)的準(zhǔn)確性和可靠性。

      1隧道火源自監(jiān)督單目深度估計(jì)網(wǎng)絡(luò)模型

      隧道火源自監(jiān)督單目深度估計(jì)網(wǎng)絡(luò)模型如圖1所示。

      模型采用深度估計(jì)網(wǎng)絡(luò)和位姿網(wǎng)絡(luò)相結(jié)合的方式進(jìn)行自監(jiān)督訓(xùn)練。位姿網(wǎng)絡(luò)僅用于預(yù)測(cè)相鄰幀間的位姿變化,深度信息的準(zhǔn)確性主要受深度估計(jì)網(wǎng)絡(luò)的影響。深度估計(jì)網(wǎng)絡(luò)包括基于UNet[21]的IR和RGB特征編碼器、IR?RGB特征融合模塊、深度估計(jì)解碼器。IR和RGB源視圖經(jīng)編碼器提取特征,兩模式特征由IR?RGB特征融合模塊融合,再經(jīng)深度估計(jì)解碼器輸出初步的深度圖。位姿網(wǎng)絡(luò)預(yù)測(cè)相機(jī)的位姿變化,經(jīng)投影函數(shù)處理,將深度信息與源視圖對(duì)齊。通過(guò)比較重建視圖與源視圖的一致性,得到用于自監(jiān)督訓(xùn)練的損失值,進(jìn)而優(yōu)化網(wǎng)絡(luò)性能,提高深度估計(jì)的準(zhǔn)確性。

      深度估計(jì)網(wǎng)絡(luò)采用兩階段訓(xùn)練方法,如圖2 所示。這種分階段和多模態(tài)的訓(xùn)練方法可充分利用不同傳感器的信息,提高深度估計(jì)的準(zhǔn)確性和可靠性。

      在第1 階段, 依次使用RGB, IR 視頻幀訓(xùn)練RGB?UNet 和IR?UNet。特別地,IR?UNet 訓(xùn)練過(guò)程中采用有效通道注意力(Efficient Channel Attention,ECA) 模塊[20]提取RGB 圖像的注意力圖并注入IR 特征,此時(shí)凍結(jié)了RGB?UNet 參數(shù),以確保穩(wěn)定地學(xué)習(xí)IR 圖像特征。

      在第2 階段, IR?RGB 特征融合模塊將IR 和RGB 2種模態(tài)的圖像特征進(jìn)行融合,通過(guò)深度估計(jì)解碼器進(jìn)行深度估計(jì)。與傳統(tǒng)的融合方法[22]不同,考慮不同模態(tài)圖像在空間的信息分布具有差異性,采用非對(duì)稱(chēng)UNet 架構(gòu),根據(jù)中心核對(duì)齊(CenteredKernel Alignment,CKA)相似性結(jié)果來(lái)指導(dǎo)不同模態(tài)特征的有效融合,確保特征空間分布的一致性。具體地,第1 階段RGB?UNet 提取的前4 層特征與IR?UNet 提取的后4 層特征交叉融合,形成4 組融合特征圖輸入IR?RGB 特征融合模塊。該模塊先對(duì)RGB特征圖進(jìn)行下采樣,以匹配IR 特征圖的維度,再通過(guò)特征加法和通道注意力機(jī)制對(duì)融合后的特征進(jìn)行處理,以增強(qiáng)重要特征并抑制噪聲。在解碼器階段,采用卷積和像素Shuffle 操作對(duì)特征圖進(jìn)行上采樣,以逐漸恢復(fù)深度圖像的分辨率。解碼器的最后一層通過(guò)1×1卷積核進(jìn)一步細(xì)化特征,生成最終的深度圖。

      2損失函數(shù)

      在深度估計(jì)網(wǎng)絡(luò)第1階段訓(xùn)練過(guò)程中, 使用L2 范數(shù)作為IR?UNet 和RGB?UNet 的損失函數(shù)[23]。L2 范數(shù)通過(guò)計(jì)算輸入圖像和重建圖像之間像素差異的均方根并將其最小化來(lái)優(yōu)化隧道火源自監(jiān)督單目深度估計(jì)網(wǎng)絡(luò)模型的特征提取能力。第1階段損失函數(shù)為

      3實(shí)驗(yàn)及結(jié)果分析

      3.1隧道火源數(shù)據(jù)集構(gòu)建

      目前隧道火源數(shù)據(jù)集特別是多模態(tài)數(shù)據(jù)集缺乏,因此,在隧道環(huán)境中設(shè)置單目相機(jī)距地面1.2 m,采集不同光照條件下的IR 與RGB 2種模態(tài)的火源圖像,構(gòu)建隧道火源數(shù)據(jù)集,用于評(píng)估自監(jiān)督單目深度估計(jì)網(wǎng)絡(luò)模型的有效性和魯棒性。為了增強(qiáng)數(shù)據(jù)的多樣性,數(shù)據(jù)集包括不同距離下的火源、煙霧及可能出現(xiàn)的干擾物圖像,部分圖像如圖3 所示。此外還記錄了相應(yīng)的深度圖像,以增強(qiáng)火災(zāi)場(chǎng)景下物理現(xiàn)象的多維度信息。

      數(shù)據(jù)采集完畢后進(jìn)行預(yù)處理,以提高數(shù)據(jù)集的圖像豐富性和泛化能力,具體方法:①圖像對(duì)齊。將同一場(chǎng)景拍攝的IR圖像和RGB圖像精確對(duì)齊,確保不同模態(tài)圖像在像素級(jí)別的一致性。②圖像標(biāo)定。使用標(biāo)準(zhǔn)棋盤(pán)格圖案對(duì)圖像進(jìn)行標(biāo)定,以獲取焦距、主點(diǎn)坐標(biāo)、畸變參數(shù)等內(nèi)參信息。③數(shù)據(jù)增強(qiáng)。為了模擬不同的成像條件并提升模型的泛化性,對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng),包括圖像旋轉(zhuǎn)、縮放、裁剪、顏色變換等操作。

      預(yù)處理后的數(shù)據(jù)集包含4200張圖像,按5∶1∶1的比例劃為訓(xùn)練集、驗(yàn)證集和測(cè)試集,即訓(xùn)練集含3000張圖像,驗(yàn)證集和測(cè)試集均含600張圖像。

      3.2參數(shù)設(shè)置與評(píng)價(jià)指標(biāo)選取

      本文采用Pytorch 作為深度學(xué)習(xí)框架, 在NVIDIA GeForce RTX 4080 上實(shí)現(xiàn)隧道火源自監(jiān)督單目深度估計(jì)網(wǎng)絡(luò)模型。深度估計(jì)網(wǎng)絡(luò)采用UNet,其輸入和輸出圖像的分辨率均為384×288;位姿估計(jì)網(wǎng)絡(luò)采用與深度估計(jì)網(wǎng)絡(luò)相同的輸入分辨率。此外,通過(guò)在ImageNet 上預(yù)訓(xùn)練的權(quán)重初始化深度估計(jì)網(wǎng)絡(luò)和位姿網(wǎng)絡(luò)的編碼器。批次大小(batchsize)設(shè)置為8,epoch 設(shè)置為200,初始學(xué)習(xí)率設(shè)置為1×10?6,采用Adam 優(yōu)化器。

      遵循深度估計(jì)領(lǐng)域的常規(guī)實(shí)踐[4],采用絕對(duì)值相對(duì)誤差(Absolute Relative Error, AbsRel) 、平方相對(duì)誤差(Square Relative Error, SqRel) 、均方誤差(RootMean Squared Error, RMSE) 、對(duì)數(shù)均方誤差(RootMeans Squared Error in Logarithmic Space, RMSElog)作為評(píng)價(jià)指標(biāo)。上述指標(biāo)值越小,表明模型性能越好。

      3.3實(shí)驗(yàn)結(jié)果分析

      3.3.1對(duì)比實(shí)驗(yàn)

      將本文模型與目前最先進(jìn)的單目深度估計(jì)模型進(jìn)行對(duì)比實(shí)驗(yàn), 包括Lite?Mono[26], MonoDepth[13],MonoDepth2[8],VAD[27],結(jié)果見(jiàn)表1。可看出當(dāng)骨干網(wǎng)絡(luò)為Resnet18 時(shí),本文模型的AbsRel 和RMS最優(yōu),SqRel 和RMSELog為次優(yōu),精確度閾值為1.25和1.252 時(shí)深度估計(jì)準(zhǔn)確性最優(yōu)。當(dāng)骨干網(wǎng)絡(luò)為Resnet50時(shí), 本文模型的AbsRel,SqRel,RMS,RMSELog 均最優(yōu),精確度閾值為1.252和1.253時(shí)深度估計(jì)準(zhǔn)確性最優(yōu),精確度閾值為1.25時(shí)為次優(yōu)。綜合來(lái)看,本文模型較其他模型具有更準(zhǔn)確的深度預(yù)測(cè)結(jié)果。

      3.3.2消融實(shí)驗(yàn)

      為了評(píng)估IR?RGB特征融合模塊(FU)和相機(jī)高度損失(LH)的有效性,在自制數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn)。基準(zhǔn)模型(Base)采用MonoDepth2,編碼器主干網(wǎng)絡(luò)采用Resnet18。消融實(shí)驗(yàn)結(jié)果見(jiàn)表2??煽闯鲈诨鶞?zhǔn)模型中加入FU 后,滿足δ<1.25條件的像素占比由0.884 提升至0.889,加入LH 后進(jìn)一步提升至0.893。加入FU 和LH 后, AbsRel 由基準(zhǔn)模型的0.112 降至0.105,提高了深度估計(jì)的準(zhǔn)確性。雖然本文模型(Base+FU+LH)在部分指標(biāo)上較基準(zhǔn)模型沒(méi)有顯著改善,但綜合AbsRel 和精確度指標(biāo)可知,引入IR?RGB 特征融合模塊和相機(jī)高度損失可有效增強(qiáng)模型對(duì)不同模態(tài)特征的感知能力,提高深度估計(jì)精度。

      3.3.3可視化結(jié)果

      采用本文模型對(duì)自制數(shù)據(jù)集中的圖像進(jìn)行識(shí)別,并與DepthAnything[28],MonoDepth2[8],Lite?Mono等模型的識(shí)別結(jié)果進(jìn)行對(duì)比,結(jié)果如圖4 所示,部分細(xì)節(jié)如圖5 所示。

      從圖4、圖5可看出,MonoDepth2模型將部分煙霧區(qū)域錯(cuò)誤地估計(jì)成火源的一部分,識(shí)別準(zhǔn)確度受煙霧影響較大;DepthAnything模型對(duì)處于圖像邊緣的物體估計(jì)效果不佳, 丟失了大量的細(xì)節(jié)信息;Lite?Mono 模型的識(shí)別結(jié)果易受背景干擾,導(dǎo)致火源與背景邊緣不夠清晰;本文模型采用多模態(tài)融合策略,針對(duì)RGB 圖像中強(qiáng)光導(dǎo)致圖像過(guò)曝、物體邊界難以準(zhǔn)確區(qū)分的問(wèn)題,利用IR圖像的穩(wěn)定性來(lái)補(bǔ)充特征信息,并結(jié)合非對(duì)稱(chēng)UNet架構(gòu),增強(qiáng)了特征提取能力,因此對(duì)于近景區(qū)域中物體(如火源)和遠(yuǎn)景區(qū)域中物體(如車(chē)輛)的預(yù)測(cè)效果均優(yōu)于其他模型。

      4結(jié)論

      1)隧道火源自監(jiān)督單目深度估計(jì)網(wǎng)絡(luò)模型采用兩階段訓(xùn)練方法,融合了IR 圖像和RGB 圖像特征,并引入自監(jiān)督學(xué)習(xí)框架的位姿估計(jì)網(wǎng)絡(luò),能夠?qū)W習(xí)火源圖像時(shí)間序列上的運(yùn)動(dòng)模式和變化規(guī)律,提高了火源深度估計(jì)的連續(xù)性和準(zhǔn)確性。

      2)該模型引入相機(jī)高度損失作為約束,能夠有效應(yīng)對(duì)相機(jī)姿態(tài)變化的挑戰(zhàn),顯著提升復(fù)雜動(dòng)態(tài)環(huán)境中火源探測(cè)的準(zhǔn)確性與可靠性。

      3)實(shí)驗(yàn)結(jié)果表明,以Resnet50 為骨干網(wǎng)絡(luò)時(shí),該模型的AbsRel 為0.102, SqRel 為0.835,RMS 為4.491,優(yōu)于主流的Lite?Mono, MonoDepth, MonoDepth2,VAD 模型,且精確度閾值為1.25,1.252,1.253 時(shí)整體準(zhǔn)確度最優(yōu);該模型對(duì)近景和遠(yuǎn)景區(qū)域內(nèi)物體的預(yù)測(cè)效果優(yōu)于DepthAnything, MonoDepth2, Lite?Mono模型。

      4)后續(xù)將進(jìn)一步研究融合隧道機(jī)器人、小型無(wú)人機(jī)、透地雷達(dá)的火源識(shí)別、應(yīng)急組網(wǎng)與路徑規(guī)劃方法,提高該模型的精確度和實(shí)用性。

      寻乌县| 弥渡县| 丹凤县| 平阳县| 台东市| 高碑店市| 方城县| 德清县| 临漳县| 奉化市| 甘泉县| 湾仔区| 海宁市| 丰台区| 密山市| 惠东县| 张家界市| 肇庆市| 吉木乃县| 西和县| 汕尾市| 陈巴尔虎旗| 浦城县| 昌平区| 谷城县| 涡阳县| 宝鸡市| 项城市| 龙井市| 宁武县| 获嘉县| 贡觉县| 新蔡县| 深圳市| 枝江市| 鄂州市| 黔南| 嘉峪关市| 富平县| 徐汇区| 历史|