• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      RISNet:無監(jiān)督真實場景圖像拼接網(wǎng)絡

      2023-10-18 00:46:12朱永付慧唐世華王一迪
      計算機應用研究 2023年9期
      關鍵詞:計算機視覺深度學習

      朱永 付慧 唐世華 王一迪

      摘 要:圖像拼接目的是獲得一張高清無縫的全景圖,現(xiàn)有方法依賴于特征匹配的準確性,會錯誤地對齊圖像,產(chǎn)生偽影和失真等現(xiàn)象。為此提出一種新的無監(jiān)督真實場景圖像拼接網(wǎng)絡,能夠適應存在移動目標的真實場景拼接,保證全景圖的精度無損失,包含配準和重建兩個網(wǎng)絡。在配準網(wǎng)絡中引入內(nèi)容感知分支,學習內(nèi)容掩碼,排除移動目標和誤導性區(qū)域?qū)τ谧儞Q矩陣的負影響;在重建網(wǎng)絡中添加邊緣檢測分支,構(gòu)造邊緣一致性感知損失,約束重建過程,優(yōu)化圖像細節(jié),實現(xiàn)高清、無偽影的拼接效果。實驗結(jié)果表明,該方法RMSE、PSNR、SSIM分別達到1.81、26.56、0.85,客觀評價指標整體優(yōu)于其他經(jīng)典算法,用戶調(diào)研結(jié)果也說明該方法獲取的全景圖清晰度更高。該方法有效地完成了真實場景下的無監(jiān)督圖像拼接,并能夠泛化至其他場景的拼接任務中。

      關鍵詞:計算機視覺; 深度學習; 圖像拼接; 單應性估計; 邊緣引導

      中圖分類號:TP311?? 文獻標志碼:A

      文章編號:1001-3695(2023)09-047-2856-07

      doi:10.19734/j.issn.1001-3695.2022.11.0820

      RISNet:unsupervised real scene image stitching network

      Zhu Yong1, Fu Hui1, Tang Shihua2, Wang Yidi1

      (1.School of Information Science & Technology, Beijing Forestry University, Beijing 100083, China; 2.Joint Operations College, China Peoples Liberation Army National Defence University, Shijiazhuang 050084, China)

      Abstract:The purpose of image stitching is to obtain a high-definition, seamless panoramic image. Existing methods rely on the accuracy of feature matching, which will misalign images and produce errors such as artifacts and distortions. This paper proposed a new unsupervised real scene image stitching network which could adapt to real scene stitching in the presence of mo-ving targets and ensure no loss of accuracy in the panorama, including two networks of alignment and reconstruction. It excluded the negative influence of moving targets and misleading regions on the transformation matrix through content branching, and optimized image details by constraining the reconstruction process through edge branching to achieve high-definition and artifact-free stitching effects. The experimental results show that the methods RMSE, PSNR, and SSIM reaches 1.81, 26.56, and 0.85, respectively. The objective evaluation indexes are better than other classical algorithms overall, and the user research results also indicate that the method obtains higher definition of panoramic images. The method effectively accomplishes unsupervised image stitching in real scenes and can be generalized to stitching tasks in other scenes.

      Key words:computer vision; deep learning; image stitching; homography estimation; edge guidance

      0 引言

      圖像拼接是計算機視覺圖像處理領域中的一項關鍵且具有挑戰(zhàn)性的任務,由于視野有限,一張照片無法顯示出完整的感興趣區(qū)域(region of interest)。圖像拼接技術(shù)可以通過拼接來自不同觀察位置的圖像以獲得高分辨率且具有更寬視野的全景圖像[1],在生物[2]、醫(yī)療[3]、視頻監(jiān)控、虛擬現(xiàn)實[4]和自動駕駛[5]等領域發(fā)揮著重要作用。

      圖像拼接技術(shù)主要分為傳統(tǒng)拼接方法和基于深度學習的方法。傳統(tǒng)圖像拼接解決方案是基于特征的方法[6],其嚴重依賴于手工制作稀疏特征的精確定位和均勻分布[7],因此在特征較少或視角變化較大的場景中,拼接圖像中重疊部分極易產(chǎn)生偽影或錯位現(xiàn)象,拼接性能急劇下降,甚至導致拼接失敗。

      由于卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)擁有強大的特征提取能力,通過數(shù)據(jù)驅(qū)動的方式可以自適應地提取到最適合任務的特征。近年來,越來越多的研究人員嘗試將CNN應用于圖像拼接中,按學習方式可分為有監(jiān)督方法和無監(jiān)督方法。

      Van,Shi等人[8,9]在圖像拼接的特征檢測階段采用CNN,使用神經(jīng)網(wǎng)絡提取的特征點進行配準,但該方法不是一個完整的基于深度學習的拼接框架。Chen等人[10]提出了MVLidarNet,該方法由兩個模塊組成,低分辨率變形模塊學習從雙魚眼到全景圖像的變形規(guī)則,高分辨率遞歸模塊以遞歸方式通過高分辨率圖像引導提高拼接結(jié)果的分辨率,但該方法只能拼接拍攝于固定視角的圖像,而不能用于任意視角的圖像拼接。Nie等人[11]提出了第一個完整的基于深度學習的任意視角圖像拼接框架VFISNet,拼接圖像需要經(jīng)過單應性估計、空間變換和內(nèi)容優(yōu)化三個階段。但是,由于網(wǎng)絡中各層完全連通,VFISNet無法處理任意分辨率的輸入圖像,實際應用中的拼接質(zhì)量也不理想。在此基礎上,Nie等人[12]提出了一種保留邊緣的圖像拼接網(wǎng)絡EPISNet,消除了輸入分辨率的限制,顯著提高了真實場景中的拼接性能。在這些固定視角拼接方法中,可以通過深度單應估計、空間變換扭曲和圖像融合來完成基于深度學習的圖像拼接,但上述的解決方案都是基于有監(jiān)督學習方法。由于真實場景中沒有拼接標簽,目前還沒有真正用于深度學習的有監(jiān)督圖像拼接數(shù)據(jù)集,所以這些網(wǎng)絡只能在合成數(shù)據(jù)集上進行訓練,導致在真實場景中的應用不盡如人意。

      為了克服基于有監(jiān)督學習解決方案的局限性,Nie等人[13]提出了一個無監(jiān)督深度學習圖像拼接框架UDISNet,在圖像對齊網(wǎng)絡中提出了拼接域轉(zhuǎn)換層,使輸入圖像在此拼接域內(nèi)占用更小的空間進行扭曲,還提出從特征到像素重建拼接圖像的思想,通過圖像重建方式消除偽影,實現(xiàn)更好的拼接效果。然而,在配準階段,該方法本質(zhì)上是一種基于單一單應性矩陣的配準方法,只能實現(xiàn)輸入圖像粗對齊,并不能精確配準圖像。當輸入圖像存在較大前景或者移動目標時,該方法的配準效果會急劇下降。同時,隨著視差的增加,配準網(wǎng)絡的性能會逐漸降低,重建網(wǎng)絡的重建能力也并不是無限的,通過重建網(wǎng)絡生成后的拼接圖像會損失一部分圖像分辨率,在圖像細節(jié)豐富的區(qū)域,該方法也會產(chǎn)生一些偽影或者結(jié)構(gòu)不一致的區(qū)域。

      使用單應性矩陣在圖像配準時出現(xiàn)誤差的主要原因是受到錯誤匹配特征點的影響,當輸入圖像中具有移動目標時,因為移動目標上的匹配特征點與圖像背景的變換矩陣并不相同,所以會干擾圖像單應性矩陣的計算。減少錯誤匹配點常用的有RANSAC方法,但在深度學習網(wǎng)絡中目前還沒有很好的模型實現(xiàn)這一功能。為了減少這部分特征點的干擾,本文將輸入圖像分為移動目標與背景兩個部分,構(gòu)建內(nèi)容掩碼分支消融輸入圖像中的移動目標[14],對配準網(wǎng)絡進行約束,達到減少錯誤匹配的目的。由于移動目標的變換矩陣與背景不同,所以利用估計的單應性矩陣獲取的拼接結(jié)果圖像中運動目標必然無法對齊,從而產(chǎn)生偽影。為了結(jié)合圖像的精度與準度,利用圖像重建網(wǎng)絡生成全景圖像,使用原始圖像的邊緣信息作為重建網(wǎng)絡的引導。

      基于以上分析,為了克服傳統(tǒng)拼接與深度學習方法的局限性,本文采用UDISNet作為骨干網(wǎng)絡提出一種新的無監(jiān)督真實場景圖像拼接網(wǎng)絡RISNet(real scene image stitching network),其包含內(nèi)容感知配準網(wǎng)絡和邊緣引導重建網(wǎng)絡兩部分。在第一部分中,針對配準網(wǎng)絡在某些場景下配準性能較差等問題,引入內(nèi)容分支突出圖像中對于單應性估計貢獻較大的區(qū)域。在第二部分中,針對邊緣輪廓信息在重建過程中丟失等問題,在重建網(wǎng)絡中引入邊緣分支引導網(wǎng)絡關注結(jié)構(gòu)信息豐富的區(qū)域,避免拼接結(jié)果產(chǎn)生偽影等現(xiàn)象。

      本文在Warped MS-COCO與RISD數(shù)據(jù)集上進行了大量實驗,結(jié)果表明,無論在合成圖像還是真實場景圖像中,RISNet與文獻[13,15]相比均占優(yōu)勢。綜上所述,本文貢獻如下:

      a)提出了一種適用于圖像拼接的內(nèi)容感知配準網(wǎng)絡,可以更加準確地進行單應性估計,更好地對齊預配準圖像。

      b)提出了一種使用邊緣信息顯式引導重建過程的邊緣引導重建網(wǎng)絡,通過構(gòu)造邊緣一致性感知損失在更好地保留圖像細節(jié)的同時盡可能不產(chǎn)生偽影現(xiàn)象。

      c)提出了一個用于無監(jiān)督真實場景圖像拼接的數(shù)據(jù)集,包含室內(nèi)、室外、黑暗、低紋理、小前景和大前景等多種真實環(huán)境,與現(xiàn)有公開數(shù)據(jù)集相比,添加了更多包含大前景和運動物體的場景,使模型對于真實場景具有更好的泛化性能。

      1 RISNet介紹

      RISNet由內(nèi)容感知配準網(wǎng)絡(content aware image registration network,CAIRNet)與邊緣引導重建網(wǎng)絡(edge guidance image reconstruction network,EGIRNet)兩部分組成。

      1.1 內(nèi)容感知配準網(wǎng)絡

      CAIRNet以參考圖a和目標圖b兩張高分辨率圖像作為輸入。首先使用內(nèi)容感知分支預測內(nèi)容掩碼(content-masks);然后將內(nèi)容掩碼與特征金字塔特征進行特征融合(element-wise addition),輸入單應估計模塊中估計得到單應性矩陣H;最后在拼接域變換模塊(stitching-domain transformer)中對輸入圖像進行扭曲變形,以兩張預配準圖像作為輸出,實現(xiàn)輸入圖像預配準。

      整個網(wǎng)絡結(jié)構(gòu)可分為內(nèi)容感知分支、單應性估計和拼接域變換三個模塊,如圖1所示。

      1.1.1 內(nèi)容感知分支

      在非平面場景中,尤其是包含移動對象的場景中,不存在可以對齊兩個視角的單一單應性矩陣。在傳統(tǒng)算法中,RANSAC[15]被廣泛應用于尋找單應性估計的內(nèi)點,從而求解場景對齊的最近似矩陣。

      受到CA-UDHN[14]的啟發(fā),本文通過構(gòu)建一個子網(wǎng)絡來自動學習內(nèi)點的位置,提出一種內(nèi)容感知分支m學習生成一個內(nèi)容掩碼,掩碼的大小與特征圖Fa和Fb的大小相同,利用內(nèi)容掩碼加權(quán)特征金字塔特征,得到兩個加權(quán)特征Ga和Gb,然后將加權(quán)特征G送入到單應性估計模塊中。此過程如式(1)所示。

      Mβ=m(Iβ),Gβ=FβMβ,β∈{a,b}(1)

      對于那些包含較大前景、低紋理或移動對象的區(qū)域,這些區(qū)域具有不可區(qū)分性或者對于配準具有誤導性,在內(nèi)容掩碼中,會自然地將這些內(nèi)容進行消融處理,在單應性估計中使用經(jīng)過內(nèi)容掩碼加權(quán)后的特征圖,網(wǎng)絡更加關注那些對于單應性估計有正向作用的區(qū)域。預測的內(nèi)容掩碼如圖2所示,每列上面圖像為原圖,下面圖像是生成的內(nèi)容掩碼,其中(a)(b)中包含具有誤導性的移動對象,(c)包含大片無法匹配的低紋理雪景,(d)是夜間黑暗場景。內(nèi)容掩碼只會保留具有豐富紋理的可靠區(qū)域,類似于空間注意力,使得網(wǎng)絡更加關注那些具有豐富特征信息的可配準區(qū)域。

      內(nèi)容感知分支各層配置細節(jié)如表1所示。

      1.1.2 單應性估計模塊

      圖像拼接是在大基線場景[12]下拼接圖像,以構(gòu)建具有更寬視野的全景圖,而在大基線的場景中,圖像之間重疊率過低,CA-UDHN的感受野明顯受限,網(wǎng)絡無法提取到適用于大基線場景中的對齊信息,所以CA-UDHN的內(nèi)容感知網(wǎng)絡僅在小基線場景[14]中具有可行性。本文采用EPISNet[12]中的大基線深度單應性估計模型,將特征金字塔和特征相關性結(jié)合成一個網(wǎng)絡,采用特征金字塔進行多尺度特征提取,利用特征相關性實現(xiàn)從局部到整體的特征匹配,提高了特征圖的利用率,擴大了網(wǎng)絡的感受野,消除了CA-UDHN僅能處理小基線圖像對的限制。

      在配準網(wǎng)絡中,輸入圖像被8個卷積層處理,每兩層中間采用一個softpool層[16],將卷積層輸出的多尺度特征表示為F、F1/2、F1/4、F1/8,選擇F1/2、F1/4、F1/8形成一個三層特征金字塔結(jié)構(gòu),將金字塔中每一層的特征與經(jīng)過下采樣后同樣大小的內(nèi)容掩碼融合,將加權(quán)特征G送入單應性估計網(wǎng)絡(圖3中regress network)估計單應性矩陣,并將上層估計的單應性矩陣傳輸?shù)较聦樱圆粩嗵岣邌螒怨烙嫷木?。通過這種方法,網(wǎng)絡可以實現(xiàn)在特征水平上從粗到細的估計單應性,同時可以很好地處理大基線場景。單應性估計模塊如圖3所示。

      1.1.3 拼接域變換模塊

      在求解得到單應性矩陣之后,為了避免空間浪費,不同于空間變換層[17]中定義拼接圖像的最大分辨率的方法,本文采用拼接域變換層[13],將拼接域大小定義為待拼接圖像的最小矩形邊界,在保證圖像內(nèi)容完整性的同時最大限度地節(jié)省了空間。如圖4所示,(a)與(b)分別展示了空間變換層和拼接域變換層中的扭曲圖像。

      通過計算待扭曲圖像4頂點的坐標及各頂點的偏移量,可以得到扭曲后圖像的大小,將拼接域的大小定義為扭曲后圖像的大小,可以較大地減少扭曲圖像占用的空間。此過程如式(2)所示。

      2 實驗結(jié)果與分析

      2.1 實驗數(shù)據(jù)和環(huán)境

      1)數(shù)據(jù)集 本文使用兩種數(shù)據(jù)集進行訓練。第一種是目前最著名的深度單應性估計合成數(shù)據(jù)集Warped MS-COCO[21]。第二種是真實場景數(shù)據(jù)集,為了更好地訓練RISNet,受到文獻[13,14]的啟發(fā),本文提出了一個用于無監(jiān)督圖像拼接的真實場景數(shù)據(jù)集,它是從視角可變的移動視頻中獲得的,用到的視頻一些來自文獻[13,14],另一些是筆者自己實地拍攝的。通過從這些視頻中提取不同間隔時間的幀圖像,得到了包含不同重疊率、不同視差程度的圖像對。這個真實場景數(shù)據(jù)集包括室內(nèi)、室外、黑暗環(huán)境、低紋理、小前景和大前景等多種場景,如圖9所示,該數(shù)據(jù)集包含10 812對訓練圖像和1 023對測試圖像,本文將這個數(shù)據(jù)集命名為真實場景圖像拼接數(shù)據(jù)集(real image stitching dataset,RISD)。

      2)實驗細節(jié) RISNet訓練過程分為CAIRNet和EGIRNet兩部分完成。首先在CAIRNet中,使用合成數(shù)據(jù)集訓練150個輪次,在提出的RISD中微調(diào)50個輪次。然后在EGIRNet中,使用RISD訓練30個輪次。訓練過程中采用的方式都是無監(jiān)督學習方式,這意味著RISNet只需要參考/目標圖像作為輸入,而不需要任何標簽(groundtruth)。采用的優(yōu)化器為Adam, 學習率呈指數(shù)衰減,初始值設置為10-4。由于神經(jīng)網(wǎng)絡模型在訓練初期不穩(wěn)定,所以RISNet在訓練最初的兩個epoch里,采用學習率熱身的方式將學習率從0平滑地增加到初始學習率。式(3)中參數(shù)μ設為0.01,式(10)和(13)中的參數(shù)均設置為λi=10-6和λs=2。根據(jù)各部分對于單應性估計的不同影響,將CAIRNet中的參數(shù)ωc和ωh分別設置為10和1,將EGIRNet中的參數(shù)ωE、ωLR、ωHR和ωCS分別設置為0.25、100、1、1。在測試中,拼接兩張分辨率為512×512的輸入圖像,大約需要0.6 s的時間。RISNet使用TensorFlow實現(xiàn),訓練和測試均在單個NVIDIA GTX 1080 Ti上進行。

      2.2 算法性能分析

      2.2.1 配準性能評估

      為了客觀地評價RISNet的配準性能,將RISNet與傳統(tǒng)拼接方法SIFT+RANSAC、有監(jiān)督拼接方法DHN[21]、無監(jiān)督拼接方法UDHN[22]、CA-UDHN[14]、UDISNet[13]分別在合成數(shù)據(jù)集和RISD上進行了比較。

      1)合成數(shù)據(jù)集 在Warped MS-COCO數(shù)據(jù)集上進行RISNet與其他方法的比較,所有基于深度學習方法的模型都是在該數(shù)據(jù)集上訓練,RISNet-S是RISNet在該數(shù)據(jù)集上以無監(jiān)督方式訓練得到的模型。采用DHN[21]的評價標準,通過對估計的頂點偏移量與真實偏移量之間進行比較,得到的均方根誤差RMSE值越小代表估計得越準確。結(jié)果如表2所示。

      2)RISD 由于RISD中不包含配準結(jié)果真值標簽,采用文獻[13]中提出的重疊區(qū)域的PSNR(峰值信噪比)和SSIM(結(jié)構(gòu)相似性)來評估其配準性能,使用公開的DHN和UDNH預訓練模型進行測試,RISNet-R是RISNet-S在RISD上微調(diào)50個時代后的模型,UDIS_v2是與RISNet-R相同方式訓練得到的模型。結(jié)果對比如表3所示。

      通過分析表2、3可知:

      a)無論是與傳統(tǒng)方法還是深度學習方法對比,本文提出的RISNet在合成數(shù)據(jù)集和真實場景數(shù)據(jù)集中均占優(yōu)勢,能夠更加準確地進行單應性估計,其中CA-UDHN由于感受野受限,無法在適用于圖像拼接的單應性估計數(shù)據(jù)集上進行準確估計。

      b)與參考的骨干網(wǎng)絡UDISNet對比,RISNet在RMSE上提升約為12.1%,在PPNR和SSIM上提升分別約為16.2%和14.9%,說明本文提出的內(nèi)容感知分支及系列損失約束對于單應性估計有正向作用。

      2.2.2 拼接效果評價

      為了驗證RISNet在圖像拼接方面的優(yōu)越性,將RISNet與SIFT+RANSAC[15]、VFISNet[11]和UDISNet[13]方法的拼接結(jié)果進行對比。VFISNet是公開的基于深度學習的有監(jiān)督圖像拼接方法,可以拼接任意視角的圖像,但由于網(wǎng)絡中全連接層的限制,VFISNet只能拼接128×128尺寸的圖像,所以使用雙三次插值(Bicubic)來調(diào)整拼接圖像的大小,以VFISNet+Bicubic方法作為對照。同時為了公平起見,UDISNet與RISNet一樣,都是在RISD上微調(diào)后的模型。

      1)用戶調(diào)研 為了評估圖像拼接結(jié)果的優(yōu)劣,采用基于視覺質(zhì)量的用戶調(diào)研。具體來說,將RISNet與其他三種方法其一產(chǎn)生的兩幅結(jié)果圖作為一組,同時匿名隨機地顯示在一個屏幕上,用戶可以自由放大圖像,并被要求回答這組圖像中哪張拼接效果最好或兩張都好或都不好。這個研究中選取的圖像部分來自RISD的測試集,部分來自其他公開圖像拼接數(shù)據(jù)集,總共包括300組圖像。為了獲得更公平、更清晰的結(jié)果,邀請了50名志愿者參與,其中30名是具有計算機視覺背景的研究人員或?qū)W生,20名是其他專業(yè)領域內(nèi)的學者。

      用戶調(diào)研結(jié)果如圖10所示,忽略都好與都壞的結(jié)果后,無論與哪種方法相比,偏好RISNet結(jié)果的用戶均占多數(shù),這意味著本文結(jié)果在用戶心中具有更好的視覺質(zhì)量,拼接效果更佳。此外,對于某些黑暗環(huán)境或低紋理圖像中,人眼無法準確感知是否有效拼接的情況下,小部分用戶選擇了都壞(both bad)選項,如圖11所示。

      2)視覺質(zhì)量對比 為了進一步展示RISNet的拼接性能,圖12對比展示了各方法在RISD數(shù)據(jù)集中的拼接結(jié)果。

      此外,在圖13中展示了更多RISD的測試結(jié)果。為驗證RISNet在其他數(shù)據(jù)集上的泛化性能,圖14展示了在一些公開數(shù)據(jù)集上的測試結(jié)果,所有展示案例均有不同程度的視差。

      通過圖12可知,由于使用了原始圖像的邊緣信息作為約束,RISNet結(jié)果在圖像細節(jié)上更加清晰(如第1、2行);由于邊緣一致性感知損失的加入,在其他深度學習方法結(jié)果均產(chǎn)生偽影的圖像中,RISNet也達到了很好的視覺效果(如第3行中的人影);通過配準網(wǎng)絡中使用的內(nèi)容分支區(qū)分運動目標與背景,RISNet實現(xiàn)了更好的對齊效果,拼接結(jié)果也更加合理(如第4行中移動的門)。本文模型RISNet并未在包含航拍圖像的數(shù)據(jù)集中進行訓練,但在圖14其他公開數(shù)據(jù)集中的航拍圖像表現(xiàn)同樣良好,表明本文方法具有一定的模型泛化能力。同時,本文采用無監(jiān)督學習方式,對于所有圖像無須擁有其真實拼接標簽,可以在任何場景下進行有效的圖像拼接。

      2.2.3 消融實驗

      1)內(nèi)容感知分支 為了驗證內(nèi)容感知分支的有效性,對于CAIRNet進行了消融實驗,在沒有內(nèi)容感知分支的參與下重新訓練了配準網(wǎng)絡(表4中v1),以相同的評價指標PSNR和SSIM進行比較,結(jié)果如表4所示。由于沒有內(nèi)容掩碼消融輸入圖像中包含移動對象或大前景物體等對于單應性估計具有負作用的區(qū)域,v1模型在測試集的后40%圖像中配準性能較差,而在RISNet中,內(nèi)容掩碼可以自然且有效地去除這些不可靠區(qū)域?qū)τ趩螒怨烙嫷挠绊懀玫揭粋€較好的配準結(jié)果。

      2)邊緣檢測模塊 為了驗證檢測模塊對于高分辨分支優(yōu)化圖像細節(jié)的有效性,在RISD上進行了消融實驗。結(jié)果如圖15所示,v2代表缺少邊緣檢測模塊的模型,在優(yōu)化圖像細節(jié)、豐富圖像內(nèi)容時,v2由于缺乏邊緣一致性感知損失的約束,拼接結(jié)果會出現(xiàn)不同程度的邊緣不對齊現(xiàn)象。而RISNet中,通過邊緣信息來引導重建過程,使得網(wǎng)絡能夠生成邊緣連續(xù)、視覺效果合理的拼接結(jié)果。

      3 結(jié)束語

      本文提出了一種無監(jiān)督真實場景圖像拼接網(wǎng)絡RISNet,包括內(nèi)容感知配準網(wǎng)絡和邊緣引導重建網(wǎng)絡。在配準階段,提出基于內(nèi)容掩碼的內(nèi)容感知分支來優(yōu)化真實場景下的圖像配準,并采用一種基于消融的損失函數(shù)來約束大基線場景下的單應性估計。在重建階段,提出了邊緣檢測分支用來引導圖像重建過程,并設計了一個邊緣一致性損失讓輸出結(jié)果圖邊緣連續(xù),視覺效果更佳。此外,本文在現(xiàn)有無監(jiān)督圖像拼接數(shù)據(jù)集中添加了更多真實場景,提升了網(wǎng)絡的泛化性能。實驗結(jié)果表明,RISNet優(yōu)于現(xiàn)有的其他拼接方案,用戶研究也說明,本文拼接結(jié)果的視覺質(zhì)量更受到用戶的青睞。后續(xù)在超大視差等場景應用時,可考慮通過采用多網(wǎng)格估計多個單應性及增大重建網(wǎng)絡的感受野等方法,進一步提高拼接的精度與準度。

      參考文獻:

      [1]許向陽, 袁杉杉, 王軍, 等. 基于全局和局部特征的圖像拼接方法[J]. 北京理工大學學報, 2022,42(5): 502-510. (Xu Xiang-yang, Yuan Shanshan, Wang Jun, et al. Image stitching method based on global and local features[J]. Trans of Beijing Institute of Technology, 2022,42(5): 502-510.)

      [2]Chalfoun J, Majurski M, Blattner T, et al. MIST: accurate and scalable microscopy image stitching tool with stage modeling and error minimization[J]. Scientific Reports, 2017,7(1): article No.4988.

      [3]Liu Desheng, He Qiang, Liu Chunli, et al. Medical image stitching using parallel SIFT detection and transformation fitting by particle swarm optimization[J]. Journal of Medical Imaging and Health Informatics, 2017,7(6): 1139-1148.

      [4]Wang Lang, Yu Wen, Li Bao. Multi-scenes image stitching based on autonomous driving[C]//Proc of the 4th IEEE Information Technology, Networking, Electronic and Automation Control Conference. Piscataway, NJ: IEEE Press, 2020: 694-698.

      [5]Kim H G, Lim H T, Ro Y M. Deep virtual reality image quality assessment with human perception guider for omnidirectional image[J]. IEEE Trans on Circuits and Systems for Video Technology, 2020,30(4): 917-928.

      [6]劉杰, 游品鴻, 占建斌, 等. 改進SIFT快速圖像拼接和重影優(yōu)化[J]. 光學精密工程, 2020,28(9): 2078-2084. (Liu Jie, You Pinghong, Zhan Jianbin, et al. Improved SIFT fast image stitching and ghosting optimization algorithm[J]. Optics and Precision Engineering, 2020,28(9): 2078-2084.)

      [7]唐云, 帥鵬飛, 蔣沛凡, 等. 基于多尺度殘差網(wǎng)絡的單應估計方法[J]. 計算機應用研究, 2022,39(10): 3179-3185. (Tang Yun, Shuai Pengfei, Jiang Peifan, et al. Homography estimation method based on multi-scale residual network[J]. Application Research of Computers, 2022,39(10): 3179-3185.)

      [8]Van D H, Diem P T, Nguyen G N, et al. Deep feature extraction for panoramic image stitching[J]. Intelligent Information and Database Systems, 2020,4(2): 141-151.

      [9]Shi Zaifeng, Li Hui, Cao Qingjie, et al. An image mosaic method based on convolutional neural network semantic features extraction[J]. Journal of Signal Processing Systems, 2020,92(2) : 435-444.

      [10]Chen K, Oldja R, Smolyanskiy N, et al. MVLidarNet: real-time multi-class scene understanding for autonomous driving using multiple views[C]//Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscataway, NJ: IEEE Press, 2020: 2288-2294.

      [11]Nie Lang, Lin Chunyu, Liao Kang, et al. A view-free image stitching network based on global homography[J]. Journal of Visual Communication and Image Representation, 2020,73: 102950.[12]Nie Lang, Lin Chunyu, Liao Kang, et al. Learning edge-preserved image stitching from large-baseline deep homography[EB/OL]. (2020)[2022-11-23]. https://arxiv.org/abs/2012.06194.

      [13]Nie Lang, Lin Chunyu, Liao Kang, et al. Unsupervised deep image stitching: reconstructing stitched features to images[J]. IEEE Trans on Image Processing, 2021,30: 6184-6197.

      [14]Zhang Jirong, Wang Chuan, Liu Shuaicheng, et al. Content-aware unsupervised deep homography estimation[C]//Proc of European Conference on Computer Vision. Cham: Springer, 2020: 653-669.

      [15]萬琴, 顏金娥, 李智, 等. 基于改進RANSAC算法的全景圖像拼接技術(shù)[J]. 光電子·激光, 2021,32(12): 1253-1261. (Wan Qin, Yan Jine, Li Zhi, et al. Panorama image stitching technology based on improved RANSAC algorithm[J]. Journal of Optoelectronics·Laser, 2021,32(12): 1253-1261.)

      [16]Stergiou A, Poppe R, Kalliatakis G. Refining activation downsampling with SoftPool[C]//Proc of International Conference on Compu-ter Vision. Piscataway, NJ: IEEE Press, 2021: 10337-10346.

      [17]Jaderberg M, Simonyan K, Zisserman A,et al. Spatial transformer network[C]//Proc of the 28th International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2015: 968-976.

      [18]Dai Qinyan, Fang Faming, Li Juncheng, et al. Edge-guided composition network for image stitching[J]. Pattern Recognition, 2021,118(9): 108019.

      [19]Xie Saining, Tu Zhuowen. Holistically-nested edge detection[C]//Proc of IEEE International Conference on Computer Vision. Pisca-taway, NJ: IEEE Press, 2015: 1395-1403.

      [20]He Kaiming, Zhang Xiangyu, Ren Shaoqing, et al. Deep residual learning for image recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2016: 770-778.

      [21]DeTone D, Malisiewicz T, Rabinovich A. Deep image homography estimation[EB/OL]. (2016)[2022-11-23]. https://arxiv.org/abs/1606. 03798.

      [22]Nguyen T, Chen S W, Shivakumar S S, et al. Unsupervised deep homography: a fast and robust homography estimation model[J]. IEEE Robotics and Automation Letters, 2018,3(3): 2346-2353.

      收稿日期:2022-11-23;修回日期:2023-01-18? 基金項目:國家自然科學基金資助項目

      作者簡介:朱永(1998-),男(通信作者),安徽合肥人,碩士研究生,主要研究方向為計算機視覺圖像拼接(zhuyong98@qq.com);付慧(1978-),女,北京昌平人,副教授,碩導,博士,主要研究方向為深度學習、數(shù)字圖像處理及可視化;唐世華(1980-),男,河北石家莊人,高級工程師,博士,主要研究方向為系統(tǒng)工程;王一迪(1995-),女,吉林扶余人,碩士研究生,主要研究方向為圖像識別與分類.

      猜你喜歡
      計算機視覺深度學習
      基于深度卷積神經(jīng)網(wǎng)絡的物體識別算法
      雙目攝像頭在識別物體大小方面的應用
      機器視覺技術(shù)發(fā)展及其工業(yè)應用
      危險氣體罐車液位計算機視覺監(jiān)控識別報警系統(tǒng)設計
      有體驗的學習才是有意義的學習
      計算機視覺在交通領域的應用
      電子商務中基于深度學習的虛假交易識別研究
      MOOC與翻轉(zhuǎn)課堂融合的深度學習場域建構(gòu)
      大數(shù)據(jù)技術(shù)在反恐怖主義中的應用展望
      基于計算機視覺的細小顆粒團重量測量的研究
      霍城县| 灌南县| 土默特左旗| 收藏| 怀安县| 南安市| 锡林浩特市| 同仁县| 临夏县| 伊宁县| 深圳市| 彰武县| 新乡县| 日照市| 峨眉山市| 临洮县| 东平县| 哈巴河县| 灵璧县| 梧州市| 汤原县| 威远县| 麻城市| 安吉县| 永城市| 商都县| 介休市| 静宁县| 信阳市| 金塔县| 巴林右旗| 柘荣县| 达尔| 德兴市| 互助| 修武县| 长宁区| 盘锦市| 中阳县| 安庆市| 丽江市|