• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于潛在有價值樣本挖掘的半監(jiān)督三維目標檢測

      2025-02-28 00:00:00孫立輝李佳霖劉夏
      計算機應用研究 2025年2期
      關鍵詞:目標檢測閾值

      摘 要:為了解決當前半監(jiān)督三維目標檢測算法中,傳統(tǒng)的固定閾值方法在過濾偽標簽時不夠靈活,舍棄了大量有價值的偽標簽,沒有充分利用潛在有價值樣本的問題,提出了一種基于潛在有價值樣本挖掘的半監(jiān)督三維目標檢測方法。首先,不再使用固定閾值過濾偽標簽,采用基于得分聚類的自適應閾值生成方法,分別為不同的類別生成過濾偽標簽時需要的閾值,保留更多有價值的偽標簽;其次,由于標簽由類別和邊界框信息組成,提出了一種聯(lián)合置信度過濾偽標簽的方法,使用對象置信度、分類置信度和IoU置信度的乘積來過濾偽標簽,改善偽標簽的質量;最后,對樣本數(shù)量較少的類別生成稠密偽標簽,篩選未通過聯(lián)合置信度過濾的部分數(shù)據(jù),以軟偽標簽的形式保留偽標簽,更充分地利用潛在有價值的樣本。在KITTI數(shù)據(jù)集上,與PV-RCNN方法相比,所提方法在僅1%標記數(shù)據(jù)的情況下,汽車類提高了6.5百分點,行人類提高了9百分點,自行車類提高了25百分點,實驗結果證明了所提方法的有效性。

      關鍵詞:目標檢測;半監(jiān)督;稠密偽標簽;閾值;軟偽標簽

      中圖分類號:TP391.4 文獻標志碼:A 文章編號:1001-3695(2025)02-040-0612-06

      doi:10.19734/j.issn.1001-3695.2024.04.0169

      Semi-supervised 3D object detection based on mining valuable potential samples

      Sun Lihui,Li Jialin,Liu Xia

      (School of Management Sciences amp; Information Engineering,Hebei University of Economics amp; Business,Shijiazhuang 050000,China)

      Abstract:This paper proposed a semi-supervised 3D object detection method based on mining potentially valuable samples to address the issue in current algorithms where traditional fixed threshold methods are inflexible in filtering pseudo-labels,discarding numerous valuable pseudo-labels,and failing to fully utilize potentially valuable samples.Firstly,instead of using a fixed threshold to filter pseudo-labels,it adopted an adaptive threshold generation method based on score clustering,generating thresholds for different categories to retain more valuable pseudo-labels.Secondly,since labels consist of category and bounding box information,it proposed a joint confidence filtering method.This method used the product of object confidence,classification confidence,and IoU confidence to filter pseudo-labels,improving the quality of pseudo-labels.Finally,it generated dense pseudo-labels for categories with fewer samples,screened the data that did not pass the joint confidence filtering,and retained pseudo-labels in the form of soft pseudo-labels,making better use of potentially valuable samples.On the KITTI dataset,compared with the PV-RCNN method,the proposed method improved the car category by 6.5 percentage point,the pedestrian category by 9 percentage point,and the bicycle category by 25 percentage point with only 1% labeled data.Experimental results demonstrate the effectiveness of the proposed method.

      Key words:object detection;semi-supervised;dense pseudo-labels;threshold;soft pseudo-labels

      0 引言

      近幾年,越來越多的車企致力于自動駕駛技術的研究,其中三維目標檢測方案受到了廣泛重視。全監(jiān)督的三維目標檢測方法取得了較好的效果,但是全監(jiān)督三維目標檢測的缺點是需要依賴大量的標記數(shù)據(jù)來進行訓練,然而數(shù)據(jù)標記成本較高,并且耗費時間較長,在一定程度上影響了三維目標檢測的研究[1。為了減少對標記數(shù)據(jù)的依賴,使用少量標記數(shù)據(jù)和大量未標記數(shù)據(jù)進行研究的半監(jiān)督學習成為了一個可行的選擇。

      半監(jiān)督學習在二維目標檢測中已經(jīng)得到了廣泛的研究,有的研究方法有一部分已經(jīng)被應用于三維目標檢測領域,并取得了不錯的效果?,F(xiàn)有的較為常用半監(jiān)督目標檢測方法主要包括基于偽標簽[2~4和基于一致性5~7的方法兩類。在基于偽標簽的半監(jiān)督目標檢測方法中,通過閾值過濾教師模型的預測,篩選出偽標簽是較為常用的方法,并且這一策略對于提升模型在有限標注數(shù)據(jù)情況下的性能至關重要。

      半監(jiān)督三維目標檢測中傳統(tǒng)基于固定閾值過濾偽標簽的方法存在的問題是很難準確地選擇閾值來過濾預測生成的偽標簽[8,9。使用固定的閾值來過濾偽標簽,如果過濾偽標簽的閾值過高,將導致大量潛在的有價值的偽標簽被過濾,如果過濾偽標簽的閾值過低,則會生成大量質量差的偽標簽,這兩種情況都不利于模型的訓練。如何在不同階段選擇不同的偽標簽過濾閾值是影響模型性能的一個關鍵問題10。為此本文提出了基于得分聚類的自適應閾值生成方法,根據(jù)不同階段模型的性能,在不同階段為不同的類別生成不同的閾值。

      在目標檢測任務中,單一的置信度過濾策略可能導致潛在有價值的樣本得不到充分的利用,這些樣本可能包含重要的特征,但由于置信度不足而被錯誤地排除在外。標簽由類別信息和邊界框信息組成,偽標簽質量會影響數(shù)據(jù)的分類和邊界框的定位準確性,使用單一的置信度過濾策略在篩選偽標簽時可能會導致生成的偽標簽質量不佳[11。為此本文提出了聯(lián)合置信度策略過濾偽標簽,改善偽標簽的質量,盡可能地充分挖掘潛在有價值的樣本。半監(jiān)督三維目標檢測面臨的一個挑戰(zhàn)是,大量潛在有價值的偽標簽沒能得到充分利用,尤其是低置信度樣本,其潛在價值經(jīng)常被忽略[12~14。這一問題使得模型難以充分地學習到樣本的特征信息,尤其是樣本數(shù)量較少的類別。為此本文提出了一種策略,對樣本數(shù)量較少的類別生成稠密偽標簽,并對低置信度樣本進一步篩選,生成軟偽標簽,充分利用潛在有價值的樣本。這樣,不僅提高了樣本的利用率,也為模型學習提供了更豐富的信息。

      綜上所述,本文主要貢獻包括:a)針對使用固定閾值過濾偽標簽的問題,提出了基于得分聚類的閾值生成方法,為不同類別在不同階段生成不同的過濾閾值,更準確地篩選出高質量的偽標簽。b)提出了基于聯(lián)合置信度的偽標簽過濾策略,聯(lián)合樣本的對象置信度、分類置信度和IoU置信度過濾偽標簽,改善偽標簽質量。c)提出了稠密偽標簽和軟偽標簽策略,保留更多有價值的標簽信息,更充分地利用潛在有價值的樣本。d)在KITTI數(shù)據(jù)集上進行了廣泛的實驗,本文方法相比于基線PV-RCNN性能有很大的提高。在僅有1%標記數(shù)據(jù)的情況下,汽車類提高了6.5百分點,行人類提高了9百分點,自行車類提高了25百分點。

      這些方法幫助模型更充分地利用潛在有價值的樣本,保留更多有價值的偽標簽,并在模型訓練過程中改善了偽標簽的質量和數(shù)據(jù)的利用效率,提高了模型的檢測性能。

      1 相關工作

      1.1 三維目標檢測

      三維目標檢測在最近幾年發(fā)展迅速,已經(jīng)產(chǎn)生了多種三維目標檢測方法,并取得了不錯的成績。其中基于點云的三維目標檢測算法主要分為基于原始點[15,16、基于體素17~19和基于BEV的方法[20,21三類。使用BEV方法將點云投影到二維圖像中會導致點云幾何信息的丟失。利用體素化技術將點云數(shù)據(jù)轉換為三維體素網(wǎng)格,并通過對該網(wǎng)格進行處理來實現(xiàn)目標檢測,也存在信息丟失問題?;谠键c的方法直接使用不規(guī)則點云來提取特征,避免了幾何信息丟失,但是處理大規(guī)模點云時,不如利用體素的方法那樣高效[22。有一部分人考慮將點云和體素結合起來,以達到一個更好的效果。PV-RCNN[23通過融合點云和體素表示的特征,融合兩者的優(yōu)勢來提高目標檢測的性能,這種方法使得模型能夠同時捕獲點云數(shù)據(jù)的幾何信息和體素網(wǎng)格的全局上下文信息,從而更好地理解和識別物體,實現(xiàn)了高效的三維目標檢測。

      1.2 無監(jiān)督學習

      無監(jiān)督學習一直以來是人們研究的一個重要方向,它不依賴于標記數(shù)據(jù),主要利用大量的無標記數(shù)據(jù)來訓練網(wǎng)絡模型。在無監(jiān)督學習中,對于偽標簽的利用方法也有很多,2022年,王帆等人[24提出了一種基于偽標簽不確定性估計的源域無關魯棒域自適應方法,該方法通過源域模型的預測結果,結合信息熵和能量函數(shù),生成目標域數(shù)據(jù)的偽標簽。2023年,林磊等人[25提出了一種基于自糾錯偽標簽的無監(jiān)督域自適應方法,該方法對源域標注數(shù)據(jù)進行數(shù)據(jù)降維和子空間變換,并將這些變換應用于目標域的未標注數(shù)據(jù),以此來生成相應的偽標簽。2023年,苗壯等人[26提出了一種等量約束聚類的無監(jiān)督蒸餾哈希圖像檢索方法,該方法使用改進K-means的等量約束聚類方法生成偽標簽。

      1.3 半監(jiān)督學習

      不同于無監(jiān)督學習中基于偽標簽的方法,通過聚類、挖掘圖像對相似性等手段為圖像生成偽標簽,半監(jiān)督學習中基于偽標簽的方法主要通過閾值過濾偽標簽,僅使用少量標記數(shù)據(jù)進行訓練,便可以取得不錯的性能。2021年,文獻[9]提出的3DIoUMatch是首個應用于室外場景的半監(jiān)督三維目標檢測算法網(wǎng)絡。該算法使用教師網(wǎng)絡的預測為未標記數(shù)據(jù)生成偽標簽,同時使用固定的高閾值0.9來過濾所有類別的偽標簽,并直接舍棄了過濾后剩余的偽標簽。2022年,DetMatch方法[27利用分類置信度,并使用固定閾值來過濾偽標簽,同時該算法結合了二維和三維檢測結果,以生成更精確的偽標簽。2023年Li等人[10提出的DDS3D方法使用動態(tài)閾值過濾偽標簽,隨著迭代次數(shù)的增加,逐漸降低閾值,有效提高了網(wǎng)絡的檢測性能。在無監(jiān)督和半監(jiān)督學習中使用基于偽標簽的方法,其主要思想都是通過一些方法為無標注數(shù)據(jù)生成高質量的偽標簽,用于目標域模型的訓練。其不同之處主要為半監(jiān)督學習中有少量的標記數(shù)據(jù),可以對無標記數(shù)據(jù)起到一定的監(jiān)督作用,并且標記數(shù)據(jù)的信息可以傳播到無標記數(shù)據(jù)中,提高模型學習效果。

      在半監(jiān)督學習中,本文基于偽標簽的方法與現(xiàn)有方法有相似之處,都是利用預訓練好的教師網(wǎng)絡采用閾值的方法過濾偽標簽,并將生成的偽標簽用于學生網(wǎng)絡模型的訓練。然而,不同之處主要是,本文方法依據(jù)模型的性能,在不同的階段分別為不同的類別生成了不同的偽標簽過濾閾值。此外,本文方法更充分地利用了潛在有價值的樣本,生成了稠密偽標簽和軟偽標簽,用來更好地訓練網(wǎng)絡模型。

      2 本文算法

      2.1 算法框架

      本文框架來自基本的教師-學生框架,使用了基于偽標簽的方法訓練模型。這種方法的關鍵是確保教師模型的預測足夠可靠,并盡可能地保留高質量的偽標簽,這樣才能給學生模型帶來正向的影響。在預訓練階段,使用現(xiàn)有的標記數(shù)據(jù)集X以全監(jiān)督的方式訓練PV-RCNN,然后,使用相同的預訓練權重對教師網(wǎng)絡和學生網(wǎng)絡進行初始化。

      圖1是本文半監(jiān)督方法的框架。半監(jiān)督學習階段,在每輪開始訓練之前將標記數(shù)據(jù)集X={xl,yl}輸入到教師網(wǎng)絡進行預測,并保存最終預測得分。接著,將保存的預測得分利用基于得分聚類的閾值生成方法為各個類別生成不同的閾值,并將其保存。然后,開始訓練網(wǎng)絡,從數(shù)據(jù)集中隨機抽取未標記數(shù)據(jù){xu}輸入到教師網(wǎng)絡模型當中,并將網(wǎng)絡輸入進行弱數(shù)據(jù)增強,生成弱增強數(shù)據(jù)。將教師網(wǎng)絡生成的預測通過聯(lián)合置信度來過濾,保存通過篩選的偽標簽,并為數(shù)量較少的類別生成稠密偽標簽。最后,為了充分利用潛在有價值的樣本,將未通過聯(lián)合置信度過濾,但是各類置信度得分大于t的部分樣本以軟偽標簽的形式保存。對于學生網(wǎng)絡的訓練,將網(wǎng)絡輸入進行強數(shù)據(jù)增強,生成強增強數(shù)據(jù),以加強學生網(wǎng)絡對樣本的訓練,對于標記樣本,學生網(wǎng)絡由真實標簽{yl}直接監(jiān)督,對于未標記的樣本,學生網(wǎng)絡由來自教師網(wǎng)絡的偽標簽{yu}進行監(jiān)督。

      在初始階段,本文的教師網(wǎng)絡和學生網(wǎng)絡使用了相同配置的室外三維檢測器PV-RCNN,在訓練過程中,本文采用了指數(shù)移動平均(exponential moving average,EMA)策略更新教師模型的參數(shù),使得網(wǎng)絡模型可以更好地平滑數(shù)據(jù),減少噪聲影響,適應數(shù)據(jù)變化[7。

      θt=λθt+(1-λ)θs(1)

      其中:λ為EMA衰減率;θt和θs分別為教師和學生模型參數(shù)。

      2.2 自適應閾值

      教師網(wǎng)絡對輸入數(shù)據(jù)進行處理,在篩選出合適偽標簽的過程中,偽標簽過濾閾值的選擇是此階段工作的關鍵部分。以往研究大多使用固定的較高閾值來過濾教師網(wǎng)絡中不滿足條件的偽標簽,這種方法生成的偽標簽對模型的訓練效果不好[9,28。針對此問題,本文提出了一種自適應閾值生成方法,在模型中加入了基于得分聚類的偽標簽過濾閾值生成模塊,在不同階段生成不同的過濾閾值。圖2給出了自適應閾值生成方法的實現(xiàn)過程。該方法的輸入是現(xiàn)有的標記數(shù)據(jù)集X={xl,yl},輸出為各個類別的過濾閾值Tobj、Tcls、TIoU。使用教師網(wǎng)絡模型作為檢測器,用于數(shù)據(jù)的預測。具體實現(xiàn)過程如下所示。

      輸入:標記數(shù)據(jù)集X={xl,yl};聚類數(shù)k。

      輸出:偽標簽過濾閾值Tobj、Tcls、TIoU。

      initialization:

      選擇當前的教師網(wǎng)絡模型用于數(shù)據(jù)的預測。

      選取K-means++方法用于得分聚類。

      for (x,y) in X:

      將數(shù)據(jù)輸入到教師網(wǎng)絡模型中進行預測。

      將教師網(wǎng)絡模型對輸入數(shù)據(jù)的預測得分保存到三個集合中。

      對保存的得分進行聚類,使用基于K-means++[29的聚類方法劃分得分。

      選擇最終的質心作為過濾閾值,并將閾值保存下來。

      output:

      保存各個類別的閾值Tobj、Tcls、TIoU,用于偽標簽的過濾。

      為每個類別都生成特定的過濾閾值,不僅可以更充分地利用潛在有價值的樣本來優(yōu)化模型的性能,還可以更好地適應不同類別數(shù)據(jù)的分布特性。這種操作能夠使模型在處理多類別的數(shù)據(jù)時更加靈活、更加準確,從而提升模型的整體性能。

      2.3 聯(lián)合置信度過濾偽標簽策略

      在過去的半監(jiān)督目標檢測中,常見的偽標簽過濾方法主要包括基于IoU置信度和基于分類置信度的方法[2。這些方法在過濾偽標簽時僅使用了預測框的分類得分或IoU得分,不能獲得綜合質量很好的偽標簽。使用基于分類置信度的方法過濾偽標簽時,生成的偽標簽可能會有比較高的類別得分,但其定位信息可能不準確,將生成的偽標簽加入到模型的訓練中以后,可能會由于定位不準確而導致模型的錯誤訓練。

      在圖3中,黃色框代表偽標簽,紅色框代表真實標簽,綠色框代表模型的預測框(參見電子版),左側預測框的IoU(intersection over union)值為0.56,右側預測框的IoU值為0.36。由于偽標簽與真實標簽并不完全匹配,并且偽標簽的質量不夠高,本應該是背景的綠色預測框被錯誤地判斷為前景。所以,篩選偽標簽時需要考慮偽標簽的綜合質量。

      另外,在三維目標檢測中,不同類別的檢測效果可能存在差異,這種差異可能源自多種因素,包括物體的形狀、大小、遮擋程度、數(shù)據(jù)集的分布以及數(shù)據(jù)數(shù)量等[30,31。由于這些因素的存在,不同類別的檢測效果可能表現(xiàn)出不同的特點,有些類別在分類準確性上表現(xiàn)較好,有些類別在定位準確性上表現(xiàn)較好。為了達到較好的模型訓練效果,本文提出了使用聯(lián)合置信度來過濾偽標簽的方法。具體如下:

      a)將無標簽數(shù)據(jù){xu}輸入教師網(wǎng)絡進行預測。

      b)生成教師網(wǎng)絡預測對象的對象置信度得分fobj、分類置信度得分fcls、IoU置信度得分fIoU。

      c)利用式(2)對教師網(wǎng)絡的預測進行篩選。

      d)保留通過篩選的預測。

      通過綜合考慮生成的對象性置信度閾值、分類置信度閾值和IoU置信度閾值的乘積篩選教師網(wǎng)絡的預測,有助于更充分地利用有價值的樣本,提高模型的泛化能力和魯棒性。

      篩選教師網(wǎng)絡預測的公式如下:

      fobj×fcls×fIoUgt;Tobj×Tcls×TIoU(2)

      其中:fobj、fcls、fIoU分別為對象置信度得分、分類置信度得分和IoU置信度得分;Tobj、Tcls、TIoU為過濾閾值。

      2.4 數(shù)據(jù)增強

      數(shù)據(jù)增強在半監(jiān)督目標檢測中是一種增加樣本數(shù)量的有效方法,并且對于模型性能的提升也有一定的效果[32。本文算法中,教師網(wǎng)絡和學生網(wǎng)絡都使用PV-RCNN作為基礎模型。由于這兩個網(wǎng)絡極其相似,在訓練過程中如果沒有對網(wǎng)絡的輸入進行擾動,很有可能會造成過擬合的情況。本文對學生網(wǎng)絡和教師網(wǎng)絡的輸入進行了不同的擾動。對于教師網(wǎng)絡,進行了弱數(shù)據(jù)增強處理,將輸入進行簡單旋轉等。為了使學生網(wǎng)絡學習到更復雜、獨特的信息,對學生網(wǎng)絡的輸入進行了強數(shù)據(jù)增強,使用了一組聯(lián)合擾動方案,F(xiàn)={X,Y,Z,S,M}。其中,擾動X意味著沿著x軸翻轉;Y意味著沿著y軸翻轉;Z意味著旋轉點云,旋轉范圍從[-b,b]中隨機選擇;S意味著點的比例;M意味著單圖像混合33。其中b的值為π/4,X翻轉擾動條件如式(3)所示,意味著網(wǎng)絡的輸入有一半的概率進行翻轉,δ為從[0,1]隨機選取的數(shù)。

      X=1if δgt;0.5

      0otherwise(3)

      2.5 偽標簽生成策略

      2.5.1 稠密偽標簽

      在半監(jiān)督訓練過程中,由于部分類別的樣本數(shù)量較少,標記標簽也較少,使得這些類別的特征學習起來較為困難。在網(wǎng)絡模型不斷訓練、偽標簽不斷生成的過程中,由于樣本數(shù)量較少的類別檢測效果不穩(wěn)定,標簽不準確,導致生成的高質量偽標簽數(shù)量不是很多。另外,在隨機抽取樣本進行訓練時,通過非極大值抑制等一系列操作,有很多生成的偽標簽被舍棄,這可能會導致一些對于學習該類特征有幫助的潛在有價值的偽標簽未被充分利用[9。針對上述問題,本文提出了一種使用稠密偽標簽的方法,以增加樣本數(shù)量較少類別的偽標簽,并加強模型對這些類別的學習。具體如下:a)選取通過篩選的預測;b)對預測進行非極大值抑制(NMS)操作,去除重疊的候選邊界框;c)檢測邊界框類別;d)如果為行人類和騎自行車類,保存?zhèn)螛撕瀧yu};e)如果為汽車類別,檢測是否已有偽標簽,如果沒有則保存?zhèn)螛撕瀧yu},否則舍棄。

      本文為了獲得更多的偽標簽,更充分地利用潛在有價值的樣本,將通過聯(lián)合置信度閾值篩選的樣本數(shù)量較少類別的高質量偽標簽都保存了下來。在這一操作之后,模型對于類別較少的樣本將能學習到更多潛在的特征。如圖4所示,圖中紅色框為真實標簽框(參見電子版),綠色框為偽標簽框,相比于圖(a)中的稀疏偽標簽,圖(b)中的稠密偽標簽使模型能夠更好地學習。這種增加偽標簽數(shù)量的方法能夠提升模型在這些類別的預測性能。

      2.5.2 軟偽標簽

      為了充分利用潛在有價值的樣本,保留更多潛在有價值的偽標簽信息,訓練過程中對未通過聯(lián)合置信度過濾的低置信度樣本進行了進一步的挖掘。為了確保挖掘的低置信度樣本相對有價值,本文綜合考慮了對象置信度、分類置信度和IoU置信度來篩選樣本,生成軟偽標簽。為了更好地處理不同類別的樣本,本文對不同的類別生成了不同的篩選條件。

      具體如下:a)選取未生成偽標簽的樣本;b)選取未通過聯(lián)合置信度過濾的預測;c)依據(jù)式(4)得出用于生成軟偽標簽的閾值;d)繼續(xù)篩選教師網(wǎng)絡的預測;e)通過非極大值抑制減少候選框的數(shù)量;f)生成軟偽標簽。

      考慮到閾值過低可能會生成許多置信度較低的軟偽標簽,這些軟偽標簽對模型的訓練并不會產(chǎn)生很好的幫助,不能使模型的性能有進一步的提高,因此本文選擇控制閾值的最低值。軟偽標簽過濾閾值t的生成方法如式(4)所示。

      t=max(C,T-β)(4)

      由于不同類別樣本在基于聯(lián)合置信度過濾部分的閾值T不同,所以在生成軟偽標簽時采用的閾值也是不同的,這有利于模型對不同類別樣本的訓練。經(jīng)過實驗分析,將C值設置為0.4??紤]到需要盡可能有效地生成軟偽標簽,因此本文將β的值設置為0.4,僅選取比基于聯(lián)合置信度過濾部分閾值低0.4范圍以內(nèi)的樣本生成軟偽標簽。

      2.6 損失函數(shù)

      對于學生網(wǎng)絡的訓練,將網(wǎng)絡輸入進行強數(shù)據(jù)增強,生成強增強數(shù)據(jù),以加強學生網(wǎng)絡對樣本的訓練,對于帶標簽的樣本,學生網(wǎng)絡由真實標簽{yl}直接監(jiān)督,對于未標記的樣本,學生網(wǎng)絡由來自教師網(wǎng)絡的偽標簽{yu}進行監(jiān)督。

      本文半監(jiān)督框架的損失函數(shù)由標記場景和未標記場景的監(jiān)督損失組成,損失由分類損失和回歸損失組成。

      定義如下:

      Ll=Lcls(xl,yl)+Lreg(xl,yl)(5)

      Lu=Lcls(xu,yu)+Lreg(xu,yu)(6)

      總的訓練損失定義如下:

      L=Ll+αLu(7)

      其中:α為未標記場景的監(jiān)督損失的平衡權重。

      3 實驗

      3.1 數(shù)據(jù)集和評價指標

      本文使用現(xiàn)有算法中最常用的KITTI室外數(shù)據(jù)集對所提方法進行實驗,該數(shù)據(jù)集包括7 481個用于訓練的戶外場景和7 518個用于測試的戶外場景。本文將訓練樣本進一步劃分,生成一個包含3 712個樣本的訓練數(shù)據(jù)集和一個包含3 769個樣本的驗證數(shù)據(jù)集。為了更好地測試本文的半監(jiān)督學習方法,本文從訓練數(shù)據(jù)集當中分別選擇了1%和2%的標記樣本作為初始的標記數(shù)據(jù)集,并將其用于網(wǎng)絡模型的訓練。

      本文使用40個召回位置的平均精度均值mAP作為評估指標,為了公平比較,將汽車類的IoU閾值設置為0.7,行人類的IoU閾值設置為0.5,騎自行車的類的IoU閾值設置為0.5。

      3.2 實現(xiàn)環(huán)境

      本文實驗過程中使用的硬件設備和軟件環(huán)境如表1所示。實驗部分基于聯(lián)想智能超算平臺中的4塊RTX A40 GPU加速訓練。本文使用PV-RCNN作為基礎模型,并使用預訓練好的網(wǎng)絡權重對教師網(wǎng)絡和學生網(wǎng)絡進行初始化。在半監(jiān)督訓練階段,每個批次隨機抽取40個有標簽的樣本{xl}和無標簽的樣本{xu},這些樣本進行相同的數(shù)據(jù)增強。學生網(wǎng)絡訓練總共訓練90輪,使用初始學習率為0.01的ADAM優(yōu)化器。對于學習率的調整策略,本文使用與全監(jiān)督PV-RCNN網(wǎng)絡模型相同的學習率。

      3.3 實驗對比

      為了驗證本文MVPS的有效性,在數(shù)據(jù)集標記數(shù)據(jù)為總數(shù)據(jù)量1%、2%的情況下,進行了對比實驗。為了更好地對比實驗結果,本文選擇了同類型的基于偽標簽的半監(jiān)督學習方法,3DIoUMatch、DetMatch、DDS3D進行對比實驗。這些半監(jiān)督三維目標檢測方法使用相同設置的基礎模型PV-RCNN。在表2中,本文MVPS在1%標記數(shù)據(jù)的情況下,汽車類相比于PV-RCNN提高了6.5百分點,行人類相比于PV-RCNN提高了9百分點,自行車類提高了25百分點。相比于3DIoUMatch[9半監(jiān)督方法,本文MVPS的結果在這三個類別上分別提高了4百分點、6百分點、17百分點。相比于DetMatch,本文方法在行人類別降低了19.6百分點,主要因為該方法結合了二維圖像信息,但是數(shù)據(jù)處理更加復雜。本文方法在汽車類和騎自行車類提高了2.5百分點、11.1百分點。

      對于2%的標記數(shù)據(jù),本文方法也在一定程度上有所提升,但是對于行人類別,效果并不理想,可能是由于行人類樣本數(shù)量較少,尺寸較小,學習效果不好造成的。對于汽車類別,本文方法結果明顯高于其他兩個類別,這主要是由汽車類的樣本數(shù)量較多,尺寸較大造成的。本文針對樣本數(shù)量較少的類別,給出了相應提高性能的方法,對于騎自行車的類別性能提升較為明顯。整體結果顯示,本文方法取得了較好的效果。

      3.4 全監(jiān)督實驗對比

      為了展現(xiàn)本文所提半監(jiān)督方法MVPS的高效性,將其與SECOND[34、PointRCNN[35、Part-A2[36、PointPillars[37和PV-RCNN[23這五個全監(jiān)督方法進行了實驗對比,這五個方法均在100%標記數(shù)據(jù)集的情況下進行訓練。本文MVPS在僅有6%標記數(shù)據(jù)量的情況下,進行了實驗,并將實驗結果與近幾年較為經(jīng)典的五個全監(jiān)督方法進行了對比。表3展示了全監(jiān)督算法和本文方法的mAP值。實驗結果顯示本文方法在僅6%標記數(shù)據(jù)量的情況下,實驗結果優(yōu)于其中四個全監(jiān)督方法,并且相比于實驗結果最好的方法也取得了較為接近的性能,證明了本文方法的有效性。

      3.5 消融實驗

      本文使用標記數(shù)據(jù)量為原始數(shù)據(jù)2%的一組KITTI數(shù)據(jù)集對本文MVPS進行了消融實驗,證明本文方法各模塊的有效性,如表4所示。其中:LH代表聯(lián)合置信度;ZSY代表自適應閾值生成;SJZQ代表數(shù)據(jù)增強模塊;WBQ代表偽標簽生成策略模塊。表5展示了過濾偽標簽時,使用固定閾值和本文使用基于得分聚類的偽標簽過濾閾值生成模塊生成的閾值的對比。

      由表5可以得出,如果使用固定閾值,那么閾值為0.8時效果最好,閾值較低時,生成的偽標簽質量相對較差。而閾值較高時,car類可以取得更好的效果,但是由于pedestrian類和cyclist類樣本數(shù)量相對較少,閾值過高時生成高質量偽標簽較少,不能很好地進行監(jiān)督訓練,以至于mAP值降低。本文使用的基于得分聚類的自適應閾值生成模塊,在不同階段為各類樣本生成合適的閾值,不僅有利于高質量偽標簽的生成,而且對后續(xù)軟偽標簽的生成也有一定的影響,使得模型可以更充分地利用潛在有價值的樣本,實驗結果也證實了該模塊的有效性。

      本文將軟偽標簽模塊部分生成的不同質量的軟偽標簽對于模型的影響進行了對比實驗,體現(xiàn)該部分對于性能提升的作用,并且經(jīng)過實驗后,將軟偽標簽閾值的最低值C確定為0.4。實驗對比如表6所示。

      3.6 定性結果與分析

      為了更顯著地對比訓練效果,在標記數(shù)據(jù)量為2%的情況下使用PV-RCNN進行監(jiān)督訓練,使用本文MVPS進行訓練,使用訓練之后的模型對同一樣本進行預測,并可視化預測對比結果。樣本原始圖片如圖5所示,三維標記框如圖6所示。樣本真實標簽如圖7(a)所示,對比結果如圖7所示。

      從圖7的預測結果可以看出,PV-RCNN預測的結果當中存在部分漏檢,部分藍色框行人和紅色框(參見電子版)汽車沒有被成功檢出。3DIoUMatch成功檢測出了汽車和行人,但是存在兩處誤檢,檢測汽車的性能不如本文方法。MVPS不僅成功地檢測出了行人,而且基本檢出了真實標簽中的汽車,對于真實標簽中沒有標記的較遠的汽車也檢測出了一部分。

      4 結束語

      本文提出了一種半監(jiān)督三維目標檢測方法,該方法使用了基于得分聚類的自適應閾值生成模塊,在不同階段生成不同的過濾閾值,緩解了固定閾值存在的問題。為了篩選出更合適的偽標簽,本文提出了基于聯(lián)合置信度的偽標簽過濾策略。此外,通過生成稠密偽標簽來增強模型對部分樣本特征的學習,在一定程度上緩解了標記數(shù)據(jù)較少的問題。最后,為了充分地利用未標記數(shù)據(jù),算法篩選出了潛在的有價值的樣本,并保存了樣本的軟偽標簽,用于學生網(wǎng)絡的訓練。實驗結果表明了本文方法的有效性。但是本文方法也存在檢測錯誤的情況,將不屬于汽車類的卡車樣本檢測為了汽車,并且預測方向也存在偏差。未來將考慮解決汽車類樣本錯檢、方向預測不準確的問題。

      參考文獻:

      [1]Gao H A,Tian Beiwen,Li Pengfei,et al.DQS3D:densely-matched quantization-aware semi-supervised 3D detection[C]// Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2023:21848-21858.

      [2]Sohn K,Zhang Zizhao,Li C A,et al.A simple semi-supervised lear-ning framework for object detection[EB/OL].(2020-12-03).https://arxiv.org/abs/2005.04757.

      [3]Berthelot D,Carlini N,Goodfellow I,et al.MixMatch:a holistic approach to semi-supervised learning[EB/OL].(2019-10-23).https://arxiv.org/abs/1905.02249.

      [4]Graham B,Engelcke M,Maaten L V D.3D semantic segmentation with submanifold sparse convolutional networks[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:9224-9232.

      [5]Jeong J,Verma V,Hyun M,et al.Interpolation-based semi-supervised learning for object detection [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:11597-11606.

      [6]Rasmus A,Berglund M,Honkala M,et al.Semi-supervised learning with ladder networks[C]// Proc of the 28th International Conference on Neural Information Processing Systems.Cambridge,MA:MIT Press,2015:3546-3554.

      [7]Tarvainen A,Valpola H.Mean teachers are better role models:weight-averaged consistency targets improve semi-supervised deep learning results[C]//Proc of the 31st Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2017:1195-1204.

      [8]Zhao Na,Chua T S,Lee G H.SESS:self-ensembling semi-supervised 3D object detection[C]// Proc of IEEE/CVF Conference on Compu-ter Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:11076-11084.

      [9]Wang He,Cong Yezhen,Litany O,et al.3DIoUMatch:leveraging IoU prediction for semi-supervised 3D object detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:14610-14619.

      [10]Li Jingyu,Liu Zhe,Hou Jinghua,et al.DDS3D:dense pseudo-labels with dynamic threshold for semi-supervised 3D object detection[C]//Proc of IEEE International Conference on Robotics and Automation.Piscataway,NJ:IEEE Press,2023:9245-9252.

      [11]Li Gang,Li Xiang,Wang Yujie,et al. PseCo:pseudo labeling and consistency training for semi-supervised object detection[C]//Proc of European Conference on Computer Vision.Cham:Springer,2022:457-472.

      [12]Xu Hongyi,Liu Fengqi,Zhou Qianyu,et al.Semi-supervised 3D object detection via adaptive pseudo-labeling[C]//Proc of IEEE International Conference on Image Processing.Piscataway,NJ:IEEE Press,2021:3183-3187.

      [13]Wang Jianren,Gang Haiming,Ancha S,et al.Semi-supervised 3D object detection via temporal graph neural networks[C]//Proc of International Conference on 3D Vision.Piscataway,NJ:IEEE Press,2021:413-422.

      [14]Yin Junbo,F(xiàn)ang Jin,Zhou Dingfu,et al.Semi-supervised 3D object detection with proficient teachers[C]//Proc of European Conference on Computer Vision.Cham:Springer,2022:727-743.

      [15]Qi C R,Litany O,He Kaiming,et al.Deep Hough voting for 3D object detection in point clouds[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:9276-9285.

      [16]Xie Qian,Lai Yukun,Wu Jing,et al. MLCVNet:multi-level context VoteNet for 3D object detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:10444-10453.

      [17]Yang Zetong,Sun Yanan,Liu Shu,et al.3DSSD:point based 3D single stage object detector[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:11037-11045.

      [18]Zhou Yin,Tuzel O.VoxelNet:end-to-end learning for point cloud based 3D object detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:4490-4499.

      [19]Ye Maosheng,Xu Shuangjie,Cao Tongyi.HVNet:hybrid voxel network for lidar based 3D object detection[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:1628-1637.

      [20]Yang Bin,Liang Ming,Urtasun R.HDNET:exploiting HD maps for 3D object detection[C]//Proc of the 2nd Annual Conference on Robot Learning.[S.l.]:Proceedings of Machine Learning Research,2018:146-155.

      [21]Jorge B,Guindel C,Moreno F M,et al. BirdNet:a 3D object detection framework from lidar information[C]//Proc of the 21st International Conference on Intelligent Transportation Systems.Piscataway,NJ:IEEE Press,2018:3517-3523.

      [22]楊德東,葛浩然,安韻男.基于置信域偽標簽策略的半監(jiān)督三維目標檢測[J].計算機應用研究,2023,40(6):1888-1893,1899.(Yang Dedong,Ge Haoran,An Yunnan.Semi-supervised 3D object detection based on confidence domain pseudo-labeling strategy[J].Application Research of Computers,2023,40(6):1888-1893,1899.)

      [23]Shi Shaoshuai,Guo Chaoxu,Jiang Li,et al.PV-RCNN:point-voxel feature set abstraction for 3D object detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2020:10526-10535.

      [24]王帆,韓忠義,尹義龍.偽標簽不確定性估計的源域無關魯棒域自適應[J].軟件學報,2022,33(4):1183-1199.(Wang Fan,Han Zhongyi,Yin Yilong.Source domain-independent robust domain adaptation with pseudo-label uncertainty estimation[J].Journal of Software,2022,33(4):1183-1199.)

      [25]林磊,孫涵.基于自糾錯偽標簽的無監(jiān)督域自適應[J].計算機技術與發(fā)展,2023,33(1):193-199.(Lin Lei,Sun Han.Unsupervised domain adaptation based on self-correcting pseudo-labels[J].Computer Technology and Development,2023,33(1):193-199.)

      [26]苗壯,王亞鵬,李陽,等.一種等量約束聚類的無監(jiān)督蒸餾哈希圖像檢索方法 [J].計算機應用研究,2023,40(2):601-606,627.(Miao Zhuang,Wang Yapeng,Li Yang,et al. An equal-size constrained clustering-based unsupervised distillation hashing image retrieval method[J].Application Research of Computers,2023,40(2):601-606,627.)

      [27]Park J,Xu Chenfeng,Zhou Yiyang,et al.DetMatch:two teachers are better than one for joint 2D and 3D semi-supervised object detection[C]//Proc of the 17th European Conference on Computer Vision.Berlin:Springer-Verlag,2022:370-389.

      [28]Sohn K,Berthelot D,Li Chunliang,et al.FixMatch:simplifying semi-supervised learning with consistency and confidence[C]//Proc of the 34th International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2020:596-608.

      [29]Arthur D,Vassilvitskii S.K-means++:the advantages of careful seeding[C]// Proc of the 18th Annual ACM-SIAM Symposium on Discrete Algorithms.[S.l.]:Society for Industrial and Applied Mathematics,2007:1027-1035.

      [30]Qian Rui,Lai Xin,Li Xirong.3D object detection for autonomous dri-ving:a survey[J].Pattern Recognition,2022,130:108796.

      [31]Li Yanjing,Xu Sheng,Lin Mingbao,et al.Representation disparity-aware distillation for 3D object detection[C]// Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2023:6692-6701.

      [32]Sajjadi M,Sch?lkopf B,Hirsch M.EnhanceNet:single image super-resolution through automated texture synthesis[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:4501-4510.

      [33]Liu Songtao,Dong Hanze,Li Lanqing,et al.Local augmentation for graph neural networks[C]//Proc of the 39th International Conference on Machine Learning.[S.l.]:Proceedings of Machine Learning Research,2022:14054-14072.

      [34]Yan Yan,Mao Yuxing,Li Bo.SECOND:sparsely embedded convolutional detection[J].Sensors,2018,18(10):3337.

      [35]Shi Shaoshuai,Wang Xiaogang,Li Hongsheng.PointRCNN:3D object proposal generation and detection from point cloud[C]//Proc of Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:770-779.

      [36]Shi Shaoshuai,Wang Zhe,Shi Jianping,et al.From points to parts:3D object detection from point cloud with part-aware and part-aggregation network[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2021,43(8):2647-2664.

      [37]Lang A H,Vora S,Caesar H,et al.PointPillars:fast encoders for object detection from point clouds[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:12697-12705.

      猜你喜歡
      目標檢測閾值
      小波閾值去噪在深小孔鉆削聲發(fā)射信號處理中的應用
      基于自適應閾值和連通域的隧道裂縫提取
      比值遙感蝕變信息提取及閾值確定(插圖)
      河北遙感(2017年2期)2017-08-07 14:49:00
      視頻中目標檢測算法研究
      軟件(2016年4期)2017-01-20 09:38:03
      行為識別中的人體運動目標檢測方法
      移動機器人圖像目標識別
      室內(nèi)表面平均氡析出率閾值探討
      基于背景建模法的運動目標檢測
      基于P3電位的目標檢測研究
      科技視界(2016年4期)2016-02-22 13:09:19
      一種改進的峰均功率比判源方法
      大安市| 那坡县| 沂水县| 高淳县| 泰和县| 那坡县| 台山市| 大名县| 陈巴尔虎旗| 桑植县| 高碑店市| 铜山县| 西藏| 昭通市| 澄城县| 沙河市| 屯昌县| 旅游| 西宁市| 错那县| 河池市| 张掖市| 河源市| 贡觉县| 博白县| 黔西县| 通山县| 监利县| 昌乐县| 开原市| 太保市| 株洲县| 寿光市| 江华| 昌邑市| 崇左市| 沐川县| 读书| 伊川县| 中阳县| 太康县|