• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      水聲目標分類算法性能評估

      2020-12-15 02:36:36徐源超蔡志明
      哈爾濱工程大學學報 2020年10期
      關鍵詞:性能指標水聲分類器

      徐源超,蔡志明

      (海軍工程大學 電子工程學院,湖北 武漢 430033)

      機器學習中的許多指標從不同側面反映分類算法性能,但它們有各自的使用限制[1]。樣本不平衡較嚴重時,性能指標的指示敏感性與波動性將不可忽視[2-3];一些指標具有相似性質[4],應避免重復選擇。因此,針對不同場景需求,須選擇合適指標,以便恰當描述算法性能。例如醫(yī)學領域常用靈敏度和特異性,信息檢索領域中常用查全率和查準率。水聲目標分類研究中,傳統(tǒng)上只使用“正確率”等簡單指標,這難以客觀、全面反映分類算法性能。在水聲目標分類領域建立統(tǒng)一的性能指標體系,將有助于分析和比較算法性能,指導算法研究。本文將分析常用性能指標的性質,結合水聲場景需求,給出一套分類算法性能指標體系。

      確定性能指標后,需設計評估方法,在有限的數(shù)據(jù)集上估計性能指標值。任何評估方法都存在誤差(包括方差和偏差),它們不僅與數(shù)據(jù)集中的噪聲有關,還與劃分訓練集測試集的方式[5-7]、數(shù)據(jù)集的大小及平衡性[8]等因素有關。性能評估時要根據(jù)具體情況選擇合適的評估方法,權衡估計偏差和方差。本文將分析常用評估方法的估值差異,推薦適合水聲場景的評估方法。

      1 分類算法性能指標

      常用分類算法性能指標包括基于混淆矩陣和基于預測得分2大類[1]。分類器包括模型和門限2個部分,模型f對樣本xi的評分為f(xi),門限與之比較得到分類結果。模型和門限參數(shù)都在訓練集中習得,測試集用于估計性能指標值?;诨煜仃嚨闹笜死秒x散的分類結果評估分類器性能,基于預測得分的指標則利用了樣本評分。

      1.1 基于混淆矩陣的指標

      對二分類問題,給定包含m個樣本的測試集,用分類器預測樣本類別,可得混淆矩陣如表1所示。常用的基于混淆矩陣的指標定義如表2所示。

      表1 混淆矩陣Table 1 Confusion matrix

      表2 基于混淆矩陣的性能指標Table 2 Performance metrics based on confusion matrix

      1)真正例率和假正例率對應信號檢測中的檢測率和虛警率。檢測理論中,檢測率和虛警率常由似然函數(shù)推導求得;而作為分類器性能指標,可理解為基于樣本集得到的估計值。2)靈敏度和特異性常用于醫(yī)療領域,分別描述分類器對陽性和陰性的檢出能力。3)陽性和陰性預測值也常用于醫(yī)療,描述檢出的陽性(陰性)中確為陽性(陰性)的概率。4)查全率和查準率常用于信息檢索領域,分別描述檢索目標信息的全面性和檢出信息的準確性。

      這4組指標描述分類器對2類目標的查全能力(TPR、TNR)和查準能力(PPV、NPV),它們在不同領域根據(jù)需求成對使用。TPR和TNR受樣本不平衡影響小,PPV和NPV則不然。

      每組指標通常相互制約,因此多個指標雖有助于理解分類器卻不便于比較,而融合指標可用于綜合判斷。融合方法一般包括算術、幾何和調(diào)和平均??扇诤戏诸惼鲗Ω黝惖牟槿芰?,或融合對某一類的查全能力和查準能力。

      常用的指標正確率實際上就是融合指標:

      (1)

      樣本不平衡時,正確率受樣本更多的類別的查全率影響大。均衡正確率AccB對TPR和TNR作權值相等的算術平均,更適用于樣本不平衡的情況。

      幾何/調(diào)和平均中的小值會“拉低”均值結果,而算術平均更容忍“偏科”的分類器。F1是查全率和查準率的調(diào)和平均值。常用的還有查全率幾何平均GM1,查全率查準率幾何平均GM2。

      1.2 基于預測得分的指標

      基于預測得分的指標利用樣本評分信息,包括圖形指標和標量指標。接收機工作特性(receiver operating characteristic, ROC)曲線是一種廣泛應用的圖形指標。信號檢測理論中,ROC用來分析檢測器的性能,確定合適的門限以平衡檢測率和虛警率。同樣地,ROC曲線描述分類器改變門限時的TPR與FPR關系。若某性能指標可由TPR和FPR表示,就可利用ROC曲線來確定門限[9]。

      雖然ROC可直觀表達分類器全局(不同門限)性能,但若存在標量指標將更方便:AUC是ROC曲線下面積[10],其值越大表明算法性能越好。

      PR(precision-recall)曲線也是常用圖形指標,描述PPV與TPR關系。ROC曲線上的點與PR曲線上的點是對應的:

      (2)

      式中:r=YN/YP指示樣本類分布。對于不平衡性很強的樣本集,PR曲線有時比ROC曲線更合適[11],因為PR曲線包含了r的信息。PR曲線下的面積(AUC_PR)作為對應的標量指標。

      2 水聲目標分類性能指標

      2.1 水聲目標分類的場景分析

      在選擇性能指標時應討論具體的應用場景,以下分析典型水聲目標分類場景:

      1)假設分類在檢測之后且虛警很小,分類器對目標做水下(正類)或水面的二分類。

      2)水下目標與水面目標的類分布不平衡。文獻[12]顯示,水面目標總量相對水下目標而言絕對大。若僅考慮有威脅的軍用目標以及在聲紋上較接近軍用目標的部分民用目標,不妨假設聲吶檢測到水面與水下目標數(shù)量比約在103量級。

      3)錯判水下目標為水面目標的代價大于錯判水面目標的代價。具體代價難以量化,但可容忍的FPR可被估計。假設聲吶工作24 h內(nèi)檢測到目標1 000個,聲吶員聽音判型的可靠能力為每天100個;如果機器自動分類產(chǎn)生錯誤或可信度不高,需人工進一步甄別,那么可容忍的FPR=0.1。

      4)類分布將隨海域、時間等動態(tài)變化。不妨假設水面與水下目標數(shù)量比在102~103。

      5)樣本集不平衡,水下目標樣本少是常態(tài)。

      6)設想在應用階段,分類器給出對目標的評分需,并給出分類結果;對判為水下的目標,聲吶員根據(jù)對目標的評分由高到低逐一驗證或排除。

      2.2 性能指標仿真分析

      2.2.1 仿真方法

      根據(jù)水聲場景分析和各指標定義,基于仿真[2]討論指標性質及其在水聲目標分類場景的適用性。

      算法B1、B2對正負樣本評分的標準差分別為:

      利用評分分布函數(shù)計算門限,使A1、A2、B1、B2分別控制其FPR于0.05、0.15、0.08、0.12的水平上。仿真產(chǎn)生106個樣本評分,使負正樣本數(shù)量比r=YN/YP在10-3~103內(nèi)變化,分別畫出各指標與r的關系,結果如圖1所示。

      2.2.2 結果分析

      圖1(a)、(b)顯示TPR和FPR受r影響小,只是當樣本極不平衡即其中一類樣本太少時,指標值將出現(xiàn)波動,是可靠指標。圖1(c)顯示PPV隨r的變化是單邊的:r<1一側,r減小時PPV變化很??;r>1一側,r增大時PPV隨之減少;r趨于103時,PPV已失去對分類器的鑒別能力。但r變化時,其指標值反映的分類器性能比較結果不變。

      圖1(d)表明,Acc受樣本集的影響大,不同r下分類器的比較結論差別較大,須謹慎使用。

      聚焦于查全率的融合,圖1(e)、(f)顯示算術平均AccB和幾何平均GM1這2個指標值均不隨r變化,AccB的區(qū)分度比GM1稍好些。

      聚焦于正類查全率與查準率的融合,圖1(i)、(l)中幾何平均GM2和調(diào)和平均F1隨r變化的曲線基本一致。注意到r在102~103范圍內(nèi)各F1值的相對大小與Acc一致,而GM2卻有所不同;相比之下,極不平衡條件下F1更能反映真實狀況。但這2個指標也對r敏感,且r變化將導致比較結論不一致。

      圖1(g)、(h)、(j)、(k)是基于預測得分的指標相對r的變化。這類指標是包含全體分類門限取值的系綜,因此只比較A、B這2個分類器。圖1(g)顯示AUC對r不敏感,這是由于TPR和FPR受r影響小。圖1(j)是A、B這2個分類器在r=1時的ROC曲線,r不同時ROC曲線變化不大。由于被評估分類器的ROC曲線可能很接近,這時AUC難以顯著展現(xiàn)分類器的差異,正如圖1(g)中A與B指標值很接近。所以,ROC曲線與AUC雖可反映算法全局性能,且對r基本不敏感,但還不能完全替代基于混淆矩陣的指標。

      圖1(h)中AUC_PR從r>1開始都可清晰穩(wěn)定地給出性能鑒別結果,因為該指標包含了樣本類分布的信息。圖1(k)是A、B這2種算法PR曲線,樣本集平衡即r=1時,PR曲線下的面積較大;當增大到r=100,曲線變化明顯,對應AUC_PR減小。

      2.3 構建性能指標體系

      性能評估的目標包括易于比較和易于解釋,影響決策的因素有算法的知識建模能力、門限選擇和場景需求[13],依此構建性能指標體系。

      基于預測得分的圖形指標可較全面地反映算法的建模能力。因水聲場景中的r值在一定范圍內(nèi)變化,選擇對r不敏感的ROC曲線是自然的考慮。但進一步地,水聲場景中r很大是確定的,從指標的鑒別能力講,PR曲線及相應的AUC_PR更有優(yōu)勢。因此選用PR曲線及AUC_PR指標。

      基于混淆矩陣的指標反映評分分布結合門限后的分類性能。考慮到實際樣本類分布的不確定,顯然應選擇隨r起伏變化小的指標TPR和FPR??紤]到多個指標不便于比較,應設計融合指標。水聲場景中希望控制FPR于小值(TNR較大值),更容許“偏科”的算術平均AccB與這一需求相適應。

      從學習的角度講,分類器對復雜知識的建模能力應放在首位。若AUC_PR無顯著差異,則需進一步比較AccB。由AccB的定義式可得:

      TPR=FPR+2AccB-1

      這是ROC曲線圖中斜率為1的一族直線,其截距越大表明對應AccB越大。一般地,ROC曲線的切線斜率隨FPR單調(diào)遞減,則ROC曲線上切線斜率為1的切點AccB最大。在水聲場景中希望控制FPR=0.1,但FPR=0.1的點不一定是AccB最大點??尚拚鼳ccB使FPR=0.1的切點為AccB最大點:

      (3)

      式中a為ROC曲線上FPR=0.1點的切線斜率。

      被比較的分類器有各自的ROC曲線,為統(tǒng)一評價標準,可混合各分類器的樣本評分作出平均ROC曲線,然后估計FPR=0.1處的斜率a。若修正AccB依然無顯著差異,則選擇FPR偏離較小的算法。

      綜上,由PR曲線及AUC_PR、TPR、FPR及AccB構建性能指標體系。PR曲線反映算法的知識建模能力,標量指標AUC_PR用于比較。AccB和修正AccB反映模型聯(lián)合門限的分類能力,F(xiàn)PR體現(xiàn)約束,ROC曲線參與對AccB的修正。修正AccB使融合指標更符合水聲場景中控制FPR的需求。

      圖1 性能指標與r的關系Fig.1 Relationships between performance metrics and r

      3 評估方法

      3.1 常用性能評估方法

      將樣本數(shù)據(jù)劃分為訓練和測試集,分別用于訓練分類器和估計性能指標,這種評估方法稱為留置法,需要大量數(shù)據(jù)。水聲目標分類場景中,由于數(shù)據(jù)有限,應運用重采樣的方法來評估算法性能。

      重采樣是對數(shù)據(jù)集進行多次劃分,綜合不同次劃分訓練集與測試集得到的估計結果,以降低估計誤差。從數(shù)據(jù)集S中選取樣本進入訓練集,稱為采樣。重采樣方法的選擇,就是權衡估計的偏差和方差,以及權衡計算復雜度。本文重點考慮前者。

      1)k折交叉驗證。k折交叉驗證把含有m樣本的數(shù)據(jù)集S隨機劃分為大小相等且互不相交的k個子集(k≥2)。每個子集輪流用于測試,其余數(shù)據(jù)用于訓練,平均k次估計結果。k增大時估計偏差將變小,因為更多數(shù)據(jù)參與訓練,但估計方差將變大且計算量增加[5]。一般將k設置為10[14]。

      2)分層k折交叉驗證。樣本不平衡時,可控制對數(shù)據(jù)集S的劃分,使k個子集的樣本類分布與S的類分布一致,這樣可減小估計的方差[15]。

      3)自助法。假設S中包含的類模式是充分的,能代表實際對象的全部特征形態(tài),則樣本不足時,可通過“有放回采樣”得到足夠多的訓練樣本。對含有m個樣本的S進行m次有放回采樣得到訓練集,未被采樣到的樣本構成測試集,即完成一次劃分;如此重復n次(通常n≥200[1])取均值。

      由于每次采樣后的樣本又被放回S,訓練集中可能包含重復樣本,對于一些無法從重復樣本中獲得訓練增益的算法,自助法將不適用。

      4)632自助法。自助法是在每一輪訓練中只使用了63.2%的數(shù)據(jù),估計偏差較大??删C合訓練集與測試集上的指標估計值進行修正:

      5)重復k折交叉驗證。n×k折交叉驗證是重復n次k折交叉驗證,每次交叉驗證作出不同的訓練集與測試集的隨機劃分。最常用的是5×2CV和10×10CV,即重復5次2折交叉驗證和重復10次10折交叉驗證。對重復的驗證結果再做平均。

      3.2 評估方法仿真分析

      3.2.1 仿真方法

      為探究各評估方法在數(shù)據(jù)集大小不同、樣本類分布不同情況下評估結果的差異,設計仿真試驗。為簡便且不失一般性,假設被評估算法對正類的評分服從N(1,0.52),對負類的評分服從N(0,0.52),算法在訓練集上習得門限使AccB最優(yōu),并利用測試集估計AccB。由評分分布函數(shù)對稱性可知最佳門限為0.5,此時AccB≈0.841 3,以此作為真值考察各評估方法的估計偏差和方差。須注意,基于機器學習的分類算法可能存在過擬合,并非數(shù)據(jù)集S以及訓練集在絕對意義上越大越有利。但這里討論的基于最優(yōu)AccB的門限選擇算法,將傾向于S的規(guī)模增長與類分布平衡,這是不難理解的。

      考察自助法(Boot.)、632自助法(632Boot.)、10折交叉驗證(10CV)、分層10折交叉驗證(S10CV)、5×2CV和10×10CV。2種自助法均迭代200次,5×2CV和10×10CV均采用分層方法。設置6組試驗:第1組考察樣本少的情況,第2、3組考察樣本不平衡的情況,第4、5、6組樣本量逐漸增加。

      圖2為試驗1 000次估值的箱線圖,展示不同樣本集設置下各評估方法的估值分布。圖中虛線為真值,三角為均值,箱子兩端為四分位數(shù),延長線端點為極值。均值相對真值的偏離反映估計偏差,箱子及延長線的長短反映估計方差。為進一步定量比較估計結果差異,在0.05的顯著性水平下利用F檢驗考察方差差異,在0.1的顯著性水平下利用Games-Howell單因素方差分析考察偏差差異。

      圖2 各評估方法在不同樣本集下的估計值分布Fig.2 Estimates distribution of each evaluation method in different sample sets

      3.2.2 結果分析

      總體上看,隨著樣本量增加,估計的方差和偏差都在減小。雖然第3、4組樣本量相當,但第3組估計誤差較大。這表明,估計誤差受樣本不平衡影響,且很大程度上取決于樣本最少類的樣本量。

      2種自助法的方差都較小,特別是第1、2、3組中,2種自助法相對其他方法的方差差異更加顯著,其中632自助法偏差較小。因此,樣本很少或極不平衡時,采用632自助法是很好的選擇。自助法關于模式充分的假設,在水聲場景中難以滿足,實際上也不會被采用,但這里可合理地將632自助法(以下簡稱自助法)作為良好的比較對象。

      第1、2、3組中,5×2CV與自助法的方差最為接近。第2、3組中,5×2CV相對其他交叉驗證的方差差異顯著。第2組中5×2CV相對S10CV和10×10CV的偏差差異顯著,但第3組的偏差差異已不明顯。因此整體上看,樣本少或不平衡時推薦5×2CV。

      第2、3組中,S10CV與10CV的方差差異顯著,而二者偏差相當,說明分層交叉驗證可在樣本不平衡的情況下減小估計的方差卻不增大偏差。

      第4、5、6組中,5×2CV、S10CV和10×10CV的偏差均無明顯差異;第4、5組中5×2CV相對S10CV和10×10CV方差差異顯著,而第6組中三者方差無明顯差異。數(shù)據(jù)集規(guī)模從小到大增加過程中,無論數(shù)據(jù)平衡性的變化,5×2CV方法始終相對較好,樣本足夠多時3種交叉驗證方法則差異不大了。

      當然,若可掌握數(shù)據(jù)集規(guī)模與分布的詳實知識,可給出其相適應的最優(yōu)評估方法建議,如表3的歸納所示。但在實際的水聲場景中,確認數(shù)據(jù)集S的規(guī)模為大、中、小是比較困難的。

      表3 評估方法選擇參照表Table 3 Evaluation method selection reference table

      3.3 水聲場景中評估方法的選擇

      由于信道時變空變以及目標的動態(tài)復雜性,水聲目標測量數(shù)據(jù)模式豐富,短期局部范圍內(nèi)所形成的數(shù)據(jù)集往往難以代表實際,不宜使用自助法。

      水聲目標數(shù)據(jù)不平衡,往往水下目標(正類)數(shù)據(jù)匱乏。推薦5×2CV,且采用分層交叉驗證。

      隨著數(shù)據(jù)規(guī)模的積累,數(shù)據(jù)模式逐漸豐富,在采用分層交叉驗證的基礎上,可考慮根據(jù)不同的海域、海況、工況等因素,對數(shù)據(jù)進一步分層劃分訓練集和測試集,可保證訓練集和測試集中有對應的模式,有望減小估計的偏差。

      在構建水聲目標樣本集時,通常對一段長時間的數(shù)據(jù)進行分幀,每一幀作為一個樣本,時間上相近的樣本具有較強的相關性。若訓練集和測試集中存在相關性強的樣本,將導致評估結果偏樂觀。如何在設計評估方法時考慮樣本相關性還需研究。

      4 結論

      1)區(qū)別于文獻[2],本文針對水聲場景設計仿真試驗,并進一步設計比較評估方法的仿真試驗。

      2)本研究關注水聲場景中數(shù)據(jù)匱乏而模式豐富的特點,以及水下目標(正類)相對其他目標的不平衡性,具有現(xiàn)實意義。所提出的指標體系針對當前研究中指標不全面、不統(tǒng)一、不嚴謹?shù)膯栴},給出一個有邏輯、有論據(jù)的解決方案。性能指標不僅是評估手段,同時也可成為算法優(yōu)化的目標,對深入理解算法性質、創(chuàng)新算法研究具有指導意義。

      本研究構建的性能指標體系只考慮了二分類的情況,針對多分類的問題的性能指標還需進一步研究,具體可圍繞“關注水下目標”進行拓展。

      猜你喜歡
      性能指標水聲分類器
      瀝青膠結料基本高溫性能指標相關性研究
      石油瀝青(2021年1期)2021-04-13 01:31:08
      BP-GA光照分類器在車道線識別中的應用
      電子測試(2018年1期)2018-04-18 11:52:35
      認知水聲通信系統(tǒng)中OFDM技術的應用
      電子制作(2017年22期)2017-02-02 07:10:34
      新型多功能水聲應答器電子系統(tǒng)設計
      電子制作(2017年19期)2017-02-02 07:08:28
      加權空-譜與最近鄰分類器相結合的高光譜圖像分類
      結合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
      FRFT在水聲信道時延頻移聯(lián)合估計中的應用
      儲熱水箱分層性能指標的研究進展
      制冷技術(2016年4期)2016-08-21 12:40:30
      WebGIS關鍵性能指標測試技術研究
      基于壓縮感知的水聲數(shù)據(jù)壓縮與重構技術
      聲學技術(2014年1期)2014-06-21 06:56:22
      许昌市| 福鼎市| 司法| 镇安县| 墨江| 玉龙| 东明县| 靖安县| 南郑县| 虹口区| 武城县| 迁西县| 深水埗区| 东源县| 延安市| 华阴市| 饶平县| 和硕县| 七台河市| 新安县| 苍溪县| 鹤岗市| 德兴市| 辽中县| 寿光市| 祁东县| 昌吉市| 阳东县| 红桥区| 阿坝县| 衡阳市| 阿拉善盟| 喀喇| 临夏县| 咸宁市| 清流县| 汉沽区| 贵德县| 会东县| 福建省| 民权县|