李 海 程新宇 尚金雷
(中國民航大學(xué) 天津 300300)
我國廣闊的疆土導(dǎo)致了多種多樣的氣候條件,而復(fù)雜的氣候條件易形成繁多的氣象災(zāi)害進而對交通運輸,生產(chǎn)資料,財產(chǎn)安全等造成損害。雙偏振氣象雷達作為新型氣象雷達,能夠獲取到降水粒子的大小、相態(tài)、空間位置等信息,因此利用雙偏振氣象雷達對降水粒子的精準分類對于災(zāi)害預(yù)警、雨量估計、氣象預(yù)報等方面具有十分重要的意義。
1973年由Ecclesand Atlas提出利用雙偏振雷達進行云層中的粒子探測。在此之后Straka and Zrnic(1996年)首次在降水粒子分類領(lǐng)域應(yīng)用了模糊邏輯算法。此后,大部分專家學(xué)者研究了不同權(quán)重系數(shù)、雷達偏振參量的選取以及差異性隸屬度函數(shù)等問題對模糊邏輯算法性能的影響。但是其隸屬度函數(shù)的選取,權(quán)重系數(shù)的大小等均需要依靠專家經(jīng)驗值,具有很強的局限性。隨著機器學(xué)習理論的興起,其相關(guān)方法也逐漸被應(yīng)用到降水粒子分類領(lǐng)域,如:監(jiān)督學(xué)習方向的布爾決策樹方法,非監(jiān)督學(xué)習方向的聚類方法等。布爾決策樹方法雖然原理簡單,但是在多分類類別較多時,其分類錯誤率會快速增加。聚類算法雖然不需要訓(xùn)練樣本和標簽,但在面對非規(guī)則形狀的降水粒子(如:冰晶等)時表現(xiàn)欠佳。在降水粒子分類領(lǐng)域,監(jiān)督學(xué)習方法以其算法多樣,分類準確性高的特點得到更多專家學(xué)者的青睞,但是其要求使用數(shù)量大、質(zhì)量高的有標簽訓(xùn)練樣本,而獲取有標簽數(shù)據(jù)最可靠的方法是使用帶有粒子檢測系統(tǒng)的探測器深入到云層中進行采集,造成數(shù)據(jù)獲取成本高、數(shù)量少的缺點。因此提高對無標簽數(shù)據(jù)的應(yīng)用以達到增加有標簽訓(xùn)練樣本的目的具有重要的研究價值。
在半監(jiān)督學(xué)習方法中,協(xié)同訓(xùn)練算法能夠利用無標簽數(shù)據(jù)擴充訓(xùn)練樣本集,進而提高分類器的性能。1998年,Blum等人在具有充分冗余的視圖條件下,通過利用無標簽樣本優(yōu)化分類器,并將這種算法命名為協(xié)同訓(xùn)練,然而具有充分冗余視圖這一條件很難實現(xiàn);2000年,S.Goldman 和 Y.Zhou提出一種擺脫該條件限制的協(xié)同訓(xùn)練方法,但是增加了運行時間,并且分類器的種類也有局限性;2007年W.Wang等人經(jīng)過進一步分析指出,只要使用的分類器差別明顯,就可以在不受該條件限制的情況下使用協(xié)同訓(xùn)練算法,即:使用單視圖的數(shù)據(jù)依然可以得到良好的分類性能。然而在降水粒子分類領(lǐng)域,對協(xié)同訓(xùn)練方法的研究尚為空白,但是針對有標簽訓(xùn)練數(shù)據(jù)樣本不足的問題協(xié)同訓(xùn)練算法具有十分重要的意義。
因此本文提出了一種基于DTSVMs-BNT協(xié)同訓(xùn)練的雙偏振氣象雷達降水粒子分類方法。由于決策樹支持向量機(Decision Tree Support Vector Machines,DTSVMs)分類器和貝葉斯網(wǎng)絡(luò)(Bayesian Network,BNT)分類器的作用原理、區(qū)分降水粒子的方式不相同,因此可以作為差異性分類器進行協(xié)同訓(xùn)練。該方法使用有標簽的訓(xùn)練數(shù)據(jù)集,利用第一個SVM分類器判斷第一種降水粒子類別,第二個SVM分類器區(qū)分第二種降水粒子,以此類推分類完所有降水粒子的方法構(gòu)造DTSVMs,之后通過計算確定貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu),并且通過確定的網(wǎng)絡(luò)結(jié)構(gòu)獲得條件概率表來構(gòu)造BNT。然后使用兩個分類器分批次對無標簽數(shù)據(jù)分類,并且選取分類結(jié)果中置信度符合門限條件的數(shù)據(jù)加入到有標簽訓(xùn)練數(shù)據(jù)集中,之后利用兩個分類器對新的有標簽樣本重新學(xué)習直到所有無標簽數(shù)據(jù)都被打上標簽完成協(xié)同訓(xùn)練過程,最后利用分類器進行降水粒子分類。
協(xié)同訓(xùn)練兩個分類器的方法是利用一個分類器分類無標簽樣本,選擇結(jié)果中符合條件的數(shù)據(jù)加入訓(xùn)練樣本集,隨后訓(xùn)練另一個分類器,兩個分類器輪流重復(fù)上述過程。本文協(xié)同訓(xùn)練采用的兩個分類器分別是DTSVMs和BNT。DTSVMs的實現(xiàn)方法是結(jié)合決策樹算法的思想使用SVM分類器實現(xiàn)多種降水粒子的分類。BNT分類器的實現(xiàn)方法是先進行結(jié)構(gòu)學(xué)習獲得網(wǎng)絡(luò)結(jié)構(gòu),再進行參數(shù)學(xué)習獲得條件概率表。
DTSVMs是SVM算法的改進,通過組合多個二分類的SVM算法實現(xiàn)多分類的任務(wù)。DTSVMs的基本思路是使用一個SVM分類器進行一次二分類,區(qū)分出一種降水粒子后剩下的數(shù)據(jù)由下一個SVM分類器再次二分類,直到完全實現(xiàn)多種降水粒子分類。分類所得的降水類型為九類(視地雜波為一種降水類型),如表1所示。在降水粒子分類算法中使用到的屬性條件分別是水平反射率因子、差分反射率因子、互相關(guān)系數(shù)和差分相移率,分別簡記為,,,。
表1 降水粒子輸出結(jié)果
DTSVMs分類算法示意圖如圖1所示,由于有9種降水粒子種類需要區(qū)分,因此需要8個SVM分類器,分類器的順序根據(jù)降水粒子類別之間的歐氏距離從大到小排序。
圖1 DTSVMs示意圖
使用SVM進行降水粒子分類的具體算法如下:
(1)
引入Lagrange因子,可將式(1)轉(zhuǎn)換為式(2)問題為
(2)
(3)
(4)
用SVM區(qū)分第1種降水粒子,SVM區(qū)分第2種降水粒子,以此類推。利用DTSVMs分類器進行降水粒子分類的具體方法為:當輸入測試數(shù)據(jù)到SVM中時,判斷()的值,若值為-1則輸出結(jié)果=1,表示第1種降水粒子;若值為+1則將輸入SVM中繼續(xù)判斷()的值,重復(fù)這一過程,直到()=-1,由此實現(xiàn)降水粒子多分類。
BNT分類器是根據(jù)貝葉斯方法擴展出的概率模型,能夠結(jié)合圖形與貝葉斯公式有效的描述不確定的降水粒子分類事件,并且BNT分類器易于實現(xiàn),分類效果好。BNT分類器還可以充分利用先驗信息,通過貝葉斯公式將先驗信息與樣本中的數(shù)據(jù)轉(zhuǎn)化為概率信息,從而將不確定的降水粒子分類的問題轉(zhuǎn)化為確定性的概率值問題,最終實現(xiàn)降水粒子分類的目標。
構(gòu)造BNT分類器首先需要進行結(jié)構(gòu)學(xué)習確定網(wǎng)絡(luò)結(jié)構(gòu),之后通過參數(shù)學(xué)習獲得屬性節(jié)點的條件概率,最后利用貝葉斯公式進行降水粒子分類過程。
1)貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)學(xué)習
貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)由屬性節(jié)點,,,,類節(jié)點以及有向線段構(gòu)成,進行結(jié)構(gòu)學(xué)習需要計算屬性節(jié)點間的互信息值,并且對滿足互信息門限條件的屬性節(jié)點建立無向邊,最后給無向邊定向,如圖2所示。
圖2 貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)示意圖
(5)
互信息值門限通常取值為01~03,多次實驗證明當=025時有較好的效果,滿足互信息值大于的兩個節(jié)點視作可以形成無向邊的節(jié)點對。
確定無向邊方向的方法是與類節(jié)點之間的互信息值比較低的節(jié)點作為箭頭指向方向,如果計算出的貝葉斯網(wǎng)絡(luò)中產(chǎn)生環(huán)路結(jié)構(gòu),則去掉環(huán)路結(jié)構(gòu)中互信息值最小的箭頭。最后形成的貝葉斯網(wǎng)絡(luò)如圖3所示。
圖3 貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)
2)貝葉斯網(wǎng)絡(luò)的參數(shù)學(xué)習
對貝葉斯網(wǎng)絡(luò)獲取每個屬性節(jié)點計算條件概率表,即可得到類節(jié)點與,,,,以及,,,之間相互的關(guān)系,完成參數(shù)學(xué)習過程。
(6)
為防止出現(xiàn)分子為0的情況,對公式(6)進行拉普拉斯平滑處理為
(7)
最后得到的條件概率表如圖4所示,在這個三維分布列中每一個概率值均由一個方格儲存。
圖4 ZDR條件概率表
3)貝葉斯網(wǎng)絡(luò)分類算法
利用貝葉斯網(wǎng)絡(luò)分類算法進行分類的具體方法如下:
獲得貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)以及條件概率表后,就可以輸入到貝葉斯公式中進行分類計算。用,,,分別表示輸入到分類器里面的雷達偏振參量,,,,根據(jù)貝葉斯公式實現(xiàn)降水粒子分類問題可以描述為式(8)所示。
(8)
其中,∈{1,2,…,9}表示降水粒子的標簽數(shù);表示第個雷達偏振參量,∈{1,2,3,4};(,,,)為常數(shù)。公式(8)轉(zhuǎn)化為式(9)。
(9)
由于BNT分類器的速度快、運算量小,并且能夠輕松引入融化層信息,而DTSVMs分類器要想加入融化層信息,需要構(gòu)建多個DTSVMs分類器來實現(xiàn)不同融化區(qū)域的降水粒子分類。由于分類器的復(fù)雜度隨著類別個數(shù)快速增加,運算速度在原來的基礎(chǔ)上還會大幅度下降。因此將BNT分類器的分類結(jié)果作為降水粒子分類的最終結(jié)果,而將DTSVMs分類器作為輔助分類器參與到BNT分類器的協(xié)同訓(xùn)練過程中。
在協(xié)同訓(xùn)練過程中只有當分類結(jié)果的置信度符合一定條件時才能夠視無標簽數(shù)據(jù)有資格加入到訓(xùn)練樣本集,經(jīng)過重新訓(xùn)練的分類器才能有較好的準確性。
貝葉斯方法通過最大后驗概率確定分類結(jié)果,因此可以根據(jù)后驗概率確定分類置信度,后驗概率越大則置信度越高。對于支持向量機方法,分類置信度的高低由樣本與分類超平面距離決定,因此分類置信度選擇基于切邊權(quán)值統(tǒng)計特性進行估計,樣本所有切邊的權(quán)值之和越大說明分類正確的可能性越高。
1)BNT分類器的置信度確認方法如下:
將無標簽待定樣本數(shù)據(jù),∈{1,2,…,}輸入到分類器中,根據(jù)公式(9)計算貝葉斯公式的最大后驗概率值,令公式(9)為有
(10)
將無標簽待定樣本的最大后驗概率值按照從大到小的順序排列為
={,,…,,…},
>>…>>…>,∈{1,2,…,}
(11)
計算出的最大后驗概率值越大則視其分類結(jié)果的準確性越高,越值得信賴,因此取集合中前個數(shù)據(jù)作為滿足置信度條件的樣本加入到有標簽數(shù)據(jù)集中,完成BNT置信度的計算。
2)DTSVMs分類器的置信度確認方法如下:
若某一待定樣本為(,),其中無標簽待定樣本數(shù)據(jù)為,分類器分類結(jié)果標記為,則的置信度公式為
=∑∈
(12)
=(1-(=))∑∈
(13)
(14)
(,)=1-()
(15)
協(xié)同訓(xùn)練時首先使用DTSVMs分類器對無標簽數(shù)據(jù)進行降水粒子分類,選取分類結(jié)果中置信度高的數(shù)據(jù)加入到有標簽數(shù)據(jù)集中,置信度低的數(shù)據(jù)重新放回無標簽數(shù)據(jù)集。利用更新后的有標簽數(shù)據(jù)集重新訓(xùn)練BNT分類器。之后再取出部分無標簽數(shù)據(jù)集中數(shù)據(jù)使用新的BNT分類器進行分類,同樣選取置信度高的樣本更新訓(xùn)練數(shù)據(jù)集,以及重新訓(xùn)練DTSVMs分類器。兩個分類器輪流重復(fù)上述過程。對兩個分類器完成協(xié)同訓(xùn)練之后,利用測試數(shù)據(jù)進行降水粒子分類過程。
結(jié)合前文可得基于DTSVMs-BNT協(xié)同訓(xùn)練的雙偏振氣象雷達降水粒子分類算法流程,如圖5所示。
圖5 基于DTSVMs-BNT協(xié)同訓(xùn)練的雙偏振氣象雷達降水粒子分類流程
步驟如下:
1)步驟1:建立BNT和DTSVMs機器學(xué)習模型,使用有標簽數(shù)據(jù)集,初步訓(xùn)練得到和分類器;
2)步驟2:從無標簽數(shù)據(jù)集中取個樣本,儲存在待定數(shù)據(jù)集′中,使用兩個分類器對′中的數(shù)據(jù)進行分類,得到預(yù)測結(jié)果;
3)步驟3:計算個樣本的置信度,將置信度符合條件的個樣本及其標簽補充到中,重新訓(xùn)練和分類器;
4)步驟4:重復(fù)上述步驟,直到無標簽數(shù)據(jù)集=?,輸出BNT分類器和DTSVMs分類器;
5)步驟5:利用訓(xùn)練好的BNT和DTSVMs分類器對新的無標簽數(shù)據(jù)集進行降水粒子分類。
通過上述步驟可知協(xié)同訓(xùn)練的最終得到BNT和DTSVMs兩個分類器,每個分類器都可以單獨完成降水粒子分類任務(wù),且分類結(jié)果較為準確。
實驗數(shù)據(jù)集獲取自美國國家海洋和大氣管理局公開數(shù)據(jù),該數(shù)據(jù)采集自美國新一代氣象雷達網(wǎng)WSR-88D雙偏振氣象雷達網(wǎng)。其中有標簽數(shù)據(jù)集是2018年5月俄克拉荷馬市(OKLAHOMA)的KTLX雷達采集的回波數(shù)據(jù),無標簽數(shù)據(jù)集是2019年6月密爾沃基市(Milwaukee)的KMKX雷達采集的回波數(shù)據(jù)。兩個數(shù)據(jù)集均是每類降水粒子1000個樣本,兩個數(shù)據(jù)集分別有9000個訓(xùn)練樣本。測試數(shù)據(jù)集使用的是KMKX雷達于2019年8月6日5點06分采集到的0.5°仰角回波數(shù)據(jù)。
測試數(shù)據(jù)集雷達回波圖像數(shù)據(jù)信息如圖6所示。
圖6 測試數(shù)據(jù)集KMKX雷達數(shù)據(jù)
按照前文所述方法,完成DTSVMs-BNT協(xié)同訓(xùn)練之后,使用獲得的協(xié)同訓(xùn)練BNT分類器對測試數(shù)據(jù)集進行降水粒子分類,分類結(jié)果如圖7所示。其中圖7(a)表示僅使用有標簽訓(xùn)練數(shù)據(jù)集訓(xùn)練得到的決策樹支持向量機分類器對測試數(shù)據(jù)集的分類結(jié)果;圖7(b)表示僅使用有標簽訓(xùn)練數(shù)據(jù)集訓(xùn)練得到的貝葉斯網(wǎng)絡(luò)分類器對測試數(shù)據(jù)集的分類結(jié)果;圖7(c)為協(xié)同訓(xùn)練BNT分類器的分類結(jié)果圖;圖7(d)是美國國家海洋和大氣管理局官方提供的降水粒子分類類別,將其作為測試數(shù)據(jù)集的真實類別。從圖7中可以看出,相比于兩種前置分類器分類結(jié)果(圖7(a)、圖7(b))協(xié)同訓(xùn)練后分類器性能有了顯著提升,分類結(jié)果更接近測試數(shù)據(jù)集的真實類別。
圖7 降水粒子分類實驗結(jié)果與真實類別對照
將降水粒子分類實驗結(jié)果與真實類別進行對照,不難看出BNT分類器分類結(jié)果(圖7(b))和協(xié)同訓(xùn)練BNT分類器分類結(jié)果(圖7(c))更加接近官方提供的真實的分類結(jié)果(圖7(d))。因此將BNT分類器對各個降水粒子的分類性能與協(xié)同訓(xùn)練BNT分類器對各個降水粒子的分類性能進行進一步量化。統(tǒng)計降水粒子分類實驗結(jié)果和官方提供的真實的分類結(jié)果中的各類別粒子數(shù)量及占比,對比如表2所示。在BNT分類器分類結(jié)果中,冰雹和冰晶等粒子占比遠高于官方提供的真實分類結(jié)果,準確率僅84.4%。相比于BNT分類器,協(xié)同訓(xùn)練使BNT分類器獲得了更高的準確率,各個類別粒子的數(shù)量及占比與官方提供的真實分類結(jié)果相差很小。協(xié)同訓(xùn)練BNT分類器降水粒子的識別準確率提高到了90.3%,很大程度地提高了BNT算法的分類性能。協(xié)同訓(xùn)練算法使用一部分有標簽的訓(xùn)練數(shù)據(jù)結(jié)合一部分無標簽的數(shù)據(jù)有效地提升了分類器的分類性能,實現(xiàn)了降水粒子的準確分類。
表2 BNT分類器、協(xié)同訓(xùn)練BNT分類器和NOAA真實場景各類別粒子數(shù)量占比
針對有標簽樣本數(shù)不足的問題,本文提出了一種基于DTSVMs-BNT協(xié)同訓(xùn)練的雙偏振雷達降水粒子分類方法。該方法首先使用有標簽的訓(xùn)練數(shù)據(jù)集進行初步訓(xùn)練得到BNT和DTSVMs兩個降水粒子分類器。之后使用兩個分類器逐漸對無標簽數(shù)據(jù)進行分類預(yù)測,計算分類結(jié)果的置信度,選取分類結(jié)果中置信度較高的無標簽數(shù)據(jù)及對應(yīng)的預(yù)測標簽加入到訓(xùn)練樣本集中,并且重新訓(xùn)練分類器。重復(fù)上述過程直到所有無標簽訓(xùn)練數(shù)據(jù)都被打上標簽,這時完成訓(xùn)練得到兩個降水粒子分類器,最后使用得到的協(xié)同訓(xùn)練BNT分類器對測試數(shù)據(jù)集進行測試驗證。實驗證明該方法使用一部分有標簽的訓(xùn)練數(shù)據(jù)結(jié)合一部分無標簽的訓(xùn)練數(shù)據(jù)有效地提高了分類器性能,實現(xiàn)了降水粒子分類的準確分類。