馬曉劍,張家緒,林煜華,王 奧
(東北林業(yè)大學 理學院,哈爾濱 150040)
近年來,隨著人類對生態(tài)文明建設的逐漸重視,自然水體資源是否適用于飲用也日漸受到廣泛關注.如何利用簡單高效的方法對飲用水資源質量進行分析與預測,是當下研究的重要課題.在水體質量預測與機器學習方法相結合的領域,李雪清等人選取多種氣象指標和經濟指標,提出了一種基于多源時空數(shù)據(jù)和機器學習的區(qū)域水質預測模型[1],但由于該方法主要選取宏觀評價指標進行預測建模,因此僅適用于時空意義下的水體環(huán)境質量預測.戴青松等人利用LWCA-SVM模型提出了一種基于機器學習和狼群搜索的飲用水質量預測模型[2],但該方法由于引入了啟發(fā)式智能優(yōu)化,因此收斂于全局最優(yōu)的速度較慢,算法效率仍有待提高.
D-S證據(jù)理論是一種基于不確定理論的信息融合方法,該方法是貝葉斯理論的推廣,常用于解決多源信息下的信息融合問題,是一種簡單高效的人工智能決策技術,現(xiàn)已廣泛應用于圖像處理、計算機視覺、專家系統(tǒng)等領域[3-5].證據(jù)理論在證據(jù)高沖突情況下的判別精度不高,因此常常因受到噪聲信號的干擾而喪失決策的可信度,如何改善證據(jù)理論在高沖突情況下的判別精確度是當前證據(jù)理論主要待解決的問題[6].在證據(jù)理論中,高沖突抑制方法主要分為兩種:一種是修改證據(jù)融合規(guī)則;另一種是修改證據(jù).但第一種方法往往會失去Dempster組合規(guī)則具有的良好數(shù)學性質,而第二種方法往往通過考慮來自證據(jù)的可信度、信息量等信息對證據(jù)進行修正,具有更好的可解釋性[7].在機器學習領域,證據(jù)理論可作為一種集成學習的方法改善機器學習性能,此時證據(jù)理論將多分類器給出的預測結果視為信號源,對信號源提供的信息量及可信度進行建模,可以改善多分類器架構下的機器學習分類與預測性能[8].
雖然利用D-S證據(jù)理論改善高沖突下機器學習判別精確率的方法已廣泛應用于故障診斷、多時空數(shù)據(jù)融合、異常檢測等鄰域[9-11],但現(xiàn)有的應用證據(jù)理論在飲用水質量預測問題中所做的工作仍然較少,而該問題下的特征空間信息沖突常常導致機器學習算法識別精確度不高,因此本文創(chuàng)新性地引入證據(jù)理論基于高沖突對機器學習算法進行集成,應用證據(jù)理論對多分類器預測結果進行優(yōu)化,提出了基于線性核支持向量機、隨機森林和證據(jù)理論的飲用水質量集成預測模型.針對特征空間高沖突從而導致分類器結果高沖突的問題,本文引入BJS散度[12]對來自分類器信息源的高沖突進行抑制,決策時綜合考慮信息源的支持度、置信度,實驗結果表明本文算法相較于單一機器學習模型具有更高的分類準確率和精確度,顯著改善了基分類器的分類效果.
定義1 (基本概率指派(mass函數(shù)))假設集合I={i1,i2,…,in}是辨識框架,其中:is≠it,s≠t是兩兩互異的元事件,則構造辨識框架的冪集2I到實數(shù)區(qū)間[0,1]的映射m∶2I→[0,1],如果映射m滿足下列條件:
則稱該映射m為基本概率指派s.在證據(jù)理論中,A被稱為焦元.此時m(A)被視為m對應的信息源分配給焦元A的信度.
定義2 (Dempster組合規(guī)則)假設m1,…,mc是辨識框架I下的c組基本概率指派,則Dempster組合規(guī)則表示如下:
定義3 (BJS散度[12])假設Aj是基本概率指派m的焦元,m1,m2是辨識框架I下的兩組基本概率指派,則m1和m2之間的BJS散度定義如下:
在不同水體的飲用水質量預測問題中,基于機器學習方法的分類誤差主要來源于不同可飲用水體的樣本分布之間存在較大沖突,即可飲用水和非可飲用水在特征指標下的分布不存在顯著差異,因此分類器在學習時因為受到沖突的干擾,難以學習到有助于精確分類的有效信息并形成具有高置信度的判別結果,給準確識別可飲用水體樣本造成了較大困難.本文創(chuàng)新性地引入證據(jù)理論對分類器的判別可信度進行建模,同時考慮來自分類器判別結果的信息量,應用證據(jù)理論和BJS散度對來自分類器信息源的判別結果進行信息融合,從而提升集成學習的效果,實驗結果表明本文算法顯著提高了算法的分類精確度.
本文算法采用的數(shù)據(jù)集來自Kaggle數(shù)據(jù)平臺的Water Quality數(shù)據(jù)集[13].該數(shù)據(jù)集采集了3 276個來自不同水體的水質指標,用于評估水體樣本的可飲用類型,本文選取該數(shù)據(jù)集9個指標作為特征指標,用于構造機器學習算法的特征空間,9個水質評價指標的基本描述如表1所示.
表1 本文選取的9個水質評價特征指標及單位Table 1 9 features with units of water quality evaluation in this paper
繪制可安全飲用、不可安全飲用水體的樣本分布直方圖如圖1所示,并設置高斯函數(shù)為核函數(shù),基于核密度估計給出兩類總體的概率密度如圖2所示.由圖1、2可知,兩類總體在9個特征指標下的分布密度基本相似,差異僅表現(xiàn)為兩類樣本的分布量不均衡,因此當分類器基于上述先驗對待測樣本進行判別時,會由于兩類樣本之間的特征相似度過高而產生難以精確區(qū)分的情形.在證據(jù)理論中,若將一個特征指標視為一個信號源,則上述樣本在9個特征指標下相似性過高的情形被稱為來自多個信號源的信息產生了沖突,正是這種沖突使得機器學習算法不能生成有把握的分類結果,例如分類器可能在樣本的輸入特征不具有顯著區(qū)分度時給出P(正樣本)=P(負樣本)=0.5的判別結果,此時可認為分類器判別失效.由于在這種特征空間中分類器形成精確判別結果的把握降低,機器學習算法判別的準確率也易受到樣本特征隨機擾動的影響,從而喪失穩(wěn)定性.由于證據(jù)理論可以在多源信息存在較大沖突的情況下較穩(wěn)定地形成決策,因此本文提出使用證據(jù)理論對多分類器進行集成學習,利用證據(jù)理論對結果進行信息融合,利用融合修正后的結果提升多分類器的判別性能,使得算法能在特征高沖突的前提下產生精確的決策.
圖1 兩類總體在9個特征指標下的樣本分布直方圖Figure 1 Sample distribution histogram of two kinds of population under 9 features
圖2 兩類總體在9個特征指標下的核密度估計Figure 2 Kernel density estimation of two kinds of population under 9 features
基于BJS散度的基本概率指派修正方法主要分為三步: 1)首先依據(jù)BJS散度的定義計算第i個待測水體樣本下線性核支持向量機和隨機森林基本概率指派之間的證據(jù)距離:
BJSi(mSVM,mRF)=
其中:l∈I.隨后,依據(jù)兩組基本概率指派的BJS散度構建差異度量矩陣:
隨后計算來自各個基本概率指派的支持度.由上述分析可知,單一基本概率指派的支持度越高,表明該基本概率指派與其他基本概率指派的差異程度越小,應具有更好的信息支持能力:
最后計算來自支持度的證據(jù)置信度:
2)對來自基本概率指派的信息量進行建模.在證據(jù)理論中,鄧熵[14]作為一種定量計算基本概率指派不確定信息量的度量方法,常用于估計基本概率指派可供決策的信息量大小,若基本概率指派對應的鄧熵越大,則該基本概率指派提供的不確定信息量越大.計算第j個基本概率指派的鄧熵如下:
其中:l∈I,j∈{SVM,RF}.進一步計算第j個基本概率指派的信息量:
IVi,j=exp{DEi,j}=
其中:l∈I,j∈{SVM,RF}.針對信息量指標進行歸一化處理,可得歸一化信息量如下:
其中:j,k∈{SVM,RF}.歸一化信息量可以保證信息量指標控制在[0,1]之間.
3)在獲得了第j個基本概率指派的證據(jù)置信度和歸一化信息量后,綜合考慮上述兩個指標提供的決策信息量,計算第j個基本概率指派的權重:
對權重進行歸一化,獲得歸一化權重:
其中:j,k∈{SVM,RF}.最后計算加權后的基本概率指派:
最后依據(jù)Dempster組合規(guī)則對來自加權基本概率指派的信息進行融合,獲得最終判別結果,至此基于證據(jù)理論和BJS散度的集成學習算法判別結束,選取概率最大的類別作為該待測水體樣本的判別結果,本文算法的計算流程如表2所示.
表2 本文算法計算流程Table 2 Calculation flow of proposed algorithm
本文算法基于Python 3.7開發(fā),設置比例系數(shù)δ=0.35將數(shù)據(jù)集分割為訓練集和測試集,對比算法選取線性核支持向量機、樸素貝葉斯、決策樹、隨機森林開展對比實驗,選取準確率(Accuracy)和精確度(Precision)作為分類器性能的評價指標,其中:準確率的計算公式如下:
其中:TP,TN是正確被識別為可安全飲用水體和不可安全飲用水體的樣本總數(shù),F(xiàn)P,F(xiàn)N是被錯分為可安全飲用水體和不可安全飲用水體的樣本總數(shù),精確度指標可以衡量不同分類器正確分類的能力.精確度的計算公式如下式所示:
精確度可以衡量分類器識別真正正樣本的能力[15].本文算法與4種對比算法在準確率、精確度2個指標下的分類結果如表3所示.
由表3的結果可知,本文算法在準確率、精確度兩個指標下均取得了最好效果,其中:準確率指標相較于線性核支持向量機提高了6.06%、隨機森林提高了1.58%,精確度指標相較于線性核支持向量機提高了82.65%、隨機森林提高了18.65%.由表3的結果還可知,線性核支持向量機在飲用水質量預測問題中的精確度得分為0,表明該算法未能成功識別任何可安全飲用的水體樣本,因此可認為該算法在該問題下完全失效,但在引入隨機森林和證據(jù)理論對分類結果進行集成后,該指標相較于支持向量機和隨機森林均獲得了顯著提高,這一結果說明本文算法能顯著降低將不可安全飲用水體錯分為可安全飲用水體的風險,進一步表明了本文算法在飲用水質量預測問題中提高機器學習算法的有效性.
表3 本文算法和4種對比算法的準確率、精確度指標Table 3 Accuracy and precision of proposed algorithm and four comparison algorithms
由于現(xiàn)有的飲用水質量預測數(shù)據(jù)集中存在的不同群體特征分布過于接近、區(qū)分度不顯著的高沖突問題,本文從提高機器學習算法在飲用水質量預測問題中的性能出發(fā),提出了一種使用證據(jù)理論和BJS散度加權的集成學習方法,該方法通過證據(jù)理論將分類器的輸出轉換為基本概率指派,對基本概率指派的沖突性、支持度、置信度進行建模,將來自基本概率指派的信息重新加權,成功抑制了來自分類器輸出的沖突,提高了模型的分類效果.本文創(chuàng)新性地將基于證據(jù)理論和BJS散度的集成學習方法應用于飲用水質量預測問題,實驗結果表明本文算法相較于對比算法在準確率、精確度兩個指標下均獲得了顯著提高,進一步說明了本文算法改善機器學習算法在飲用水質量預測問題中性能的穩(wěn)定性和有效性.