張 冰,劉 林,王淑琴,田秀偉
(天津師范大學(xué)計算機(jī)與信息工程學(xué)院,天津300387)
數(shù)據(jù)樣本分類是機(jī)器學(xué)習(xí)的主要任務(wù)之一,當(dāng)分類器的評價結(jié)果達(dá)到一定的設(shè)定條件時,該分類器才會被采用,因此,如何評價分類器的優(yōu)劣是機(jī)器學(xué)習(xí)和模式識別領(lǐng)域的一個關(guān)鍵問題[1].目前,已出現(xiàn)了很多分類器評價指標(biāo),主要包括ACC(accuracy)[2]、FMeasure[3]、MAP(mean average precision)[4]、MCC(Matthews correlation coefficient)[5-6]、AUC(area under curve)[7-9]、ROC(receiver operating characteristic)曲 線[10-11]、MPR(mean probability ratio)[12]、RCI(relative classification information)[13]和CEN(confusion entropy)[14-15]等,那么,如何在眾多分類器評價指標(biāo)中選擇一個合適的指標(biāo)考察分類器的性能就顯得格外重要[16].
大多數(shù)分類器評價指標(biāo)都是針對二類問題定義的,只有很少的幾種是直接面向多類問題定義的,關(guān)于分類器對類別區(qū)分能力的評價,多類問題比二類問題要復(fù)雜很多.ACC、MCC 和CEN 這3 種分類器評價指標(biāo)在多類問題上具有廣泛應(yīng)用,而且CEN 和MCC的關(guān)系是全局單調(diào),局部幾乎線性的[6],因此本文通過實驗對MCC、CEN 和ACC 這3 種指標(biāo)對分類器性能的評價能力進(jìn)行比較分析.對機(jī)器學(xué)習(xí)數(shù)據(jù)庫UCI 中的8個多類問題數(shù)據(jù)集和4個二類問題數(shù)據(jù)集分別使用4 種和2 種常見的分類器進(jìn)行處理,在進(jìn)行第2 到10重交叉驗證時,詳細(xì)分析了3 種指標(biāo)值變化趨勢的關(guān)系,另外,從一致性和判別性角度對3 種指標(biāo)進(jìn)行了比較,結(jié)果表明CEN 的評價能力優(yōu)于ACC 和MCC.
給定測試集S,S 中樣本個數(shù)為M,類別個數(shù)為N,s 為S 中任意一個樣本.Ci表示第i 類,屬于Ci而被分到Cj的樣本個數(shù)記為NCi,j.測試集被分類模型分類完成的混淆矩陣記為MN×N,混淆矩陣的第i 行第j 列元素記為Mij.記F(i,j)為真實屬于Ci的樣本屬于Cj的概率,顯然,當(dāng)i=j 時,F(xiàn)(i,j)=1,當(dāng)i≠j 時,F(xiàn)(i,j)=0. 記P(i,j)為本來屬于Ci的樣本被分到Cj的概率,設(shè)置一個閾值r,若P(i,j)>r,則認(rèn)為屬于Ci的樣本被分到Cj,此時定義PC(i,j)=1,否則令PC(i,j)=0.
ACC 由于具有公式簡單、易于擴(kuò)展的特點而廣泛應(yīng)用于二類和多類問題的分類評價上.但在一些不平衡數(shù)據(jù)集上,ACC 沒有考慮錯誤分類的代價,因此作為評價指標(biāo)存在弊端[17-18]. ACC 根據(jù)分類器預(yù)測類別的準(zhǔn)確程度來定義,即被分類器分類正確的樣本數(shù)與總樣本數(shù)的比例[2],其計算公式為
ACC 的取值范圍是[0,1],其值越大,表明分類器的性能越好.
MCC 廣泛應(yīng)用于生物信息領(lǐng)域[19-22].MCC 是基于混淆矩陣設(shè)計的分類器性能評價的測量指標(biāo)[5],它將混淆矩陣歸為單一的值.定義2個M×N 維矩陣X 和Y,其元素分別為Xsi和Ysi,s=1,…,M,i=1,…,N.如果樣本s 被預(yù)測到Ci,則令Xsi=1,否則令Xsi=0;如果樣本s 屬于Ci,則令Ysi=1,否則令Ysi=0.定義
當(dāng)k≠l 時,定義
Ckl=|{s∈S│Xsk=1 且Ysl=1}|
則樣本總數(shù)M 可以表示為
X、Y 的協(xié)方差函數(shù)為
MCC 可改寫為
MCC 的取值范圍是[-1,1],其值越大,表明分類器的性能越好.MCC=1 表明分類器分類的結(jié)果完全正確,MCC=-1 表明分類結(jié)果達(dá)到了一個極端的情況,此時混淆矩陣中除了關(guān)于對角線對稱的2 項元素外,其他元素均為0.當(dāng)MCC=0 時,有2 種情況:一種是混淆矩陣中除了一列元素外,其他元素全部為0,即所有樣本均被分到了一個類;另一種是混淆矩陣中所有元素均相等.
CEN 是近年提出的直接定義于多類問題的分類器評價指標(biāo),它是基于熵函數(shù)的評價指標(biāo).CEN 也是利用混淆矩陣設(shè)計的測量指標(biāo),它直接定義于N +1類問題上.與其他評價指標(biāo)相比,CEN 充分考慮了樣本的錯誤分類信息[14],對分類結(jié)果的細(xì)微差異也能做出反映.
若屬于Ci的樣本被分到了Cj,則相對于Cj的錯誤分類概率Pji,j為
相對于Ci的錯誤分類概率Pii,j為
進(jìn)而,Cj的混淆熵定義為
對于一個給定的混淆矩陣,其總的混淆熵為
其中Pj為Cj的混淆概率,
評價多類問題時,CEN 的取值范圍是[0,1],評價二類問題時,CEN 的值可能大于1.CEN 計算的是錯誤分類樣本所包含錯誤信息的熵的加權(quán)和,因此,CEN 的值越大表明分類器的性能越差. 在混淆矩陣中,當(dāng)錯誤分類的樣本均勻分布于各類別時,CEN=1,當(dāng)分類器分類的結(jié)果完全正確時,CEN=0.
實驗所用數(shù)據(jù)集均下載自機(jī)器學(xué)習(xí)數(shù)據(jù)庫UCI,包括8個多類問題數(shù)據(jù)集和4個二類問題數(shù)據(jù)集,數(shù)據(jù)集具體描述見表1.
表1 實驗數(shù)據(jù)集Tab.1 Experiment datasets
對8個多類問題數(shù)據(jù)集使用4 種分類器,包括K 近鄰(K-nearest neighbor,KNN)、決策樹(decision tree,DT)、樸素貝葉斯(naive Bayes,NB)和隨機(jī)森林(random forest,RF);對4個二類問題數(shù)據(jù)集使用2 種分類器,為支持向量機(jī)(support vector machine,SVM)和邏輯回歸(logistic regression,LR). 采用10 重交叉驗證.
給定數(shù)據(jù)集和分類器,在第2,3,…,10 重交叉驗證時,得到相應(yīng)的ACC、MCC 和CEN 的值.為比較3 種指標(biāo)值隨交叉驗證重數(shù)的變化趨勢,在同一圖中繪制3 種指標(biāo)值的折線圖,圖中橫坐標(biāo)為交叉驗證重數(shù),左側(cè)縱坐標(biāo)為ACC 和MCC 值,右側(cè)縱坐標(biāo)為CEN值.當(dāng)數(shù)據(jù)集和分類器不同時,共得到8×4+4×2=40個折線圖,通過分析比較,關(guān)于3 種指標(biāo)值的變化趨勢,可分為以下5 種類型.
類型1當(dāng)CEN 值呈下降趨勢的時候,MCC 和ACC 值總是對應(yīng)著呈上升的趨勢.以RF 分類器處理Hayes 數(shù)據(jù)集(圖1)、NB 處理Wifi_localization(圖2)、SVM 處理Z-Alizideh(圖3)和RF 處理Wifi_localization(圖4)為例,由圖1~圖4 可見,當(dāng)CEN 值下降時,對應(yīng)的MCC 和ACC 值上升.由于ACC 和MCC 值越大(小)表明分類效果越好(差),而CEN 值越?。ù螅┍砻鞣诸愋Ч胶茫ú睿?,因此這種類型說明3 種指標(biāo)在評價分類結(jié)果時得到了基本相同的結(jié)論.
圖1 Hayes 上使用RF 分類器的3 種指標(biāo)值Fig.13 indexes of RF on Hayes
圖2 Wifi_localization 上使用NB 分類器的3 種指標(biāo)值Fig.23 indexes of NB on Wifi_localization
圖3 Z-Alizideh 上使用SVM 分類器的3 種指標(biāo)值Fig.33 indexes of SVM on Z-Alizideh
圖4 Wifi_localization 上使用RF 分類器的3 種指標(biāo)值Fig.43 indexes of RF on Wifi_localization
類型2MCC 或ACC 值變化平緩,甚至幾乎不變,而CEN 值發(fā)生明顯變化. 以NB 處理Shuttle(圖5)、DT 處理Vehicle(圖6)和SVM 處理Transfusion(圖7)為例.由圖5 可見,進(jìn)行第2 到4 重交叉驗證時,ACC值變化平緩,而CEN 值變化明顯.由圖6 可見,進(jìn)行第4 到6 重交叉驗證時,MCC 值變化平緩,而CEN值變化明顯.這種情況表明在評價分類結(jié)果時,CEN比MCC 和ACC 更具辨別力.對于圖7 的二類不平衡數(shù)據(jù)集Transfusion,進(jìn)行第5 到8 重交叉驗證時,MCC 值為負(fù)數(shù),反映出較差的分類結(jié)果,同時CEN值也在變化,而ACC 值幾乎不變,這說明ACC 在不平衡數(shù)據(jù)集上評價分類器性能是存在缺陷的.
圖5 Shuttle 上使用NB 分類器的3 種指標(biāo)值Fig.53 indexes of NB on Shuttle
圖6 Vehicle 上使用DT 分類器的3 種指標(biāo)值Fig.63 indexes of DT on Vehicle
圖7 Transfusion 上使用SVM 分類器的3 種指標(biāo)值Fig.73 indexes of SVM on Transfusion
類型3CEN 值變化平緩,甚至幾乎不變,而MCC 或ACC 值發(fā)生明顯變化. 以DT 處理Wiki4HE(圖8)和RF 處理Seeds(圖9)為例,圖8 的第2 到4重交叉驗證和圖9 的第4 到6 重交叉驗證對應(yīng)的3種指標(biāo)值即是這種類型.這表明在某些情況下,MCC和ACC 比CEN 更具辨別力,因此CEN 有時候也存在問題.
圖8 Wiki4HE 上使用DT 分類器的3 種指標(biāo)值Fig.83 indexes of DT on Wiki4HE
圖9 Seeds 上使用RF 分類器的3 種指標(biāo)值Fig.93 indexes of RF on Seeds
類型4MCC、ACC 和CEN 值都不發(fā)生變化. 以DT 處理Forest(圖10)為例,由圖10 可見,進(jìn)行第7到10 重交叉驗證時,3 種指標(biāo)值均沒有變化.這種情況表明在評價分類結(jié)果時,MCC、ACC 和CEN 結(jié)論完全一致.
圖10 Forest 上使用DT 分類器的3 種指標(biāo)值Fig.103 indexes of DT on Forest
類型5MCC 和CEN 值同時上升(下降),或ACC和CEN 值同時上升(下降).以KNN 處理Wiki4HE(圖11)為例,由圖11 可見,進(jìn)行第2 到3 重和第5 到6重交叉驗證時,3 種指標(biāo)值均下降. 這種情況表明MCC 和CEN(或ACC 和CEN)結(jié)論相反.
圖11 Wiki4HE 上使用KNN 分類器的3 種指標(biāo)值Fig.113 indexes of KNN on Wiki4HE
為了更好地比較3 種評價指標(biāo),本文嘗試從一致性和判別性[23]角度對CEN、MCC 和ACC 進(jìn)行兩兩統(tǒng)計比較.對于2個測試方法f 和g,其定義域為φ,令
根據(jù)一致性和判別性的定義,將以上分析中類型1、類型2、類型3 和類型5 出現(xiàn)的次數(shù)分別記為R、P、Q 和S.在8個多類數(shù)據(jù)集上采用4 種分類器,在4個二類數(shù)據(jù)集上采用2 種分類器,重數(shù)取值為2 到10,比較CEN 和ACC,共得到640個結(jié)果,其中R=242,P=6,Q=1,S=52,則C=242/(242+52)>0.5,D=6/1 >1,表明作為分類器評價指標(biāo),CEN 優(yōu)于ACC.同理,比較CEN 和MCC,也得到640個結(jié)果,其中R=233,P=14,Q=2,S=52,則C=233/(233+52)>0.5,D=14/2 >1,這表明CEN 也優(yōu)于MCC.因此,從一致性和判別性的角度,分類器評價指標(biāo)CEN 優(yōu)于ACC 和MCC.
另外,以Breast-Cancer 數(shù)據(jù)集上使用LR 分類器為例,進(jìn)行第4 到5 重交叉驗證時,ACC 和CEN 值都呈上升趨勢,說明ACC 認(rèn)為此分類結(jié)果更好,而CEN 認(rèn)為此分類結(jié)果更壞.事實上,將更多的惡性樣本判定為良性樣本,雖然ACC 值在增加,但惡性樣本沒有被分離出來,對于醫(yī)療診斷而言,此分類器沒有起到作用,顯然這種情況下使用ACC 評價并不合理,使用CEN 評價更合理.
利用實驗對分類器評價指標(biāo)ACC、MCC 和CEN進(jìn)行比較,結(jié)果表明CEN 性能更優(yōu).CEN 主要從樣本錯誤分布程度的方面進(jìn)行考慮而設(shè)計,因此能辨別出不同類別的樣本是如何彼此分離的,更能分辨出分類器分類結(jié)果的差異.