摘 要: 文章研究了分別利用統(tǒng)計(jì)學(xué)方法和數(shù)據(jù)挖掘方法,對(duì)數(shù)據(jù)進(jìn)行分類和預(yù)測(cè),具體考察了Logistic回歸和決策樹的分類效能,并通過ROC曲線進(jìn)行檢驗(yàn)。結(jié)果表明:兩種分類方法各有利弊,沒有明顯的孰優(yōu)孰劣,對(duì)預(yù)測(cè)變量可以進(jìn)行有效的交叉驗(yàn)證。
關(guān)鍵詞:Logistic回歸;分類回歸樹;ROC曲線
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2095-2163(2014)05-
The ROC Curves Comparing of Classification Performance between Logistic Regression and Decision Tree
WANG Dongyan
(School of Psychology, Nanjing University of Chinese Medicine, Nanjing 210023,China)
Abstract:This paper studies the use of statistical methods, and data mining methods for data classification and prediction, specifically examines the classification performance Logistic regression and decision trees, then the corresponding performance are examined by ROC curve. The results shows that: two classification methods have advantages and disadvantages, and there is no obvious one is better, which can take effective cross-validation for predicting variables.
Keywords: Logistic Regression; Classification and Regression Tree; ROC Curve
0 引 言
在統(tǒng)計(jì)方法中,回歸方程最常用于分類和預(yù)測(cè),而回歸方程對(duì)變量的要求卻都很高,在分類過程中更多關(guān)注的則是全局的態(tài)勢(shì)及走向。同時(shí),由于Logistic回歸較易受到自變量間多重共線性的影響,將無法估計(jì)各個(gè)自變量間可能存在的交互效應(yīng)[1]。
在數(shù)據(jù)挖掘領(lǐng)域,研發(fā)涌現(xiàn)了多種數(shù)據(jù)分類技術(shù),例如決策樹、貝葉斯方法、神經(jīng)網(wǎng)絡(luò)等,其中決策樹算法是數(shù)據(jù)挖掘研究中高頻活躍的領(lǐng)域之一,也是解決分類問題最有效的方法[2]。與其它算法相比,決策樹算法有著更易理解、計(jì)算量較小、速度較快、生成規(guī)則簡(jiǎn)易快捷、且可理解性強(qiáng)[3]等優(yōu)點(diǎn),適合研究者掌握、進(jìn)而做出最優(yōu)決策。但由于決策樹方法更多地考慮了細(xì)節(jié)上的劃分,在全局的把握上即呈現(xiàn)了些微欠缺。因此,本研究將利用ROC曲線來檢驗(yàn)兩種方法的分類效能,辨別兩種方法孰優(yōu)孰劣。具體將展開如下論述。
1 Logistic回歸原理
Logistic 回歸是一種多變量分析方法,方法中的回歸模型為:
ln( )= + (1)
其中,Pi=P ( yi=1 x1i,x2i,…,xki)為在給定系列原因變量x1i,x2i,…,xki的值時(shí)的事件發(fā)生概率,而K則為原因變量的總個(gè)數(shù)。
Logistic 回歸系數(shù)近似服從正態(tài)分布,主要采用卡方檢驗(yàn)和似然比檢驗(yàn)。建模方法主要有向前法、向后法、逐步法等。而且,Logistic 回歸作為一個(gè)概率型模型,可通過具體計(jì)算某事件發(fā)生的概率達(dá)到預(yù)測(cè)的目的。
2 決策樹分類算法
本文采用分類回歸樹(CART)算法來進(jìn)行分類預(yù)測(cè)。根據(jù)給定的樣本集L 構(gòu)建分類決策樹,算法核心是首先從眾多的輸入變量中選擇一個(gè)最佳的分組變量,再從分組變量的眾多取值中尋獲一個(gè)最佳的分割閾值。在此,采用Gini系數(shù)生成原始樹,即:
Gini ( Dj ) = 1– pi2
(2)
式中,c 是數(shù)據(jù)集/子集Dj中決策類的個(gè)數(shù),pi是第i個(gè)決策類在D 中的比例。Gini系數(shù)表示從相同總體中隨機(jī)抽取兩個(gè)樣本后,而這兩個(gè)樣本來自于不同類別的概率。
其后,再將數(shù)據(jù)集劃分成多個(gè)數(shù)據(jù)子集,這些數(shù)據(jù)子集劃分前的Gini系數(shù)與劃分后的Gini系數(shù)加權(quán)和的差為:
G(A) = Gini( D)– Gini ( Dj) (3)
其中,A是候選屬性,k是該屬性的分支數(shù);D是未使用A進(jìn)行劃分時(shí)的數(shù)據(jù)集,Dj是由A劃分而成的子數(shù)據(jù)集。在所有屬性中具有最大G (A)的屬性即當(dāng)選為牧前進(jìn)行劃分的結(jié)點(diǎn)。
針對(duì)多分支會(huì)降低決策樹適用性這個(gè)問題,CART算法進(jìn)行了相應(yīng)的限制,為生成二叉樹,使用Gini系數(shù)使屬性值兩兩組合,由此而得出最佳的二分方法[4]。CART算法則采用后剪枝法,并遵循代價(jià)復(fù)雜度最小原則,即:
Ra (T ) = R ( T ) + a|T| (4)
其中,| T |為該樹的葉節(jié)點(diǎn)的個(gè)數(shù);a為復(fù)雜度參數(shù),在二分類問題中可選取a = 2。
3 Logistic回歸與CART分類效能的ROC曲線比較
對(duì)一組來華留學(xué)生適應(yīng)性數(shù)據(jù)分別建立Logistic回歸模型和CART模型,從總適應(yīng)性、社會(huì)文化適應(yīng)、校園適應(yīng)和心理適應(yīng)四個(gè)方面,建立四個(gè)分類模型。為了準(zhǔn)確地評(píng)價(jià)四個(gè)模型在前述分類方法下的分類效果,可通過計(jì)算各模型的ROC曲線面積,來說明模型分類的實(shí)際效能。
本研究中利用非參數(shù)方法計(jì)算 ROC 面積大小,假設(shè)常規(guī)組有nc個(gè)觀察值,記為X j( j=1,2,…nc),非常規(guī)組有na個(gè)觀察值,再記為Xi( i=1,2,…na)。如果觀察值大,則將其歸為非常規(guī)組,ROC 面積(用Az表示)就是非常規(guī)組每個(gè)觀察值大于常規(guī)組每個(gè)觀察值的概率,具體計(jì)算方法如下[5]:
(5)
公式(5)的數(shù)學(xué)含義是將非常規(guī)組na個(gè)Xi與常規(guī)組的nc個(gè)Xj進(jìn)行比較,如果前者大于后者則比結(jié)果為1,相等為0.5,小于則為0;再將na×nc個(gè)比較結(jié)果相加并取平均即可得Az。Az的標(biāo)準(zhǔn)誤差的計(jì)算公式可表述為:
(6)
其中,SE (Az )為Az的標(biāo)準(zhǔn)誤,Q1是更可能劃歸為常規(guī)組的概率,Q2是更可能劃歸為非常規(guī)組的概率。根據(jù)Az±ua SE (Az )可計(jì)算Az的100(1-α)%置信區(qū)間。
又設(shè)兩個(gè)診斷試驗(yàn) ROC 面積分別為Az1和Az2,對(duì)應(yīng)的標(biāo)準(zhǔn)誤差分別為SE1和SE2,比較 ROC 面積對(duì)應(yīng)的公式則為[6]:
(7)
其中,z是標(biāo)準(zhǔn)正態(tài)離差值。Az1和Az2是兩診斷試驗(yàn)的曲線下面積,SE1和SE2則是與其對(duì)應(yīng)的標(biāo)準(zhǔn)誤差。而r即為兩個(gè) ROC 曲線下面積間的相關(guān)系數(shù)。
ROC曲線一般位于參考線的上方,因此AUC多在0.5到1之間,越接近1就表明模型的判別效果越優(yōu)秀[7]。對(duì)總適應(yīng)性、社會(huì)文化適應(yīng)、心理適應(yīng)和校園適應(yīng)的Logistic回歸模型和CART模型分別繪制ROC曲線,由其可得比較模型分類效能曲線,具體可如圖1所示。
對(duì)四個(gè)適應(yīng)性模型經(jīng)過兩種方法擬合后,再計(jì)算ROC模型面積并進(jìn)行統(tǒng)計(jì)性檢驗(yàn),檢驗(yàn)結(jié)果如表1所示。
由表1的結(jié)果來看,所有模型標(biāo)準(zhǔn)誤差都小于0.05,說明這些分類具有統(tǒng)計(jì)學(xué)意義。從AUC數(shù)據(jù)來看,除了總適應(yīng)性模型,其余三個(gè)適應(yīng)性模型的曲線下面積相比較,CART分類方法都大于二元Logistic回歸分類結(jié)果。從95%置信區(qū)間來看,都在0.5以上,這即說明模型具有判別意義。心理適應(yīng)模型可信區(qū)間略低,則表明模型分類效果不夠理想,但這種擬合不好的情況應(yīng)該和所使用的分類方法沒有關(guān)系,而只是受到了變量本身數(shù)據(jù)模糊性的影響。
從圖1中可以看出,所有模型曲線均位于參考線上方,且都較為平滑??傔m應(yīng)性模型和校園適應(yīng)性模型的邏輯回歸曲線稍顯不平整,相比較而言,CART分類曲線較平整,且其曲線下面積都稍稍大于Logistic回歸模型的面積。為了驗(yàn)證兩種分類方法的差異是否具有統(tǒng)計(jì)學(xué)意義,可通過計(jì)算Z值來進(jìn)一步判斷兩者的分類效能。經(jīng)計(jì)算得出四個(gè)適應(yīng)性模型兩兩之間的Z值分別為7.719 7、1.825 7、9.128 7、5.477 2,通過比對(duì)U臨界值表,將檢驗(yàn)水準(zhǔn)α定義為0.05,除了社會(huì)文化適應(yīng)模型的兩種分類方法差異不顯著,其余模型差異都具有統(tǒng)計(jì)學(xué)意義??傔m應(yīng)性模型的分類中,二元Logistic回歸表現(xiàn)分類效能更高;在心理適應(yīng)和校園適應(yīng)的模型分類中,CART模型的分類效能較高[8]。因此,本研究驗(yàn)證CART分類方法稍好于二元Logistic分類。但此結(jié)論卻因情況而定,所以兩種分類方法各有利弊,優(yōu)劣則要根據(jù)具體的數(shù)據(jù)情況來呈現(xiàn)和表現(xiàn)。
4 結(jié)束語
本文通過Logistic回歸和決策樹兩種方法對(duì)心理學(xué)數(shù)據(jù)進(jìn)行分類,經(jīng)數(shù)據(jù)分析發(fā)現(xiàn),總的說來兩種分類方法各有利弊,而經(jīng)過Z值判斷可知CART分類模型要稍好于二元Logistic模型。所以對(duì)心理統(tǒng)計(jì)這種具有一定模糊性的數(shù)據(jù)來說,也許用數(shù)據(jù)挖掘的方法進(jìn)行分析會(huì)更好一些,當(dāng)然也要考慮具體分析的心理特質(zhì)的不同。
參考文獻(xiàn)
[1] SPRENT P. An introduction to categorical data analysis[J]. Journal of the royal statistical society series a-statistics in society. New York: Wiley-Inter-science Publication,2007.
[2] MAJOR J A, MANGANO J. Selecting among rules induced from a Hurricane database[J]. Proc, AAAI'93 Workshop Knowledge Discovery in Databases, 1993,(15).
[3] BRAMER M. Knowledge discovery and data mining[J]. The Institution of Electrical Engineers London, 2003,(4)
[4] 胡可云,田鳳占,黃厚寬. 數(shù)據(jù)挖掘理論與應(yīng)用[M].北京:清華大學(xué)出版社,2008.
[5] METZ C E, HERMAN B A, SHEN J H. Maximum likelihood estimation of receiver operating characteristic(ROC) curves from continuously-distributed data[J]. Statistics in Medicine, 1998,(9).
[6] DELONG E R, DELONG D M, DANIEL L, et al. Comparing the areas under two or more correlated receiver operating characteristic curves: a nonparametric approach [J]. Biometrics, 1988,(3).
[7] NAKAS C T, YIANNOUTSOS C T. Ordered multiple-class ROC analysis with continuous measurements[J]. Statistics in medicine,2004,(22).
[8] 王冬燕. 來華留學(xué)生跨文化適應(yīng)性規(guī)則提取研究[D]. 南京:南京師范大學(xué),2013.