武君
摘 要:本文使用風(fēng)投企業(yè)風(fēng)險(xiǎn)識(shí)別案例,用四種決策樹(shù)算法,對(duì)比了提取主成分前后算法精度的變化。結(jié)果表明,提取主要成分后,四種算法中只有C5.0算法的精度獲得了提高,而其他三種算法提取主成分后的精度反而有所下降,并且C5.0算法在未提取主成分時(shí)的精度已高于其他三種算法,可見(jiàn)在風(fēng)險(xiǎn)識(shí)別案例中先提取主成分再使用C5.0算法后精度較其他三種算法高。
關(guān)鍵詞:風(fēng)險(xiǎn)識(shí)別;主成分分析;決策樹(shù)算法
0 引言
數(shù)據(jù)挖掘中比較熱門的就是分類算法的研究,而決策樹(shù)算法是分類算法中最重要的。常見(jiàn)的決策樹(shù)算法有四種:CART、C5.0、CHAID和QUEST。每種算法針對(duì)不同的數(shù)據(jù)類型,精度也不同。如何提升算法的預(yù)測(cè)精度,是許多學(xué)者都嘗試解決的問(wèn)題。有些使用集成學(xué)習(xí)算法,如boosting,Bagging,如趙敏等(2007)[1]研究Adaboost算法在決策樹(shù)中的應(yīng)用,劉余霞等(2012)[2]使用Bagging集成學(xué)習(xí)研究字符識(shí)別,李詒靖等(2016)[3]使用boosting算法解決分類問(wèn)題。有些將決策樹(shù)和其他模型結(jié)合在一起,如顧雨等(2010)[4]、張俊深等(2016)[5],都是將多種方法用于分類和預(yù)測(cè)。另一種提高精度的方法是在數(shù)據(jù)分析前將主成分分析法引入,先提取主要成分,然后做決策樹(shù)分析。本文基于創(chuàng)業(yè)企業(yè)風(fēng)險(xiǎn)識(shí)別數(shù)據(jù),從實(shí)證方面研究主成分分析對(duì)決策樹(shù)算法精度的影響。
1 理論基礎(chǔ)
1.1 CART算法
CART算法即分類與回歸樹(shù),它包含了分類樹(shù)和回歸樹(shù),分類樹(shù)用于目標(biāo)變量是分類型的,回歸樹(shù)用于目標(biāo)變量是連續(xù)型的。CART的生長(zhǎng)是二叉樹(shù),如果目標(biāo)變量是分類型,則以Gini系數(shù)來(lái)確認(rèn)分割點(diǎn),如果目標(biāo)變量是數(shù)值型,則以方差來(lái)確認(rèn)分割點(diǎn)。
1.2 C5.0算法
C5.0是經(jīng)典的決策樹(shù)模型算法之一,可生成多分支的決策樹(shù),目標(biāo)變量為分類型變量,使用C5.0算法可以生成決策樹(shù)或者規(guī)則集。
1.3 CHAID算法
CHAID算法其核心思想是根據(jù)給定的目標(biāo)變量和解釋變量對(duì)樣本進(jìn)行最優(yōu)分割。利用卡方自動(dòng)交互檢測(cè)法可以快速、有效地挖掘出主要影響因素,它不僅可以處理非線性和高度相關(guān)的數(shù)據(jù),而且還可以將缺失值考慮在內(nèi)。
1.4 QUEST算法
QUEST算法是二叉樹(shù)算法。它通過(guò)將判別坐標(biāo)分配給預(yù)測(cè)變量類別,將分類變量轉(zhuǎn)換為連續(xù)變量,然后利用二次判別分析QDA來(lái)確定分割點(diǎn)。QUEST樹(shù)算法的一個(gè)優(yōu)點(diǎn)是它是無(wú)偏的,不像CART算法那樣偏向于選擇允許更多分裂的分裂變量以及缺失值更多的分裂變量。
2 實(shí)證分析
2.1 數(shù)據(jù)來(lái)源及描述
本文研究數(shù)據(jù)來(lái)自某風(fēng)投公司提供的所投資創(chuàng)業(yè)企業(yè)數(shù)據(jù)。風(fēng)險(xiǎn)投資是風(fēng)投公司為創(chuàng)業(yè)企業(yè)提供的投資服務(wù),一段時(shí)期后,創(chuàng)業(yè)企業(yè)將面臨成功或失敗兩種可能,風(fēng)投企業(yè)進(jìn)行的風(fēng)險(xiǎn)識(shí)別是將創(chuàng)業(yè)成功與否的離散變量作為因變量,企業(yè)創(chuàng)業(yè)因素作為自變量,進(jìn)行決策樹(shù)分析判斷,進(jìn)而研究創(chuàng)業(yè)成功與否的影響因素。
2.1.1 指標(biāo)匯總
對(duì)風(fēng)投公司提供的數(shù)據(jù)脫敏、預(yù)處理后,整理指標(biāo)如下表。
2.1.2 基本描述
剔除缺失值、無(wú)效數(shù)據(jù)后,得樣本總量209,正樣本99,負(fù)樣本110。
2.2 主成分提取
2.2.1 KMO檢驗(yàn)
對(duì)數(shù)據(jù)計(jì)算KMO檢驗(yàn)得到如下結(jié)果。
2.2.2 提取主成分
主要成分解釋總方差表如下表。
根據(jù)結(jié)果提取數(shù)據(jù)10個(gè)主要成分,主要成分占原始信息的69.830%。
2.3 實(shí)證結(jié)果對(duì)比
首先對(duì)未提取主成分的原始數(shù)據(jù)分別做CART、C5.0、CHAID和QUEST的決策樹(shù)運(yùn)算,再對(duì)提取了主成分的數(shù)據(jù)進(jìn)行上述四種決策樹(shù)算法,其結(jié)果對(duì)比
如下。
分析結(jié)果可得:
第一,與未提取主成分相比,提取主成分后四種算法中,只有C5.0算法的精度獲得了提高;而其他三種算法,提取主成分后的精度反而有所下降。
第二,從上述8個(gè)結(jié)果中可以看出,C5.0算法在未提取主成分時(shí)的精度已高于其他三種算法,可見(jiàn)在該案例中先提取主成分再使用C5.0算法后精度較其他三種算法高。
3 結(jié)論
本文使用風(fēng)投企業(yè)投資成功與否案例,利用四種決策樹(shù)算法,對(duì)比了提取主成分前后,算法精度的變化。結(jié)果表明,提取主要成分后,四種算法中只有C5.0算法的精度獲得了提高,而其他三種算法提取主成分后的精度反而有所下降,并且C5.0算法在未提取主成分時(shí)的精度已高于其他三種算法,可見(jiàn)在該案例中先提取主成分再使用C5.0算法后精度較其他三種算法高。
參考文獻(xiàn):
[1]趙敏,陳恩紅,宋睿.基于集成學(xué)習(xí)的Adaboost演化決策樹(shù)算法[J].計(jì)算機(jī)應(yīng)用與軟件,2007(03):1-2+21.
[2]劉余霞,呂虹,胡濤,孫小虎.基于Bagging集成學(xué)習(xí)的字符識(shí)別方法[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(33):194-196+211.
[3]李詒靖,郭海湘,李亞楠,劉曉.一種基于Boosting的集成學(xué)習(xí)算法在不均衡數(shù)據(jù)中的分類[J].系統(tǒng)工程理論與實(shí)踐,2016,36(01): 189-199.
[4]顧雨,徐廣軍,夏訓(xùn)峰,席北斗,周素霞.基于最優(yōu)組合預(yù)測(cè)模型的中國(guó)工業(yè)固體廢物產(chǎn)生量預(yù)測(cè)[J].環(huán)境污染與防治,2010,32(05): 89-91+109.
[5]張俊深,袁程煒.基于BP神經(jīng)網(wǎng)絡(luò)與修正GM(1,1)模型的能源消費(fèi)組合預(yù)測(cè)[J].統(tǒng)計(jì)與決策,2016(05):90-93.
[6]劉敏,趙璟,薛偉賢.“一帶一路”產(chǎn)能合作與發(fā)展中國(guó)家全球價(jià)值鏈地位提升[J].國(guó)際經(jīng)貿(mào)探索,2018,34(08):49-62.