• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      CHAID-RF:基于CHAID決策樹的集成學(xué)習(xí)方法

      2024-10-31 00:00:00聶斌靳???/span>李歡陳裕鳳張玉超鄭學(xué)鵬
      現(xiàn)代信息科技 2024年17期

      摘 要:針對卡方自動交互診斷(CHAID)決策樹易過擬合的問題,提出CHAID隨機森林方法(CHAID Random Forest, CHAID-RF)。該方法采用隨機采樣、隨機選擇特征以及集成的策略,將CHAID決策樹作為基分類器,形成CHAID-RF。為了驗證CHAID-RF的有效性,選取CART、CHAID、SVM、RF作為對比算法,以準(zhǔn)確率、加權(quán)查準(zhǔn)率、加權(quán)查全率、加權(quán)F值作為分類模型評價指標(biāo),以均方根誤差作為回歸模型評價指標(biāo),采用10個分類數(shù)據(jù)集和7個回歸數(shù)據(jù)集進(jìn)行驗證。實驗結(jié)果表明CHAID-RF可行有效。

      關(guān)鍵詞:CHAID;隨機森林;CHAID-RF;分類;回歸

      中圖分類號:TP399 文獻(xiàn)標(biāo)志碼:A 文章編號:2096-4706(2024)17-0028-09

      0 引 言

      決策樹算法最早于1966年被提出,常用于分類和回歸分析。經(jīng)典的決策樹算法有ID3、C4.5、CART、CHAID、Quest,之后的決策樹主要關(guān)注最佳結(jié)點的選擇問題進(jìn)行決策樹構(gòu)造、改進(jìn)和優(yōu)化[1-4]?,F(xiàn)有決策樹算法的最佳結(jié)點函數(shù)選擇,主要偏向于信息熵、統(tǒng)計檢驗、基尼指數(shù)、粗糙集理論四個方面[5-6]。其中,CHAID(Chi-Squared Automatic Interaction Detector)是Kass等人于1980年提出的決策樹算法[7],具有數(shù)據(jù)類型適用范圍廣、可建立多叉樹、從統(tǒng)計顯著性檢驗角度確定最佳分割變量的優(yōu)點,已經(jīng)被廣泛用于許多分類和回歸應(yīng)用。卻存在容易過擬合的缺點。目前,CHAID方法在社會調(diào)查[8]、市場研究[9]、醫(yī)學(xué)[10]等領(lǐng)域廣泛應(yīng)用。車敏詩等[11]提出一種基于混沌特征及優(yōu)化CHAID決策樹的情緒識別方法,優(yōu)化后的CHAID決策樹的情緒識別率和結(jié)果置信度等各項指標(biāo)明顯高于優(yōu)化前的CHAID決策樹。高多多等[12]人運用CHAID方法分析某縣農(nóng)村居民生活方式的影響因素。楊友星[13]對CHAID算法進(jìn)行了改進(jìn),提出了一種使自變量間交互作用較為公平的FCHAID算法,并應(yīng)用在信用風(fēng)險分析中。

      CHAID算法雖然具有諸多優(yōu)點,但同其他決策樹算法一樣易過擬合。隨機森林作為一種主流的集成學(xué)習(xí)算法,因其算法簡單、泛化能力強、抗過擬合能力強等優(yōu)點[14]。本文為改進(jìn)CHAID算法的缺點,提出CHAID隨機森林算法(CHAID Random Forest, CHAID-RF)。以CHAID決策樹作為隨機森林的基分類器,采用隨機采樣、隨機選擇特征以及集成的策略,生成CHAID-RF。

      1 方法介紹

      1.1 CHAID決策樹

      卡方自動交互診斷[7](Chi-squared Automatic Interaction Detector, CHAID)是一種基于統(tǒng)計學(xué)方法的決策樹算法。CHAID算法相當(dāng)于一個逐步的過程:首先,為每個自變量找到最好的分區(qū)。然后,對自變量的卡方檢驗值(分類問題)或F統(tǒng)計量(回歸問題)進(jìn)行比較,選出最佳分割變量。根據(jù)最佳分割變量的新區(qū)間,對數(shù)據(jù)進(jìn)行細(xì)分。每一個新區(qū)間都被獨立地重新分析,以產(chǎn)生進(jìn)一步的細(xì)分。

      CHAID決策樹的特點有:一是自變量和因變量均可以是分類型或數(shù)值型;二是能夠建立多叉樹;三是從統(tǒng)計顯著性檢驗角度確定最佳分組變量和分割點,考慮了自變量與因變量之間的相關(guān)性。但是,CHAID存在易過擬合的問題。

      1.2 隨機森林

      隨機森林(Random Forest, RF)是一種基于Bagging理論的集成算法,2001年由Leo Breiman提出[15]。RF的最大特點在于隨機選擇樣本和隨機選擇特征。首先,隨機森林對原始數(shù)據(jù)采取有放回隨機抽樣方法產(chǎn)生k個子訓(xùn)練集;然后,對每個訓(xùn)練子集隨機抽取若干個(一般為,M為特征總數(shù))特征;最后,構(gòu)建k棵決策樹形成隨機森林。

      經(jīng)典隨機森林的基分類器是分類回歸樹(Classification and Regression Tree, CART),隨機選擇樣本和隨機選擇特征彌補了單棵決策樹不穩(wěn)定和容易過擬合的2個主要缺點。因此,RF具有預(yù)測準(zhǔn)確率高、泛化性強、訓(xùn)練速度快等優(yōu)點。但在處理不平衡數(shù)據(jù)時,隨機森林模型的性能會大幅度下降。

      1.3 CHAID-RF模型

      1.3.1 CHAID-RF模型理論分析

      CART決策樹是隨機森林最常用的基分類器,分類和回歸任務(wù)均能實現(xiàn),是典型的二叉樹。在處理二分類問題中,CART決策樹具有較好的分類性能,但在處理多分類問題中,CART決策樹的結(jié)構(gòu)會變得復(fù)雜。因為,CART決策樹在每次節(jié)點分割時,只能二分化,把多分類問題轉(zhuǎn)化成多個二分類問題解決,樹的深度會增大。

      CHAID決策樹是一種數(shù)據(jù)應(yīng)用范圍較廣的多叉樹,與CART算法的顯著區(qū)別在于,其最佳分組變量的是當(dāng)前與輸出變量相關(guān)性最大的輸入變量,而不是使輸出變量取值的差異性下降最快的變量。CHAID決策樹和其他決策樹算法一樣,存在泛化能力差的缺陷。采用隨機采樣和隨機選擇特征的策略,將CHAID決策樹作為基分類器,形成CHAID-RF。CHAID-RF方法保留了CHAID決策樹的優(yōu)點,且解決了單棵決策樹的缺陷。CHAID-RF算法思想如下:

      輸入:訓(xùn)練集D,待測樣本

      輸出:待測樣本的類別(輸出變量是分類型)或擬合值(輸出變量是數(shù)值型)

      1)采用自助抽樣法(Bootstrap)從訓(xùn)練集D中隨機抽取k個子訓(xùn)練集,并且每個子訓(xùn)練集的樣本量需與原始訓(xùn)練集中樣本量保持一致。

      2)構(gòu)建每棵樹之前隨機抽取特征生成特征子集。

      3)運用卡方檢驗(輸出變量是分類型)或方差分析的F檢驗(輸出變量是數(shù)值型)得出最佳分裂特征,并生長出子節(jié)點。

      4)遞歸循環(huán)步驟2至步驟3,直到滿足停止條件,決策樹構(gòu)建完畢。

      5)集成k棵決策樹,形成隨機森林。

      6)對于待測樣本,k棵決策樹得出k個結(jié)果。

      7)對k個結(jié)果進(jìn)行投票(輸出變量是分類型)或取平均值(輸出變量是數(shù)值型)得到結(jié)果。

      1.3.2 CHAID-RF分類模型

      當(dāng)輸出變量是分類型時,CHAID-RF是一個分類模型。分類任務(wù)中,每棵CHAID決策樹會得到一個分類結(jié)果,CHAID-RF將所有決策樹分類結(jié)果的眾數(shù)作為待測樣本的最終結(jié)果。CHAID-RF分類模型結(jié)構(gòu)如圖1所示。

      1.3.3 CHAID-RF回歸模型

      當(dāng)輸出變量是數(shù)值型時,CHAID-RF是一個回歸模型?;貧w任務(wù)中,每棵CHAID決策樹會得到一個回歸值,CHAID-RF將所有決策樹回歸結(jié)果取平均作為待測樣本的最終結(jié)果。CHAID-RF回歸模型結(jié)構(gòu)如圖2所示。

      2 實驗結(jié)果

      2.1 實驗數(shù)據(jù)

      分類任務(wù)的10組數(shù)據(jù)集、回歸任務(wù)的7組數(shù)據(jù)集均來自UCI數(shù)據(jù)庫(http://archive.ics.uci.edu)。10組分類數(shù)據(jù)集的具體信息如表1所示?;貧w任務(wù)的7組數(shù)據(jù)集的具體信息如表2所示。

      本文通過計算自變量之間的互信息判斷其冗余性的大小,并對每個數(shù)據(jù)集的互信息值做歸一化處理,參考相關(guān)系數(shù)的范圍劃分,當(dāng)互信息大于等于0.4時為中度相關(guān)或者高度相關(guān),故設(shè)互信息閾值為0.4,小于0.4的互信息值以白色覆蓋。根據(jù)相關(guān)結(jié)果,將數(shù)據(jù)分為3類:

      1)含有大量冗余變量的數(shù)據(jù)集:Real Estate Valuation、Concert、Wisconsin Prognostic Breast Cancer、Forest Fires。

      2)含有部分冗余變量的數(shù)據(jù)集:SCADI、Letter、Dermatology、Mushroom、Coil2000、Insurance Company Benchmark、Airfoil Self-Noise。

      3)不含或含有極少冗余變量的數(shù)據(jù)集:CNAE-9、Nursery、Chess、Car、SPECT、Servo。

      以下展示了這3類情況中經(jīng)典數(shù)據(jù)集歸一化后的結(jié)果圖:其中圖3是Real Estate Valuation數(shù)據(jù)集熱力圖,圖4是Airfoil Self-Noise數(shù)據(jù)集熱力圖,圖5是Nursery數(shù)據(jù)集熱力圖。

      2.2 評價指標(biāo)

      準(zhǔn)確率(A)常用于評價分類模型的整體性能,但它在評價不平衡數(shù)據(jù)集時會對分類結(jié)果產(chǎn)生誤導(dǎo)。因此,常添加查準(zhǔn)率(P)、查全率(R)和F值對算法進(jìn)行有效驗證。然而,查準(zhǔn)率、查全率和F值僅適用二分類任務(wù),對多分類任務(wù)不再適用,常用的多分類指標(biāo)有Kappa系數(shù)[16]、海明距離[17]、杰卡德相似系數(shù)[18]等。為了使評價指標(biāo)能同時適用于二分類和多分類任務(wù),本文選用加權(quán)查準(zhǔn)率(Weight Precision, WP)、加權(quán)查全率(Weight Recall, WR)和加權(quán)F值(Weight F, WF)值將多分類問題轉(zhuǎn)化為多個二分類問題進(jìn)行評價。為了更直觀地給出這些評價指標(biāo)的計算公式,需要用到的混淆矩陣如表3所示。

      基于表3的混淆矩陣,各評價指標(biāo)的計算公式如下所示:

      (1)

      (2)

      (3)

      (4)

      (5)

      (6)

      (7)

      其中,c為類別數(shù),sum為樣本總數(shù),wi為類別i的樣本數(shù),Pi、Ri、Fi分別為類別i的查準(zhǔn)率、查全率、F值。

      采用均方根誤差(RMSE)評價回歸模型的擬合效果。

      2.3 實驗結(jié)果和分析

      為驗證本文提出的CHAID隨機森林方法的分類以及回歸效果,設(shè)置了CART、CHAID、支持向量機(SVM)和隨機森林(RF)4種對比算法。本文實驗環(huán)境為Win 10操作系統(tǒng)(64位)、Intel Core i5-3470 CPU @3.20 GHz、8.00 GB內(nèi)存,使用Python語言編寫算法,IDE為PyCharm 2020.2.3。實驗過程中,顯著水平a設(shè)為0.05,隨機抽取的特征數(shù)為,父節(jié)點樣本數(shù)最小為2,葉節(jié)點樣本數(shù)最小為1,RF和CHAID-RF中決策樹的數(shù)量均為100。

      2.3.1 分類實驗結(jié)果與分析

      本文通過十組分類數(shù)據(jù)集,通過十折交叉驗證準(zhǔn)確率、加權(quán)查準(zhǔn)率、加權(quán)查全率、加權(quán)F值,比較CART、CHAID、SVM、RF和CHAID-RF這5種算法的分類性能,實驗結(jié)果如表4、表5和圖6所示。

      具體分析如下:

      1)5種算法實驗結(jié)果綜合分析。由表4、表5和圖6可知:一是Coil2000數(shù)據(jù)集上,SVM、RF、CHAID-RF這3種方法的4種評價指標(biāo)結(jié)果相同,但加權(quán)查準(zhǔn)率、加權(quán)查全率、加權(quán)F值低于CART決策樹的結(jié)果。Coil2000數(shù)據(jù)集大類含9 236個樣本,小類僅含586個樣本,因此,該結(jié)果可能是Coil2000數(shù)據(jù)集類別不平衡導(dǎo)致的。二是SVM算法在數(shù)據(jù)集CNAE-9、Letter、Dermatology、SPECT的4種評價指標(biāo)結(jié)果均優(yōu)于其他算法,原因可能是SVM適用于小樣本學(xué)習(xí),并且它的最終分類結(jié)果由少量支持向量決定,對異常值不敏感,具有較好的魯棒性。三是SCADI、Chess、Car數(shù)據(jù)集上CART方法的分類效果最佳,Mushroom數(shù)據(jù)集中CHAID和CART方法的分類準(zhǔn)確率都是1,Nursery數(shù)據(jù)集中CHAID方法分類性能最佳。

      2)CHAID-RF與CHAID實驗結(jié)果分析。由表4、表5和圖6可知,CHAID-RF算法在Letter數(shù)據(jù)集中的分類性能高于CHAID。CHAID-RF和CHAID算法在SCADI、Dermatology、SPECT、Coil2000數(shù)據(jù)集中分類性能相近。CHAID算法在CNAE-9、Nursery、Chess、Mushroom、Car這5個數(shù)據(jù)集中分類性能更佳。結(jié)合數(shù)據(jù)集的特點分析發(fā)現(xiàn):當(dāng)數(shù)據(jù)集中含有部分或大量冗余變量,且自變量的數(shù)量較多時,CHAID-RF算法的分類效果和CHAID算法差不多,甚至優(yōu)于CHAID算法。

      3)CHAID-RF與RF實驗結(jié)果分析。由表4、表5和圖6可知,CHAID-RF算法在數(shù)據(jù)集CNAE-9、SCADI、Letter的4種評價指標(biāo)均高于RF算法。CHAID-RF和RF算法在Dermatology、Mushroom、Coil2000中的4種評價指標(biāo)結(jié)果相近。CHAID-RF算法在數(shù)據(jù)集Nursery、Chess、SPECT的4種評價指標(biāo)均低于RF算法。

      綜上所述,本文提出的CHAID-RF算法具有較好的分類效果,CHAID-RF在CNAE-9、SCADI、Letter這3個多分類數(shù)據(jù)集上分類效果也優(yōu)于傳統(tǒng)隨機森林。

      4)穩(wěn)定性分析。為了探究子決策樹規(guī)模對CHAID-RF算法性能的影響,進(jìn)行穩(wěn)定性對比實驗。本文設(shè)定森林中初始決策樹的棵數(shù)為5,步長為5,依次遞增直到100棵決策樹為止。以十折交叉驗證的準(zhǔn)確率為評價指標(biāo),將本文提出的CHAID-RF算法和RF算法的實驗結(jié)果進(jìn)行對比,在10組分類數(shù)據(jù)集的實驗結(jié)果如圖7所示。

      圖7中有10張子圖,每張子圖代表一個數(shù)據(jù)集的CHAID-RF和RF的十折交叉準(zhǔn)確率與決策樹棵數(shù)的變化關(guān)系。其中,橫坐標(biāo)代表樹的棵數(shù),縱坐標(biāo)代表十折交叉準(zhǔn)確率。由圖7分析可知:

      1)隨決策樹的棵數(shù)的增加,CHAID-RF和RF的十折交叉準(zhǔn)確率有上升趨勢,當(dāng)樹的棵數(shù)達(dá)100時,10組數(shù)據(jù)集的十折交叉驗證準(zhǔn)確率都穩(wěn)定。

      2)在CNAE-9、SCADI、Letter這3個數(shù)據(jù)集中CHAID-RF算法的分類準(zhǔn)確率明顯優(yōu)于RF。

      3)CHAID-RF與RF的收斂速度相近。

      2.3.2 回歸實驗結(jié)果與分析

      本文通過7組回歸數(shù)據(jù)集,通過十折交叉驗證RMSE,比較CART、CHAID、SVM、RF和CHAID-RF這5種算法的回歸性能,實驗結(jié)果如表6所示。

      具體分析如下:

      1)5種算法實驗結(jié)果綜合分析。由表6可知,CHAID-RF在數(shù)據(jù)集Insurance Company Benchmark、Wisconsin Prognostic Breast Cancer上的均方根誤差最??;RF在數(shù)據(jù)集Real Estate Valuation的均方根誤差小于其他算法;SVM在數(shù)據(jù)集Forest Fires的均方根誤差最??;CART在數(shù)據(jù)集Airfoil Self-Noise、Concrete Compressive Strength、Servo的均方根誤差最小。

      2)CHAID-RF與CHAID實驗結(jié)果分析。由表6可知,Insurance Company Benchmark、Airfoil Self-Noise、Real Estate Valuation、Concrete Compressive Strength、Wisconsin Prognostic Breast Cancer、Forest Fires這6個數(shù)據(jù)集中CHAID-RF的均方根誤差小于CHAID。Servo數(shù)據(jù)集中CHAID的均方根誤差小于CHAID-RF,可能是Servo數(shù)據(jù)集的特征個數(shù)太少,造成CHAID-RF的單棵決策樹在建立過程中學(xué)習(xí)內(nèi)容不足,進(jìn)而影響CHAID-RF的回歸效果。結(jié)合數(shù)據(jù)集的特點分析發(fā)現(xiàn):當(dāng)數(shù)據(jù)集中含有部分或大量冗余變量且自變量的數(shù)量較多時,CHAID-RF算法的擬合效果優(yōu)于CHAID算法。

      3)CHAID-RF與RF實驗結(jié)果分析。由表6可知,Insurance Company Benchmark、Wisconsin Prognostic Breast Cancer、Forest Fires這3個數(shù)據(jù)集中CHAID-RF的均方根誤差小于RF。Airfoil Self-Noise、Real Estate Valuation、Concrete Compressive Strength、Servo這4個數(shù)據(jù)集中RF的均方根誤差小于CHAID-RF。實驗結(jié)果表明,CHAID-RF同RF一樣可用于回歸分析,并且在某些數(shù)據(jù)集中CHAID-RF擬合效果優(yōu)于RF。

      綜上所述,本文提出的CHAID-RF算法亦可實現(xiàn)回歸任務(wù),并且在Insurance Company Benchmark、Wisconsin Prognostic Breast Cancer數(shù)據(jù)集上擬合效果最優(yōu)。

      4)穩(wěn)定性分析。為了探究子決策樹規(guī)模對CHAID-RF算法性能的影響,進(jìn)行穩(wěn)定性對比實驗。本文設(shè)定森林中初始決策樹的棵數(shù)為5,步長為5,依次遞增直到100棵決策樹為止。以十折交叉驗證的RMSE為評價指標(biāo),將本文提出的CHAID-RF算法和RF算法的實驗結(jié)果進(jìn)行對比,在7組分類數(shù)據(jù)集的實驗結(jié)果如圖8所示。

      圖8中有7張子圖,每張子圖代表一個數(shù)據(jù)集的CHAID-RF和RF的十折交叉RMSE與決策樹棵數(shù)的變化關(guān)系。其中,橫坐標(biāo)代表樹的棵數(shù),縱坐標(biāo)代表十折交叉RMSE。圖8分析可知:

      1)隨決策樹的棵數(shù)的增加,CHAID-RF和RF的十折交叉RMSE有下降趨勢,當(dāng)樹的棵數(shù)達(dá)100時,7組數(shù)據(jù)集的十折交叉驗證RMSE均穩(wěn)定。

      2)在數(shù)據(jù)集Insurance Company Benchmark、Wisconsin Prognostic Breast Cancer、Forest Fires這3個數(shù)據(jù)集CHAID-RF算法的擬合效果優(yōu)于RF。

      3)CHAID-RF與RF的收斂速度相近。

      3 結(jié) 論

      針對CHAID算法容易過擬合的缺陷,本文提出CHAID-RF算法。CHAID-RF方法的基分類器是CHAID決策樹,當(dāng)CHAID決策樹規(guī)模達(dá)到一定數(shù)量后,CHAID-RF的評價指標(biāo)保持在穩(wěn)定的范圍內(nèi)。通過10個分類數(shù)據(jù)集和7個回歸數(shù)據(jù)集實驗,實驗結(jié)果表明,CHAID隨機森林方法具有較好的分類和回歸效果。但是,本文提出的CHAID-RF算法在樣本不平衡的數(shù)據(jù)中的結(jié)果會偏向于訓(xùn)練集中樣本量多的類別,在后期工作中,將進(jìn)一步深入研究。

      參考文獻(xiàn):

      [1] LAWRENCE R L,WRIGHT A. Rule-Based Classification Systems Using Classification and Regression Tree (CART) Analysis [J].Photogrammetric Engineering and Remote Sensing,2001,67(10):1137-1142.

      [2] 謝鑫,張賢勇,楊霽琳.融合信息增益與基尼指數(shù)的決策樹算法 [J].計算機工程與應(yīng)用,2022,58(10):139-144.

      [3] 王川杭.消除隨機一致性的決策樹及深度森林方法 [D].太原:山西大學(xué),2021.

      [4] HAYES T,USAMI S,JACOBUCCI R,et al. Using Classification and Regression Trees (CART) and Random Forests to Analyze Attrition: Results from Two Simulations [J].Psychology and Aging,2015,30(4):911-929.

      [5] CAMPBELL P R J,F(xiàn)ATHULLA H,AHMED F. FuzzyCART: A Novel Fuzzy Logic based Classification & Regression Trees Algorithm [C]//2009 International Conference on Innovations in Information Technology (IIT).Al Ain:IEEE,2009:175-179.

      [6] 姚岳松,張賢勇,陳帥,等.基于屬性純度的決策樹歸納算法 [J].計算機工程與設(shè)計,2021,42(1):142-149.

      [7] 薛薇,陳歡歌.SPSS Modeler數(shù)據(jù)挖掘方法及應(yīng)用:第2版 [M].北京:電子工業(yè)出版社,2014.

      [8] 程國柱,程瑞,徐亮.公路小半徑曲線段外側(cè)車道路側(cè)事故概率預(yù)測 [J].哈爾濱工業(yè)大學(xué)學(xué)報,2021,53(3):178-185.

      [9] 程可.基于CHAID模型的P2P網(wǎng)貸平臺財務(wù)預(yù)警研究 [D].太原:山西財經(jīng)大學(xué),2018.

      [10] 趙巧燕,浮志坤,陳健超,等.冠狀動脈搭橋術(shù)后醫(yī)院感染風(fēng)險預(yù)測模型構(gòu)建 [J].中華醫(yī)院感染學(xué)雜志,2021,31(2):296-300.

      [11] 車敏詩,聶春燕,范如俊,等.一種基于混沌特征及優(yōu)化CHAID決策樹的情緒識別方法 [J].計算機應(yīng)用研究,2020,37(S2):105-107.

      [12] 高多多,張愛蓮,任雯娟.基于CHAID模型的某縣農(nóng)村居民生活方式影響因素分析 [J].中國衛(wèi)生統(tǒng)計,2020,37(5):659-663.

      [13] 楊友星.CHAID算法并行化及其在信用風(fēng)險分析中的應(yīng)用 [D].長春:長春工業(yè)大學(xué),2016.

      [14] 徐精誠,陳學(xué)斌,董燕靈,等.融合特征選擇的隨機森林DDoS攻擊檢測 [J].計算機應(yīng)用,2023,43(11):3497-3503.

      [15]陳志添.基于決策樹的診斷相關(guān)組分類研究 [D].廣州:華南理工大學(xué),2018.

      [16]徐樹良,王俊紅.基于Kappa系數(shù)的數(shù)據(jù)流分類算法 [J].計算機科學(xué),2016,43(12):173-178.

      [17]譚吉玉,朱傳喜,張小芝,等.基于海明距離和TOPSIS的直覺模糊數(shù)排序法 [J].統(tǒng)計與決策,2015(19):94-96.

      [18]于海平,林曉麗.基于增強雙邊濾波的圖像分割模型及應(yīng)用 [J].計算機工程與設(shè)計,2019,40(4):1064-1069.

      作者簡介:聶斌(1972—),男,漢族,江西吉安人,教授,研究生導(dǎo)師,CCF會員,博士研究生在讀,研究方向:數(shù)據(jù)挖掘、中醫(yī)藥信息學(xué)、中藥學(xué);靳??疲?999—),女,漢族,山西晉城人,碩士研究生在讀,研究方向:數(shù)據(jù)挖掘;李歡(1995—),女,漢族,江西萍鄉(xiāng)人,助教,碩士研究生,研究方向:數(shù)據(jù)挖掘;陳裕鳳(1996—),女,漢族,江西南昌人,助教,碩士研究生,研究方向:數(shù)據(jù)挖掘;張玉超(1998—),男,漢族,重慶墊江人,碩士研究生在讀,研究方向:數(shù)據(jù)挖掘;鄭學(xué)鵬(1997—),男,漢族,廣東汕尾人,碩士研究生在讀,研究方向:數(shù)據(jù)挖掘。

      收稿日期:2024-03-04

      DOI:10.19850/j.cnki.2096-4706.2024.17.007

      基金項目:國家自然科學(xué)基金項目(82260849,61562045);江西省教育廳科技計劃研究項目(GJJ211256);江西中醫(yī)藥大學(xué)校級科技創(chuàng)新團(tuán)隊發(fā)展計劃(CXTD22015)

      CHAID-RF: Ensemble Learning Method Based on CHAID Decision Tree

      NIE Bin, JIN Haike, LI Huan, CHEN Yufeng, ZHANG Yuchao, ZHENG Xuepeng

      (College of Computer Science, Jiangxi University of Chinese Medicine, Nanchang 330004, China)

      Abstract: Aiming at the problem that CHAID Decision Tree is easy to overfitting, CHAID-RF is proposed. In this method, CHAID Decision Tree is used as the base classification to form CHAID-RF by random sampling, random feature selection and integration strategies. CART, CHAID, SVM, and RF are selected as the comparison algorithm to verify the effectiveness of CHAID-RF, accuracy, Weighted Precision Ratio, Weighted Recall Ratio, and Weighted F-measure are used as evaluation index of classification model, and Root Mean Square Error is used as evaluation index of regression model, 10 classification data sets and 7 regression data sets are used for validation. The experimental results show that CHAID-RF is feasible and effective.

      Keywords: CHAID; Random Forest; CHAID-RF; classification; regression

      麟游县| 常德市| 宝清县| 科技| 普陀区| 新田县| 元阳县| 拉孜县| 永城市| 电白县| 台东县| 汤原县| 曲松县| 乐东| 水富县| 兴海县| 德安县| 拉萨市| 阳山县| 增城市| 乐东| 乌拉特中旗| 尼木县| 江川县| 金山区| 金秀| 油尖旺区| 古蔺县| 科技| 桐柏县| 临邑县| 若羌县| 汶川县| 康保县| 邵阳县| 乡城县| 南通市| 罗山县| 仙桃市| 广平县| 宝应县|