摘 要:隨機森林模型是廣泛應用于各個領(lǐng)域的經(jīng)典黑盒模型,而黑盒模型的結(jié)構(gòu)特征導致模型可解釋性弱,需要借助可解釋技術(shù)優(yōu)化隨機森林的可解釋性,從而促進其在可靠性要求較高場景的應用與發(fā)展。研究構(gòu)建了基于集成剪枝和多目標優(yōu)化算法的規(guī)則提取模型,集成剪枝在解決樹模型規(guī)則提取易陷入局部最優(yōu)的問題上具有代表性,多目標優(yōu)化在解決規(guī)則準確性和可解釋性的平衡問題上有多個領(lǐng)域的應用。模型驗證結(jié)果表明,所構(gòu)建模型能夠在不降低準確性的前提下優(yōu)化模型的可解釋性。本研究首次將集成剪枝技術(shù)與多目標優(yōu)化算法相融合,增強了隨機森林的可解釋性,有助于推動該模型在可解釋性要求較高領(lǐng)域的決策應用。
關(guān)鍵詞:隨機森林;可解釋增強;集成剪枝;規(guī)則提??;多目標優(yōu)化算法
中圖分類號:TP391 文獻標志碼:A 文章編號:1001-3695(2024)10-010-2947-08
doi:10.19734/j.issn.1001-3695.2024.02.0047
Interpretability enhancement model of random forest using ensemble pruning and multi-objective evolutionary algorithm
Li Yang1, Liao Mengjie1, 2, Zhang Jian1, 2
(1.School of Economics & Management, Beijing Information S&T University, Beijing 100192, China; 2.Beijing Key Laboratory of Big Data Decision-making for Green Development, Beijing 100192, China)
Abstract:Random forest is a classic black-box model that is widely used in various fields. The structural characteristics of black-box models lead to weak model interpretability, which can be optimized with the help of interpretable techniques to promote the application and development of random forest in scenarios with high reliability requirements. This paper constructed a rule extraction model based on ensemble pruning and multi-objective evolutionary algorithm. Ensemble pruning is an effective method for solving the problem of extracting rules from tree models that tend to fall into local optima, and multi-objective evolutionary has several applications in balancing rule accuracy and interpretability. This paper found that it improved interpreta-bility without sacrificing accuracy. This study integrated ensemble pruning technique with a multi-objective evolutionary algorithm, which enhances the interpretability of random forests and helps promote the decision-making application of this model in areas with high interpretability requirements.
Key words:random forest; interpretability enhancement; ensemble pruning; rule extraction; multi-objective evolutionary algorithm
0 引言
人工智能是引領(lǐng)新時代產(chǎn)業(yè)革命和科技進步的重要驅(qū)動力,對人工智能可解釋性的要求同樣備受關(guān)注。2021年9月25日,我國國家新一代人工智能治理專業(yè)委員會發(fā)布的《新一代人工智能倫理規(guī)范》第12條規(guī)定,要在算法設(shè)計、實現(xiàn)、應用等環(huán)節(jié),提升透明性、可解釋性、可理解性;歐盟的《通用數(shù)據(jù)保護條例》(GDPR)提出了“解釋權(quán)”的概念,即由算法作出的決定對用戶產(chǎn)生影響,那么用戶有權(quán)知曉這些決定的具體解釋[1,2]。在管理決策領(lǐng)域,機器學習模型以其面向復雜場景的高精確度等優(yōu)勢廣泛應用,但針對某些對模型存在透明度要求的行業(yè),其黑盒模型結(jié)構(gòu)特征制約了其發(fā)展,如醫(yī)療診斷、信用貸款風險評估、推薦系統(tǒng)等領(lǐng)域。而準確性與可解釋性這兩個特點往往難以在同一模型當中同時被滿足,因此,如何提升準確性較高的黑盒模型的可解釋性成為了近年來的研究熱點[3]。而在管理決策領(lǐng)域,如何在不降低模型準確性的同時提升其可解釋性,可以大大提升模型的可信度,對管理決策領(lǐng)域具有極為重要的現(xiàn)實意義。
可解釋技術(shù)(explainable artificial intelligence, XAI)為機器學習模型的可解釋性優(yōu)化提供了可行方案,可為決策者提供文本化或可視化的解釋模型[4]。其中有兩種典型技術(shù)路線,其一為全局可解釋,即從黑盒模型中訓練一個結(jié)構(gòu)透明的模型并對源模型進行替代;其二為局部可解釋,旨在為個例預測結(jié)果提供解釋,并分析關(guān)鍵因素對模型結(jié)果的影響,代表方法為SHAP、LIME[5,6]。其中,隨機森林集成多棵決策樹是對樣本進行訓練并預測的一種集成學習方法,在風險評價領(lǐng)域效果良好且具有較強的魯棒性,特別是針對小規(guī)模結(jié)構(gòu)化數(shù)據(jù)的評價問題表現(xiàn)出優(yōu)于深度學習的性能[7]。而由于隨機森林生成了大量的基決策樹,且基決策樹的推理邏輯不統(tǒng)一導致其獨立的基決策樹不具備解釋價值,所以隨機森林仍然被認為是一種不具備良好解釋性的黑盒模型,限制了其面向可解釋性要求高場景的應用范圍[8]。
近年來,有學者從不同角度對隨機森林模型的可解釋優(yōu)化進行研究。一類是使用構(gòu)建單一決策樹的方法將隨機森林轉(zhuǎn)變?yōu)榭山忉屇P停⒈3至嗽P偷臏蚀_性。文獻[9]先提供了構(gòu)建基于森林的樹(forest-based tree,F(xiàn)BT)的方法,通過對模型的修剪和規(guī)則的合取操作,將源模型轉(zhuǎn)換為一棵決策樹。該方法在保持樹模型性能的基礎(chǔ)上為決策者解釋了模型預測的過程。FBT方法忽略了每條規(guī)則的可解釋性,為決策者的理解增加難度[10]。另一類是直接從集成樹中提取規(guī)則。這類方法將樹模型轉(zhuǎn)換為大量的規(guī)則集,再使用貪婪或啟發(fā)式算法從中尋找具有價值的規(guī)則子集。如Boruah等人[11]通過減少決策樹提取的規(guī)則數(shù)量來提高決策支持系統(tǒng)的可理解性。該方法能夠提取出最直接的規(guī)則供決策者理解模型,而挑戰(zhàn)在于從龐大的解空間中找到性能最優(yōu)的規(guī)則子集,避免搜尋算法陷入局部最優(yōu)。
綜上所述,將隨機森林轉(zhuǎn)換為規(guī)則集是隨機森林可解釋性增強的重要路徑之一,而實現(xiàn)該轉(zhuǎn)換主要面臨兩大問題:一是提取規(guī)則因數(shù)量過大而容易陷入局部最優(yōu),二是提取規(guī)則在準確性和可解釋性上難以兼得。集成剪枝是解決輸出容易陷入局部最優(yōu)問題最具代表性的方法,其優(yōu)勢在于在保證隨機森林性能不變或提升的基礎(chǔ)上減小集成樹的規(guī)模;而多目標優(yōu)化對于提取規(guī)則的準確性和可解釋性上的平衡問題在信用風險評估、醫(yī)學檢測等多個領(lǐng)域效果顯著。因此,為更好地解決規(guī)則模型存在的問題,本研究將集成剪枝與多目標優(yōu)化算法的優(yōu)勢相結(jié)合,利用集成剪枝減少隨機森林中基樹的數(shù)量,在提升隨機森林模型性能的同時通過減小初始規(guī)則數(shù)量的方式提升模型搜索最優(yōu)解的能力,再使用多目標優(yōu)化算法得到準確性和可解釋性均衡的優(yōu)化規(guī)則集,最終實現(xiàn)隨機森林的可解釋性增強。
基于此,本研究建立基于剪枝隨機森林的規(guī)則提取模型(pruned random forest-based rule extraction,PRFRE),提高提取優(yōu)化規(guī)則集的穩(wěn)定性,提供準確性和可解釋性均優(yōu)的決策規(guī)則集。該模型首先修剪訓練好的隨機森林模型,減少模型中決策樹的數(shù)量,簡化隨機森林的復雜性。在集成剪枝方法的選擇上,本研究列舉各類分類器技術(shù),并不影響后續(xù)規(guī)則的性能。隨后,構(gòu)建規(guī)則的準確性和可解釋性指標,進行基于單個指標的候選規(guī)則集選擇,進一步減少規(guī)則數(shù)量。最后,使用基于多目標優(yōu)化算法(multi-objective evolutionary algorithm,MOEA),以規(guī)則的準確性和規(guī)則的可解釋性為兩個優(yōu)化目標對候選規(guī)則集進行多輪迭代優(yōu)化,最終得到優(yōu)化規(guī)則集。本文首次將集成剪枝與多目標優(yōu)化算法相融合,實現(xiàn)模型可解釋性增強,且優(yōu)化規(guī)則集可供決策者對原模型進行理解,或直接代替原模型進行智能決策。
1 相關(guān)研究綜述
1.1 機器學習的可解釋性研究
由于機器學習模型的預測性能與可解釋性的互斥關(guān)系,機器學習模型的可解釋性研究應運而生??山忉屝酝ǔEc可理解性同時出現(xiàn),兩個用語的含義并不完全一致,區(qū)別在于可理解性在于原模型可直接為人類所理解,而可解釋性是指構(gòu)造新的透明模型作為人類與復雜機器學習模型的橋梁供人類理解[12]。文獻[3]綜合不同研究對可解釋性的描述,將對機器學習模型的可解釋性定義為使用清晰、簡單的方式對不同背景的用戶進行模型進行智能決策解釋的方法。研究機器學習模型可解釋性的意義不僅是為了幫助人類相信和理解復雜黑盒模型的決策機制,也是解決機器學習模型運用于各領(lǐng)域存在倫理問題的必然要求。目前許多機器學習模型會受到隱蔽的攻擊,存在對不具有代表性群體的偏見和隱私泄露的情況,導致用戶對所有機器學習模型可信度的降低[13]。
學界提出了不同的技術(shù)來應對提高機器學習模型可解釋性的挑戰(zhàn)。這些技術(shù)可以分為局部可解釋技術(shù)和全局可解釋技術(shù)。前一種技術(shù)旨在為個體預測提供易于理解的解釋,而不必將模型機制解釋為一個整體。經(jīng)典的局部可解釋技術(shù)是 LIME 和 SHAP,是以樣本個體為研究對象預測學習可解釋的局部模型。目前,如文獻[14,15]所述,SHAP已應用于醫(yī)療診斷、信用貸款、情報挖掘等多個學科的可解釋性研究中。全局可解釋性是通過從給定的不透明模型生成可解釋模型來實現(xiàn)的。在全局可解釋性研究中,決策樹、決策規(guī)則、最近鄰模型和線性模型常被用作可解釋模型的基礎(chǔ)[5]。隨機森林模型的可解釋性屬于全局可解釋性研究,即通過對隨機森林模型的處理形成新的透明模型來獲得可解釋性,具體介紹將在下一節(jié)展示。
1.2 隨機森林的可解釋性研究
近些年對于隨機森林的可解釋性研究,除通用的局部解釋和可視化方法以外,主要分為集成剪枝和規(guī)則提取兩種方法[8]。集成剪枝是指將隨機森林模型的基決策樹數(shù)量進行縮減以獲取優(yōu)秀的最小森林的方法。剪枝的目的在于在保持或提高原有隨機森林模型精度的基礎(chǔ)上,減小模型復雜度的同時帶來存儲空間和分類時間上的節(jié)省。此方法的前提是文獻[16]發(fā)現(xiàn)集成樹模型生成了大量的決策樹,其中有許多樹僅存在幾個節(jié)點的不同,且空間劃分的方式高度相似。該研究結(jié)果為隨機森林剪枝方法提供了理論依據(jù)。目前已經(jīng)提出的有效剪枝技術(shù),主要分為基于優(yōu)化的搜索、貪婪搜索、基于聚類的搜索和基于排序的搜索[17]。以上基于搜索的剪枝方法需要定義指標用于該指標的最大化或最小化子集。Mohammed等人[18]的研究提出了各類度量方式來排列隨機集成剪枝器并證明了指標的穩(wěn)定性和可靠性。然而,由于集成剪枝并沒有對基決策樹的內(nèi)部結(jié)構(gòu)進行加工,該方法更多被用于黑盒模型向透明模型轉(zhuǎn)換的過渡步驟[7]。
基于規(guī)則提取的隨機森林可解釋性研究旨在通過提取從決策樹根節(jié)點到葉節(jié)點的決策路徑,生成規(guī)則集來提供模型全局解釋能力。但由于原模型提取的規(guī)則數(shù)量眾多且性能參差不齊,所以需要對規(guī)則進行額外的篩選操作。Mashayekhi等人[19]提出了一種RF+HC的規(guī)則提取方法,該方法從隨機森林中用爬坡法尋找規(guī)則集,從而減少規(guī)則的數(shù)量并提高可理解性,該方法在UCI乳腺癌數(shù)據(jù)集上進行了評估。文獻[20]為探究杰出學者對知識創(chuàng)新績效的影響,構(gòu)建三類學者群組并使用CART算法進行規(guī)則提取,發(fā)現(xiàn)潛在的決策規(guī)則。Wang等人[21]提出了一種基于堆積的前列腺癌診斷的可解釋的選擇性集合學習方法,并從樹狀集合中挖掘了診斷規(guī)則,同時考慮了準確性和可解釋性,然而該文并沒有對挖掘的規(guī)則進行優(yōu)化。學者們通過教學法、啟發(fā)式算法等多種思路在保證規(guī)則集相對于復雜模型保真度的同時也提高了可解釋性,但由于初始規(guī)則數(shù)量太多,搜索優(yōu)化規(guī)則集的結(jié)果存在不穩(wěn)定的情況。
綜上所述,規(guī)則提取方法在隨機森林的可解釋性研究中已取得一些進展,但從初始規(guī)則集到優(yōu)化規(guī)則集的搜索方法仍有進一步優(yōu)化空間。基于此,本研究將集成剪枝方法融入規(guī)則提取中,構(gòu)建基于剪枝隨機森林的規(guī)則提取模型,減小初始規(guī)則集的規(guī)模,提升輸出規(guī)則集的準確性和可解釋性。
2 模型構(gòu)建方法
本章圍繞具備黑盒模型的全局可解釋性轉(zhuǎn)換,構(gòu)建了PRFRE模型,用于解釋隨機森林模型進行預測的邏輯。該模型包含兩個階段,第一階段是隨機森林剪枝,第二階段是基于多目標優(yōu)化的規(guī)則提取。PRFRE模型的算法流程如算法1所示。該模型主要包含兩個部分,首先是隨機森林剪枝,以及基于多目標優(yōu)化的規(guī)則提取。圖1為本研究方法的整體流程,該圖清晰地顯示了PRFRE模型從輸入到輸出的流程,經(jīng)過預處理的數(shù)據(jù)輸入至隨機森林中進行訓練。首先進行隨機森林剪枝,對剪枝后的隨機森林進行基于多目標優(yōu)化算法的規(guī)則提取,包括基于單指標的規(guī)則篩選流程,最終得到優(yōu)化規(guī)則集。在接下來的內(nèi)容中,將對模型中的各個細節(jié)作詳細介紹。
算法1 基于剪枝隨機森林的規(guī)則提?。≒RFRE)模型
輸入:訓練數(shù)據(jù)D,剪枝技術(shù)F,設(shè)置相關(guān)參數(shù),即單棵決策樹的最大深度、樹的個數(shù)、初始種群的個數(shù)、初始激活元素個數(shù)、交叉概率、變異概率、進化次數(shù)。
輸出:優(yōu)化規(guī)則集Rule_opt。
1 使用訓練數(shù)據(jù)D訓練隨機森林 Tree_rf
2 Tree_prf ← prune(F, Tree_rf) //對隨機森林進行剪枝
3 Rule_inital ← Tree_prf//從剪枝隨機森林中抽取規(guī)則
4 Rule_cand ← //創(chuàng)建候選規(guī)則集
5 for each rule in Rule_inital do
6 Rule_aim ← rule pre selection(Rule_inital, D) /*選取候選規(guī)則集*/
7 Rule_cand ← Rule_cand ∪ Rule_aim
8 end for
9 Rule_opt ← MOEA-based rule selection(Rule_cand, D) /*基于多目標優(yōu)化的規(guī)則提取*/
2.1 隨機森林剪枝
隨機森林模型在訓練中生成了大量的基決策樹,這些決策樹相互獨立且性能參差不齊,一些性能較差的基決策樹會影響對隨機森林模型的解釋。隨機森林模型剪枝是通過提取部分模型中的基決策樹,達到保持或提高集成樹模型性能的同時減少模型復雜度的效果,提高下一步規(guī)則挖掘結(jié)果的表現(xiàn)?;谪澙匪惴ǖ男藜舴椒ê突谂判虻男藜舴椒ㄊ悄壳肮J的探尋最優(yōu)修剪效果的便捷方法[18]。首先是使用貪婪算法進行修剪,即指定性能指標(如AUC、ROC),以迭代形式將基決策樹置于初始為空集的優(yōu)化集合中,直至沒有基決策樹可提高優(yōu)化集合的性能,最終得到的優(yōu)化集合視為修剪后的輸出。此類方法相較于其他方法擁有較少的超參數(shù)配置和較好的修剪效果,但容易出現(xiàn)局部最優(yōu)?;谂判虻男藜舴椒ㄊ窍葘⒒鶝Q策樹按照某種規(guī)律進行排序,再根據(jù)排序結(jié)果進行啟發(fā)式修剪?;谂判虻男藜舯蛔C實具有效能和靈活性兩個優(yōu)勢,即得到的子集最接近最優(yōu)解,并且可以輕松調(diào)整排序策略來適應存儲和計算上的限制[22~24]。本研究選取四種不同的修剪方法并設(shè)計實驗評估性能,分別為DISC、MRMR、MDEP和AUC-貪婪方法。下面將對這些方法作詳細介紹。
2.1.1 判別分類器剪枝
判別分類器剪枝(discriminant classifiers pruning, DISC)由Cao等人[22]于2018年提出。該方法提出兩個假設(shè)來優(yōu)化當前的基分類器Su-1:
假設(shè)1 對于被Su-1正確分類的樣本,一個好的候選分類器應該對盡可能多的這樣的樣本作出同樣的決定。
假設(shè)2 對于被Su-1錯誤分類的樣本,一個好的候選分類器應該盡可能多地正確分類這些樣本。
第一個假設(shè)將候選分類器與合成集成聯(lián)系起來,而第二個假設(shè)表示候選分類器如何與目標相關(guān)。該方法集中于尋找最具判別性的分類器,該分類器相對于Su-1和Y。樣本被分為兩部分,{mis}表示Su-1錯誤分類的樣本集合,{cor}表示Su-1正確分類的樣本集合,合并后的分類器選擇公式如下:
su=argmaxk[I(ψmisk;Ymis)+1u-1∑ψi∈Sn-1I(ψcork;ψcori)](1)
其中:k∈Lu-1且Su=Su-1∪{Su}。第一項I(ψmisk;Ymis)是ψk根據(jù)Su-1的錯誤標記樣本從真標簽Y獲得的互信息;第二項1u-1∑ψi∈Sn-1I(ψcork;ψcori)是ψk從Su-1的所有成員獲得的與正確分類樣本相關(guān)的平均互信息。
2.1.2 最大相關(guān)性和最小冗余度剪枝
最大相關(guān)性和最小冗余剪枝(maximum relevance & minimum redundancy pruning, MRMR)同樣由Cao等人[22]于2018年提出。該算法的思路起源于用于減少特征選擇問題中冗余的流行算法mRMR。該剪枝方法涉及兩種關(guān)系:一種是候選類和組件類之間的關(guān)系,另一個是候選類和目標類之間的關(guān)系。候選類別表示要包括的第k個分類器的類別標簽輸出,而組件類別表示復合集成的類別標簽輸出。在剪枝集Dpr上估計得到的具有最高精準度的分類器被存儲在S1中,作為待擴展的初始子集。下一個待識別的第k個分類器Su會根據(jù)以下公式選擇:
su=argmaxk[I(ψk;Y)-1u-1∑ψi∈Su-1I(ψk;ψi)](2)
其中:k∈Lu-1且Su=Su-1∪{Su};I(m,n)是變量m和n的互信息;Y是目標類。被選擇的分類器是與目標類I(ψk;Y)具有最大相關(guān)性的分類器,同時具有最小冗余度的Su-1,1u-1∑ψi∈Su-1I(ψk;ψi)。
2.1.3 邊緣與多樣性剪枝
基于邊緣和多樣性的集成修剪(margin and diversity based ensemble pruning, MDEP)由Guo等人[24]于2018年提出。該方法考慮了兩個方面來更好地對分類器集進行重新排序:a)關(guān)注絕對邊緣較小的示例;b)關(guān)注對集成具有較大多樣性貢獻的分類器。MDEP對分類器進行排序的公式如下:
MDEP(ψk)=∑i[αfm(xi)+(1-α)fd(ψk,xi)]
i|ψk(xi)=yi(3)
其中:α∈[0,1]表示樣本的邊緣和集合多樣性之間的重要性平衡; fm(xi)和fd(ψk,xi)分別是xi的差額和ψk對xi多樣性貢獻的對數(shù)函數(shù),具體公式如下:
fm(xi)=logv(i)yi-v(i)iM(4)
fd(ψk,xi)=logv(1)yiM(5)
其中:yi是從xi中獲得最多票數(shù)的類別,且yi≠yi。MDEP的局限性是依賴于α的預定義值,該值控制著在關(guān)注正確預測硬樣本的分類器和關(guān)注增加集成多樣性的分類器之間的權(quán)衡。
2.1.4 AUC-貪婪剪枝
AUC貪婪方法添加提高AUC的基分類器,直到?jīng)]有任何改進為止[9]。它遵循前向選擇過程,從空的優(yōu)化剪枝集合開始,迭代插入最大化 AUC 的決策樹。
2.2 基于多目標優(yōu)化的規(guī)則提取
經(jīng)過隨機森林修剪,剩余規(guī)則數(shù)量仍相對龐大,如需進一步提升模型可解釋性,需要考慮通過進一步縮減規(guī)則集的規(guī)模。由于模型的準確性和可解釋性相互制約,本研究使用多目標優(yōu)化方法確立多個優(yōu)化目標來搜索精確性和可解釋性相平衡的規(guī)則集。在多目標優(yōu)化中,NSGA-Ⅱ已經(jīng)是公認具有優(yōu)異表現(xiàn)的算法,可用于在Patero前沿上尋找精確性和可解釋性表現(xiàn)均優(yōu)的優(yōu)化規(guī)則集[25]。由于傳統(tǒng)的NSGA-Ⅱ算法較難在規(guī)模較大的解空間尋找最優(yōu)解,本研究借鑒文獻[10]在2021年的研究對NSGA-Ⅱ進行改進,即基于單個指標形成一個候選規(guī)則集,并在候選規(guī)則集的基礎(chǔ)上進行染色體生成,最終得到Patero前沿上的優(yōu)化規(guī)則集。具體方法如下:
2.2.1 規(guī)則的染色體表達
本研究將染色體以二進制變量編碼形式來代表規(guī)則集和規(guī)則子集。在染色體的二進制表達形式中,每個元素都為二進制變量,當元素為1時,代表該染色體對應的知識中已被篩選模型選中;當元素為0時,代表該染色體對應的規(guī)則中未被篩選模型選中。
2.2.2 優(yōu)化目標選擇
根據(jù)以往研究,規(guī)則集的性能可從準確性和可解釋性兩個方向進行評估[10]。準確性代表規(guī)則集在預測時的準確程度,建立準確性優(yōu)化目標QIDE的表達公式如下:
Identification(QIDE)=1-AUCsub(6)
其中:AUCsub表示該染色體對應的規(guī)則子集的預測性能,AUCsub計算為受試者工作特征 (ROC) 曲線下的面積。
可解釋性表示為專家在認識規(guī)則和理解規(guī)則上涉及到的指標。規(guī)則集的可解釋性表現(xiàn)越強,專家就更容易對知識的判別結(jié)果產(chǎn)生信任,從而實現(xiàn)機器學習有機融入決策過程。建立可解釋性優(yōu)化目標的表達公式如下:
Interpreability(QINT)=Num_feaoptNum_feacand×Num_ruleoptNum_rulecand(7)
其中:Num_feaopt和Num_feacand分別表示優(yōu)化規(guī)則集中Ruleopt和候選規(guī)則集Rulecand中每條規(guī)則涉及到的平均特征數(shù);Num_ruleopt和Num_rulecand分別是優(yōu)化規(guī)則集和候選規(guī)則集Rulecand中的規(guī)則數(shù)量;Num_feaoptNum_feacand表示從特征數(shù)角度對優(yōu)化規(guī)則子集的評估;Num_ruleoptNum_rulecand表示從規(guī)則數(shù)量角度評估優(yōu)化規(guī)則子集。
2.2.3 基于單個指標的候選規(guī)則提取
由于初始的規(guī)則集數(shù)量龐大,很難直接提取出具備較高價值的規(guī)則集,所以需進行一次初步提取過程,得出候選規(guī)則集再進行下一步提取。本研究根據(jù)三個指標進行三次從高到低的排序,每次排序會對排名前φ的知識進行標記,其中φ為0到1之間的常數(shù),代表進行標記的比例。三次標記完成后,只有一個標記和沒有標記的知識會被去除,兩個及以上標記的規(guī)則保留作為候選規(guī)則集。
2.2.4 初始種群選擇
初始種群的選擇會影響最終優(yōu)化迭代帕累托最優(yōu)解的速率和效果。NSGA-Ⅱ選取初代種群的方法是隨機選擇,本研究在此基礎(chǔ)上基于預篩選的結(jié)果進行有指向性的隨機選擇。根據(jù)上一步,候選知識集將包含兩次標記、三次標記兩類。標記的次數(shù)越多,代表知識表現(xiàn)更全面,包含價值更高。因此,可對標記次數(shù)多的知識作優(yōu)先選擇,直至形成一條完整的染色體。若初始種群包含N條染色體,則完全隨機生成N/2條染色體,另外的染色體將基于不同類別進行有偏好的隨機選擇。
2.2.5 規(guī)則集優(yōu)化過程
本研究在候選規(guī)則集提取和初始種群選擇的基礎(chǔ)上進行規(guī)則子集的多次迭代。使用的NSGA-Ⅱ算法是經(jīng)典的多目標優(yōu)化算法,通過模仿生物的進化過程來實現(xiàn)染色體表現(xiàn)的進化,目前被廣泛應用于多類優(yōu)化問題。該算法通過非支配解排序、擁擠度計算和多次迭代進化得到帕累托最優(yōu)解,并使用交叉、變異和精英選拔在每次進化中尋求更優(yōu)秀的子代。
3 模型對比實驗
信用貸款是一種根據(jù)借款人信譽發(fā)放的貸款,不需要借款方提供實質(zhì)性或第三方擔保。信用貸款的風險在于低門檻的設(shè)置增加借款方的違約行為風險,使得貸款銀行蒙受巨大損失[26]。建立有效的信用貸款風險評估模型可以輔助決策者作出正確判斷,進而降低違約行為對正常信用貸款的影響。信用貸款風險評估以二分類問題為主,傳統(tǒng)的統(tǒng)計計量方法已不能滿足貸款銀行對高精確率的要求,而復雜的黑盒模型因缺乏可解釋性而無法受到?jīng)Q策者的信任[27]。因此,在信用貸款風險評估領(lǐng)域推廣基于機器學習的透明模型是關(guān)鍵研究方向。為驗證本研究中PRFRE模型在解釋隨機森林的有效性,本研究選取金融領(lǐng)域信用欺詐風險場景作為實證研究的場景,選用三個信用貸款風險評估領(lǐng)域被廣泛研究的公開數(shù)據(jù)集進行實驗對比研究。數(shù)據(jù)集均為二分類數(shù)據(jù)集,用于區(qū)分樣例是否存在信用風險,不存在風險的視為白樣本,存在風險的視為黑樣本。
3.1 數(shù)據(jù)集描述
本研究共采用German、Lending Club(LC)以及Prosper三個數(shù)據(jù)集,均為信用風險評估領(lǐng)域的二分類數(shù)據(jù)集,具體特征如表1所示。German德國信貸數(shù)據(jù)集來源于機器學習領(lǐng)域權(quán)威的UCI數(shù)據(jù)庫。LC數(shù)據(jù)集為美國最大的P2P在線貸款平臺Lending Club中2017年的全部借款記錄。Prosper數(shù)據(jù)集來源于美國知名在線貸款平臺Prosper的2013年至2014年的借款記錄。使用的三個數(shù)據(jù)集在信用風險評估領(lǐng)域研究中被廣泛應用,具有一定的代表性[28]。
本研究使用的數(shù)據(jù)集預處理方法包含多個步驟。首先數(shù)據(jù)標簽分為正常標簽和風險標簽,分別用0和1表示。其余相似的標簽將并入這兩類標簽之一,不相似標簽的樣本將被消除。其次,將缺失率超過40%以上的特征和包含缺失值的樣本進行刪除。最后,為保證數(shù)據(jù)類別的均衡,本研究采取欠采樣的方法進行處理。此外,本研究還對數(shù)據(jù)集進行歸一化、編碼等針對性處理,由于篇幅限制沒有作詳細說明。
本研究將數(shù)據(jù)分為訓練集、測試集和驗證集三個部分。其中訓練集和測試集采用五折交叉驗證測試方法來驗證模型,以保證隨機數(shù)據(jù)分區(qū)不影響實際評估結(jié)果;驗證集從數(shù)據(jù)集中隨機抽取且不參與交叉驗證,用于后續(xù)實驗測試規(guī)則性能。
3.2 模型評價指標與參數(shù)選取
信用風險分類可以有效地構(gòu)建為二元分類問題來預測違約概率。因此,評估結(jié)果可以分為四個不同的類別:真陽性(TP)、假陽性(FP)、真陰性(TN)和假陰性(FN)。TP 指的是實際存在風險被準確分類的情況;FP 描述的是正常交易被錯誤地標記為存在風險的情況;TN 表示正常交易被正確識別的情況;FN 反映實際默認值被錯誤標記為正常交易的情況。
本研究采用機器學習領(lǐng)域常見的評估指標來評估模型預測和解釋信用風險的有效性。根據(jù)方法部分的描述,評估解釋模型的性能時需要考慮形成規(guī)則集的準確性和可解釋性兩個方面。在準確性評估方面,選擇召回率(recall)和平衡F1分數(shù)(F1-score)指標來評估模型預測風險的能力,并采用精確率(Acc)和受試者工作特征 (ROC) 曲線下面積 (AUC) 等指標來衡量模型的整體性能。ROC曲線是通過對用于計算假陽性率(FPR)和真陽性率(TPR)的決策函數(shù)設(shè)置不同的閾值來獲得的,并且使用梯形規(guī)則計算AUC。在可解釋性評估方面,本研究將規(guī)則集的平均特征數(shù)、平均規(guī)則數(shù)量作為評估指標。精確率、召回率和F1分數(shù)指標定義如下:
precision=TPTP+FP(8)
recall=TNTP+FN(9)
F1=2×precision×recallprecision+recall(10)
經(jīng)過參數(shù)調(diào)優(yōu)測試,本研究提出模型的參數(shù)如表2所示。
3.3 實驗結(jié)果分析
3.3.1 隨機森林剪枝分析
表3展示了本研究使用四種剪枝技術(shù)的精確率對比。如表所示,每個數(shù)據(jù)集均只有一種方法達到了最佳精度。在三個數(shù)據(jù)集中,German數(shù)據(jù)集使用AUC-貪婪方法達到了最優(yōu)性能,LC數(shù)據(jù)集使用MDEP剪枝方法達到最優(yōu)性能,Prosper數(shù)據(jù)集使用DISC方法達到了最優(yōu)。為了區(qū)分出剪枝技術(shù)的性能,本研究進行Friedman檢驗的平均序值(AR-Friedman)并將結(jié)果展示在表3中的最后一行。測試結(jié)果表明,DISC 方法實現(xiàn)了最佳性能,MDEP方法其次,AUC-貪婪方法排列第三,而 MRMR 方法表現(xiàn)出最低的性能。表4展示了不同修剪方法的AUC 對比結(jié)果。同樣,每個數(shù)據(jù)集均只有一種方法達到了最佳精度。Friedman檢驗排名最好的是DISC和AUC-貪婪方法,MDEP和MRMR方法排名靠后。綜上所述,AUC-貪婪方法在小數(shù)據(jù)集上的表現(xiàn)突出,而DISC剪枝方法的綜合表現(xiàn)較強,反映出基于排序的剪枝技術(shù)簡化隨機森林解釋的能力和穩(wěn)定性。
3.3.2 規(guī)則提取分析
為對比模型整體的性能,實驗選取五種基于隨機森林的規(guī)則提取方法作為參照,與本研究提出的模型進行對比,參照模型介紹如下:
a)RF+HC:利用隨機森林(RF)形成樹模型,結(jié)合爬山算法(HC)對高可解釋性規(guī)則進行篩選,提取可解釋性強的規(guī)則子集[19]。
b)RF+DHC:RF+HC方法的變體,不僅考慮到葉節(jié)點的規(guī)則,同時考慮到中間節(jié)點的規(guī)則,并且在選擇最優(yōu)子集時確定初始規(guī)則[29]。
c)Rulefit:結(jié)合樹集成模型與線性模型形成規(guī)則,從決策樹中創(chuàng)建規(guī)則,并使用原始特征與規(guī)則進行線性擬合,可處理分類任務[30]。
d)IRFRE:從隨機森林中提取規(guī)則,并根據(jù)規(guī)則的精確度(Acc)、規(guī)則覆蓋度、規(guī)則特征數(shù)和規(guī)則數(shù)量利用改進的NSGA-Ⅱ方法尋找最優(yōu)解,得到帕累托最優(yōu)前沿[31]。
e)TSREM:將規(guī)則提取分為局部規(guī)則提取和全局規(guī)則提取兩個環(huán)節(jié),其中局部規(guī)則提取對每個規(guī)則的性能進行對比并精簡,全局規(guī)則提取考慮規(guī)則集的整體性能,以實現(xiàn)規(guī)則集的優(yōu)化[10]。
對于各類實驗的參數(shù)設(shè)置,所有集成樹模型的最大深度設(shè)置為10,生成決策樹數(shù)量為100,確保實驗的基礎(chǔ)樹模型保持一致。在RF+HC, RF+DHC, Rulefit, IRFRE, TSREM的設(shè)置上,令算法重復5次,每次2 000步,其余參數(shù)依照論文給出的最優(yōu)設(shè)置進行配置。實驗得出的結(jié)果如表5所示。
首先,從準確性上對實驗結(jié)果展開分析。實驗選取精確率、召回率、F1值和AUC作為模型在準確性上的性能評估指標,指標的含義和公式已在32節(jié)給出。根據(jù)表中的結(jié)果可得到以下結(jié)論:
a)精確率、召回率、F1值和AUC表現(xiàn)最優(yōu)的多為隨機森林模型,隨機森林模型為規(guī)則提取的源模型,證明模型的可解釋性會犧牲一定的模型準確性。
b)PRFRE模型在其他對比規(guī)則模型中的精確率、召回率、F1值和AUC均為最優(yōu)的模型,且指標表現(xiàn)接近源模型,說明PRFRE模型能夠最大程度還原源模型的準確性和預測能力。
其次,在可解釋性上對實驗結(jié)果進行分析。實驗選取模型規(guī)則特征數(shù)、規(guī)則數(shù)量作為評估模型可解釋性指標,具體含義已在文章的第2章給出。根據(jù)表5的結(jié)果可得到以下結(jié)論:
a)隨機森林模型的可解釋性指標表現(xiàn)遠低于其他模型,平均規(guī)則特征數(shù)和平均規(guī)則數(shù)量已分別達到18.79和18 41467,明顯不具備可解釋性。
b)PRFRE模型在規(guī)則特征數(shù)和規(guī)則數(shù)量上表現(xiàn)均為最優(yōu),平均規(guī)則特征數(shù)和平均規(guī)則數(shù)量分別為4.75和21.67,具有極強的可解釋性。
綜上所述,隨機森林模型雖然在準確性上具有一定優(yōu)勢,但可解釋性上的缺陷導致其無法受到?jīng)Q策者信任,模型的應用領(lǐng)域受限;而PRFRE模型在盡可能保證源模型準確性的基礎(chǔ)上極大地提升了模型可解釋性,輔助決策者理解模型和制定措施。另外,實驗模型的準確性和可解釋性具有相互制約的效果,即模型的可解釋性提升會犧牲部分模型的準確性。
3.3.3 參數(shù)設(shè)置分析
規(guī)則預篩選是通過對規(guī)則的每個指標的性能進行排名比較,去除不符合條件的規(guī)則后得到規(guī)則數(shù)量相對減少的候選規(guī)則,從而提高多目標優(yōu)化對結(jié)果的收斂性和多樣性。該實驗用
于證明φ的不同取值對于PRFRE模型輸出規(guī)則的性能影響,其中φ值為每個指標的選取閾值,φ的作用已在本文第2章進行介紹。三個數(shù)據(jù)集在不同φ值下的優(yōu)化規(guī)則集的性能如圖2~4所示。根據(jù)圖中的對比分析可得出,φ值對規(guī)則集性能存在正面影響,圖2可以清晰地顯示φ值變化對于規(guī)則集精確性的影響;另外,圖3和4的精確性部分體現(xiàn)出φ值對可解釋性上的影響更為顯著。這是因為φ值與規(guī)則數(shù)量和特征數(shù)正相關(guān),φ值的變化影響優(yōu)化問題的解空間,并間接影響通過規(guī)則提取時優(yōu)化規(guī)則集的性能。在實際應用中,專家可根據(jù)對規(guī)則性能的偏好來確定φ的取值,若需要可識別能力與可理解能力較為均衡的規(guī)則,適合將φ值調(diào)整至20%~25%;若需要可識別能力或可理解能力在單方面指標表現(xiàn)優(yōu)異的規(guī)則,則可將φ值設(shè)置為5%~10%。
3.3.4 模型輸出與決策過程
在實際場景中,模型輸出規(guī)則既可以幫助決策者理解模型的推理邏輯,也可以代替不透明模型輔助決策者進行決策。為展現(xiàn)規(guī)則提取模型輸出的結(jié)果及規(guī)則參與決策的過程,本節(jié)將展示從規(guī)則模型中提取的規(guī)則樣例,以及介紹決策者根據(jù)規(guī)則進行決策的過程。生成規(guī)則的性能和有效性可以通過前面討論的準確性和可解釋性來驗證。本研究在German、LC和Prosper數(shù)據(jù)集上隨機提取一折實驗結(jié)果并展示部分輸出規(guī)則,結(jié)果如表6~8所示,其中num_fea代表規(guī)則特征數(shù),samples為規(guī)則命中樣本數(shù),precision為規(guī)則精確率。為展示規(guī)則的性能,保留部分樣本作為驗證集對規(guī)則的性能進行評估,給出規(guī)則的特征數(shù)、命中的樣本數(shù)和精確率信息。如表所示,規(guī)則的特征數(shù)較少,可供決策者快速提取可研究的特征交叉信息;精確率均保持在70%以上,保證了規(guī)則的高價值特性。
由表6~8所示,本研究模型輸出規(guī)則將特征數(shù)控制在4個以內(nèi),以保證規(guī)則能夠被人類所理解。有存在個別規(guī)則特征數(shù)較多的規(guī)則,例如表6中的第3條規(guī)則有5個特征且只命中了8個樣本,但由于其具有極高的精確率,考慮到存在的特殊類型的貸款情況,故該規(guī)則被保留用于向決策者展示存在于貸款領(lǐng)域的小概率事件。有部分規(guī)則涉及的規(guī)則較少,命中的樣本數(shù)較多,體現(xiàn)了單個特征的高重要性或交叉特征的強交互關(guān)系。
通過觀察規(guī)則的特征出現(xiàn)頻率和邏輯條件可以總結(jié)出貸款風險的部分規(guī)律。有多條規(guī)則均涉及到與借款利率相關(guān)的特征,且進一步觀察發(fā)現(xiàn)高借款利率往往伴隨著貸款風險的增加。這是因為借款利率越高,還款的金額就越大,越容易出現(xiàn)違約風險,符合貸款風險評估的邏輯。
當新的貸款交易對象出現(xiàn)時,可以將用戶的數(shù)據(jù)特征與規(guī)則庫內(nèi)的規(guī)則特征進行條件匹配來判斷哪些規(guī)則可以參與決策,并通過投票形式對用戶風險分類進行結(jié)果輸出,后續(xù)將實際調(diào)查結(jié)果反饋給規(guī)則庫來對規(guī)則的表現(xiàn)進行更新。決策者可以根據(jù)規(guī)則表現(xiàn),靈活調(diào)整規(guī)則庫中激活的規(guī)則,特別是其在歷史使用中的表現(xiàn)。
4 結(jié)束語
隨機森林模型具有良好的靈活性、應用性以及卓越的預測性能表現(xiàn),也可從樹結(jié)構(gòu)中提取IF-THEN形式的決策規(guī)則,然而原模型提取規(guī)則的數(shù)量眾多且可解釋性差,需要對規(guī)則作進一步處理以提高可解釋性,從而加強實際場景中的應用效果。本研究提出了基于剪枝隨機森林的規(guī)則提取模型(PRFRE),首先對訓練好的隨機森林模型進行集成剪枝,減少基決策樹數(shù)量以提高提取規(guī)則的效果,再使用基于多目標優(yōu)化的規(guī)則提取方法,從候選規(guī)則集中搜索具有高準確性和高可解釋性的優(yōu)化規(guī)則集。本研究使用信用風險評估領(lǐng)域具有代表性的三個數(shù)據(jù)集進行實驗。首先對比了四個剪枝技術(shù)的效果,結(jié)果證明DISC剪枝方法和AUC-貪婪方法在對隨機森林剪枝任務上表現(xiàn)優(yōu)秀。為證明PRFRE模型的有效性,本研究選取四個規(guī)則提取模型進行對照實驗,結(jié)果表明PRFRE模型輸出規(guī)則在不降低準確性的基礎(chǔ)上,大幅提升了可解釋性。模型對比實驗證明了PRFRE模型在提取準確性和可解釋性均衡的優(yōu)化規(guī)則集上的先進性。
隨著可解釋技術(shù)(XAI)發(fā)展,面向黑盒模型的規(guī)則提取研究使隨機森林模型的可解釋性優(yōu)化成為可能,而現(xiàn)有針對隨機森林模型的規(guī)則提取研究無法兼顧精確性與可解釋性。本研究通過融合集成剪枝與多目標優(yōu)化算法,解決了隨機森林模型可解釋性不強的問題。該方法適用于解決如金融欺詐檢測、醫(yī)療診斷等領(lǐng)域中對模型的準確性和可解釋性同時存在要求的二分類問題,對促進人機交互的發(fā)展具有重要意義。
本研究提出的PRFRE模型在訓練效率和樹集成模型選擇上具有一定局限性,包括目前模型只適用于二分類數(shù)據(jù)集,應用領(lǐng)域局限于欺詐檢測領(lǐng)域,且只可對基于隨機生成的集成樹模型進行規(guī)則提取。未來可以在以下兩個方面進行下一步研究:一是將基于多目標優(yōu)化算法的規(guī)則提取推廣至其他基于順序依賴的樹集成模型中,如XGBoost算法;二是探究增量規(guī)則提取的方式,以提高規(guī)則提取在連續(xù)場景中的使用效果。
參考文獻:
[1]劉艷紅. 人工智能的可解釋性與AI的法律責任問題研究 [J]. 法制與社會發(fā)展, 2022, 28(1): 78-91. (Liu Yanhong. On the explainability and legal liability of artificial intelligence [J]. Law and Social Development, 2022, 28(1): 78-91.)
[2]Saeed W, Omlin C. Explainable AI (XAI): a systematic meta-survey of current challenges and future opportunities [J]. Knowledge-Based Systems, 2023, 263: 110273.
[3]孔祥維, 唐鑫澤, 王子明. 人工智能決策可解釋性的研究綜述 [J]. 系統(tǒng)工程理論與實踐, 2021, 41(2): 524-536. (Kong Xiangwei, Tang Xinze, Wang Ziming. A survey of explainable artificial intelligence decision [J]. Systems Engineering-Theory & Practice, 2021, 41(2): 524-536.)
[4]Czajkowski M, Jurczuk K, Kretowski M. Steering the interpretability of decision trees using lasso regression-an evolutionary perspective [J]. Information Sciences, 2023, 638: 118944.
[5]Ribeiro M T, Singh S, Guestrin C. “Why should I trust you?”: explaining the predictions of any classifier [C]// Proc of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM Press, 2016: 1135-1144.
[6]唐蕾, 牛園園, 王瑞杰, 等. 強化學習的可解釋方法分類研究 [J]. 計算機應用研究, 2024, 41(6):1601-1609. (Tang Lei, Niu Yuanyuan, Wang Ruijie,et al. Classification study of interpretable methods for reinforcement learning [J]. Application Research of Computers, 2024, 41(6):1601-1609.)
[7]Khalifa F A, Abdelkader H M, Elsaid A H. An analysis of ensemble pruning methods under the explanation of random forest [J]. Information Systems, 2024, 120: 102310.
[8]Aria M, Cuccurullo C, Gnasso A. A comparison among interpretative proposals for random forests [J]. Machine Learning with Applications, 2021, 6: 100094.
[9]Sagi O, Rokach L. Approximating XGBoost with an interpretable decision tree [J]. Information Sciences, 2021, 572: 522-542.
[10]Dong Lu’an, Ye Xin, Yang Guangfei. Two-stage rule extraction method based on tree ensemble model for interpretable loan evaluation [J]. Information Sciences, 2021, 573: 46-64.
[11]Boruah A N, Biswas S K, Bandyopadhyay S. Rule extraction from decision tree: transparent expert system of rules [J]. Concurrency and Computation: Practice and Experience, 2022, 34(15): e6935.
[12]Ghafari S M, Tjortjis C. A survey on association rules mining using heuristics [J]. WIREs Data Mining and Knowledge Discovery, 2019, 9(4):e1307.
[13]Li Bo, Qi Peng, Liu Bo,et al. Trustworthy AI: from principles to practices [J]. ACM Computing Surveys, 2023, 55(9): 1-46.
[14]左明月. 基于集成學習和SHAP優(yōu)化的個人信貸違約可解釋預測模型 [D]. 濟南:山東大學, 2023. (Zuo Mingyue. Interpretable prediction model of personal credit default based on ensemble learning and SHAP optimization [D]. Jinan:Shandong University, 2023.)
[15]馬亞雪, 王嘉杰, 巴志超, 等. 顛覆性技術(shù)的后向科學引文知識特征識別研究——以基因工程領(lǐng)域為例 [J]. 圖書情報工作, 2024, 68(1): 116-126. (Ma Yaxue, Wang Jiajie, Ba Zhichao,et al. Research on the knowledge feature identification of disruptive technologies from its backward scientific citations: taking the field of genetic engineering as an example [J]. Library and Information Service, 2024, 68(1): 116-126.)
[16]Chipman H A, George E I, McCulloch R E. Making sense of a forest of trees [J]. Computing Science and Statistics, 1998: 84-92.
[17]Mohammed A M, Onieva E, Woz'niak M. Selective ensemble of classifiers trained on selective samples [J]. Neurocomputing, 2022, 482: 197-211.
[18]Mohammed A M, Onieva E, Woz'niak M,et al. An analysis of heuristic metrics for classifier ensemble pruning based on ordered aggregation [J]. Pattern Recognition, 2022, 124: 108493.
[19]Mashayekhi M, Gras R. Rule extraction from random forest: the RF+HC methods [C]// Proc of the 28th Canadian Conference on Artificial Intelligence. Cham: Springer, 2015: 223-237.
[20]李海林, 廖楊月, 李軍偉, 等. 高校杰出學者知識創(chuàng)新績效的影響因素研究 [J]. 科研管理, 2022, 43(3): 63-71. (Li Hailin, Liao Yangyue, Li Junwei,et al. A study of the influence factors of knowledge innovation performance of distinguished scholars in colleges and universities [J]. Science Research Management, 2022, 43(3): 63-71.)
[21]Wang Yuyan, Wang Dujuan, Geng Na,et al. Stacking-based ensemble learning of decision trees for interpretable prostate cancer detection [J]. Applied Soft Computing, 2019, 77: 188-204.
[22]Cao Jingjing, Li Wenfeng, Ma Congcong,et al. Optimizing multi-sensor deployment via ensemble pruning for wearable activity recognition [J]. Information Fusion, 2018, 41: 68-79.
[23]Martínez-Muoz G, Hernández-Lobato D, Suárez A. An analysis of ensemble pruning techniques based on ordered aggregation [J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2009, 31(2): 245-259.
[24]Guo Huaping, Liu Hongbing, Li Ran,et al. Margin & diversity based ordering ensemble pruning [J]. Neurocomputing, 2018, 275: 237-246.
[25]Deb K, Pratap A, Agarwal S,et al. A fast and elitist multiobjective genetic algorithm: NSGA-Ⅱ [J]. IEEE Trans on Evolutionary Computation, 2002, 6(2): 182-197.
[26]遲國泰, 王珊珊. 基于XGBoost的中國上市公司違約風險預測模型 [J]. 系統(tǒng)管理學報, 2024,33(3):735-754. (Chi Guotai, Wang Shanshan. Default risk prediction model for Chinese listed companies based on XGBoost [J]. Journal of Systems & Management, 2024,33(3):735-754.)
[27]賈穎, 趙峰, 李博, 等. 貝葉斯優(yōu)化的XGBoost信用風險評估模型 [J]. 計算機工程與應用, 2023, 59(20): 283-294. (Jia Ying, Zhao Feng, Li Bo,et al. XGBoost optimized by Bayesian optimization for credit scoring [J]. Computer Engineering and Applications, 2023, 59(20): 283-294.)
[28]Hilal W, Gadsden S A, Yawney J. Financial fraud: a review of anomaly detection techniques and recent advances [J]. Expert Systems with Applications, 2022, 193: 116429.
[29]Mashayekhi M, Gras R. Rule extraction from decision trees ensembles: new algorithms based on heuristic search and sparse group Lasso methods [J]. International Journal of Information Technology & Decision Making, 2017, 16(06): 1707-1727.
[30]Friedman J H, Popescu B E. Predictive learning via rule ensembles [J]. The Annals of Applied Statistics, 2008, 2(3): 916-954.
[31]Wang Sutong, Wang Yuyan, Wang Dujuan,et al. An improved random forest-based rule extraction method for breast cancer diagnosis [J]. Applied Soft Computing, 2020, 86: 105941.