• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于集成學(xué)習(xí)的用戶信用卡違約預(yù)測(cè)模型研究

      2022-07-04 12:29:14芄,王
      關(guān)鍵詞:信用卡神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)

      周 芄,王 勇

      基于集成學(xué)習(xí)的用戶信用卡違約預(yù)測(cè)模型研究

      *周芄,王勇

      (安徽工程大學(xué)計(jì)算機(jī)與信息學(xué)院,安徽,蕪湖 241000)

      用戶信用卡違約預(yù)測(cè)任務(wù)有助于銀行等金融機(jī)構(gòu)平衡經(jīng)濟(jì)風(fēng)險(xiǎn)與經(jīng)濟(jì)利益,對(duì)于銀行信用卡業(yè)務(wù)的風(fēng)險(xiǎn)管控具有重要作用。針對(duì)用戶信用卡違約預(yù)測(cè)問(wèn)題,提出了一種基于集成學(xué)習(xí)的預(yù)測(cè)模型,有異于傳統(tǒng)集成學(xué)習(xí)中的弱學(xué)習(xí)器。該模型采用集成模型和神經(jīng)網(wǎng)絡(luò)模型作為基學(xué)習(xí)器,從而提升模型整體的預(yù)測(cè)效果。首先通過(guò)預(yù)處理提取用戶信用卡數(shù)據(jù)集的相關(guān)特征,然后分別采用優(yōu)化后的決策樹、隨機(jī)森林、GBDT、XGBoost、CatBoost和SPE六種機(jī)器學(xué)習(xí)模型與神經(jīng)網(wǎng)絡(luò)模型進(jìn)行并行訓(xùn)練和預(yù)測(cè),最后通過(guò)加權(quán)軟投票法集成基學(xué)習(xí)器結(jié)果并輸出最終預(yù)測(cè)結(jié)果。結(jié)果表明,相對(duì)于基學(xué)習(xí)器,該模型在各項(xiàng)評(píng)估指標(biāo)上均有所提升,且擁有更好的模型泛化能力。

      違約預(yù)測(cè);集成學(xué)習(xí);機(jī)器學(xué)習(xí);神經(jīng)網(wǎng)絡(luò)

      信用卡因其方便、利息低等特點(diǎn)已經(jīng)被普及到人們的日常生活中。隨著信用卡用戶數(shù)量的增加,信用卡的風(fēng)險(xiǎn)管控對(duì)于銀行等金融機(jī)構(gòu)來(lái)說(shuō)成為了一項(xiàng)具有挑戰(zhàn)性的任務(wù),銀行等金融機(jī)構(gòu)需要權(quán)衡信用卡業(yè)務(wù)所帶來(lái)的利益與風(fēng)險(xiǎn),而用戶的信用卡違約、消費(fèi)、還款等預(yù)測(cè)任務(wù)已然成為監(jiān)控信用卡風(fēng)險(xiǎn)的有效途徑之一。

      用戶信用卡違約預(yù)測(cè)任務(wù)包含信用卡消費(fèi)預(yù)測(cè)、信用卡還款預(yù)測(cè)等任務(wù)。本質(zhì)上來(lái)說(shuō),用戶信用卡違約預(yù)測(cè)屬于分類任務(wù)。用戶信用卡歷史相關(guān)的各項(xiàng)數(shù)據(jù)作為數(shù)據(jù)集特征,例如在不同月份的消費(fèi)金額、還款金額等,經(jīng)過(guò)監(jiān)督學(xué)習(xí)或無(wú)監(jiān)督學(xué)習(xí)的方式預(yù)測(cè)在未來(lái)一段時(shí)期內(nèi)用戶是否會(huì)發(fā)生違約行為。目前,針對(duì)用戶信用卡違約預(yù)測(cè)的方法可大體分為三類:基于規(guī)則的方法、基于機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法[1]。

      基于規(guī)則的違約預(yù)測(cè)方法基本思想是通過(guò)人工預(yù)先定義相關(guān)規(guī)則,進(jìn)而直接對(duì)數(shù)據(jù)進(jìn)行分類預(yù)測(cè),其優(yōu)勢(shì)在于其簡(jiǎn)潔性和較強(qiáng)的解釋性。然而此類方法存在如下缺陷:一是需要大量專家領(lǐng)域知識(shí),人力資源成本消耗高,且極度依賴領(lǐng)域知識(shí)的正確性,主觀性強(qiáng)。二是泛化能力弱,由于規(guī)則都是針對(duì)特定領(lǐng)域的,不同領(lǐng)域之間的規(guī)則一般無(wú)法相互適用。

      基于機(jī)器學(xué)習(xí)的違約預(yù)測(cè)基本思想是利用統(tǒng)計(jì)學(xué)習(xí)方法學(xué)習(xí)不同模型的相關(guān)參數(shù),進(jìn)而提升模型的預(yù)測(cè)效果和泛化能力。此類方法克服了規(guī)則方法對(duì)人工的強(qiáng)依賴性缺陷,同時(shí)具有更強(qiáng)的泛化能力,因此近些年來(lái)廣泛受到國(guó)內(nèi)外研究學(xué)者的關(guān)注。Florentin Butare[2]等人基于對(duì)數(shù)機(jī)率回歸(Logistic Regression)、決策樹(Decision Tree)和隨機(jī)森林(Random Forest)對(duì)不同銀行的用戶信用卡數(shù)據(jù)進(jìn)行預(yù)測(cè),得出了不同的機(jī)器學(xué)習(xí)模型適用于不同銀行的信用卡違約預(yù)測(cè)任務(wù)的結(jié)論。Jianping Cai[3]等人提出了一種基于差分隱私的加權(quán)SVM算法用于預(yù)測(cè)信用卡的還款和違約情況,同時(shí)該算法能夠充分保護(hù)用戶的隱私。國(guó)內(nèi)方面,章寧[4]等人提出基于TF-IDF的機(jī)器學(xué)習(xí)模型,包含Logistic回歸、SVM等,并將這些模型應(yīng)用于P2P貸款預(yù)測(cè)任務(wù),在真實(shí)的貸款數(shù)據(jù)集上取得了80%以上的AUC評(píng)價(jià)分?jǐn)?shù)。馬曉君[5]等人提出了基于CatBoost的貸款違約預(yù)測(cè)模型,在真實(shí)銀行相關(guān)借款數(shù)據(jù)集上取得了96%的準(zhǔn)確率。

      隨著計(jì)算機(jī)硬件性能的提升,基于深度學(xué)習(xí)模型的違約預(yù)測(cè)方法逐漸受到研究學(xué)者的關(guān)注。Ying Chen[6]等人提出了基于k-means與BP神經(jīng)網(wǎng)絡(luò)集成算法的違約預(yù)測(cè)模型,該模型首先利用k-means算法改變數(shù)據(jù)分布,然后利用隨機(jī)森林計(jì)算數(shù)據(jù)特征的,利用BP神經(jīng)網(wǎng)絡(luò)進(jìn)行模型訓(xùn)練和預(yù)測(cè)。筆者等人將該模型與KNN等五種常見(jiàn)的機(jī)器學(xué)習(xí)模型進(jìn)行對(duì)比,取得了較高的AUC評(píng)價(jià)分?jǐn)?shù)。楊磊[7]等人提出了基于Transformer編碼器的違約預(yù)測(cè)模型,在有標(biāo)簽的小規(guī)模數(shù)據(jù)集上,該模型通過(guò)Transformer編碼器能夠較好地緩解訓(xùn)練樣本類別不均衡的影響。

      集成學(xué)習(xí)(Ensemble Learning)的思想被廣泛用于用戶信用卡違約預(yù)測(cè)中[8],研究學(xué)者關(guān)注使用多種機(jī)器學(xué)習(xí)算法或深度學(xué)習(xí)算法作為基學(xué)習(xí)器,集成基學(xué)習(xí)器的預(yù)測(cè)結(jié)果或者將集成結(jié)果作為輔助特征用于新的學(xué)習(xí)器進(jìn)行訓(xùn)練。多數(shù)研究使用的基學(xué)習(xí)器學(xué)習(xí)能力較弱,通過(guò)集成學(xué)習(xí)思想聚合基學(xué)習(xí)器性能以提升模型整體學(xué)習(xí)能力。本研究關(guān)注將機(jī)器學(xué)習(xí)模型、集成模型和神經(jīng)網(wǎng)絡(luò)模型作為基學(xué)習(xí)器,通過(guò)結(jié)合策略生成一種學(xué)習(xí)能力更強(qiáng)的集成模型(Ensemble model)。通過(guò)強(qiáng)化基學(xué)習(xí)器的學(xué)習(xí)能力以達(dá)到提升模型整體學(xué)習(xí)能力的目的。具體來(lái)說(shuō),首先對(duì)用戶信用卡數(shù)據(jù)集進(jìn)行預(yù)處理以提取模型需要并能夠計(jì)算的特征。然后構(gòu)建基學(xué)習(xí)器,包含決策樹、集成學(xué)習(xí)模型(隨機(jī)森林、GBDT、XGBoost、CatBoost、SPE)和深度學(xué)習(xí)模型(BP神經(jīng)網(wǎng)絡(luò))七種模型,通過(guò)加權(quán)軟投票融合策略集成各基學(xué)習(xí)器的學(xué)習(xí)結(jié)果作為模型的最終預(yù)測(cè)結(jié)果。

      本研究的創(chuàng)新點(diǎn)在于提出的強(qiáng)化了集成模型中的基學(xué)習(xí)器,采用包含集成學(xué)習(xí)模型和神經(jīng)網(wǎng)絡(luò)模型等學(xué)習(xí)能力較強(qiáng)的模型作為基學(xué)習(xí)器。此外,將基學(xué)習(xí)器中的決策樹和集成學(xué)習(xí)模型所學(xué)習(xí)到的樣本特征權(quán)重傳入神經(jīng)網(wǎng)絡(luò),進(jìn)一步強(qiáng)化基學(xué)習(xí)器的學(xué)習(xí)能力。

      1 基于集成學(xué)習(xí)的用戶信用卡違約預(yù)測(cè)模型

      基于集成學(xué)習(xí)的違約預(yù)測(cè)模型主要分為三個(gè)步驟:第一步是對(duì)訓(xùn)練數(shù)據(jù)和預(yù)測(cè)數(shù)據(jù)進(jìn)行預(yù)處理,將數(shù)據(jù)轉(zhuǎn)化為模型可接受、可計(jì)算的形式。第二步構(gòu)建集成學(xué)習(xí)模型。本文參考文獻(xiàn)[9],統(tǒng)一規(guī)范命名各模型的縮寫,即DTC(決策樹,Decision Tree)、RF(隨機(jī)森林,Random Forest)、GBDT(Gradient Boosting Decision Tree)、XGBoost(eXtreme Gradient Boosting)、CatBoost、SPE(Self Paced Ensemble)、BP(Back Propagation neural network)。第三步是模型訓(xùn)練與預(yù)測(cè)。通過(guò)訓(xùn)練優(yōu)化模型參數(shù),再對(duì)預(yù)測(cè)數(shù)據(jù)集進(jìn)行預(yù)測(cè),得出模型的輸出結(jié)果。圖1展示了本文提出的模型的概要圖。

      圖1 基于集成學(xué)習(xí)的用戶信用卡違約預(yù)測(cè)模型

      1.1 數(shù)據(jù)預(yù)處理

      數(shù)據(jù)預(yù)處理的目的主要是剔除原始數(shù)據(jù)集(包含訓(xùn)練集和測(cè)試集)中的缺失值、異常值,篩選出與學(xué)習(xí)任務(wù)相關(guān)的特征,并將其轉(zhuǎn)換為模型能夠接收和計(jì)算的輸入形式。具體來(lái)說(shuō),我們的數(shù)據(jù)預(yù)處理主要包含以下步驟:

      ● 剔除數(shù)據(jù)集中缺失值比例達(dá)到60%的數(shù)據(jù)。采用均值、方差填充法處理數(shù)據(jù)集中剩余的缺失值。

      ● 采用one-hot編碼將離散特征連續(xù)化,以便模型能夠計(jì)算離散特征。

      ● 采用z-score標(biāo)準(zhǔn)化將數(shù)據(jù)壓縮至同一維度以減少數(shù)據(jù)量綱差異帶來(lái)的影響。

      1.2 集成學(xué)習(xí)模型

      集成學(xué)習(xí)是指通過(guò)構(gòu)建并結(jié)合多個(gè)學(xué)習(xí)器來(lái)完成學(xué)習(xí)任務(wù)[10]。其中,每個(gè)學(xué)習(xí)器被稱為基學(xué)習(xí)器。通常情況下,集成學(xué)習(xí)模型的性能顯著優(yōu)于單一基學(xué)習(xí)器?,F(xiàn)有研究也有將集成學(xué)習(xí)所學(xué)習(xí)的知識(shí)(例如數(shù)據(jù)特征、特征權(quán)重)輔助用于新的學(xué)習(xí)器中[11]。集成學(xué)習(xí)模型的構(gòu)建主要圍繞兩個(gè)方面,即基學(xué)習(xí)器和結(jié)合策略。

      本文選取的基學(xué)習(xí)器包含DTC、RF、GBDT、XGBoost、CatBoost、SPE和BP。其中DTC屬于基本機(jī)器學(xué)習(xí)算法,在集成學(xué)習(xí)領(lǐng)域中,也稱為弱學(xué)習(xí)器;RF、GBDT、XGBoost、CatBoost和SPE屬于集成學(xué)習(xí)模型,其基學(xué)習(xí)器主要為DTC;BP屬于深度學(xué)習(xí)模型。各模型的數(shù)學(xué)原理可參考文獻(xiàn)[12-14]。本文對(duì)上訴基學(xué)習(xí)器的損失函數(shù)作簡(jiǎn)單介紹:

      1)DTC

      2)RF

      RF針對(duì)回歸和分類任務(wù)提出了不同的損失函數(shù)。本文只介紹具體涉及的RF分類任務(wù)的損失函數(shù):

      3)GBDT

      針對(duì)二分類問(wèn)題,GBDT可采用對(duì)數(shù)損失函數(shù)和指數(shù)損失函數(shù)。類似RF損失函數(shù),本文只介紹GBDT二分類的對(duì)數(shù)損失函數(shù):

      4)XGBoost

      針對(duì)二分類問(wèn)題,XGBoost可采用概率損失函數(shù)(binary: logistic)和類別損失函數(shù)(binary: logitraw)。類似RF損失函數(shù),本文只介紹XGBoost二分類的概率損失函數(shù):

      5)CatBoost

      針對(duì)二分類問(wèn)題,CatBoost可采用Logloss 、CrossEntropy、MAE等函數(shù)作為損失函數(shù)。本文介紹CatBoost二分類的Logloss損失函數(shù),其計(jì)算方式同式(3)。

      6)SPE

      針對(duì)二分類問(wèn)題,SPE存在三種常用損失函數(shù),即Absoulte Error、Squared Error和Cross-Entropy。

      本文介紹SPE二分類的Cross-Entropy損失函數(shù),計(jì)算方式如下:

      7)BP

      1.3 結(jié)合策略

      集成學(xué)習(xí)模型的結(jié)合策略是指集成模型融合各基學(xué)習(xí)器預(yù)測(cè)結(jié)果的方式。在分類任務(wù)中,集成學(xué)習(xí)常用的結(jié)合策略是投票法。

      投票法依據(jù)基學(xué)習(xí)器的學(xué)習(xí)結(jié)果分為硬投票和軟投票。硬投票是指在集成基學(xué)習(xí)器學(xué)習(xí)結(jié)果時(shí),基學(xué)習(xí)器的學(xué)習(xí)結(jié)果是具體的類別標(biāo)簽。軟投票是指在集成基學(xué)習(xí)器學(xué)習(xí)結(jié)果時(shí),基學(xué)習(xí)器的學(xué)習(xí)結(jié)果是所有類別標(biāo)簽的預(yù)測(cè)概率。軟投票、硬投票也可分別分為多數(shù)投票法和加權(quán)投票法。我們的結(jié)合策略采用軟投票結(jié)合加權(quán)投票法。

      2 實(shí)驗(yàn)

      2.1 實(shí)驗(yàn)數(shù)據(jù)及環(huán)境

      本文所使用的實(shí)驗(yàn)數(shù)據(jù)為UCI數(shù)據(jù)庫(kù)中的數(shù)據(jù)集“default of credit card clients”。本簡(jiǎn)稱為DCCC數(shù)據(jù)集。該數(shù)據(jù)集描述了臺(tái)灣用戶信用卡的違約情況,共有30000例樣本,23個(gè)數(shù)據(jù)特征(包含標(biāo)簽),數(shù)據(jù)特征的類型統(tǒng)一為浮點(diǎn)型。表1展示了部分?jǐn)?shù)據(jù),其中特征“default payment next month”為類別預(yù)測(cè)標(biāo)簽,取值集合為{1,0},0代表不違約,1代表違約。

      本文的編程語(yǔ)言為Python3,操作系統(tǒng)為macOS,深度學(xué)習(xí)框架為paddlepaddle。

      2.2 評(píng)價(jià)指標(biāo)

      二分類預(yù)測(cè)任務(wù)中常用的評(píng)價(jià)指標(biāo)包含精準(zhǔn)率(Precision)、召回率(Recall)、F1分?jǐn)?shù)(F1-Score)和準(zhǔn)確率(Accuracy)[17]。

      表2展示了各個(gè)評(píng)價(jià)指標(biāo)的計(jì)算方法,其中TP、TN、FP、FN分別指分類結(jié)果混淆矩陣中的真正例、真反例、假正例,假反例。

      表1 部分DCCC數(shù)據(jù)

      Table 1 Partial DCCC data

      LIMIT_BALEDUCATIONMARRIAGEAGEPAY_0…default payment next month 02000021242…1 11200002226-1…1 29000022340…0 35000021370…0 4500002157-1…0

      表2 二分類評(píng)價(jià)指標(biāo)計(jì)算方法

      Table 2 The calculation methods of binary classification evaluation indexes

      評(píng)價(jià)指標(biāo)計(jì)算方法 Precision Recall F1-Score Accuracy

      2.3 對(duì)比模型

      本文的對(duì)比模型為集成模型的7個(gè)基學(xué)習(xí)器。在構(gòu)建基學(xué)習(xí)器的時(shí)候,通過(guò)網(wǎng)格搜索方法(Grid Search)確定各個(gè)基學(xué)習(xí)器中的重要參數(shù),并通過(guò)交叉驗(yàn)證(cross validation)的方式訓(xùn)練數(shù)據(jù),以提升各基學(xué)習(xí)器的性能和泛化能力此外,BP神經(jīng)網(wǎng)絡(luò)模型不參與網(wǎng)格搜索,因?yàn)樵撃P筒捎秒S機(jī)梯度下降方法自適應(yīng)更新參數(shù),我們通過(guò)不斷增加全鏈接隱層數(shù)目從而尋找最優(yōu)網(wǎng)絡(luò)結(jié)構(gòu)的方式達(dá)到優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的目的。

      為了驗(yàn)證網(wǎng)格搜索和交叉驗(yàn)證優(yōu)化的有效性,分別采用初始7個(gè)基學(xué)習(xí)器和優(yōu)化后的7個(gè)基學(xué)習(xí)器對(duì)DCCC數(shù)據(jù)進(jìn)行訓(xùn)練和預(yù)測(cè),并記錄F1分?jǐn)?shù)。圖2展示了預(yù)測(cè)結(jié)果。從中可以看出,網(wǎng)格搜索和交叉驗(yàn)證對(duì)于各基學(xué)習(xí)器能夠帶來(lái)一定的性能提升,其中以DTC的性能提升最為明顯。

      2.4 實(shí)驗(yàn)結(jié)果

      表3展示了本文提出的集成模型與各基學(xué)習(xí)器在DCCC數(shù)據(jù)集上,進(jìn)行10次違約預(yù)測(cè)任務(wù)的Precision、Recall、F1-Score和Accuracy評(píng)價(jià)指標(biāo)平均得分,其中Ensemble是集成模型。多次實(shí)驗(yàn)的目的是緩解基學(xué)習(xí)器在訓(xùn)練過(guò)程中隨機(jī)性的影響。

      圖 2 基學(xué)習(xí)器優(yōu)化前后的F1得分

      表3 各模型Precision、Recall、F1-Score、Accuracy指標(biāo)得分

      Table 3 Precision, Recall, F1-score and Accuracy scores of each model

      模型名稱PrecisionRecallF1ScoreAccuracy DTC0.556 0.507 0.531 0.803 RF0.434 0.649 0.520 0.737 GBDT0.678 0.374 0.482 0.824 XGBoost0.591 0.469 0.523 0.812 CatBoost0.692 0.364 0.477 0.825 SPE0.407 0.647 0.500 0.716 BP0.656 0.402 0.499 0.823 Ensemble0.676 0.536 0.598 0.843

      2.5 實(shí)驗(yàn)結(jié)果分析

      從表3中可以看出,集成模型雖然在精確率和召回率上的表現(xiàn)不如其某個(gè)基學(xué)習(xí)器,但在F1分?jǐn)?shù)上能取得更好的性能。針對(duì)實(shí)際場(chǎng)景中用戶信用卡的違約預(yù)測(cè),F(xiàn)1分?jǐn)?shù)更能體現(xiàn)一個(gè)模型的預(yù)測(cè)效果,更高的F1值意味著模型能夠更精確的預(yù)測(cè)用戶是否發(fā)生違約,同時(shí)模型有著更低的錯(cuò)誤率。此外,相較于基學(xué)習(xí)器,集成模型取得了更高的準(zhǔn)確率,直觀上來(lái)說(shuō),這意味著集成模型能夠正確預(yù)測(cè)樣本類別的概率更大。

      更為重要的是,基學(xué)習(xí)器由于隨機(jī)性等不確定因素,在面對(duì)不同質(zhì)量數(shù)據(jù)集時(shí)會(huì)有不同的模型性能。我們通過(guò)重新隨機(jī)分配訓(xùn)練集和驗(yàn)證集,從而獲得不同的數(shù)據(jù)集并對(duì)各個(gè)模型進(jìn)行評(píng)估。圖3展示了實(shí)驗(yàn)結(jié)果,X軸表示不同的訓(xùn)練集和測(cè)試集。從圖3中可以看出,集成模型的F1值不僅優(yōu)于各基學(xué)習(xí)器,同時(shí)還更加穩(wěn)定。這意味著,針對(duì)用戶信用卡違約預(yù)測(cè)任務(wù),集成模型不僅能夠取得更好的預(yù)測(cè)效果,而且在面對(duì)訓(xùn)練數(shù)據(jù)波動(dòng)時(shí),集成模型的性能受影響較小。相比于基學(xué)習(xí)器F1值的波動(dòng),集成模型較為穩(wěn)定的F1值也能反映模型具有更強(qiáng)的泛化能力。

      圖 3 基學(xué)習(xí)器和集成模型在不同數(shù)據(jù)集上的F1得分

      3 不足之處和未來(lái)展望

      3.1 不足之處

      基學(xué)習(xí)器在訓(xùn)練過(guò)程中具有一定隨機(jī)性,在不同的數(shù)據(jù)上或相同的數(shù)據(jù)上的性能不一致。我們通過(guò)多次實(shí)驗(yàn)取得模型性能的平均值來(lái)緩解模型隨機(jī)性的影響,并通過(guò)并行計(jì)算的方式來(lái)減小模型多次訓(xùn)練的時(shí)間開銷。此外,無(wú)論是基學(xué)習(xí)器還是深度學(xué)習(xí)模型,模型的解釋性較弱。本文采用基于決策樹的基學(xué)習(xí)器和BP神經(jīng)網(wǎng)絡(luò),其優(yōu)勢(shì)在于決策樹在進(jìn)行訓(xùn)練時(shí),能夠計(jì)算數(shù)據(jù)特征重要程度,進(jìn)而加強(qiáng)模型的可解釋性。

      3.2 未來(lái)展望

      用戶信用卡違約預(yù)測(cè)是信用卡預(yù)測(cè)的子任務(wù)之一,信用卡預(yù)測(cè)還包含于消費(fèi)預(yù)測(cè)、還款預(yù)測(cè)等任務(wù)。本文將在后續(xù)的研究中探索信用卡預(yù)測(cè)多任務(wù)學(xué)習(xí),通過(guò)聯(lián)合模型針對(duì)各項(xiàng)子任務(wù)提出一個(gè)綜合模型,嘗試解決信用卡預(yù)測(cè)多任務(wù)學(xué)習(xí)中的多任務(wù)度量和結(jié)合問(wèn)題。

      4 結(jié)論

      用戶信用卡違約預(yù)測(cè)任務(wù)是銀行監(jiān)控信用卡風(fēng)險(xiǎn)的有效途徑之一。本文提出了一種基于集成學(xué)習(xí)的用戶信用卡違約預(yù)測(cè)模型,該模型采用集成模型和神經(jīng)網(wǎng)絡(luò)作為基學(xué)習(xí)器,從而達(dá)到強(qiáng)化模型整體性能的目的。通過(guò)在真實(shí)用戶信用卡數(shù)據(jù)集上進(jìn)行違約預(yù)測(cè),相較于基學(xué)習(xí)器,該集成模型能夠取得較高的F1值和準(zhǔn)確率,且具有更強(qiáng)的穩(wěn)定性和泛化能力。此外,我們分析了模型的威脅因素,即模型的隨機(jī)性和可解釋性。

      [1] 林國(guó)強(qiáng),趙毅鳴,況青作,等. 基于復(fù)雜網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)的P2P用戶違約預(yù)測(cè)[J]. 北京師范大學(xué)學(xué)報(bào):自然科學(xué)版,2017,53(1): 24-27,2.

      [2] Butaru F, Chen Q, Clark B, et al. Risk and risk management in the credit card industry [J]. Journal of Banking & Finance, 2016,72:218-239.

      [3] Cai J, Liu X, Wu Y. SVM Learning for default prediction of credit card under differential Privacy [C]. PPML, 2020: 51-53.

      [4] 章寧,陳欽.基于TF-IDF算法的P2P貸款違約預(yù)測(cè)模型[J].計(jì)算機(jī)應(yīng)用, 2018, 38(10): 3042-3047.

      [5] 馬曉君,宋嫣琦,常百舒,等. 基于CatBoost算法的P2P違約預(yù)測(cè)模型應(yīng)用研究[J].統(tǒng)計(jì)與信息論壇, 2020, 35(7): 9-17.

      [6] Chen Y, Zhang R. Research on credit card default prediction based on k-Means SMOTE and BP neural network [J]. Complex, 6618841:1-13.

      [7] 楊磊,姚汝婧.基于Transformer的信用卡違約預(yù)測(cè)模型研究[J].計(jì)算機(jī)仿真, 2021, 38(8): 440-444.

      [8] Kim E, Lee J, Shin H, et al. Champion-challenger analysis for credit card fraud detection: Hybrid ensemble and deep learning [J]. Expert Syst Appl, 2019, 128: 214-224.

      [9] Brumen B, Cernezel A, Bosnjak L. Overview of machine learning process modelling [J]. Entropy, 2021, 23(9): 1123.

      [10] Wang G, Song Q, Zhu X. Ensemble learning based classification algorithm recommendation [C]. CoRR, 2021, abs/2101.05993.

      [11] Zhao C,Wu D,Huang J,et al. Boost tree and boost forest for ensemble learning [J].CoRR,2020,abs/2003.09737.

      [12] 陳凱,朱鈺. 機(jī)器學(xué)習(xí)及其相關(guān)算法綜述[J].統(tǒng)計(jì)與信息論壇,2007(5): 105-112.

      [13] Wang H, Hong M, Hong Z. Research on BP neural network recommendation model fusing user reviews and ratings [J]. IEEE Access, 2021, 9: 86728-86738.

      [14] Liu Z, Cao W, Gao Z, et al. Self-paced ensemble for highly imbalanced massive data classification[C]. CoRR,2019, abs/1909.03500.

      [15] 周志華.機(jī)器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2016.

      [16] Breiman L. Random forests[J]. Mach Learn, 2001, 45(1):5-32.

      [17] Ben-Yishai A, Ordentlich O. Constructing multiclass classifiers using binary classifiers under log-loss[C]. CoRR,2021, abs/2102.08184.

      A CREDIT CARD DEFAULT PREDICTION MODEL BASED ON ENSEMBLE LEARNING

      *ZHOU Wan, WANG Yong

      (School of Computer and Information, Anhui University of Technology, Wuhu, Anhui 241000, China)

      The user credit card default prediction can help banks and other financial institutions to balance economic risks and interests, and play an important role in risk control of bank credit card business. Aiming at the problem of credit card default prediction, a credit card default prediction model based on ensemble learning was proposed. Being different from the weak learner in the traditional ensemble learning, the ensemble model and the neural network were adopted as the base learners in this model, so as to improve the prediction effect of the ensemble model. Specifically, the relevant features of the user credit card data by pre-processing were extracted. Then the optimized decision tree, random forest, GBDT, XGBoost, CatBoost and SPE and neural network models were adopted to train data and predict results. Finally, the combined strategy (i.e., the weighted soft voting) was used to integrate the results of the base learners and output the final prediction results. It showed that compared with the base learners, the prediction model had improved in all evaluation indicators and had better model generalization ability.

      default prediction; ensemble learning; machine learning; neural network

      1674-8085(2022)04-0051-06

      TP311.05

      A

      10.3969/j.issn.1674-8085.2022.04.008

      2021-12-13;

      2022-01-28

      國(guó)家自然科學(xué)基金面上項(xiàng)目(61976005);安徽自然科學(xué)基金面上項(xiàng)目(1908085MF183);計(jì)算機(jī)軟件新技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室(南京大學(xué))開放基金項(xiàng)目(KFKT2019B23)

      *周 芄(1997-),男,安徽池州人,碩士生,主要從事機(jī)器學(xué)習(xí)、NLP研究(E-mail:wanzi_hyl@icloud.com).

      猜你喜歡
      信用卡神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)
      無(wú)可預(yù)測(cè)
      黃河之聲(2022年10期)2022-09-27 13:59:46
      選修2-2期中考試預(yù)測(cè)卷(A卷)
      選修2-2期中考試預(yù)測(cè)卷(B卷)
      神經(jīng)網(wǎng)絡(luò)抑制無(wú)線通信干擾探究
      電子制作(2019年19期)2019-11-23 08:42:00
      信用卡資深用戶
      不必預(yù)測(cè)未來(lái),只需把握現(xiàn)在
      信用卡詐騙
      辦信用卡透支還債夫妻均獲刑10年
      公民與法治(2016年6期)2016-05-17 04:10:39
      基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
      復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
      唐河县| 凤阳县| 宁武县| 平潭县| 马关县| 东港市| 义马市| 石屏县| 澳门| 普兰县| 清新县| 彰化县| 北宁市| 沽源县| 冀州市| 长子县| 翁牛特旗| 濮阳县| 黄冈市| 辰溪县| 甘孜县| 峨眉山市| 同德县| 元谋县| 昌宁县| 江孜县| 桐梓县| 兴安县| 延津县| 临湘市| 黎川县| 太湖县| 亳州市| 武清区| 綦江县| 调兵山市| 玛纳斯县| 枣阳市| 兰西县| 津南区| 阜宁县|