文/游杰蘚(重慶理工大學)
現(xiàn)在人們在外面借共享充電寶、騎共享單車、支付寶的花唄等,都是基于一個人的信用,可以說信用現(xiàn)在已經(jīng)影響到我們生活的方方面面,而且對企業(yè)和個人的信用預測是金融領域的主要研究問題。中國的銀行等金融機構也正在面臨著互聯(lián)網(wǎng)金融的挑戰(zhàn),如某東的白條、一些*唄、一些*粒貸等。因此,對信用等級的預測也引起了金融機構從業(yè)人員的極大興趣,對信用等級預測準確率的提高是當前金融領域亟待解決的問題。
以前一些專家對信用的評價主要是用一些傳統(tǒng)的統(tǒng)計方法,例如根據(jù)人們以往的收入、工作、家庭等情況來判斷一個人的信用等級,其最大的優(yōu)點是有清晰的解釋性,但缺點是前提條件非常嚴格,且其結果往往帶有主觀性,數(shù)據(jù)也有滯后性和不及時性。而現(xiàn)在利用機器學習算法模型進行建模預測信用的方法已獲得了廣泛的應用。在機器學習算法模型中,決策樹是最常用的算法模型之一。
在互聯(lián)網(wǎng)技術發(fā)展迅速的時代,利用人工智能去處理大量的數(shù)據(jù)已經(jīng)成了現(xiàn)在的主流。而機器學習作為人工智能的核心,已經(jīng)受到了廣泛的關注。本文運用機器學習的五種模型分別對四個國家的人們的以前數(shù)據(jù)進行信用預測,以選出最優(yōu)方法。
由于互聯(lián)網(wǎng)的發(fā)展,機器學習的模型算法已被廣泛運用到對信用風險、信用等級的預測上,目前已經(jīng)取得了不錯的效果。方匡南等人使用Lassologistic進行指標的篩選、構建個人信用風險評估模型,提高了信用風險預警的效果。沈翠華和高萬林(2004)利用SVM對企業(yè)信用等級鏡像分析[5]。Hui-Chung Yeh(2007)運用決策樹、神經(jīng)網(wǎng)絡以及判別分析方法進行信用評估時得出決策樹分類準確率最高,線性判別分析準確率最低的結論。鄭也夫、徐軍等(2012)對60家上市公司與75家非上市公司,通過機器學習的一些模型進行比較研究,得出決策樹的算法在上市公司信用風險評估中效果最好的結論。
在決策樹運用的其他研究方面,張凱、丁波等人采用決策樹算法構建了預測成人學位英語考試成績的分類模型,其預測準確率為81%。王聯(lián)英等人將決策樹算法用在人力資源推薦方面,以此提升招聘平臺的人力資源推薦質量。
此外,已經(jīng)有越來越多的企業(yè)都建立了自己的信用評分體系,如*巴的“芝麻信用”、*訊的“*信用”等。
綜上,目前已有大量學者和企業(yè)在研究采用機器學習算法進行信用等級預測,總結出了一些最優(yōu)算法模型。
大數(shù)據(jù)個人征信是指將云計算、大數(shù)據(jù)分析等新技術運用到個人征信系統(tǒng)的信用評估和數(shù)據(jù)預測等環(huán)節(jié),通過對個人可變的信用數(shù)據(jù)進行不斷地采集而實現(xiàn)動態(tài)的信用分析。
本文通過決策樹的構造算法及應該以怎樣的順序來選取實例的屬性進行擴展予以說明,并分析了其他幾種模型算法的優(yōu)缺點,以得出信用等級預測結果準確率相對較好的模型。
1.概述
DECISION TREE算法是從機器學習領域中逐漸發(fā)展起來的,它采用了從最頂向下的遞歸方式來構造決策樹。最早的決策樹算法是概念學習系統(tǒng),之后的許多決策樹算法基本是概念學習系統(tǒng)衍生而來的。如今,利用DECISION TREE算法對數(shù)據(jù)進行分類得到了深入的研究。由此,在決策樹的基礎上又形成了越來越多的生成算法。
2.決策樹的構造算法
假設如下:給定訓練集TR,分類對象的屬性表AttrList為[A1,A2,A3,……,An],全部分類結果構成的集合為Class,表示為{C1,C2,C3,……,Cm},一般n≥1和m≥2。對每一屬性Ai,其值域為ValueType(Ai),值域可以是離散的,也可以是連續(xù)的。這樣決策樹TR的元素就可表示成
輸入:訓練集TR={特征向量Xn,分類結果Cn}Nn=1,屬性列表AttrList
輸出:以屬性Ai為根節(jié)點的決策樹
(1)從屬性表中選擇某一屬性Ai作為檢測屬性。
(2)根據(jù)Ai取值的不同,將TR劃分為k個訓練集TR1,TR2,TR3,……, TRk,其 中,TRj={
(3)從屬性表中扣除已做檢測的屬性Ai。
(4)對每一個j,用TRj和新的屬性表遞歸調用CLS以生成字分支決策樹DTRi。
(5)返回以屬性Ai為根,DTR1,DTR2,DTR3,……,DTRk為子樹的決策樹。
3.屬性的選取方法-信息熵
屬性的重要性不同,選取方法不同,對樹的構造及結果的準確率往往是不同的,以下是屬性的選擇方法:
(1)信息熵:
(2)信息增益Gain:Coin(S,A)
支持向量機是在監(jiān)督學習中最有影響力的方法之一。SVM輸出的僅僅是樣本的類別,且SVM最重要的創(chuàng)新是核函數(shù)。
K近鄰算法是一種統(tǒng)計分類器,于1968年提出,是最簡單的有監(jiān)督的機器算法之一,對包容性數(shù)據(jù)的特征變量篩選特別有效。
貝葉斯定理是英國數(shù)學家貝葉斯發(fā)明的,它主要描述了兩個概率之間關系的定理。因為它的應用廣泛性和良好統(tǒng)計推斷性質,被越來越多地應用于各個領域,成為現(xiàn)代統(tǒng)計學的重要分支。
卷積的目的在于將某些特征從圖像中提取出來,就像視覺系統(tǒng)去辨識有方向性的物體邊緣。卷積神經(jīng)網(wǎng)絡是受視覺神經(jīng)機制的啟發(fā)而設計的一種特殊的深層神經(jīng)網(wǎng)絡模型。
我們用以上五種模型分別預測了四個不同國家的人們信用數(shù)據(jù)集。
(1)準確率(ACC):指使用測試集對模型進行分類時,分類正確的記錄個數(shù)占總記錄個數(shù)的比例:
TP(True positives):被正確地劃分為正例的個數(shù);TN(True negatives):被正確地劃分為負例的個數(shù);FP(False positive):被錯誤地劃分為正例的個數(shù);FN(False negative):被錯誤地劃分為負例的個數(shù)。
(2)F1分數(shù)(F1 Score),F(xiàn)1分數(shù)能看作是模型精確率和召回率的一種加權平均,它的最大值是1,最小值是0。
Precision,即精度是精確性的度量,表示被分為正例的示例中實際為正例的比例。
Recall,即召回率是覆蓋面的度量,度量有多個正例被分為正例。
表2 以F1分數(shù)為標準的Chinese Credit Approval Data Set
表3 以準確率(ACC)為標準的Japanese Credit Screening Data Set
表4 以F1-score為標準的Japanese Credit Screening Data Set
表5 以準確率(ACC)為標準的Statlog (Australian Credit Approval) Data Set
表1至表8是用五種模型得出的四個國家的人們信用等級預測,分別用了ACC和F1-score評價標準,五種機器學習算法模型的準確率如表1-8所示。
表1 以準確率(ACC)為標準的Chinese Credit Approval Data Set
表8 以F1-score為標準的Statlog (German Credit Data) Data Set
實驗分別運用機器學習的五種模型對四個不同國家的個人信用進行預測。首先運用支持向量機、K-最近鄰、樸素貝葉斯、決策樹、卷積神經(jīng)網(wǎng)絡五種不同的算法對數(shù)據(jù)集進行訓練,以便記住相關指標和模型對分類準確度的貢獻率,為測試集中的試驗做準備。
從表中的數(shù)據(jù)總體可以看出,無論是對哪一個國家的信用等級預測,用卷積網(wǎng)絡模型(CNN)對人的信用預測所得出的結果的準確率都是最低的,這是因為CNN具有的缺點;另外是卷積神經(jīng)網(wǎng)絡目前廣泛應用于圖像處理領域,對圖像進行領域間采樣,在數(shù)據(jù)挖掘方面不如其他幾種算法模型。
而支持向量機、K-最近鄰、樸素貝葉斯的預測結果的準確率相差不大,但預測結果的準確率都不如決策樹高。相較于CNN,SVM能利用有限的訓練數(shù)據(jù)信息,力圖在模型的學習能力與其復雜性之間取得較好的折中;但是SVM對于無法直接輸入又含有一定結構信息的結構化數(shù)據(jù)不能直接解決。
表6 以F1-score為標準的Statlog (Australian Credit Approval) Data Set
表7 以準確率(ACC)為標準的Statlog (German Credit Data) Data Set
K-最近鄰(KNN)模型與其他算法不同的是,它不僅可以解決二分類場景的問題,并且也可以解決多分類的問題;但當樣本量很大時,很大一部分點附近沒有樣本點,這就使利用空間中的每一附近的樣本點來構造預估的近鄰法就非常難以運用。
樸素貝葉斯(Naive Bayes)在預測結果的準確率上雖然比CNN高,但當屬性個數(shù)較多或屬性之間相關性較大時,它的分類效率不如決策樹模型,對樸素貝葉斯分類的準確性有影響。
從得出的實驗結果總體看來,DECISION TREE算法模型在這五種模型中,對信用預測結果的準確率是最高的,因為決策樹能夠提取規(guī)則,構建一棵決策樹;除此之外,決策樹僅通過少量比較就能找到樹葉,空間復雜度非常小,這使得該算法模型中的條件很簡單,易于理解。
本文基于機器學習的幾種模型建模,并用真實數(shù)據(jù)集進行信用等級準確率的預測分析,最終選擇出來的決策樹算法模型在預測數(shù)據(jù)的準確率上表現(xiàn)良好,在實際運用中具有一定的研究意義。但在現(xiàn)實生活中,其問題的復雜程度要大得多,因此,其對信用預測的建模方法有待進一步優(yōu)化。