周 宓
(泉州師范學院應用科技學院,福建泉州 362000)
基于組合分類器的信用卡信譽檢測
周 宓
(泉州師范學院應用科技學院,福建泉州 362000)
給出了支持向量機的信用卡信譽檢測模型和基于決策樹的信用卡信譽檢測模型的建立方法,并在這兩種單一分類器的基礎上,歸納總結支持向量機方法和決策樹方法對信用卡信譽檢測的偏好特性,提出了一種基于偏好特性進行組合的組合分類器模型建立方法.
信譽檢測;支持向量機;決策樹;組合分類;測全率;測準率
信用卡作為一種先進的金融支付工具,因其所具有的操作便捷、結算安全等特點得到快速發(fā)展.如何利用客戶的基本信息及交易行為信息,演繹客戶信用卡的交易行為模式,識別和控制信用卡交易中的惡意提現(xiàn)以及惡意透支行為以及檢測信用卡賬戶的信譽水平,以更好地為優(yōu)質客戶提供滿意的服務,同時降低非優(yōu)質客戶所帶來的壞賬風險,是銀行信用卡風險管理迫切需要解決的問題.本研究給出了基于支持向量機的信用卡信譽檢測模型和基于決策樹的信用卡信譽檢測模型的建立方法,并總結支持向量機方法和決策樹方法對信用卡信譽檢測的偏好特性,提出了一種基于偏好特性進行組合的組合分類器模型建立方法,并對結果進行了分析.
1.1 支持向量機分類法
支持向量機就是首先通過用內積函數(shù)定義的非線性變換將輸入空間變換到一個高維空間,在這個空間中求最優(yōu)分類面的一種線性分類器[1].支持向量機分類函數(shù)形式上類似于一個神經網(wǎng)絡,輸入是d維特征向量,輸出是中間節(jié)點的線性組合,每個中間節(jié)點對應一個支持向量.由于支持向量機的求解最后轉化成二次規(guī)劃問題的求解,因此支持向量機的解是全局唯一的最優(yōu)解.
本研究對信用卡信譽檢測數(shù)據(jù)抽取了較多的相關屬性,但每個屬性對信譽檢測的影響并不一致,甚至有可能會有干擾檢測效果的不良影響,對此,可先采用巴氏距離法[2]和Relief算法[3]對多個屬性進行處理,以去除無關屬性.
1.2 決策樹分類法[4]
決策樹分類法是應用最廣的歸納推理算法之一.它對數(shù)據(jù)進行分類,可達到預測的目的[4].決策樹方法首先根據(jù)訓練集數(shù)據(jù)形成決策樹,如果該樹不能對所有對象給出正確的分類,那么選擇一些例外加入到訓練集數(shù)據(jù)中,重復該過程一直到形成正確的決策集.本研究采用的是C5.0決策樹算法.
1.3 組合分類器法
組合分類器是多種學習算法的組合,是目前比較流行的機器學習算法之一,其主要目的是提升分類的準確率[5].目前,常用的組合模型多為兩層結構:第一層為多個不同的學習算法獨立地對訓練樣本集進行學習訓練;第二層為一個分類器組合,它對第一層中各分類器的輸出進行某種組合(多為線性組合).
通常,組合分類器模型會出現(xiàn)多個分類結果,如何處理和組合成員分類器的分類結果,實現(xiàn)分類器的融合是組合分類器研究中的一個重要部分.目前,對成員分類器分類結果的處理方法主要分為投票法和非投票法[6].
1.4 信用卡數(shù)據(jù)來源與數(shù)據(jù)描述
由于目前國內尚沒有公開的信用卡持卡人的交易數(shù)據(jù),因此本研究實驗數(shù)據(jù)選取自國外某銀行發(fā)布的信用卡數(shù)據(jù).該信用卡數(shù)據(jù)由8個ASC文件組成:ACCOUNT.ASC,CLIENT.ASC,DISP.ASC,ORDER.ASC,TRANS.ASC,LOAN.ASC,CARD.ASC,DISTRICT.ASC,其包含持卡人以及持卡人對應賬戶信息所包含的關聯(lián)信息以及相關數(shù)據(jù).數(shù)據(jù)關聯(lián)如圖1所示.
圖1 數(shù)據(jù)關聯(lián)圖
由于上述數(shù)據(jù)的初始格式為文本格式,本研究選取了SQL Server 2000將其預先處理存儲到數(shù)據(jù)庫中,并在數(shù)據(jù)庫基礎上對數(shù)據(jù)進行統(tǒng)計分析和屬性抽取.抽取如下13個屬性用于后面的數(shù)據(jù)挖掘訓練及測試:①Sex,顧客性別;②Age,顧客年齡;③Amount of loan,顧客的借貸總額;④Loan duration,借貸歸還的時間區(qū)間;⑤Type of the credit card,顧客所持有的信用卡類別;⑥District,顧客居住的地區(qū);⑦Minimum amount,某時間段內該客戶所有交易中的最小額度;⑧Maximum amount,某時間段內該客戶所有交易的最大額度;⑨Average amount,某時間段內該客戶所有交易的平均額度;⑩Minimum account,某時間段內該賬戶所有交易的最小額度; ○11Maximum account,某時間段內該賬戶所有交易的最大額度; ○12 Average account,某時間段內該賬戶所有交易的平均額度; ○13Credit status,信用卡信譽狀態(tài),離散屬性,A表示優(yōu)質信譽客戶,B表示非優(yōu)質信譽客戶.
根據(jù)數(shù)據(jù)數(shù)量,屬性中所對應的某時間段取1年時間為限定條件,其中第13個屬性為信用卡信譽狀態(tài),該屬性是本研究的信用卡信譽檢測的目標屬性.
1.5 模型建立
本研究采用支持向量機和決策樹方法對信用卡信譽檢測進行模型的建立,具體如圖2所示.
2.1 實驗環(huán)境
圖2 信用卡信譽檢測建模示意圖
本研究在Window XP的系統(tǒng)環(huán)境下,使用SQL Server 2000存儲實驗數(shù)據(jù),利用C#.net作為編程語言來搭建實驗環(huán)境,構建信用卡信譽檢測模型.其中,支持向量機的模型建立結合了LIBSVM的使用.通過數(shù)據(jù)預處理得到234組用于數(shù)據(jù)挖掘的有效數(shù)據(jù),其中優(yōu)質信譽客戶即A類數(shù)據(jù)有203組,非優(yōu)質信譽客戶即B類數(shù)據(jù)有31組.通過非對稱信息處理,數(shù)據(jù)訓練集包含51組數(shù)據(jù),其中A類數(shù)據(jù)30組,B類數(shù)據(jù)21組;數(shù)據(jù)測試集包含183組數(shù)據(jù),其中A類數(shù)據(jù)173組,B類數(shù)據(jù)10組.
2.2 評估標準
測試集數(shù)據(jù)通過信用卡信譽檢測模型后,輸出結果被劃分為兩類:A(優(yōu)質信譽客戶)和B(非優(yōu)質信譽客戶).其中分類結果A數(shù)據(jù)中包含真實信譽為A的數(shù)據(jù)Ta以及真實信譽為B被誤判為A的數(shù)據(jù)Fa,分類結果B的數(shù)據(jù)包含Tb和Fb,解釋同理.具體而言,
①A的測準率=Ta/(Ta+Fa)
②A的測全率=Ta/(Ta+Fb)
③B的測準率=Tb/(Tb+Fb)
④B的測全率=Tb/(Tb+Fa)
為了避免單次試驗結果的偶然性,本研究對數(shù)據(jù)進行多次隨機分組,并將每次分組得到的訓練集和測試集作為多個信用卡檢測模型建立方法的輸入,同時對各個檢測方法的檢測效果進行比較和評估.
2.3 結果分析
2.3.1 改進的支持向量機方法結果分析.
本研究建立了巴氏距離和Relief結合的支持向量機檢測模型.其中巴氏距離算法用于排除與信譽檢測關聯(lián)最小的屬性,結合Relief算法后,綜合考慮了屬性間的關聯(lián)性,找出利于信用卡信譽檢測的屬性子集,得到的相關實驗結果如表1、2所示.
表1 改進的支持向量機中A類預測效果
表2 改進的支持向量機中B類預測效果
從表1、2中可以看出,改進的支持向量機方法對A類的分類效果很好,測全率和測準率都很高,且B類的測全率也很高,說明該方法能較好地覆蓋到B類,但是它的測準率卻很低.
2.3.2 基于決策樹模型結果分析.
同時,本研究建立了基于決策樹的信譽檢測方法,將數(shù)據(jù)預處理后得到的訓練集中所有13個屬性數(shù)據(jù)作為模型建立的輸入,訓練得到一個檢測方法,以此來對測試集進行測試分類,相關實驗結果如表3、4所示.
表3 決策樹中A類預測效果
表4 決策樹中B類預測效果
從表1和表3的比較中可以看出,決策樹方法對A類預測效果不論從測全率還是測準率均劣于改進的支持向量機方法,但對B類預測效果的測準率比改進的支持向量機方法高.
2.3.3 組合分類器模型結果分析.
考慮到改進的支持向量機方法對A類的分類效果比決策樹方法的信譽檢測方法效果好,測全率和測準率都很高,而且對B類的測全率也很高,說明它能較好地覆蓋到B類,但是它的測準率卻很低.相比而言,決策樹模型對B類的測準率相對較高.所以,組合分類器模型將先采用改進的支持向量機信譽檢測方法來對測試集進行第一次檢測,將檢測結果為B的數(shù)據(jù)再經過決策樹信譽檢測方法進行第二次檢測,相關實驗結果如表5、6所示.
表5 組合分類器模型中A類預測效果
表6 組合分類器模型中B類預測效果
所有試驗結束經過統(tǒng)計分析得出實驗結果如圖3~6所示.
圖3 A類測全率比較圖
圖4 A類測準率比較圖
從圖3、4可以看出,組合分類器模型對A類的分類效果無論在測準率和測全率上都是比較好的.雖然純支持向量機方法的測全率最高,但是測準率卻很低;改進的支持向量機方法的測準率最高,但是測全率又很低.組合分類器模型則是一種兩方面都表現(xiàn)較好的折衷算法.
圖5 B類測全率比較圖
圖6 B類測準率比較圖
從圖5、6可以看出,對于關注的B類,它的測全率僅次于改進的支持向量機方法,但是它的測準率卻最高,這也是本研究的希望達到主要研究目的,即模型對非優(yōu)質信譽客戶的檢測準確且全面.
本文通過結合改進的支持向量機和決策樹方法建立了一個基于組合分類器的信用卡信譽檢測模型,實現(xiàn)了準確、有效的客戶信用卡信譽檢測,本研究在理論上可以豐富信譽檢測與數(shù)據(jù)挖掘領域的研究;在實際中可為銀行信用卡風險管理提供有效信息,為銀行在以客戶為中心的管理理念下,利用信息技術提高銀行的核心競爭力提供有力的技術支持.
[1]曹小娟,王小明.金融工程的支持向量機方法[M].上海:上海財經大學出版社,2007.
[2]鄭俊翔,宣國榮,柴佩琪.巴氏距離和 K-L交換結合的特征選擇[J].微型電腦應用,2004,20(12):12-15.
[3]K ononenko I.Estimating Attributes:Analysis and Extensions of Relief[M].Berlin:Springer-Verlag Publisher,1994.
[4]Quinlan J R.Induction of Decision Tree[J].Machine Learning, 1986,1(1):86-106.
[5]Mitchell TM.機器學習[M].曾華軍,張銀奎,等譯.北京:機械工業(yè)出版社,2003.
[6]Anderson E,Weitz B.Determinants of Continuity in Congenital Industrial Channel Dyads[J].Marketing Science,1989,8(4):310-323.
[7]莊瑋.基于數(shù)據(jù)挖掘的信用卡欺詐行為識別模型的研究[D].南京:南京航空航天大學,2008.
Reputation Detection of Credit Card Based on SVM
ZHOU Mi
(School of Science and Technology Application,Quanzhou Normal University,Quanzhou 362000,China)
Credit testing model of support vector machine and construction mehtod of credit testing model based on decision tree were given.Based on the two single classifier,preferences of credift card credit testing supporting support vector machine and decision tree were concluded and summarized.Construction mehtod of combined classification model was proposed based on combination of preference characteristics.
credit testing;support vector machine;decision tree;combined classification;sensitivity;specificity
TP274
:A
1004-5422(2012)03-0239-04
2012-07-06.
周 宓(1981—),女,碩士,講師,從事計算機算法研究.
文章編號:1004-5422(2010)03-0261-04