黃英持,鄭婷婷
(1.中國(guó)移動(dòng)通信集團(tuán)廣東有限公司數(shù)據(jù)和產(chǎn)品研發(fā)中心,廣州 510623;2.廣東開放大學(xué)信息與工程學(xué)院,廣州 510091)
移動(dòng)用戶信用評(píng)估系統(tǒng)的設(shè)計(jì)與開發(fā)研究
黃英持1,鄭婷婷2
(1.中國(guó)移動(dòng)通信集團(tuán)廣東有限公司數(shù)據(jù)和產(chǎn)品研發(fā)中心,廣州 510623;2.廣東開放大學(xué)信息與工程學(xué)院,廣州 510091)
運(yùn)營(yíng)商的數(shù)據(jù)資源優(yōu)勢(shì),為信用評(píng)估系統(tǒng)的發(fā)展帶來(lái)新的機(jī)遇。建立消費(fèi)者的指標(biāo)體系,借鑒已有信用評(píng)估模型,使用Apache Spark實(shí)現(xiàn)決策引擎,并經(jīng)過(guò)數(shù)據(jù)采集、數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)訓(xùn)練等過(guò)程提高計(jì)算的準(zhǔn)確度,計(jì)算結(jié)果以Web Service提供,用戶可通過(guò)多種方式實(shí)現(xiàn)個(gè)人信用值的快速計(jì)算與查詢。
信用評(píng)估;指標(biāo)體系;決策樹;Apache Spark
對(duì)企業(yè)組織和個(gè)人的信用信息進(jìn)行采集、整理、保存和加工,稱為征信,其本質(zhì)在于利用信用信息對(duì)金融主體進(jìn)行數(shù)據(jù)刻畫[1]。長(zhǎng)期以來(lái),中國(guó)征信市場(chǎng)是以央行為主導(dǎo)的單一格局,但在用戶覆蓋面和數(shù)據(jù)多樣性方面,央行征信系統(tǒng)有很大的局限性,例如對(duì)于藍(lán)領(lǐng)工人、學(xué)生、個(gè)體戶、自由職業(yè)者等用戶,無(wú)法建立較準(zhǔn)確的個(gè)人信用記錄,且金融機(jī)構(gòu)和民間團(tuán)體了解這些用戶信用記錄的成本也比較高。
大數(shù)據(jù)為信用評(píng)估提供了豐富的數(shù)據(jù)資源,也改變了信用評(píng)估產(chǎn)品的設(shè)計(jì)和生產(chǎn)方式。大數(shù)據(jù)的出現(xiàn),特別是互聯(lián)網(wǎng)金融的蓬勃發(fā)展,為信用評(píng)估活動(dòng)提供了全新的發(fā)展視角[2-3]。例如互聯(lián)網(wǎng)征信,主要是通過(guò)采集個(gè)人在互聯(lián)網(wǎng)交易或使用互聯(lián)網(wǎng)各類服務(wù)過(guò)程中留下的信息數(shù)據(jù),并結(jié)合線下渠道采集的信息數(shù)據(jù),利用大數(shù)據(jù)、云計(jì)算等技術(shù)進(jìn)行信用評(píng)估的活動(dòng)[3-4]?;ヂ?lián)網(wǎng)征信為征信發(fā)展提供了豐富的信息來(lái)源,改變了征信服務(wù)理念和傳統(tǒng)的信用評(píng)分模式,從而更好地推動(dòng)我國(guó)個(gè)人征信市場(chǎng)的建立及社會(huì)信用體系的完善。
目前較有代表性的互聯(lián)網(wǎng)征信系統(tǒng)包括阿里巴巴的“芝麻分”的信用評(píng)級(jí)產(chǎn)品和“花唄”的個(gè)人信用消費(fèi)產(chǎn)品,京東的“白條”的個(gè)人信貸消費(fèi)產(chǎn)品等,這些產(chǎn)品在需要支付押金或預(yù)授權(quán)等現(xiàn)實(shí)中的各種履約場(chǎng)景都可以得到應(yīng)用。
移動(dòng)運(yùn)營(yíng)商具有先天的數(shù)據(jù)資源優(yōu)勢(shì),充分利用移動(dòng)運(yùn)營(yíng)商所擁有的優(yōu)質(zhì)數(shù)據(jù)建立個(gè)人信用記錄,并與其他征信平臺(tái)合作整合,既能挖掘移動(dòng)運(yùn)營(yíng)商的資產(chǎn)潛力,也能順應(yīng)“互聯(lián)網(wǎng)+”的發(fā)展潮流。
基于移動(dòng)用戶的消費(fèi)行為,選擇合適的特征指標(biāo)體系,可以盡量以較少的變量反映數(shù)據(jù)的主要特征[5]。綜合可獲取的指標(biāo)以及專家意見,可大致建立用戶信用評(píng)估的主要指標(biāo)體系,如表1所示。
表1 移動(dòng)用戶征信主要指標(biāo)體系
第一層分為身份特征、行為特征、人脈特征、信用歷史、賬戶狀況5個(gè)維度。身份特征維度主要是利用運(yùn)營(yíng)商實(shí)名制的優(yōu)勢(shì)獲取用戶年齡、居住工作地等與通信和行為無(wú)關(guān)的基本特征;行為特征衡量用戶對(duì)移動(dòng)通信,移動(dòng)互聯(lián)網(wǎng)的使用情況;人脈特征主要反映用戶的社交圈子的信用程度;信用歷史和賬戶狀況反映了用戶過(guò)去和現(xiàn)在的基本信用情況。
概括而言,消費(fèi)者信用評(píng)估方法可以分為統(tǒng)計(jì)模型和非統(tǒng)計(jì)模型兩類,統(tǒng)計(jì)模型包括判別分析、邏輯回歸、K近鄰規(guī)則、決策樹等;非統(tǒng)計(jì)模型包括數(shù)學(xué)規(guī)劃、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)、遺傳算法等[6]。為了獲取更準(zhǔn)確的計(jì)算結(jié)果,可以將上述兩種或幾種方法有機(jī)地結(jié)合起來(lái),實(shí)現(xiàn)更有效的信用評(píng)估計(jì)算。例如可以把決策樹和非統(tǒng)計(jì)模型的方法結(jié)合起來(lái)計(jì)算用戶的消費(fèi)特征,使用貝葉斯網(wǎng)絡(luò)分類模型訓(xùn)練得到的數(shù)據(jù),這都是系統(tǒng)中可以借鑒的實(shí)現(xiàn)方式。
信用評(píng)估計(jì)算的關(guān)鍵是科學(xué)合理地選出信用變量,并產(chǎn)生一個(gè)公式。常用于個(gè)人信用評(píng)估的數(shù)據(jù)挖掘方法包括分類、聚類、關(guān)聯(lián)規(guī)則分析、預(yù)測(cè)、孤立點(diǎn)檢測(cè)等[7]。數(shù)據(jù)挖掘的前提是需要采集到足夠的數(shù)據(jù)樣本,但樣本中有些特征指標(biāo)的變量需要經(jīng)過(guò)歸一標(biāo)準(zhǔn)化處理后才能進(jìn)行下一步的計(jì)算,例如對(duì)于離散變量,可通過(guò)標(biāo)準(zhǔn)化計(jì)算把它的值映射到[0,1]區(qū)間。然后使用熵值法計(jì)算指標(biāo)的權(quán)重。熵值法的基本思路是求出指標(biāo)的熵,然后根據(jù)指標(biāo)熵的冗余度求權(quán)重。
當(dāng)樣本庫(kù)中采集到足夠數(shù)量和經(jīng)處理后滿足質(zhì)量要求的樣本數(shù)據(jù),就可以根據(jù)樣本的指標(biāo)特征值,對(duì)樣本集進(jìn)行分析,得到?jīng)Q策樹。決策樹是一個(gè)類似于流程圖的樹狀結(jié)構(gòu),以樹的形式采用自上而下的方式給出分類規(guī)則[6]。決策樹方法包括兩個(gè)主要步驟:構(gòu)建和剪枝。每個(gè)決策樹都可由其分支,對(duì)該類型的對(duì)象依靠屬性進(jìn)行分類,在構(gòu)建決策樹時(shí),一般采用基于信息熵定義的信息增益來(lái)選擇內(nèi)部結(jié)點(diǎn)的測(cè)試屬性。而決策樹剪枝主要是識(shí)別并消除由數(shù)據(jù)集中的噪聲或異常數(shù)據(jù)所產(chǎn)生的分枝,以幫助改善決策樹對(duì)未知類別對(duì)象分類的準(zhǔn)確性。
當(dāng)完全采用決策樹方法時(shí),由于它使用信息熵或其他的啟發(fā)式信息來(lái)選擇充當(dāng)分支結(jié)點(diǎn)的屬性,用幾率代替概率來(lái)計(jì)算信息熵,隨著樹的深入構(gòu)造,誤差將會(huì)越來(lái)越大。因此,采用決策樹的方法往往要結(jié)合其他方法,例如聚類分析、神經(jīng)網(wǎng)絡(luò)等,以減少累積誤差。基本思路是先根據(jù)決策計(jì)算的結(jié)果作區(qū)段劃分,然后對(duì)每一個(gè)大類別進(jìn)行聚類分析,得到多個(gè)子聚類,再對(duì)每個(gè)子聚類建立一個(gè)能擬合包含所有樣本的子模型。這樣,就得到一種類似樹狀的結(jié)構(gòu)——聚類樹。對(duì)于基層的子聚類,當(dāng)某些子聚類滿足指定條件時(shí),就可實(shí)現(xiàn)節(jié)點(diǎn)的合并。
在本系統(tǒng)中將采用分布式計(jì)算、離線更新模式。首先進(jìn)行訓(xùn)練數(shù)據(jù)采集,再對(duì)數(shù)據(jù)進(jìn)行整理、清洗,使數(shù)據(jù)標(biāo)準(zhǔn)化,并通過(guò)訓(xùn)練構(gòu)建模型的離線更新,最后通過(guò)在線加載模型進(jìn)行預(yù)測(cè)。后端機(jī)器學(xué)習(xí)子系統(tǒng)中涉及大數(shù)據(jù)的部分計(jì)算量較大、實(shí)時(shí)性要求較低,獨(dú)立運(yùn)行不會(huì)影響到在線子系統(tǒng)的運(yùn)作。系統(tǒng)架構(gòu)示意圖如圖1、圖2所示。
圖1 移動(dòng)用戶信用評(píng)估系統(tǒng)數(shù)據(jù)流程圖
信用評(píng)估接口將從基礎(chǔ)數(shù)據(jù)模塊獲取待評(píng)估用戶的基礎(chǔ)數(shù)據(jù),然后調(diào)用決策引擎進(jìn)行評(píng)估。決策引擎根據(jù)策略,將不定時(shí)地從已有的決策模型庫(kù)加載決策模型以進(jìn)行預(yù)測(cè)。分析維度框架包括通信行為、行為偏好、身份特征等指標(biāo)體系,并使用聚類分析、決策樹、關(guān)聯(lián)分析等方法進(jìn)行數(shù)據(jù)挖掘與建模。在離線部分,數(shù)據(jù)采集模塊定期從數(shù)據(jù)庫(kù)采集增量數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,然后訓(xùn)練、更新模型。
圖2 移動(dòng)用戶信用評(píng)估系統(tǒng)模塊圖
圖3 MLlib算法庫(kù)
系統(tǒng)決策引擎采用Apache Spark MLlib[7-8]作為核心框架。Apache Spark是一個(gè)開源集群運(yùn)算框架,由加州大學(xué)柏克利分校AMPLab所開發(fā)。Apache Spark允許將數(shù)據(jù)加載至集群內(nèi)存,并多次對(duì)其進(jìn)行查詢,非常適合用于機(jī)器學(xué)習(xí)算法。Apache Spark MLlib是一種基于Spark的高效、快速、可擴(kuò)展的分布式計(jì)算框架,它實(shí)現(xiàn)了常用的機(jī)器學(xué)習(xí),如:聚類、分類、回歸等算法。MLlib算法庫(kù)核心如圖3所示。
信用評(píng)估接口管理接入平臺(tái)和移動(dòng)用戶信用歷史,接入平臺(tái)通過(guò)Web Service接口獲得移動(dòng)用戶信用值,用戶可以通過(guò)多種渠道,例如公眾號(hào)、App等查看自己的信用值。
本文給出了基于移動(dòng)用戶消費(fèi)行為數(shù)據(jù)的征信評(píng)估系統(tǒng)的設(shè)計(jì)思路,先提取用戶的特征指標(biāo)體系,通過(guò)決策引擎根據(jù)需要調(diào)用信用評(píng)估方法,如決策樹、聚類分析等,利用Apache Spark MLlib算法庫(kù)實(shí)現(xiàn)高效、快速的分布式計(jì)算。該系統(tǒng)充分利用了運(yùn)營(yíng)商大數(shù)據(jù)的優(yōu)勢(shì),可以高效、靈活、準(zhǔn)確地完成用戶信用評(píng)估與預(yù)測(cè)。實(shí)踐表明,經(jīng)過(guò)一定時(shí)期的訓(xùn)練及試運(yùn)行后,系統(tǒng)計(jì)算的準(zhǔn)確率可達(dá)到80%以上,具備一定的實(shí)用性。
[1]徐鑫.大數(shù)據(jù)征信“大有可為”[J].上海信息化,2016,10:29-33.
[2]張健華.互聯(lián)網(wǎng)征信發(fā)展與監(jiān)管[J].中國(guó)金融,2015,01:40-42.
[3]人民銀行石家莊中心支行征信管理處課題組,劉旭,趙玉清.大數(shù)據(jù)環(huán)境下互聯(lián)網(wǎng)征信發(fā)展與監(jiān)管研究[J].河北金融,2016,04:3-8.
[4]鄧舒仁.關(guān)于互聯(lián)網(wǎng)征信發(fā)展與監(jiān)管的思考[J].征信,2015,01:14-17.
[5]賴輝,帥理,周宗放.個(gè)人信貸客戶信用評(píng)估的一種新方法[J].技術(shù)經(jīng)濟(jì),2014,33(9):97-103.
[6]王昱.基于組合分類的消費(fèi)者信用評(píng)估[J].管理工程學(xué)報(bào),2015,29(1):30-38.
[7]葛繼科,趙永進(jìn),王振華,等.數(shù)據(jù)挖掘技術(shù)在個(gè)人信用評(píng)估模型中的應(yīng)用[J].計(jì)算機(jī)技術(shù)與發(fā)展,2006,16(12):172-174.
[8]Apache Spark.Spark文檔[EB/OL].[2017-04-14].http://spark.apache.org/docs/latest/.
[9]寧永恒.基于Spark的若干數(shù)據(jù)挖掘技術(shù)研究[D].杭州:計(jì)算機(jī)應(yīng)用技術(shù),2016.
Research on the Design and Development of Credit Evaluation System for Mobile Communication Customers
HUANG Ying-chi1,ZHENG Ting-ting2
(1.China Mobile Guangdong Digital Research Center,Guangzhou 510623;2.The Open University of Guangdong,Guangzhou 510091)
The advantages of data resources of telecommunications operators bring new opportunities for the development of credit evaluation system.Establishes the index system of consumers,uses the existing credit evaluation model,and uses Apache Spark to realize the decision engine.After the procedure of date acquisition,data standardization,and data training,improves the accuracy of the calculation.The results are provided by Web Service,and users can realize the rapid calculation of querying personal credit value through a variety of ways.
黃英持(1983-),男,廣東江門人,碩士研究生,從事領(lǐng)域?yàn)榇髷?shù)據(jù)創(chuàng)新產(chǎn)品研發(fā)工作
2017-06-02
2017-06-10
1007-1423(2017)17-0081-04
10.3969/j.issn.1007-1423.2017.17.017
鄭婷婷(1984-),女,廣東湛江人,碩士研究生,講師,研究方向?yàn)橐苿?dòng)應(yīng)用技術(shù)、大數(shù)據(jù)技術(shù)
Credit Evaluation;Index System;Decision Tree;Apache Spark