• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于數(shù)據(jù)挖掘的信用評(píng)估研究

      2017-09-01 15:54:43王哲元
      關(guān)鍵詞:信用度信用概率

      邱 梅,王哲元

      (1.南京郵電大學(xué) 計(jì)算機(jī)學(xué)院,江蘇 南京 210003;2.福州大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,福建 福州 350116)

      基于數(shù)據(jù)挖掘的信用評(píng)估研究

      邱 梅1,王哲元2

      (1.南京郵電大學(xué) 計(jì)算機(jī)學(xué)院,江蘇 南京 210003;2.福州大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,福建 福州 350116)

      信用如今已經(jīng)滲透至社會(huì)生活、工作之中,信用評(píng)估是金融、通訊等服務(wù)行業(yè)對(duì)消費(fèi)者個(gè)體的重要需求。在分析個(gè)人信用影響因素及其相關(guān)數(shù)據(jù)建?;A(chǔ)上,改進(jìn)了應(yīng)用Logistic回歸建模過程中所用到的最速下降法,有效減少了回歸建模過程中的迭代次數(shù)與迭代時(shí)間。原始最速下降法相鄰方向是正交的,導(dǎo)致越是靠近極值點(diǎn)步長(zhǎng)越小,收斂速度慢;而改進(jìn)后的最速下降法通過結(jié)合上一次的搜索方向確定當(dāng)前搜索方向,改變了原本鋸齒形的曲折搜索路徑。為驗(yàn)證所提出方法的有效性和可行性,圍繞迭代次數(shù)與迭代時(shí)間進(jìn)行了實(shí)驗(yàn)驗(yàn)證。驗(yàn)證實(shí)驗(yàn)結(jié)果表明,改進(jìn)的最速下降法減少了計(jì)算過程中的迭代次數(shù),從而提高了運(yùn)算效率;針對(duì)影響信用數(shù)據(jù)提供不全的記錄,將轉(zhuǎn)移概率矩陣應(yīng)用于信用評(píng)估,可解決未來信用預(yù)測(cè)評(píng)估問題。

      信用評(píng)估;最速下降法;Logistic回歸;轉(zhuǎn)移概率

      0 引 言

      人們?cè)诿刻斓纳钪卸紵o時(shí)無刻產(chǎn)生著大量的數(shù)據(jù),例如在進(jìn)行行程安排或工作中。而這些數(shù)據(jù)都蘊(yùn)含著信息,從這些信息中,可以對(duì)一些還未發(fā)生的不確定行為進(jìn)行預(yù)測(cè),或是結(jié)合已知的信息進(jìn)行推測(cè)得到另外有價(jià)值的信息。例如,超市的購物清單就可能反映出商品之間的潛在關(guān)聯(lián)性,即消費(fèi)者在購買一個(gè)商品時(shí)可能會(huì)順帶購買另外某一件商品。對(duì)于經(jīng)營者來說,這就是一條有價(jià)值的信息,其可以對(duì)商品布局提供一個(gè)參考,使得銷售一件商品的同時(shí)可以提高另一件商品的銷量。

      隨著互聯(lián)網(wǎng)金融的發(fā)展,基于大數(shù)據(jù)的信用評(píng)估越來越受到關(guān)注。信用關(guān)乎著社會(huì)與經(jīng)濟(jì)的發(fā)展,銀行可以依據(jù)個(gè)人或企業(yè)的信用度判斷是否給予貸款以及信用卡業(yè)務(wù),并且制定出具體適合的借貸協(xié)議,尤其是農(nóng)戶型小額貸款,評(píng)估參考指標(biāo)不足,導(dǎo)致農(nóng)戶小額貸款融資難的現(xiàn)狀[1]。

      信用度取決于很多方面,包括年齡、年收入、存款等等。而具體某一項(xiàng)和信用的相關(guān)度都是不等的,計(jì)算判斷某個(gè)隨機(jī)個(gè)體的信用度過程就是當(dāng)前研究的主要內(nèi)容,此外還嘗試對(duì)具體信用樣本未來可能的變化進(jìn)行預(yù)測(cè),以幫助解決由于信用度不夠當(dāng)下難以獲得金融服務(wù)的群體的問題,同時(shí)降低其借貸成本。

      1 信用評(píng)估指標(biāo)

      對(duì)用戶的信用進(jìn)行評(píng)估,選取影響信用的因素是至關(guān)重要的,考慮因素不全面則評(píng)估結(jié)果會(huì)產(chǎn)生偏差。從家庭狀況、償還能力、信譽(yù)狀況、經(jīng)營狀況、經(jīng)濟(jì)環(huán)境五個(gè)方面進(jìn)行考慮[2-3]。

      1.1 家庭狀況

      家庭狀況主要包括戶主的年齡、勞動(dòng)力的數(shù)量、勞動(dòng)力的受教育程度、勞動(dòng)力的健康狀況、家庭的婚姻狀況、家庭的負(fù)擔(dān)狀況、家庭成員的職業(yè)類型、家庭成員的職業(yè)職位、成員的戶口性質(zhì)、成員的對(duì)外連帶責(zé)任擔(dān)保狀況等[4]。

      1.2 償還能力

      償還能力主要指家庭的年純收入、家庭總財(cái)產(chǎn)、借貸款情況、家庭支出狀況以及獲取社會(huì)資源能力。

      1.3 信譽(yù)狀況

      信譽(yù)狀況主要包括不良記錄情況、懲罰情況、還款情況、是否為老客戶以及面談?dòng)∠蟆?/p>

      1.4 經(jīng)濟(jì)環(huán)境

      經(jīng)濟(jì)環(huán)境主要包括地區(qū)經(jīng)濟(jì)發(fā)展程度、發(fā)展穩(wěn)定性以及政府優(yōu)惠政策。

      1.5 數(shù)據(jù)處理

      數(shù)據(jù)分為兩種,一種是定性類型,如受教育程度,可以分為五種量級(jí),包括初中及以下、高中、大專、科、碩士及以上。通過打分制,最高的為5分,最低的為1分。還有一種情況,如戶口性質(zhì),只有農(nóng)村戶口與城市戶口之分,則指標(biāo)值為1和0。另一種是定量類型,如家庭收入等等。

      2 數(shù)據(jù)挖掘應(yīng)用

      現(xiàn)有的信用評(píng)估體系僅僅覆蓋了大部分享受過金融服務(wù)的群體,而無法覆蓋信用記錄不完整或不夠完善的消費(fèi)者。比如剛畢業(yè)進(jìn)入職場(chǎng)的青年或是還未涉足商場(chǎng)的創(chuàng)業(yè)者,又或者是遠(yuǎn)離大都市的農(nóng)戶想要在農(nóng)業(yè)方面進(jìn)一步擴(kuò)展需要資金的情況,其共同點(diǎn)是無法獲得常規(guī)的金融服務(wù),或是要付出很大的代價(jià)才能獲得基本的金融服務(wù)?,F(xiàn)有的信用評(píng)估模型的基本思想是將數(shù)據(jù)庫中全體借款人的信用背景信息進(jìn)行建模,然后將待檢查的借款人的歷史資料及個(gè)人信息帶入該模型,得出該借款人的信用度。還有的方案則是將信用度高的和經(jīng)常違約、隨意透支等各種陷入財(cái)務(wù)困境的借款人的群體分別建模,然后比較該借款人與哪個(gè)模型的距離更近,從而判斷該借款人的信用情況。

      2.1 模型的建立

      根據(jù)上一節(jié)對(duì)影響信用的因素的分析,將已收集到的指標(biāo)數(shù)據(jù)進(jìn)行建模。運(yùn)用分類算法,將數(shù)據(jù)分類成信用度高的群體和信用度低的群體。若y代表信用度的高低,針對(duì)數(shù)據(jù)特征可以選用線性回歸,選取0.5為臨界點(diǎn),右側(cè)為y=1,左側(cè)為y=0。圖1為線性分類圖。

      圖1 線性分類圖

      對(duì)于信用評(píng)估,通過對(duì)已獲得的數(shù)據(jù)建立一個(gè)模型,即用一條線去擬合這些數(shù)據(jù),然后將待預(yù)測(cè)的樣本數(shù)據(jù)帶入到該模型中,獲得返回值,即新樣本的信用預(yù)測(cè)結(jié)果。這里采用線性回歸來構(gòu)建模型。假設(shè)用x1,x2,…,xn描述特征變量,可以構(gòu)造出一個(gè)估計(jì)函數(shù):

      h(x)=hθ(x)=θ0+θ1x1+…+θnxn

      (1)

      其中,θ表示特征變量的參數(shù)。定義x0=1,則公式可表示為:

      (2)

      其中,n表示特征數(shù)目。

      使式(2)盡可能地?cái)M合數(shù)據(jù),需選取合適的參數(shù)θ,可以用損失函數(shù)來描述h(x)的擬合程度,如下:

      (3)

      通過改變?chǔ)仁乖摀p失函數(shù)值盡可能小,當(dāng)函數(shù)值收斂于0,選取此時(shí)θT,模型建成。調(diào)整θ使J(θ)取最小值的方法有很多,包括最小二乘法、最速下降法等方法。

      2.2 最小二乘法

      (4)

      對(duì)θ求導(dǎo),化簡(jiǎn)得:

      (5)

      但是,計(jì)算一個(gè)矩陣的逆是相當(dāng)耗時(shí)的,而且求逆也會(huì)存在數(shù)值不穩(wěn)定的情況,最速下降法相比較而言計(jì)算量不是特別大,收斂性有保證,只是迭代次數(shù)可能較高[5]。

      2.3 最速下降法

      最速下降法是沿負(fù)梯度方向,函數(shù)下降最快,由J(θ)對(duì)θ的偏導(dǎo)數(shù)確定,如下:

      (6)

      θi:=θi-?(hθ(x)-y)·xi

      (7)

      如此迭代更新,最終確定θ。

      為了導(dǎo)出梯度下降的方向,需要關(guān)于每個(gè)參數(shù)的分量對(duì)目標(biāo)函數(shù)求偏導(dǎo)[6]。

      (8)

      則梯度下降的規(guī)則是:

      (9)

      2.4 改進(jìn)的最速下降法

      最速下降法具有很好的整體收斂性,但在相繼兩次迭代中,方向是相互正交的,則在逼近極值點(diǎn)的路線是鋸齒形的,并且越靠近極值點(diǎn)步長(zhǎng)越小,即越走越慢[7]。

      為了解決最速下降法收斂速度在逼近極值點(diǎn)緩慢的問題,提出了SDM Imp(Steepest Descent Method Improved),具體描述如下:

      假設(shè)在二維圖形中,此時(shí)可以考慮在接近極值點(diǎn)時(shí),選取xk-1和xk的方向和作為xk的方向,這樣能獲得更快的收斂速度,從而提高算法效率,擬合原本模型的方向,如圖2所示。

      圖2 最速下降法的改進(jìn)圖例

      2.5 Logistic回歸

      Logistic回歸方程為:

      (10)

      轉(zhuǎn)換得:

      (11)

      對(duì)假設(shè)進(jìn)行概率上的解釋,有:

      p(y=1|x;θ)=hθ(x)

      (12)

      p(y=0|x;θ)=1-hθ(x)

      (13)

      結(jié)合有:

      p(y|x;θ)=hθ(x)y(1-hθ(x))1-y

      (14)

      數(shù)據(jù)的概率即參數(shù)的似然性為:

      (15)

      則問題轉(zhuǎn)化為找到參數(shù)θ的一個(gè)極大似然估計(jì)[11],即需要找到參數(shù)θ使得似然性L(θ)最大化,推導(dǎo)時(shí),使似然性的對(duì)數(shù)最大化比使似然性最大化容易得多,則對(duì)上式兩邊求對(duì)數(shù)得:

      (16)

      則問題轉(zhuǎn)化為求對(duì)數(shù)最大化的最優(yōu)化問題,可采用改進(jìn)后的最速下降法。

      2.6 一步轉(zhuǎn)移概率矩陣的應(yīng)用

      上述對(duì)信用估計(jì)模型的構(gòu)建,確定了每個(gè)特征變量前面的參數(shù)θ,每個(gè)特征對(duì)結(jié)果的影響強(qiáng)弱可由前面的參數(shù)體現(xiàn),能夠?qū)崿F(xiàn)對(duì)當(dāng)前新樣本數(shù)據(jù)進(jìn)行信用評(píng)估,但是這還不能體現(xiàn)目前信用度不高的群體未來的信用情況,所以該模型不能適用于目前信用度不高但未來很有潛力的群體,預(yù)測(cè)他們是否可以享受到基本的金融服務(wù)[12]。針對(duì)這樣的情況,結(jié)合馬爾可夫過程,設(shè)計(jì)了應(yīng)用一步轉(zhuǎn)移概率的解決方案,根據(jù)概率轉(zhuǎn)移矩陣,就能得到狀態(tài)之間經(jīng)過一步或多步轉(zhuǎn)移的規(guī)律,從而實(shí)現(xiàn)根據(jù)當(dāng)下的初始狀態(tài)對(duì)后期進(jìn)行預(yù)測(cè)[13]。其具體步驟為:

      (2)計(jì)算出經(jīng)某一段時(shí)間T從某個(gè)狀態(tài)轉(zhuǎn)移至另一個(gè)狀態(tài)的概率,即構(gòu)造出一步轉(zhuǎn)移概率矩陣Zt×t。

      (5)將各狀態(tài)帶入之前求得的模型,得到該用戶的信用結(jié)果。

      假設(shè)時(shí)間段T為一年,一步轉(zhuǎn)移概率矩陣Zt×t,每個(gè)元素代表了個(gè)體從某個(gè)狀態(tài)經(jīng)過一年可能成為其他各個(gè)可能狀態(tài)的概率。例如,若現(xiàn)只考慮兩個(gè)指標(biāo)—學(xué)歷與年收入,學(xué)歷分為4個(gè)狀態(tài),包括初中及以下、高中或大專、本科、碩士及以上,年收入分為5個(gè)狀態(tài),包括2萬及以下、2萬~5萬、5萬~10萬、10萬~20萬、20萬及以上,則總共存在20個(gè)狀態(tài),包括學(xué)歷為初中及以下且年收入為2萬以下,學(xué)歷為初中及以下且年收入為2萬~5萬,等等。設(shè)計(jì)矩陣Z20*20,其中Zij=p(j|i)表示在當(dāng)前狀態(tài)i下一時(shí)間段會(huì)轉(zhuǎn)成狀態(tài)j的概率。將當(dāng)前狀態(tài)的初始向量乘上該矩陣,就可以得到該初始狀態(tài)的個(gè)體在下一年可能轉(zhuǎn)變成的狀態(tài)情況。

      (17)

      然后計(jì)算出非零狀態(tài)下的信用結(jié)果,求出該向量對(duì)應(yīng)的信用,即

      f(x)=ft

      (18)

      其中,ft為向量中非零元素對(duì)應(yīng)的第t個(gè)狀態(tài)下的信用,則可以實(shí)現(xiàn)對(duì)下一年信用的預(yù)測(cè)。

      (19)

      其中,l為向量中非零元素的個(gè)數(shù);ft為第t個(gè)狀態(tài)下的信用[14]。

      如此將一步狀態(tài)轉(zhuǎn)移矩陣運(yùn)用到對(duì)信用的預(yù)測(cè)中,還可以預(yù)測(cè)a年后該樣本可能的所處狀態(tài)。

      (20)

      然后結(jié)合各狀態(tài)的信用,計(jì)算出未來的信用度,這更能符合提供金融服務(wù)的機(jī)構(gòu)對(duì)客戶信用度的需求。例如,借貸服務(wù)、金融服務(wù)機(jī)構(gòu)需要考慮的是客戶在還貸期間的信用情況,相比于當(dāng)下的信用度可能更具參考價(jià)值。

      3 實(shí)驗(yàn)結(jié)果與分析

      綜上可知,最速下降法的相鄰搜索方向是正交的,改進(jìn)后的方法通過改變方向更快速地逼近極值點(diǎn),所以為了測(cè)試改進(jìn)后的方法,就將改進(jìn)前后的方法應(yīng)用于計(jì)算的迭代次數(shù)與運(yùn)行時(shí)間進(jìn)行比較。

      一方面,在相同的數(shù)據(jù)個(gè)數(shù)及實(shí)驗(yàn)次數(shù)下,比較兩種方法計(jì)算過程中的迭代次數(shù),結(jié)果如圖3所示。

      圖3 改進(jìn)前后的迭代次數(shù)對(duì)比

      另一方面,在相同的數(shù)據(jù)個(gè)數(shù)及實(shí)驗(yàn)次數(shù)下,比較兩種方法計(jì)算過程的耗費(fèi)時(shí)間,結(jié)果如圖4所示。

      從上述實(shí)驗(yàn)結(jié)果可以看出,改進(jìn)的最速下降法性能上比原始方法要好,運(yùn)算效率有所提高。

      4 結(jié)束語

      針對(duì)信用評(píng)估問題,對(duì)已有的影響信用數(shù)據(jù)進(jìn)行處理與建模,提出了一種最速下降法的改進(jìn)方法,能夠在建模過程中更高效地運(yùn)算。另外,將一步轉(zhuǎn)移概率應(yīng)用到信用的評(píng)估預(yù)測(cè)中,實(shí)現(xiàn)了對(duì)影響信用數(shù)據(jù)不足的用戶所進(jìn)行的評(píng)估以及對(duì)未來一段時(shí)間后的用戶信用所進(jìn)行的評(píng)估。

      圖4 改進(jìn)前后的運(yùn)算時(shí)間對(duì)比

      [1] 陳永明,周 龍,李雙紅.基于AHP和DEMATEL方法的農(nóng)戶信用評(píng)級(jí)研究[J].征信,2012(5):20-24.

      [2] 孫玲芳,祁 軍,徐 會(huì),等.面向交易型虛擬社區(qū)的信用評(píng)價(jià)模型研究[J].信息技術(shù),2014,38(7):74-77.

      [3] Lu Jianchang,Wu Jipeng.The fuzzy comprehensive evaluation on credit risk of power customers based on AHP[C]//Second international symposium on information science and engineering.Shanghai:[s.n.],2009:148-151.

      [4] 李俊麗.基于層次分析法的農(nóng)戶信用評(píng)估[J].商業(yè)研究,2009(10):125-127.

      [5] Qiu Y. An importance sampling method based on variance minimization with applications to credit risk[C]//Proceedings of the 29th Chinese control conference.Beijing:[s.n.],2010:3176-3179.

      [6] 吳 鋒,李秀梅,朱旭輝,等.最速下降法的若干重要改進(jìn)[J].廣西大學(xué)學(xué)報(bào):自然科學(xué)版,2010,35(4):596-600.

      [7] 李鴻儀.理想化最速下降法及其逼近實(shí)例[J].上海第二工業(yè)大學(xué)學(xué)報(bào),2011,28(1):8-13.

      [8] 池光輝,劉建偉,李衛(wèi)民,等.權(quán)核Logistic回歸模型的分類和特征選擇算法[J].計(jì)算機(jī)工程與應(yīng)用,2013,49(9):41-44.

      [9] 王 鵬,孫繼銀,郭文普,等.前視紅外目標(biāo)匹配中的圖像質(zhì)量建模[J].計(jì)算機(jī)應(yīng)用研究,2012,29(12):4797-4800.

      [10] 鄭蘭祥,萬 雪.基于Logit法的我國農(nóng)村小額貸款公司信用風(fēng)險(xiǎn)評(píng)分模型構(gòu)建研究[J].安徽農(nóng)業(yè)大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2014,23(4):49-54.

      [11] 姜 盛.基于Logistic的信用卡套現(xiàn)偵測(cè)評(píng)分模型[J].計(jì)算機(jī)應(yīng)用,2009,29(11):3088-3091.

      [12] Mastin A,Jaillet P.Loss bounds for uncertain transition probabilities in Markov decision processes[C]//51st IEEE conference on decision and control.Maui,HI:IEEE,2012:6708-6715.

      [13] 馮學(xué)偉,王東霞,黃敏桓,等.一種基于馬爾可夫性質(zhì)的因果知識(shí)挖掘方法[J].計(jì)算機(jī)研究與發(fā)展,2014,51(11):2493-2504.

      [14] Hu Yuting,Xie Rong,Zhang Wenjun,et al.Prediction of tourists flow distribution based on transition probability matrix[C]//8th international conference on information science and digital content technology.Jeju Island,Korea:[s.n.],2012:636-640.

      Investigation on Credit Evaluation Based on Data Mining

      QIU Mei1,WANG Zhe-yuan2

      (1.College of Computer,Nanjing University of Posts and Telecommunications,Nanjing 210003,China;2.College of Mathematics and Computer Science,Fuzhou University,Fuzhou 350116,China)

      Credit has been combined closely with people’s daily life and work.And credit assessment maintains a significant requirement of customers in service industries such as finances and communications.In this paper,the Steepest Descent Method (SDM) in Logistic Regression analysis has been improved based on influence factors of credit and relative data of modeling,reducing iteration times and time in regression modeling.The strategy can be explained that in original SDM,adjacent searching directions keep orthogonal and steps approach zero when they are close to the extreme point,which contributes to a slow rate of convergence.Yet,in the improved scheme,current searching direction has been determined by the last one and zigzag directions are eliminated therefore.In the experiments,it is proved that times of iterations is decreased and computational efficiency is enhanced.Moreover,aiming at defective credit records,matrix of transition probability has been adopted in order to solve problem of the credit assessment and prediction in the future.

      credit evaluation;steepest descent method;Logistic Regression;transition probability

      2016-08-02

      2016-11-10 網(wǎng)絡(luò)出版時(shí)間:2017-06-05

      國家“863”高技術(shù)發(fā)展計(jì)劃項(xiàng)目(2006AA01Z201)

      邱 梅(1992-),女,碩士研究生,研究方向?yàn)閿?shù)據(jù)挖掘、機(jī)器學(xué)習(xí)。

      http://kns.cnki.net/kcms/detail/61.1450.TP.20170605.1507.048.html

      TP311

      A

      1673-629X(2017)08-0047-05

      10.3969/j.issn.1673-629X.2017.08.010

      猜你喜歡
      信用度信用概率
      分 析
      意林(2023年7期)2023-06-13 13:00:55
      第6講 “統(tǒng)計(jì)與概率”復(fù)習(xí)精講
      第6講 “統(tǒng)計(jì)與概率”復(fù)習(xí)精講
      概率與統(tǒng)計(jì)(一)
      概率與統(tǒng)計(jì)(二)
      為食品安全加把“信用鎖”
      信用收縮是否結(jié)束
      中國外匯(2019年9期)2019-07-13 05:46:30
      基于AHP和k-means算法的電力用戶信用度評(píng)價(jià)
      信用中國網(wǎng)
      信用消費(fèi)有多爽?
      常德市| 福泉市| 木兰县| 金塔县| 兴安县| 南通市| 太保市| 开远市| 天长市| 久治县| 宁河县| 衡阳县| 昌宁县| 淳安县| 枣庄市| 沾化县| 云梦县| 太仓市| 通许县| 汉中市| 鞍山市| 宽甸| 易门县| 且末县| 甘谷县| 石渠县| 同江市| 江源县| 彭阳县| 博罗县| 惠东县| 长宁县| 万山特区| 阿巴嘎旗| 廉江市| 临沧市| 横山县| 嵩明县| 鸡泽县| 车致| 富宁县|