基于數(shù)據挖掘技術的個人信用的研究與分析

2016-02-02 13:07:10董婷

山東工業(yè)技術 2016年22期

關鍵詞：平方和項集數(shù)據挖掘

董婷

（榆林學院信息工程學院,陜西榆林 719000）

基于數(shù)據挖掘技術的個人信用的研究與分析

董婷

（榆林學院信息工程學院,陜西榆林 719000）

本文使用國內頂尖的在線數(shù)據挖掘平臺（TipDM），找出對分類預測影響較大的屬性進行建模，分別通過基于k-means的聚類分析和Aporiori關聯(lián)規(guī)則分析等方法對樣本數(shù)據進行分析預測，找到了一條最后的規(guī)則。

數(shù)據挖掘;關聯(lián)規(guī)則;個人信用

0 引言

本文使用國內頂尖的在線數(shù)據挖掘平臺（TipDM），找出對分類預測影響較大的變量進行建模，分別通過k-means的聚類分析、Aporiori關聯(lián)規(guī)則分析等方法對樣本數(shù)據進行分析預測。

1 方法

1.1 K-means聚類算法

K-means聚類算法是把數(shù)據點到原模型的某種距離作為優(yōu)化的目標函數(shù)，利用函數(shù)求極值的方法得到迭代運算的調整規(guī)則。K-means算法以歐式距離作為相似度測度，它是求對應某一初始聚類中心向量V最優(yōu)分類，使得評價指標J最小[1]。算法采用誤差平方和準則函數(shù)作為聚類準則函數(shù)。

（1）K-means聚類算法的目標函數(shù)。對于給定的一個包含n個 S維數(shù)據點的數(shù)據集，以及要生成的數(shù)據子集的數(shù)目K，K-means聚類算法將數(shù)據對象組織為K個劃分。每個劃分代表一個類，每個類有一個類別中心。計算該類內各點到聚類中心的距離平方和,聚類目標是使各類總的距離平方和最小[2]。

（2）K-means算法的算法流程。K-means算法是一個反復迭代過程,目的是使聚類域中所有的樣品到聚類中心距離的平方和最小，算法流程如下：第一步：選定數(shù)據空間中K個對象作為初始聚類中心；第二步：根據歐氏距離最近原則分別將它們分配給與其最相似的聚類中心所代表的類；第三步：計算每個類別中所有對象的均值作為該類別的新聚類中心，計算所有樣本到其所在類，并判斷聚類中心和值是否發(fā)生改變，若不改變則結束，若改變則繼續(xù)循環(huán)操作，直到聚類中心和值不發(fā)生改變?yōu)橹筟3]。

1.2 關聯(lián)規(guī)則

兩個或兩個以上變量的取值之間存在某種規(guī)律性，就是關聯(lián)。數(shù)據關聯(lián)是數(shù)據庫中存在的一類重要的可被發(fā)現(xiàn)的知識。Apriori algorithm是關聯(lián)規(guī)則里一項基本算法。關聯(lián)規(guī)則的目的就是在一個數(shù)據集中找出項與項之間的關系，也被稱為購物藍分析。Apriori核心算法過程如下：第一步：掃描數(shù)據庫計算出各個項集的支持度，得到頻繁項集的集合；第二步：做一個（k-2）JOIN運算得到 2個只有一個項不同的屬于的頻集；第三步：通過掃描數(shù)據庫，計算中各個項集的支持度，將中不滿足支持度的項集去掉[4]。

2 試驗數(shù)據

本文通過對300條樣本數(shù)據的年齡、姓名、地區(qū)、收入、是否結婚、是否有孩子、是否有汽車、是否有抵押等參數(shù)進行分析，通過關聯(lián)規(guī)則對樣本中的某些變量進行分析，找到了一條最優(yōu)規(guī)則；通過聚類分析算法對樣本整體和某一變量進行聚類分析，分析出各簇中的樣本數(shù)與百分比。

3 試驗結果

3.1 利用K-means算法對樣本數(shù)據進行分析評估

k均值聚類迭代次數(shù)為3，集群內誤差平方和為775.1756576878267，用均值替代的全局缺省值，得到各簇分析統(tǒng)計結果如表1。

表1

3.2 利用Apriori關聯(lián)規(guī)則算法對樣本數(shù)據進行分析評估

樣本的最小支持度為0.1，置信度為0.9，產生的項集和其樣本數(shù)量如表2。

表2

Apriori關聯(lián)規(guī)則分析結果如下：

children=NO mortgage=NO pep=NO 49 ==＞ married=YES 48＜conf：(0.98)＞ lift：(1.45) lev：(0.05) [15] conv：(8

4 試驗總結

現(xiàn)階段，信貸業(yè)務的發(fā)展迅速，針對企業(yè)的信用評級已逐步完善，然而，針對個人的信用評級卻相對欠缺。本次試驗是使用國內頂尖的數(shù)據挖掘平臺（tipdm）主要是針對個人信用評價的樣本數(shù)據的某些變量進行了k-means聚類分析和關聯(lián)規(guī)則分析，通過這次試驗我認為k-means聚類算法是一個NP難優(yōu)化問題，無法獲得全局最優(yōu)。

通過對樣本數(shù)據分析評估發(fā)現(xiàn)，在個人信用評級中信用最好的一條規(guī)則是沒有孩子、沒有抵押或負債，并且已經結婚。

[1]杜廣龍.面向多自由度機器人的非受限智能人機交互的研究[D].華南理工大學,2013.

[2]安璐.異構蜂窩網絡高能效節(jié)點部署研究[D].北京郵電大學,2015.

[3]任超.基于智能計算的預測模型研究及其在公共危機管理中的應用[D].蘭州大學,2013.

[4]陳雪萍.數(shù)據挖掘技術在高校教務管理中的應用研究[D].廣西師范大學,2014.

項目：2014榆林科技局項目(2014cxy-09-6)

10.16640/j.cnki.37-1222/t.2016.22.129