王培靜 趙乃萱 王培吉
(1.中國(guó)人民銀行包頭支行,內(nèi)蒙古 包頭 014010;2.西南大學(xué)經(jīng)濟(jì)管理學(xué)院,重慶 400715;3.內(nèi)蒙古科技大學(xué)理學(xué)院,內(nèi)蒙古 包頭014010)
為了科學(xué)、有效利用數(shù)據(jù)信息資源,對(duì)數(shù)據(jù)只進(jìn)行存取和查詢,已不能滿足人們對(duì)數(shù)據(jù)進(jìn)行知識(shí)抽取、發(fā)現(xiàn)數(shù)據(jù)間隱藏的依賴關(guān)系,從而為做出合理決策提供科學(xué)支持的需要,由此產(chǎn)生并發(fā)展了多種用于數(shù)據(jù)理解和分析的數(shù)據(jù)挖掘理論和方法,數(shù)據(jù)挖掘[1]是指從數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)源中提取出隱含的、先前未知的、對(duì)做出合理決策有潛在價(jià)值的知識(shí)、規(guī)則、模式,為決策者提供前瞻的,基于知識(shí)的科學(xué)、有效的決策意見。
1993年AgrawalR.等人首先提出的挖掘顧客交易數(shù)據(jù)庫(kù)中項(xiàng)集之間的依賴關(guān)系(規(guī)則、知識(shí)、模式)-關(guān)聯(lián)規(guī)則及其挖掘問題,將關(guān)聯(lián)規(guī)則挖掘用于分析消費(fèi)者的購(gòu)買習(xí)慣,幫助企業(yè)進(jìn)行科學(xué)決策、制定最優(yōu)營(yíng)銷策略。AgrawalR.于1994年提出了挖掘關(guān)聯(lián)規(guī)則的經(jīng)典算法,這就是一直普遍使用的Apriori算法[2]。
基于Apriori算法的關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘模型中主要解決兩個(gè)問題:一是從事務(wù)數(shù)據(jù)庫(kù)中挖掘所有的頻繁項(xiàng)集;二是由頻繁項(xiàng)集產(chǎn)生基于支持度-置信度關(guān)聯(lián)規(guī)則評(píng)估體系的強(qiáng)關(guān)聯(lián)規(guī)則。
第一,輸入信息系統(tǒng)S={U,I,F(xiàn)}和最小支持度min-sup,生成分辨矩陣D,壓縮分辨矩陣;
第二,挖掘頻繁項(xiàng)集LK:
求頻繁1-項(xiàng)集(k=1):(1)把分辨矩陣D中每個(gè)項(xiàng)目的支持計(jì)數(shù)和最小支持度比較,取那些支持計(jì)數(shù)大于或等于最小支持度行,生成頻繁1-項(xiàng)集L1;(2)刪除分辨矩陣中那些支持計(jì)數(shù)小于最小支持度所對(duì)應(yīng)的行;(3)k=2。
求頻繁k-項(xiàng)集(k>=2):(1)將用于保存每個(gè)項(xiàng)目在頻繁k-1-項(xiàng)集中出現(xiàn)次數(shù)的數(shù)組置零;將用于統(tǒng)計(jì)頻繁k-項(xiàng)集中項(xiàng)集的個(gè)數(shù)的變量清零;(2)分辨矩陣中分辨行向量(行向量)進(jìn)行對(duì)位與運(yùn)算,通過比較支持計(jì)數(shù)和最小支持度,找出頻繁k-項(xiàng)集;(3)k=k+1。
給定事務(wù)集D中的關(guān)聯(lián)規(guī)則AB,D中事務(wù)同時(shí)包含A,B的百分比S,稱為關(guān)聯(lián)規(guī)則AB在事務(wù)集D中成立具有支持度S;包含A的事務(wù)中同時(shí)包含B的百分比C稱為關(guān)聯(lián)規(guī)則AB在事務(wù)集D中成立具有置信度C,分別衡量規(guī)則有用性和確定性。D中事務(wù)包含B的百分比EC,稱為關(guān)聯(lián)規(guī)則AB的期望置信度;置信度C與期望置信度的比值稱為該關(guān)聯(lián)規(guī)則的興趣度i。
擬按以下步驟由頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則:
第一,當(dāng)興趣度等于1時(shí),事務(wù)包含A與事務(wù)包含B是獨(dú)立的;
第二,當(dāng)興趣度大于1時(shí),事務(wù)包含A與事務(wù)包含B是正相關(guān)的,從頻繁項(xiàng)集L中產(chǎn)生滿足最小支持度、最小置信度和最小興趣度的強(qiáng)關(guān)聯(lián)規(guī)則;
第三,當(dāng)興趣度小于1時(shí),事務(wù)包含A與事務(wù)包含B是負(fù)相關(guān)的,過濾無趣關(guān)聯(lián)規(guī)則,從頻繁項(xiàng)集L中產(chǎn)生滿足最小支持度、最小置信度和最小興趣度的含負(fù)屬性項(xiàng)強(qiáng)關(guān)聯(lián)規(guī)則。
通過對(duì)銀行客戶數(shù)據(jù)庫(kù)的關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘,發(fā)現(xiàn)數(shù)據(jù)中隱含的依賴關(guān)系,得出金融信息之間的有用的強(qiáng)關(guān)聯(lián)規(guī)則,依據(jù)數(shù)據(jù)挖掘的結(jié)果,對(duì)客戶進(jìn)行科學(xué)的分類,為各類客戶科學(xué)設(shè)計(jì)相應(yīng)的金融產(chǎn)品,從而給不同類的客戶提供不同的金融產(chǎn)品,完善銀行的專業(yè)化服務(wù)功能和水平。
1.數(shù)據(jù)預(yù)處理,包括數(shù)據(jù)清理。對(duì)銀行客戶數(shù)據(jù)庫(kù),消除噪音或不一致數(shù)據(jù);數(shù)據(jù)集成:組合多種數(shù)據(jù)源在一起;數(shù)據(jù)選擇:從金融數(shù)據(jù)信息系統(tǒng)中提取與分析數(shù)據(jù)挖掘任務(wù)相關(guān)的數(shù)據(jù);數(shù)據(jù)變換:數(shù)據(jù)變換或統(tǒng)一成適合數(shù)據(jù)挖掘的形式;
2.利用頻繁項(xiàng)集基本定理:頻繁項(xiàng)集的非空子集是頻繁項(xiàng)集;非頻繁項(xiàng)集的超集是非頻繁項(xiàng)集,識(shí)別滿足最小支持度的頻繁項(xiàng)集;
3.從頻繁項(xiàng)集中挖掘滿足最小支持度、最小置信度和最小興趣度的關(guān)聯(lián)規(guī)則;
4.結(jié)合挖掘目標(biāo),識(shí)別提供知識(shí)的真正有趣的模式,解釋關(guān)聯(lián)規(guī)則;依據(jù)有趣的關(guān)聯(lián)規(guī)則,對(duì)客戶進(jìn)行科學(xué)的分類,針對(duì)不同客戶,設(shè)計(jì)不同的金融產(chǎn)品。
1.挖掘?qū)ο?。銀行客戶數(shù)據(jù)庫(kù):存放客戶信息數(shù)據(jù),其中一個(gè)客戶看作一個(gè)記錄,一種信息看作一個(gè)屬性,數(shù)據(jù)記錄數(shù)為客戶人數(shù),屬性數(shù)減1為信息種數(shù)。
金融服務(wù)產(chǎn)品舉例
2.挖掘頻繁項(xiàng)集L。輸入:銀行客戶數(shù)據(jù)庫(kù)和最小支持度0.2;輸出:頻繁項(xiàng)集 L={i14,i16,i17,i34,i45,i46,i47,i48,i56,i67,i146,i147,i167,i456,i467}。
3.挖掘關(guān)聯(lián)規(guī)則。輸入:頻繁項(xiàng)集L,最小置信度0.7,最小興趣度 1.5;輸出:R1:i1?i47(s=0.2959,c=0.7632,i=2.3372),R2:i7i14(s=0.2959,c=0.8788,i=2.6097)等。
4.解釋規(guī)則。規(guī)則R1:客戶是教師、月收人6000元以上,貸款買房的支持度、置信度、興趣度分別為0.2959,0.7632,2.3372。
5.應(yīng)用規(guī)則。如頻繁項(xiàng)集“客戶是教師、月收人6000元以上且貸款買房”產(chǎn)生的強(qiáng)關(guān)聯(lián)規(guī)則的支持度、置信度、興趣度分別滿足支持度、置信度、興趣度的閾值,說明:教師職業(yè)、月收人6000元以上、貸款買房,它們之間具有較強(qiáng)的影響力,銀行由此設(shè)計(jì)并提供相應(yīng)的金融產(chǎn)品,提高銀行金融服務(wù)的有效性、科學(xué)性和針對(duì)性。