管 剛 楊 濤
【摘要】 簡要闡述理數(shù)據(jù)挖掘的概念、發(fā)展及基本技術(shù),并著重闡述了其在金融領(lǐng)域的應(yīng)用。
【關(guān)鍵詞】 數(shù)據(jù)挖掘;金融領(lǐng)域
一、數(shù)據(jù)挖掘技術(shù)簡介
1.數(shù)據(jù)挖掘技術(shù)的定義
數(shù)據(jù)挖掘就是從大型數(shù)據(jù)庫的數(shù)據(jù)中提取人們感興趣的知識、這些知識是隱含的、事先未知的、潛在有用的信息,提取的知識表示為概念(Concepts),規(guī)則(Rules)、規(guī)律(Regularities)、模式(Patterns)等形式。這個定義把數(shù)據(jù)挖掘的對象定義為數(shù)據(jù)庫。
2.常用的數(shù)據(jù)挖掘技術(shù)和過程
在數(shù)據(jù)挖掘中最常用的建模技術(shù)有:
(1)統(tǒng)計:統(tǒng)計是涉及數(shù)據(jù)和描述的一個數(shù)學(xué)分支,其主要任務(wù)就是了解已經(jīng)收集到的有限數(shù)據(jù),并根據(jù)這些數(shù)據(jù)作出關(guān)于潛在數(shù)據(jù)分布是什么的預(yù)測。
(2)K近鄰:近鄰技術(shù)是指為了預(yù)測在一個記錄中的預(yù)測值是什么,在歷史數(shù)據(jù)庫中尋找有相似預(yù)測值的記錄,并使用未分類記錄中最接近的記錄值作為預(yù)測值。對基礎(chǔ)最近鄰算法常常作的改進是從K個最近的鄰居中進行投票選擇,而不是僅僅取決于距未知記錄最近的鄰居。
(3)聚類:聚類方法用于將記錄聚集在一起,從而給出數(shù)據(jù)庫的一個高層視圖。
(4)決策樹:決策樹是指采取樹形式的預(yù)測模型,樹的每個分支都是一個分類方法,樹葉是帶有分類的數(shù)據(jù)分割。
(5)人工神經(jīng)網(wǎng)絡(luò)是仿照生理神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的非線形預(yù)測模型,通過學(xué)習進行模式識別。
(6)規(guī)則歸納:從統(tǒng)計意義上對數(shù)據(jù)中的“if……then… …”規(guī)則進行尋找和推導(dǎo)。
3.數(shù)據(jù)挖掘的過程
(1)數(shù)據(jù)準備。數(shù)據(jù)的準備階段可分為數(shù)據(jù)選取、數(shù)據(jù)預(yù)處理、數(shù)據(jù)轉(zhuǎn)換三個步驟。數(shù)據(jù)的選取是根據(jù)用戶的需要從原始數(shù)據(jù)庫中抽取的一部分數(shù)據(jù);數(shù)據(jù)預(yù)處理是消除噪聲、推導(dǎo)計算缺值數(shù)據(jù)、消除重復(fù)記錄、完成數(shù)據(jù)類型轉(zhuǎn)換;數(shù)據(jù)轉(zhuǎn)換的主要目的是削減數(shù)維數(shù)或降維。
(2)數(shù)據(jù)挖掘。對準備好的數(shù)據(jù)進行分類、聚類,找出關(guān)聯(lián)規(guī)則,之后根據(jù)具體目標,確定數(shù)據(jù)挖掘的算法,在選擇算法的時候,重要的是根據(jù)用戶需求來決定具體的算法,然后確定具體的挖掘模型。
(3)結(jié)果評估。對數(shù)據(jù)挖掘階段確定的模型,進行評價,消除冗余,使得模型滿足用戶的需求。在評價時要及時反饋,不符合的就要重新返回到以上兩個步驟,直到滿足要求。
二、數(shù)據(jù)挖掘技術(shù)在金融領(lǐng)域的應(yīng)用
1.數(shù)據(jù)挖掘技術(shù)在證券行業(yè)的應(yīng)用
數(shù)據(jù)挖掘在此過程中將發(fā)揮重要作用,其技術(shù)應(yīng)用的方向主要有:
(1)客戶分析。建立數(shù)據(jù)倉庫來存放對全體客戶、預(yù)定義客戶群、某個客戶的信息和交易數(shù)據(jù),并通過對這些數(shù)據(jù)進行挖掘和關(guān)聯(lián)分析,實現(xiàn)面向主題的信息抽取。
(2)咨詢服務(wù)。根據(jù)采集行情和交易數(shù)據(jù),結(jié)合行情分析,預(yù)測未來大盤走勢,并發(fā)現(xiàn)交易情況隨著大盤變化的規(guī)律,并根據(jù)這些規(guī)律做出趨勢分析,對客戶針對性進行咨詢。
(3)風險防范。通過對資金數(shù)據(jù)的分析,可以控制營業(yè)風險,可以改變公司總部原來的資金控制模式,并通過橫向比較及時了解資金情況,起到風險預(yù)警的作用。
(4)經(jīng)營狀況分析。通過數(shù)據(jù)挖掘,可以及時了解營業(yè)狀況、資金情況、利潤情況、客戶群分布等重要的信息,并結(jié)合大盤走勢,提供不同行情條件下的最大收益經(jīng)營方式。通過對各營業(yè)部經(jīng)營情況的橫向比較,以及對本營業(yè)部歷史數(shù)據(jù)的縱向比較,對營業(yè)部的經(jīng)營狀況作出分析,提出經(jīng)營建議。
2.數(shù)據(jù)挖掘在銀行CRM(客戶關(guān)系關(guān)系管理)中的應(yīng)用
客戶關(guān)系管理(以下簡稱CRM,Customer Relationship Management)是現(xiàn)代商業(yè)銀行的重要業(yè)務(wù)之一。商業(yè)銀行實施CRM的目標是了解客戶需求,找出能盈利客戶,提高針對性服務(wù)。要實現(xiàn)以上目標,可以借助層次信息處理技術(shù),它能夠充分利用客戶資料,發(fā)現(xiàn)潛在的,有用的規(guī)則和模式。
數(shù)據(jù)挖掘技術(shù)在商業(yè)銀行CRM 中具有廣泛用途主要有:
(1)加載客戶信息。這一階段主要是進行數(shù)據(jù)清理,消除現(xiàn)有業(yè)務(wù)系統(tǒng)中有關(guān)客戶賬戶數(shù)據(jù)不一致的現(xiàn)象,將其整合到中央市場客戶信息庫,建立以客戶為中心的數(shù)據(jù)倉庫基礎(chǔ)環(huán)境。銀行各業(yè)務(wù)部門對客戶有統(tǒng)一的視圖,可以進行相關(guān)的客戶分析。
(2)加載客戶交易信息。這一階段主要是把客戶與銀行分銷渠道的所有歷史交易數(shù)據(jù)加載到中央市場客戶信息庫。這一階段完成后,銀行可以分析客戶使用分銷渠道的情況和分銷渠道的容量,了解客戶、渠道、服務(wù)三者之間的關(guān)系。
(3)模型評測。為客戶的每一個賬號建立利潤評測模型,以便了解客戶對銀行的總利潤貢獻度。要建立利潤評測模型,需要加載會計系統(tǒng)的財務(wù)數(shù)據(jù)到中央數(shù)據(jù)倉庫。這一階段完成后,銀行可以從組織、客戶和產(chǎn)品三個方面分析利潤貢獻度。
(4)優(yōu)化客戶關(guān)系。銀行應(yīng)該掌握客戶在生活、職業(yè)等方面的變化及外部環(huán)境的變化,抓住推銷新產(chǎn)品和服務(wù)的時機。這需要將賬號每次發(fā)生的交易明細數(shù)據(jù),加載到中央數(shù)據(jù)倉庫,核對客戶行為的變化。
(5)風險評估和管理。銀行風險管理的對象主要是與資產(chǎn)和負債有關(guān)的風險,與資產(chǎn)負債有關(guān)的業(yè)務(wù)系統(tǒng)的交易數(shù)據(jù)要加載到中央數(shù)據(jù)倉庫;然后,銀行可以依照不同的期間,以數(shù)學(xué)模型分析和模擬計算利率敏感性資產(chǎn)和負債之間的缺口,了解銀行在不同期間資本比率、資產(chǎn)負責結(jié)構(gòu)、資金情況和凈利息收人的變化。
三、數(shù)據(jù)挖掘技術(shù)在金融領(lǐng)域應(yīng)用存在的問題和挑戰(zhàn)
1.選擇合適的數(shù)據(jù)挖掘方法和參數(shù)
在金融數(shù)據(jù)挖掘的應(yīng)用中,選擇合適的影響變量(特征),合適的數(shù)據(jù)挖掘算法,和合適的模型評估是數(shù)據(jù)挖掘過程中的關(guān)鍵。盡管現(xiàn)在很多的應(yīng)用轉(zhuǎn)向用神經(jīng)網(wǎng)絡(luò)等工具來解決問題,問題依然存在,如合適的訓(xùn)練數(shù)據(jù)集合的大小與選擇,怎樣處理過時的數(shù)據(jù)等等。
2.可擴展性和性能的要求
有些金融數(shù)據(jù)的增長速度是爆炸式的,金融數(shù)據(jù)挖掘必須考慮到算法的可擴展性和算法的效率,所以模型在建立時就必須要考慮到新數(shù)據(jù)的更新和整合,至于性能的要求,如果把數(shù)據(jù)集合分成若干小集合,再使用并行的數(shù)據(jù)挖掘技術(shù)可能會有較好的表現(xiàn)。
3.文本數(shù)據(jù)挖掘
隨著互聯(lián)網(wǎng)的普及,網(wǎng)頁信息為資源的提取提供了一個絕佳的“礦藏”,很多現(xiàn)存的金融數(shù)據(jù)挖掘模型很依賴于政府的政策,市場的反饋信息等等,顯然現(xiàn)存的金融數(shù)據(jù)挖掘方法還沒有充分利用到比如一些時報提供的資訊來輔助決策,如銀行如果聲稱下月將調(diào)整利率,那么股市肯定有相應(yīng)的變化。當然數(shù)據(jù)挖掘涉及到很多領(lǐng)域,如自然語言處理,信息檢索等,具有很大的挑戰(zhàn)。
4.多種數(shù)據(jù)挖掘技術(shù)的整合
由討論可以看出,每種數(shù)據(jù)挖掘技術(shù)都有它的優(yōu)點和局限,為了改進數(shù)據(jù)挖掘技術(shù)在金融領(lǐng)域的應(yīng)用效果,現(xiàn)在很多研究者考慮將多種數(shù)據(jù)挖掘技術(shù)融合,如金融數(shù)據(jù)挖掘中用得較多的分類技術(shù),就有多分類器系統(tǒng)
(multiple classify system, MCS),在很多情況下會有上佳的表現(xiàn)。
參考文獻
[1]張玉春.數(shù)據(jù)挖掘在金融分析中的應(yīng)用.華南金融電腦.2004
[2]張嫻.數(shù)據(jù)挖掘技術(shù)及其在金融領(lǐng)域的應(yīng)用.金融教學(xué)與研究.2005