• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于馬爾科夫毯網絡的客戶流失分析

      2014-12-31 00:00:00林璐
      計算機光盤軟件與應用 2014年23期

      摘 要:貝葉斯網絡是研究變量之間預測能力的有力工具,在解決不確定性和不完整性問題以及處理復雜問題上有很大的優(yōu)勢。作為樸素貝葉斯網絡的擴展,馬爾科夫毯貝葉斯網絡只依據對輸出結果有顯著影響的輸入變量進行分類預測,是一種更為理想的解決方案。利用馬爾科夫毯貝葉斯網絡進行流失客戶分析,挖掘導致流失的客戶特征,從而輔助決策者制訂相應的客戶挽留策略。

      關鍵詞:貝葉斯網絡;馬爾科夫毯;客戶流失問題

      中圖分類號:TP181

      貝葉斯網絡以因果關系圖的形式,直觀表示了事物之間的因果關系,并利于進行相關的分類預測,廣泛應用于數據分析領域。馬爾科夫毯貝葉斯網絡是其擴展,該模型能夠提高預測的準確性,降低數據的過度擬合,但也增加了計算的復雜性,因此需要花費更長的時間來構造模型。

      1 貝葉斯網絡

      貝葉斯網絡(Bayesian Networks,BN)也稱貝葉斯信念網絡,20世紀80年代由Lauritzen和Spiegelhalter提出。貝葉斯網絡是以貝葉斯理論為基礎,貝葉斯網絡是圖論與概率論結合的產物,定性并定量地研究變量間關系。貝葉斯網絡應用于分類、特征提取和推理等方面,是機器學習和數據挖掘領域的重要工具,在故障診斷、風險評估和生物信息等方面有著廣泛的應用。

      1.1 貝葉斯網絡的組成

      貝葉斯網絡G=由網絡的拓撲結構S和局部概率分布θ的集合兩部分組成。網絡結構S表示分類型隨機變量集合X={X1,X2,…,Xn}之間的獨立和條件獨立關系,S是一個有向無環(huán)圖,表示變量間的依賴關系。節(jié)點X1的父節(jié)點記為Pαi,父節(jié)點的取值集合用 表示。參數集合θ是與每個變量相對應的局部概率,是給定父節(jié)點下的條件概率集合。變量X1的參數集合為:

      。

      1.2 貝葉斯網絡的分類預測

      貝葉斯網絡對新數據的分類預測的依據是,貝葉斯網絡結構S和參數集合θ,其核心是聯合概率的計算。如果在給定Y條件下,變量X1和X2是條件獨立的,則對于量X1,X2,Y的任何取值都有P(X1|X2,y)=P(X1|y)。

      類似地,p=(x1,x2,x3,…,xn)=P(x1)P(x2|x1)P(x3|x1,x2)…P(xn|x1,x2,…,xn-1)中的每一項都可以表示為:

      P(xi|x1,x2,…,xi-1)=P(xi|Pαi),即與除父節(jié)點外的其他變量條件獨立。于是有, ,即只需依據網絡結構和局部概率集合就可直接計算聯合概率,進而實現分類預測。

      2 馬爾科夫毯網絡

      2.1 馬爾科夫毯網絡的基本概念

      馬爾科夫毯變量是馬爾科夫毯網絡中的一個基本概念,是指對于節(jié)點Xi來說,其父節(jié)點、子節(jié)點以及子節(jié)點的父節(jié)點,都屬于節(jié)點X1的馬爾科夫毯變量。以樸素貝葉斯網絡為例,由于輸入變量節(jié)點均為輸出變量節(jié)點的子節(jié)點,所以輸出變量的馬爾科夫毯變量是所有輸入變量。對于馬爾科夫毯網絡來說,輸入變量的馬爾科夫毯變量應是與輸出變量顯著相關的輸入變量。于是,分類預測將基于輸出變量的馬爾科夫毯變量的聯合概率,而非全體輸入變量。構建馬爾科夫毯網絡的主要任務是估計參數集合θ以及確定網絡結構S。

      2.2 馬爾科夫毯網絡結構的參數估計

      通常采用貝葉斯方法進行估計,涉及參數的先驗概率、似然函數,以及參數的后驗概率三個方面。先驗分布與后驗分布是共軛分布,同屬一分布族[1] 。

      如果馬爾科夫毯網絡中的每個節(jié)點對應的變量均為二分類變量,參數θ的先驗分布可選用Beta分布。標準Beta分布的數學定義為:

      式中,Г()為Gamma函數,Г(x)=(x-1)!,Г(1)=1;θ取值在0~1之間。Bata分布中的參數α和β成為超參數。參數θ的后驗分布也服從Beta分布:

      式中,n為“成功”的次數;N為實驗的次數?;谶@個后驗分布,參數θ的期望為: ,即為最終參數估計值。

      如果馬爾科夫毯網絡中的每個節(jié)點對應的變量為具有r個類別的多分類型變量,參數θ的先驗分布可選用Dirichlet分布。Dirichlet分布的數學定義為:

      式中,α1,α2,αr為超參數。參數θ的后驗分布仍為Dirichlet分布,即:P(θ|D)=Dir(θ|α1+N1,α2+N2,…,αr+Nr)式中,N1,N2,…,Nr為各類別“成功”次數。參數θk的最終估計值為后驗分布的期望:

      。

      2.3 馬爾科夫毯網絡結構的學習

      確定馬爾科夫毯網絡結構S的核心是尋找各個變量的馬爾科夫毯變量。對于節(jié)點Xi,不在馬爾科夫毯變量范圍內的變量,是與變量Xi條件獨立的變量。所以,構建馬爾科夫毯網絡結構S的首要任務是確定獨立變量對,它們均不在彼此的馬爾科夫毯變量中。

      馬爾科夫毯網絡利用條件獨立檢驗方法,發(fā)現變量之間的條件獨立關系,并以此為基礎構建馬爾科夫毯網絡。常用的方法有:條件卡方(Pearson Chi-square)檢驗和條件對數似然率(Log Likelihood Ratio)檢驗等。

      設I(Xi, Xj)為變量Xi和Xj獨立檢驗的概率P-值,I(Xi, Xj,S)為給定變量S條件下,變量對Xi和Xj條件獨立檢驗的概率P-值。馬爾科夫毯網絡結構學習的基本步驟如下:第一,起始的網絡結構S是一個完全連接的無向網絡。第二,如果I(Xi,Xj)大于指定的顯著水平α,則刪除節(jié)點Xi和節(jié)點Xj間的連接弧線。第三,對每個節(jié)點Xi,在其剩余弧線中,尋找是否存在I(Xi,Xj,S)大于顯著性水平α。如果存在,則刪除節(jié)點Xi和節(jié)點Xj間的連接弧線。第四,將無向弧線轉換為有向弧線。

      2.4 馬爾科夫毯網絡的分類預測

      首先找到輸出變量的馬爾科夫毯變量,并得到馬爾科夫毯變量的聯合概率,從而完成分類預測。

      現對于新觀測Xp的輸出變量值進行分類預測。設馬爾科夫毯網絡中,輸出變量Y對應節(jié)點的父節(jié)點集合記為πY;πY丨P表示給定Xp時πY中各輸入變量的具體取值;Xch=(X1,X2,X3,…,Xm)是輸出變量Y的子節(jié)點集合(有m個子節(jié)點);πi表示Xch中第i個子節(jié)點的父節(jié)點(不包括輸出變量節(jié)點)集合。

      根據貝葉斯公式,對于新觀測Xp,輸出變量Y有k個可能的類別取值,輸出變量取Yj的概率為:

      式中, 即為輸出變量及馬爾科夫毯變量的聯合概率。其中C為常量,它將與分母中的C約掉,并不影響預測結果。這里引入常數C的目的是,表示并非輸入變量集合中所有變量都參與計算,參與計算的僅是馬爾科夫毯變量。

      3 案例分析

      本文數據選取自某公司的電信客戶數據,選取了463條客戶信息,每條數據包括年齡、性別、收入、開通月數、教育水平等字段;并利用通用數據挖掘軟件Clementine12.0,目的在于研究對流失客戶有重要影響的因素,并計算出預測模型,以此指導銷售。

      圖1顯示,客戶流失的馬爾科夫毯變量包括開通月數、收入和年齡,其中最顯著影響因素為開通月數,重要性超過0.8。預測一個新客戶是否流失時,僅需計算流失與其馬爾科夫毯變量的聯合概率即可。

      電信公司可以靈活應對各種不同的人群設計不同的服務項目,最大限度地提高市場占有率,避免客戶流失,提高客戶的忠誠度;同時分析結果也為公司提供了大量的數據信息和潛在規(guī)律,從而使公司獲得充分的市場信息,以獲得最大收益。

      圖1 客戶流失問題的馬爾科夫毯網絡

      4 結束語

      隨著互聯網的發(fā)展,電子商務已經成為了商業(yè)運作的重要模式。數據挖掘技術有助于企業(yè)從數據庫以及數據倉庫中更快和更精確地尋找到所需要的信息內容,貝葉斯網絡是數據挖掘領域的重要算法。樸素貝葉斯網絡結構簡單,不涉及網絡結構的學習。馬爾科夫毯網絡更多考慮了輸入變量之間的條件獨立性,因而更利于找到輸出變量有重要影響的因素;它在電子商務中的應用,有助于分析客戶流失規(guī)律,幫助企業(yè)及時制定營銷策略,維持客戶忠誠度。

      參考文獻:

      [1]薛薇,陳歡哥.基于Clementine的數據挖掘[M].中國人民大學出版社,2012:383-386.

      [2]朱志勇,徐長梅,劉志兵,胡晨剛.基于貝葉斯網絡的客戶流失分析研究[J].計算機工程與科學,2013(03):155-158.

      [3]王雙成,苑森淼.基于貝葉斯網絡的馬爾科夫毯預測學習[J].模式識別與人工智能,2004(01):17-21.

      [4]王雙成,冷翠平.貝葉斯網絡的適應性學習[J].小型微型計算機系統(tǒng),2009(04):706-709.

      作者簡介:林璐(1990-),女,福建福州人,碩士研究生,研究方向:計算機應用及開發(fā)。

      作者單位:貴州師范大學 數學與計算機科學學院,貴陽 550001

      全椒县| 浦江县| 南雄市| 聂拉木县| 赤壁市| 贺兰县| 阳信县| 固镇县| 湖北省| 萨迦县| 会昌县| 建德市| 察隅县| 五台县| 明光市| 平湖市| 二手房| 三都| 苏尼特右旗| 邓州市| 新闻| 合山市| 长垣县| 洱源县| 通许县| 松溪县| 荔浦县| 新竹市| 平顺县| 米泉市| 霍城县| 壶关县| 临湘市| 偏关县| 武隆县| 城口县| 罗平县| 巴彦县| 平邑县| 塔河县| 奉节县|