• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于虛擬技術(shù)中l(wèi)ogistic回歸模型在睡眠客戶預(yù)測中的應(yīng)用

      2016-05-14 00:13:41陳寶華柳炳祥萬川南
      關(guān)鍵詞:金額交易變量

      陳寶華 柳炳祥 萬川南

      摘要:企業(yè)的客戶關(guān)系管理工作好壞,直接影響到企業(yè)的核心競爭力,發(fā)現(xiàn)一個(gè)潛在的客戶,往往比挽留一個(gè)客戶所花費(fèi)的成本要大的多,因此,發(fā)現(xiàn)睡眠用戶,并做好相應(yīng)的客戶關(guān)懷,挽留住即將流失的客戶,就顯得非常重要。論文利用logistic回歸模型,建立客戶睡眠客戶的預(yù)測模型,建模步驟分為變量分析、變量變換、模型建立評估。從實(shí)驗(yàn)分析和結(jié)果上看,模型效果擬合較好,評價(jià)logistic回歸模型結(jié)果好壞的ROC、KS曲線驗(yàn)證了該方法的可行性和有效性,為睡眠用戶的預(yù)測提供了一種分析的思路和方法。

      關(guān)鍵詞:睡眠客戶 預(yù)測模型 logistic回歸模型

      中圖分類號:F123.9 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9416(2016)08-0069-02

      1 引言

      睡眠用戶的定義和模型目標(biāo)變量的選定息息相關(guān),而目標(biāo)變量是用模型確定業(yè)務(wù)問題的模型解釋,這個(gè)過程本身就是業(yè)務(wù)問題轉(zhuǎn)化統(tǒng)計(jì)模型問題過程。鑒于睡眠用戶定義的重要性,睡眠用戶的直接表現(xiàn)是停止交易,所以最后一次交易到無交易的時(shí)間是一個(gè)比較合理定義。為此從統(tǒng)計(jì)用戶兩次之間交易間隔來確定睡眠用戶的定義。統(tǒng)計(jì)用戶的最大交易間隔天數(shù)分布情況,從圖1中可以看出,到當(dāng)用戶最大交易間隔天數(shù)在90天后,用戶的最大交易間隔分布下降平緩,而且70%以上的用戶的最大交易間隔小于等于90天。

      發(fā)現(xiàn)睡眠客戶對于企業(yè)的客戶管理工作非常重要,論文采用logistic回歸模型對睡眠客戶進(jìn)行分析,發(fā)現(xiàn)睡眠客戶的特征,進(jìn)而改善客戶關(guān)系管理工作,提升客戶價(jià)值。

      2 數(shù)據(jù)處理

      2.1 數(shù)據(jù)來源

      論文數(shù)據(jù)來自于某第三方支付平臺歷史交易數(shù)據(jù),對一些涉及商業(yè)機(jī)密的數(shù)據(jù),如交易金額等進(jìn)行線性變換,對用戶個(gè)人隱私信息進(jìn)行剔除。

      2.2 數(shù)據(jù)預(yù)處理

      在建立模型之前,對重復(fù)數(shù)據(jù)進(jìn)行了預(yù)處理。首先從業(yè)務(wù)的角度上,對用戶的交易是主動(dòng)性交易與被動(dòng)性交易進(jìn)行整理,從業(yè)務(wù)的角度上理解主動(dòng)交易更能反映用戶的行為,所以數(shù)據(jù)刪除被動(dòng)交易記錄。對文本字段轉(zhuǎn)換成數(shù)值字段,時(shí)間字段轉(zhuǎn)換成標(biāo)準(zhǔn)時(shí)間格式,即數(shù)據(jù)處理中截取、清洗、轉(zhuǎn)換。

      2.3 確定高價(jià)值客戶

      從業(yè)務(wù)的角度上,歷史活躍度很低的用戶,對企業(yè)的認(rèn)可度可能更小,對這樣的用戶營銷收益不高。所以建立模型時(shí),要考慮確定什么樣的用戶是高價(jià)值用戶。高價(jià)值的用戶有一定的活躍度,而活躍度主要表現(xiàn)在交易次數(shù)上。而為了確定有價(jià)值用戶的規(guī)則,篩選出在歷史交易時(shí)期沒有睡眠的用戶,計(jì)算這些用戶在6個(gè)月中的歷史交易情況,并對整體用戶的分布趨勢進(jìn)行匯總統(tǒng)計(jì)分析,數(shù)據(jù)處理結(jié)果如表1所示。

      3 logistic回歸模型在睡眠客戶預(yù)測中的應(yīng)用與分析

      3.1變量選取

      對于本次建立的睡眠用戶,預(yù)測模型的變量選取,主要是客戶屬性變量與客戶交易行為變量。其中客戶屬性變量有:CUSTOMER_NO,用戶實(shí)名等級,注冊時(shí)間;客戶交易行為變量有:交易金額,交易類型,交易時(shí)間,每次交易前余額,每次交易后余額,交易類型(涉及商業(yè)機(jī)密數(shù)據(jù),所以將金額數(shù)據(jù)進(jìn)行線性變換處理),還有一些衍生變量。

      3.2 變量處理

      原始數(shù)據(jù)繁雜冗余,不能直接用于建模。數(shù)據(jù)處理過程包括缺失處理、變量類型轉(zhuǎn)換、日期型變量處理、錯(cuò)誤變量處理、異常值處理、相關(guān)性變量處理、變量選擇。其中缺失值處理的方法是,當(dāng)交易數(shù)據(jù)為缺失時(shí),用零來代替,代表沒有發(fā)生交易,是一個(gè)合理的解釋。所以,本文的原始變量缺失則用零代替。變量的刪減的方法是,刪除變量是一個(gè)非常慎重的問題,但是若是存在較強(qiáng)相關(guān)性的情況下,logistic 回歸結(jié)果是不滿意的。因?yàn)樽兞窟^多,一次性進(jìn)行變量相關(guān)性分析結(jié)果,顯得過于繁雜,不利于找出其中的規(guī)律。為此,先進(jìn)行變量重要性分析,將變量相關(guān)性分成兩階段進(jìn)行。第一個(gè)階段,先分析三個(gè)維度中變量的相關(guān)性分析。第二階段,在完成第一階段分析之后,剩余的變量全在一起分析變量相關(guān)性。

      3.3 模型建立

      按上面的分析,對變量進(jìn)行選取及變量的處理后,進(jìn)入建模階段。實(shí)驗(yàn)所選變量主要體現(xiàn)用戶交易行為變化、最近交易行為、用戶身份特征來擬合用戶是否會進(jìn)入睡眠狀態(tài)。將整理好的數(shù)據(jù)按50%比例隨機(jī)抽樣,分別得到訓(xùn)練集和測試集。實(shí)驗(yàn)?zāi)P褪腔赟AS軟件中的PROC LOGISTIC過程來實(shí)現(xiàn)的。選取逐步回歸估計(jì)的方式,模型估計(jì)結(jié)果如表2所示。logistic 回歸分析的極大似然估計(jì)分析,如表3所示。

      3.4 模型評估

      評價(jià)logistic回歸模型結(jié)果好壞,主要有K-S曲線、ROC曲線等方法,圖2、圖3是本次實(shí)驗(yàn)所建立模型的K-S曲線、ROC曲線。ROC 曲線橫坐標(biāo)為(1-特異度),縱坐標(biāo)為靈敏度。特異度是實(shí)際上屬于非目標(biāo)事件的觀測中被正確分類的比例;靈敏度十實(shí)際上屬于目標(biāo)事件的觀測被正確分類的比例;K-S統(tǒng)計(jì)分布是用來衡量模型的辨識能力。sleep=0(非睡眠)曲線是模型預(yù)測值小于某個(gè)值時(shí)sleep=0(非睡眠)的累計(jì)觀測數(shù)占比分布;sleep=1(睡眠)曲線是模型預(yù)測值小于某個(gè)值時(shí)sleep=1(睡眠)的累計(jì)觀測數(shù)占比分布;D值在0 到1 之間,D 值越大,模型的辨識能力越強(qiáng)。此模型兩條曲線的最大垂直距離,即K-S 統(tǒng)計(jì)值D=0.625,說明該模型辨識能力較好。

      4 結(jié)語

      通過對變量的標(biāo)準(zhǔn)化系數(shù)比較各變量的影響程度。最后一次交易后余額,最近三月消費(fèi)次數(shù),最近三個(gè)月消費(fèi)筆數(shù)占比,最近三個(gè)月交易金額占個(gè)月總交易額百分比,最近三個(gè)月轉(zhuǎn)賬筆數(shù)占比,實(shí)名等級0,最近三月轉(zhuǎn)賬金額占比與最近4-6個(gè)月轉(zhuǎn)賬金額占比變化比例的標(biāo)準(zhǔn)化系數(shù)分別是-0.8781,-0.4041,0.3305,-0.2005,0.1773,0.1382,0.1036,即這些變量的影響程度呈現(xiàn)遞減趨勢。

      從實(shí)際業(yè)務(wù)角度上驗(yàn)證,JinePChange3(最近三月轉(zhuǎn)賬金額占比與最近4-6個(gè)月轉(zhuǎn)賬金額占比之差)越大,表示最近三月轉(zhuǎn)賬金額增加,Pred 值變大,睡眠可能性增加。NumPercent32(最近三個(gè)月消費(fèi)筆數(shù)占比)越大,表示最近三月消費(fèi)相對增加睡眠可能性增加。NumPercent33(最近三月轉(zhuǎn)賬筆數(shù)占比)越大,表示最近三月轉(zhuǎn)賬相對增加睡眠可能性增加。Sum3P6(最近三個(gè)月交易金額占六個(gè)月總交易額百分比)越大,表示最近的交易相對之前更活躍,睡眠可能性降低。RealName等于0,表示非高級實(shí)名用戶,相對高級實(shí)名用戶睡眠可能性更大。Num32(最近三月消費(fèi)次數(shù))越大,表示消費(fèi)頻率較大,用戶更不容易進(jìn)入睡眠。AfterAmt(最后一次交易后余額)越大,表示用戶的粘性更大,更不容易進(jìn)入睡眠狀態(tài)。

      論文利用logistic回歸模型,建立客戶睡眠客戶預(yù)測模型,建模步驟分為變量分析、變量變換、模型建立評估。從ROC、KS曲線上可以看出,模型效果擬合較好。實(shí)驗(yàn)中也有一些不足之處,首先是數(shù)據(jù)收集還存在不足,根據(jù)行為分析,對用戶的行為特征除交易行為,還有個(gè)人偏好、性別、年齡、消費(fèi)能力、學(xué)歷等因素未考慮,直接影響到模型預(yù)測的精度,有待今后進(jìn)一步完善。

      參考文獻(xiàn)

      [1]趙小寧,李鳳霞.因子分析法和聚類分析法在網(wǎng)上銀行客戶滿意度研究中的應(yīng)用[J].時(shí)代金融,2015(3).

      [2]李凡.數(shù)據(jù)挖掘技術(shù)的研究與應(yīng)用[D].西安電子科技大學(xué),2002.

      [3]杜建軍,李海玉,馬蓉等.數(shù)據(jù)預(yù)處理與決策樹在客戶行為分析中的應(yīng)用[J].信息技術(shù),2008(12).

      [4]蔣斌.數(shù)據(jù)挖掘技術(shù)在客戶關(guān)系管理中的運(yùn)用[J].云南大學(xué)學(xué)報(bào)(自然科學(xué)版),2006 (12).

      [5]郭立碩,王兆剛,李星.基于因子分析和聚類分析上市房地產(chǎn)公司的財(cái)務(wù)風(fēng)險(xiǎn)評價(jià)[J].中小企業(yè)管理與科技,2015(1).

      猜你喜歡
      金額交易變量
      2001年-2020年縣級一般公共預(yù)算支出資金來源情況表
      抓住不變量解題
      也談分離變量
      立案
      上海故事(2016年12期)2016-12-09 16:49:08
      交易流轉(zhuǎn)應(yīng)有新規(guī)
      上海國資(2015年8期)2015-12-23 01:47:28
      SL(3,3n)和SU(3,3n)的第一Cartan不變量
      成交金額前10名營業(yè)部買入的前3只個(gè)股
      一周資金凈流出金額前20名個(gè)股
      大宗交易
      《吃飯的交易》
      萨嘎县| 西充县| 卓尼县| 建平县| 四平市| 卫辉市| 安顺市| 新巴尔虎左旗| 双牌县| 水富县| 灌南县| 南丹县| 资中县| 上蔡县| 义马市| 惠水县| 石景山区| 隆化县| 营口市| 平山县| 布尔津县| 精河县| 六枝特区| 太白县| 航空| 武宣县| 万安县| 乳源| 高要市| 拜泉县| 集安市| 伽师县| 潢川县| 麻阳| 赣榆县| 尤溪县| 沧源| 云浮市| 成安县| 惠安县| 嵩明县|