• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      智能化用戶分群模型的研究與實現(xiàn)

      2018-11-01 03:04陳蕾夷
      電腦知識與技術(shù) 2018年19期
      關(guān)鍵詞:精準營銷聚類分析

      陳蕾夷

      摘要:用戶分群是精準營銷的重要方法和基礎(chǔ)工作之一,該文在對用戶分群相關(guān)算法進行深入研究的基礎(chǔ)上,研究實現(xiàn)了可以自動識別分群數(shù)目和變量權(quán)重的智能化用戶分群模型,降低了對業(yè)務(wù)人員經(jīng)驗水平的依賴。以虛擬運營商的用戶數(shù)據(jù)作為數(shù)據(jù)源進行了實驗驗證,證明了算法模型的可行性和優(yōu)越性。

      關(guān)鍵詞:智能化用戶分群模型;聚類分析;隨機森林算法;精準營銷

      中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2018)19-0001-03

      1 引言

      對于虛擬運營行業(yè)而言,用戶分群的主要應(yīng)用目的是為了通過識別不同群體的特征來實現(xiàn)精準營銷。國內(nèi)外關(guān)于用戶分群方法的研究主要集中在業(yè)務(wù)方法和應(yīng)用方面,在技術(shù)方面主要利用K-means聚類算法來實現(xiàn)用戶分群。但是,K-means算法本身具有很多局限性,從數(shù)據(jù)特點來說,K-means算法不能處理帶有非數(shù)值屬性的混合屬性變量;從業(yè)務(wù)功能來說,K-means算法需要預(yù)先設(shè)定聚類數(shù)目K值,對業(yè)務(wù)人員的經(jīng)驗依賴很大,并且K-means算法對所有聚類指標的權(quán)重均相同,這也不太符合實際業(yè)務(wù)要求。針對以上問題,本文在對用戶分群相關(guān)算法進行研究的基礎(chǔ)上,基于K-prototypes算法和隨機森林算法融合實現(xiàn)了可以自動識別分群數(shù)量和分群變量權(quán)重的智能化用戶分群模型,并通過實驗項目驗證了其可行性。

      2 用戶分群算法研究

      2.1 用戶分群的方法

      用戶分群有多種方法可以實現(xiàn),包括RFM分析法、聚類分析、決策樹、預(yù)測(響應(yīng))模型、假設(shè)檢驗方法等,每種方法針對的數(shù)據(jù)特點和應(yīng)用場景都不同,在方法的選擇上應(yīng)結(jié)合業(yè)務(wù)數(shù)據(jù)特點、應(yīng)用場景和業(yè)務(wù)功能等方面綜合考慮。對于業(yè)務(wù)運營經(jīng)驗尚淺的虛擬運營行業(yè)而言,其數(shù)據(jù)特點是屬性多樣、維數(shù)眾多、規(guī)模較大;在應(yīng)用場景方面,行業(yè)還處于初期階段,需全面了解用戶的具體特征,并沒有明確的分群變量,且變量在分群過程中需要被賦予不同的權(quán)重;在業(yè)務(wù)功能方面,因行業(yè)從業(yè)人員經(jīng)驗尚淺,需要盡量降低對業(yè)務(wù)人員的依賴,實現(xiàn)智能化分群,自動識別分群數(shù)量和變量權(quán)重,無需人工參與判斷。RFM分析法只對三個固定變量進行分析;決策樹的貪心算法容易得到局部最優(yōu)解或出現(xiàn)變量過擬合問題,更多被應(yīng)用于預(yù)測模型相關(guān)場景;預(yù)測(響應(yīng))模型適用于目標變量明確的場景,屬于有監(jiān)督的學(xué)習(xí)方法;假設(shè)檢驗方法通過對核心變量的篩選來區(qū)別不同群體特征,對業(yè)務(wù)人員經(jīng)驗水平要求較高。聚類算法對于變量的類型或數(shù)量無特殊要求,可處理數(shù)據(jù)規(guī)模龐大且維數(shù)眾多的大數(shù)據(jù)集,也不需要明確的目標變量和分類要求,因此本次研究選定聚類算法這種比較成熟可靠的算法。

      2.2 聚類算法

      用戶分群是聚類算法的典型應(yīng)用場景之一,針對大規(guī)模數(shù)據(jù)集所采用的聚類算法主要是K-Means算法,但當數(shù)據(jù)涉及混合屬性變量的聚類時,則采用可處理混合屬性變量的K-prototypes算法。聚類技術(shù)應(yīng)用成熟,算法可靠,且聚類結(jié)果更容易被業(yè)務(wù)方理解和應(yīng)用,但是在應(yīng)用過程中也要注意做好數(shù)據(jù)預(yù)處理,控制參與聚類的變量,與未參與聚類的變量相結(jié)合來對業(yè)務(wù)進行更全面細致的分析。

      2.3 研究問題的提出

      與K-means算法相同,K-prototypes算法目的是將數(shù)據(jù)集X按照差異度最小原則劃分到K個簇中,以聚類評價指標對聚類結(jié)果進行評價,其中K值需提前指定。在K-prototypes算法的求解過程中,每個變量的權(quán)重都是相同的,而在實際應(yīng)用當中,運營商數(shù)據(jù)不僅包含的屬性變量多種多樣,而且每個屬性對于聚類結(jié)果的貢獻度也是有所差異的,實現(xiàn)分群變量的非平權(quán)聚類更符合實際業(yè)務(wù)情況。

      綜上所述,針對大規(guī)模數(shù)據(jù)集,本著降低對業(yè)務(wù)人員經(jīng)驗水平依賴性的原則,本文需改進解決的關(guān)鍵技術(shù)有以下兩點:

      1)算法可以自動實現(xiàn)對最佳聚類數(shù)目K值的判定;

      2) 算法可以實現(xiàn)對聚類指標的非平權(quán)處理并自動判斷不同聚類指標的權(quán)重值。

      3 智能化用戶分群模型的實現(xiàn)

      3.1 最佳聚類數(shù)判定的算法優(yōu)化

      當前主流的算法是將一個給定的數(shù)據(jù)集X,以[kmin=2],[kmax=Int(n)]對所有K值完成聚類,用內(nèi)部聚類評價指標對所有聚類結(jié)果進行計算,聚類評價指標最優(yōu)值所對應(yīng)的K值即為最佳聚類數(shù)目[1]。但是,算法要對K=[[kmin],[kmax]]的值窮舉聚類,對于大數(shù)據(jù)集來說會導(dǎo)致計算量很大,因此可定義間距[dis],[dis∈[kmin,kmax]]。先對一部分K值進行評價以便縮小K的取值范圍,然后再對[K0]=[[k0min],[k0max]]的值窮舉聚類,即可提升算法效率,如圖1所示。

      3.2 自動識別聚類指標權(quán)重的LU-K-prototypes算法

      關(guān)于變量加權(quán)的K-prototypes算法,當前主流的方法是將未知集合[Wm]引入K-prototypes算法的距離代價函數(shù),作為聚類變量的加權(quán)集合,然后通過多次隨機賦值取最佳來對聚類變量賦予權(quán)重[2]。但是,隨機取值的方法缺乏客觀和嚴謹性,本文采用隨機森林算法輸出的變量貢獻度[3]作為聚類指標權(quán)重[Wm],實現(xiàn)了可處理混合屬性數(shù)據(jù)的自動識別聚類指標權(quán)重的LU-K-prototypes算法,算法流程如圖2所示:

      3.3 智能化用戶分群算法的實現(xiàn)

      本文基于LU-K-prototypes算法和最佳聚類數(shù)判定的算法優(yōu)化相結(jié)合,實現(xiàn)了可以自動識別分群數(shù)量和分群變量權(quán)重的A-LU-K-prototypes算法,算法流程見圖3,算法步驟歸納如下:

      4 實驗驗證

      4.1 實驗環(huán)境

      算法驗證的實驗運行環(huán)境見表1:

      4.2 實驗設(shè)計

      本實驗使用某虛擬運營商流量營銷項目已處理好的數(shù)據(jù)集X,在對變量的線性相關(guān)性完成驗證的前提下,從中選擇4個變量作為聚類指標:流量、二充金額、停機時長、用戶狀態(tài),共選取33841個用戶樣本,經(jīng)過數(shù)據(jù)標準化等數(shù)據(jù)轉(zhuǎn)換操作,形成了33841*4的數(shù)據(jù)矩陣。實驗設(shè)計為對比實驗,對數(shù)據(jù)集X分別運行K-prototypes算法和A-LU-K-prototypes算法,比較聚類結(jié)果。為保證實驗結(jié)果的穩(wěn)定性和客觀性,將兩種算法分別運行10次。

      4.3 實驗結(jié)果

      (1) K-prototypes算法結(jié)果

      對數(shù)據(jù)集X采用K-prototypes算法進行聚類,利用最佳聚類數(shù)識別的優(yōu)化算法通過CH值進行評價來獲得最佳聚類數(shù),CH值評價結(jié)果如圖4所示。

      即使用K-prototypes算法的最佳聚類數(shù)為[kk]=5類,用戶群聚類指標均值或變量某類別數(shù)值如表2所示。

      (2) A-LU-K-prototypes算法結(jié)果

      先根據(jù)k-prototypes算法的聚類結(jié)果,基于隨機森林算法的[Gini]系數(shù)計算各聚類指標的貢獻度,結(jié)果如圖5所示。

      將指標貢獻度作為加權(quán)聚類的K-prototypes算法的權(quán)重[w],對數(shù)據(jù)集采用A-LU-K-prototypes算法進行聚類,可以得到CH值評價結(jié)果,選取CH最大的一段k值區(qū)間,如圖6所示。即A-LU-K-prototypes算法的最佳聚類數(shù)為[kk]=7,各指標權(quán)重值如圖7所示。

      A-LU-K-prototypes算法得到的各群聚類指標均值或變量某類別數(shù)值見表3,與K-prototypes算法相比, A-LU-K-prototypes算法的分群數(shù)量更多,對分群變量劃分出更大的取值區(qū)間,說明其分群結(jié)果更加精準細致;指標貢獻度排序基本無變化,且A-LU-K-prototypes算法可以將指標貢獻做出更大的區(qū)分,符合業(yè)務(wù)邏輯認知。

      5 研究結(jié)論

      實驗證明,運用A-LU-K-prototypes算法的智能化用戶分群模型可實現(xiàn)自動識別分群數(shù)量和分群變量權(quán)重的功能,可處理屬性多樣的數(shù)據(jù),并通過任意變量對用戶群體進行劃分,業(yè)務(wù)實現(xiàn)過程降低了對業(yè)務(wù)人員經(jīng)驗的依賴。通過與傳統(tǒng)的K-prototypes算法的比較可看出基于A-LU-K-prototypes算法的智能化用戶分群模型的分群結(jié)果具有更加精準細致的優(yōu)越性,同時具備更好的業(yè)務(wù)解讀性。

      參考文獻:

      [1] 周世兵.聚類分析中的最佳聚類數(shù)確定方法研究及應(yīng)用[D].無錫:江南大學(xué),2011.

      [2] 李曉明.k-means類型變量加權(quán)聚類算法的研究與實現(xiàn)[D].哈爾濱:哈爾濱工業(yè)大學(xué),2006.

      [3] 朱麗琴.基于隨機森林算法的學(xué)生成績評價研究[D].馬鞍山:安徽工業(yè)大學(xué),2017.

      猜你喜歡
      精準營銷聚類分析
      大數(shù)據(jù)技術(shù)之一“數(shù)據(jù)標識”
      淺談大數(shù)據(jù)時代的精準營銷
      場景:大數(shù)據(jù)挖掘的新標準
      吴川市| 辽中县| 洛浦县| 濮阳市| 绥宁县| 淮安市| 中西区| 马山县| 铜鼓县| 堆龙德庆县| 边坝县| 上杭县| 阳曲县| 贞丰县| 衢州市| 江川县| 隆林| 昌乐县| 彭州市| 买车| 通榆县| 胶州市| 江孜县| 山西省| 富宁县| 安平县| 鸡西市| 汶上县| 冷水江市| 西昌市| 南木林县| 民乐县| 布尔津县| 探索| 手游| 皋兰县| 固原市| 蓝田县| 北安市| 灵丘县| 黔南|