李軍
摘 要: 對分類數(shù)據(jù)挖掘算法進行研究,發(fā)現(xiàn)隨機森林算法精度高、訓(xùn)練速度快、支持在線學(xué)習(xí),因此提出在系統(tǒng)中使用該算法。針對隨機森林算法抗噪聲能力一般的問題,采用Bagging方法隨機選擇幾組歷史客戶分級數(shù)據(jù)作為算法的訓(xùn)練數(shù)據(jù),通過隨機森林算法訓(xùn)練出分級模型,并通過這個模型對新客戶數(shù)據(jù)進行自動分級。
關(guān)鍵詞: 隨機森林; 企業(yè)對企業(yè); 客戶分級; 系統(tǒng)設(shè)計
中圖分類號: TN919.6+4?34 文獻標(biāo)識碼: A 文章編號: 1004?373X(2015)15?0099?05
Design of B2B client classification system based on random forest algorithm
LI Jun
(Shaanxi Post and Telecommunication College, Xianyang 712000, China)
Abstract: The classification data mining algorithm is studied in this paper. The random forest algorithm has the advantages of high precision, fast training speed and supporting online learning, which is applied in classification system. Since random forest algorithm has general noise resisted ability, several groups classification data of history client are selected by using Bagging method randomly as the algorithm′s training data. The classification model is obtained by random forest algorithm training. New client data are classified automatically by using this model.
Keywords: random forest; business to business; client classification; system design
0 引 言
近年來,隨著全球經(jīng)濟的高速發(fā)展,人民生活水品也在不斷提高,對企業(yè)的商品或服務(wù)的要求也在日益提升;而企業(yè)也認識到提高客戶的滿意度和維持客戶的忠誠度可以為企業(yè)帶來更大的利潤。于是不同領(lǐng)域的學(xué)者們越來越關(guān)注客戶關(guān)系管理(Customer Relationship Management,CRM)這個管理理念。在客戶關(guān)系管理中,客戶取代了產(chǎn)品的質(zhì)量,成為企業(yè)關(guān)注的重點,如何吸引和保持有經(jīng)濟價值的客戶是CRM的中心。在CRM中最核心的功能就是客戶分級,客戶分級就是指企業(yè)根據(jù)客戶的重要程度、貢獻程度以及潛在價值等指標(biāo)對客戶進行衡量與分級。
電子商務(wù)中,企業(yè)面對的關(guān)系主要包括兩種:企業(yè)與客戶之間的關(guān)系(Business to Customer,B2C)和企業(yè)之間的關(guān)系(Business to Business,B2B)。在當(dāng)前使用的客戶分級系統(tǒng)中,主要存在以下問題:
(1) 普通的B2C客戶分級系統(tǒng)無法處理B2B模式的客戶分級。
(2) 現(xiàn)有的B2B客戶分級系統(tǒng)分級精度較低, 抗噪聲能力一般。
(3) 目前的客戶分級系統(tǒng)沒有與產(chǎn)品銷售結(jié)合起來。
(4) 在系統(tǒng)使用過程中,需要有一種靈活的權(quán)限管理方式來保證系統(tǒng)的安全性。
本文通過對上述問題的分析,以企業(yè)的實際需求出發(fā),采用數(shù)據(jù)挖掘中的隨機森林分類算法實現(xiàn)客戶分級,并通過客戶對產(chǎn)品滿意度模型估算產(chǎn)品銷售成功率。其中,隨機森林算法是分級的基礎(chǔ),使系統(tǒng)可以在多個不同層面的分級依據(jù)上互不干擾地得到訓(xùn)練模型,完成分級算法。通過使用隨機森林算法,可以使分級算法具有更強的抗噪聲能力,并能降低算法的過擬合。
1 客戶分級系統(tǒng)的分析
以B2B環(huán)境下企業(yè)的客戶分級作為研究對象,通過歷史的客戶分級數(shù)據(jù)建立分級模型,并按照分級模型完成對新客戶的分級,同時,系統(tǒng)還具有客戶對產(chǎn)品滿意度的分析模型,直觀地輔助用戶決策。系統(tǒng)具有比較高的準(zhǔn)確性和抗噪聲能力。
1.1 客戶分級系統(tǒng)的需求描述
用戶使用系統(tǒng)后,首先將歷史輸入系統(tǒng)中。當(dāng)需要銷售一件產(chǎn)品的時候,如果目標(biāo)客戶已經(jīng)在歷史數(shù)據(jù)中,系統(tǒng)可以給出推薦的客戶,選定目標(biāo)客戶后,可以查看客戶的等級,針對不同的客戶準(zhǔn)備不同的銷售手段。同時,可以根據(jù)客戶對產(chǎn)品、對公司的歷史滿意度、對購買產(chǎn)品的影響力構(gòu)建客戶對產(chǎn)品的滿意度模型,從面積來推斷產(chǎn)品銷售的成功率,同時也可以找到主要爭取方向。如果目標(biāo)客戶不在歷史數(shù)據(jù)中,用戶需要把客戶的信息輸入系統(tǒng),通過歷史數(shù)據(jù)選擇特征值,然后按照歷史數(shù)據(jù)訓(xùn)練出分級模型。
1.2 客戶分級系統(tǒng)的分析模型
為了明確系統(tǒng)與用戶之間的交互關(guān)系,本文采用用例圖來說明客戶與客戶分級系統(tǒng)各個用例之間的交互。
(1) 系統(tǒng)角色分析
根據(jù)對基于隨機森林的B2B客戶分級系統(tǒng)的分析,本系統(tǒng)的主要角色有3個:系統(tǒng)管理員、員工用戶、領(lǐng)導(dǎo)用戶。
系統(tǒng)管理員:主要負責(zé)對系統(tǒng)的維護;管理數(shù)據(jù)庫參數(shù),通過系統(tǒng)提供的接口修改數(shù)據(jù)庫表的設(shè)置;對用戶的組織結(jié)構(gòu)進行管理,通過系統(tǒng)提供的接口管理導(dǎo)航欄的顯示;設(shè)置權(quán)限并對用戶進行配置。
員工用戶:可以對客戶信息進行操作,不能刪除客戶信息;根據(jù)歷史客戶信息進行分級建模;通過建立好的分級模型對新客戶進行分級;新建產(chǎn)品銷售,如果審批通過可以建立產(chǎn)品的客戶滿意度模型。
領(lǐng)導(dǎo)用戶:可以查看所有數(shù)據(jù)信息,包括客戶信息、產(chǎn)品銷售信息等;審查員工用戶提出的新產(chǎn)品銷售申請,并做出批復(fù)。
(2) 系統(tǒng)管理員用例分析
系統(tǒng)管理員主要負責(zé)系統(tǒng)的一些設(shè)置,為了便于管理員對系統(tǒng)、數(shù)據(jù)庫進行管理,本文系統(tǒng)提供了一些簡單且實用的接口,使不是很了解數(shù)據(jù)庫及網(wǎng)站的用戶能方便地對數(shù)據(jù)庫表格、導(dǎo)航欄等進行操作。同時,系統(tǒng)管理員可以對用戶進行配置,并賦予他們權(quán)限。從角色分析中可以得到系統(tǒng)管理員的主要動作有:登陸,對系統(tǒng)進行設(shè)置,對用戶進行設(shè)置。其中系統(tǒng)設(shè)置包括數(shù)據(jù)庫表管理、導(dǎo)航欄管理;用戶配置包括權(quán)限配置和用戶組織結(jié)構(gòu)管理。系統(tǒng)管理員的用例圖如圖1所示。
(3) 員工用戶用例分析
員工用戶是系統(tǒng)的主要使用者,每個用戶都可以自定義一個快速的導(dǎo)航欄,對客戶信息進行管理,包括數(shù)據(jù)的錄入,也可以訓(xùn)練分級模型,并對新客戶進行分級,同時還可以對產(chǎn)品銷售進行管理,包括新建產(chǎn)品銷售、建立客戶滿意度模型和產(chǎn)品銷售分析。員工用戶的用例圖如圖2所示。
圖1 系統(tǒng)管理員用例圖
圖2 員工用戶的用例圖
(4) 領(lǐng)導(dǎo)用戶用例分析
領(lǐng)導(dǎo)用戶是對員工用戶提出的產(chǎn)品銷售方案進行審核的人員的總稱,可以查看所有產(chǎn)品信息和客戶信息,除此之外,還能對員工客戶提出的產(chǎn)品銷售方案進行審批。領(lǐng)導(dǎo)用戶的用例圖如圖3所示。
圖3 領(lǐng)導(dǎo)用戶的用例圖
(5) 系統(tǒng)總用例圖
通過逐個對系統(tǒng)角色進行用例分析后,得到系統(tǒng)的整體用例圖,由于登陸、自定義導(dǎo)航欄等都是所有角色共有的,就不在整體用例圖中體現(xiàn),如圖4所示。
圖4 B2B客戶分級系統(tǒng)的用例圖
2 客戶分級系統(tǒng)的設(shè)計
通過上文對系統(tǒng)的需求分析,可以得出系統(tǒng)的設(shè)計,主要論述B2B客戶分級系統(tǒng)的概要設(shè)計和詳細設(shè)計,概要設(shè)計主要論述客戶分級系統(tǒng)的軟件體系結(jié)構(gòu)和功能模塊結(jié)構(gòu),詳細設(shè)計則主要論述系統(tǒng)關(guān)鍵模塊設(shè)計。
2.1 客戶分級系統(tǒng)的概要設(shè)計
系統(tǒng)的概要設(shè)計主要包括系統(tǒng)的軟件體系架構(gòu)和功能模塊。
2.1.1 客戶分級系統(tǒng)的軟件體系架構(gòu)
針對上文所述的系統(tǒng)功能需求和性能需求,得出了系統(tǒng)的主要架構(gòu),如圖5所示。
圖5 B2B分級系統(tǒng)的架構(gòu)圖
本文系統(tǒng)采用B/S框架設(shè)計,用戶在瀏覽器端進行瀏覽,通過網(wǎng)絡(luò)訪問到服務(wù)器上進行相關(guān)的數(shù)據(jù)操作。
通過圖5可以看出,系統(tǒng)主要通過管理用戶信息、客戶分析和產(chǎn)品銷售信息為用戶取得利益。
用戶是系統(tǒng)的使用者,系統(tǒng)采用用戶信息管理、權(quán)限管理等對用戶進行管理,確保系統(tǒng)的使用者。而客戶是系統(tǒng)關(guān)注的目標(biāo),是系統(tǒng)最重要的對象,系統(tǒng)通過客戶信息管理、客戶分級來對客戶進行管理,使用戶能得到自己想要的信息。產(chǎn)品銷售是關(guān)聯(lián)用戶及客戶的通道,系統(tǒng)通過產(chǎn)品信息管理、產(chǎn)品銷售分析對產(chǎn)品銷售進行管理,使用戶在得到客戶信息后能合理使用這些信息,為自己獲取更多的利益。
2.1.2 客戶分級系統(tǒng)的功能模塊結(jié)構(gòu)
本文對系統(tǒng)進行了模塊設(shè)計,主要包括5個部分,如圖6所示。系統(tǒng)主要分成5個部分:基礎(chǔ)功能、系統(tǒng)設(shè)置、用戶配置、客戶管理和產(chǎn)品銷售管理。
基礎(chǔ)功能主要是登陸和注銷,由于是系統(tǒng)最基礎(chǔ)的功能,就不在系統(tǒng)功能層次模塊圖中特意畫出。
系統(tǒng)設(shè)置里有庫表設(shè)置、導(dǎo)航欄設(shè)置和數(shù)據(jù)字典。庫表設(shè)置里可以對數(shù)據(jù)庫的表格進行操作,方便用戶對數(shù)據(jù)庫進行操作。導(dǎo)航欄設(shè)置里可以對導(dǎo)航欄進行操作,導(dǎo)航欄數(shù)據(jù)儲存在數(shù)據(jù)庫,方便用戶對導(dǎo)航欄進行操作。
圖6 B2B客戶分級系統(tǒng)功能層次模塊圖
用戶配置是對用戶信息進行操作,包括對用戶基本數(shù)據(jù)的操作、對用戶企業(yè)組織結(jié)構(gòu)的操作和對用戶權(quán)限的配置。
客戶分級是對客戶信息的操作。由于是B2B系統(tǒng),系統(tǒng)關(guān)心的客戶有2個部分:企業(yè)客戶和個人客戶。同樣,企業(yè)客戶也包含了組織結(jié)構(gòu),企業(yè)客戶通過組織結(jié)構(gòu)與個人客戶聯(lián)系在一起。訓(xùn)練模型是根據(jù)已經(jīng)分級的歷史數(shù)據(jù)建立分級模型,通過客戶分析功能對未分級的企業(yè)客戶進行分級。
產(chǎn)品銷售管理是對產(chǎn)品信息的操作。用戶通過新建產(chǎn)品銷售方案以后,可以找到客戶管理中的數(shù)據(jù),通過對這些數(shù)據(jù)的查看輔助產(chǎn)品銷售正常進行。建立客戶滿意度模型是找出對銷售有影響力的客戶,建立客戶對產(chǎn)品的滿意度模型,通過產(chǎn)品銷售分析功能里的數(shù)值變遷來輔助銷售。
2.2 系統(tǒng)關(guān)鍵模塊設(shè)計
2.2.1 算法的總體設(shè)計
為了便于描述算法的結(jié)構(gòu),本文給出了隨機森林算法涉及的主要類圖關(guān)系,其中包括10個主要類,如圖7所示。
Classifier類是分類算法的抽象類,該類包括buildClassifier()和classifyInstance()兩個主要的方法。buildClassifier()是訓(xùn)練分類模型,classifyInstance()是對測試數(shù)據(jù)進行分類。
RandomTree類是隨機樹,該類是單個隨機決策樹,包括gain(),splitData()和graph()等方法。gain()用于計算信息增益,splitData()是將數(shù)據(jù)集按屬性節(jié)點進行劃分。graph()是輸出分類決策樹圖形。
圖7 隨機森林算法類圖
RandomForest類將多個RandomTree進行Bagging組合,其中setNumTrees()方法用于設(shè)置樹的個數(shù)。setMaxDepth()方法用于設(shè)置樹的深度。
Bagging類是負責(zé)對訓(xùn)練數(shù)據(jù)集進行抽樣,setBagSizePercent()方法用于設(shè)置抽樣的比例,resampleWithWeights()是帶有權(quán)重性質(zhì)進行抽樣。
Instance類代表單條數(shù)據(jù)記錄,而Attribute類則是單個數(shù)據(jù)屬性。Instances類是數(shù)據(jù)集。Filter類是過濾器的抽象類,useFilter()是使用設(shè)定的過濾器對數(shù)據(jù)集進行過濾。Discretize類是正則化類,負責(zé)將連續(xù)性數(shù)據(jù)進行離散化,以便供決策樹進行分類。
Evaluation類是評估器,負責(zé)對分類算法的分類效果進行評估,其中crossValidateModel()方法是交叉驗證方法。
算法整體流程如下:
步驟1:系統(tǒng)從數(shù)據(jù)庫采集訓(xùn)練數(shù)據(jù),去除掉不必要的屬性。
步驟2:對數(shù)據(jù)進行預(yù)處理。
步驟3:設(shè)置隨機森林樹的個數(shù)和單個隨機樹的深度。
步驟4:設(shè)置Bagging抽樣比例。
步驟5:從樣本集中進行Bagging抽樣。
步驟6:訓(xùn)練隨機樹。
步驟7:查看訓(xùn)練是否完成,如果完成就繼續(xù),如果沒有完成則回到步驟5繼續(xù)進行。
步驟8:對訓(xùn)練模型進行交叉驗證,檢查模型誤差是否低于期望值,如果低于期望值則返回到步驟5重新訓(xùn)練,如果不低于期望值就保存訓(xùn)練模型,算法結(jié)束。
在訓(xùn)練隨機森林模型過程中,首先從數(shù)據(jù)庫中讀取數(shù)據(jù)集,然后對數(shù)據(jù)集進行預(yù)處理。預(yù)處理主要包括選擇部分屬性和過濾不完全的記錄,然后對數(shù)據(jù)集進行正則離散化,離散化的目的是為了讓決策樹能夠處理連續(xù)性數(shù)據(jù)。預(yù)處理之后,需要對訓(xùn)練參數(shù)進行設(shè)置,包括設(shè)置隨機決策樹個數(shù),樹的最大深度以及Bagging抽樣比例等。根據(jù)Bagging抽樣比例和隨機種子,計算出抽取的記錄集,然后再針對該抽樣子集進行訓(xùn)練單個決策樹。在預(yù)定的[M]個隨機決策樹都訓(xùn)練完成后,對訓(xùn)練后的模型進行交叉驗證,如果模型誤差小于期望誤差范圍,則保存訓(xùn)練后的隨機森林模型,否則重新訓(xùn)練模型。
2.2.2 數(shù)據(jù)獲取和訓(xùn)練模型建立
客戶信息有很多,形式也多種多樣。在小型企業(yè)中,客戶信息主要靠人員去記憶,大部分的客戶相關(guān)信息都是由客戶經(jīng)理去記憶整理,客戶與公司之間的關(guān)系主要靠客戶經(jīng)理去維持;而在大型企業(yè)中,客戶信息通過紙質(zhì)和電子信息記錄下來,所有有權(quán)限的人員都可以查看這些信息。
正是由于客戶信息的多樣性,獲取客戶信息的方式也具有多樣性。在本文系統(tǒng)中,客戶信息的獲取是依靠獲取數(shù)據(jù)庫中的客戶信息得到的,所以將客戶信息記錄進數(shù)據(jù)庫中也是系統(tǒng)成立的關(guān)鍵。
數(shù)據(jù)獲取和訓(xùn)練模型建立是客戶分級的基礎(chǔ),只有建立了正確的模型,客戶分級才能正確地進行。由于這是系統(tǒng)最核心的部分,如果要滿足系統(tǒng)的性能需求,必須提高這部分過程的性能。所以,數(shù)據(jù)獲取和訓(xùn)練模型建立部分需要滿足以下條件:
(1) 正確率
系統(tǒng)采用隨機森林算法,由多棵隨機樹構(gòu)成,特征值的選取和訓(xùn)練模型都是采用多數(shù)投票的方式得出,可以避免一些個別現(xiàn)象的發(fā)生,從而提高分級的正確率。
(2) 抗噪聲能力
系統(tǒng)采用Bagging方法隨機獲取數(shù)據(jù)的屬性,而隨機森林算法是隨機獲取數(shù)據(jù),本身就有較強的抗噪聲能力,避免了個別現(xiàn)象的發(fā)生,還防止隨機樹的過擬合,提高了分級算法的抗噪聲能力。
(3) 分級速度
系統(tǒng)把訓(xùn)練分級模型和客戶分級獨立開來,只有首次運行、經(jīng)過一段時間使用后分級正確度下降或者用戶覺得要重新建模的時候才進行分級模型的訓(xùn)練,訓(xùn)練得到的分級模型保存在服務(wù)器上,等到對新客戶分級的時候可以直接調(diào)用,從而提高分級速度。
(4) 處理規(guī)模能力
系統(tǒng)采用隨機森林算法,數(shù)據(jù)獲取全部都是隨機的,對大規(guī)模數(shù)據(jù)的處理也是比較優(yōu)秀的,對于使用系統(tǒng)的企業(yè)來說,系統(tǒng)對數(shù)據(jù)的處理能力完全能符合他們的要求。針對系統(tǒng)的需求,結(jié)合隨機森林分類算法和Bagging方法,對系統(tǒng)的數(shù)據(jù)獲取和訓(xùn)練模型建立進行了設(shè)計。
客戶信息主要從數(shù)據(jù)庫中獲取,但是為了提高分級算法的效率,系統(tǒng)需要對數(shù)據(jù)進行一些處理,去除一些不需要的屬性。然后,系統(tǒng)要對數(shù)據(jù)進行預(yù)處理,把線性數(shù)據(jù)離散化,通過填寫缺失的值、光滑噪聲數(shù)據(jù)、識別或刪除離群點并解決不一致性來“清理”數(shù)據(jù),達到格式標(biāo)準(zhǔn)化,異常數(shù)據(jù)清除,錯誤糾正,重復(fù)數(shù)據(jù)的清除,并通過平滑聚集,數(shù)據(jù)概化,規(guī)范化等方式將數(shù)據(jù)轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形式。所有數(shù)據(jù)達到挖掘的標(biāo)準(zhǔn)后,就進行特征值的選擇,按照Bagging方法,有放回地取出相當(dāng)于屬性總個數(shù)數(shù)量的屬性,并隨機選擇數(shù)據(jù)進行建模,分裂方法采用信息增益的方法。當(dāng)節(jié)點的數(shù)據(jù)都屬于同一類的時候,就成功生成一棵隨機樹,經(jīng)過數(shù)棵隨機樹的多數(shù)投票方式?jīng)Q定最后的分級模型,最后把這個模型導(dǎo)出,保存在服務(wù)器上。
2.2.3 客戶分級
客戶分級是指通過訓(xùn)練出來的分級模型,對新客戶進行分級,同時,系統(tǒng)還負責(zé)對錯誤率進行統(tǒng)計,及時進行反饋。系統(tǒng)主要關(guān)注的是分級的正確率,系統(tǒng)統(tǒng)計錯誤的分級結(jié)果,將錯誤的分級結(jié)果進行反饋,然后對訓(xùn)練模型進行調(diào)整。在性能方面,由于這是用戶使用頻率最高的功能之一,所以要求響應(yīng)時間要短。針對系統(tǒng)的需求,對系統(tǒng)的客戶分級模塊進行了設(shè)計。
分級模型保存在服務(wù)器上。系統(tǒng)讀取服務(wù)器上的分級模型,如果沒有找到模型,會對用戶進行提示。然后系統(tǒng)會讓用戶選擇需要分級的新客戶,如果沒有可分級的客戶,系統(tǒng)則對用戶進行提示??蛻舴旨壱院螅到y(tǒng)會記錄分級的結(jié)果,并顯示在瀏覽器上。用戶瀏覽分級結(jié)果以后,發(fā)現(xiàn)結(jié)果有錯誤,可以進行修改,系統(tǒng)自動記錄修改情況,如果錯誤率達到預(yù)設(shè)值,就會反饋給訓(xùn)練器,重新進行訓(xùn)練。
以下針對具體每一步進行設(shè)計:
(1) 讀取訓(xùn)練模型
分級速度是系統(tǒng)重要的一個性能,每次分級都重新建立一次分級模型會消耗很多時間,所以系統(tǒng)把分級模型保存在服務(wù)器中,要進行對新客戶的分級必須先從服務(wù)器上讀取分級模型。
系統(tǒng)采用JAVA文件管理讀取文件的形式讀取文件,讀取后將模型載入系統(tǒng)中,準(zhǔn)備開始分級。讀取代碼如下所示:
RandomForest rs=(RandomForest) SerializationHelper.read("D:\\train.model");
其中,RandomForest就是隨機森林類;rs是類中的一個實體;D:\\train.model是模型在服務(wù)器中的保存地址。
在讀取的過程中,如果發(fā)現(xiàn)保存地址中沒有分級模型,系統(tǒng)會提示用戶還沒有進行訓(xùn)練,并跳轉(zhuǎn)至訓(xùn)練模型界面。
(2) 挑選分級客戶
挑選還沒有分級的客戶以進行分級。系統(tǒng)經(jīng)過數(shù)據(jù)庫查找后返回未分級的客戶數(shù)據(jù),如果系統(tǒng)中不存在未分級的客戶數(shù)據(jù),就提示用戶不存在未分級客戶。客戶數(shù)據(jù)以列表的形式顯示在瀏覽器上,系統(tǒng)支持多個客戶數(shù)據(jù),有復(fù)選框和全選的選項。
(3) 客戶分級
對挑選的客戶進行分級。系統(tǒng)讀取訓(xùn)練模型后,對傳入的客戶數(shù)據(jù)進行分級,系統(tǒng)支持多個客戶數(shù)據(jù),具有處理多個數(shù)據(jù)的功能。
(4) 記錄分級結(jié)果
系統(tǒng)記錄分級結(jié)果,并將結(jié)果展示。系統(tǒng)得到了分級結(jié)果后,將結(jié)果記錄進入數(shù)據(jù)庫,并將結(jié)果展示給用戶,使用戶看到自己想得到的結(jié)果。
(5) 反饋錯誤
如果分級出現(xiàn)錯誤,并且錯誤率達到一定數(shù)值以上,系統(tǒng)自動把錯誤反饋給訓(xùn)練器。
由于客戶分級是對新客戶進行預(yù)測,所以發(fā)生錯誤在所難免。用戶在發(fā)現(xiàn)錯誤之后,可以通過直接修改的方式對分級結(jié)果進行操作,但是在操作的同時,系統(tǒng)自動將分級錯誤記錄進數(shù)據(jù)庫,并查看數(shù)據(jù)庫中同樣的錯誤記錄數(shù)量是否已經(jīng)達到一定數(shù)值,如果已經(jīng)達到,就把信息反饋給訓(xùn)練器,并提醒用戶應(yīng)該重新建立新的分級模型。
3 結(jié) 語
本文從企業(yè)的實際需求出發(fā),進行了客戶分級分析,采用數(shù)據(jù)挖掘中的隨機森林分類算法實現(xiàn)客戶分級,給出了基于隨機森林的B2B客戶分級系統(tǒng)的總體結(jié)構(gòu)圖,并對關(guān)鍵模塊中的客戶分級模塊進行了詳細設(shè)計。
參考文獻
[1] 姜斌,羅阿理,趙永恒.基于隨機森林的激變變星候選體的數(shù)據(jù)挖掘[J].光譜學(xué)與光譜分析,2012,32(2):510?513.
[2] 李寶東,宋瀚濤.數(shù)據(jù)挖掘在客戶關(guān)系管理(CRM)中的應(yīng)用[J].計算機應(yīng)用研究,2002,19(10):71?74.
[3] 張喆,常桂然,黃小原.數(shù)據(jù)挖掘技術(shù)在CRM中的應(yīng)用[J].中國管理科學(xué),2003,11(1):53?59.
[4] 王海波,仲秋雁.基于數(shù)據(jù)挖掘的客戶關(guān)系管理體系結(jié)構(gòu)研究[J].大連理工大學(xué)學(xué)報:社會科學(xué)版,2004,25(2):42?46.
[5] 傅翠曉,黃麗華.我國B2B電子商務(wù)服務(wù)模式的分類探討[J].中國科技論壇,2010(10):100?106.
[6] 陳衛(wèi)華,朱仲英.數(shù)據(jù)挖掘在CRM中的應(yīng)用[J].微型電腦應(yīng)用,2001,17(10):26?28.
[7] 陳海珍,黃德才,郭海東,等.數(shù)據(jù)挖掘技術(shù)在CRM中的應(yīng)用[J].計算機工程,2003,29(7):189?191.
[8] 趙小歡,夏靖波,李明輝.基于隨機森林算法的網(wǎng)絡(luò)流量分類方法[J].中國電子科學(xué)研究院學(xué)報,2013(2):184?190.
[9] 馬昕,王雪,楊洋.基于隨機森林算法的大學(xué)生移動情況的預(yù)測[J].江蘇科技大學(xué)學(xué)報:自然科學(xué)版,2012,26(1):86?90.
[10] 胡宏,陳彥萍.基于隨機森林算法的混合入侵檢測系統(tǒng)研究[J].西安文理學(xué)院學(xué)報:自然科學(xué)版,2013,16(3):68?71.
[11] 張洪強,劉光遠,賴祥偉.隨機森林算法在肌電的重要特征選擇中的應(yīng)用[J].計算機科學(xué),2013,40(1):200?202.