混合數(shù)據(jù)特征選擇算法及在客戶流失預(yù)測(cè)中的應(yīng)用

2013-11-19 09:40:56周君儀馬少輝

江蘇科技大學(xué)學(xué)報(bào)(自然科學(xué)版) 2013年6期

周君儀,馬少輝

(江蘇科技大學(xué) 經(jīng)濟(jì)管理學(xué)院，江蘇鎮(zhèn)江 212003)

粗糙集理論是由Pawlak[1]提出的一種處理含糊和不確定性問題的數(shù)學(xué)工具,隨著粗糙集的發(fā)展,出現(xiàn)了很多擴(kuò)展型粗糙集[2-4].在粗糙集的研究中,約簡(jiǎn)是一個(gè)核心概念.很顯然,約簡(jiǎn)是特征選擇的過程,特征選擇出的子集具有最小的數(shù)據(jù)量且最具代表性.傳統(tǒng)的粗糙集特征選擇是針對(duì)離散型數(shù)據(jù)進(jìn)行處理的,而對(duì)于連續(xù)型數(shù)據(jù),常采用的處理手段是采用離散化方法將數(shù)據(jù)進(jìn)行分割,但可能會(huì)引入量化誤差、改變數(shù)據(jù)的本質(zhì)結(jié)構(gòu),從而導(dǎo)致知識(shí)發(fā)現(xiàn)能力的下降.

在現(xiàn)實(shí)世界中會(huì)出現(xiàn)大量數(shù)據(jù)既包含離散型數(shù)據(jù)(比如性別、職業(yè)),又包含連續(xù)型數(shù)據(jù)(比如收入、通話時(shí)長(zhǎng))的情況,這些數(shù)據(jù)量大,數(shù)據(jù)維數(shù)高,如果不進(jìn)行特征選擇可能就無法進(jìn)行進(jìn)一步的分析.文獻(xiàn)[5]引入模糊粗糙集的概念,設(shè)計(jì)了針對(duì)混合數(shù)據(jù)集的特征選擇算法.但其所定義的基于模糊等價(jià)關(guān)系的相對(duì)熵不是單調(diào)變化的,屬性的重要性會(huì)出現(xiàn)負(fù)的情況.在特征選擇時(shí),只選取大于零的值，但負(fù)值也表明將某一個(gè)屬性進(jìn)行約簡(jiǎn)的時(shí)候信息量發(fā)生了一定程度的改變,說明這個(gè)屬性具有一定的重要性.文中針對(duì)混合型數(shù)據(jù),在文獻(xiàn)[6]所提的CEBARKNC算法的基礎(chǔ)上引入模糊粗糙集[7-9]思想,對(duì)屬性重要性進(jìn)行改進(jìn),使其結(jié)果均為正值.進(jìn)行約簡(jiǎn)時(shí),對(duì)屬性重要性選取設(shè)定閾值λ,放寬屬性約簡(jiǎn)的邊界,使特征選擇能更符合真實(shí)數(shù)據(jù)的特性.文中將經(jīng)過改進(jìn)的CEBARKNC算法用于實(shí)際客戶流失預(yù)測(cè)問題,并與文獻(xiàn)[5]的特征選擇方法進(jìn)行了對(duì)比分析.

1 模糊粗糙集基本概念

1.1 模糊相似關(guān)系

在粗糙集中,等價(jià)關(guān)系要滿足自反性、對(duì)稱性、傳遞性.而在模糊系統(tǒng)中只要滿足自反性和對(duì)稱性就可以稱之為模糊相似關(guān)系.通過模糊相似關(guān)系可以構(gòu)建模糊相似矩陣.要構(gòu)建模糊相似關(guān)系矩陣,必須引入模糊相似關(guān)系的度量,即計(jì)算相似系數(shù)的方法,可以采用絕對(duì)值倒數(shù)法

計(jì)算相似系數(shù),構(gòu)建模糊相似矩陣M(R′)

1.2 模糊等價(jià)關(guān)系

文中采用平方自合成法求最大值最小值傳遞閉包,通過求傳遞閉包可以將模糊相似矩陣構(gòu)建為模糊等價(jià)矩陣,它既具有傳遞性,又具有自反性和對(duì)稱性.

令S為一模糊相似矩陣,依次求其平方:S→S2→S4→…→S2i→…，(i=1,2,3,…).第一次出現(xiàn)Sk°Sk=Sk時(shí),Sk為所求傳遞閉包,也即為所求模糊等價(jià)矩陣

由xi和R得到的模糊等價(jià)類為

1.3 基于模糊粗糙集的條件信息熵

2 基于模糊信息熵的混合數(shù)據(jù)特征選擇算法改進(jìn)

2.1 改進(jìn)算法

在基于模糊粗糙集理論的基礎(chǔ)上,文中設(shè)計(jì)了一個(gè)改進(jìn)CEBARKNC啟發(fā)式算法進(jìn)行特征選擇，其算法如下:

輸出:該決策系統(tǒng)的一個(gè)相對(duì)約簡(jiǎn)B.

Step2.采用平方自合成法計(jì)算傳遞閉包,求得模糊等價(jià)矩陣.

2.2 算法驗(yàn)證

采用UCI數(shù)據(jù)庫(kù)中的數(shù)據(jù)集對(duì)算法有效性進(jìn)行驗(yàn)證.選取數(shù)據(jù)集見表1.同時(shí)采用文中改進(jìn)的CEBARKNC算法和胡清華提出的一個(gè)fuzzy-rough算法進(jìn)行特征選擇,結(jié)果見表2.下文中“Hu′s f-r”表示胡清華提出的一個(gè)fuzzy-rough算法.

表1 實(shí)驗(yàn)數(shù)據(jù)集Table 1 Experiment data sets

表2 特征選擇屬性個(gè)數(shù)Table 2 Numbers of attribute selection of improved CEBARKNC and Hu′s f-r algorithm

由表2可以看出,文中所改進(jìn)的CEBARKNC算法能較有效地進(jìn)行特征選擇.對(duì)于特征選擇結(jié)果的評(píng)價(jià)通常以分類器的分類性能來檢驗(yàn),以表2的特征選擇結(jié)果為基礎(chǔ),構(gòu)建決策樹,并分別計(jì)算改進(jìn)CEBARKNC算法和胡清華提出的一個(gè)fuzzy-rough算法的準(zhǔn)確率,對(duì)比結(jié)果見表3.

由表2，3可看出，采用文中改進(jìn)的CEBARKNC算法得出的準(zhǔn)確都比較高,說明改進(jìn)的CEBARKNC算法不僅能取得較好的特征選擇結(jié)果,而且能取得較高的準(zhǔn)確率,也說明文中改進(jìn)的算法較適合于以決策樹為模型的準(zhǔn)確率評(píng)價(jià)結(jié)果.

表3 決策樹與特征選擇結(jié)果比較Table 3 Comparisions of attribute selection with decision tree

3 客戶流失預(yù)測(cè)實(shí)驗(yàn)及結(jié)果

客戶流失預(yù)測(cè)是一個(gè)重要的管理問題,國(guó)內(nèi)外學(xué)者對(duì)此進(jìn)行了大量研究[10-12].預(yù)測(cè)模型精度是一個(gè)受數(shù)據(jù)的預(yù)處理技術(shù),分類模型的構(gòu)建技術(shù),評(píng)價(jià)指標(biāo)等多方面因素影響的問題.

文中所設(shè)計(jì)的特征選擇算法在數(shù)據(jù)預(yù)處理階段對(duì)數(shù)據(jù)進(jìn)行了主要特征的選擇,極大地降低數(shù)據(jù)維度,減少模型建立的難度和時(shí)間,提高了效率.文中采用分類性能來評(píng)價(jià)特征選擇的好壞.將處理過的數(shù)據(jù)進(jìn)一步用于客戶流失預(yù)測(cè)分類器建模,既進(jìn)行了客戶流失預(yù)測(cè),又以預(yù)測(cè)性能檢驗(yàn)了特征選擇算法的有效性.

3.1 數(shù)據(jù)和特征選擇

實(shí)驗(yàn)所用原始數(shù)據(jù)為KDD CUP2009所提供的一個(gè)混合型數(shù)據(jù)集.該數(shù)據(jù)集包括50 000個(gè)客戶,條件屬性有230個(gè),其中有190個(gè)屬性的數(shù)據(jù)值是連續(xù)數(shù)字型的,40個(gè)屬性的數(shù)據(jù)值是字符型的.

首先對(duì)原始數(shù)據(jù)進(jìn)行清理,將屬性數(shù)據(jù)缺失率超過90%的屬性進(jìn)行刪除,剩余屬性77個(gè).然后在數(shù)據(jù)集中選取相對(duì)有效數(shù)據(jù)43 704條,再通過平均值法對(duì)數(shù)據(jù)集中仍然缺失的少量數(shù)據(jù)進(jìn)行填充,構(gòu)成實(shí)驗(yàn)數(shù)據(jù)集A.該數(shù)據(jù)集是典型的混合型數(shù)據(jù),對(duì)預(yù)處理之后的數(shù)據(jù)集,根據(jù)改進(jìn)的CEBARKNC算法,設(shè)定λ=0.000 005,對(duì)數(shù)據(jù)集A進(jìn)行特征選擇.

3.2 結(jié)果與分析

文中實(shí)驗(yàn)所使用數(shù)據(jù)集屬性數(shù)為230個(gè),其中有190個(gè)屬性的數(shù)據(jù)值是連續(xù)數(shù)字型的,40個(gè)屬性的數(shù)據(jù)值是字符型的.首先采用改進(jìn)的CEBARKNC算法進(jìn)行特征選擇,然后采用胡清華提出的一個(gè)fuzzy-rough算法進(jìn)行特征選擇,結(jié)果見表4.

表4 改進(jìn)CEBARKNC算法和Hu′s f-r算法特征選擇Table 4 Attribute selection of improved CEBARKNC and Hu′s f-r algorithm

將特征選擇結(jié)果應(yīng)用于客戶流失預(yù)測(cè)中,在進(jìn)行客戶流失預(yù)測(cè)的同時(shí),用分類器的性能來評(píng)價(jià)特征選擇算法的好壞.用數(shù)據(jù)集對(duì)模型訓(xùn)練以后,分別以神經(jīng)網(wǎng)絡(luò)(ANN)、邏輯回歸建模,得出訓(xùn)練集和測(cè)試集的運(yùn)算結(jié)果.對(duì)比結(jié)果見表5，6.

表5 采用ANN的改進(jìn)CEBARKNC算法與Hu′s f-r算法對(duì)比Table 5 Comparison of improved CEBARKNC using ANN with Hu′s f-r algorithm

表6 采用邏輯回歸的改進(jìn)CEBARKNC算法與Hu′s f-r算法對(duì)比Table 6 Comparison of improved CEBARKNC using logic regression with Hu′s f-r algorithm

表5中,將改進(jìn)CEBARKNC算法和fuzzy-rough算法得出的數(shù)據(jù)集用于神經(jīng)網(wǎng)絡(luò),經(jīng)過5折交叉確認(rèn),可以看出改進(jìn)CEBARKNC算法性能比胡清華提出的一個(gè)fuzzy-rough算法好.

表6中,將改進(jìn)CEBARKNC算法和fuzzy-rough算法得出的數(shù)據(jù)集用于邏輯回歸,經(jīng)過5折交叉確認(rèn),可以看出改進(jìn)CEBARKNC算法性能比胡清華提出的一個(gè)fuzzy-rough算法好.

經(jīng)過神經(jīng)網(wǎng)絡(luò)、邏輯回歸建模之后的性能比較,可以看出改進(jìn)的CEBARKNC算法得出的數(shù)據(jù)集性能比胡清華提出的一個(gè)fuzzy-rough算法得出的數(shù)據(jù)集性能都要好.

4 結(jié)論

1)文中以改進(jìn)的基于模糊粗糙集CEBARKNC算法,選取了高維混合數(shù)據(jù)的主要特征,極大的減少了冗余屬性對(duì)預(yù)測(cè)模型的影響,提高了效率.

2)文中為了檢驗(yàn)算法的有效性,將其應(yīng)用于客戶流失預(yù)測(cè)中,分別采用支持神經(jīng)網(wǎng)絡(luò)、邏輯回歸構(gòu)建客戶流失預(yù)測(cè)模型.結(jié)果表明：文中所改進(jìn)的CEBARKNC算法能有效地處理混合型數(shù)據(jù)集,且經(jīng)過文中所提特征選擇算法處理過的數(shù)據(jù)集比胡清華提出的一個(gè)fuzzy-rough算法得出的數(shù)據(jù)集的預(yù)測(cè)效果好,說明改進(jìn)的CEBARKNC算法是有效的,且能成功應(yīng)用于客戶流失預(yù)測(cè)研究中.

[1] Pawlak Z.Rough setstheoretical aspect of reasoning about data [M].London:Proceedings of Kluwer Academic Publishers,1991.

[2] Mi J S,Zhang W X.An axiomatic characterization of a fuzzy generalization of rough sets[J].InformationSciences,2004,160 (1-4): 235-249.

[3] 楊習(xí)貝,竇慧莉,宋曉寧,等.廣義不完備序值系統(tǒng)中的優(yōu)勢(shì)關(guān)系粗糙集[J].江蘇科技大學(xué)學(xué)報(bào):自然科學(xué)版,2011,25 (3): 262-267.

Yang Xibei,Dou Huili,Song Xiaoning,et al.Dominance-based rough set in generalized incomplete ordered system[J].JournalofJiangsuUniversityofScienceandTechnology:NaturalScienceEdition,2011,25 (3): 262-267.(in Chinese)

[4] Yang Xibei,Zhang Ming,Dou Huili,et al.Neighborhood systems-based rough sets in incomplete information system[J].Knowledge-BasedSystems,2011,24(6): 858-867.

[5] Hu Qinghua,Yu Daren,Xie Zongxia.Information-preserving hybrid data reduction based on fuzzy-rough techniques[J].PatternRecognitionLetters,2006,27:414-423.

[6] 王國(guó)胤,于洪,楊大春.基于條件信息熵的決策表約簡(jiǎn)[J].計(jì)算機(jī)學(xué)報(bào),2002,25(7):759-766.

Wang Guoyin,Yu Hong,Yang Dachun.Decision table reduction based on conditional information entropy[J].ChineseJournalofComputers,2002,25(7):759-766.(in Chinese)

[7] Chen Degang,Zhao Suyun.Local reduction of decision system with fuzzy rough sets[J].FuzzySetsandSystems,2010,1619(13):1871-1883.

[8] Parthal′ain N M,Richard J.Finding fuzzy-rough reducts with fuzzy entropy [C]∥In:Proc.17thInternat.Conf.onFuzzySystems.Hongkong:IEEE,2008: 1282-1288.

[9] 徐菲菲,苗奪謙,魏萊,等.基于互信息的模糊粗糙集屬性約簡(jiǎn)[J].電子與信息學(xué)報(bào),2008,30(6):1372-1375.

Xu Feifei,Miao Duoqian,Wei Lai,et al.Mutual information-based algorithm for fuzzy-rough attribute reduction[J].JournalofElectronics&InformationTechnology,2008,30(6):1372-1375.(in Chinese)

[10] Huang Bingquan,Kechadi M T,Buckley B.Customer churn prediction in telecommunications[J].ExpertSystemswithApplications,2012,39(1):1414-1425.

[11] 羅彬,邵培基,羅盡堯,等.基于粗糙集理論-神經(jīng)網(wǎng)絡(luò)-蜂群算法集成的客戶流失研究[J].管理學(xué)報(bào),2011,8(2):256-272.

Luo Bin,Shao Peiji,Luo Jinyao,et al.Customer churn research based on multiple classifier fusing rough sets-neural network-artificial bee colony algorithm[J].ChineseJournalofManagement,2011,8(2):256-272.(in Chinese)

[12] Risselada H,Peter C V,Tammo H A B.Staying power of churn prediction models[J].JournalofInteractiveMarketing,2010,24: 198-208.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看