• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于K-means的多維聚類算法在客戶信息中的應用

      2020-12-24 08:01:42周繼成蔡冠宇高尚
      軟件 2020年7期
      關鍵詞:數據量聚類對象

      周繼成 蔡冠宇 高尚

      摘? 要: 從客戶信息多維考慮,結合K-means算法原有思想,通過多維聚合來實現(xiàn)對大量客戶信息的分類聚合,通過比較數據伸縮率及擴展率來比較了Hadoop上的性能。

      關鍵詞: 數據挖掘;K-means;BI;客戶信息;聚類算法

      中圖分類號: TP391.1 ???文獻標識碼: A??? DOI:10.3969/j.issn.1003-6970.2020.07.012

      本文著錄格式:周繼成,蔡冠宇,高尚. 基于K-means的多維聚類算法在客戶信息中的應用[J]. 軟件,2020,41(07):61-65

      Application of Multidimensional Clustering Algorithm Based onK-means in Customer Information

      ZHOU Ji-cheng1, CAI Guan-yu2, GAO Shang1*

      (1. School of Computer Science and Engineering, Jiangsu University of Science and Technology, Zhenjiang 212003, China;2. Zhenjiang Dantu District Science and Technology Bureau, Zhenjiang 212003, China)

      【Abstract】: From the customer information multi-dimensional considerations, combined with the original idea of K-means algorithm, through multidimensional aggregation to achieve a large number of customer information clas?sification, through the comparison of data expansion rate and expansion rate to compare the performance of Hadoop.

      【Key words】: Data mining; K-means; BI; Customer information; Clustering algorithm

      0? 引言

      在數據越來越重要的時代,如何快速有效的利用現(xiàn)有的大量數據,挖掘潛在的商業(yè)機會,為立足先機,成為企業(yè)規(guī)劃未來數據發(fā)展戰(zhàn)略的重中之重??蛻粜畔⑹瞧髽I(yè)最核心且最具有競爭力的,往往最能理解客戶需求,針對客戶來發(fā)展產品,則在市場上就能夠占得先機[1-7]。而要做到產品追隨客戶需求,則需要對市場的客戶分布、客戶群類做到很精確的判斷。在探討市場發(fā)展趨勢時,需要對市場的客戶群體進行分類聚合,此時就需要數據挖掘的聚類算法對海量的客戶歷史數據進行處理。在商務智能中,聚類分析算法可以對企業(yè)大量的客戶信息進行分類,相同類組中的客戶在屬性特征上就會有高度的相似性,這樣有利于針對不同類群的客戶開發(fā)

      針對性的客戶產品。但是由于客戶屬性特征往往都是高達數十個,同時數據量也是數據聚類處理的一個難點,現(xiàn)有的聚類算法在處理多維及大批量數據時,在準確度及時間、空間復雜度上遇到了瓶頸[8-9]。針對這一問題研究的思路是將并行處理技術及多維聚類分析與現(xiàn)有的比較常用的聚類分析算法K-means相結合,探究更加高效的聚類分析方法,提高客戶信息分析的準確度。

      1? 客戶數據的預處理

      這里以某地產行業(yè)客戶信息作為例子。該地產公司的客戶信息數據來源ERP系統(tǒng)和移動端的APP系統(tǒng),細分為線索登記、來訪及跟進信息、交易階段相關信息、入伙登記信息、APP會員推廣和推薦信息等。在這一階段需要將所有系統(tǒng)的有關客戶信息抽取到對應的目標表中,主要分為客戶身份信息和客戶事件。地產客戶信息結構其執(zhí)行的過程如下圖1所示,設計的客戶數據結構如表1。

      2 ?基于Hadoop的多維聚類算法K-means設計

      針對客戶信息屬性多維的特點,以及結合Hadoop的MapReduce算法的設計,以常規(guī)的K-means算法為基礎,對其進行多維化的擴展。常規(guī)的串行K-means算法包含以下幾個步驟[10-11]。

      (1)從數據對象中有針對性的選擇k個客戶對象作為初始化聚類中心。

      (2)設定最小距離的初步臨界值,通過計算每個數據對象與聚類中心的距離,進行初步的分類劃分。

      (3)根據劃分后分聚類中心,重新計算每個聚類的均值,這個均值是可以重新按照第二步驟進行變化的。

      (4)計算每一次劃分后是否滿足函數收斂,如果滿足,則算法終止運行,如果條件不滿足,則繼續(xù)2、3步驟。

      從上述算法步驟可以看出,K-means算法的主要計算工作是根據設定的最小距離,計算每一個數據對象距離聚類中心的距離,從來能夠將數據對象按照不同的簇類進行劃分。每一次迭代都是執(zhí)行在前一次劃分的基礎之上在初始化聚類中心,從而能夠在每次迭代之后對數據對象更細一步的劃分。

      常見的劃分方法有兩種,一種是k-均值;另一種是k-中心點,后一種比前一種魯棒性更優(yōu),但是其復雜度相對更高,尤其是大批量的數據。所以從數據量大和客戶信息屬性較多的狀況,采用多維K-means聚類,并為每一個屬性聚類加權重,權重按照客戶屬性的重要性賦值。k-means算法的迭代是通過Map函數及Reduce函數來實現(xiàn)的。

      并行處理技術現(xiàn)在最常見的應用是Hadoop架構體系,其是一個成本比較低,開發(fā)難度較小,并行處理大規(guī)模數據性能較好的云計算平臺,特點是可靠性較高、成本相對較低、效率高等[12]。Hadoop平臺框架最核心的兩個部分:為大量的數據提供存儲的HDFS(分布式文件系統(tǒng));為大數據提供計算模型的MapReduce。Hadoop平臺最大的特點集群化體現(xiàn)在它的HDFS集群。集群中會有一個主節(jié)點(Namenode)作為集群管理中心,多個從節(jié)點作為數據節(jié)點。每個節(jié)點都可以是一臺普通的PC機。MapReduce是一種編程模型,用于大批量數據的并行計算。其主要思想有兩個部分,Map(映射)、Reduce(歸約)。Map端的主要作用如下。

      (1)當數據Input后,會根據分節(jié)點的個數來安排數據分片的大小,每一個數據分片對應一個map,Map的輸出結果暫且放在內存緩沖區(qū)中。這些數據會根據自定義的Map函數生成新的(key,value)鍵值對。不同類型的類鍵值對也是不同的。

      (2)Shuffle是在Reduce端之前,用于確保輸入是Map已經處理排好序的。

      (3)Reduce端:會對從Map端傳送過來的鍵值對做遞歸歸約,輸入參數是(key,{list value}),通過自定義的Reduce函數處理后,生成新的(key,value)鍵值對。

      Map函數默認的鍵值對(Key,value)。為了便于計算,可以將客戶信息數據按照屬性導成文本形式。這里的key即當前文本的數據相對于起始點的位移,value則是對應的位移字符串。文本遍歷后,通過value值計算對象與各個中心點的距離,從而找到距離最短的中心簇類。其設計的Map函數如下。

      Map((key,value),(key,value))

      {

      初始時解析value值得到初始值firstvalue;

      距離中心聚類的最短距離定義為minvalue,初始化時為最大值;

      Dex變量作為key;

      K定義為初始聚類中心的個數;

      For m=0 to k-1

      Do{

      Dis=firstvalue;定義每一個對象與第m個聚類中心的距離;

      If dis

      {

      minValue=dis;

      index=i;

      }

      }

      Key=index;每一次map函數執(zhí)行之后將index賦值給key;

      Value=dis;將dis作為value的值;

      輸出(key,value)

      }

      Reduce函數的輸入來源Map之后的分類合并,即(key,V);這里的key是合并后聚類的下標,V是同一聚類的對象值即Map函數得到的value;通過對同一聚類的各個對象value值得相加除以同一聚類的對象個數,即為新的聚類中心的值。偽代碼如下。

      Reduce((key,V),(key,value))

      {

      SUM[];初始化數組作為每一個聚類對象坐標的累加值。

      NUM=0;初始化變量NUM,作為同聚類的對象個數;

      While(V.hasNext())//hasNext()用于判斷是否有下一個同聚類對象;

      {

      V.next(num);從next()函數中解析同聚類各位位移及對象個數;

      NUM+=num;

      }

      數組SUM[]的每一個值與NUM相除,得到各個聚簇中心新的坐標值;

      即key變?yōu)閗ey;

      Value的值即各個對象對應的坐標值;

      返回(key,value)

      }

      重復Map函數及Reduce,直到達到收斂條件。

      3 ?Hadoop環(huán)境下對客戶信息的處理

      3.1 ?Hadoop環(huán)境和數據來源介紹

      本論文探究的是運用K-means實現(xiàn)對地產客戶信息的聚類分析,基于數據量及探究的主題,部署的Hadoop環(huán)境基于五臺PC機,其中一臺為服務器虛機,內存為32G。其他四臺為PC機和筆記本,配置PC機為雙核8G內存,筆記本為12G內存。Hadoop是V2.7.0版本。機器是通過千兆以太網及交換機建立的局域網進行連接互通。

      數據來源于某地產客戶,其需求是基于現(xiàn)有的客戶信息、來訪登記信息、客戶買房信息等挖掘客戶潛在的客戶需求,通過對客戶不同屬性之間的關系的分析,調整市場分布。

      由于客戶信息屬性是多維的,所以在這里主要研究一些帶有決策性的屬性進行研究。包括以下幾個屬性:性別、年齡、省份、城市、所屬行業(yè)、教育程度、婚姻狀況、購房用途、工作區(qū)域、居住區(qū)域、收入水平、家庭狀況、職業(yè)、興趣愛好、需求面積、意向樓層、意向單價、線索來源(媒體廣告等)等。

      3.2 ?評價指標

      指標性能往往基于數據量及平臺性能發(fā)生變化的,所以在實驗環(huán)境中通過控制數據量的變化及平臺來探討處理機制的性能,將擴展率、加速比和數據伸縮率作為評價指標,同時潛在的客戶信息關聯(lián)也作為評價條件。

      3.3 ?聚類結果分析

      3.3.1 ?K-means算法性能分析

      從數據量級來看,千萬級的數據量運行時間比例要比百萬級的數據在同等節(jié)點數的效率更高,對于Hadoop來說,節(jié)點數的變化導致的運行時間及準確率的變化更能體現(xiàn)其集群化并行運算的優(yōu)勢。

      圖2是K-means算法在Hadoop平臺并行運算的加速比,從圖中可以看到,加速比隨著節(jié)點的增加是逐漸增大,Hadoop并行運算提高了K-means聚類分析的效率,但從圖中也可以看出,從2個節(jié)點到3個節(jié)點的時候加速比的增大比例是最大的,影響加速比提高的另一個原因是隨著節(jié)點的增多,節(jié)點之間的通訊開銷也是逐漸增大。所以在部署Hadoop集群環(huán)境時,節(jié)點之間的通訊方式和設備也是需要重點考慮的。同時在圖中可以看出百萬級的數據量在同等Hadoop環(huán)境下,其加速比要比千萬級數據量要低一些。

      從圖3可以看出隨著Hadoop平臺節(jié)點數的增加,K-means算法的擴展率逐漸的降低,這主要是由于Hadoop節(jié)點數的增加,導致節(jié)點之間的通訊代價增大。但是通過兩條折線比較,一條是五百萬級別的數據量,另一條是一千萬級別的數據量,隨著數據量的翻倍,擴展率反而有一定得提高,所以在遇到數據量比較大的情況時,Hadoop平臺在做聚類分析時對算法的性能會有一定得提高。

      3.3.2? 客戶信息挖掘分析

      首先針對部分客戶數據的三個比較重要的屬性:性別、收入水平、購房意愿做分析。其中收入水平有一般、中等、較高三個等級;購房意愿有較低、一般、強烈三個等級??梢钥闯龃笾驴梢苑譃槿悾活愂歉呤杖氲囊庠笍娏业哪行匀巳?一類是中等收入的購房意愿一般的女性人群;還有一類是收入較低購房意愿較低的男性人群。

      針對客戶信息分析結果進行統(tǒng)計,由于該地產公司的主要業(yè)務集中在江蘇蘇南及上海等地,所以統(tǒng)計的客戶信息也主要集中在這些地方。從圖4到圖10可以看出客戶主要幾個屬性所占的比例,結合表3可以看出地產客戶群的類別受年齡及地域影響比較大,客戶群中又以25-40之間的男性居多,而且需求大多數是為了結婚使用。同時收入水平也是影響購房意愿的重要一個屬性。其中中等收入水平的在南京無錫蘇州等二三線城市的購房意愿更為強烈。所以針對地產市場,可以增大住宅區(qū)的建設,推廣人群以25到40歲的人群為主。

      4 ?結論

      通過對Hadoop平臺及K-means聚類算法的研究,實現(xiàn)了在Hadoop平臺上使用K-means對地產客戶信息的聚類分析,通過比較運行時間、K-means算法的擴展率以及Hadoop下K-means算法并行運算的加速比,可以發(fā)現(xiàn)大批量數據(至少千萬級的數據)在多節(jié)點的集群Hadoop平臺中效率更高,準確率也更好。同時K-means多維屬性聚類算法更適合于屬性眾多的客戶信息數據的分析。

      參考文獻

      1. Gustavo E A, Batista P A, Monard M C. An Analysis of Four Missing Data Treatment Methods for Supervised Learning[J]. Applied Artificial Intelligence, 2003, 17(5/6): 519-533.

      2. Mohameds, Abdelkriml, Alibh, et al. A segmentation method to handwritten word recognition[J]. Neural Network World, 2007, 17(3): 225-236.

      3. Xiang S, Nie F, Zhang C S. Learing a Mahalanobis distance metric for data clustering a classification[J]. Pattern Recognition, 2008.

      4. Yuan S T, Sun J. Ontology-based structured cosine similarity in document summarization: with applications to mobile audio-based knowledge management[J]. System, Man, and Cybernetics, Part B: Cybernetics, IEEE Transaction od, 2005, 35(5): 1028-1040.

      5. Tuomo Korenius, Jorma Laurikkala, Martti Juhola. On principal component analysis, cosine and Euclidean measures in information retrieval. Information Sciences, No. 177, 2007, pp. 4893-4905.

      6. Jun Ye. Cosine similarity measures for intuitionistic fuzzy sets and their applications. Mathematical and Computer Mo?d?eling, 2011, 53: 91-97.

      7. Nikolova E, Jecheva V. Some similarity coefficients and app?lication of data mining techniques to the anomaly-bases IDS [J]. Telecommunication Systems, 2012, 50(2): 127-135.

      8. Gan G., J. Wu, A convergence theorem for the fuzzy subspace clustering (FSC) algorithm, Pattern Recognition, 2008, 41(6): 1939-194.

      9. 牛新征, 佘堃. 面向大規(guī)模數據的快速并行聚類劃分算法研究[J]. 計算機科學, 2012, 39(1): 134-137, 151.DOI:10. 3969/j.issn.1002-137X.2012.01.030.

      10. 柳靜, 郭紅山. 云計算中K-means聚類中心優(yōu)化求解方法[J]. 科技通報, 2015, 31(10): 100-102.

      11. 江小平, 李成華, 向文, 等. K-means聚類算法的MapReduce并行化實現(xiàn)[J]. 華中科技大學學報(自然科學版), 2011, 39(z1): 120-124.

      12. 曾令英. 云計算中MapReduce并行計算平臺的研究[D]. 哈爾濱工業(yè)大學, 2013.

      猜你喜歡
      數據量聚類對象
      神秘來電
      睿士(2023年2期)2023-03-02 02:01:09
      基于大數據量的初至層析成像算法優(yōu)化
      計算Lyapunov指數的模糊C均值聚類小數據量法
      高刷新率不容易顯示器需求與接口標準帶寬
      寬帶信號采集與大數據量傳輸系統(tǒng)設計與研究
      電子制作(2019年13期)2020-01-14 03:15:18
      攻略對象的心思好難猜
      意林(2018年3期)2018-03-02 15:17:24
      基于DBSACN聚類算法的XML文檔聚類
      電子測試(2017年15期)2017-12-18 07:19:27
      基于熵的快速掃描法的FNEA初始對象的生成方法
      區(qū)間對象族的可鎮(zhèn)定性分析
      基于改進的遺傳算法的模糊聚類算法
      浮梁县| 宜都市| 丘北县| 濮阳县| 舞钢市| 莱州市| 河北区| 桂平市| 石柱| 临沂市| SHOW| 康保县| 竹溪县| 咸丰县| 太和县| 嘉义市| 济源市| 北碚区| 文化| 垫江县| 滁州市| 红桥区| 金堂县| 剑川县| 崇阳县| 滦南县| 利津县| 石楼县| 依兰县| 临海市| 团风县| 娄烦县| 锡林郭勒盟| 宁国市| 博湖县| 沂南县| 萨嘎县| 蒙自县| 榕江县| 甘德县| 叙永县|