• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于聚類算法的家庭成員關系識別研究

      2020-10-26 06:37:00袁鳶李成奇付文豪
      廣東通信技術 2020年10期
      關鍵詞:家庭成員聚類家庭

      [袁鳶 李成奇 付文豪]

      1 引言

      隨著各電信運營商進入全業(yè)務運營時代,中國移動在寬帶及家庭業(yè)務存在后發(fā)弱點,競爭對手利用其全業(yè)務優(yōu)勢和移動公司在此領域業(yè)務的弱點,實施差異化的競爭策略,積極滲透移動業(yè)務,市場競爭日趨激烈。

      2 現(xiàn)狀分析

      為適應新形勢下市場競爭的要求,立足于移動公司在移動業(yè)務的先發(fā)優(yōu)勢和規(guī)模優(yōu)勢,通過業(yè)務融合重點發(fā)展和推廣家庭業(yè)務,增加客戶對移動業(yè)務的粘性,這樣不僅能降低個人客戶被蠶食的風險,更能在傳統(tǒng)語音業(yè)務和數(shù)據(jù)業(yè)務的基礎上取得進一步收入發(fā)展。然而,當前移動公司在發(fā)展寬帶和家庭業(yè)務市場上存在如下幾個問題。

      (1)客戶居住地信息和小區(qū)人數(shù)規(guī)模的不確定,不利于寬帶資源的布放,容易造成資源覆蓋的緊張或浪費。

      (2)無法依靠人工或者簡單的統(tǒng)計來實現(xiàn)客戶家庭位置定位。

      (3)缺失小區(qū)成員信息,對家庭客戶的定位產(chǎn)生阻力。

      (4)人工成本高,數(shù)據(jù)質(zhì)量低,社區(qū)通訊錄存在更新滯后、信息不完整等諸多問題。

      (5)用戶通信行為特征挖掘不夠深入,沒有結合通話時段與通話位置信息,無法通過用戶交往圈準確分析判斷其交往的用戶角色。

      (6)每個用戶通信交往圈數(shù)據(jù)量大,沒有有效的方法從用戶的的通信交往圈中,區(qū)分哪些是該用戶的核心交往圈用戶,或僅靠傳統(tǒng)的軟件處理效率低下,而且效果極差,無法滿足運營需要。

      綜上所述,如何將聚類分析算法應用于電信行業(yè)家庭用戶識別業(yè)務,通過使用機器學習聚類分析算法進行家庭成員分群,精確對社區(qū)用戶進行群體分割,按家庭屬性劃分出簇群,以評估移動公司在家庭業(yè)務的市場分額和資源分配,并解決實際生產(chǎn)過程中的相關問題,已成為家庭市場營銷的重要抓手。

      3 家庭成員識別研究

      電信行業(yè)家庭用戶最明顯的特征就是通過相互聯(lián)系來形成交往圈,這一點跟復雜網(wǎng)絡很類似。復雜網(wǎng)絡一般是指節(jié)點數(shù)量多且節(jié)點間交互關系復雜的網(wǎng)絡。社區(qū)結構是復雜網(wǎng)絡的拓撲特點之一,整個網(wǎng)絡由若干社區(qū)構成,社區(qū)內(nèi)部節(jié)點的交互頻繁,社區(qū)間節(jié)點的交互較弱。因此,當進行對一個復雜網(wǎng)絡的社區(qū)發(fā)現(xiàn)時,通常情況下是可以使用聚類算法的。聚類算法源于圖的劃分問題,圖劃分的目標就是找到一種切割方法,使得切割最少的邊就可以將結點分割為不相交的集合。

      3.1 模型設計

      本模型的設計原理思想來源于聚類算法,其實現(xiàn)過程歸納為以下3個主要步驟。

      (1)通過用戶通信行為來構建表示出電信行業(yè)用戶集的相似度矩陣W;

      (2)通過計算相似度矩陣或拉普拉斯矩陣的前k個特征值與特征向量,構建特征向量空間;

      (3)利用K-means聚類算法對特征向量空間中的特征向量進行聚類。如圖1所示為設計原理圖[1]。

      圖1 家庭成員識別模型設計原理

      3.2 算法的實現(xiàn)和應用

      (1)聚類算法的選定

      譜聚類算法的思想來源于譜圖劃分理論,它將聚類問題看成是一個無向圖的多路劃分問題。假設一無向加權圖,其表現(xiàn)形式為一對稱鄰接矩陣,其中n表示圖G所含的節(jié)點數(shù),表示連接頂點i與j的權值,D為對角陣。定義一個圖劃分判據(jù),如Shi和Malik提出的2-way目標函數(shù)Ncut[2]:

      譜聚類算法是一種配對聚類方法,算法僅與數(shù)據(jù)點的數(shù)目有關,而與維數(shù)無關,因而可以避免由于特征向量的過高維數(shù)所造成的奇異性問題。譜聚類通過特征分解,可以獲得聚類判據(jù)在放松了的連續(xù)域中的全局最優(yōu)解。與其它聚類算法相比,譜聚類具有識別未知分布數(shù)據(jù)集聚類方面的能力,非常適合于許多實際問題,而且執(zhí)行起來比較容易。

      聚類數(shù)目不需要人工確定,而是自動迭代循環(huán),找尋CH指標最佳時候的K值。考慮到自動迭代的過程,計算成本過高,不可能從最小值2迭代到全部用戶數(shù),這是業(yè)務上需要高效快速的生產(chǎn)要求不符合。故模型針對此問題做了如下處理:提前找尋社區(qū)家庭戶數(shù),一般的社區(qū)都是有固定房屋總數(shù)且發(fā)布到互聯(lián)網(wǎng)上,且數(shù)據(jù)是比較精確的。通過此就得獲得最后社區(qū)劃分的聚類數(shù)的大致范圍,即Kmin與Kmax用于自動迭代聚類模型數(shù)[3],此處理方式一定最大程度上減少模型自動迭代次數(shù)。比如社區(qū)房屋總數(shù)X戶,考慮說不可能入住率百分百,通過互聯(lián)網(wǎng)房地產(chǎn)中介數(shù)據(jù)了解到社區(qū)的入住率y%,加之移動用戶市場覆蓋率z%左右,故自動迭代范圍的計算方式:

      (2)聚類效果評估

      算法中由相似度矩陣得到拉普拉斯矩陣后,接下來要確定所需特征向量的數(shù)目,它與最終的聚類數(shù)目相等。雖然該數(shù)目可以由人工確定,但是準確地給出對聚類效率和最終的聚類質(zhì)量有直接影響的數(shù)目值是個非常困難的問題。因此,如何自動確定聚類數(shù)目成為譜聚類需要解決的關鍵問題之一。

      基于數(shù)據(jù)集樣本幾何結構的指標根據(jù)數(shù)據(jù)集本身和聚類結果的統(tǒng)計特征對聚類結果進行評估,并根據(jù)聚類結果的優(yōu)劣選取最佳聚類數(shù),這些指標有Calinski-Harabasz(CH)指標,Davies-Bouldin(DB)指標Weighted interintra(Wint)指標,Krzanowski-Lai(KL)指標,Hartigan(Hart)指標,In-Group Proportion(IGP)指標等。本文主要采用的是Calinski-Harabasz(CH)指標。

      CH指標通過類內(nèi)離差矩陣描述緊密度,類間離差矩陣描述分離度,指標定義為:

      其中,n表示聚類的數(shù)目,k表示當前的類,trB(k)表示類間離差矩陣的跡,trW(k)表示類內(nèi)離差矩陣的跡??梢缘贸鯟H越大代表著類自身越緊密,類與類之間越分散,即更優(yōu)的聚類結果。

      3.3 家庭成員識別模型設計

      模型基于譜聚類算法,小區(qū)成員數(shù)據(jù)來自于客戶居住地識別模型結果,整體實驗方法主要是通過對社區(qū)目標用戶群及其通信情況數(shù)據(jù)的處理,構建目標用戶交往圈,使用機器學習聚類分析算法,以成員通信緊密度為維度,以群內(nèi)成員聯(lián)系緊密,群間成員聯(lián)系稀疏為原則,選取最佳分群數(shù)目,對目標用戶群進行分群操作,分割出社區(qū)中的家庭簇群[4]。

      算法描述如表1所示。

      表1 基于譜聚類的電信家庭用戶識別模型

      4 效果驗證

      4.1 驗證環(huán)境和工具

      該模型的實現(xiàn),是在Linux平臺上實現(xiàn)的,在這個實現(xiàn)過程中,用oracle數(shù)據(jù)庫存取數(shù)據(jù),對數(shù)據(jù)進行初步清洗,利用python進行數(shù)據(jù)預處理、分析及聚類,最后是以excel和txt文件的形式輸出結果。具體模型使用工具如表2所示。

      表2 模型使用工具

      4.2 實驗數(shù)據(jù)

      模型將東莞市**小區(qū)作為測試樣本進行了模型準確性驗證,具體如下:

      通過互聯(lián)網(wǎng)渠道獲取,已知**小區(qū)房屋總數(shù)2 500戶,基站信息覆蓋齊全,東莞移動市場份額y%,小區(qū)入住率87%。

      利用小區(qū)的谷歌地球經(jīng)緯度,獲取位置在小區(qū)周圍400米的宏基站駐留用戶1萬多,交往記錄50萬左右,進行異常值處理,剩余近8千目標用戶。通過模型算法切割成2 000左右個聚類群,最后選取了50個家庭(127個)的種子用戶號碼用于識別模型計算。

      4.3 算法效果驗證

      通過識別模型計算,共識別出2283個家庭成員群,其中種子家庭數(shù)50個,成功識別42個,識別率到84%,具體數(shù)據(jù)如表3所示。

      表3 家庭成員識別模型驗證結果

      (1)誤差分析

      這個結果存在一定的誤差,主要有以下幾個現(xiàn)象。

      ① 發(fā)現(xiàn)因部分家庭成員出差或者學生等原因,不能滿足社區(qū)基站駐留時長要求導致的,存在少數(shù)家庭群體未覆蓋齊整的情況。

      ② 有部分用戶家庭群體里有一些聯(lián)系緊密的朋友,也同住一個小區(qū),沒有成功分離。

      ③ 同時算法理論(CH最佳)大于預先設置的最大值,說明部分群體應該切割得更碎。

      但從數(shù)據(jù)上看,識別結果符合基本情況,該模型是滿足家庭成員識別準確性要求的。

      (2)模型優(yōu)化

      當前在生產(chǎn)過程中,模型算法在處理目標用戶達到萬級以上的分割任務時,即使目標用戶的相似矩陣經(jīng)過稀疏處理后,運算時間復雜度依舊很高,尤其是要分割成任務幾千個群體的時候,性能問題以及以上造成誤差的問題需要通過運營商內(nèi)部網(wǎng)絡技術的提高來進行后續(xù)優(yōu)化:

      整體的解決思路是,可降低目標用戶的體量或者減少所要切割的群體數(shù)量。按照目前運營商的技術及數(shù)據(jù)能力上,可以將從覆蓋社區(qū)的宏基站下沉到僅能覆蓋樓棟的室分基站上去,將目標用戶群體從社區(qū)的幾萬,先分成幾十上百個樓棟的小目標群體,每個小目標用戶數(shù)量級以百級,所需要再進行切割的聚類數(shù)是幾十個,這樣就大大減少了模型的計算時間成本,也能將社區(qū)周邊的商鋪、快遞外賣等低接觸人員、偶爾串門的朋友剔除出室分基站目標群,一定程度上提高模型的異常數(shù)據(jù)占比。且不需要一線渠道經(jīng)理提供社區(qū)資料,一切在后臺便能處理。

      實踐是檢驗真理的唯一標準,經(jīng)典的算法思想猶如巨人,本文站在巨人的肩膀上考究如何將算法和實踐相結合,解決實際生產(chǎn)問題,現(xiàn)階段已能解決了初步的業(yè)務問題。但業(yè)務是在不斷發(fā)展的,模型也需要根據(jù)實際的生產(chǎn)要求進行優(yōu)化,希望以上的模型研究過程碰到的問題能給予該領域研究人士一些參考,便是本文最大的收獲。

      猜你喜歡
      家庭成員聚類家庭
      家庭成員的排序 決定孩子的格局
      海峽姐妹(2019年7期)2019-07-26 00:50:48
      家庭“煮”夫
      安邸AD(2019年2期)2019-06-11 05:29:18
      基于DBSACN聚類算法的XML文檔聚類
      電子測試(2017年15期)2017-12-18 07:19:27
      戀練有詞
      論蔡和森、李富春革命家庭成員赴法勤工儉學之原因
      湖湘論壇(2016年2期)2016-12-01 04:22:52
      基于改進的遺傳算法的模糊聚類算法
      一種層次初始的聚類個數(shù)自適應的聚類方法研究
      尋找最美家庭
      尋找最美家庭
      自適應確定K-means算法的聚類數(shù):以遙感圖像聚類為例
      青海省| 景宁| 鲁甸县| 新巴尔虎右旗| 射阳县| 双江| 仁寿县| 河津市| 常州市| 于都县| 武川县| 石楼县| 禹州市| 卢湾区| 乐平市| 安义县| 延边| 德州市| 通河县| 土默特右旗| 达州市| 沂水县| 余庆县| 滨海县| 奉节县| 德保县| 郎溪县| 舟曲县| 巴中市| 商城县| 乐都县| 涪陵区| 甘南县| 金塔县| 湖口县| 屏边| 鄢陵县| 南郑县| 余江县| 西平县| 剑阁县|