• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      人工智能算法在5G套餐潛在用戶識(shí)別中的應(yīng)用

      2022-01-19 06:30:56董瑩瑩李坤樹(shù)李子旋
      江蘇通信 2021年6期
      關(guān)鍵詞:套餐終端樣本

      董瑩瑩 葛 陽(yáng) 李坤樹(shù) 李子旋

      中國(guó)聯(lián)合網(wǎng)絡(luò)通信有限公司網(wǎng)絡(luò)AI中心

      0 引言

      隨著5G網(wǎng)絡(luò)正式在中國(guó)商用,大量的5G終端涌進(jìn)市場(chǎng),5G終端占有量日益增長(zhǎng),但其中相當(dāng)一部分5G終端仍然使用的是非5G套餐,精準(zhǔn)預(yù)測(cè)5G套餐潛在用戶對(duì)5G業(yè)務(wù)發(fā)展具有重要意義。

      本文基于O域信令數(shù)據(jù)、B域用戶出賬數(shù)據(jù)、用戶MR位置數(shù)據(jù)等,先識(shí)別出全網(wǎng)的5G終端,然后對(duì)半年內(nèi)5G終端非5G套餐更換為5G套餐的用戶進(jìn)行大數(shù)據(jù)分析,從用戶活躍時(shí)長(zhǎng)、通話能力、消費(fèi)能力、終端偏好、網(wǎng)絡(luò)滿意度等方面做特征工程,然后搭建LightGBM分類預(yù)測(cè)模型,精準(zhǔn)預(yù)測(cè)5G套餐潛在用戶更換套餐的概率,將高概率更換套餐的用戶清單支撐市場(chǎng)部門進(jìn)行精準(zhǔn)營(yíng)銷,助力5G業(yè)務(wù)發(fā)展。

      1 5G終端概況

      1.1 5G終端識(shí)別

      不同網(wǎng)絡(luò)類型的網(wǎng)絡(luò)DPI信令數(shù)據(jù)采集接口不同,在具體的終端識(shí)別過(guò)程中,可以通過(guò)用戶終端話單的最高接入網(wǎng)類型接口來(lái)判斷用戶終端類型。2/3/4/5G接入網(wǎng)接口范圍可以通過(guò)《中國(guó)聯(lián)通移動(dòng)網(wǎng)絡(luò)DPI信令采集設(shè)備技術(shù)規(guī)范》進(jìn)行查看,DPI采集系統(tǒng)在網(wǎng)絡(luò)中的位置示意圖如圖1所示。

      圖1 DPI采集系統(tǒng)在網(wǎng)絡(luò)中的位置示意圖

      本文首先在4/5G信令數(shù)據(jù)中,識(shí)別出最高接入網(wǎng)類型為5G的終端,并結(jié)合存量的5G終端庫(kù),不斷補(bǔ)充與修正5G終端配置庫(kù);然后基于已識(shí)別的5G終端篩選出未開(kāi)通5G套餐的用戶,作為本文的數(shù)據(jù)采樣基礎(chǔ)。

      1.2 5G終端分析

      目前運(yùn)營(yíng)商各種類型終端的占比如圖2所示。

      圖2 運(yùn)營(yíng)商中各網(wǎng)絡(luò)類型終端占比

      從圖2中可以發(fā)現(xiàn),目前運(yùn)營(yíng)商提供服務(wù)的終端中絕大部分依然是4G終端。5G終端的占比甚至不到10%,依然有很大提高的空間。除此之外,圖3展示了2021年4月至2021年5月5G終端變化和5G終端非5G套餐用戶數(shù)占比的變化。

      從圖3中可以發(fā)現(xiàn),5G終端數(shù)量在不斷增長(zhǎng)。然而,有大量的5G終端用戶并沒(méi)有在運(yùn)營(yíng)商開(kāi)通5G套餐,這體現(xiàn)出5G套餐的用戶滲透率較低。為了提升用戶的使用體驗(yàn)和運(yùn)營(yíng)商的盈利能力,在5G終端非5G套餐用戶中篩選出潛在的5G套餐用戶將成為運(yùn)營(yíng)商需要迫切建立的能力之一。為此,本文將人工智能算法引入5G潛在用過(guò)戶的識(shí)別過(guò)程。

      圖3 5G終端和5G終端非5G套餐用戶數(shù)占比

      2 5G套餐潛在用戶識(shí)別建模

      2.1 數(shù)據(jù)集生成

      2.1.1 獲取數(shù)據(jù)

      信令數(shù)據(jù)存儲(chǔ)在分布式hadoop集群上,首先在hive數(shù)據(jù)庫(kù)篩選近6個(gè)月的數(shù)據(jù)(5G終端非5G套餐用戶)作為模型的采樣數(shù)據(jù)。選取的特征主要包含用戶的網(wǎng)絡(luò)粘性(在網(wǎng)時(shí)長(zhǎng)、離網(wǎng)時(shí)長(zhǎng)等),終端屬性(終端廠商、終端型號(hào)、上市日期、終端制式、價(jià)位等),通訊能力(主叫時(shí)長(zhǎng)、主叫次數(shù)、被叫時(shí)長(zhǎng)、被叫次數(shù)等),漫游屬性(國(guó)漫次數(shù)、省漫次數(shù)等),位置信息(早忙時(shí)常小區(qū)、晚忙時(shí)常駐小區(qū)等),消費(fèi)能力(出賬、ARPU、流量、業(yè)務(wù)訂購(gòu)等),基本屬性(號(hào)碼、套餐、年齡、性別、網(wǎng)齡、發(fā)展渠道、用戶群等),基于以上用戶屬性信息數(shù)據(jù),通過(guò)初步的數(shù)據(jù)清洗、特征工程得到初步的樣本數(shù)據(jù),共計(jì)90+字段屬性。

      2.1.2 篩選正反例

      在上述樣本數(shù)據(jù)中,篩選本年內(nèi)已經(jīng)更換為5G套餐的用戶作為模型的正例樣本數(shù)據(jù),設(shè)置標(biāo)簽label=1。其余未更換5G套餐的用戶作為模型反例,設(shè)置標(biāo)簽label=0。這樣,正反例的選取工作就完成了。

      2.1.3 生成訓(xùn)練集與測(cè)試集

      對(duì)于均衡樣本來(lái)說(shuō),可以從全量數(shù)據(jù)集中按照比例隨機(jī)抽取樣本,將數(shù)據(jù)集切分成訓(xùn)練集與測(cè)試集,但實(shí)際生產(chǎn)環(huán)境中,往往實(shí)際的正負(fù)樣本是失衡的,這時(shí)就要在采樣方法上多做一些嘗試,才能使模型達(dá)到較好的效果,下面介紹幾種失衡樣本的抽樣方法。

      (1)過(guò)采樣類

      ①隨機(jī)過(guò)采樣。它是從樣本少的類別中隨機(jī)抽樣,再將抽樣得來(lái)的樣本添加到數(shù)據(jù)集中,從而達(dá)到類別平衡的目的,這種方法操作簡(jiǎn)單,少量樣本被重復(fù)選取,無(wú)形中加大少量樣本的權(quán)重,但這樣容易出現(xiàn)過(guò)擬合的情況。本文嘗試了這種方法,效果提升不明顯。

      ②SMOTE過(guò)采樣。其思想就是在少數(shù)類的樣本之間,進(jìn)行插值操作來(lái)產(chǎn)生額外的樣本。它以每個(gè)樣本點(diǎn)的k個(gè)最近鄰樣本點(diǎn)為依據(jù),隨機(jī)的選擇N個(gè)鄰近點(diǎn)進(jìn)行差值乘上一個(gè)[0,1]范圍的閾值,從而達(dá)到合成數(shù)據(jù)的目的。該算法的核心是假設(shè)特征空間上鄰近的點(diǎn)其特征都是相似的。它并不是在數(shù)據(jù)空間上進(jìn)行采樣,而是在特征空間中進(jìn)行采樣,因此它的準(zhǔn)確率會(huì)高于傳統(tǒng)的采樣方式。本文使用SMOTE過(guò)采樣方法對(duì)少量的正例樣本進(jìn)行采樣,將正反例比例由1:12提升至1:3,大大提升了模型預(yù)測(cè)效果。

      ③Border-Line SMOTE過(guò)采樣。這個(gè)算法一開(kāi)始會(huì)先將少數(shù)類樣本分成3類,分別是DANGER:超過(guò)一半的k近鄰樣本屬于多數(shù)類;SAFE:超過(guò)一半的k近鄰樣本屬于少數(shù)類;NOISE:所有的k近鄰個(gè)樣本都屬于多數(shù)類。而B(niǎo)order-line SMOTE算法只會(huì)在“DANGER”狀態(tài)的少數(shù)類樣本中去隨機(jī)選擇,然后利用SMOTE算法產(chǎn)生新樣本。該方法是SMOTE采樣方法的一個(gè)改進(jìn)算法,在不均衡樣本處理方面具有事半功倍的效果。

      (2)欠采樣類

      ①隨機(jī)欠采樣。隨機(jī)從多數(shù)類中刪除一些樣本,該方法的缺失也很明顯,那就是造成部分信息丟失,對(duì)模型的分類提升效果不理想。

      ②EasyEnsemble欠采樣。將多數(shù)類樣本隨機(jī)劃分成n份,每份的數(shù)據(jù)等于少數(shù)類樣本的數(shù)量,然后對(duì)這n份數(shù)據(jù)分別訓(xùn)練模型,最后集成模型結(jié)果。

      ③BalanceCascade欠采樣。這類算法采用了有監(jiān)督結(jié)合boosting的方式,在每一輪中,也是從多數(shù)類中抽取子集與少數(shù)類結(jié)合起來(lái)訓(xùn)練模型,然后下一輪中丟棄此輪被正確分類的樣本,使得后續(xù)的基學(xué)習(xí)器能夠更加關(guān)注那些被分類錯(cuò)誤的樣本。

      在數(shù)據(jù)采樣階段,可以嘗試過(guò)采樣與欠采樣結(jié)合的方法,調(diào)整正反例數(shù)據(jù)比例,生成相對(duì)均衡的正負(fù)樣本,提升模型分類預(yù)測(cè)效果。

      2.2 數(shù)據(jù)清洗

      2.2.1 空值處理

      本文用到的控制處理方法有:(1)直接刪除特征;(2)使用指定數(shù)據(jù)值填充缺失值,如零值、均值、眾數(shù)或中位數(shù)等填充。針對(duì)缺失率超過(guò)80%的指標(biāo)特征,直接進(jìn)行刪除。對(duì)于像用戶年齡、網(wǎng)齡、終端價(jià)格等。數(shù)值類的數(shù)據(jù),通過(guò)均值來(lái)填充;針對(duì)用戶的通訊能力、網(wǎng)絡(luò)粘性相關(guān)的特征,直接使用零。

      2.2.2 異常值處理

      本文使用的異常值處理方法主要有:(1)直接刪除異常數(shù)據(jù)記錄;(2)使用零值或均值替換異常數(shù)據(jù)。針對(duì)用戶年齡小于0或大于100的數(shù)值,這樣的樣本數(shù)據(jù)較少,均采用均值替換;對(duì)于在枚舉值之外的類別字段異常值,直接刪除對(duì)應(yīng)的記錄。

      2.2.3 文本數(shù)據(jù)處理

      對(duì)于文本類型的數(shù)據(jù),本文有以下三種處理方法:(1)利用one-hot encoding處理字段;(2)使用label encoding處理字段;(3)將字段標(biāo)注成類別特征直接進(jìn)行模型訓(xùn)練。一般地,針對(duì)舉值較少的字段運(yùn)用one-hot encoding處理,如套餐的top6、終端品牌等;枚舉值較多的字段,本文會(huì)使用label encoding方法處理,如省份、地市等。

      2.3 特征工程

      在正反例篩選之后,進(jìn)一步對(duì)數(shù)據(jù)做特征工程,主要是數(shù)據(jù)降維,本文用到的數(shù)據(jù)降維方法主要有下面兩種。

      2.3.1 主成分分析

      PCA是最常用的無(wú)監(jiān)督線性降維方法,它的目標(biāo)是通過(guò)某種線性投影,將高維的數(shù)據(jù)映射到低維的空間中,并期望在所投影的維度上數(shù)據(jù)的方差最大,以此降低數(shù)據(jù)維度。

      設(shè)樣本為m行n維的數(shù)據(jù),PCA的一般步驟如下:

      (1)將原始數(shù)據(jù)按列組成n行m列的矩陣X;

      (2)計(jì)算矩陣X中每個(gè)特征屬性(n維)的平均向量M(平均值);

      (3)將X的每行(代表一個(gè)屬性字段)進(jìn)行零均值化,即減去M;

      (4)按照公式C=1/m XXT求出協(xié)方差矩陣;

      (5)求出協(xié)方差矩陣的特征值及對(duì)應(yīng)的特征向量;

      (6)將特征向量按對(duì)應(yīng)特征值從大到小按行排列成矩陣,取前k(k<n)行組成基向量;

      (7)通過(guò)Y=PX計(jì)算降維到k維后的樣本特征。

      2.3.2 線性判別分析

      對(duì)于給定的訓(xùn)練集,設(shè)法將樣本投影到一條直線上,使得同類的投影點(diǎn)盡可能接近,異類樣本的投影點(diǎn)盡可能遠(yuǎn)離(類內(nèi)方差最小,類間方差最大);在對(duì)新樣本進(jìn)行分類時(shí),將其投影到這條直線上,再根據(jù)投影點(diǎn)的位置來(lái)確定新樣本的類別。

      其一般步驟是:

      (1)計(jì)算數(shù)據(jù)集中每個(gè)類別下所有樣本的均值向量;

      (2)通過(guò)均值向量,計(jì)算類間散布矩陣SB和類內(nèi)散布矩陣式SW;

      (3)依據(jù)公式;

      (4)按照特征值排序,選擇前k個(gè)特征向量構(gòu)成投影矩陣U;

      (5)通過(guò)的特征值矩陣將所有樣本轉(zhuǎn)換到新的子空間中。

      2.4 模型介紹

      2.4.1 模型選擇

      本文講述的5G套餐潛在用戶識(shí)別模型是一個(gè)典型的二分類模型。在模型選擇時(shí),需要綜合考慮模型的調(diào)參收斂效率,以及模型的準(zhǔn)確率與魯棒性,本論文主要采用是樹(shù)模型,分別用LightGBM與隨機(jī)森林搭建融合AI模型,將兩個(gè)模型的預(yù)測(cè)結(jié)果按照既定權(quán)重(專家經(jīng)驗(yàn)與試點(diǎn)迭代)樹(shù)綜合評(píng)判目標(biāo)用戶的推薦概率。

      LightGBM與RandomForest分類算法,都是以決策樹(shù)為基學(xué)習(xí)器,構(gòu)建n個(gè)并行學(xué)習(xí)器,并結(jié)合所有的學(xué)習(xí)器輸出結(jié)果。本課題實(shí)際的正反例樣本數(shù)據(jù)是失衡的,正反例約1:7,且數(shù)據(jù)量大,樣本數(shù)據(jù)約為1200萬(wàn),考慮到數(shù)據(jù)集體量大和服務(wù)器性能一般的現(xiàn)狀,上述兩個(gè)算法對(duì)內(nèi)存的消耗不高,收斂效果也不錯(cuò),故采用LightGBM與RandomForest算法模型比較合適。在實(shí)現(xiàn)本模型時(shí),本文對(duì)樣本集進(jìn)行了抽樣,對(duì)反例進(jìn)行欠采樣,將訓(xùn)練集數(shù)量控制在500萬(wàn),模型維度為90+,針對(duì)n_estimator參數(shù)設(shè)置為[100,500],subsample參數(shù)取值設(shè)置在[0.7-0.9]等,根據(jù)運(yùn)營(yíng)商數(shù)據(jù)特殊的業(yè)務(wù)場(chǎng)景,對(duì)分類算法涉及的若干參數(shù)的取值范圍都進(jìn)行了縮放,此處也是對(duì)兩種AI分類算法的一個(gè)改進(jìn)。

      2.4.2 參數(shù)調(diào)優(yōu)

      本文采用網(wǎng)格搜索和隨機(jī)搜索的方式進(jìn)行參數(shù)調(diào)優(yōu)。

      2.4.3 模型評(píng)價(jià)

      采用F1-score對(duì)模型進(jìn)行評(píng)估。相關(guān)評(píng)價(jià)指標(biāo)定義:TP(True Positive):真 實(shí) 為1,預(yù) 測(cè) 也 為1;FN(False Negative):真實(shí)為0,預(yù)測(cè)為1;FP(False Positive): 真實(shí)為1,預(yù)測(cè)為0;TN(True Negative):真實(shí)為0,預(yù)測(cè)也為0。

      最終模型的F1-score為0.82。模型的整體訓(xùn)練預(yù)測(cè)示意圖如圖4所示。

      圖4 模型工作示意圖

      3 市場(chǎng)應(yīng)用分析

      3.1 應(yīng)用方案設(shè)計(jì)

      為了驗(yàn)證模型實(shí)際應(yīng)用效果,本文對(duì)模型驗(yàn)證設(shè)計(jì)了一套實(shí)際應(yīng)用方案,具體如下:

      (1)數(shù)據(jù)發(fā)布。利用訓(xùn)練好的融合AI模型對(duì)全網(wǎng)5G終端非5G套餐的用戶進(jìn)行預(yù)測(cè)打標(biāo),篩選更換5G套餐概率大于0.7的用戶,再將用戶詳單數(shù)據(jù)發(fā)布至能力開(kāi)放平臺(tái)供各省訂閱。數(shù)據(jù)開(kāi)放樣例數(shù)據(jù)如表1所示。

      表1 2G終端數(shù)據(jù)開(kāi)放樣例

      ?

      (2)省分訂閱目標(biāo)用戶詳單數(shù)據(jù),選定一個(gè)省某一地市某一個(gè)營(yíng)業(yè)廳A,進(jìn)行外呼營(yíng)銷,記錄實(shí)際營(yíng)銷過(guò)程中存在的問(wèn)題。

      (3)模型迭代優(yōu)化。根據(jù)試點(diǎn)營(yíng)業(yè)廳A提出的問(wèn)題進(jìn)行模型優(yōu)化迭代。

      (4)優(yōu)化模型驗(yàn)證。選取其他多個(gè)試點(diǎn)營(yíng)業(yè)廳,試點(diǎn)營(yíng)業(yè)廳根據(jù)所提供的數(shù)據(jù)做外呼營(yíng)銷,測(cè)試優(yōu)化模型效果。

      3.2 應(yīng)用結(jié)果分析

      第一階段:選取江蘇省某地市營(yíng)業(yè)廳A試點(diǎn),共提供500戶目標(biāo)用戶,外呼成功318戶,成功更換5G套餐用戶9戶,外呼成功轉(zhuǎn)化率2.8%。

      第二階段:選取江蘇省某地市4個(gè)營(yíng)業(yè)廳進(jìn)行試點(diǎn),共提供1000個(gè)號(hào)碼,接通759戶,成功辦理62戶,成功率8.2%,較第一版本營(yíng)銷成功率提升5.4個(gè)百分點(diǎn)。

      4 結(jié)束語(yǔ)

      本文提出了一種基于信令數(shù)據(jù)與融合AI算法的5G套餐潛在用戶識(shí)別方法,實(shí)現(xiàn)了人工智能算法在5G套餐遷轉(zhuǎn)營(yíng)銷中的應(yīng)用,解決了推薦5G套餐目標(biāo)性差及推薦效率低的問(wèn)題。在實(shí)際的市場(chǎng)應(yīng)用中展現(xiàn)模型的高精準(zhǔn)度,5G套餐推薦轉(zhuǎn)化率由自然轉(zhuǎn)化的1%提升至8.4%,實(shí)現(xiàn)了人工智能賦能5G套餐業(yè)務(wù)發(fā)展,對(duì)提升5G套餐市場(chǎng)占有率有重大意義。

      猜你喜歡
      套餐終端樣本
      《加什么不要錢》
      用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
      X美術(shù)館首屆三年展:“終端〉_How Do We Begin?”
      通信控制服務(wù)器(CCS)維護(hù)終端的設(shè)計(jì)與實(shí)現(xiàn)
      兒童套餐
      幽默大師(2019年6期)2019-06-06 08:41:42
      推動(dòng)醫(yī)改的“直銷樣本”
      隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
      多功能北斗船載終端的開(kāi)發(fā)應(yīng)用
      電子制作(2016年15期)2017-01-15 13:39:14
      村企共贏的樣本
      婚姻是一份套餐
      海峽姐妹(2016年4期)2016-02-27 15:18:28
      清镇市| 石嘴山市| 米泉市| 水城县| 武义县| 长泰县| 长治市| 大连市| 阆中市| 买车| 平定县| 绵竹市| 赤峰市| 嘉祥县| 汉源县| 扎囊县| 门源| 鸡东县| 抚顺县| 平顺县| 噶尔县| 且末县| 玉田县| 葵青区| 定兴县| 海兴县| 靖州| 印江| 双牌县| 阳新县| 体育| 济阳县| 日喀则市| 确山县| 新泰市| 新乡县| 拜城县| 芦溪县| 武汉市| 苍山县| 澄江县|