論大數(shù)據(jù)智能算法在通信應(yīng)用預(yù)測場景的運(yùn)用

2021-04-27 07:19:40李杰吳威關(guān)偉杰

廣東通信技術(shù) 2021年4期

［李杰吳威關(guān)偉杰］

1 研究背景

在教育、醫(yī)療、金融、社科等領(lǐng)域都涉及了大量的通信資源使用，通信網(wǎng)絡(luò)在人們的生活中占據(jù)了越來越重要的位置。如何創(chuàng)建一個更優(yōu)秀的網(wǎng)絡(luò)體系、更高效的維護(hù)體系、更良好的用戶感知體系，已經(jīng)成為一個非常值得研究的課題。如何從海量數(shù)據(jù)中采集到信息、又如何從信息中歸納知識，是一項高技術(shù)并且勞動強(qiáng)度很大的工作。為了減輕人們的勞動量，同時也為了節(jié)約社會成本，出現(xiàn)了一些載有能代替人類腦力勞動算法的機(jī)器硬件，這些算法被稱為智能算法。將智能算法與傳統(tǒng)的通信領(lǐng)域相結(jié)合，將大量的通信數(shù)據(jù)進(jìn)行統(tǒng)計分析處理，從而轉(zhuǎn)化成的具有特定用途和使用價值的數(shù)據(jù)，并其與已知的信息進(jìn)行比較后得出相應(yīng)的結(jié)論用于支撐通信領(lǐng)域的相關(guān)工作，使其更加自動化、智能化。

2 研究意義和目的

2.1 研究意義

通信網(wǎng)絡(luò)經(jīng)歷了長期的發(fā)展，衍生出各大分支。技術(shù)的進(jìn)步不僅帶來了電信業(yè)務(wù)種類的增加，隨著數(shù)據(jù)庫等技術(shù)的發(fā)展，通信數(shù)據(jù)量也呈現(xiàn)了爆發(fā)性的增長。而通信網(wǎng)絡(luò)屬于一個動態(tài)的網(wǎng)絡(luò)，網(wǎng)絡(luò)資源緊張，業(yè)務(wù)密度分布不均、網(wǎng)絡(luò)負(fù)荷過載等問題，在業(yè)務(wù)量逐年增加的情況下尤顯突出。雖然各大運(yùn)營商已投入了大量的人力物力進(jìn)行優(yōu)化，但仍有較大的改善空間；此外，在人們使用通信網(wǎng)絡(luò)越來越頻繁的背景下，用戶感知也成為一個不容無視不容忽視的問題。通過對主流機(jī)器學(xué)習(xí)算法的理論研究，可以將智能算法融入到日常的網(wǎng)絡(luò)優(yōu)化、維護(hù)等工作中，為廣東移動的網(wǎng)絡(luò)質(zhì)量提升工作提供幫忙幫助，具有一定的現(xiàn)實意義。

2.2 研究目的

智能化是中國移動集團(tuán)公司發(fā)展戰(zhàn)略的一項重要內(nèi)容，是驅(qū)動移動公司優(yōu)化服務(wù)質(zhì)量、高效運(yùn)維的有效手段。而人工智能主要依托于計算機(jī)超凡的存儲能力，記憶大量的數(shù)據(jù)或是方案，再從中選取最匹配數(shù)據(jù)與最佳方案反饋輸出。人工智能主要依托于大數(shù)據(jù)，而通信網(wǎng)絡(luò)具備海量的數(shù)據(jù)源，將通信網(wǎng)絡(luò)與基于人工智能技術(shù)的深度學(xué)習(xí)算法和機(jī)器學(xué)習(xí)算法結(jié)合，將進(jìn)一步推進(jìn)通信領(lǐng)域朝著自動化、智能化的演變方向邁進(jìn)。

3 機(jī)器學(xué)習(xí)算法類別及適用場景分析

應(yīng)用建模主要依據(jù)如下算法選擇原則。

（1）依據(jù)任務(wù)需求進(jìn)行算法類別的選擇；

（2）根據(jù)數(shù)據(jù)特征以及計算條件等評判依據(jù)進(jìn)行具體的詳細(xì)算法選擇；

（3）一般可以選擇多個算法進(jìn)行模型搭建；

（4）結(jié)合業(yè)務(wù)需求以及算法驗證結(jié)果對模型進(jìn)行最終的確定。

3.1 分類算法

分類是一個有監(jiān)督的學(xué)習(xí)過程，目標(biāo)數(shù)據(jù)庫中有哪些類別是已知的，分類過程需要做的就是把每一條記錄歸到對應(yīng)的類別之中。由于必須事先知道各個類別的信息，并且所有待分類的數(shù)據(jù)條目都默認(rèn)有對應(yīng)的類別。

適用場景：在具體有哪些類別是已知的的情況下預(yù)測目標(biāo)數(shù)據(jù)的歸屬類別，適用于投訴用戶預(yù)測、離網(wǎng)用戶預(yù)測等。

常用算法特征如圖1所示。

3.2 回歸算法

回歸通常是機(jī)器學(xué)習(xí)中使用的第一個算法。通過學(xué)習(xí)因變量和自變量之間的關(guān)系實現(xiàn)對數(shù)據(jù)的預(yù)測。

圖1 分類算法特征

適用場景：判斷自變量和因變量之間的關(guān)系，以及不同自變量對因變量影響的強(qiáng)度，適用于指標(biāo)劣化預(yù)測、告警關(guān)聯(lián)預(yù)測等。

常用算法特征如圖2所示。

圖2 回歸算法特征

3.3 聚類算法

聚類是無監(jiān)督學(xué)習(xí)的典型算法，不需要標(biāo)記結(jié)果。試圖探索和發(fā)現(xiàn)一定的模式，用于發(fā)現(xiàn)共同的群體，按照內(nèi)在相似性將數(shù)據(jù)劃分為多個類別，判斷其內(nèi)相似性。

適用場景：將一系列點分成若干類，事先是沒有類別的。有時候也作為監(jiān)督學(xué)習(xí)中稀疏特征的預(yù)處理。適用于用戶標(biāo)簽分類、呼叫記錄詳細(xì)分析、警報自動化聚類預(yù)測等。

常用算法特征如圖3所示。

圖3 聚類算法特征

3.4 關(guān)聯(lián)規(guī)則算法

關(guān)聯(lián)分析又稱關(guān)聯(lián)挖掘，就是在交易數(shù)據(jù)、關(guān)系數(shù)據(jù)或其他信息載體中，查找存在于項目集合或?qū)ο蠹现g的頻繁模式、關(guān)聯(lián)、相關(guān)性或因果結(jié)構(gòu)。

適用場景：從大量數(shù)據(jù)中發(fā)現(xiàn)項集之間有趣的關(guān)聯(lián)和相關(guān)聯(lián)系。適用于業(yè)務(wù)推廣、入網(wǎng)拉新等。

常用算法特征如圖4所示。

圖4 關(guān)聯(lián)算法特征

3.5 時間序列算法

時間序列是按照時間順利排列的一組數(shù)據(jù)序列。時間序列算法就是發(fā)現(xiàn)這組數(shù)據(jù)的變動規(guī)律并用于預(yù)測的統(tǒng)計技術(shù)。，且具有假設(shè)事物發(fā)展趨勢會延伸到未來、預(yù)測所依據(jù)的數(shù)據(jù)具有不規(guī)則性和不考慮事物發(fā)展之間的因果關(guān)系的特點。

適用場景：通過時間延展的方式找到數(shù)據(jù)中的變化規(guī)律。一般都用于流量、話務(wù)量等基于時間的預(yù)測。

4 算法模型實際應(yīng)用案例介紹

4.1 基于時間序列的流量預(yù)測模型

項目目標(biāo)：由于用戶群體的分布以及用戶行為的變化，可能導(dǎo)致網(wǎng)絡(luò)資源配置無法滿足實際資源需求，亦可能存在部分資源浪費的情況。本模型根據(jù)歷史數(shù)據(jù)分析流量使用的規(guī)律性來預(yù)測用戶的實際使用情況，并以分析結(jié)果作為調(diào)整參照，可以更合理地分配網(wǎng)絡(luò)資源，避免資源浪費以及減少用戶投訴問題，達(dá)到提前預(yù)知提前準(zhǔn)備的目的。

模型創(chuàng)建依照如下步驟進(jìn)行。

（1）數(shù)據(jù)預(yù)處理：缺失值、異常值進(jìn)行分析，并進(jìn)行插補(bǔ)替換處理。如圖5所示。

（2）繪制時間序列圖觀察趨勢：采用時序平滑化與季節(jié)性分解。如圖6所示。

圖6 時間序列圖

（3）分析序列平穩(wěn)性并進(jìn)行平穩(wěn)化：通過平穩(wěn)性檢驗、白噪聲檢驗。

通過根檢驗（ADF）方法進(jìn)行平穩(wěn)性檢驗，觀測序列根檢驗對應(yīng)p值小于0.05，屬于非平穩(wěn)序列，二階滯后差分滿足平穩(wěn)序列，如表1所示。

表1 根檢驗（ADF）

為了驗證序列中有用的信息是否已被提取完畢，需要對序列進(jìn)行白噪聲檢驗。采用LB統(tǒng)計量的方法進(jìn)行白噪聲檢驗，二階滯后差分后的p值系數(shù)小于0.05，如表2所示。

表2 LB統(tǒng)計量

（4）ARIMA模型定階

針對一階差分后的時序輸出自相關(guān)與偏自相關(guān)圖，計算得到ARIMA（1，0，0）模型，如圖7所示。

圖7 一階差分后的時序輸出自相關(guān)與偏自相關(guān)圖

計算ARMA（p，q）取p和q均小于等于15的所有組合的BIC信息量，如圖8所示。

圖8 計算ARMA（p，q）的BIC信息量

選取顯著變量為Φ1、Φ9、Φ12和θ5、θ12，輸出模型ARMA（1，5），ARMA（1，12），ARMA（9，5），ARMA（9，12），ARMA（12，5），ARMA（12，12）。

（5）模型評估與預(yù)測

檢查其殘差序列是否為白噪聲，是否滿足平穩(wěn)序列。如果不是白噪聲，說明殘差中還存在有用信息，需要修正模型或者進(jìn)一步提取。針對選出的模型進(jìn)行擬合，模型的AIC值，ARIMA（1，1，12）的AIC值為最優(yōu)，如表3所示。

表3 模型評估與預(yù)測表

通過預(yù)測結(jié)果并結(jié)合經(jīng)驗分析，可以針對網(wǎng)絡(luò)資源進(jìn)行針對性的調(diào)整，如圖9所示。

圖9 針對性調(diào)整

4.2 基于線性回歸的信號強(qiáng)度預(yù)測模型校正

項目目標(biāo)：采用線性回歸模型對無線傳播模型進(jìn)行校正。通過無線信號采集數(shù)據(jù)帶入線性回歸模型，從而對SPM模型進(jìn)行K值的求解，最終實現(xiàn)傳播信號的預(yù)測。能有效的模擬用戶實際的信號使用情況，對網(wǎng)絡(luò)規(guī)劃以及網(wǎng)絡(luò)優(yōu)化都起到了重要的參考作用。

基于采集數(shù)據(jù)將其帶入SPM模型，如圖10所示。

圖10 SPM模型

采用線性回歸算法創(chuàng)建信號強(qiáng)度的預(yù)測模型，通過如下指標(biāo)進(jìn)行綜合評估，如表4所示。

表4 評估模型

最終確定的模型輸出結(jié)果如圖11所示。

圖11 模型輸出

紅色為現(xiàn)網(wǎng)數(shù)據(jù)，藍(lán)色為預(yù)測數(shù)據(jù)。從結(jié)果上可以看到，預(yù)測偏差為可接受范圍內(nèi)，該模型可投入實際的規(guī)劃仿真工作中使用。

4.3 基于決策樹的用戶投訴預(yù)測模型

項目目標(biāo)：用戶感知目前已經(jīng)成為生活用中越來越關(guān)注的話題，如果要能讓用戶用得開心，預(yù)防勝于治療是關(guān)鍵。通過DPI指標(biāo)結(jié)合告警信息進(jìn)行模型創(chuàng)建，采用決策樹分類器預(yù)測潛在投訴用戶，可以做到先知先預(yù)防的作用。

（1）采集用戶投訴記錄、投訴前對應(yīng)時段的DPI指標(biāo)、投訴前時段的告警數(shù)據(jù)作為數(shù)據(jù)集，并將其進(jìn)行關(guān)聯(lián)處理形成信息寬表，如表5所示。

表5 信息寬表

（2）針對采集數(shù)據(jù)進(jìn)行預(yù)處理，圍繞缺失值、異常值、數(shù)據(jù)規(guī)范化三部分進(jìn)行，處理后的訓(xùn)練集保留1:1比例，如表6所示。

表6 采集數(shù)據(jù)預(yù)處理

（3）考慮到數(shù)據(jù)集的特征，優(yōu)先選取隨機(jī)邏輯回歸的結(jié)果，再結(jié)合建模情況增加部分信息增益和卡方檢驗特征。通過前剪枝與后剪枝的兩種方式進(jìn)行決策樹建模，輸出樹形結(jié)果，如圖12所示。

圖12 決策樹

（4）將原有訓(xùn)練集中的0.3部分劃分為交叉訓(xùn)練集，針對劃分后的訓(xùn)練集進(jìn)行模型訓(xùn)練，選取優(yōu)質(zhì)模型參數(shù)，并在交叉訓(xùn)練集中進(jìn)行驗證，如圖13所示。

圖13 交叉訓(xùn)練集驗證

（5）挑選準(zhǔn)確率大于70%且召回率較高的單項規(guī)則進(jìn)行組合訓(xùn)練，模型輸出如圖14所示。

圖14 組合訓(xùn)練模型輸出