[李杰 吳威 關(guān)偉杰]
在教育、醫(yī)療、金融、社科等領(lǐng)域都涉及了大量的通信資源使用,通信網(wǎng)絡(luò)在人們的生活中占據(jù)了越來越重要的位置。如何創(chuàng)建一個更優(yōu)秀的網(wǎng)絡(luò)體系、更高效的維護(hù)體系、更良好的用戶感知體系,已經(jīng)成為一個非常值得研究的課題。如何從海量數(shù)據(jù)中采集到信息、又如何從信息中歸納知識,是一項高技術(shù)并且勞動強(qiáng)度很大的工作。為了減輕人們的勞動量,同時也為了節(jié)約社會成本,出現(xiàn)了一些載有能代替人類腦力勞動算法的機(jī)器硬件,這些算法被稱為智能算法。將智能算法與傳統(tǒng)的通信領(lǐng)域相結(jié)合,將大量的通信數(shù)據(jù)進(jìn)行統(tǒng)計分析處理,從而轉(zhuǎn)化成的具有特定用途和使用價值的數(shù)據(jù),并其與已知的信息進(jìn)行比較后得出相應(yīng)的結(jié)論用于支撐通信領(lǐng)域的相關(guān)工作,使其更加自動化、智能化。
通信網(wǎng)絡(luò)經(jīng)歷了長期的發(fā)展,衍生出各大分支。技術(shù)的進(jìn)步不僅帶來了電信業(yè)務(wù)種類的增加,隨著數(shù)據(jù)庫等技術(shù)的發(fā)展,通信數(shù)據(jù)量也呈現(xiàn)了爆發(fā)性的增長。而通信網(wǎng)絡(luò)屬于一個動態(tài)的網(wǎng)絡(luò),網(wǎng)絡(luò)資源緊張,業(yè)務(wù)密度分布不均、網(wǎng)絡(luò)負(fù)荷過載等問題,在業(yè)務(wù)量逐年增加的情況下尤顯突出。雖然各大運(yùn)營商已投入了大量的人力物力進(jìn)行優(yōu)化,但仍有較大的改善空間;此外,在人們使用通信網(wǎng)絡(luò)越來越頻繁的背景下,用戶感知也成為一個不容無視不容忽視的問題。通過對主流機(jī)器學(xué)習(xí)算法的理論研究,可以將智能算法融入到日常的網(wǎng)絡(luò)優(yōu)化、維護(hù)等工作中,為廣東移動的網(wǎng)絡(luò)質(zhì)量提升工作提供幫忙幫助,具有一定的現(xiàn)實意義。
智能化是中國移動集團(tuán)公司發(fā)展戰(zhàn)略的一項重要內(nèi)容,是驅(qū)動移動公司優(yōu)化服務(wù)質(zhì)量、高效運(yùn)維的有效手段。而人工智能主要依托于計算機(jī)超凡的存儲能力,記憶大量的數(shù)據(jù)或是方案,再從中選取最匹配數(shù)據(jù)與最佳方案反饋輸出。人工智能主要依托于大數(shù)據(jù),而通信網(wǎng)絡(luò)具備海量的數(shù)據(jù)源,將通信網(wǎng)絡(luò)與基于人工智能技術(shù)的深度學(xué)習(xí)算法和機(jī)器學(xué)習(xí)算法結(jié)合,將進(jìn)一步推進(jìn)通信領(lǐng)域朝著自動化、智能化的演變方向邁進(jìn)。
應(yīng)用建模主要依據(jù)如下算法選擇原則。
(1)依據(jù)任務(wù)需求進(jìn)行算法類別的選擇;
(2)根據(jù)數(shù)據(jù)特征以及計算條件等評判依據(jù)進(jìn)行具體的詳細(xì)算法選擇;
(3)一般可以選擇多個算法進(jìn)行模型搭建;
(4)結(jié)合業(yè)務(wù)需求以及算法驗證結(jié)果對模型進(jìn)行最終的確定。
分類是一個有監(jiān)督的學(xué)習(xí)過程,目標(biāo)數(shù)據(jù)庫中有哪些類別是已知的,分類過程需要做的就是把每一條記錄歸到對應(yīng)的類別之中。由于必須事先知道各個類別的信息,并且所有待分類的數(shù)據(jù)條目都默認(rèn)有對應(yīng)的類別。
適用場景:在具體有哪些類別是已知的的情況下預(yù)測目標(biāo)數(shù)據(jù)的歸屬類別,適用于投訴用戶預(yù)測、離網(wǎng)用戶預(yù)測等。
常用算法特征如圖1所示。
回歸通常是機(jī)器學(xué)習(xí)中使用的第一個算法。通過學(xué)習(xí)因變量和自變量之間的關(guān)系實現(xiàn)對數(shù)據(jù)的預(yù)測。
圖1 分類算法特征
適用場景:判斷自變量和因變量之間的關(guān)系,以及不同自變量對因變量影響的強(qiáng)度,適用于指標(biāo)劣化預(yù)測、告警關(guān)聯(lián)預(yù)測等。
常用算法特征如圖2所示。
圖2 回歸算法特征
聚類是無監(jiān)督學(xué)習(xí)的典型算法,不需要標(biāo)記結(jié)果。試圖探索和發(fā)現(xiàn)一定的模式,用于發(fā)現(xiàn)共同的群體,按照內(nèi)在相似性將數(shù)據(jù)劃分為多個類別,判斷其內(nèi)相似性。
適用場景:將一系列點分成若干類,事先是沒有類別的。有時候也作為監(jiān)督學(xué)習(xí)中稀疏特征的預(yù)處理。適用于用戶標(biāo)簽分類、呼叫記錄詳細(xì)分析、警報自動化聚類預(yù)測等。
常用算法特征如圖3所示。
圖3 聚類算法特征
關(guān)聯(lián)分析又稱關(guān)聯(lián)挖掘,就是在交易數(shù)據(jù)、關(guān)系數(shù)據(jù)或其他信息載體中,查找存在于項目集合或?qū)ο蠹现g的頻繁模式、關(guān)聯(lián)、相關(guān)性或因果結(jié)構(gòu)。
適用場景:從大量數(shù)據(jù)中發(fā)現(xiàn)項集之間有趣的關(guān)聯(lián)和相關(guān)聯(lián)系。適用于業(yè)務(wù)推廣、入網(wǎng)拉新等。
常用算法特征如圖4所示。
圖4 關(guān)聯(lián)算法特征
時間序列是按照時間順利排列的一組數(shù)據(jù)序列。時間序列算法就是發(fā)現(xiàn)這組數(shù)據(jù)的變動規(guī)律并用于預(yù)測的統(tǒng)計技術(shù)。,且具有假設(shè)事物發(fā)展趨勢會延伸到未來、預(yù)測所依據(jù)的數(shù)據(jù)具有不規(guī)則性和不考慮事物發(fā)展之間的因果關(guān)系的特點。
適用場景:通過時間延展的方式找到數(shù)據(jù)中的變化規(guī)律。一般都用于流量、話務(wù)量等基于時間的預(yù)測。
項目目標(biāo):由于用戶群體的分布以及用戶行為的變化,可能導(dǎo)致網(wǎng)絡(luò)資源配置無法滿足實際資源需求,亦可能存在部分資源浪費的情況。本模型根據(jù)歷史數(shù)據(jù)分析流量使用的規(guī)律性來預(yù)測用戶的實際使用情況,并以分析結(jié)果作為調(diào)整參照,可以更合理地分配網(wǎng)絡(luò)資源,避免資源浪費以及減少用戶投訴問題,達(dá)到提前預(yù)知提前準(zhǔn)備的目的。
模型創(chuàng)建依照如下步驟進(jìn)行。
(1)數(shù)據(jù)預(yù)處理:缺失值、異常值進(jìn)行分析,并進(jìn)行插補(bǔ)替換處理。如圖5所示。
(2)繪制時間序列圖觀察趨勢:采用時序平滑化與季節(jié)性分解。如圖6所示。
圖6 時間序列圖
(3)分析序列平穩(wěn)性并進(jìn)行平穩(wěn)化:通過平穩(wěn)性檢驗、白噪聲檢驗。
通過根檢驗(ADF)方法進(jìn)行平穩(wěn)性檢驗,觀測序列根檢驗對應(yīng)p值小于0.05,屬于非平穩(wěn)序列,二階滯后差分滿足平穩(wěn)序列,如表1所示。
表1 根檢驗(ADF)
為了驗證序列中有用的信息是否已被提取完畢,需要對序列進(jìn)行白噪聲檢驗。采用LB統(tǒng)計量的方法進(jìn)行白噪聲檢驗,二階滯后差分后的p值系數(shù)小于0.05,如表2所示。
表2 LB統(tǒng)計量
(4)ARIMA模型定階
針對一階差分后的時序輸出自相關(guān)與偏自相關(guān)圖,計算得到ARIMA(1,0,0)模型,如圖7所示。
圖7 一階差分后的時序輸出自相關(guān)與偏自相關(guān)圖
計算ARMA(p,q)取p和q均小于等于15的所有組合的BIC信息量,如圖8所示。
圖8 計算ARMA(p,q)的BIC信息量
選取顯著變量為Φ1、Φ9、Φ12和θ5、θ12,輸出模型ARMA(1,5),ARMA(1,12),ARMA(9,5),ARMA(9,12),ARMA(12,5),ARMA(12,12)。
(5)模型評估與預(yù)測
檢查其殘差序列是否為白噪聲,是否滿足平穩(wěn)序列。如果不是白噪聲,說明殘差中還存在有用信息,需要修正模型或者進(jìn)一步提取。針對選出的模型進(jìn)行擬合,模型的AIC值,ARIMA(1,1,12)的AIC值為最優(yōu),如表3所示。
表3 模型評估與預(yù)測表
通過預(yù)測結(jié)果并結(jié)合經(jīng)驗分析,可以針對網(wǎng)絡(luò)資源進(jìn)行針對性的調(diào)整,如圖9所示。
圖9 針對性調(diào)整
項目目標(biāo):采用線性回歸模型對無線傳播模型進(jìn)行校正。通過無線信號采集數(shù)據(jù)帶入線性回歸模型,從而對SPM模型進(jìn)行K值的求解,最終實現(xiàn)傳播信號的預(yù)測。能有效的模擬用戶實際的信號使用情況,對網(wǎng)絡(luò)規(guī)劃以及網(wǎng)絡(luò)優(yōu)化都起到了重要的參考作用。
基于采集數(shù)據(jù)將其帶入SPM模型,如圖10所示。
圖10 SPM模型
采用線性回歸算法創(chuàng)建信號強(qiáng)度的預(yù)測模型,通過如下指標(biāo)進(jìn)行綜合評估,如表4所示。
表4 評估模型
最終確定的模型輸出結(jié)果如圖11所示。
圖11 模型輸出
紅色為現(xiàn)網(wǎng)數(shù)據(jù),藍(lán)色為預(yù)測數(shù)據(jù)。從結(jié)果上可以看到,預(yù)測偏差為可接受范圍內(nèi),該模型可投入實際的規(guī)劃仿真工作中使用。
項目目標(biāo):用戶感知目前已經(jīng)成為生活用中越來越關(guān)注的話題,如果要能讓用戶用得開心,預(yù)防勝于治療是關(guān)鍵。通過DPI指標(biāo)結(jié)合告警信息進(jìn)行模型創(chuàng)建,采用決策樹分類器預(yù)測潛在投訴用戶,可以做到先知先預(yù)防的作用。
(1)采集用戶投訴記錄、投訴前對應(yīng)時段的DPI指標(biāo)、投訴前時段的告警數(shù)據(jù)作為數(shù)據(jù)集,并將其進(jìn)行關(guān)聯(lián)處理形成信息寬表,如表5所示。
表5 信息寬表
(2)針對采集數(shù)據(jù)進(jìn)行預(yù)處理,圍繞缺失值、異常值、數(shù)據(jù)規(guī)范化三部分進(jìn)行,處理后的訓(xùn)練集保留1:1比例,如表6所示。
表6 采集數(shù)據(jù)預(yù)處理
(3)考慮到數(shù)據(jù)集的特征,優(yōu)先選取隨機(jī)邏輯回歸的結(jié)果,再結(jié)合建模情況增加部分信息增益和卡方檢驗特征。通過前剪枝與后剪枝的兩種方式進(jìn)行決策樹建模,輸出樹形結(jié)果,如圖12所示。
圖12 決策樹
(4)將原有訓(xùn)練集中的0.3部分劃分為交叉訓(xùn)練集,針對劃分后的訓(xùn)練集進(jìn)行模型訓(xùn)練,選取優(yōu)質(zhì)模型參數(shù),并在交叉訓(xùn)練集中進(jìn)行驗證,如圖13所示。
圖13 交叉訓(xùn)練集驗證
(5)挑選準(zhǔn)確率大于70%且召回率較高的單項規(guī)則進(jìn)行組合訓(xùn)練,模型輸出如圖14所示。
圖14 組合訓(xùn)練模型輸出