孔祥云,初鐵男
(中國(guó)聯(lián)合網(wǎng)絡(luò)通信有限公司網(wǎng)絡(luò)分公司 北京 100033)
隨著網(wǎng)絡(luò)規(guī)模的不斷擴(kuò)展,目前網(wǎng)絡(luò)管理系統(tǒng)中的數(shù)據(jù)規(guī)模正在經(jīng)歷著“爆炸性”增長(zhǎng),如何有效利用這些數(shù)據(jù)和網(wǎng)絡(luò)并利用數(shù)據(jù)中的信息輔助決策,已經(jīng)成為運(yùn)營(yíng)商迫切需要解決的問題;另一方面,隨著3GPP在LTE中提出自組織網(wǎng)絡(luò)(self-organized network,SON)的概念,未來的網(wǎng)絡(luò)維護(hù)、優(yōu)化、升級(jí)等工作也將越來越多地依靠網(wǎng)絡(luò)數(shù)據(jù)自發(fā)實(shí)現(xiàn),這給運(yùn)營(yíng)商對(duì)數(shù)據(jù)的處理和運(yùn)用能力提出了更高的要求。
在這種情況下,各大運(yùn)營(yíng)商紛紛建立綜合網(wǎng)管平臺(tái),實(shí)現(xiàn)了對(duì)網(wǎng)絡(luò)數(shù)據(jù)的有效采集和規(guī)范化存儲(chǔ),并開始針對(duì)數(shù)據(jù)中的信息進(jìn)行數(shù)據(jù)挖掘。由于網(wǎng)絡(luò)中的數(shù)據(jù)具有時(shí)變、海量、非結(jié)構(gòu)化等特點(diǎn),綜合網(wǎng)絡(luò)主要依靠數(shù)據(jù)倉庫進(jìn)行搭建。同時(shí),基于數(shù)據(jù)倉庫的特點(diǎn),聯(lián)機(jī)分析處理(on-line analytical processing,OLAP)成為綜合網(wǎng)管中數(shù)據(jù)挖掘的主要手段。
聯(lián)機(jī)分析處理的概念最早由關(guān)系數(shù)據(jù)庫之父Codd E F于1993年提出。Codd認(rèn)為,傳統(tǒng)基于SQL對(duì)大數(shù)據(jù)庫的簡(jiǎn)單查詢已經(jīng)不能滿足用戶分析的需求。用戶的決策分析需要對(duì)關(guān)系數(shù)據(jù)庫進(jìn)行大量計(jì)算才能得到結(jié)果,而OLAP可以通過多維星型或雪花型模型實(shí)現(xiàn)OLAP“立方體”,使得龐大的記錄集合可以被迅速、高效地概括、分類、查詢和分析。因此,以O(shè)LAP為核心的數(shù)據(jù)存儲(chǔ)和分析工具逐漸成為當(dāng)前數(shù)據(jù)挖掘工具的主流。
然而,多維OLAP立方體的主要缺點(diǎn)是不夠靈活。立方體是通過預(yù)先將關(guān)系型數(shù)據(jù)表連接構(gòu)成固定、特定主題的結(jié)構(gòu)構(gòu)建的。由于實(shí)際網(wǎng)絡(luò)的業(yè)務(wù)靈活多變,導(dǎo)致業(yè)務(wù)模型經(jīng)常隨之發(fā)生變化,同時(shí)由于不同地區(qū)的業(yè)務(wù)特點(diǎn)有著較大的區(qū)別,在系統(tǒng)實(shí)際運(yùn)行時(shí),OLAP的性能通常很難達(dá)到預(yù)期水平。
OLAP對(duì)數(shù)據(jù)準(zhǔn)確性有著較高的要求,數(shù)據(jù)中的噪音和錯(cuò)誤對(duì)OLAP的準(zhǔn)確性有著較為嚴(yán)重的影響。因此,OLAP對(duì)源數(shù)據(jù)的準(zhǔn)確性、數(shù)據(jù)抽取/清洗/轉(zhuǎn)換處理的有效性都有較高的要求,這不僅提高了計(jì)算復(fù)雜度,也在很大程度上提高了數(shù)據(jù)分析系統(tǒng)的構(gòu)建難度和成本。
本文針對(duì)上述問題提出了一種基于主成分分析的電信網(wǎng)絡(luò)數(shù)據(jù)挖掘方法,通過數(shù)據(jù)壓縮去除數(shù)據(jù)中的噪音,最大程度地提取數(shù)據(jù)中蘊(yùn)含的各種信息,繼而提高數(shù)據(jù)挖掘的效率以及算法的自適應(yīng)性。最后,通過對(duì)網(wǎng)絡(luò)中實(shí)際數(shù)據(jù)的分析,結(jié)合對(duì)比傳統(tǒng)OLAP方法的性能,證明本文所提方法能有效提升綜合網(wǎng)管的性能。
OLAP可以使網(wǎng)絡(luò)管理人員對(duì)網(wǎng)絡(luò)建立起有效的模型,從而大大提高網(wǎng)絡(luò)管理人員管理網(wǎng)絡(luò)的效率。OLAP基于大量的數(shù)據(jù)分組和表間關(guān)聯(lián),使得網(wǎng)絡(luò)管理人員可以不去探究網(wǎng)絡(luò)事件和數(shù)據(jù)背后的原因,而把注意力放在數(shù)據(jù)之間的相關(guān)關(guān)系上,實(shí)現(xiàn)了運(yùn)營(yíng)商網(wǎng)絡(luò)管理水平的顯著提高。
OLAP通常基于數(shù)據(jù)倉庫,通過對(duì)數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行多維分析獲取數(shù)據(jù)中的相關(guān)信息。其分析過程如下:首先根據(jù)數(shù)據(jù)分析的要求,通過預(yù)先設(shè)定的模型將數(shù)據(jù)構(gòu)造成數(shù)據(jù)立方體,繼而采用上卷、下鉆、旋轉(zhuǎn)等數(shù)據(jù)分析方法獲取數(shù)據(jù)中的相關(guān)性,最后將分析得到的結(jié)果返回給用戶。
OLAP的核心是數(shù)據(jù)立方體的構(gòu)建。為了準(zhǔn)確地從數(shù)據(jù)中獲取信息,需要采用多維方式組織和處理數(shù)據(jù),而數(shù)據(jù)立方體就是這樣一種數(shù)據(jù)的組織和呈現(xiàn)形式。數(shù)據(jù)立方體的模型就是以數(shù)據(jù)中多維模式中的一些屬性作為分析數(shù)據(jù)的維度,通過分析不同維度之間的關(guān)聯(lián)獲取數(shù)據(jù)中的信息。數(shù)據(jù)立方體的形式如圖1所示。
圖1 OLAP中的數(shù)據(jù)立方體模型
然而,在實(shí)際應(yīng)用中,由于業(yè)務(wù)和網(wǎng)管環(huán)境常常發(fā)生變化,分析模型也需要實(shí)時(shí)更新。而由于模型的重新定義和生成不僅需要大量的人力、物力成本,更需要花費(fèi)大量的時(shí)間。因此,網(wǎng)絡(luò)管理人員對(duì)問題分析的角度總是滯后,使得運(yùn)營(yíng)商花費(fèi)大量成本建立的綜合網(wǎng)管系統(tǒng)再次淪為死板的日常報(bào)表系統(tǒng)。
業(yè)務(wù)和環(huán)境的時(shí)變特性是構(gòu)建綜合網(wǎng)管系統(tǒng)的重要挑戰(zhàn),采用OLAP的最大難題就是無法自適應(yīng)地調(diào)整模型以適應(yīng)業(yè)務(wù)和環(huán)境的變化。因此,尋找一種具有自適應(yīng)能力的數(shù)據(jù)分析方法,成為綜合網(wǎng)管建立以及運(yùn)營(yíng)商數(shù)據(jù)分析水平提升亟待解決的問題。
綜合網(wǎng)管的一個(gè)主要目標(biāo)是從采集到的數(shù)據(jù)中找到影響關(guān)鍵性能指標(biāo)(key performance indicator,KPI)的主要因素,KPI是運(yùn)營(yíng)商對(duì)網(wǎng)絡(luò)質(zhì)量和網(wǎng)絡(luò)狀況進(jìn)行判斷的主要指標(biāo),受到業(yè)務(wù)和網(wǎng)絡(luò)環(huán)境的影響,影響KPI的主要因素也常常發(fā)生改變,給網(wǎng)絡(luò)管理和維護(hù)工作帶來很大的困難。
在基于OLAP的綜合網(wǎng)管系統(tǒng)中,由于分析模型的構(gòu)建無法根據(jù)業(yè)務(wù)和網(wǎng)絡(luò)環(huán)境的變化進(jìn)行自適應(yīng)調(diào)整,加之?dāng)?shù)據(jù)中的噪音也常常對(duì)分析產(chǎn)生很大的不良影響,因此在系統(tǒng)實(shí)際運(yùn)行時(shí),其性能往往無法達(dá)到預(yù)期要求。為了解決這一問題,需要自適應(yīng)地去除數(shù)據(jù)中噪音的影響,并將數(shù)據(jù)中的主要信息提取出來。主成分分析(principal component analysis,PCA)正是這樣一種數(shù)學(xué)工具。
主成分分析,又稱主分量分析,是一種從多個(gè)變量中挑選出少數(shù)重要變量的多元統(tǒng)計(jì)分析方法。在實(shí)際的網(wǎng)管數(shù)據(jù)中,每個(gè)變量都可能在一定程度上影響KPI的變化。因此,可以采用主成分分析的方法挑選出對(duì)KPI影響最大的相關(guān)關(guān)系(即主成分)?;谥鞒煞址治龅乃枷?,簡(jiǎn)要介紹本系統(tǒng)的設(shè)計(jì)思路。
在相關(guān)關(guān)系分析的過程中,首先需要構(gòu)建樣本空間,通過數(shù)據(jù)分析方法分析各個(gè)參數(shù)對(duì)KPI所造成的影響。設(shè)Xi={x1,x2,…,xn}為第i次測(cè)量得到的樣本集,其中x1為KPI,而 x2,x3,…,xn為網(wǎng)管系統(tǒng)中采集到的參數(shù)。假設(shè)采集到n組樣本,于是有數(shù)據(jù)集:
其中
各數(shù)據(jù)與KPI之間的相關(guān)關(guān)系可以看作這一數(shù)據(jù)中蘊(yùn)含的有關(guān)KPI的信息,由于數(shù)據(jù)中的信息由方差進(jìn)行表征,故計(jì)算協(xié)方差矩陣:
設(shè) Q 的特征值為 λ1,λ2, …,λn,其中|λ1|≥|λ2|≥…≥|λn|≥0 對(duì)應(yīng)的特征向量為 L1,L2,…,Ln,Li=(l1,l2,…,ln)(i=1,2,…,n)。由特征向量的特點(diǎn)可以知道,L1,L2,…,Ln為一組線性無關(guān)向量,因此可以以L1,L2,…,Ln為基,得到樣本空間 X 的線性變換 Y=(Yi1,Yi2,…,Yin)T,其中:
在Y中,非零元素的個(gè)數(shù)即X的秩,表征在采集到的數(shù)據(jù)中,可以找到的KPI與各參數(shù)可能的相關(guān)關(guān)系。其中,λ1對(duì)應(yīng)的Y1是第一主成分,由于λ1為最大的特征值,其對(duì)應(yīng)的線性變換Y1表征KPI與網(wǎng)絡(luò)參數(shù)最顯著的相關(guān)關(guān)系,而其他成分Y2…Yn表述KPI與網(wǎng)絡(luò)參數(shù)其他可能的關(guān)系,由于其相關(guān)關(guān)系較弱,可以認(rèn)為這些關(guān)系都是噪音。
下面需要對(duì)獲得的相關(guān)關(guān)系的有效性進(jìn)行分析,即判斷分析出來的相關(guān)關(guān)系是否具有充分的顯著性,即判斷第一主成分所占的比例。只有當(dāng)?shù)谝恢鞒煞值呢暙I(xiàn)率大于某一閾值時(shí),才能認(rèn)為這一關(guān)系有效表征了KPI和網(wǎng)絡(luò)性能的相關(guān)性,若第一主成分的貢獻(xiàn)率不夠大,則認(rèn)為 KPI與網(wǎng)絡(luò)參數(shù) x2,x3,…,xn無明顯關(guān)系。
以二維樣本集X=(x1,x2)為例說明這一過程。設(shè)x1為基站的掉線率、x2為基站的CPU利用率,假設(shè)網(wǎng)管系統(tǒng)采集了n個(gè)基站的數(shù)據(jù),且其分布情況如圖2所示。對(duì)這一數(shù)據(jù)進(jìn)行分析,可以看到數(shù)據(jù)集的第一主成分遠(yuǎn)大于第二主成分,說明基站的CPU利用率與掉話率之間存在明顯的關(guān)系,其存在的線性相關(guān)性為第一主成分的斜率tanθ,通過這種方法實(shí)現(xiàn)了從大數(shù)據(jù)中獲取相關(guān)性的功能。
圖2 具有顯著相關(guān)關(guān)系的樣本集
另一方面,假設(shè)x1為掉線率而x2為通話時(shí)長(zhǎng)的樣本集,且樣本分布如圖3所示。在這一樣本中,顯然第一主成分與第二主成分的大小差別不顯著,此時(shí)可以認(rèn)為通話時(shí)長(zhǎng)并不影響掉線率。
圖3 沒有顯著相關(guān)關(guān)系的樣本集
綜上所述,通過對(duì)網(wǎng)絡(luò)中的采樣數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,可以準(zhǔn)確找到影響掉線率的參數(shù),并定量地分析出其相關(guān)關(guān)系。同時(shí),通過海量數(shù)據(jù)的處理與分析,保證了最大程度地利用數(shù)據(jù)中的信息,并發(fā)掘出數(shù)據(jù)內(nèi)蘊(yùn)含的各種相關(guān)信息。
為了驗(yàn)證本文所提出的綜合網(wǎng)管系統(tǒng)中的海量數(shù)據(jù)分析方法,以中國(guó)聯(lián)通某省公司的實(shí)際數(shù)據(jù)為例,闡述海量數(shù)據(jù)分析的實(shí)際過程以及分析效果。
分析數(shù)據(jù)為某省會(huì)城市10 000個(gè)小區(qū)的統(tǒng)計(jì)指標(biāo),希望通過海量數(shù)據(jù)分析技術(shù)得到影響掉線率(屬于KPI)的主要因素。為了簡(jiǎn)化討論,只針對(duì)語音業(yè)務(wù)時(shí)長(zhǎng)和數(shù)據(jù)業(yè)務(wù)流量?jī)蓚€(gè)因素進(jìn)行分析。根據(jù)前文所述方法,分別構(gòu)建二元組樣本集。
樣本集1:(各個(gè)小區(qū)相鄰兩個(gè)月間總掉話次數(shù)的差值,各個(gè)小區(qū)相鄰兩個(gè)月間總數(shù)據(jù)流量的差值);
樣本集2:(各個(gè)小區(qū)相鄰兩個(gè)月間總掉話次數(shù)的差值,各個(gè)小區(qū)相鄰兩個(gè)月間總語音業(yè)務(wù)通話時(shí)長(zhǎng)的差值)。
對(duì)兩組樣本進(jìn)行分析,提出各組樣本的主成分,以分析各參數(shù)對(duì)掉線次數(shù)的影響,結(jié)果如圖4、圖5所示。其中,每個(gè)點(diǎn)代表樣本集中的一個(gè)樣本,顏色深淺代表對(duì)于樣本點(diǎn)的不同分類??梢钥吹?,在所分析的樣本中,各小區(qū)的掉線次數(shù)都會(huì)隨著數(shù)據(jù)流量的增大而增大;相對(duì)的,總通話時(shí)長(zhǎng)的變化對(duì)總掉線次數(shù)幾乎沒有顯著影響。
圖4 無線小區(qū)掉線次數(shù)變化與數(shù)據(jù)流量變化的樣本集
傳統(tǒng)上,語音業(yè)務(wù)和數(shù)據(jù)業(yè)務(wù)都可能對(duì)小區(qū)的掉線產(chǎn)生影響,且語音業(yè)務(wù)造成的影響更為顯著。相關(guān)結(jié)果不僅有助于網(wǎng)絡(luò)管理人員更好地管理和配置網(wǎng)絡(luò),更為今后的網(wǎng)絡(luò)擴(kuò)容、網(wǎng)絡(luò)優(yōu)化提供了有益的參考,帶來了客觀的經(jīng)濟(jì)效益。
圖5 無線小區(qū)掉線次數(shù)變化與語音業(yè)務(wù)時(shí)長(zhǎng)變化的樣本集
為了對(duì)比本文所提出的方法與傳統(tǒng)OLAP方法的性能,選出1 000個(gè)無線小區(qū)樣本,對(duì)比兩種算法在相關(guān)挖掘方面的準(zhǔn)確性。其中,樣本小區(qū)均為城市中心的高負(fù)載小區(qū),且樣本小區(qū)均存在由于CPU負(fù)載過高引起掉話率高的現(xiàn)象?,F(xiàn)將樣本小區(qū)分為10組,對(duì)比兩種算法判斷樣本小區(qū)掉話原因的準(zhǔn)確性,結(jié)果如圖6所示。
圖6 本文所提方法與OLAP方法的性能比較
從圖6可以看到,采用本文所提的數(shù)據(jù)分析方法可以有效地提高數(shù)據(jù)分析的準(zhǔn)確性。對(duì)于運(yùn)營(yíng)商而言,其業(yè)務(wù)質(zhì)量并不完全取決于網(wǎng)絡(luò)的性能參數(shù),但通過不斷地對(duì)網(wǎng)絡(luò)中的數(shù)據(jù)進(jìn)行分析,采用本文所提出的算法可以在很大程度上及時(shí)發(fā)現(xiàn)網(wǎng)絡(luò)運(yùn)行中可能存在的問題,這樣的準(zhǔn)確率已經(jīng)基本可以滿足運(yùn)營(yíng)商對(duì)網(wǎng)絡(luò)管理的要求,同時(shí)這也說明本文所提出的分析方法具有一定的適用價(jià)值。
綜合網(wǎng)管的應(yīng)用將成為運(yùn)營(yíng)商增強(qiáng)競(jìng)爭(zhēng)力、提高網(wǎng)絡(luò)管理效率的重要手段?;跀?shù)據(jù)分析的綜合網(wǎng)管系統(tǒng)未來不僅能夠成為公司競(jìng)爭(zhēng)力的來源,也將成為運(yùn)營(yíng)商的重要資產(chǎn)。本文從綜合網(wǎng)管的應(yīng)用需求出發(fā),提出了一種有效自適應(yīng)獲取數(shù)據(jù)中信息的有效方法。最后通過實(shí)際數(shù)據(jù)的驗(yàn)證及比較分析,驗(yàn)證了本文所提方法的有效性。本文研究成果對(duì)未來綜合網(wǎng)管的設(shè)計(jì)、數(shù)據(jù)的使用有著很大的借鑒意義。
1 Eryilmaz A,Srikant R.Fair resource allocation in wireless networks using queue-length-based scheduling and congestion control.IEEE/ACM Transactions on Networking,2007,15(6):1333~1344
2 Shlens J.A tutorial on principal component analysis.http://www.docin.com/p-422532195.html,2009
3 Inmon W H.數(shù)據(jù)倉庫.北京:機(jī)械工業(yè)出版社,2000
4 張維明.數(shù)據(jù)倉庫原理與應(yīng)用.北京:電子工業(yè)出版社,2002