于澤洋,周文勝
(1.上海諾基亞貝爾軟件有限公司,上海 201204;2.中國(guó)電信股份有限公司湖南分公司,湖南 長(zhǎng)沙 410011)
移動(dòng)通信建設(shè)中,小區(qū)級(jí)的流量分布有著重要的意義,在網(wǎng)絡(luò)規(guī)劃階段,這一分布可以影響規(guī)劃的站數(shù)、連接數(shù)等基本規(guī)劃數(shù)據(jù);在運(yùn)營(yíng)階段,這一分布可以幫助判斷網(wǎng)絡(luò)結(jié)構(gòu)是否合理,是否需要改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)來(lái)提高投資收益等。尤其在現(xiàn)在的大數(shù)據(jù)時(shí)代,獲取小區(qū)流量的分布并從中抽取具有價(jià)值的特征具有更為重要的意義。
但另一方面,由于各小區(qū)的位置、人口、經(jīng)濟(jì)發(fā)展?fàn)顩r等不同,各小區(qū)的業(yè)務(wù)流量也不同。有研究認(rèn)為,蜂窩移動(dòng)電話網(wǎng)話務(wù)密度圖在地域上的分布近似服從瑞利分布的規(guī)律[1]。在實(shí)際的基站建設(shè)中,每個(gè)小區(qū)的覆蓋范圍不同,在業(yè)務(wù)密集區(qū)域還存在多載波、小站、室分等多種分流形式,因此,小區(qū)的業(yè)務(wù)流量分布就更為復(fù)雜,不能簡(jiǎn)單認(rèn)為小區(qū)級(jí)業(yè)務(wù)流量符合瑞利分布。
另一個(gè)流量分布的研究方向是從人類(lèi)行為的角度來(lái)研究各種業(yè)務(wù)模型[2],[3],例如短消息[4]、網(wǎng)頁(yè)[5]、E-mail[6],[7]等,這些模型可以用來(lái)在網(wǎng)絡(luò)規(guī)劃時(shí)做為各種業(yè)務(wù)模型的參考,但對(duì)于實(shí)際運(yùn)營(yíng)中的網(wǎng)絡(luò)還缺乏指導(dǎo)意義。
一般認(rèn)為,小區(qū)級(jí)的業(yè)務(wù)流量分布人為因素過(guò)多,缺少統(tǒng)一的規(guī)律性。因此,有關(guān)小區(qū)級(jí)業(yè)務(wù)流量分布的研究較少。在網(wǎng)絡(luò)規(guī)劃階段,一般只是根據(jù)背包模型、非對(duì)稱(chēng)高斯模型等,假定人口、業(yè)務(wù)分布來(lái)對(duì)密集市區(qū)、市區(qū)、郊區(qū)等情況進(jìn)行一般性的估計(jì),得到平均值。在運(yùn)營(yíng)階段,經(jīng)常把小區(qū)簡(jiǎn)單地分為容量型小區(qū)和覆蓋型小區(qū),但其具體劃分也缺少?lài)?yán)格的依據(jù)。因此,針對(duì)小區(qū)級(jí)業(yè)務(wù)流量分布的研究具有重要意義,同時(shí)又是目前比較欠缺的一環(huán)。
本文收集多個(gè)地市的小區(qū)級(jí)業(yè)務(wù)流量,利用大數(shù)據(jù)分析的方法對(duì)流量數(shù)據(jù)進(jìn)行分析,以期能得到小區(qū)級(jí)業(yè)務(wù)流量的一般性規(guī)律。需要注意的是,本文并不是找到了一種嚴(yán)格適用于所有地市小區(qū)級(jí)流量數(shù)據(jù)的分布,而是提供了一些方法可以對(duì)流量數(shù)據(jù)進(jìn)行處理,得到近似的分布。
因?yàn)楸敬窝芯康哪康氖菍?duì)整個(gè)城市的網(wǎng)絡(luò)進(jìn)行評(píng)估,所以不宜對(duì)數(shù)據(jù)進(jìn)行過(guò)多剔除。剔除的主要對(duì)象為:一是統(tǒng)計(jì)期內(nèi)數(shù)據(jù)不完整的小區(qū);二是統(tǒng)計(jì)期內(nèi)新開(kāi)的小區(qū);三是統(tǒng)計(jì)期內(nèi)關(guān)閉的小區(qū)。下列數(shù)據(jù)不列入剔除范圍:統(tǒng)計(jì)期內(nèi)因故障流量為0或部分時(shí)段數(shù)據(jù)為0的小區(qū)。
通常得到的小區(qū)流量數(shù)據(jù)為分時(shí)數(shù)據(jù),具有較大的偶然性和潮汐性。本文采用了比較簡(jiǎn)單的平滑化方法,僅僅對(duì)分時(shí)數(shù)據(jù)求和與平均處理。
把數(shù)據(jù)處理成符合高斯分布或接近高斯分布的過(guò)程叫正態(tài)化處理[8]。高斯分布又叫正態(tài)分布,是一種非常經(jīng)典的分布[9]。高斯分布是人們了解非常透徹且豐富的處理方法。在大數(shù)據(jù)處理中,很多時(shí)候都是把分布處理成高斯分布,然后利用其豐富的處理方法、各種庫(kù)函數(shù)進(jìn)行進(jìn)一步的分析。高斯分布的分布密度函數(shù)為[9]:
式中,μ為期望值;σ為標(biāo)準(zhǔn)差。
μ=0,σ=1時(shí)的高斯分布成為標(biāo)準(zhǔn)高斯分布,其分布密度函數(shù)為:
高斯分布的檢測(cè)方法有很多,其中最常用的是Q-Q圖方法。Q-Q圖方法把數(shù)據(jù)分布和標(biāo)準(zhǔn)高斯分布做對(duì)比,如果數(shù)據(jù)分布和標(biāo)準(zhǔn)高斯分布相似,則該Q-Q圖趨近于落在y=x線上。如果數(shù)據(jù)分布和高斯分布線性相關(guān),則點(diǎn)在Q-Q圖上趨近于落在一條直線上,但不一定在y=x線上[10],[11]。
布做對(duì)比,如果數(shù)據(jù)分布和標(biāo)準(zhǔn)高斯分布相似,則該Q-Q圖趨近于落在y=x線上。如果數(shù)據(jù)分布和高斯分布線性相關(guān),則點(diǎn)在Q-Q圖上趨近于落在一條直線上,但不一定在 y=x線上[10],[11]。
1.3.1 對(duì)數(shù)化處理
對(duì)數(shù)化處理是一種簡(jiǎn)單的高斯化方法。取對(duì)數(shù)后符合高斯分布的數(shù)據(jù)分布稱(chēng)為對(duì)數(shù)高斯分布[8],其密度函數(shù)為:
對(duì)數(shù)化處理不能把所有的數(shù)據(jù)變換為高斯分布。
1.3.2 Box-Cox變換
Box-Cox變換是在大數(shù)據(jù)時(shí)代更為通用的高斯化方法[12]。Box-Cox變換公式為:
為了得到最佳的變換效果,選擇不同的 ,使得變換后的分布符合高斯分布,或者得到最小的方差概率(p),然后通過(guò)Q-Q圖像等方式檢驗(yàn)處理后的分布是否符合高斯分布。如果符合高斯分布,我們就能夠通過(guò)反變換得到原始的小區(qū)業(yè)務(wù)流量分布。但是需要注意的是,Box-Cox方法也不能把所有分布處理成高斯分布。
通過(guò)正態(tài)化處理,可以使數(shù)據(jù)近似符合高斯分布,把該分布和高斯分布比較,可以清晰地得到分布本身固有的一些特征。
這是殘差分析的一個(gè)應(yīng)用。通過(guò)流量數(shù)據(jù)分布的特征,分析產(chǎn)生這些特征的原因,可以得到期望的理想分布特征,并進(jìn)一步可以對(duì)某一地市的網(wǎng)絡(luò)結(jié)構(gòu)作出評(píng)估。
統(tǒng)計(jì)某省種多個(gè)地市4G小區(qū)級(jí)一周日均流量數(shù)據(jù),分地市進(jìn)行分析。下面所有的數(shù)據(jù)都是某一個(gè)地市的日均流量數(shù)據(jù)。
圖1是一個(gè)典型地市的小區(qū)級(jí)流量分布。
圖1 某地市各流量小區(qū)占比
本文對(duì)數(shù)據(jù)進(jìn)行分布檢驗(yàn),包括驗(yàn)證數(shù)據(jù)是否符合高斯分布、Y分布、泊松分布、指數(shù)分布、瑞利分布,均得到了否定的答案,且和實(shí)際數(shù)據(jù)存在較大誤差。因此可以認(rèn)為,小區(qū)級(jí)業(yè)務(wù)流量分布不符合上述的各種分布。
對(duì)原始數(shù)據(jù)進(jìn)行取對(duì)數(shù),然后進(jìn)行正態(tài)擬合,得到對(duì)數(shù)變換后,各地市流量數(shù)據(jù)變換后的頻次數(shù)據(jù)和高斯分布的對(duì)比。如圖2所示。
圖2 對(duì)數(shù)變換頻次圖
從圖2中可以看出,大部分區(qū)間上,變換后的數(shù)據(jù)和高斯分布基本能夠吻合,只是在某些區(qū)域內(nèi)有一些出入。
為了更好檢驗(yàn)變換后數(shù)據(jù)和高斯分布的差別,我們還做了Q-Q圖(見(jiàn)圖3):
圖3 對(duì)數(shù)變換Q-Q圖
從Q-Q圖中可以看出,對(duì)數(shù)變換后,數(shù)據(jù)和正態(tài)分布依然存在較大差異。
各個(gè)地市數(shù)據(jù)Box-Cox變換后的最佳λ,SSE見(jiàn)表1:
表1 最佳Box-Cox變換結(jié)果
表1中的ref SSE是指通過(guò)對(duì)數(shù)變換后擬合得到的SSE。從表1可以看出,所有地市的Box-Cox變換的SSE小于對(duì)數(shù)變換的SSE,即Box-Cox變換的結(jié)果比對(duì)數(shù)變換更接近于高斯分布。各地市流量數(shù)據(jù)變換后的頻次數(shù)據(jù)和高斯分布的對(duì)比如圖4所示。
從圖4可以看出,大部分區(qū)間上,變換后的數(shù)據(jù)和高斯分布能夠較好地吻合,只是在某些區(qū)域內(nèi)有一些出入。為了更好檢驗(yàn)變換后數(shù)據(jù)和高斯分布地差別,我們還做了圖5。
圖4 Box-Cox變換頻次圖
圖5 Box-Cox變換Q-Q圖
從圖5可以看出,絕大部分地市的數(shù)據(jù)和高斯分布吻合較好,但也有幾個(gè)地市,(例如地市1、2、7)的數(shù)據(jù)和高斯分布有一定差別。即使這些地市,在大部分區(qū)間上,變換后的數(shù)據(jù)和高斯分布能夠較好地吻合,只是在最左側(cè)和最右側(cè),即超低流量區(qū)域和高、超高流量區(qū)域內(nèi)有一些出入。
對(duì)比對(duì)數(shù)變換和Box-Cox變換可以認(rèn)為,對(duì)數(shù)變換在后的數(shù)據(jù)分布從曲線形狀上接近了高斯分布,但Box-Cox變換的效果遠(yuǎn)好于對(duì)數(shù)變換。
對(duì)比圖4和圖5的各個(gè)子圖可以看出,這些分布有一定的共性。但對(duì)比圖1,各個(gè)地市正態(tài)化變換以后的分布各自特征變得非常明顯,顯示出了各個(gè)網(wǎng)絡(luò)自身的特性。下面我們以地市1為例進(jìn)行研究。
在圖6所示的為地市1的頻次圖和殘差圖中,我們把流量分布曲線分作5段:低流量段(圖中①),中低流量段(圖中②),中等流量段(圖中③),高流量段(圖中④),超高流量段(圖中⑤)。各段特點(diǎn)如表2所示。
各段頻次和高斯分布的差異分析如下:
圖6 典型地市分布和高斯分布差異
表2 Box-Cox變換后的地市1各段數(shù)據(jù)特征
(1)低流量段,頻次高于高斯分布。這可能是原始數(shù)據(jù)中有一些小區(qū)可能存在一定的小區(qū)在部分時(shí)段內(nèi)有退網(wǎng)、退服等情況,造成了低流量的小區(qū)增加;也可能是無(wú)效小區(qū)過(guò)多。
(2)中低流量段,左側(cè)頻次略低于高斯分布。這可能是因?yàn)榈土髁慷蔚念l次偏高,造成了擬合曲線向左偏移,使得中低流量段的統(tǒng)計(jì)頻次高于擬合曲線。參考其他地市的擬合曲線可以看出,凡是低流量段頻次差異不明顯的地市,其中低流量段的擬合也基本看不出差異。
(3)中等流量段,和高斯分布匹配較好。這部分殘差看起來(lái)比較大時(shí)因?yàn)檫@部分小區(qū)數(shù)量絕對(duì)值更大。
(4)中高流量段,頻次略高于高斯分布擬合結(jié)果。這是由于超高流量小區(qū)的容量限制,造成了高流量小區(qū)只能達(dá)到中高流量。運(yùn)營(yíng)商擴(kuò)容也使得中高流量小區(qū)增加而高流量/超高流量小區(qū)減少。
(5)高流量段,頻次低于高斯分布擬合結(jié)果。事實(shí)上,高流量段應(yīng)該稱(chēng)為超高流量段。由于LTE 系統(tǒng)容量能力限制使得小區(qū)峰值流量有了一個(gè)上限,使得一些本來(lái)應(yīng)該處于高流量段的小區(qū)落回到了中高流量段。當(dāng)然,由于用戶(hù)行為的不同,小區(qū)繁忙時(shí)長(zhǎng)的不同,造成了實(shí)際的超高流量小區(qū)的流量上限也有所不同。另外,對(duì)于超高流量小區(qū),運(yùn)營(yíng)商也會(huì)采用各種分流、擴(kuò)容的方法來(lái)降低小區(qū)負(fù)荷,這也造成了高流量小區(qū)的數(shù)量減少而中高流量小區(qū)的數(shù)量增加。
根據(jù)上面的分析,差異最大的,也是和網(wǎng)絡(luò)結(jié)構(gòu)關(guān)系最大的是3個(gè)區(qū)域:低流量區(qū)、中高流量區(qū)和高流量區(qū)。理想的網(wǎng)絡(luò)具有以下特征:一是低流量小區(qū)少;二是中高流量小區(qū)多;三是超高流量小區(qū)少。
利用Box-Cox變換后的流量分布和高斯分布的對(duì)比,可以對(duì)地市的網(wǎng)絡(luò)建設(shè)是否合理給出以下參考:
(1)低流量小區(qū)分析:第一,短期內(nèi)的低流量小區(qū)的過(guò)多,一般是退網(wǎng)、退服小區(qū)過(guò)多,應(yīng)加強(qiáng)基站小區(qū)的維護(hù),使得更多的小區(qū)處于正常的工作狀態(tài)。第二,而長(zhǎng)期的低流量小區(qū)過(guò)多可能是一些小區(qū)沒(méi)有吸收到足夠的流量,應(yīng)對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行調(diào)整。
(2)中高流量小區(qū)和超高流量小區(qū)分析:第一,理想的狀況是中高流量小區(qū)多而高流量小區(qū)少,這說(shuō)明網(wǎng)絡(luò)結(jié)構(gòu)比較合理,流量密集區(qū)的負(fù)荷得到了有效的控制,并且大部分業(yè)務(wù)需求得到了很好的滿足。第二,如果超高小區(qū)過(guò)多,甚至頻次超過(guò)高斯擬合曲線,而中高流量小區(qū)數(shù)量少,可能是高負(fù)荷小區(qū)周邊的基站沒(méi)有有效分流,應(yīng)該調(diào)整該地市網(wǎng)絡(luò)結(jié)構(gòu)以實(shí)現(xiàn)有效分流,或者檢測(cè)流量密集區(qū)域是否需要擴(kuò)容。第三,如果中高流量小區(qū)和超高流量小區(qū)都多,則說(shuō)明網(wǎng)絡(luò)需要整體擴(kuò)容。
綜上所述,利用Box-Cox變換可以上把一個(gè)地市的小區(qū)級(jí)業(yè)務(wù)流量近似轉(zhuǎn)化成高斯分布。Box-Cox變換可以作為正態(tài)化處理的有效手段,Box- Cox變換后的分布和高斯分布可能存在一定差異,通過(guò)分析這些差異可以得到該地市網(wǎng)絡(luò)的一些基本特征,利用這些特征可以對(duì)該移動(dòng)網(wǎng)絡(luò)的運(yùn)維狀況,網(wǎng)絡(luò)結(jié)構(gòu)、網(wǎng)絡(luò)負(fù)荷的狀況進(jìn)行評(píng)估。由于數(shù)據(jù)量較少,且缺乏足夠的運(yùn)維數(shù)據(jù)與之相印證,定量的評(píng)估方法還需要進(jìn)一步的研究。