李建東 盛敏 文娟
摘要:高效、精準預測無線網絡業(yè)務數據,例如業(yè)務的到達率、用戶數以及吞吐量等,將為網絡提供用戶的實時需求,是實現(xiàn)無線網絡智能化的關鍵。然而,由于無線網絡傳輸的不可靠性、采集設備故障、采樣率低等原因,使得無線大數據具有不可避免的非完備性。將使系統(tǒng)丟失大量有用信息,從而給無線網絡業(yè)務預測帶來巨大挑戰(zhàn)。為了應對該挑戰(zhàn),提出了基于非完備數據集的業(yè)務預測架構,從缺失值補充以及空時信息挖掘2個維度高效利用非完備數據集,提升預測精度,助力無線網絡的智能化。
關鍵詞:業(yè)務預測;智能無線網絡;非完備數據
Abstract: High efficient and accurate wireless traffic prediction, such as arrival rate, user account, and throughput, will provide users real demand for network providers, which is the key for intelligent wireless networks. However, there exists incomplete nature for wireless big data because of the unreliable wireless transmission, the failure of data acquisition and low sample rate. This unique feature may make wireless networks lose massive useful information and bring great challenge for accurate traffic prediction. To meet this challenge, an incomplete data-based traffic prediction framework is proposed, leveraging the incomplete data set efficiently via filling the missing data and digging the temporal-spatial information.
Key words: traffic prediction; intelligent wireless networks; incomplete data set
無線網絡正經歷著從基于信息論的可靠傳輸到基于智能的高效通信的巨大變革[1]。智能無線資源管理是無線網絡智能化的核心,其目標是通過無線資源的動態(tài)調配使網絡資源與用戶需求精準適配。具體來講,網絡將根據用戶業(yè)務需求的時空分布,在相對較大的時間尺度內,合理地配置各區(qū)域網絡資源,使網絡資源結構最優(yōu)化;在小時間尺度內,動態(tài)地為各用戶分配網絡資源,使系統(tǒng)資源利用率以及用戶體驗最大化[2]。由此可見,高效、準確預測無線網絡業(yè)務需求,是無線網絡實現(xiàn)智能化的重要基礎。
然而,網絡結構的異構化和密集化使網絡干擾異常復雜,加劇了無線網絡傳輸的不可靠性,使得無線業(yè)務信息在傳輸過程中產生不可避免的丟失[3]。此外,數據采集設備故障或供電不足都將導致業(yè)務數據在收集過程中的缺失。最后,由于硬件設備限制導致的低采樣率往往無法準確獲得業(yè)務變化的重要信息。這些原因都將使無線網絡業(yè)務數據具備如圖1所示的非完備特性,即數據缺失或者無法反應業(yè)務變化趨勢,從而給無線網絡業(yè)務預測帶來巨大挑戰(zhàn)。
目前,對于缺失數據處理方法主要是根據已有數據的統(tǒng)計特性,如均值、中位數等,對缺失值進行補充[4]。此類方法對于統(tǒng)計規(guī)律比較強的數據有很好的作用;但是,當數據統(tǒng)計規(guī)律較弱時,其統(tǒng)計特性無法較好地反應數據本身特點。此時用其統(tǒng)計特性進行缺失值填充會引入大量噪聲,從而影響數據預測效果。如表1所示,傳統(tǒng)業(yè)務預測方法主要從時間以及空間2個維度,采用時間序列分析[5]、機器學習[6],以及深度學習[8-9]等方法,對收集到的業(yè)務數據進行預測,但是基本沒有考慮數據集的非完備特性對業(yè)務預測帶來的影響。
1 非完備海量數據業(yè)務預測
為了應對非完備數據給業(yè)務預測帶來的挑戰(zhàn),本文中我們提出了如圖2所示的基于非完備無線大數據的業(yè)務預測架構,從缺失值填充、時空信息挖掘2個維度,高效利用非完備數據集,助力無線網絡智能化。
簡單來講,當預測數據規(guī)律性較強時,例如辦公樓以及住宅區(qū)域的業(yè)務數據呈現(xiàn)明顯的“潮汐現(xiàn)象”,我們根據待預測數據的統(tǒng)計特性對缺失值進行補充,然后選取合適的預測算法對待預測數據直接進行預測。當預測數據規(guī)律性較弱時,例如交通樞紐區(qū)域等業(yè)務數據流動性強、規(guī)律弱,如果仍根據其統(tǒng)計特性對缺失值補充,將會引入大量噪聲;因此我們直接將缺失值丟棄,并充分利用空間維度信息進行數據挖掘,對待預測數據進行間接預測。
首先,我們采用時間序列分解法,將待預測數據分解為規(guī)律項和隨機項,并根據規(guī)律項占業(yè)務量比值的大小,將待預測數據分為規(guī)律性強或弱2種情況。具體做法為:將待預測數據[x=x1,x2,…xn](其中[xt,1≤t≤n]表示第[t]時刻待預測的業(yè)務量,例如用戶數、流量等)分解為周期項[pt]、趨勢項[mt]以及隨機項[rt],并且將周期項與趨勢項的和稱為規(guī)律項[yt=pt+mt]。當規(guī)律項與業(yè)務量的比值高于某一門限值[R]時,待預測數據規(guī)律性較強;反之,當規(guī)律項與業(yè)務量的比值低于某一門限值[R]時,待預測數據規(guī)律性較弱。
當待測數據規(guī)律性較強時,其歷史數據的統(tǒng)計特性例如均值,可較好地反映待測數據規(guī)律;因此,我們可利用缺失值歷史信息的均值,對其進行填充,擴充訓練樣本數。我們可以將填充好后的數據直接輸入所選擇的預測算法,對待預測數據直接進行預測。
當待測數據規(guī)律性較弱時,其歷史數據的統(tǒng)計特性無法較好地反映待測數據規(guī)律。如果對缺失值進行強行填充,將會引入較多噪聲,從而影響預測精度。此時,我們將缺失值直接刪除,確保使用數據的真實性。經過研究發(fā)現(xiàn),在無線網絡中,即使單小區(qū)的業(yè)務規(guī)律性較弱,由多個小區(qū)構成的小區(qū)簇的業(yè)務規(guī)律性一般都很強。因此,可以充分挖掘相鄰小區(qū)的空間信息,先對小區(qū)簇的業(yè)務總量進行預測,然后再對目標小區(qū)業(yè)務與小區(qū)簇業(yè)務比值進行預測,最后將這2部分的預測值相乘,即可得到基于空間信息獲得的目標小區(qū)待測業(yè)務量。為了進一步提升預測精度,我們采用“提升”(boosting)算法的基本思想,即設計多個好而不同的預測方法對同一問題進行預測,并將其結果進行融合,通過模型和數據的分集增益提升預測精度。為此,我們采用與基于空間信息預測模型不同的預測方法對刪除缺失值后的數據直接進行預測。最后,將預測結果與基于空間信息的預測結果進行有機融合,便可利用模型和數據的分集增益提升預測精度。
2 仿真設計與分析
為了驗證本文提出的基于非完備大數據業(yè)務預測架構的有效性,我們采用校園網實測數據對各個區(qū)域各時間段的用戶數進行預測。
為了判斷待預測數據規(guī)律性的強弱,我們假設門限值R=0.8。對于規(guī)律性比較強的業(yè)務數據,我們采用均值對相應缺失值進行補充,并使用補充后的數據集作為訓練數據集,采用嶺回歸(Ridge)方法對其進行直接預測。圖3對比了對缺失值進行均值填充和缺失值刪除后的預測效果。為此,我們將獲得的相對完整的數據看做實驗中的“完備”數據集,然后在人為隨機刪除部分數據進行驗證。從圖3中可以看出,當待測數據規(guī)律性較強時,當缺失值比例不大時,采用均值補充可以有效提升預測精度。此外,刪除某些數據時,例如異常值,也可提升預測精度。因此,我們在對數據進行預測前,要先分析數據的特性,并根據數據的特性進行相應的處理。
對于規(guī)律性相對較弱的業(yè)務數據,我們先將缺失值刪除,然后使用刪除缺失值后的數據集作為訓練數據集,并采用基于時空信息的預測方法對其預測。具體來講,分別采用Ridge、隨機森林(RF)以及輕量級梯度提升機(Light-GBM)方法對目標小區(qū)用戶數、小區(qū)簇用戶數以及目標小區(qū)和小區(qū)簇用戶數的比例進行預測,然后將預測出的小區(qū)簇用戶數和相應比例相乘,所得結果與直接預測的用戶數以合適比例融合,得出最后的目標小區(qū)用戶數預測值。圖4對比了僅基于時間信息的業(yè)務預測與基于時空信息的業(yè)務預測精度。從圖中我們可以看出,借助于空間信息可有效提高業(yè)務預測精度。
3 結束語
基于無線大數據,結合人工智能算法,將使無線網絡的設計、管理與優(yōu)化更加自動化、智能化與智慧化。然而,無線網絡信道傳輸的不可靠性、業(yè)務多樣性以及網絡結構密集化、異構化等特點使得無線大數據呈現(xiàn)非完備性、空時大尺度變化等特點,為無線大數據挖掘以及人工智能算法應用與結合帶來巨大挑戰(zhàn)。本文中,我們提出了基于非完備無線大數據業(yè)務預測的基本架構,對非完備無線大數據的應用具有重要啟發(fā)意義。在無線網絡智能化的關鍵時期,仍需要我們不斷探索如何針對無線網絡特異性,最大限度地挖掘無線大數據的價值并設計相應的智能算法。
參考文獻
[1] LI R P, ZHAO Z F, ZHOU X, et al. Intelligent 5G: When Cellular Networks Meet Artificial Intelligence [J]. IEEE Wireless Communications, 2017, 24(5): 175-183. DOI:10.1109/mwc.2017.1600304wc
[2] 張琰, 盛敏, 李建東. 大數據驅動的“人工智能”無線網絡[J]. 中興通訊技術, 2018, 24(2): 2-5
[3] LIU J Y, SHENG M, LIU L, et al. Interference Management in Ultra-Dense Networks: Challenges and Approaches [J]. IEEE Network, 2017, 31(6): 70-77. DOI:10.1109/mnet.2017.1700052
[4] SESSA J, SYED D. Techniques to Deal with Missing Data[C]//2016 5th International Conference on Electronic Devices, Systems and Applications (ICEDSA). United Arab Emirates:ICEDSA, 2016: 1-4. DOI:10.1109/ICEDSA.2016.7818486
[5] XU F L, LIN Y Y, HUANG J X, et al. Big Data Driven Mobile Traffic Understanding and Forecasting: A Time Series Approach [J]. IEEE Transactions on Services Computing, 2016, 9(5): 796-805. DOI:10.1109/tsc.2016.2599878
[6] ZARE MOAYEDI H, MASNADI-SHIRAZI M A. Arima Model for Network Traffic Prediction and Anomaly Detection[C]//2008 International Symposium on Information Technology. Malaysia, 2008: 1-6. DOI:10.1109/ITSIM.2008.4631947
[7] WANG X, ZHOU Z M, YANG Z, et al. Spatio-Temporal Analysis and Prediction of Cellular Traffic in Metropolis[C]//2017 IEEE 25th International Conference on Network Protocols (ICNP). Canada: ICNP, 2017: 1-10. DOI:10.1109/ICNP.2017.8117559
[8] WANG J, TANG J, XU Z, et al. Spatiotemporal Modeling and Prediction in Cellular Networks: A Big Data Enabled Deep Learning Approach[C]//IEEE INFOCOM. USA: IEEE, 2017:1-9