Alexis Huet,徐珊珊,王計(jì)斌*,金棟梁,許正
(1.南京華蘇科技有限公司,江蘇 南京 210000;2.南京郵電大學(xué)自動(dòng)化學(xué)院,江蘇 南京 210000)
隨著高鐵的快速發(fā)展,之前配置的高鐵網(wǎng)絡(luò)出現(xiàn)了很多問(wèn)題??紤]到高鐵的特殊環(huán)境,移動(dòng)運(yùn)營(yíng)商為高鐵沿線配置了專網(wǎng)小區(qū)來(lái)保障高鐵用戶的通信體驗(yàn)。但隨之而來(lái)的一個(gè)關(guān)鍵問(wèn)題是——如何對(duì)高鐵專網(wǎng)的使用及性能情況進(jìn)行評(píng)估。
目前,已經(jīng)有一些文章對(duì)高鐵專網(wǎng)的覆蓋和優(yōu)化進(jìn)行過(guò)研究,但主要是直接分析該小區(qū)用戶網(wǎng)絡(luò)質(zhì)量的相關(guān)指標(biāo),并針對(duì)列車車體穿透損傷、多普勒頻移和站址的規(guī)劃與布局等方面提出了優(yōu)化方案[1],而對(duì)于文中提到的區(qū)分用戶以實(shí)現(xiàn)對(duì)高鐵專網(wǎng)性能進(jìn)行監(jiān)控的研究尚屬空白。因此,本文通過(guò)將高鐵沿線用戶分為高鐵用戶和大網(wǎng)用戶來(lái)檢測(cè)并評(píng)估高鐵專網(wǎng)的服務(wù)質(zhì)量。
本文中所研究的數(shù)據(jù)來(lái)自中國(guó)江蘇省某地市移動(dòng)通信公司。由于數(shù)據(jù)源中缺乏分類樣本集,因此從50 萬(wàn)個(gè)用戶中隨機(jī)抽取2 000個(gè)用戶進(jìn)行人工分類。文中共涉及到經(jīng)過(guò)該地市的3條高鐵線路,途徑3個(gè)高鐵站點(diǎn),分別為:京滬、寧杭、滬寧高鐵,且這三條線路總長(zhǎng)度均超過(guò)了150 km,對(duì)于4G網(wǎng)絡(luò)均有針對(duì)性的專網(wǎng)覆蓋。
高鐵小區(qū)(專網(wǎng)小區(qū))是指高鐵沿線專門用于高鐵用戶使用的小區(qū)。大網(wǎng)小區(qū)(非高鐵小區(qū))是指非高鐵小區(qū)的其他小區(qū),通常為非高鐵用戶提供服務(wù)。同樣的,高鐵用戶是乘坐高鐵的用戶,而大網(wǎng)用戶則是指非高鐵用戶的任何其他用戶。
本文共用到小區(qū)信息數(shù)據(jù)和用戶數(shù)據(jù)這兩種數(shù)據(jù)。小區(qū)信息數(shù)據(jù)主要包括當(dāng)前高鐵線上高鐵小區(qū)的位置數(shù)據(jù)(經(jīng)緯度)和1 km內(nèi)大網(wǎng)小區(qū)的ECI編號(hào)及位置;用戶數(shù)據(jù)主要包含用戶信令切換信息以及相應(yīng)的時(shí)間標(biāo)識(shí)。
圖1顯示的是高鐵小區(qū)的一個(gè)切換示意圖(圖片來(lái)自互聯(lián)網(wǎng)上,華為武廣高鐵4G網(wǎng)絡(luò))。在圖中的高速鐵路線上,綠色區(qū)域表示專網(wǎng)小區(qū)信號(hào)覆蓋區(qū)域,灰色表示大網(wǎng)小區(qū)信號(hào)覆蓋區(qū)域。
圖1 高鐵小區(qū)示意圖
文中將高鐵沿線用戶進(jìn)行分類,有兩個(gè)要點(diǎn):
(1)鑒別出使用高鐵專網(wǎng)的大網(wǎng)用戶,這部分人在使用高鐵專網(wǎng)的總?cè)藬?shù)中占比應(yīng)該很低,以防高鐵專網(wǎng)的超負(fù)荷連接;
(2)鑒別出使用大網(wǎng)的高鐵用戶,高鐵小區(qū)和大網(wǎng)小區(qū)信號(hào)的快速切換,會(huì)導(dǎo)致高鐵用戶上網(wǎng)體驗(yàn)的下降。
整個(gè)實(shí)驗(yàn)設(shè)計(jì)階段分為兩部分:訓(xùn)練階段和自動(dòng)化階段,如圖2所示:
圖2 訓(xùn)練階段流程圖
首先收集有關(guān)高鐵線路周圍的小區(qū)信息,從這些信息中可得到高鐵線路圖;同時(shí),收集用戶的信令切換數(shù)據(jù),該數(shù)據(jù)可推出高鐵專網(wǎng)用戶及大網(wǎng)用戶的網(wǎng)絡(luò)連接行為。然后在做分類模型前,手動(dòng)地區(qū)分高鐵用戶和大網(wǎng)用戶,創(chuàng)建信號(hào)切換速度等行為特征指標(biāo)。最后選擇合適的分類算法鑒別出兩種用戶。
訓(xùn)練階段存在手動(dòng)分類部分,對(duì)于樣本量不大的數(shù)據(jù)集可以進(jìn)行操作,如果數(shù)據(jù)集比較大,則自主分類的可操作性不強(qiáng),所以本文設(shè)計(jì)了一個(gè)自動(dòng)化階段,如圖3所示:
圖3 自動(dòng)化階段流程圖
首先從數(shù)據(jù)中提取用戶行為特征指標(biāo);然后利用分類算法區(qū)分出高鐵用戶和大網(wǎng)用戶;最后通過(guò)總結(jié)用戶使用小區(qū)網(wǎng)絡(luò)的情況來(lái)評(píng)估小區(qū)的服務(wù)質(zhì)量。
本文對(duì)收集到的數(shù)據(jù)進(jìn)行挖掘分析。第一步根據(jù)高鐵小區(qū)經(jīng)緯度信息刻畫(huà)出高鐵軌道線路,利用主成分分析方法[2]對(duì)小區(qū)經(jīng)緯度信息進(jìn)行合適的旋轉(zhuǎn),接著通過(guò)廣義加性模型(GAM)[3]刻畫(huà)出高鐵線路,得到如圖4所示的高鐵沿線和覆蓋小區(qū)圖。第二步創(chuàng)建模型數(shù)據(jù)集。該數(shù)據(jù)集在用戶數(shù)據(jù)的基礎(chǔ)上增加了兩個(gè)變量:第一個(gè)是類別變量,標(biāo)記小區(qū)是高鐵小區(qū)還是大網(wǎng)小區(qū);第二個(gè)是距離變量,表示小區(qū)離高鐵出發(fā)站的距離(單位為km)。
圖4 高鐵沿線和覆蓋小區(qū)圖
圖5 典型用戶小區(qū)移動(dòng)圖
圖4中,藍(lán)點(diǎn)表示距高鐵小區(qū)1 km內(nèi)的大網(wǎng)小區(qū);紅點(diǎn)表示高鐵小區(qū);黑色曲線代表高鐵路線。從高鐵路線可推測(cè)出每個(gè)小區(qū)和高鐵線路的距離,進(jìn)而推導(dǎo)出目標(biāo)小區(qū)和高鐵出發(fā)站之間的距離。
圖5是對(duì)用戶當(dāng)天在高鐵小區(qū)的時(shí)間及小區(qū)距離進(jìn)行可視化呈現(xiàn),其中只畫(huà)出了部分用戶的信息圖,圖中每個(gè)點(diǎn)表示用戶和小區(qū)之間發(fā)生的網(wǎng)絡(luò)連接。(a)中紅色點(diǎn)表示高鐵用戶僅連接到專網(wǎng)小區(qū)的示例;(b)中紅色點(diǎn)表示高鐵用戶連接到專網(wǎng)小區(qū),黑色點(diǎn)表示高鐵用戶連接到一些大網(wǎng)小區(qū)的示例;(c)中黑色點(diǎn)表示非高鐵用戶連接到大網(wǎng)小區(qū)的示例;(d)中黑色點(diǎn)表示非高鐵用戶連接到大網(wǎng)小區(qū),紅色點(diǎn)表示非高鐵用戶連接到一些專網(wǎng)小區(qū)的示例。
每個(gè)用戶都有信令切換時(shí)間及切換小區(qū)離高鐵出發(fā)站的距離信息,且時(shí)間是不規(guī)則的。在做完特征指標(biāo)提取后,每個(gè)用戶的小區(qū)切換信息、移動(dòng)速度、移動(dòng)距離都可以用固定的時(shí)間來(lái)表達(dá)。其中較重要的特征是用戶的移動(dòng)速度。移動(dòng)速度是根據(jù)小區(qū)離高鐵出發(fā)站距離及切換至該小區(qū)網(wǎng)絡(luò)的時(shí)間與出發(fā)時(shí)間計(jì)算所得。在時(shí)間較短且切換小區(qū)較近的情況下,瞬時(shí)速度可達(dá)600 km/h,為了避免計(jì)算出這樣不可用的高鐵速度數(shù)據(jù),考慮按照秒、分鐘、小時(shí)等不同時(shí)間段計(jì)算平均速度。具體可以計(jì)算一天內(nèi)特定持續(xù)時(shí)間段(例如30分鐘)的用戶最大移動(dòng)距離。在本系統(tǒng)中,用如下指標(biāo)來(lái)計(jì)算最大移動(dòng)距離:1 s移動(dòng)速度、5 s移動(dòng)速度、25 s移動(dòng)速度、2 min移動(dòng)速度、10 min移動(dòng)速度、15 min移動(dòng)速度、20 min移動(dòng)速度、25 min移動(dòng)速度、30 min移動(dòng)速度、35 min移動(dòng)速度、40 min移動(dòng)速度、45 min移動(dòng)速度、50 min移動(dòng)速度、55 min移動(dòng)速度、1 h移動(dòng)速度、4 h移動(dòng)速度和24 h移動(dòng)速度。對(duì)于每個(gè)用戶,還可以創(chuàng)建和小區(qū)數(shù)關(guān)聯(lián)的特征變量,這些附加特征包括如下條件:
(1)連接到專網(wǎng)小區(qū)的總次數(shù);
(2)連接小區(qū)的總次數(shù);
(3)定義專網(wǎng)小區(qū)連接次數(shù)占比(a)/(b);
(4)用戶連接到小區(qū)的數(shù)目(1個(gè)小區(qū)有多次連接只計(jì)數(shù)一次)。
提取所有特征指標(biāo)后,每個(gè)用戶有21個(gè)特征指標(biāo),基于該指標(biāo)數(shù)據(jù)對(duì)用戶進(jìn)行分類。在機(jī)器學(xué)習(xí)領(lǐng)域,已有很多成熟的分類算法,其中一個(gè)較簡(jiǎn)單有效的算法是隨機(jī)森林[4],可以在分類的同時(shí)提取出重要的特征變量。
定義1:隨機(jī)森林是一個(gè)由一組決策樹(shù)分類器{h(X, θk), k=1, 2, …, K}組成的集成分類器,其中{θk}是服從獨(dú)立同分布的隨機(jī)向量,K代表隨機(jī)森林中決策樹(shù)的個(gè)數(shù),在給定自變量X的情況下,每個(gè)決策樹(shù)分類器通過(guò)投票來(lái)決定最優(yōu)的分類結(jié)果。
隨機(jī)森林算法涉及對(duì)樣本單元和變量進(jìn)行抽樣,從而生成大量的決策樹(shù)。對(duì)每個(gè)樣本單元,所有決策樹(shù)依次對(duì)其進(jìn)行分類。假設(shè)訓(xùn)練集中共有N個(gè)樣本單元,M個(gè)變量,則隨機(jī)森林的算法如下:
(1)應(yīng)用bootstrap方法從訓(xùn)練集中隨機(jī)有放回地抽取K個(gè)新的自助樣本集,并由此構(gòu)建K棵分類樹(shù),每次未被抽到的樣本組成了K個(gè)袋外數(shù)據(jù);
(2)在每一棵樹(shù)的每個(gè)節(jié)點(diǎn)處隨機(jī)抽取m<M個(gè)變量,通過(guò)計(jì)算每個(gè)變量蘊(yùn)含的信息量,然后在m個(gè)變量中選擇一個(gè)最具有分類能力的變量進(jìn)行節(jié)點(diǎn)分裂;
(3)完整生成所有的決策樹(shù),無(wú)需剪枝;
(4)終端節(jié)點(diǎn)的所屬類別由節(jié)點(diǎn)對(duì)應(yīng)的眾樹(shù)類別決定;
(5)對(duì)于新的觀測(cè)點(diǎn),用所有的樹(shù)對(duì)其進(jìn)行分類,其類別由多數(shù)決定原則生成。
定義2:給定一組分類器h1(X), h2(X), …, hk(X),每個(gè)分類器的訓(xùn)練集都是從原始的服從隨機(jī)分布的數(shù)據(jù)集(X,Y )中隨機(jī)抽樣所得,余量函數(shù)定義為:
式中,I(·)是示性函數(shù)。余量函數(shù)用于度量平均正確分類樹(shù)超過(guò)平均錯(cuò)誤分類樹(shù)的程度,余量值越大,分類預(yù)測(cè)則越可靠。
文中為了確保結(jié)果的可靠性,將人工分類的數(shù)據(jù)集分成兩部分:隨機(jī)抽取80%用戶為訓(xùn)練集;剩下的20%用戶為驗(yàn)證集。用訓(xùn)練集對(duì)模型進(jìn)行訓(xùn)練,接著在訓(xùn)練集和驗(yàn)證集上同時(shí)測(cè)試。結(jié)果顯示,該模型可以高效地區(qū)分出高鐵用戶及大網(wǎng)用戶。在訓(xùn)練集上,準(zhǔn)確率達(dá)到99%;在驗(yàn)證集上,準(zhǔn)確率為98%。每個(gè)新用戶可以通過(guò)該模型提取的重要特征指標(biāo)進(jìn)行分類。具體分類如圖6所示。
圖6 分類結(jié)果
分類結(jié)果如表1所示:
表1 相關(guān)高鐵線路每日小區(qū)服務(wù)性能的全局概要
表1給出了該地市滬寧線上某天的所有高鐵小區(qū)服務(wù)性能的全局概要,從表中可以看出在這一天,所有高鐵小區(qū)中高鐵用戶為4 751人,高鐵脫網(wǎng)人數(shù)為218,非高鐵用戶占用高鐵網(wǎng)絡(luò)人數(shù)為278。
經(jīng)實(shí)驗(yàn)發(fā)現(xiàn)有些高鐵小區(qū)中存在較多高鐵用戶使用大網(wǎng)的情況,具體結(jié)果如表2所示。
表2給出了該地市滬寧線上存在問(wèn)題的專網(wǎng)小區(qū)中高鐵用戶使用網(wǎng)絡(luò)情況,從表中可以看出四個(gè)專網(wǎng)小區(qū)中高鐵脫網(wǎng)用戶數(shù)較大,需要對(duì)這些小區(qū)進(jìn)行網(wǎng)絡(luò)優(yōu)化。經(jīng)過(guò)優(yōu)化后,各小區(qū)RSRP均值比優(yōu)化前有所提高,因此可以看出通過(guò)鑒別高鐵用戶對(duì)挖掘高鐵小區(qū)網(wǎng)絡(luò)質(zhì)量有著重要的意義。
高鐵的商業(yè)化運(yùn)營(yíng),給鐵路運(yùn)輸行業(yè)帶來(lái)新鮮血液的同時(shí)也帶來(lái)了移動(dòng)網(wǎng)絡(luò)優(yōu)化的新問(wèn)題。本文對(duì)信令數(shù)據(jù)在時(shí)間序列上進(jìn)行時(shí)間、頻率、速度等特征的提取,并對(duì)提取的特征通過(guò)機(jī)器學(xué)習(xí)算法進(jìn)行分類得到如下結(jié)論:
表2 各小區(qū)高鐵用戶情況分析表
(1)通過(guò)隨機(jī)森林算法對(duì)用戶進(jìn)行分類,區(qū)分出高鐵/非高鐵用戶,且驗(yàn)證得到高鐵用戶識(shí)別準(zhǔn)確率達(dá)到90%以上;
(2)基于高鐵沿線用戶判別分析算法,對(duì)高鐵專網(wǎng)進(jìn)行業(yè)務(wù)質(zhì)量評(píng)估與故障定位,對(duì)重點(diǎn)問(wèn)題小區(qū)進(jìn)行性能評(píng)價(jià)與網(wǎng)絡(luò)優(yōu)化。
由于高速鐵路運(yùn)行環(huán)境的不規(guī)則性,高鐵軌道存在隧道、彎道、橋梁等各種場(chǎng)景,之后可以針對(duì)一段不規(guī)則軌道對(duì)本文中的算法進(jìn)行驗(yàn)證及優(yōu)化。