[林俐 許盛宏]
隨著高鐵的快速發(fā)展,人們在利用高鐵出行的同時(shí),希望能享受穩(wěn)定的、高質(zhì)量的移動業(yè)務(wù)服務(wù),因此高鐵用戶成為各運(yùn)營商重點(diǎn)關(guān)注的用戶群體。高鐵用戶作為運(yùn)營商的優(yōu)質(zhì)客戶,業(yè)務(wù)需求量較大,需要重點(diǎn)保障高鐵沿線移動網(wǎng)絡(luò)覆蓋質(zhì)量,以便快速提升客戶感知,提升業(yè)務(wù)核心競爭力。
目前,高鐵密閉車廂GPS信號屏蔽嚴(yán)重,導(dǎo)致GPS定位困難且不準(zhǔn)確,4G網(wǎng)絡(luò)的用戶測量記錄MR的AGPS記錄也無法使用。路測設(shè)備在隧道無法獲取GPS信號,不能進(jìn)行測試位置打點(diǎn),使得高鐵隧道覆蓋采用路測的方式也難以評估,導(dǎo)致分析問題片面且準(zhǔn)確性不高,同時(shí)采用人工進(jìn)行路面測試,導(dǎo)致消耗大量人力和物力,工作量很大且效率低下。
目前技術(shù)方案采用高鐵用戶識別實(shí)現(xiàn)覆蓋評估,實(shí)現(xiàn)流程如圖1所示。首先獲取網(wǎng)絡(luò)信令并按用戶分組,通過人工配置高鐵沿線小區(qū),當(dāng)用戶經(jīng)過小區(qū)數(shù)量滿足一定條件的,同時(shí)經(jīng)過相鄰小區(qū)時(shí)間差也滿足一定條件的,則確定為高鐵用戶,通過所有高鐵用戶的對應(yīng)時(shí)間段的信令分析高鐵整體覆蓋質(zhì)量。此方案存在兩個(gè)問題:第一是需人工及時(shí)維護(hù)高鐵沿線小區(qū)清單,否則就會導(dǎo)致出現(xiàn)錯(cuò)漏,影響高鐵用戶判斷的準(zhǔn)確度;第二是沒有用戶記錄的具體位置導(dǎo)致無法打點(diǎn),無法分析質(zhì)差路段,只能得到整條高鐵的線路情況,無法全面進(jìn)行高鐵質(zhì)差路段的細(xì)致評估分析。
圖1 目前高鐵覆蓋測評方案的實(shí)現(xiàn)流程
針對目前的高鐵4G網(wǎng)絡(luò)覆蓋測評需要路面測試,導(dǎo)致工作量很大且效率低、分析問題不全面、不準(zhǔn)確等問題,提出了基于密度聚類的大數(shù)據(jù)高鐵覆蓋智能測評方法。首先自動識別高鐵站臺一定范圍的基站小區(qū)作為站臺小區(qū),滿足一定條件的用戶作為穩(wěn)定用戶,然后通過穩(wěn)定用戶經(jīng)過的小區(qū)得到整個(gè)高鐵沿線的小區(qū),并將滿足一定條件的用戶作為非穩(wěn)定用戶,最后通過相關(guān)規(guī)則計(jì)算所有高鐵用戶每條記錄的經(jīng)緯度,并按線段聚合后采用聚類算法輸出連片問題區(qū)域,實(shí)現(xiàn)了高鐵覆蓋的精準(zhǔn)測評。具體實(shí)現(xiàn)步驟如圖2所示。
(1)線路分段
圖2 高鐵覆蓋智能測評的實(shí)現(xiàn)流程
為了實(shí)現(xiàn)高鐵線路的精細(xì)化測評,需要將高鐵線路分段采用固定步長進(jìn)行分段,即從線路起點(diǎn)處開始劃分,并采用較短的步長,否則過長的線段,將覆蓋指標(biāo)進(jìn)行均值計(jì)算導(dǎo)致測評結(jié)果比較粗糙,不利于發(fā)現(xiàn)隱藏問題。線路分段可采用開放地理空間聯(lián)盟(OGC)制定WKT格式進(jìn)行存儲。線路分段編碼包括高鐵線路編碼和分段編碼,分段編碼對每一個(gè)分段按切段順序進(jìn)行順序編碼,每條MR根據(jù)定位點(diǎn)所落在線路分段標(biāo)記上分段編碼,便于對線路每一分段做指標(biāo)匯聚及連續(xù)路段問題分析。在實(shí)際應(yīng)用中,高鐵線路可以參考高鐵MR分布密度進(jìn)行線路分段的設(shè)定,一般推薦采用的分段長度為20 m。
(2)空間幾何算法
通過用戶MR中的時(shí)間提前量TA可以估算出用戶與基站小區(qū)的距離,1個(gè)TA表征的距離大概78.12 m,以基站小區(qū)位置為圓心,TA距離為半徑,當(dāng)與線路相切只有一個(gè)交點(diǎn)時(shí),則以切點(diǎn)作為用戶MR位置點(diǎn),如果TA距離大于基站到線路距離會出現(xiàn)多個(gè)交點(diǎn),則以最接近基站小區(qū)覆蓋方向的交點(diǎn)作為定位點(diǎn),如圖3所示,當(dāng)出現(xiàn)兩個(gè)交點(diǎn)A和B時(shí),將這兩個(gè)點(diǎn)和圓心分別相連得到線段D1、D2,且D1和D2長度都為78.12*TA m,同時(shí)根據(jù)基站小區(qū)的方位角θ得到射線D3,此時(shí)D1、D2分別與D3計(jì)算得到兩個(gè)夾角α和β,以夾角最小的線段在線路上的端點(diǎn)作為定位點(diǎn),如圖3所示,其中夾角最?。é拢┑木€段為D2,則以其在線路上的端點(diǎn)B作為此條MR位置點(diǎn)的經(jīng)緯度。
(3)聚類算法
圖3 MR位置點(diǎn)經(jīng)緯度計(jì)算示意圖
聚類是人工智能中機(jī)器學(xué)習(xí)的一種重要無監(jiān)督算法,可以將數(shù)據(jù)點(diǎn)歸結(jié)為一系列特定的組合。聚類算法包括劃分、層次、密度、網(wǎng)格等算法,其中密度聚類算法最為代表的為DBSCAN。為了自動獲取高鐵連片問題區(qū)域,需要通過聚類分析高鐵覆蓋數(shù)據(jù),由于高鐵連片問題區(qū)域數(shù)量是不固定的,推薦采用DBSCAN密度聚類算法。DBSCAN算法原理,如圖4所示:數(shù)據(jù)集中每個(gè)點(diǎn)是待分析對象,從中任意取點(diǎn)A,如果A點(diǎn)是核心點(diǎn)(A的鄰域半徑ε內(nèi)對象點(diǎn)的個(gè)數(shù)大于密度閾值minPts),則以A點(diǎn)為核心點(diǎn)搜索,找出A點(diǎn)密度可達(dá)的對象點(diǎn),即找出一個(gè)密度互連的最大集合,把集合內(nèi)的所有對象點(diǎn)都標(biāo)示為同一簇;如果A不是核心點(diǎn)(如圖中N點(diǎn)),沒有其他對象點(diǎn)從N點(diǎn)密度可達(dá),那么N點(diǎn)被標(biāo)示為噪聲點(diǎn)。
圖4 密度聚類DBSCAN算法原理
假設(shè)高鐵線路采用20 m分段,為了實(shí)現(xiàn)問題線段的連片,當(dāng)DBSCAN算法的鄰域半徑ε設(shè)置為1,密度閾值minPts設(shè)置為10,即表示相鄰分段直接編號是連續(xù)的,相鄰分段之間編號差值為1,將會獲得連續(xù)至少200 m問題線段連片的區(qū)域;當(dāng)DBSCAN算法的鄰域半徑ε設(shè)置為2,密度閾值minPts設(shè)置為8,即表示相鄰分段之間編號差值小于等于2,至少有8個(gè)線段連片構(gòu)成,將會獲得至少160 m問題線段連片的區(qū)域,如圖5所示。
圖5 基于密度聚類算法實(shí)現(xiàn)線段連片效果
(1)MR和用戶號碼的關(guān)聯(lián)
無線測量報(bào)告MR是無法獲取用戶號碼的,為了通過用戶分析識別高鐵用戶,從而實(shí)現(xiàn)對高鐵覆蓋測評,首先需將MR記錄關(guān)聯(lián)到用戶號碼,由于MR所使用的會話id標(biāo)識為核心網(wǎng)給用戶分配了會話標(biāo)識,在核心網(wǎng)就會存在會話id和用戶號碼的對應(yīng)關(guān)系,可通過和LTE核心網(wǎng)CHR(呼叫歷史記錄)或者S1-MME信令記錄的關(guān)聯(lián),會話id會在一定時(shí)間周期內(nèi)重復(fù)使用,需要結(jié)合時(shí)間窗口進(jìn)行處理,具體步驟如下:
步驟1:抽取CHR中時(shí)間、基站號、會話id、用戶號碼4個(gè)字段,并按時(shí)間timestamp排序。如表1所示,CHR字段的基站號(enodeid)、用戶號碼(msisdn)、會話id(mmeues1apid)表示當(dāng)前時(shí)刻用戶在MME側(cè)S1接口上的唯一會話連接標(biāo)識。
表1 核心網(wǎng)的CHR信令記錄
步驟2:讀取每條MR,根據(jù)MR中的基站號、會話id篩選CHR中等值記錄,并找出CHR信令時(shí)間小于MR記錄時(shí)間,且時(shí)間最接近MR記錄時(shí)間的CHR記錄,并把其中用戶號碼作為該條MR用戶號碼。如表2所示,第一行MR中enodeid 為48**33,mmeues1apid為364911931在表1中時(shí)間比它小,且時(shí)間最接近的是B號碼,故將其作為此條MR的關(guān)聯(lián)號碼。同理,可以得到其他MR的用戶關(guān)聯(lián)號碼,如表2最后一列所示。
(2)高鐵穩(wěn)定用戶識別
把一段時(shí)間內(nèi)接入過不同高鐵站臺的基站小區(qū),且平均移動速度大于150 km/h的用戶作為高鐵穩(wěn)定用戶,其中高鐵站臺基站小區(qū),可直接篩選高鐵站臺位置周邊一定范圍內(nèi)的基站小區(qū)。例如,根據(jù)高鐵站臺100米范圍內(nèi)查找基站小區(qū),得到部分高鐵站臺與小區(qū)對應(yīng)關(guān)系,如表3所示。
表2 用戶無線測量報(bào)告MR記錄
表3 基站小區(qū)與高鐵站臺對應(yīng)關(guān)聯(lián)表
按用戶對MR數(shù)據(jù)分組,每個(gè)分組按時(shí)間進(jìn)行排序,按順序判斷接入小區(qū)是否站臺小區(qū),如果判斷有兩個(gè)不同高鐵站臺小區(qū),則計(jì)算兩個(gè)站臺小區(qū)之間距離及歷時(shí),從而計(jì)算出用戶的平均移動速度,判斷速度是否滿足速度門限,如果滿足則認(rèn)為該用戶是高鐵穩(wěn)定用戶,并保留經(jīng)過不同站臺之間所有MR記錄,繼續(xù)按時(shí)間順序判斷其他時(shí)段是否滿足速度門限,提取該用戶對應(yīng)時(shí)間段的所有MR記錄。如表4所示,已關(guān)聯(lián)用戶號碼與小區(qū)位置MR,包含D和E的兩個(gè)用戶,其中接入過站臺小區(qū)的只有D用戶,在12點(diǎn)48分時(shí)刻接入85**72,51小區(qū),屬于廣州北站小區(qū),在12點(diǎn)57分時(shí)刻接入53**47,50小區(qū),屬于清遠(yuǎn)站小區(qū),歷時(shí)8分53秒,根據(jù)兩個(gè)站臺小區(qū)經(jīng)緯度距離計(jì)算大約35.942公里,則根據(jù)距離與歷時(shí)得到用戶的平均速度為242 km/h,遠(yuǎn)大于穩(wěn)定用戶速度門限150 km/h,則把1867554用戶作為高鐵穩(wěn)定用戶,并記錄其在12:48:50至12:57:44之間的所有MR。
表4 已關(guān)聯(lián)用戶號碼與小區(qū)位置的MR
(3)高鐵沿線小區(qū)識別
由于覆蓋高鐵小區(qū)與高鐵線路距離遠(yuǎn)近不一,如將高鐵線路附近一定范圍判定為高鐵沿線的覆蓋小區(qū),可能會有所錯(cuò)漏,需要人工進(jìn)行周期性檢查維護(hù)。為此,根據(jù)上面步驟識別出高鐵穩(wěn)定用戶,將所有高鐵穩(wěn)定用戶的對應(yīng)高鐵時(shí)間段的所有MR記錄,通過高鐵線路、基站小區(qū)編號去重,即可自動獲得該高鐵線路沿線的基站覆蓋小區(qū)。如表4所示,穩(wěn)定用戶D在高鐵時(shí)間段內(nèi)除站臺兩個(gè)小區(qū)外,還經(jīng)過了85**20_22和53**98_19兩個(gè)小區(qū),則把這兩個(gè)小區(qū)作為高鐵線路的沿線覆蓋小區(qū)。
(4)高鐵非穩(wěn)定用戶識別
在準(zhǔn)確得到高鐵線路沿線基站小區(qū)的情況下,高鐵非穩(wěn)定用戶識別方法與穩(wěn)定用戶識別基本相同,只是不要求接入兩個(gè)不同高鐵站臺小區(qū),可以站臺與沿線小區(qū),或者都是沿線小區(qū),但兩個(gè)小區(qū)距離需要滿足大于10公里,因?yàn)榫嚯x過短計(jì)算速度誤差過大,最終計(jì)算得到用戶移動平均速度還需要大于150 km/h。如表4所示,用戶E在12:52:21接入85**20_22小區(qū),在12:56:10時(shí)刻接入53**98_19沿線小區(qū),時(shí)間差距為228秒,距離差距大約為17公里滿足大于10公里門限,計(jì)算得到用戶移動速度大概268 km/h滿足速度門限150 km/h,則認(rèn)為該用戶為高鐵非穩(wěn)定用戶,并記錄其在12:52:21至12:56:10之間的所有MR。
(5)高鐵用戶MR定位
根據(jù)上述步驟得到高鐵穩(wěn)定用戶和非穩(wěn)定用戶在高鐵線路上的MR,還沒有計(jì)算MR的具體位置,可通過MR中的TA值及小區(qū)的覆蓋方位角估算MR的具體位置。根據(jù)上述的線段分段算法,高鐵線路按20米分段固定長度分段并進(jìn)行線段編碼。如表4所示,假若要計(jì)算E用戶在12:52:21時(shí)刻接入85**20_22小區(qū)的具體位置,從表中可以看出此時(shí)MR的TA值為5,則可以估算與小區(qū)的距離為78.12*5=390.6 m,以390.6 m為半徑來畫圓,通過上述空間幾何算法,如圖6所示,可以計(jì)算該高鐵線路和該圓相交B點(diǎn)所在的20 m線段編號1121895就為該MR所落在線段。
圖6 小區(qū)452791_11對應(yīng)MR與高鐵線路相交定位
(6)覆蓋問題區(qū)域連片
基于上述步驟已經(jīng)把高鐵每條MR都關(guān)聯(lián)上了20米分段,按線段編碼分組統(tǒng)計(jì)每個(gè)分段覆蓋質(zhì)量RSRP均值指標(biāo)及主接入小區(qū),從而得到高鐵每個(gè)分段的指標(biāo)數(shù)據(jù)。假設(shè)弱覆蓋判斷門限為小于-105 dBm,則可以將20米線段的RSRP均值小于-105 dBm的線段都找出來,然后根據(jù)上述密度聚類DBSCAN算法,鄰域半徑ε設(shè)置為1,密度閾值minPts為10,輸出高鐵線路的弱覆蓋連片區(qū)域,如圖7所示,分段上標(biāo)識為RSRP均值,黑色邊框包含的區(qū)域都是連續(xù)小于-105 dBm的分段。
圖7 覆蓋問題連片區(qū)域示意圖
由于高鐵穩(wěn)定用戶的MR獲取條件比較苛刻,必須要求用戶在不同時(shí)刻有接入不同高鐵站臺的基站小區(qū),而MR采集也是抽樣采集,可能用戶在站臺的時(shí)候出現(xiàn)漏采,為此需要增加高鐵非穩(wěn)定用戶的識別,盡量將所有的高鐵用戶都能識別出來,使得高鐵覆蓋測評更加全面、準(zhǔn)確。如表5所示,增加非穩(wěn)定用戶,使得高鐵線路有效測評長度有10%以上提升,為高鐵分析提供更加全面的分析數(shù)據(jù)。
表5 增加非穩(wěn)定用戶測評長度提升效果
基于本方案實(shí)現(xiàn)的高鐵覆蓋智能測評試驗(yàn)系統(tǒng),根據(jù)高鐵線段覆蓋質(zhì)量RSRP值進(jìn)行分檔,不同分檔渲染不同顏色,實(shí)現(xiàn)通過不同顏色等級呈現(xiàn)高鐵覆蓋質(zhì)量的優(yōu)劣,總體效果如圖8所示。
為了驗(yàn)證本方案是否準(zhǔn)確有效,將高鐵測評結(jié)果和人工路測DT進(jìn)行對比分析,如表6所示,兩者得到的覆蓋率只差1%左右,從而驗(yàn)證了本方案測評的準(zhǔn)確性,而隧道測評得到覆蓋率相差較遠(yuǎn),DT測試長度較短,覆蓋率較高,是由于DT在隧道衛(wèi)星信號差,導(dǎo)致隧道測試的數(shù)據(jù)采集有所缺漏,從而也證明本方案比傳統(tǒng)DT測試更加全面。
圖8 主要高鐵線路覆蓋質(zhì)量智能測評結(jié)果概覽圖
表6 系統(tǒng)智能測評試驗(yàn)結(jié)果與DT路測結(jié)果對比
為了更加直觀呈現(xiàn)隧道測評對比,選取京廣高鐵清遠(yuǎn)英德新塘村附近隧道,如圖9所示,其中虛線表示隧道,對比可以發(fā)現(xiàn)DT測試在隧道中收不到GPS,存在測試點(diǎn)缺失,而系統(tǒng)通過上述算法模型可以計(jì)算得到而不會缺失。從表6中也可以看出,隧道占用整個(gè)高鐵線路大約30%,且覆蓋率相對較低,需要重點(diǎn)優(yōu)化,而本方案能夠提供更加全面的測評數(shù)據(jù),支撐網(wǎng)絡(luò)優(yōu)化,提升高鐵用戶網(wǎng)絡(luò)體驗(yàn)。
圖9 DT和系統(tǒng)對隧道覆蓋測評對比
為解決高鐵覆蓋測評的工作量大且效率低、分析問題不準(zhǔn)確等問題,本文通過4G網(wǎng)絡(luò)全量MR的大數(shù)據(jù)分析,提出了高鐵覆蓋智能測評方案,并通過方案試驗(yàn)結(jié)果與路測的結(jié)果對比驗(yàn)證了技術(shù)方案的有效性,實(shí)現(xiàn)及時(shí)、全面、準(zhǔn)確的高鐵覆蓋測評,使得高鐵覆蓋網(wǎng)絡(luò)優(yōu)化效率大幅提升,高鐵路測費(fèi)用大幅下降,同時(shí)能有效提升高鐵用戶感知,具有良好的推廣應(yīng)用價(jià)值,推動無線網(wǎng)絡(luò)優(yōu)化的數(shù)字化轉(zhuǎn)型。后續(xù)結(jié)合強(qiáng)化學(xué)習(xí)技術(shù)不斷提升測評準(zhǔn)確性,進(jìn)一步實(shí)現(xiàn)高鐵線路測評結(jié)果的智能診斷功能,更有力支撐高鐵覆蓋網(wǎng)絡(luò)的智能優(yōu)化。