譚海軍 朱世宇 單欲立 陳善雄
1(長江師范學(xué)院信息化辦公室 重慶 408100) 2(重慶工程學(xué)院計算機與物聯(lián)網(wǎng)學(xué)院 重慶 400056) 3(西南大學(xué)計算機與信息科學(xué)院 重慶 400715)
相比于傳統(tǒng)4G網(wǎng)絡(luò),5G的顯著特點是波長下降到了毫米波的區(qū)間,因此收發(fā)天線及設(shè)備尺寸大大減小。此外,毫米波的繞射和穿墻能力差,在傳播中的衰減大,趨近于直線傳播?;谝陨蟽蓚€原因,5G發(fā)射基站的體積和發(fā)射功率都有所下降,這就要求覆蓋區(qū)域內(nèi)的5G基站密度增加。因此,在5G網(wǎng)絡(luò)基礎(chǔ)設(shè)施建設(shè)的過程中,發(fā)射基站的設(shè)備成本占總成本的比例相比于4G網(wǎng)絡(luò)大大提高[1]。合理地規(guī)劃5G網(wǎng)絡(luò)部署需要高效的網(wǎng)絡(luò)估算模型,該模型可以去預(yù)測通信覆蓋區(qū)域內(nèi)的無線電傳播特性,進而使得估算小區(qū)覆蓋范圍、小區(qū)間網(wǎng)絡(luò)干擾以及通信速率等指標(biāo)成為可能。對于5G網(wǎng)絡(luò)目前學(xué)術(shù)界和工業(yè)界尚未有通用、成熟的部署算法。通常的思路是參考以往4G網(wǎng)絡(luò)中的無線傳播模型,并根據(jù)5G的新特點對原有模型進行修正和優(yōu)化。然而,在4G及4G以前的無線網(wǎng)絡(luò)的實際應(yīng)用中,由于無線電波傳播環(huán)境復(fù)雜,傳播路徑上會受到諸如平原、山體、建筑物、湖泊等各種因素的影響,使得電磁波的傳播方式和路徑不再單一,產(chǎn)生復(fù)雜的透射、繞射、散射、反射和折射等現(xiàn)象。而在5G網(wǎng)絡(luò)中,毫米波作為信號的載波,基本是以直線傳播,此外,鏈路衰減差異和Massive MIMO技術(shù)也使5G無線傳播模型與4G及以前的模型有明顯的差異[2]。因此,本文需要借鑒4G及以前無線通信環(huán)境建模的思想,并結(jié)合5G通信中的新特性,使之既具有傳統(tǒng)經(jīng)驗?zāi)P突蚶碚撃P偷目山忉屝?,又能根?jù)特定地理位置上實際部署的5G無線網(wǎng)絡(luò)產(chǎn)生的數(shù)據(jù)進行網(wǎng)絡(luò)模型修正,從而建立一個準(zhǔn)確有效的模型。
傳統(tǒng)通信模型通過參數(shù)的擬合來進行修正,但龐大的數(shù)據(jù)和實時更新的要求,讓傳統(tǒng)模型的預(yù)測能力捉襟見肘。因此需要建立合適的無線傳播模型,對目標(biāo)通信覆蓋區(qū)域內(nèi)的無線電波傳播特性進行預(yù)測,使得對小區(qū)覆蓋范圍、小區(qū)間網(wǎng)絡(luò)干擾以及通信速率等指標(biāo)的估算更加準(zhǔn)確。近年來,大數(shù)據(jù)驅(qū)動下的人工智能,機器學(xué)習(xí)技術(shù)獲得了長足的進步,在無線通信、模型預(yù)測等領(lǐng)域取得了非常成功的運用。機器學(xué)習(xí)算法可以合理地規(guī)劃特定地理位置的基站,使其對覆蓋小區(qū)通信中產(chǎn)生的大量數(shù)據(jù)進行自動學(xué)習(xí),建立該小區(qū)的無線傳播模型,以預(yù)測該小區(qū)的通信指標(biāo),輔助該小區(qū)5G基站部署方案的設(shè)計。
本文采用機器學(xué)習(xí)的相關(guān)方法來構(gòu)建5G無線智能傳播模型。首先,參照模型Cost231-Hata[3],從已知的參數(shù)中選取出傳播路徑損耗最小的特征;接著通過Pearson系數(shù)來分析這些特征與參考信號接收功率RSRP(Reference Signal Receiving Power)的相關(guān)性,從中選取出相關(guān)性最高的前十個特征;最終將這些特征分別送入到?jīng)Q策樹、隨機森林、BP神經(jīng)網(wǎng)絡(luò),這三個模型中進行訓(xùn)練。實驗中,本文以4 000個小區(qū)的5G網(wǎng)絡(luò)傳播參數(shù)作為樣本,對三種模型進行參數(shù)上和結(jié)構(gòu)上的微調(diào)來提高模型的預(yù)測性能,結(jié)合Root mean squared error(RMSE)對預(yù)測結(jié)果進行評估,最終在RMSE的結(jié)果中選取出了最佳的訓(xùn)練參數(shù)和結(jié)構(gòu)。實驗結(jié)果表明,采用隨機森林模型的預(yù)測結(jié)果的準(zhǔn)確率高于其他模型,有利于減少網(wǎng)絡(luò)的建設(shè)成本,提高了基站的建設(shè)效率。
一個優(yōu)秀的無線傳播模型要能夠適應(yīng)不同的特征地貌輪廓,如平原、丘陵、山谷等,或者是不同的人造環(huán)境,例如開闊地、郊區(qū)、市區(qū)等。這些環(huán)境因素涉及了傳播模型中的很多變量,它們對無線信號的傳播有著重要影響。因此,一個性能良好的移動無線傳播模型需要不斷修正和改進才能形成。為了完善模型,需要利用統(tǒng)計方法,在測量出大量的數(shù)據(jù)基礎(chǔ)上,對模型進行校正。一個好的模型應(yīng)該簡單易用、結(jié)構(gòu)清晰,不應(yīng)該讓用戶進行主觀判斷和解釋,因為主觀判斷和解釋往往在同一區(qū)域會得出不同的預(yù)期值。同時,模型應(yīng)具有好的公認(rèn)度和可接受性。目前主要的無線傳播模型分為經(jīng)驗?zāi)P汀⑽锢砝碚撃P?、改進模型,當(dāng)然,這種通用傳播模型的分類思想也適用于當(dāng)前5G傳播模型。
就經(jīng)驗?zāi)P投?,Okumura-Hata和Cost-23-Hata是兩個比較典型的模型,文獻[4]對比了Okumura-Hata與Cost-231-Hata之間的差異。Cost231-Hata適用于1.5 G到2 G的信號,小區(qū)半徑大于1 km的蜂窩系統(tǒng),有效天線高度在30到200 m之間,接收天線在1到10 m之間,它可以作為5G通信模型的參考,但是因為傳輸波段遠低于5G模型,所需模型中的經(jīng)驗參數(shù)不適用于新的5G網(wǎng)絡(luò)群。Okumura-Hata[5]模型適用頻率范圍150~1 920 MHz,距離1到100 km,天線高度30到1 000 m。此模型信號頻率的更低,但是模型構(gòu)建思想值得借鑒。
物理理論模型根據(jù)電磁波傳播理論,考慮了電磁波在空間中的反射、折射等計算損耗,如Volcano模型[9]。但是這種物理模型只適用于干擾因素少、范圍比較小的理想環(huán)境,不太適用于現(xiàn)實中復(fù)雜多變的無線通信環(huán)境。
針對改進模型,文獻[6]提出了一種適用于28 GHz和38 GHz毫米波頻段蜂窩規(guī)劃的新的路徑損耗模型,該模型來源于對無線覆蓋商業(yè)規(guī)劃工具中使用的現(xiàn)有路徑損耗模型的修正。文獻[7]提出了針對特定城市的5G移動通信的路徑損耗模型,為其他地區(qū)模型及通用模型的建立提供了參考。另外Standard Propagation Model[8]也是一種應(yīng)用廣泛的模型,它從Hata公式演化而來的,適合頻率在150~3 500 MHz,傳輸距離在1~20 km場景。同時,該模型在擬合公式中引入更多的參數(shù),從而可以適應(yīng)更細(xì)的分類場景。
對于移動通信系統(tǒng)中的信號傳輸,很難建立一個完全與實際情況吻合的理論模型。由于環(huán)境的繁雜多樣,導(dǎo)致信號傳播呈現(xiàn)出多樣化的形式。目前已知的電磁理論,很難直接應(yīng)用于較大計算量的無線網(wǎng)絡(luò)傳播模型的體系之中,往往只能預(yù)測微蜂窩以及微微蜂窩模型。通常情況下需要專家結(jié)合各個地區(qū)的實測數(shù)據(jù),通過分析和計算然后對傳播模型的參數(shù)進行校正,進而提高預(yù)測模型的準(zhǔn)確率。而由于傳播模型的結(jié)構(gòu)和參數(shù)的復(fù)雜性,使得直接進行優(yōu)化變得比較困難,通常采用了提取傳播模型特征的方式,利用機器學(xué)習(xí)算法實現(xiàn)最優(yōu)設(shè)定。
數(shù)據(jù)及對應(yīng)的特征表達是機器學(xué)習(xí)的目標(biāo),而模型和算法正是為了達到這一目標(biāo),所以特征選擇是首要步驟。在移動通信系統(tǒng)的傳播模型中,原始數(shù)據(jù)集特征包括小區(qū)發(fā)射機相對地面的高度、小區(qū)發(fā)射機水平方向角、小區(qū)發(fā)射機中心頻率、柵格點位置到基站的水平距離等二十余項特征指標(biāo)。本文需要從原始特征集合中抽取對預(yù)測結(jié)果最有效的特征集合,簡化算法模型,加快計算的速度,實現(xiàn)網(wǎng)絡(luò)優(yōu)化和維護的靈活性。
在移動通信系統(tǒng)的通信過程中會產(chǎn)生大量的傳輸數(shù)據(jù),對海量數(shù)據(jù)的分析增加了計算和存儲的復(fù)雜度,數(shù)據(jù)壓縮是進行數(shù)據(jù)分析前的一個重要的預(yù)處理步驟,能有效去除特征變量集的信息冗余。通常特征包含連續(xù)型特征和離散特征。
(1) 連續(xù)型特征。對于連續(xù)型特征,用z-score標(biāo)準(zhǔn)化的方法,消除每個特征向量的均值冗余,使方差范圍在[0,1],使得各個參數(shù)的取值在一個相對穩(wěn)定的范圍。通過標(biāo)準(zhǔn)化,可以在不損失該特征的波動特性的前提下消除冗余,減少算法學(xué)習(xí)過程中的計算量,同時提高收斂速度,從而增強機器學(xué)習(xí)模型訓(xùn)練的效率。
(2) 離散型特征。本文中的數(shù)據(jù)是無序的離散變量,將其直接送入到模型中是不可取的。而One-hot編碼[9]可以將類別特征轉(zhuǎn)化為二進制向量來表示,首先將類別映射到整數(shù)值,每個整數(shù)值被表示為二進制向量,除了整數(shù)索引被標(biāo)記為1外,其他都為0。
特征約減是將特征參數(shù)集合中相互之間存在冗余的特征參數(shù)重新組合,構(gòu)造新的特征參數(shù)。在特征設(shè)計之前,通常需要先理解所提供的數(shù)據(jù)變量,再對數(shù)據(jù)進行預(yù)處理和適當(dāng)?shù)淖儞Q,從中挖掘出所需要的信息。這里,Cost 231-Hata模型對變量的定義如下:
PL=46.3+33.9log10f-13.82log10hb-α+
(44.9-6.55log10hb)log10d+Cm
(1)
其中:
式中:PL定義為傳播路徑損耗(單位:dB);f為載波頻率(單位:MHz);hb為基站天線有效高度(單位:m);hue為用戶天線有效高度(單位:m)、α為用戶天線高度糾正項(單位:dB);d為鏈路距離(單位:km);Cm為場景糾正常數(shù)(單位:dB)。
以Cost 231-Hata模型為例,從特征工程的角度分析,數(shù)據(jù)集的特征參數(shù)包括三種類型:
(1) 與Cost 231-Hata傳播模型參數(shù)定義一致的,如f、hb。
(2) Cost 231-Hata傳播模型中含有的特征參數(shù),但是,不是直接在數(shù)據(jù)集中定義的特征參數(shù),而是需要通過對多個數(shù)據(jù)集中原始的特征參數(shù)進行計算而得。比如:
(2)
式中:d在Cost 231-Hata是指鏈路距離,理論上是一個三維空間直線距離。但是因為實際工程應(yīng)用中,數(shù)據(jù)集是5G基站在開闊的室外無穿墻的情況下采集的,所以小區(qū)覆蓋半徑在1.5 km左右,而發(fā)射點和接收點的高度差基本不會影響最終的鏈路距離,所以直接用二維距離代替三維距離。把垂直特征作為一個單獨的特征,并在下面的相關(guān)性分析中發(fā)現(xiàn)它與預(yù)測結(jié)果RSRP相關(guān)性較大。
(3) Cost 231-Hata模型中沒有,但是數(shù)據(jù)集中含有的類型信息,如地形類型信息。
第一類特征參數(shù)可以直接利用;第二類特征參數(shù)可數(shù)據(jù)預(yù)處理提取出有效參數(shù);第三類特征參數(shù)需根據(jù)這些特征是否發(fā)散以及特征與目標(biāo)的相關(guān)性進行合理篩選。
完成降維之后,我們需要從特征參數(shù)中篩選出對預(yù)測結(jié)果影響大的特征參數(shù),作為下一步訓(xùn)練機器學(xué)習(xí)模型的精簡有效的輸入?yún)?shù)。通常來說,可以從以下兩個篩選指標(biāo)來判斷這個特征參數(shù)是否合適。
(1) 特征參數(shù)自身發(fā)散性。如果一個特征參數(shù)不發(fā)散,例如方差接近于0,也就是說樣本在這個特征參數(shù)上基本上沒有差異,這個特征參數(shù)對于樣本的區(qū)分作用較小。特征參數(shù)自身的微小波動是具有正態(tài)分布特征的隨機性引起的,因此對于預(yù)測目標(biāo)而言是一種噪聲,與預(yù)測目標(biāo)無關(guān)。由于各個小區(qū)是分散地分布在實際地理環(huán)境中的,因此接收點的位置具有發(fā)散性。表1展示了單個基站覆蓋區(qū)域中,接收站點位置特征??梢钥闯鼋邮拯c的水平坐標(biāo)(X,Y)具有發(fā)散性,而海拔和接收物高度的發(fā)散性則明顯低于水平坐標(biāo)的發(fā)散性。
表1 接收站點特征的發(fā)散性分析
(2) 特征與目標(biāo)的相關(guān)性。通常,與目標(biāo)相關(guān)性高的特征,應(yīng)當(dāng)優(yōu)先選擇。本文通過評估單個特征與預(yù)測結(jié)果之間的相關(guān)程度,排序后留下排在前10位的特征子集作為優(yōu)選特征。雖然這個方法只評估了單個特征對結(jié)果的影響,沒有考慮特征之間的相互關(guān)聯(lián),但由于預(yù)處理階段已經(jīng)消除特征集合之間的相關(guān)性,所以可以完全規(guī)避單一特征相關(guān)系數(shù)篩選方法的弊端。采用這種方式的原因在于,數(shù)據(jù)的特征本身已經(jīng)相互獨立,而且沒有時間上的因果關(guān)聯(lián),具備良好的獨立條件。
本文針對5G無線網(wǎng)絡(luò)傳播模型的構(gòu)建,通過特征參數(shù)分析和選擇,構(gòu)造出新的特征參數(shù),再將這些特征參數(shù)送入到基于決策樹、隨機森林以及BP神經(jīng)網(wǎng)絡(luò)交替優(yōu)化模型中來建立無線傳播模型,并且能夠預(yù)測出新環(huán)境下無線信號覆蓋的強度。
解決分類與回歸問題經(jīng)典的模型便是決策樹模型,此模型有很多經(jīng)典的算法,例如ID3算法、C4.5算法、CART算法和CART剪枝算法[10-11],本實驗中采用的是CART算法,此算法既可以用于分類,也可以用于回歸。CART算法由決策樹生成和決策樹剪枝兩個步驟組成。在決策樹生成步驟中,使用訓(xùn)練數(shù)據(jù)生成盡可能大的決策樹;在決策樹剪枝步驟中,使用驗證數(shù)據(jù)對已生成的決策樹剪枝并選擇最優(yōu)的子樹。具體的決策樹生成算法如下:
輸入:訓(xùn)練數(shù)據(jù)集D,特征集合A,模型停止條件E;
輸出:決策樹T。
使用訓(xùn)練數(shù)據(jù)集,從根節(jié)點開始,遞歸地對每個節(jié)點進行如下操作,構(gòu)建二叉決策樹:
(1) 使用訓(xùn)練數(shù)據(jù)集D,對每一個特征Ai和該特征的每一個取值aij,將訓(xùn)練數(shù)據(jù)集劃分為D1和D2兩部分,計算特征Ai在aij處的基尼指數(shù)。
(2) 針對所有可能的特征Ai和該特征所有可能的切分點aij,選擇基尼指數(shù)最小的特征及其對應(yīng)的切分點作為最優(yōu)特征和最優(yōu)切分點。從該最優(yōu)切分點生成兩個子節(jié)點,將劃分?jǐn)?shù)據(jù)集D1和D2分別分配到兩個子節(jié)點。
(3) 對兩個子節(jié)點遞歸地調(diào)用步驟(1)和(2),直到滿足停止條件,停止條件是節(jié)點中樣本個數(shù)小于預(yù)定閾值,或樣本集基尼指數(shù)小于預(yù)定閾值,或者無可用特征。
(4) 生成CART決策樹。
在特征選擇的過程中,隨機森林是通過特征對模型的貢獻率進行特征的重要性評分[12],對于評分高的特征,其貢獻率就大,將這些因素納入最后的機器學(xué)習(xí)模型中,進一步進行回歸預(yù)測,其具體算法流程如下:
(1) 原始訓(xùn)練集為N,應(yīng)用bootstrap方法,有放回地隨機抽取k個新的樣本集,并由此構(gòu)建k棵分類樹,每次未被抽到的樣本組成了k個候選數(shù)據(jù)。
(2) 設(shè)有mall個變量,則在每一棵樹的每個節(jié)點處隨機抽取mtry個變量(mtry (3) 每棵樹最大限度地生長,不做任何修剪。 (4) 將生成的多棵分類樹組成隨機森林,用隨機森林分類器對新的數(shù)據(jù)進行判別與分類,分類結(jié)果按樹分類器的投票多少而定。 BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法[13]是目前為止最為成功的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法之一,其原理可以概括為“模型+誤差修正函數(shù)”,每次只需要對訓(xùn)練得到的結(jié)果與實際值進行誤差分析,進而修改權(quán)值和閾值,通過重復(fù)迭代來輸出和預(yù)想結(jié)果一致的模型。在本文中將已有的RSRP值作為實際的標(biāo)簽值,并將已選取的特征送入模型中,使用均方根誤差作為損失函數(shù),并用Adam優(yōu)化器來修正網(wǎng)絡(luò)參數(shù)使其達到理想的效果。 實驗在分析各區(qū)域的數(shù)據(jù)集選取特征時,將弱覆蓋率的準(zhǔn)確率也納入其中,因為弱覆蓋率可直接幫助運營商精準(zhǔn)規(guī)劃區(qū)域,還能提升用戶的體驗感。因此,將弱覆蓋率、非弱覆蓋率的均值以及標(biāo)準(zhǔn)差作為模型訓(xùn)練的評價指標(biāo)。這里采用Pearson系數(shù)作為評價方法來計算各特征的相關(guān)系數(shù),其計算公式如下: (3) 經(jīng)過Pearson系數(shù)的檢驗后,得出的各特征與目標(biāo)的相關(guān)性系數(shù)如表2所示。其中,發(fā)現(xiàn)柵格點位置到基站的水平距離和柵格點到基站的直線距離對RSRP的影響最大,表明高相關(guān)的特征對傳播模型的構(gòu)建起著較大作用。 表2 特征與目標(biāo)的相關(guān)系數(shù) 為了研究特征對非弱覆蓋和弱覆蓋區(qū)域的影響,這里選取d(柵格點位置到基站的水平距離)、distance_2(柵格點位置到基站的直線距離)、Height(小區(qū)發(fā)射機相對地面的高度)、Azimutj(小區(qū)發(fā)射機水平方向角)、PL(傳播路徑損耗)五個特征,分析它們在非弱覆蓋和弱覆蓋區(qū)域的分布密度。 圖1展示的是Azimutj特征的分布密度??梢钥闯?,弱覆蓋區(qū)主要集中在值150~350之間,并且分布的密度很大,與之相對應(yīng)的是非弱覆蓋區(qū)的分布密度較小,覆蓋區(qū)間較大,橫跨0~350之間。 結(jié)合信號發(fā)射機相對地面的高度hb、機械下傾角θMD、垂直電下傾角θED以及信號發(fā)射機自身所在的柵格位置和目標(biāo)柵格位置所形成的三角形的斜邊長度和發(fā)射機的高度,可以得到柵格與發(fā)射機的高度以及柵格與信號線的相對高度Δhv,由此可以得到特征distance在非弱覆蓋和弱覆蓋的分布密度。如圖2所示,特征distance_2與distance_3的非弱覆蓋和弱覆蓋的差異,其中distance_3是在特征distance_2的基礎(chǔ)上加入了機械下傾角θMD、垂直電下傾角θED的計算而得到。可以看出特征distance_2的非弱覆蓋和弱覆蓋的分布密度基本一致,說明該特征對區(qū)域模型影響較大,而distance_3的分布則不一致,因此影響較小。 (a) 特征distance_2 (b) 特征distance_3圖2 distance特征對非弱覆蓋和弱覆蓋分布的影響 接著對發(fā)射機高度和柵格與發(fā)射機的距離在弱覆蓋區(qū)和覆蓋區(qū)兩類情況下的分布進行分析,結(jié)果可如圖3所示,發(fā)射機高度和柵格與發(fā)射機的距離對非弱覆蓋和弱覆蓋分布的影響。從圖可知,弱覆蓋區(qū)發(fā)射機到柵格的距離的密度值較大,而非弱覆蓋區(qū)的密度相對較小,從發(fā)射機高度的連續(xù)分布圖來說,弱覆蓋區(qū)的發(fā)射機高度在20 m左右的較多,而非弱覆蓋區(qū)的發(fā)射機高度分布相對較均勻。因此可以得出柵格與發(fā)射機的距離這一特征對模型構(gòu)建的影響較大。 (a) 發(fā)射機高度 (b) 柵格與發(fā)射機的距離圖3 發(fā)射機高度和柵格與發(fā)射機的距離對非弱覆蓋和弱覆蓋分布的影響 為了研究傳播過程特征參數(shù)對模型構(gòu)建的影響,結(jié)合經(jīng)驗信道模型Cost 231-Hata,計算傳播路徑損耗。 從圖4可以看出,PL的值在弱覆蓋區(qū)時,主要集中在100~200之間,與之對應(yīng)的是非弱覆蓋區(qū)主要集中分布在80~200之間,可以明顯看到這個特征的差異性不大。 圖4 信號傳播路徑損耗對非弱覆蓋和弱覆蓋分布的影響 通過對以上幾個特征的分析表明,經(jīng)過Pearson系數(shù)進行相關(guān)性計算后,相關(guān)系數(shù)值最大的10個特征,能較好地表示5G傳播模型特征參數(shù)性能,能有效地度量弱覆蓋區(qū)和非弱覆蓋區(qū)的;而在選取的最大相關(guān)系數(shù)的10個特征之外的特征,其差異性較小,不作為5G傳播模型的主要度量特征。 實驗從4 000個小區(qū)中獲取移動通信系統(tǒng)中的特征數(shù)據(jù),選取排名前10的特征送入到模型中進行訓(xùn)練,采用五折交叉驗證對數(shù)據(jù)多次劃分,訓(xùn)練集和測試集的比例為4 ∶1,這樣能極大提升模型的泛化能力。隨機森林的隨機種子設(shè)置為2 018,BP網(wǎng)絡(luò)中使用Kears框架,其網(wǎng)絡(luò)層數(shù)分別設(shè)置為256、128、64、12、1,學(xué)習(xí)率設(shè)置為0.001,優(yōu)化器選擇Adam,而batch_size設(shè)置為4 000,epoch設(shè)置為100其具體參數(shù)可見表3。 表3 BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和參數(shù) 為了詳細(xì)分析決策樹、隨機森林、BP神經(jīng)網(wǎng)絡(luò)在5G無線網(wǎng)絡(luò)傳播模型中,特征參數(shù)的定量化影響,這里引入MAE、RMS和PCRR三個指標(biāo)連進行度量。 (1) 平均絕對值誤差(Mean Absolute Deviation,MAE)是預(yù)測值和觀測值之間絕對誤差的平均值。平均絕對值誤差可以避免誤差相互抵消的問題,因而可以準(zhǔn)確反映實際預(yù)測誤差的大小,公式如下: (4) (2) 均方根誤差(Root Mean Squared Error,RMSE)。RMSE是評估預(yù)測值和實測值整體偏差的指標(biāo),其大小表明了測試的準(zhǔn)確性。RMSE的計算公式如下: (5) (3) 弱覆蓋識別率(Poor Coverage Recognition Rate,PCRR)。為更好地幫助運營商精準(zhǔn)規(guī)劃和優(yōu)化網(wǎng)絡(luò)從而提升客戶體驗,實驗中,弱覆蓋判決門限Pth的值設(shè)定為-103 dBm。若RSRP預(yù)測值或?qū)嶋H值小于Pth則為弱覆蓋,標(biāo)記為1;若大于等于Pth則為非弱覆蓋,標(biāo)記為0。根據(jù)比較預(yù)測值和實際值得到的弱覆蓋以及非弱覆蓋的差別,這里采用ROC指標(biāo)進行分析: True Positive(TP):真實值為弱覆蓋,預(yù)測值也為弱覆蓋; False Positive(FP):真實值為非弱覆蓋,預(yù)測值為非弱覆蓋; False Negative(FN):真實值為弱覆蓋,預(yù)測值為非弱覆蓋; True Negative(TN):真實值為非弱覆蓋,預(yù)測值也為非弱覆蓋。 PCRR的計算公式定義為: (6) 式中:Precision可以理解為預(yù)測結(jié)果為弱覆蓋的柵格,實際也是弱覆蓋的概率,定義為: (7) Recall表示真實結(jié)果為弱覆蓋的柵格有多少被預(yù)測成了弱覆蓋的概率,其定義為: (8) 最終,通過對決策樹、隨機森林、BP神經(jīng)網(wǎng)絡(luò)的測試、得出結(jié)果,對于5G無線網(wǎng)絡(luò)信號傳播中的均方根誤差和弱覆蓋識別率如圖5(a)所示。可以看出隨機森林的預(yù)測效果優(yōu)于決策樹和BP神經(jīng)網(wǎng)絡(luò),其PCRR值最大(0.894),而RMSE最小(4.31)(PCRR越大表明弱覆蓋識別率的精度越高;RMSE越小表示識別誤差越低)。在實驗中,BP神經(jīng)網(wǎng)絡(luò)雖然經(jīng)過一些列的改進使得訓(xùn)練的結(jié)果并未出現(xiàn)過擬合的情況,但是得到的結(jié)果較差。為了進一步對表2篩選出的前10個特征,與其他特征在無線信號覆蓋的差異,我們從其余特征中每次抽取3個替換掉篩選出的10個特征的任意三個,進行對比測試。根據(jù)表2所示,用特征Altitude(序號20)、Clutter_index2(序號21)、P(序號22)L替換掉Clutter_index10(序號8)、Clutter_index7(序號9)、Clutter_index9(序號10),如圖5(b)所示??梢钥闯觯N方法得到PCRR都有不同程度的下降,而RMSE值都有所增加。同樣,用序號17、18、19替換序號6、7、8特征(如圖5(c)所示),用序號14、15、16替換序號序號3、4、5特征(如圖5(d)所示),PCRR都出現(xiàn)下降,RMSE值都有上升。而且排序越靠前的特征,多模型的影響越大,所以圖5(d)的模型預(yù)測效果最差。因此可以得出采用隨機森林方式對5G無線傳播模型的信號預(yù)測具有更好的效果。 (a) 算法利用篩選出的10個特征的預(yù)測效果 (b) 用序號22、21、20特征替換8、9、10特征后的預(yù)測效果 (c) 用序號17、18、19特征替換6、7、8特征后的預(yù)測效果 (d) 用序號14、15、16特征替換3、4、5特征后的預(yù)測效果圖5 決策樹、隨機森林、BP神經(jīng)網(wǎng)絡(luò)對5G無線網(wǎng)絡(luò)信號 傳播預(yù)測效果 5G網(wǎng)絡(luò)的部署,需要充分考慮各種因素來選擇基站地址,而網(wǎng)絡(luò)規(guī)劃的流程中,高效的網(wǎng)絡(luò)估算可以使得5G網(wǎng)絡(luò)部署事半功倍。本文中對比傳統(tǒng)的Cost 231-Hata模型來選取特征,使用Pearson系數(shù)量化特征與目標(biāo)值之間的相關(guān)性,并以此構(gòu)造出新的特征,再將這些特征送入到機器學(xué)習(xí)的模型中來建立無線傳播模型,并且能夠預(yù)測新環(huán)境下無線信號覆蓋的強度,使得網(wǎng)絡(luò)建設(shè)成本大大減少的同時,還提高了建設(shè)效率。未來還需要考慮的是:面對實時更新的數(shù)據(jù),構(gòu)造出的模型是否也能取得理想的成績,以及是否還能在此基礎(chǔ)上構(gòu)造出更多有利的特征來改善模型的精確度。3.3 BP神經(jīng)網(wǎng)絡(luò)
4 實驗與分析
4.1 特征選擇結(jié)果分析
4.2 RSRP預(yù)測模型的測試結(jié)果分析
5 結(jié) 語