楊 淼
(1.武漢科技大學(xué) 信息科學(xué)與工程學(xué)院,湖北 武漢 430080;2.常州工程職業(yè)技術(shù)學(xué)院,江蘇 常州 213164)
隨著計算機(jī)、通信及傳感等技術(shù)的快速發(fā)展,獲取空間位置信息的手段更加多樣化。研究者們開發(fā)了許多基于不同通信技術(shù)的室內(nèi)定位系 統(tǒng)[1-4],其中以全球定位系統(tǒng)(Global Positioning System,GPS)和無線局域網(wǎng)(Wireless Local Area Network,WLAN)兩種通信技術(shù)為代表,分別應(yīng)用在面向室外和室內(nèi)的空間位置定位中?;赪LAN的室內(nèi)定位技術(shù)具有廣闊的應(yīng)用前景,能廣泛應(yīng)用于商場導(dǎo)購、展區(qū)導(dǎo)覽、公共安全及應(yīng)急響應(yīng)等服務(wù)性領(lǐng)域[5-6]。
由于室內(nèi)空間存在人員走動、室內(nèi)溫濕度及電磁脈沖等因素影響,某一空間位置上接收到的AP信號會同時受到干擾,不僅導(dǎo)致同一位置上各接入點(Access Point,AP)的接收信號強(qiáng)度指示(Received Signal Strength Indication,RSSI)變化具有相關(guān)性,而且造成不同位置上RSSI信號概率分布發(fā)生變化。因此,許多基于WLAN的室內(nèi)定位算法都是通過區(qū)分在不同室內(nèi)空間位置上接收到的接入點(AP)射頻信號強(qiáng)度指示(RSSI)概率密度函數(shù)不同來達(dá)到室內(nèi)定位的目的。研究發(fā)現(xiàn)[7-9],高斯混合模型可以很好地擬合不同位置的RSSI信號概率分布特點,同時其包含的協(xié)方差矩陣可以很好地描述多AP的RSSI變化相關(guān)性。與其他室內(nèi)定位算法相比,高斯混合模型更適合捕捉各AP的RSSI變化相關(guān)性并精確擬合同一位置RSSI信號概率分布特性。在室內(nèi)定位應(yīng)用中,傳統(tǒng)的高斯混合模型可以分為有監(jiān)督式高斯混合模型和無監(jiān)督式高斯混合模型兩種[10-13]。其中,傳統(tǒng)有監(jiān)督式高斯混合模型數(shù)據(jù)處理步驟包含位置指紋樣本標(biāo)簽人工標(biāo)定、模型訓(xùn)練和位置估計等3步。位置指紋樣本標(biāo)簽人工標(biāo)定是指按照定位誤差對采樣點進(jìn)行區(qū)域劃分,進(jìn)而對采樣點采集到的位置指紋樣本根據(jù)不同區(qū)域賦予不同的位置標(biāo)簽。一般采用最鄰近信號采集點歸為一類的原則,對采集到的位置指紋樣本進(jìn)行人工區(qū)域歸類并標(biāo)定位置樣本標(biāo)簽。進(jìn)而,有監(jiān)督式高斯混合模型根據(jù)標(biāo)定的樣本標(biāo)簽類別數(shù),估計高斯混合模型參數(shù)。傳統(tǒng)無監(jiān)督式高斯混合模型數(shù)據(jù)處理步驟包含聚類簇初始化、模型訓(xùn)練及位置估計等3步。聚類簇初始化一般預(yù)先給定模型分布元個數(shù),進(jìn)而采用K均值、層次聚類及模糊聚類等無監(jiān)督聚類方法獲得相同分布元個數(shù)的模型聚類簇。模型訓(xùn)練是指基于獲得的模型聚類簇,對相同聚類簇包含的位置指紋樣本賦予相同樣本標(biāo)簽,進(jìn)而估計高斯混合模型參數(shù)。一方面,雖然有監(jiān)督式高斯混合模型具有原理簡單和可操作性強(qiáng)的優(yōu)點,但位置指紋樣本標(biāo)簽標(biāo)定原則具有主觀性,即由于受到多路徑、非視距及運動障礙等時空間因素干擾,按照將最鄰近信號采集點歸為一類的原則來劃分的某類標(biāo)簽樣本集不一定都具有相同的信號分布特性,造成劃分的采樣點組合不是最佳采樣點組合,進(jìn)而導(dǎo)致高斯混合模型在訓(xùn)練過程中無法學(xué)習(xí)到準(zhǔn)確的概率分布特征,影響模型定位結(jié)果。另一方面,雖然無監(jiān)督高斯混合模型可以根據(jù)其他聚類方法獲得初始聚類簇,但依然無法保證依靠初始聚類簇劃分的樣本點組合就是最佳樣本點組合,聚類效果不佳的聚類簇往往會降低后期模型訓(xùn)練效果和位置估計準(zhǔn)確度。此外,不論是有監(jiān)督式高斯混合模型還是無監(jiān)督式高斯混合模型,二者都無法在模型訓(xùn)練之前確定最優(yōu)的高斯混合模型分布元個數(shù),進(jìn)而導(dǎo)致無法得到擬合所有位置指紋樣本信號分布特性的最佳高斯混合模型。如何對不同空間位置獲得的位置指紋樣本進(jìn)行自動劃分并獲得最佳采樣點組合,同時擺脫高斯混合模型訓(xùn)練之前需確定分布元個數(shù)的束縛選擇最優(yōu)模型分布元個數(shù),對提高聚類方法在室內(nèi)定位領(lǐng)域中的應(yīng)用具有重要意義。
針對上述問題,本文首先確定室內(nèi)空間采樣點個數(shù)和需要劃分的樣本標(biāo)簽數(shù),采用第二類斯特林?jǐn)?shù)對采集的位置指紋樣本進(jìn)行集合劃分。需要劃分的樣本標(biāo)簽數(shù)是指將空間采樣點劃分成的區(qū)域數(shù)目。將被劃分在同一區(qū)域中的若干采樣點視為同一樣本標(biāo)簽,可以用于評價定位算法在不同定位誤差下的定位誤差累積概率分布。按照樣本標(biāo)簽數(shù),可以大致估計多大范圍內(nèi)包含了多少樣本采集點,將該范圍定義為定位誤差??紤]到第二類斯特林?jǐn)?shù)數(shù)值會隨著樣本采集點和標(biāo)簽類別數(shù)增多而非線性增長,本文結(jié)合將最鄰近信號采集點歸為一類的原則,開發(fā)了一種基于閾值的空間位置度量方法,用于過濾同一樣本標(biāo)簽下不同樣本采集點位置距離過大的標(biāo)簽組合方式,進(jìn)而盡可能減小高斯混合模型在模型訓(xùn)練階段的計算量。其次,針對不同樣本標(biāo)簽組合,計算由不同個數(shù)模型分布元構(gòu)成的高斯混合模型定位準(zhǔn)確率,根據(jù)平均定位準(zhǔn)確率大小選擇最優(yōu)采樣點組合方式。其次,結(jié)合貝葉斯信息量準(zhǔn)則(Bayesian Information Criterion,BIC)評估高斯混合模型的總體位置指紋樣本信號變化特性擬合程度,確定高斯混合模型最佳模型分布元個數(shù)。最后,為了進(jìn)一步提升高斯混合模型位置估計準(zhǔn)確度,結(jié)合Adaboost算法對高斯混合模型進(jìn)行定位準(zhǔn)確 度提升。
假設(shè)室內(nèi)空間中有M個信號采樣點,其坐標(biāo)分別定義為Pi(i∈{1,2,…,M})。在RSSI采樣過程中,在第i個采樣點上收集到的H個AP發(fā)送而來的N組數(shù)據(jù)定義為Sij={s1ij,s2ij,…,sHij}(j∈{1,2,…,N}),高斯混合模型將每個采樣點上的RSSI概率分布函數(shù)描述為多個單高斯分布元加權(quán)和,即:
式(3)~式(5)中,p(k|n)為后驗概率,表示每個樣本符合第k個高斯分布的概率。
為了考量定位算法在不同定位誤差下的誤差累積概率分布,在算法訓(xùn)練之前需要對M個信號采樣點進(jìn)行人工樣本標(biāo)簽劃分,例如,將同在2 m范圍內(nèi)的采樣點劃分為同一區(qū)域并給予同一位置標(biāo)簽。由于受到多路徑、非視距及運動障礙等時空間因素干擾,按照最鄰近信號采樣點為一類原則劃分的采樣點組合具有主觀性,解決采樣點自動劃分問題獲得最佳采樣點劃分方式具有實際應(yīng)用價值。實際上,將M個信號采樣點劃分成m個樣本標(biāo)簽,可以轉(zhuǎn)化為第二類斯特林?jǐn)?shù)計算問題。第二類斯特林?jǐn)?shù)本質(zhì)上是一種集合的拆分方法,表示將M個不同元素拆σ分為m個子集合的方案數(shù),記為S(M,m),其計算公式為:
根據(jù)每一種過濾后的采樣點組合方式,對采集到的所有RSSI樣本進(jìn)行組織并賦予樣本標(biāo)簽。通過枚舉法設(shè)定模型分布元個數(shù)并構(gòu)建高斯混合模型,采用留一驗證法對訓(xùn)練樣本中每個樣本進(jìn)行標(biāo)簽分類并計算最終的定位準(zhǔn)確度。對不同分布元個數(shù)構(gòu)建的高斯混合模型得到定位準(zhǔn)確度進(jìn)行求和平均,按照平均定位準(zhǔn)確度大小,確定標(biāo)簽數(shù)為m時的最佳樣本標(biāo)簽組合方式。
高斯混合模型需要估計的參數(shù)包括分布元個數(shù)、分σ布元權(quán)值、分布元均值及協(xié)方差矩陣。通常情況下,模型分布元個數(shù)由經(jīng)驗值設(shè)定。分布元個數(shù)設(shè)置得太小會導(dǎo)致訓(xùn)練出的高斯混合模型無法有效描述RSSI分布特征,分布元個數(shù)設(shè)置太大又會增加模型計算量。鑒于此,本文采用貝葉斯信息量準(zhǔn)則確定高斯混合模型最優(yōu)分布元個數(shù)。貝葉斯信息量準(zhǔn)則是赤池信息量準(zhǔn)則的一種改進(jìn)[14],由于其核心是使用后驗概率來選擇最佳概率分布模型,因此可以直接用于評價高斯混合模型的優(yōu)劣。其計算公式為:
式中:p(Sij|θi)表示高斯混合模型參數(shù)為θi時的模型后驗概率,ε為懲罰因子,n為RSSI樣本 數(shù)量。
通過枚舉法取值高斯混合模型分布元個數(shù)K,采用EM方法估計參數(shù)θi,按照不同個數(shù)分布元構(gòu)建的高斯混合模型BIC值大小確定最佳模型分布元個數(shù)。實質(zhì)上,BIC值與熵的物理含義一致,都可以用于衡量體系的混亂程度。因此,在模型訓(xùn)練過程中取最小BIC值對應(yīng)的分布元個數(shù)作為訓(xùn)練高斯混合模型的最優(yōu)分布元。假設(shè)有1個2維矩陣以樣本標(biāo)簽數(shù)為列,模型分布元個數(shù)為行,矩陣每個元素代表樣本標(biāo)簽數(shù)為m時由k個模型分布元構(gòu)成的高斯混合模型的貝葉斯信息量,選擇貝葉斯信息量最小的矩陣元素所對應(yīng)的模型分布元個數(shù)作為該樣本標(biāo)簽數(shù)下最佳模型分布元個數(shù)。
基于GMM-Boost的WLAN室內(nèi)定位方法流程如圖1所示,分為在線位置估計階段和離線模型訓(xùn)練階段。其中,模型離線訓(xùn)練階段又分為兩個子階段,階段一主要完成基于第二類斯特林?jǐn)?shù)的采樣點組合劃分和基于BIC準(zhǔn)則的最佳模型分布元個數(shù)確定。階段二將訓(xùn)練好的高斯混合模型作為弱分類器,通過迭代改變RSSI訓(xùn)練樣本權(quán)值分布,獲得多個高斯混合模型分類器權(quán)值,最終組成聯(lián)級強(qiáng)分類器。值得注意的是,在離線訓(xùn)練階段一中,存在模型分布元個數(shù)與樣本標(biāo)簽數(shù)m不一致的問題。即當(dāng)模型分布元個數(shù)小于樣本標(biāo)簽數(shù)時,即使樣本標(biāo)簽小于或等于分布元個數(shù)的RSSI樣本全部分類正確,也始終存在其他標(biāo)簽類全部分類錯誤的情況。為了保證定位準(zhǔn)確率,不考慮模型分布元個數(shù)小于樣本標(biāo)簽數(shù)的情況,當(dāng)模型分布元個數(shù)大于樣本標(biāo)簽數(shù)時,采用樣本標(biāo)簽合并的方法將多出的樣本標(biāo)簽歸類到其他樣本標(biāo)簽上,選擇定位準(zhǔn)確率最大的樣本標(biāo)簽合并方式用于測試樣本位置估計。設(shè)定模型分布元個數(shù)初始值為樣本標(biāo)簽數(shù)m,然后以1為步長,以2m為上限循環(huán)計算每個高斯混合模型的BIC值,進(jìn)而選擇最佳模型分布元個數(shù)。
圖1 基于GMM-Boost的WLAN室內(nèi)定位方法流程圖
本實驗數(shù)據(jù)采集環(huán)境設(shè)為南京林業(yè)大學(xué)主樓2層,實驗環(huán)境如圖2所示。該樓層長約70 m,寬約20 m。由于受到學(xué)校區(qū)域使用限制,RSSI樣本采集點只能在圖中A、B、C3個區(qū)域進(jìn)行部署。其中,A區(qū)為學(xué)生辦公區(qū),B區(qū)為樓層走廊,C區(qū)為電梯等待區(qū)。圖中三角標(biāo)志為RSSI樣本采集點相對位置,共設(shè)有37個采樣點。采用筆記本和下載的RSSI信號采集軟件,分別在每個采樣點上以 1個/秒的采樣頻率采集RSSI樣本,每次采集時間為 1 min左右,每個信號采集點采集兩次RSSI樣本。每天信號采集時間段為下午2點到5點,連續(xù)采集10天。為了研究GMM-Boost算法的泛化能力,課題組將前9天采集的RSSI樣本作為離線訓(xùn)練階段的訓(xùn)練樣本,將第10天采集的RSSI樣本作為在線階段的位置估計測試樣本。
圖2 實驗環(huán)境圖
基于每種不同樣本標(biāo)簽數(shù)的最佳樣本采樣點組合,本節(jié)分別討論基于BIC準(zhǔn)則的高斯混合模型優(yōu)化過程和GMM-Boost算法與其他定位算法的定位準(zhǔn)確度(測試樣本正確分類樣本數(shù)/測試樣本總數(shù))對比。一方面,觀察BIC值變化與分布元個數(shù)和模型迭代次數(shù)之間的關(guān)系;另一方面,除了GMM-Boost算法之外,分別實現(xiàn)了有監(jiān)督GMM(Sup-GMM)、無監(jiān)督GMM(UnSup-GMM)、支持向量機(jī)(LibSVM)、最近鄰(KNN)、MLP神經(jīng)網(wǎng)絡(luò)(MLP)、隨機(jī)森林(RF)、樸素貝葉斯(NB)和決策樹(DT)等室內(nèi)定位算法,采用定位準(zhǔn)確度衡量不同算法的優(yōu)劣。實驗結(jié)果均在MATLAB R2014a環(huán)境下實現(xiàn)。按照實際實驗環(huán)境劃分,設(shè)定樣本標(biāo)簽數(shù)為37、18、12、10、8及6,分別對應(yīng)定位誤差0 m、2 m、4 m、6 m、8 m及10 m。例如,在37個采樣點,每個采樣點間隔2 m的情況下,當(dāng)樣本標(biāo)簽數(shù)為37時,一個樣本標(biāo)簽只包含一個樣本采集點,將其定義為定位誤差為0 m。同樣,當(dāng)樣本標(biāo)簽數(shù)為18時,大部分樣本標(biāo)簽包含兩個樣本采集點,這兩個樣本采集點被包含在直徑為2 m的圓中,將其定義為定位誤差在2 m左右。
圖3給出了由不同分布元個數(shù)組成的高斯混合模型進(jìn)入穩(wěn)態(tài)所需的模型迭代步數(shù)。從圖中可以得出,分別由18~25個分布元構(gòu)成的高斯混合模型在50步左右對應(yīng)的貝葉斯信息準(zhǔn)則值不再變化,表明模型已經(jīng)進(jìn)入了穩(wěn)態(tài)模式,通過更新模型參數(shù)θi,其似然函數(shù)值已達(dá)到最大并且變化不明顯。鑒于此,針對由不同個數(shù)分布元構(gòu)成的高斯混合模型,在模型訓(xùn)練階段一律取50作為模型迭代步數(shù),觀察分布元個數(shù)與模型BIC值之間的關(guān)系。
圖3 算法學(xué)習(xí)與BIC優(yōu)化過程
圖4 給出了樣本標(biāo)簽為18、對應(yīng)定位誤差為 2 m時,分布元個數(shù)與模型BIC值以及定位準(zhǔn)確度的關(guān)系。BIC值和定位準(zhǔn)確度的取值范圍不一樣,為了方便顯示,將BIC值映射到[0,1]范圍內(nèi)。從圖中可以看出,當(dāng)分布元個數(shù)為24時,模型的貝葉斯信息準(zhǔn)則量最小,說明樣本標(biāo)簽個數(shù)為18時,最優(yōu)模型分布元個數(shù)為24。圖4也給出了相同條件下由不同個數(shù)分布元構(gòu)成的高斯混合模型的定位準(zhǔn)確度。從圖4可以看出,BIC曲線與準(zhǔn)確度曲線負(fù)相關(guān),當(dāng)模型分布元個數(shù)為24左右時,模型定位準(zhǔn)確度達(dá)到最高,說明采用BIC選擇模型最佳分布元個數(shù)具有合理性。
圖4 穩(wěn)態(tài)時分布元個數(shù)與BIC值關(guān)系
圖5 給出了基于劃分的訓(xùn)練樣本和測試樣本各個算法的定位準(zhǔn)確度,即定位誤差累積概率分布。定位誤差為2 m時,GMM-Boost、Sup-GMM、UnSup-GMM、LibSVM、MLP、RF、NB、DT及KNN的定位準(zhǔn)確度為71.2%、52.3%、50.5%、58.3%、46.6%、55.8%、65.7%、42.6%及36.2%。當(dāng)定位誤差為4 m時,各個算法的定位準(zhǔn)確度依次 為81.2%、63.5%、60.8%、69.1%、53.4%、68.1%、75.6%、49.5%及42.7%。GMM-Boost算法定位準(zhǔn)確度明顯高于其他定位算法。Sup-GMM和UnSup-GMM由于沒有采用最佳分布元個數(shù)確定方法,限制了高斯混合模型擬合位置指紋概率分布特點的能力,兩者定位準(zhǔn)確度也低于LibSVM、RF和NB等算法。同時,定位誤差為0 m時,GMM-Boost定位準(zhǔn)確度為55%,而其他算法定位準(zhǔn)確度都小于50%,原因在于只要弱分類器分類準(zhǔn)確度達(dá)到50%,由Adaboost算法訓(xùn)練的聯(lián)級分類器便可提升樣本分類準(zhǔn)確度。在模型訓(xùn)練階段,將已經(jīng)優(yōu)化過的GMM模型作為弱分類器,并結(jié)合Adaboost算法通過改變樣本權(quán)值分布獲得由不同權(quán)重值組成的聯(lián)級分類器,提升了GMM-Boost算法對測試樣本的分類準(zhǔn)確度。
圖5 各個算法不同定位誤差累積概率分布
圖6所示為各個算法的平均定位誤差隨樣本位置采樣點樣本個數(shù)的變化。當(dāng)樣本位置采樣點樣本個數(shù)為500時,GMM-Boost算法平均定位誤差為1.75 m,仍然低于其他定位算法在樣本個數(shù)為1 000時的平均定位誤差。當(dāng)采樣點樣本個數(shù)為100時,GMM-Boost平均定位誤差為3.1 m,相對于Sup-GMM和UnSup-GMM算法,二者想要獲得同樣的定位效果采集點樣本個數(shù)至少需要400。同時可以看出,隨著樣本采樣的增多,GMM-Boost的平均定位誤差下降速度要大于其他算法,主要原因在于結(jié)合了Adaboost算法的GMM-Boost具有良好的泛化能力,能較好地避免過擬合問題。因此,在提高定位準(zhǔn)確度的同時,GMM-Boost可以大大減小離線階段的數(shù)據(jù)采集工作量,進(jìn)而促進(jìn)定位系統(tǒng)的大規(guī)模部署應(yīng)用。
圖6 各個算法平均定位誤差隨采樣點樣本個數(shù)的變化
針對高斯混合模型在模型訓(xùn)練之前采樣點無法自動劃分以及無法確定最佳分布元個數(shù)的問題,提出了一種基于GMM-Boost的WLAN室內(nèi)定位方法。該算法首先采用第二類斯特林?jǐn)?shù)將不同樣本采樣點劃分為若干組合方式并賦予不同樣本標(biāo)簽,分別針對不同樣本標(biāo)簽數(shù)設(shè)定不同模型分布元訓(xùn)練高斯混合模型,根據(jù)模型的平均定位準(zhǔn)確度選擇某一樣本標(biāo)簽數(shù)下最佳樣本采樣點組合方式,為離線階段樣本位置點劃分方式的優(yōu)劣提供了評價標(biāo)準(zhǔn)和技術(shù)路線,避免了人工劃分方式的主觀性。其次,結(jié)合貝葉斯信息量準(zhǔn)則,計算由不同分布元個數(shù)組成的高斯混合模型貝葉斯信息量,選擇信息量最小所對應(yīng)的分布元個數(shù)作為模型的最佳分布元個數(shù)。最后,為了進(jìn)一步提升模型定位準(zhǔn)確度,將已經(jīng)優(yōu)化過的GMM模型作為弱分類器,結(jié)合Adaboost算法更新訓(xùn)練樣本權(quán)值分布進(jìn)而組成由不同權(quán)值構(gòu)成的聯(lián)級強(qiáng)分類器。實驗結(jié)果表明,與其他定位算法相比,GMM-Boost算法具有較好的定位準(zhǔn)確度和泛化能力,并且只需較少的樣本個數(shù)便可以獲得較低的平均定位誤差,降低了離線階段人工數(shù)據(jù)采集工作量。然而,由于GMM-Boost模型在模型訓(xùn)練階段需要考慮的因素較多,因此需要較長時間獲得最佳高斯分布模型。在未來工作中會對基于高斯混合模型的室內(nèi)定位算法進(jìn)行先驗知識總結(jié),促進(jìn)室內(nèi)定位系統(tǒng)大規(guī)模部署。