曠暉 王俐
摘要:隨著我國手機(jī)普及率的不斷提高,發(fā)生公共安全事件時,相關(guān)人員有極大的可能與手機(jī)處于同一個空間,通過手機(jī)定位技術(shù)采集人員的位置信息,使用空間數(shù)據(jù)挖掘技術(shù)可有效地進(jìn)行目標(biāo)人員位置信息的追蹤和實(shí)現(xiàn)價值提取,能夠提高應(yīng)急救援效率,升政府應(yīng)急管理能力。該文以手機(jī)位置信息為研究對象,從推斷目標(biāo)人員敏感信息為切入點(diǎn),研究空間位置數(shù)據(jù)挖掘相關(guān)技術(shù),總結(jié)當(dāng)前各類技術(shù)的特點(diǎn)和不足,并提出一種自適應(yīng)聚類方法,能提高聚類精度,更有效地支持應(yīng)急管理系統(tǒng),對提升相關(guān)部門應(yīng)急管理能力有著重要意義。
關(guān)鍵詞:位置信息;數(shù)據(jù)挖掘;公共安全;應(yīng)急管理
中圖分類號:TP311? ? ? ? 文獻(xiàn)標(biāo)識碼:A? ? ? ? 文章編號:1009-3044(2018)35-0008-03
我們國家正處在一個快速發(fā)展的階段,從高鐵到地鐵,從城市建設(shè)到新農(nóng)村改造工程,從物流倉庫到大型工廠,各個地區(qū)各項(xiàng)建設(shè)如火如荼地開展著,另一方面,隨著城市化進(jìn)程加快和人民生活水平的提高,高層建筑越來越多,人們聚集于住宅區(qū)、商場、影院及參加其他大型群體性活動或者外出旅游的概率也在不斷提高,各種風(fēng)險隨之不斷積聚??梢园l(fā)現(xiàn),近年來國內(nèi)各種大型突發(fā)公共安全事件層出不窮。因此,公共安全事件發(fā)生前的預(yù)警、發(fā)生后及時高效的應(yīng)急救援都非常重要,這既關(guān)乎公民的生命財產(chǎn)安全,也關(guān)系到老百姓對政府的信任和支持。當(dāng)人群聚集過度引發(fā)踩踏事故,旅游遭遇地質(zhì)災(zāi)害或極端天氣(如地震、山洪、泥石流),建筑物發(fā)生火災(zāi),各類礦場發(fā)生塌方事故等,都需要及時啟動應(yīng)急響應(yīng)進(jìn)行救援。傳統(tǒng)的應(yīng)急搜索設(shè)備如紅外探測儀、生命探測儀、聲波探測儀等雖各有所長,但對于大范圍的搜索定位還是比較困難的。而隨著移動互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,我國手機(jī)普及率不斷提高,發(fā)生公共安全事件時,相關(guān)人員有極大的可能與手機(jī)處于同一個空間,通過手機(jī)定位技術(shù)采集人員的位置信息,使用空間數(shù)據(jù)挖掘技術(shù)可有效地進(jìn)行目標(biāo)人員追蹤和實(shí)現(xiàn)價值提取,能夠提高應(yīng)急救援效率,也使得政府公共安全治理能力得到進(jìn)一步提升。
1 當(dāng)前主流手機(jī)定位技術(shù)分析
目前手機(jī)定位主要采用基于通信網(wǎng)絡(luò)的方法如Cell-ID(小區(qū)標(biāo)號)、TOA(到達(dá)時間)、TDOA(到達(dá)時差)[1]與AOA(到達(dá)方向角)等,需要三個以上的基站協(xié)同定位就可以獲得手機(jī)的位置信息,例如TDOA算法的測時差精度要達(dá)到納秒(ns)級,基線長度達(dá)到十公里量級能保證手機(jī)定位精度。針對地質(zhì)災(zāi)害,區(qū)域范圍內(nèi)的基站往往不同程度地遭到損毀,無法通過該方法實(shí)施定位,這時往往使用多個應(yīng)急通信車來協(xié)同開展定位,但其定位精度不高。針對上述問題,基于非均勻稀布陣列[2]的手機(jī)定位方法,對微弱信號探測能力強(qiáng),對多個手機(jī)信號定位時,無須信號配對,能夠高精度、高分辨地進(jìn)行定位獲取手機(jī)的位置,是未來手機(jī)定位技術(shù)的發(fā)展趨勢之一,對傳統(tǒng)手機(jī)定位方法起到有效補(bǔ)充的作用,手機(jī)定位示意如圖1所示。
非均勻稀布陣列使用車載形式,由兩部車組成定位系統(tǒng),機(jī)動性強(qiáng),陣列易于展開,可以縮短定位時間。每部車上分別采用十米量級小孔徑稀布陣,由兩部車上的小陣列形成大孔徑稀布陣,可獲得高精度、高分辨的手機(jī)位置信息。其定位方法如圖2所示,在空間某一直線上不等間距地布置天線陣元,其有[M]個天線接收近場手機(jī)信號源從方位角[θ],距離[R0]輻射來的電磁波信號,根據(jù)陣列信號處理理論對隨機(jī)化陣列建立數(shù)學(xué)模型。
選擇第一個陣元作為坐標(biāo)原點(diǎn),建立[XY]坐標(biāo)系,并將所有陣元所在的直線定為[X]軸。手機(jī)輻射信號的來波方位角[θ]定義為:射線[OT]以逆時針方向旋轉(zhuǎn)至坐標(biāo)軸[Y]所掃過的角度為正向角度。基于非均勻稀布陣列球面波模型可獲得手機(jī)的位置信息,在不同的距離[R]和方位角[θ′]上掃描,計算空間譜:
其中,[N]為噪聲的協(xié)方差矩陣,[αR,θ′]為陣列流矢量,搜索手機(jī)輻射信號空間譜[PR,θ′]的峰值,此峰值對應(yīng)的掃描距離和方位就是手機(jī)的距離[R]和方位信息[θ]。
從以上分析可以看到,通過多種方法獲取的位置信息,存在數(shù)據(jù)量巨大,誤差精度不同,數(shù)據(jù)復(fù)雜性的問題,傳統(tǒng)的數(shù)據(jù)處理方法已不再適宜。隨著信息技術(shù)的不斷發(fā)展,我們已然知道大數(shù)據(jù)技術(shù)對于處理復(fù)雜多維數(shù)據(jù)有著天然優(yōu)勢。因此使用數(shù)據(jù)挖掘技術(shù)對位置信息進(jìn)行處理,能夠更加快速準(zhǔn)確地提取到關(guān)鍵信息,從而對應(yīng)急管理各方面起到重要作用。
2 基于位置信息的自適應(yīng)聚類數(shù)據(jù)挖掘方法
基于位置信息的數(shù)據(jù)挖掘是數(shù)據(jù)挖掘中一項(xiàng)重要的決策支持技術(shù),關(guān)鍵在于從位置數(shù)據(jù)中挖取未知卻有用的關(guān)聯(lián)信息,提供給應(yīng)急管理決策支持系統(tǒng)。位置信息的數(shù)據(jù)挖掘是利用數(shù)據(jù)挖掘技術(shù)從具有高維度、巨量、非線性等特性的位置數(shù)據(jù)中提取有用信息與知識的過程。在研究位置信息數(shù)據(jù)挖掘方法中,刑學(xué)鋒[3]等人從位置信息的來源、挖掘和應(yīng)用三個方面入手,提出了符合運(yùn)營商特點(diǎn)的方案建議;王樹良[4]等人在大數(shù)據(jù)背景下思考空間數(shù)據(jù)挖掘,分析了空間數(shù)據(jù)在大數(shù)據(jù)中的基礎(chǔ)地位,分析了空間大數(shù)據(jù)面臨的垃圾多、污染重、利用難的現(xiàn)狀,剖析了空間大數(shù)據(jù)蘊(yùn)含的價值;白嗣東[5]研究了室內(nèi)定位系統(tǒng)在線階段以加權(quán)的鄰近算法,根據(jù)訓(xùn)練數(shù)據(jù)的統(tǒng)計分析給出定位算法參數(shù)的選定數(shù)值,并且分析了各個參數(shù)對定位性能的影響情況。
基于位置信息的數(shù)據(jù)挖掘算法眾多,主要有統(tǒng)計分析方法、關(guān)聯(lián)分析法、神經(jīng)網(wǎng)絡(luò)法、聚類分析法等。其中:1)統(tǒng)計分析方法是一種較為傳統(tǒng)的數(shù)據(jù)挖掘方法,它基于數(shù)學(xué)模型或概率模型來提取位置信息中的知識,具有大量成熟算法,但統(tǒng)計分析方法不會將位置信息所具有的特性限制因素進(jìn)行考慮,因此該方法對手機(jī)位置的特性挖掘不足;2)關(guān)聯(lián)分析方法是采用關(guān)聯(lián)規(guī)則或頻繁項(xiàng)集來對不同數(shù)據(jù)集中的隱藏信息進(jìn)行提取,能夠揭示數(shù)據(jù)挖掘中所涉及的有趣聯(lián)系;3)神經(jīng)網(wǎng)絡(luò)法中基本的成分是神經(jīng)元模型,通過神經(jīng)元接收來自其他多個神經(jīng)傳遞過來的輸入信號,并通過帶權(quán)重的連接進(jìn)行傳遞,與神經(jīng)元的閾值進(jìn)行比較再通過激活函數(shù)進(jìn)行神經(jīng)元的輸出,在廣泛的領(lǐng)域得到應(yīng)用,但其模型隨著深度的增加,參數(shù)量會非常巨大;4)聚類分析方法是一種研究最多,應(yīng)用最廣的數(shù)據(jù)挖掘方法,它通過無標(biāo)記訓(xùn)練樣本的學(xué)習(xí)來為位置數(shù)據(jù)的分析提供基礎(chǔ)。聚類分析方法又包括基于劃分的聚類方法、基于層次的聚類方法、基于網(wǎng)格的聚類方法、基于圖的聚類方法和基于模型的聚類分法等。其中,基于劃分的聚類方法主要有K均值算法,它將數(shù)據(jù)對象集劃分到不同的子集中,使個每個數(shù)據(jù)恰好只有一個子集中,此聚類方法相對比較簡單;基于層次的聚類方法通過形成一棵樹來嵌套簇的集簇,除葉點(diǎn)外,樹中每一個結(jié)點(diǎn)都是子女的并,而樹根是包含所有對象的簇,雖然該方法仍有較多應(yīng)用,但與其他聚類方法相比相對較老;基于網(wǎng)格的聚類方法創(chuàng)建網(wǎng)格單元集合能夠有效地組織數(shù)據(jù),并通過數(shù)據(jù)屬性將數(shù)據(jù)分割成多個區(qū)間,且每個數(shù)據(jù)被指派到一個網(wǎng)格單元中,由鄰近的稠密單元組成簇來實(shí)現(xiàn)數(shù)據(jù)的聚類。該聚類方法對低維數(shù)據(jù)非常有效,聚類過程高效,時間和空間復(fù)雜度低,但是隨著位置數(shù)據(jù)維底的增加,網(wǎng)絡(luò)單元的個數(shù)會呈指數(shù)級增加,因此對于高維數(shù)據(jù),基于網(wǎng)絡(luò)的聚類效果將會很差;基于圖的聚類方法利用圖的性質(zhì)和特性來對數(shù)據(jù)進(jìn)行聚類,比如利用稀疏化鄰近度圖來保留數(shù)據(jù)與其最近鄰之間的聯(lián)系、定義不同數(shù)據(jù)之間的相似度來共享最近鄰個數(shù)、定義核心數(shù)據(jù)并構(gòu)建環(huán)繞它們的簇、提供兩個簇是否合并的復(fù)雜評估等,該方法簡單、速度快,即便存在噪聲也能夠有效地聚類空間數(shù)據(jù),但對于高維度數(shù)據(jù)會出現(xiàn)大量聚類錯誤;基于模型的聚類方法為每個簇建立一個模型,并采用此模型對數(shù)據(jù)進(jìn)行最佳擬合,常常使用概率統(tǒng)計模型和神經(jīng)網(wǎng)絡(luò)模型分別進(jìn)行概念聚類和自組織聚類。