• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      軌跡數(shù)據(jù)隱私保護(hù)綜述

      2019-03-17 04:48:42顧貞馬春光宋蕾李菊雁
      網(wǎng)絡(luò)空間安全 2019年11期
      關(guān)鍵詞:差分軌跡聚類

      顧貞,馬春光,宋蕾,李菊雁

      (1.哈爾濱工程大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,黑龍江哈爾濱150001;2.黑龍江東方學(xué)院基礎(chǔ)教學(xué)研究部,黑龍江哈爾濱150066;3.黑龍江大學(xué)數(shù)據(jù)科學(xué)與技術(shù)學(xué)院,黑龍江哈爾濱150080)

      1 引言

      近年來(lái),隨著智能設(shè)備以及定位技術(shù)的發(fā)展,研究人員會(huì)搜集到越來(lái)越多的運(yùn)動(dòng)物體的軌跡數(shù)據(jù),對(duì)其進(jìn)行分析挖掘可以為人們提供方便快捷的服務(wù)。例如,在城市路網(wǎng)規(guī)劃中,可以合理規(guī)劃城市交通避免產(chǎn)生交通擁堵,進(jìn)而提高人們的生活質(zhì)量[1~4]。然而,軌跡數(shù)據(jù)中含有大量的個(gè)人信息,如用戶的家庭地址、單位地址、身體健康狀況等,如果直接發(fā)布位置和軌跡數(shù)據(jù),會(huì)導(dǎo)致人們的隱私泄露[5]。

      位置軌跡隱私保護(hù)問(wèn)題主要分兩類:一類是離線模式下的位置軌跡隱私保護(hù),由特定機(jī)構(gòu)搜集軌跡數(shù)據(jù)進(jìn)行分析和挖掘?qū)⒂杏眯畔⑻峁┙o特定客戶的使用,這要求在軌跡數(shù)據(jù)發(fā)布前對(duì)整條軌跡進(jìn)行隱私處理,如文獻(xiàn)[6~10]為針對(duì)離線模式下軌跡數(shù)據(jù)隱私保護(hù)方法的研究;另一類是在線位置軌跡隱私保護(hù),如基于位置的服務(wù),首先確定對(duì)象的實(shí)時(shí)位置,然后提供給對(duì)象相關(guān)的各類服務(wù),如通過(guò)移動(dòng)設(shè)備定位對(duì)象當(dāng)前的地理位置,然后尋找其附近范圍內(nèi)的餐館等查詢服務(wù),移動(dòng)對(duì)象的實(shí)時(shí)軌跡數(shù)據(jù)要上傳服務(wù)提供商,因此也面臨隱私泄露的風(fēng)險(xiǎn),基于位置服務(wù)的軌跡隱私保護(hù)是非常有意義的,如文獻(xiàn)[11~16]為針對(duì)基于位置服務(wù)的軌跡隱私數(shù)據(jù)保護(hù)研究。

      本文主要研究離線模式下的軌跡隱私保護(hù)技術(shù),如圖1所示。文中對(duì)現(xiàn)有的軌跡數(shù)據(jù)隱私保護(hù)方法進(jìn)行了總結(jié)分析,總結(jié)優(yōu)點(diǎn)和缺點(diǎn),然后分析軌跡數(shù)據(jù)本身固有的統(tǒng)計(jì)分布特性,討論了軌跡隱私保護(hù)技術(shù)中還需要深入解決的相關(guān)問(wèn)題。

      2 相關(guān)概念

      (1)軌跡隱私[17]:軌跡隱私是指?jìng)€(gè)體運(yùn)行軌跡本身含有的敏感信息(如訪問(wèn)過(guò)的敏感位置),或者由運(yùn)行軌跡推導(dǎo)出的其它個(gè)人信息(如家庭住址、工作地點(diǎn)、生活習(xí)慣、健康狀況等)。

      (2)軌跡數(shù)據(jù)集[17]:移動(dòng)對(duì)象軌跡可表示為三維空間中的一條折線,記為其中表示軌跡在時(shí)刻的位置為,為軌跡的點(diǎn)數(shù),軌跡數(shù)據(jù)集是軌跡的集合,記為軌跡數(shù)據(jù)庫(kù)中軌跡的條數(shù)。

      (3)軌跡k匿名集[17]:給定軌跡數(shù)據(jù)庫(kù),發(fā)布的軌跡數(shù)據(jù)庫(kù)是的k-匿名版本,則需要滿足兩個(gè)條件。

      (4)語(yǔ)義位置:語(yǔ)義位置是指真實(shí)環(huán)境中的具有語(yǔ)義的位置,移動(dòng)對(duì)象訪問(wèn)或者停留的位置,如賓館、商店、商場(chǎng)、醫(yī)院、銀行等。

      3 軌跡隱私保護(hù)方法

      3.1 基于抑制法的軌跡隱私保護(hù)

      根據(jù)實(shí)際情況,有選擇的抑制發(fā)布軌跡數(shù)據(jù)中的敏感或者頻繁訪問(wèn)位置[18,19]或者整條軌跡[20],此類方法實(shí)現(xiàn)簡(jiǎn)單、易導(dǎo)致信息丟失、數(shù)據(jù)的可用性有限。文獻(xiàn)[21]中提出了基于擾動(dòng)的軌跡隱私保護(hù)方法,即用出現(xiàn)頻率最低的同類節(jié)點(diǎn)來(lái)代替存在隱私泄露風(fēng)險(xiǎn)的節(jié)點(diǎn),從而實(shí)現(xiàn)對(duì)具有隱私泄露風(fēng)險(xiǎn)的節(jié)點(diǎn)的抑制,方法是基于數(shù)理統(tǒng)計(jì)的方法,在保持軌跡數(shù)據(jù)的內(nèi)部結(jié)構(gòu)和增加數(shù)據(jù)的可用性方面具有一定的優(yōu)勢(shì)。文獻(xiàn)[20]提出兩種基于軌跡頻率的方案對(duì)軌跡數(shù)據(jù)進(jìn)行匿名處理,第一種方案是根據(jù)情況抑制整條有問(wèn)題的軌跡數(shù)據(jù)或向有問(wèn)題的軌跡數(shù)據(jù)集中添加假數(shù)據(jù);第二種方案是采用特定的軌跡局部抑制法對(duì)數(shù)據(jù)進(jìn)行抑制處理。抑制法將軌跡中的敏感位置信息進(jìn)行隱藏不發(fā)布,方法簡(jiǎn)單也有效,但是具有局限性:一是刪除了原始軌跡的部分信息,導(dǎo)致數(shù)據(jù)挖掘受到影響;二是目前都是根據(jù)已知攻擊模型選取抑制信息,當(dāng)攻擊模型不確定的時(shí)候,抑制法不適用。

      3.2 基于假軌跡的軌跡隱私保護(hù)

      假軌跡技術(shù)這種方法的原理是通過(guò)對(duì)原始軌跡中加入一定數(shù)量的虛假軌跡使得原始軌跡數(shù)據(jù)受到干擾,降低原始軌跡泄露的概率,這種方法實(shí)現(xiàn)比較簡(jiǎn)單,但是需要注意保證原軌跡數(shù)據(jù)的統(tǒng)計(jì)可用性,需要滿足虛假軌跡的移動(dòng)狀態(tài)與真實(shí)軌跡相似[22],虛假軌跡與真實(shí)軌跡之間有交叉。添加虛假軌跡的方法有隨機(jī)生成法和旋轉(zhuǎn)模式生成法。隨機(jī)生成法是指在軌跡的起點(diǎn)和終點(diǎn)之間隨機(jī)生成一條與原軌跡運(yùn)行模式相似的虛假軌跡。旋轉(zhuǎn)生成法是指以真實(shí)軌跡為基礎(chǔ),對(duì)原軌跡進(jìn)行旋轉(zhuǎn),例如在文獻(xiàn)[23]中提出通過(guò)真實(shí)軌跡的旋轉(zhuǎn)得到備選的假軌跡集,然后根據(jù)隱私模型下的參數(shù)對(duì)備選集進(jìn)行篩選。文獻(xiàn)[24]將旋轉(zhuǎn)模式與隨機(jī)模式兩種方法結(jié)合,提出了K交叉模式方法,即通過(guò)確定虛假軌跡和真實(shí)軌跡的k個(gè)交叉點(diǎn),隨機(jī)生成交叉點(diǎn)之間的軌跡。

      文獻(xiàn)[25]提出的方案主要包括兩部分,真實(shí)軌跡旋轉(zhuǎn)和虛假軌跡調(diào)整,首先在用戶的真實(shí)軌跡上隨機(jī)選擇一個(gè)參考點(diǎn),通過(guò)將用戶的真實(shí)軌跡旋轉(zhuǎn)不同角度,依次生成其他多條潛在虛假軌跡。由于生成的多條潛在虛假軌跡是用戶真實(shí)軌跡旋轉(zhuǎn)的產(chǎn)物,從而有效地保證了軌跡之間的相似性,考慮到背景信息對(duì)用戶軌跡隱私保護(hù)的影響,在軌跡旋轉(zhuǎn)的過(guò)程中,通過(guò)將選定旋轉(zhuǎn)點(diǎn)進(jìn)行基于背景信息的偏移,該方案能夠在保證虛假軌跡與真實(shí)軌跡相似性的基礎(chǔ)上有效地抵御擁有背景信息的攻擊者的攻擊。假軌跡方法需要注意的問(wèn)題是,若生成的假軌跡不滿足路網(wǎng)約束,不符合移動(dòng)對(duì)象的運(yùn)行模式,則假軌跡并不起到隱私保護(hù)的作用,反而造成用戶的軌跡隱私泄露,所以要求假軌跡與用戶的真實(shí)運(yùn)動(dòng)軌跡要盡量相似,如何模擬生成合適的假軌跡是人們一直探索的問(wèn)題。

      3.3 基于泛化方法的軌跡隱私保護(hù)

      基于泛化方法的軌跡隱私保護(hù)最主流的方法是軌跡k匿名方法[6~9],找相似的k條軌跡來(lái)構(gòu)造匿名集合,使攻擊者在沒(méi)有其他背景知識(shí)的情況下識(shí)別用戶身份的概率不超過(guò)泛化方法主要有三個(gè)步驟。

      (1)軌跡預(yù)處理

      這個(gè)階段的主要任務(wù)是對(duì)所有具有相同開始和結(jié)束時(shí)間的軌跡進(jìn)行分組,即將軌跡數(shù)據(jù)集中起始時(shí)間和結(jié)束時(shí)間相同的軌跡分為一個(gè)等價(jià)類。但是,由于實(shí)際應(yīng)用中無(wú)法保證每條軌跡之間的采樣置位點(diǎn)都是同一時(shí)刻,為了增加等價(jià)類中的軌跡數(shù)量,可進(jìn)行部分軌跡的同步或修剪,保證軌跡在時(shí)間上的相似。

      (2)構(gòu)建軌跡k匿名集

      通常都采用聚類方法構(gòu)造軌跡k匿名集。對(duì)每一個(gè)等價(jià)類中的軌跡聚類形成k匿名集,研究者們嘗試了不同的聚類方法,如貪婪聚類法、密度聚類、層次聚類等,在聚類過(guò)程中利用軌跡之間的距離[26~30]作為衡量軌跡之間相似性的度量,以此找出等價(jià)類中最相似的k條軌跡構(gòu)成k匿名集。

      (3)軌跡數(shù)據(jù)發(fā)布

      經(jīng)過(guò)上一步驟形成軌跡k匿名集后發(fā)布軌跡數(shù)據(jù),文獻(xiàn)[6]利用每一個(gè)采樣時(shí)間點(diǎn)的位置均值形成代表軌跡進(jìn)行發(fā)布,也可在匿名集中選擇代表性軌跡進(jìn)行發(fā)布,如文獻(xiàn)[31,32]。

      經(jīng)典的軌跡k匿名隱私保護(hù)方法是文獻(xiàn)[6]中利用定位系統(tǒng)等設(shè)備本身具有無(wú)法精確定位的特性提出的()匿名模型,如圖2所示,也稱為NWA(Never Walk Alone,NWA)方法,算法利用貪心聚類算法形成軌跡k匿名集,如果在第一步軌跡預(yù)處理階段構(gòu)成的等價(jià)類中,軌跡位置的采樣點(diǎn)構(gòu)成的軌跡圓柱的半徑小于提前設(shè)定的不確定性閾值,則自動(dòng)構(gòu)成匿名集。否則,將利用空間轉(zhuǎn)換將 k條軌跡在每個(gè)時(shí)刻的位置點(diǎn)平移到軌跡圓柱體內(nèi)構(gòu)成軌跡k匿名集,由于運(yùn)動(dòng)軌跡自有的不確定性使得軌跡圓柱內(nèi)k條軌跡變得不可區(qū)分,達(dá)到k匿名的效果。NWA方法在構(gòu)造軌跡k匿名集的過(guò)程中,計(jì)算兩條軌跡之間的距離利用歐式距離函數(shù),要求任何兩條軌跡的起始和終止時(shí)間必須相同,并且兩個(gè)軌跡對(duì)應(yīng)的采樣點(diǎn)必須匹配,而現(xiàn)實(shí)中所研究的軌跡數(shù)據(jù)很少能滿足這樣的要求。所以,文獻(xiàn)[33]提出W4M 方法,改進(jìn)NWA方法,在軌跡聚類階段不再使用歐式距離而是利用EDR(Edit Distance on Real sequences,EDR)[34]距離函數(shù)計(jì)算兩條軌跡之間的距離,該方法能解決在軌跡數(shù)據(jù)集聚類的過(guò)程中軌跡長(zhǎng)度不匹配的問(wèn)題。

      圖2 軌跡不確定模型

      以上方法利用了軌跡的不確定性,對(duì)軌跡數(shù)據(jù)泛化,但是這兩種方法構(gòu)造的匿名集都不是在路網(wǎng)約束環(huán)境下。例如,雖然兩條軌跡的距離很近,但是卻彼此不可到達(dá)。影響了后續(xù)對(duì)軌跡數(shù)據(jù)挖掘的效率,由于軌跡數(shù)據(jù)發(fā)布的最終目的是要挖掘軌跡信息為生產(chǎn)生活服務(wù)。因此,文獻(xiàn)[31]將軌跡數(shù)據(jù)集的時(shí)間和空間進(jìn)行泛化,利用對(duì)數(shù)距離(Log Cost Distance)作為判斷軌跡的相似性的度量,然后隨機(jī)選擇各個(gè)匿名區(qū)域采樣位置點(diǎn)進(jìn)行軌跡重組,最終發(fā)布隨機(jī)重組后的原子軌跡,進(jìn)而提高發(fā)布軌跡數(shù)據(jù)的利用效率。泛化原子軌跡tr1、tr2、tr3的過(guò)程如圖3所示:將tr1與tr2泛化為匿名軌跡tr*,將tr3與tr*泛化為匿名區(qū)域,從圖3可以看出5個(gè)位置點(diǎn)匹配成功,舍棄不匹配的位置點(diǎn)。軌跡重構(gòu)和發(fā)布如圖4所示,泛化后的各個(gè)采樣時(shí)刻的位置點(diǎn)進(jìn)行隨機(jī)重組,發(fā)布原子軌跡數(shù)據(jù),這有利于對(duì)軌跡數(shù)據(jù)的分析挖掘。文獻(xiàn)[35]針對(duì)動(dòng)態(tài)軌跡數(shù)據(jù)發(fā)布問(wèn)題提出了一種基于自適應(yīng)聚類的動(dòng)態(tài)軌跡釋放方法,可以處理實(shí)時(shí)加入的軌跡數(shù)據(jù),文中將軌跡進(jìn)行分段處理,該方法共兩步:第一步是生成軌跡中的代表區(qū)域,可以解決由于移動(dòng)速度和采樣頻率不同而引起的采樣時(shí)間不對(duì)齊的問(wèn)題;第二步利用提出的適應(yīng)度函數(shù)對(duì)第一步中產(chǎn)生的代表區(qū)域進(jìn)行聚類產(chǎn)生泛化區(qū)域,每個(gè)泛化區(qū)域至少含有個(gè)位置點(diǎn),兩個(gè)泛化位置區(qū)域內(nèi)的位置點(diǎn)之間隨機(jī)組合,這樣就使得每?jī)蓚€(gè)泛化的區(qū)域之間滿足k匿名。

      以上的研究方法忽略了路網(wǎng)限制,文獻(xiàn)[36]提出基于前綴樹的軌跡k匿名算法,利用前綴樹對(duì)軌跡數(shù)據(jù)進(jìn)行分類,然而這個(gè)方法有兩方面問(wèn)題:一是路徑推理攻擊問(wèn)題,當(dāng)攻擊者具有一定的背景知識(shí),容易和稀疏路徑相關(guān)聯(lián)進(jìn)行路徑推理攻擊;二是構(gòu)建前綴樹需要軌跡具有相同的前綴,但是現(xiàn)實(shí)中卻存在很多的軌跡不滿足具有相同的前綴,這使得利用前綴樹進(jìn)行匿名的結(jié)果為空集。文獻(xiàn)[37]提出了針對(duì)路徑推理攻擊的軌跡隱私保護(hù)方法,假設(shè)攻擊者具有公開的路網(wǎng)信息,文中提出了C-Tree(Cluster-Tree)方法加速聚類過(guò)程,不僅保證發(fā)布的軌跡數(shù)據(jù)滿足軌跡k匿名,并且保證軌跡匿名結(jié)果滿足路網(wǎng)限制。文獻(xiàn)[38]首次提出利用頻繁路徑模式的方法進(jìn)行軌跡隱私保護(hù),提出了在路網(wǎng)環(huán)境下基于頻繁路徑的隱私保護(hù)方法,將軌跡分成若干個(gè)路段,移除不頻繁路段,提出新的算法尋找最頻繁路徑,構(gòu)造k匿名集,選出組中與其余軌跡相似度最高的軌跡作為每組的代表軌跡進(jìn)行發(fā)布,既滿足了路網(wǎng)約束,也避免了路徑推理攻擊。

      圖3 軌跡tr1、tr2、tr3泛化過(guò)程

      圖4 軌跡重組過(guò)程

      3.4 基于差分隱私的軌跡隱私保護(hù)

      軌跡K匿隱私保護(hù)雖然是比較主流的方法,但是卻容易招受到攻擊。如文獻(xiàn)[29]提出的二次聚類攻擊,雖然文獻(xiàn)中也提出了針對(duì)二次聚類攻擊的改進(jìn)方法匿名模型以及基于該模型的聚類雜交隱私保護(hù)軌跡數(shù)據(jù)發(fā)布方法,但是在數(shù)據(jù)的利用效率方面卻不夠理想。

      近年來(lái),出現(xiàn)了以差分隱私[39,40]技術(shù)為基礎(chǔ)的軌跡數(shù)據(jù)發(fā)布方法,差分隱私由于其嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)形式使其能夠保證無(wú)條件隱私,即使攻擊者有部分背景知識(shí)也無(wú)法進(jìn)行推斷攻擊。

      文獻(xiàn)[41]首次提出利用差分隱私方法解決大規(guī)模的軌跡數(shù)據(jù)發(fā)布的隱私保護(hù)問(wèn)題,文中利用前綴樹的方式存儲(chǔ)軌跡數(shù)據(jù),且利用拉普拉斯噪聲機(jī)制將樹中除了根節(jié)點(diǎn)外的每個(gè)節(jié)點(diǎn)加入噪音數(shù)值,并且針對(duì)獨(dú)立的噪音容易產(chǎn)生數(shù)據(jù)不一致現(xiàn)象,提出了利用前綴樹自身的特點(diǎn)對(duì)噪音數(shù)值進(jìn)行了一致性處理,該方法面對(duì)軌跡數(shù)據(jù)的計(jì)數(shù)和頻繁模式查詢。文獻(xiàn)[42]首次提出以空間泛化為基礎(chǔ)的差分隱私算法,第一步利用差分隱私的指數(shù)機(jī)制將同一時(shí)刻的距離較近的采樣點(diǎn)位置合并;第二步利用差分隱私的拉普拉斯機(jī)制對(duì)軌跡數(shù)據(jù)添加噪聲數(shù)值。該方法解決了當(dāng)前大部分研究方法中要求軌跡必須具有相同的前綴這一要求。路網(wǎng)中的移動(dòng)軌跡一般都具有時(shí)間相關(guān)性,如果忽略這些相關(guān)性,將會(huì)產(chǎn)生隱私泄露,文獻(xiàn)[43]針對(duì)這一問(wèn)題提出了基于 “位置集合”的差分隱私保護(hù)技術(shù),并且提出了新的函數(shù)敏感度衡量方法以及有效地位置擾亂機(jī)制,通過(guò)對(duì)位置集合內(nèi)的敏感位置進(jìn)行隱藏達(dá)到隱私保護(hù)的目的。當(dāng)忽略了軌跡隱私保護(hù)中多個(gè)用戶位置點(diǎn)之間的相關(guān)性問(wèn)題時(shí),容易遭受大量的推理攻擊,文獻(xiàn)[44]提出了能夠保護(hù)具有相關(guān)性的多個(gè)用戶位置隱私的差分隱私方法,利用隱馬爾科夫相似度量量化兩個(gè)用戶位置的相關(guān)性,然后設(shè)計(jì)滿足差分隱私的拉布拉斯噪聲機(jī)制發(fā)布軌跡數(shù)據(jù)。文獻(xiàn)[45] 針對(duì)空間計(jì)數(shù)查詢,提出兩種滿足差分隱私的軌跡數(shù)據(jù)發(fā)布方法:(1)在自由空間中,基于噪音四分樹的方法,對(duì)每個(gè)區(qū)域中的移動(dòng)對(duì)象計(jì)數(shù)值添加噪音,發(fā)布每個(gè)時(shí)刻的添加噪音后的數(shù)值;(2)在路網(wǎng)空間中,用R-樹索引路網(wǎng)中的路段,對(duì)路段中的移動(dòng)對(duì)象計(jì)數(shù)值添加噪音后發(fā)布。當(dāng)在空間中進(jìn)行計(jì)數(shù)查詢時(shí),上述兩種方法比 k-匿名模型的隱私保護(hù)度更高,如表1所示是幾種軌跡數(shù)據(jù)隱私保護(hù)方法的比較。

      表1 幾種軌跡數(shù)據(jù)隱私保護(hù)方法的比較

      4 聚類分析方法

      4.1 基于密度的聚類

      密度聚類算法假定聚類結(jié)構(gòu)能通過(guò)數(shù)據(jù)樣本點(diǎn)分布的緊密程度確定,密集數(shù)據(jù)點(diǎn)被稀疏區(qū)域分割,其思想是只要一個(gè)區(qū)域中的點(diǎn)的密度大于某個(gè)閾值,就把它加到與之相近的聚類中,每個(gè)數(shù)據(jù)點(diǎn)的影響可以用一個(gè)數(shù)學(xué)函數(shù)形式化建模,稱該函數(shù)為影響函數(shù)。描述數(shù)據(jù)點(diǎn)在其鄰域內(nèi)的影響,數(shù)據(jù)空間的整體密度可以用所有數(shù)據(jù)點(diǎn)的影響函數(shù)建模,然后,簇可以通過(guò)識(shí)別密度吸引點(diǎn)數(shù)學(xué)確定,代表性算法是Dbscan算法[46]、Optics算法[47]和Denlue[48]算法。該聚類算法可以克服基于距離聚類只能發(fā)現(xiàn)類圓形的聚類缺點(diǎn),可以發(fā)現(xiàn)任何形狀的聚類,并且對(duì)噪聲數(shù)據(jù)不敏感。

      4.2 基于模型的聚類方法

      每個(gè)簇都可以用參數(shù)概率分布數(shù)學(xué)描述,整個(gè)數(shù)據(jù)就是這些分布的混合,其中每個(gè)單獨(dú)的分布通常稱為成員分布。因此,可以使用m個(gè)概率分布的有限混合密度模型對(duì)數(shù)據(jù)進(jìn)行聚類,其中每個(gè)分布代表一個(gè)簇,需要顧及概率分布的參數(shù),使得分布最好地?cái)M合數(shù)據(jù),EM(期望最大化)算法是一種流行的迭代求精算法,可以用來(lái)求得參數(shù)的估計(jì)值。

      比較常用的是高斯混合模型(GMM)聚類。假設(shè)每個(gè)簇的數(shù)據(jù)都符合高斯分布,所有數(shù)據(jù)點(diǎn)呈現(xiàn)的分布就是多個(gè)高斯分布疊加之后的結(jié)果,所以用m個(gè)高斯分布密度函數(shù)的線性組合對(duì)所要分類的數(shù)據(jù)進(jìn)行擬合,理論上高斯混合模型可以擬合出任意類型的分布。如圖5所示是由兩個(gè)高斯分布組成的混合分布的例子,顯然利用高斯混合分布聚成兩類比較合適。

      圖5 高斯混合分布

      4.3 基于頻繁模式的聚類方法

      頻繁模式是頻繁出現(xiàn)在數(shù)據(jù)集中的模式,如子序列或子結(jié)構(gòu),通過(guò)頻繁模式挖掘可以發(fā)現(xiàn)數(shù)據(jù)之間有意義的關(guān)聯(lián)和相關(guān),發(fā)現(xiàn)頻繁模式起著至關(guān)重要的作用,對(duì)于數(shù)據(jù)分類、聚類等數(shù)據(jù)挖掘任務(wù)有幫助。頻繁模式聚類的思想是,發(fā)現(xiàn)的頻繁模式也可能預(yù)示簇,基于頻繁模式的聚類非常適用于高維數(shù)據(jù)。

      5 未來(lái)展望

      在大數(shù)據(jù)時(shí)代將會(huì)產(chǎn)生大量的軌跡數(shù)據(jù),軌跡數(shù)據(jù)以離散的時(shí)間序列形式表示,是包含時(shí)間和空間信息的采樣序列,并且軌跡數(shù)據(jù)隨著采樣間隔具有顯著的差異,因此軌跡數(shù)據(jù)隱私保護(hù)將有很多挑戰(zhàn)性的問(wèn)題需要解決。

      5.1 基于混合模型的軌跡聚類分析

      軌跡隱私保護(hù)中經(jīng)常需要對(duì)軌跡進(jìn)行聚類分析,需要對(duì)軌跡進(jìn)行相似性度量。目前,大多數(shù)研究都利用歐氏距離、麥哈頓距離等度量?jī)蓷l軌跡的相似性,因此在計(jì)算軌跡距離時(shí)就必須考慮軌跡采樣點(diǎn)之間的整體性。然而,異頻采樣使得軌跡之間不是同構(gòu)的,且采樣點(diǎn)也不服從均勻分布,因此不得不插入采樣點(diǎn)或者刪除采樣點(diǎn)使得兩條軌跡的采樣頻率一致,舍棄采樣點(diǎn)有可能將重要信息舍棄,使后續(xù)軌跡數(shù)據(jù)利用效率低,添加采樣點(diǎn)也有可能將不需要被保護(hù)的位置添加進(jìn)來(lái),從而也使后續(xù)軌跡數(shù)據(jù)利用效率降低。

      軌跡數(shù)據(jù)其自身具有統(tǒng)計(jì)規(guī)律性,數(shù)據(jù)服從一定的概率分布模式,傳統(tǒng)的基于K-means聚類等方法沒(méi)有充分考慮軌跡數(shù)據(jù)自身分布不均勻的特性,因此本文第四部分介紹的基于密度的聚類、基于混合模型的聚類都可以用來(lái)研究軌跡聚類分析。它們都是基于數(shù)據(jù)分布的統(tǒng)計(jì)學(xué)特征進(jìn)行聚類分析的,在對(duì)軌跡數(shù)據(jù)聚類分析時(shí),可以克服采樣頻率不一致的困難,遵從數(shù)據(jù)本身分布的統(tǒng)計(jì)特性。

      5.2 基于頻繁模式挖掘的軌跡聚類分析

      差分隱私可以防御攻擊者具有任意背景知識(shí)的攻擊,但是移動(dòng)對(duì)象的軌跡具有相關(guān)性。當(dāng)數(shù)據(jù)存在相關(guān)性時(shí),差分隱私并不能保證無(wú)條件隱私。文獻(xiàn)[49]提出當(dāng)數(shù)據(jù)具有相關(guān)性的時(shí)候,差分隱私不能保證無(wú)條件隱私。大數(shù)據(jù)環(huán)境下,面對(duì)大規(guī)模的軌跡數(shù)據(jù),攻擊者可以關(guān)聯(lián)多數(shù)據(jù)源對(duì)匿名后的軌跡數(shù)據(jù)信息進(jìn)行推理攻擊。前面提到文獻(xiàn)[38]首次提出利用頻繁路徑模式的方法研究軌跡隱私保護(hù),避免了路徑推理攻擊,因此利用數(shù)據(jù)的頻繁模式挖掘的方法研究軌跡數(shù)據(jù)的隱私保護(hù)問(wèn)題也是值得研究的問(wèn)題。

      5.3 個(gè)性化隱私保護(hù)研究

      當(dāng)前很多研究均認(rèn)為所研究的軌跡數(shù)據(jù)都具有相同的隱私需求,設(shè)立同樣的隱私保護(hù)標(biāo)準(zhǔn),但是軌跡數(shù)據(jù)是由不同的移動(dòng)個(gè)體產(chǎn)生的,不同的場(chǎng)景和移動(dòng)對(duì)象可能會(huì)有不同的隱私需求,雖然已經(jīng)有研究者考慮個(gè)性化隱私保護(hù)方案。如文獻(xiàn)[50]基于時(shí)間劃分提出一種能滿足用戶差異性需求到軌跡隱私保護(hù)算法,建立隱私保護(hù)矩陣,根據(jù)不同軌跡不同時(shí)段不同地點(diǎn)設(shè)定不同的隱私保護(hù)參數(shù),實(shí)現(xiàn)差異隱私保護(hù),但是關(guān)于個(gè)性化隱私保護(hù)的研究還不多。因此,基于不同隱私需求的個(gè)性化隱私保護(hù)研究也使值得研究的問(wèn)題。

      5.4 基于語(yǔ)義位置的軌跡隱私保護(hù)研究

      有時(shí)候不需要整條軌跡都進(jìn)行隱私保護(hù),只是部分敏感語(yǔ)義位置信息需要保護(hù)。文獻(xiàn)[51]提出基于語(yǔ)義軌跡的隱私保護(hù)方法,運(yùn)動(dòng)軌跡中用戶訪問(wèn)和停留的位置更容易暴露用戶的隱私,軌跡中用戶經(jīng)過(guò)的位置可以不做隱私保護(hù),這將會(huì)提高發(fā)布軌跡數(shù)據(jù)的可用性,所以在軌跡隱私保護(hù)問(wèn)題中應(yīng)該考慮軌跡數(shù)據(jù)中的語(yǔ)義特征和攻擊者的不同背景,合理的處理敏感位置數(shù)據(jù)和非敏感位置數(shù)據(jù),能夠更好的平衡隱私保護(hù)力度和數(shù)據(jù)的發(fā)布質(zhì)量也是值得研究的問(wèn)題。

      6 結(jié)束語(yǔ)

      隨著大數(shù)據(jù)時(shí)代的到來(lái),以及定位設(shè)備的不斷發(fā)展,軌跡數(shù)據(jù)將會(huì)越來(lái)越多,對(duì)軌跡數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,在給人們生活帶來(lái)便捷的同時(shí),也對(duì)人們的隱私信息造成了泄露的風(fēng)險(xiǎn)。雖然研究者們不斷提出軌跡隱私保護(hù)的新方法,但是同時(shí)越來(lái)越多的攻擊模式也將會(huì)被開發(fā)出來(lái),所以需要不斷的完善軌跡隱私保護(hù)方法。本文總結(jié)了已有軌跡隱私保護(hù)的方法,并且對(duì)其進(jìn)行了分析和比較,結(jié)合軌跡數(shù)據(jù)的統(tǒng)計(jì)分布特性,對(duì)未來(lái)軌跡隱私保護(hù)的研究方向進(jìn)行了討論??傊?,雖然研究者們對(duì)軌跡隱私保護(hù)已經(jīng)做了很多的研究,但是仍有很多關(guān)鍵的問(wèn)題需要更深入的研究和探索。

      猜你喜歡
      差分軌跡聚類
      數(shù)列與差分
      軌跡
      軌跡
      軌跡
      基于DBSACN聚類算法的XML文檔聚類
      進(jìn)化的軌跡(一)——進(jìn)化,無(wú)盡的適應(yīng)
      基于改進(jìn)的遺傳算法的模糊聚類算法
      基于差分隱私的大數(shù)據(jù)隱私保護(hù)
      一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
      相對(duì)差分單項(xiàng)測(cè)距△DOR
      太空探索(2014年1期)2014-07-10 13:41:50
      山西省| 民乐县| 富川| 千阳县| 大方县| 石柱| 休宁县| 上犹县| 镇远县| 红河县| 赣榆县| 区。| 怀仁县| 溧水县| 乌拉特前旗| 天镇县| 弋阳县| 汤阴县| 多伦县| 时尚| 美姑县| 明光市| 澄江县| 靖边县| 泰安市| 务川| 边坝县| 镇沅| 阿拉善右旗| 赤峰市| 衡阳县| 永川市| 运城市| 灌阳县| 始兴县| 安新县| 花垣县| 永安市| 大邑县| 甘南县| 莱西市|