李秋賢,周全興
(凱里學(xué)院,貴州 凱里 556011)
隨著網(wǎng)絡(luò)技術(shù)和互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,社交網(wǎng)絡(luò)平臺(tái)給人們的交流和溝通帶來(lái)了很多便利,加快了用戶之間的信息傳播同時(shí)也拉近用戶之間的關(guān)系,社交網(wǎng)絡(luò)平臺(tái)的用戶數(shù)量也日益增加。由于用戶需要在社交平臺(tái)上注冊(cè)及提交個(gè)人信息,各類活動(dòng)數(shù)據(jù)都聚集在社交網(wǎng)絡(luò)平臺(tái)上,吸引著眾多研究者對(duì)這些數(shù)據(jù)進(jìn)行數(shù)據(jù)分析和挖掘,因此網(wǎng)絡(luò)平臺(tái)中的用戶信息和數(shù)據(jù)存在著一定的隱私泄露風(fēng)險(xiǎn)。
為了保證社交網(wǎng)絡(luò)中用戶個(gè)人信息和傳播數(shù)據(jù)的隱私安全,同時(shí)提高數(shù)據(jù)挖掘?qū)ι缃痪W(wǎng)絡(luò)數(shù)據(jù)分析的有效性,眾多學(xué)者通過(guò)隱私保護(hù)的方法保護(hù)社交網(wǎng)絡(luò)中各類信息的安全。Wang等人為了保護(hù)社交網(wǎng)絡(luò)中加權(quán)圖上兩個(gè)頂點(diǎn)之間最短路徑的權(quán)重隱私,提出一個(gè)稱為k-匿名路徑隱私的新概念,并基于貪心的修改算法來(lái)修改不同類型的邊,實(shí)現(xiàn)k-匿名路徑隱私。吳響等人提出一種基于廣義路徑的匿名隱私保護(hù)算法——SPOLG算法,通過(guò)引入等概率抽樣,尋找信息丟失少的廣義路徑,提高數(shù)據(jù)處理效率,同時(shí)也有效降低了社交網(wǎng)絡(luò)中所發(fā)布數(shù)據(jù)的信息丟失概率。Ni等人提出一種移動(dòng)社交網(wǎng)絡(luò)中基于匿名熵的位置隱私保護(hù)方案,該方案涉及在人口稠密地區(qū)采用的K-DDCA和在人口稀少地區(qū)采用的K-SDCA兩種算法解決位置隱私泄露問(wèn)題。K-DDCA算法采用匿名熵方法選擇用戶組,構(gòu)建匿名區(qū)域,保證形成的匿名區(qū)域面積適中,請(qǐng)求內(nèi)容的多樣性,該方案可以提升隱私保護(hù)的效果和效率。雖然這些隱私保護(hù)技術(shù)一定程度上對(duì)各用戶的個(gè)人信息進(jìn)行了保護(hù),但仍不乏惡意攻擊者通過(guò)用戶屬性和社交網(wǎng)絡(luò)節(jié)點(diǎn)對(duì)用戶發(fā)起攻擊。
為了更好地抵抗攻擊者通過(guò)背景知識(shí)學(xué)習(xí)的惡意攻擊,針對(duì)大數(shù)據(jù)環(huán)境中真實(shí)的網(wǎng)絡(luò)社交平臺(tái)進(jìn)行建模,提出基于聚類的社交網(wǎng)絡(luò)隱私保護(hù)技術(shù),對(duì)社交網(wǎng)絡(luò)中的節(jié)點(diǎn)隱私、邊隱私和圖結(jié)構(gòu)隱私進(jìn)行深入研究。本文基于貪心的思想進(jìn)行聚類,降低社交網(wǎng)絡(luò)平臺(tái)中信息的損失度,保證社交網(wǎng)絡(luò)模型中用戶信息和發(fā)布數(shù)據(jù)的隱私和有效性。
全同態(tài)加密是一種不需要訪問(wèn)數(shù)據(jù)本身就能對(duì)數(shù)據(jù)進(jìn)行加密的加密技術(shù),在該加密算法中,使用公鑰對(duì)數(shù)據(jù)加密得到相應(yīng)的密文,然后通過(guò)私鑰解密得到明文,這與直接對(duì)明文進(jìn)行加解密運(yùn)算后得到的結(jié)果是一樣的。一個(gè)全同態(tài)加密方案一般由以下四個(gè)算法組成:
預(yù)處理階段(SK,PK)←SetupFHE(1):輸入安全參數(shù),輸出對(duì)應(yīng)的公鑰和私鑰;
加密階段←EncryptPHE(PK,):輸入公鑰和需要加密的消息,輸出一個(gè)對(duì)應(yīng)的密文;
解密階段←DecryptPHE(SK,):輸入私鑰和需要解密的密文,輸出一個(gè)對(duì)應(yīng)的明文;
運(yùn)算函數(shù)c←EvalFHE(PK,,):輸入公鑰、所有密文組和求值函數(shù),輸出最后求解的函數(shù)值。
其中,明文=(,…,m),密文=(,…,c),密文組c=(,,…,c),函數(shù)值c=(c)。
社交網(wǎng)絡(luò)通過(guò)各用戶在社交平臺(tái)中進(jìn)行注冊(cè)實(shí)現(xiàn)用戶之間的交流和互動(dòng),又可稱為社交網(wǎng)絡(luò)服務(wù),指的是社會(huì)關(guān)系中的個(gè)體信息和社交關(guān)系信息,其形式可以用一個(gè)帶標(biāo)簽的無(wú)向無(wú)權(quán)圖=(,)來(lái)表示。社交網(wǎng)絡(luò)是具有個(gè)節(jié)點(diǎn)的圖,其中={,…,v}表示社交網(wǎng)絡(luò)中各節(jié)點(diǎn)的集合,各節(jié)點(diǎn)v,=1,…,表示社交網(wǎng)絡(luò)中的各用戶,=(,)表示社交網(wǎng)絡(luò)中的邊集合,和表示節(jié)點(diǎn)與節(jié)點(diǎn)之間存在的某種關(guān)系。
社交網(wǎng)絡(luò)包含眾多社交用戶的個(gè)人信息和所發(fā)布的數(shù)據(jù)信息,因此在數(shù)據(jù)發(fā)布之前需要對(duì)數(shù)據(jù)進(jìn)行一定的匿名化處理,這樣才能保證用戶信息和隱私數(shù)據(jù)不易被泄露。如圖1所示為社交網(wǎng)絡(luò)中的數(shù)據(jù)發(fā)布場(chǎng)景,該場(chǎng)景可以將社交網(wǎng)絡(luò)中的數(shù)據(jù)發(fā)布分為兩個(gè)階段,第一個(gè)階段為數(shù)據(jù)收集和預(yù)處理階段,表示在社交平臺(tái)中從數(shù)據(jù)發(fā)布方進(jìn)行數(shù)據(jù)采集,然后對(duì)采集到的數(shù)據(jù)進(jìn)行匿名化和聚類處理,防止隱私信息的泄露;第二個(gè)階段為數(shù)據(jù)發(fā)布階段,表示對(duì)處理好的用戶隱私信息進(jìn)行發(fā)布,供所需數(shù)據(jù)方進(jìn)行數(shù)據(jù)分析與挖掘,提高數(shù)據(jù)的可用性和價(jià)值。
圖1 社交網(wǎng)絡(luò)數(shù)據(jù)發(fā)布場(chǎng)景圖
本文設(shè)計(jì)的基于聚類的社交網(wǎng)絡(luò)模型是利用匿名化處理,對(duì)社交網(wǎng)絡(luò)中的社交節(jié)點(diǎn)進(jìn)行匿名化后,再根據(jù)用戶信息和數(shù)據(jù)按照節(jié)點(diǎn)相似度進(jìn)行聚類,并對(duì)聚類后的社交網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行分類和區(qū)分,如圖2所示。根據(jù)已有的社交網(wǎng)絡(luò)結(jié)構(gòu)=(,)和社交網(wǎng)絡(luò)結(jié)構(gòu)圖中的節(jié)點(diǎn)間距離進(jìn)行聚類,使得每個(gè)聚類后的超節(jié)點(diǎn)中至少包含個(gè)節(jié)點(diǎn)數(shù),然后再對(duì)聚類后的超節(jié)點(diǎn)進(jìn)行匿名化處理,保證任何惡意攻擊者獲取用戶或數(shù)據(jù)信息的概率低于1/。
圖2 聚類社交網(wǎng)絡(luò)模型圖
基于聚類的社交網(wǎng)絡(luò)模型采用k-prototype聚類技術(shù)進(jìn)行設(shè)計(jì),該技術(shù)通過(guò)記錄社交網(wǎng)絡(luò)各節(jié)點(diǎn)之間的距離,然后將距離較近的節(jié)點(diǎn)聚類到最近的超節(jié)點(diǎn)中,并通過(guò)聚類超節(jié)點(diǎn)樣本來(lái)更新網(wǎng)絡(luò)節(jié)點(diǎn),以保證所有的節(jié)點(diǎn)都聚類到超節(jié)點(diǎn)中。聚類的超節(jié)點(diǎn)至少包含個(gè)網(wǎng)絡(luò)節(jié)點(diǎn),在社交網(wǎng)絡(luò)模型中,隨機(jī)選擇個(gè)節(jié)點(diǎn),根據(jù)節(jié)點(diǎn)間距離計(jì)算得到一條記錄到中心節(jié)點(diǎn)的距離,然后每次迭代對(duì)所有超節(jié)點(diǎn)進(jìn)行計(jì)算,直至得到最優(yōu)的聚類結(jié)果,然后選擇最有效的節(jié)點(diǎn)值,最后進(jìn)行輸出。
聚類算法運(yùn)算結(jié)束后,社交網(wǎng)絡(luò)結(jié)構(gòu)中的所有節(jié)點(diǎn)都應(yīng)滿足相應(yīng)的隱私保護(hù)力度,然后再對(duì)聚類后的超節(jié)點(diǎn)進(jìn)行匿名化處理,以進(jìn)一步保證用戶信息e和數(shù)據(jù)的安全性,提高社交網(wǎng)絡(luò)中數(shù)據(jù)的隱私性和有效性。
本文所提出基于聚類的社交網(wǎng)絡(luò)方案是基于全同態(tài)加密技術(shù)和k-prototype聚類技術(shù)實(shí)現(xiàn)的,即方案中社交網(wǎng)絡(luò)節(jié)點(diǎn)的隱私是通過(guò)對(duì)各節(jié)點(diǎn)進(jìn)行匿名化聚類實(shí)現(xiàn)的,社交過(guò)程采用全同態(tài)加密技術(shù)實(shí)現(xiàn)對(duì)節(jié)點(diǎn)發(fā)送消息的加密,從而保證用戶個(gè)人以及消息的隱私性。本文構(gòu)造的基于聚類的社交網(wǎng)絡(luò)方案包括四個(gè)階段,分別為初始化階段、秘鑰生成階段、加解密階段和節(jié)點(diǎn)聚類階段。保護(hù)方案框架結(jié)構(gòu)圖如圖3所示。
圖3 保護(hù)方案框架結(jié)構(gòu)圖
首先需要輸入社交網(wǎng)絡(luò)并將其建模為社交網(wǎng)絡(luò)圖結(jié)構(gòu),然后輸入匿名模型隨機(jī)參數(shù),并對(duì)所選取的初始種子節(jié)點(diǎn)進(jìn)行匿名化處理。在此階段中,需要保證所有的網(wǎng)絡(luò)節(jié)點(diǎn)都分配到對(duì)應(yīng)的超節(jié)點(diǎn)中,且超節(jié)點(diǎn)中含有的節(jié)點(diǎn)數(shù)大于等于個(gè),以保證任何惡意攻擊者獲取用戶或數(shù)據(jù)信息的概率低于1/。
根據(jù)所設(shè)計(jì)的基于聚類的社交網(wǎng)絡(luò)模型,結(jié)合全同態(tài)加密技術(shù)構(gòu)造支持隱私保護(hù)的社交網(wǎng)絡(luò)方案。在秘鑰生成階段,首先需要輸入安全參數(shù)和匿名后的社交網(wǎng)絡(luò)圖G*,通過(guò)全同態(tài)加密算法隨機(jī)生成公鑰和私鑰對(duì)(PK,SK),作為私密信息的加密和加密秘鑰,以保證用戶在社交過(guò)程中,之前發(fā)布的交流和隱私數(shù)據(jù)不被泄露。
社交過(guò)程中,各數(shù)據(jù)發(fā)布者和數(shù)據(jù)使用者在發(fā)布數(shù)據(jù)信息和分析挖掘數(shù)據(jù)信息的時(shí)候,需要對(duì)數(shù)據(jù)信息進(jìn)行加密和解密。首先,數(shù)據(jù)發(fā)布者需要使用秘鑰算法生成的公鑰PK對(duì)社交網(wǎng)絡(luò)平臺(tái)中需要加密的消息m進(jìn)行加密處理,然后再通過(guò)安全的數(shù)據(jù)通道對(duì)所生成的密文消息進(jìn)行發(fā)布和傳遞。
數(shù)據(jù)使用者接收到加密后的數(shù)據(jù)后,利用秘鑰生成算法生成公鑰對(duì)應(yīng)的私鑰SK,對(duì)需要解密的消息m進(jìn)行解密,然后利用解密算法輸出加密密文對(duì)應(yīng)的明文消息,在此社交網(wǎng)絡(luò)消息發(fā)布和傳遞過(guò)程中,只有網(wǎng)絡(luò)結(jié)構(gòu)中相應(yīng)的節(jié)點(diǎn)才能進(jìn)行訪問(wèn)和解密。
在節(jié)點(diǎn)聚類階段,首先需要確定已做匿名化處理的各個(gè)節(jié)點(diǎn)的隱私保護(hù)力度,然后利用k-prototype聚類技術(shù)計(jì)算各個(gè)節(jié)點(diǎn)之間的距離,根據(jù)計(jì)算得到的距離將距離相近的節(jié)點(diǎn)聚類到一個(gè)超節(jié)點(diǎn)中。再次對(duì)聚類得到的超節(jié)點(diǎn)進(jìn)行匿名化處理,且超節(jié)點(diǎn)中含有的節(jié)點(diǎn)數(shù)大于等于個(gè),以保證所有節(jié)點(diǎn)都滿足隱私保護(hù)力度,且能達(dá)到良好的聚類效果。
本文將所構(gòu)造的基于聚類的社交網(wǎng)絡(luò)安全方案和已有的社交網(wǎng)絡(luò)安全方案進(jìn)行對(duì)比與分析,表1為性能分析結(jié)果,其中“√”表示該方案滿足對(duì)應(yīng)的性能,“×”表示該方案不能滿足對(duì)應(yīng)的性能。我們主要基于社交網(wǎng)絡(luò)中存在不同的攻擊類型進(jìn)行分析和對(duì)比,分別為被動(dòng)攻擊、背景知識(shí)攻擊和推理攻擊三個(gè)類型。
表1 不同方案性能分析對(duì)比表
定理 本文構(gòu)造的基于聚類的社交網(wǎng)絡(luò)方案中,如果全同態(tài)加密滿足其安全性,則所提出的模型和方案也是安全的。
證明:在社交網(wǎng)絡(luò)初始化階段,假如該方案中存在惡意的攻擊者,則惡意的數(shù)據(jù)使用者會(huì)對(duì)數(shù)據(jù)進(jìn)行隨意篡改或者肆意發(fā)布;但在秘鑰生成和加解密階段,惡意攻擊者A以目標(biāo)節(jié)點(diǎn)v的社交網(wǎng)絡(luò)圖結(jié)構(gòu)信息為背景知識(shí),對(duì)發(fā)布的圖G*進(jìn)行攻擊,由于G*是經(jīng)過(guò)k-匿名化的結(jié)構(gòu)圖,所以惡意攻擊者A能夠識(shí)別目標(biāo)節(jié)點(diǎn)v的概率為1/。但根據(jù)全同態(tài)加密中單項(xiàng)函數(shù)的散列性質(zhì),攻擊者無(wú)法從社交網(wǎng)絡(luò)中獲取具體的值,所以攻擊者在任意概率多項(xiàng)式時(shí)間內(nèi)找到和使得G*=G成立的概率是可以忽略不計(jì)的。因此本文提出的基于聚類的社交網(wǎng)絡(luò)方案安全的。
本文結(jié)合全同態(tài)加密技術(shù)和k-prototype聚類技術(shù)設(shè)計(jì)了基于聚類的社交網(wǎng)絡(luò)安全方案,為了實(shí)現(xiàn)方案的安全性和有效性,首先構(gòu)造了基于聚類的社交網(wǎng)絡(luò)模型,利用k-prototype聚類技術(shù)對(duì)距離較近的網(wǎng)絡(luò)節(jié)點(diǎn)進(jìn)行聚類再匿名化處理,使方案中的數(shù)據(jù)擁有者和數(shù)據(jù)使用者能夠較為安全地進(jìn)行數(shù)據(jù)分析和挖掘。方案滿足了安全性要求,且可抵抗被動(dòng)攻擊、背景知識(shí)等不同的攻擊,實(shí)現(xiàn)了高效的社交網(wǎng)絡(luò)數(shù)據(jù)發(fā)布和信息交流。