張 靜,苗水清,李顯峰
(延安大學(xué)西安創(chuàng)新學(xué)院,陜西 西安 710100)
社會網(wǎng)絡(luò)隱私信息研究
張 靜,苗水清,李顯峰
(延安大學(xué)西安創(chuàng)新學(xué)院,陜西 西安 710100)
人們對于微博、微信和Facebook等社交網(wǎng)站的使用頻率增加,由其產(chǎn)生出的社會網(wǎng)絡(luò)數(shù)據(jù)也隨之增加.攻擊者對這類數(shù)據(jù)進(jìn)行分析和研究,可以快速獲得他人的地址、喜好、網(wǎng)絡(luò)交易等隱私信息.目前已有許多專家對社會網(wǎng)絡(luò)數(shù)據(jù)發(fā)布隱私保護(hù)模型進(jìn)行研究.文章主要介紹社會網(wǎng)絡(luò)相關(guān)概念、社會網(wǎng)絡(luò)隱私信息及其相關(guān)的隱私保護(hù)技術(shù).
社會網(wǎng)絡(luò);隱私;信息保護(hù)
社會網(wǎng)絡(luò)是由許多個體或組織構(gòu)成的一種社會結(jié)構(gòu)類型,代表社會元素之間的關(guān)系.可以將陌生人、有某種關(guān)系的各類人或團(tuán)體連接起來[1].
社會網(wǎng)絡(luò)隱私保護(hù)是將最為基礎(chǔ)的網(wǎng)絡(luò)中的數(shù)據(jù)作為依據(jù),使用某種數(shù)據(jù)隱私技術(shù)對此類數(shù)據(jù)進(jìn)行有效的處理,最終將其中敏感的數(shù)據(jù)進(jìn)行隔離,隨后再對外發(fā)布,可以做到有效保護(hù)用戶的隱私信息.
對于社會網(wǎng)絡(luò)數(shù)據(jù)的研究一般采用圖論信息對其進(jìn)行構(gòu)造.社會網(wǎng)絡(luò)中的每個用戶和其之間的關(guān)系信息用圖論描述,也常常將它們存放在鄰接矩陣中.
用圖論知識對社會網(wǎng)絡(luò)進(jìn)行描述時,將其中每個用戶看作為一個結(jié)點,他們之間的鏈接關(guān)系被看作是連接兩個結(jié)點的邊.也就是說社會網(wǎng)絡(luò)就是結(jié)點的集合和邊集合而構(gòu)成的圖結(jié)構(gòu),常被形式化表示為G=(V,E).社會網(wǎng)絡(luò)圖用G表示,結(jié)點集合用V表示,邊集合用E表示.
用鄰接矩陣對社會網(wǎng)絡(luò)進(jìn)行存儲時,將矩陣中行和列中限定的點來代表社會網(wǎng)絡(luò)的用戶.用戶與用戶之間是否存在鏈接關(guān)系,就是研究矩陣點與點限定出的數(shù)值信息,若其值為1,表明用戶之間存在鏈接關(guān)系,否則為0.
社會網(wǎng)絡(luò)中的用戶(即結(jié)點)、用戶之間的關(guān)系(即邊)、組成的網(wǎng)絡(luò)圖結(jié)構(gòu)都包含有隱私信息[2].下面分別對結(jié)點、邊以及圖3方面的隱私信息進(jìn)行描述.
通常將社會網(wǎng)絡(luò)中結(jié)點隱私信息細(xì)分成3類:存在性信息、標(biāo)簽信息以及屬性信息.
(1)結(jié)點存在性信息即查看結(jié)點信息是否出現(xiàn)在此社會網(wǎng)絡(luò)結(jié)構(gòu)中,若出現(xiàn)才會認(rèn)為此結(jié)點信息可能是存在的隱私信息,若不存在,即不再研究此結(jié)點信息.
例如中國有幾百所大學(xué),其中某些大學(xué)被認(rèn)為是文科類院校,有些被認(rèn)為理科類院校,還有針對某類研究方向如建筑類、航空類、財經(jīng)類而聞名的學(xué)校,在這些看似極易被忽視的信息中,攻擊者可以經(jīng)過分析得出被攻擊者常出入某類院校,即可以認(rèn)為此用戶結(jié)點可能存在此網(wǎng)絡(luò)環(huán)境中,那么就可以確定被攻擊者是某類院校的學(xué)生,這個用戶的個人隱私就存在被侵犯的可能性.
從另外一個角度去分析,如果攻擊者已經(jīng)確定被攻擊者不在這個社會網(wǎng)絡(luò)環(huán)境中,攻擊者就可以對自己信息進(jìn)行偽造,讓在這個網(wǎng)絡(luò)中的用戶認(rèn)為他就是被攻擊者,那么攻擊者就可以在這個社會網(wǎng)絡(luò)中獲得更多隱私信息.
Zou等[3]提出的k-automorphism(k-自同構(gòu))的社會網(wǎng)絡(luò)隱私保護(hù)技術(shù),對于結(jié)點存在性信息能進(jìn)行較好的保護(hù),還可以有效抵御結(jié)點結(jié)構(gòu)攻擊.
(2)結(jié)點標(biāo)簽(Identifier,ID)信息通常被分為三大類:準(zhǔn)標(biāo)簽(Quasi-Identifier,QI)、敏感標(biāo)簽(Sensitive Attributes,SA)和非敏感標(biāo)簽(Non-Sensitive Attributes,NSA)信息.一旦攻擊者獲得被攻擊者的敏感標(biāo)簽信息,也就可以認(rèn)為網(wǎng)絡(luò)中所有標(biāo)簽信息完全暴露,在對此類信息進(jìn)行處理時需要更為重視.
簡單匿名隱私保護(hù)方法可以針對結(jié)點標(biāo)簽信息,以及后面介紹的邊標(biāo)簽信息進(jìn)行保護(hù),即在此類信息發(fā)布之前,使用虛假信息進(jìn)行替換或者進(jìn)行隱藏,其圖結(jié)構(gòu)不發(fā)生改變,這樣即使被攻擊者獲得,也不能輕易分析出用戶信息.但是這種技術(shù)不能較好地抵御背景知識攻擊,因此通常將其作為隱私保護(hù)的第一步,隨后再使用其他方法進(jìn)行加強處理.
社會網(wǎng)絡(luò)是一個動態(tài)環(huán)境,張曉琳等[4]對社會網(wǎng)絡(luò)特殊動態(tài)性進(jìn)行分析,提出動態(tài)隱私保護(hù)技術(shù),還可以對結(jié)點標(biāo)簽信息進(jìn)行有效處理,可以較好保護(hù)結(jié)點標(biāo)簽信息.
(3)結(jié)點屬性信息通常指的是結(jié)點度信息、結(jié)點之間最短距離、中心區(qū)域距離等,這類信息常為用戶隱私信息,且通常作為評價隱私算法的度量依據(jù).例如一個結(jié)點的度在社會網(wǎng)絡(luò)中可能表示一個用戶在這個網(wǎng)絡(luò)中的比重,也就是說一個用戶度信息量越大,表明此用戶在網(wǎng)絡(luò)中分量越大,攻擊者可以將此用戶當(dāng)作重點攻擊對象.
泛化隱私保護(hù)技術(shù)對于結(jié)點屬性信息及后面介紹的邊屬性信息有較好的保護(hù).主要是將結(jié)點或邊屬性信息通過概括方式進(jìn)行處理,處理后的結(jié)果是將原來的屬性信息擴(kuò)大范圍,不再只是表示一類數(shù)據(jù)對象,而是包含范圍更大的信息,可以有效降低用戶隱私信息被識別概率.Cheng等[5]針對網(wǎng)絡(luò)結(jié)構(gòu)中屬性信息被泛化的程度進(jìn)行了劃分,分為全局和局部的泛化技術(shù).全局泛化技術(shù)就是將數(shù)據(jù)整體進(jìn)行泛化處理,優(yōu)點是對數(shù)據(jù)的保護(hù)更好,缺點就是數(shù)據(jù)損失量較大.局部泛化技術(shù)是對需要進(jìn)行隱私保護(hù)的數(shù)據(jù)處理,優(yōu)點是對數(shù)據(jù)的保護(hù)較全局泛化技術(shù)差一些,但是數(shù)據(jù)損失量相對而言較小.
蘭麗輝等[6]針對攻擊者對結(jié)點鄰接信息進(jìn)行再識別攻擊,提出有效的保護(hù)結(jié)點信息的隱私保護(hù)方法.林嚇洪[7]提出一種針對社會網(wǎng)絡(luò)結(jié)點進(jìn)行聚類的隱私保護(hù)方法,將網(wǎng)絡(luò)中擁有相似屬性的結(jié)點劃分成一組結(jié)點,對外公布這些組的網(wǎng)絡(luò)結(jié)構(gòu)圖,攻擊者在一組結(jié)點中無法較準(zhǔn)確區(qū)分哪個是被攻擊的目標(biāo),從而保護(hù)結(jié)點隱私信息.
邊是社會網(wǎng)絡(luò)中用戶與用戶是否存在關(guān)系的重要說明.邊隱私信息可以被分為2種:邊存在性信息和邊屬性信息.邊屬性信息細(xì)分為邊標(biāo)簽信息和邊權(quán)重信息.
(1)邊存在性信息即查看此邊是否存在這個網(wǎng)絡(luò)中,若存在,即認(rèn)為用戶之間有關(guān)系,若不存在即不對此邊進(jìn)行研究.例如在一個網(wǎng)絡(luò)交易環(huán)境中,用戶與用戶之間的邊表明他們之間可能存在關(guān)系,有關(guān)系就有交易行為,邊可以被攻擊者作為攻擊目標(biāo).
Campan等[8]設(shè)計了一種針對結(jié)點和邊均進(jìn)行操作的隱私保護(hù)方法.主要是先對結(jié)點進(jìn)行一次聚類操作,再對邊進(jìn)行一次簡單匿名操作,可以有效地將聚類操作和匿名操作進(jìn)行結(jié)合,保護(hù)結(jié)點和邊隱私信息.
(2)邊標(biāo)簽信息可分為QI,SA,NSA信息.邊標(biāo)簽信息可能被攻擊者獲得,從而竊取用戶隱私信息.
申艷光等[9]設(shè)計了一種(k2,l)-anonymity((k2,l)-匿名)社會網(wǎng)絡(luò)隱私保護(hù)模型,主要是將貪心算法和動態(tài)規(guī)劃算法進(jìn)行有效結(jié)合,用戶可以根據(jù)不同的隱私保護(hù)需求對社會網(wǎng)絡(luò)中結(jié)點或者邊標(biāo)簽信息進(jìn)行處理,有效保護(hù)用戶的隱私信息.
Zheleva等[10]設(shè)計了一種隱私保護(hù)方法,主要是對邊信息進(jìn)行分類,把帶有敏感標(biāo)簽信息的邊進(jìn)行聚類,分為一類,隨后再進(jìn)行匿名處理.在這個過程中可能會刪除部分邊,但是刪除邊的數(shù)目隨時可統(tǒng)計出,敏感的隱私信息可以有效地被保護(hù).
(3)邊權(quán)重(權(quán)值)信息可以用來描述社會網(wǎng)絡(luò)中用戶間的關(guān)聯(lián)程度、距離、耗費、通信代價等.攻擊者通過邊的重信息,可以獲得大量用戶隱私.
Das等[11]構(gòu)建了一種線性規(guī)劃模型,此模型中將邊權(quán)重作為描述網(wǎng)絡(luò)圖結(jié)構(gòu)的重要屬性,有效匿名了網(wǎng)絡(luò)圖中邊權(quán)重信息.
圖隱私信息是社會網(wǎng)絡(luò)中特有的信息,因為圖是由結(jié)點和邊組合而成,除了包含各種結(jié)點和邊隱私信息之外,還包含圖結(jié)構(gòu)信息,如圖的向量中心性、冪律分布、聚集系數(shù)、結(jié)點間的路徑長度以及結(jié)點可達(dá)性等.圖結(jié)構(gòu)信息通常包含龐大的信息量.因此對于此類結(jié)構(gòu)信息的保護(hù)應(yīng)該更為重視.
Zhou等[12]提出了一種改進(jìn)的k-匿名社會網(wǎng)絡(luò)隱私保護(hù)方法,主要是通過貪心算法將網(wǎng)絡(luò)圖中鄰接信息進(jìn)行獲取,隨后對提取的信息進(jìn)行k-匿名處理,可以有效抵御攻擊者通過圖鄰接信息進(jìn)行的攻擊.
張偉等[13]提出了一種建立k-鄰域同構(gòu)方法基礎(chǔ)上的社會網(wǎng)絡(luò)隱私保護(hù)技術(shù),主要通過圖鄰接矩陣中的三角矩陣來描述網(wǎng)絡(luò)圖中的鄰接子圖,對鄰接子圖進(jìn)行等價處理,有效將網(wǎng)絡(luò)圖的子圖結(jié)構(gòu)信息進(jìn)行匿名處理.
對社會網(wǎng)絡(luò)隱私保護(hù)技術(shù)的研究,目的之一是為了有效保護(hù)用戶的隱私信息,同時我們需要將社會網(wǎng)絡(luò)產(chǎn)生出的龐大數(shù)據(jù)量提供給數(shù)據(jù)研究專家使用,可以有效發(fā)揮數(shù)據(jù)的價值.
本文主要簡要介紹了社會網(wǎng)絡(luò)的基礎(chǔ)概念,隱私信息及相關(guān)的隱私保護(hù)技術(shù).未來研究將從有以下兩個方向著手:(1)圖結(jié)構(gòu)信息的保護(hù).(2)針對不同用戶的隱私保護(hù)的要求,設(shè)計更合理的隱私保護(hù)方法.
[1]劉軍.社會網(wǎng)絡(luò)分析導(dǎo)論[M].北京:社會科學(xué)文獻(xiàn)出版社,2004.
[2]蘭麗輝,鞠時光,金華.社會網(wǎng)絡(luò)數(shù)據(jù)發(fā)布中的隱私保護(hù)研究進(jìn)展[J].小型微型計算機系統(tǒng),2010(12):2318-2323.
[3]ZOU L,CHEN L.K-automorphism:a general framework for privacy preserving network publication[J].VLDB Endowment,2009(1):946-957.
[4]張曉琳,李玉峰,王穎.動態(tài)社會網(wǎng)絡(luò)隱私保護(hù)方法研究[J].計算機應(yīng)用研究,2012(4):1434-1437.
[5]CHENG R,KALASHNIKOV D V,PRABHAKAR S.Querying imprecise data in moving object environments[J].IEEE Transaction on Knowledge & Data Engineering,2004(9):1112-1127.
[6]蘭麗輝,鞠時光,金華.社會網(wǎng)絡(luò)數(shù)據(jù)的k-匿名發(fā)布[J].計算機科學(xué),2011(11):156-160.
[7]林嚇洪.社區(qū)化網(wǎng)絡(luò)中的隱私保護(hù)[D].上海:上海交通大學(xué),2010.
[8]CAMPAN A,TRAIAN M.A clustering approach for data and structural anonymity in social networks[J].In Privacy,Security,and Trust in KDD Workshop,2008(1):33-54.
[9]申艷光,閆晶星,買建英,等.基于敏感關(guān)系的社會網(wǎng)絡(luò)隱私保護(hù)方法[J].計算機工程與設(shè)計,2015(2):355-362.
[10]ZHELEVA E,GETOOR L.Preserving the privacy of sensitive relationships in graph data[M].Berlin:Springer Berlin Heidelberg,2008.
[11]DAS S,EGECIOGLU O,ABBADI A E.Anonymizing weighted social network graphs[J].IEEE International Conference on Data Engineering,2010(3):904-907.
[12]ZHOU B,PEI J.The k-anonymity and l-diversity approaches for privacy preservation in social network sagainst neighborhood attacks[J].Knowledge & Information Systems,2011(1):47-77.
[13]張偉,王旭然,王玨,等.基于k-鄰域同構(gòu)的動態(tài)社會網(wǎng)絡(luò)隱私保護(hù)方法[J].南京郵電大學(xué)學(xué)報(自然科學(xué)版),2014(5):9-16.
Study on social network privacy information
Zhang Jing, Miao Shuiqing, Li Xianfeng
(Xi'an Innovation College of Yan'an University, Xi'an 710100, China)
People for the use of frequency of social networks such as Facebook, micro-blog and WeChat is increased, and the social networks data generated by them had also increased. Attackers analyze and study this kind of data, which can quickly obtain other people's address,preferences, online transactions and other privacy information. At present, many experts have studied the privacy protection model of social network data publishing. This paper introduces the concepts of social networks, social network privacy information and related privacy protection technologies.
social network; privacy; information protection
2016年陜西教育廳科學(xué)研究項目;項目名稱:基于智能終端的泛在學(xué)習(xí)系統(tǒng)的研究;項目編號:16JK2253.
張靜(1989- ),女,陜西西安人,助教,碩士;研究方向:網(wǎng)絡(luò)安全,隱私保護(hù).