• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      面向多敏感屬性的匿名隱私保護方法

      2017-08-16 09:38:03張榮慶徐光俠
      關(guān)鍵詞:元組中心點維數(shù)

      張榮慶,徐光俠

      (1.西南大學(xué) 計算機與信息科學(xué)學(xué)院,重慶 400715;2.重慶市巴蜀中學(xué),重慶 400013;3.重慶郵電大學(xué) 軟件學(xué)院,重慶400065;4.重慶大學(xué) 信息與通信工程博士后流動站,重慶 400044)

      面向多敏感屬性的匿名隱私保護方法

      張榮慶1,2,徐光俠3,4

      (1.西南大學(xué) 計算機與信息科學(xué)學(xué)院,重慶 400715;2.重慶市巴蜀中學(xué),重慶 400013;3.重慶郵電大學(xué) 軟件學(xué)院,重慶400065;4.重慶大學(xué) 信息與通信工程博士后流動站,重慶 400044)

      在數(shù)據(jù)發(fā)布過程中,如果對發(fā)布的敏感屬性信息不進行任何保護處理而直接發(fā)布,容易遭受攻擊導(dǎo)致隱私信息泄露。針對傳統(tǒng)的單敏感屬性隱私保護方法在多敏感屬性中不能得到很好的隱私保護效果,提出了一種基于多敏感屬性相關(guān)性劃分的(m,l)-匿名隱私保護模型。利用信息增益法對多敏感屬性的相關(guān)性進行計算并劃分,降低敏感屬性維度;根據(jù)(m,l)-diversity原則對敏感屬性分組,保證發(fā)布的數(shù)據(jù)能防止偏斜性攻擊,并且在一定程度上降低背景知識攻擊的風險;采用聚類技術(shù)實現(xiàn)該模型,減小該模型產(chǎn)生的附加信息損失和隱匿率,確保發(fā)布的數(shù)據(jù)具有較高的可用性。實驗結(jié)果表明,基于多敏感屬性相關(guān)性劃分的(p,l)-匿名隱私保護模型具有較小的附加信息損失和隱匿率,保證了發(fā)布數(shù)據(jù)的可用性。

      多敏感屬性;匿名;聚類;信息增益

      0 引 言

      數(shù)據(jù)挖掘作為一種分析海量信息的強大工具,正運用于社會的方方面面。利用數(shù)據(jù)挖掘技術(shù)可以得到有規(guī)律和有價值的信息,但又會帶來隱私信息泄露的危害。原因在于可以通過數(shù)據(jù)挖掘分析出這些信息中包含的隱私信息,這些隱私信息通常都是政府、企業(yè)或個人不愿意讓外界知曉的。因此,在有效地挖掘分析海量信息得到有規(guī)律和有價值信息的過程中,如何對其中的隱私信息進行安全保護是一項重大的挑戰(zhàn)。

      目前,數(shù)據(jù)發(fā)布中的隱私保護(privacy preserving in data publishing,PPDP)研究主要從法律和技術(shù)2個角度開展。從法律角度來看,需要政府相關(guān)部門制定一系列隱私安全保護方面的法律法規(guī),通過這些法律法規(guī)對發(fā)布的數(shù)據(jù)形式進行約束;技術(shù)的研究大多集中于針對于單敏感屬性的隱私保護的研究。例如,利用(p,a)-sensitivek-匿名模型,讓每個等價類的元組個數(shù)大于或等于k;每個敏感屬性值的數(shù)量大于或等于p,從而對l-多樣性模型中的參數(shù)設(shè)置進行優(yōu)化。該模型的缺點是由于沒有對各個等價類的敏感值頻率進行約束,在p遠遠小于k小時,該模型不能有效地抵御偏斜性攻擊[1]。因此,有學(xué)者提出了(a,k)-匿名模型,改進了(p,a)-sensitivek-匿名模型存在的問題。模型提出利用頻率參數(shù)對等價類的敏感屬性出現(xiàn)的頻率進行約束,在一定程度上阻止攻擊者進行同質(zhì)攻擊[2]。針對單敏感屬性的研究有許多經(jīng)典的模型,例如,k-匿名模型[3];A.Machanavajjhala等[4]于2006年首次提出的l-多樣性模型;文獻[5]提出的t-逼近模型等。

      圍繞多敏感屬性的隱私保護的研究較少。文獻[6]利用多維桶結(jié)構(gòu),在分組過程中,將復(fù)合敏感屬性的每一維分別與多維桶的各維對應(yīng)。將實驗數(shù)據(jù)集的元組根據(jù)高維敏感屬性向量映射到對應(yīng)的桶中,然后依據(jù)特定隱私保護原則在多維桶中選擇符合要求的元組構(gòu)成分組,確保在最終構(gòu)成的分組中每一維敏感屬性上的取值都符合特定的隱私保護原則,從而確保多維敏感屬性數(shù)據(jù)發(fā)布的安全性。有一些學(xué)者提出其他模型來解決多敏感屬性的隱私保護,例如,文獻[7]提出了個性化分級(l,a,m)-多樣性匿名模型;文獻[8]提出了最小選擇度優(yōu)先的多維敏感屬性個性化。由于有損分解會破壞數(shù)據(jù)之間的關(guān)系,文獻[9]提出了msa(multiple sensitive attributes)l-maximum算法。

      本文研究了已有的多敏感性數(shù)據(jù)隱私保護算法,對多維桶分組技術(shù)存在的不足展開分析,提出一種基于多敏感屬性相關(guān)性劃分的(m,l)-匿名隱私保護模型(記為SCPLCG),給出多敏感屬性相關(guān)性計算的方法,闡述模型基本定義,再采用聚類算法對敏感屬性滿足(m,l)-diversity進行分組,保證發(fā)布的數(shù)據(jù)可以防止偏斜性攻擊,也能夠抵御一定程度的背景知識攻擊,最終減小匿名數(shù)據(jù)的附加信息損失和隱匿率,保證數(shù)據(jù)發(fā)布的可用性。

      1 匿名隱私保護模型

      1.1 敏感屬性相關(guān)性劃分

      利用信息增益法[10]計算任意2個敏感屬性的相關(guān)性。具體定義如下。

      在數(shù)據(jù)集S中,任意的A和B2個敏感屬性,其中敏感屬性A的值域表示為{a1,…,ai,…,an},1≤i≤n;敏感屬性B的值域表示為{b1,…,bj,…,bm},1≤j≤m。

      定義1.2 條件熵。在數(shù)據(jù)集S中,敏感屬性B的條件下敏感屬性A的條件熵定義為

      (1)

      (1)式中:

      (2)

      (3)

      (4)

      (1)—(4)式中:p(ai|bj)表示已知敏感屬性B的條件下敏感屬性A的后驗概率;sumij表示數(shù)據(jù)集sumj中s[A]=ai且s[B]=bj的元組總數(shù);sumj表示S中s[B]=bj的元組的總數(shù)。

      定義1.3 信息熵。在數(shù)據(jù)集S中,敏感屬性A的信息熵定義為

      (5)

      (5)式中:

      (6)

      (6)式中:p(ai)表示敏感屬性A取值ai的先驗概率;sumi表示S中s[A]=ai的元組總數(shù);|S|表示S中所有元組的總數(shù)。

      定義1.4 信息增益。在數(shù)據(jù)集S中,敏感屬性A的信息熵的相對減少量被稱為信息增益,定義為IG(A|B)=H(A)-H(A|B)。

      定理1.1 信息增益具有對稱性和非負性,IG(A|B)=IG(B|A)且IG(A|B)≥0。

      對此進行證明

      同理可證

      由此推導(dǎo)出:IG(A|B)=IG(B|A);

      由上述公式繼續(xù)推導(dǎo)

      根據(jù)不等式lnx≤x-1,x>0,且有l(wèi)bx=lnxlbe,推導(dǎo)出

      綜上,證得:IG(A|B)≥0。

      在計算出屬性間的相關(guān)性之后,使用聚類方法對屬性進行劃分。設(shè)A,B是任意2個敏感屬性,A,B之間的距離為

      (7)

      若敏感屬性A和B間的相關(guān)性越強,則二者之間的距離就越近。

      定理1.2 相異矩陣。在數(shù)據(jù)集S中,m維敏感屬性S1,S2,…,Sm間的相異矩陣定義為

      (8)

      本文采用基于密度信息的改進k-中心點算法對多敏感屬性相關(guān)性劃分。算法步驟如下。

      步驟1 計算得到敏感屬性間的距離并和相異矩陣;

      步驟2 設(shè)置閾值minPts,高于minPts的樣本選取為高密度樣本;

      步驟3 在高密度樣本中選取密度最高的樣本點作為第1個初始中心點,選擇距離第1個初始中心點最遠的樣本點作為第2個初始中心點,再選擇距離第1個和第2個初始中心點最遠的樣本點作為第3個初始中心點。以此類推,選取出k個初始中心點為止;

      步驟4 形成簇。把除了中心點之外的樣本點,劃分到距離最近的中心點,形成簇,接著循環(huán)交換中心點與任意非中心點,并重新聚類直到聚類代價不再下降,其中聚類代價設(shè)定為每個點到最近中心點距離的總和。

      由于本文將數(shù)據(jù)發(fā)布中的敏感屬性作為聚類空間中的點,通常敏感屬性的維數(shù)不會太大,因而該算法不會受到高復(fù)雜度的影響。

      1.2 模型的基本定義

      在模型中用到的基本定義如下。

      定義1.5 多敏感屬性(m,l)-diversity。在數(shù)據(jù)集S中,一個含有m條元組的分組W,如果要刪除W中所有元組,則需要至少刪除l個不同的敏感值屬性。

      定義1.6 刪除。設(shè)W是數(shù)據(jù)集S的一個分組,如果要將W中任意一條元組的某一個敏感屬性值從W中刪除,則需要將W中包含這個敏感屬性值的所有元組刪除。

      定義1.7 相同敏感屬性值集合。在數(shù)據(jù)集S中,每一維敏感屬性上的敏感值都相同的元組組成的集合記為C(v)。

      定義1.8 多敏感屬性(m,l)-diversity分組。對于數(shù)據(jù)集S上的分組GS={G1,G2,…,Gn},若任意分組Gi(1≤i≤n)都滿足多敏感屬性(m,l)-diversity原則,則GS是S上滿足(m,l)-diversity原則的分組。

      多敏感屬性數(shù)據(jù)如表1所示。

      表1 多敏感屬性數(shù)據(jù)表Tab.1 Data table of multi-sensitive attribute

      在表1中,若要刪除表中的所有記錄,則只需將敏感屬性值David和Flu刪除即可,可以滿足多敏感屬性(m,l)-diversity性質(zhì),同時,可以得到滿足多敏感屬性(m,l)-diversity的匿名數(shù)據(jù)表。

      若采用最大桶分組技術(shù)則得到的匿名如表2所示。

      表2 滿足最大桶分組技術(shù)的匿名數(shù)據(jù)表Tab.2 Anonymous data table of the largest bucket grouping technique a 準標識符屬性

      b 敏感屬性

      通過分析對比表1和表2可知,采有多維桶分組技術(shù)會導(dǎo)致更多的元組被隱匿,降低了數(shù)據(jù)的效用。滿足多敏感屬性(m,l)-diversity原則進行分組,分組中敏感屬性間的值存在對應(yīng)的多樣性。因此,多敏感屬性(m,l)-diversity分組能夠在一定程度上降低背景知識攻擊的風險。

      基于以上分析,為了增強模型的保護強度,對參數(shù)m和l進行條件約束如下。

      1)m≥l≥2,這是構(gòu)成分組的必要條件;

      2)m≤2(l-1),當一個分組含有m條元組,需要刪除l個不同的敏感屬性值才能將該分組刪除,當這個分組存在這種最壞分布情況:要刪除的這l個不同敏感值屬性值包含l-1個不同敏感屬性值,同時還包含不同于這l-1個的敏感屬性值,且具有該值的元組共有m-(l-1)個。為了防止偏斜性攻擊,m-(l-1)要小于l-1,即含有該敏感屬性值的元組個數(shù)不能超過該分組總數(shù)的一半。該約束條件限制分組中任意敏感屬性值出現(xiàn)的頻率不超過0.5。

      1.3 隱匿數(shù)據(jù)評估標準

      對于隱匿數(shù)據(jù)的評估主要包含附加信息損失和隱匿率2個標準,具體如下。

      (9)

      (9)式中,c為敏感屬性的個數(shù)。

      定義1.10 隱匿率。若一條元組存在一個或多個敏感屬性值被隱匿,則該元組就被視為隱匿元組。假設(shè)數(shù)據(jù)集S中有ns條元組被隱匿,則隱匿率定義為

      (10)

      2 算法實現(xiàn)

      2.1 基于密度信息的改進k-中心點算法

      輸入:n維敏感屬性表MS={S1,S2,…,Sn}和k個簇;

      輸出:k個子敏感屬性表MS={MS1,MT2,…,MTk}。

      1)利用信息增益計算出敏感屬性之間的相異矩陣D;

      2)將每一維敏感屬性看作一個樣本點,計算所有距離的平均值一半作為樣本點領(lǐng)域半徑r;

      3)計算每個樣本點r鄰域內(nèi)樣本數(shù),將所有樣本數(shù)的平均值作為高密度點樣本應(yīng)該包含最少樣本數(shù)的閾值minPts;

      4)將所有r鄰域內(nèi)含有鄰居樣本點個數(shù)不少于minPts的樣本點加入到集合W中,從而構(gòu)成高密度樣本集合;

      5)選取初始中心點集合C

      ①W中選取密度最高的樣本點c1作為第1個初始聚類中心加入集合C;

      ②從W中選取距離c1最遠樣本點c2作為第2個初始聚類中心加入集合C;

      ③從W中選取距離c1,…,ck-1之和最遠的樣本點ck作為第k個初始聚類中心加入集合C;

      6)循環(huán)接下來的過程,直到中心點不在發(fā)生變化

      ①將余下的n-k個樣本點依照距離劃分到離它最近的中心點;

      ②選擇某個中心點ci與任意一個非中心點c′交換,重新聚類并計算聚類代價,若劃分到該中心點的樣本點至少有一個且能使聚類代價下降,則用c′替換ci。

      7)輸出k個子敏感屬性表。

      在源代碼的基礎(chǔ)上分析算法2.1的時間復(fù)雜度。步驟1,獲取相異矩陣花費時間為O(n2);步驟2,計算樣本點領(lǐng)域半徑花費時間為O(n2);步驟3,計算樣本數(shù)的閾值花費時間為O(n2);步驟4,構(gòu)成高密度樣本集合花費時間為O(n);步驟5,選取初始中心點集合花費時間為O(k);步驟6,調(diào)整中心點花費時間為O(k(n-k))。所以,整個執(zhí)行過程所花費的總時間為O(n2)。

      2.2 基于聚類的(m,l)-diversity分組算法

      從2.1節(jié)得到k個子敏感屬性表,2.2節(jié)對每個子敏感屬性表進行滿足(m,l)-diversity原則分組。

      輸入:數(shù)據(jù)表S={QI1,QI2,…,QIm,MS1,MS2,…,MSk},多樣性參數(shù)l;

      輸出:準標識符屬性表QIT,敏感屬性分組表GST。

      1)于任意子敏感屬性表MSi,將元組在MSi上構(gòu)造相同敏感屬性值集合{C1(v),C2(v),…,Cn(v)},將集合按照從大到小的順序排列;

      2)while(可以提取元組構(gòu)成分組)

      ①設(shè)分組W=φ,從最大集合中隨機選取一條元組添加到分組W中,將該元組從此集合中刪除;

      ②while(W的元組個數(shù)小于l)

      篩選符合元組t添加到分組W中滿足復(fù)合敏感屬性m-(l-1)原則的集合,從這些集合中選取最大集合中的一條元組添加到W中,將該元組刪除;

      endwhile;

      endwhile;

      3)foreach剩余元組rt

      若存在分組W′,添加rt后仍滿足復(fù)合敏感屬性l-diversity原則,且m≤2(l-1),則將rt添加到W′,并刪除該rt;

      endfor;

      4)foreach剩余元組rt′

      若存在分組W′,添加rt′后滿足多敏感屬性(m,l)-diversity原則,且m≤2(l-1),則將rt′添加到W′,并刪除該rt;

      endfor;

      5)將無法加入任意分組中滿足多敏感屬性(w,l)-diversity原則的元組隱匿;

      6)將所有分組以準標識符屬性表QIT和敏感屬性分組表GST的形式發(fā)布。

      在源代碼的基礎(chǔ)上分析算法2.2的時間復(fù)雜度。假設(shè)原始數(shù)據(jù)集T中元組數(shù)量為m,分組個數(shù)為k,且1≤k≤m/l。步驟1,構(gòu)造相同敏感屬性值集合花費時間為O(m);步驟2,完成分組花費時間為O(lkm);步驟3,添加剩余元組滿足復(fù)合敏感屬性l-diversity原則花費時間為O(k(m-lk));步驟4,滿足多敏感屬性(p,l)-diversity原則花費時間小于O(k(m-lk));步驟5,匿名處理剩余元組花費時間小于O(kl)。所以,整個算法執(zhí)行所花費的總時間不超過O(m2)。

      3 實驗結(jié)果及分析

      3.1 實驗數(shù)據(jù)集

      本文的實驗數(shù)據(jù)集來自UCI機器學(xué)習數(shù)據(jù)庫中的Census-Income,在預(yù)處理中,刪除了有缺損信息的數(shù)據(jù),隨機選取了9 000條數(shù)據(jù)構(gòu)成實驗數(shù)據(jù)集。

      本文選取其中7個屬性,數(shù)據(jù)集的結(jié)構(gòu)描述如表3所示,將數(shù)值型屬性數(shù)據(jù)離散化處理,劃分成區(qū)間形式并視為分類型屬性。

      表3 Census-Income數(shù)據(jù)集結(jié)構(gòu)Tab.3 Data set structure of Census-Income

      實驗將從匿名數(shù)據(jù)集對于隱匿率和附加信息損失度兩方面考查本文提出的算法性能,并與多維桶分組技術(shù)中的最大桶第一(maximal-bucket first,MBF)算法進行對比。實驗從以下2個方面對算法進行分析對比:①變化的多樣性參數(shù)取值l(l取值為3~8);②變化的敏感屬性個數(shù)c(c的取值為4~7),如表4所示。

      表4 實驗中使用的多敏感屬性Tab.4 Multi-sensitive attributes used in the experiment

      3.2 隱匿率分析

      圖1和圖2對SCPLCG和MBF這2種算法產(chǎn)生的隱匿率情況進行了對比。圖1表明在敏感屬性的維數(shù)為c=5情況下,2種算法在多樣性參數(shù)l取值不同時產(chǎn)生的隱匿率。從圖1—圖2中可以得知,MBF算法產(chǎn)生的隱匿率要高于SCPLCG算法。原因在于當敏感屬性的維數(shù)較高時會導(dǎo)致敏感屬性間的限制越來越多,并且MBF算法在分組的過程中必須滿足l-diversity分組,任意2個元組只要在某一維上的敏感屬性值相同就不能被分到一個組中,這極大地增加了分組的難度。對于SCPLCG算法而言,雖然敏感屬性的維數(shù)較高,但將敏感屬性進行相關(guān)性劃分為幾個子敏感屬性表,直接降低了分組的敏感屬性維數(shù),使敏感屬性在分組過程中受到的限制減小,增加了分組的成功率。另外,當l值逐漸增大時,要滿足分組原則進行分組的難度加大,2種算法的隱匿率都增大,但是SCPLCG算法滿足(m,l)-diversity分組原則,沒有MBF算法分組條件嚴苛。因此,MBF隱匿率增大的幅度要大于SCPLCG。

      圖1 多樣性參數(shù)l值變化下的隱匿率比較 (c=5)Fig.1 Comparison of occultation rate under variation of diversity parameter l(c=5)

      圖2表明,在多樣性參數(shù)l=3情況下,2種算法在敏感屬性維數(shù)取值變化時產(chǎn)生的隱匿率。從圖2中可以看出,MBF算法的隱匿率要大于SCPLCG,這是由于SCPLCG算法通過對敏感屬性劃分,很好地降低了敏感屬性維數(shù),并且滿足(m,l)-diversity分組原則進行分組的元組更多。當敏感屬性維數(shù)增大時,2種算法的隱匿率都増大,原因在于敏感屬性的維數(shù)越多,得到在每一維上的分組就越困難。整體而言,在多樣性參數(shù)取值不大時,二者產(chǎn)生的隱匿率都比較小。

      圖2 敏感屬性維數(shù)變化下的隱匿率比較 (l=3)Fig.2 Comparison of concealment rate under the change of sensitive attribute dimension(l=3)

      3.3 附加信息損失分析

      圖3和圖4對SCPLCG和MBF 2種算法產(chǎn)生的附加信息損失度情況進行了對比。圖3表明在敏感屬性維數(shù)為c=5情況下,2種算法在多樣性參數(shù)l取值變化時產(chǎn)生的附加信息損失度。從圖3中可以得知,隨著l值的增大,2種算法產(chǎn)生的附加信息損失度都會增大。由于增大l值會使隱匿的元組増多,構(gòu)成的分組總數(shù)變少,導(dǎo)致計算附加信息損失度公式中的分母值變小,間接的增大了附加信息損失度。同時,在l值較小時,MBF的附加信息損失度要高于SCPLCG,這是因為SCPLCG算法將敏感屬性劃分為多個子表,降低了分組的敏感屬性維數(shù),同等條件下構(gòu)成的分組要比MBF多。當多樣性參數(shù)l取值為7,8時,SCPLCG算法產(chǎn)生的附加信息損失度略高于MBF,這是由于滿足l-diversity分組的難度加大,剩余元組增多,但從算法的執(zhí)行過程來看,SCPLCG算法在滿足l-diversity形成分組后,在處理剩余元組時沒有MBF算法條件嚴苛,會有更多的元組滿足(m,l)-diversity原則添加到分組中,導(dǎo)致計算附加信息損失度時的分子值變大,間接的增大附加信息損失度。

      圖3 多樣性參數(shù)l值變化下的附加信息 損失度比較(d=5)Fig.3 Comparison of additional information loss under variation of diversity parameter l(d=5)

      圖4表明在多樣性參數(shù)為l=3情況下,2種算法在敏感屬性維數(shù)取值變化時產(chǎn)生的附加信息損失度。從圖4中可以看出,MBF算法的附加信息損失度要略大于SCPLCG,這是由于SCPLCG算法通過對敏感屬性劃分,很好地降低了敏感屬性維數(shù),滿足l-diversity形成分組的元組更多。另外,當敏感屬性維數(shù)增加時,2種算法的附加信息損失度都有所増大。這是由于敏感屬性的維數(shù)越大時,得到在每一維敏感屬性上的分組就越困難。整體而言,2種算法產(chǎn)生的附加信息損失度都比較小。

      圖4 敏感屬性維數(shù)變化下的附加信息 損失比較(l=3)Fig.4 Comparison of loss of additional information under the change of sensitive attribute dimension(l=3)

      4 結(jié)束語

      本文研究了基于有損連接的多維桶分組技術(shù),對其中存在的缺陷進行分析,提出了一種基于多敏感屬性相關(guān)性劃分的(p,l)-匿名隱私保護模型。給出敏感屬性相關(guān)性計算方法和基于聚類的相關(guān)性劃分算法,闡述了模型的分組原理和相關(guān)定義,分析模型的安全性。最后,給出了該模型的實現(xiàn)算法,并使用真實數(shù)據(jù)集進行實驗仿真分析。實驗結(jié)果表明,基于多敏感屬性相關(guān)性劃分的(p,l)-匿名隱私保護模型具有較小的附加信息損失和隱匿率,保證了發(fā)布數(shù)據(jù)的可用性。

      下一步的研究工作主要是針對動態(tài)數(shù)據(jù)進行隱私保護。在發(fā)布的數(shù)據(jù)時刻變動的應(yīng)用場景中,隱私保護研究變得更加復(fù)雜,難度也更大,如何針對動態(tài)數(shù)據(jù)進行有效的數(shù)據(jù)發(fā)布匿名隱私保護是未來研究的重點。

      [1] TRUTA T M, VINAY B. Privacy protection: p-sensitive k-anonymity property[C]//Proceedings of the 22nd International Conference on Data Engineering Workshops. Washington: IEEE, 2006: 94-104.

      [2] WONG R C W, LI J, FU A W C, et al. (α, k)-anonymity: an enhanced k-anonymity model for privacy preserving data publishing[C]//Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining. New York: ACM, 2006: 754-759.

      [3] SWEENEY L. k-anonymity: A model for protecting privacy [J]. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 2002, 10(5): 557-570.

      [4] MACHANAVAJJHALA A, KIFER D, GEHRKE J, et al.l-diversity: Privacy beyond k-anonymity [J]. ACM Transactions on Knowledge Discovery from Data (TKDD), 2007, 1(1): 24-35.

      [5] LI N, LI T, VENKATASUBRAMANIAN S.t-closeness:Privacy beyond k-anonymity andl-diversity[C]//Proceedings of IEEE 23rd International Conference on Data Engineering (ICDE 2007).Istanbul: IEEE, 2007: 106-115.

      [6] 楊曉春,王雅哲,王斌,等.數(shù)據(jù)發(fā)布中面向多敏感屬性的隱私保護方法[J].計算機學(xué)報, 2008, 31(4): 574-587. YANG Xiaochun, WANG Yazhe, WANG Bin, et al. Privacy Preserving Approaches for Multiple Sensitive Attributes in Data Publishing [J]. Journal of Computer Science, 2008, 31 (4): 574-587.

      [7] 劉志軍,張艷麗,閆晶星,等.面向多敏感屬性的個性化分級(l,a,m)-多樣性匿名方法[J].科技通報, 2016, 32(1):123-127. LIU Zhijun, ZHANG Yanli, YAN Jingxing, et al. An Personalized Classification (l,α,m)-diversity Anonymous Approach for Multi-sensitive Attributes [J]. Journal of science and technology, 2016, 32(1):123-127.

      [8] 張冰,楊靜,張健沛,等.面向敏感性攻擊的多敏感屬性數(shù)據(jù)逆聚類隱私保護方法[J].電子學(xué)報, 2013, 42(5): 896-903. ZHANG Bing, YANG Jing, ZHANG Jianpei, et al. A Multi Sensitive Attribute Data Inverse Clustering Privacy Preserving Algorithm for Sensitivity Attack [J]. Journal of Electronics, 2013, 42(5): 896-903.

      [9] 謝靜,張健沛,楊靜,等.基于屬性相關(guān)性劃分的多敏感屬性隱私保護方法[J].電子學(xué)報, 2014, 42(9): 1718-1723. XIE Jing, ZHANG Jianpei, YANG Jing, et al. A Privacy Preserving Approach Based on Attributes Correlation Partition for Multiple Sensitive Attributes [J]. Journal of Electronics, 2014, 42(9): 1718-1723.

      [10] DAI Jianhua, XU Qing. Attribute selection based on information gain ratio in fuzzy rough set theory with application to tumor classification [J]. Applied Soft Computing, 2013, 13(1): 211-221.

      (編輯:劉 勇)

      s:The Key Project of Chongqing Education Science in 12th Five-Year; The Chongqing Outstanding Achievement Transformation Project(KJZH17116); The Chongqing Municipal People’s Livelihood Science and Technology Innovation(cstc2016shmszx40001)

      In the data publishing process, if the sensitive attribute information is released without any protection processing, it will be vulnerable to be attacked, which leads to the leakage of privacy information. In this paper, since the traditional single-sensitive attribute privacy protection methods do not perform well in the multi-sensitive attributes scenarios, an anonymous privacy protection model based on multi-sensitive attribute relevance partitioning is proposed. First, the information gaining method is used to calculate the correlation of multi-sensitive attributes, and the dimension of sensitive attributes is reduced. Then, sensitive attributes are grouped according to the (m,l)-diversity principle to ensure that the published data can prevent skew attacks, and to a certain extent ,the risk of background knowledge attack is reduced. Finally, this model is implemented by clustering technique to reduce the additional information loss and concealment rate of the model and ensure the high availability of the published data. The experimental results show that the anonymity privacy protection model based on multi-sensitive attribute correlation has smaller additional information loss and concealment rate, which ensures the availability of published data.

      multi-sensitive attributes; anonymity; clustering; information

      10.3979/j.issn.1673-825X.2017.04.018

      2016-10-19

      2017-03-20 通訊作者:張榮慶 botherdog929@163.com

      重慶市教育科學(xué)“十二五”規(guī)劃重點課題;重慶市高校優(yōu)秀成果轉(zhuǎn)化資助(KJZH17116);重慶市社會民生科技創(chuàng)新專項(cstc2016shmszx40001)

      TP393

      A

      1673-825X(2017)04-0542-08

      Method of anonymous privacy preserving for multi-sensitive attributes

      (1. School of Computing and Information Science, Southwest University, Chongqing 400065, P. R. China;2. Chongqing Bashu Secondary School, Chongqing 400013, P. R. China;3. School of Software Engineering, Chongqing University of Posts and Telecommunications, Chongqing 400065, P. R. China;4. Postdoctoral Station of Information and Communication Engineering, Chongqing University, Chongqing 400044, P. R. China)

      張榮慶(1975-),男,重慶人,中學(xué)高級教師,在職碩士研究生。主要研究方向為現(xiàn)代教育技術(shù)及網(wǎng)絡(luò)信息安全。E-mail:botherdog929@163.com。

      徐光俠(1974-),女,重慶人,教授,博士,碩士生導(dǎo)師。主要研究方向為大數(shù)據(jù)分析與安全、網(wǎng)絡(luò)安全與管控、 物聯(lián)網(wǎng)安全等。E-mail:xugx@cqupt.edu.cn。

      ZHANG Rongqing1,2, XU Guangxia3,4

      猜你喜歡
      元組中心點維數(shù)
      β-變換中一致丟番圖逼近問題的維數(shù)理論
      Python核心語法
      電腦報(2021年14期)2021-06-28 10:46:22
      一類齊次Moran集的上盒維數(shù)
      Scratch 3.9更新了什么?
      電腦報(2020年12期)2020-06-30 19:56:42
      如何設(shè)置造型中心點?
      電腦報(2019年4期)2019-09-10 07:22:44
      海量數(shù)據(jù)上有效的top-kSkyline查詢算法*
      基于減少檢索的負表約束優(yōu)化算法
      關(guān)于齊次Moran集的packing維數(shù)結(jié)果
      涉及相變問題Julia集的Hausdorff維數(shù)
      漢字藝術(shù)結(jié)構(gòu)解析(二)中心點處筆畫應(yīng)緊奏
      天祝| 右玉县| 子洲县| 伊宁县| 新疆| 万安县| 博湖县| 西藏| 西昌市| 石狮市| 白河县| 临夏县| 岗巴县| 家居| 从化市| 灵丘县| 河池市| 宣汉县| 宜川县| 阜阳市| 峨边| 报价| 敖汉旗| 观塘区| 夏河县| 垫江县| 舒城县| 峡江县| 正蓝旗| 雷州市| 吉安县| 来安县| 介休市| 板桥市| 赤峰市| 英德市| 雅安市| 商南县| 闽侯县| 西平县| 柘荣县|